时间:2023-04-14 15:33:12来源:互联网
网上有很多关于全世界的手语都一样吗不一样,全球手语是一样的吗的知识,也有很多人为大家解答关于全世界的手语都一样吗的问题,今天上分宝游戏网为大家整理了关于这方面的知识,让我们一起来看下吧!
阿根廷再次举起了大力神杯,宣告着这届几乎每场比赛都挑动观众心脏的世界杯落下帷幕。从11月21日至12月18日,不到30天的时间里,全球数十亿人在屏幕前,共同欢呼,相继落泪。自上世纪50年代,世界杯首次使用电视转播以来,越来越多的人能够享受这一盛宴。
咪咕是国内获得世界杯转播权的平台之一,看咪咕的小伙伴不知道注意到没有,视频左下角可以打开一位身着红衣的数字人女孩,是由将门投资企业——
智谱AI
,研发的手语数字人华同学。她可以用自然而连贯的手语动作,传递着赛场上的“声音”,帮助听障人士“看”懂比赛。
这是数字人技术在世界杯上的一个“温暖”应用。今天,让我们一起聊聊这个技术背后的原理。
一、真人动捕 vs 全AI实时?
目前,大多数虚拟数字人上视频节目一般采用非实时,大量工作需要通过后期制作完成,这样肯定无法满足手语播报的实时性要求,当然也有通过由运动跟踪设备实时驱动的,但要求每期节目制作都必须有真人进行表演以驱动虚拟人,因而需要投入大量的人力、物力。这次咪咕展示的手语数字人“华同学”实现了手语实时播报,技术上采用全自动的文本实时驱动,降本增效,该技术集成了数字人建模、语义蒸馏、机器翻译、跨模态拟人生成、实时动作-表情-手势驱动等多项AI技术。
华同学以超大规模预训练模型为基础,应用跨模态拟人生成算法、超高精度写实数智人技术等实现AI手语实时播报。首先用中文语义蒸馏模型算法提取出有效的关键语义信息,然后用AI 手语分词快编算法把语义信息转换成符合手语表达的词汇序列,最后驱动生成数智人手语视频流。
简单来说,数字人是完全由算法驱动的,输入“语音流”,通过算法自动转换成了手势、嘴形、脸、身体姿势等。而它的算法原理主要包括:语义蒸馏、AI 手语分词快编算法、跨模态拟人生成算法、音字人实时同步对齐技术等。
(1) 语义蒸馏
由于手播速度远不及口播速度,字幕和手语词序列的长度存在时间不对等问题,如何在不影响原意的基础上,保证手语表达内容与播报画面容同步是一项重要技术。该技术正是语义蒸馏,即通过修改输入文本的语法和结构使其更容易阅读和理解,同时保留其基本思想并接近其原始含义。语义蒸馏技术主要以GLM(General Language Model,通用语言模型)预训练模型\u200e[1]\u200e[2]为基础,采用了质量控制信号作为有限制生成信号以及对比学习思想,实现了精准高效提取核心语义信息。评价指标Rouge-2为42.45;每500字文本语义蒸馏时间约为1.94s。相比于MUSS方法\u200e[3],Rouge-2提高了1.97。
GLM预训练模型基本原理是基于自回归空白填充,按照自编码的思路,从输入文本中随机地空白出连续跨度的token,并按照自回归预训练的思路,训练模型依次重建这些跨度。鉴于GLM可以在自然语言理解(NLU)和文本生成(含有条件和无条件)方面表现出色,采用GLM预训练模型进行微调以实现语义蒸馏。
为了使语义蒸馏后的句子内容语义相对可控,设置质量控制信号作为有限制生成信号。质量控制信号是指句对中的复杂句与简单句之间的比值信息来表示词法复杂度、句法复杂度以及句子长度等。具体来说,质量控制信号包括句子长度比、编辑距离比、词汇复杂度比和句法树深度比等信息。由于标注数据集缺乏,采用基于无监督学习方式挖掘复杂句-简单句句对并计算每个句对之间的质量控制信号。
GLM预训练模型在各种条件文本生成任务上取得了显著的性能。然而,其中大多数研究是在Teacher-Forcing机制下训练,容易出现暴露偏差问题。为解决该问题,采用对比学习框架,将模型暴露于给定输入语句的各种有效或不正确的输出序列。根据对比学习框架,可以通过对比正对和负对训练模型学习Ground Truth的表示,其中从同一批中选择负对作为随机的非目标输出序列,然后将源文本序列和目标文本序列投影到潜在嵌入空间。最终使源序列和目标序列对之间的相似度最大化,同时使负序列对之间的相似度最小化。
通过以上方法的结合,不仅可以保证简化内容质量可控,并且能够提高简化句子的忠实度,为下一步AI手语分词奠定基础。
(2) AI 手语分词快编算法
针对中文文本语序与手语语序差异大以及手语语序规则不统一的问题,研究基于AI手语分词快编算法。AI 手语分词快编实则属于低资源的机器翻译任务,即将语义蒸馏后的文本序列作为输入,通过分词快编,形成对应的手语动作序列\u200e[4]\u200e[5]。AI 手语分词快编算法主要以mBART预训练模型为基础,进一步采用了新颖的对比学习思想增加正负样本,提高翻译质量。翻译指标BLEU值可达0.35以上,AI手语分词快编算法中词汇边界划分的平均准确率可达98.02%以上。
mBART预训练模型是通过对多种语言的完整文本进行降噪来预训练一个完整的seq2seq模型,其在低资源的句子级机器翻译任务中取得了一致的性能提升,甚至可以提高预训练模型中不存在语言的性能。鉴于此,我们采用mBART预训练模型进行微调。
传统的对比学习框架使用同一批次非目标序列作为负样例进行训练是次优的,因为使用预训练语言模型时,传统的负样例在向量空间中往往从一开始就与正样例距离甚远。为了提高模型的泛化能力,我们采用了一种新颖的正负样本生成的对比学习方法,以区分正确的输出和错误输出。即通过向输入序列添加小扰动以最小化条件似然生成负例;通过添加大扰动迫使模型最大化条件似然来生成正例。
根据以上翻译算法得到手语词序列,进一步将分词后序列中的每一个手语词通过手语词-动作映射库,找到相对应的手语动作,最终得到手语词ID序列。
(3) 跨模态拟人生成算法
针对不同模态信息源标准不统一以及高逼真拟人生成难问题,研究跨模态拟人生成算法。将手语词ID序列作为输入,生成对应的拟人的动作-表情-手势,并对手语词序列到手势序列的映射关系进行建模,不仅能够保证生成结果的语义完整性,同时相邻手势动作之间也达到了自然平滑的过渡,从而生成高自然度的手语手势。建立的词汇到手语动作、表情及手势的映射,准确率为于98.88%;生成数字人动作、手势和表情的速度每500词为17.45s。
手势动作和手语词之间具有非常强的相关性,每一个手语词都对应了一段固定的手势动作,这个手势动作是由多模态动作捕捉数据采集获得。为了快速处理直接采集到的原始手语动作数据,我们实现了一个原始词级别数据的对齐及过滤算法。该算法基于动捕数据中的肘关节位置进行判断,可以自动对齐每段动捕数据,自动过滤每一段动捕数据开始的准备动作和结尾的静息动作,该算法能够大幅减少手语动捕数据预处理中需要的人工干预。
每个手语词的固定手势动作都具有特定的语义,故生成算法需要保证生成结果的语义完整性。同时,相邻手势动作之间也需要自然平滑的过渡。所以,高自然度的手势生成算法必须解决长时手势动作的语义完整性和短时相邻手势动作的连贯性两个问题。因此我们采用生成对抗网络思想\u200e[4]\u200e[5]进行手语视频合成,此算法能够兼顾短时相邻手势动作的连贯性和长时手势动作的语义完整性和一致性,生成高自然度的手语手势。
(4) 音字人实时同步对齐技术
为了保证良好的用户体验,还需要对解说、手语、字幕进行时间对齐输出。采用全局时间轴对齐技术,在字幕到手语转换的同时,将对应字幕的时间戳写入手语流扩展信息中,为手语流增加全局统一时间依据,根据字幕、手语、视频流显示时间戳(PTS)信息,实现音频解说、中英双语字幕、及数智手语主播的“音字人”三位一体实时同步呈现。
但是,在实际应用过程中,由于手语表达的速度跟不上语言表达数据了, 我们采用语义蒸馏、倍速播放等技术优化。在不丢失关键语义基础上,使得解说与手语的速度匹配度提升,但这样仍带来一个新问题,手语的整体表达延时更大,通过我们的大量测试调试,最终选择了一个折中的方式。首先,在手语视频和源流视频合成的时候,通过延时器,让赛事源流整体延时8秒;其次,字幕与手语同步方面,在长时间无有效字幕情况下,通过在字幕与手语侧加入心跳及空白帧,保持手语侧工作状态与时间轴的同步。
二、难题与挑战
近年来,随着数字人技术在各场景开始应用,技术得以迅速发展。然而如果想实现全面落地,依然道阻且长。
首先,在技术上有三大难点。第一,由于手语数据稀缺,句法复杂,且手语属于一种视觉语言,表达更为丰富形象,手语翻译的精准度存在着巨大挑战。例如,往那儿看”-“手指向那个方向,且眼睛往那个方向看”,属于连贯动作并非用词代替。因此,如何让AI能够理解并感知到肢体语言是未来发展的方向之一。其次是驱动问题。评价数字人包含多个维度,其中表情、唇形、手势、肢体等多个维度自由组合,会表达出不同的意思。如何同一时间对齐多个维度且准确表达含义也是难题之一。第三是视频流的对齐问题。在直播中,输入的文本流是以句传递的,因此会有不能完全同步对齐的问题。未来对自然语言同声传译的研究或许是新的解决方案。
其次是产品和市场层面的应用受限。目前手语数字人技术的应用场景更多集中在电视娱乐、策展设计以及网络直播等领域。作为一种新型的产品,手语数字人也需要走出现有的场景,实现更多的内容价值。然而,由于较高的技术门槛以及制作成本,市场层面的反馈相对较慢。医疗、教育、养老等公共服务领域的应用也相对薄弱。这既是挑战,也是机遇。
最后是伦理层面。数字人技术逐渐显现其商业价值,但其形象IP、品牌IP、以及故事IP尚处于空白阶段,存在着版权纠纷等风险。此外,它的快速发展也对伦理秩序提出了更高的挑战。这都是当前大家需要探讨的部分。
三、应用与展望
由于与产业的不断结合,手语数字人变得越来越“有帮助”。华同学的研发团队智谱AI同时也研发了一系列智慧手语系列产品,涵盖手语播报、手语翻译以及手语词典三种应用,满足手语信息播报、实时翻译交流、手语学习等多个场景的需求。
AI手语播报:华同学可以为新闻媒体提供全流程、智能化的数字人手语播报视频生成服务,能够实现在电视台和网络平台上的数字人新闻手语播报,可应用在新闻播报、赛事解说、天气预报等场景。
AI手语翻译:华同学能够提供云服务和私有化部署两种方式,可实现输入文本或语音,实时输出手语视频。服务场景可以拓展至机场、火车站、银行、医院、政务大厅等各类公共服务场景,科技馆、展览馆等手语智能问答场景,以及大型会展活动现场。
而未来,手语数字人也将在更多地场景帮助有需要的人,包括在线教育、医疗健康、技术咨询等。这是技术的发展,也是技术的温度。只需要一个桥梁,技术红利便将源源不断地走向那些需要它们的人群。希望手语数字人可以实现更纯熟的技术、更广泛的应用以及多层次的开放,为残障人士平等参与社会生活创造无障碍环境,切实提高大家的社会参与感和生活幸福指数。
参考
[1] Du Z, Qian Y, Liu X, et al. GLM: General Language Model Pretraining with Autoregressive Blank Infilling[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2022: 320-335.
[2] Zeng A, Liu X, Du Z, et al. Glm-130b: An open bilingual pre-trained model[J]. arXiv preprint arXiv:2210.02414, 2022.
[3] Martin L, Fan A, de la Clergerie É, et al. MUSS: Multilingual Unsupervised Sentence Simplification by Mining Paraphrases[J]. arXiv e-prints, 2020: arXiv: 2005.00352.
[4] Saggion H. Linguistically Enhanced Text to Sign Gloss Machine Translation[C]//Natural Language Processing and Information Systems: 27th International Conference on Applications of Natural Language to Information Systems, NLDB 2022, Valencia, Spain, June 15–17, 2022, Proceedings. Springer Nature, 2022, 13286: 172.
[5] Gómez S E, McGill E, Saggion H. Syntax-aware Transformers for Neural Machine Translation: The Case of Text to Sign Gloss Translation[C]//Proceedings of the 14th Workshop on Building and Using Comparable Corpora (BUCC 2021). 2021: 18-27.
[6] Stoll S, Camgoz N C, Hadfield S, et al. Text2Sign: towards sign language production using neural machine translation and generative adversarial networks[J]. International Journal of Computer Vision, 2020, 128(4): 891-908.
[7] Saunders B, Camgoz N C, Bowden R. Adversarial training for multi-channel sign language production[J]. arXiv preprint arXiv:2008.12405, 2020.
文章来源:公众号【智谱】
Illustration by IconScout Store from IconScout
-TheEnd-
本周上新!
扫码观看!
多家技术企业招聘来啦!
多家技术企业招聘来啦!有求必应的小将收集到来自TechBeat技术社群内技术企业的招人需求,包含来自微软亚研、腾讯、小红书等企业算法工程师等正式及实习岗位,欢迎有需求的大家向这些公司投递简历哦!
扫描了解详情~
关于我“门”
▼
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,
欢迎发送或者推荐项目给我“门”:
⤵一键送你进入TechBeat快乐星球
手语并不是世界通用的,手语跟口语一样,有其独立的语系。
手语目前大致可区分为中国大陆手语系,法国手语系,美国手语系,及日本手语系等。中国的手语,是按照拼音的方式比划手清雀语,手语方式也接近于汉字形式。而外国的手语肯定和外语有关。
在真实的日常生活中,绝大多数语汇是通过指示、模仿形态等方式来组成的,用到指拼的场合极其有限。因此,即便美国手语使用者答陪早完全不懂泰语,不认识泰文,也仍然能够凭借双方手语共通的词汇和句式,和泰国乱基手语使用者进行简单“对话”。
美国手语和英国手语的区别
1、基础词汇不同。英国手语核心词汇主要源自英国本土,美国手语核心词汇很多是在法国手语基础上演变而来。
2、语序习惯不同。虽然二者都有典型的主题和注解型结构,但相对而言,英国手语里O-S-V 型语序(宾语-主语-动词)句式更普遍,美国手语在简单句子中则有较多的S-V-O型语序(主语-动词-宾语)表达。
不通用 中国是中文手语(按汉语拼音) 美国有美国手语(按英文字母) 日本有日本手语(50音图) 其他国家也是如此 盲文也不通用 想想 阿拉伯人 怎么能读懂 英语写的盲文呢?
盲文都是按各国语言基础撰写的
以上就是关于全世界的手语都一样吗不一样,全球手语是一样的吗的知识,后面我们会继续为大家整理关于全世界的手语都一样吗的知识,希望能够帮助到大家!
无主之地前传六个职业,E社大作全DLC一次性赠送
2024-03-14
找不同闯关的单机游戏分享,陪伴闯关岁月,经典游戏回忆
2024-03-20
镇邪快速赚钱方法,快速赚钱的游戏攻略
2023-07-14
可以赚钱的搬砖游戏,2023年4月份热门手游推荐
2024-01-12
无悔华夏渔樵问答答案,无悔华夏5.6渔樵问答解析
2023-12-23
dnf国庆宝珠是哪个部位,dnf国庆宝珠选哪个部位
2023-03-16
环行旅社角色养成推荐,环行旅社角色养成推荐,等级必练
2023-06-30
塞勒特大陆兑换码大全推荐,无限城打一技巧大揭秘
2024-02-18
王者荣耀摇心愿怎么领取,王者荣耀摇心愿入口
2023-03-03
咸鱼之王怎么攒招募令,招募攻略汇总,咸鱼之王
2024-01-27