智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 漠影
“武大靖最后一次冲刺!最后一个弯道,武大靖率先冲出弯道,冲过了终点!”2月5日,冬奥会第1个比赛日,中国短道速滑混合团体接力项目夺得首金!
细心的观众可能注意到,央视频画面中右下角有一个手语主播,更神奇的是,这个手语主播并不是真人,而是手语数字人——央视频AI手语翻译官聆语,为熟悉手语的听障人士带来了精彩“解说”。
▲央视频AI手语翻译官聆语解说短道速滑混合团体接力项目武大靖冲刺时刻
我们可以看到,聆语的手势里包含了我们常见的数字“9”和“3”的手部动作,但与我们理解的意思不同,“3”表示的是“W”,“9”表示“J”,就是“武大靖”首字母的拼音,令人称奇。
冬奥会开幕以来,冬奥会四金得主王濛再度冲上热搜,这次的出圈方式是其“唠嗑”式的解说。随着“我的眼睛就是尺”等金句频出,各路网友纷纷表示已被圈粉。足以见得,赛事解说在体育项目中的重要性。然而,大多数解说员都是通过声音播报,导致一些听力障碍人群无法感受解说的魅力,而手语主播的出现就有效弥补了这一难题。
腾讯AI手语翻译官聆语上线央视频、腾讯3D手语数字人小聪上线腾讯体育,为听障人士带来手语解说,感受冬奥赛场上的精彩瞬间。小聪、聆语,由腾讯PCG AI交互部联合CSIG智能平台产品部共同打造,与以往的3D AI合成主播不同,手语数字人通过手势动作和表情,为听障人士提供“无声的沟通”。从技术上看,腾讯手语数字人基于腾讯多模态端到端生成模型,进行联合建模及预测生成高准确率的动作、表情、唇动等序列,实现自然专业、易懂度高的手语效果。
近日,为了揭开手语数字人背后的黑科技,智东西采访了腾讯PCG AI交互部手语数字人项目组负责人孟凡博,就手语翻译的难点、腾讯手语数字人的技术逻辑,技术团队在开发中遇到的难题等做了详细介绍。
一、手语主播的三大技术优势,形象逼真、动作自然准确
让我们仔细观察一下下面动图里的小聪,是不是感觉近似真人?并且在解说过程中,小聪的头和肩膀还会随着手势动作轻微摆动,手语动作流畅自然,再加上表情、口动等,细节也很到位。这些效果的实现,都离不开AI、大数据等技术驱动,这也正是腾讯手语数字人的技术难点所在。
▲腾讯手语数字人小聪播报“中国夺得首金”
大家都能看到,手语数字人和其他数字人最大的区别在于不发声,仅仅依靠动作、表情等要素。不论是聆语还是小聪,其形象和手语动作都十分传神,那么在这背后有哪些黑科技?
1、超写实的逼真数字人效果
对于健听人而言,我们只需要声音、音调就能表达丰富的意思,而手语以表形表意为主,需要较大幅度的肢体动作、更加逼真的人物形象等,能和观众产生交流,更具真实感与亲切感,才能进一步使得手语翻译的完成度更高,在有效模拟真人手语播报的基础上,进一步提升用户体验。
为此,腾讯手语数字人使用了行业领先的3D重光照扫描还原、面部肌肉驱动、表情肢体手势捕捉技术,打造了高度还原真人发肤、形象逼真、动作自然生动的数字人模型。
2、高可懂度的手语表达能力
大部分人可能不了解,学习手语其实和我们学习一门外语一样困难。手语是属于听障人士的独立语言,与汉语、英语等并列,有自己的语法结构、语序编排等规则,拥有独特的语言体系。和汉语类似,手语也分方言和普通话,为了让手语普及度进一步提高,我国于2019年还专门出版了《国家通用手语词典》,进一步对手语体系进行了规范。
腾讯手语数字人的手语翻译系统,正是基于《国家通用手语词典》,形成了成熟的汉语到手语的语序转化和翻译过程。基于输入的健听人语言能够低延迟生成高准确率的手语语言表征,通过多模态生成技术,实时预测生成对应的超写实3D数字人驱动参数,进而快速生成数字人手语播报视频。
▲国家通用手语词典应用程序手语讲解示例(图片截自国家通用手语词典APP)
在听障人士可懂度测评中,腾讯手语数字人的播报内容整体可懂度已经达到90%以上。
3、高接受度的手语展现效果
不了解手语的人,就像我一样,可能以为手语仅仅需要手部动作,其实不然,表情、口动、体态等也都是手语表达的关键。下面这个例子就十分形象了,“明白吗?”这个问句需要身体朝向、表情、眼神、口型的联动,才能有效传递出疑问的语气。
这一简单的问句就需要这么多要素,如果换成其他信息更加丰富的句子,手语数字人将如何精准传递信息呢?
▲国家通用手语词典应用程序手语讲解疑问代词示例(图片截自国家通用手语词典APP)
作为一种视觉语言,手语往往需要手控信息和非手控信息联动表达。除了上面提到的疑问语气,日常表达中还有感叹、肯定等诸多情绪,为了使手语表达更加地道,精准的手部动作以及准确的非手控信息都需要具备。
为了实现更加准确、自然的手语表达效果,腾讯PCG AI交互部建立了汉语-手语翻译系统,可以通过机器翻译生成手语表征信息,基于多模态端到端生成模型进行联合建模及预测,生成高准确率的动作、表情、唇动等序列。
二、打造手语语言体系,驱动手语数字人准确表达
在大部分人看来,手语动作比较简单,不同的词汇有相对应的手势,其实真正可懂也很难。打个比方来说,我们学英语,需要打乱汉语语序,按照英语的方式来思考,才能熟练掌握这门语言。手语也类似,其语序结构、句子表达、特殊表情等都和汉语不同,有时一个句子中的词汇并不需要全都通过手语翻译,例如量词、副词等,但有时合理地删减也是一大难点。
在调研过程中,研究人员发现,现在《新闻联播》《北京新闻》等很多栏目中都增设了手语播报,不过部分听障人士称,他们只能理解手语新闻中不到60%的内容。
日常的新闻播报尚且如此,冬奥会这一特殊场景下,项目名称、技术动作等手语词汇翻译难度可想而知。为了让手语数字人适应冬奥会这一特殊场景,研究人员也费了很大功夫。
孟凡博称,首先,他们需要训练手语系统应对比赛、采访现场嘈杂的环境音,前期,技术团队选取了大量赛事报道对手语数字人进行训练;其次,手语作为一门独立语言,其文本资源很少,研究团队通过多方搜集只能找到近160万有效文本。相比于中英对照的2亿文本,这个体量可以说很小了。
更为重要的一点是,体育赛事有很多专业术语,手语数字人在确保信息全面、完整的基础上,也要保证数据的准确性,因此,腾讯AI交互技术团队和专业手语老师达成合作,迁移到手语数字人中的手语都经手语顾问反复确认。
因此,面对专业的冬奥会,在文本不足的条件下,如何打造“真正可懂”的手语数字人正是腾讯AI交互技术团队需要跨越的技术壁垒。
1、手语表达语序独立,建立映射词典
看到复杂的手语动作,我们可能一头雾水,但通过智东西和专业人士交流发现,手语表达语序与汉语大不相同。例如,在手语表达中,会先打出表达行为目的的词语,后打出表示行为的对象的词语,汉语“我想回家”的手语表达为“家 回 我想”。
手语翻译过程中,不仅需要将每个词都进行一一对应,还需要调整其顺序便于听力障碍人士理解。因此,腾讯AI交互技术团队在汉语和手语之间建立映射词典和语言体系,将汉语翻译为符合自然手语规范和听力障碍人士表达习惯的手语。
2、搭建手语体系框架,按需删减量词
手语中表示人名时,会使用拼音,不过,冬奥会作为国际体育赛事,有很多外国运动员,相比中文人名的拼音更加复杂。如果用手语逐个表示的话,可能采访已经结束了。
在完整表达句意的前提下,腾讯AI交互技术团队使用智能摘要技术,将按篇章摘要升级为按句子压缩,对ASR识别文本进行精简,抓取关键信息,省略量词、程度副词等词汇。例如常规解说词为:“看慢动作可以看出,谷爱凌的这个高度是比其他选手都是要高,非常的飘逸,非常的好看。”可以压缩为“谷爱凌的高度比其他选手都高,非常飘逸好看。”文本长度缩减为原来解说词的 60%。这种恰当删减并保持完整句意的摘要能力是手语表达的关键前提。
腾讯AI交互技术团队在手语顾问团队、手语调研盘点下,搭建手语语言基础体系框架,开发手语翻译系统,只需输入健听人语言,即可通过机器翻译生成高准确率的手语语言表征。
此外,为了保证原视频和手语视频时间长度的一致性,手语数字人的翻译过程会将汉语句子进行动态调控。根据时间、句子意思等,压缩文本,最终生成相对应的手语视频。
孟凡博说:“在视频和音频处理方面我们做了容错对齐处理,直播翻译过程延迟控制在可接受范围内。为了保证后续链路上手语视频处理的稳定性和观众体验的一致性,我们还对音频传输和识别输入做了平滑处理。目前,汉语和手语的压缩比大概在60%,会因实际情况不同进行调整。”
3、集成手控和非手控信息,可懂度超90%
汉语的神奇之处在于,同一句话不同语调意思完全不同。那么在手语中,同样的句子如何表现说话人的不同情绪,更加多变的表情、手势、体态如何准确传递句意,这也是打造手语数字人的技术难点所在。
手语需要多个要素综合表达,才能向听障人士传达完整的意思。研究人员基于腾讯多模态端到端生成模型,提取手语语言体系下的多模态信息,如手势词汇、表情口动、体态节奏、语序韵律等,将手语动作和面部表情同步,进一步优化手语表现力。
通过这项技术,AI手语可懂度达90%以上。
三、打造可视化动作编辑平台,低延迟生成手语视频
上面提到的这些技术让手语数字人能够变得真正可懂,但是如何让这个技术真正为听障人群带来福利,能够有效应用到新闻播报中,为此腾讯AI交互技术团队打造了一套可视化动作编辑平台,助力其规模化应用。
可视化动作编辑平台基于完备的手语翻译系统、成熟的PaaS系统等,在保证语义完整、准确的基础上,能够实现低延迟快速翻译,实现“秒翻手语”。
谈及让手语数字人真正可用,孟凡博说:“面向冬奥会场景的手语数字人只是我们的第一步,未来我们将考虑听障人士在实时场景和非实时场景的应用,覆盖听障人士的不同需求。”
1、低延迟生成手语视频
可视化动作编辑平台的强大之处在于,可快速从汉语文本、视频文件生成手语视频,在这一环节中,转换、翻译所需的时间较短,有可能在你听到新闻播报的瞬间,手语数字人也已经完整传递了该内容。
那么,这个系统生成手语视频的具体实现过程是什么样?在该系统中输入一段文本或视频进行预处理,内容处理过程包括多模态视频内容提取、视频语音提取、智能打轴、内嵌字幕OCR提取等,生成手语翻译要素,包括手势、肢体、表情、唇动等,进一步保证语序转化、表情体态等特征的准确性,依托超写实数字人驱动,快速生成与之对应的手语视频。
2、满足有稿和无稿场景
目前,大部分电视节目都有字幕,不过一些直播节目、广播节目中可能并没有字幕,只有声音。在这种情况下,腾讯手语数字人同样能应对,不光可以提取文本信息,也可以识别音频、视频。
在实时新闻信息等场景,为了进一步促进信息无障碍沟通,通过手语数字人向听障人士传递更多信息,腾讯的可视化动作编辑平台可同时满足无稿和有稿场景,并且支持以视频流的形式为直播节目加入手语解说能力。
输入节目源后,可视化动作编辑平台可提取音频流、视频流,提取文本信息进行手语翻译,快速生成手语视频后,再对其进行编码,进行视频流传输,与节目视频相融合,面向直播场景形成视频推流。
3、快速学习更新热词
现在越来越多的热词、新词出现在我们的日常交流中,同样的词语放到网络上就有截然不同的意思,当然,很多听障人士也会紧跟潮流。并且现在很多视频中都会频繁使用这些词汇,这也为手语播报提出了挑战。
腾讯手语数字人能自行学习,快速补充海量新词、热词,并且研究人员专门针对冬奥会中体育竞赛手语词汇进行了整理和优化。目前腾讯手语数字人已经具备完整的体育解说手语能力。
谈到手语词库的更新迭代,孟凡博透露,他们为手语数字人创建了可视化动作编辑平台,该平台可以实现手语动作批量编辑与生成,无须对每个词进行动捕,极大提升了手语词汇生产效率。
腾讯AI交互技术团队多年来深耕数字人技术,已有大数据平台可以将高频中文文本引入预训练模型中,同时动态加载检索、标注得到的新、热词手语打法,并与后端结合,根据词汇类型预测部分oov词汇打法,就能确保最终输出的连贯性。
结语:腾讯手语数字人助力无障碍信息传播
作为我国超写实3D数字人领域的头部企业,腾讯AI交互技术团队将目光聚焦到听障人群中,冲上更高的技术壁垒。腾讯不断精进数字人技术,为内容播报需求强劲的行业提供新的输出方式,拉近人与机器的距离。
腾讯AI手语主播系统既要完成语序构建、表情生成等手语翻译,还要依托超写实数字人低延迟输出手语视频。对于观众来说,我们只能看到最后生成的手语视频,但在之后的技术体系搭建却十分庞大,这也是手语数字人技术发展的壁垒所在。
科技飞速发展的当下,腾讯一直在思考如何用科技拉近2700万听障人群与社会的距离。此次,腾讯手语数字人聆语、小聪在冬奥会这个重要节点上线,能受到更多有效用户的关注。与此同时,孟凡博称,围绕冬奥会场景腾讯也在不断优化相关功能以兼容更多场景。未来,腾讯手语数字人也将在更多场景提供服务,在新闻报道之外,探索生活服务,文化文旅等线下场景,秉持科技向善,助力打造无障碍信息传播环境。