此页面上的内容需要较新版本的 Adobe Flash Player。

获取 Adobe Flash Player

人工智能

AI合成主播的迭代史,藏着人工智能技术的未来
作者:   来源:澎湃新闻·澎湃号·政务   日期:2020-12-30

   “大家好,我叫小艾,是中国驻特立尼达和多巴哥使馆的一名新成员。”

   12月25日,中国驻特多使馆在当地社交媒体发布了一则视频短片。视频中的信息播报员“小艾”优雅知性,谈吐顺畅自如,还用中、英、法、西四种语言向网友们致以新年祝福。

   但这并不是一个真正意义上的“她”,而是通过人工智能、5G技术合成的AI外交官。

   小艾在自我介绍中提到,“我的诞生代表着中国先进人工智能技术的最新运用之一。按照中国最新发展规划,AI、5G等创新技术将在未来的五到十五年里得到更加广泛的应用。希望我和我的‘人工智能家族’可以为中特友好合作与特多经济多元化转型升级提供更多助力。”

   据了解,未来小艾负责运用多语种语音和字幕,在国际上讲述更多中国故事,为中特友好故事续写新篇章。

   这是中国合成AI主播第一次走出国门,但并不是第一次在大众面前亮相。早在2018年,新华社就迎来全球首个全仿真智能AI主持人“新小浩”。如今,两年多时间过去了,历经技术的迭代,中国AI主播家族逐渐壮大,“他们”各司其职,为主持人分担工作压力,引领中国AI技术走向新时代。

   接下来,我们一起认识一下不同版本的“他们”。

   全仿真智能AI主播

   AI 主播1.0版本

   2018年11月7日,在第五届世界互联网大会上,全球首个全仿真智能AI主持人“新小浩”惊艳亮相,“他”西装革履,谈笑风生,令人惊奇。

   “新小浩”是以中国新闻主播邱浩为原型合成的虚拟形象,如何做到如真人形似的呢?据搜狗CEO王小川介绍,智能AI主持人基于“搜狗分身”技术,将真人主播邱浩的声音、唇形、表情动作等特征进行提取,然后再通过语音合成、唇形合成、表情合成以及深度学习等技术进行克隆。

   在播报新闻时,只需提供文字,AI合成主播“新小浩”就能进行仿真播报。
虽然,“新小浩”开启了AI主播新时代,在技术上实现了大的突破,但“他”仍存在一些缺憾,比如面部表情不丰富,没有肢体动作等。随着技术的发展,一年后,他的迭代版本惊喜亮相了。

   站立式AI主播

   AI 主播2.0版本

   2019年2月,全新的“新小浩”技术升级,“他”不再局限于“坐着播新闻”,而是升级为“站立式播报”,还增加了一些肢体动作,形象愈发惟妙惟肖,同时也进一步增强了用户的新闻视听体验。

   紧接着,2019年3月,全球首个AI合成女主播“新小萌”也加入到这个特殊主播队伍中。“她”和2.0版本的“新小浩”一样,都可以在固定位置站着播报新闻,肢体语言也相对丰富。这主要通过模型优化及多风格数据的使用,实现了表情合成、肢体动作与语义的匹配,让AI合成的主播更智能。

   除此之外,本次技术迭代也让AI合成主播定制周期不断缩减,从一开始的需要大量数据,录制非常长的时间,到2.0版本已经减少到利用几个小时的视频资料就可以形成一个逼真形象。

   3D形象AI主播

   AI 主播3.0版本

   站起来的AI合成主播已不稀奇,但能走动、做手势、换装的3D版AI主播你见识过了吗?2020年5月,以新华社记者赵琬微为原型的“新小微”正式上岗,参与全国两会期间进行新闻资讯播报。
   与之前AI合成主播相比,“新小微”最大的不同在于其3D特性。“她”不再局限于固定位置坐着或站着,而是可以走动、转身,支持多机位多景深,360°任意角度呈现内容等能力。在表情上,“新小微”的表现也更加细腻、多样化,可以根据文字产生不同的微表情,还可以根据不同场景、不同新闻报道需要变换精致的发型、服装和妆容。
   据了解,“新小微”的合成采用了扫描还原、面部肌肉驱动、表情肢体捕捉等技术,而对于妆容、服装上的改变,则是基于其“微模块化”的特性,先对各个部位和表情进行了模块化处理,然后像拼乐高一样重新组装
不得不说,技术进步让AI合成主播越来越有“人样”了。

   从坐着播报到站起来播报,从固定位置播报到走动起来的3D形象,AI技术进入主持人行业仅仅两年多的光景,已经在终端表现上实现了大的突破,AI技术的魅力正在逐渐展现。

   也许用不了多久,4.0版本的AI合成主播就能走出演播室,来到大家身边,更好地满足新闻呈现的多样化需求,当有一个合成主播采访你的时候,可千万别惊讶!

   原标题:《AI合成主播的迭代史,藏着人工智能技术的未来》