豫章门户网站
禄鼎娱乐平台下载app_读唇语、自动生成字幕……AI能玩出来的花样远比“换脸”更有意义

禄鼎娱乐平台下载app_读唇语、自动生成字幕……AI能玩出来的花样远比“换脸”更有意义

禄鼎娱乐平台下载app,文 王梓辉

最近,有关“ai换脸”的新闻引起了大家的关注,原因是4月20日,民法典人格权编草案二审稿提交十三届全国人大常委会第十次会议审议。其中拟规定:任何组织或者个人不得以丑化、污损,或者利用信息技术手段伪造等方式侵害他人的肖像权。

该草案针被认为是对肖像权的一种严格保护,因为这意味着,如果这一规定在后续立法流程中没有更改,当民法典正式施行后,只要权利人没有同意,即便不以营利为目的,对权利人的恶搞、换脸等行为也将构成侵权。

对于这项草案最期待的也许就是那些明星了。年初的时候,有网友用ai技术将朱茵在《射雕英雄传》中的“黄蓉”形象换成了杨幂的脸,十分惟妙惟肖,但这还算是“正面”案例;当红男明星蔡徐坤则因为在哔哩哔哩弹幕网上被网友用换脸技术进行了恶搞,而公布了针对这家网站的律师函,称其严重侵犯蔡徐坤的“名誉权”“肖像权”“表演权”等多项权利。

当然,从立法本身来说,也有法律界人士认为应考虑到公众合理监督与公众人物肖像权保护的平衡。但如果从技术本身的角度来讲,技术本身并没有错误。

事实上,换脸技术的核心是一个“自动编码器”,这个“自动编码器”实际上是一个深度神经网络,它能够接收数据输入,经过反复训练后,系统就会自动替换脸部信息,学习样本越多,就可以生成脸谱图的还原度就会越高。

这本是一个在人工智能领域很重要的技术突破,但自从有人开始将它使用到一些诸如欺诈、色情等领域后,也让这种技术的应用受到了质疑。

但实际上,如果换一个思路,这样的技术可以被用在很多更有价值的地方,比如帮助残障人士的公益事业。

2016年的时候,google旗下的人工智能公司deepmind与牛津大学合作,研发了一个具有读唇语功能的人工智能系统。在让ai系统学习了5000个小时的bbc新闻节目后,ai系统秒杀了唇读专家。唇读专家的准确率只有12.4%,然而ai系统的准确率却高达46.8%。

与换脸技术类似,唇语识别系统也是从图像中连续识别出被分析对象连续的口型变化特征,通过分析其嘴唇上众多识别位点的运动变化,随即将这些特征输入到唇语识别模型中,识别出讲话人口型对应的发音,从而计算出可能性最大的表达语句。因而对于越学越聪明的ai来说,学习库数据量越大,数据质量越高,训练的准确度越高,判断就越准确。

deepmind团队的成员说:“我们相信,机器唇语解读器有非常大的应用前景,比如改进助听器。”哥伦比亚大学计算机科学家hassan akbari也认为,如果将这个系统整合到一部手机中,就可以让听力障碍人士随身携带“翻译”。

但这种技术在使用中的难度仍然较大,毕竟它可能需要类似智能眼镜的设备拍下对方说话的视频内容,再进行视频分析,这在短时间内实现并不容易。

去年,微软基于自家的微软翻译技术,打造了一款微软语音服务,能够以较高的准确度将语音实时转换成文字,还能同步翻译成英语或其它语言,从而帮助他们与世界沟通。这项用来帮助听力受损人群无障碍沟通的技术是微软与美国罗彻斯特理工学院的一项合作,罗彻斯特理工学院在培养失聪学生方面久负盛名,在该校的总共1.9万名学生中,8.8%的学生都是聋人或者听觉障碍者。

而今年2月26日,google也上线了一款完全面向听力障碍人士的人工智能产品,这款名为live transcribe的手机app将“自动生成字幕”的功能引入了日常对话,可以实时提供对话字幕,支持70多种语言并覆盖全球80%以上的人群。

在接受本刊采访时,这款app的产品经理sagar salva介绍了这类产品在开发过程中的想法和思考。

“事实上,第一个挑战就是在实际的用户使用场景上”,salva对本刊说道,“在一开始的时候,我们也考虑过像眼镜、ar、vr这样的一些可穿戴设备,但是可穿戴设备最大的劣势,就在于它们的成本是非常高昂的,而对于那些聋人或者是有听觉障碍的人群而言,他们通常因为技能水平比较低下,因此可能处在失业的状态,所以如果考虑到要使我们的产品能够具有普惠性的话,我们觉得还是要选择成本比较低廉、大家用得起的一种硬件。最终,我们选择了智能手机作为我们进行开发时候针对的这种硬件。”

下一个挑战是转录的速度与准确度的平衡问题。在salva和他的同事看来,对于有听觉障碍的人而言,他们其实更愿意花多一点点时间来获得更加准确识别的效果。因此,他们使用了两种不同类型的神经网络来支持其运行。

第一个是在设备上运行神经网络,它主要做声音分类的工作,例如婴儿的哭声或玻璃破碎的声音,它会把这些声音在整个实时转录过程中,快速地进行分类和辨析。第二个神经网络模型的规模要大得多,所以它是在云端运行的,也正是这个规模更大的神经网络模型,在做语音转录成文字的工作。

因为更多的工作发生在云端,这意味着这款产品即使是在一些“低配”手机上也能够运行。这虽然从一定程度上使得它运行的速度不及完全在手机本地运行,但这能让它服务于更多的听障人士,最终低于200毫秒的转录延迟也足够让人满意,毕竟如salva所说,“如果没有这款产品的话,他们其实是什么也听不见的。”

当然,如salva所说,这类产品目前还存在一些使用上的不足之处需要克服。第一,它需要更好地识别谈话对象,它需要在多人同时说话的场景中辨别哪个声音是需要去转录的;第二,它还要加强区分人的声音和噪音的能力,毕竟很多的使用场合并不安静。

但无论如何,这样的尝试都值得鼓励。根据世界卫生组织披露的数字,目前全球每十个残障人士中,只有一人能得到辅助技术和产品的帮助,这个比例显然太低了。而人工智能技术可能是他们未来的最好帮手。

所以,在使用这样的技术去换脸搞怪之外,用它来帮助需要帮助的人,也许会更有价值。

最新推荐
巴萨vs黄潜评分:梅西踢半场获7分 卡索拉队内最高7.9分
热点文章