湘西天气:周三 10月16日 (实时:14℃),15 ~ 12℃,小雨,东北风微风,PM2.5:20
《湘西日报》 《湘西晚报》 电视直播 便民服务 测试平台
当前位置: 湘西网 > 娱乐 > 正文

比尔盖茨给你打电话?其实是Facebook AI系统干的!

在手机上阅读:
湘西网整理 
核心提示:即使是最好的文本与语音转换系统质量也有些许刻板、机械, 并且缺乏人类语调具有的基本变化……

Facebook工程师们又创造出了一个能够惟妙惟肖地模仿比尔·盖茨的语音AI……段语音,都是由Facebook工程师设计创建的一个名为MelNet的机器学习系统。 动态 > Facebook的AI,已经可以用比尔盖茨的……发现了一种可以克服从文本到语音系统转换限制,……电话接线员和服务台尤其可以使用一系列相对简短。

Facebook 工程师们又创造出了一个能够惟妙惟肖地模仿比尔·盖茨的语音 AI ……显然,对机器学习系统来说,模仿这些人物慷慨激昂的演讲方式,确实是一个不小的。 ·鲁宾斯坦中谈到当年没有完全收购脸书(Facebook)是否后悔时盖茨表示,当年……6月27日 17:33ai技术微软移动操作系统 比尔盖茨坦诚他在商业上犯下的最。 最近,Facebook 人工智慧研究中心的Sean Vasquez 和Mike Lewis 发现了一种可以克服从文本到语音系统转换限制,完全由机器生成而且音讯片段极其逼真的方法。。 当年给了谷歌机会,不然就没有安卓系统什么事了……其实我觉得比尔盖茨的眼光还是有的,随着5G时代的……上一篇:50亿罚单为何让Facebook身价大涨 下。 微软联合创始人比尔盖茨在其Facebook页面贴了一幅照片(如图),在下面写道“15年后,贫困国家的大部分人将能在网上上课”,Mark Zuckerberg对这个帖子点了。

用比尔盖茨的声音来说话?Facebook AI系统能做到……深度学习系统应善于学习这些类型的相关性,并对它们……尤其是对于电话接线员和服务台工作人员,他们就。 事实上,盖茨只是 MelNet 可以模仿的多位人物中名气最大的,其他“被克隆”的包括乔治·武井(George Takei)、珍·古德(Jane Goodall)、史蒂芬·霍金等人。

全文共2081字,预计学习时长4分钟

图片来源: Jack Taylor/Getty Images

机器语音的发展一直以来都有点不尽人意。即使是最好的文本与语音转换系统质量也有些许刻板、机械, 并且缺乏人类语调具有的基本变化。斯蒂芬·霍金的语音合成系统就是一个很好的例子。

鉴于近年来机器学习的巨大发展, 这是有点出乎意料的。按理来说,在识别人脸和物体然后生成真实图像领域,机器已经做得非常出色,那么,其在音频方面的应用也应同样出色。但事实并非如此。

至少直到今天之前是这样的。如今,Facebook人工智能研究中心的肖恩瓦斯奎兹(Sean Vasquez)和迈克刘易斯(Mike Lewis)在这一领域作出了突破。他们研究出了一种方法,可以克服文本与语音转换系统的限制,完全由机器生成出极其逼真的音频片段。他们的机器被称为MelNet,不仅可以复制人类的语调,而且可以复制与真人相同的声音。因此,研究小组训练它用比尔·盖茨等人的声音来说话。这项工作为人类和电脑之间更真实的互动带来了可能性,但它也同时引发了新时代里关于虚假音频内容的担忧。

首先,来说说该研究的背景。在此之前,现实的文本—语音转换系统进展缓慢的原因并非是因为缺乏尝试。事实上,许多团队尝试过训练深度学习算法,来利用大型音频数据库重现真实的语音模式。

Vasquez和Lewis表示,这种方法的问题在于其数据类型。到目前为止,研究里大多数的工作都集中在音频波形记录上。而这些录制的音频每秒钟包含成千上万的时间步长,显示了声音的振幅是如何随着时间的推移而变化的。

而这些波形在多种尺度上都显示出了特定的模式。例如,在几秒钟的讲话中,波形反映了与单词序列相关的特征模式。但在微秒级的尺度上,波形显示了与声音的音高和音色相关的特征。在其他尺度上,波形则反映了说话人的语调、音素结构等。

另一种研究这些模式的方法是将波形在一个时间步长和下一个时间步长之间的相关性考虑进来。因此在给定的时间区间内,单词开头的声音与后面的声音是相关的。

深度学习系统应善于学习这些类型的相关性,并对它们进行复制。问题是,这些相关性处于许多不同的时间尺度上,而深度学习系统只能在有限的时间尺度上来研究相关性。这是因为他们使用了一种称为反向传播的学习过程,这种学习过程不断地重新连接网络,以根据所看到的示例改进其性能。

而这种重复率限制了研究相关性的时间范围。因此,深度学习网络可以学习长时间或短时间内音频波形的相关性,但不能同时学习两者。这就是为什么之前的研究在语音复制方面表现不佳的原因。

而Vasquez和Lewis则对此有着异于常人的研究方法。他们使用光谱图来训练深度学习网络,而非音频波形。声谱图记录了整个音频频谱及其如何随时间变化。因此,当波形捕捉到一个参数随时间的变化时,振幅、光谱图则捕捉各种不同频率范围内的变化。

这意味着音频信息被更密集地打包到这种类型的数据呈现中。Vasquez和Lewis表示:“光谱图的时间轴比波形的时间轴要紧凑几个数量级,这意味着在波形中跨越数万个时间步长的依赖关系,在光谱图中只跨越数百个时间步长。”

这使得深度学习系统更容易学习相关性。他们说道:“这使得我们的光谱模型能够在数秒内无条件地产生语音和音乐样本,并保持一致性。”

他们的研究结果令人印象深刻。通过训练MelNet使用TED演讲中的普通语音系统,MelNet能够在几秒钟内复制TED演讲者的声音,或多或少地说出一些语句。为了展示了该系统的灵活性,Facebook的研究人员利用比尔·盖茨的TED演讲来训练MelNet,然后用他的声音成功说出了一系列随机的短语。

这里是该系统说“当事情变得糟糕时,我们会皱眉”和“波特酒是一种带有烟熏味的烈酒”这两个句子的音频。

当然,该系统也有一些限制。因为日常生活中的语言可以包含更长时间范围内的相关性。例如,人们能够使用语调的变化,来表示所讲述的故事在几十秒或几分钟的发展时间内其主题或情绪的变化。而Facebook的机器系统似乎还无法做到这一点。

图片来源:pexels.com/@pixabay

因此,尽管MelNet可以创造出效果十分逼真的短语,但该团队在使其处理较长的句子、段落或整个故事时还并不完美。而这个目标似乎也还不能很快实现。

尽管如此,这项工作仍然可能对人机交互产生重大影响。毕竟,许多对话只包含简短的短语。尤其是对于电话接线员和服务台工作人员,他们就是使用一系列相对简短的短语来工作的。因此,这项技术能够自动化这些交互工作,甚至能比当前的系统更加拟人化。

不过,目前Vasquez和Lewis仍对该技术潜在的应用前景守口如瓶。

与以往一样,自然发声的机器存在着许多潜在的问题,尤其是那些能够真实地模仿人类的机器。很容易想象出这种技术可能被应用于恶作剧中的场景。因此,如往常一样,此项人工智能的进步所引发的伦理问题远远多于它所能回答的。

留言 点赞 关注

我们一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

关键词:Facebook 比尔盖茨 系统

相关内容:
免责声明
我们尊重原创,本网站部分文章来源或改编自互联网及其他公众平台,主要目的在于分享信息,让更多人获取有价值的内容资讯,版权归原作者所有,内容仅供读者参考。如有侵犯您的权益或版权请及时告知,我们会尽快删除!
网友评论:
最新推荐
热点推荐