AI帮助渐冻症患者恢复语言功能!受益人:声音回来了


冰桶挑战盛行的那一年,前美国橄榄球联盟球员蒂姆肖被诊断患有肌萎缩性侧索硬化症。他的人生目标也从在球场上拼命奔跑变成不再摔倒。

蒂姆是美国橄榄球联盟的后卫,效力于卡罗莱纳黑豹队、杰克逊维尔美洲虎队、芝加哥熊队和田纳西泰坦队。不幸的是,他在2014年被诊断为肌萎缩侧索硬化症。从那以后,轮椅成了他的日常生活。没有帮助,蒂姆再也不能像正常人一样说话、吞咽或呼吸了。失去声音对任何人都是毁灭性的打击。

幸运的是,蒂姆参与了由DeepMind和谷歌为语言障碍者发起的一个技术项目,Euphonia,并且幸运地成为人工智能语音识别和文本转录技术的第一个ALS受益者。五年多以后,蒂姆和他的家人又听到了他的原声。

多年后,蒂姆和他的母亲又听到了人工智能合成的“原声”(图片来源:DeepMind官方网站)

大音书项目是一项为语言障碍者提供的语音到文本的转录服务。基于神经退行性疾病患者的音频数据,结合Parrotron模型(基于注意机制的Seq2Seq模型),可以提高语音合成的效率,生成高质量的语言。蒂姆的“健康恢复”项目持续了6个月。研究人员的第一步是在蒂姆生病前提取声音,并将其作为合成语音的样本数据。因此,研究人员生成了一个名为WaveNet的生成性人工智能模型。

WaveNeat模型通过识别韵律来模仿和合成人类语言。与以往的一些语音生成模型相比,WaveNet模型生成的语音片段更真实、更有说服力。WAVENET模型达到了与70%的人类语音合成语言相似的水平,具有更高的语音生成效率。人工智能模型运行在从谷歌转换到机器学习的定制张量处理器(TPU)上,一秒钟的语音样本可以在平均50毫秒内生成。

WaveNet模式的特点是不同“口味”的英语无法击败它。无论是带有印度口音的英语、韩国口音还是纯正的英语发音,都可以模仿。目前,WaveNet已经应用于谷歌助手系统,可以识别9种不同口音的英语。

Image Source:Pixabay

研究人员建立相关模型后,另一个关键操作是微调,这也是从最少的训练数据中获得高质量综合效果的关键。首先,他们预先在数千个扬声器上大规模地训练了WaveNet模型。然后人工智能从蒂姆以前的语音音频影响材料中提取了少量的语音样本。经过不断的模仿和练习,WaveNet生成的语音自然具有说话者自身的特点。

然而,仅有优秀的言语模仿和生成能力是不够的。对于人工智能模型,完善的模型体系结构是保证其系统整体运行效率的基础。因此,研究人员将WaveNet模型移植到了WaveRNN模型。WaveRNN模型更紧凑,生成的音频更逼真。此外,研究人员还对加速器2系统采用了微调技术,该系统可以将文本转换成语音。它可以建立基于声谱图或音频信号频谱随时间变化的可视化表示的语音合成模型。换句话说,人工智能不仅学会了“听声音和模仿声音”,还学会了“看图片和模仿声音”!

六个月后,针对Tim发起的“语音恢复”项目取得了相当大的进展,其研究成果目前已向公众展示。在小罗伯特唐尼讲述的新技术节目《AI人工智能时代》的第一集中,蒂姆和他的家人第一次听到了他们自己合成的声音。在这个项目中,人工智能根据蒂姆的声音和文本进行训练,从34岁的《时代》读到22岁的《时代》。

▲蒂姆(右二)和他的家人以及大戟天项目的成员一起观看《AI人工智能时代》(照片来源:DeepMind官方网站)。

当疾病到来时,它会破坏人类健康,扰乱人类生活的节奏。别忘了,科学技术也在发展。被疾病缠绕的时间将随着先进技术的指针慢慢旋转,直到疾病被治愈并恢复健康。

references(可上下滑动)

[1]deep mind and Google retreaformer 2019 from link

[2]Google的par rotron是一款人工智能工具,适用于那些速度有所提高的人2019 from link

[3] als正在缓慢地掠夺前后卫timshaw的肌肉。第一个受益者:我的声音回来了

声明:这篇文章是为了传递更多的信息而转载的。如果源标签有错误或侵犯您的合法权益,请使用所有权证书联系我们的网站。我们将及时更正和删除它们。谢谢你。