新技术将思想转化为语音，有望让无声者发声

史蒂芬·霍金出席特拉维夫大学的晚宴。(资料来源：The World in HDR/Shutterstock)喉癌、中风和瘫痪会剥夺人们的声音和说话能力。现在，研究人员开发出一种能将大脑活动转化为合成语音的解码器。这项新技术是恢复失语症的一大步。“我们希望创造能够直接从人类大脑活动中再现语音的技术，”加州大学旧金山分校的神经外科医生爱德华·张（Edward Chang）在新闻发布会上表示，他是这项新研究的负责人。“这项研究提供了可行性的原理证明。”

缓慢的合成

失去说话能力的人目前依靠脑机接口或追踪眼球或头部运动的设备进行交流。已故物理学家史蒂芬·霍金，例如，就曾用脸颊肌肉控制一个光标，缓慢地拼出单词。这些技术通过逐个字母地移动光标来拼出单词。尽管这些工具能够进行交流，但它们速度很慢，每分钟只能拼出五个到十个单词。而人类的说话速度要快得多——人类语言的语速为每分钟 120 到 150 个单词。张（Chang）和他的同事们希望创造一种能够加快交流速度的设备。科学家们的解决方案是一种语音解码器，它利用患者的大脑活动来控制他们声道的模拟版本，包括嘴唇、舌头、下巴和声带。“大脑将…你想说的话的思维转化为声道运动，而这正是我们试图解码的，”张（Chang）解释道。https://www.youtube.com/watch?v=kbX9FLJ6WKw

翻译的谈话

研究人员将电极直接放置在参与者大脑表面控制声道运动的区域。参与者都没有交流障碍，并且能够说话，然后大声朗读了几百个简单的句子。电极记录了参与者说话时的大脑活动。然后，研究人员使用机器学习来解码控制声道运动的大脑活动。张（Chang）和同事们报告称，他们随后可以从这些解码的运动中合成语音，该研究发表在今天的《自然》杂志上。该设备能够很好地解码一些声音，例如单词“ship”中的“shh”音。但另一些声音，例如单词“Bob”中的“b”音，还需要改进。尽管如此，听者仍然能够正确转录约 70% 的合成语音。研究人员表示，错误的单词通常在意义上与原始声音相似，因此在许多情况下，句子的主旨仍然得以保留。例如，原句可能是“Those thieves stole thirty jewels”（那些窃贼偷了三十颗宝石），但听者听到合成语音说的是“Thirty thieves stole thirty jewels”（三十个窃贼偷了三十颗宝石）。

本文研究中使用的脑内电极阵列示例。(资料来源：UCSF)

沉默的言语

为了更好地了解这项技术如何帮助有沟通障碍的人，研究人员重复了实验。但这次，一名参与者没有大声说出句子，而是默默地在嘴里重复句子。即使该参与者根本没有发出任何声音，解码器也能够从该参与者的脑活动中生成语音。“发现我们仍然从一个根本没有产生音频的行为中生成音频信号，这真的非常令人瞩目，”加州大学旧金山分校的神经科学家乔希·查尔蒂尔（Josh Chartier）在发布会上表示，他与张（Chang）共同领导了这项工作。研究人员尚未对有语言障碍的患者进行解码器测试，因此尚不清楚相同的算法是否适用于无法说话的人群。“这可能只能通过后续的临床试验才能真正弄清楚，”张（Chang）说道。但一些悬而未决的问题，例如解码器如何在一个瘫痪者身上工作，仍然存在。对研究人员来说，下一步是提高语音质量。“我们想让技术变得更好。我们必须让它更自然、更清晰，”张（Chang）说道。“这真的是这个领域快速发展中的第一个原理证明，”他补充道。