普通人每分钟可以说话多达150个词,使口语交流成为最有效的沟通方式之一。“我们理所当然地认为,在如此短的时间内传达大量信息是多么轻松,”加州大学旧金山分校的神经外科医生Edward Chang说。“也就是说,直到你因伤失语。”
中风等脑损伤和肌萎缩侧索硬化症(ALS)等神经系统疾病会破坏语言交流能力,导致患者社交孤立,或迫使他们使用假肢。这些假肢中最好的本质上是脑控打字机:通过神经植入物检测到的脑信号,人们用光标移动电脑光标,一次 painstaking 地选择一个字母。每分钟八个词已经算快了。(也许最著名的言语假肢属于已故的物理学家斯蒂芬·霍金,他通过肌肉抽搐,逐字输入给语音合成器发声。)
为了以更自然的速度模仿语言,一些研究人员尝试更进一步,通过测量大脑语言中枢的神经活动来驱动人工语音合成器,从而 literalmente 地“读懂”人们的思想。但成功仅限于单音节的表达。事实证明,大脑是相当复杂的。

(摄影:Noah Berger/UCSF)
Noah Berger/UCSF
Chang想知道间接的方法是否会更好。他注意到流利的语言依赖于声道(包括嘴唇、舌头、下颌和喉)的精细运动协调,他推断,控制这些肌肉运动的神经活动可以控制合成器的发音。“大脑语言中枢的活动模式专门用于精确协调声道运动,”他解释说。“我们弄清楚了那里的神经活动如何直接控制我们说话时的精确运动。”
为了验证他的想法,Chang招募了五名正在接受癫痫治疗的患者,他们的治疗已经包括了头皮下植入电极的手术。他监测了他们在说数百个句子时的脑电波活动,并利用这些数据训练人工智能软件。人工智能学会了将脑电信号解码成完整的句子,当志愿者仅仅模仿说话时,该系统仍然有效。当脑-AI-语音系统经过测试时,机器的理解准确率为70%。
此外,正如Chang在4月份的《自然》杂志上报道的那样,患者期望的语调也得到了保留。“语调使我们能够强调特定词语、表达情感,甚至将陈述变成疑问,”Chang说。他的团队发现,关键的音高变化是通过调整喉部声带的张力来实现的,并且相应的脑电信号可以被精确地监测到,从而使合成器能够传达患者说话的情感潜台词。
Chang警告说,他的技术并不能解决所有病症——例如负责控制喉部和嘴唇的大脑区域的损伤——而且他才刚刚开始对中风和ALS患者进行临床试验。这些患者无法像他的研究对象那样通过口语训练人工智能,因为他们已经失去了说话的能力。然而,Chang发现,在他所有五名研究志愿者中,与语言相关的脑电波活动非常相似,因此个体训练可能不是必需的。
未来,能言善辩的“天赋”可能就是即插即用的。














