广告

脑部扫描人工智能系统可以描述你所看到的内容

能够读懂一个人的想法可能不再是科幻小说了。

Google NewsGoogle News Preferred Source
图片来源:Ole.CNX/Shutterstock

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

解码思想:AI将脑部扫描转化为文字

广告

知道旁边火车上的人在想什么,或者你的老板会给你加多少薪水,又或者潜在伴侣对你的看法,这该多有用啊。

当然,这种能力目前完全是未来主义的。但基础正在奠定。通过功能性核磁共振成像(fMRI)脑部扫描图像,已有多个团队展示了根据扫描结果解码特定想法(尤其是人们正在看的东西)的能力。这是一项艰巨的工作,其结果,嗯,让我们称之为“发展中”吧。

但现在,由于耶鲁大学的Weikang Qiu及其同事的努力,这一能力更进一步了。他们开发了一个能够解码fMRI扫描的AI系统。这个名为MindLLM的机器可以生成被试者在观看图像时的思维过程的文字描述。

这项工作为更好地理解人类大脑及其思维过程铺平了道路。它也极大地改进了之前的工作。“MindLLM的表现优于基线,在下游任务上提高了12.0%,在未见过的主体泛化能力上提高了16.4%,在新任务适应性上提高了25.0%,”Qiu及其同事说道。

思维导图

功能性磁共振成像(fMRI)通过检测血氧水平的变化来间接测量大脑活动,这被称为血流动力学反应。这种反应滞后于神经活动数秒,提供了大脑激活的空间图谱,但时间分辨率有限。该技术已为我们提供了大量关于大脑各个区域作用的见解。然而,从这些扫描中解码复杂的思想和想法一直是长期存在的挑战。

先前的方法在准确性、任务种类有限以及跨不同个体泛化困难等方面存在不足。人与人之间大脑结构和激活模式的差异使得开发通用解码模型变得困难。

MindLLM正面解决了这些挑战。它包含两个主要组成部分:fMRI编码器和大型语言模型(LLM)。fMRI编码器处理扫描数据,并将其转换为LLM可以理解的格式。LLM已在大量图像及其文本描述上进行了预训练。

fMRI数据包括被试者在执行任务时的脑部扫描,例如看一张图片并回答一个关于它的简单问题。例如,给定一张旁边有字母的时钟图片,任务可能是识别图片中的字母;或者,给定一个正在投掷棒球运动员的图片,问题可能是正在投掷什么物体。因此,给定fMRI数据,MindLLM必须生成描述扫描中捕获的大脑活动的文本。

MindLLM的关键创新之一是它能够专注于fMRI数据中最相关的部分,从而提高其准确性和效率。MindLLM的另一个关键方面是一种称为大脑指令微调(BIT)的技术。这涉及到在多样化的图像和文本数据集上训练模型,使其能够捕捉fMRI信号中的广泛表示。BIT数据集包括与感知、记忆、语言处理和复杂推理相关的任务,确保MindLLM能够解码人类思想的各个方面。

广告

MindLLM的潜在应用非常重要。Qui及其同事表示,它可以用于开发脑机接口,使人们能够用意念控制设备,从而彻底改变残疾人士的辅助技术。该模型还可以提供对认知过程的见解,帮助研究人员更好地理解大脑的工作原理。

此外,MindLLM解码思想的能力也具有伦理影响,社会必须加以考虑。解码私人想法的可能性引起了对隐私和安全的担忧,因此,为这类技术的发展和部署制定伦理准则至关重要。Qui及其同事承认,他们不一定知道它将如何被使用。“用户希望根据自己的具体用例来调整MindLLM是很常见的,”他们说道。

广告

事实还是虚构

尽管性能令人印象深刻,MindLLM仍处于早期阶段。一个局限性在于fMRI并非实时成像技术,需要大量的处理时间和昂贵的笨重设备。未来的研究可以探索更快、更便携的大脑成像技术,例如脑电图(EEG)或功能性近红外光谱,以补充或取代fMRI在实际应用中的作用。

此外,研究人员旨在研究fMRI数据与其他模式(如视频)之间的关系,以获得对大脑活动的更全面理解。

这项有趣的研究表明,心灵感应技术正在飞速发展。解码思想的能力长期以来一直是科幻小说的主要内容,但可能很快它就会成为科学事实。


参考:MindLLM: A Subject-Agnostic and Versatile Model for fMRI-to-Text Decoding : arxiv.org/abs/2502.15786

广告

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章