“我一直有个奇怪的想法,我必须了解很多不同的事情,”马蒂·塞雷诺略显不安地说。他在椅子上挪动着,背对着贴满便利贴的电脑屏幕和一张堆满了打开的期刊的桌子,看起来像地质构造中的交错层。塞雷诺坐在加利福尼亚大学圣地亚哥分校的办公室里,拉下的百叶窗挡住了南加州刺眼的阳光。“当你试图做跨学科研究时,”他继续说,“把两个专家放在一个房间里是没有用的,因为他们无法互相交流。你必须假装你身处另一个领域;你必须去和当地人一起生活。它必须集中在一个人的头脑中。”
毫不夸张地说,40岁的塞雷诺脑子里有很多东西。当然,他的主要研究兴趣是灵长类动物和啮齿动物视觉的神经结构。此外,还有他帮助开创的脑成像新技术,以及他和合作者设计的用于显示结果的计算机程序。同时,他还掌握了语言学、动物交流系统、哲学和现代爵士乐等各种主题的丰富信息(他是一位狂热的吉他手)。
此外,还有他对大脑进化和人类语言起源的非传统理论,这个理论自研究生时期以来就一直在他脑海中酝酿。这个理论看起来非常跨学科和复杂。但塞雷诺对这种描述只是耸耸肩。“有些事情就是有很多部分,”他说。“不是不可能的数量,但十个是不够的。有时它必须是一百个。”
塞雷诺的观点,概括起来,就像一首俳句:语言能力在人类大脑中产生,并非像大多数说法那样,通过发展出一个新的、独特的人类语言器官,而是通过对一个已经存在的神经系统进行相对较小的重新布线。而那个神经布线主要属于视觉系统,大脑的这一部分,包括塞雷诺自己的研究在内的最新研究表明,它复杂得几乎难以想象。
这些言论的异端程度,只比早期的马丁·路德钉在维滕堡城堡教堂门上的那些稍逊一筹,但也相去不远。语言常被视为一种认知界限,是我们将自己与灵长类表亲区分开来的最后几件事之一。但如果塞雷诺是对的,如果语言是借着视觉的“东风”进入我们大脑的,那么我们人类就再次比我们想象的要不那么特殊了。
目前,塞雷诺用来支持他理论的证据主要是间接的;他主要引用的是大脑在其进化过程中所遵循的路径。大约5亿年前,当第一批脊椎动物出现时,脑干后部的一个小肿块膨胀成为小脑。同时,一对围绕脑干和小脑的小而原始的结构膨胀成大脑的两个半球。最后,在2亿到3亿年前,六层大脑皮层作为一层覆盖大脑的神经细胞毯出现在哺乳动物中。在人类中,这八分之一英寸厚的层折叠成复杂的皱褶,其后三分之二被划分为与感官相对应的区域,或者神经科学家称之为“模式”:听觉、触觉、视觉等等。
正如塞雷诺指出的,我们知道在其他非人类高等灵长类动物中,视觉处理系统占据了皮层的一半。人类大脑有多少部分用于视觉尚不清楚——传统上确定这一点所需的侵入性实验只能在动物身上进行,而不能在人类身上进行。但塞雷诺认为,新的脑部扫描技术很可能会揭示,我们的大脑中也有那么多视觉皮层。他认为自然选择很可能已经临时改造了那些预先存在的结构来执行一些新功能。“有什么比让语言这列新火车在视觉的旧轨道上运行更合乎逻辑的呢?”他问道。“我们应该更多地关注动物可能已成为语言基础的行为。”他说,“看——这个系统在我们身上确实得到了加强。人类能做的事情比猴子多得多。但基本硬件并没有那么不同。”
根据关于人脑组织的主流观点,语言集中在大脑左侧的几个区域,这些区域以发现它们的19世纪科学家的名字命名。其中一个叫做布罗卡区,位于太阳穴下方;它参与语言的产生。另一个叫做韦尼克区,位于耳朵后面,似乎控制着语言理解。
“布罗卡区和韦尼克区肯定与语言有关,”塞雷诺说;他反对的是语言局限于那里的观点。在他看来,将语言这种高级功能定位于皮层的两小块区域(大小约一枚硬币)带有前科学思维模式的痕迹。“这有点像颅相学的遗留物,”他说,指的是18世纪认为可以通过头骨上的隆起检测出音乐能力或暴力倾向等个人特质的观点。塞雷诺反而认为,语言中心可能分散在大脑各处,主要分布在专门用于视觉处理的皮层区域的马赛克中,但也包括专门用于运动协调和听觉感知的区域。
大多数关于语言进化的设想往往回避了人类大脑中可能发生什么才能使语言成为可能这个棘手的问题。由于对语言进化感兴趣的研究人员往往是语言学家和人类学家,而非神经科学家,他们关注诸如语言何时进化或其早期阶段可能是什么样的问题。但塞雷诺带来了更广阔的视角。
塞雷诺的语言理论所展现的折衷主义,有着深厚的根源。他的母亲是一位艺术家和艺术教师。他的父亲是一位前土木工程师,内心一直真正属于心理学和哲学;塞雷诺十几岁时,他辞职成为一名邮递员。他们夫妇给他们最大的孩子马丁取了中间名艾雷奈乌斯(Irenaeus),以纪念二世纪的一位神学家。
马丁并不是唯一一个对知识充满渴望的家庭成员。他的弟弟保罗是一位专门研究恐龙的古生物学家;他的四个姐妹中有两个是心理语言学家,另外两个是神经科学家。“我们家的感恩节晚餐非常奇怪,”他说。“当你和兄弟姐妹聚在一起时,无论如何你都会回到童年,但我们有所有这些新的事情可以争论!”
塞雷诺多年来一直在广泛撒网。大学主修地质学后,他不确定要追求什么兴趣,于是他向人类学、地质学、语言学、哲学和古生物学的研究生项目递交了申请,最后选择了芝加哥大学的一个跨学科项目。该项目要求学生完成一个实践性科学学科的硕士学位,作为更理论化的博士研究的基础。塞雷诺选择了神经生物学,并开始了一个涉及绘制海龟大脑的项目。(作为那些日子的提醒,一只名叫斯潘基的煎饼大小的海龟住塞雷诺家厨房的水族箱里。)
但他继续学习语言学和哲学以及脑生物学,1980年一个深夜,这些不同的线索开始缠绕在一起,形成了视觉系统可能是通向语言的途径这一想法。当时,为了一篇论文,他一直在回顾哺乳动物有几个独立的大脑区域专门用于视觉的证据;同时,他正在写另一篇关于手语语法的论文。与此同时,在他的业余时间里,他正在脑海中涂鸦关于“代码”的概念:手语是一种代码,口语是另一种代码,DNA是告诉细胞制造什么蛋白质的代码。
“这一切让我摆脱束缚,开始以更普遍的方式思考语言,”塞雷诺说。他开始看到大脑中神秘的语言系统在将一系列单个词汇中提取出的意义组合在一起时所做的工作,与视觉系统在将一系列目光所收集的信息组合在一起时所做的工作之间存在相似之处。如果这些心理任务如此相似,为什么大脑不能使用一些相同的线路呢?
塞雷诺解释说,当我们看到一个场景时,我们感觉好像是立刻把它全部看进去了,但实际发生的情况却大相径庭:我们通过一系列快速的眼球固定(称为眼跳,以每秒数次的频率发生)来扫描场景。每一次眼跳都会将外部场景的一个新部分投射到视网膜上,视网膜是眼球后部对光敏感的细胞网络。视神经将该图像(在被称为背侧膝状体核的大脑区域短暂停留后)传送到皮层后部的初级视觉区域。
初级视觉区域接收到的图像是一种扭曲的光强度差异图。一些研究人员称这张图为“原始素描”。然后,素描被传送到大脑中更高阶的多个视觉区域,每个区域都专门分析其一个方面——例如颜色、运动或形状——尽管它们的功能似乎有相当程度的重叠。猴子有20到30个视觉区域,塞雷诺认为人类可能也有这么多。大脑的这些视觉区域将场景的碎片编织在一起,将其重建为具有体积并占据空间的物体集合。
塞雷诺解释说,大脑视觉部分的主要工作是环顾四周并更新某种世界表征,目的是在其中行动。他说,大脑语言部分的工作非常相似,只是有一个明显的区别,那就是语言可以处理不存在的事物——过去和未来,想象的——以及现在存在的事物。
塞雷诺认为,单个词语就像单个的眼跳,每个都只揭示虚构场景的一部分。说话者的大脑按照语法规则产生一串词语;听者的大脑将单个词语收集到短期记忆存储中,在那里它试图将它们组合在一起,直到积累足够多的词语以形成一幅心理图像。“没有周围的事物,”塞雷诺说,“你无法从单个一瞥中获得太多信息。理解一个场景需要将你十次目光之后获得的信息与十次目光之前获得的信息结合起来。这非常像语言,你有一串词语,然后你用代词指代句子中早些时候发生的事情。”
假设你说:“约翰去了商店。然后他回家了。”听你说话的人会认为代词“他”,也就是回家的人,和你最初指的那个去商店的人是同一个人。在视觉中,你总是遇到同样的问题。例如,当我环顾房间时,我看着门,我看着猴子比尔,我看着那边的自行车,我又看着猴子比尔。这是一个非常相似的情况:你必须弄清楚那是同一个比尔,你之前看过的同一只猴子。比尔变了吗?比尔与场景中其他事物的关系变了吗?
塞雷诺认为,这两种解码都发生在皮层的视觉区域。他说,当有人对你说话时,词语会在你的听觉皮层中产生一连串的模式。这些模式,作为语音的表征,以代表词语的组别被识别。然后,它们会以某种方式传到你的视觉皮层,并激活那里的一小块——类似于一瞥的——高级视觉皮层活动。它们模拟了如果你真的看到某些东西时会发生的情况。当然,这只是理论的粗略版本:它只解释了你如何谈论你实际能看到的东西。但是,由于语言是通过隐喻运作的,正如许多学者所主张的那样,你也可以使用具体的图像来谈论抽象概念。
动物大脑的解剖结构反映了动物获取周围信息的方式。美洲驼以吃草为生,因此美洲驼大脑中专门用于嘴唇感觉的区域比其身体其余所有部位感觉区域的总和还要大。蝙蝠通过向周围环境发出声音并聆听回声来避开障碍物;因此,它们拥有巨大的听觉皮层。
塞雷诺实验室的认知科学大楼里,一抽屉又一抽屉地存放着切成薄片的动物大脑,从老鼠到地松鼠,再到各种猴子。每一片半透明的大脑切片都贴在载玻片上,并仔细标注;塞雷诺说,每一个切片都展示了视觉皮层扩张的又一个事件。
他还是芝加哥的学生时就开始收集幻灯片,此后一直如此。他对界定灵长类视觉区域的边界特别感兴趣。尽管研究人员声称有多达25个区域,但除了少数几个之外,其他区域的边界都太微小,没有电生理学绘图就无法检测到。“在某种程度上,这项工作是乏味的,”他说,“就像1600年的一位解剖学家在发现骨头在哪里一样。”
实验本身是 painstaking。首先对动物进行麻醉,并在其头骨上开一个小孔。将一根比头发还细的微小电极植入动物的大脑中,并将其眼睛对准一个标有网格的透明塑料半球。然后将光源穿过塑料后面;当植入的电极检测到神经元放电信号时,研究人员就知道电极所在的位置标志着处理动物视野中精确点的视觉皮层部分。然后移动电极并重复该过程。一个单一的实验通常会建立多达600个这样的点,并且可能运行长达90小时。
在外行看来,塞雷诺和他的学生多年来制作的数千张幻灯片中的每一张都是一团无定形的灰色斑点,没有解剖结构。然而,对塞雷诺来说,每张都蕴含着丰富的信息。“看到胡须了吗?”他说着,用铅笔尖指着薄片的一个区域。果然,几十个微小的白色点聚集在老鼠大脑的感觉区,每个点都标志着皮层中处理单个胡须感觉的位置。
塞雷诺把一张土拨鼠(一种比老鼠大不了多少的啮齿动物)的载玻片放在透光台上。由于土拨鼠用视觉而不是触觉来辨别方向,它的胡须区域实际上比老鼠的要小一些。然而,它的初级视觉区域却大了四倍。更高层次的视觉区域扩张得更多。“看——这是一个巨大的视觉区域,”塞雷诺指着土拨鼠大脑中一个名为TP的地方说。“它比同等的老鼠区域大了八倍。总的来说,土拨鼠的大脑是老鼠的两到三倍大,主要因为它有更多的体积用于视觉。这是我关于我们大脑如何扩张的模型,”塞雷诺解释道。
然而,这并非自中世纪以来影响了大多数大脑观念的模型。中世纪学者认为,人类大脑中一定有一个中心位置,原始的感官输入之“稻草”在那里变成了思想之“黄金”;在那里,尖塔的视觉图像和钟声的声响结合起来,创造了“教堂”这个概念。这些哲学家将这个假设的区域称为“共同感觉区”(common sensorium),我们从中得到了“常识”这个词。这种共同感觉区存在且为人类独有的观念持续了数百年。但当19世纪和20世纪早期的研究人员开始绘制动物(从老鼠到高等灵长类动物)的大脑图谱时,他们并没有发现这样的区域。他们发现的是,大部分皮层都致力于所谓的低级功能——感官输入和运动功能。
然而,共同感觉区的观念在初生的神经心理学中仍然具有影响力;研究人员确信人类大脑必然不同。毕竟,猴子比狐猴聪明,猿猴比猴子聪明,而我们又比猿猴聪明。科学家们认为,也许随着进化阶梯的上升,大脑中用于结合和分析原始感觉输入的区域——不再被称为共同感觉区,而是多模态皮层——会越来越大。认为我们的智慧来源于我们头骨下那些静待思考的多模态皮层似乎是合乎逻辑的。
也许是合乎逻辑的,但很可能是错误的。“认知似乎如此统一,”塞雷诺表示同意,“有那么一个地方,所有事物汇聚在一起,思维在那里运作,这是有道理的。但从我们所看到的来看,大脑似乎并非以这种方式连接。相反,随着皮层的扩张,增加的区域都专注于某一种或另一种模态。对我来说,”塞雷诺说,“这表明皮层所做的许多计算——例如语言和思维等功能——都与某种模态相关联。他认为我们使用视觉区域作为我们处理语言的主要方式,因为它们是我们理解周围环境的方式。如果你是一只会说话的蝙蝠,你会用你的听觉系统处理语言。如果你是一只鸭嘴兽,你会使用专门用于你喙部的皮层区域。”
直到最近,关于人类皮层究竟是如何划分的几乎没有数据,因为研究大脑功能定位的非侵入性技术尚未发明。由于大多数人可以理解地不愿为了科学而在大脑中插入电极,所以数据必须来自那些大脑特定区域受过损伤的患者。
然而,过去五年,脑成像技术取得了爆炸性进展,塞雷诺及其同事对此做出了深远贡献。要发现我们大脑的哪些部分用于何种思维活动,需要能够提供瞬时、精确定位大脑活动信号的成像技术。直到1990年左右,可用的技术——脑电图(EEG)和脑磁图(MEG)——都不足以完成这项任务。这些技术可以快速记录大脑的电脉冲,但无法揭示它们的起源。
在九十年代早期,塞雷诺和当时的博士生安德斯·戴尔想出了如何让计算机结合MEG和EEG的数据并确定信号来源。他们仍然需要一个表面来显示他们的发现,因此戴尔编写了第一个能够自动从一组二维磁共振图像(MRI)重建大脑三维图像的计算机程序。作为额外的好处,这个程序可以像蒸笼里的葡萄干一样将高度裂隙的大脑图像填充起来;在轻柔膨胀的皮层上,每个皮层区域的边界都可以精确描绘。这项技术对试图描绘塞雷诺称之为“皮层国家”的边界的研究人员来说,被证明具有巨大的益处。
塞雷诺和他的合作者最近开始使用一种名为功能性磁共振成像(fMRI)的非侵入性技术来绘制人类视觉区域。通过使用磁场测量大脑血流量的变化,fMRI可以揭示大脑的哪些区域正在处理特定任务;因此,它提供了一个正在进行的大脑活动的局部图像(尽管它不像EEG和MEG那样捕捉瞬间变化)。最后,有了实时记录大脑活动的技术,以及一个光滑、展开的表面来显示它,塞雷诺拥有了所有可用的工具来证明,或未能证明,他的视觉-语言理论。
在过去的几年里,塞雷诺和他的妻子克劳迪娅(圣地亚哥无家可归者的社会工作者),以及波士顿马萨诸塞州总医院核磁共振中心的神经生物学家罗杰·图特尔,一些朋友、同事和少数有偿志愿者,都曾在fMRI扫描仪中连续数小时地“封闭”自己。当受试者静止不动时,塞雷诺或一位助手会在几英寸外的屏幕上闪烁图像——有时是图案,有时是文字。
这项工作以其特有的方式,对研究人员来说,与马拉松式的神经生理学实验一样辛苦。受试者仰卧在桌子上,被滑入一个近十英尺长、六英尺直径的巨大金属管中。他们用咬棒夹紧下颌以保持头部稳定,并且必须集中注意力,因为即使是很小的眼球运动也会影响结果。他们戴着金属笼子以进行绘图,并塞着耳塞以阻挡巨型磁铁发出的100分贝的咔嗒声。“我觉得这挺舒适的,”塞雷诺说,“这有点像禅宗。当然,你必须记住不要喝太多咖啡。”
通过这项扫描仪研究,塞雷诺发现,语言任务会在受试者大脑的某些区域产生高水平的活动,如果这些朋友和同事是猴子,这些区域将是高级视觉区域。更重要的是,当受试者看到有意义的句子时,这些区域的活动水平远高于看到随机词语时。他补充说,其他研究人员发现,用电极刺激这些区域会抑制言语产生,其方式与刺激布罗卡区和韦尼克区等经典语言区域非常相似。
作为支持其理论的证据,这些结果目前还不多,但它们是一个开始。“我想说,证明存在新的语言区域的责任在于那些人,”塞雷诺说。“默认的立场是假设人脑或多或少与动物大脑相似,但我们以不同的方式使用它。”
塞雷诺回忆说,几年前,他在俄亥俄州立大学(猿类认知研究的据点)做讲座。他提出了他最喜欢的一个类比:鸟鸣与人类语言之间的类比。“有人站起来说,‘你是想告诉我你认为鸟类的声乐学习比猿类更复杂吗?’我说,‘嗯,是的。绝对是。’”
“你会注意到非人类灵长类动物在发声学习方面表现得很糟糕,”他解释道。“鸣鸟轻松地比它们好一千倍。”
塞雷诺指出,语言最重要的两个特性是句法(大致相当于结构)和语义(大致相当于意义)。他说,猿猴的自然交流系统有丰富的语义,但没有句法;猿猴的叫声可以以任何顺序组合而不会改变意义。此外,大多数非人类灵长类动物的交流是边缘系统控制的——情感决定的——而不是学习而来的。一只生来耳聋的猴子会发出全范围的猴子叫声;而一只耳聋的鸣禽雏鸟则不会唱歌。
鸣鸟的学习能力让塞雷诺认为,将鸟鸣与人类言语进行比较可能会有成效。雏鸟在开始模仿之前会花几个月时间听成年鸟唱歌。然后它们会发出亚鸣,类似于人类婴儿的咿呀学语的无意义声音。稍后,它们开始产生歌曲片段。最后,它们会产生成年鸟的歌曲,有时多达数百首不同的歌曲,每首歌曲都包含多达20个歌曲片段或音节,连接在一起。
那么,在塞雷诺看来,鸟类具备语言的所有先决条件:它们有发声器官,有独特的发声,有将声音串联起来的能力。它们唯一缺乏的是语义。他说,如果鸟类有什么话要说,它们肯定能说出来。但显然它们没有,因为大多数鸟鸣只是一种奇特而复杂的表达方式,意思是“走开!”或“和我交配!”
在塞雷诺的人类语言进化版本中,古人类可能已经发展出发出类似鸟鸣的噪音的能力——即没有太多语义内容的音节。他认为,他们可能这样做是为了吸引配偶,这个想法并非没有先例。毕竟,一些鸟鸣专家认为,复杂鸣唱现象的出现是因为它预示着繁殖适应度,而拥有持续鸣唱能力最强的鸟类是最适合的配偶。
如果属实,这个设想就克服了语言进化的一个大障碍:时间框架。许多人类学家认为,人类大约在最后十万年的末期开始说话。他们提出的证据是,在近百万年几乎没有变化之后,突然出现了许多新型石器——塞雷诺称之为“石器时代令人难以置信的即兴创作”。一些人认为这意味着人类最终能够进行象征性思考,记住复杂的序列,并传达指令。
但问题是,怎么做到的?以人类的意义创造语言,不仅是一个复杂的心理问题,也是一个复杂的解剖学问题。例如,喉头的位置,它是气管与肺部连接咽喉的开口。在非人类灵长类动物中,喉头位置较高,这样舌根可以在进食和饮水时保护开口。人类出生时喉头位置较高。然而,当我们开始说话时,喉头已经下降到较低的位置。一些研究人员认为,我们较低的喉头使我们能够清晰地说话:舌头有足够的空间移动和形成元音,而不会阻塞喉头。然而,这种放置方式有一个主要的缺点,每次我们进食或饮水时都可能面临窒息的风险。
喉头位置等技术细节导致许多语言进化的设想瓦解:如果语言没有发展到足以提供重要的生存优势,自然选择为什么要让人类承担解剖学风险?但如果没有人拥有发声设备来说话,语言又如何能发展到足以提供重要的选择优势呢?
鸟鸣类比解决了这个问题。如果性选择的压力,而不是交流的压力,驱动了发声机制的完善,那么这个过程可能在整个人类进化过程中一直持续着。然后,当塞雷诺提出的视觉系统相对较小的神经重新布线使语言成为可能时,发声机制可能已经启动并运行,等待发出第一个有意义的词语。
塞雷诺在一篇尚未发表的论文中提出,如果早期人类进化出一种精巧的、本质上是语音的发声系统,一种没有语义成分的“会说话的歌曲”呢?他接着抒情地补充道:“也许早期的人类伴侣像海湾鹪鹩一样对唱,几乎完全没有指代意义。”
迄今为止,塞雷诺关于视觉与语言之间联系的观点主要在他的核心同事圈中流传。诚然,他曾在几次会议和研讨会上提出过这个理论,也在专门研究棘手的哲学-科学问题的期刊(如《理论生物学杂志》)上发表过精简版本。但他从未在同行评审期刊上对“视觉转变为语言”理论进行过全面而成熟的阐述。这主要是因为能够说服思想保守的同事的硬证据——例如fMRI扫描,而不是引人入胜的类比——才刚刚开始出现。(“但现在我获得了终身教职,”塞雷诺笑着,夸张地搓着手,充满期待地说,“我真的要大干一场了。”)
虽然很少有神经科学家准备和塞雷诺一起完全接受“前语义、失乐园前的二重唱古人类”的观点,但他们对这个想法的怀疑态度,因其对塞雷诺更主流工作的尊重而有所缓和。另一方面,语言学家对塞雷诺则没有那么宽容。但同事们的怀疑反应似乎激发了塞雷诺的活力,而不是让他气馁。“我知道,”他高兴地说,“我确实很极端。很多时候,进步发生在有人在另一个领域稍感不安的时候。刚开始的时候很可怕——比如当你走进研讨室,甚至听不懂别人说的话。但我认为,当你害怕有人称你为业余爱好者时,你会更灵活、更专注、更不守旧。”














