
如今,人工智能神经网络能够创作艺术、撰写演讲稿、识别面孔,甚至驾驶汽车。感觉我们正乘着新技术浪潮而行,但当前神经网络的兴起实际上是一种复兴。可能难以置信,但早在二战期间,人工智能研究人员就已经在他们的数学模型中看到了神经网络的潜力。然而到了 20 世纪 70 年代,该领域几乎要完全放弃它们了。“在计算机成熟之前,也就是过去 10 年,并没有什么令人印象深刻的成果,”麻省理工学院人工智能教授 Patrick Henry Winston 说。“它仍然是深度学习最重要的推动者。”
神经网络
当今的神经网络本质上是决策树,它们依赖于数学逻辑,这种逻辑类似于人脑中突触的放电(为求更好的类比)。多层人工智能神经元(或节点)被用来找到问题的解决方案。当数据通过这些层级时,每个节点都会进行一个简单的计算,然后将结果传递给下一层神经元进行下一轮计算。在此过程中,每个神经元的数学计算都会根据前一个结果进行微调。通过这种方式,神经网络可以教会自己识别数据中的模式,匹配期望的解决方案,并优化到达该解决方案的路径,有点像调吉他。你喂给神经网络的数据越多,它在调整神经元和寻找期望模式方面的能力就越强。虽然该领域近年来已成为计算机专家甚至一些业余爱好者的重要领域,但神经网络的历史可以追溯到计算机的黎明时期。第一个神经网络图出现在 1943 年,来自 Warren Sturgis McCulloch 和 Walter Pitts 的一篇论文。但 McCulloch 的框架与计算几乎无关;相反,他专注于人脑的结构和功能。当然,McCulloch-Pitts 模型出现在技术尚无法监测此类活动的时代。McCulloch 和 Pitts 认为大脑中的每个神经元都像一个开关(类似于二进制数字 1 和 0),而这些神经元开关的组合就可以做出逻辑判断。当时,有许多相互竞争的理论来描述大脑的运作方式,但根据密苏里大学圣路易斯分校的 Gualtiero Piccinni 的一篇论文,McCulloch-Pitts 模型做到了其他模型没有做到的事情:它将大脑功能简化为类似简单计算机的东西,这激发了从头开始构建人工智能大脑的兴趣。
早期成功
第一个成功的——这是一个宽泛的说法——神经网络概念是康奈尔大学 Frank Rosenblatt 的 Perceptron 算法。Perceptron 最初设想成为一种机器,尽管其首次实现是一类能够做出相当初步决策的神经网络。最终,该算法被集成到一台冰箱大小的计算机 Mark 1 中,这是一台图像识别机器。它有一个与人工智能神经网络连接的 400 个光敏单元阵列,当物体被放在其“眼睛”前时,它就能识别形状。几年后的 1959 年,斯坦福大学的研究人员推出了 ADALINE,当时它是最大的人工智能大脑。但它一次也只能处理几个过程,并且被用作机器学习的演示,而不是针对特定任务。计算上的这些微小但诱人的进步,加剧了 20 世纪 50 年代围绕人工智能的狂热。《科学》杂志在 1958 年一期关于神经网络的文章中打出了“人类大脑将被取代?”的标题。智能机器人以更快的速度涌入科幻小说。然而,这种模式在历史上曾多次与许多自动化过程重复。正如 Adelheid Voskuhl 在《启蒙时代的机器人》中所指出的,18 世纪的钟表驱动的自动机被视为对人类的威胁,并证明机器终将统治世界。但这些启蒙时代的机器人不过是华丽的木偶表演。https://www.youtube.com/watch?v=bY_wfKVjuJM 正如多伦多大学心理学教授 Eyal Reingold 所指出的,20 世纪中叶,研究进展缓慢,跟不上公众的想象力。人工智能大脑即将取代人类思想的报道,当时离现实有多远就有多远。“不幸的是,这些早期的成功让人们夸大了神经网络的潜力,尤其是在考虑到当时电子设备的局限性之后,”他在人工智能历史中写道。“这种过度的炒作,源自学术界和技术界,也感染了当时的一般文学作品。”
寒冬将至
然而,导致人工智能研究在 20 世纪 70 年代初几乎停滞的,并非对机器人接管的恐惧;而是多种因素的结合。虽然麻省理工学院计算机科学教授 Marvin Minsky 常被认为给 Perceptrons 敲响了丧钟,但故事远不止于此。政府资助的削减是一个问题。政府将更多资金投入到能够近乎即时地将俄语翻译成英语的项目中。早期的神经网络以 250 个词汇量展示了这些能力,但后续的研究充其量只能说是缓慢的。20 世纪 60 年代中期,一个名为“自动语言处理咨询委员会”的政府委员会认为机器翻译“没有希望”。正如 Gary Yang 所强调的,1973 年的一份名为 Lightfoot 报告的文件也指出,机器学习可以应用的几个领域——如自动驾驶功能——实际上可以通过技术不那么先进的方法更好地解决。Nils Nilsson,一位退休的斯坦福大学计算机科学教授,曾从事过这些早期的人工智能研究。他最著名的成就之一是 Shakey,一台 20 世纪 60 年代建造的机器人,能够进行基本的图像识别。它之所以得名,是因为它移动时会摇晃,利用电视摄像头捕捉和理解周围的世界。它可以解释关于房间中物体的计算机输入,并以某种方式与它们进行交互。它也是早期神经网络的成功案例,但还不够。https://vimeo.com/5072714 Winston 说,问题之一是神经网络无法采取包罗万象的方法。他说,Marvin Minsky 的 Perceptron 论文表明需要其他人工智能研究领域——而当时技术还没有达到。Nilsson 说:“Minsky 的写作是针对一类特殊的 Perceptrons。20 世纪 60 年代神经网络研究失宠的主要原因是,当时没有人能找到训练多层神经网络的方法。” 简而言之:Minsky 的论文证明,即使在最复杂的层面,Perceptron 类人工智能在思考上也过于二元,阻碍了机器学习处理更复杂任务的能力。在 Minsky 看来,你需要不同的人工智能相互交流,这可能超出了当时硬件的能力。“Minsky 一直认为你需要多种表示、方法和途径,”他说。因此,神经网络开始从公众视野中淡出,迎来了所谓的“AI 寒冬”,人工智能研究资金枯竭,许多研究方向陷入停滞。这包括神经网络,人工智能研究转向了其他焦点。“人们研究了各种东西:专家系统、利用逻辑进行推理、语音识别、计算机视觉和机器人,”Nilsson 说。专家系统旨在将专家的知识库转化为逻辑语句,但由于其能力也被过度炒作,导致了第二种“AI 寒冬”。
卷土重来
但在 1974 年,当时还是哈佛博士生的 Paul Werbos 提出了一种改进神经网络的方法。通过将多个神经网络分层堆叠,某些神经元可以对其他神经元进行误差检查,这个过程称为反向传播,人工智能大脑可以通过这种方式“自我纠错”并寻找新的决策。这很重要。以前的神经网络可能会陷入同一个决策。如果你将多个决策分层以产生最终结果,机器就可以基本上利用神经网络的一部分来检查另一部分。这实际上赋予了它一种分层思考的复杂性。它不再是像 Perceptron 输入那样非黑即白的真/假思考,而是可以通过权衡多个因素来解释一个中性值以做出决策。实际上,它将超越逻辑语句,进入复杂的机器学习领域。这是一篇大胆、前瞻性的论文——也许有点过于前瞻。当时没有任何计算机硬件能够处理如此复杂的运算。Nilsson 还提到了 1986 年加州大学圣迭戈分校的 David E. Rumelhart 和卡内基梅隆大学的 James L. McClelland 出版的《并行分布式处理:认知微观结构探索》的出版。这本书改进了 Werbos 的工作,展示了人脑神经网络的最佳现代图谱,创建了迄今为止最出色的大脑图谱。这张图谱还有助于完善 Werbos 的想法,展示了大脑中神经元的运作方式,以及如何将其应用于人工智能神经网络。你可以通过让其他连接的神经网络计算出更精确的“中性”答案来规避无法理解中性功能的问题。它只需要来自几个领域的推动:“计算机能力的巨大进步和允许‘深度学习’的大型数据库,”正如 Nilsson 所说。这些计算上的进步已经到来。如今,研究人员拥有处理能力,并可以访问存储在“云端”的海量数据,以教授算法新的功能。ADALINE 及其原始的近亲可能已经从公众视野中淡出,因为在过去十年中,机器学习已经独立发展起来。但这场酝酿了几十年的革命,并没有被这些神经网络所阻碍。相反,它们不知何故对当时的时代来说既过于原始又过于先进,但它们的时代无疑已经到来。













