核心观点：DARPA挑战赛激发了四项让计算机效率提升40倍的计划

去年10月，中国的天河一号A以2.5拍（petaflops）的算力登上了世界最强大超级计算机的宝座，意味着它每秒可以执行2.5千万亿次运算。这个头衔可能不会保持太久，因为IBM表示其20拍（petaflop）的巨型计算机Sequoia将于明年上线。

展望未来，工程师们将目光投向了更远大的目标，即比天河一号A快千倍的计算机，它们能够以前所未有的精度模拟全球气候，模拟分子相互作用，并追踪恐怖活动。这样的机器将运行在所谓的“百亿亿次级”（exascale）领域，每秒进行百亿亿（即1后面有18个零）次计算。

超级超级计算最大的障碍是能源。如今的超级计算机消耗超过5兆瓦的电力。基于相同原理建造的百亿亿次级计算机将消耗100到500兆瓦的电力——大约相当于一座小型城市的用电量。按照当前价格，仅一台这样的机器每年的电费就可能高达5亿美元，桑迪亚国家实验室的计算机架构师Richard Murphy说道。

为了避免这种不理想的未来，Murphy正在领导四个开发能效型超级计算机的团队之一，参与由军方实验研究部门——国防高级研究计划局（Defense Advanced Research Projects Agency，简称Darpa）组织的“无处不在的高性能计算”（Ubiquitous High-Performance Computing）项目。该机构最终希望将强大的计算能力从大型设施转移到野外作业，或许可以集成到战斗机中，甚至装进特种部队士兵的背包里。

该项目于去年启动，挑战科学家们在2018年前构建一台功耗不超过57千瓦的百亿亿次级计算机——换句话说，它必须达到当今最强劲计算机40%的速度，同时只消耗1%的电力。

能够通过最初的设计、模拟和原型构建阶段的团队，可能会有机会为Darpa建造全尺寸的超级计算机。能够通过选拔将需要对计算机设计进行彻底的重新思考。传统的计算机几乎所有的工作都涉及在内存芯片和处理器（或多个处理器）之间搬运数据。处理器通过调用内存中存储的数据来执行编程代码，完成诸如排序电子邮件和进行电子表格计算等任务。当任务较小时，这种交换所需的能量是可以管理的——处理器需要从内存中获取的数据量较少。然而，超级计算机需要处理海量数据——例如，在模拟两个黑洞合并时——所需的能量需求会变得非常大。“这一切都取决于数据的移动，”Murphy说。

参赛者将共享一种基本的策略，以提高这种数据来回移动的效率。这项技术被称为分布式架构，它通过为每个处理器配备自己的内存芯片组来缩短数据传输的距离。它们还将采用类似的能耗监测设计。

除此之外，团队还将追求不同的策略。“既有竞争也有合作，”英特尔项目负责人Wilfred Pinfold说，“而且不会只有一个答案。”

桑迪亚国家实验室的项目名为X-caliber，将尝试通过一种称为“智能内存”（smart memory）的技术进一步限制数据加载，这是一种具有基本处理能力的存储形式。在内存中执行简单计算而不必将数据移出，与当今的超级计算机相比，能耗会降低一个数量级。“我们将工作移到数据所在的位置，而不是将数据移到计算发生的地方，”Murphy说。

英特尔的项目名为Runnemede，通过创新的技术来提高系统的效率，这些技术可以选择性地降低或关闭单个组件的电源，伊利诺伊大学的计算机科学家、该团队的架构师Josep Torrellas说。他和他的同事正在设计包含约1000个处理器芯片，这些处理器被组织成可以独立控制电压的组，以便每个组在特定时刻只获得其所需电量。

图形芯片制造商NVIDIA领导着第三个研究方向，名为Echelon，该项目基于该公司图形处理芯片的功能。根据架构总监Stephen Keckler的说法，与传统处理器相比，这些处理器每个指令的能耗仅为传统处理器的七分之一。图形芯片可以高效地同时执行许多操作，而传统处理器则尽可能快地一次执行一个操作。Echelon团队计划将其图形处理器与标准处理器相结合，以便其计算机能够自动为手头的任务选择最合适的组合。

最后，位于麻省理工学院（MIT）的Angstrom项目正在创建一个可以即时自我调整以降低能耗的计算机。该系统通过一个搜索过程来优化使用处理器数量等设置，项目负责人、麻省理工学院计算机科学家Anant Agarwal说。他表示，作为计算领域的首创，它甚至能够根据算法的能效自动选择算法。“其他方法通常要求程序员同时关注性能优化和能耗使用，这非常困难，”Agarwal说。

尽管Darpa挑战赛侧重于超级计算机，但它催生的技术很可能会渗透到整个行业，进入数据中心、汽车计算机和手机。今天的台式机已经可以媲美20世纪80年代末期的顶级超级计算机；到2020年，我们使用的笔记本电脑的性能可能就会超过天河一号A。如果Darpa的四个超高效开发团队取得成功，我们甚至可能把充电器留在家中。

热门词汇

Flops

每秒浮点运算次数，是衡量计算能力的标准。

百亿亿次级计算 超级计算比当前前沿水平高三个数量级，每秒可进行百亿亿次计算。

智能内存 一种具有自身计算能力的存储形式。这种内存减少了将数据移至处理器的需求。

分布式架构 一种多处理器计算机系统，其中每个处理器都有自己专用的内存芯片组。