自己动手学语言学 | 发现杂志

你可能听说过 Google 为学术界提供了一个庞大的新数据库。令人高兴的是，他们也与我们这些空想的宅男分享了他们的新玩具。

在过去的几年里，Google 及其大学合作伙伴一直在将他们能拿到的每一本书扫描到可搜索的Google 图书资源中。尽管有诉讼，他们还是收集了超过 1500 万本书。与此同时，一支由研究人员 Jean-Baptise Michel 和 Erez Lieberman Aiden 领导的哈佛团队一直在深入挖掘这个庞大的数据宝库，并从中提取出各种宝藏。

对于上周发表在《科学》杂志上的第一篇研究，作者将数据集缩小到只包含最可靠的书籍——例如，排除了扫描模糊或出版日期不确定的书籍。最终的数据集包含 500 万本书。通过搜索数据库中的单词和短语（n-grams），研究人员能够追踪英语语言的模式和变化。你可以通过上面的链接（需要免费注册）阅读他们的完整研究，并查看所有图表。

在其他发现中，他们展示了英语单词的数量是如何稳步增加的...

当不规则形式的动词被更规则的单词取代时...

以及纳粹如何有效地将犹太艺术家马克·夏加尔从公众视野中抹去。

想自己试试吗？你可以使用 Google 的n-gram 工具制作自己的单词图表。以下是我发现的一些东西：

虽然“men”（男性）在 20 世纪 80 年代之前远远超过“women”（女性），但“boys”（男孩）和“girls”（女孩）的匹配度更高。孩子们在 20 世纪中期的人气有所增加，这可能是因为当时出版了许多育儿书籍。但大约在“women”超过“men”的时候，“girls”也超过了“boys”。

在过去的一个世纪里，遗传学已成为解释我们特质和倾向的越来越流行的方式。在此之前，我们有什么呢？其中之一是头部隆起（phrenology，颅相学）。

新发现的科学原理有一个陡峭的学习曲线，一旦人们理解了就会进入平台期。全球变暖将在哪里趋于平稳仍有待观察。

幸运的是，我们不是一代人坐视不理，认为发生在这个星球上的事情超出了我们的控制范围。