你可能听说过 Google 为学术界提供了一个庞大的新数据库。令人高兴的是,他们也与我们这些空想的宅男分享了他们的新玩具。
在过去的几年里,Google 及其大学合作伙伴一直在将他们能拿到的每一本书扫描到可搜索的Google 图书资源中。尽管有诉讼,他们还是收集了超过 1500 万本书。与此同时,一支由研究人员 Jean-Baptise Michel 和 Erez Lieberman Aiden 领导的哈佛团队一直在深入挖掘这个庞大的数据宝库,并从中提取出各种宝藏。
对于上周发表在《科学》杂志上的第一篇研究,作者将数据集缩小到只包含最可靠的书籍——例如,排除了扫描模糊或出版日期不确定的书籍。最终的数据集包含 500 万本书。通过搜索数据库中的单词和短语(n-grams),研究人员能够追踪英语语言的模式和变化。你可以通过上面的链接(需要免费注册)阅读他们的完整研究,并查看所有图表。
在其他发现中,他们展示了英语单词的数量是如何稳步增加的...

当不规则形式的动词被更规则的单词取代时...


以及纳粹如何有效地将犹太艺术家马克·夏加尔从公众视野中抹去。

想自己试试吗?你可以使用 Google 的n-gram 工具制作自己的单词图表。以下是我发现的一些东西:
虽然“men”(男性)在 20 世纪 80 年代之前远远超过“women”(女性),但“boys”(男孩)和“girls”(女孩)的匹配度更高。孩子们在 20 世纪中期的人气有所增加,这可能是因为当时出版了许多育儿书籍。但大约在“women”超过“men”的时候,“girls”也超过了“boys”。

在过去的一个世纪里,遗传学已成为解释我们特质和倾向的越来越流行的方式。在此之前,我们有什么呢?其中之一是头部隆起(phrenology,颅相学)。

新发现的科学原理有一个陡峭的学习曲线,一旦人们理解了就会进入平台期。全球变暖将在哪里趋于平稳仍有待观察。

幸运的是,我们不是一代人坐视不理,认为发生在这个星球上的事情超出了我们的控制范围。














