广告

自制语言学

了解 Google 图书资源如何通过哈佛研究人员分析 500 万本书来追踪英语趋势,从而改变语言研究。

Google NewsGoogle News Preferred Source

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

可能听说过 Google 为学术界提供了一个庞大的新数据库。令人高兴的是,他们也与我们这些空想的宅男分享了他们的新玩具。

广告

在过去的几年里,Google 及其大学合作伙伴一直在将他们能拿到的每一本书扫描到可搜索的Google 图书资源中。尽管有诉讼,他们还是收集了超过 1500 万本书。与此同时,一支由研究人员 Jean-Baptise Michel 和 Erez Lieberman Aiden 领导的哈佛团队一直在深入挖掘这个庞大的数据宝库,并从中提取出各种宝藏。

对于上周发表在《科学》杂志上的第一篇研究,作者将数据集缩小到只包含最可靠的书籍——例如,排除了扫描模糊或出版日期不确定的书籍。最终的数据集包含 500 万本书。通过搜索数据库中的单词和短语(n-grams),研究人员能够追踪英语语言的模式和变化。你可以通过上面的链接(需要免费注册)阅读他们的完整研究,并查看所有图表。

在其他发现中,他们展示了英语单词的数量是如何稳步增加的...

当不规则形式的动词被更规则的单词取代时...

以及纳粹如何有效地将犹太艺术家马克·夏加尔从公众视野中抹去。

广告

想自己试试吗?你可以使用 Google 的n-gram 工具制作自己的单词图表。以下是我发现的一些东西:

虽然“men”(男性)在 20 世纪 80 年代之前远远超过“women”(女性),但“boys”(男孩)和“girls”(女孩)的匹配度更高。孩子们在 20 世纪中期的人气有所增加,这可能是因为当时出版了许多育儿书籍。但大约在“women”超过“men”的时候,“girls”也超过了“boys”。

广告

在过去的一个世纪里,遗传学已成为解释我们特质和倾向的越来越流行的方式。在此之前,我们有什么呢?其中之一是头部隆起(phrenology,颅相学)。

新发现的科学原理有一个陡峭的学习曲线,一旦人们理解了就会进入平台期。全球变暖将在哪里趋于平稳仍有待观察。

广告

幸运的是,我们不是一代人坐视不理,认为发生在这个星球上的事情超出了我们的控制范围。

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章