广告

数据挖掘如何可视化推特上的故事线

一个庞大的新数据集揭示了推特上词语和短语的流行度以及它们随时间的变化。

Google NewsGoogle News Preferred Source
图片来源:PopTika/Shutterstock

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

数字化书籍和历史文本工作的一个有趣的副作用是,能够搜索这些数据库中的词语,了解它们首次出现的时间以及随时间的使用频率如何变化。

广告

Google Books n-gram语料库是一个很好的例子(n-gram 是 n 个词的序列)。输入一个词或短语,它就会显示自1800年以来它的相对使用频率。例如,“Frankenstein”这个词首次出现在1810年代末,并且自那时以来一直受欢迎。

相比之下,“Harry Potter”这个短语出现在1990年代末,迅速走红,但从未超过 Frankenstein——或 Dracula。考虑到 J.K. Rowling 的青少年魔法师前所未有的全球知名度,这可能有些令人惊讶。

而这正是基于过时、纸质技术数据库的问题所在。Google Books 语料库记录了“Harry Potter”在每一本小说、文章和文本中出现的次数,而不是它被印刷和销售的数百万次。没有办法说明这种名气有多大,或者它如何让其他人黯然失色。

今天,这种情况发生了改变,这要归功于佛蒙特大学计算故事实验室的 Thayer Alshaabi 和他的同事们。这个团队创建了一个可搜索的数据库,包含超过150种语言的1000多亿条推文,其中包含超过一万亿个1-gram、2-gram 和 3-gram。这大约是自2008年9月以来所有推特消息的10%。

数据可视化

该团队还开发了一个名为 Storywrangler 的数据可视化工具,该工具可以根据单词或短语被推文和转推的次数来显示它们的流行度。该数据库显示了这种流行度如何随时间而波动。

Alshaabi 和同事表示:“在构建 Storywrangler 时,我们的主要目标是整理和分享一个丰富的、基于语言的生态系统,该生态系统由来自推特的互相关联的 n-gram 时间序列构成。”

Storywrangler 立即揭示了与各种事件、个人和现象相关的“故事”。例如,它显示了与圣诞节和复活节等宗教节日相关的词语的年度流行度。它讲述了与新电影相关的短语如何在推特世界爆发然后又消失,而电视剧则倾向于继续存在,至少在整个系列生命周期内是如此。它还揭示了诸如 Brexit、Occupy #MeToo 和 Black Lives Matter 等政治社会运动的兴起。

这些故事线还可以与其他数据库进行比较,以提供更细粒度的见解和分析。例如,可以将推特上电影标题的流行度与电影的票房收入进行比较;可以将与疾病相关的词语的出现与官方来源记录的感染数量进行比较;可以将与政治动荡相关的词语与公民不服从事件进行比较。

这很有用,因为这种分析提供了一种研究社会的新方法,可能具有预测性。事实上,计算机科学家们长期以来一直认为社交媒体可以用来预测未来

广告

文化意义

这些故事线也具有社会和文化意义。Alshaabi 和同事说:“我们的集体记忆存在于我们的记录中——我们的书面文本、艺术品、照片、音频和视频——以及我们对历史的重述和重新诠释中。”

现在任何人都可以使用 Storywrangler 来研究它。试试看,它很有趣。

广告

至于 Harry Potter、Frankenstein 和 Dracula,Storywrangler 讲述的故事与 Google Books n-gram 语料库不同。Harry Potter 在推特上的受欢迎程度远远超过他严肃的前辈,而且一直如此。2011年,Harry Potter 是推特上排名第44位的流行词,而 Dracula 的最高排名从未超过第2653位。Frankenstein 的最佳排名是第3560位。

当然,声名显赫是一件变化无常的事情,一个有趣的问题是,在出版两百年后,Harry Potter 的表现是否会像 Frankenstein 一样。Storywrangler 或其未来的同类产品肯定能够提供帮助。


参考:Storywrangler: A massive exploratorium for sociolinguistic, cultural, socioeconomic, and political timelines using Twitter. arxiv.org/abs/2007.12988

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章