根据一项新的数据挖掘研究,几乎所有西方文学都可以整齐地归纳为六个故事弧线。
在西方社会创作的众多小说中,出现了独特的叙事模式,许多人试图确定故事的形态并对主人公的旅程进行分类。法国作家乔治·波尔蒂声称有36种不同类型的戏剧故事,而其他人则统计出七种叙事弧线或20种。
但佛蒙特大学利用数据挖掘技术进行的新研究表明,大多数西方经典作品都属于六个基本类别之一。
故事的轨迹
计算故事实验室的研究人员在他们的研究中查看了来自古腾堡计划的1700多本书,筛选掉字典或下载量少于150次的书。他们通过从故事中抽取文本样本(他们称之为“窗口”)来分析每本书的内容。他们使用恰如其分的“享乐仪”(也由计算故事实验室开发),编制了一份包含10,000多个单词的列表,并使用亚马逊的Mechanical Turk服务对它们在正负谱上进行评分。他们于上个月在arXiv.org上发表了他们的研究结果。
将这些“窗口”在整本书中进行累加,生成了人物命运(高潮和低谷)的图表,并生成了故事弧线的广阔可视化。根据研究人员的说法,这些是西方文学中反复出现的六个故事弧线:
“白手起家”(故事随着时间推移变得越来越好);
“困境中的人”(财富下降,但主人公反弹);
“灰姑娘”(好运初期上升,随后遭遇挫折,但结局幸福);
“悲剧”或“由富变贫”(事情只会变得更糟);
“俄狄浦斯”(厄运,随后出现希望,最终再次跌落);
“伊卡洛斯”(以好运开头,但注定失败)。

西方文学中的六个主要故事弧线。从左上角开始:白手起家、困境中的人、灰姑娘、悲剧、俄狄浦斯、伊卡洛斯。(图片来源:Reagan 等/佛蒙特大学)
里根等人/佛蒙特大学
西方文学中的六个主要故事弧线。从左上角开始:白手起家、困境中的人、灰姑娘、悲剧、俄狄浦斯、伊卡洛斯。(图片来源:Reagan 等/佛蒙特大学)
虽然有些故事不符合这些原型,但研究人员表示,大多数西方经典作品都属于这些类别之一。“困境中的人”和白手起家的故事线似乎是最普遍的,具体取决于他们应用于数据的统计技术。
研究人员确实指出,他们的技术只会跟踪情感效价随时间变化的广泛变化,而忽略在句子或段落层面发生的变化。例如,他们详细分析了《哈利·波特与死亡圣器》,该书无法完美地归入任何一个类别。

截图-2016-07-06-14.05.49-1024x476
然而,当整个七本书的系列被视为一个整体时,它产生了一个更明确的“白手起家”故事,符合既定的弧线。
此外,他们的过程无法区分多个角色的命运,这对于具有多个故事线的小说来说可能是一个问题——他们的程序肯定会难以处理像《权力的游戏》这样复杂的作品。相反,他们的算法将角色归为一类,并跟踪整本书从头到尾的整体情感基调。
我们如何谈论自己
古腾堡藏品是经典作品的汇编,但没有对更现代的故事进行采样。再次回到《权力的游戏》,有许多现代小说讲述了更复杂的故事,并包含情感模糊性,模糊了故事弧线,使得精确定义变得困难。
此外,研究人员只研究了西方经典作品——分析其他文化的故事可能会产生非常不同的趋势,并暗示不同的偏好。他们表示,希望在未来的研究中纳入来自其他国家的小说。
尽管他们的工作暗示了主导西方文化的一些更广泛的思维模式,但研究人员表示,它也可以帮助教计算机更好地进行交流。教导人工智能构建遵循流行弧线的故事,可以让他们形成更好的论点并更准确地关联概念。那些人工智能作家,即使是接受莎士比亚训练的,在引人入胜(甚至可理解)方面都有些不足。阅读特定文化中出现的故事,可以独特地洞察其规范、实践和整体思维模式。如果我们要教计算机像我们一样思考,它们就需要了解我们如何看待世界。














