广告

新兴技术

计算机比人类更有资格批改学生的论文考试吗?

Google NewsGoogle News Preferred Source

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

Pearson Education Measurement 每年为 4000 多万份学生能力测试评分,并在 2 月份宣布将开始使用计算机批改学生论文。在扫描了数十年的 2B 铅笔点之后,机器已经进步到了散文。而这一进步的关键在于一项名为“潜在语义分析”的巧妙过程,这是研究人员和企业正在探索的几种技术之一,旨在诱使机器理解词语串的含义,而不仅仅是操作它们。

广告

插画:Leo Espinoza

计算机能够进行比计算选择题答案更复杂的评估的想法,让家长和老师们感到担忧。如果计算机仍然无法分辨收件箱中的那些男性增大邮件是垃圾邮件,它们又怎能评估一本关于《太阳照常升起》的书的优点呢?事实证明,训练机器批改论文的过程与训练人工批改者的方式相似。

传统上,人工批改者会看到优秀、中等和差的论文样本,并被指示根据这些模型来评分。被称为“智能论文评估器”的计算机评分器,根据文档中的用词模式,将这些样本论文绘制成概念空间中的点。接近优秀模型风格的学生论文会获得 A,而映射到中等模型附近的则获得 C。

软件是如何做到的?首先,想象一下您正在查找一本百科全书条目集中的关系。您首先将所有条目的合并文本输入计算机。然后,软件会创建一个主要单词列表,丢弃代词、介词、冠词等。假设在这个过程结束时,软件确定汇编中有 10,000 个独特的单词。计算机然后设定一个包含 10,000 个维度的想象空间——每个维度对应一个单词。每个百科全书条目在该空间中占据一个特定点,这取决于构成该条目的具体单词。在空间中彼此靠近的文档,在含义上也彼此靠近,因为它们共享许多相同的概念。处于空间相对两端的文档,彼此之间无关。要在不同文档之间建立微妙的关联,只需在网格上绘制一个文档并找到其邻近文档即可。

多维网格能够识别文档之间的语义相似性,即使文档本身不包含相同的单词。这解决了传统基于关键词的搜索引擎的常见弊端:您搜索关于“狗”的信息,而搜索引擎却忽略了所有谈论“犬科动物”的页面。“潜在语义分析”软件足够智能,可以识别狗和犬科动物是密切相关的术语,如果您正在搜索其中一种,您可能对另一种也感兴趣。

网格通过将维度总数压缩到更易于管理的数量(300 而不是 10,000)来突出这些连接。每个单词都与每个维度存在一个分数关系:“猫”可能与一个维度有七成的关联,与另一个维度有一成的关联。如果“狗”和“犬科动物”都与特定维度有九成的相关性,那么该软件就会假定单词之间存在语义关系。

到目前为止,一切顺利,但您可能想知道,为什么只根据使用正确的单词来评分,而不奖励聪明才智。程序员们很快承认,该软件在衡量创造力或其他经典指标方面并不擅长。然而,该软件对散文的复杂性和相关性非常敏感:如果您被要求写一篇关于大萧条的论文,结果却谈论棒球,那么您的分数会很低。如果您的句子重复且词汇量贫乏,您也无法获得好分数。但是,该软件在检测其他明显问题方面却很困难:从软件的角度来看,“第二次世界大战发生在第一次世界大战之后”和“第一次世界大战发生在第二次世界大战之后”这两个句子之间没有真正的区别。潜在语义分析可以很好地评估一篇论文是否切题且语言是否精炼,但人类批改者在确定论点是否合理方面仍然要好得多。

K-A-T 公司(“智能论文评估器”的制造商)的副总裁 Jeff Nock 表示:“我们区分高风险和中风险考试。“高风险考试是指:这次考试决定你是否能上大学。中风险是指:我正在准备参加一次高风险考试。”Pearson Education Measurement 已获得该软件的许可,用于批改其预备考试,但高风险论文仍由人工批改。

一款名为 Summary Street 的新软件应用程序允许教师提交特定的课程阅读材料,然后分析学生对该材料的报告,以衡量他们总结原文的程度。如果学生忽略了重要的主题,该软件会发出警报。

广告

尽管如此,Nock 还是设想了计算机化评分在关键考试环境中的未来:“目前,标准化考试中的论文由两名人工批改者分别评估——如果对一篇论文有分歧,就会交给第三个人。我们认为,潜在语义分析将来可以取代最初的两名批改者中的一名。机器能带来很多东西。培训人工批改者成本很高。而潜在语义分析方法能为过程带来更多一致性。机器不会有糟糕的日子。”Nock 还设想,教师和学生将把该软件用作写作教练,分析学校论文的早期草稿并提出改进建议,这比拼写检查和语法检查更进一步。

如果我们都能负担得起让私人导师阅读我们的初稿,我们无疑会更好,但计算机化的写作教练可能比没有教练要好。而最近的实验表明,文本分析有时可以揭示人类分析难以发现的含义。

广告

人类阅读遵循时间顺序:您从句子的开头开始阅读,一直读到结尾。软件不够智能,无法理解句子,但它可以分析词语选择的变化模式。康奈尔大学的研究员 Jon Kleinberg 在创建一种分析“词语爆发性”的工具时,就利用了这项技能。它与潜在语义分析相似,因为它能检测文本模式,但它专门用于按时间顺序分析语义变化。该软件将文档存档视为一个叙事——在故事的每个点,某些词语会突然流行起来,而其他词语则会失宠。借用计算机网络流量研究的术语,Kleinberg 将这些词称为“爆发词”。它们沉寂数月或数年,然后突然爆发到通用词汇中。

Kleinberg 通过分析一份关于高能物理学研究的论文存档来测试他的软件,他声称对这个领域一无所知。该软件扫描文档,并按时间顺序返回一个使用量突然激增的词语列表。“计算机实际上是在说:‘我也不知道这些词是什么意思,但它们在 20 世纪 70 年代末受到了很大关注。’ Kleinberg 说,‘这让你对一个未知的文献体有了切入点。’至少,下次你在鸡尾酒会上遇到一位高能物理学家,他开始谈论他对超弦的研究时,你可以通过说‘弦理论?那已经是 1992 年的事情了!’来给他留下深刻印象。”

但由于软件以一种非常不寻常的方式“阅读”文本,该工具也让我们能够发现我们已经了解的文档中的新属性。Kleinberg 最有趣的应用是分析自 1790 年以来的国情咨文。阅读过去演讲中爆发词的列表,就像浏览一本为多动症儿童设计的历史书页面。大多数情况下,这是一系列显而易见的词语爆发:在 19 世纪 60 年代初,奴隶、奴隶制解放出现在国家舞台上;在 20 世纪 30 年代,萧条、复苏银行

就在你认为软件在展示它对显而易见的洞察力时,你却看到了 20 世纪 80 年代。突然间,爆发词从历史事件转向了更朴实的表达方式:我、有、我们。观察者可以切实地看到罗纳德·里根在这些缩略语中重塑了美国政治的语言,将国情咨文从正式演讲转变为亲切的炉边谈话。这种语言中没有“八十年前”或“不要问”的痕迹,只有一种更适合电视的亲近感。

广告

这是新闻吗?我们知道里根为总统任期带来了更受欢迎的风格,但我们并不一定知道他使用的句法工具。作为听众,我们凭直觉就能理解“我们将会”和“我们将”之间有着天壤之别——一个正式,一个亲切——但我们却不知道是什么语言机制促成了这种转变。通过克莱因伯格软件的视角,这种机制立刻显现出来,就像 presidential oratory(总统的演讲)的暗淡灰色中挥舞的红旗一样。计算机仍然不知道里根在说什么,但它帮助我们看到了他演讲中一些我们可能忽略的东西。正如克莱因伯格所说,它为我们提供了一个切入点。

查看 K-A-T(知识分析技术公司)的网站,该公司是“智能论文评估器”的制造商:www.k-a-t.com。除了产品描述外,该网站还有一些您可以尝试的演示。一些演示提供了大学和高中级别的范文,您可以对其进行样本评估。您还可以创建自己的论文,看看您的作品表现如何。另一个演示要求您写一篇中学水平的文章,然后对其进行评估——这可能是一次令人谦卑的体验:www.k-a-t.com/HRW12Demo/HRW12.html

康奈尔大学的一份新闻稿描述了 Jon Kleinberg 在搜索技术方面的工作,并列出了国情咨文中 150 个“爆发词”:www.news.cornell.edu/releases/Feb03/AAAS.Kleinberg.bursty.ws.html

Kleinberg 的主页包含论文链接和他的当前研究描述:www.cs.cornell.edu/home/kleinber

广告

浏览过去几天网络日志中最具爆发性的词语列表,了解博客社区的热门话题:www.daypop.com

了解 Steven Johnson 的最新动态,请访问他的网站,您还可以找到他最近为《发现》杂志撰写的一些文章的链接:www.stevenberlinjohnson.com

广告

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章