广告

计算机利用人类大脑力量破译褪色的文本

了解一个反垃圾邮件程序如何利用众包来数字化《纽约时报》的档案,通过 reCAPTCHA 实现。

Google NewsGoogle News Preferred Source

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

在一个互联网驱动的 "众包" 的绝佳例子中,即把一项大型任务分配给许多贡献者的方法,研究人员正在使用一个反垃圾邮件程序,让人们一次破译一个单词的受损或褪色的文本。

广告

如果你曾在 Facebook、Craigslist 或 Ticketmaster 上解决过那些扭曲的单词测试以确保账户安全,那么你可能已经帮助《纽约时报》更接近其从 1851 年到 1980 年的整个印刷报纸档案的数字化 [CNET]。

该程序被称为 reCAPTCHA,被广泛用于确保是人类而不是垃圾邮件机器人正在评论博客(包括一些《发现》的博客)并注册免费电子邮件帐户。

“每天都有越来越多的网站采用 reCAPTCHA,因此转录的速度也在不断加快,”首席研究员路易斯·冯·安 (Luis von Ahn) 说道。“每天有超过 400 万个单词被转录。要匹配我们每周的产量,需要超过 1500 人每周工作 40 小时,以每分钟 60 个单词的速度工作” [电讯报]。

这项服务对任何网站都是免费的。安的实验室使用两种不同的光学字符识别 (OCR) 软件程序来扫描旧书或报纸文章,并将其转换为数字化的可搜索文件。但是,当程序对一个单词的解读意见不一致时,该单词就会被添加到 reCAPTCHA 数据库中,并用作反垃圾邮件谜题的一部分。根据发表在《科学》杂志上的一份报告 [科学(需要订阅)],人类以 99% 的准确率破译这些单词。2000 年,冯·安帮助发明了第一个“CAPTCHA”,即“完全自动公共图灵测试以区分计算机和人类”,向早期的计算机科学家艾伦·图灵致敬。新的 reCAPTCHA 巧妙地将一项有用的任务融入到已经成为一种日常互联网活动中。

安说:“我们正在证明,我们可以利用人类的努力——人类的处理能力——否则会被浪费,并将其重新导向以完成计算机尚未能够解决的任务” [Wired News]。

去年,《发现》杂志看到人类如何在亚马逊机械 Turk 上充当 人造人造智能,这是另一个众包的绝佳例子。图片:科学/AAAS

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章