广告

计算机算法可以识别醉酒的推特用户

了解如何通过机器学习分析醉酒推文,以饮酒行为数据重塑公共卫生决策。

Google NewsGoogle News Preferred Source

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

(图片来源:wavebreakmedia/Shutterstock) 醉酒发推,长期以来被视为社交媒体时代一种不幸但普遍存在的副产品,如今终于得到了善用。通过机器学习算法的帮助,罗切斯特大学的研究人员将提及饮酒量的推文与地理标签信息进行交叉比对,以广泛分析人类的饮酒行为。他们能够估算出人们在何地、何时饮酒,并在一定程度上了解他们在酒后是如何表现的。这项实验不仅仅是对社会现象的批判——该算法有助于研究人员发现能够为公共卫生决策提供信息的饮酒模式,并且可以应用于一系列其他人类行为。

广告

#醉酒发推

首先,研究人员借助亚马逊的 Mechanical Turk,对纽约市和纽约农村地区的部分推文进行了筛选。用户识别与饮酒相关的推文,并挑选出诸如“醉酒”、“伏特加”和“嗨翻”等关键词来训练算法。他们对每条相关推文进行一系列越来越严格的筛选问题,以便精准定位那些不仅提及作者在喝酒,而且表明他们是在*发送推文的同时*在喝酒的推文。这样,他们就可以确定一个人是真正在*边喝酒边发推*,还是仅仅在发送关于饮酒的推文。一旦他们建立了一个可靠的关键词数据库,就可以微调算法,使其能够识别可能证明人们在饮酒的词语和地点。为了获取推特用户的地点信息,他们只使用了带有Twitter“签到”功能进行地理标记的推文。然后,他们通过查看用户在晚上发送推文时的位置,以及包含“家”或“床”等词语的推文,来估算用户的家庭住址。这让他们知道用户是喜欢在家饮酒还是在酒吧或餐馆外出饮酒。

热力图显示了人们饮酒和发推的地点。在纽约市,饮酒热点是曼哈顿下城及其周边地区。在门罗县,人们饮酒的地点是罗切斯特市中心(中心)和布罗克波特市(左侧)。(图片来源:Hossain等) 结合这两个数据集,研究人员对特定区域或特定时间饮酒的人数有了大致的了解。不出所料,他们发现了酒吧数量与人们饮酒量之间的相关性——酒吧越多,醉酒的人越多。纽约市在这两者之间的相关性更强,证明了都市人确实更喜欢喝酒。颇具讽刺意味的是,他们的数据还显示,城市居民在家饮酒并将其发到推特的可能性更高。他们的工作建立在之前试图将人们的推文与特定活动和地点联系起来的研究之上。他们表示,通过使用签到功能,他们的系统比其他系统更准确,并且可以可靠地将人们定位在实际位置一个街区之内。他们发布了他们的研究成果在预印本服务器arXiv上。

Twitter 提供丰富的数据集

知道在特定时间有多少人喝醉可能很有趣,但研究人员表示,这项实验旨在证明算法可以使用广泛可用的数据来追踪各种行为。人们在Twitter上记录的其他活动,如吃饭、购物或锻炼,都有可能成为机器学习算法梳理和分析的目标。潜在地,任何带有相关标签或关键词的内容都可以被追踪。然而,使用Twitter作为行为信息来源也存在一些明显的缺点。正如研究人员指出的那样,Twitter用户的群体特征往往比美国其他人口年轻化,少数族裔比例更高,这意味着从该服务提取的任何数据集都会不成比例地代表这些群体。此外,一些可能引起公共卫生官员关注的行为,如药物使用,由于依赖于自我报告,因此不太可能出现在研究人员的算法中。尽管如此,该模型在收集关于我们习惯的坦率信息方面仍显示出潜力。Twitter是一个众所周知的无过滤环境,可以近距离(有些人认为太近了)观察我们的思想和行为。结合从地理标记到人口统计细分等各种数据分析工具,Twitter可能是社会科学家的最佳助手。

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章