当他的朋友们涌向 Facebook 和 MySpace 等社交网络时,卡内基梅隆大学信息技术副教授 Alessandro Acquisti 担心所有这些在线共享的弊端。“个人信息并不是特别敏感,但当您将这些零散的信息组合在一起时,会发生什么?”他问道。“您可能会得出一个比单个碎片信息更敏感的结论。”
Acquisti 在一项研究中测试了他的想法,该研究报道于今年早些时候在《美国国家科学院院刊》上。他收集了许多人会在网上发布的看似无害的个人信息(出生地和出生日期,这两者经常发布在社交网站上),并将其与美国社会保障管理局的公开数据库死亡人员主数据库中的信息相结合。经过一番巧妙的分析,他发现仅需尝试 1000 次,就能有 8.5% 的概率确定某人的社会保障号码。数据盗窃者可以轻松做到同样的事情:他们可以反复尝试登录银行账户页面,直到猜中为止,然后就可以疯狂消费。借助自动化程序,进行数千次尝试轻而易举。
Acquisti 发现,问题在于死亡人员主数据库编号的生成方式是可预测的。通常,社会保障号码的前三位数字,“区域号码”,基于某人的出生地邮政编码;接下来的两位,“组号码”,在特定区域号码组内按预定顺序分配;最后四位,“序列号”,在每个组号码内按连续顺序分配。当 Acquisti 将出生信息和对应的社会保障号码绘制在图上时,他发现具有给定出生日期和出生地的人可能分配到的 ID 范围是有限的,这使得梳理所有可能性变得相当容易。
为了检查他猜测的准确性,Acquisti 使用了一个列表,该列表包含在社交网络上发布了出生信息的学生,并且他们的社会保障号码已被其就读的大学匿名匹配。他的系统奏效了——这又一个原因,说明您永远不应将社会保障号码用作敏感交易的密码。
欢迎来到令人不安的数据挖掘世界,这是一种(有些人可能说是黑魔法)从中提取大量信息中重要或敏感片段的精湛技艺,这些信息几乎围绕着我们所有人。由于数据在网上几乎可以永久存在——只需查看Internet Archive Wayback Machine,几乎所有曾经出现在互联网上的内容都保存在那里——您今天发布的看似无害的信息,多年后可能会回来困扰您。
幸运的是,如今数据挖掘的主要从业者并非罪犯。解读数据聚类已成为一项大生意,是政治中的强大力量,也是政府的有力工具(尽管很多人可能反对自己的数据被这些人窥探)。数据驱动的目标选民定位在巴拉克·奥巴马的选举中发挥了巨大作用;定向营销已为 1-800-Flowers 等公司带来了创纪录的增长。
随着我们数据量的不断扩大,这些活动必将增加。在不久的将来,面部识别软件将仔细检查在线照片以识别“匿名”个体;软件程序将秘密扫描政府网络上的电子邮件;可植入的医疗设备甚至可能直接将您的健康数据传输给您的医生。隐私倡导者警告说,随着所有这些信息四处传播,不可避免的是,其中一些信息将以某种方式落入不法之徒手中——或者至少会出现在您不希望它们出现的地方。
在互联网出现之前,我们有数量上的安全:分散、难以访问的数据库中包含我们敏感详细信息的庞大数据量。将所有这些信息汇集在一起需要大量人力。政府和公司保存着庞大的个人和人口统计数据库,但没有办法即时地将信息从一个地方传输到另一个地方。这种情况在科学家们开始将计算机相互连接(主要是通过创建 Arpanet,即互联网的前身)的 20 世纪 60 年代发生了改变。结果是,信息不再局限于单台计算机。它可以传输到网络上连接到的任何计算机。
信息的在线迁移引起了早期预测分析师的注意,例如现任芝加哥国家数据挖掘中心主任的 Robert Grossman。Grossman 为希望利用数据更好地定位客户并提高利润率的公司提供咨询。他和他的同事多年来一直致力于研究统计分析方法,这些方法能够处理复杂的数据集并从中提取出显著的模式。相关详细信息可以轻松地从人口普查记录、Experian 和 Equifax 等信用报告机构以及 Phorm 等消费数据挖掘公司获取。当您拥有一组详细的人群信息时——例如,他们的政治观点、居住的房屋类型以及他们喜欢的电影类型——就会出现明显的聚类模式。
为了找到这些模式,Grossman 等数据挖掘者首先将他们收集到的事实绘制在散点图上,这是一个拥有与正在评估的个人特征(如年龄、婚姻状况、性别和地理位置)数量相同的维度的假想图。Grossman 将这些因素组合成大约 180 个细分市场。然后,公司可能会创建十几种不同的销售方案,并将其定位到特定的细分市场。其中一些定位很直接:新婚女性可能会收到家具广告。一些是基于更微妙的行为形式:单身男性更有可能收到会移动的在线广告。还有一些则纯粹是狡猾的。如果您有 Gmail 账户,打开一封电子邮件将触发广告投放,这些广告不仅基于您的人口统计信息,还基于该特定邮件的内容。
Grossman 不会透露他合作的公司名称,但 1-800-Flowers 是从这类数据挖掘中获利的其中一家公司。该公司自 2003 年以来一直在监控其客户的行为并筛选购买习惯数据。(1-800-Flowers 与许多大型零售商一样,使用商业分析公司 SAS。)该公司不再像传统广告商那样以同一种方式触达所有客户,而是定位特定的子群体。据 1-800-Flowers 的企业客户知识副总裁 Aaron Cano 称,有计划者和最后一刻购买者。计划者在购买前收到优惠。最后一刻购买者则收到活动提醒邮件。
当 1-800-Flowers 启动其分析计划时,第三季度收入达到 1.241 亿美元,比去年同期增长 7.5%,尽管当时经济正从衰退中复苏。自该计划开始以来,公司还将客户保留率提高了 15% 以上。Brooks Brothers 和 The Limited 也与 SAS 合作,并声称由于他们的数据挖掘计划取得了类似的成功。
没有人比民主党顾问 Ken Strasma 更理解数据分析的变革力量,他通过设计一个数学模型,预测了近乎所有合格选民的政治行为,从而帮助巴拉克·奥巴马入主白宫。Strasma 首先从他的数据库中随机选择了一个大约 10,000 名选民的样本,该数据库包含超过 1 亿人的详细人口统计信息。他的咨询公司随后对这 10,000 名选民进行了电话访谈,以了解他们对广泛政治问题的看法。
掌握了庞大的数据集后,Strasma 开始寻找聚类。他发现了一些奇怪的现象。饮用金酒的人倾向于成为民主党人。军事历史爱好者通常在社会问题上持保守态度。开通了呼叫等待?您可能是共和党人。“我们发现了可能完全不符合直觉的相关性,”Strasma 说。“我们实际上并没有深入了解其中的原因。”但实际上,原因并不重要;只有相关性才重要。
为了弄清楚未接受调查的选民的投票行为,Strasma 应用了所谓的最近邻算法。这项技术根据一系列人口统计指标,将美国 1 亿合格选民中的每一个人与接受调查的人中的一个进行匹配。“选民之间的‘距离’不是物理距离,而是他们基于这些数千个指标的相似或不同之处,”他说。例如,具有相似零售偏好的两名选民可能倾向于以相同的方式投票。Strasma 的最近邻策略帮助奥巴马竞选团队精确调整了他们的邮件、广告和捐款活动以及动员选民投票的行动。Strasma 的努力是否起到了决定性作用仍是一个悬而未决的问题,但奥巴马从捐赠者那里获得了 7.45 亿美元,是约翰·麦凯恩的两倍多。
在公司和政治家看到机会的地方,像印第安纳大学博士生 Christopher Soghoian 这样直言不讳的隐私倡导者则看到了对我们个人隐私的威胁。对可以收集和挖掘的数据几乎没有限制:现有的权威法律,《1974 年联邦贸易委员会隐私法》,规定政府机构必须向个人展示关于他们的任何个人记录,但排除了执法部门。它也不限制私营公司的数据收集工作。
正如 Acquisti 所演示的那样,即使是人们经常在网上公开的看似无害的信息,也可以被挖掘出来暴露更敏感的内容。而且人们往往意识不到他们在线上留下了多么庞大的数据痕迹。例如,您在当地报纸网站上留下的匿名评论?并不那么私密:2008 年,《奥尔顿电报》网站收到了大陪审团的传票,要求提供一些匿名评论者的全名和地址,这些评论者暗示他们可能拥有对谋杀案调查有价值的信息。“法官说,法律保护记者匿名,但不保护非记者,”西雅图互联网安全专家 Bennett Haselton 说。“如果您在网上做了什么,就会被记录为是从您的 IP 地址完成的。人们应该常识判断。”
在不久的将来,个人隐私的挑战将上升到另一个层面。瑞典公司 Polar Rose 开发了一种软件,该软件使用面部识别算法来识别数字照片中(例如 Facebook 上发布的照片)未标记的个体。一旦您在一张照片中标记了朋友,该软件就会自动识别该朋友出现在其他照片中。“各种事情都可能发生,”Soghoian 说。“如果一家健康保险公司可以找出所有出演过类似《蠢货》特技视频的人,并拒绝他们承保,会怎么样?”更可能的是,您的保险公司看到您饮酒和吸烟的照片,并相应地调整您的保费。
医学进步可能会使我们的数据云以新的、意想不到的方式包围我们。哈佛大学合成生物学家 Yaakov Benenson 正在开发可植入计算机,能够检测细胞内的化学变化。最终,这类设备应该能让我们在不出院的情况下监测我们的生命体征、进行诊断测试并接受治疗。结果可以通过无线方式传输给医疗保健提供者,这引发了窃听的担忧。研究人员正在进行基因谱分析实验,以优化癌症治疗或识别心脏病发作风险升高的患者。很快,医生可能会掌握您的 DNA 谱,为您制定个性化治疗方案;如果这些信息泄露,您的整个基因组都可能被公开。
Soghoian 指出,在追求全面知识的过程中,公司和政府官员很可能会不遗余力。旨在保护美国政府免受在线间谍侵害的“爱因斯坦 3”系统的一个计划新版本,能够读取流经政府网络的电子邮件。作为回应,民主与技术中心副总裁 Ari Schwartz 对政府在监控与隐私保护之间取得平衡的能力表示担忧。任何泄露的信息都可能被挖掘。
与此同时,手机的处理器能力越来越强——高通骁龙移动处理器今年突破了 1 吉赫兹的障碍——能够实现流畅的视频观看和录制。“在不久的将来,手机将记录我们看到和听到的一切,”Soghoian 警告说。这很容易包括您日常活动的视频,这些视频是由您甚至不认识的人拍摄的;看看 YouTube 上已经有很多匿名视频了。
知识就是力量,但我们个人数据云的失控增长表明,我们可能不会对这种力量的去向感到满意。“所有 Facebook 的互动、所有 MySpace 的内容、所有 Expedia 的旅行搜索,”Soghoian 说,“所有这些数据轨迹都将永远存在。”
信息自卫指南如今网上充斥着海量个人数据,人们往往很少主动管理自己的信息流。“这需要在宏观层面解决,”华盛顿特区电子隐私信息中心执行董事 Marc Rotenberg 说。“我们需要通过立法或技术手段来保护互联网用户,执行公平的信息实践,让用户能够控制企业和政府机构持有的信息,并限制个人信息的收集。”
在此期间,您可以采取一些措施来保护自己。
避免使用折扣卡使用折扣卡就是让商家追踪您的每一次购买,包括药品——您还不如给他们一份您的健康记录副本。而且这些信息可能会在法庭上被用作证据,所以如果您想保持隐私,请用现金购买任何东西。
加密您的电子邮件您会在咖啡店里给周围的每个人看您的电子邮件吗?那么就不要在不安全的 Wi-Fi 网络上发送消息。使用免费的加密工具,如 Komodo IDE 或 Thawte,它们可以编码消息,使其需要一个解密“密钥”才能阅读。
搜索时隐藏您的身份像 Google 这样的公司可能声称您的网络浏览记录是安全的,但除了可能更改(且不受法律强制执行)的公司隐私政策之外,它们不提供任何真正的保护。Google 使用 cookie——短的软件片段——来收集数据,这些数据会详细描绘您的浏览习惯。尝试使用 Ixquick,一个全功能搜索引擎,以及 Proxify,一个匿名代理搜索网页工具。这些工具可以将您计算机的标识机器号与搜索记录断开。
谨慎选择密码安全专家 Bruce Schneier 说,密码猜测程序每秒可以执行数十万次尝试。为了获得最大的安全性,不要使用字典单词,并将数字和符号混合到密码的主体中,而不是添加到末尾。E.S.














