网站一直在消失。互联网的巨大体量让我们觉得它似乎永恒存在,但单个网页的寿命估计只有90天,之后就会发生变化或消失。与此同时,每一个网页都可能具有历史价值。也许未来的学者会想阅读一篇在其报纸网站改版后就消失的本地新闻文章,或者一位政治候选人想删除过去令人尴尬的旧言论。也许有人只想重温几十年前让他们捧腹大笑的一个视频。
正是因为任何事物(无论是大小)都可能在将来变得有价值,所以才有了广泛的互联网存档工作。这包括名称恰当的互联网档案,这是一个成立于1996年的非营利数字图书馆,其最初的宏伟使命是提供“万能知识访问”。他们至今已数字化了数百万本书籍、视频、音频录音和软件程序,同时他们的时光机已保存了约5440亿个网页快照。例如,这里显示的是Discover杂志在2007年6月14日的首页样子。
时光机是抵御因疏忽、技术变革、合并和其他时间侵蚀而缓慢死亡的网站的强大武器。但有些网站的插头会被突然拔掉,这时候档案团队就介入了。
紧急情况应对
档案团队自称为“由一群奔放的档案管理员、程序员、作家和激进分子组成的松散集体,致力于拯救我们的数字遗产”,这是一个志愿者组织,负责在即将消失之前监测濒危或有风险的网站。当谷歌宣布关闭失败的社交网络Google+时,该集体在不到四周的时间里保存了1.56 PB的数据。
档案团队保存的大部分内容随后会被存储在互联网档案中,任何人都可以使用它来数字化他们认为重要的任何内容。但时光机使用机器人来抓取网络并定期拍摄快照,而档案团队则专注于保存濒危网站。这就像图书馆缓慢积累大量藏书与试图从即将着火的特定收藏中拯救每一本书的区别。为了实现这一目标,任何人都可以贡献带宽和硬盘空间给“Warrior”,这是一个系统性地下载该团队担心的网站的存档应用程序。然后,这些下载的文件会被发送到档案团队的服务器,之后再转移到互联网档案的安全存储中。Warrior目前的项目包括即将关闭的Freewebs(一个自2001年以来托管了5500万个网页的托管服务),以及某些被隔离的Reddit子版块,这通常是讨论网站Reddit在删除整个论坛之前的第一步。这些社区内的对话内容可能有助于研究人员了解,例如,极端观点的传播方式。
档案团队还提供有关如何管理您自己数据的技巧,并鼓励您维护自己的备份。如果您曾使用MySpace来存储珍贵的亲友照片,然后在2019年因其糟糕的数据迁移意外抹去数年的内容时丢失了所有照片,该怎么办?您不应该仅仅依赖可能明天就会倒闭的网站,但如果您犯了这样的错误,那么像档案团队这样的组织就应运而生了。
档案团队的档案管理员兼发言人Jason Scott说:“这与其说是具体的网站,不如说是它们背后的故事。”他举例说,寡妇可以访问她们配偶未设置密码的作品,或者年轻的母亲们可以将孩子们的照片存储在本会消失的网站上。“这些网站的人性化方面经常被人们遗忘,而我们的工作就是确保它们不那么容易被遗忘。”
着眼于当下之外
互联网上看似标志性的事物,如雅虎问答和GeoCities,一旦无法为所有者带来利润,就会被遗忘。但档案管理员将互联网视为一个动态的社区,也是一份对未来具有重要意义的庞大记录。也许将很少能提供比“babby是如何形成的”这类问题更具智力吸引力的雅虎问答视为具有巨大历史价值的想法有些可笑,但这正是重点。那个傻傻的问题已经成为互联网的伟大梗之一;这个网站的深处还隐藏着什么呢?
斯科特解释说:“目前还不清楚人们是否明白,互联网不像现在这样,它不像现在这样是以手机为中心、即时性、充斥着名人八卦和仇恨的混乱集合。”他解释说,档案团队保存的许多网站可以追溯到互联网更简单、更早的时代。“与现在相比,它们可能显得又老又静态,[但]它们充满了热情和可能性。”
社交媒体比以往任何时候都更容易让我们认为互联网是一个永恒的“现在”,事物一旦离开我们的视线就会失去价值。档案团队的工作提醒我们,有必要关注互联网的过去,以及一个更关心人们及其个人数据的潜在未来。
斯科特说:“大多数公司似乎认为宣布关闭就意味着他们不用再关注了,只需很短的时间,他们就可以让员工关闭设备,并称之为成功。这些即将毁灭的系统用户的无助感驱使着我们——成为绝望之外的另一种可能性。”














