广告

http://www.hisholiness/hisbooks

探索互联网上的数字图书馆,如梵蒂冈的藏书,如何改变全球知识的获取方式。

Google NewsGoogle News Preferred Source

新闻简报

注册我们的电子邮件新闻简报,获取最新的科学新闻

注册

尽管互联网正以惊人的速度扩展其影响力,但这个网络之网仍然更像是一个信息沼泽,而非高速公路。其中大部分是垃圾,而珍贵的瑰宝往往难以找到。因此,去年7月,当梵蒂冈将20,000张珍贵文献的图像在线提供给世界各地的学者时,这对于拥有超过15万卷古籍或数百万页文献的宗座图书馆来说可能只是小小的一步,但对于互联网来说,却是一个值得尊敬的飞跃。IBM的计算机科学家Fred Mintzer(该项目的合作伙伴)表示,以互联网的标准来看,梵蒂冈的藏书是一个相当规模的数字图书馆。目前,这类资源还不多。

广告

梵蒂冈的藏书只是一个开始,很快将有大量新的数字图书馆在互联网上涌现。当然,这些图书馆不会以任何明显的方式与您当地的图书馆相似。首先,您不会前往数字图书馆,它们会来到您面前——或者说来到您的个人电脑上。如果研究人员的设计成功,我们现在开始看到的网络图书馆的激增,有朝一日可能会更像一个庞大、流动、没有围墙的图书馆,它涵盖了来自世界各地以及任何媒介的信息——文本、传真、电影、视频——你能想到的一切。你不会谈论一个数字图书馆,而是数字图书馆,施乐帕洛阿尔托研究中心(位于加利福尼亚州)的计算机科学家Ramana Rao说道。

数字图书馆的理念正迅速成为对未来赛博空间更广阔的愿景。在很大程度上,这一趋势归因于万维网在过去两年中取得的惊人成功。万维网是一套规则、协议和软件,它允许互联网用户访问众多其他计算机上的信息。它并非第一个实现此目的的技术,但无疑是最有趣的。其他工具依赖于文本,而万维网则是一个生动的视觉媒介,支持彩色图形甚至动态图像和声音。根据国家科学基金会(NSF)去年春季的审计,万维网已经超越其他搜索工具,成为探索互联网最广泛使用的手段。

自然地,万维网已经成为一种推销商品而非学习知识的方式——这是一个黑暗且无疑不可避免的趋势,这只会让像梵蒂冈图书馆这样的网站(最早利用万维网视觉功能的严肃学术收藏之一)更受欢迎。明策和其他IBM科学家不得不开发新的技术来拍摄和复制古代圣经及其他文献中精美插图的页面。为了最大限度地减少对文献的损害,他们使用过滤器去除光源中的紫外线和热量。为了准确再现颜色,他们使用过滤器来补偿光的红色调以及电子相机强调红色和绿色的倾向。据IBM称,您在电脑屏幕上看到的颜色与您前往罗马并请求进入图书馆所看到的颜色几乎无法区分——前提是您的屏幕已正确校准。然而,为了保持对文献版权的控制,梵蒂冈让IBM设计了一种在图像上添加模糊水印的方法。即便如此,梵蒂冈仍对版权问题非常担忧,因此目前将其数字藏品限制在学者范围内。(不过,在IBM的网站上,您可以看到比《DISCOVER》杂志获准复制的两张截图更多的内容。)

梵蒂冈并不是唯一一个拥有数字图书馆的机构。国会图书馆于1993年开始谨慎地将其藏书上线。它不断推出新服务,最近提供了关于网络上新立法的最新信息(http://thomas.loc.gov/)。1993年,英国图书馆开始将11世纪《贝奥武夫》手稿的页面数字化,并对因使用和火灾而损坏的文本部分进行电子校正。此外,美国六所大学获得国家科学基金会、美国宇航局和国防部资助的一项2440万美元的研究项目,旨在开发数字图书馆的新技术,为这一运动注入了动力。该项目参与者拉奥说:“这项工作搅动了平静的局面,引发了许多活动。现在每个人都在谈论数字图书馆。”

研究人员说,构建数字图书馆最大的挑战在于自动化图书管理员的工作。匹兹堡大学图书馆与信息科学学院院长托尼·贝尔曼说,数据压缩等技术问题已经解决。更困难的部分是能够搜索信息并获取所需内容。当你考虑到不仅要搜索单个图书馆,还要搜索一连串图书馆时,这个问题就变得复杂了。赫克托·加西亚-莫利纳(Hector Garcia-Molina)是斯坦福大学一个项目的负责人,他正在迈出解决这个问题的第一步。他正在设计一种通用的伞形语言,它能将一个单一的信息请求分解成互联网上指定图书馆可以理解的许多不同请求。下一步是提出更强大的搜索方法。目前的方法主要基于关键词,对于大型数字图书馆来说远远不够。加西亚-莫利纳说,我们现在可以搜索文档中的特定词语或模式,但你得到的结果往往不是你想要的。当你扩展到一个大型网络时,这些方法就行不通了。我们需要更智能的搜索方法,例如使用具有某种人工智能的软件代理。

处理视觉信息时,问题变得更加棘手。霍华德·瓦克特拉(Howard Wactlar)是匹兹堡卡内基梅隆大学数字图书馆项目的计算机科学家和负责人,他正在设计一个视频和文本图书馆原型。他说,关键在于在存储视频数据时对其进行处理,以便以后易于搜索。他首先使用一个将口语转换为书面形式的计算机程序生成视频剪辑的文字记录,然后用另一个可以区分英语句子和乱码的程序校正文字记录。他还在设计软件,可以自动将视频剪辑划分为视频段落或逻辑连贯的片段。这样,可以通过对文字记录进行关键词搜索来组合相关的视频段落。此外,他正在开发能够识别帧中对象的软件,这样你就可以通过指向屏幕上的埃菲尔铁塔来搜索类似埃菲尔铁塔的视频剪辑。使用这些技术,瓦克特拉处理一小时的视频需要12个多小时,但搜索他的图书馆原型只需几秒钟。

目前,只有少数图书馆实际将其内容放到互联网上,但预计未来一年会有更多图书馆这样做。如果各项项目都如期实现,互联网可能会有点像在曼哈顿中城第五大道漫步:你会路过几家高档商店,路过许多低俗商店,然后,在四十二街,你会看到气势恢宏的纽约公共图书馆,它是学术和印刷文字民主的庄严丰碑。除了其更广阔的覆盖范围外,数字版本可能在另一方面也优于原版:你无需穿过所有垃圾就能抵达那里。

保持好奇

加入我们的列表

订阅我们的每周科学更新

查看我们的 隐私政策

订阅杂志

订阅可享封面价高达六折优惠 《发现》杂志。

订阅
广告

1篇免费文章