詹妮弗在天堂(图片来源:John Knoll)这张照片很普通,但却蕴含着历史性的重要时刻。一位女士站在白色的沙滩上,眺望着远方的岛屿,海浪拍打着她的脚踝——场景被简单地命名为“詹妮弗在天堂”。这张照片由工业光魔的一名员工 John Knoll 在 1987 年度假时拍摄,后来成为第一张被扫描和数字编辑的图像。三年后,当 Adobe Systems 推出 Photoshop 时,视觉世界从此发生了翻天覆地的变化。如今,预装工具几乎可以让任何人让日落更加绚丽,显瘦五斤,或者只是将名人面孔添加到动物身上。尽管观众已经越来越善于发现数字处理图像的细微破绽——例如可疑的弯曲线条、缺失的阴影和奇怪的光晕——但我们正接近这样一个时代,编辑技术可能会变得过于复杂,以至于人眼无法察觉。更重要的是,这不仅仅是图像——音频和视频编辑软件,其中一些由人工智能支持,其能力已经足够强大,可以悄悄地改写我们赖以获取准确信息的媒介。所有这些中最关键的一点是,它变得越来越容易。诚然,Photoshop 专家多年来一直能够制造出令人信服的假货,特效工作室也能将光剑和变形金刚栩栩如生地呈现出来,但计算机算法正开始承担越来越多的工作量,大大降低了实现这些欺骗所需的技能。在一个智能手机视频充当对抗警察暴力和传递化学武器袭击惨状的堡垒的世界里,简单、逼真的图像和视频处理技术的影响已经变得更加严峻。这不再仅仅是图片了——技术正开始让我们能够编辑世界。
始于图像
许多项目,其中很多是与 Adobe 合作的,正在将复杂的静态图像编辑技术带给业余爱好者。学习如何在 Photoshop 中进行剪切和粘贴,或者添加简单的元素很容易,但这些程序更进一步。来自布朗大学的一个项目允许用户通过机器学习算法改变照片中的天气,添加雨、阳光或改变季节。该程序通过数千个数据点进行训练,将图像分解成微小部分,并对每个部分进行相应编辑,以调整光照和纹理,使其与变化中的条件相匹配。来自加州大学伯克利分校的另一个项目允许用户整体处理图像,可以使用一套简单的工具和滑块,或者只需绘制基本图形,然后让算法完成其余部分。演示视频展示了一种鞋子变成另一种鞋子,以及一条简单的线条画中出现山脉。该程序几乎不需要超出基本的计算机技能。

Adobe 的 Deep Photo Style Transfer。有些程序只想让你的图像看起来更棒。Adobe 已与多所大学的研究人员合作,开发人工智能辅助技术,为照片增添更多魅力——从将白天场景变成夜晚,或将普通的日落变成壮丽的色彩爆发。Adobe 和康奈尔大学的 Deep Photo Style Transfer 程序可以获取你的图像,并融合第二张图片的元素——无论是鲜艳的色彩、蓬松的云朵还是风格化的细节——让你模仿你最喜欢的 Instagram 账号的风格。不久前,同样的概念也被应用于视频,将电影场景变成梵高笔下的动态画作。
你听到了我听到的声音吗?
音频也正在屈服于复杂的数字伪造的威力。Adobe 和普林斯顿大学的一个名为VoCo的项目允许用户通过输入文字来插入新的语音——而且听起来就像是说话者本人发出的。虽然仍处于开发阶段,但该程序通过提取音频文件中的音素(单词的构成单元),并将它们组合成单词和短语。这有点像让 Brian Williams 唱“Gin and Juice”,但却上升到了一个全新的水平。为了平滑生硬的过渡,该程序会尝试提供几种不同的单词版本,以最好地匹配语调和措辞。另一款音频程序开始完全自主生成声音。这个被称为“声音图灵测试”的 MIT 项目,仅凭视频就能预测某个动作听起来会是什么样子。研究人员给算法喂了数千个鼓槌敲击各种物体发声的视频,它逐渐学会了模仿发出的声音。当与实际音频进行测试时,它们伪造的声音实际上更有可能被判断为真实。目前,该系统存在一些缺点,最明显的是有些物体看起来相同,但声音不同——例如,一个满的水瓶和一个空的水瓶。然而,随着数据的增多,算法只会变得更智能。https://www.youtube.com/watch?v=0FW99AQmMc8
是的,我们也能做视频
在图像处理方面,Smile Vector算是比较令人毛骨悚然的。这个 Twitter 机器人利用神经网络,通过聚合互联网上各种笑容和微笑的图片,然后提取相关特征,来让名人微笑。有些效果比其他效果好,尽管大多数尚未超越“恐怖谷”。与大多数神经网络一样,有些图像效果比其他图像好——Smile Vector 还没有完全学会处理胡须。如果你想让你的名人不仅仅是微笑,也有相应的程序。Face2Face 是来自埃尔朗根-纽伦堡大学和斯坦福大学研究人员的一个项目,它使用与 Smile Vector 相同的逻辑,但规模更大。该软件分析目标人物(如阿诺德·施瓦辛格)和演员的视频,以建立一个面部运动和表情库。一旦有了足够的信息,它就可以逼真地模拟几乎任何下巴运动、眉毛抬起或脸颊酒窝,让用户将自己的面部动作映射到别人的脸上。演示视频展示了“施瓦辛格”和前总统乔治·W·布什等人在实验室里模仿一名演员的表情。https://www.youtube.com/watch?v=ohmajJTcpNk 迄今为止最复杂的面部处理的例子,我们可以再次看看工业光魔,它在《星球大战外传:侠盗一号》中复活了演员彼得·库欣饰演的塔金总督。该公司现在由 John Knoll 领导,利用动作捕捉技术和原始电影的素材, painstaking 地将库欣的面部“绘制”到另一位演员身上。结果令人印象深刻,但仍不完美。塔金看起来有些不对劲,就像一个活过来的蜡像。这次重现引发了关于在演员去世后未经其同意就占用其肖像的伦理担忧,但电影制作人表示,他们没有计划大大扩展对已故演员的使用。他们说,这个过程过于昂贵和耗时。
这到底有多糟糕?
即使是那些以特效技术闻名的公司在处理这种面部编辑技术时也遇到困难,我们大概可以暂时放下对广泛视频欺骗的担忧。这是因为视频本质上是由成千上万张照片串联而成的。视频编辑程序必须准确地改变所有这些照片,而不仅仅是一张图像,即使是很小的错误也会让我们感到困惑——错误的阴影,不合乎逻辑的动作。“处理视频真的很困难……即使是三分钟的视频,你也在谈论数十亿、数十亿个数据点,”数字取证专家、达特茅斯学院教授 Hany Farid 说道。虽然视频编辑可能滞后,但它正在迅速追赶。这就是为什么像 Face2Face 和 SmileVector 这样的程序会让 Farid 感到担忧,因为它们预示着一个未来,像他这样的研究人员可能会发现难以阻止虚假信息的传播。目前,人们对视频作为证据存在一种隐含的信任。当一名男子被拖下联合航空航班的视频出现时,没有人质疑视频本身内容的真实性。然而,当技术接近允许业余爱好者开始修改拍摄质量差的手机视频时,人们不难想象这种令人震惊的视频内容会因为个人利益而被篡改,或者被用来掩盖犯罪。随着伪造数字媒体的工具越来越好,数字取证专家必须更加努力地揭露欺骗。很多时候,这归结为一套相同的技巧。扫描视频中的不一致之处,例如让 Farid 在这段病毒视频中发现的怪异阴影,仍然是辨别假货的最佳方法之一。查看照片或视频的元数据,包括拍摄时间、地点、使用的相机以及曝光设置等信息,也可以在检查可疑图像时提供有价值的线索。然而,定义技术进步的不断“猫鼠游戏”让研究人员保持警惕。“这很大程度上是一场猫捉老鼠的游戏,最终我们知道谁会赢,”Farid 说。“伪造者总是比侦探更容易。”最终,这很可能取决于我们,观众。即使 Farid 能够识破视频是假的,病毒式传播的速度很可能会使这种努力变得毫无意义。最好的建议是了解上下文,寻找可疑的图像,最重要的是,保持怀疑。














