算法是如何成为YouTube明星的 | Discover Magazine

(图片来源：Pixabay) 机器在创造内容方面越来越擅长。无论是新闻文章、诗歌还是视觉艺术，计算机都在学习如何以新颖——有时甚至令人不安——的方式模仿人类的创造力。文本内容对计算机来说很容易生成。任何使用智能手机发短信的人都知道，操作系统在预测语调方面非常精明。但视频和其他视觉媒介则更具挑战性——计算机不仅需要预测一个合乎逻辑的想法，还需要以一种连贯的方式可视化这个想法。上周，YouTube上一些非常令人不安的儿童视频的曝光，让这一挑战浮出水面。这些视频 featuring 了像《冰雪奇缘》中的艾莎或蜘蛛侠这样的流行角色，以及每个父母都熟悉的简单歌曲和多彩的画面。然而，观看这些视频超过几秒钟，就会让人感到毛骨悚然。虽然有些视频包含暴力场面，但大多数视频都有某种“不对劲”的感觉，就好像它们是试图伪装成“人类”创作的外星内容。从本质上讲，有些视频确实是这样的。https://www.youtube.com/watch?v=D52hg9ogvWc 作者 James Bridle 最近在一篇热门的Medium文章中谈到了这个话题。他解释说，由于有大量的孩子观看YouTube视频，一些频道正在通过自动生成内容来赚取广告收入。有些视频似乎受益于人工输入，但另一些则明显是自动生成的混乱内容。这与迪士尼和皮克斯精心打造的深受喜爱的儿童电影的专业——且由人类组成的——团队截然不同。这也是一项新兴的努力的成果，旨在将视频制作的部分负担转移给计算机。这是吸引艺术家和研究人员的关注的领域，我们肯定会在未来看到更多。无论是重现已故的“星球大战”角色还是为了快速赚钱而大量制作儿童视频，这个行业仍处于起步阶段。从零开始 计算机在创造可信的视觉内容时，“作弊”的一种方法是从现有的图像或视频中推断。现有的起点与一点训练的结合，允许计算机创建视频。在自动生成视觉内容的领域，这种训练通常来自吸收其他视频中的内容——大量的视频。在麻省理工学院和马里兰大学巴尔的摩分校的这项研究中，该系统接受了一年的视频内容训练。在这种情况下，使用静态图像来生成预测场景中接下来会发生什么的小视频。例如，海滩的图像会生成海浪拍打的视频，而人物照片则会生成行走或奔跑的视频。由于视频的抖动和低分辨率的质量，它们都相当令人毛骨悚然（尤其是婴儿），但这项研究很有前景。该研究相关的视频称：“在未来，我们将能够生成更长、更高分辨率的视频。” 噩梦素材 在某些方面，训练计算机制作动画视频比从照片中推断要容易得多，尽管那种怪异感常常依然存在。动画师可以创建角色、场景和动作，然后简单地给计算机一组关于如何处理它们的广泛指令。一旦计算机拥有了所有输入，它就可以创建各种动画输出。https://www.youtube.com/watch?v=rczWc7zr45Y 利用输入，视频会根据各种标签和主题进行组装。当这些主题开始堆积时，视频的情节就变成了一场奇怪的“内容电话游戏”。曾经可能是连贯、无害的视频，经过多次重复和重构，最终变成了一堆毫无意义的随机角色和情节。其中一些视频正常且温和，而另一些则变成了令人极度不安的输入混合体。这些视频之所以能够长时间地“潜行”，很可能是因为孩子们对他们看什么并不挑剔。

Bright Side

但并非所有自动生成的动画都如此令人不快。自动动画最主流（也是最有利可图）的应用之一是在电子游戏领域。与儿童视频类似，电子游戏动画师通常可以接受不太完美的动画。由于游戏的长短和所需的海量动画工作量，有时最好让算法来承担重任。在开放世界游戏《巫师3》中，动画师创建了一个算法来生成游戏中角色之间的对话场景。该项目的动画师 Piotr Tominski 向PCGamer 解释了该系统。他说：“这听起来很疯狂，尤其是对艺术家来说，但我们确实是通过代码生成对话的。”“生成器的目的是用基本单元填充时间线。它创建了对话循环的第一个版本。我们发现，修复或修改现有事件比为每个角色每次都预设每个事件要快得多。生成器工作得如此之好，以至于一些不太重要的对话甚至不需要人工干预。”

一个尴尬的未来？

当然，这一切现在还有些笨拙——你不会把这些视频或动画误认为是真正熟练的人类创作的。而且，即使是那些帮助创作内容的算法，仍然需要一些人类的润色。但过去五年里，计算机学习取得了突飞猛进的进步，足以表明完全由计算机生成的图像可能在电影和动画的未来发挥至关重要的作用。像迪士尼和谷歌这样的巨头公司正在投资于计算机生成动画：迪士尼通过对文本转语音动画系统的研究，而谷歌则通过其 DeepMind AI动画项目。随着自动生成动画和电影的方法如此多样，未来看起来充满希望。动画师们，小心了。