浅谈花边

2020-07-23 12:01:35

我在2019年夏天提出了什么将成为花边。在我的提案中,我描述了一个从麻省理工学院“时间瞬间”数据集中挑选出来的视频循环,每个视频都会放慢、插入和放大到想象中的细节,一个像河流一样流入另一个。

在很多方面,时间的瞬间都是平淡无奇的。就像许多目标相似的数据集一样,时刻时刻旨在训练人工智能系统识别动作。它包含100万个3秒的视频,这些视频是从YouTube和Flickr等网站上抓取的,每个视频都标记了一个动词,比如询问、休息、下雪或祈祷。

关于时间的瞬间,有几件事是特别的。它试图将大多数可能的行动分解为339;个正在做的动词。它也没有澄清其视频的主题-例如,它对正在飞行的东西比那是蜜蜂、花、人、飞机、卫星或鸟更感兴趣。时间的瞬间使人类的行为去中心化,有利于语言如何应用于更广泛的行为。

因为这些决定需要一种特殊类型的逻辑,所以这项研究的语言有一种奇怪的诗意。相关的白皮书写道:3秒是一个时间信封,容纳了人、物体和现象之间有意义的行动;视觉和听觉事件在时间上可以是对称的(相反,开始和听觉事件是对称的),可以是瞬时的,也可以是持续的。

在大数据世界里,100万个视频并不是一个特别大的归档文件,但它仍然是一个机器理解的数字,而不是人类的。当我第一次打开数据集时,我感到头晕目眩。一百万个时刻,放在名为“简单”的文件夹中--睡眠、切片、滑动、嗅觉、微笑。我觉得自己好像被放在了地球表面的某个地方,被告知要步行回家。

在没有方法论的情况下,我开始在文件夹中随意移动,浏览特定的动词,随机找出几十个视频,直到找到我喜欢的。这足以测试我处理作品的审美过程,但对我了解数据集本身的结构几乎没有什么帮助。直到我在3月份进入隔离,也就是我开始隔离的几个月后,这个过程才从随机选择变成了深思熟虑和专注的过程。

当大流行将这个项目转移到网上时,我考虑把重点放在关于触摸的视频上,这个主题已经从一个随意的动作变成了一个珍贵而危险的话题。我用动词从档案馆里拿出了大约20个文件夹-拥抱、拥抱、拳击、伸手。这些文件夹中仍然有6万个视频,但我觉得这是一个可以接近的规模,因为一个人被困在一个房间里。

当世界被埋葬的时候,我花时间看着这些短暂而微小的亲密时刻--两只相爱的鸟喙对嘴,一只老虎把爪子放在饲养员身上,拳头与脸的接触,一个吻,一个人群,一次触摸。

我在寻找质感很强的视频,拍摄对象在远处,形状或颜色已经令人困惑。我想要的是人工智能升级可以抓住并拖动的构图,将一朵云拖入山中,或将一张脸拖入海岸线。

不知何故,我本以为及时观看瞬间的行为会让人平静或具有探索性,就像看到窗外的世界一样。但是这个档案馆并不娱乐性、诗意、美丽或欢乐-尽管里面包含了许多唤起这些感觉的视频。这是一份有目的的档案,一份非人道眼光的行动档案。这就是世界,这就是在那里做的事情。感觉很生。

最后,我给自己搭建了一个类似Tinder的界面来放映视频。每个视频都会弹出,然后我会点击向左或向右箭头键将其排序到合适的位置-是或否,保留或丢弃。

在这6万个视频中,我选择了大约400个。我把每个视频的速度都大幅放慢了,把视频从最初的3秒拉到了15秒。我对帧进行了插值,试图做出一个新的流动运动来取代在时间转换中丢失的流畅性。我想要能够研究这些时刻,目的是教会机器什么是触摸。我想看到每个人身体中的每一个小选择都在行动,从人类时间中剔除出来。

现在已经是四月初了。我看了6%的数据集,大约50个小时的视频,从中制作了一个小时多一点的素材。

我本可以到此为止的。但我一直在想档案的其余部分-所有其他的动词,所有的另一种生活。我觉得周围的视频对故事的描述还不够。他们没有充分说明数据集试图做什么,它包含了什么。

我决定我需要查看数据集的其余部分。这一次,我从最上面开始,按字母顺序排列。

去年秋天,当我们还能聚在一起的时候,我教了一门名为“数据花园”(Data Gardens)的课程。其中一个单位是围绕人工智能的表现。我们谈到了绿野仙踪的原型制作和机器学习系统中的人力。我们看了演员假扮成机器人、复制者和机器的电影。我们回顾了自动机的历史,包括18世纪神奇的会下国际象棋的机械土耳其人,它实际上在它的发条装置中隐藏了一位身材娇小的人类国际象棋大师。

当我第一次开始观察数据集时,我以为麻省理工学院的研究团队已经看到了大部分数据,但现在我相信这个假设是错误的。这是因为档案太多了,太难看了。

这在一定程度上与时间有关。朋友圈中的视频有一个严重的自动剪辑(3秒,锐利),切断了这些时刻,有时会在它们应该描述的动作中途砍掉它们。我最终发现,我必须将视频静音才能继续观看-图像可以分解成颜色和形状,但无论我看了多少次,声音的刺耳分离仍然清晰而尖锐。

观看的困难在一定程度上也与同意有关。“瞬间时刻”切断了录制的动作和原创创作者之间的关系。研究人员没有申请使用这些视频的许可,所有图像的所有权-以及对图像的控制-都会从持有相机的人以及相机所描绘的内容中剥离。

在档案中,有极端情绪和个人脆弱的时刻-泪水,尖叫和痛苦。同意有问题的时刻,包括色情内容。种族主义和法西斯主义的形象。虐待动物和折磨动物。更糟的是,我看到了可怕的画面。我看到了身体。我目睹了人类生命的终结。

尽管我可能是第一个及时观察所有瞬间的人,但数据集的每个部分以前都有过人眼。这是因为朋友圈的视频经过采集和剪切后,会自动上传到亚马逊机械土耳其进行批注。Amazon Mechanical Turk是一项众包服务,它将请求者与通常只需几分钱就能完成类似计算机的小任务的员工联系起来。它归亚马逊所有,名字取自假冒的国际象棋机器。

Moments in Time白皮书描述了对视频进行注释的过程:“向每个AMT工作人员呈现一个视频-动词对,并要求他们按下Yes或No键,以表示该动作是否在场景中发生。来自第一轮的肯定响应被发送到随后的几轮注释。每个命中(单个工人任务)包含64个不同的3秒视频,这些视频与单个动词“相关”。

这让我想起了自己在AMT工作的岁月,在本科期间和毕业后,我一直以低于最低工资的工资工作。我想着所有那些涉及到我重复劳动的数千项任务。我用手敲击按钮,将情绪与我的脸相匹配,用我的声音记录单词。我的身体必须包含在多少个数据集中。这些数据集是用来做什么的。我的身体通过他们对别人施加了多少暴力。

Moments in Time白皮书中描述的示例界面与我自己的手工视频放映方法有一个令人不安的相似之处,左右箭头键分别代表是和否。这两个选项都只包含两个选项-包括、丢弃。没有能力报告视频,重新分类或澄清其收录,没有中间立场。

大约在数据集的250小时左右,也就是4月下旬的某个时候,我开始做这个梦。在梦中,我生活在一颗研究卫星上,或者可能是我,绕着一颗行星运行,监测行星的广播。我在一个地方上空漂浮的每一个短暂的瞬间,我都能看到我下面正在发生的事情的一闪而过。只是一个短暂的、微小的幻觉,先是正在发生的事情,然后是正在发生的事情,然后是正在发生的事情。这个梦想多年来一直是这样的。

即使醒着,我也看到了相机质量、阴影、油漆的颜色、树木的类型、运动和纹理的模式,这些模式可以展现出更多的细节。我在每件事上都看到了模式,这些模式统一了所有与拍摄对象无关的视频,而所有这些都与镜头向上扫描以捕捉跑狗的方式有关,或者与镜头向上扫描以捕捉跑狗的方式有关,或者与旋转以观看日落或光线耀斑和压缩推动画面边缘的方式有关。

到目前为止,我正在运行与我自己的策展工作并行的升阶算法。我的计算机在处理和再处理图像时嗡嗡作响,挣扎着,想象没有细节的地方-从80像素到160像素,从160像素到320像素,从320像素到640像素,最后到1280像素,所有这些都充满了想象中的细节。

我正在使用托帕兹实验室的专有软件AI Gigapixel来完成大部分的升级工作,它被封装在一个易于使用的命令行界面中。它在另一个不同分辨率的图片数据集上进行了训练。它也能看到模式。这个过程被描述为幻觉,这是一个准确的标记-它是一种反复的注视,不断地推向更多的细节,然后螺旋式发展成完全不同的东西。

到5月初我已经完成了数据集的一半时,我的时间已经不多了。我开始在档案馆里呆上一整天,从我醒来的那一刻起一直看到我睡着的时候。我已经走到这一步了,我想把它做好。观看本身的行为对我来说已经变得很重要了。

在这个动作档案中,我想执行动作。每天醒来,我都知道自己将如何度过,这让我变得很感激。我不是在建造一座大教堂,但我在想,建造一座大教堂会让我做什么,如何让我在一项任务中移动我的手,看到一些不朽的东西非常缓慢地生长,并且非常小心。砖匠对砖的理解是虔诚的。

我的身体非常缓慢地一遍又一遍地学习数据集的规则和边缘。我对此了解了很多;每个来源是如何组织的,视频是如何找到的,算法收集中捕捉到的单词是如何找到的。

我看到了视频的主题,人们过着自己的生活。我见到了他们的狗,我看到了他们的家。我看到野生动物,奇怪的天气,我永远不会去参观的地方,我没有玩过的电子游戏。我看到了太多的生命。

我还可以看到拿着相机的人的手,以及最先整理视频的工人的手。这些也看过这一时刻的其他人,他们必须在我之前做出决定-是,还是不是。

我记住图案的质量:光、颜色、噪音、压缩、模糊、帧率。我知道这些方面将如何与插值和提升相互作用。我不必再考虑它了--这都是自动的。

每隔一段时间,在卫星梦里,就不会有广播了。我什么也捡不到--我只看到了我脚下的风景,山脉,海岸线。我可以把照片放大,可以走近,但我看到的只是世界,而不是行动。

有时我把镜头放大到可以看到拖拉机留下的泥土中的线条,数千台拖拉机留下的线条,它们被锯齿状小溪的边界打断的方式。我看到了风,风形成的沙丘,油井和它们在沙漠、海洋、船只尾迹和岛屿尾迹上留下的疤痕。从上面看,这一切交织在一起的复杂性是如此明显。

我看到了数以百万计的生命,所有这些无限的细节,这种花边的错综复杂,我越接近它,它就会变得越细小,然后就会一次又一次地增长。