欢迎观看实用AI的另一集。这是丹尼尔·怀特纳克(Daniel Whitenack)。我是SIL International的数据科学家,我的共同主持人克里斯·本森(Chris Benson)一如既往地加入其中,他是洛克希德·马丁公司(Lockheed Martin)的首席新兴技术策略师。感恩节快乐,克里斯!你好吗?
嘿,感恩节快乐。我过得很好我想等到问题解决的时候,我们就要过感恩节了……
那就对了。目前我们还没有塞满自己,所以我们很活跃。今天热闹。
是的,尽管我听说火鸡普遍过剩,因为人们在家中,他们属于小群。当然,您和我–我不知道您是否去参加Tofurky…对于通常不听的听众,克里斯和我都不吃肉。但是我们总是有一个Tofurky,这对于我们来说今年合适。我们不会有那么多人。
是的,很好,因为我的妻子真的在确保我们有Tofurky和所有小东西……但是,是的,都是素食主义者,而且很好吃。我要说-土耳其,如果您是五年前的素食主义者,那真是感恩节上的素食主义者。确实如此。糟透了但现在这是好东西。
至于一般的肉替代品,我会说这很好。他们的确进步了很多,确实如此。
是啊。我不知道他们是否使用AI分析配方并正确处理,但是…
我要说的是,我不知道这与AI有什么关系,但是我们走了。我们要去假期了,该吃饭了。
是啊。好吧,克里斯,我今天对我们的谈话感到非常兴奋。我们有很多人来参加展览,并提到关于开放数据集的各种意见或想法,因此开放数据…
…是图像数据还是语音数据…我们与Mozilla Common Voice就该数据进行了对话…但是,通常,很多时候我们进入这些对话时,更多的是出于出于某种目的而使用该数据的角度;而不是从实际上致力于开放数据的人员的角度来看……所以今天我真的很激动,我们有Unsplash的几个人与我们合作。
Unsplash发布了一个庞大的-实际上是世界上最大的开放库数据集,今天,我们与Unsplash的联合创始人兼产品负责人Luke Chesser在一起,我们还有一个数据工程师Tim Time在Unsplash。大家好
是的,所以在我们介入之前,为什么不只是深入了解您的每个背景,以及您如何对现在所做的事情感兴趣,最后最终成为Unsplash。你想开始我们吗,卢克?
耶,当然了。我的背景最初是一名设计师,后来我和两个朋友一起成立了一家公司,当时这是一个聘请设计师和开发人员的市场……而且由于多年的需要,我最终不得不学习工程技术,完全构建产品的方式。
我们开始在该公司内部建立的附带项目之一是一家名为Unsplash的公司。我们只是开源了这个小小的图像存储库……最终使自己变成了一家完整的公司,这是它自己的全部故事。现在,我要监督这支真正有才华的团队。我会假装自己对编码和设计以及所有方面都了解很多,但实际上,它们是使我现在看起来非常漂亮的人。
在继续之前,我必须要问……因为听众只能听到音频;现在我们都在进行Zoom通话,我看到吉他在墙上挂在你身后,所以你一定是个音乐家,我想……?还是只是风扇,还是什么?
是的,可以说我的编码比我的吉他还要好,所以我不知道这[是难以理解的]这纯粹是为了展示。
凉。蒂姆,你呢?您的背景是什么?您最终在Unsplash与Luke合作的方式如何?
因此,就我的背景而言-我有一位法国的经典计算机科学硕士。对于最后的硕士实习,我实际上是被带到蒙特利尔的……那是我开始从事数据工作的时候。几年后,我有一个很好的机会,当时加入了[无法理解的地方],在远程工作。我回法国住了几年,然后又回蒙特利尔,所以自过渡以来,我现在为Unsplash工作。
我在这里工作了4-5年,现在我是一名数据工程师,主要负责构建整个数据体系结构,试图使一些统计数据出现在我们的贡献者面前,并为我们的业务需求提供一些有用的见解。
是的,而且-Tim在这里会很谦虚,但Tim是我们公司内部唯一从事数据工作的人,而且数据很多。我们有一个完整的统计分析系统,可为200多个贡献者提供服务;所有这些东西,我们都有一个庞大的搜索系统。所有这些基本上都由Tim供电。所以他会很谦虚,但他很好。
是的,谢谢。同样的事情-我不是机器学习工程师,所以AI对我来说很陌生...我主要专注于数据体系结构仓库之类的事情。因此,您可能在AI方面比我了解更多。
好吧,我想我们都在学习,而且听起来像您已经在做的一样,您可能在很多领域都有很多知识,所以这很棒。我很好奇-您刚才提到了Unsplash是如何产生的,以及该数据集是如何产生的...您能否给我们一些有关数据起源和性质的历史?数据中包含什么?为什么首先存在?
[]是的,所以回到基础,存在数据是因为Unsplash是由世界各地的摄影家社区提供的图像存储库,他们打开了图像并说:“嘿,任何人都可以使用这些图像无论他们想用它们做什么。”传统上,这是“好吧,我要下载这些图片,然后将它们用于创意项目中。我将要制作图形,我将在一篇文章中使用它们……”但是图像的意义不仅仅在于它们的外观,而且在这个社区中有200万张图像,我们一直在谈论一段时间以来,向AI研究人员开放的想法,或者实际上只是想以其他方式使用它的任何人。
传统上,我们使用此API,开发人员可以进入并为不同的应用提取图像;因此,我们为Medium的图像提供了支持,为Google提供了支持,为BuzzFeed提供了支持...许多不同的公司都通过API使用这些图像。但是该API并未设置用于需要大量信息的数据密集型项目。
多年来,蒂姆和我进行了几次对话-如果我们可以打开数据集并将其提供给那些只想使用数据并制作出很棒的东西的人,这不是很酷吗?
在今年早些时候的锁定期间,当我们没有太多事情发生时,我们就像在“做点什么”。然后,Tim亲自考虑了什么是有用的,什么对v1有益,以及我们如何才能将其付诸实践。蒂姆可能是谈论我们实际上要公开哪些数据的最佳人选。
是的,我也应该提到,我们进行此对话的原因之一是Changelog的编辑Adam Stacoviak,有一天在我们的消息中,就像您说的那样,在锁定期间,他给我发消息说:“嘿,看看Unsplash刚刚发布的内容。这将是一次很酷的对话。”所以,亚当,谢谢你的支持。
接下来,让我们谈谈蒂姆,只是谈论这个数据集中的实际含义。因此,您提到了人们贡献的图像……仅仅是图像吗?这些是什么领域,如何代表?
是的,因此数据集实际上并不包含照片。基本上是几个CSV文件,您会在其中找到下载照片的链接。因此,如果需要,您可以解析数据集并批量下载所有内容……对于每张照片,您都有一堆关联的数据和元数据。因此,例如,您将拥有来自相机的[无法理解的]数据,摄影师的详细信息,照片的地理位置,Unsplash统计信息,以及诸如已收集的标签和关键字数据之类的信息来自第三方AI,包括Google AI和Amazon,以及类似的东西。您还将获得有关照片中存在的颜色的一些数据,并且我们试图包括更多的Unsplash内容,因此我们添加了集合的概念。当您进行Unsplash时,您可以创建照片集,这可以说很多。我想这可能会对研究人员说出很多有关另一张照片或其他照片的信息,所以……我们将这些收集数据包括在数据集中。
我们还包括搜索转化数据。我想那也可能非常有趣。因此,您需要有人在Unsplash上进行搜索,单击照片,下载照片,这些人也都在数据集中显示。
很酷。就像您说的那样,我想到了……我真的很想知道-我可能会把它交还给卢克-您的商业模式如何适应这一点?因为您所描述的是作为从业者和消费者而听到的,所以很美妙……但是,您的公司如何组织起来,以便您可以支持这种工作,这有什么好处?这一切在您的世界中如何运作?
是的,因此该数据集不是开源的,也不会以任何形式发布为该商业产品。从某种意义上说,目前它已经获得了许可,因此有潜力开展商业业务-我们已经发布了两个数据集。较小的数据集可以用于商业和非商业用途。更大的数据集在商业用途方面受到更多限制。
[]因此有可能最终以这种方式进行商业化。我们不一定要依靠这一点,或者这不是我们这样做的原因。
Unsplash本身在其DNA中具有共享和开放的思想,而我们作为一家企业,得益于人们开放自己的图像并共享它们,并相信“当我分享某些东西并它被使用了,对其他人有帮助,这很棒。”所以我们想做类似的事情。
传统上,就Unsplash的历史而言,我们始终以“如果我们为人们创造价值,我们便可以找到方法将其商业化,然后在此基础上开展业务”。 Unsplash赚钱的方式是通过品牌将图像上传到Unsplash,然后通过我们所有的API网络,通过站点进行如此大量的分发,最终分布在所有这些不同的地方。因此,数据集无需成为我们直接从中获利的地方。
得到它了。这非常有帮助。如此的DNA –我想知道,因为这始终是我们遇到的问题,因为许多公司的共享模型不同,我喜欢共享是您DNA的一部分的事实,但您也有维持一家公司并做到这一点,所以找出人们如何接近它一直是一个有趣的问题……
是的,是的。我认为我们很幸运,就25个人而言,我们还是一家小公司。我们可以制定长期的决策,而无需明天直接影响公司等等。很多时候,我们做事情是因为我们只想这样做,而我们认为这是一件很酷的事情,并且我认为数据集背后有许多不同的动机,其中之一就是“如果我们能做到这一点,这会很酷吗?”
是的,对我而言,有趣的是,围绕开源软件构建的公司已经有了这样的进步,例如像开放核心公司或基于某种开源工具包构建的其他公司,至少在某种程度上……似乎没有那么多的现有技术。真正基于开放数据模型构建的公司的示例。是真的,还是我只是想念那个?
据我所知,我认为如果这能带来任何商业利益,那就太好了。但是与此同时,我认为我们的主要动机是“让我们看看那里有什么,让我们看看有什么用...”,还有一个强化的想法–您知道,如果许多不同的研究人员正在使用Unsplash图像,它将加强Unsplash是获取图像的地方,这是获取图像的地方,这对我们的贡献者开放了他们的图像的另一个好处,他们可以说:“嘿,我为这些有助于自动驾驶汽车的模型做出了贡献等等。我不知道如何使用它,但是他们可以说:“开放我的作品并将其提供给人们还有另一个好处。”
好吧,所以我有点感兴趣–也许我们可以将其介绍给Tim ...我只是对一些常规统计信息感兴趣,包括数据集大小和包含的图像类型,还有可能如何那成长?您提到了很多有关人们上传图像的信息……它的轨迹是什么,被添加的最多的是其中的一些统计信息?
是的,所以数据集–我认为光数据集约为5 GB,而全尺寸数据集约为20-25 GB,类似的东西。
[]这就是有关它的元数据,而不是图像本身…?
好的,是的那只是元数据。因此,现在我们大约有130万张照片,并且您提到了其中包括哪些类型的照片…因此,在Unsplash,我们为进入的每张照片都有一个手动策展过程。这些照片可以放在不同的存储桶中。因此,您需要精选的照片,或者可以批准的照片,因为它们刚刚符合/符合准则。因此,这种区别也以元数据的形式出现在数据集中。
但是,例如在灯光数据集中,仅显示特色照片。这是精选照片的子集,我认为它们只涉及自然照片。在完整的数据集中,所有内容都在其中-批准的照片和精选照片。这就是数据集中的内容。我不确定我是否还记得其余的问题,很抱歉。
不,一切都很好。此外,就数据集的增长轨迹而言,很明显,这也与您业务的主要部分,人们上传照片以及诸如此类的事情有关。
绝对。是的,我们绝对希望使Unsplash数据集成为Unsplash的产物,而不仅仅是像一次性数据转储那样。因此,我们需要不断改进,升级,获得反馈并对其进行迭代。我们每天都会收到成千上万的新作品,我认为计划是不时将这些新作品和照片放入数据集中。我们尚未确定频率,但我猜测可能每隔几个月或每两个季度发布包含新照片的新版本的数据集,并且可能会有一些改进。
发布后的几天,我们开始获得一些反馈,并且我们直接推送了v1.1(数据集的新版本)。我们一直在改善几个领域,此后就改善了数据质量,因为我们开始获得反馈。是的,我们将很快对反馈做出反应。
太酷了未来是否有任何类似的想法–由于您拥有这些开源项目,这些项目将拉下数据集并在其上运行ML流程,因此可能存在反馈循环,其中一些开源从业人员可以为您提供帮助这样做–您提到了手动管理,以及诸如此类的事情...对使用ML来实现该自动化管理有何想法?
是的,绝对。我认为这是我们与卢克(Luke)谈论的话题。还有一个事实,就是我们拥有如此庞大的数据集,而我们却没有技巧来适当地利用它。因此,如果我们把它放在那里,也许可以对研究有所帮助,并且我们可以利用刚刚进行的研究。
是的,确实是创业公司的一部分。我的意思是,这很正常。您总是在努力寻找下一件事情的技能,并继续为此提供资金。我完全明白。
究竟。是的,完全是。我认为这也可能是一个反馈循环,因为有些研究人员可以为模型创建的每张照片创建新的元数据,并且我们可以将该结果包含在数据集中,以便对其他研究人员有所帮助。因此,从这个意义上讲,它也可能是一个反馈回路。
就是这样克里斯,我们的初衷是“如果这是一个双向过程,那会不会很酷”,就我们而言,我们打开数据,然后比我们聪明得多的人就能为使用这些数据可以供更多的研究人员使用,它本身就可以成为不断增长的产品,我们只是提供照片的输入,无论我们在做什么。 v1就像“让我们了解它,让我们看看人们开始使用什么”,因为正如您可能会说的那样,Tim和我本人并不精通机器学习……
因此,我们真的不知道人们将如何使用它以及哪些领域将有价值。但是,把它发布出去,获得一些反馈,看看人们在使用什么,然后,如果将来我们有机会将它变成双向过程,我们很乐意这样做。
[]到目前为止,在发布这一点的时候,您已经有成千上万的听众听到了,所以我们应该将其视为号召性用语……要利用数据集,同时还要在其中做出贡献。
是的看到出现在Google Colab之类的示例中,人们拉入一些数据并做某事,并使工作本身开放,这绝对是很酷的。
作为一个后续措施,我很好奇-听起来您已经开始对此有所了解并得到一些使用了……所以我想一个问题是,到目前为止进展如何,以及这项工作的结果是您看到了用法和下载吗?
是的,到目前为止,我还不确定100%的数字。我们应该在开始之前进行检查。我认为下载次数约为3,000。就是这样。我认为,对于整个数据集来说,大概可以完成1000次下载。
现在已经有3-4个月了,因此对于我们来说是一个好的开始。我们实际上并没有做太多的营销或谈论它,所以希望这样的事情也能在更多的人面前看到它,这将有所帮助。
我知道的这两种用法对我来说很酷,令人惊讶-而且您永远无法预测人们将如何使用此方法,而且我认为有明显的事情……您知道,人们将训练视觉模型,并用它标记模型…但是看到更多的其他用途很酷,其中之一是-例如,某人训练了一个模型以检测日常物体中的人脸,从本质上讲,云,纹理和类似东西那……您可能给了我一百万个猜想,而我永远也不会猜到那是人们会对数据集所做的事情。因此,很酷。
然后您会对其进行更认真的使用...康奈尔大学进行了一些研究。他们已经写了一篇论文-我认为还没有完全发布,但是它基本上是在试图弄清人们为什么向社交媒体发布内容。因此,在政治上以及在不同社交网络中进行所有操作时,他们的主要重点之一是了解和检测人们发布消息的原因以及试图从中寻找真实性之间的不同动机。因此,他们一直在使用Unsplash数据集尝试并
......