合成数据:甚至比真实的东西更好?

2021-03-10 21:38:21

作者:Karen Emslie由CACM员工委托,我们的生活与数据密不可分地交织在一起。它是软件开发,人工智能(AI)培训和产品测试的基础;它在行业,社交媒体和决策中部署。根据市场研究公司国际数据公司的2020年报告,"将在今年在世界上创建,捕获,复制和消费59多个Zettabytes(ZB)数据。"

这是一个令人难以置信的数据量,但是那些想要利用它的人并不总是可用的。在新兴技术(如自主车辆)上工作的创新者可能会发现相关数据稀有,并且非常昂贵。由于机密性,访问开发人员通常有限。

从基于实际数据的仿真生成的综合数据已成为答案。这不是一个新的概念,但最近的发展促进了其准确性和可用性。添加诸如隐私等社会问题,普通数据保护规则(GDPR),甚至是Covid-19大流行对数据收集和访问的影响,以及代表合成数据的论据甚至更强。

合成数据可以在任何基于数据的上下文中有用:研究人员已经证明了在物体检测中使用合成数据,在人群中,在机器学习中,甚至在海洋科学中检测西部岩石龙虾。

Massachusetts理工学院(麻省理工学院)由主要研究科学家和数据到Ai-to-Ai集团领导者Kalyan Veeramachaneni领导的一组群体推出了一个更新的开源工具,用于生产合成数据。这项工作是合成数据库(SDV)的一部分,是一个在线生态系统,允许用户从自己的数据源创建合成数据。

Veeramachaneni首先在2012年进行合成数据进行实验,以解决在线学习平台中的数据访问瓶颈。他意识到它还可以为在关于机器学习(ML)的数据访问期间遇到的行业中遇到的问题的解决方案。

"当我们说,&#39时,所有这些谈话都会陷入磨砺,我们如何访问数据?为此,我们必须通过这个过程,然后我们接下来做什么?'实际上需要三到六个月才能访问数据,"解释了Veeramachani。

他的小组旨在建立一个允许任何人从真实数据创建合成数据的通用工具。到2016年,他们成功地使用来自kaggle的数据集,并从那些创建合成数据的抽样来创建统计模型。

下一步是带A"很多,更全面的"通过同时创建可能解决任何企业数据类型的算法,软件和工具来方法。结果是合成数据库。

研究人员使用三种类型的建模技术来产生合成数据:一种基于贝叶斯网络的经典技术,来自经济学的数学工具,称为Copulas,以及深度学习(DL)。

"基于深度学习的合成数据生成用于图像,即您看到所有深刻的假货的地方,并且有一种非常流行的技术称为生成对抗网络(GANS)," veeramachani说。

MIT组适用于基于像素的图像的GaN方法,以处理表格数据。诀窍是生成现实看的数据,说Veeramachaneni说,但它是一个精致的平衡行为,"你不希望它如此真实的,它实际上可以让你检测有关某人的一些个人信息如果它属于人类。"

SDV生态系统中的最新工具支持可扩展性,测试和与数据科学团队的互动。为了证明算法和软件的功能,用户需要提出边缘案例。随着Veeramachaneni解释说,"慢慢地稳定,我们看到了很多人来到它,使用它,告诉我们它在哪里'工作,它没有工作,而且#39;基本上驾驶我们要使我们更好。"

当Covid-19流行性关闭麻省理工学院和#39; S数据到AI实验室时,该组发现了另一个用例。敏感数据通常位于一台或两台计算机上。 Veeramachaneni表示,该团队不得不弄清楚如何保持自己的机器和运行,"然后我们就像,' wouln' t它有助于只有合成数据,这样每个人都可以拥有他们的数据在家里的本地机器上?'"

隐私权和访问为合成数据使用制作一个坚实的案例,但还有其他情况。

Sebastian Drave是哈尔布尔的首席数据科学家,该公司是一家基于U.K.的公司,提供了协作企业数据交换技术。他还曾在Syntheticr上工作,该生态系统使用基于代理的建模,以在模拟银行系统中生成合成数据。

对于DRAVE,机器学习和AI将是合成数据摄取的关键驱动因素。公司将需要越来越多样化的输入数据,并且可以基于合成数据构建新技术的信心;它可以加速两个过程和采用。

组织经常带入第三方,提供AI专业知识,"要么作为一个踏脚石,要么发展自己,要么是他们不想承担必须发展这种能力的所有权。& #34;从风险角度来看,合成数据可能是一个强大的工具。

Drave表示,他在培训模型中看到了图像分析和模式识别的进一步应用。然而,他指出,仍然存在挑战。证明合成数据的功效通常意味着将其运行反对真实数据集,了解两件事如何排队。 "一旦进入那个世界,你就会有点翻转到第一个地方具有合成数据的同样问题正在尝试解决。"

还需要解决跨机器学习的更广泛的偏见问题。算法需要从某物中学习,并且实际数据可以包含偏差。 "然后使用算法生成合成数据然后培训其他算法做出决策,您可以开始获得原始的任何东西的放大,"说得。

合成数据仍然有问题来解决,它不能替换真实的东西,也不能替换它。但是,它似乎在整个数据环境中具有明确和扩展的作用。