DataFleets通过联合学习和450万美元的种子使私人数据保持有用和有用的数据私有

2020-10-27 05:50:35

要使用数据,您需要对其具有访问权限。如果你是银行,那就意味着交易和账户;如果你是零售商,那就意味着库存和供应链等等。在所有这些数据中隐藏着大量的洞察力和可操作的模式,这是数据科学家和他们的同类的工作,把它们提取出来。

但是,如果您无法访问数据怎么办?毕竟,有许多行业这样做是不被建议的,甚至是非法的,比如医疗保健行业。你不能把整个医院的医疗记录交给一家数据分析公司,然后说“筛选一下,然后告诉我有没有什么好的。”与许多其他数据集一样,这些数据集过于私密或敏感,不允许任何人不受限制地访问。最轻微的错误-更不用说滥用-都可能产生严重的后果。

然而,近年来出现了一些技术,它们允许做一些更好的事情:分析数据,而不实际暴露数据。这听起来是不可能的,但有一些计算技术可以允许用户在没有实际访问任何数据的情况下对数据进行操作。最广泛使用的是同态加密,不幸的是,它会导致效率大幅下降,降幅达数量级-而大数据都与效率有关。

这就是DataFleets介入的地方。它并没有重新发明同态加密,而是在某种程度上回避了它。它使用一种称为联合学习的方法,在这种方法中,他们不是将数据带到模型中,而是将模型带到数据中。

DataFleets集成了私有数据库和想要访问该数据的人之间的安全鸿沟的两端,充当了一个信任代理,在他们之间传输信息,而永远不会泄露一个字节的实际原始数据。

这里有一个例子。比方说,一家制药公司想要开发一种机器学习模型,该模型可以查看患者的病史,并预测他们使用新药是否会有副作用。医学研究机构的病人数据私人数据库是训练它的最佳选择。但访问受到高度限制。

这家制药公司的分析师创建了一个机器学习培训计划,并将其放入DataFleets,后者与他们和设施都签订了合同。DataFleets将模型转换为它自己的专有运行时,并将其分发到医疗数据所在的服务器;在这个沙箱环境中,它会成长为一个健壮的年轻ML代理,完成后会将其转换回分析师首选的格式或平台。分析师从来没有看到过实际数据,但却拥有这些数据的所有好处。

这很简单,对吧?DataFleet充当平台之间的一种受信任的信使,代表其他人进行分析,从不保留或传输任何敏感数据。

很多人都在考虑联合学习;困难的部分是为范围广泛的企业级服务构建基础设施。您需要涵盖大量的用例,接受大量的语言、平台和技术,当然,所有这些都要完全安全地完成。

DataFleets首席运营官兼联合创始人尼克·埃利奇说:“我们为拥有政策管理、身份访问管理和我们即将通过的SOC 2认证的企业准备情况感到自豪。“你可以在DataFleet的基础上构建任何东西,然后插入你自己的工具,银行和医院会告诉你以前的隐私软件不是这样的。”

但是,一旦联合学习建立起来,突然之间,好处是巨大的。例如,当今抗击新冠肺炎的一大问题是,世界各地的医院、卫生部门和其他组织尽管愿意,但在安全共享与病毒有关的数据方面存在困难。

每个人都想分享,但是谁送谁什么,放在哪里,谁的权力和责任?用旧的方法,这是一团混乱的东西。对于同态加密,它很有用,但速度很慢。有了联合学习,理论上,它就像切换某人的访问权限一样简单。

因为数据永远不会离开它的“家”,这种方法本质上是匿名的,因此高度符合HIPAA和GDPR等法规,这是另一个重大优势。Elledge指出:“我们正在被领先的医疗机构使用,他们认识到HIPAA在向第三方提供数据集时没有给予他们足够的保护。”

当然,在其他行业也有不那么高尚但同样可行的例子:无线运营商可以在不出卖个人的情况下提供订户元数据;银行可以出售消费者数据,而不会特别侵犯任何人的隐私;像视频这样的海量数据集可以原地踏步,而不是以高昂的费用复制和维护。

该公司450万美元的种子期融资似乎证明了来自各种投资者的信心(埃利奇总结道):AME Cloud Ventures(雅虎的杨致远)和Morado Ventures、LightSpeed Venture Partners、彼得森风险投资公司(Peterson Ventures)、马克·库班、LG、马蒂·查韦斯(哈佛大学监事会主席)、斯坦福-StartX基金(Stanford-StartX Fund),以及三位独角兽创始人(Rppi、Quora和Lucid)。

DataFleets只有11名全职员工,似乎用很少的钱做了很多事情,而种子轮应该会使其旗舰产品迅速扩大和成熟。“我们不得不拒绝或推迟新的客户需求,以专注于我们与灯塔客户的工作,”埃莱奇说。他们将在美国和欧洲招聘工程师,帮助他们在明年推出计划中的自助服务产品。

埃利奇说:“我们正在从数据所有权转向数据访问经济,在这种经济中,信息可以在不转移所有权的情况下发挥作用。”如果他的公司的赌注是对的,联合学习很可能是未来的一大部分。