DaaS圣经2.0:为什么数据标准很重要

2020-09-24 00:08:20

注:威尔·兰辛(Will Lansing)是FICO的首席执行官,奥伦·霍夫曼(Auren Hoffman)是SafeGraph的首席执行官。本文是奥伦2019年的文章:数据即服务圣经-关于数据销售业务的最广泛阅读的文章。

这几天数据风靡一时。“是的,我们听说是新的石油。”

但单个数据集本身的价值有限。数据的真正价值来自于跨多个不同的数据集将其连接起来。*为了加快数据的连接,如果数据生产者和数据消费者就共同标准达成一致,这真的是很有帮助的。

标准(也称为连接键)是将数据链接在一起的最有价值的方式。

完美是标准的敌人--最好专注于足够好的东西。

梅特卡夫定律也适用于标准:标准的价值随着标准的采用呈指数增长。

梅特卡夫定律表明,一个网络的价值与网络中节点数量的平方成正比增长。“我们都直观地理解这一点:如果你只能给自己打电话,一部电话并不是很有价值。”像WhatsApp这样的消息系统之所以超级有用,是因为很多其他人也在使用WhatsApp。

大多数人没有意识到的是,梅特卡夫定律也适用于数据。一个数据集与其他数据元素的联系越紧密,它就越有价值。而且链接你的数据越容易,它就变得越有价值。摘自“DaaS圣经”:

原因很简单:数据的用处取决于它能帮助回答的问题。将数据集连接、链接和绘制在一起,可以提出更多不同类型的问题。

没有一家公司或组织垄断数据,即使是强大的亚马逊也只知道不到0.1%的经济动态,甚至连美国国税局(Internal Revenue Service)和美联储(Federal Reserve)对世界的洞察力也是有限的,即使是比世界上任何一家公司都能获得更多人的数据的谷歌,仍然掌握的信息大多不完整。

因此,要想真正理解一件事,你需要从尽可能多的不同来源收集数据。但是,对18名本科生进行心理学研究并试图将其推广到更广阔世界的日子已经一去不复返了。大型数据集就在那里,要使它们变得有价值,您需要使用连接键将它们链接在一起。

连接键真的很有价值。它们只是一个简单的连接器,使得获取许多不同的数据集并将它们组合在一起变得超级容易。

如果您是投资者,并且正在尝试对数据集进行估值,则可以做的最简单的事情是首先识别此数据集中有多少连接键可以允许最终用户引入其他数据。

根据定义,连接键是派生出来的。它们也相当简单,因此也不完美。连接键的力量不是来自解决每个问题或处理每个用例,而是来自许多其他组织使用它们的事实。还记得梅特卡夫定律吗?使用联接密钥的组织越多,它就越有价值。

一个很好的加入关键是时间。UNIX时间(或其他标准,如UTC)对时区进行了标准化,因此在拉各斯、莫斯科和悉尼同时发生的事件就是这样表示的。

Unix时间是关于时间的标准约定,但它并不完美。Unix时间可能会说现在是星期二,而旧金山实际上是星期一--所以事情可能会令人困惑。

…时间由一个简单的整数表示,即自1970年1月1日以来的秒数。请原谅,1970年之前没有重大事件吗?(本文的合著者之一实际上出生在1970年UNIX之前。我们让你猜猜是哪一个)。我们真的想要一个用难以使用的负数代表1970年前的一切的标准吗?答案是肯定的--因为完美是标准的敌人。

UNIX时间的主要功能是它被接受为测量时间的约定。这意味着全世界的应用程序和计算机都可以很容易地共享和接收有关时间的信息。与之前的标准(如格林威治标准时间或GMT)相比,Windows和Unix时间只有很小的改进。

Unix时间的优点之一是它可以表示为一个数字字符串--这意味着它可以非常容易地存储在数据库中,在它上运行计算就是简单的加减秒的数学运算。

重申一下,Unix时间的力量在于其他每个人都在使用它。是的,它很聪明。是的,它很简单。但是它被广泛采用为标准,这就是它的用处所在。

很久以前,人们通过采取步骤来衡量他们的农场有多大。这显然是一种不完美的方式来表示一个人的地块的大小或两个城市之间的距离…。但它被接受了,而且(大部分)奏效了。

1790年代在革命后的法国发展起来的仪表已经征服了世界(至少除了美国以外的任何地方),成为测量的标准。

和所有的标准一样,米也不是完美的。为什么米应该是现在的长度?“米”是大是小会更实用呢?是的,当然。但是要记住,完美是标准的敌人。

这个计量器很聪明。它可以很容易地细分(厘米等)和扩展(公里等)。这就是为什么公制取代了英制的科学(我们仍然记不清一英里有多少英尺)。

但是计价器的聪明只是它成功的一小部分,它成功的主要原因是其他人都采用了它。如果你是一家在世界各地销售和购买材料的企业,每个人都使用相同的长度测量系统真的是很有帮助的。使用同一标准的组织越多,该标准就越有用。再说一次,这是梅特卡夫定律在起作用。

计价器之所以成功,是因为有足够多的人认为它会成功。所有伟大的标准都是递归的。(当然,有欧洲在位的皇帝波拿巴先生做你们的啦啦队长也无伤大雅)。

Unix时间和计价器的一个好处就是标准是免费的、开放的,事实上,一些东西如果是免费的、开放的,就更容易成为标准,因为采用的门槛很低。

如果拿破仑决定每次使用计价器都征收一小笔税,那么计价器是否会接管世界,这是值得怀疑的。

如果一个标准可以在简单的许可证下本地存储,那么它也更容易被采用。

一些数据可能看起来是开放的,但可能会有一种隐性的税收,这可能会阻碍广泛采用。像ODbL(开放数据共享开放数据库许可证)这样的数据许可证迫使使用这些数据的人回馈社区。虽然在许多情况下这是很好的,但许多商业实体会对将ODbL数据与他们的专有数据混在一起保持警惕。想象一下,如果只在ODbL许可证中提供测量仪-每次你的医生想要记录你的身高时,她也必须将它发送到中央“测量仪基金会”。

更好的标准开源许可证是麻省理工学院的许可证,它允许商业和非商业实体在项目上使用、存储和开发,而不会对计划做出回馈。当然,非常感谢…做出的贡献。但是,强制性的贡献阻碍了标准的成功。再说一次,完美是标准的敌人。

FICO®评分已成为衡量某人偿还贷款总体可能性的标准,超过90%的美国顶级贷款机构在做出贷款决策时使用FICO评分。

通常情况下,你的分数越高,风险就越低,债权人借钱给你的可能性就越大。

FICO分数的好处是简单且可储存,因为它是一个三位数的数字,人和电脑都很容易理解,分数为550的人比得分为760的人对贷款人的风险更高。

当然,FICO分数远非完美,两个分数完全相同的人最终可能会在偿还贷款方面出现分歧。

FICO评分不完美的另一个原因是它不是免费的。贷款人需要付费才能获得FICO评分。对标准收费往往会阻碍该衡量标准成为标准的机会(因为要成为标准,它必须被广泛采用)。对标准收费的另一面是,人们可以用这笔收入不断更新它,让它变得更好。

在过去的40年里,Unix的时间稍微好了一点(这里那里增加了几秒闰秒)。相比之下,FICO的分数每年都有数百人在努力改进它。

所以像所有的标准一样,FICO分数也不是完美的。但是要记住,完美是标准的敌人。FICO分数是一个人偿还贷款能力的非常好的预测指标。事实上,几乎每个消费者、银行和信贷机构都理解和使用FICO分数,这让经济运行起来容易得多,因为每份合同各方都在说同样的语言。重新进入梅特卡夫定律。

标准真的很重要,因为它们创建了一种共同语言来促进沟通。如果每个人都说不同的语言,我们永远做不到任何事情。标准既是将数据集连接在一起的粘合剂,也是使数据在组织之间流动的润滑剂。

Unix Time的优势之一是,它既是一个标准,也是一个有用的联接键。比方说,我们想联接腾讯和微软的股价,看看消息传出后两只股票的关联度有多高。Unix Time允许我们基于时间将股票数据联接在一起,即使它们在两个不同的司法管辖区交易,为两个司法管辖区都增加了巨大的价值。

另一个超级有用的标准化加入密钥是美元。虽然世界各地的不同交易所经常以本国货币列出,但可以通过将它们转换为美元来轻松地进行比较。是的,一个人可以使用不同的货币(甚至是当时黄金或比特币的价格),但标准只是我们都同意使用的惯例。美元不一定是比另一种货币或价值储存更好的衡量标准,但它是我们所有人都使用的公认标准。正如我们之前所说:完美总是标准的敌人。

语言本身也可以标准化。每年一月,世界经济论坛将来自世界各地的领导人聚集在达沃斯。这些领导人都会说不同的语言,但达沃斯的聚会是用英语举行的。…并不是完美的--并不是所有参加会议的人都会说英语或听得懂英语。但这是一个公认的标准,因为它足够好,并为大多数与会者释放了价值。

使访问和可用性民主化--标准使数据的交换、解释和集成更容易、更高效。

增加使用量-->;可推动访问-->;进而推动更多数据的使用/重用;数据使用得越多,其价值就越高。

连接数据越容易,处理、移动和使用的数据就越多。

因为连接有关价格的数据非常容易(美元是一个足够常见的度量标准),所以连接有关价格的数据变得越来越容易。

但让我们假设有一个世界,人们用比特币支付,但他们用白金…买房。在你分析房价和收入的相关性之前,你会想要确保这些价值衡量标准被连接起来。“连接键(现在我们使用美元)对于数据集之间的任何类型的相关性或关系都变得非常重要。

一个数据集与其他数据元素的联系越紧密,它就越有价值。而且链接你的数据越容易,它就变得越有价值。原因很简单:数据的用处取决于它能帮助回答的问题。将数据集连接、链接和绘制在一起,可以提出更多不同类型的问题。

即使是最简单的问题也可能需要回答非常复杂的操作。例如,假设我们想要了解消费者随着时间的推移在牛奶上花费的全球价格。我们将不得不为这一个基本分析使用多个连接键。首先,我们需要加入一种价格衡量标准(如美元)。然后,我们必须选择加入的美元版本(如2010年1月1日经通胀调整的美元)。然后,我们必须了解我们使用的通货膨胀率,以及如果我们想要在每个国家改变通货膨胀率。然后,我们必须了解我们使用的牛奶的衡量标准(如美国使用加仑,但世界其他大部分地区使用升)。然后,我们需要了解我们谈论的是哪种牛奶(就像在许多国家一样,牛奶没有经过巴氏杀菌,可能不会持续那么长时间)。此外,我们还需要了解我们关注的是哪种类型的消费者(我们可能想要打折布鲁克林的潮人,他们只购买手工全有机牛奶,农民每天都会给奶牛读睡前故事)。

连接数据越容易,…连接的数据就越多。最终使用的数据越多。大多数学术论文只有一两个数据集,其中一个最大的原因不是因为获取数据的困难(尽管这肯定是问题之一),而是连接不同的数据切片非常困难。

如果数据集A的值为X,数据集B的值为Y,则连接这两个数据集的值远远大于X+Y。由于数据市场仍然很小,因此值还不是X*Y还不是…。但它可能会在未来接近这一点。

数据可以连接到的附加数据集越多,它就变得越有价值。无论如何,数据所有者不需要从这些其他数据集中赚钱-这些其他数据集会让您的数据变得更好。正如DaaS圣经中所说:

这是大多数在数据公司工作的人不理解的第一件事。大多数人认为他们需要囤积数据。但是,如果数据可以与其他有趣的数据集结合起来,那么它的价值就会增加。因此,您应该尽您所能帮助您的客户将您的数据与其他数据结合起来。使数据易于组合的一种方法是有目的地考虑将其链接-实质上是为其他数据集创建一个外键。

将您的数据连接到其他数据集是使您的数据更有价值的…原因。而且,花费大量时间在连接键上进行投资是有意义的。

Data Companies的简单首字母缩写有助于指导通用标识符的创建,即:

可储存的。您应该能够离线存储ID。例如,我知道我的SSN,而我的工资系统存储了我的SSN。

一成不变的。它不应该随着时间的推移而改变。一个人的SSN通常从出生到死亡都是一样的(除非你参加了证人保护计划)。

一丝不苟(高精度)。两个不同系统中的同一实体应该解析为相同的ID。对于某人来说,声称他们有不同的SSN应该是非常困难的。

价格低廉。ID需要便宜(甚至免费)。如果它太贵了,交易费用会使它在很多情况下很难使用。SSN本身是免费的。

已建立(高召回率)。它需要涵盖几乎所有的主题。SSN基本上覆盖了每一个美国纳税人(甚至更多)。

6/如果您能够将您的数据与其他数据集连接起来(即使您从其他数据集中没有赚到钱),您的数据将会更有价值。这是大多数在数据公司工作的人不理解的第一件事。将联接键构建到数据中:

-Auren𝐇𝐨𝐟𝐟𝐦𝐚𝐧(@auren)2019年6月18日。

一个例子是:Placekey是一个连接键,它对所有物理位置都有一个通用标识符。在Placekey之前,需要一个非常复杂的工程团队来连接邮政地址上的数据。Placekey是一个简单的字符串,可以很容易地连接。它简单、免费和开放。所有销售地理空间数据的公司,如SafeGraph,当数据更容易使用时都会受益。所有使用地理空间数据的公司(如Esri、Carto、Mapbox、Unfolded、Apple、Twitter、Microsoft等)都会受益。在数据更易于访问时受益。

如果您的行业中还不存在标准,那么帮助创建一个标准可能是个好主意。以下是关于建立标准的一些想法:

标准的定义是举起所有的船。还记得美元是如何通过为所有其他国家的货币创建一个标准化的比较工具来为它们增值的吗?这是您创建的任何标准的目标。它应该对社区中的每个人都有帮助。

保险服务办公室(ISO)(现在是Verisk的一个部门)成立于20世纪70年代,目的是帮助保险公司更好地承保和打击欺诈。它是一个数据合作社,使所有保险公司受益,并很快使整个行业更加精简和盈利。尽管ISO是营利性的,并对其服务收费,但它通过创建一个共同的标准来提振保险业的所有船只。

Visa就是另一个例子。Visa创立(1970年从美国银行剥离出来)后,它作为一个非营利性组织运营了几十年。Visa开拓性的首席执行官迪伊·霍克(Dee Hock)热情地宣传了Visa的中立地位,使其成为支付标准,并帮助了数以千计的合作银行。今天,Visa的支付轨道标准为数万亿美元的交易…提供了动力。如果它不把客户放在第一位,这种情况就永远不会发生。

开源的First公司也是创建产品作为标准的一个例子。红帽是围绕开源标准(在本例中是Linux)创建营利性公司的真正先驱之一。其他著名的公司包括Databricks、Cloudera、Confluent等。

创建标准失败的最佳方式之一是试图收取太多租金或使其成为专有标准。是的,专有标准有令人惊叹的例子,但它们通常是例外。标准是一种公共产品(这就是为什么如此多最知名的标准是由政府创建或强制执行的)。

假设你经营着一家公司FoodDataGraph,它有关于人们吃什么的数据。收集这些数据并连接这些数据是一个令人难以置信的问题。你如何对人们吃的每一样东西进行分类?汉堡包是它自己的实体,还是它被分成肉、面包、生菜和西红柿?这如何与其他数据集连接起来(比如,如果你想要计算出卡路里、营养信息、食品来源数据、食品供应商数据、价格等)。你怎么知道一家餐厅的菜单项与另一家餐厅的菜单项大致相同呢?(如果你想要计算卡路里、营养信息、食品来源数据、食品供应商数据、价格等)。你怎么知道一家餐厅的菜单项与另一家餐厅的菜单项大致相同?

目前还不清楚。但有一件事是肯定的,如果你想创建一个标准,你不能自己做。你将需要很多其他公司来采用它。

大型食品配送公司(如Sysco和U.S.Foods--还有DoorDash、GrubHub和UberEats)可能是一个良好的开端。大型食品杂货店(沃尔玛、Safeway等)、连锁餐厅(如麦当劳)和餐饮协会也是很好的入股对象。最终,你可能想要拉拢FDA来帮助提高标准。

如果每个人(包括您的直接竞争对手)都可以开放访问该标准,那么采用该标准将会快得多。请记住,一个伟大的标准可以提升所有的船只--而不仅仅是您的。

一旦标准开始实施,重要的是它们能持续下去。通常数十亿美元依赖于标准。如果它们真的消失了,重要的是有一个合理的替代品。就像如果科学上废除了计量器一样,我们可以使用英国的计量系统。虽然这不理想,但它会奏效。人们可以从美元转换到欧元,或者干脆换回黄金。这不是理想的,但转换可以。

.