数据目录的下一个发展:数据发现平台

2021-02-25 04:45:28

作为从事数据工作长达13年之久的人,我亲眼目睹了“数据驱动”趋势的崛起。在开始销售第一家数据初创公司之前,我花了一些时间在统计分析师中,用R建立销售预测模型,一名软件工程师创建数据转换作业,以及一名产品经理运行A / B测试并分析用户行为。所有这些角色的共同之处在于,他们使我了解到数据的上下文(它代表什么,如何生成,最后更新的时间以及可以与其他数据集结合的方式)对于最大化数据至关重要。数据的潜力并推动成功的结果。

但是,访问和理解数据上下文非常困难。这是因为数据的上下文通常是部落知识,这意味着它仅存在于最近使用过数据的工程师或分析师的脑海中。当其他数据使用者需要了解数据的上下文时,最短的路径是找到以前使用过数据的人并向他们学习。

随着组织规模的扩大,这成为一个真正的问题。在正确的环境中找到合适的人会花费一些时间,您可能需要与多个人交谈才能全面了解您的数据。

我最早在2008年在Sun Microsystems Research Lab遇到数据发现问题。我负责使用贝叶斯网络将不同的数据源合并到我们的销售预测模型中。我们已经拥有10年的账单数据,我需要这些数据与CRM和销售数据结合在一起。

我认为这将是一个简单的任务,直到我意识到数据分散在15-20个不同表中的100多个不同字段中。如果我犯了一个错误,可能会导致错误的销售预测。我不得不追踪过去曾处理过数据的几个人,以弄清楚哪些是可以使用的正确字段。如果可以轻松访问此上下文,则该项目将花费我一周的时间。因为不是,所以花了我一个月!

这不是一个新问题,而是一个正在发展的问题。数据已成为良好决策的越来越重要的部分,公司收集的数据量呈指数增长。最重要的是,处理数据的团队也不断壮大,分布越来越分散。不同的团队使用相同数据的方式不同。

尽管存在许多用于存储和查询数据的解决方案,但是围绕数据共享上下文知识仍然是一个悬而未决的问题。数据目录(可让您搜索元数据的软件)做得不足以帮助解决数据上下文问题。

在这个博客文章中,我将解释大多数数据目录如何接近数据上下文问题,为什么他们的方法为什么短暂,以及前进的更好的道路:数据发现平台。我还将介绍Select Star,数据发现平台我的团队和我一直在努力帮助公司更好地接近数据发现。

数据目录已经存在,只要数据库即可。大多数数据库都带有元数据的存储库,通常称为Information_Schema。它具有所有表名称,列名称和描述(称为数据库注释)。信息架构可以告诉您数据如何构建(哪个字段属于哪个表?)以及有关数据的最新操作信息(有多少行?此何时更改?)。像IBM InfoSphere或Informatica等传统数据目录集成在不同的数据库中,以提取这些元数据并使其可搜索。

对于所有元数据都有一个集中的地方,它听起来很好。但即使有一个伟大的数据目录,发现正确的数据效率低,并且通常不可能。您搜索“收入”,您可以看到数百个包含“收入”的表格 - 那么您如何知道哪一个是哪一个是正确的使用?你必须问某人。

这就是为什么这么多创新科技公司最终建立了自定义内部工具来帮助解决这个问题。 Airbnb,Facebook,LinkedIn,Lyft,Netflix,Spotify和优步拥有所有关于这个问题的所有问题,他们每个都会推出“数据发现平台”。这些数据发现平台所有目标都是公司中任何人的集中处,以找到他们正在寻找的数据,看看还有谁使用它,以及它正在使用的地方,并写下文档。

好消息是,这些新的数据发现平台可以有所不同。在Spotify,95%的数据科学家正在利用Lexicon,他们的数据发现平台。 Facebook拥有他们的数据发现平台具有成千上万的内部用户。

坏消息是,大多数公司都没有资源或专业知识来建立自己的数据发现平台。因此,该决定通常归结为三种选择之一 - 购买昂贵的企业数据目录,如Aliation或Collibra,尝试使用Amundsen或DataHub等开源项目,或尝试在Google文档或内部Wiki中手动记录所有内容。

这些方法中的每一种都存在风险。手动文档很难保持最新状态,并且在过时时,数据消费者不会相信。企业数据目录至少成本数十万美元,并花了几个月才能整合。开源项目需要工程时间集成,自定义和维护基础架构。

此外,许多公司在选择购买专有数据目录或实施开源目录之后,发现他们仍未完全解决其数据发现问题。这通常是因为仅使用集中式元数据存储库(这些选项中的大多数都等于该存储库)不足以解决数据发现问题。诸如数据受欢迎程度和沿袭之类的数据上下文仍然留给公司自己实施。

真正的数据发现平台应该在提取和显示所有元数据的基础上,自动提供数据上下文(谁在使用数据,如何计算数据以及其他相关数据集)。通过拥有完整的数据上下文,数据发现平台可以使组织中的任何数据消费者轻松地回答以下问题:

该数据或指标在哪里?它叫什么,还有谁在使用它?

今天在哪里使用这些数据?是否有从该数据生成的实例化视图或仪表板?

今天使用这些数据有哪些不同的方式?还有其他与此类似或相关的数据集吗?

谁是该数据的最大用户?他们今天如何使用数据?

在过去的一年中,我和我的团队一直在构建Select Star,这是一个“有效”的自动化,易于使用的智能数据发现平台。我们的目标是帮助公司解决我所遇到的数据发现问题,并且数据分析师,数据科学家和工程师正在努力解决这些问题。

这个数据代表了什么?数据发现的一个重要部分具有良好的文档。但是写好文件是耗时和困难,大多数人不喜欢这样做。选择Star将自动曲面所有元数据,并通过从SQL查询收集的洞察力注释 - 最近添加,流行度,顶级用户和下游仪表板。

这并不意味着您不需要文档。特定于域的数据上下文仍然很重要,应由域专家记录。使文档过程变得简单,一旦记录,确保它在任何相关的地方都在浮出水面,这是选择明星照顾的东西。

这个度量如何计算?了解您的数据来自的位置以及如何在您分析它时生成至关重要。数据谱系是提供此洞察力的关键功能。显示上游源和下游依赖项,从原始数据到仪表板和度量标准都可以提供对整个组织整个数据流动的真实理解及其对任何更改的潜在影响。

表的密钥是哪个字段?还有谁在使用此数据以及它们如何使用它?这些问题是每个数据分析师随着他们的数据仓库变得更大的问题。能够找到答案而无需提出其他人授权数据消费者探索并充分利用数据。

数据使用率不仅仅是关于表和列。了解高水平的数据使用情况也非常有洞察力。它可以指导应在接下来创建哪些新的派生表或应弃用哪个ETL作业,因为可能会生成自动表,其中没有人使用。

通过组合所有三个,我们正在构建一个真实的数据发现平台,该平台包含数据如何随时间而变化,并为组织中的每个数据消费者提供自己的分析和建议。