数据目录已死; 长期数据发现

2020-12-15 04:22:38

随着公司越来越多地利用数据为数字产品提供动力,推动决策制定并推动创新,了解这些最关键资产的健康状况和可靠性至关重要。数十年来,组织一直依靠数据目录来支持数据治理。但是够了吗?

前曾在eBay和Intuit任职的AppZen工程副总裁Debashis Saha和Monte Carlo的首席执行官兼联合创始人Barr Moses讨论了为什么数据目录不能满足现代数据堆栈的需求,以及新方法如何–数据发现–需要更好地促进元数据管理和数据可靠性。

这不是什么秘密:知道您的数据在哪里以及谁可以访问它是了解数据对您的业务影响的基础。实际上,在构建成功的数据平台时,至关重要的是,您的数据必须既组织又集中,同时又易于发现。

类似于物理图书馆目录,数据目录用作元数据清单,并为用户提供评估数据可访问性,健康状况和位置所需的信息。在我们自助服务商务智能时代,数据目录也已成为一种强大的数据管理和数据治理工具。

毫不奇怪,对于大多数数据领导者来说,他们的首要任务之一就是建立数据目录。

但是,随着数据操作的成熟和数据管道的日益复杂,传统的数据目录通常无法满足这些要求。

这就是一些最佳的数据工程团队正在创新其元数据管理方法的原因,以及他们正在做什么:

尽管数据目录具有记录数据的能力,但允许用户“发现”并收集有意义,实时的数据健康状况的基本挑战在很大程度上仍未解决。

我们所知道的数据目录由于以下三个主要原因而无法跟上这一新现实:(1)缺乏自动化;(2)无法随着数据堆栈的增长和多样性进行扩展;以及(3)它们的未分布式格式。

传统的数据目录和治理方法通常依靠数据团队来繁重的手工数据输入,使他们负责随着数据资产的发展而更新目录。这种方法不仅耗时,而且需要大量的人工操作,否则这些操作可能会自动执行,从而为数据工程师和分析人员腾出时间来专注于真正推动工作发展的项目。

作为数据专业人员,了解数据状态是一场持续的战斗,这表明需要更大,更自定义的自动化。也许这种情况敲响了警钟:

在利益相关者会议之前,您是否经常发现自己狂热地探查Slack渠道以弄清楚哪些数据集可为您正在使用的特定报告或模型提供数据–究竟为什么数据上周停止到达?为了解决这个问题,您和您的团队是否挤在一个房间里,并开始将上游和下游的所有各种连接都白板化,以获取特定的关键报告?

我将为您保留详细信息,但看起来可能像这样:

如果到家了,您并不孤单。许多需要解决此依赖性拼图游戏的公司开始了一项多年过程,以手动绘制其所有数据资产。有些人可以投入资源来建立短期黑客,甚至可以使用内部工具来搜索和浏览数据。即使达到最终目标,这也会给数据组织带来沉重负担,使您的数据工程团队花费时间和金钱,而这些时间和金钱本来可以花在其他方面,例如产品开发或实际使用数据。

数据目录的结构合理,但到2020年,情况并非总是如此。随着机器生成的数据的增加以及公司对ML计划的投资,非结构化数据变得越来越普遍,占所有新数据生成量的90%以上。

非结构化数据通常存储在数据湖中,没有预定义的模型,必须经过多次转换才能使用和使用。非结构化数据非常动态,其形状,源和含义在处理过程的各个阶段(包括转换,建模和聚合)时总是在变化。我们对这种非结构化数据(即对其进行转换,建模,聚合和可视化)的处理,使以“所需状态”进行分类变得更加困难。

最重要的是,不仅仅是简单地描述消费者访问和使用的数据,还越来越需要根据其意图和目的来理解数据。数据生产者如何描述资产与该数据的消费者如何理解其功能非常不同,甚至在一个数据消费者与另一个数据消费者之间,在理解归因于数据的含义方面也可能存在巨大差异。

例如,从Salesforce提取的数据集对数据工程师的意义与对销售团队人员的意义完全不同。尽管工程师会理解“ DW_7_V3”的含义,但销售团队会抓紧头脑,试图确定所述数据集是否与他们在Salesforce中的“收入预测2021”仪表板相关。而这样的例子不胜枚举。

静态数据描述受性质的限制。在2021年,我们必须接受并适应这些不断发展的新动态,才能真正理解数据。

尽管现代数据体系结构的分布(请参阅:数据网格)并且已将半结构化和非结构化数据作为标准,但大多数数据目录仍将数据视为一维实体。随着数据的聚合和转换,它流经数据堆栈的不同元素,几乎无法进行记录。

如今,数据趋向于自我描述,在单个包中既包含数据又包含描述该数据的格式和含义的元数据。

由于传统的数据目录未分发,因此几乎不可能用作数据真实性的主要来源。从BI分析师到运营团队,更广泛的用户可以更轻松地访问数据,并且支持ML,运营和分析的管道越来越复杂,这个问题只会越来越严重。

现代数据目录需要在这些域中联合数据的含义。数据团队需要能够理解这些数据域如何相互关联以及聚合视图的哪些方面很重要。他们需要集中的方式来整体回答这些分布式问题,换句话说就是分布式的联合数据目录。

从一开始就投资正确的方法来构建数据目录将使您能够构建更好的数据平台,从而帮助您的团队民主化并轻松浏览数据,使您能够密切关注重要的数据资产并充分利用它们的全部潜力。

当您拥有严格的模型时,数据目录会很好地工作,但是随着数据管道变得越来越复杂,并且非结构化数据成为黄金标准,我们对数据的理解(其用途,用途,使用方式等)并不能反映现实。 。

我们相信,下一代目录将具有学习,理解和推断数据的能力,从而使用户能够以自助方式利用其洞察力。但是我们如何到达那里?

除了对数据进行分类之外,元数据和数据管理策略还必须结合数据发现,这是一种实时了解分布式数据资产运行状况的新方法。扎克·德加尼(Zhamak Deghani)和Thoughtworks的数据网格模型提出的分布式面向领域的体系结构借鉴了数据发现的观点,即不同的数据所有者应对其数据产品负责,并促进不同位置的分布式数据之间的通信。将数据提供给给定域并由给定域转换后,域数据所有者就可以利用数据满足其运营或分析需求。

数据发现通过根据一组特定使用者对数据的摄取,存储,聚合和使用方式,提供对特定领域的动态了解,从而取代了对数据目录的需求。与数据目录一样,治理标准和工具跨这些域联合(允许更大的可访问性和互操作性),但与数据目录不同,数据发现可以实时了解数据的当前状态,而不是理想状态或“分类”状态。

数据发现不仅可以针对数据的理想状态,还可以针对每个域的数据当前状态回答以下问题:

谁有权访问这些数据?上次使用该数据是什么时候?由谁?

我们认为,下一代数据目录(即数据发现)将具有以下功能:

数据团队应该能够在没有专门的支持团队的情况下轻松利用其数据目录。数据工具的自助服务,自动化和工作流程编排消除了数据管道各个阶段之间以及过程中的孤岛,使人们更容易理解和访问数据。更高的可访问性自然会导致更多的数据采用,从而减轻数据工程团队的负担。

随着公司摄取越来越多的数据,并且非结构化数据已成为常态,进行扩展以满足这些需求的能力对于数据计划的成功至关重要。数据发现利用机器学习来扩展您的数据资产的规模,从而确保您的理解随着数据的发展而适应。这样,数据使用者就可以做出更明智,更明智的决策,而不必依赖于过时的文档(也就是有关陈旧的数据,元数据!)或更糟糕的基于肠道的决策。

数据发现在很大程度上依赖于自动表和字段级谱系来映射数据资产之间的上游和下游依赖性。沿袭有助于在正确的时间显示正确的信息(数据发现的核心功能)并绘制数据资产之间的连接,以便您可以更好地解决数据管道何时中断的问题,随着现代数据堆栈不断发展以适应这种情况,这已成为越来越普遍的问题更复杂的用例。

事实是,您的团队可能已经在某种程度上投资了数据发现。无论是通过团队的手工工作来验证数据,工程师正在编写的自定义验证规则,还是仅仅是由于数据损坏或无人注意的错误所引起的决策成本。现代数据团队已开始利用自动化方法来确保在管道的每个阶段都获得高度可信赖的数据,从数据质量监视到更健壮的端到端数据可观察性平台,该平台可监视和警告数据管道中的问题。当数据中断时,此类解决方案会通知您,以便您快速找出根本原因,以快速解决问题并防止将来的停机。

数据发现使数据团队能够相信自己对数据的假设与实际情况相符,从而可以在整个数据基础架构中不受域限制地实现动态发现和高度的可靠性。

如果坏数据比没有数据更糟糕,那么没有数据发现的数据目录比根本没有数据目录更糟糕。为了获得真正可发现的数据,重要的是,您的数据不仅要“编录”,而且要准确,整洁并完全可观察以摄取到消费–换句话说:可靠。

强大的数据发现方法依赖于自动化和可扩展的数据管理,该管理可与数据系统的新分布特性一起使用。因此,要在组织中真正实现数据发现,我们需要重新考虑如何处理数据目录。

只有了解您的数据,数据的状态以及如何使用它们(在生命周期的各个阶段,跨域),我们甚至才能开始信任它。

想更多地了解构建更好的数据目录吗?与Debashis Saha或Barr Moses接触。