LinkedIn与DataHub的元数据管理和集成

2020-08-27 02:33:12

为了在整个组织中扩展数据的使用,有许多与发现、治理和集成相关的挑战需要解决。这些解决方案的关键是强大而灵活的元数据管理系统。LinkedIn在最易维护和可伸缩的元数据方法上经历了几次迭代,导致他们目前在DataHub方面的工作。在本期节目中,马尔斯·兰和帕德胡·冈南解释了他们是如何设计这个平台的,它是如何集成到他们的数据平台中的,以及它是如何被用来支持LinkedIn的数据发现和分析的。

您的数据平台需要具有可扩展性、容错性和高性能,这意味着您需要云提供商提供相同的功能。Linode为生产系统提供动力已有17年之久,现在他们推出了一个完全托管的Kubernetes平台。结合Kubernetes引擎的强大功能,实现灵活且可扩展的部署,以及专用CPU实例、GPU实例和对象存储等功能,您可以获得构建防弹数据管道所需的一切。如果您现在访问dataEngineeringpodCast.com/linode,您甚至可以获得60美元的积分,用于构建您自己的群集、对象存储、可靠备份或…。当您在那里的时候,不要忘记感谢他们是数据工程播客的长期支持者!

整个组织对高质量客户数据的需求从未像现在这样强烈,但现场的数据工程师知道,构建可扩展的管道并在整个公司安全地分发这些数据不是一项小任务。客户数据平台可以帮助自动化这一过程,但大多数平台已经打破了MTU定价模式或存在云安全问题。RudderStack是解决这些客户数据基础设施问题的解决方案。我们的开源数据捕获和路由解决方案可帮助您将自己的仓库转变为安全的客户数据平台,我们的固定费用定价意味着您永远不必担心数量激增带来的意外成本。访问我们的网站以请求演示,并获得一个月的免费访问托管平台的机会以及一件免费的t恤。

您希望在您的数据工程职业生涯早期收到哪些建议?如果你把一本书交给一个新的数据工程师,你会给它增加什么智慧?我正在与O‘Reilly合作一个项目,收集每个数据工程师都应该知道的97件事,我需要您的帮助。请访问dataEngineeringpodCast.com/97Things添加您的声音,并分享您来之不易的专业知识。

当您准备好构建您的下一条管道,或者想测试您在节目中听说的项目时,您将需要一个地方来部署它,所以请访问Linode查看我们的朋友。有了他们的托管Kubernetes平台,现在部署和扩展您的工作流甚至更容易了,或者尝试使用Pulsar和Pachyderm等工具的最新Helm图表。凭借简单的定价、快速的联网、对象存储和全球数据中心,您拥有运行防弹数据平台所需的一切。现在就访问dataEngineeringpodCast.com/linode,获得60美元的积分来试用您自己的Kubernetes集群。别忘了感谢他们对这个节目的一如既往的支持!

如果您一直在探索跨组织收集和路由数据的可扩展、经济高效且安全的方法,RudderStack是帮助您将自己的仓库转变为最先进的客户数据平台的唯一解决方案。他们的任务是让数据工程师完全拥有他们的客户数据基础设施,并轻松地将价值推向组织的其他部分,如市场营销和产品管理。凭借其开源的基础、固定的价格和无限的容量,它们已经为企业做好了准备,但每个人都可以访问它们。访问dataEngineeringpodCast.com/rudder请求演示,并获得一个月的免费访问托管平台的权限,以及一件免费的t恤。

您收听本节目是为了了解和了解数据库、流媒体平台、大数据以及您需要了解的关于现代数据平台的所有其他方面的最新情况。为了获得更多保持最新信息、获得新技能并向同龄人学习的机会,您可以在舒适和安全的家中参加越来越多的虚拟活动。请访问dataEngineeringpodCast.com/Conference查看我们的合作伙伴即将提供的活动,并立即注册!

您的主持人是Tobias Macey,今天我将就LinkedIn的元数据管理和数据目录平台DataHub采访Pardhu Gunnam和Mars Lan

您能先概述一下什么是DataHub以及它的一些背景故事吗?在引入DataHub之前,您在LinkedIn使用什么进行元数据管理?

以前的解决方案中缺少什么促使您创建新平台的原因?

还有大量其他系统可用于构建数据目录和跟踪元数据,既有开源的,也有专有的。DataHub有哪些功能会让人使用它来代替其他选项?

DataHub的目标受众是谁?这些最终用户的需求如何影响或约束您对DataHub提供的设计和界面的方法?

您将DataHub作为开源项目发布的动机是什么?在维护公共存储库和内部部署的实例之间的更改时,您面临哪些挑战?

在管理元数据格式和为存储的信息建立一致的模型方面,您看到了哪些挑战?

你在LinkedIn内部或外部看到的DataHub最有趣或最意想不到的方式是什么?

您在构建和使用DataHub时学到的最有趣、最意想不到或最具挑战性的经验是什么?

从您的角度来看,目前在数据管理工具或技术方面最大的差距是什么?

感谢您的聆听!别忘了查看我们的另一个节目Podcast。__init__来了解Python语言、它的社区以及它的创新使用方式。

访问该网站订阅该节目,注册邮件列表,并阅读该节目的备注。

如果你从这个节目中学到了什么或者尝试了一个项目,那就告诉我们吧!将您的故事通过电子邮件发送至[email protected])。

为了帮助其他人找到这个节目,请在iTunes上留下评论,并告诉你的朋友和同事。

前奏和结尾音乐来自Freak Fandango交响乐团/CC by-SA的The Hug