来自未来数据会议的有趣想法

2020-10-14 01:02:30

我们谈论的是雪花大战AWS,数据仓库,以及数据让决策者无能为力。

AWS与Databricks和Snowflake等公司之间的动态是我以前想知道的。很难不这样做,因为AWS拥有自己的产品,是Databricks(EMR)和Snowflake(RedShift)的直接竞争对手。与此同时,Databricks和Snowflake都在很大程度上构建在AWS云平台之上。当然,那里肯定存在紧张局势,最近令人震惊的雪花公司(Snowflake)首次公开募股(IPO)让紧张局势变得更加明显。

很高兴听到最成功的风险投资人之一本·霍洛维茨在这里发表他的想法。从本质上讲,数据仓库和分布式计算环境是极难构建的产品,如果认为AWS在构建可扩展且可靠的云服务方面的专业知识会自动转移到构建功能更丰富、用户友好的SaaS产品(即使是使用AWS云构建的产品),那就太天真了。

从历史上看,平台之上总是有独立产品存在的空间(比如微软Windows操作系统上的甲骨文服务器),云平台也不例外。

本澄清说,他在评估可能与AWS竞争的产品时,会寻找三个具体的标准。他问有没有:

1.对于产品来说,有足够大的类别,有足够的深度。2.用户希望产品独立于AWS的战略原因。3.一家拥有出色领导力、工程团队和快速迭代能力的公司。

当这三家公司都出席的时候,结果就是有史以来规模最大的软件首次公开募股(IPO)。

说到Databricks,他们站在了将现代数据堆栈从以数据仓库为中心的模型转变为以数据湖为中心的模型的运动的前沿。Databricks的联合创始人兼首席技术官马黑·泽塔里亚(Mahei Zetaria)对这一愿景以及它旨在解决的问题做出了令人信服的解释。

当前数据仓库中DBT编排的SQL转换的分析师授权模型在允许数据团队利用他们的数据更好地理解他们的业务方面取得了巨大的成功。

此解决方案的不足之处在于,与BI报告或每日控制面板相比,该解决方案在支持具有更高性能或延迟顾虑的数据消费者方面存在不足。例如,预测用户数据的数据科学模型需要复制在数据仓库内执行的ETL逻辑,或者需要从定期导出的仓库表中低效地获取数据。

为了解决这个问题,Databricks正在构建功能以丰富以湖为中心的解决方案。其承诺是增强数据湖的可用性,以匹配仓库的优点,而不会产生成本和专有缺点。在这种新模式中,仓库从分析秀的明星变成了数据湖的另一个消费者。

采用此体系结构所带来的好处是否值得为其付出成本?我认为Databricks正在打造的一些产品的可用性和性能将是最终的决定因素。

当你退一步想一想,我们所做的事情是为了帮助决策者用数据做出更好的决策。当然,当有大量的数据和延迟需求时,这就不是那么简单了,这就是为什么数据专家使用专门的工具来分析数据已经成为“一件事”。

尽管公司在分析能力上投入了大量精力,但目前尚不清楚这是否对大多数决策者产生了积极影响,他们现在必须导航数据团队或Looker仪表盘,而不是每周收到Excel中可供玩弄的聚合数据,这在某些方面很脆弱,效率低下,但通常已经足够有效。

这是特里斯坦·汉迪在他关于现代数据堆栈:过去、现在和未来的前瞻性演讲中提出的想法之一。他认为,许多人被切断了与他们曾经接触到的数据的联系,应该开发新的工具,以便在公司内部更好地实现数据民主化(他预测电子表格的回归)。

更广泛地说,我认为对于担任数据角色的人(尤其是在大型公司)来说,重要的是不要在日常工作中迷失方向,确保ETL作业正在运行,报告中的数字是准确的-并保持对您提供的数据正在改善哪些决策的持续意识。

如果你在你的角色中有这样的可见性,那就欣赏它,并从中学习。如果你不知道,继续保持真诚的好奇心,问那些整体性的问题,直到你知道为止。

要查看今年未来数据大会的所有演讲,请单击此处。感谢您的阅读!。祝你一天休息愉快。