包含推荐资源的数据工程学习路径

2020-10-19 02:35:11

作为数据工程师,您将编写大量代码来处理各种业务案例,如ETL、数据流水线等。事实上,数据工程的标准语言是Python(不要与用于数据科学的R或NIM混淆,它们在数据工程中没有任何用处)。

RDBMS是任何应用程序数据的基本构建块。数据工程师应该知道如何设计和设计其结构,并了解与其相关的各种概念。

NoSQL是任何非关系数据库模型的术语:键-值、文档、列、图等等。基本了解是必需的,但深入了解任何模型都取决于工作(下一节中的专栏除外)。

列数据库是NoSQL数据库的一种。它们理应拥有自己的部分,因为它们对数据工程师至关重要,因为在线处理大数据(而不是离线批处理)通常需要柱状后端。

OLAP(分析)数据库(在数据仓库中使用)数据建模概念,正确地对数据建模对于正常运行的数据仓库至关重要。

接下来的两个类别都是关于数据处理机制的。我们将从批处理和MapReduce开始,通常使用Hadoop。这被认为是第一代数据处理。从那里,我们将进入斯特拉姆处理,通常与火花完成。这些主题是紧密相连的。例如,Spark可以在HDFS上操作,HDFS是Hadoop的文件系统。尽管学习使用Hadoop进行批处理似乎已经过时,但即使您计划体验流数据生活,理解该主题也是必不可少的。

第一代数据处理,使用Hadoop和Spring。每个人都应该知道它是如何工作的,但只有在必要时才建议深入了解细节和操作。今天,使用Spark这样的工具,更多地关注流媒体。

下一代数据处理。建议从流媒体系统这本书中很好地掌握这个主题,然后深入研究特定的工具,如Kafka、Spark、Flink等。

用于数据处理的调度工具。气流被认为是事实上的标准,但任何对任务的DAG有向非圆图的理解都会很好。