我们不需要数据科学家,我们需要数据工程师

2021-01-15 20:19:13

数据。它无处不在,我们只会得到更多。在过去的5-10年中,数据科学吸引了越来越多的新人来尝试品尝这种禁果。

TLDR:与数据科学相比,公司在数据工程领域的开放角色要多70%。在培训下一代数据和机器学习从业人员时,让我们更加注重工程技能。

在为数据专业人员开发教育平台的工作中,我对数据驱动(机器学习和数据科学)角色的市场正在如何发展进行了很多思考。

在与包括全球顶尖机构的学生在内的数十个潜在数据进入者进行交谈时,我看到了对于最重要的技能(帮助候选人在人群中脱颖而出并为自己的职业生涯做准备)最困惑。

当您考虑时,数据科学家可以负责以下任何子集:机器学习建模,可视化,数据清理和处理(即SQL处理),工程和生产部署。

数据胜于雄辩。因此,我决定对自2012年以来从Y-Combinator出来的每家公司聘用的数据角色进行分析。指导我研究的问题:

我选择对YC投资组合公司进行分析,这些公司声称将某种数据作为其价值主张的一部分。

为什么要关注YC?好吧,对于初学者来说,他们在提供容易搜索(可抓取)的公司目录方面做得很好。

此外,作为一个特别有远见的孵化器,它为来自各个领域的世界各地的公司提供了超过十年的资金,我觉得他们为进行分析提供了一个具有代表性的市场样本。话虽这么说,但请注意,因为我没有分析超大型科技公司。

自2012年以来,我刮擦了每家YC公司的首页URL,最初形成了约1400家公司。

为什么要在2012年停下来?好吧,2012年是AlexNet赢得ImageNet竞赛的一年,有效地掀起了我们现在正在经历的机器学习和数据建模浪潮。可以说,这诞生了最早的数据优先公司。

从这个初始池中,我执行了关键字过滤,以减少需要浏览的相关公司的数量。特别是,我只考虑了其网站至少包含以下术语之一的公司:AI,CV,NLP,自然语言处理,计算机视觉,人工智能,机器,机器学习,数据。我也忽略了那些网站链接断开的公司。

这会产生大量误报吗?绝对!但是在这里,我认识到我将对各个网站进行更细粒度的手动检查以找到相关角色,因此我尝试尽可能地优先考虑高召回率。

有了这个减少的资源池,我遍历了每个站点,找到了他们在哪里发布广告(通常是“职业,职位或我们正在招聘”页面),并记下了每个角色,包括数据,机器学习,NLP或CV。标题。这给了我大约70个不同的公司来招聘数据角色。

这里有个提示:可以想见,我错过了一些公司,因为有些网站实际上很少招聘信息(通常是隐身的网站)。此外,有些公司没有正式的“职业”页面,但要求潜在候选人直接通过电子邮件与他们联系。

我忽略了这两种类型的公司,而不是与它们接触,因此它们不是此分析的一部分。

另一件事:这项研究的大部分时间都是在2020年的最后几个星期完成的。随着公司定期更新其页面,公开职位可能已经改变。但是,我认为这不会严重影响得出的结论。

在深入研究结果之前,值得花一些时间来澄清每个数据角色通常负责什么职责。以下是我们将花时间介绍的四个角色,并简要说明了它们的作用:

数据科学家:在统计和机器学习中使用各种技术来处理和分析数据。通常负责构建模型以探究可从某些数据源中学到的内容,尽管通常是在原型而非生产级别。

数据工程师:开发一套强大且可扩展的数据处理工具/平台。必须熟悉SQL / NoSQL数据库的整理和构建/维护ETL管道。

机器学习(ML)工程师:通常既负责培训模型,又负责生产模型。需要熟悉一些高级ML框架,还必须能够轻松构建模型的可扩展训练,推理和部署管道。

机器学习(ML)科学家:致力于前沿研究。通常负责探索可以在学术会议上发布的新想法。在移交给ML工程师进行生产之前,通常只需要对最新技术模型进行原型制作。

那么,当我们绘制公司要招聘的每个数据角色的频率时,会发生什么呢?情节看起来像这样:

立即脱颖而出的是,与传统数据科学家相比,开放数据工程师的角色增加了多少。在这种情况下,原始计数对应于公司为数据工程师雇用的人数比数据科学家多约55%,并且机器学习工程师的人数与数据科学家大致相同。

但是我们可以做更多。如果您查看各个角色的职位,似乎有些重复。

我们只通过角色合并来提供粗粒度的分类。换句话说,我担任的角色的描述大致相同,并将其合并为一个标题。

NLP工程师≈\ approx≈CV工程师≈\ approx≈ML工程师≈\ approx≈深度学习工程师(尽管领域可能不同,但职责大致相同)

ML科学家≈\ approx≈深度学习研究员≈\ approx≈ML实习生(实习描述似乎很注重研究)

数据工程师≈\ approx≈数据架构师≈\ approx≈数据头≈\ approx≈数据平台工程师

如果我们不喜欢处理原始计数,请通过以下百分比让我们放心:

我可能可以将ML研究工程师归入ML科学家或ML工程师箱中,但是鉴于这是一种混合角色,我将其保留下来。

总体而言,合并使差异更加明显!开放数据工程师比数据科学家职位多70%。此外,开放式ML工程师比数据科学家职位多40%。机器学习科学家的数量也只有数据科学家职位的30%。

与其他数据驱动型行业相比,数据工程师的需求越来越高。从某种意义上说,这代表了更广阔领域的发展。

当机器学习在5到8年前变得炙手可热时,公司决定他们需要可以对数据进行分类的人员。但是随后Tensorflow和PyTorch之类的框架变得非常好,使深度学习和机器学习入门的能力民主化。

如今,帮助公司获得有关数据问题的机器学习和建模见解到生产中心的瓶颈。

您如何注释数据?您如何处理和清理数据?您如何将其从A移到B?您如何每天尽快做到这一点?

这听起来可能很无聊而且很性感,但是偏向于数据的老式软件工程可能是我们目前真正需要的。

多年以来,我们一直迷恋数据专家的想法,这些专家凭借出色的演示和媒体炒作为原始数据注入生命。毕竟,什么时候您是最后一次看到TechCrunch有关ETL管道的文章?

如果没有别的,我相信在数据科学工作培训或教育计划中,我们对固态工程的重视不够。除了学习如何使用linear_regression.fit()之外,还学习如何编写单元测试!

这意味着竞争将更加艰难。对于正在接受训练有素的数据科学市场的新手来说,将会有越来越少的职位可用。

始终需要人们能够有效地分析数据并从数据中提取可行的见解。但是他们必须是好人。

从Iris数据集上的Tensorflow网站下载经过预训练的模型可能不再足以完成该数据科学工作。

但是很明显,由于大量的ML工程师职位,公司经常需要混合数据从业人员:可以构建和部署模型的人。或者更简洁地说,可以使用Tensorflow但也可以从源代码构建它的人。

这里的另一个收获是,只有很少的ML研究职位。

机器学习研究倾向于大肆宣传,因为这是所有最前沿的东西发生的地方,所有AlphaGo和GPT-3都没有。

但是对于许多公司,尤其是早期公司而言,尖端的最新技术可能不再是必需的。取得模型的90%,但可以扩展到1000多个用户,通常对他们来说更有价值。

这并不是说机器学习研究没有重要的场所。绝对不。

但是,您可能会在行业研究实验室中找到更多这类角色,这些角色可以承受很长一段时间的资本密集型赌注,而不是在种子阶段的初创公司试图证明产品市场适合投资者时提高系列A。

如果没有其他事情,我认为重要的是要使新来者对数据字段的期望合理并经过校准。我们必须承认,数据科学现在与众不同。我希望这篇文章能够对当今的领域有所启发。只有当我们知道自己在哪里时,我们才知道需要去哪里。