机器学习队列:合成

2021-06-21 01:25:32

永久链接“数据科学家”,“机器学习开发人员”,“深度学习工程师”,“数据工程师”,“ML OPS工程师”,以及“数据分析师”通常是过载的角色标题 - 并且不一定指示用户的日子 - 今天的工作,或他们使用的工具来实现这项工作。

为了更好地了解和表征这些不同的用户段,我们可以使用在卡格中引用的工具,库和框架:机器学习状态和数据科学2020调查到集群工程师进入群组组。我们也可以松散地将这些群体与预期的云花费捆绑;确定每个用户群组的典型任务负责完成;评估每个用户群组的计算和存储要求;基于调查响应,估计群组大小。

调查受访者在本地计算机上使用小于中型数据集进行压倒性地执行探索性分析,在本地计算机上使用存储为平面文件。机器学习项目 - 如果全部尝试ML - 是在早期阶段,使用最适合高RAM CPU的传统方法而不是GPU SKU(例如:SCICIT-GREAND和CLAMETING方法)。

基于响应,数据科学团队趋势小(0-5工程师),在SDLC最佳实践中具有光长严谨(例如:版本控制);大多数数据科学家来自非CS背景,具有最小的编程体验。首选工具是绝大多数开源和非专有的。如果调查受访者正在使用Visual Studio代码,它通常通常用于非互动,生产机器学习和数据科学工作。

年度调查6-7M注册的摇晃用户。卡格是世界上最大的机器学习和数据科学的在线社区。

SackageOverflow用户的年度调查。特定于域名; 〜8%的受访者表示正在进行数据联盟工作(数据科学,ML,Research)。

Python开发人员的年度调查,在PSF和JetBrains之间完成了伙伴关系。不是数据科学和ML特定的,尽管〜50%的受访者表示他们使用Python为EDA。

蟒蛇管理的数据分析师和ML工程师的重点调查。数据未公开发布;但是可以提供执行摘要。

不是特定于域的调查,而不是通过使用的工具分段。超过一半的ML和数据科学受访者(5K)是业余爱好者和学生,只是学习如何做ML;不是专业人士。

鉴于两个调查仪器的重点性质,Anaconda调查和演播者调查都被选为最有用,因为该分析的目的是最有用的。来自Python开发人员调查的数据科学和机器学习受访者(总数的55%);专业数据科学和机器学习受访者的斜拉塔调查(总数的25%); Sackoverflow Developer Survey的数据科学受访者(总数的8%)用作补充证据。

虽然仅在Akgle调查的总受访者中的三分之一,但PSF调查表明他们正在使用VS代码,但通过定性访谈,以及社交媒体刮和GitHub问题分析 - 不是为了探索性数据分析或交互式模型建设,而是用于机器学习模型部署;对于其他类型的软件开发或Python库建设;或者轻量级编辑Python和Markdown文件。

数据可通过GitHub和#39; S平面数据查看,并从卡格网站下载。

清除了Kaggle测量数据,然后根据调查响应为每个开发人员工具进行单热编码。从数据集中删除了小于10%的受访者使用的工具。然后,我们使用UMAP聚类与32的最近邻居定义用户的集群;发现了六个不同的集群并翻译成群组,与自我分配的角色标题没有明显的相关性。

群体验证了蟒蛇数据科学调查中的定性数据,以及博客和社交媒体帖子; stackoverflow问题;和GitHub问题(例如:ML OPS工程师往往有背景,在&#34上更常见的背景;软件工程"频谱的一侧)。

汇总调查响应的主要发现可以在下面找到。每个子弹点相邻的数字表示上面的调查(1到5)支持每个评估。

许多调查受访者没有计算机科学背景,但已经在其他域名(物理,自然或生物科学;统计;等) - 经常获得毕业生或专业学位。 [1,2,3,4]

大多数调查受访者一直在编程少于十年,并且具有不到三年的机器学习或软件工程的经验。 [1,4]

大多数调查受访者在小型球队(0-5名工程师)中工作,或者在练习的大型社区(20岁以上的工程师)中。这些数据科学家不太可能使用版本控制系统;但经常用Github表示为一个地方找到他们的实验的地方,以及展示他们的工作的方式。 [1,4,5]

大多数调查受访者似乎在20多岁或30岁后期,患者初期为22%至34岁。只有20%的人高于40岁;并且存在偏好的数字甚至更年轻,因为生成Z与数据科学和机器学习工作变得更加涉及。近7%的卡格测量数据科学家18-21岁,从2019年增加了5%。[1,2,4,5]

Jupyter Products(Jupyterlab和原始Jupyter笔记本)是IDE使用(74.1%)的压倒主德,其中码,Pycharm和Rstudio颈部颈部第二名(全部约为32%)。调查受访者常常使用多个开发环境。 [1,2,3,4,5]

调查受访者更喜欢具有自动连接到数据源的快速刻痕块,并且不需要手动身份验证。虽然自由层托管笔记本(例如:Colab,Binder)由受访者的子集使用,但外部托管和共享代码不是P0。 [1,4]

大多数调查受访者都使用很小的中型数据集,可以适合内存。 [1,4]

这些数据集通常由本地平面文件(CSV,JSON等)组成,或从关系数据库导出的表。如果有的话,数据湖泊和非SQL数据库很少使用。 [1,4]

首选数据库主要是开源(PostgreSQL,MySQL,SQLite等),但是为Microsoft SQL Server为Microsoft SQL Server进行了大量用户。 [1]

探索性数据分析是数据科学和机器学习工作的重要组成部分;并且通常使用开源库进行。请注意:EDA与ETL管道建筑物不同,并且是ETL管道建筑的前身。[1,4]

使用大型机器(火花,DASK)正在完成几乎没有探索数据分析。如果使用这些工具,它最常见于如下表中描述的群组,如ML OPS专业人员,数据工程师或深度学习工程师。 [1,4]

大多数调查受访者正在进行探索性数据分析,或使用Scikit-learn学习传统的机器学习。这些模型是最常用的逻辑和线性回归;随机森林和决策树;贝叶斯方法;和渐变增强树木。 [1,3,4]

数据科学家使用多种语言是常见的 - 通常的嫌疑人是R,Python和SQL。 [1,2,3,4,5]

大多数调查受访者不使用自动化机器学习(Automl)技术,或实验管理和模型编音工具(例如:权重和偏见;偏见,mlflow)。 [1,4]

大多数调查受访者尚未在生产中使用机器学习,尽管该数字稳步增加年内(2019年的28.9%,而2020年的30.8%)。 [1,4,5]

大多数调查受访者尚未使用自主托管的云技术,尽管他们经常利用第三方托管笔记本(例如:Colab,Binder)。 [1]

在云资源中分割出现在云资源上花费超过100k(n = 729)的kaggle调查受访者,我们发现:

使用Power BI和Tableau(分别分别为22%和30%)存在大量受访者。

Azure跳到第二名(31%),用于调查受访者,他们表明他们在云资源上花费超过100万美元。对于汇总的调查受访者,第二个最流行的云是GCP。两个部分的最流行的云是AWS。

大型云客户甚至对深度学习的重点少;如果他们完全使用机器学习,他们正在使用传统模型。

只有一半的大型云计算用户(49%)正在使用GPU - 并且即使对于这些用户而言,那些GPU也是本地的。

调查受访者指出花费100k或更多的云资源更有可能成为职业员工(5年以上的经验)。

其他数据点仍然保持:vs代码位于遥远的第二个地方到jupyter *作为IDE;平面文件和关系数据库仍然是最常见的数据源;大多数球队没有机器学习模型在生产中运行,仍在探索;等等。

上述调查数据已用于创建客户队列表(下面的蒸馏视图)。

请注意:此表并不意味着对这些群组组的全面评估和他们使用的工具;只是简要概述。对于每组潜水深度潜水的其他博客帖子。

新的编程,数据科学和机器学习。规范榜样将是高中和大学生。学习的主要机制是视频内容(Coursera,YouTube,EDX等)。

新的数据科学和ml,刚开始学习。最常来自应用程序开发背景。

使用数据来帮助了解业务问题或研究问题。 最小(如果有的话)统计背景。 刚刚开始使用机器学习方法来解决业务问题,并补充探索数据分析技术。 刚开始使用机器学习方法来解决研究问题,并补充探索数据分析技术。 类似于传统的机器学习段; 最舒适的中型数据集和本地机器。 Neurips,ICML和ICLR队伍; 这些是您希望在Openai,Google Beal等中看到聘用的研究人员。 Tensorflow,JAX和Pytorch的低级API的作者; 分布式训练框架,如雷; 和类似的。 生产ML系统的工程师; 负责运行,维护和调试ML管道(通过部署从ETL)。 通常没有机器学习中的背景。