李天辉是数据孵化器的创始人,这是一个为期8周的奖学金,旨在帮助博士和博士后从学术界过渡到行业。此前,他在Foursquare负责货币化数据科学,曾在谷歌(Google)、安德森·霍洛维茨(Andreessen Horowitz)、摩根大通(J.P.Morgan)和D.E.Shaw工作过。
这是我参加的几乎每一个会议上都会被问到的问题,通常来自两个群体中的某个人,他们对答案有既得利益:第一个是目前或有抱负的从业者,他们对未来的就业前景感到疑惑。第二类是刚刚开始数据科学之旅的高管和经理。
他们经常听说Target可以根据顾客的购物模式确定她是否怀孕,并希望为他们的数据提供类似的强大工具。他们已经听到了最新的自动人工智能供应商的推介,承诺提供Target所做的事情(甚至更多!)。如果没有数据科学家。我们认为自动化和更好的数据科学工具不会消除甚至减少数据科学的地位(包括像Target故事这样的用例)。它创造了更多这样的人!
数据科学中最重要的问题不是选择哪种机器学习算法,甚至不是如何清理数据。这是您甚至在编写一行代码之前都需要问的问题:您选择哪些数据,以及您选择对这些数据提出哪些问题?
大众想象中缺失(或一厢情愿地假设)的是这些任务所包含的独创性、创造力和商业理解力。我们为什么要关心我们的客户是否怀孕呢?塔吉特的数据科学家建立在大量早期工作的基础上,以理解为什么这是一个利润丰厚的客户群体,准备好更换零售商。哪些数据集是可用的,我们如何对这些数据集提出科学上可测试的问题?
塔吉特的数据科学团队碰巧将婴儿登记数据与购买历史联系在一起,并知道如何将其与客户支出联系起来。我们如何衡量成功?将非技术需求表述为可以用数据回答的技术问题是最具挑战性的数据科学任务之一,也可能是最难做好的任务之一。如果没有经验丰富的人类来阐述这些问题,我们甚至无法开始数据科学之旅。
在提出数据科学问题后,数据科学家需要概述他们的假设。这通常以数据交换、数据清理和功能工程的形式表现出来。真实世界的数据是臭名昭著的肮脏数据,我们必须做出许多假设来弥合我们拥有的数据与我们寻求解决的业务或政策问题之间的差距。这些假设也高度依赖于现实世界的知识和商业环境。
在Target的例子中,数据科学家必须对怀孕的代理变量、他们分析的现实时间框架和适当的控制组做出假设,以便进行准确的比较。几乎可以肯定的是,他们必须做出现实的假设,这样他们才能丢弃无关的数据,并正确地对特征进行标准化。所有这些工作在很大程度上取决于人类的判断力。将人类从循环中移走可能是危险的,正如我们从最近一连串的机器学习偏见事件中所看到的那样。也许并非巧合的是,它们中的许多都是围绕深度学习算法展开的,这些算法提出了一些最强烈的主张,要求废除功能工程。
因此,虽然部分核心机器学习是自动化的(事实上,我们甚至教授了一些自动化这些工作流的方法),但数据挖掘、数据清理和功能工程(占数据科学实际工作的90%)不能安全地自动化。
历史上有过一个明确的先例,表明数据科学不会自动消失。在另一个领域,训练有素的人类正在制作代码,让计算机完成令人惊叹的壮举。这些人比其他没有在这一领域接受过培训的人得到了很高的报酬,而且(也许并不令人惊讶)有专门培训这项技能的教育项目。由此带来的自动化这一领域的经济压力即使不是更大,也同样巨大。这个领域是软件工程。
事实上,随着软件工程变得更容易,对程序员的需求也在不断增长。这一悖论-自动化提高生产率,压低价格,最终推高需求-并不是什么新鲜事,我们在从软件工程到金融分析再到会计的各个领域都一再看到这一点。数据科学也不例外,自动化可能会推动对这一技能的需求上升,而不是下降。