数据科学家:将叙述带到最前沿

2021-04-17 03:31:11

Peter Wang是数据科学平台Anaconda的首席执行官和联合创始人。他也是PyData社区和会议的共同创造者,以及人文技术中心的董事会成员。

然而,在我们与数据的集体迷恋中(并获得更多内容),经常被忽视的是讲故事在从数据中提取实际价值方面发挥的作用。

现实是,数据本身就不足以真正影响人类行为。目标是改善业务的底线或说服人们在大流行中留下家乡,这是迫使行动的叙述,而不是单独的数字。随着更多数据被收集和分析,由于它们在将信号与噪声分离而作用,沟通和讲故事将在数据科学学科中变得更加积分。

然而,这可以是数据科学家斗争的领域。在Anaconda的2020年数据科学州,超过2,300个数据科学家,近四分之一的受访者表示,他们的数据科学或机器学习(ML)团队缺乏沟通技巧。这可能是为什么大约40%的受访者表示他们能够有效地表现出业务影响“有时候”或“几乎从不展示”的一个原因。

最好的数据从业者必须在讲故事和部署模型中的讲故事方面的熟练 - 以及是的,这延伸到创建可视化以伴随报告。以下是数据科学家如何在较大的上下文叙述内占据其结果的一些建议。

不断增长的数据集帮助机器学习模型更好地了解问题空间的范围,但更多的数据不一定有助于人类的理解。即使对于思想家最左脑而言,它的性质也不是理解大型抽象数量或更加边际改善的东西的准确性。这就是为什么在讲故事中包含参考点,为什么要切实的数据。

例如,在整个大流行中,我们已经围绕案例计数,死亡率,积极率和更多轰炸了无数统计数据。虽然所有这些数据都很重要,但在提供上下文,传达风险的方面,交互式地图和围绕再现数量的对话等工具比大规模数据转储更有效,从而根据需要帮助改变行为。在使用数字时,数据从业者有责任提供必要的结构,以便通过预期的受众来理解数据。