曲棍球棒成长与GitHub明星

2020-10-30 04:03:20

常见的开源软件(OSS)/风险投资(VC)指标是有缺陷的,这并不令人惊讶;指标很难。

自从围绕一个已经存在的社区OSS项目Dask成立了一家公司以来,我已经就这个话题进行了很多次对话。我想分享两个典型的对话,它们展示了下面细微差别的必要性。一个是关于曲棍球棒的增长,另一个是关于GitHub明星的。

另一位初创公司创始人想通过创建一个迅速起飞的开源项目来推动他的产品被采用,他对如何快速适应项目市场感到好奇。

科学:达斯克看起来真的很成功。您是如何迅速获得开放源码社区的支持的?

我:我们没有。达斯克是六年倾听和勤奋社区服务的结果。

完整的基于社区的开放源码软件时间表对于一家营利性公司来说是没有意义的。

SF:那么,在那段旅程中,是什么原因让你最终实现了曲棍球棒的增长?

达斯克是有机生长的。请参阅我关于估计用户和我们每周唯一IP到API文档(我首选的指标)的帖子

我通常将这种增长曲线称为“有机增长”或“自然增长”,我认为这反映了一个更加稳定的用户社区,用户社区和开发者社区之间有着深刻的理解。

我们需要找到一种方法,让有机增长再次变得凉爽。我们可以称之为弯刀式增长,而不是曲棍球棒增长?:)。

在另一次对话中,一位风投投资者试图评估Dask的人气,询问GitHub明星。

我:这很难计算,因为Dask是一个生态系统项目,影响到几十个其他项目。

我:哎呀,也许主回购是7k,几个子回购是每个2k,然后是各种姊妹项目,比如急流、完美、xarray、…,每个项目都有5k。?

ME:但是一个更好的衡量标准可能是5%的Python用户使用Dask(根据PSF的调查,它偏向于关心Dask的人)。

因此,任何拥有20个Python用户的公司都有相当大的机会在内部使用Dask.。Apache Spark高2-3倍,Apache Hadoop略高,Apache Have略低,Apache Beam低约5倍。

Dask是迄今为止用Python开发的最流行的非JVM并行计算框架。

我知道没有比GitHub明星更好的指标了,你可以在开放的互联网上立即获得它。我不羡慕投资者。快速评估高科技软件的商业潜力是很困难的。拥有分布式系统和商业敏锐性双重专长的人很少见。

尽管如此,星级指标还是让我不太高兴。它是炒作的衡量标准,而不是使用或效用的衡量标准。

在Dask的具体情况下,用户中曲棍球杆的增长不再是可能的。我们已经达到了相当高的用户渗透率(5%的数字是针对所有Python用户的,包括Web开发人员,以及那些永远不会接触大数据的人)。现在要考虑的是公司的采用,仅仅因为一些数据科学家在每一家财富500强公司内部都使用Dask,并不意味着这些公司在整个过程中都使用Dask。不过,这一指标似乎更有说服力。

关于明星,今天围绕达斯克的大部分兴奋都是间接的。它是Dask支持的姊妹项目,如Rapids、Prefect、Pangeo/Xarray、XGBoost等等。作为一个社区项目,Dask努力融入并支持同行项目。这种集成是社区软件的优势所在。Dask和许多其他OSS项目加强了PyData的集体组织。我们不像是一个整体,而更像是碳纤维。向类似的计算项目Arrow、Rapids、Numba和Numpy致敬,这些项目都在标准和开放集成方面不知疲倦地工作。

我从根本上相信,实用的、可持续的软件更适合有机地、集体地构建。我很好奇什么样的衡量标准可以捕捉到更多的社区支持行为。

由Disqus提供支持的博客评论