apache flink ml 2.0释放:ml用于流数据

2022-01-11 01:01:07

Apache Flink社区很高兴宣布释放Flink ML2.0.0! FLINK ML是一个库,为建筑机组批量统一机器学习算法提供API和基础设施,可以易于使用和格式格式(近)实时延迟。

我们认为,此版本是朝着Apache Flink TOA扩展到广泛的机器学习用例的重要一步,尤其是实时机械学习方案。

机器学习工作流程中的阶段可能采用多个输入和Returnuipulte输出。例如,图形嵌入算法可能需要读取TWO表,其分别表示图形的边缘和节点。 Aworkflow可能需要将输入数据集分为两个outputDatasets的阶段,分别用于培训和测试。

在本机在线学习场景中,我们有一个长期运行的作业,可使处理数据和更新机器学习模型。我们可以在在线推理的Web服务器中部署多个作业。必须从培训作业中传输到WheInifififice作业中的最新型号数据(近)实时延迟。

使用FLIP-173,可以通过GetModelDATA()API。该算法用户可以将模型数据暴露为无界限的流。该算法用户可以将模型数据转换为Real-Timeand中的Web服务器,使用最新的模型数据进行在线推断。此功能可加价地加强Flink ML的能力,以支持在线学习应用。

使用FLIP-174,参数可以定义为接口的静态变量,并且实现界面的任何算法可以在没有额外工作的情况下继承这些变型定义。通常使用的参数验证器作为基础架构的一部分。

FLIP-175将管道的这种能力推广到DAG。用户现在可以从估算器和变压器的DAG组成麻利器。这种表现的这种能力允许开发人员将复杂的工作流切成更简单的模块,并在多个工作流程中重新使用模块。我们认为,这种能力可以显着提高使用FLINK ML建造和部署复杂工作流程的经验。

FLIP-176实现了astream - 批处理统一迭代库。它提供了开发记录的函数回到先例的运营商以及跟踪迭代内部轮次进度的能力。用户可以直接伪造使用API​​和表API来表达在验证内部的执行逻辑。此外,新的迭代库还扩展了FlinkScheckPointing机制,还可以完全支持一旦作业使用逻辑故障。

在未来,我们将增强Py​​thon SDK以启用其互操作性With Flink ML的Java库,例如,允许用户在Python中表达MachineLearning工作流,其中工作流程由Python中的Python中实现的阶段的混合组成。 (例如Atensorflow程序)。

我们在本释放中实施了五种算法,即Logistic回归,K-Means,K-Colletbors,Naive Bayes和单热编码器。目前,Thesevorithms侧重于验证API和迭代运行时。此外,还有越来越多的算法,我们还将强调测试并优化他们的形态,以确保这些算法具有最先进的性能.STay调整!

为了促进扩展Apache Flink的生态系统项目的社区合作,Apache Flink PMC授予权限Touse Plink-Extende作为这个GithubOrganization的名称,它提供了一个中载地址来托管生态系统项目代码。

我们希望您可以加入这项努力并分享您的Flink Ecosystem项目Inthis Github组织。并保持调整以获取更多关于EcosystemProjects的更新。

本说明讨论了有关不兼容性的任何关键信息,以及可能影响Flink M1的产生部署的任何可能影响的任何其他更改。

FLIP-174MADE对参数相关的类进行了重大变化。更改包括类重命名,方法签名更改,方法删除等。

此更改介绍了Flink 1.14发行说明中列出的所有中列出的故障更改。重大变化是不再支持数据集API。

现在可以在Flink网站的更新下载页面上提供二进制分布和源工件,并且Pypi上最近的Flink ML Python软件包的分发。