这项工作的目标是开发一个名为Learning Orchestra的工具,以促进和简化以下数据科学迭代过程:
可以使用Database APImicroservice从URL加载数据集(CSV格式),该服务将数据集转换为JSON,然后将其存储在MongoDB中。
还可以使用LearningOrchestra的微服务集合执行几个预处理和分析任务。
有了LearningOrchestra,您可以通过Model Builder微服务使用存储和预处理的数据集,同时构建具有不同分类器的预测模型。此微服务使用Sparkcluster使用分布式处理建立预测模型。您可以随着时间的推移比较不同的分类结果,以拟合和提高预测精度。
通过提供自己的预处理代码,用户可以针对特定数据集创建高度自定义的模型预测,从而提高模型预测精度。考虑到这一点,可能性是无穷的!🚀。
为了便于使用learningOrchestra,我们提供了Learning_orchestra_client Python包。此软件包在Python API中为开发人员提供了学习Orchestra的所有功能。
为了改善用户体验,您可以使用MongoDB GUI(如NoSQLBooster)导出和分析结果。
我们还使用泰坦尼克号挑战数据集构建了learningOrchestra的演示(在Learning_orchestra_client用法示例部分)。
LearningOrchestra文档中有关于如何安装和使用它的更多详细信息。我们还提供了每个微服务和Python包的文档和示例。