首页 > 科技 >

Databricks 开源 MLflow ..,解决机器学习开发四大难点(2)

2018-06-09 19:23:05 网络整理 阅读:123 评论:0

在 Databricks,我们相信有更好的方式来管理机器学习生命周期,基于此我们推出全新的开源机器学习.. MLflow。目前,alpha 版本已发布。Github 链接:https://github.com/databricks/mlflow

MLflow:全新的开源机器学习..

MLflow 从现有 ML ..中得到灵感,在设计上拥有以下两项开放理念:

开放的交互界面:MLflow 被设计成支持所有 ML 库、算法、部署工具和语言,它围绕 REST API 和可以从多种工具中应用的简单数据格式(如将模型看作 lambda 函数 )建立,而不是仅支持少量内建功能。这带来一个立竿见影的好处:可以轻易将 MLflow 加入现有代码中,同时,在组内分享可执行的使用任意 ML 库的代码也变得简单。

开源:MLflow 是一个开源项目,用户和工具库开发者能对其进行扩展。另外,如果你希望开源自己的代码,得益于 MLflow 的开放格式,在组织间共享工作流步骤和模型十分简单。

MLflow 现在仍为 alpha 版,但是我们认为该版本在处理 ML 代码上已非常有用,我们也乐意收到大家的反馈。接下来是对 MLflow 以及相关组件的详细介绍。

组件

MLflow alpha 版由以下 3 个组件构成:

Databricks 开源 MLflow ..,解决机器学习开发四大难点(2)

MLflow Tracking

MLflow Tracking 是一个 API,当你在运行机器学习代码打算后续可视化时,它是展示参数记录、代码版本、metric 和输出文件的 UI。只需几行简单的代码,你就能够追踪参数,metric 和 artifact:

Databricks 开源 MLflow ..,解决机器学习开发四大难点(2)

你可以在任何环境(独立脚本、notebook 等)下使用 MLflow Tracking 将结果记录到本地文件或者服务器,之后再将多次操作进行对比。借助网页 UI,你可以查看和对比多次输出。团队也能使用这些工具来比较不同用户的实验结果。

相关文章