首页 > 科技 >

干货:数据挖掘方法论与工程化思考(2)

2018-08-22 21:35:56 网络整理 阅读:166 评论:0

3.数据准备(data preparation),涵盖了从原始粗糙数据中构建最终数据集(将作为建模工具的分析对象)的全部工作。

4.建模(modeling),各种各样的建模方法将被加以选择和使用,通过建造,评估模型将其参数将被校准为最为理想的值。

5.评估(evaluation),在这一阶段中已经建立了一个或多个高质量的模型。但在进行最终的模型部署之前,更加彻底的评估模型。回顾在构建模型过程中所执行的每一个步骤,,是非常重要的,这样可以确保这些模型是否达到了企业的目标。

是否仍然有一些重要的企业问题还没有被充分地加以注意和考虑。在这一阶段结束之时,有关数据挖掘结果的使用应达成一致的决定。

6.部署(deployment),即将其发现的结果以及过程组织成为可读文本形式.模型的创建并不是项目的最终目的。

数据挖掘的工程化基础

现阶段大数据、人工智能技术日新月异,对于数据科学领域的工作者来说,在学习新技术的同时更要积极探索适合企业发展的应用场景。

尤其是在人工智能领域,现阶段业界对于技术和数据的讨论比较多,但在传统行业中的应用场景其实还差的很多。

当然这不是一蹴而就的,其实依赖于企业整体数据应用水平的提升。企业积极尝试应用新技术,在大数据分析挖掘领域进行试点,然后伴随数据挖掘从点到面的工程化铺开,人工智能的应用场景自然就会呈现出来。

干货:数据挖掘方法论与工程化思考(2)

通常传统企业在大数据挖掘领域会有所尝试,并在若干点上取得一定的进展,但距离整体铺开应该都还有很大的差距。企业数字化转型即业务从电子化到数字化的过程,对应着大数据应用深度和复杂度的持续提升,其中数据挖掘的工程化水平是一个重要的衡量标准。

数据挖掘在流程机制的建立过程中要充分实现工程化管理,同时注意加强知识技能的共享和传导。模型开发对应的是实验室机制,数据科学家发挥应有的核心作用。

相关文章