首页 > 科技 >

干货:数据挖掘方法论与工程化思考(4)

2018-08-22 21:35:56 网络整理 阅读:166 评论:0

1)检查特征提取方法是否正确且可以表达业务含义;

2)结合模型训练及测试结果,确认特征提取逻辑的完备性和稳定性。

四、算法参数选择

根据业务需求分析算法合理性,对比不同参数下的模型运行结果,确定算法及参数选择的合理性。

1)根据业务需求及数据特点选择合适算法,使用多种算法进行对比,得到适合建模场景的算法;

2)参数选择同理,对比多种参数选择结果,选最佳结果对应的参数。

五、数据分配策略

检查采用交叉验证方式建立模型过程中的数据集拆分策略及模型结果,对比不同分配策略下模型的效果。

1)检查数据集是否满足生产环境数据应用需求(如时序要求,数据量级限制等);

2)检查交叉验证过程中数据集训练和测试分配策略是否合理,包括拆分比例和方法;

3)对比多种分配策略,根据训练和预测结果选择恰当的分配比例,使得模型有良好的准确性、稳定性和泛化性。

六、模型训练效率

检查模型开发过程中所使用的工具情况,及模型开发过程的运行耗时。

1)检查模型开发..或工具包在训练过程中的可靠性;

2)检查模型训练和测试耗时是否满足需求;

3)检查模型训练和测试的自动化支持能力。

七、模型评价方案

检查模型评价方案及评价指标的合理性。

1)使用多种评价指标分析模型训练效果,针对不同类型模型选择适当评价指标;

2)建议分类模型选择AUC、Precision、Recall和F1-score;回归模型选择Rmse、r2等;聚类模型选择聚合度等。

八、模型结果复核

检查模型评价结果的正确性,结果可再现及稳定性;

1)选择适当的评价指标,由评价指标结果判断模型结果优劣;

相关文章