机器学习要避免的九大陷阱，你了解多少？(3)

2019-02-19 11:04:14 网络整理阅读：79 评论：0

例如，在发现欺诈行为的情况下，应重点关注存款中异常值。解决方案：要解决此类问题，您的团队应该使用建模算法，它能够正确处理异常值，或者在建模前过滤异常值。良好的开端在于让您的团队做一个初步检查，以确定数据中是否存在异常值。最简单的方法是审查数据的图标或检查任何数值，它们可能是几个标准差，或更远离平均值的数值。

陷阱7：计算错误功能

当一个团队为建模提供投入时，微分过程中的任何错误都可能会为模型带来误导性输入。

毫无例外，无论团队如何构建，模型都出乎意料地产生了不可靠的结果。这个问题的一个例子是，一个团队弱化了一个依赖于计算的利用率的信用评分预测模型，因为这个团队包括来自信用报告的不活跃贸易信息。解决方案：建模师必须仔细检查团队如何获取数据。关键的出发点是要了解哪些功能是原始格式，哪些是经过设计的。自此，建模师就可以在进行建模之前检查衍生功能的假设和计算。

陷阱8：忽略多线投入(multi-collinear inputs)

使用数据集而不考虑多重共线性预测因子(multi-collinear predictors)是误导模型建构的另一种方式(多线性输入的存在意味着两个或多个变量之间存在着很高的相关性)。结果使其很难识别任何一个变量的影响。

在这种情况下，选定功能的微小变化会对结果产生重大影响。这个问题的一个例子是，广告预算和流量作为预测变量呈现共线性。解决方案：检测多重共线性的简单方法是计算所有变量对应的相关系数。之后您就有诸多选择来解决任何确定的共线性问题，如建筑构图或删除冗余变量。

陷阱9：无效绩效KPI

当建模数据各种进程进入平衡状态时，大多数建模算法表现最好。当数据显示不平衡时，衡量模型性能的正确指标变的至关重要。

例如，平均违约率为1.2%。一个模型的准确度能达到98%，预测在所有情况下都不会发生变化。解决方案：除非可以选择生成更均衡的训练集，或使用基于成本的学习算法，选择业务驱动的绩效指标是最好的解决方案。对于超出准确度的模型的绩效有着各种措施，如精确度，召回率，F1 得分和受试者工作特征(receiver operating characteristic，ROC)曲线。选择最合适的度量标准将指导建模算法错误最小化。

从坚实的基础开始

机器学习要避免的九大陷阱，你了解多少？(3)