首页 > 财经 >

机器学习要避免的九大陷阱,你了解多少?(3)

2019-02-19 11:04:14 网络整理 阅读:79 评论:0

例如,在发现欺诈行为的情况下,应重点关注存款中异常值。解决方案:要解决此类问题,您的团队应该使用建模算法,它能够正确处理异常值,或者在建模前过滤异常值。良好的开端在于让您的团队做一个初步检查,以确定数据中是否存在异常值。最简单的方法是审查数据的图标或检查任何数值,它们可能是几个标准差,或更远离平均值的数值。

陷阱7:计算错误功能

当一个团队为建模提供投入时,微分过程中的任何错误都可能会为模型带来误导性输入。

毫无例外,无论团队如何构建,模型都出乎意料地产生了不可靠的结果。这个问题的一个例子是,一个团队弱化了一个依赖于计算的利用率的信用评分预测模型,因为这个团队包括来自信用报告的不活跃贸易信息。解决方案:建模师必须仔细检查团队如何获取数据。关键的出发点是要了解哪些功能是原始格式,哪些是经过设计的。自此,建模师就可以在进行建模之前检查衍生功能的假设和计算。

陷阱8:忽略多线投入(multi-collinear inputs)

使用数据集而不考虑多重共线性预测因子(multi-collinear predictors)是误导模型建构的另一种方式(多线性输入的存在意味着两个或多个变量之间存在着很高的相关性)。结果使其很难识别任何一个变量的影响。

在这种情况下,选定功能的微小变化会对结果产生重大影响。这个问题的一个例子是,广告预算和流量作为预测变量呈现共线性。解决方案:检测多重共线性的简单方法是计算所有变量对应的相关系数。之后您就有诸多选择来解决任何确定的共线性问题,如建筑构图或删除冗余变量。

陷阱9:无效绩效KPI

当建模数据各种进程进入平衡状态时,大多数建模算法表现最好。当数据显示不平衡时,衡量模型性能的正确指标变的至关重要。

例如,平均违约率为1.2%。一个模型的准确度能达到98%,预测在所有情况下都不会发生变化。解决方案:除非可以选择生成更均衡的训练集,或使用基于成本的学习算法,选择业务驱动的绩效指标是最好的解决方案。对于超出准确度的模型的绩效有着各种措施,如精确度,召回率,F1 得分和受试者工作特征(receiver operating characteristic,ROC)曲线。选择最合适的度量标准将指导建模算法错误最小化。

从坚实的基础开始

机器学习要避免的九大陷阱,你了解多少?(3)

由于技术和工具的进步,机器学习..项目比以往更容易执行。

但是,要获得可靠的结果需要对数据科学和统计学原理有深入的了解,如此才能确保团队从一个坚不可摧的底层数据集开始,这边是成功的基础。Pejman Makhfi是Credit Sesame的首席技术官。Credit Sesame是一个教育信贷和个人财务网站,为消费者提供免费的信用评分服务。

相关文章