首页 > 财经 >

机器学习要避免的九大陷阱,你了解多少?(2)

2019-02-19 11:04:14 网络整理 阅读:79 评论:0

陷阱3:数据泄露

机器学习团队可能会偶然地收集建模数据,使用的标准是团队试图预测结果的一部分,因此,模型会显示出优秀到失真的性能。

例如,一个团队可能错误的包含了一个在旨在预测疾病的模型中指示某些疾病治疗的变量。解决方案:建模团队必须仔细构建他们的数据集,在模型估计结果之前仅使用训练时实际可用的数据。

陷阱4:缺少数据

在某些情况下,由于缺少某些记录,数据集会变得不完整。错误地调整该条件或假设没有缺失值,建模师可能会对结果的认知产生重大偏差。

例如,缺失的数据可能并不总是随机的,例如,当调查受访者不太可能回答某个特定问题时。因此,平均估算可能会误导模型。解决方案:如果您无法设计..计划以确保使用完整的数据集,则可以采用统计技术,包括丢弃缺失值的记录,或使用适当的插补策略来估算缺失的数据值。

陷阱5:不准确的缩放和标准化

构建用于机器学习工作的数据集通常需要团队收集不同类型的输入端,这些输入端有着不同的衡量尺度。

在建立模型之前,如果未能调整变量的值以允许通用比例,线性回归(linear regression),支持向量机(support vector machine,SVN),或k近邻(k nearest neighbors,KNN)等算法会受到很大影响。这些问题的出现在于范围大的话会导致功能的高度变化,因此,它们可能变得多余。

例如,如果您将两者都当作未处理的投入使用,那么薪水的数据可能会获得比年龄更重的权重。解决方案:在开始建立模型之前,您必须小心地对数据集进行标准化。您可以通过常用统计技术(如标准化或功能缩放)来转换数据集,这取决于数据的类型和团队的首选算法。

陷阱6:忽略异常值

机器学习要避免的九大陷阱,你了解多少?(2)

忘记异常值可能会对模型的性能产生重大影响。例如,像AdaBoost这样的算法会将异常值视为困难情况,并将不适当的权重放在适当的位置上,而决策树更宽容。此外,不同的用例需要不同的离群值处理。

相关文章