机器学习要避免的九大陷阱，你了解多少？

2019-02-19 11:04:14 网络整理阅读：79 评论：0

随着越来越多的团队使用预测模型，领导者和管理者必须意识到可能会扭曲团队工作结果的常见问题。

为了实现可靠的机器学习过程，以下是要避免的九个常见陷阱，以及可采用的最佳实践方法。

机器学习要避免的九大陷阱，你了解多少？

陷阱1：抽样偏差

任何机器学习项目的起点都是选择训练数据。通常，组织机构有一些可用的数据，或者可以识别相关的外部供应商，，例如国营企业或行业协会。

这是问题开始的地方。

建模团队及其业务赞助商必须定义要使用的数据集。选择一个会歪曲或低估实际案例的数据集会很容易引起偏差，这会扭曲结果。

例如，一个访问只选择在特定位置行走的人群，但却将他们当作健康人群的过度代表。解决方案：为避免采样偏差，团队必须保证他们是真正地随机选择数据，而不是仅仅因为使用简单就使用特定案例。

对于指导有效的数据选择而言，理想数据集的清晰定义和模型的逻辑至关重要。通过在早期阶段与企业所有者合作，让几位评审人员验证选择标准，机器学习团队可以确保他们的数据采样方法有用并可靠。

陷阱2：不相关的功能选择

在许多情况下，由于变量选择的细微差别，建模师遇见了许多困难。许多技术需要大量功能集来推动学习过程。

但是，为了收集足够的学习数据，确保您获取了正确且相关的功能可能非常具有挑战性。解决方案：构建一个性能良好的模型的过程需要仔细的探索和分析，以确保您选择和设计适当的功能。了解领域和包含主题专家，是选择正确功能最重要的两个驱动因素。

此外，诸如递归特征消除(recursive feature elimination，RFE)，随机森林(random forest)，主成分分析(principal component analysis，PCA)和自动编码器等技术有助于将建模工作集中在少数几个更有效的功能上。