风险控制-undersampling，拒绝推断和好坏样本定义之间的关系-20180325

2018-08-19 03:04:06 网络整理阅读：202 评论：0

原标题：风险控制-undersampling，拒绝推断和好坏样本定义之间的关系-20180325

最近在和朋友讨论undersampling对模型结构影响的时候，惊讶的发现undersampling，拒绝推断，以及A卡评分模型中好坏样本定义似乎隐含着某种内在联系，而这种联系与样本分布有关。

这篇文章只代表个人观点，不一定正确，愿意接受打脸。

1、A卡模型中好坏样本如何定义

如我在前面的文章（风险控制-基于逻辑回归的信用申请评分卡建立流程-20170926）所说，好坏样本的定义应该跟你建立模型的目的应该是严格相关的。比如你要预测样本的首逾概率，那么发生首逾的样本就是坏样本，未发生首逾并还款良好的样本就是好样本，同样，如果你要预测样本后期最终不还款的概率，那么这时你用首逾样本的定义就不太合适，这时你应该查看各期的逾期滚动，若M2入M3的滚动率已经达到90%，那么你就可以判定那些进入M2的逾期款项是追不回来的，那么就可以将入M2的样本定义为坏样本，同理，你也要查看那些逾期xx天往后滚动的比例，比如还款3期以上，逾期10天以内的样本基本会顺利结清，那么你就可以定义还款3期以上，逾期10天以内的样本为好样本。

然而在总体的样本中，除了好坏样本之外，还有很大一部分的样本，我们一般称其为undetermined样本，这部分样本其实就是处于好坏样本中间状态的样本。如下图所示；

风险控制-undersampling，拒绝推断和好坏样本定义之间的关系-20180325