首页 > 财经 >

风险控制-undersampling,拒绝推断和好坏样本定义之间的关系-20180325

2018-08-19 03:04:06 网络整理 阅读:202 评论:0

原标题:风险控制-undersampling,拒绝推断好坏样本定义之间的关系-20180325

最近在和朋友讨论undersampling对模型结构影响的时候,惊讶的发现undersampling,拒绝推断,以及A卡评分模型中好坏样本定义似乎隐含着某种内在联系,而这种联系与样本分布有关。

这篇文章只代表个人观点,不一定正确,愿意接受打脸。

1、A卡模型中好坏样本如何定义

如我在前面的文章(风险控制-基于逻辑回归的信用申请评分卡建立流程-20170926)所说,好坏样本的定义应该跟你建立模型的目的应该是严格相关的。比如你要预测样本的首逾概率,那么发生首逾的样本就是坏样本,未发生首逾并还款良好的样本就是好样本,同样,如果你要预测样本后期最终不还款的概率,那么这时你用首逾样本的定义就不太合适,这时你应该查看各期的逾期滚动,若M2入M3的滚动率已经达到90%,那么你就可以判定那些进入M2的逾期款项是追不回来的,那么就可以将入M2的样本定义为坏样本,同理,你也要查看那些逾期xx天往后滚动的比例,比如还款3期以上,逾期10天以内的样本基本会顺利结清,那么你就可以定义还款3期以上,逾期10天以内的样本为好样本。

然而在总体的样本中,除了好坏样本之外,还有很大一部分的样本,我们一般称其为undetermined样本,这部分样本其实就是处于好坏样本中间状态的样本。如下图所示;

风险控制-undersampling,拒绝推断和好坏样本定义之间的关系-20180325

Pic 1

我们之所以会在中间留一部分这样的undetermined的样本,从业务直觉上来说,那是因为我们其实很难确定这部分样本的状态(好坏),所以我们才将他们归为中间样本。

但另一方面,评分模型在实际预测时,其实是要对这部分样本进行评分的。这也意味着建模样本中的bad rate其实是与整体样本不一样的,有可能高,也有可能低。所以好坏样本的选择其实就是一个采样的过程。

相关文章