首页 > 财经 >

风险控制-undersampling,拒绝推断和好坏样本定义之间的关系-20180325(2)

2018-08-19 03:04:06 网络整理 阅读:202 评论:0

2、好坏样本的选择其实就是一个欠采样(undersampling)的过程

我们知道sampling的方法一般应用在非均衡样本的建模上,一般有两种思路,其一便是undersampling,而undersampling又可以分为两种,一种是Resampling,随机抽样,另外一种是border cleaning的,就是尽量避免选择相互临近的样本。

我们所说的好坏样本选择其实就是一次border cleaning的undersampling,这些相互临近的样本就是上文所说的undetermined样本。

其实从理想状态来说,如果表现期足够长,所有Approved的样本其实都是可以定义出好跟坏的,因为坏的样本最终总会暴露出来,但在实际情况中,由于表现期较短的问题,除了那些我们可以很确定是坏的样本之外,还有很大一部分样本其实我们是没法确定他的状态的,而且可以确定的说,即使在好样本中,我们也会有一部分判断错误的样本混在里面。

3、拒绝样本其实是和undetermined样本的存在是一致的

风险控制-undersampling,拒绝推断和好坏样本定义之间的关系-20180325(2)

Pic 2

拒绝样本与中间样本一样,没有明确的状态定义,但它也是实际预测中整体样本的一部分,所以这部分样本与中间样本的存在是一样的,也是相当于sampling中一部分,只是二者在bad rate上的分布不一样,拒绝样本bad rate更高,中间样本bad rate更低,但bad rate其实并不影响模型对样本的评分,更确切的说,评分模型其实是一个排序模型,如果undetermined的样本、拒绝样本以及建模样本(Good+Bad)的特征在数值上的分布是一样的,bad rate只会影响样本预测分数的绝对值,但不会改变样本的评分排序。这个结论是我自己得出的,不保证正确,我仅在逻辑回归上来说说undersampling对模型结构的影响。

重要的事情说三遍:不保证下文一定正确,欢迎打脸。

4、undersampling在理想情况下不影响逻辑回归的系数值(不包括截距项)

先来看一个小的例子: 假设我们现在有一个二分类模型,只有一个性别变量,那么这个模型的形式可以写成:

其中female变量只取0,1,0代表Male,1代表Female

具体数据如下:

风险控制-undersampling,拒绝推断和好坏样本定义之间的关系-20180325(2)

那么对于男性来说,

对于女性:

那么

现在我们来做一个undersampling,为了简化这个问题,我们不对Bad的样本抽样,只对Good的样本进行均分随机抽样,只抽50%,假设这次抽取的非常好,刚好,male和female的样本各抽了一半:

风险控制-undersampling,拒绝推断和好坏样本定义之间的关系-20180325(2)

同理男性的

相关文章