风险控制-undersampling，拒绝推断和好坏样本定义之间的关系-20180325(2)

2018-08-19 03:04:06 网络整理阅读：202 评论：0

2、好坏样本的选择其实就是一个欠采样（undersampling）的过程

我们知道sampling的方法一般应用在非均衡样本的建模上，一般有两种思路，其一便是undersampling，而undersampling又可以分为两种，一种是Resampling，随机抽样，另外一种是border cleaning的，就是尽量避免选择相互临近的样本。

我们所说的好坏样本选择其实就是一次border cleaning的undersampling，这些相互临近的样本就是上文所说的undetermined样本。

其实从理想状态来说，如果表现期足够长，所有Approved的样本其实都是可以定义出好跟坏的，因为坏的样本最终总会暴露出来，但在实际情况中，由于表现期较短的问题，除了那些我们可以很确定是坏的样本之外，还有很大一部分样本其实我们是没法确定他的状态的，而且可以确定的说，即使在好样本中，我们也会有一部分判断错误的样本混在里面。

3、拒绝样本其实是和undetermined样本的存在是一致的

风险控制-undersampling，拒绝推断和好坏样本定义之间的关系-20180325(2)

Pic 2

拒绝样本与中间样本一样，没有明确的状态定义，但它也是实际预测中整体样本的一部分，所以这部分样本与中间样本的存在是一样的，也是相当于sampling中一部分，只是二者在bad rate上的分布不一样，拒绝样本bad rate更高，中间样本bad rate更低，但bad rate其实并不影响模型对样本的评分，更确切的说，评分模型其实是一个排序模型，如果undetermined的样本、拒绝样本以及建模样本（Good+Bad）的特征在数值上的分布是一样的，bad rate只会影响样本预测分数的绝对值，但不会改变样本的评分排序。这个结论是我自己得出的，不保证正确，我仅在逻辑回归上来说说undersampling对模型结构的影响。

重要的事情说三遍：不保证下文一定正确，欢迎打脸。

4、undersampling在理想情况下不影响逻辑回归的系数值（不包括截距项）

先来看一个小的例子：假设我们现在有一个二分类模型，只有一个性别变量，那么这个模型的形式可以写成：

其中female变量只取0,1，0代表Male，1代表Female

具体数据如下：

风险控制-undersampling，拒绝推断和好坏样本定义之间的关系-20180325(2)