当前位置：首页 > news >正文

网站设计过程介绍希爱力双效片的作用与功效

news 2025/8/27 2:39:23

网站设计过程介绍,希爱力双效片的作用与功效,策划公司取名字大全,哈尔滨做网站多少钱目录数据集处理分箱分多少个箱子合适分箱要达成什么样的效果对一个特征进行分箱的步骤分箱的实现封装计算 WOE 值和 IV值函数画IV曲线，判断最佳分箱数量结论 pd.qcut 执行报错功能函数封装判断分箱个数在银行借贷场景中，评分卡是…

数据集处理

分箱

分多少个箱子合适

分箱要达成什么样的效果

对一个特征进行分箱的步骤

分箱的实现

封装计算 WOE 值和 IV值函数

画IV曲线，判断最佳分箱数量

结论

pd.qcut 执行报错

功能函数封装

判断分箱个数

在银行借贷场景中，评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段，它衡量向别人借钱的人（受信人，需要融资的公司）不能如期履行合同中的还本付息责任，并让借钱给别人的人（授信人，银行）造成经济损失的可能性。一般来说，评分卡打出的分值越高，客户的信用越好，风险越小。

数据集处理

分箱

要制作评分卡，是要给各个特征进行分档，以便业务人员能够根据新客户填写的信息，为这个新客户来打分。因此在评分卡制作过程中，一个重要的步骤就是分箱，本质就是对特征进行分档。

分箱是评分卡最难，也是最核心的部分。分箱的本质，就是离散化连续变量，好让拥有不同属性的人被分成不同的类别（打上不同的分数）。

分多少个箱子合适

既然是将连续型变量离散化，箱子的个数必然不能太多，最好控制在十个以下，用来制作评分卡，最好能在4~5个为最佳。离散化连续变量必然伴随着信息的损失，而且箱子越少，信息损失越大。
为了衡量特征上的信息量以及特征对预测函数的贡献，银行业定义了概念Information value（IV）：

N 是这个特征上箱子的个数
i 代表每个箱子
good% 是这个箱内的优质客户(标签为0)占整个特征中所有优质客户的比例
bad% 是这个箱子里的坏客户(那些会违约的，标签为1)占整个特征中所有坏客户的比例
WOE 是银行业中用来衡量违约概率的指标，中文叫做证据权重（weight of Evidence），本质就是优质客户比上坏客户的比例的对数，WOEi写作

WOE是对一个箱子来说的，WOE越大，代表这个箱子里的优质客户越多，IV是对整个特征来说的，IV代表的意义由表1 来控制

表1：

可见，IV 并非越大越好，我们想要找到 IV 的大小和箱子个数的平衡点，所以我们会对特征进行分箱，然后计算每个特征在每个箱子数目下的WOE值，利用IV值的曲线，找出合适的分箱个数。

分箱要达成什么样的效果

我们希望在同一个箱子里的人的属性是尽量相似的，而不同箱子里的人的属性是尽量不同的，就是常说的“组间差异大，组内差异小”。
对于评分卡来说，我们希望一个箱子内的人违约概率是类似的，而不同箱子的人违约概率差距很大，即 WOE 差距要大，并且每个箱子中坏客户所占的比重(bad%)也要不同。
我们可以使用卡方检验来对比两个箱子之间的相似性，如果两个箱子之间卡方检验的P值很大，说明他们非常相似，就可以将这两个箱子合并为一个箱子。