1、定义:KS指标全称为Kolmogorov-Smirnov,中文名为洛伦兹曲线,是一种用于衡量模型风险区分能力的统计学指标,它主要用于评估模型对正负样本(好坏样本)的区分度。
2、计算原理:KS值是累计坏人占比与累计好人占比的差值绝对值的最大值,在模型预测中,对于每一个可能的评分或概率阈值,分别计算该阈值下坏人和好人的累计比例,然后求出这两个比例的差值,最后取所有阈值中差值绝对值的最大值作为KS指标的值。
3、应用场景:
- KS指标常用于信用评分领域,帮助金融机构评估客户的信用风险,区分高风险客户和低风险客户。
- 也适用于其他需要对二分类数据进行风险评估的场景,如医疗诊断中的疾病风险预测、市场营销中的客户响应预测等。
4、优缺点:
- 优点:KS指标简单易懂,计算相对容易,能够直观地反映模型的风险区分能力,对于不同阈值的划分具有较好的稳定性。
- 缺点:KS指标只关注了累计分布的差异,没有考虑样本的具体分布情况,可能会忽略一些重要的信息,当数据存在极端值或不平衡时,KS指标的性能可能会受到影响。
FAQs
1、KS指标的取值范围是多少?
答:KS指标的取值范围是0到1之间,KS值越高,表示模型的风险区分能力越强,通常情况下,KS值大于0.2被认为是可以接受的,而KS值大于0.3则表示模型具有较好的风险区分能力。
2、如何根据KS指标选择合适的模型?
答:在选择模型时,通常会比较不同模型的KS指标值,KS指标值较高的模型具有更好的风险区分能力,仅仅依靠KS指标来选择模型是不够的,还需要考虑其他因素,如模型的复杂度、可解释性、计算成本等。
3、KS指标与其他风险评估指标相比有何优势?
答:KS指标的优势在于其简单易懂、计算方便,并且能够直观地反映模型的风险区分能力,与其他风险评估指标相比,如AUC(Area Under the Curve)等,KS指标不需要绘制ROC曲线,计算过程更加简洁,KS指标对于不同阈值的划分具有较好的稳定性,不会因为阈值的变化而产生较大的波动。