如何利用python构建信用卡评分模型?
1.背景介绍
在大数据自动化审批实践中,信用评分技术是一种逐渐成熟的风险估值方法。信用评分卡模型已广泛应用于消费金融的风险控制实践中。
什么是信用评分卡?
简而言之,利用客户现有的信息,这些数据可以来自一些三方平台(如芝麻点、京东借据、微信、银行信用卡等)。利用现有的历史数据量化客户的信用状况,直观地反映了信用评分。
今天,我们将向您展示如何构建银行业常用的信用卡评分模型。我们在这里使用的数据是国际著名的data比赛Kagle上的数据集:Give Me Some Credit ,德国银行信用卡客户的历史数据。整个数据集有10多万个客户数据,庞大的数据量也保证了模型的准确性。Kagle大神Zoe已经给出了一个庞大而系统的完成代码集,我们在这里简化了很多,以便能够窥视豹子。
完整的信用卡评分模型主要包括以下几个部分:
数据处理、特征变量选择、变量WOE编码离散、logistic回归模型开发评估、信用评分卡及自动评分系统创建及模型评估。
Kagle上的数据集:Give Me Some Credit,共有15万个样本数据,主要包括以下11个变量。
2 数据预处理
说实话,这一步很麻烦。在任何统计分析过程中,数据预处理都占据了7层或更多的时间。第一手数据总是混乱的,有太多无用的数据。一个不干净的数据会给我们很多不可思议的结果。因此,我们仍然顺从地去|“清理”数据。但是清理数据真的太难了。为了方便起见,我们只是删除了清理数据的步骤。。。
你现在看到的是一个非常干净和清爽的数据。这里省略...字
3 变量WOE 分箱处理
特征变量的选择(排序)对数据分析和机器学习非常重要。良好的特征选择可以提高模型的性能,帮助我们理解数据的特征和底层结构,这对进一步改进模型和算法起着重要作用。 首先选择连续变量的最佳分段,当连续变量的分布不符合最佳分段的要求时,再考虑连续变量的等距分段。
对于不能最优分箱的变量,分箱如下:
4 Logistic 模型建立
假设显著水平设定为0.01,因此,我们构建的逻辑斯特回归模型非常显著。验证已构建的模型,ROC曲线和AUC来评估模型的拟合能力。
从上图可以看出,AUC值为0.85,表明该模型具有良好的预测能力和较高的准确性。这证明了构成信用评分卡的部分值有效,预测能力更好。
5 构建信用评分卡模型
事实上,构建评分卡模型最基本的要素之一就是基本分数和翻倍分数。
评分卡参数设置:基本分数+PDO(比率翻倍分数)
基本分数:600分
PDO的比率翻倍: 20-每高20分好坏比翻倍,好坏比20分。
个人总评分= 基础分+ 各部分得分
Score = offset + factor * log(odds)
总结
在大数据自动化审批实践中,信用评分技术是一种逐渐成熟的风险估值方法。信用评分卡模型已广泛应用于消费金融的风险控制实践中。利用现有的历史数据量化客户的信用状况,直观地反映了信用的分数。在kagle上通过数据Give Me Some Credit的挖掘和分析,结合信用评分卡的建立原理,通过数据预处理、变量选择、建模分析和预测创建了一个简单的信用评分系统。