大数据风控建模标准流程

一、风控建模标准过程

（一）数据采集汇总

1、以客户为维度组织搜集信息（人口属性、交易信息、交易渠道、风险评估、产品偏好、经营信息）

2、评估数据真实性和质量，数据质量好的变量进入后续步骤

（二）模型设计

1、时间窗和好坏客户定义

时间窗：根据获取数据的覆盖周期，将数据分为用来建模的观察期数据，和后面用来验证表现的表现期数据；

好坏客户定义：分析客户滚动和迁移率，来定义什么程度逾期的为“坏客户”，例如定义m3为坏客户就是定义逾期3个月的才是坏客户；

2、样本集切分和不平衡样本处理

样本集切分：切分为训练集和测试集，一般7/3或8/2比例；

不平衡样本：最理想样本为好坏各50%，实际拿到的样本一般坏客户占比过低，采取过采样或欠采样方法来调节坏样本浓度。

3、模型选择

评分卡模型以逻辑回归为主。

（三）数据预处理及变量特征分析

1、变量异常值、缺失值处理：使用均值、众数等来平滑异常值，来填补缺失，缺失率过高的变量直接丢弃；

2、变量描述性统计：看各个变量的集中或离散程度，看变量的分布是否对样本好坏有线性单调的相关性趋势；

（四）变量筛选

1、变量分箱：变量取值归入有限个分组中，一般5个左右的分箱数量，来参加后面的算法模型计算。分箱的原则是使得各箱内部尽量内聚，即合并为一箱的各组坏样本率接近；使得相邻分箱的坏样本率呈现单调趋势。从方法上一版采取先机器分箱，后人工微调。

2、定量计算变量对于识别坏样本的贡献度（woe和iv）

（1）woe是统计一个变量的各分箱区间之间的好占总好比值坏占总坏之比，不同分箱之间差异明显且比例成单调趋势，说明分箱的区分度好；

（2）iv是在woe基础上进一步加权计算这个变量整体上对于区分好坏样本的识别度，也就是变量影响因子。数越大说明用这个变量进行区分的效果越好，但iv值过大容易引起模型过拟合，即模型过于依赖单一变量，造成使用过程中平衡性健壮性不好；

3、计算变量之间的相关性或多重共线性，相关性高于0.5甚至0.7的两个变量里，就要舍弃一个，留下iv值较高的那个。例如“近一个月查询次数”、“近三个月查询次数”、“近六个月查询次数”这三个变量显然明显互相相关度高，只保留其中一个变量进入模型即可。

（五）变量入模计算

1、以最终选定的若干变量，进入回归模型算法，机器自动计算

其中每一个x就是一种变量，这个计算就是为了算出每种变量的最终权重，也就是算出所有的b。

2、客户违约概率映射为客户分数。以上公式一旦计算确定，则给出一个确定的客户，就可以算出其违约概率，下面公式是把概率进一步再映射计算成一个客户总评分。

3、计算确定每种变量每个分箱所应该给的得分

某一变量在一个分箱的得分该组woe

（六）模型验证与评价

1、模型区分好坏客户能力评价

（1）roc值及绘图

用来评价模型的灵敏度，横坐标是好人被错杀的概率，纵坐标是坏人被正确挑出的概率，所以曲线越向左上角偏越好，曲线下方面积就是auc值，一般达到0.75以上说明灵敏度好。

（2）k-s值及绘图

评价模型区分好坏客户的能力，并得到最大化通过好客户、拒绝坏客户的极值点。横坐标是评分，纵坐标是累计百分比，红线是坏人被正确识别的累计概率，蓝线是好人被错杀的累计概率，灰线是红蓝数值之差，则灰线最高点为ks极值点，通常ks大于0.4为良好的模型。

2、模型稳定性评价

因为模型是使用过去的一批客户训练出来的，稳定性测试是为了证明训练出来的模型不依赖于训练样本的某些特异属性，而是能抓住业务面对客户的共同特点规律，在未来实际业务使用中能够健壮稳定地识别新客户的好坏。主要是模型在训练集和测试集中识别率表现应该基本一致，对全样本的不同时段切片应该表现基本一致，对样本内数据和样本外数据应该表现基本一致。

3、模型压力测试

压力测试是评估模型承受“罕见但是仍然可能”的宏观经济冲击或重大金融事件过程，进行压力测试一般用量化模型，用以衡量在经济环境变化导致样本大幅偏移的情况下模型是否仍然有效，评估银行抵御经济周期性变化的能力。目前我行使用专家模型，需要有完整时间周期（如整年）的样本积累，并且进行经济预期数据建模后续可以开展有效的压力评估。