评分卡开发方法论SCORECARD
学习评分卡对于我这种非科班出身来说是比较难的一件事情(我是搞程序员出身,科班软件工程的),在过去查阅和学习了很多资料后,发现了一个评分卡的开发方法论:SCORECARD,感觉比较符合软件工程思想,而且也容易让人记住,所以推荐此方法论来学习评分卡开发,下面介绍一下这个方法论的内容。
这九个字母分别是九个英文单词的首写字母,代表评分卡开发工作顺序,它们的含义分别是:
S = Sampling
数据选取与抽样
C = Cleansing
数据检测、数据清洗、数据链接与合并
O = Optimization
数据优化处理,包括客户分群(Segmentation)、变量分析与加工、粗分组等
R = Regression
利用统计学回归技术构建模型
E = Equalization
将模型转化为评分卡形式
C = Confirmation
评分卡评估与确认
A = Administration
评分卡实施上线与管理,包括指定管理人,记录评分卡使用情况等
R = Review
评分卡跟踪验证
D = Documentation
整理记录,完成项目技术文档
下面按照字母顺序,详细描述SCORECARD方法论的关键内容:
S = Sampling,数据选取与抽样(建议双盲随机抽取)
开发评分卡,我们希望能够使用所有可以获得的数据,对数据的存在性、获得的难易程度、未来使用的可能性、时效性、以及数据质量进行评估,去除不能用来开发评分卡的数据,通过取舍过程确定开发数据集,这个过程就是数据选取。
C = Cleansing, 数据检测、数据清洗、数据链接与合并(数据集市的那套建设方法)
选定样本数据后,可能会提供多个来源、甚至多种类型的数据集。我们需要首先将这些数据集进行整理,成为同一类数据,例如SAS数据,或者TXT形式的数据。数据整理的复杂程度取决于日常的数据存储方式、评分卡建立需要使用的数据源数量、及数据维护方式。
O = Optimization,数据优化处理,包括客户分群(Segmentation)、变量分析与加工、粗分组等
数据的详细分析与加工,在开发评分卡的流程中,占有绝对重要的地位,也是花费时间最多的一项工作。在数据质量相同的前提下,只有这一步工作进行得细致周到,才有可能开发出高质量的评分卡。历史经验表明,如果对数据进行同样深度的加工,无论将来采用哪种评分卡开发方法,结果的差异性不会很大,反之,如果数据分析加工工作做得不够深入,无论用什么方法,都不可能得到高质量的评分卡。
按顺序对工作步骤介绍如下:
1、客户分群(Segmentation)。客户分群是对这些开发数据进行详细分析,将风险成因特征相似的客户聚在一起,将风险成因特征差异较大的人分为不同的群体,使得分别开发的评分卡都更具有针对性。分群首先要基于业务用途,其次是结合数据进行调整。
2、中间变量(Attributes)。根据评分卡开发经验对建模数据进行加工,产生中间变量,也就是衍生变量。中间变量的产生是评分卡开发的一个重要环节,没有合理的中间变量集,就不可能建立高质量的评分卡。产生中间变量时,要考虑变量的预测能力、变量的类别、变量的稳定性等因素,尽量覆盖到影响评分卡预测目标的所有角度。在这个环节中,需要对连续型数值变量进行离散化处理。
3、粗分组(Coarse Classing)。在将连续型数值变量进行离散化处理之后,所有有可能进入模型的变量都需要逐一进行粗分组运算。对变量进行粗分组处理,既可以避免模型出现过渡拟合,影响将来评分卡的稳定性,也可以解决模型对变量的单调性和线性要求。粗分组的一般原则是在预测未来表现时,将模式相近的相邻变量属性进行组合,同时确保分组中有足够的样本以彰显统计意义。粗分组工作的结果,是将所有可能进入评分卡的变量都划分成有限个属性区间或组别的形式,从而可以以哑变量或者证据权重的形式进入建模型阶段。
R = Regression, 利用统计学回归技术建模型
E = Equalization,将模型转化为评分卡形式
C = Confirmation,评分卡评估与确认
A = Administration,评分卡实施上线与管理,包括指定管理人,记录评分卡使用情况等
R = Review,评分卡跟踪验证
D = Documentation,整理记录,完成项目技术文档
全部评论