Chapter 2 使用决策树的预测建模 2 .1 问题和数据探索 ................................................................................... 错误!未定义书签。 2 .2 建模问题和数据难点 ....................................................................................................... 1 0 2 .3 生成和解释决策树 ................................................................................ 错误!未定义书签。 2 .1 问题和数据探索 内容: 问题和数据 初步数据探索 问题和数据 a. 预测建模问题 一家金融服务公司为其客户提供房屋净值信贷额度。该公司曾把该项贷款扩展给了数千客户,其中的许多接收者(大约20%)有贷款欺诈行为。该公司希望使用地理信息、人口信息、和经济状况信息变量建立一个模型预测一个申请人将来会不会欺诈。 b. 输入数据源 在对数据进行了分析之后,该公司选择了12个预测变量来建立每一个申请人是否欺诈的模型。输出变量(或目标)变量(BAD)表示申请人在房屋净值信贷中是否有欺诈活动。这些变量及其模型角色、测量水平、变量描述列表如下。 表 2.1 SAMPSIO.HMEQ 数据集合的变量 Name Model Role Measurement Level Description BAD Target Binary 1=defau lted on loan, 0=paid back loan REASON Inpu t Binary HomeImp=home improv ement, DebtCon=debt consolidation JOB Inpu t Nominal Six occu pational categories LOAN Inpu t Interv al Amou nt of loan requ est MORTDUE Inpu t Interv al Amou nt du e on ex isting mortgage VALUE Inpu t Interv al Valu e of cu rrent property DEBTINC Inpu t Interv al Debt-to-income ratio YOJ Inpu t Interv al Years at present job DEROG Inpu t Interv al Nu mber of major derogatory reports CLNO Inpu t Interv al Nu mber of trade lines DELINQ Inpu t Interv al Nu mber of delinqu ent trade lines CLAGE Inpu t Interv al Age of oldest trade line in months NINQ Inpu t Interv al Nu mber of recent credit inqu iries 需要的结果-信用评分模型 该信用评分模型给每一个贷款申请人计算还贷欺诈的概率。在此要设定一个阈值,欺诈概率超过阈...