. 可编辑文本Data Mining Take Home Exam 学号 : xxxx 姓名 : xxx 1. (20 分)考虑下表的数据集。顾客 ID性别车型衬衣尺码类1234567891011121314151617男男男男男男女女女女男男男男女女女家用运动运动运动运动运动运动运动运动豪华家用家用家用豪华豪华豪华豪华小中中大加大加大小小中大大加大中加大小小中C0C0C0C0C0C0C0C0C0C0C1C1C1C1C1C1C1. 可编辑文本181920女女女豪华豪华豪华中中大C1C1C1(1)计算整个数据集的Gini 指标值。(2)计算属性性别的Gini 指标值(3)计算使用多路划分属性车型的Gini 指标值(4)计算使用多路划分属性衬衣尺码的Gini 指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?解:(1)类顾客c010c110Gini=1-(10/20)^2-(10/20)^2=0.5(2)性别男女c064c146Gini=[{1-(6/10)^2-(4/10)^2}*1/2]*2=0.48(3)车型家用运动豪华c0181. 可编辑文本c1307Gini={1-(1/4)^2-(3/4)^2}*4/20+{1-(8/8)^2-(0/8)^2}*8/20+{1-(1/8)^2-(7/8)^2}*8/20=26/160=0.1625(4)尺码小中大加大c03322c12422Gini={1-(3/5)^2-(2/5)^2}*5/20+{1-(3/7)^2-(4/7)^2}*7/20+[{1-(2/4)^2-(2/4)^2}*4/20]*2=8/25+6/35=0.4914(5)比较上面各属性的Gini 值大小可知,车型划分Gini 值 0.1625最小,即使用车型属性更好。2. (20 分)考虑下表中的购物篮事务数据集。顾客 ID事务 ID购买项11223300100240012003100150022{a,d,e}{a,b,c,e}{a,b,d,e}{a,c,d,e}{b,c,e}{b,d,e}. 可编辑文本44550029004000330038{c,d}{a,b,c}{a,d,e}{a,b,e}(1) 将每个事务 ID 视为一个购物篮, 计算项集 {e} ,{b,d} 和{b,d,e} 的支持度。(2)使用(1)的计算结果, 计算关联规则{b,d}→ {e} 和 {e} → {b,d}的置信度。(3)将每个顾客 ID 作为一个购物篮,重复( 1)。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为 0)。(4)使用(3)的计算结果,计算关联规则{b,d}→ {e} 和 {e} → {b,d}的置信度。答:(1)由上表计数可得 { e} 的支持度为 8/10=0.8;{b,d} 的支持度为 2/10=0.2;{b,d,e}的支持度为 2/10=0.2。(2) c[{b,d}→ {e}]=2/8=0.25; c[{e}→ {b,d}]=8/2=4。(3)同理可得: {e} 的支持度为 4/5=0.8,{b,d} 的支持度为 5/5=1 , {b,d,e} 的支持度为 4/5=0.8。(4) c[{b,d}→ {e}]=5/4=1.25, c[{e}→ {b,d}]=4/5=0.8。3. (20 ...