数据挖掘复习VIP专享VIP免费

下载本文档

阅读 144
下载 5
格式 pdf
大小 1.32 MB
约19页
2024-12-09 发布于天津市
收藏
评论
点赞(0)
海报
举报

/19

下载本文档

1. 样本组织的 3 种方法随机分组法：样本量大的用随机分组法，把 2/3 样本作为学习样本构建模型，剩余 1/3 作为测试样本，测试模型性能。K折交叉验证法：样本量不多，交叉分组分为K 组，依次从 K 组数据中选 1组作为测试样本，其余9 组作为学习样本。留一法：样本量很少，留 1 例作为测试样本，其余作为学习样本，依次循环。2. 关于数据的预处理二值型数据（是否归一化变成0 或 1）分类型和排序型就是变成0.1.2.3.4（如胃癌分期等）数值型就是血压 , 心率之类的具体数据对数值型数据进行归一化, 就是要让数值都变化在【0,1 】比较大的数值：常用的几种十进计数法，用于比较大的数值，分散又比较开，可以直接把这些数值除以10 的整次幂（就是 10 的平方，三次方之类）对于数据不多且数值不大：可以采用最小- 最大归一法：把取值范围定在 [0,1] ，就可简化公式为：新值 =（原值 - 原 min）/ （原 max-原 min）这样处理以后数据中最大值变为1 最小值变为 0 Z 分数归一法：新值 =（原值 - 均值） / 标准差此法主要用于原始数据取值范围无法知道或原始数据中的最大值或最小值与均值偏离很大最后一种对数归一法：直接计算器In 原值就出来新值了，对数归一法对原始数据压缩后不引起信息的损失3. 比较性能四格六格表：灵敏度、特异度、正确率和ROC曲线。要把提供的 6 格表合并为 4 格表4. 回归分类决策树模型表达规则三种模型比较性能：分别是logistic回归决策树人工神经网络5. 聚类关联：如何取舍样本组织例 1.预测型模型肺癌干预 (手术 /手术＋化疗 )及预后（五年生存）共 5 万个样本，其中1.7 万干预后 5 年内死于肺癌如何组织数据进行数据挖掘？例 2. 共 1000 个，其中 315 个五年内死亡如何组织数据？例 3. 共 49 个， 14 个 5 年内死亡， 35 个存活如何组织数据？假设： 1,0000 例样本中， 1000 例生存期小于5 年， 9000 例生存期大于5 年。问题：如何分配样本数据？2:1 兼顾总体分布的随机分组若有 1000 例样本数据，现进行10－折交叉验证每次的训练样本量是多少？10 次训练模型是否存在差异？最终模型是什么？模型的性能参数如何选取？讨论 1.学习 /测试样本与病例/对照实验的区别？2.随机分组、 K－折交叉验证、留一法，分别对于样本总体数据的要求是否有定律？3.在随机分组过程中，需要兼顾总体分布一致性，是依据模型结果分还是依据模...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容