第9 章 聚类分析 9 .1 聚 类 概 述 9 .1 .1 聚 类 简 介 9 .1 .2 聚 类 的 定 义 9 .1 .3 聚 类 的 要 求 1 . 可伸缩性 2 . 处理不同类型属性的能力 3 . 发现任意形状的聚类 4 . 使输入参数的领域知识最小化 5 . 处理噪声数据的能力 6 . 对于输入记录的顺序不敏感 9 .2 聚 类 分 析 中的 相异度计算 9 .2 .1 聚 类 算法中的 数据结构 1 . 数据矩阵(或对象与变量结构) 2 . 相异度矩阵(或对象-对象结构) 9 .2 .2 区间标度变量及其相异度计算 1 . 区间标度变量 2 . 相异度计算 数据仓库与数据挖掘技术 9 .2 .3 二元变量及其相异度计算 1 . 二元变量 2 . 相异度计算 9 .2 .4 标称型变量及其相异度计算 1 . 标称型变量 2 . 相异度计算 9 .2 .5 序数型变量及其相异度计算 1 . 序数型变量 2 . 相异度计算 9 .2 .6 比例标度型变量及其相异度计算 1 . 比例标度型变量 2 . 相异度计算 数据仓库与数据挖掘技术 9.2.7 混 合 类 型 变 量 的 相 异 度 计 算 9.3 基 于 划 分 的 聚 类 方 法 9.3.1k-平 均 算 法 9.3.2k-中心点算 法 9.4 基 于 层次的 聚 类 方 法 1. 凝聚的方法 2. 分裂的方法 图9-1 在数据集{a,b,c,d,e}上的凝聚和分裂层次聚类 数据仓库与数据挖掘技术 9.5 谱 聚 类 方 法 9 .5 .1 谱 聚 类 的 步 骤 9 .5 .2 谱 聚 类 的 优点 9 .5 .3 谱 聚 类 实例 9.6 利用 SQL Serv er 2005 进行聚 类 分析 9 .6 .1 挖掘流程 图 9-2 选择数据挖掘技术 数据仓库与数据挖掘技术 图 9 -3 选择数据源视图 图 9 -4 指定表类型 数据仓库与数据挖掘技术 9 .6 .2 结 果 分析 图 9 -5 指定定型数据 图 9 -6 指定列的内容和数据类型 数据仓库与数据挖掘技术 图 9 -7 完成数据挖掘结构的创建 图 9 -8 分类剖面图 数据仓库与数据挖掘技术 图 9 -9 分类关系图 图 9 -1 0 分类特征 数据仓库与数据挖掘技术 图 9 -1 1 分类对比 图 9 -1 2 提升图 数据仓库与数据挖掘技术 图9-13 分类矩阵图 习题 9 1. 简单地描述如何计算由如下类型的变量描述的对象间的相异度: (a) 数值(区间标度)变量 (b) 非对称的二元变量 (c) 分类变量 (d) 比例标度变量 (e) 非数值向量对象 2. 假设数据挖掘的任务是将如下8 个点聚类为3 个簇: A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C3(4,9),距离函数是欧几里得距离。假设初始选择 A1,B1,C1 分别为每个聚类的中心,用 k-平均算法来给出: (1) 在第一次循环执行后的三个聚类中心。 (2) 最后的三个簇。 3. k 均值和 k 中心点算法都可以进行有效的聚类。概述k 均值和 k 中心点算法的优缺点。并概述这两种方法与层次聚类方法(如AGNES)相比有何优缺点。