数 据 质 量 的 四 种 评 估 标 准 数 据 质 量 是 保 证 数 据 应 用 的 基 础 , 它 的 评 估 标 准 主 要 包 括 四 个 方面 , 完 整 性 、 一 致 性 、 准 确 性 、 及 时 性 。 评 估 数 据 是 否 达 到 预 期 设 定的 质 量 要 求 , 就 可 以 通 过 这 四 个 方 面 来 进 行 判 断 。 完 整 性 完 整 性 指 的 是 数 据 信 息 是 否 存 在 缺 失 的 状 况 , 数 据 缺 失 的 情 况 可能 是 整 个 数 据 记 录 缺 失 , 也 可 能 是 数 据 中 某 个 字 段 信 息 的 记 录 缺 失 。不 完 整 的 数 据 所 能 借 鉴 的 价 值 就 会 大 大 降 低 , 也 是 数 据 质 量 最 为 基 础的 一 项 评 估 标 准 。 数 据 质 量 的 完 整 性 比 较 容 易 去 评 估 , 一 般 我 们 可 以 通 过 数 据 统 计中 的 记 录 值 和 唯 一 值 进 行 评 估 。 例 如 , 网 站 日 志 日 访 问 量 就 是 一 个 记录 值 , 平 时 的 日 访 问 量 在 1000 左 右 , 突 然 某 一 天 降 到100 了 , 需 要检 查 一 下 数 据 是 否 存 在 缺 失 了 。 再 例 如 , 网 站 统 计 地 域 分 布 情 况 的 每一 个 地 区 名 就 是 一 个 唯 一 值 , 我 国 包 括 了 32 个 省 和 直辖 市, 如 果统 计得到 的 唯 一 值 小于 32 , 则可 以 判 断 数 据 有可 能 存 在 缺 失 。 一 致 性 一 致 性 是 指 数 据 是 否 遵循了 统 一 的 规范, 数 据 集合是 否 保 持了 统一 的 格式。 数 据 质 量 的 一 致 性 主 要 体现在 数 据 记 录 的 规范和 数 据 是 否 符合逻辑。 规范指 的 是 , 一 项 数 据 存 在 它 特定 的 格式, 例 如 手机号码一 定 是13 位的 数 字 , IP地 址一 定 是 由 4个 0 到 255 间的 数 字 加 上 ” .” 组 成的 。 逻辑指 的 是 , 多 项 数 据 间存 在 着 固 定 的 逻辑关 系 , 例 如 PV 一 定 是大 于等 于 UV 的 , 跳 出 率 一 定 是 在 0 到 1...