2. 数据准备 数据准备 阶 段 又 可 分 为 3 个 子 步 骤:数 据 选 取(DataSelection)、数 据 预 处 理(Data Preprocessing)和数据变换(DataTransformation)。 (1) 数据选取 血液融浆机 数据选取的目的就是根据数据挖掘的目的和任务,确定实现这一目标与任务所需的操作 对象,即目标数据(TargetData),它是根据用户的需要从原始数据库中抽取的一组相关数据。 354 第十章 数据挖掘与Agent技术 (2) 数据预处理 由于所选取的数据可能具有这样一些特性:巨 量性、动态 性、噪声 性、缺值 和稀疏 性,一 般在实施数据挖掘之前应对其进行一些预处理。数据预处理一般可能包括消除噪声或数据 清洗、推导计算缺值数据、消除数据的不一致性、消除重复记录以及完成数据类型转换(如把 连
续值数据转换为离散型的数据,以便于符号 归纳,或 是把离 散型 的转 换为连 续值 型的,以 便于神经网络归纳)等,以确保数据的质量,为进一步的数据分析做准备。 (3) 数据变换 数据变换的主要目 的是 消减 数据 维数 或 降维(DimensionReduction),即 从初 始 特征 中 找出真正有用的特征以减少数据挖掘时要考 虑的特 征或 变量个 数。另 外,为 了适 应所 选择 的数据挖掘算法和工具,也要对数据做一些相应的变换。比如,神经网络要求所有的变量的 取值都在0~1之间,因此在一些数据(包括非数值数据)被提交到神经网络算法之前就必须 先对不在[0,1]内的变量进行映射变换。 3. 数据挖掘 数据挖掘阶段的任务是 首先 确定 数据 挖掘 要 完成 什么 样的 功能,如数 据 总结、数据 分 类、数据聚类、趋势分析、关联规则发现或序 列模式 发现 等。在确 定要 完成的 数据 挖掘 功能 后,就要决定使用什么样的挖掘算法,同样的任务可
以用不同的算法来实现。选择实现算法 有两个考虑因素:一是不同的数据有不同的特 点,因此 需要用 与之 相关 的算法 来挖 掘;二是 用户或实际运行系统的要求,有的用户 可能希 望获 取描 述型的(Descriptive)、容易 理解 的知 识(在这种情况下,采用规则表示的挖掘方法显然要好于神经网络之类的方法),而有的用户 或系统的目的是获取预测准确度尽可能高 的预测 型(Predictive)知识。 算法确 定之 后,就由 挖掘系统对数据进行分析,实现自动挖掘。数 据挖掘 算法是 KDD 的核 心,也 是目 前研 究人 员主要努力的方向,要获得好的挖掘效果,必须对各种挖掘算法的要求或前提假设有充分的 理解。 4. 结果的解释评价与可视化



