数据挖掘中的特征选择

文档格式：PPT| 40 页|大小 297.50KB|2024-11-28 发布|举报 | 版权申诉

下载文档

下载文档到电脑，查找使用更方便还剩页未读，继续阅读>>

侵权申诉举报

1 / 40

此文档下载收益归作者所有下载文档

版权提示

文本预览

常见问题

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据挖掘中的特征选择,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据挖掘中的特征选择,*,数据挖掘中的数据归约问题,为什么需要数据挖掘,数据爆炸问题,自动数据收集工具和成熟的数据库技术使得大量的数据被收集，存储在数据库、数据仓库或其他信息库中以待分析我们拥有丰富的数据，但却缺乏有用的信息,数据爆炸但知识贫乏,2024/11/28,2,数据挖掘中的特征选择,数据挖掘的作用,数据挖掘：,在大量的数据中挖掘感兴趣的知识（规则，规律，模式，约束）,数据挖掘,是一种从大量数据中寻找其规律的技术它综合了统计学、数据库技术和人工智能技术,数据挖掘,数,据,库,越,来,越,大,有价值的知识,海量的数据,数据挖掘的应用,数据分析和决策支持,市场分析和管理,客户关系管理,(CRM),，市场占有量分析，交叉销售，目标市场,风险分析和管理,风险预测，客户保持，保险业的改良，质量控制，竞争分析,欺骗检测和异常模式的监测,(,孤立点,),其他的应用,文本挖掘,(,新闻组，电子邮件，文档,),和,Web,挖掘,流数据挖掘,DNA,和生物数据分析,数据挖掘,:,数据库中的知识挖掘,(KDD),数据挖掘,知识挖掘的核心,数据清理,数据集成,数据库,数据仓库,Knowledge,任务相关数据,选择,数据挖掘,模式评估,数据挖掘的步骤,了解应用领域,了解相关的知识和应用的目标,创建目标数据集,:,选择数据,数据清理和预处理,:(,这个可能要占全过程,60,的工作量,),数据缩减和变换,找到有用的特征，维数缩减,/,变量缩减，不变量的表示,选择数据挖掘的功能,数据总结,分类模型数据挖掘,回归分析,关联规则挖掘,聚类分析等,选择挖掘算法,数据挖掘,:,寻找感兴趣的模式,模式评估和知识表示,可视化，转换，消除冗余模式等等,运用发现的知识,数据挖掘和商业智能,支持商业决策的潜能不断增长,最终用户,商业分析家,数据分析家,DBA,决策支持,数据表示,可视化技术,数据挖掘,信息发现,数据探索,在线分析处理（,OLAP),，多维分析,(MDA,),统计分析，查询和报告,数据仓库,/,数据市场,数据源,论文,文件,信息提供商,数据库系统,联机事务处理系统,(OLTP,),典型数据挖掘系统,数据仓库,数据清洗,过滤,数据库,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,知识库,数据集成,数据挖掘,:,多个学科的融合,数据挖掘,数据库系统,统计学,其他学科,算法,机器学习,可视化,数据挖掘的分类,预言,（,Predication,）：,用历史预测未来,描述（,Description,）：,了解数据中潜在的规律,数据挖掘的主要方法,分类（,Classification,）,聚类,(Clustering),相关规则,(Association Rule),回归,(Regression),其他,特征归约在数据挖掘中的作用,因为在文本分类、信息检索和生物信息学等数据挖掘的应用领域中，数据的维数往往是很高的。

高维的数据集中包含了大量的特征,(,属性,),比如一个文本数据集中，每一个文本都可以用一个向量来表示，向量中的每一个元素就是每一个词在该文本中出现的频率在这种情况下，这个数据集中就存在着成千上万的特征这种高维的数据给数据挖掘带来了,“,维灾难,”,(The Curse of Dimensionality),问题特征选择和特征降维是两类特征归约方法特征选择,特征选择的一般过程包括：首先从特征全集中产生出一个特征子集，然后用评价函数对该特征子集进行评价，评价的结果与停止准则进行比较，若评价结果比停止准则好就停止，否则就继续产生下一组特征子集，继续进行特征选择选出来的特征子集一般还要验证其有效性特征选择的过程,(M.Dash and H.Liu 1997),特征选择大体上可以看作是一个搜索过程，搜索空间中的每一个状态都可以看成是一个可能特征子集搜索的算法分为完全搜索,(Complete),，启发式搜索,(Heuristic),，随机搜索,(Random)3,大类完全搜索分为穷举搜索与非穷举搜索两类1),广度优先搜索,(BFS),(2),分支限界搜索,(BAB),(3),定向搜索,(BS),(4),最优优先搜索,(Best First Search),启发式搜索,(1),序列前向选择,(SFS),(2),序列后向选择,(SBS),(3),双向搜索,(BDS),(4),增,L,去,R,选择算法,(LRS),(5),序列浮动选择,(Sequential Floating Selection),(6),决策树,(DTM),随机算法,(1),随机产生序列选择算法,(RGSS),(2),模拟退火算法,(SA),(3),遗传算法,(GA),特征的评价函数,特征的评估函数分为五类：相关性，距离，信息增益，一致性和分类错误率。

常用的有平方距离，欧氏距离，非线性测量，,Minkowski,距离，信息增益，最小描述长度，互信息，依赖性度量或相关性度量，一致性度量，分类错误率，分类正确率,特征选择方法的模型,一般地，特征选择方法可以分为三种模型，分别是：过滤模型、封装模型和混合模型过滤模型：,根据训练集进行特征选择，在特征选择的过程中并不涉及任何学习算法即特征子集在学习算法运行之前就被单独选定但学习算法用于测试最终特征子集的性能过滤模型简单且效率很高由于过滤模型中的特征选择过程独立于学习算法，这就容易与后面的学习算法产生偏差，因此为了克服这个缺点提出了封装模型基于过滤模型的算法主要有两类：特征权重和子集搜索这两类算法的不同之处在于是对单个特征进行评价还是对整个特征子集进行评价特征权重算法对每个特征指定一个权值，并按照它与目标概念的相关度对其进行排序，如果一个特征的相关度权值大于某个阈值，则认为该特征优秀，并且选择该特征该算法缺点在于：他们可以捕获特征与目标概念间的相关性，却不能发现特征间的冗余性而经验证明除了无关特征对学习任务的影响，冗余特征同样影响学习算法的速度和准确性，也应尽可能消除冗余特征Relief,算法是一个比较著名的特征权重类方法。

子集搜索算法通过在一定的度量标准指导下遍历候选特征子集，对每个子集进行优劣评价，当搜索停止时即可选出最优（或近似最优）的特征子集封装模型：,在此模型中，学习算法封装在特征选择的过程中，用特征子集在学习算法上得到的挖掘性能作为特征子集优劣的评估准则在初始特征空间内进行多次搜索，直至得到最佳的特征子集与过滤模型相比，封装模型具有更高的精度，但效率较低，运行速度慢于过滤模型过滤模型与包裹模型的根本区别在于对学习算法的使用方式混合模型：,由于过滤模型与封装模型之间的互补性，混合模型把这两种模型进行组合，也就是先用过滤模式进行初选，再用封装模型来获得最佳的特征子集数据降维,数据降维是指通过线性或非线性映射将样本空间从高维空间映射到低维空间降维方法主要分为两类：线性或非线性数据降维是指通过线性或非线性映射将样本空间从高维空间映射到低维空间降维方法主要分为两类：线性或非线性而非线性降维方法又可分为基于核函数和基于特征值的方法线性降维方法有：,主成分分析,(PCA),，独立成分分析,(ICA),，线性判别分析,(PCA),，局部特征分析,(LFA),基于核函数的非,线性降维方法有：,基于核函数的,主成分分析,(KPCA),，,基于核函数,独立成分,(KICA),，,基于核函数的,判别分析,(KLDA),。

基于特征值,(,流形,),的非,线性降维方法有：,ISOMAP(Isometric,feature mapping),，局部线性嵌入,(LLE),，拉普拉斯特征映射,(LE),成果,结合,LDA,与二分,K,均值聚类的特点，提出了针对高维数据集的自适应聚类方法利用线性判别分析,(LDA),来实现维归约，然后在低维数据集上执行二分,k,均值聚类来生成类低维空间的聚类结果又可以通过某种机制构造出原数据集上的类然后在此基础上再利用,LDA,进行维归约，这个过程反复进行下去，不断地修正前面得到的聚类结果，直到得到全局最优结合某种基于标准化互信息和遗传算法提出所谓的两阶段特征选择方法该方法首先采用标准化的互信息对特征进行排序，然后使用排序在前的特征初始化第二阶段遗传算法的部分种群，使得遗传算法的初始种群中含有较好的搜索起点，使遗传算法只采用较小的进化代数就可搜寻到较优的特征子集设想,结合某种特征选择和智能优化算法研究新型的两阶段特征选择方法利用已有的特征选择算法得出一个特征子集，从而为智能优化算法提供一个较好的初始的搜索起点，然后利用智能优化算法只采用较小的进化代数就可搜寻到较优的特征子集。

点击阅读更多内容