


Click to edit Master,Click to edit Master text styles Click to edit Master Click to edit Master,Second level,Third level,Fourth level,Fifth level,*,*,第八章 空间挖掘,,,,,内容提要,引言,,空间数据概要,空间数据挖掘基础,空间统计学,泛化与特化,空间规则,空间分类算法,空间聚类算法,空间挖掘的其他问题,空间数据挖掘原型系统介绍,空间数据挖掘的研究现状与发展方向,其他,2024/12/13,1,第八章 空间挖掘,空间挖掘技术概述,大量的空间数据是从遥感、地理信息系统(,GIS,)、多媒体系统、医学和卫星图像等多种应用中收集而来,收集到的数据远远超过了人脑分析的能力日益发展的空间数据基础设施为空间数据的自动化处理提出了新的课题空间数据的最常用的数据组织形式是空间数据库空间数据库必须保存空间实体,这些空间实体是用空间数据类型和实体的空间关系来表示出来的空间数据库,不同于关系数据库,它一般具有空间拓扑或距离信息,通常需要以复杂的多维空间索引结构组织。
空间挖掘(,Spatial Mining,)或被称作空间数据挖掘,/,空间数据库的知识发现,是数据挖掘技术在空间数据方面的应用简言之,空间数据挖掘,就是从空间数据库中抽取隐含的知识、空间关系或非显式地存储在空间数据库中的其他模式,用于理解空间数据、发现数据间(空间或非空间)的关系由于空间数据的复杂性及其应用的专业性,在一般的数据挖掘的基本概念的基础上,需要研究空间数据挖掘特有的理论、方法和应用2024/12/13,2,空间挖掘技术概述 大量的空间数据是从遥感、地理信息系统(GI,第八章 空间挖掘,,,,,内容提要,引言,空间数据概要,空间数据挖掘基础,空间统计学,泛化与特化,空间规则,空间分类算法,空间聚类算法,空间挖掘的其他问题,空间数据挖掘原型系统介绍,空间数据挖掘的研究现状与发展方向,其他,2024/12/13,3,第八章 空间挖掘,空间数据的主要特点,空间数据是指与二维、三维或更高维空间的空间坐标及空间范围相关的数据,例如地图上的经纬度、湖泊、城市等访问空间数据要比访问非空间数据更复杂对空间数据的访问要使用专门的操作和数据结构空间数据可以用包含着诸如“接近、南、北、包含于”等空间操作符的查询来访问。
空间数据存放在记录着实体的空间性数据和非空间性数据的空间数据库里由于空间数据关联着距离信息,所以空间数据库通常用使用距离或拓扑信息的空间数据结构或者索引来存储就数据挖掘而论,这些距离信息提供了所需的相似性度量的基础2024/12/13,4,空间数据的主要特点空间数据是指与二维、三维或更高维空间的空间,空间数据的复杂性特征,空间数据的复杂性特征主要表现在以下几个方面:,空间属性之间的非线性关系:,空间属性之间的非线性关系是空间系统复杂性的重要标志,被作为空间数据挖掘的主要任务之一空间数据的多尺度特征:,空间数据的多尺度性是指空间数据在不同观察层次上所遵循的规律以及体现出的特征不尽相同多尺度特征是空间数据复杂性的又一表现形式空间信息的模糊性:,模糊性几乎存在于各种类型的空间信息中,如空间位置的模糊性、空间相关性的模糊性以及模糊的属性值等等空间维数的增高:,空间数据的属性增加极为迅速,如在遥感领域,由于传感器技术的飞速发展,波段的数目也由几个增加到几十甚至上百个,如何从几十甚至几百维空间中提取信息、发现知识则成为研究中的又一难题空间数据的缺值:,数据的缺值现象源自由于某种不可抗拒的外力而使数据无法获得或发生丢失。
如何对丢失数据进行恢复并估计数据的固有分布参数,成为解决数据复杂性的难点2024/12/13,5,空间数据的复杂性特征空间数据的复杂性特征主要表现在以下几个方,空间查询问题,查询是挖掘的技术,空间查询及其操作的主要特点有:,空间操作相对复杂和不精确:,传统的访问非空间数据的选择查询使用的是标准的比较操作符:,>,,,<,,≤,≥,≠而空间选择是一种在空间数据上的选择查询,要用到空间操作符,包括接近、东、西、南、北、包含、重叠或相交等下面是几个空间选择查询的例子:,例如,“查找北海公园,附近,的房子”空间连接(,Spatial Join,)问题:,在两个空间关系上的一个空间性连接操作被称为空间连接(,Spatial Join,)在空间连接中,关系都是空间性的,需要与空间连接对应的条件描述例如, “相交”关系用于多边形;“相邻”关系用于点相同的地理区域经常有不同的视图:,一个区域不同的视图(如基础设施、城市规划、绿化等)保存在单独的,GIS,文件中,融合这些数据,通常需要一个称为“地图覆盖”(,Map Overlay,)的操作来实现一个空间实体可用空间和非空间的属性来描述当其空间属性用一些空间数据结构存储起来之后,非空间属性就可以存储在一个关系数据库里。
对空间数据库来说,不同的空间实体经常是和不同的位置相关联的,而且在不同的实体之间进行空间性操作的时候,经常需要在属性之间进行一些转换2024/12/13,6,空间查询问题查询是挖掘的技术,空间查询及其操作的主要特点有:,空间数据结构,由于空间数据的独特性质,有很多数据结构专门被设计用来存储或索引空间数据这些结构有的考虑的是空间实体的轮廓表示,有的是空间数据的索引方法空间实体表示的最常用方法是“最小包围矩形”空间索引技术大多是基于对空间目标的近似技术,例如,,空间映射法,(,1,)采用低维空间向高维空间映射的方式:,k维空间具有n个顶点的目标可以映射成n*k维空间的点映射后,可以直接采用点索引技术2,)直接向一维空间映射:,通常数据空间被划分成大小相同的网格单元,通过给这些网格单元编码形成一维目标,用传统的一维的索引结构(如B,+,树等)索引分割方法,(,1,)采用不允许空间重叠的索引方法:,将所在的数据空间按某种方法(如二叉树划分、四叉树划分、格网划分等)划分成彼此不相交的子空间2,)采用允许空间重叠的索引法:,将索引空间划分为多级的子空间,这些子空间允许重叠,但是一个空间实体完全包含在某一子空间中。
2024/12/13,7,空间数据结构由于空间数据的独特性质,有很多数据结构专门被设计,最小包围矩形,通过完整包含一个空间实体的最小包围矩形(,MBR,:,Minimum Bounding Rectangle,)来表示该空间实体例如,下图显示一湖泊的,MBR,:,,,,,,,如果用传统坐标系统来对这个湖定向,水平轴表示东西方向,垂直轴表示南北方向,那么就可以把这个湖放在一个矩形里(中间图所示),还可以通过一系列更小的矩形来表现这个湖(右图所示),另一种更简单的方法是用一对不相邻的顶点坐标来表示一个,MBR,,如用,{(x1,,,y1),,,(x2,,,y2)},来表示(中间图所示)2024/12/13,8,最小包围矩形通过完整包含一个空间实体的最小包围矩形(MBR:,空间索引技术,空间索引是指依据空间实体的位置和形状或空间实体之间的某种空间关系,按一定顺序排列的一种数据结构,其中包含空间实体的概要信息空间索引的性能优劣直接影响空间数据库和地理信息系统的整体性能,也对空间数据挖掘的效率有影响几种比较有代表性的空间数据索引结构技术:,网格文件,四叉树,R-,树,k-D,树,2024/12/13,9,空间索引技术空间索引是指依据空间实体的位置和形状或空间实体之,网格文件,根据正交的网格划分k维的数据空间。
k维数据空间的网格由k个一维数组表示,这些数组称为刻度,将其保存在主存刻度的每一边界构成k,-1,维的超平面整个数据空间被所有的边界划分成许多k维的矩形子空间,这些矩形子空间称为网格目录,用k维的数组表示,将其保存在硬盘上网格目录的每一网格单元包含一外存页的地址,这一外存页存储了该网格单元内的数据目标,称为数据页一数据页允许存储多个相邻网格单元的目标网格文件的查找简单,查找效率较高,适用于点目标的索引2024/12/13,10,网格文件根据正交的网格划分k维的数据空间k维数据空间的网格,四叉树,四叉树通过把空间按等级分解成为区域(单元)来表示空间实体四叉树实际上每一节点有,4,个子树,用于对空间点的表示与索引如二维空间的四叉树,每个子节点对应一个矩形,用四种方位西北(NW),东北(NE),西南(SW),东南(SE)表示,空间区域被分为,n,层,四叉树中的每级对应一个层次级别,层的数量,n,是依赖于所需要的精确度的例如,,,,,2024/12/13,11,四叉树四叉树通过把空间按等级分解成为区域(单元)来表示空间实,R-树,R,-,树是B,-,树在多维空间的扩展,其叶子节点包含多个形式为(,OI,,,MBR,)的实体,,OI,为空间目标标志,,MBR,为该目标在k维空间中的最小包围矩形。
非叶子节点包含多个形式为(,CP,,,MBR,)的实体CP,为指向子树根节点的指针,,MBR,为包围其子节点中所有,MBR,的最小包围矩形R,-,树必须满足如下特性:,若根节点不是叶子节点,则至少有两棵子树;,除根之外的所有中间节点至多有M棵子树,至少有m棵子树;,每个叶子节点均包含m至M个数据项;,所有的叶子节点都出现在同一层次;,所有节点都需要同样的存储空间(一个磁盘页)2024/12/13,12,R-树R-树是B-树在多维空间的扩展2023/9/2012,k-D树,k-D,树被设计用来对多属性的数据进行索引,而不是必要的空间数据k-D,树是二叉树的一个变种,树中的每一层用来索引一个属性树中的每个结点表示这个空间基于一个分割点被分割成两个子集和,R-,树一样,每个最低级别的区间只有一个实体但是,分割不是用,MBR,来进行的它首先按照一个维分割,然后按照另一个维分割,直到每个区间只有一个实体2024/12/13,13,k-D树k-D树被设计用来对多属性的数据进行索引,而不是必要,第八章 空间挖掘,,,,,内容提要,引言,空间数据概要,空间数据挖掘基础,空间统计学,泛化与特化,空间规则,空间分类算法,空间聚类算法,空间挖掘的其他问题,空间数据挖掘原型系统介绍,空间数据挖掘的研究现状与发展方向,其他,2024/12/13,14,第八章 空间挖掘,空间数据库的操作是数据挖掘的基础,假定,A,和,B,是二维空间中的两个空间实体。
每个实体由空间中的点的集合组成:,
基于足够多的样本,在统计空间实体的几何特征量的最小值、最大值、均值、方差、众数或直方图的基础上,可以得到空间实体特征的先验概率,进而根据领域知识发现共性的几何知识空间统计学具有较强的理论基础和大量的成熟算法空间统计学是基本的数据挖掘技术,特别是多元统计分析(如判别分析、主成分分析、因子分析、相关分析、多元回归分析等)统计方法是分析空间数据的最常用的方法统计方法能够有效处理数值型数据,其主要方法是基于统计不相关假设的在空间数据库中许多空间数据通常是相关的,即空间对象受其邻近对象的影响,难以满足这种假设,这样就会引起问题它是空间统计学向着实用的挖掘技术发展的一个重要研究课题统计方法对非线性规划不能很好建模,难以处理不完全或不确定性数据,而且运算的代价较高它是空间统计学向着实用的挖掘技术发展的另一个研究课题2024/12/13,17,空间统计学空间统计学(Spatial Statistics),第八章 空间挖掘,,,,,内容提要,引言,空间数据概要,空间数据挖掘基础,空间统计学,泛化与特化,空间规则,空间分类算法,空间聚类算法,空间挖掘的其他问题,空间数据挖掘原型系统介绍,空间数据挖掘的研究现状与发展方向,其他,2024/12/13,18,第八章 空间挖掘,空间数据的蕴含着丰富的概念,众所周知,概念层次的使用显示了数据间关系的层次。
应用空间数据特性,概念层次承认了层级中不同层次规则和关系的发展从空间数据中挖掘所蕴含的概念是空间挖掘的重要任务之一泛化与特化是概念归纳的主要手段,它对空间数据挖掘也是如此2024/12/13,19,空间数据的蕴含着丰富的概念众所周知,概念层次的使用显示了数据,逐步求精的分层技术,逐步求精(,Progressive Refinement,)的分层是基于空间关系的,因此空间关系可以应用在一个更粗糙或者更精细的层次上由于空间应用的数据量十分庞大,在寻求更多精确响应之前要先做出一些近似响应MBR,就是一个近似物体形状的办法四叉树、,R-,树和其他大多数空间索引技术都采用了一种逐步求精的方式逐步求精可以看作是对处理问题无用的数据所做的过滤2024/12/13,20,逐步求精的分层技术逐步求精(Progressive Refi,泛化,数据库中的数据和对象在原始的概念层次包含有详细的信息,经常需要将大量数据的集合进行概括并以较高的概念层次展示,即对数据进行泛化基于泛化的数据挖掘方法假定背景知识以概念层次的形式存在概念层次可由专家提供,或借助数据分析自动生成空间数据库中可以定义两种类型的概念层次:,空间概念层:地理区域之间空间关系的概念层次。
非空间概念层:非空间属性所联系的非空间数据对应的概念层次空间数据应用的归纳可以被分为两种子类:,空间数据支配泛化:空间数据支配泛化做的是基于空间位置的聚类(所有靠近的实体被分在一组中)非空间数据支配泛化:根据非空间属性值的相似性做聚类2024/12/13,21,泛化数据库中的数据和对象在原始的概念层次包含有详细的信息,经,空间数据支配泛化算法,在空间数据支配泛化算法中,首先对空间数据进行归纳:归纳进行至区域的数量达到阈值为止然后对相关的非空间属性做相应地更改例如,要知道我国西北部地区的平均降雨量,可以在空间层次中寻找西北部所有省,再对非空间属性(降雨量)进行比较,或者归纳(平均降雨量多、中等、少量等)典型的空间数据支配泛化算法描述,:,算法,8-1,空间数据支配泛化算法,输入:空间数据库,D,;空间层次,H,;概念层次,C,;查询,Q,输出:所需一般特征的规则,r,1,),D’←,从数据库,D,中按查询,Q,获得的数据集合;,(,2,)根据,H,的结构,把数据合并到区域中,直到区域的数目达到所需的阈值,或者已经到达,H,中所要求的层次;,(,3,),FOR each,所找的区域,DO BEGIN,(,4,) 对非空间属性执行面向属性的归纳;,(,5,) 产生并输出所找到的泛化规则;,(,6,),END.,2024/12/13,22,空间数据支配泛化算法在空间数据支配泛化算法中,首先对空间数据,非空间数据支配泛化算法,算法首先对非空间属性作面向属性的归纳,将其泛化至更高的概念层次。
然后,将具有相同的泛化属性值的相邻区域合并在一起,可用邻近方法忽略具有不同非空间描述的小区域查询的结果生成包含少量区域的地图,这些区域共享同一层次的非空间描述2024/12/13,23,非空间数据支配泛化算法算法首先对非空间属性作面向属性的归纳,,统计信息网格方法,STING,介绍,统计学信息网格方法(,STatistical INformation Grid-based method—STING,),使用了一种类似四叉树的分层技术,把空间区域分成矩形单元对空间数据库扫描一次,可以找到每个单元的统计参数(平均数,变化性,分布类型)网格结构中的每个结点概括了该网格中所含内部属性的信息通过获取这些信息,很多数据挖掘请求(包括聚类)都可以通过检验单元统计得到响应STING,方法可以看作是一种层次聚类技术层级的顶层的组成就是整体空间最低层是代表每个最小单元的叶子结点如果使用一个单元在下一层中拥有四个子单元(网格)的话,单元的分割与四叉树中是一样的2024/12/13,24,统计信息网格方法STING介绍统计学信息网格方法(STati,第八章 空间挖掘,,,,,内容提要,引言,空间数据概要,空间数据挖掘基础,空间统计学,泛化与特化,空间规则,空间分类算法,空间聚类算法,空间挖掘的其他问题,空间数据挖掘原型系统介绍,空间数据挖掘的研究现状与发展方向,其他,2024/12/13,25,第八章 空间挖掘,空间规则的主要类型,空间规则可以概括对空间实体的结构及其之间关系的描述。
在空间数据挖掘中有三种类型的规则:,空间特性规则:描述数据,如北京市家庭平均年收入为,30000,元空间判别规则:描述不同种类数据间的差异,依靠它们能够区分不同种类的特点如北京市家庭平均年收入为,30000,元,而上海的家庭平均年收入为,35000,元空间关联规则:是两个数据集合之间的关联如在北京市、住在国贸附近的家庭的平均收入为,50000,元所有这些规则都可以被看作是对空间类型的描述,而描述是一种为数据库或者其中一些子集找到一个表示的方法特性规则是一种最简化的形式2024/12/13,26,空间规则的主要类型空间规则可以概括对空间实体的结构及其之间关,空间关联规则,空间关联规则是空间数据实体之间的关联,有:,非空间的先决条件和空间性的结果:如在北京、所有的重点学校都是位于老住宅区,附近,空间性先决条件和非空间的结果:如在北京、房子在国贸,附近,,就比较贵空间性先决条件和空间性结果:如在北京、所有,市区,的房子都在三环,以内,空间关联规则挖掘是传统关联规则挖掘的延伸,常用最小支持度和最小可信度来作为基本的统计参数,由于空间数据的特点,往往是在多层概念上进行归纳挖掘空间关联规则的有效方法是自上而下、逐步加深的搜索技术。
首先在高的概念层次进行搜索,在较粗的精度级别查找频繁发生的模式和在这些模式中较强的隐含关系;然后,对频繁发生的模式加深搜索至较低的概念层次,这种处理持续到找不到频繁发生的模式为止2024/12/13,27,空间关联规则空间关联规则是空间数据实体之间的关联,有:202,空间关联规则基本步骤,典型的五步算法:,步骤,1,:通过给定的查询抽取出相关的数据步骤,2,:应用一个粗的空间运算方法,计算整个相关数据的集合步骤,3,:过滤出那些支持度小于最小支持度阈值的,1,阶谓词步骤,4,:应用一个细化的空间计算方法,从所导出的粗的谓词集合中计算谓词步骤,5,:向低层深入,在多个概念层次上找到关联规则的完整集合算法,8-4,,空间关联规则算法,输入:空间数据库,D,;概念层次,C,;层次的最小支持度和可信度,s,和,α,;寻找感兴趣实体的查询,q,;感兴趣的拓扑关系,p,输出:空间关联规则,R,1,),D’=q(D),;,(,2,)在,D’,中应用粗糙谓词,建造,CP,;,// CP,是由满足,D’,中实体对的粗糙谓词组成的,(,3,)通过寻找满足,s,的粗糙谓词来找到频繁粗糙谓词,FCP,;,(,4,)从,FCP,中找到频繁精确谓词,FFP,;,(,5),寻找所有的频繁精确谓词得到,R,,然后归纳准则,.,2024/12/13,28,空间关联规则基本步骤典型的五步算法:算法8-4 空间关联规,第八章 空间挖掘,,,,,内容提要,引言,空间数据概要,空间数据挖掘基础,空间统计学,泛化与特化,空间规则,空间分类算法,空间聚类算法,空间挖掘的其他问题,空间数据挖掘原型系统介绍,空间数据挖掘的研究现状与发展方向,其他,2024/12/13,29,第八章 空间挖掘,空间分类方法,空间分类方法用来对空间实体的集合进行分类。
给空间实体分类,可以通过非空间属性或空间属性或二者结合,并可利用概念层次来进行取样对于样本数据的训练可以通过改造传统的分类算法来完成,例如,对ID3算法扩展2024/12/13,30,空间分类方法空间分类方法用来对空间实体的集合进行分类给空间,空间决策树,建造一个决策树,有五个主要步骤:,根据已知的分类,从数据,D,中找到例子,S,确定最佳谓词,p,用来分类一般首先在较粗的层次中寻找相关谓词,然后再在较为细化的层次找到最佳的缓冲区大小和形状对于取样中的每个实体,它周围的区域被称为缓冲区目标是选择一个能产生对测试集中的类型进行最不同的缓冲区使用,p,和,C,,对每个缓冲区归纳谓词使用泛化的谓词和,ID3,建造二叉树,T,算法,8-5,,空间决策树算法,输入:空间数据库,D,;概念层次,C,;预定的类别输出:二叉决策树,T,1,)根据预定的类别,从数据,D,中找到例子,S,;,(,2,)确定最佳谓词,p,用来分类;,(,3,)找到最佳的缓冲区大小和形状;,(,4,)使用,p,和,C,,对每个缓冲区归纳谓词;,(,5,)使用泛化的谓词和,ID3,建造二叉树,T.,2024/12/13,31,空间决策树建造一个决策树,有五个主要步骤:算法8-5 空间,第八章 空间挖掘,,,,,内容提要,引言,空间数据概要,空间数据挖掘基础,空间统计学,泛化与特化,空间规则,空间分类算法,空间聚类算法,空间挖掘的其他问题,空间数据挖掘原型系统介绍,空间数据挖掘的研究现状与发展方向,其他,2024/12/13,32,第八章 空间挖掘,空间聚类,空间聚类算法必须在大型多维数据库上有效工作,而且应该能够探测到不同形状的聚类。
因此,难度和挑战性要比传统数据要大空间聚类找到的聚类不应该依赖于检验空间中的点的顺序,而且聚类也不应该受不相干的点影响传统的聚类算法可以通过改造来实现空间数据聚类2024/12/13,33,空间聚类空间聚类算法必须在大型多维数据库上有效工作,而且应该,基于随机搜索的聚类方法CLARANS扩展,CLARANS,算法可以表示为查找一个图,图中的每个节点都是潜在的解决方案在替换一个中心点后获得的聚类称为当前聚类的邻居随意测试的邻居的数目由参数,maxneighbor,限制如果找到一个更好的邻居,将中心点移至邻居节点,重新开始上述过程,否则在当前的聚类中生成一个局部最优找到一个局部最优后,再任意选择一个新的节点重新寻找新的局部最优局部最优的数目被参数,numlocal,限制CLARANS,并不搜索遍所有的求解空间,也不限制在任何具体的采样中CLARANS,每次迭代的计算复杂度与对象的数量基本呈线性关系基于,CLARANS,的空间数据聚类算法有两种:空间支配算法,SD,(,CLARANS,)和非空间支配算法,NSD,(,CLARANS,)2024/12/13,34,基于随机搜索的聚类方法CLARANS扩展 CLARANS算法,DBCLASD算法,一种大型空间数据库基于距离分布的聚类算法,叫做,DBCLASD,(,Distribution Based Clustering of Large Spatial Databases,),它是,DBSCAN,的扩展。
假定聚类中的项目是均匀分布的,算法尝试确定满足最近邻居距离的分布只要最近的邻居距离满足均一分布的假设,那么这个元素就被加入聚类算法,8-7,DBCLASD,算法,输入:要被聚类的空间实体,D,;输出:聚类集合,K,1,),K←0,;,//,初始化,没有聚类,(,2,),c←Ф,;,//,初始化候选集合为空,(,3,),FOR each point p in D DO BEGIN,(,4,),IF p is not in a cluster THEN BEGIN,(,5,),,创建一个新的聚类,C,,并把,p,加入,C,;,(,6,),,把,p,临近的点加入,C,;,(,7,),END,(,8,),FOR each point q in C DO BEGIN,(,9,),,把,C,中没有处理过的点,q,的邻居点加入,C,;,(,10,),K←K∪{C},(,11,),END.,2024/12/13,35,DBCLASD算法一种大型空间数据库基于距离分布的聚类算法,,BANG,算法,BANG,方法使用了一种类似,k-D,树的网格结构这个结构为适应属性的分布而做了一定调整,使密集的区域具有大量的更小的网格,而不够密集的区域只有少量的更大的网格。
接着按照网格(块)的密度排序,也就是按照区域分割的网格里的项目数量根据期望的聚类数量,那些密度最大的网格被选为聚类的中心对于每个选定的网格,只要它们的密度小于或者等于当前这个聚类的中心,就把这个临近的网格加入2024/12/13,36,BANG算法BANG方法使用了一种类似k-D树的网格结构这,小波聚类,用小波聚类归纳空间聚类的方法是把数据看作像,STING,那样的信号,小波聚类使用的是网格归纳聚类的时间复杂度是,O(n),,并且不受外界影响与一些方法不同,小波聚类可以找到任意形状的聚类,而且不需要知道期望的聚类个数n,维空间的空间实体集合可看作是一个信号聚类的边界与高频相应聚类本身是低频率高振幅的可以使用信号处理技术寻找空间中低频的部分可以使用小波变换来寻找聚类小波变换是用来找出信号中的频谱的一个空间实体的小波变换分解维空间图像的层次它们可以用来把一个图像缩放为不同的大小2024/12/13,37,小波聚类用小波聚类归纳空间聚类的方法是把数据看作像STING,使用近似值来确定聚类的特性,一旦找到了空间聚类,可以使用近似值来确定这些聚类的特性:通过确定聚类附近的特征实现的例如,一个聚类“靠近学校”。
通常更多地用复杂的近似多边形表示,而非指用简单的,MBR,聚合邻近,定义为衡量一个聚类(或者元素群)与一个特征(或者空间中某个实体)接近的程度聚合邻近距离可以由聚类中所有点的距离总和来度量CRH,算法是典型的确定聚合邻近关系方法它使用三种几何形状来界定一个聚类:,内接矩形,R,:包含了一系列点的,MBR,矩形边缘与坐标轴平行外接圆,C,:包围一系列点的圆周;以内接矩形的对角线为直径凸多边形,H,:包含点的集合的最小边界CRH,首先使用一个外接圆来接近给定的类;,其次使用内接矩形来表示特征,并根据特征与聚类的接近程度来进行排序;,最后使用凸多边形来评估前面所有最接近的特征2024/12/13,38,使用近似值来确定聚类的特性一旦找到了空间聚类,可以使用近似值,第八章 空间挖掘,,,,,内容提要,引言,空间数据概要,空间数据挖掘基础,空间统计学,泛化与特化,空间规则,空间分类算法,空间聚类算法,空间挖掘的其他问题,空间数据挖掘原型系统介绍,空间数据挖掘的研究现状与发展方向,其他,2024/12/13,39,第八章 空间挖掘,空间挖掘的其他问题,1,.,空间在线分析挖掘,空间在线分析挖掘(,SOLAM,:,Spatial Online Analytical Mining,)建立在多维视图基础之上,是基于网络的验证型空间数据挖掘和分析工具。
空间在线分析挖掘通过数据分析与报表模块的查询和分析工具(,OLAP,、决策分析、数据挖掘)完成对信息和知识的提取,以满足决策的需要它建立在客户,/,服务器的结构之上,由用户驱动,支持多维数据分析,在用户的指导下验证设定的假设美国,BusinessObjects,公司的,BusinessObjects,(,BO,)就是采用,Data,W,arehouse+OLAP+DataMining,方案推出的第一个集多数据源查询、任意报表生成和,OLAP,及数据挖掘技术为一体的决策支持工具软件包2024/12/13,40,空间挖掘的其他问题1.空间在线分析挖掘2023/9/2040,空间挖掘的其他问题,2,.挖掘图像数据库的方法,,图像数据库是一类特殊的空间数据库,其数据几乎全部是图像或图片图像数据库用于遥感、医学图像等应用,通常以栅格形式表示,栅格代表一个或多个光谱范围的图像密度图像数据库的挖掘可以看成是空间数据挖掘的一部分,其主要问题在于如何区分图像以下列出对这方面问题的一些研究Magellan,研究,恒星分类,POSS-II,(,Second Palomar Observatory Sky Survey,),基于内容的时空查询,CONQUEST,,,2024/12/13,41,空间挖掘的其他问题2.挖掘图像数据库的方法2023/9/20,空间挖掘的其他问题,3,.基于,Rough,集方法,Rough,集理论被广泛研究并应用于不精确、不确定、不完全的信息的分类分析和知识获取中。
Rough,集理论为空间数据的属性分析和知识发现开辟了一条新途径,可用于空间数据库属性表的一致性分析、属性的重要性、属性依赖、属性表简化、最小决策和分类算法生成等Rough,集方法与其他知识发现方法相结合,可以在数据库中数据不确定情况下获取多种知识4,.基于云理论挖掘方法,云理论是由李德毅等提出的一种用于处理不确定性的新理论,由云模型、不确定性推理和云变换三大支柱构成云理论将模糊性和随机性结合起来,解决了作为模糊集理论基石的隶属函数概念的固有缺陷,为,KDD,中定量与定性相结合的处理方法奠定了基础,可以用于处理,GIS,中融随机性和模糊性为一体的属性不确定性2024/12/13,42,空间挖掘的其他问题3.基于Rough集方法2023/9/20,空间挖掘的其他问题,5,.探测性的数据分析(,EDA,),探测性的数据分析,简称,EDA,,采用动态统计图形和动态链接窗口技术将数据及其统计特征显示出来,可发现数据中非直观的数据特征及异常数据EDA,技术在知识发现中用于选取感兴趣的数据子集,即数据聚焦,并可初步发现隐含在数据中的某些特征和规律6,.可视化,现代的数据可视化(,Data Visualization,)技术是指运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。
它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域数据可视化概念首先来自科学计算可视化2024/12/13,43,空间挖掘的其他问题5.探测性的数据分析(EDA)2023/9,第八章 空间挖掘,,,,,内容提要,引言,空间数据概要,空间数据挖掘基础,空间统计学,泛化与特化,空间规则,空间分类算法,空间聚类算法,空间挖掘的其他问题,空间数据挖掘原型系统介绍,空间数据挖掘的研究现状与发展方向,其他,2024/12/13,44,第八章 空间挖掘,空间数据挖掘原型系统介绍,,加拿大,Simon Fraser,大学开发的空间数据挖掘系统原型,GeoMiner,很有代表性该系统包含有三大模块:空间数据立方体构建模块,空间联机分析处理(,OLAP,)模块和空间数据挖掘模块,采用的空间数据挖掘语言是,GMQL,目前已能挖掘三种类型的规则:特征规则、判别规则和关联规则GeoMiner,的体系结构如图,8-12,所示,包含四个部分:,图形用户界面,用于进行交互式地挖掘并显示挖掘结果;,发现模块集合,含有上述三个已实现的知识发现模块以及四个计划实现的模块(分别用实线框和虚线框表示);,空间数据库服务器,包括,MapInfo,、,ESRI/Oracle SDE,、,Informix-Illustra,以及其他空间数据库引擎;,存储非空间数据、空间数据和概念层次的数据库和知识库。
2024/12/13,45,空间数据挖掘原型系统介绍 加拿大Simon Frase,空间数据挖掘原型系统介绍,,空间数据,,图形用户界面,GeoMiner,:知识发现模块,空间数据库服务器和数据立方体,非空间数据,概念层次,,空间特征规则发现模块,空间关联规则发现模块,空间预测模块,空间模式分析模块,空间比较规则发现模块,空间分类规则发现模块,空间聚类分析模块,未来的空间发现模块,2024/12/13,46,空间数据挖掘原型系统介绍 空间数据图形用户界面GeoM,空间数据挖掘原型系统介绍,到目前为止,尚没有对空间数据挖掘查询语言,SDMQL,(,Spatial Data Mining Query Language,)的定义Han,等人为了挖掘地理空间数据库设计了一种地理数据挖掘查询语言,GMQL,(,Geo-Mining Query Language,),它是对空间,SQL,的扩展,并成功地应用于空间数据挖掘系统原型,GeoMiner,中GMQL,可作为制定,SDMQL,的基础,以进一步界定,SDMQL,语言的基本原语SDMQL,的设计指导原则主要有:,在空间数据挖掘请求中应说明用于挖掘的相关数据集。
在空间数据挖掘请求中应说明想要挖掘的知识的种类挖掘过程中应该可能运用相关的背景知识挖掘结果应该能用较概括的或多层次概念的术语来表述应能够说明各种各样的阈值,使得可以灵活地过滤掉那些不是很令人感兴趣的知识应采用类似,SQL,的语法以适应在高级语言的水平上进行数据挖掘并与关系查询语言,SQL,保持自然的融合2024/12/13,47,空间数据挖掘原型系统介绍到目前为止,尚没有对空间数据挖掘查询,第八章 空间挖掘,,,,,内容提要,引言,空间数据概要,空间数据挖掘基础,空间统计学,泛化与特化,空间规则,空间分类算法,空间聚类算法,空间挖掘的其他问题,空间数据挖掘原型系统介绍,空间数据挖掘的研究现状与发展方向,其他,2024/12/13,48,第八章 空间挖掘,空间数据挖掘的研究现状,空间数据挖掘的研究比一般的关系型数据库和事务数据库的研究要晚,但近几年己经引起广泛的兴趣目前国内外都己经开展了地球空间数据挖掘与知识发现方面的研究加拿大西蒙弗雷泽大学、德国慕尼黑大学、芬兰赫尔辛基大学以及美国、澳大利亚等国家的许多大学和研究所,都有空间数据挖掘的成果报道目前,在空间数据挖掘系统的开发方面,国际上有代表性的通用,SDM,系统有:,GeoMiner,,,Descartes,和,ArcView GIS,的,S-PLUS,接口。
在国内,目前已经开展空间数据挖掘的单位主要有:北京大学、武汉大学、中科院软件所、中科院地理所资源与环境信息系统国家重点实验室、中科院遥感所、中国测绘科学研究院等2024/12/13,49,空间数据挖掘的研究现状 空间数据挖掘的研究比一般的关系型数据,空间数据挖掘的研究与发展方向,空间数据挖掘是一个非常年轻而富有前景的领域,有很多研究问题需要深入探讨,这也是该领域的研究与发展方向1,.在面向对象的空间数据库中进行数据挖掘,2,.进行不确定性挖掘,3,.多边形聚类技术,4,.模糊空间关联规则的挖掘,5,.挖掘空间数据的偏离和演变规则,6,.多维规则可视化,7,.多技术结合,8,.高效的分类算法,9,.空间数据挖掘查询语言,10,.带空间误差的数据挖掘,11,.遥感影像的挖掘,12,.智能,GIS,方法,13,.并行数据挖掘,14,.其他,,2024/12/13,50,空间数据挖掘的研究与发展方向 空间数据挖掘是一个非常年轻而富,第八章 空间挖掘,,,,,内容提要,引言,空间数据概要,空间数据挖掘基础,空间统计学,泛化与特化,空间规则,空间分类算法,空间聚类算法,空间挖掘的其他问题,空间数据挖掘原型系统介绍,空间数据挖掘的研究现状与发展方向,其他,2024/12/13,51,第八章 空间挖掘,空间数据挖掘与相关学科的关系,空间数据挖掘与空间数据库,空间数据库存储了大量与空间有关的数据,例如数字地图、预处理后的遥感或医学图像数据等等,空间数据库有许多与关系型数据库所不同的显著特征。
空间数据挖掘与空间数据仓库,空间数据仓库(,Spatial Data Warehouse,,,SDW,)是近几年在数据仓库基础上提出的一个新的概念和新的技术,空间数据仓库是一个面向主题的、集成的、随时间变化的并且非易失性的空间和非空间数据的集合,用于支持空间数据挖掘和与空间数据有关的决策过程空间数据挖掘与空间联机分析处理,空间联机分析处理(,Spatial Online Analytical Processing,,,SOLAP,)是针对特定问题的联机空间数据访问和分析,适合以空间数据仓库为基础的数据分析处理空间数据挖掘与地理信息系统,数字地球,,,2024/12/13,52,空间数据挖掘与相关学科的关系 空间数据挖掘与空间数据库202,第八章 空间挖掘,,,,,内容提要,引言,空间数据概要,空间数据挖掘基础,空间统计学,泛化与特化,空间规则,空间分类算法,空间聚类算法,空间挖掘的其他问题,空间数据挖掘原型系统介绍,空间数据挖掘的研究现状与发展方向,其他,2024/12/13,53,第八章 空间挖掘,http://www.cs.sfu.ca/~han,Thank you !!!,2024/12/13,54,http://www.cs.sfu.ca/~hanThank,。