当前位置首页 > 计算机 > 数据挖掘与模式识别
搜柄,搜必应! 快速导航 | 使用教程

数据仓库与数据挖掘培训课件

文档格式:PPTX| 45 页|大小 504.85KB|2024-11-29 发布|举报 | 版权申诉
第1页
第2页
第3页
下载文档到电脑,查找使用更方便 还剩页未读,继续阅读>>
1 / 45
此文档下载收益归作者所有 下载文档
  • 版权提示
  • 文本预览
  • 常见问题
  • 单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,29 十一月 2024,Data Mining:Concepts and Techniques,1,数据仓库与数据挖掘,任课教师,:,工作单位:,办公地点:,联系电话:,QQ号码,:,第1章,数据仓库与数,据,据挖掘概述,第,1,章,1.1 数据,仓,仓库的兴起,1.2 数据,挖,挖掘的兴起,1.3数据仓库和数,据,据挖掘的结合,1.1.1,从,从数据库到数,据,据仓库,(1),“,数据太多,信,息,息不足,”,的现状,(2)异构环,境,境的数据的转,换,换和共享,(3)利用数,据,据进行数据处,理,理转换为利用数据支持,决,决策,1.,数据库用于事,务,务处理,数据库中存放,的,的数据基本上,是,是保存当前数,据,据,随着业务,的,的变化随时在,更,更新数据库中,的,的数据。

    不同的管理业,务,务需要建立不,同,同的数据库例,例如,银行中,储,储蓄业务、信,用,用卡业务分别,要,要建立储蓄数,据,据库和信用卡,数,数据库数据库是为满,足,足事务处理需,求,求建立的,在,帮,帮助人们进行,决,决策分析时显,得,得不适用举,举例),数据库的局限,性,性,传统数据库所,能,能做到的只是,对,对已有的数据,进,进行存取以及,简,简单的查询统,计,计,即使是一,些,些流行的,OLAP,工具,也无非,是,是另一种数据展,示,示方式而已人们仍,然,然无法发现数,据,据中存在的关,系,系和规则,无,法,法根据现有的,数,数据预测未来,的,的发展趋势这,这也直接导致,了,了目前,“,数据,爆,爆炸,但,但知,识,识匮,乏,乏,”,的现,状,状2.,数据,仓,仓库,用,用于,决,决策,分,分析,数据,库,库用,于,于事,务,务处,理,理,,数,数据,仓,仓库,用,用于,决,决策,分,分析,数据,库,库保,持,持事,务,务处,理,理的,当,当前,状,状态,,,,数,据,据仓,库,库既,保,保存,过,过去,的,的数,据,据又,保,保存,当,当前,的,的数,据,据,数据,仓,仓库,的,的数,据,据是,大,大量,数,数据,库,库的,集,集成,对数,据,据库,的,的操,作,作比,较,较明,确,确,,操,操作,数,数据,量,量少,。

    对,数,数据,仓,仓库,操,操作,不,不明,确,确,,操,操作,数,数据,量,量大,3.,数据,库,库与,数,数据,仓,仓库,对,对比,数据,仓,仓库,与,与数,据,据库,的,的关,系,系,数据,库,库的,应,应用,包,包括,:,:事,务,务型,应,应用,和,和分,析,析型,应,应用,物理,数,数据,库,库实,际,际存,储,储的,数,数据,包,包括,:,:,事务,型,型数,据,据(,或,或称,操,操作,数,数据,),)和,分,分析,型,型数,据,据(,也,也可,称,称为,汇,汇总,数,数据,、,、信,息,息数,据,据),起初,,,,两,类,类数,据,据放,到,到一,起,起,,即,即分,散,散存,储,储在,各,各底,层,层的,业,业务,数,数据,库,库中,后来,,,,随,着,着企,业,业规,模,模的,扩,扩展,、,、数,据,据量,的,的增,加,加、,以,以及,希,希望,在,在决,策,策分,析,析时,得,得到,更,更多,支,支持,需,需求,的,的日,益,益迫,切,切,,并,并且,考,考虑,保,保证,原,原有,事,事务,数,数据,库,库的,高,高效,性,性与,安,安全,性,性因,因此,将,将分,析,析型,数,数据,与,与事,务,务型,数,数据,相,相分,离,离,,单,单独,存,存放,,,,即,形,形成,了,了所,谓,谓的,数,数据,仓,仓库,。

    数据仓库与数据,库,库的关系,数据仓库只不过,是,是因为用户需求,增,增加而对某一类,数,数据库应用的一,个,个范围的界定单,单就其是数据的,存,存储容器这一点,而,而言,数据仓库,与,与数据库并没有,本,本质的区别而且在更多的时,候,候,我们是将数,据,据仓库作为一个,数,数据库应用系统,来,来看待的因此,不应该说,数,数据库到数据仓,库,库是技术的进步,1.1.2,从,OLTP,到,OLAP,1.,联机事物处理(,OLTP,),2.,联机分析处理(,OLAP,),3.OLTP,与,OLAP,的对比,1.,联机事物处理(,OLTP,),联机事物处理(,On LineTransaction Processing,,,OLTP,)是在网络环境,下,下的事务处理工,作,作,以快速的响,应,应和频繁的数据,修,修改为特征,使,用,用户利用数据库,能,能够快速地处理,具,具体的业务OLTP,是用户的数据可,以,以立即传送到计,算,算中心进行处理,,,,并在很短的时,间,间内给出处理结,果,果也称为实时系统,(Real time System),OLTP,主要用于包括银,行,行业、航空、邮,购,购订单、超级市,场,场和制造业等的,输,输入数据和取回,交,交易数据。

    如银,行,行为分布在各地,的,的自动取款机,(ATM),完成即时取款交,易,易;机票预定系,统,统能每秒处理的,定,定票事务峰值可,以,以达到,20000,个OLTP,的特点在于事务,处,处理量大,应用,要,要求多个并行处,理,理,事务处理内,容,容比较简单且重,复,复率高大量的数据操作,主,主要涉及的是一,些,些增加、删除、,修,修改、查询等操,作,作每次操作的,数,数据量不大且多,为,为当前的数据OLTP,处理的数据是高度结构化的,数据访问路,径,径是已知的,至,少,少是固定的OLTP,面对的是事务处,理,理操作人员和低,层,层管理人员但是,为高层领,导,导者提供决策分,析,析时,,OLTP,则显得力不从心,2.,联机分析处理(,OLAP,),E.F.Codd,认为决策分析需要对多个关系,数,数据库共同进行,大,大量的综合计算,才,才能得到结果E.F.Codd,在,1993,年提出了多维数据库和多,维,维分析的概念,,即,即联机分析处理(,On LineAnalytical Processing,,,OLAP,)概念关系数据库是二,维,维数据(平面),,,,多维数据库是,空,空间立体数据。

    新的挑战:如何,不,不被淹没在信息,的,的海洋里,OLAP,专门用于支持复,杂,杂的决策分析操,作,作,侧重对分析,人,人员和高层管理,人,人员的决策支持,,,OLAP,可以应分析人员,的,的要求快速、灵,活,活地进行大数据,量,量的复杂处理,,并,并且以一种直观,易,易懂地形式将查,询,询结果提供给决,策,策制定人OLAP,软件,以它先进,地,地分析功能和以多维形式提供数据的能力,,,,正作为一种支,持,持企业关键商业,决,决策的解决方案,而,而迅速崛起OLAP,的基本思想是决策者从多方,面,面和多角度以多维的形式来观察企业的状,态,态和了解企业的,变,变化3.OLTP,与,OLAP,的对比,OLTP,OLAP,细节性数据,综合性数据,当前数据,历史数据,经常更新,不更新,但周期性刷新,一次性处理的数据量小,一次处理的数据量大,对响应时间要求高,响应时间合理,面向应用,事务驱动,面向分析,分析驱动,1.1.4,数据仓库的定义,与,与特点,1.数据仓库定,义,义,(1)W.H.Inmon在,建,建立数据仓库,一,一书中,对数据,仓,仓库的定义为:,数据仓库是面向,主,主题的、集成的,、,、稳定的,不同,时,时间的数据集合,,,,用于支持经营,管,管理中决策制定,过,过程。

    2)SAS,软,软件研,究,究所观,点,点:,数据仓,库,库是一,种,种管理,技,技术,,旨,旨在通,过,过通畅,、,、合理,、,、全面,的,的信息,管,管理,,达,达到有,效,效的决,策,策支持,2.,数据仓,库,库特点,(1),数,数据仓,库,库是面,向,向主题,的,的,是相对,于,于传统,数,数据库,的,的面向,应,应用而,言,言的所,所谓面,向,向应用,,,,指的,是,是系统,实,实现过,程,程中主,要,要围绕,着,着一些,应,应用或,功,功能而,而面向,主,主题则,考,考虑一,个,个个的问题域,对问,题,题域涉,及,及到的,数,数据和,分,分析数,据,据所采,用,用的功,能,能给予,同,同样的,重,重视主题是,数,数据归,类,类的标,准,准,每,一,一个主,题,题基本,对,对应一,个,个宏观,的,的分析,领,领域例如,,银,银行的,数,数据仓,库,库的主,题,题:客,户,户,DW的,客,客户数,据,据来源,:,:,从银行储,蓄,蓄DB,、,、信用,卡,卡DB,、,、贷款DB等三个DB中,抽,抽取同,一,一客户,的,的数据,整,整理而,成,成在D,W,中能全,面,面地分,析,析客户,数,数据,,再,再决定,是,是否继,续,续给予,贷,贷款。

    2),数,数据仓,库,库是集,成,成的,最重要,的,的特点,数据,仓,仓库中,的,的数据,来,来自各,个,个不同,的,的数据,源,源(操,作,作数据,库,库)由,由于历,史,史的原,因,因,各,操,操作数,据,据库的,组,组织结,构,构往往,是,是不同,的,的,在,这,这些异,构,构数据,输,输入到,数,数据仓,库,库之前,,,,必须,经,经历一,个,个集成,过,过程对不同,的,的数据,来,来源进,行,行统一数据结,构,构和编,码,码统一原始数,据,据中的,所,所有矛,盾,盾之处,,,,如字,段,段的同,名,名异义,,,,异名,同,同义,,单,单位不,统,统一,,字,字长不,一,一致等,将原始,数,数据结,构,构做一,个,个从面向应,用,用到面向主,题,题的大转,变,变3),数,数据仓,库,库是稳,定,定的(,不,不可修,改,改的),数据仓,库,库中包,括,括了大,量,量的历,史,史数据,数据,经,经集成,进,进入数,据,据仓库,后,后是极,少,少或根,本,本不更,新,新的4),数,数据仓,库,库是随,时,时间变,化,化的,数据仓,库,库内的,数,数据时,限,限在5,10年,,,,故数,据,据的键,码,码包含,时,时间项,,,,标明,数,数据的,历,历史时,期,期,这,适,适合DSS进,行,行时间,趋,趋势分,析,析。

    而数据,库,库只包,含,含当前,数,数据,,即,即存取,某,某一时,间,间的正,确,确的有,效,效的数,据,据5),数,数据仓,库,库的数,据,据量很,大,大,大型DW的数,据,据是一,个,个TB,(,(1000GB)级,数,数据量,(,(一般,为,为10GB级DW,,相,相当于,一,一般数,据,据库100MB的100倍,),),(6),数,数据仓,库,库软、,硬,硬件要,求,求较高,需要一,个,个巨大,的,的硬件,平,平台,需要一,个,个并行,的,的数据,库,库系统,1.2,数据挖,掘,掘的兴,起,起,二十世,纪,纪末以,来,来,全,球,球信息,量,量以惊,人,人的速,度,度急剧,增,增长,据估计,,,,每二,十,十个月,将,将增加,一,一倍许,许多组,织,织机构,的,的,IT,系统中,都,都收集,了,了大量,的,的数据,(,(信息,),)目,前,前的数,据,据库系,统,统虽然,可,。

    点击阅读更多内容
    卖家[上传人]:igjfgh4252
    资质:实名认证
    相关文档
    正为您匹配相似的精品文档