浅析数据仓库的构建方法

浅析数据仓库的构建方法
随着不同的管理信息系统(MIS)在企业不同部门的大规模应用及企业对数据管理不断提出新的要求,不仅要求能实现传统的联机事务处理,而且越来越多的要求是各种应用系统能够在企业不断积累的以及从企业外部获取的丰富信息资源的基础上,把这些分散的、不一致的、凌乱的信息资源加以利用,即更多地参与数据分析和决策支持,由此出现了一种用于数据分析处理和决策支持的数据存储和组织技术,即数据仓库技术。
1、什么是数据仓库
数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程。数据仓库提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。
面向主题是指数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。集成的是指数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
数据仓库的体系结构分数据源、数据转换、数据仓库、数据集市和用户几部分。数据源,包括企业内部的业务数据、遗留数据、其它业务系统数据及相关WEB数据等;数据转换是数据仓库构建的重要环节,主要是对各种复杂的数据源进行抽取、转换、装载及其他处理,同时要实现数据质量跟踪监控以及元数据抽取与创建等工作;数据仓库主要实现对各种数据的组织、存储及管理等;数据集市是为不同业务而单独设计的数据仓库系统,即开发者为企业内部的不同用户群定制特殊的数据仓库子系统。用户部分,即具体面向使用者的应用部分,主要是指数据仓库存取与检索为用户提供了访问数据仓库或数据集市的功能,其中分析与报告为用户使用数据仓库提供了一组工具,用于帮助用户对数据仓库或数据集市进行联机分析或数据挖掘等。
2、数据仓库构建方法
2.1 普通数据仓库构建方法。对于普通数据仓库的构建,企业在对整个系统的建设综合各种因素的基础上,将整个项目的实施分阶段、分步骤实施,可以在每一阶段建设的基础上分阶段纳入不同的业务系统,逐步建立起一个综合的、专题较为完善的、适合部门、子单位使用的完整的数据仓库系统,从而才能使投资尽快获得收益。
在数据仓库的构建过程中,利用模糊数学可实现数据仓库内数据的语义表示,丰富数据加工的手段,提高分析处理的能力。数据仓库的构建,一般采取先构建数据集市,最后将各个数据集市整合在一起形成数据仓库的渐进模式;通过概念层、逻辑层、物理层建模,确定相关主题域的数据集市并对其进行联机分析处理。构建数据仓库模型一般采用以下几种:
2.1.1 星型模型:星型模型是最常用的数据仓库设计结构的实现模式。使数据仓库形成了一个集成系统,为用户提供分析服务对象。该模型的核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。[page] 2.1.2 星系模型(也称雪花模型):雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度表进行了规范化处理。同时也是对星型模型的扩展,每一个维度都可以向外连接到多个详细类别表。在实际应用中,用户的需求多种多样,数据来源可能为多个事实表,故可采用多个事实表共存,之间通过公用的维表相关联的星系模型,也称为事实星座。
2.1.3 原子级数据模型和汇总级数据模型并存:坚持原子级数据模型和汇总级数据模型并存,而且要尽可能地细化原子级数据。
2.1.4 设立代理键:代理键是维表中一些没有业务含义的字段,只是一个由数据仓库加载程序时建立的数字。
2.2 空间数据仓库构建方法。随着GIS(地理信息系统)在各行业的广泛应用,最初面向事务处理为主的空间数据库信息系统已不能满足需要,信息系统开始从管理转向决策处理,空间数据仓库就是为满足这种新的需求而提出的空间信息集成系统。尤其是地理信息决策支持系统中,空间数据仓库系统显得尤为重要。
空间数据仓库具有普通数据仓库的普遍特征,但其本身有一些特殊性。并且空间数据仓也并不是空间数据库的简单集合。与空间数据库比,空间数据仓除支持数据库外,还支持数据文件、文本文件、应用程序等众多数据源;另外空间数据仓库中的数据有时间数据、空间数据、属性数据及异构数据等多种数据;其次空间数据仓库中还包括了数据处理规则、算法等;再次空间数据仓库的数据是对原始数据进行加工、处理、集成等转换,是对数据的增值和统一;空间数据库还引入了时间纵的概念,它是以时间为基准来管理数据,可以截取不同时间尺度上的信息,从瞬态到区段时间直到全体,空间数据仓库是依赖于时间维的数据结构,它可以根据不同的需要划分不同的时间粒度等级,以便进行各种复杂的趋势分析。当然,不言而喻,它还包含了空间维的方位数据。正因为空间数据仓库与普通数据仓库的不同,并且它以空间数据仓库完全不是相同的概念,一般空间数据仓库以如下体系结构分为四大功能模块,分别是源数据、数据变换工具、空间数据仓库、客户端分析工具。源数据它不仅指那些常见的空间数据库,还包括文件、网页、知识库、遗留系统等各种数据源。数据变换工具与具有普通数据仓库数据变换相同的提取转换功能,但它还包括了特有的空间变换等。空间数据仓库以立体、多维的方式来组织和显示数据。但最基本的空间维和时间维是其反映客观世界动态变化的基础,空间数据仓库技术最关键要点也就是时间维和空间维数据组织方式。目前空间数据仓库已成为国、内外GIS(地理信息系统)研究的热点并取得了较大进展。要把空间信息融合进企业现有的数据仓库中,在原有系统不作较大改动的前提下,一般采用三种模式构建企业空间数据仓库:(1)把空间信息作为多维模型中的空间维引入;(2)把空间信息作为研究主题引入;(3)在维和度量中都包含空间信息。因此,计算并存储所有空间度量是不现实的。一般使用空间索引树(如R-tree)在最细空间粒度上构建分组层次,作为空间维的分层,每个空间维需要建立一棵空间索引树。
3、结束语
总之,数据仓库构建是数据仓库技术的关键,数据仓库技术是一项基于数据管理和利用的综合性技术和解决方案,尤其是现在空间数据仓库在GIS 中的广泛应用,它成为数据库市场的新一轮增长点,同时也成为下一代信息系统的重要组成部分。

  • 鏁版嵁浠撳簱-1銆佷粙缁嶃佷綋绯荤粨鏋勩佺壒鐐
    绛旓細鏁版嵁浠撳簱锛屽叏绉癉ata Warehouse锛岀畝鍐欎负DW鎴朌WH锛屾槸浼佷笟鍐崇瓥鏀寔浣撶郴鐨勬牳蹇冪粍鎴愰儴鍒嗐傚畠鐨勮癁鐢燂紝鏄负浜嗘眹鑱氬悇绫绘暟鎹紝褰㈡垚涓涓笓涓哄垎鏋愪笌鍐崇瓥鑰岃璁$殑鎴樼暐鎬ф暟鎹泦鍚堛傛暟鎹粨搴撴棬鍦ㄦ敮鎸佷紒涓氱殑涓氬姟鏅鸿兘锛屽姪鍔涙祦绋嬫敼杩涖佹椂闂淬佹垚鏈佽川閲忓拰鎺у埗绛夊叧閿鍩熺殑鐩戞帶涓庝紭鍖栥備綋绯荤粨鏋勶細鏋勫缓鍒嗘瀽鐨勬暟鎹珮閫熷叕璺 鏁版嵁浠撳簱...
  • 绠杩鏁版嵁浠撳簱鏋舵瀯涓昏鐢卞摢鍑犱釜閮ㄥ垎缁勬垚
    绛旓細鏁版嵁浠撳簱鏋舵瀯涓昏鐢辨暟鎹簮銆丒TL杩囩▼銆佹暟鎹粨搴撳拰鏁版嵁搴旂敤鍥涗釜鏍稿績閮ㄥ垎缁勬垚銆傞鍏堬紝鏁版嵁婧愭槸鏁版嵁浠撳簱鏋舵瀯鐨勮捣濮嬬偣銆傝繖浜涙暟鎹彲浠ユ潵鑷紒涓氱殑鍚勭涓氬姟绯荤粺鍜屽閮ㄦ暟鎹簮锛屽CRM绯荤粺銆丒RP绯荤粺銆佸競鍦烘暟鎹彁渚涘晢绛夈備緥濡傦紝涓涓數鍟嗗叕鍙哥殑鏁版嵁婧愬彲鑳藉寘鎷敤鎴疯喘涔拌褰曘佸簱瀛樹俊鎭佺敤鎴疯涓烘棩蹇楃瓑銆傝繖浜涙暟鎹槸鏋勫缓鏁版嵁浠撳簱...
  • 鏁版嵁浠撳簱涓轰粈涔堣鐢ㄤ簨瀹炶〃鍜岀淮搴﹁〃?
    绛旓細鎻鏁版嵁浠撳簱鐨鐏甸瓊鏋勫缓锛氫簨瀹炶〃涓庣淮搴﹁〃鐨勯瓟鍔 鍦ㄦ暟鎹粨搴撶殑涓栫晫閲岋紝鏁版嵁浠撳簱鐨勬牳蹇冩灦鏋勨斺旂淮搴﹀缓妯★紝鏄疪alph Kimball鏅烘収缁撴櫠鐨勪綋鐜帮紝浠栫殑钁椾綔銆婃暟鎹粨搴撳伐鍏风銆嬭瑾変负鏁版嵁浠撳簱璁捐鐨勫湥缁忋傜淮搴﹀缓妯′互鍏跺鍒嗘瀽闇姹傜殑鏁忛攼娲炲療鍜屽崜瓒婃ц兘锛屾垚涓烘暟鎹粨搴撹璁$殑涓绘祦鏂规硶璁恒備簨瀹炶〃锛屽鍚屾暟鎹粨搴撶殑蹇冭剰锛屽畠瀛樺偍...
  • 鐗╃悊妯″瀷纭畾鏁版嵁浠撳簱瀹炵幇鐨勭墿鐞嗘ā鍨
    绛旓細鍦鏋勫缓鏁版嵁浠撳簱鐨鐗╃悊妯″瀷杩囩▼涓紝鏈夊嚑涓叧閿楠ら渶瑕佽缁嗚冭檻:棣栧厛锛屾槸椤圭洰璧勬簮鐨勭‘瀹氥傚熀浜庨」鐩殑棰勭畻鍜屼笟鍔¢渶姹傦紝闇瑕佸鎴愭湰鍜屽懆鏈熻繘琛屼及绠椼傝繖鍖呮嫭瀵笶TL鍑芥暟鍔熻兘鐐圭殑鍒嗘瀽浠ュ強鑰冭檻椤圭洰澶嶆潅搴︾殑鍔犳潈锛岀粨鍚堜互寰椤圭洰缁忛獙鍜屼笓瀹惰瘎浼帮紝鍙互棰勪及鍑洪」鐩殑鎬讳綋鏃堕棿妗嗘灦銆備汉鍛樼殑浼扮畻鍒欒鑰冭檻宸ヤ綔缁忛獙銆佹妧鏈礌鍏讳互鍙婂鏂...
  • 鏁版嵁浠撳簱鐨妯″瀷璁捐涓,涓鑸噰鐢ㄧ鍑犺寖寮
    绛旓細浜屻佸湪鏁版嵁浠撳簱涓殑搴旂敤鍦烘櫙 1銆佸疄浣撳叧绯诲缓妯 鍦ㄦ瀯寤烘暟鎹粨搴撴椂锛屼娇鐢ㄧ涓夎寖寮忓彲浠ュ府鍔╂垜浠竻鏅板湴琛ㄧず瀹炰綋涔嬮棿鐨勫叧绯诲拰灞炴с傞氳繃灏嗗疄浣撳拰鍏崇郴鍒嗚В涓哄皬鐨勩佽嚜鎴戝寘鍚殑鏁版嵁闆嗭紝鍙互鏇村ソ鍦扮悊瑙f暟鎹殑缁撴瀯鍜屽叧绯伙紝骞朵负鍚庣画鐨勬暟鎹垎鏋愬拰鎸栨帢鎵撲笅鍩虹銆2銆佹暟鎹暣鍚堜笌闆嗘垚 鍦ㄤ紒涓氱骇鏁版嵁浠撳簱鐨勬瀯寤杩囩▼涓紝绗笁...
  • 鏁版嵁浠撳簱璁捐:鐜颁唬鍘熺悊涓鏂规硶鐩綍
    绛旓細绗2绔犳帰璁鏁版嵁浠撳簱绯荤粺鐨勭敓鍛藉懆鏈燂紝鍖呮嫭椋庨櫓璇勪及銆佽嚜涓婅屼笅涓庤嚜涓嬭屼笂鐨勮璁鏂规硶锛屼互鍙婃暟鎹泦甯傝璁¢樁娈电殑璇︾粏姝ラ锛屽鏁版嵁婧愬垎鏋愩侀渶姹傚垎鏋愬拰璁捐楠岃瘉绛夈傜郴缁熸柟娉曟灦鏋勫垯鎻愪緵浜嗘暟鎹┍鍔ㄣ侀渶姹傞┍鍔ㄥ拰娣峰悎鏂规硶鐨勪笉鍚屽満鏅傚湪绗3绔狅紝鏁版嵁婧愮殑鍒嗘瀽涓庡崗璋冩槸鍏抽敭鐜妭锛屾秹鍙婃ā寮忔鏌ャ侀泦鎴愰棶棰樿В鍐筹紝浠ュ強瀹氫箟鏄犲皠浠...
  • 鏁版嵁浠撳簱:鏁版嵁婧愮殑鏁村悎涓庡埄鐢
    绛旓細椹卞姩鍐崇瓥鏅烘収锛氭暟鎹粨搴撲腑鐨勬暟鎹垎鏋愯兘鍔涳紝鐘瑰鏄庣伅锛屽府鍔╀紒涓氭礊瀵熶笟鍔$幇鐘讹紝瑙e喅闅鹃锛屽埗瀹氭垬鐣ュ喅绛栥傚姪鍔涗笟鍔″垱鏂帮細澶栭儴鏁版嵁鐨勫紩鍏ワ紝浣夸紒涓氳兘澶熺揣璺熷競鍦烘浼愶紝娲炲療绔炰簤鎬佸娍锛屼负涓氬姟鎷撳睍鎻愪緵鏈夊姏鏀寔銆傛荤粨鏉ヨ锛屾暟鎹殑婧愬ご涓板瘜澶氭牱锛屾暟鎹粨搴撳垯鏄繖浜涙簮澶存眹鑱氱殑妗ユ銆傚湪鏁板瓧鍖栫殑浠婂ぉ锛屼紒涓氬繀椤绘帉鎻鏁版嵁浠撳簱鐨勬瀯...
  • 鏁版嵁鏁版嵁浠撳簱
    绛旓細鍙嶆槧鍘嗗彶锛屼繚瀛樹紒涓氬巻鍙蹭俊鎭紝渚夸簬鍘嗗彶瓒嬪娍鍒嗘瀽鍜岄娴嬨備紒涓鏋勫缓鏁版嵁浠撳簱鍩轰簬鐜版湁鐨勪笟鍔$郴缁熷拰澶ч噺鏁版嵁绉疮锛屽叾鐩爣鏄強鏃舵彁渚涗俊鎭粰鍐崇瓥鑰咃紝淇冧娇涓氬姟浼樺寲銆鏁版嵁浠撳簱鐨寤鸿鏄竴涓姩鎬佽繃绋嬶紝鑰岄潪闈欐鐨勭洰鏍囥傚悓鏃讹紝鏁版嵁搴撲綔涓哄熀纭锛屽叾鏈韩鍏锋湁鏁版嵁鍏变韩銆佸噺灏戝啑浣欍佺嫭绔嬫с侀泦涓帶鍒跺拰鏁版嵁涓鑷存х瓑鐗规с
  • 鏁版嵁浠撳簱鏄庝箞鍒嗗眰鐨?
    绛旓細鏈夋椂锛屼负浜嗘弧瓒崇壒瀹氫笟鍔¢渶姹傦紝杩樹細寮曞叆鏁版嵁闆嗗競灞傦紝瀹冩槸涓涓嫭绔嬬殑銆佷笓涓虹壒瀹氶鍩熷畾鍒剁殑鏁版嵁浠撳簱锛屼负璇ラ鍩熺殑鐢ㄦ埛鎻愪緵浜嗘洿楂樻晥鐨勬暟鎹闂拰鍒嗘瀽鑳藉姏銆鏁版嵁浠撳簱鐨鍒嗗眰璁捐锛屽氨鍍忎竴搴х簿瀵嗙殑閲戝瓧濉旓紝姣忎竴灞傞兘鍙戞尌鐫涓嶅彲鎴栫己鐨勪綔鐢紝鍏卞悓鏋勫缓鍑轰紒涓氭暟鎹殑鏅烘収濉斿熀銆傞氳繃鐞嗚В杩欎釜灞傛缁撴瀯锛屾垜浠兘鏇村ソ鍦板埄鐢ㄦ暟鎹...
  • 涓嬩竴浠鏁版嵁浠撳簱鐨鏋勬灦鍐呭绠浠
    绛旓細鍐呭浠ュ強瀹冨湪鏈潵鐨勫彂灞曡秼鍔裤傘奃W2.0銆嬫兜鐩栦簡骞挎硾鐨勮鑰呯兢浣擄紝鍖呮嫭浣嗕笉闄愪簬鏁版嵁浠撳簱鐨勪笟鍔″垎鏋愬笀銆佷俊鎭灦鏋勫笀銆佺郴缁熷紑鍙戜汉鍛樸侀」鐩粡鐞嗐佹暟鎹粨搴撴妧鏈笓瀹躲佹暟鎹簱绠$悊鍛樸佹暟鎹缓妯″笀鍜屾暟鎹鐞嗕汉鍛樸傛棤璁轰綘鏄摢涓鑹诧紝鍙浣犲鏁版嵁浠撳簱鐨勬瀯寤鍜屼紭鍖栨湁鍏磋叮锛岃繖鏈功閮藉皢涓轰綘鎻愪緵瀹濊吹鐨勬寚瀵煎拰鍚ず銆
  • 扩展阅读:数据仓储 ... 数据仓库有哪四个特点 ... 仓储问题点及改善建议 ... 生产问题点和改善方案 ... 数据仓库是面向主题的 ... 建设数据仓库的步骤 ... 仓管工作不足及改善 ... 仓库一般改善提案 ... 数据仓库是为什么服务的 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网