一种可靠的数据仓库中!"#策略与架构设计
尤玉林
张宪民
(上海交通大学图像处理与模式识别研究所,上海!"""@")
&A-912:B2CB.0D;E50$730$=,
摘
要
作为数据仓库系统的关键部件,清洗、转换和装载的工作,它是构建数据仓库的重要环节,&’(完成数据抽取、
同时也是构建数据仓库过程中出现问题最多的环节,所以针对这点,该文给出了一个可靠的同时易于扩展的&’(策略和架构。文章首先简单地介绍了数据仓库技术和&’(技术,包括&’(的相关概念、&’(在数据仓库中的功能和重要地位;然后重点介绍了这种&’(的具体策略和架构设计。关键词
数据仓库
&’(数据抽取数据转换数据清洗数据装载
中图分类号’I@%%$%@
文章编号%""!AF@@%A(!""#)%"A"%G!A"@文献标识码H
$%&’()*’&+,-),&./)012&3(.045$-67(,&6,8-&45
!"#(02),)9)-&7483&
:48:8’(0;7)0.<()0=(0
(+,;515057.>+-947I:.=7;;1,4JI9557:,K7=.4,151.,,L69,4691M19.5.,4N,1O7:;15B,L69,4691!"""@")
$*3,-)6,:H;567P7B=.-Q.,7,51,5673959R9:76.0;7;B;57-,&’(;0QQ.:5;567Q:.=7;;1,49S.0539597<5:9=51,4,=279,1,4,5:9,;>.:-1,49,32.931,4$+51;.,7.>567-.;51-Q.:59,5;57Q;1,S01231,45673959R9:76.0;7,95567;9-751-7,567:79:792.5.>S04;9S.05&’(1,S01231,45673959R9:76.0;7$’.9O.1356.;7Q.57,5192S04;,561;Q9Q7:Q05;>.:R9:39:7219S279,379;12B31;57,;1S27;5:9574B9,39:=6157=50:7.>&’($’61;Q9Q7:S:17>2B1,5:.30=7;56757=6,.2.4B.>3959R9:76.0;79,3&’(,1,=2031,4567=.,=7Q5;:729573R1563959R9:76.0;79,3&’(,&’(T;>0,=51.,;9,35671-Q.:U59,52.=951.,1,3959R9:76.0;7;B;57-,9,3567,157-Q69;1V7;567375912;9S.05561;;5:9574B9,337;14,.>9:=6157=50:7.>&’($
>&/?4-13:3959R9:76.0;7,&’(,39597<5:9=5,39595:9,;>.:-,3959=279,,39592.931,4
%引言
作为数据仓库系统中最基本而且极为重要的一部分———
数据的准确性和一致性是一个成功的数据仓库必须具有的特点。因为数据仓库本身依赖于各个业务系统(数据源),同时灵活性也是一个成功数据仓库的关键。所以,如何有效地从源数据中把需要的数据加载到数据仓库中是至关重要的一步。
数据仓库的数据源一般是存储在异构数据库中的业务系统数据。根据业务需求,从这些数据库中抽取相关数据,并进行转换和清洗,然后同步或者异步的方式装载到数据仓库中。这是一个工作量巨大的作业,根据已有经验,这也是日常运作中问题最多也最为繁琐的部分,&’(就是完成这部分工作的。而且数据仓库中数据的质量是数据仓库项目成功与否的最主要判断标准,所以&’(部分的设计成为整个数据仓库系统设计中最重要的部分之一。
它是数据仓库的核心技术之一,它将为数据仓库提供高&’(,
质而准确的数据。
目前,国外关于数据仓库的定义很多,业界公认的数据仓库概念的形成是以被称为“数据仓库之父”的)$*$+,-.,出版一书为标志。该书对数据仓库《/01231,45678959)9:76.0;7》
作了这样的定义:数据仓库就是面向主题的、集成的、非易失的、随时间变化的数据集合。
但就数据仓库的实质来讲,它可以被视为一个存储了依据业务需求经过转换和清洗后数据的数据库。数据类别及子目取决于业务人员及决策者对信息的要求。存储的原则是易存、易取、易用而且有效(时间和空间)。
原始数据库,报一个数据仓库系统综合了多个部分(&’(,表生成)、与多个系统接口(用于数据交换),同时生成的结果供各个部门的业务人员和决策者使用。设计数据仓库的一般步骤如图%所示。
!&’(简介
、数据转换(以及数&’(是指数据抽取(&<5:9=5)’:9,;>.:-)据加载(,是构建数据仓库中极其重要的一环,其在数(.931,4)据仓库系统中的位置如图!所示。
!$%
图%
数据仓库设计一般步骤
&’(的功能
业务系统?外部&’(首先要做的是按业务需求从源数据(
数据等)中抽取(数据仓库所需要的数据;然后对抽取&<5:9=5)
作者简介:尤玉林(,男,硕士研究生,主要研究方向:数据仓库和数据挖掘。张宪民,男,硕士生导师,主要研究方向:模式识别,人工智能,视
%WGWA)
%G!!""#$%"计算机工程与应用