王国业
1 引言 数据仓库是数据库技术中运用较多的技术之一,是当前研究的热点。数据仓库是一个面向主题的、集成的随时间变化的非易失性的数据集合,用于支持管理层的决策过程[1]。维、数据立方体构成了数据仓库中数据存储的基本要素。在数据仓库中,数据是按照维来组织的,决策者选择分析的因素就是维,因此,维是数据仓库中识别数据的索引。 现今数据仓库在技术层面已基本成熟,如何针对不同的行业特点,有效应用到实际中是数据仓库的发展趋势。报告显示,世界500强的企业中90%以上建立了数据仓库系统,并且取得了较好的商业利益,回报率达400%。在国内,一些大的企业也建立了数据仓库系统,如工商银行、建设银行等,钢铁企业,取得了很好的效果。数据仓库是支持管理进行科学决策非常有力的工具,将在更广泛的范围内得到应用。 2 现有GIS系统介绍及存在的问题 “数字地球”的概念的提出为新世纪空间科学、信息科学和地球科学的发展提供了崭新的的思路。时空集成化、网络化、虚拟现实是的三个突出特点。GIS是“数字地球”的重要组成部分,也是的进一步完善与发展“数字地球”的关键技术。 随着信息技术的飞速发展,基于七十至八十年代技术基础上的传统GIS系统正面临巨大的挑战[2]。一般而言,传统的GIS模型一般存在如下问题:GIS的属性数据和空间数据分离,两者之间仅是一种ID的联系,属性表与空间图形数据未建立相互的封装;一些扩充了时态属性、分布属性的空间逻辑模型与GIS核心结构难成一体;缺乏构造空间模型和关系模型的指导模型等。 除此之外,传统GIS在实际应用中也存在如下问题: 首先不同部门针对自己的需求而建立了各自独立的GIS应用系统,各部门间缺乏统一的组织,数据交叉且标准各异,即使是一个部门内可能由于组织关系或研究目的的不同,又有许多独立的GIS应用系统;其次专有的数据格式限制,现有的商用GIS系统都有自己的数据格式,且互不兼容,造成了许多历史遗留的问题,形成了人力、财力上的浪费,信息资源不能得到有效的利用;第三工具使用的艰难:目前各GIS软件的开发是基于传统模式的,其用户界面和二次开发工具使用较困难,用户必须得经过专业培训才能使用。 针对以上问题,数据仓库技术提供了很好的解决方案。庞大的、多维的、时态数据在数据仓库中可以得到很好的处理,在数据仓库中数据具有很好的兼容性,数据存储格式规范使得数据的利用率大为提高。这为新一代的GIS的发展注入了新的活力。 3 数据仓库技术在GIS系统中应用框架 为了克服传统GIS的缺陷,在GIS中引入数据仓库技术,这就是GIS数据仓库技术。GIS空间数据仓库是在数据仓库的基础上,引入空间维数据,根据主题从不同的GIS应用系统中截取从瞬态到区段直到全球地球系统的不同规模时空尺度上的信息,从而为当今的地学研究以及有关环境资源政策的制定提供最好的信息服务。 GIS数据仓库为了决策支持的需要,主要具有以下几方面功能特征:1 GIS数据仓库是面向主题的。GIS数据仓库的主要目标是为决策支持提供服务,信息的组织以业务工作的专题内容为主线;2 GIS数据仓库是集成的。GIS数据仓库是在各种面向应用的GIS系统基础上,进行集成以提取各种有用的数据;3 数据的变换。为了优化GIS数据仓库的分析性能,需要将现有的GIS数据进行适当的变换;4 时间序列的历史数据。为了进行趋势分析,要求数据必须具有时间的概念;5 空间序列的方位数据。空间数据仓库的数据要求具有空间维,能进行空间分析,以反映自然界的空间变化趋势。 根据以上特征,GIS数据仓库应用框架应包括以下几个部分(如图1所示): (1) 源数据。源数据是空间数据仓库的信息源,它一般包括GIS核心数据和附加的特定应用数据。GIS核心数据可以通过卫星影象、观测数据、扫描、数字化和现有的不同平台的数据等方式获得。这些数据构成了空间数据仓库的物质基础。可以知道源数据的结构建立直接影响着数据变换等数据仓库功能的实现,这也是实现整个GIS系统和数据仓库结合的关键所在,也是GIS数据仓库设计中的重点内容。 (2) 数据变换工具。源数据在输入数据库之前,必须经过适当的变换,将其投影到某一参考系统,进行地理编码和格式化。 (3) GIS数据仓库。源数据经过变换后进入GIS数据仓库,并按某一专题进行信息组织,其包括的信息量巨大。空间数据仓库采用多维技术来管理海量数据。 (4) 分析工具。空间数据仓库的目标是提供决策支持,它不仅仅是完成一般GIS的查询和分析功能,还需要供决策支持所需的功能强大的分析工具。 4 GIS数据仓库设计 要建立“数字地球”科学工程,新一代GIS必须具有以下特点:数据库中存储地理数据具有多源、多维、时态与大规模数据量的特点。可以接收多源数据包括遥感、图形、声音、视频和文本数据以及不同的数据格式;由于数据库中需要存储多源、多维、时态数据,使得GIS数据库异常庞大。所以要求新一代的GIS具有多维、海量数据的管理、组织能力;方便地在更大的信息系统中集成空间信息。 根据以上提到的GIS数据仓库源数据特征,在这里介绍数据仓库的设计。以某一个省为例,数据被划分为以下几个主要的主题: 1 生态 这个主题记录的是所有在整个省内的所有和生态有关的工程和资源。记录这些内容的目的是得到一些重要自然资源的信息,包括丘陵和沼泽,还有一些植树造林的工程等等。 额外的领土储量。 2土地资源 在这里所有的数据格式是根据政府部门的需求来记录的,可以根据以前和现在的利用情况和人口增长等因素对将来的发展进行一定的调整。这个主题描述较为复杂,在这里可能存在一些农村的区域,或者是一些城市区域。 3 学校 根据学校分区入学的制度在现今大部分城市,学生入那一所学校就读取决于家庭所在的城市区域,在某一区域内有制定的学校。包括记录学校的地点,设施,教育水平,师资力量等等。 4 废水处理 记录废水处理的相关数据,比如废水处理的场地,使用的技术,日处理废水能力,居民废水排放量,处理后水质的情况等等数据。 还有其他的主题如:历史古迹;历史古建筑;城市服务;城区;受保护树木等都记录一些相关的信息。在这里许多主题具有时间序列的特征,根据这些特征可以进行趋势分析;还有空间序列的方位数据可以反映自然界的空间变化趋势。 其中一些主题的特征和当前普遍的二元关系没有太大的差别,如学校主题里记录的相关属性如表1所示。某些主题的数据体现了时间和空间序列的特征,如在表二中显示的土地资源中地震记录的数据和活跃的中心都显示了这一特征。 表一 学校主题中的属性值和其代表的含义
表二 土地资源主题中的属性值和其代表的含义
可以看到在上面两个主题中有不同类型的数据,有几何类型的数据,还有一般类型的数据;其中许多涉及到生态主题,土地资源等主题的数据将是在不断变化的。可以将这些数据在GIS数据仓库系统中集中存储,并在这个基础上进行分析,提供决策服务,这在传统的GIS系统上是无法实现的。在这里本文将实验的范围是一个省,多源、多维、时态数据,使得GIS数据库庞大,GIS数据仓库系统在试验中表现出较好的伸缩性能。 5 结论 本文所讲述的GIS数据仓库系统注重在源数据收集和存储结构上,将一些扩充了时态属性、分布属性的空间逻辑模型与GIS核心结构一体。试验表明城市GIS数据仓库系统可以较好支持城市规划、建设等方面的综合查询与分析,为城市的规划建设提供决策支持。利用空间数据仓库技术是新一代GIS的发展方向。GIS真正要走向大众,必须利用现有数据仓库功能,与办公自动化和各种管理信息系统等完整结合,并在此基础上进行复杂的空间分析,反映自然界不同时空尺度下的动态变化趋势,以提供决策服务。目前我国已经建立了各种成熟的、大型的商用信息管理系统,怎样利用现有的属性信息以及在它们之中快速、无缝地集成空间信息,这些都是新一代的GIS数据仓库系统必须考虑和等待解决的问题。中国规划网北京10月3日电 |