浅析GIS多源数据集成模式论文

2021-04-26 论文

  [摘要] 地理信息系统的迅速发展和广泛应用导致了空间数据多源性的产生,为数据综合利用和数据共享带来不便。本文探讨空间数据多源性的产生和表现,指出多数据格式是多源空间数据集成的瓶颈;分析和评价了多源空间数据集成的三种模式,并展望了多源数据集成的发展方向。

  一、多数据格式是多源空间数据集成的瓶颈

  1、空间数据多源性的产生和表现

  空间数据多源性的产生和表现主要可以概括为以下几个层次:

  (1)多语义性

  地理信息指的是地理系统中各种信息,由于地理系统的研究对象的多种类特点决定了地理信息的多语义性。对于同一个地理信息单元(feature),在现实世界中其几何特征是一致的,但是却对应着多种语义,如地理位置、海拔高度、气候、地貌、土壤等自然地理特征;同时也包括经济社会信息,如行政区界限、人口、产量等。一个GIS研究的决不会是一个孤立的地理语义,但不同系统解决问题的侧重点也有所不同,因而会存在语义分异问题。

  (2)多时空性和多尺度

  GIS数据具有很强的时空特性。一个GIS系统中的数据源既有同一时间不同空间的数据系列;也有同一空间不同时间序列的数据。不仅如此,GIS会根据系统需要而采用不同尺度对地理空间进行表达,不同的观察尺度具有不同的比例尺和不同的精度。GIS数据集成包括不同时空和不同尺度数据源的集成。

  (3)获取手段多源性

  获取地理空间的数据的方法有多种多样,包括来自现有系统、图表、遥感手段、GPS手段、统计调查、实地勘测等。这些不同手段获得的数据其存储格式及提取和处理手段都各不相同。

  (4)存储格式多源性

  GIS数据不仅表达空间实体(真实体或者虚拟实体)的位置和几何形状,同时也记录空间实体对应的属性,这就决定了GIS数据源包含有图形数据(又称空间数据)和属性数据两部分。图形数据又可以分为栅格格式和矢量格式两类。传统的GIS一般将属性数据放在关系数据库中,而将图形数据存放在专门的图形文件中。不同的GIS软件采取不同的文件存储格式。

  2、多源空间数据集成的迫切性

  随着Internet网络的飞速发展和普及,信息共享已经成为一种必然的要求。地理信息也不例外,随着信息技术以及GIS自身的发展,GIS已经从纯粹地学技术系统的圈子跳了出来,正和IT行业完全融合,人们对空间信息的需求也越来越多。GIS要进一步发展,必须完全融入大型MIS(管理信息系统)中。1998年美国副总统戈尔提出数字地球的概念,更是将地理信息技术推到了最前沿。然而地理信息要真正实现共享,必须解决地理信息数据多格式、多数据库集成等瓶颈问题。随着技术发展,GIS已经逐步走向完全以纯关系数据存储和管理空间数据的发展道路,这为GIS完全和MIS无缝集成迈出了重要的一步。但因为GIS处理的数据对象是空间对象,有很强的时空特性,获取数据的手段也复杂多样,这就形成多种格式的原始数据,再加上GIS应用系统很长一段时间处于以具体项目为中心孤立发展状态中,很多GIS软件都有自己的数据格式,这使得GIS的数据共享问题变得尤为突出。

  空间数据作为数据类型的一种,同普通数据一样需要走过从分散到统一的过程。在计算机的发展过程中,先是数据去适应系统,每一个系统都为倾向于拥有自己的数据格式;随着数据量的增多,数据库系统应运而生;随着时代的发展,信息共享的需求越来越多,不同数据库之间的数据交换成了瓶颈;SQL(标准结构化查询语言)以及ODBC的出现为这一难题提供了比较满意的解决方案。但是空间数据如何引进这种思想,或者说将空间数据也纳进标准组织和标准协议进行规范和管理,从而使空间数据共享成为现实。

  二、 GIS多源数据集成模式比较

  由于地理信息系统的图形数据格式各异,给信息共享带来了极大的不便,解决多格式数据源集成一直是近年来GIS应用系统开发中需要解决的重要问题。目前,实现多源数据集成的方式大致有三种,即:数据格式转换模式、数据互操作模式、直接数据访问模式。

  1 、数据格式转换模式

  格式转换模式是传统GIS 数据集成方法(图1)。在这种模式下,其他数据格式经专门的数据转换程序进行格式转换后,复制到当前系统中的数据库或文件中。这是目前GIS系统数据集成的主要办法。目前得到公认的几种重要的空间数据格式有:ESRI公司的Arc/Info Coverage、ArcShape Files、E00格式;AutoDesk的DXF格式和DWG格式;MapInfo的MIF格式;Intergraph的dgn格式等等。 数据转换模式主要存在的问题是:

  (1)由于缺乏对空间对象统一的描述方法,从而使得不同数据格式描述空间对象时采用的数据模型不同,因而转换后不能完全准确表达源数据的信息。

  (2)这种模式需要将数据统一起来,违背了数据分布和独立性的原则;如果数据来源是多个代理或企业单位,这种方法需要所有权的转让等问题。 美国国家空间数据协会(NSDI)确定制定了统一的空间数据格式规范SDTS(Spatial Data Transformation Standard),包括几何坐标、投影、拓扑关系、属性数据、数据字典,也包括栅格格式和矢量格式等不同的空间数据格式的转换标准。许多软件利用SDTS提供了标准的空间数据交换格式。目前,ESRI在ARC/INFO中提供了SDTSIMPORT以及SDTSEXPORT模块,Intergraph公司在MGE产品系列中也支持SDTS矢量格式。SDTS在一定程度上解决了不同数据格式之间缺乏统一的空间对象描述基础的问题。但SDTS目前还很不完善,还不能完全概括空间对象的不同描述方法,并且还不能统一为各个层次以及从不同应用领域为空间数据转换提供统一的标准;并且SDTS没有为数据的集中和分布式处理提供解决方案,所有的数据仍需要经过格式转换复制到系统中,不能自动同步更新。

  2 、数据互操作模式

  数据互操作模式是OpenGIS consortium (OGC) 制定的规范。OGC是为了发展开放式地理数据系统、研究地学空间信息标准化以及处理方法的一个非盈利组织。GIS互操作是指在异构数据库和分布计算的情况下,GIS用户在相互理解的基础上,能透明地获取所需的信息。OGC为数据互操作制定了统一的规范,从而使得一个系统同时支持不同的空间数据格式成为可能。根据OGC颁布的规范,可以把提供数据源的软件称为数据服务器(Data Servers),把使用数据的软件称为数据客户(Data Clients),数据客户使用某种数据的过程就是发出数据请求,由数据服务器提供服务的过程,其最终目的是使数据客户能读取任意数据服务器提供的空间数据。OGC规范基于OMG的CORBA、Microsoft的OLE/COM以及SQL等,为实现不同平台间服务器和客户端之间数据请求和服务提供了统一的协议。OGC规范正得到OMG和ISO的承认,从而逐渐成为一种国际标准,将被越来越多的GIS软件以及研究者所接受和采纳。目前,还没有商业化GIS软件完全支持这一规范。 数据互操作为多源数据集成提供了崭新的思路和规范。它将GIS带入了开放式的时代,从而为空间数据集中式管理和分布存储与共享提供了操作的依据。OGC标准将计算机软件领域的非空间数据处理标准成功地应用到空间数据上。但是OGC标准更多考虑到采用了OpenGIS协议的空间数据服务软件和空间数据客户软件,对于那些历史存在的大量非OpenGIS标准的空间数据格式的处理办法还缺乏标准的规范。而从目前来看,非OpenGIS标准的空间数据格式仍然占据已有数据的主体。

  数据互操作规范为多源数据集成带来了新的模式,但这一模式在应用中存在一定局限性:首先,为真正实现各种格式数据之间的互操作,需要每个每种格式的宿主软件都按照着统一的规范实现数据访问接口,在一定时期内还不现实;其次,一个软

  件访问其他软件的数据格式时是通过数据服务器实现的,这个数据服务器实际上就是被访问数据格式的宿主软件,也就是说,用户必须同时拥有这两个GIS软件,并且同时运行,才能完成数据互操作过程。

  3、直接数据访问模式

  顾名思义,直接数据访问指在一个GIS软件中实现对其他软件数据格式的直接访问,用户可以使用单个GIS软件存取多种数据格式。直接数据访问不仅避免了繁的数据转换,而且在一个GIS软件中访问某种软件的数据格式不要求用户拥有该数据格式的宿主软件,更不需要该软件运行。直接数据访问提供了一种更为经济实用的多源数据集成模式。

  目前使用直接数据访问模式实现多源数据集成的GIS软件主要有两个,即: Intergraph 推出的GeoMedia系列软件和中国科学院地理信息产业发展中心研制的'SuperMap。GeoMedia实现了对大多数GIS/CAD软件数据格式的直接访问,包括:MGE、Arc/Info、Frame、Oracle Spatial、SQL Server、Access MDB等(图2)。SuperMap 2.0则提供了存取SQL Server、Oracle Spatial、ESRI SDE、Access MDB、SuperMap SDB文件等的能力,在以后的版本中将逐步支持对Arc/Info Coverage、AutoCAD DWG、MicroStation DGN、ArcView等数据格式的直接访问。

  三、多源空间数据格式集成的展望

  1 、文件方式和数据库方式

  传统的空间数据往往采用文件方式,随着技术的进步,逐渐将属性数据移植到数据库平台上;随着技术发展,图形数据也可以和属性数据一起存放在关系数据库中。文件方式对数据管理安全性较差,存在着属性和图形分开管理的问题,不适合网络共享发展的需要;数据库方式则实现了空间数据和属性数据一体化存储和管理,便于开发两层、三层甚至多层网络应用系统。从发展趋势来看,纯关系数据库方案取代文件方案是发展的必然趋势,这也是IT发展的主流趋势。随着对信息量需求的增大以及信息需求种类增多,数据仓库的建立,将是GIS文件系统向数据库系统发展的主流。

  2 、OpenGIS、SDTS与DLG/F

  OpenGIS是目前的主流标准,但SDTS并不会停滞不前,相反笔者认为SDTS将会与OpenGIS走向一体化。SDTS 可以为OpenGIS提供一个转换和存取空间数据的标准,该标准是不依赖任何一种特定GIS软件格式的,该标准中利用头文件描述格式的方式使得数据服务者不必专门提供格式说明,而数据客户也不必专门学习该格式,只需读取SDTS头文件就可获得数据服务者提供的数据格式。笔者认为利用SDTS做数据标准,利用OGC作数据互操作的标准(例如空间SQL标准),简单地说就是如果说SDTS提供了数据格式的头文件,而OGC标准则提供了读写这个头文件的标准方法。如果再采用数据库作后台,利用空间数据引擎,空间数据引擎按照SDTS存取空间数据,按照OGC标准对客户软件提供操作接口,这将是空间数据集成的理想解决方案。 USGS还提供了一种称作DLG/F的标准,该标准设计了空间数据在数据库中的动态存储结构,利用该结构可以将拓扑关系动态记录下来,同时可以让用户添加自定义的空间数据类型。怎样利用DLG/F完善SDTS和OpenGIS也将是OpenGIS以及SDTS发展的方向。

  3 、统一空间实体编码

  多源空间数据据格式集成还有一个很重要的方面就是如何处理不同数据库对空间实体采用的编码方式不同的问题。从理论上来说,一个系统对同一空间实体的编码应该是唯一的,实际上由于不同领域从不同视角对同一空间实体编码并不一样,甚至会出现不同空间实体具有相同编码的情况,这些编码放在同一系统中,就会出现空间实体标识的严重问题。从目前来看,OpenGIS和SDTS都是基于地理特征(Feature)定义空间实体的,但都还不能真正提供一个通用的空间实体编码体系。

  参考文献

  1.On spatial database integration, Thomas Devogele ,Geographical Information Science, 1998,12(4)

  2.Issues and prospects for the next generation of the spatial data transfer standard (SDTS), DAVID ARCTUR, DAVID HAIR,GEORGE TIMSON, etc, Geographical Information Science, 1998,12(4)

  3.Towards integrated geographic information processing,DAVID J.ABEL, BENG CHIN COOI, KIAN-LEE TAN etc, Geographical Information Science, 1998,12(4)

  4.A framework for the integration of geographical information systems and modelbase management , DAVID A.BENNETT, Geographical Information Science, 1997,11(4)

  5. Overcoming the semantic and other barriers to GIS interoperability , YASER BISHR, Geographical Information Science, 1998,12(4)