大咖谈∣张建英:基于唯一关联标识载体的时空大数据建设研究与实践-5657威尼斯
【编者按】为更好地服务地理信息产业高质量发展,武大吉奥精心策划《大咖谈》栏目。该栏目围绕智慧城市、自然资源、市域社会治理等领域,搜集和精编一系列前瞻理论及创新案例,干货满满,与您共享。
时空大数据是大数据的重要组成部分,也是其他各类大数据集成共享的基础。建设时空大数据为城市的精细化管理提供了条件,为决策者决策提供重要数据基础和决策支撑。作为全国新型智慧城市“标杆市”试点,嘉兴在时空大数据建设过程中遇到了哪些难点与痛点?本期小编与您一起分享,基于唯一关联标识载体的时空大数据建设研究与实践。更多精彩,就在这里!
引文格式:张建英,刘高.基于唯一关联标识载体的时空大数据建设研究与实践[j].测绘与空间地理信息,2018(8):163-165.
时空大数据是大数据与地理时空数据的融合,是以地球为对象,基于统一时空基准,活动于时空中与位置直接或间接相关联的大数据。时空大数据由于其所在空间的空间实体和空间现象在时间、空间和属性3个方面的固有特征,呈现出多维和语义、时空动态关联复杂等特性。
在中国快速城市化的过程中,随着城市规模的不断扩大,交通拥堵、环境污染等城市病逐渐凸显,城市规模越大,面临的城市病问题就越多,为了保障城市的健康运行和发展,加强城市精细化管理的需求日益迫切。建设时空大数据为城市的精细化管理提供了条件,更能够有效地集成各类的政治、经济、文化、社会、生态等领域的信息资源和数据库,为决策者决策提供重要数据基础和决策支撑。本文以智慧嘉兴时空信息云平台建设的一期工程——时空大数据建设为例,来阐述基于唯一关联标识载体的时空大数据建设思路。
城市时空大数据来源丰富,多元异构的数据形态使时空化改造和大数据建设困难重重。一方面,各部门对空间信息的需求差异显著,对业务运行过程中空间信息的表达方式各不相同;另一方面,测绘部门在提供空间载体信息时,针对性不强,产品品种单一、空间信息表达方式固定。差异的结果导致现行框架下城市大数据空间化难度较大,特别是城市大数据持续空间化难度大。因此,现阶段,城市时空大数据建设仍存在较多的问题,总结起来可以划分为3点: 1 城市大数据缺少有效载体; 2 载体划分不合理; 3 城市大数据时空化过程的“信息缺位”。
城市大数据的时空载体是地理实体。地理实体是指社会管理的最小单元。2001年《地名分类与类别代码编制规则》(gb/t18521-2001)中提及地理实体的概念,但现有标准中地理实体的概念和阐释并不清晰,对于建设地理实体的指导意义也比较有限。近年来,空间信息有统一于地理实体数据的趋势,蒋捷、薛存金、李景文、邬伦、于天星等均提出了各自的地理实体数据模型,但在地理实体的数据模型、空间表达、属性内容以及信息编码方式等方面,还存在很多不一致的思路和表述,缺乏成熟的地理实体数据模型。总体而言,目前现有的地理实体数据模型,一是不统一,二是不能作为社会经济活动的最小单元,无法作为城市大数据的有效载体。
时空信息载体首先面对的是载体本身的数据分类。载体可以语义和本体特征为依据进行划分。朱乔利研究了地理概念的本体属性来源和地理信息语义分类的形式概念分析方法,以及顾及地理信息领域的中文分词方法和本体属性自动标注与抽取方法。载体的粒度划分不当,或造成数据挂接比例不高;载体粒度划分程度不够,不能满足精细尺度的部门挂接需求;载体粒度划分不全面,不能涵盖城市中各个行业、多种设备产生的数据,最终导致时空信息的载体承载不了社会、经济等信息。
城市大数据的信息中,包含大量的空间信息,这些空间信息并不是以我们通常所见的坐标形式和地理图形形式存在,而是以地名、地址、方位描述等语义信息存在。这些信息在现阶段,不能够被计算机完全正确识别,因此得不到充分利用,城市地名地址描述不规范、采用历史的地名地址等情况普遍存在,造成计算机识别困难,不能很好地完成数据的空间化任务。总结来说,是因为在顶层设计时,没有把“地理资源”设计为计算机可以自动识别的“信息资源”,一旦没有人工的介入和干预,城市大数据时空化的进程就无法继续。
2016年7月,嘉兴市新型智慧城市建设全面启动。按照市委市政府统一部署,各部门与单位要在数据的开放、融合、共享、交换、互用等方面通力合作,填平数据的鸿沟,推倒信息的壁垒,最大限度地发挥数据在政府管理、城市治理、便民服务等方面的价值。时空大数据是智慧城市建设的基础,作为信息化三大基础设施之一的空间信息大数据,现阶段是以时空大数据的形式存在的。
为满足嘉兴市城市大数据的汇聚、融合、统计、分析、管理等需要,设计基于地理实体的唯一关联标识载体,编制《嘉兴市地理实体数据规范》和《嘉兴市地理实体数据生产规定》等规范文件,形成地理实体数据的数据模型、空间表达、属性内容、信息编码方式以及数据生产等细则规范。
1 地理实体的生命周期。确立地理实体的时空化改造方式,通过采集工艺流程的设计,为每一个历史地理实体添加最早的地形图制图时间标识和最晚(或法定)的消失时间标识,记录历史地理实体的产生、消亡情况,从而形成具有时间序列特性的地理实体数据库。
2 地理实体分类。地理实体数据的分类粒度以满足各部门间数据交换共享和各部门业务应用为目标,各部门可以直接应用为基本原则。地理实体数据在组织和分类上,嘉兴采用可扩展的数据分类体系,共划分了七大类,水系、建筑物、植被、院落、交通、境界与政区、管理和服务区域。特别是增加了扩展地理实体,扩展地理实体由地理信息生产部门及应用部门根据具体数据源及应用情况而定义并整合,但遵循地理实体概念数据模型,未来还可根据应用拓展情况增加相应种类数据。地理实体划分的粒度,遵循最大公约数原则,即政府各部门在应用中以能够满足最多数部门的共享共用为原则。
3 地理实体的唯一性。通过设计地理实体的标识码,确定每一个客观对象的唯一性。在历史的某一时刻,一个地理实体拥有一个或多个独立的地名或地址属性,这些属性成为地理实体语义上的唯一性体现,而在时空数据库建设中,添加标识码作为唯一关联标识码,标识码在数据共享交换中随数据的流转不发生改变。
1 基于唯一关联标识码的城市大数据空间化。城市大数据空间化过程中不产生空间信息,而是记录匹配的地理实体标识码。嘉兴市城市大数据空间化分为两个部分:一是通过地理实体与基础库人口库、法人库的匹配关联,在业务部门通过人口、法人库数据进行数据更新过程中,通过唯一标识码可以返回地理实体的空间位置信息;二是通过具有地名、地址等空间描述信息的专业部门数据进行空间化,如图1所示。
图1 城市大数据空间化流程
fig.1 urban big data spatialization process
2 城市大数据空间化成果。目前,嘉兴市新型智慧城市办公室城市大数据中心经过清洗筛查的原始数据共有8000余万条,其中近4000万条为人口库、法人库数据,通过地理实体对人口库、法人库中具有地址的数据条进行关联匹配,匹配率达70%以上;嘉兴市各个部门通过交换共享的方式接入的数据关联匹配率总计71.5%,见表1。
表1 嘉兴市城市大数据空间化率
另外,以嘉兴市嘉源水务集团的用水户信息进行地址清洗、匹配及分析为例,可以得到基于建筑物实体汇聚的用水户数量,基于用水户信息与居住小区实体的关联,进一步挖掘数据并分析可获知嘉兴市城区内各类居住小区的住房空置率情况。如表2、图2所示。
表2 2012---2016年间嘉兴市部分小区空置率
图2 2012---2016年间嘉兴市局部小区空置率变化曲线
fig. 2 curves of vacancy rates in local districts of jiaxing city from 2012 to 2016
时空大数据是时空数据与大数据的融合,强调大数据的空间化和时间化。嘉兴的实践为时空大数据的生产、维护提供了有益的尝试和探索,为城市大数据的时空化提供了一个可行的范例。随着众多政务专题信息统一关联到地理实体上,以唯一性的地理实体为载体的城市大数据展现了地理信息在城市信息资源整合方面的关键性桥梁纽带作用,建立了“数与数”的联系,为城市大数据分析挖掘和智能应用奠定基础。