实现空间大数据快速处理及检索的方法
技术领域
本发明涉及空间大数据处理领域,特别是一种实现空间大数据快速处理及检索上图的方法。
背景技术
在现今信息时代,处于信息化智能化领域,我们发现每天生活中接触的信息量是极其庞大的,包含空间定位信息的地理空间数据也应用在非常多的领域,空间数据朝着不断膨胀与庞大化的方向发展着。随着地理信息***(GIS)的发展,社会信息化需求的日益兴旺,地理信息***软件必将处理越来越大范围内的大规模数据,海量空间数据高效的存储、检索、与空间分析操作一直都是GIS行业研究的热点与难点问题。为进一步提升海量空间数据的空间分析能力,为其提供理论储备和核心技术解决方案,本发明旨在从空间计算模式上,针对大规模空间数据,提出一套空间分析计算与存储、检索效率的解决方案。对空间数据物理存储、索引进行设计优化。解决大规模空间数据的空间分析效率问题。
空间分析是空间数据应用的灵魂,它提供了一系列数据操作功能,借助于这些功能,用户能够从原始数据中检索出某些实体数据,还可以进行空间量算,叠加分析,以及对各类实体的属性数据进行统计,网络分析等。
针对上述问题,本发明从以下几方面进行了研究:
(1)对线、面空间数据,根据其形态特征,对数据进行合法性和优化性处理。
(2)针对裁剪、叠加、缓冲区等空间分析操作在数据规模过大时某些低效率情况,分析归纳出不同数据形态的空间分析操作优化方案。
(3)研究空间数据的存储管理,从索引缓存、数据索引进行优化,提出优化方案并进行实现。通过研究索引缓存技术,以较低的代价扩大索引信息的数量,改善数据搜索效率。
发明内容
本发明所要解决的技术问题是提供一种具有良好的实用性、能够实现空间大数据快速处理及检索的方法。
本发明解决上述技术问题所采用的技术方案如下:
实现空间大数据快速处理及检索的方法,包括以下步骤:
S1.建立索引表、空间地图;
S2.从公安内部数据库中,分别将与索引表字段相同的元素导入到索引表中该字段下;
S3.通过SOLR索引集群,根据查询条件进行检索:
S31.对查询条件进行分词,以确定查询条件的数据形态;
S32.若查询条件为点形态的数据,则包括以下步骤:
S321.在空间地图上找到查询条件指向的坐标,并确定检索范围;
S322.以坐标为圆心,以检索范围为半径画圆,并对圆形范围内的摄像头进行遍历;
S323.获取落在圆形范围内的摄像头的经度、纬度信息;
S33.若查询条件为线和/或面形态的数据,则包括以下步骤:
S331.在空间地图上找到查询条件指向的位置范围,并确定检索范围;
S332.分别以位置范围内每一个坐标点为圆心,以检索范围为半径画圆,并对圆形范围内的摄像头进行遍历;
S333.若坐标点落在摄像头的范围内,则选择该摄像头;
S334.删除与已选择的摄像头重复的摄像头,获取摄像头的经度、纬度信息;
S4.基于S3的检索结果,将获得的经度、纬度信息在空间地图上显示。
本发明通过大数据处理框架,实现并行计算,快速创建索引;通过SOLR集群及缓存技术等,能够实现高效的读写。经测试,本发明在模糊检索和数据分析上能达到秒级的响应,大大提高千万级的空间数据的实时处理速度。
作为优选,空间地图的经度和纬度的精度分别为0.1度。其优点在于,精度足够用来定位,同时不会导致数据容量过大。
作为优选,检索范围为10米至1000米。其优点在于,若范围太大,则检索精度会降低;若范围太小,则检索效率会降低。
作为优选,S31中,分词的方法包括以下步骤:
S311.建立词库,作为对查询条件进行分词的依据;
S312.对查询条件按词进行拆分;
S313.将拆分后的词与词库中的词进行匹配,能够匹配的为分词结果,不能匹配的则舍弃。其优点在于,降低了对查询条件的格式要求,方便了用户使用,同时降低了查询难度,加快了查询速度。
作为优选,S2与S3之间还包括:S21.周期性对数据进行备份。其优点在于,由于数据量大,一旦丢失很难恢复,周期性进行备份,可以降低数据丢失的风险,保证了大数据处理的可靠性,提高数据的完整性和安全性。
作为优选,数据备份为物理备份或者云备份。其优点在于,物理备份具有更高的安全性;而云备份则具有更大的容量、更高的便捷性。
作为优选,采用SPARK计算分析处理,批量将数据读入、计算、写入索引表;空间数据来源为通过GIS工具处理或存储在关系型数据库中的数据。其优点在于,能够通过数据的批量处理,具有良好的并行运算能力,加快数据的处理速度,提高数据处理效率。
作为优选,S3中,查询条件为自然语言形态。其优点在于,降低了对查询条件的格式要求,具有更高的实用性和智能性。
作为优选,索引表为二维表。其优点在于,导入数据方便,具有良好的数据处理功能。
本发明同现有技术相比具有以下优点及效果:
1、通过完备的备份机制,本发明能够保证数据的完整性和安全性。
2、在本发明中,针对点、线、面空间数据的分析计算,采用SPARK计算集群,实现在线实时计算及离线计算,提供空间数据的实时请求服务。
3、本发明能够实现空间数据的全文、智能、快速检索。
4、本发明通过SOLR索引集群实现空间数据的存储,基于分词技术可快速、智能化的进行全文搜索。
5、本发明结合SPARK技术、SOLR集群及缓存技术、最短路径计算等,具有良好的并行运算能力,大大提高千万级的空间数据的实时处理速度,在公安行业中具有非常大的实用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图。
图2为本发明的索引创建路程示意图。
图3为本发明的数据分析、检索流程示意图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
实施例1:
如图1所示,本发明包括以下步骤:
S1.建立索引表、空间地图;
S2.从公安内部数据库中,分别将与索引表字段相同的元素导入到索引表中该字段下;
S21.周期性对数据进行备份;
S3.通过SOLR索引集群,根据查询条件进行检索:
S31.对查询条件进行分词,以确定查询条件的数据形态;
S311.建立词库,作为对查询条件进行分词的依据;
S312.对查询条件按词进行拆分;
S313.将拆分后的词与词库中的词进行匹配,能够匹配的为分词结果,不能匹配的则舍弃;
S32.若查询条件为点形态的数据,则包括以下步骤:
S321.在空间地图上找到查询条件指向的坐标,并确定检索范围;
S322.以坐标为圆心,以检索范围为半径画圆,并对圆形范围内的摄像头进行遍历;
S323.获取落在圆形范围内的摄像头的经度、纬度信息;
S33.若查询条件为线和/或面形态的数据,则包括以下步骤:
S331.在空间地图上找到查询条件指向的位置范围,并确定检索范围;
S332.分别以位置范围内每一个坐标点为圆心,以检索范围为半径画圆,并对圆形范围内的摄像头进行遍历;
S333.若坐标点落在摄像头的范围内,则选择该摄像头;
S334.删除与已选择的摄像头重复的摄像头,获取摄像头的经度、纬度信息;
S4.基于S3的检索结果,将获得的经度、纬度信息在空间地图上显示。
本发明所述的索引表为二维表,其标签包括:“数据仓库”、“主键”、“名称”、“地址”、“数据形态”、“经度”、“纬度”、“创建时间”、“图层编号1”、“图层编号2”、“索引状态”、“标签”、“支队”、“大队”、“中队”、“描述”、“辖区范围”、“道路类型”、“中心点坐标”等。
本发明所述的空间地图上以经度和纬度作为坐标,坐标之间的间隔可以根据实际情况设定,如在本实施例中,经度和纬度均以0.1度为间隔。
上述S3中,查询条件并不严格要求按照格式输入,也可以为自然语言,从而降低了本发明的使用难度,提高了本发明的实用性。
本发明采用SPARK计算分析处理,能够实现批量数据的读入、计算、写入索引表。
在本实施例中,在S2中,索引表中含有“数据形态”这一字段,因此,在导入空间数据的时候,需要对数据形态进行识别和分类,同时舍弃不符合数据格式的数据。
举例来说:
首先建立一张二维的索引表,设定所需字段,并采用现有的二维地图,然后从公安内部数据库中,根据索引表的字段,将与所需字段匹配的字段下的元素复制到索引表的该字段下,直到所有字段匹配完成。
检索时,若输入为“杭州市西湖区文二路40号”,则通过与词库中的“市”、“区”、“路”、“号”这些词可以确定该检索条件为点形态的数据,从而在空间地图上找到该点所对应的坐标,以该坐标为圆心,以50米检索范围为半径画圆,并对圆形范围内的摄像头进行遍历,获得摄像头所对应的经度和纬度信息。
本发明中,能够快速、稳定的从各地市抽取标准地址、POI以及相关业务信息,同时在抽取过程中快速地进行数据清洗(统一字段、去除重复等工作),且无需高端服务器去支撑日益庞大的数据信息。
如图2所示,本发明的索引创建路程主要包括数据读取、大数据批量计算、创建索引三部分。
本发明的空间数据来源主要为通过GIS工具处理的处理或存储在关系型数据库中的数据。
本发明通过大数据处理框架,实现并行计算,快速创建索引;通过SOLR集群及缓存技术等,实现高效的读写;通过完备的备份机制,保证数据的完整性,安全性。
如图3所示,本发明的数据分析、检索流程主要包括索引数据、大数据批量计算和应用服务三部分。
本发明针对点、线、面空间数据的分析计算,采用SPARK计算集群,支持在线实时计算及离线计算;同时能够实现空间数据的全文、智能、快速检索,提供空间数据的实时请求服务。
实施例2:
本实施例与实施例1相似,其不同之处仅在于,检索条件为线形态的数据:
若查询条件为线形态的数据,如“文二路”,则在于词库进行匹配之后可以确定为线形态的检索条件,那么首先在空间地图上描绘出文二路这一路线,并采用50米为检索范围;其次,分别以文二路上每个坐标点为圆心,以50米为半径,在形成的圆形范围中检索存在的摄像头,并遍历所有摄像头;然后,筛选出坐标点落在摄像头监控范围内的摄像头;最后,去除与已选的摄像头的重复的摄像头,获得能够监控的文二路的所有摄像头的经、纬度信息。
实施例3:
本实施例与实施例1相似,其不同之处仅在于,检索条件为面形态的数据:
若查询条件为面形态的数据,如“西湖区”,则在于词库进行匹配之后可以确定为面形态的检索条件,那么首先在空间地图上描绘出西湖区这一面状区域,并采用50米为检索范围;其次,分别以西湖区上每个坐标点为圆心,以50米为半径,在形成的圆形范围中检索存在的摄像头,并遍历所有摄像头;然后,筛选出坐标点落在摄像头监控范围内的摄像头;最后,去除与已选的摄像头的重复的摄像头,获得能够监控的西湖区的所有摄像头的经、纬度信息。
本发明同现有技术相比具有以下优点及效果:
1、本发明的并行计算能力强、速度快、稳定、分布式存储,安全可靠;同时支持结构化和非结构化数据、多数据来源、离线和实时计算。且数据抽取速度快而稳定、在线存储能力强大。
2、本发明支持多种文件格式的数据上传、支持以配置方式进行空间数据库里面的信息抽取、支持按类别和范围进行数据的下载,即个地市可以直接从平台选择文件上传到省厅;数据上传或抽取过来后直接通过平台计算、分析后到搜索平台提供服务,无需做整理、入库、配置查询等操作;各地市需要用到共享的数据可以直接通过平台以文件形式下载过去。
3、本发明的数据搜索速度快、并发量大,支持实时增量和自然语言的智能分析,保证了数据碰撞分析或空间分析时的快速和准确,采用标准的对外服务接口以及稳定的服务总线,保证了速度和稳定性。
此外,需要说明的是,本说明书中所描述的具体实施例,其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化,均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。