CN113609324A

CN113609324A - 基于光学字符识别的地理图片位置信息识别方法及***

Info

Publication number: CN113609324A
Application number: CN202110913963.0A
Authority: CN
Inventors: 刘晗; 傅洛伊; 王新兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-11-05
Anticipated expiration: 2041-08-10
Also published as: CN113609324B

Abstract

本发明提供了一种基于光学字符识别的地理图片位置信息识别方法及***，包括：从地学文献中抽取插图；对抽取的插图预处理，进而对图片光学字符识别，根据光学字符识别的结果对图片筛选出包含地理位置信息的图片；对包含地理位置信息的图片的光学字符识别的结果数据清洗，把含有经纬度信息的文本规格化，构建经纬度关系矩阵，判断出图片包含的经纬度位置信息；标注出图片中识别出的经线和纬线，在前端实时展现出来，支持根据反馈实时调整识别结果。本发明使用OCR技术，构建了经纬度关系矩阵，以较高的准确性实现了地学文献中地理图片位置信息的识别与抽取，使得地学的研究人员可以更为方便地检索和标记文献，并且支持交互来校正识别结果。

Description

基于光学字符识别的地理图片位置信息识别方法及***

技术领域

本发明涉及地理图片信息识别和抽取的技术领域，具体地，涉及一种基于光学字符识别技术的地理图片位置信息识别方法及***，尤其是，优选的涉及一种基于光学字符识别技术的地理图片位置信息识别和抽取***。

背景技术

随着科学技术的不断进步，作为知识载体的文献数量也飞速增加。具体到地学领域，大量增加的文献以及较传统的文献检索方式限制了地学科研人员的研究效率。具体来说，按文献研究的地理位置范围来检索论文，会比传统的按照标题、关键字、作者等信息来检索更加高效和实用。对于地学的研究人员来说，能批量处理一批文献，并快速得到它们研究的地理位置范围，将是非常重要的。目前已有的工具还不能做到高效地提取出文献中图片研究的地理位置范围，已有的文献检索工具也还不能支持按照研究的地理位置来检索图片。

现在已有的工具pdffigures、pdffigures2以及cermine等可以帮助我们快速地从pdf格式的文献中提取出图片，这可以方便我们后续对提取出来的图片进行分析和处理。

百度飞桨团队开源的OCR工具Paddle-OCR能够对中英文等多种文字进行OCR识别，但是识别的效果还不够理想。光学字符识别即ORC。

公开号为CN106776777A的中国发明专利文献公开了地理位置信息的识别方法、识别装置及终端，地理位置信息的识别方法包括：在接收到用户指定的目标图片时，提取目标图片的特征信息；获取终端当前所接入的无线接入点的唯一标识信息，并根据无线接入点的唯一标识信息，确定目标图片数据库，其中，目标图片数据库中包含有多张与地理位置信息相对应的图片；根据目标图片的特征信息，在目标图片数据库中查询与目标图片相匹配的图片，并将查找到的与目标图片相匹配的图片对应的地理位置信息作为目标图片对应的地理位置信息。

但发明人认为目前已有的工具还不能做到高效地提取出文献中图片研究的地理位置范围，已有的文献检索工具也还不能支持按照研究的地理位置来检索图片。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于光学字符识别的地理图片位置信息识别方法及***。

根据本发明提供的一种基于光学字符识别的地理图片位置信息识别方法，包括如下步骤：

图片抽取步骤：从地学文献中抽取出插图；

文本识别步骤：对抽取出的插图进行预处理工作，并对预处理后的图片进行光学字符识别，根据光学字符识别的结果对图片进行筛选，筛选出包含地理位置信息的图片；

经纬度抽取步骤：对包含地理位置信息的图片的光学字符识别的结果进行数据清洗，把含有经纬度信息的文本规格化，构建经纬度关系矩阵，初步判断出图片包含的经纬度位置信息；

可视呈现步骤：标注出图片中识别出的经线和纬线，在前端实时展现出来，并支持根据反馈实时调整识别结果。

优选的，所述图片抽取步骤包括如下步骤：

提取地学文献子步骤：从数据库获取地学文献的相关数据，地学文献的相关数据包括标题、ID和PDF文件；

抽取图片子步骤：使用图片抽取工具对PDF类型的地学文献进行图片抽取，抽取出地学文献中的插图。

优选的，所述文本识别步骤包括如下步骤：

图像预处理子步骤：将抽取出的插图进行光学字符识别前的预处理工作，所述预处理工作包括：对图片进行裁剪和将图片转换成灰度图片；

光学字符识别子步骤：使用识别工具对处理后的图片进行光学字符识别，将识别得到的结果以及图片信息存入json文件；

图片筛选子步骤：根据光学字符识别的结果和地理图片中经纬度位置信息的特征，对识别出来的图片进行筛选，筛选出含有地理位置信息的图片。

优选的，所述经纬度抽取步骤包括如下步骤：

文本筛选分类子步骤：对光学字符识别出来的文本进行筛选，筛选出包含地理位置信息的文本，并将包含地理位置信息的文本分为带经纬度信息的文本和带地名信息的文本；

数字规格化子步骤：将带经纬度信息的文本中的数字进行规格化处理，修正光学字符识别潜在的错误，将数字转换成统一的格式储存；

构建经纬度关系矩阵子步骤：将经过所述文本筛选分类子步骤和数字规格化子步骤处理之后的文本按照方位顺序进行排列，并根据处理之后的文本的位置关系和经纬度数值关系构建经纬度关系矩阵，获得经纬度信息。

优选的，所述可视呈现步骤包括如下步骤：

经纬度标识子步骤：将识别出来的经线和纬线标注出来，使用加粗和改颜色在原图中清晰地标示；

前端展示子步骤：在前端展示被标注了经纬度的地理图片，并且以列表的形式展示抽取到的表示地名的文本信息。

根据本发明提供的一种基于光学字符识别的地理图片位置信息识别***，包括如下模块：

图片抽取模块：从地学文献中抽取出插图；

文本识别模块：对抽取出的插图进行预处理工作，并对预处理后的图片进行光学字符识别，根据光学字符识别的结果对图片进行筛选，筛选出包含地理位置信息的图片；

经纬度抽取模块：对包含地理位置信息的图片的光学字符识别的结果进行数据清洗，把含有经纬度信息的文本规格化，构建经纬度关系矩阵，初步判断出图片包含的经纬度位置信息；

可视呈现模块：标注出图片中识别出的经线和纬线，在前端实时展现出来，并支持根据反馈实时调整识别结果。

优选的，所述图片抽取模块包括如下模块：

提取地学文献子模块：从数据库获取地学文献的相关数据，地学文献的相关数据包括标题、ID和PDF文件；

抽取图片子模块：使用图片抽取工具对PDF类型的地学文献进行图片抽取，抽取出地学文献中的插图。

优选的，所述文本识别模块包括如下模块：

图像预处理子模块：将抽取出的插图进行光学字符识别前的预处理工作，所述预处理工作包括：对图片进行裁剪和将图片转换成灰度图片；

光学字符识别子模块：使用识别工具对处理后的图片进行光学字符识别，将识别得到的结果以及图片信息存入json文件；

图片筛选子模块：根据光学字符识别的结果和地理图片中经纬度位置信息的特征，对识别出来的图片进行筛选，筛选出含有地理位置信息的图片。

优选的，所述经纬度抽取模块包括如下模块：

文本筛选分类子模块：对光学字符识别出来的文本进行筛选，筛选出包含地理位置信息的文本，并将包含地理位置信息的文本分为带经纬度信息的文本和带地名信息的文本；

数字规格化子模块：将带经纬度信息的文本中的数字进行规格化处理，修正光学字符识别潜在的错误，将数字转换成统一的格式储存；

构建经纬度关系矩阵子模块：将经过所述文本筛选分类子模块和数字规格化子模块处理之后的文本按照方位顺序进行排列，并根据处理之后的文本的位置关系和经纬度数值关系构建经纬度关系矩阵，获得经纬度信息。

优选的，所述可视呈现模块包括如下模块：

经纬度标识子模块：将识别出来的经线和纬线标注出来，使用加粗和改颜色在原图中清晰地标示；

前端展示子模块：在前端展示被标注了经纬度的地理图片，并且以列表的形式展示抽取到的表示地名的文本信息。

与现有技术相比，本发明具有如下的有益效果：

1、本发明对地理文献中提取的地理图片进行分析，高效地识别出地理图片中包含的地理位置信息；

2、本发明根据地理图片的特点，构建了经纬度关系矩阵，能较为准确地分析出地理图片中的经纬度信息；

3、本发明可扩展到地理文献检索***以及地理文献地理位置标注***等实际应用；

4、本发明将在使用Paddle-OCR识别的基础上，针对地理图片的特点，对OCR识别结果进行改进，从而达到更好的识别效果；本发明使用OCR技术，构建了经纬度关系矩阵，以较高的准确性实现了地学文献中地理图片位置信息的识别与抽取，使得地学的研究人员可以更为方便地检索和标记文献，并且支持交互来校正识别结果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明实施例公开了一种基于光学字符识别的地理图片位置信息识别方法，如图1所示，包括如下步骤：图片抽取步骤：从地学文献中抽取出插图。从PDF类型的地学文献中抽取出所有的插图。图片抽取步骤包括如下步骤：提取地学文献子步骤：从数据库获取地学文献的相关数据，地学文献的相关数据包括标题、ID和PDF文件。从数据库获取地学文献的相关数据，包括标题、ID、PDF文件等相关信息(如果提供了需要解析的文献，该子步骤可以省略)。抽取图片子步骤：使用图片抽取工具对PDF类型的地学文献进行图片抽取，抽取出地学文献中的插图。使用图片抽取工具对PDF类型的文献进行图片抽取，抽出文献中所有的配图。PDF英文全称为Portable Document Format，中文译文为可携带文档格式；ID英文全称为Identity document，中文译文为标识号。

文本识别步骤：对抽取出的插图进行预处理工作，并对预处理后的图片进行光学字符识别，根据光学字符识别的结果对图片进行筛选，筛选出包含地理位置信息的图片。对文献中抽取出来的插图进行预处理工作，并对这些处理后的图片进行光学字符识别(OCR)，根据OCR的结果对图片进行筛选，找出包含地理位置信息的图片。OCR英文全称为OpticalCharacter Recognition，中文译文为光学字符识别。

文本识别步骤包括如下步骤：图像预处理子步骤：将抽取出的插图进行光学字符识别前的预处理工作，预处理工作包括：对图片进行裁剪和将图片转换成灰度图片。将抽取出来的图片进行OCR前的预处理工作，具体包括：对图片进行裁剪、将图片转换成灰度图片等，以便于更好地进行OCR识别，提高OCR识别的准确率。光学字符识别子步骤：使用识别工具对处理后的图片进行光学字符识别，将识别得到的结果以及图片信息存入json文件。识别工具包括Paddle-OCR工具。使用Paddle-OCR工具对处理后的图片进行OCR识别，将识别得到的结果以及图片信息存入json文件。图片筛选子步骤：根据光学字符识别的结果和地理图片中经纬度位置信息的特征，对识别出来的图片进行筛选，筛选出含有地理位置信息的图片。根据OCR识别的结果和地理图片中经纬度等位置信息的特征，对识别出来的图片进行筛选，选出那些含有地理位置信息的图片。Paddle中文译文为飞浆。Json中文译文为数据。

经纬度抽取步骤：对包含地理位置信息的图片的光学字符识别的结果进行数据清洗，把含有经纬度信息的文本规格化，构建经纬度关系矩阵，初步判断出图片包含的经纬度位置信息。对包含地理位置信息的图片的OCR识别结果进行数据清洗，把可能含有经纬度信息的文本规格化，构建经纬度关系矩阵，初步判断出一张图片的包含的经纬度位置信息。

经纬度抽取步骤包括如下步骤：文本筛选分类子步骤：对光学字符识别出来的文本进行筛选，筛选出包含地理位置信息的文本，并将包含地理位置信息的文本分为带经纬度信息的文本和带地名信息的文本。对OCR识别出来的文本进行筛选，筛选出那些可能包含地理位置信息的文本，并将这些文本分为两类，一类是带经纬度信息的文本，一类是带地名信息的文本。数字规格化子步骤：将带经纬度信息的文本中的数字进行规格化处理，修正光学字符识别潜在的错误，将数字转换成统一的格式储存。将带经纬度信息的文本中的数字进行规格化处理，修正OCR潜在的错误，将数字转换成统一的格式储存。构建经纬度关系矩阵子步骤：将经过所述文本筛选分类子步骤和数字规格化子步骤处理之后的文本按照方位顺序进行排列，并根据处理之后的文本的位置关系和经纬度数值关系构建经纬度关系矩阵，获得经纬度信息。将文本筛选分类和数字规格化处理之后的文本按照方位顺序进行排列，并根据其位置关系和经纬度数值关系构建经纬度关系矩阵，找出所有经纬度信息。

可视呈现步骤：标注出图片中识别出的经线和纬线，在前端实时展现出来，并支持根据反馈实时调整识别结果。可视呈现步骤包括如下步骤：经纬度标识子步骤：将识别出来的经线和纬线标注出来，使用加粗和改颜色在原图中清晰地标示。将所有识别出来的经线和纬线标注出来，使用加粗、改颜色等方式在原图中清晰地标示。前端展示子步骤：在前端展示被标注了经纬度的地理图片，并且以列表的形式展示抽取到的表示地名的文本信息。在前端展示被标注了经纬度的地理图片，并且以列表的形式展示所有抽取到的表示地名的文本信息。

以地理学和地质学领域最常见的文献配图为例，本发明对地学领域文献中的图片进行抽取，并在处理后进行OCR识别，再对识别结果进行筛选和分析，分别得出表示经纬度的文本信息和表示地名的文本信息，构建经纬度关系矩阵，最终标注出文献中地理图片的经纬度线，列出图片中出现的地名，得出文献研究的地理位置范围。

本发明实施例还公开了一种基于光学字符识别技术的地理图片位置信息识别和提取方法，如图1所示，包括如下步骤：图片抽取步骤包括：从提供的PDF类型的地学文献中抽取出所有的插图，或直接从数据库中筛选出需要分析的地理文献，再提取其中的插图。

具体的：提取地学文献子步骤：从Acemap数据库中获取所需的地学领域的论文信息，包括标题、ID、PDF文件位置等。当论文的相关信息获取后，将PDF文件位置中的PDF类型的文献拷贝到一起，以备后用。

抽取图片子步骤：使用开源工具pdffigures2对提取地学文献子步骤中得到的PDF类型的论文进行图片提取，指定好待提取的pdf目录，以及将要存放提取结果的目录，识别类型设置为“figure”。Pdffigures中文译文为图片数据，figure中文译文为图片。

文本识别步骤包括：对文献中抽取出来的插图进行预处理工作，并对这些处理后的图片进行光学字符识别(OCR)，根据OCR的结果对图片进行筛选，找出包含地理位置信息的图片。

具体地：图像预处理子步骤：将抽取出来的图片进行OCR前的预处理工作，具体包括：对图片进行裁剪、将图片转换成灰度图片等，以便于更好地进行OCR识别，提高OCR识别的准确率。按照如下步骤进行：1、使用python(计算机编程语言)和pillow包将提取出来的图片的***加上一道宽20像素的边框，这将提升OCR的准确性。2、使用python和pillow包将图片从彩色转换为灰度，这也将提升OCR的准确性。3、将上述步骤处理后的图片存储在磁盘中。Pillow为python第三方图像处理库。

光学字符识别子步骤：使用Paddle-OCR工具对处理后的图片进行OCR识别，将识别得到的结果以及图片信息存入json文件。按照如下步骤进行：1、使用Paddle-OCR工具对图像预处理子步骤中存储的图片进行OCR识别。2、记录下所有被识别出文本的内容、置信度得分、位置等信息，记录下图片的尺寸信息。3、使用以下样式的json文件对识别结果和图片信息进行存储：

图片筛选子步骤：根据OCR识别的结果和地理图片中经纬度等位置信息的特征，对识别出来的图片进行筛选，选出那些含有地理位置信息的图片，具体步骤如下：1、在OCR识别过程中，对识别的结果进行记录。2、在一张图片中，带有度数符号“°”的文本以及同时带有数字和表示方向的字母的文本将被认定为包含经纬度信息的文本；如果一张图片中包含经纬度信息的文本小于等于3个，该图片及其识别结果将被丢弃；反之，该图片将被认定为可能包含地理位置信息的图片。

经纬度抽取步骤包括：对包含地理位置信息的图片的OCR识别结果进行数据清洗，把可能含有经纬度信息的文本规格化，构建经纬度关系矩阵，初步判断出一张图片的包含的经纬度位置信息。

具体地：文本筛选分类子步骤：对OCR识别出来的文本进行筛选，筛选出那些可能包含地理位置信息的文本，并将这些文本分为两类，一类是带经纬度信息的文本，一类是带地名信息的文本。具体方式如下：1、一般来说，表示地名的文本不会带有数字，而表示经纬度的文本会带有数字；因此，是否包含数字可以作为我们初步筛选，分类经纬度信息和地名信息的依据。2、对于包含数字的文本，我们将其加入可能含有经纬度信息的集合中。3、对于不包含数字的文本，我们将其加入可能含有地名信息的集合中。

数字规格化子步骤：将带经纬度信息的文本中的数字进行规格化处理，修正OCR潜在的错误，将数字转换成统一的格式储存。由于地理图片中对经纬度的表示方式各异，且OCR识别可能存在误差，因此需要对识别出来的数字进行规格化处理。具体步骤如下：1、纠正、排除掉OCR识别可能造成的错误，例如将数字0识别成字母o、将度数符号“°”识别成星号“*”等。在处理这类错误的时候，我们需将一连串数字中的字母“o”修改为数字“0”，将一连串数字中的“*”修改为“°”。2、统一数字格式。有的文献使用“0°-360°”的范围来表示经度，有的则使用“0°-180°”及字母的形式来表示。我们要把所有的经度和纬度统一改为正负数的形式来表示。具体来说：对于经度而言，0°-180°表示东经，-180°-0°表示西经；对于纬度而言，0°-90°表示北纬，-90°-0°表示南纬；对于赤道，统一使用0°来替换赤道的英文缩写“EQ”等形式。EQ英文全称为Equator，中文译文为赤道。

构建经纬度关系矩阵子步骤：将文本筛选分类和数字规格化处理之后的文本按照方位顺序进行排列，并根据其位置关系和经纬度数值关系构建经纬度关系矩阵，找出所有经纬度信息。具体步骤如下：1、将数字规格化子步骤规格化处理后的数字按方位排序，使用从左到右、从上到下的顺序排列。2、对于任意两个数字，根据第一数字的位置(x₁,y₁)和第二数字的位置(x₂,y₂)以及两个数字的经纬度值d₁和d₂计算经度关系值R_lo和纬度关系值R_la：

x₁表示第一数字的横坐标；y₁表示第一数字的纵坐标；x₂表示第二数字的横坐标；y₂表示第二数字的纵坐标。3、根据经纬度关系值构建经度关系矩阵和纬度关系矩阵。

4、通过对经纬度关系矩阵进行分析，得出经度集合和纬度集合，从而得到该图片表示的经纬度范围。

可视呈现步骤包括：标注出图片中识别出的经线和纬线，在前端实时展现出来，并支持根据反馈实时调整识别结果。

具体地：经纬度标识子步骤：将所有识别出来的经线和纬线标注出来，使用加粗、改颜色等方式在原图中清晰地标示。

前端展示子步骤：在前端展示被标注了经纬度的地理图片，并且以列表的形式展示所有抽取到的表示地名的文本信息。

首先，基于光学字符识别技术的地理图片位置信息识别与抽取***，可对地理文献中提取的地理图片进行分析，高效地识别出地理图片中包含的地理位置信息。其次，本发明根据地理图片的特点，构建了经纬度关系矩阵，能较为准确地分析出地理图片中的经纬度信息。最后，本发明可扩展到地理文献检索***以及地理文献地理位置标注***等实际应用。图中S表示步骤。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的***及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的***及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于光学字符识别的地理图片位置信息识别方法，其特征在于，包括如下步骤：

图片抽取步骤：从地学文献中抽取出插图；

2.根据权利要求1所述的基于光学字符识别的地理图片位置信息识别方法，其特征在于，所述图片抽取步骤包括如下步骤：

3.根据权利要求1所述的基于光学字符识别的地理图片位置信息识别方法，其特征在于，所述文本识别步骤包括如下步骤：

4.根据权利要求1所述的基于光学字符识别的地理图片位置信息识别方法，其特征在于，所述经纬度抽取步骤包括如下步骤：

5.根据权利要求1所述的基于光学字符识别的地理图片位置信息识别方法，其特征在于，所述可视呈现步骤包括如下步骤：

6.一种基于光学字符识别的地理图片位置信息识别***，其特征在于，包括如下模块：

图片抽取模块：从地学文献中抽取出插图；

7.根据权利要求6所述的基于光学字符识别的地理图片位置信息识别***，其特征在于，所述图片抽取模块包括如下模块：

8.根据权利要求6所述的基于光学字符识别的地理图片位置信息识别***，其特征在于，所述文本识别模块包括如下模块：

9.根据权利要求6所述的基于光学字符识别的地理图片位置信息识别***，其特征在于，所述经纬度抽取模块包括如下模块：

10.根据权利要求6所述的基于光学字符识别的地理图片位置信息识别***，其特征在于，所述可视呈现模块包括如下模块：