CN110909732B

CN110909732B - 一种图中数据的自动提取方法

Info

Publication number: CN110909732B
Application number: CN201910972334.8A
Authority: CN
Inventors: 姚金良; 俞月伦; 胡创
Original assignee: Hangzhou Dianzi University Shangyu Science and Engineering Research Institute Co Ltd
Current assignee: Hangzhou Dianzi University Shangyu Science and Engineering Research Institute Co Ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2022-03-25
Anticipated expiration: 2039-10-14
Also published as: US11335081B2; US20210110194A1; CN110909732A

Abstract

本发明公开了一种图中数据的自动提取方法。方法的主要包括以下步骤：文本区域定位与文本框分类；坐标轴定位，以及坐标轴的刻度标记位置定位；图例的定位与信息提取；根据图例颜色提取对应的柱体或者折线连通分量，并进行过滤和分类；确定X轴关键点并定位每个关键点对应的X轴标签；根据X轴关键点定位柱体和折线的关键点，确定关键点对应的标注数值文本框，并进行数值识别；计算每个像素对应数值，并估计柱体或者折线关键点对应的数值；根据估计值与识别的标注数值之间的差距来确定最终结果。本发明方法能够应对水平布局的柱状图、折线和柱体混合的数据图、不含坐标轴的数据图等各种数据图类型。实验证明方法具有较高的准确率和精确度。

Description

一种图中数据的自动提取方法

技术领域

本发明属于计算机图像处理和模式识别领域，涉及一种图中数据的自动提取方法。

背景技术

柱状图、折线图等是一种更为直观的数据呈现方式，被广泛的用于各行各业中，特别是财经、科学研究、统计等行业。但是在日常工作中，有时需要引用他人制作的柱状图或者折线图中包含的数据用于自己的报告和文章中。由于无法获得原始数据，从图中获得其中包含的数据是一件比较困难的任务。一种简单的方式是通过直观的观察、估计、测量等手段获取数据。但是直观估计精确度较差，而且效率低下。如果有一种自动化的数据提取方法提高数据获取的效率和精确性将具有非常重要的应用价值。

当前获取柱状图和折线图中数据的方法是一种半自动的方法。该方法主要采用通过手工标注坐标轴上的最小值和最大值位置和对应的数值，以及柱子的高度位置、折线的关键点等信息来获得X轴特定位置上的数值。采用该类方法代表性的软件有国外开发的GetData和Engauge Digitizer。

柱状图和折线图是一种具有一定规则的数据呈现方式，但是在转换为图像形式的数据后。图像的本质是像素的集合，每个像素有RGB三个值，然后排列到不同的位置上。对图像进行分析主要采用图像处理方法，需要识别出柱体的外接矩形框、颜色，折线所在的位置等信息才能进一步的提取数据。

本发明中将柱状图，折线图，以及柱状图和折线图混合图统称为“数据图”，也就是有数据产生的各种图。数据图中涉及到各种标准的元素，主要包括：X轴、Y轴、刻度值、刻度线、刻度标记、X轴标签，X轴标签间隔、坐标轴、图例等标准元素。为了便于理解数据图中的各种元素，本说明书提供标注的样例图，见下图1。另外，柱状图中有柱体前景，折线图中有线状前景，各个柱体或者线的关键点上存在标注数值。这些数据图中的关键元素在特定情况下存在省略的情况，而且布局多变。主要表现为：Y轴可能存在两条，分别放置在左右；柱体可能存在横向放置的情况；图例可能放置在不同的地方；缺少Y轴刻度值。这些数据图中的元素也互相依赖，存在一定的位置关系。主要表现在：左Y轴刻度值肯定存在该Y轴的左边，右边Y轴的刻度值存在Y轴的右边；X轴标签存在X轴的下面；图例一般有实心的块、线或者点构成，而且同一个图例的不同部分颜色一致，而且图例的右边存在文本字符。

为了定位识别这些关键元素，需要采用图像处理和模式识别的相关技术和方法。但是如何实现图中数据的自动提取是亟需解决的技术问题。

发明内容

本发明的目的是针对现有技术只能采用半自动的数据提取这一效率低下问题，提供了一种数据图中数据的自动提取方法。

本发明方法主要采用深度学习方法来定位数据图中的文本框，并进行字符识别。然后按照一定顺序和规则提取各类其它元素，并通过元素之间的位置相关性来验证元素定位和识别是否正确。最后计算柱状图柱体和折线图上关键点的高度，并通过获取的坐标轴上每个像素对应数值来获取柱体或者折线关键点的估计值，并与识别的值进行比较，选择最优结果。

本发明具体采用的技术方案如下：

一种图中数据的自动提取方法，用于对柱状或折线形式数据图中的元素数据进行提取，其步骤如下：

S1：按照S11～S15的步骤，进行数据图中文本区域定位与文本框分类：

S11：获取待提取数据的数据图，采用深度学习方法来定位数据图中的所有文本框，并进行字符识别；

S12：统计数据图中每个X方向位置上存在的文本框的个数，得到一个X方向不同位置上文本框个数的数组；然后获取该数组中文本框个数的局部最大值和对应位置；接着比对该数组中X方向中间区域的平均文本框个数与所述局部最大值的差别，若在阈值范围内则认为局部最大值的对应位置存在Y轴刻度值文本框；最后，根据局部最大值的对应位置将该位置的所有文本框初步确认为Y轴刻度值文本框，得到Y轴刻度值文本框列表；

S13：以文本框间隔距离为过滤条件，采用噪声数据过滤方法对所述Y轴刻度值文本框列表进行文本框间隔距离的一致性判别，去除不满足间隔距离一致性要求的文本框；

S14：采用S12和S13的方法，同理获得X轴刻度值文本框列表；

S15：根据图题文本框的尺寸特征以及在数据图的位置分布特征，识别出图题文本框中的图题文字；

S2：按照S21～S22的步骤，对数据图中的坐标轴以及对坐标轴上的刻度标记位置进行定位：

S21：对数据图进行坐标轴定位，定位方法为：

首先，分别计算数据图的水平梯度和垂直梯度，根据水平梯度结果以及垂直梯度结果分别确定垂直和水平边缘像素；

然后统计每列连续的边缘像素数以及每行连续的边缘像素数，将连续的边缘像素数超过设定阈值的边缘像素列确定为候选Y坐标轴，将连续的边缘像素数超过设定阈值的边缘像素行确定为候选X坐标轴；

再后，合并行间距或列间距小于距离阈值的相邻候选坐标轴；

最后，根据候选坐标轴的位置与候选坐标轴刻度值文本框列表的位置关系，确定坐标轴和坐标轴刻度值文本框列表；

S22：依次对X坐标轴和Y坐标轴的刻度标记位置定位，每条坐标轴上的定位方法为：

首先，以坐标轴为中心截取坐标轴区域图像，区域图像在垂直坐标轴方向的宽度应当覆盖整条坐标轴以及坐标轴上的刻度标记；然后对坐标轴区域图像进行二值化，将坐标轴以及坐标轴上的刻度标记为前景；接着对二值化图像在垂直坐标轴的方向上进行逐行或逐列的前景像素计数；然后对计数得到的数组求得局部极大值作为候选刻度标记的位置；最后，采用所述的噪声数据过滤方法对获得的候选刻度标记位置进行过滤，得到每条坐标轴上实际的刻度标记；

S3：按照S31～S36的步骤，对数据图中的图例进行定位与信息提取：

S31：通过计算相邻像素颜色值的距离进行连通分量分析，找到数据图中所有颜色相近且连通的连通分量，并获取每个连通分量的颜色平均值作为该连通分量的颜色，同时统计该连通分量像素数和外接矩形框；

S32：以连通分量的高、宽、像素数、高宽比和紧致性为条件，通过阈值法对所有连通分量进行过滤，获得满足图例要求的候选图例；

S33：两两遍历所有可能的候选图例连通分量对，将颜色和高度符合一致性要求的两个连通分量组合为一个新候选图例；

S34：将数据图中位于数据区域上面、右边和下面的三个区域，分别进行S31～S33从而得到这三个区域中的所有候选图例，根据三个区域各自的候选图例的数量选择候选图例数量最多的区域中的候选图例，作为数据图的实际图例；

S35：根据图例的空间位置对获取的实际图例进行布局分析，确定该数据图中的图例是垂直布局、水平布局还是混合式的布局方式，并过滤掉布局位置不符合布局方式的图例；

S36：根据图例的布局方式，从数据图中查找每个图例对应的图例文本框，并识别获得每个图例文本框中的文字字符以及字符颜色；

S4：按照S41～S45的步骤，根据图例颜色提取对应的柱体或者折线连通分量，并进行过滤和分类：

S41：将背景颜色、文本中的字符颜色、图例颜色组合成一个不同颜色类别的颜色列表，然后遍历数据图中数据区域内的像素，计算每个像素的颜色与颜色列表中各颜色类别的颜色距离，将颜色距离最近的颜色类别标记作为像素的类别；

S42：对每个类别的像素进行连通分量分析，并通过阈值法对连通分量进行筛选过滤，得到数据区域中每个图例对应的连通分量集合；

S43：以连通分量的高、宽、像素数和紧致性为条件，通过阈值法对所有连通分量集合进行遍历，判断每个连通分量是否为柱体；如果存在柱体，则计算图中所有柱体高度的方差以及所有柱体宽度的方差，根据方差确定柱状图中的柱体属于水平布局还是垂直布局，然后计算柱体的柱宽；如果不存在柱体，则认为是折线图，折线图的布局方向类型为垂直布局；

S44：根据数据图的布局方向类型，识别每个图例对应的连通分量集合是柱体还是折线，同时确定数据图中的分类坐标轴和数值坐标轴；

S45：对识别为柱体的图例对应的所有连通分量，将柱体宽度符合S43中所述柱宽的柱体选择为该图例的候选柱体，然后对所有柱体的空间位置和距离进行分析，识别是否有被折线分割为两个连通分量的柱体，若有则将其重新组合为整体；

S5：根据数据图的布局方向类型，确定分类坐标轴关键点，并定位每个分类坐标轴关键点对应的分类坐标轴标签；

S6：根据分类坐标轴关键点定位柱体或折线上的数据关键点，确定每个数据关键点对应的标注数值文本框，并进行数值识别得到框内的标注数值；

S7：根据数值坐标轴计算数据图中单个像素对应数值，并估计柱体或者折线关键点对应的数值；

S8：针对数据图中的每个数据关键点，以估计数值对识别得到的标注数值进行误差校验，确定最终的数值结果。

作为优选，所述的噪声数据过滤方法为：

针对所有的待过滤数据，通过两两比较，找到一个过滤条件对应的数值差别最小的数据对，当这组数据点的数值差别满足误差要求时，计算该数据对的均值作为标准数值；然后将其他的待过滤数据逐个与该标准数值进行差值计算，过滤筛除超过差值阈值的数据。

作为优选，所述的S12步骤中，如果数据图的左右两边都存在Y轴刻度值文本框，则视为具有左右两条Y轴，得到左Y轴刻度值文本框列表和右Y轴刻度值文本框列表。

作为优选，所述S33步骤中，该新候选图例的外接矩形框为两个连通分量的外接矩形框，像素数为两个连通分量像素数之和，颜色为两个连通分量颜色的平均值。

作为优选，所述S41步骤中，如果数据图中不存在图例，则将数据区中颜色既不属于背景颜色也不属于字符颜色的像素作为一个前景类别。

作为优选，所述S44步骤中，确定数据图中的分类坐标轴和数值坐标轴的方法为：当数据图为垂直布局时，以X坐标轴为分类坐标轴，以Y坐标轴为数值坐标轴；当数据图为水平布局时，以Y坐标轴为分类坐标轴，以X坐标轴为数值坐标轴。

作为优选，所述S5的步骤如下：

S51：如果分类坐标轴上存在刻度标记，则根据获得的分类坐标轴上的刻度标记，将其按照位置依次进行排序；将相邻两个刻度标记的中间点作为分类坐标轴关键点；

S52：如果分类坐标轴上不存在刻度标记，则以分类坐标轴刻度值文本框的中间点作为分类坐标轴关键点；并采用所述噪声数据过滤方法对获得的分类坐标轴关键点进行过滤。

作为优选，所述S6的步骤如下：

S61：分别确定柱体或折线的数据关键点，其中垂直布局的柱体的数据关键点是柱体顶边的中间点，水平布局的柱体的数据关键点为柱体最右边的中间点，折线的数据关键点是所述分类坐标轴关键点垂直对应到折线上的数据点；

S62：根据每个数据关键点所处位置、数据图的布局方式、以及图中各文本框的位置，查找得到每个数据关键点所对应的标注数值文本框；

S63：识别每个标注数值文本框中的标注数值。

作为优选，所述S7的步骤如下：

S71：根据数值坐标轴上刻度标记与数值坐标轴上标注数值文本框的位置关系进行匹配，并识别数值坐标轴上标注数值文本框中的数值；

S72：针对数值坐标轴上任意两个相邻的刻度标记，根据两个刻度标记的间隔像素数和对应的标注数值文本框中数值的差，计算单个像素对应数值，所有计算得到的数值组成单个像素对应数值列表；

S73：采用所述的噪声数据过滤方法，过滤掉单个像素对应数值列表中的噪声；

S74：对经过噪声过滤后的单个像素对应数值列表计算平均值，作为最终单个像素对应数值的值M；

S75：根据得到的单个像素对应数值M和数据关键点的柱高H，计算得到每个数据关键点的估计数值，其中垂直布局的数据图中柱高H为数据关键点到X轴的距离，水平布局的数据图中柱高H为数据关键点到左Y轴的距离。

作为优选，所述S8的步骤如下：

针对数据图中的每个数据关键点，将其通过S63识别得到的标注数值与通过S75得到的估计数值进行对比，若在误差范围内则认为识别结果正确，用标注数值作为该关键点的数值，否则用估计数值作为该关键点的数值。

本发明相对于现有技术具有以下有益效果：

本发明可以全自动的提取数据图(柱状图和折线图)中蕴含数据。发明方法能适应大部分的柱状图、折线图，以及两者的混合数据图，识别准确率高、速度快；同时该方法可以直接将图中数据存储为Excel表格形式，其包括数据中的大部分信息，包括：图例、X轴标签、数据序列。

附图说明

图1为数据图中元素样例；

图2为本发明方法流程框图；

图3为输入的原始数据图；

图4为文本定位结果；

图5为文本框垂直投影结果；

图6为文本框的分类结果；

图7为候选Y坐标轴；

图8为Y轴刻度标记定位的过程；其中a)为截取的坐标轴，b为二值化结果，c)为前景像素水平投影的值，d)为定位的结果(圈位置)；

图9为图例定位结果(黑色矩形框)；

图10为定位的图例文本框(框的颜色代表属于哪个图例)；

图11为根据图例颜色提取前景像素的结果(前景颜色为对应的图例颜色)；

图12为定位X轴关键点(以小圈表示)；

图13为定位的柱体和折线关键点(以小圈标注)以及对应的标注数值文本框(通过图例颜色标注的矩形框颜色)；

图14为输入数据图和对应的输出结果样例。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

针对数据图(柱状图和折线图)中的蕴含数据的提取问题，本发明方法提出一种基于图像处理和识别的全自动数据图中数据提取方法。该方法能够有效地提取大部分常规的数据图中的数据。

本发明所采用的具体技术方案为：

一种数据图中数据的自动提取方法，其步骤如下：

(1)数据图中文本区域定位与文本框分类；

(2)坐标轴定位，以及坐标轴的刻度标记位置定位；

(3)图例的定位与信息提取；

(4)根据图例颜色提取对应的柱体或者折线连通分量，并进行过滤和分类；

(5)确定X轴关键点并定位每个关键点对应的X轴标签；

(6)根据X轴关键点定位柱体和折线的关键点，确定关键点对应的标注数值文本框，并进行数值识别；

(7)计算每个像素对应数值，并估计柱体或者折线关键点对应的数值；

(8)根据估计值与识别的标注数值之间的差距来确定最终结果，并进行保存；

上述8个步骤是不断地获得数据图中各种元素信息的过程，各个步骤相互依赖，比如：文本框定位是文本框分类的前提，同时也是后续各种数据识别的基础。以下详细说明各个步骤的内部流程。

1、数据图中文本区域定位与文本框分类

文本区域定位与文本框分类是指采用当前已有文本定位方法确定文本所在的矩形框；然后根据文本框的位置关系，以及与其它对象的关系实现对文本框进行分类。在本方法中，将文本框分为：Y轴刻度值文本框(左右两种)、X轴标签文本框、图题、标注数值文本框及其它文本框6种类型；在本方法中利用的文本框布局特性主要有：Y轴文本框在图像X方向的某个位置区域存在的文本框数量比中间位置区域多；X轴标签文本框在图像Y方向的某个位置区域存在的文本框数量比其它区域多；通过对文本框的水平和垂直投影可定位：Y轴文本框在图像X方向上的位置区域，X轴标签文本框在图像Y方向的位置区域。利用定位的Y轴和X轴位置确定Y轴文本框和X轴标签文本框。分类的具体过程如下：

在进行下一步之前，需要针对待提取数据的数据图，采用深度学习方法来定位数据图中的所有文本框，并进行字符识别。

1-1：获得所有文本框后，即可识别哪些是坐标轴刻度值文本框。由于Y轴刻度值文本框都分布在数据图的左右两侧，且在文本框的位置都在图像X方向一定的区间内，沿着垂直方向均匀的排列。因此，本方法采用垂直投影方法，也就是不考虑文本框垂直方向上的位置，统计图像每个X位置上存在的文本框的个数(也就是经过每个位置的垂线上的文本框个数)，由此得到一个文本框个数的数组，在该数组中记载了X方向不同位置上文本框个数；然后，对该数组获取局部最大值和位置，一个数组中会存在多个局部最大值，但是其中大部分的对应位置可能与坐标轴刻度值文本框位置不符，需要进行筛除。由于坐标轴一般位于数据图的两侧，中间位置不会有坐标轴，因此可以以数据图中间位置作为判断基准。本发明中接着比对所得的该数组中X方向中间区域的平均文本框个数与各局部最大值的差别，若差别大于给定阈值则认为存在Y轴刻度值文本框，否则不认为属于Y轴刻度值文本框。数组中X方向中间区域的大小可以根据需要调整，一般可以图表的正中间为基准，向两侧扩展一定百分比得到。最后，根据局部最大值的对应位置将该位置的所有文本框初步确认为Y轴刻度值文本框，得到Y轴刻度值文本框列表。

另外，如果左右两边都存在满足要求的最大值和位置，则会得到左Y轴刻度值文本框列表和右Y轴刻度值文本框列表。

1-2：为消除将图题、版权说明等文本框识别为Y轴刻度值文本框的错误，采用文本框间隔距离的一致性来进行判别，去除不满足间隔距离一致性要求的文本框。文本框间隔距离的一致性通过一个独立的方法(噪声数据过滤方法，通过下一步说明)实现，本步骤中文本框间隔距离为过滤条件。

1-3：噪声数据过滤方法是基于数组中的数大部分差距较小的，而部分数据相差较大这一认知进行的。其具体做法为：针对所有的待过滤数据，通过两两比较，找到一个过滤条件对应的数值差别最小的数据对，当这组数据点的数值差别满足误差要求时，计算该数据对的均值作为标准数值，不满足要求则认为不存在一致的数；然后将其他的待过滤数据逐个与该标准数值进行差值计算，该差值与标准数值的比作为衡量标准，用阈值进行过滤，过滤筛除超过差值阈值的数据。

其中，用来作为过滤条件的数据可以根据实际需要而定，例如1-2步骤中以文本框间隔距离为过滤条件，那么就需要计算相邻文本框之间的距离，其他条件数据同理。

1-4：类似1-1到1-3的步骤，采用水平投影方法获得X轴标签文本框列表。

其做法为将X和Y对调，即：

统计数据图中每个Y方向位置上存在的文本框的个数，得到一个不同Y方向位置上文本框个数的数组。每个Y方向位置上存在的文本框的个数，也可以做一条经过该位置的X方向的垂线，然后计算该垂线上的文本框个数获得。然后获取该数组中文本框个数的局部最大值和对应位置；接着比对该数组中Y方向中间区域的平均文本框个数与所述局部最大值的差别，若在阈值范围内则认为局部最大值的对应位置存在X轴刻度值文本框；最后，根据局部最大值的对应位置将该位置的所有文本框初步确认为X轴刻度值文本框，得到X轴刻度值文本框列表。然后通过经过1-3的噪声过滤，去除不符合的文本框。

1-5：根据图题文本框的尺寸特征以及在数据图的位置分布特征，识别出图题文本框中的图题文字。本发明中可以根据文本框的宽度、高度和是否在数据图的上面或者下面部分来识别图题。

2、坐标轴定位，以及坐标轴的刻度标记位置定位：

坐标轴定位，以及坐标轴的刻度标记位置定位是指确定Y坐标轴和X坐标轴所在的位置，并确定其对应的刻度值文本框列表，以及定位坐标轴上的刻度标记位置；具体步骤如下:

2-1：对数据图进行坐标轴定位，实现步骤如下：

2-1-1：分别计算图像的水平梯度和垂直梯度；

2-1-2：对水平梯度或者垂直梯度结果通过阈值确定边缘像素；

2-1-3：然后统计每列连续的边缘像素数(水平梯度结果)以及每行连续的边缘像素数(垂直梯度结果)，将连续的边缘像素数超过设定阈值的边缘像素列确定为候选Y坐标轴，将连续的边缘像素数超过设定阈值的边缘像素行确定为候选X坐标轴；

2-1-4：设置一个坐标轴之间的最小距离阈值，合并间距小于距离阈值的相邻的候选坐标轴，解决一条线会产生两条边缘线的问题；

2-1-5：根据候选坐标轴的位置与候选坐标轴刻度值文本框列表的位置关系，确定坐标轴和坐标轴刻度值文本框列表。此处，位置关系主要考虑左Y轴文本框在左Y坐标轴的左边，且高度一致；右Y轴文本框在右Y坐标轴的右边，且高度一致；X轴标签文本框在X轴的下面，且宽度一致。

2-2：对X坐标轴和Y坐标轴的刻度标记位置定位：

首先，以坐标轴为中心截取坐标轴区域图像，区域图像在垂直坐标轴方向的宽度应当覆盖整条坐标轴以及坐标轴上的刻度标记；然后对坐标轴区域图像进行二值化，将坐标轴以及坐标轴上的刻度标记为前景；接着对二值化图像在垂直坐标轴的方向上进行逐行或逐列的前景像素计数，具体是逐行还是逐列需要根据待定位的坐标轴而定；然后对计数得到的数组求得局部极大值作为候选刻度标记的位置；最后，采用前述1-3的噪声数据过滤方法对获得的候选刻度标记位置进行过滤，得到每条坐标轴上实际的刻度标记。

具体的做法可参见如下：

2-2-1：Y坐标轴刻度标记位置定位：首先，以Y坐标轴的X坐标为中心截取一定宽度的图像；然后进行二值化；接着对二值化的图像进行水平计数；然后，求得局部极大值作为候选刻度标记的位置。

2-2-2：X坐标轴刻度标记位置定位：首先，以X坐标轴的Y坐标为中心截取一定高度的图像；然后进行二值化；接着对二值化的图像进行垂直计数；然后，求得局部极大值作为候选刻度标记的位置。

2-2-3：采用步骤1-3的噪声数据过滤方法对获得的候选刻度标记位置进行过滤。

3、对数据图中的图例进行定位与信息提取

图例定位与信息提取包括图例连通分量的获取、过滤、组合、验证步骤，在定位图例后计算图例的颜色、图例对应的图例文本框并识别。具体来说包括以下几个步骤：

3-1：通过计算相邻像素颜色值的距离进行连通分量分析，找到数据图中所有颜色相近且连通的连通分量，并获取每个连通分量的颜色平均值(如RGB颜色平均值)作为该连通分量的颜色，同时统计该连通分量像素数和外接矩形框。

3-2：以连通分量的高、宽、像素数、高宽比和紧致性(紧致性＝连通分量像素数/连通分量外接框面积)为条件，通过阈值法对所有连通分量进行过滤，获得满足图例要求的候选图例。一般来说过滤时，任一过滤条件不符合的连通分量都应当被删除。

3-3：两两遍历所有可能的候选图例连通分量对，将颜色和高度符合一致性(即两个图例的颜色差异小于阈值，高度差异也小于阈值)要求的两个连通分量组合为一个新候选图例；

3-4：数据图的数据区域可以根据前述确定的X坐标轴和Y坐标轴框定，框定数据区域后，数据图中剩余区域可以数据区域为中心，分成上下左右四块。将数据图中位于数据区域上面、右边和下面的三个区域，分别进行S31～S33从而得到这三个区域中的所有候选图例，根据三个区域各自的候选图例的数量选择候选图例数量最多的区域中的候选图例，作为数据图的实际图例。

3-5：根据图例的空间位置对获取的实际图例进行布局分析，确定该数据图中的图例是垂直布局、水平布局还是混合式的布局方式，并过滤掉布局位置不符合布局方式的图例；

3-6：根据图例的布局方式，从数据图中查找每个图例对应的图例文本框，并识别获得每个图例文本框中的文字字符以及字符颜色。

4、根据图例颜色提取对应的柱体或者折线的连通分量并进行过滤和分类：

根据图例颜色提取对应的柱体或者折线的连通分量并进行过滤和分类是指通过图例的颜色获取数据图中颜色跟图例一致的连通分量，并通过阈值过滤掉一些噪声连通分量(比较小的)；然后通过长宽比、紧致性识别该图例对应的连通分量是柱体还是折线；最后获取柱体的位置、长宽等信息和折线的前景像素的位置信息。本方法通过图例的颜色和最近邻方法提取前景像素(柱体和折线的像素)。

具体来说包括以下几个步骤：

4-1：根据前面的步骤，可以得到图表的背景、文本中的字符、图例这几种图表元素，因此将背景颜色、文本中的字符颜色、图例颜色组合成一个颜色列表，然后遍历数据区域内的像素，根据与颜色列表中颜色距离最近的标记作为像素的类别。此处，如果数据图中不存在图例，则将数据区中的即非背景颜色也非字符颜色的像素提取作为一个前景类别。

4-2：对每个类别的像素进行连通分量分析，并通过阈值法对连通分量进行筛选，过滤掉像素小于阈值的连通分量，得到数据区域中每个图例对应的连通分量集合。

4-3：以连通分量的高、宽、像素数和紧致性为条件，通过阈值法对所有连通分量集合进行遍历，判断每个连通分量是否为柱体；如果存在柱体，则计算图中所有柱体高度的方差以及所有柱体宽度的方差，根据方差确定柱状图中的柱体属于水平布局还是垂直布局。由于同一图表中，柱体的柱宽通常是一样的，而长度会出现差异，因此通过方差可以反映该图中哪个方向为柱宽方向。然后计算柱体的柱宽(如果是水平放置的就是连通分量的高度平均值)。如果不存在柱体则认为是折线图，折线图是垂直布局的数据图；

4-4：根据数据图的布局方向类型(垂直布局或水平布局)，识别每个图例对应的连通分量集合是柱体还是折线，同时确定数据图中的分类坐标轴和数值坐标轴。确定数据图中的分类坐标轴和数值坐标轴的方法为：当数据图为垂直布局时，以X坐标轴为分类坐标轴，以Y坐标轴为数值坐标轴；当数据图为水平布局时，以Y坐标轴为分类坐标轴，以X坐标轴为数值坐标轴。

4-5：对识别为柱体的图例对应的所有连通分量，将柱体宽度符合S43中所述柱宽的柱体选择为该图例的候选柱体，然后对所有柱体的空间位置和距离进行分析，识别是否有被折线分割为两个连通分量的柱体，若有则将其重新组合为整体；

4-6：对识别为线的图例对应的所有连通分量，获取X轴对应上点序列，即X轴的每个位置垂直对应到折线上的数据点。若同一位置存在多个对应的数据点，则取一个代表点(例如平均点)，去除X轴对应的多余点。

5、确定X轴关键点并定位每个关键点对应的X轴标签：

本步骤具体来说包括以下几个步骤：

5-1：如果分类坐标轴上存在刻度标记，则根据获得的分类坐标轴上的刻度标记，将其按照位置依次进行排序；将相邻两个刻度标记的中间点作为分类坐标轴关键点；

5-2：如果分类坐标轴上不存在刻度标记，则以分类坐标轴刻度值文本框的中间点作为分类坐标轴关键点；并采用1-3步骤的噪声数据过滤方法对获得的分类坐标轴关键点进行过滤。

5-3：另外极端情况下，假如不存在刻度标记以及分类坐标轴标签文本框，并且图例的数量小于3，并且数据图中存在柱体，则通过柱***于分类坐标轴上的底边中间位置作为X轴的关键点位置。

6、根据X轴关键点定位柱体和折线的关键点，确定关键点对应的标注数值文本框，并进行数值识别。具体步骤如下：

6-1：分别确定柱体或折线的数据关键点，其中垂直布局的柱体的数据关键点是柱体顶边的中间点，水平布局的柱体的数据关键点为柱体最右边的中间点，折线的数据关键点是所述分类坐标轴关键点垂直对应到折线上的数据点；

6-2：根据每个数据关键点所处位置、数据图的布局方式、以及图中各文本框的位置，通过距离和设置阈值的方式，查找得到每个数据关键点所对应的标注数值文本框；

6-3：采用数字识别引擎识别每个标注数值文本框中的标注数值。

7、计算每个像素对应数值，并估计柱体或者折线关键点对应的数值：

计算每个像素对应数值，并估计柱体或者折线关键点对应的数值是指通过得到的Y轴刻度值文本框、Y轴刻度标记位置、柱体高度和对应文本框值估计每个像素对应的数值。在获得每个像素对应数值的基础上，根据获得坐标轴和关键点位置计算关键点的估计数值。本方法主要通过坐标轴刻度标记位置定位来实现每个像素对应数值的估计。具体来说包括以下几个步骤：

7-1：：根据数值坐标轴上刻度标记与数值坐标轴上标注数值文本框的位置关系进行匹配，并识别数值坐标轴上标注数值文本框中的数值；

7-2：针对数值坐标轴上任意两个相邻的刻度标记，根据两个刻度标记的间隔像素数和对应的标注数值文本框中数值的差，计算单个像素对应数值，所有计算得到的数值组成单个像素对应数值列表；

7-：采用所述的噪声数据过滤方法，过滤掉单个像素对应数值列表中的噪声；

7-4：对经过噪声过滤后的单个像素对应数值列表计算平均值，作为最终单个像素对应数值的值M；

7-5：根据得到的单个像素对应数值M和数据关键点的柱高H，计算得到每个数据关键点的估计数值，其中垂直布局的数据图中柱高H为数据关键点到X轴的距离，水平布局的数据图中柱高H为数据关键点到左Y轴的距离。

此处数值坐标轴需要根据图表的布局方式确定是X轴还是Y轴。

8、根据估计值与识别的标注数值之间的差距来确定最终结果并进行保存：

针对数据图中的每个数据关键点，将其通过6-3步骤识别得到的标注数值与通过7-5步骤得到的估计数值进行对比，若在误差范围内则认为识别结果正确，用标注数值作为该关键点的数值，否则用估计数值作为该关键点的数值。

具体而言，本步骤可以对柱子或折线的关键点得到的估计值(est_val)和通过关键点查找到的标注数值的识别结果(reco_val)进行误差估计，即error＝2*abs(est_val-reco_val)/(est_val+reco_val),如果error小于给定阈值，则认为识别结果正确，用标注数值的识别结果作为该关键点的数值，否则用估计数值作为该关键点的最终数值。

上述步骤最终识别得到的各种元素以及数值，可以保存到Excel表格中，以便于查看。下面将上述步骤1～8结合至具体实施例中进行展示，以便于本领域技术人员更好地理解本发明的实现。在下列实施例中，由于前述内容已经详细描述了各步骤，因此部分实现步骤和原理有所简写，主要展示其结果。

实施例

下面将参考方法流程图进一步介绍本发明的实施例。图1是数据图中各类关键元素的样例，便于理解说明书中各种元素的名称。图2是发明方法流程框图，表示了本发明各个步骤的关系及其流程，图3是输入的原始数据图，大小为：932*527。该图包括柱体和折线，采用垂直布局方式，有两个图例，存在左右两条Y轴和一条X轴。

针对该数据图，对图中数据进行自动提取的方法具体包括如下过程：

1.图像中文本区域的定位并对定位的文本框进行分类

在深度学习领域有很多文本检测方法，比如：EAST:An Efficient and AccurateScene Text Detector(https://arxiv.org/abs/1704.03155v2)。在本实施例中，文本区域定位采用CNN+LSTM模型的文本检测方法(Detecting Text in Natural Image withConnectionist Text Proposal Network，https://arxiv.org/abs/1609.03605)。本方法针对处理的数据图，采集了部分样例进行重新学习，获得的训练模型的检测效果如下图4所示。文本定位的准确率非常高，但是由于存在很多的线和类似文本的前景目标，也存在部分错误，包括定位的文本框和字符高度差距较大的问题。

在定位了文本框的位置后，需要确定文本框的类别，便于进一步的信息提取。对文本框进行分类主要是根据文本框的位置关系，以及与其它对象的关系。在本方法中，将文本框分为：Y轴刻度值文本框(左右两种)、X轴标签文本框、图题、标注数值文本框及其它文本框6种类型。Y轴刻度值文本框是垂直排列在一起，都分布在同一个水平位置区域内，而且个数较多。X轴标签文本框基本分布在同一个高度区域，也就是水平排列在一起，而且个数较多。而其它文本框依柱体或者折线的高度随机分布，没有一致性。因此，可以通过文本框的位置关系和分布规律来进行分类。分类的具体过程如下：

由于Y轴刻度值文本框都分布在数据图的左右两侧，且在文本框的位置都在图像X方向一定的区间内，沿着垂直方向均匀的排列。因此，本方法采用垂直投影方法，也就是不考虑文本框垂直方向上的位置，统计图像每个X位置上存在的文本框的个数，得到一个文本框个数的数组；然后，对该数组获取局部最大值和X位置。本实施例得到的垂直投影结果如下图5所示。其中Y轴是文本框的个数，X轴为图像的X位置[0，图像的宽度]。从中可以发现在[89,108],[177,192],[248,261],[415,425],[568,598],[601,668],[697,749],[818,893]这些水平位置上获得了极大值。

接着，根据局部最大值的位置将所有包括该极大值位置的文本框确认为Y轴刻度值文本框。也就是认为文本框的左边界小于极大值所在的位置并且右边界大于极大值所在的位置的文本框为Y轴数值文本框。接着，比对中间区域的垂直投影的最大值文本框个数与局部最大值的差别，差别大于给定阈值则认为存在Y轴刻度值文本框。在本图中，中间区域最大值为3，左边区域最大值为8(也就是8个文本框垂直排列在一起)，右边区域为10.通过与中间区域最大值比较，认为存在左右两个Y轴数值文本框。

为消除将图题、版权说明等文本框识别为Y轴刻度值文本框的错误，本方法采用文本框间隔距离的一致性来进行判别，去除不满足间隔距离一致性要求的文本框。文本框间隔距离为相邻文本框中心高度的差值。假设10个文本框可得到9个隔间。文本框间隔距离的一致性通过一个独立的方法(噪声数据过滤方法)实现。该方法是认为数组中的数存在大小差别较小的，而部分数据相差较大。具体来说：通过两两个比较，找到一个差别最小的数据对，并通过阈值判断差值是否满足要求，如果满足要求则计算该数据对的均值作为标准数值，不满足要求则认为不存在一致的数；然后，其它的数与该标准数值作差值，该差值与标准数值的比作为衡量标准，用阈值进行过滤。本实施例采用的阈值为0.1。

重复上面Y轴数值文本框的分类方法，只是修改为文本框的水平投影方法，也就是对文本框的个数投影到图像的Y方向上，获取局部最大值，并获得X轴标签文本框列表。经过文本框的分类获得的结果如下图6所示。左侧的框识别为左Y轴刻度值文本框，右侧的框识别为右Y轴刻度值文本框，底部的框识别为X轴标签文本框。

根据文本框的宽度、高度和是否在数据图的上面或者下面部分来识别图题。由于图题一般都具有较多的字符数，因此文本框的宽度也比其它文本框大；而且，图题的字体一般大于其它文本框中字体，对应图题文本框的高度要大于其它文本框。另外，图题一般分布在图的上面或者下面。因此，类似于Y轴刻度值文本框的分类，本方法将整个图等分为上中下3个部分，统计每个区域内文本框的高度最大值和宽度最大值。如果在图的上面部分或者下面部分存在的文本框的高度和宽度均大于中间文本框高度最大值加阈值和宽度最大值加阈值，则认为认为是一个图题文本框。

2.坐标轴定位，以及坐标轴的刻度标记位置定位

(1)坐标轴定位，并确定对应的刻度值文本框列表

坐标轴定位就是确定Y坐标轴和X坐标轴所在的位置，也就是要确定图像坐标系中线段的两个端点位置(x1,y1)和(x2,y2)。由于坐标轴只有垂直(Y轴)或者水平(X轴)放置，因此Y轴的两个端点的x1和x2相等，X轴的两个端点y1和y2相等。当前有很多的边缘检测方法可用于坐标轴的检测，比如：canny。由于数据图中的Y坐标轴是垂直的，从而可以确定边缘主要有水平方向上的梯度构成。而X轴是水平的，因此主要有垂直方向上的梯度构成。因此，本方法分别计算图像的水平梯度和垂直梯度；然后，对水平梯度或者垂直梯度结果通过阈值确定边缘像素；接着，统计每列(水平梯度结果)或者每行(垂直梯度结果)连续的边缘像素数，通过阈值确定为候选坐标轴；在本实施例中，Y轴的连续像素数阈值定义为图像高度*0.5，大于该阈值的为候选坐标轴。X轴的连续像素数阈值定义为图像宽度*0.5。在灰度化图像后，对水平或者垂直梯度大于15被认为是边缘像素。

由于一条坐标轴会产生两条边缘线，因此，本方法采用距离阈值将两条相邻的候选坐标轴合并为一条。如果是Y轴就判断两条候选坐标轴的x1坐标的差值是否小于给定阈值。如果是X轴就判断两条候选X轴的y1坐标的差值是否小于给定阈值。在本实施例中，设置阈值为5.如果确定有合并的坐标轴，则取中间值作为新的x1(Y坐标轴)或者新的y1(X坐标轴)。本实施例中，获得合并候选Y坐标轴的结果如下图7所示，显示的竖线为定位的候选Y坐标轴。

从获得的候选Y轴可以看到，柱体的边缘也被认为是Y轴了。因此，需要根据候选坐标轴的位置与候选坐标轴刻度值文本框列表的位置关系，确定坐标轴和坐标轴刻度值文本框列表；位置关系主要考虑左坐标轴文本框在左Y坐标轴的左边，且高度一致；右坐标轴刻度值文本框在右Y坐标轴的右边，且高度一致；X轴标签文本框在X轴的下面，且宽度一致。经过与坐标轴刻度值文本框的之间的位置约束关系可以很好的去除噪声坐标轴。

(2)坐标轴的刻度标记位置定位

坐标轴刻度标记是指坐标轴上的小黑点。其位置的定位主要用于计算每个像素对应的数值。本实施例以Y坐标轴的刻度标记位置定位为例。X坐标轴上刻度标记位置定位类似于Y坐标轴。

首先，以Y坐标轴((x1,y1),(x2,y2))的x1为中心截取15个像素宽度，高度为[y1,y2]的图像；然后进行二值化；因为刻度标记是一个突出点，该位置有较多的前景像素，因此，通过对二值化的图像进行水平计数；然后，求得局部极大值作为候选刻度标记的位置。最后采用噪声数据过滤方法对获得的候选刻度标记位置进行过滤。计算的中间结果如下图8所示。从左到右的图分别为：截取的坐标轴图、坐标轴二值化的结果、前景像素水平投影的结果、定位的结果图。

X坐标轴刻度标记位置定位，类似于Y轴刻度标记位置定位。只是以X坐标轴的Y坐标(y1)为中心截取一定高度的图像；然后进行二值化；接着对二值化的图像进行垂直计数；然后，求得局部极大值作为候选刻度标记的位置。最后采用噪声数据过滤方法对获得的候选刻度标记位置进行过滤。

3.图例定位与信息提取

图例定位与信息提取主要包括图例连通分量的获取、过滤、组合、验证步骤，在定位图例后计算图例的颜色、图例对应的图例文本框并识别。具体来说包括以下几个步骤：

(1)通过计算相邻像素颜色值的距离进行连通分量分析。该过程是指采用4连通计算相邻像素颜值的距离。本实施例采用的两种颜色(r1,g1,b1)和(r2,g2,b2)的距离公式为：distance＝abs(r1-r2)+abs(b1-b2)+abs(g1-g2)。如果距离小于给定阈值则认为是连通的。通过不断地迭代找到颜色相近且连通的连通分量。在标记了某个连通分量后，则获得该连通分量的RGB颜色的平均值作为该连通分量的颜色，并统计该连通分量像素数和外接矩形框；

(2)对获得的连通分量根据长、宽、像素数、长宽比、紧致性进行过滤；主要采用阈值，过滤最不可能是图例的连通分量。本实施例定义的阈值为：像素数>16且宽度>1且高度<宽度*1.5且宽度<图像宽度*0.2且像素数/(宽度*高度)>0.85。同时满足这些条件的连通分量被作为候选图例。

(3)由于图例有可能是采用多个连通分量来表示的，因此，需要将多个连通分量组合为一个图例。这里假设同一个图例的连同分量颜色和高度是一致的；遍历所有可能的候选图例连通分量对，如果颜色距离小于给定阈值，且两个连通分量的中心高度小于给定阈值，则认为这两连通分量可以组合。组合后的连通分量就是一个新图例，该新图例的外接矩形框为两个连通分量的外接矩形框、像素数为两个连通分量像素数的和，颜色为两个连通分量颜色的平均值。

(4)为了消除图中柱体和折线的影响，并且大部分的图例都分布在图的上面区域、右侧区域或者下面区域三个区域内。因此，方法只对图的上面区域、右边区域和下面区域分别进行上面三个步骤的图例提取。因为图例大部分被放置在三个区域中的一个，因此方法根据每个区域得到的图例的数量选择整个数据图的图例；某个区域的图例数量最多被人是正确的定位的图例。下图9为上面区域得到的图例结果,用黑色框标注的区域。其中左侧图例的外接矩形框(left,top,right,bottom)、颜色(BGR表示)、像素数分别为[183,61,258,78],[150,64,2],2589；右侧图例的外接矩形框、颜色、像素数分别为[525,70,595,73],[192,192,192],492。

(5)由于图例数量一般多于一个，多个图例存在固定的分布模式，主要存在三种模式：垂直布局、水平布局、混合式。对图例的布局进行确认可用于过滤布局位置不一致的图例，也有助于查找图例对应的文本框。图例布局模式的确认主要过程为：通过两两比较，将高度差小于给定阈值的图例放入同一个数组中，遍历所有的图例。得到不同高度的图例数组的列表。如果列表中只有一个数组，则认为是水平布局的；如果存在多个数组，而且每个数组中包含多个图例，则认为是混合式布局模式；如果列表中的数组只有一个图例，则认为是垂直布局模式。在本实施例中，输入图像的图例被识别为水平布局模式。在确定图例布局模式后，如果是混合布局或者垂直布局，则通过阈值来确认两个不同行的图例之间的高度需要满足一个给定阈值。用于去除一些特殊的字符连通分量(比如：一)被认为是图例的情况。

(6)根据图例的布局方式，查找对应的图例文本框。图例对应的文本框一般都在图例的右侧，并且处于同一个高度上。简单的方法可以根据图例的位置查找右侧区域内的文本框即可。由于图例很多是一条带颜色的线，很容易被文本定位为文本框的一部分，因此，需要将图例和图例对应的文本框重新进行分割。本方法通过判断图例的外接框是否跟文本框相交来判断是否需要进行重新文本框。如果相交，则根据图例的外接框的左边界和右边界将文本框分割为两个部分。如果某个部分比较窄，则认为不是有效的文本框。在检测完图例对应的文本框后，对文本框通过中文识别引擎识别其中的字符。本实施例输入得到的图例文本框为如下图10所示(文本框的颜色是对应的图例颜色)。识别结果分别为：“履行费用(百万元)”和“占运营费用比伤”。将“例”识别为“伤”主要是文本定位不准确。

4.根据图例提取对应的柱体或者折线的连通分量并进行过滤和分类

通过图例的颜色获取数据图中颜色跟图例一致的连通分量，并通过阈值过滤掉一些噪声连通分量(比较小的)；然后通过长宽比、紧致性识别该图例对应的连通分量是柱体还是折线；最后获取柱体的位置、长宽等信息和折线的前景像素的位置信息。具体来说包括以下几个步骤：

(1)前景像素的提取

前景像素就是图像中代表柱体或者折线的像素。为了提取柱体或者折线的连通分量，首先需要根据颜色提取图像中的前景像素。前景像素的提取可以采用阈值方法。由于存在多个不同颜色的前景，而且存在不同类别的前景像素颜色较一致的现象，本方法采用最近邻方法。该方法将背景颜色、文本中的字符颜色，以及图例的颜色组合成一个颜色列表；然后遍历数据区域内的像素，根据与颜色列表中颜色距离最近的标记作为像素的类别；如果不存在图例，则将数据区中的非背景颜色和非字符颜色作为一个前景类别。在图例提取的基础上，本实施例通过最近邻方法到的前景像素结果如下图所示，其中黑色像素为非前景像素。从中可以发现很多字符边缘的像素被识别为前景。这主要是因为前景像素是灰色(192,192,192),而字符的边缘因为图像压缩等造成边缘的模糊，颜色变得与(192,192,192)更为接近。

(2)对每个类别的像素进行连通分量分析得到所有图例对应的连通分量集合。这里类别是对应图例的。由于边缘像素被识别为前景所构成的连通分量一般像素数量比较少，因此，本方法通过连通分量的像素数是否满足阈值要求进行过滤。该阈值设置为30。

(3)由于柱体一般比较宽、像素比较多、高度比较高、紧致性(像素数/(外接框面积)也非常大，采用阈值法对连通分量集合中的所有连通分量的像素数、长宽、紧致性来判断是否是柱体；如果存在柱体，计算高度和宽度的方差，根据高度方差和宽度方差的大小确定是水平布局的柱状图还是垂直布局的柱状图；然后计算柱体的宽度，如果是水平放置的就计算柱体连通分量的高度平均值，如果是垂直放置就技术柱体连通分量的宽度平均值。如果不存在柱体则认为是折线图，折线图是垂直布局的数据图。从而确定了数据图是水平放置类型还是垂直放置类型。

(4)根据数据图的放置类型(水平还是垂直)，对每个图例对应的连通分量列表识别是柱体还是折线；由于一些数据图中混合这个柱体和折线两种形式，因此需要确定图例对应的连通分量列表是柱体还是折线。如果存在柱体，步骤(4)已经获得了柱体的平均宽度。本方法假设所有柱体的宽度是一致的。因此可以通过返回柱体的宽度并联合阈值来确定某个图例对应的连通分量列表中满足阈值要求的柱体数量。如果柱体数量大于2，则认为整个连通分量列表都为柱体，否则为线的连通分量。

(5)对识别为柱体的图例对应的所有连通分量，通过柱体宽度选择得到的候选柱体，然后根据位置和距离进行组合，消除主题被折线分割的影响。上图11中第3个柱子被线分割成了两个连通分量。该步骤就根据两个柱体在同一个水平方向的位置上，因此将其组合成一个新的柱体。新的柱体连通分量的像素数是两者的和，外接矩形框的top值为上面柱体的top值，外接矩形框的bottom值为下面柱体的bottom值。

(6)对识别为线的图例对应的所有连通分量，获取图像X轴对应点序列，去除X轴对应的多余点；因为噪声的存在，以及线比较粗，在图像坐标***中，某些x位置上可能存在多个线的前景像素点。本步骤就是去除多余的点。方法只是简单地遍历每个图像坐标***中的x坐标，如果存在多个点则对其y坐标计算平均值。(x,mean(y))这样的点序列表示了折线。

5.确定X轴关键点并定位每个关键点对应的X轴标签

在确定了折线的点序列之后，需要确定这些点中哪些点是关键点(折线图中的交叉点)。一种思路是通过霍夫变换检测直线，然后计算交叉点。但是当前一些线图采用圆弧形式的线表示，难于采用直线检测方法。本方法通过定位X轴关键点的方式来定位折线的关键点。X轴关键点定位具体包括以下几个步骤：

(1)大部分图的X轴的关键点都在X轴刻度标记位置之间的中间位置。因此，本方法根据获得的X轴上的刻度标记位置序列，对其排序。然后将相邻刻度标记位置的中间点作为X轴的关键点；

(2)如果不存在X轴的刻度标记，则通过X轴标签文本框的中间点作为X轴的关键点；并采用噪声数据过滤方法对获得的候选关键点进行过滤。

(3)如果不存在X轴标签文本框，并且图例的数量小于3，并且存在柱体，则通过柱体X方向的中间位置作为X轴的关键点位置。

在本实施例中，输入的数据图存在X轴刻度标记值。根据定位的刻度标记位置确定的X轴关键点如下图12所示。其中圈表示定位的X轴关键点位置。

6.根据X轴关键点定位柱体和折线的关键点，确定关键点对应的标注数值文本框，并进行数值识别。具体步骤如下：

(1)确定柱体和折线的关键点；柱体的关键点是垂直布局的柱子的最上面的中间点，水平布局的柱体关键点为最右边的中间点，折线的关键点是X轴上关键点对应到折线上的位置；

(2)根据该关键点位置、数据图的布局方式、文本框的位置，通过距离和阈值查找关键点所对应的标注数值文本框；

(3)因为标注数值一般都是数字字符，因此采用数字识别引擎识别文本框中的数字。

本实施例输入图像定位的柱体和折线关键点(红色小圈标注)以及对应的标注数值文本框(通过图例颜色标注的矩形框)的结果如下图13所示。柱体的标注数值识别结果(从左到右的顺序，括号中为真实值)为：18560(18560)，25865(25865)，32010(32010)，18100(8100)。由于线的干扰，最后一个数值识别错了。折线关键点对应数值文本框识别的结果为：720％(7.20％)，710％(7.10％)，86,90％(6.90％)，670％(6.70％)。从中发现当前小数点的识别效果不是非常好。

7.计算每个像素对应数值，并估计柱体或者折线关键点对应的数值

通过得到的Y轴刻度值文本框、Y轴刻度标记位置、柱体高度和对应文本框值估计每个像素对应的数值，在获得每个像素对应数值的基础上根据获得坐标轴和关键点位置计算关键点的估计数值。具体来说包括以下几个步骤：

(1)一个刻度值标记一般对应一个刻度值文本框。在确定了Y轴和其对应的刻度值文本框列表的基础上。根据Y轴刻度标记的位置与Y轴数值文本框的位置关系进行匹配，并采用数值识别引擎识别文本框中的数值。

(2)根据两两的间隔像素数和数值差，获得候选每个像素对应数值的列表；每个像素对应数值＝刻度对应数值差/刻度位置高度差。刻度对应数值差是两个刻度对应的数值文本框识别结果的差值。刻度位置高度差是两个刻度位置的Y值的差值。

(3)采用噪声数据过滤方法(见前述说明)，过滤得到的每个像素对应数值列表中的噪声。

(4)对每个像素对应数值列表计算平均值作为最终每个像素对应数值的值。

(5)根据得到的每个像素对应数值和关键点的高度(垂直布局为关键点和X轴的距离，水平布局为关键点与左Y轴的距离)来获得关键点的估计数值。估计值＝(关键点高度-X轴高度)*每个像素对应数值。

本实施例输入图像的左Y轴对应柱体的每个像素对应数值为：103.09。右Y轴对应折线的每个像素对应数值为：0.00025641。根据柱体的高度得到的柱体的估计值为(括号中为真实值)：18350.5(18560)，25876.2(25865)，31958.7(32010)，8144.3(8100)。根据折线关键点的高度估计的关键点对应的估计值为(括号中为真实值)：0.71867(7.20％)，0.709444(7.10％)，0.68970(6.90％)，0.67072(6.70％)。从中可以发现，估计值的精确性弱于数值文本框识别的结果，但是其准确性非常高，不会出现识别的数值与实际值差别非常大的情况。

8.根据估计值与识别的标注数值之间的差距来确定最终结果并进行保存

在对柱子或折线的关键点得到的估计值(est_val)和通过关键点查找到标注数值文本框的识别结果(reco_val)进行误差估计，即error＝2*abs(est_val-reco_val)/(est_val+reco_val),如果error小于0.1则认为识别结果正确，用标注数值文本框的识别结果作为该关键点的值，否则用估计值作为该关键点的值。通过该步骤可以获得数值识别的精确性，又保证了数值的准确性，消除识别错误带了的极大误差问题。

本方法将图例的文本框识别结果作为每一行的名称，X轴的标签识别结果作为列名，保存到EXCEL表格中，其结果如下表1所示。

表1输入图像的识别结果

	2016	2017	三2018	2019.01
					履行费用(百万元)	18560	25865	32010	8144.330
占运营费用比伤	0.719	0.709	0.690	0.671

为了测试不同类型的数据图输入情况下的有效性。在本实施例给出了另外两张样例输入数据图和对应的输出结果，如图14所示。表明本发明方法具有较高的准确率和精确度，能够应对不同情况的负责数据图类型，例如水平布局的柱状图、折线和柱体混合的数据图、不含坐标轴的数据图等各种数据图类型。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种图中数据的自动提取方法，用于对柱状或折线形式数据图中的元素数据进行提取，其特征在于，步骤如下：

S14：采用S12和S13的方法，同理获得X轴刻度值文本框列表；

S21：对数据图进行坐标轴定位，定位方法为：

2.如权利要求1所述的图中数据的自动提取方法，其特征在于，所述的噪声数据过滤方法为：

3.如权利要求1所述的图中数据的自动提取方法，其特征在于，所述的S12步骤中，如果数据图的左右两边都存在Y轴刻度值文本框，则视为具有左右两条Y轴，得到左Y轴刻度值文本框列表和右Y轴刻度值文本框列表。

4.如权利要求1所述的图中数据的自动提取方法，其特征在于，所述S33步骤中，该新候选图例的外接矩形框为两个连通分量的外接矩形框，像素数为两个连通分量像素数之和，颜色为两个连通分量颜色的平均值。

5.如权利要求1所述的图中数据的自动提取方法，其特征在于，所述S41步骤中，如果数据图中不存在图例，则将数据区中颜色既不属于背景颜色也不属于字符颜色的像素作为一个前景类别。

6.如权利要求1所述的图中数据的自动提取方法，其特征在于，所述S44步骤中，确定数据图中的分类坐标轴和数值坐标轴的方法为：当数据图为垂直布局时，以X坐标轴为分类坐标轴，以Y坐标轴为数值坐标轴；当数据图为水平布局时，以Y坐标轴为分类坐标轴，以X坐标轴为数值坐标轴。

7.如权利要求1所述的图中数据的自动提取方法，其特征在于，所述S5的步骤如下：

8.如权利要求1所述的图中数据的自动提取方法，其特征在于，所述S6的步骤如下：

S63：识别每个标注数值文本框中的标注数值。

9.如权利要求1所述的图中数据的自动提取方法，其特征在于，所述S7的步骤如下：

10.如权利要求1所述的图中数据的自动提取方法，其特征在于，所述S8的步骤如下：