CN108734089A

CN108734089A - 识别图片文件中表格内容的方法、装置、设备及存储介质

Info

Publication number: CN108734089A
Application number: CN201810285135.5A
Authority: CN
Inventors: 王磊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2018-11-02
Anticipated expiration: 2038-04-02
Also published as: CN108734089B

Abstract

本发明是关于一种识别图片文件中表格内容的方法、装置、设备及存储介质，属于图像识别技术领域。所述方法包括：获取待识别的目标图片文件；对目标图片文件进行字符识别处理，得到目标图片文件中的字符信息；将识别出的字符信息与预设词库进行匹配处理，以得到与预设词库匹配度大于第一阈值的表头字符；根据表头字符对应的字符信息，确定目标图片文件中包括的表格内容。由此，实现了对图片中包括的表格进行快速准确的识别，不仅提高了识别的准确性，还能减少识别操作所花费的时间，有效提升了用户的使用体验。

Description

识别图片文件中表格内容的方法、装置、设备及存储介质

技术领域

本发明涉及图像识别技术领域，特别涉及一种识别图片文件中表格内容的方法、装置、设备及存储介质。

背景技术

光学字符识别技术(Optical Character Recognition，简称为：OCR)，是一种通过检测暗、亮模式确定图片中的字符形状，然后利用字符识别技术将字符的图像转换为计算机文字的过程。即，针对印刷体字符，采用光学的方法将图片中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

随着计算机技术的不断发展，将图片录入计算机***以方便用户使用成为一个强烈需求。尤其是，将包含有表格的图片录入计算机***。目前，相关技术中，对包含有表格的图片进行表格识别时，通常是首先将文档分成多个单元，然后对每个单元中包括的表格线进行识别，在得到表格结构后，再对图片进行字符提取并识别。

然而，利用上述方式对图片中的表格进行识别时，不仅算法复杂，而且识别的效果受图片质量影响较大，而且检测错误率高。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明一方面实施例提供一种识别图片文件中表格内容的方法，该方法包括：获取待识别的目标图片文件；对所述目标图片文件进行字符识别处理，得到所述目标图片文件中的字符信息；将识别出的字符信息与预设词库进行匹配处理，以得到与所述预设词库匹配度大于第一阈值的表头字符；根据所述表头字符对应的字符信息，确定所述目标图片文件中包括的表格内容。

本发明另一方面实施例提供一种识别图片文件中表格内容的装置，该装置包括：第一获取模块，用于获取待识别的目标图片文件；处理模块，用于对所述目标图片文件进行字符识别处理，得到所述目标图片文件中的字符信息；匹配模块，用于将识别出的字符信息与预设词库进行匹配处理，以得到与所述预设词库匹配度大于第一阈值的表头字符；确定模块，用于根据所述表头字符对应的字符信息，确定所述目标图片文件中包括的表格内容。

本发明又一方面实施例提供一种计算机设备，该计算机设备包括：存储器及处理器，所述存储器存储有计算机程序，当所述处理器执行所述程序时，实现所述的识别图片文件中表格内容的方法。

本发明再一方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现所述的识别图片文件中表格内容的方法。

本发明实施例提供的识别图片文件中表格内容的方法、装置、设备及存储介质，通过获取待识别的目标图片文件，以对目标图片文件进行字符识别处理，得到目标图片文件中的字符信息，然后将识别出的字符信息与预设词库进行匹配处理，以得到与预设词库匹配度大于第一阈值的表头字符，进而根据表头字符对应的字符信息，确定目标图片文件中包括的表格内容。由此，实现了对图片中包括的表格进行快速准确的识别，不仅提高了识别的准确性，还能减少识别操作所花费的时间，从而有效提升了用户的使用体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据本发明一示例性实施例示出的识别图片文件中表格内容的方法的流程示意图；

图2是根据本发明一示例性实施例示出的识别图片文件中表格内容的方法的流程示意图；

图3(a)是根据本发明一示例性实施例示出的表格样式示意图；

图3(b)是根据本发明一示例性实施例示出的添加目标图片的示意图；

图3(c)是根据本发明一示例性实施例示出的确定出目标图片的格式及对应字符内容的示意图；

图3(d)是根据本发明一示例性实施例示出的对识别的字符内容进行筛选，确定结果为数字内容的示意图；

图3(e)是根据本发明一示例性实施例示出的根据数字结果绘制对应的趋势折线图的示意图；

图4是根据本发明一示例性实施例示出的选取与表头字符对应的内容字符的位置信息及语义的流程示意图；

图5是根据本发明一示例性实施例示出的识别图片文件中表格内容的方法的流程示意图；

图6是根据本发明一示例性实施例示出的识别图片文件中表格内容的装置的结构示意图；

图7是根据本发明一示例性实施例示出的计算机设备的结构示意图；

图8是根据本发明一示例性实施例示出的计算机设备的结构示意图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明各实施例针对现有的识别图片文件中表格内容的方法，不仅算法复杂，而且识别的效果受图片质量影响较大，而且检测错误率高的问题，提出一种表格识别方法。

本发明实施例提供的识别图片文件中表格内容的方法，首先通过获取待识别的目标图片文件，以对目标图片文件进行字符识别处理，得到目标图片文件中的字符信息，然后将识别出的字符信息与预设词库进行匹配处理，以得到与预设词库匹配度大于第一阈值的表头字符，进而根据得到的表头字符对应的字符信息，确定目标图片文件中包括的表格内容。由此，实现了对图片中包括的表格进行快速准确的识别，不仅提高了识别的准确性，还能减少识别操作所花费的时间，从而有效提升了用户的使用体验。

下面结合附图，对本发明提供的识别图片文件中表格内容的方法、装置、设备及存储介质进行详细说明。

首先结合图1，对本发明实施例提供的识别图片文件中表格内容的方法进行详细说明。

图1是根据本发明一示例性实施例示出的识别图片文件中表格内容的方法的流程示意图。

如图1所示，该识别图片文件中表格内容的方法可以包括以下步骤：

步骤101，获取待识别的目标图片文件。

可选的，本发明实施例提供的识别图片文件中表格内容的方法，可以由本发明实施例提供的计算机设备执行。其中，计算机设备中设置有识别图片文件中表格内容的装置，以通过识别图片文件中表格内容的装置对待识别的目标图片文件中表格内容识别过程进行管理或控制。本实施例计算机设备可以是任一具有数据处理功能的硬件设备，比如电脑、个人数字助理等等。

其中，在本实施例中，待识别的目标图片文件，可以是任意具有表格内容的图片文件，本实施例对此不作具体限定。

在本申请一种可选的实现形式中，可以从设备的本地图片库中，获取任意具有表格内容的图片文件作为待识别的目标图片文件；或者，可以向服务端发送具有表格内容的图片文件获取请求，以实现从服务端实时获取待识别的目标图片文件等等，此处对其不作具体限定。

步骤102，对目标图片文件进行字符识别处理，得到目标图片文件中的字符信息。

其中，在本实施例中，字符信息可以包括字符形状、语义及字符位置信息等，此处不作具体限定。

其中，“字符形状”，用于表示字符的书写及呈现方式，“字符语义”，用于表示字符的含义，“字符位置信息”，用于表示字符在目标图片文件中的位置。

可选的，在获取到目标图片文件之后，识别图片文件中表格内容的装置可利用现有技术中的字符识别技术，比如：ORC技术，对目标图片文件进行字符识别处理，以得到目标图片文件中的字符信息。

步骤103，将识别出的字符信息与预设词库进行匹配处理，以得到与预设词库匹配度大于第一阈值的表头字符。

其中，预设词库中包括各种表头字符。其可以是通过收集大量词语，并对大量词语进行分析处理得到的；或者，也可以是人工自定义设置的；或者，还可以是通过对不同领域所涉及的大量词语进行处理，得到不同领域所对应的词库等等，本实施例对此不作具体限定。

例如，以医学领域的体检报告为例进行说明，体检报告通常包括：项目、结果、参考值、单位等类型的表头，并且不同医院的体检报告所用的表头可能存在差别，比如：项目类的表头通常包括：“项目”、“项目名称”、“项目全称”、“检验项目”、“中文名称”、“中文名”等等，结果类的表头通常包括：“结果”、“检查结果”、“检测结果”、“测定结果”、“实际数值”、“检测值”、“定量结果”等等，那么通过对上述多个内容进行分析处理，即可得到医学领域对应的预设词库。

在本实施例中，第一阈值可以根据实际需要进行适应性设置，比如0.90，0.92等，此处对其不作具体限定。

在本申请一种可选的实现形式中，在得到目标图片文件中的字符信息之后，识别图片文件中表格内容的装置即可利用预设词库，与识别出的字符信息进行匹配操作，以获取到匹配度大于第一阈值的表头字符。

例如，若对目标图片文件识别后，确定目标图片文件中的字符信息为“检查项目”、“白蛋白”、“体重”、“参考值”，且第一阈值为0.90。那么当上述字符信息与预设词库进行匹配处理，得到“检查项目”和“参考值”与预设词库间的匹配度大于0.90时，则可以确定“检查项目”和“参考值”为表头字符。

步骤104，根据表头字符对应的字符信息，确定目标图片文件中包括的表格内容。

可选的，当确定出表头字符之后，识别图片文件中表格内容的装置即可根据表头字符对应的字符信息，对目标图片文件中包括的表格内容进行确定。

一种可选的实现形式中，首先可以先对表头字符对应的字符信息进行分析，以确定该表头字符所属的领域，然后根据确定的领域及表头字符对应的字符信息，即可得到目标图片文件中表格格式及表格内容。

本发明实施例提供的识别图片文件中表格内容的方法，通过获取待识别的目标图片文件，以对目标图片文件进行字符识别处理，得到目标图片文件中的字符信息，然后将识别出的字符信息与预设词库进行匹配处理，以得到与预设词库匹配度大于第一阈值的表头字符，进而根据表头字符对应的字符信息，确定目标图片文件中包括的表格内容。由此，实现了对图片中包括的表格进行快速准确的识别，不仅提高了识别的准确性，还能减少识别操作所花费的时间，从而有效提升了用户的使用体验。

通过上述分析可知，本发明实施例通过获取目标图片文件中字符信息，以根据字符信息，得到表头字符，然后根据表头字符对应的字符信息，确定目标图片文件中包括的表格内容。在一种可选的实现形式中，由于获取的字符信息中可以包括字符语义及字符位置信息，因此为了更准确的确定表头字符，本实施例可以首先根据预设词库，确定目标字符集，然后再根据字符信息中的字符语义，确定字符信息对应的表格样式，从而根据表格样式确定目标位置信息，进而根据目标位置信息及目标字符集对应的位置信息，获取表头字符。下面结合图2，对本发明识别图片文件中表格内容的方法的上述过程进行具体说明。

如图2所示，该识别图片文件中表格内容的方法可以包括以下步骤：

步骤201，获取待识别的目标图片文件。

步骤202，对目标图片文件进行字符识别处理，得到目标图片文件中的字符信息。

其中，字符信息包括：字符语义及字符位置信息。字符位置信息，可以包括字符在目标图片文件中的第一方向坐标及第二方向坐标。

在实际使用时，可以首先为目标图片文件定义一个坐标系，比如目标图片文件的左上角为坐标系原点，由原点出发向右为X轴正方向，向下为y轴正方向。相应的，上述第一方向坐标可以是X轴坐标，第二方向坐标可以是Y轴坐标；或者，第一方向坐标可以是Y轴坐标，第二方向坐标可以是X轴坐标，本实施例对此不作具体限定。

在本实施例中，目标图片文件可以是任一格式的图片，比如BMP、TIF、JPG、PDF等，此处对其不作具体限定。

一种可选的实现方式，可利用现有技术中的字符识别技术，比如：OCR技术，对目标图片文件进行字符识别处理，以得到目标图片文件中的字符语义及字符位置信息。

步骤203，将识别出字符信息与预设词库进行匹配处理，以得到与预设词库匹配度大于第一阈值的目标字符集。

可选的，在本实施例中，在获取到目标图片文件中的字符语义及字符位置信息之后，识别图片文件中表格内容的装置可利用预设词库，与字符信息进行匹配操作，以获取到匹配度大于第一阈值的目标字符集。

由于在实际应用过程中，目标图片文件可能会涉及任意一个领域，因此为了提高对目标图片文件识别的准确性，本实施例在将字符信息与预设词库进行匹配操作之前，可以首先通过对识别的字符语义进行分析，以根据字符的语义确定出对应的目标词库。也就是说，通过对字符语义进行分析，以根据字符语义所属领域，确定出与上述领域对应的预设词库，从而有效提升对目标图片文件的识别准确性。

举例来说，若分析得出字符语义主要涉及医学领域，那么可以将医学领域对应的预设词库，确定为目标词库；又例如，若分析得出字符语义主要涉及金融领域，那么可以将金融领域对应的预设词库，确定为目标词库。

进一步的，在确定出字符信息对应的目标词库之后，识别图片文件中表格内容的装置可将字符信息中包括的字符与目标词库进行匹配处理，得到字符与目标词库间的匹配度大小，然后将匹配度大小与第一阈值进行比对，并将匹配度大于第一阈值的字符，作为目标字符集。

例如，若对目标图片文件识别后，确定目标图片文件中包括的字符为“检查项目”、“白蛋白”、“体重”、“参考值”，且第一阈值为0.90。通过对上述各字符的语义进行分析后，确定该目标图片文件中的字符涉及医学领域，进而即可获取医学领域的词库，然后判断上述各字符与医学领域的词库的匹配度，若“检查项目”和“参考值”与预设词库间的匹配度大于0.90时，则可以确定“检查项目”和“参考值”作为目标字符集。

步骤204，根据字符信息中的字符语义，确定字符信息对应的表格样式。

步骤205，根据表格样式，确定目标位置信息。

在一种可选的实现形式中，由于不同领域的表格样式不同，因此为了能够准确可靠的获取到表头字符，本实施例可以首先根据目标图片文件中字符信息中的字符语义，对字符信息对应的表格样式进行确定；然后再根据确定的表格样式，确定出目标位置信息。

也就是说，当目标图片文件中字符信息中的字符语义所涉及的领域不同时，目标图片文件中包括的表格样式也不相同。例如，若目标图片文件中字符信息中的字符语义涉及医学领域，那么确定出表格样式可能如图3(a)所示，从而即可确定表头字符间的位置关系为行坐标相同。

步骤206，根据目标位置信息及目标字符集对应的位置信息，从目标字符集中获取表头字符。

可选的，当确定出目标位置信息之后，识别图片文件中表格内容的装置即可根据目标位置信息及目标字符集对应的位置信息，从目标字符集中获取表头字符。

作为一种可选的实现方式，当确定出表头字符为第二方向坐标相同，且第二方向为Y轴方向，那么识别图片文件中表格内容的装置可根据Y轴方向坐标相同的规则，在目标字符集中筛选出表头字符；或者，当确定出表头字符为第一方向坐标相同，即第一方向为X轴方向坐标相同时，那么识别图片文件中表格内容的装置可根据X轴方向坐标相同的规则，在目标字符集中筛选出表头字符。

举例说明，若目标字符集中字符及字符的位置信息分别为：“序号，(X1，Y1)”、“检查项目，(X2，Y1)”、“血压，(X2，Y2)”、“检查结果，(X3，Y1)”、“45，(X3，Y3)”、“参考值，(X4，Y1)”，且确定的目标位置信息为：Y轴方向坐标相同。那么识别图片文件中表格内容的装置可以Y轴方向坐标相同的规则，确定出表头字符分别为：“序号，(X1，Y1)”、 “检查项目，(X2，Y1)”、“检查结果，(X3，Y1)”和“参考值，(X4，Y1)”。

步骤207，根据表头字符的位置信息及语义，从字符信息中选取与表头字符对应的内容字符的位置信息及语义。

具体的，在确定出表头字符之后，为了对表格的内容进行完善，识别图片文件中表格内容的装置可根据表头字符的位置信息及语义，从字符信息中选取与表头字符位置及语义对应的字符，作为内容字符，以及获取内容字符的位置信息及语义。

为了清楚的说明上述示例，下面结合图4，对上述根据表头字符的位置信息及语义，从字符信息中选取与表头字符对应的内容字符的位置信息及语义的过程进行详细说明。

需要说明的是，在本实施例中，字符位置信息，包括字符第一方向坐标、第二方向坐标。

如图4所示，选取与表头字符对应的内容字符的位置信息及语义，可包括以下步骤：

步骤401，根据任一表头字符的第一方向坐标或第二方向坐标，确定内容字符的第一方向坐标范围或第二方向坐标范围。

可选的，当识别图片文件中表格内容的装置确定出表头字符之后，可根据表头字符的位置信息，确定出内容字符的第一方向坐标范围或第二方向坐标范围。

在实际应用中，由于识别图片文件中表格内容的装置，确定的表头字符的位置信息可能存在误差，或者内容字符长度参差不齐，因此为了能够准确的获取与表头字符对应的内容字符，本实施例可以根据表头字符的位置信息，确定内容字符的第一方向坐标范围或第二方向坐标范围。举例来说，可在表头字符的位置信息基础上，分别在第一方向坐标和第二方向坐标上加上一个附加范围，即当表头字符的位置信息为(X，Y)时，确定内容字符第一方向的坐标范围可以为(X-Δ，X+Δ)；或者，在第二方向坐标范围为：(Y-Δ，Y+Δ)等等，本实施例对此不作具体限定。

可以理解的是，在确定内容字符的坐标范围时，可以首先根据各表头字符的位置关系，确定内容字符与表头字符的位置关系，进而再确定内容字符对应的坐标范围。

举例来说，若根据表头字符的位置，确定各表头字符位于同一行，那么可以确定与表头字符对应的内容字符与表头字符的行坐标相近，从而即可根据各表头字符的X方向坐标x1，确定各内容字符行坐标范围为(x1-Δ，x1+Δ)。

相应的，若根据表头字符的位置，确定各表头字符位于同一列，那么则可以确定与表头字符对应的内容字符与表头字符的纵坐标相近，从而既可根据各表头字符的Y方向坐标y1，确定各内容字符列坐标范围为(y1-Δ，y1+Δ)。

步骤402，从字符信息中选取位置信息符合第一方向坐标范围或第二方向坐标范围的初选字符集。

步骤403，根据任一表头字符的语义，从初选字符集中，选取与任一表头字符的语义匹配的字符为任一表头字符对应的内容字符。

具体的，为了提高对表头字符对应的内容字符获取精准度，本实施例识别图片文件中表格内容的装置，还可在获取到初选字符集之后，基于表头字符的语义，对初选字符集进行分析，以从初选字符集中，选择出与表头字符语义相匹配的字符，作为表头字符对应的内容字符。

可以理解的是，本实施例通过根据表头字符的位置信息，先确定内容符号的坐标位置范围，以从字符信息中选择出位置信息处于第一方向坐标范围或第二方向坐标范围的初选字符集，然后再根据表头字符的语义，从初选字符集中，选择出与表头字符语义相匹配的字符作为表头字符对应的内容字符，有效提高了对表头字符对应的内容字符的获取准确性。

步骤208，根据表头字符的位置信息及语义、内容字符的位置信息及语义，生成目标图片文件中包括的表格。

具体的，在获取到目标图片文件的表头字符的位置信息及语义、内容字符的位置信息及语义之后，识别图片文件中表格内容的装置即可根据上述信息，生成目标图片文件中包括的表格。

在实际应用时，由于表格中字符可能因为对齐方式等原因，将一个词语分成两个版面上离得较远的词，这就容易使得上述词语被识别成两个独立的字符。例如：“项目”被识别成“项” 和“目”；又例如，将“单位”识别成“单”和“位”的两个独立的字符；

或者，因为表格所属领域中相同语义的词语会有多种，因此为了将不同语义的词语进行统一，以形成相对统一的结构化数据，方便后续存储和使用，本实施例识别图片文件中表格内容的装置，可结合表头字符的语义分析，或同义词合并等方式，将具有相同语义的词语进行归一化处理。例如，体检报告模版包括：“项目”、“单位”、“参考值”、“单位”等四项，那么可将表头字符为“项目”、“项目名称”、“项目全称”、“检验项目”、“中文名”等词语归类为“项目”，其它以此类推。

进一步的，还可以利用预设的词库、或者根据合并后的词语的语义，对表头字符及内容字符进行纠错处理，比如若将“项目”识别成了“项且”，那么通过语义分析，可知“且”为错别字，进而即可将字符“项且”纠正为“项目”。

也就是说，根据表头字符的位置信息及语义、内容字符的位置信息及语义，生成目标图片文件中包括的表格之前，本实施例识别图片文件中表格内容的装置，可利用预设词库，对表头字符及内容字符进行归一化及词语合并处理，从而使得后续管理和加工更方便。

下面结合图3(b)-图3(e)，对上述实施例进行进一步解释说明：

若本实施例中目标图片文件为用户利用设备采集的不同时间段的纸质体检报告，那么为了实现对用户纸质体检报告，建立对应的电子版体检档案，用户可将拍摄的纸质体检报告添加到建立电子版体检档案的应用中，具体如图3(b)，然后当建立电子版体检档案的应用检测到用户添加的体检报告图片后，可利用字符识别功能从体检报告图片中，确定出体检报告的表格样式及对应的字符内容,如图3(c)，进一步的为了方便用户了解体检报告中各项指标的高低、走势，还可对识别的字符内容进行筛选，以选出结果为数字的内容，如图3(d)，然后根据提取的数字结果，例如总胆红素，绘制总胆红素对应的趋势折线图，具体如图3(e)，从而使得用户可以根据生成的趋势折线图，清楚明白的了解自身的各项指标是否处于正常水平。

本发明实施例提供的识别图片文件中表格内容的方法，通过首先获取待识别的目标图片文件，然后对目标图片文件进行字符识别处理，以得到目标图片文件中的字符信息，并将识别出的字符信息与预设词库进行匹配处理，以得到与预设词库匹配度大于第一阈值的目标字符集，然后根据字符信息中的字符语义，确定字符信息对应的表格样式，从而根据表格样式，确定目标位置信息，进而根据目标位置信息及目标字符集对应的位置信息，从目标字符集中获取表头字符，然后根据表头字符的位置信息及语义，从字符信息中选取与表头字符对应的内容字符的位置信息及语义，从而根据表头字符的位置信息及语义，内容字符的位置信息及语义，生成目标图片文件中包括的表格。由此，实现了对图片中包括的表格进行快速准确的识别，不仅提高了识别的准确性，还能减少识别操作所花费的时间，从而有效提升了用户的使用体验。

通过上述分析可知，本发明实施例通过获取目标图片文件的字符位置信息，以根据字符位置信息确定表头字符，然后根据表头字符的位置信息及语义，从字符信息中选取与表头字符对应的内容字符的位置信息及语义，以根据表头字符的位置信息及语义、内容字符的位置信息及语义，生成目标图片文件中包括的表格。在具体实现时，由于识别图片文件中表格内容的装置识别到的字符位置信息，包括的字符第一方向坐标或第二方向坐标可能存在误差，从而使得根据字符第一方向坐标或第二方向坐标，确定表头字符或内容字符时，可能出现由于字符位置信息错误，而导致字符类型识别错误的情况，因此，本发明实施例中，在根据字符位置信息，确定表头字符或内容字符之前，可以首先对字符位置信息进行修正。

在实际使用时，由于识别图片文件中表格内容的装置识别到的字符位置信息中还包括字符在第一方向的宽度和在第二方向的宽度。因此，本实施例在确定字符是否为表头字符时，还可先根据字符在第一方向坐标及第二方向坐标，以及字符在第一方向的宽度和在第二方向的宽度，对字符位置信息进行修正，进而再根据修正后的位置信息，确定表头字符或内容字符。下面结合图5，对本发明识别图片文件中表格内容的方法的上述过程进行具体说明。

图5是根据本发明一示例性实施例示出的识别图片文件中表格内容的方法的流程示意图。

需要说明的是，为了更清楚的说明该实施例，本实施例可先对目标图片文件定义一个坐标系，比如以目标图片文件的左上角为坐标原点，由原点出发向右为X轴正方向，向下为Y 轴正方向。相应的，可将第一方向坐标定义为X轴坐标(即横坐标)，第二方向坐标定义为Y 轴坐标(即纵坐标)，从而实现根据上述定义的内容对该实施例进行详细说明。

如图5所示，该识别图片文件中表格内容的方法可以包括以下步骤：

步骤501，获取待识别的目标图片文件。

步骤502，对目标图片文件进行字符识别处理，得到目标图片文件中的字符信息。

其中，字符信息包括字符语义及字符位置信息，所述字符位置信息，包括字符在目标图片文件中的第一方向坐标(即X轴坐标)及第二方向坐标(即Y轴坐标)、字符在第一方向的宽度和在第二方向的宽度。

由于该步骤的实现方式与上述示例的实现方式类似，在此对其不作过多赘述，具体参见步骤102或步骤202。

步骤503，将字符信息按第一方向坐标由小到大的顺序进行依次遍历，判断第j个字符与第i个字符在第二方向的坐标是否相同，若不相同，则执行步骤504，否则，执行步骤508。

其中，第j个字符与第i个字符间相邻字符的第一方向坐标的差值均在预设范围内，i和 j均为正整数，且j大于i。

本实施例中预设范围，可以根据实际字符间的位置信息进行适应性设置，比如，预设范围可以根据字符宽度确定，或者，根据通常的字符间距确定等，本实施例对此不作具体限定。

可选的，当获取到目标图片文件中的字符信息之后，识别图片文件中表格内容的装置可按照字符信息的第一方向坐标从小到大的顺序依次进行遍历，以判断第j个字符与第i个字符在第二方向的坐标是否相同。若相同，则说明各字符处于同一行，若不相同，则说明各字符处于不同行。

其中，第j个字符和第i个字符可以是识别的字符中任意两个不相同的字符，本实施例对此不作具体限定。

也就是说，通过将字符信息中字符的X轴坐标作为为自变量，以由小到大的顺序对字符的Y轴坐标是否相同进行确定。其中，当字符的Y轴坐标相同时，即可确定字符处于同一行；当字符的Y轴坐标不相同时，即可确定字符处于不同行，从而实现了对各坐标的位置信息是否正确进行准确判定。

例如，若字符A的第一方向坐标为X1，第二方向坐标为Y1，字符B的第一方向坐标为X2，第二方向坐标为Y2，那么当Y1＝Y2时，则说明字符A和字符B处于同一行；当Y1≠Y2 时，则说明字符A和字符B处于不同行。

步骤504，根据第j个字符的第二方向的宽度及第i个字符的第二方向的宽度，确定第j 个字符与第i个字符在第二方向的重合度。

具体实现时，可通过公式(1)，确定第j个字符与第i个字符在第二方向的重合度：

其中，ri表示第i个字符，yi表示第i个字符的第二方向坐标，hi表示第i个字符的第二方向的宽度，rj表示第j个字符，yj表示第j个字符的第二方向坐标，hj表示第j个字符的第二方向的宽度。

步骤505，判断第j个字符与第i个字符在第二方向的重合度，是否大于第三阈值，若大于，则执行步骤506，否则执行步骤508。

其中，第三阈值可根据经验进行取值，本实施例对此不作具体限定。比如，第三阈值可以设置为第i个字符与第j个字符在第二方向的宽度中的最小值的一半。

举例说明，若第三阈值为第j个字符与第i个字符在第二方向的宽度最小值的一半，且第 j个字符的第二方向的坐标为2，第二方向的宽度为1，第i个字符的第二方向的坐标为2.1，第二方向的宽度为0.9，那么基于上述公式(1)，可以确定出第j个字符与第i个字符的重合度大于第三阈值。

步骤506，对第j个字符和/或第i个字符在第二方向的坐标进行修正。

具体的，当确定第j个字符与第i个字符在第二方向的重合度大于第三阈值，则说明第j 个字符与第i个字符实际上是处于同一行的。因此为了减少后续对字符类型误判的可能，对于上述重合度大于第三阈值的第j个字符和第i个字符，按照对齐方法对第j个字符和/或第i 个字符在第二方向的坐标进行修正，以使第j个字符与第i个字符在第二方向的坐标相同。

在具体对第j个字符和/或第i个字符在第二方向的坐标进行修正时，为了提高修正的效果，本实施例可先根据第i个字符的第二方向坐标及第j个字符的第二方向坐标，确定出目标第二方向坐标范围，然后从识别的各字符中选取出处于目标第二方向坐标范围的多个字符，从而根据选取的多个字符的第二方向坐标，对第j个字符和/或第i个字符在第二方向的坐标进行修正。

即：根据第i个字符的第二方向坐标及第j个字符的第二方向坐标，确定目标第二方向坐标范围；

选取第二方向坐标属于目标第二方向坐标范围内的k个字符；

根据k个字符的第二方向坐标，对第j个字符和/或第i个字符在第二方向的坐标进行修正。

可以理解的是，在本实施例中，对第j个字符和/或第i个字符在第二方向的坐标进行修正，可以是对第j个字符在第二方向的坐标进行修正；或者，对第i个字符在第二方向的坐标进行修正；或者，对第j个字符及第i个字符在第二方向的坐标进行修正，本实施例对此不作具体限定。

步骤507，第j个字符与第i个字符处于不同行。

步骤508，第j个字符与第i字符处于同一行。

在实际应用过程中，由于目标图片文件的识别处理可能会导致目标图片文件畸变，或者对字符信息中字符位置信息的识别出现误差，从而导致对各字符是否在第二方向坐标相同的判断出现误差。

对此，为了减少上述缺陷导致判断结果不准确的情况发生，在本发明的一个可能实现情景中，识别图片文件中表格内容的装置可以从字符信息中选择与第j个字符在第二方向的坐标最接近的第i个字符进行比对，以确定第j个字符与第i个字符在第二方向的坐标是否相同。若相同，则确定第j个字符与第i个字符处于同一行，若不相同，则根据第j个字符的第二方向的宽度及第i个字符的第二方向的宽度，确定第j个字符与第i个字符在第二方向的重合度，并判断重合度是否大于第三阈值，若大于，则说明第j个字符与第i个字符实际上处于同一行，此时为了避免后续对字符类型识别出现误判，可对第j个字符和/或第i个字符在第二方向的坐标进行修正，以使第j个字符与第i个字符在第二方向的坐标相同；否则，处于不同行。

步骤509，将字符信息与预设词库进行匹配处理，以得到与预设词库匹配度大于第一阈值的目标字符集。

步骤510，根据字符信息中的字符语义，确定字符信息对应的表格样式。

步骤511，根据表格样式，确定目标位置信息。

步骤512，根据目标位置信息及目标字符集对应的位置信息，从目标字符集中获取表头字符。

步骤513，根据表头字符的位置信息及语义，从字符信息中选取与表头字符对应的内容字符的位置信息及语义。

步骤514，根据表头字符的位置信息及语义、内容字符的位置信息及语义，生成目标图片文件中包括的表格。

需要说明的是，上述步骤509-514的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

同样的，当识别图片文件中表格内容的根据字符在第一方向的宽度，以及字符第一方向的坐标及第二方向的坐标，对字符的位置信息进行修正时，与上述根据字符在第二方向的宽度，以及字符第一方向的坐标及第二方向的坐标，对字符的位置信息进行修正的过程类似，区别仅在于：

对目标图片文件识别处理得到的字符信息进行遍历操作时，按第二方向坐标(即Y轴坐标)由小到大的顺序进行依次遍历，并判断第j个字符与第i个字符在第一方向的坐标(即X 轴坐标)是否相同。若相同，则说明第j个字符与第i个字符处于同一列，若不相同，则根据第j个字符的第一方向的宽度及第i个字符的第一方向的宽度，确定第j个字符与第i个字符在第一方向的重合度，并确定重合度是否大于第三阈值。

若确定重合度小于第三阈值，则说明第j个字符与第i个字符处于不同列；若确定重合度大于第三阈值时，则可以确定第j个字符与第i个字符在第一方向的坐标实际上是相同的，因此为了减少后续对字符类型识别的误判概率，本实施例可对第j个字符或第i个字符在第一方向的坐标进行修正，以使第j个字符或第i个字符在第一方向的坐标相同。具体对第j个字符或第i个字符在第一方向的坐标进行修正时可以包括：根据第j个字符的第一方向坐标及第i 个字符的第一方向坐标，确定目标第一方向坐标范围；选取第一方向坐标属于目标第一方向坐标范围内的m个字符；根据m个字符的第一方向坐标，对第j个字符和/或第i个字符在第一方向的坐标进行修正。

其中，第三阈值可以是第j个字符与第i个字符在第一方向的宽度中最小值的一半等等，本实施例对此不作具体限定。

本发明实施例提供的识别图片文件中表格内容的方法，通过对目标图片文件进行字符识别，以得到目标图片文件中的字符在目标图片中的第一方向坐标及第二方向坐标，以及字符在第一方向的宽度及在第二方向的宽度，然后将字符按照第一方向坐标由小到大的顺序进行遍历，以判断第j个字符与第i个字符在第二方向的坐标是否相同，若不相同则判断第j个字符与第i个字符在第二方向的重合度，并判断重合度是否大于阈值，若大于则对第j个字符或第i个字符在第二方向的坐标进行修正，然后将字符信息与预设词库进行匹配，得到目标字符集，然后根据字符信息中字符语义，确定表格样式，并根据表格样式，确定目标位置信息，根据目标位置信息及目标字符集对应的位置信息，获取表头字符，然后根据表头字符的位置信息及语义，从字符信息中选取与表头字符对应的内容字符的位置信息及语义，从而根据表头字符的位置信息及语义，内容字符的位置信息及语义，生成目标图片文件中包括的表格。由此，实现了对图片中包括的表格进行快速准确的识别，不仅提高了识别的准确性，还能减少识别操作所花费的时间，从而有效提升了用户的使用体验，并且为后续用户的使用提供了有利条件。

在示例性实施例中，还提供了一种识别图片文件中表格内容的装置。

图6是根据本发明一示例性实施例示出的识别图片文件中表格内容的装置的结构示意图。

参照图6所示，本发明的识别图片文件中表格内容的装置包括：第一获取模块110、处理模块120、匹配模块130及确定模块140。

其中，第一获取模块110用于获取待识别的目标图片文件；

处理模块120用于对所述目标图片文件进行字符识别处理，得到所述目标图片文件中的字符信息；

匹配模块130用于将识别出的字符信息与预设词库进行匹配处理，以得到与所述预设词库匹配度大于第一阈值的表头字符；

确定模块140用于根据所述表头字符对应的字符信息，确定所述目标图片文件中包括的表格内容。

需要说明的是，前述对识别图片文件中表格内容的方法实施例的解释说明也适用于该实施例的识别图片文件中表格内容的装置，其实现原理类似，此处不再赘述。

本发明实施例提供的识别图片文件中表格内容的装置，通过获取待识别的目标图片文件，以对目标图片文件进行字符识别处理，得到目标图片文件中的字符信息，然后将识别出的字符信息与预设词库进行匹配处理，以得到与预设词库匹配度大于第一阈值的表头字符，进而根据表头字符对应的字符信息，确定目标图片文件中包括的表格内容。由此，实现了对图片中包括的表格进行快速准确的识别，不仅提高了识别的准确性，还能减少识别操作所花费的时间，从而有效提升了用户的使用体验。

在示例性实施例中，还提供了一种计算机设备。

图7是根据一示例性实施例示出的计算机设备的结构示意图。图7显示的计算机设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

参照图7，该计算机设备200包括：存储器210及处理器220，所述存储器210存储有计算机程序，所述计算机程序被处理器220执行时，使得所述处理器220执行如下步骤：获取待识别的目标图片文件；对所述目标图片文件进行字符识别处理，得到所述目标图片文件中的字符信息；其中，所述字符信息包括字符形状、语义及字符位置信息；将识别出的字符信息与预设词库进行匹配处理，以得到与所述预设词库匹配度大于第一阈值的表头字符；根据所述表头字符对应的字符信息，确定所述目标图片文件中包括的表格内容。

在一个实施例中，所述字符信息包括字符语义及字符位置信息；所述得到与所述预设词库匹配度大于第一阈值的表头字符，包括：将识别出的字符信息与预设词库进行匹配处理，以得到与所述预设词库匹配度大于第一阈值的目标字符集；根据所述字符信息中的字符语义，确定所述字符信息对应的表格样式；根据所述表格样式，确定目标位置信息；根据所述目标位置信息及所述目标字符集对应的位置信息，从所述目标字符集中获取表头字符。

在一个实施例中，所述确定所述目标图片文件中包括的表格内容之前，还包括：利用所述预设词库，对所述表头字符及所述内容字符进行归一化及词语合并处理。

在一个实施例中，所述根据所述表头字符对应的字符信息，确定所述目标图片文件中包括的表格内容，包括：根据所述表头字符的位置信息及语义，从所述字符信息中选取与所述表头字符对应的内容字符的位置信息及语义；根据所述表头字符的位置信息及语义、所述内容字符的位置信息及语义，生成所述目标图片文件中包括的表格。

在一个实施例中，所述字符位置信息，包括字符第一方向坐标、第二方向坐标；所述从所述字符信息中选取与所述表头字符对应的内容字符的位置信息及语义，包括：根据任一表头字符的第一方向坐标或第二方向坐标，确定与所述任一表头字符对应的目标内容字符的第一方向坐标范围或第二方向坐标范围；从所述字符信息中选取位置信息符合所述第一方向坐标范围或第二方向坐标范围的初选字符集；根据所述任一表头字符的语义，从所述初选字符集中，选取与所述任一表头字符的语义匹配的字符为所述任一表头字符对应的内容字符。

在一个实施例中，所述字符信息包括字符位置信息，其中，字符位置信息，包括字符第一方向坐标、第二方向坐标及字符在第二方向的宽度；所述得到所述目标图片文件中的字符信息之后，还包括：将字符信息按第一方向坐标由小到大的顺序进行依次遍历，判断第j个字符与第i个字符在第二方向的坐标是否相同，其中，第j个字符与第i个字符间各相邻字符的第一方向坐标的差值均在预设范围内，i和j均为正整数，且j大于i；若所述第j个字符与第i个字符在第二方向的坐标不同，则根据所述第j个字符的第二方向的宽度及所述第i个字符的第二方向的宽度，确定所述第j个字符与所述第i个字符在第二方向的重合度；判断所述第j个字符与所述第i个字符在第二方向的重合度，是否大于第三阈值；若大于，则对所述第 j个字符和/或所述第i个字符在第二方向的坐标进行修正。

在一个实施例中，所述对所述第j个字符和/或所述第i个字符在第二方向的坐标进行修正之前，还包括：根据第i个字符的第二方向坐标及所述第j个字符的第二方向坐标，确定目标第二方向坐标范围；选取第二方向坐标属于所述目标第二方向坐标范围内的k个字符；根据所述k个字符的第二方向坐标，对所述第j个字符和/或所述第i个字符在第二方向的坐标进行修正。

在一个实施例中，所述字符位置信息，还包括第一方向的宽度；所述将所述字符信息按第一方向坐标由小到大的顺序进行依次遍历之后，还包括：根据第j个字符的第一方向坐标及所述第i个字符的第一方向坐标，确定目标第一方向坐标范围；选取第一方向坐标属于所述目标第一方向坐标范围内的m个字符；根据所述m个字符的第一方向坐标，对所述第j个字符和/或所述第i个字符在第一方向的坐标进行修正。

在一个实施例中，所述字符信息包括字符语义；所述将识别出的字符信息与预设词库进行匹配处理之前，还包括：根据所述字符语义，确定目标词库；所述将识别出的字符信息与预设词库进行匹配处理，包括：将所述识别出的字符信息与所述目标词库进行匹配处理。

在一种可选的实现形式中，如图8所示，该计算机设备200还可以包括：存储器210及处理器220，连接不同组件(包括存储器210和处理器220)的总线230，存储器210存储有计算机程序，当处理器220执行所述程序时实现本发明实施例所述的跨域数据传输方法。

总线230表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，*** 总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC) 总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

计算机设备200典型地包括多种计算机设备可读介质。这些介质可以是任何能够被计算机设备200访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器210还可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器 (RAM)240和/或高速缓存存储器250。计算机设备200可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***260可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线230相连。存储器210可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块270的程序/实用工具280，可以存储在例如存储器210 中，这样的程序模块270包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块270通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备200也可以与一个或多个外部设备290(例如键盘、指向设备、显示器291 等)通信，还可与一个或者多个使得用户能与该计算机设备200交互的设备通信，和/或与使得该计算机设备200能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口292进行。并且，计算机设备200 还可以通过网络适配器293与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/ 或公共网络，例如因特网)通信。如图所示，网络适配器293通过总线230与计算机设备200 的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID ***、磁带驱动器以及数据备份存储***等。

需要说明的是，前述对识别图片文件中表格内容的方法实施例的解释说明也适用于该实施例的计算机设备，其实现原理类似，此处不再赘述。

本发明实施例提供的计算机设备，通过获取待识别的目标图片文件，以对目标图片文件进行字符识别处理，得到目标图片文件中的字符信息，然后将识别出的字符信息与预设词库进行匹配处理，以得到与预设词库匹配度大于第一阈值的表头字符，进而根据表头字符对应的字符信息，确定目标图片文件中包括的表格内容。由此，实现了对图片中包括的表格进行快速准确的识别，不仅提高了识别的准确性，还能减少识别操作所花费的时间，从而有效提升了用户的使用体验。

在示例性实施例中，本发明还提出了一种计算机可读存储介质。

上述计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现所述的识别图片文件中表格内容的方法。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或 “一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行 ***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器 (CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种识别图片文件中表格内容的方法，其特征在于，包括：

获取待识别的目标图片文件；

对所述目标图片文件进行字符识别处理，得到所述目标图片文件中的字符信息；

将识别出的字符信息与预设词库进行匹配处理，以得到与所述预设词库匹配度大于第一阈值的表头字符；

根据所述表头字符对应的字符信息，确定所述目标图片文件中包括的表格内容。

2.如权利要求1所述的方法，其特征在于，所述字符信息包括字符语义及字符位置信息；

所述得到与所述预设词库匹配度大于第一阈值的表头字符，包括：

将识别出的字符信息与预设词库进行匹配处理，以得到与所述预设词库匹配度大于第一阈值的目标字符集；

根据所述字符信息中的字符语义，确定所述字符信息对应的表格样式；

根据所述表格样式，确定目标位置信息；

根据所述目标位置信息及所述目标字符集对应的位置信息，从所述目标字符集中获取表头字符。

3.如权利要求2所述的方法，其特征在于，所述确定所述目标图片文件中包括的表格内容之前，还包括：

利用所述预设词库，对所述表头字符及所述内容字符进行归一化及词语合并处理。

4.如权利要求2所述的方法，其特征在于，所述根据所述表头字符对应的字符信息，确定所述目标图片文件中包括的表格内容，包括：

根据所述表头字符的位置信息及语义，从所述字符信息中选取与所述表头字符对应的内容字符的位置信息及语义；

根据所述表头字符的位置信息及语义、所述内容字符的位置信息及语义，生成所述目标图片文件中包括的表格。

5.如权利要求4所述的方法，其特征在于，所述字符位置信息，包括字符第一方向坐标、第二方向坐标；

所述从所述字符信息中选取与所述表头字符对应的内容字符的位置信息及语义，包括：

根据任一表头字符的第一方向坐标或第二方向坐标，确定与所述任一表头字符对应的目标内容字符的第一方向坐标范围或第二方向坐标范围；

从所述字符信息中选取位置信息符合所述第一方向坐标范围或第二方向坐标范围的初选字符集；

根据所述任一表头字符的语义，从所述初选字符集中，选取与所述任一表头字符的语义匹配的字符为所述任一表头字符对应的内容字符。

6.如权利要求1所述的方法，其特征在于，所述字符信息包括字符位置信息，其中，字符位置信息，包括字符第一方向坐标、第二方向坐标及字符在第二方向的宽度；

所述得到所述目标图片文件中的字符信息之后，还包括：

将字符信息按第一方向坐标由小到大的顺序进行依次遍历，判断第j个字符与第i个字符在第二方向的坐标是否相同，其中，第j个字符与第i个字符间各相邻字符的第一方向坐标的差值均在预设范围内，i和j均为正整数，且j大于i；

若所述第j个字符与第i个字符在第二方向的坐标不同，则根据所述第j个字符的第二方向的宽度及所述第i个字符的第二方向的宽度，确定所述第j个字符与所述第i个字符在第二方向的重合度；

判断所述第j个字符与所述第i个字符在第二方向的重合度，是否大于第三阈值；

若大于，则对所述第j个字符和/或所述第i个字符在第二方向的坐标进行修正。

7.如权利要求6所述的方法，其特征在于，所述对所述第j个字符和/或所述第i个字符在第二方向的坐标进行修正之前，还包括：

根据第i个字符的第二方向坐标及所述第j个字符的第二方向坐标，确定目标第二方向坐标范围；

选取第二方向坐标属于所述目标第二方向坐标范围内的k个字符；

根据所述k个字符的第二方向坐标，对所述第j个字符和/或所述第i个字符在第二方向的坐标进行修正。

8.如权利要求6所述的方法，其特征在于，所述字符位置信息，还包括第一方向的宽度；

所述将所述字符信息按第一方向坐标由小到大的顺序进行依次遍历之后，还包括：

根据第j个字符的第一方向坐标及所述第i个字符的第一方向坐标，确定目标第一方向坐标范围；

选取第一方向坐标属于所述目标第一方向坐标范围内的m个字符；

根据所述m个字符的第一方向坐标，对所述第j个字符和/或所述第i个字符在第一方向的坐标进行修正。

9.如权利要求1-8任一所述的方法，其特征在于，所述字符信息包括字符语义；

所述将识别出的字符信息与预设词库进行匹配处理之前，还包括：

根据所述字符语义，确定目标词库；

所述将识别出的字符信息与预设词库进行匹配处理，包括：

将所述识别出的字符信息与所述目标词库进行匹配处理。

10.一种识别图片文件中表格内容的装置，其特征在于，包括：

第一获取模块，用于获取待识别的目标图片文件；

处理模块，用于对所述目标图片文件进行字符识别处理，得到所述目标图片文件中的字符信息；

匹配模块，用于将识别出的字符信息与预设词库进行匹配处理，以得到与所述预设词库匹配度大于第一阈值的表头字符；

确定模块，用于根据所述表头字符对应的字符信息，确定所述目标图片文件中包括的表格内容。

11.一种计算机设备，其特征在于，包括：存储器及处理器，所述存储器存储有计算机程序，其特征在于，当所述处理器执行所述程序时，实现如权利要求1-9任一所述的识别图片文件中表格内容的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现如权利要求1-9任一所述的识别图片文件中表格内容的方法。