CN108734089A - 识别图片文件中表格内容的方法、装置、设备及存储介质 - Google Patents

识别图片文件中表格内容的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN108734089A
CN108734089A CN201810285135.5A CN201810285135A CN108734089A CN 108734089 A CN108734089 A CN 108734089A CN 201810285135 A CN201810285135 A CN 201810285135A CN 108734089 A CN108734089 A CN 108734089A
Authority
CN
China
Prior art keywords
character
information
gauge outfit
coordinate
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810285135.5A
Other languages
English (en)
Other versions
CN108734089B (zh
Inventor
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810285135.5A priority Critical patent/CN108734089B/zh
Publication of CN108734089A publication Critical patent/CN108734089A/zh
Application granted granted Critical
Publication of CN108734089B publication Critical patent/CN108734089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明是关于一种识别图片文件中表格内容的方法、装置、设备及存储介质,属于图像识别技术领域。所述方法包括:获取待识别的目标图片文件;对目标图片文件进行字符识别处理,得到目标图片文件中的字符信息;将识别出的字符信息与预设词库进行匹配处理,以得到与预设词库匹配度大于第一阈值的表头字符;根据表头字符对应的字符信息,确定目标图片文件中包括的表格内容。由此,实现了对图片中包括的表格进行快速准确的识别,不仅提高了识别的准确性,还能减少识别操作所花费的时间,有效提升了用户的使用体验。

Description

识别图片文件中表格内容的方法、装置、设备及存储介质
技术领域
本发明涉及图像识别技术领域,特别涉及一种识别图片文件中表格内容的方法、装置、 设备及存储介质。
背景技术
光学字符识别技术(Optical Character Recognition,简称为:OCR),是一种通过检测暗、 亮模式确定图片中的字符形状,然后利用字符识别技术将字符的图像转换为计算机文字的过 程。即,针对印刷体字符,采用光学的方法将图片中的文字转换成为黑白点阵的图像文件, 并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
随着计算机技术的不断发展,将图片录入计算机***以方便用户使用成为一个强烈需求。 尤其是,将包含有表格的图片录入计算机***。目前,相关技术中,对包含有表格的图片进 行表格识别时,通常是首先将文档分成多个单元,然后对每个单元中包括的表格线进行识别, 在得到表格结构后,再对图片进行字符提取并识别。
然而,利用上述方式对图片中的表格进行识别时,不仅算法复杂,而且识别的效果受图 片质量影响较大,而且检测错误率高。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明一方面实施例提供一种识别图片文件中表格内容的方法,该方法包括:获 取待识别的目标图片文件;对所述目标图片文件进行字符识别处理,得到所述目标图片文件 中的字符信息;将识别出的字符信息与预设词库进行匹配处理,以得到与所述预设词库匹配 度大于第一阈值的表头字符;根据所述表头字符对应的字符信息,确定所述目标图片文件中 包括的表格内容。
本发明另一方面实施例提供一种识别图片文件中表格内容的装置,该装置包括:第一获 取模块,用于获取待识别的目标图片文件;处理模块,用于对所述目标图片文件进行字符识 别处理,得到所述目标图片文件中的字符信息;匹配模块,用于将识别出的字符信息与预设 词库进行匹配处理,以得到与所述预设词库匹配度大于第一阈值的表头字符;确定模块,用 于根据所述表头字符对应的字符信息,确定所述目标图片文件中包括的表格内容。
本发明又一方面实施例提供一种计算机设备,该计算机设备包括:存储器及处理器,所 述存储器存储有计算机程序,当所述处理器执行所述程序时,实现所述的识别图片文件中表 格内容的方法。
本发明再一方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序 被处理器执行时,实现所述的识别图片文件中表格内容的方法。
本发明实施例提供的识别图片文件中表格内容的方法、装置、设备及存储介质,通过获 取待识别的目标图片文件,以对目标图片文件进行字符识别处理,得到目标图片文件中的字 符信息,然后将识别出的字符信息与预设词库进行匹配处理,以得到与预设词库匹配度大于 第一阈值的表头字符,进而根据表头字符对应的字符信息,确定目标图片文件中包括的表格 内容。由此,实现了对图片中包括的表格进行快速准确的识别,不仅提高了识别的准确性, 还能减少识别操作所花费的时间,从而有效提升了用户的使用体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制 本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并 与说明书一起用于解释本发明的原理。
图1是根据本发明一示例性实施例示出的识别图片文件中表格内容的方法的流程示意 图;
图2是根据本发明一示例性实施例示出的识别图片文件中表格内容的方法的流程示意 图;
图3(a)是根据本发明一示例性实施例示出的表格样式示意图;
图3(b)是根据本发明一示例性实施例示出的添加目标图片的示意图;
图3(c)是根据本发明一示例性实施例示出的确定出目标图片的格式及对应字符内容的 示意图;
图3(d)是根据本发明一示例性实施例示出的对识别的字符内容进行筛选,确定结果为 数字内容的示意图;
图3(e)是根据本发明一示例性实施例示出的根据数字结果绘制对应的趋势折线图的示 意图;
图4是根据本发明一示例性实施例示出的选取与表头字符对应的内容字符的位置信息及 语义的流程示意图;
图5是根据本发明一示例性实施例示出的识别图片文件中表格内容的方法的流程示意 图;
图6是根据本发明一示例性实施例示出的识别图片文件中表格内容的装置的结构示意 图;
图7是根据本发明一示例性实施例示出的计算机设备的结构示意图;
图8是根据本发明一示例性实施例示出的计算机设备的结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文 字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域 技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时, 除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述 的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书 中所详述的、本发明的一些方面相一致的装置和方法的例子。
本发明各实施例针对现有的识别图片文件中表格内容的方法,不仅算法复杂,而且识别 的效果受图片质量影响较大,而且检测错误率高的问题,提出一种表格识别方法。
本发明实施例提供的识别图片文件中表格内容的方法,首先通过获取待识别的目标图片 文件,以对目标图片文件进行字符识别处理,得到目标图片文件中的字符信息,然后将识别 出的字符信息与预设词库进行匹配处理,以得到与预设词库匹配度大于第一阈值的表头字符, 进而根据得到的表头字符对应的字符信息,确定目标图片文件中包括的表格内容。由此,实 现了对图片中包括的表格进行快速准确的识别,不仅提高了识别的准确性,还能减少识别操 作所花费的时间,从而有效提升了用户的使用体验。
下面结合附图,对本发明提供的识别图片文件中表格内容的方法、装置、设备及存储介 质进行详细说明。
首先结合图1,对本发明实施例提供的识别图片文件中表格内容的方法进行详细说明。
图1是根据本发明一示例性实施例示出的识别图片文件中表格内容的方法的流程示意 图。
如图1所示,该识别图片文件中表格内容的方法可以包括以下步骤:
步骤101,获取待识别的目标图片文件。
可选的,本发明实施例提供的识别图片文件中表格内容的方法,可以由本发明实施例提 供的计算机设备执行。其中,计算机设备中设置有识别图片文件中表格内容的装置,以通过 识别图片文件中表格内容的装置对待识别的目标图片文件中表格内容识别过程进行管理或控 制。本实施例计算机设备可以是任一具有数据处理功能的硬件设备,比如电脑、个人数字助 理等等。
其中,在本实施例中,待识别的目标图片文件,可以是任意具有表格内容的图片文件, 本实施例对此不作具体限定。
在本申请一种可选的实现形式中,可以从设备的本地图片库中,获取任意具有表格内容 的图片文件作为待识别的目标图片文件;或者,可以向服务端发送具有表格内容的图片文件 获取请求,以实现从服务端实时获取待识别的目标图片文件等等,此处对其不作具体限定。
步骤102,对目标图片文件进行字符识别处理,得到目标图片文件中的字符信息。
其中,在本实施例中,字符信息可以包括字符形状、语义及字符位置信息等,此处不作 具体限定。
其中,“字符形状”,用于表示字符的书写及呈现方式,“字符语义”,用于表示字符的含 义,“字符位置信息”,用于表示字符在目标图片文件中的位置。
可选的,在获取到目标图片文件之后,识别图片文件中表格内容的装置可利用现有技术 中的字符识别技术,比如:ORC技术,对目标图片文件进行字符识别处理,以得到目标图片 文件中的字符信息。
步骤103,将识别出的字符信息与预设词库进行匹配处理,以得到与预设词库匹配度大 于第一阈值的表头字符。
其中,预设词库中包括各种表头字符。其可以是通过收集大量词语,并对大量词语进行 分析处理得到的;或者,也可以是人工自定义设置的;或者,还可以是通过对不同领域所涉 及的大量词语进行处理,得到不同领域所对应的词库等等,本实施例对此不作具体限定。
例如,以医学领域的体检报告为例进行说明,体检报告通常包括:项目、结果、参考值、 单位等类型的表头,并且不同医院的体检报告所用的表头可能存在差别,比如:项目类的表 头通常包括:“项目”、“项目名称”、“项目全称”、“检验项目”、“中文名称”、“中文名”等等, 结果类的表头通常包括:“结果”、“检查结果”、“检测结果”、“测定结果”、“实际数值”、“检 测值”、“定量结果”等等,那么通过对上述多个内容进行分析处理,即可得到医学领域对应的 预设词库。
在本实施例中,第一阈值可以根据实际需要进行适应性设置,比如0.90,0.92等,此处 对其不作具体限定。
在本申请一种可选的实现形式中,在得到目标图片文件中的字符信息之后,识别图片文 件中表格内容的装置即可利用预设词库,与识别出的字符信息进行匹配操作,以获取到匹配 度大于第一阈值的表头字符。
例如,若对目标图片文件识别后,确定目标图片文件中的字符信息为“检查项目”、“白蛋 白”、“体重”、“参考值”,且第一阈值为0.90。那么当上述字符信息与预设词库进行匹配处理, 得到“检查项目”和“参考值”与预设词库间的匹配度大于0.90时,则可以确定“检查项目”和“参 考值”为表头字符。
步骤104,根据表头字符对应的字符信息,确定目标图片文件中包括的表格内容。
可选的,当确定出表头字符之后,识别图片文件中表格内容的装置即可根据表头字符对 应的字符信息,对目标图片文件中包括的表格内容进行确定。
一种可选的实现形式中,首先可以先对表头字符对应的字符信息进行分析,以确定该表 头字符所属的领域,然后根据确定的领域及表头字符对应的字符信息,即可得到目标图片文 件中表格格式及表格内容。
本发明实施例提供的识别图片文件中表格内容的方法,通过获取待识别的目标图片文件, 以对目标图片文件进行字符识别处理,得到目标图片文件中的字符信息,然后将识别出的字 符信息与预设词库进行匹配处理,以得到与预设词库匹配度大于第一阈值的表头字符,进而 根据表头字符对应的字符信息,确定目标图片文件中包括的表格内容。由此,实现了对图片 中包括的表格进行快速准确的识别,不仅提高了识别的准确性,还能减少识别操作所花费的 时间,从而有效提升了用户的使用体验。
通过上述分析可知,本发明实施例通过获取目标图片文件中字符信息,以根据字符信息, 得到表头字符,然后根据表头字符对应的字符信息,确定目标图片文件中包括的表格内容。 在一种可选的实现形式中,由于获取的字符信息中可以包括字符语义及字符位置信息,因此 为了更准确的确定表头字符,本实施例可以首先根据预设词库,确定目标字符集,然后再根 据字符信息中的字符语义,确定字符信息对应的表格样式,从而根据表格样式确定目标位置 信息,进而根据目标位置信息及目标字符集对应的位置信息,获取表头字符。下面结合图2, 对本发明识别图片文件中表格内容的方法的上述过程进行具体说明。
如图2所示,该识别图片文件中表格内容的方法可以包括以下步骤:
步骤201,获取待识别的目标图片文件。
步骤202,对目标图片文件进行字符识别处理,得到目标图片文件中的字符信息。
其中,字符信息包括:字符语义及字符位置信息。字符位置信息,可以包括字符在目标 图片文件中的第一方向坐标及第二方向坐标。
在实际使用时,可以首先为目标图片文件定义一个坐标系,比如目标图片文件的左上角 为坐标系原点,由原点出发向右为X轴正方向,向下为y轴正方向。相应的,上述第一方向 坐标可以是X轴坐标,第二方向坐标可以是Y轴坐标;或者,第一方向坐标可以是Y轴坐标,第二方向坐标可以是X轴坐标,本实施例对此不作具体限定。
在本实施例中,目标图片文件可以是任一格式的图片,比如BMP、TIF、JPG、PDF等,此处对其不作具体限定。
一种可选的实现方式,可利用现有技术中的字符识别技术,比如:OCR技术,对目标图 片文件进行字符识别处理,以得到目标图片文件中的字符语义及字符位置信息。
步骤203,将识别出字符信息与预设词库进行匹配处理,以得到与预设词库匹配度大于 第一阈值的目标字符集。
可选的,在本实施例中,在获取到目标图片文件中的字符语义及字符位置信息之后,识 别图片文件中表格内容的装置可利用预设词库,与字符信息进行匹配操作,以获取到匹配度 大于第一阈值的目标字符集。
由于在实际应用过程中,目标图片文件可能会涉及任意一个领域,因此为了提高对目标 图片文件识别的准确性,本实施例在将字符信息与预设词库进行匹配操作之前,可以首先通 过对识别的字符语义进行分析,以根据字符的语义确定出对应的目标词库。也就是说,通过 对字符语义进行分析,以根据字符语义所属领域,确定出与上述领域对应的预设词库,从而 有效提升对目标图片文件的识别准确性。
举例来说,若分析得出字符语义主要涉及医学领域,那么可以将医学领域对应的预设词 库,确定为目标词库;又例如,若分析得出字符语义主要涉及金融领域,那么可以将金融领 域对应的预设词库,确定为目标词库。
进一步的,在确定出字符信息对应的目标词库之后,识别图片文件中表格内容的装置可 将字符信息中包括的字符与目标词库进行匹配处理,得到字符与目标词库间的匹配度大小, 然后将匹配度大小与第一阈值进行比对,并将匹配度大于第一阈值的字符,作为目标字符集。
例如,若对目标图片文件识别后,确定目标图片文件中包括的字符为“检查项目”、“白蛋 白”、“体重”、“参考值”,且第一阈值为0.90。通过对上述各字符的语义进行分析后,确定该 目标图片文件中的字符涉及医学领域,进而即可获取医学领域的词库,然后判断上述各字符 与医学领域的词库的匹配度,若“检查项目”和“参考值”与预设词库间的匹配度大于0.90时, 则可以确定“检查项目”和“参考值”作为目标字符集。
步骤204,根据字符信息中的字符语义,确定字符信息对应的表格样式。
步骤205,根据表格样式,确定目标位置信息。
在一种可选的实现形式中,由于不同领域的表格样式不同,因此为了能够准确可靠的获 取到表头字符,本实施例可以首先根据目标图片文件中字符信息中的字符语义,对字符信息 对应的表格样式进行确定;然后再根据确定的表格样式,确定出目标位置信息。
也就是说,当目标图片文件中字符信息中的字符语义所涉及的领域不同时,目标图片文 件中包括的表格样式也不相同。例如,若目标图片文件中字符信息中的字符语义涉及医学领 域,那么确定出表格样式可能如图3(a)所示,从而即可确定表头字符间的位置关系为行坐 标相同。
步骤206,根据目标位置信息及目标字符集对应的位置信息,从目标字符集中获取表头 字符。
可选的,当确定出目标位置信息之后,识别图片文件中表格内容的装置即可根据目标位 置信息及目标字符集对应的位置信息,从目标字符集中获取表头字符。
作为一种可选的实现方式,当确定出表头字符为第二方向坐标相同,且第二方向为Y轴 方向,那么识别图片文件中表格内容的装置可根据Y轴方向坐标相同的规则,在目标字符集 中筛选出表头字符;或者,当确定出表头字符为第一方向坐标相同,即第一方向为X轴方向 坐标相同时,那么识别图片文件中表格内容的装置可根据X轴方向坐标相同的规则,在目标 字符集中筛选出表头字符。
举例说明,若目标字符集中字符及字符的位置信息分别为:“序号,(X1,Y1)”、“检查 项目,(X2,Y1)”、“血压,(X2,Y2)”、“检查结果,(X3,Y1)”、“45,(X3,Y3)”、“参 考值,(X4,Y1)”,且确定的目标位置信息为:Y轴方向坐标相同。那么识别图片文件中表 格内容的装置可以Y轴方向坐标相同的规则,确定出表头字符分别为:“序号,(X1,Y1)”、 “检查项目,(X2,Y1)”、“检查结果,(X3,Y1)”和“参考值,(X4,Y1)”。
步骤207,根据表头字符的位置信息及语义,从字符信息中选取与表头字符对应的内容 字符的位置信息及语义。
具体的,在确定出表头字符之后,为了对表格的内容进行完善,识别图片文件中表格内 容的装置可根据表头字符的位置信息及语义,从字符信息中选取与表头字符位置及语义对应 的字符,作为内容字符,以及获取内容字符的位置信息及语义。
为了清楚的说明上述示例,下面结合图4,对上述根据表头字符的位置信息及语义,从 字符信息中选取与表头字符对应的内容字符的位置信息及语义的过程进行详细说明。
需要说明的是,在本实施例中,字符位置信息,包括字符第一方向坐标、第二方向坐标。
如图4所示,选取与表头字符对应的内容字符的位置信息及语义,可包括以下步骤:
步骤401,根据任一表头字符的第一方向坐标或第二方向坐标,确定内容字符的第一方 向坐标范围或第二方向坐标范围。
可选的,当识别图片文件中表格内容的装置确定出表头字符之后,可根据表头字符的位 置信息,确定出内容字符的第一方向坐标范围或第二方向坐标范围。
在实际应用中,由于识别图片文件中表格内容的装置,确定的表头字符的位置信息可能 存在误差,或者内容字符长度参差不齐,因此为了能够准确的获取与表头字符对应的内容字 符,本实施例可以根据表头字符的位置信息,确定内容字符的第一方向坐标范围或第二方向 坐标范围。举例来说,可在表头字符的位置信息基础上,分别在第一方向坐标和第二方向坐 标上加上一个附加范围,即当表头字符的位置信息为(X,Y)时,确定内容字符第一方向的 坐标范围可以为(X-Δ,X+Δ);或者,在第二方向坐标范围为:(Y-Δ,Y+Δ)等等,本实 施例对此不作具体限定。
可以理解的是,在确定内容字符的坐标范围时,可以首先根据各表头字符的位置关系, 确定内容字符与表头字符的位置关系,进而再确定内容字符对应的坐标范围。
举例来说,若根据表头字符的位置,确定各表头字符位于同一行,那么可以确定与表头 字符对应的内容字符与表头字符的行坐标相近,从而即可根据各表头字符的X方向坐标x1, 确定各内容字符行坐标范围为(x1-Δ,x1+Δ)。
相应的,若根据表头字符的位置,确定各表头字符位于同一列,那么则可以确定与表头 字符对应的内容字符与表头字符的纵坐标相近,从而既可根据各表头字符的Y方向坐标y1, 确定各内容字符列坐标范围为(y1-Δ,y1+Δ)。
步骤402,从字符信息中选取位置信息符合第一方向坐标范围或第二方向坐标范围的初 选字符集。
步骤403,根据任一表头字符的语义,从初选字符集中,选取与任一表头字符的语义匹 配的字符为任一表头字符对应的内容字符。
具体的,为了提高对表头字符对应的内容字符获取精准度,本实施例识别图片文件中表 格内容的装置,还可在获取到初选字符集之后,基于表头字符的语义,对初选字符集进行分 析,以从初选字符集中,选择出与表头字符语义相匹配的字符,作为表头字符对应的内容字 符。
可以理解的是,本实施例通过根据表头字符的位置信息,先确定内容符号的坐标位置范 围,以从字符信息中选择出位置信息处于第一方向坐标范围或第二方向坐标范围的初选字符 集,然后再根据表头字符的语义,从初选字符集中,选择出与表头字符语义相匹配的字符作 为表头字符对应的内容字符,有效提高了对表头字符对应的内容字符的获取准确性。
步骤208,根据表头字符的位置信息及语义、内容字符的位置信息及语义,生成目标图 片文件中包括的表格。
具体的,在获取到目标图片文件的表头字符的位置信息及语义、内容字符的位置信息及 语义之后,识别图片文件中表格内容的装置即可根据上述信息,生成目标图片文件中包括的 表格。
在实际应用时,由于表格中字符可能因为对齐方式等原因,将一个词语分成两个版面上 离得较远的词,这就容易使得上述词语被识别成两个独立的字符。例如:“项目”被识别成“项” 和“目”;又例如,将“单位”识别成“单”和“位”的两个独立的字符;
或者,因为表格所属领域中相同语义的词语会有多种,因此为了将不同语义的词语进行 统一,以形成相对统一的结构化数据,方便后续存储和使用,本实施例识别图片文件中表格 内容的装置,可结合表头字符的语义分析,或同义词合并等方式,将具有相同语义的词语进 行归一化处理。例如,体检报告模版包括:“项目”、“单位”、“参考值”、“单位”等四项,那么 可将表头字符为“项目”、“项目名称”、“项目全称”、“检验项目”、“中文名”等词语归类为“项 目”,其它以此类推。
进一步的,还可以利用预设的词库、或者根据合并后的词语的语义,对表头字符及内容 字符进行纠错处理,比如若将“项目”识别成了“项且”,那么通过语义分析,可知“且”为错别 字,进而即可将字符“项且”纠正为“项目”。
也就是说,根据表头字符的位置信息及语义、内容字符的位置信息及语义,生成目标图 片文件中包括的表格之前,本实施例识别图片文件中表格内容的装置,可利用预设词库,对 表头字符及内容字符进行归一化及词语合并处理,从而使得后续管理和加工更方便。
下面结合图3(b)-图3(e),对上述实施例进行进一步解释说明:
若本实施例中目标图片文件为用户利用设备采集的不同时间段的纸质体检报告,那么为 了实现对用户纸质体检报告,建立对应的电子版体检档案,用户可将拍摄的纸质体检报告添 加到建立电子版体检档案的应用中,具体如图3(b),然后当建立电子版体检档案的应用检 测到用户添加的体检报告图片后,可利用字符识别功能从体检报告图片中,确定出体检报告 的表格样式及对应的字符内容,如图3(c),进一步的为了方便用户了解体检报告中各项指标 的高低、走势,还可对识别的字符内容进行筛选,以选出结果为数字的内容,如图3(d), 然后根据提取的数字结果,例如总胆红素,绘制总胆红素对应的趋势折线图,具体如图3(e), 从而使得用户可以根据生成的趋势折线图,清楚明白的了解自身的各项指标是否处于正常水 平。
本发明实施例提供的识别图片文件中表格内容的方法,通过首先获取待识别的目标图片 文件,然后对目标图片文件进行字符识别处理,以得到目标图片文件中的字符信息,并将识 别出的字符信息与预设词库进行匹配处理,以得到与预设词库匹配度大于第一阈值的目标字 符集,然后根据字符信息中的字符语义,确定字符信息对应的表格样式,从而根据表格样式, 确定目标位置信息,进而根据目标位置信息及目标字符集对应的位置信息,从目标字符集中 获取表头字符,然后根据表头字符的位置信息及语义,从字符信息中选取与表头字符对应的 内容字符的位置信息及语义,从而根据表头字符的位置信息及语义,内容字符的位置信息及 语义,生成目标图片文件中包括的表格。由此,实现了对图片中包括的表格进行快速准确的 识别,不仅提高了识别的准确性,还能减少识别操作所花费的时间,从而有效提升了用户的 使用体验。
通过上述分析可知,本发明实施例通过获取目标图片文件的字符位置信息,以根据字符 位置信息确定表头字符,然后根据表头字符的位置信息及语义,从字符信息中选取与表头字 符对应的内容字符的位置信息及语义,以根据表头字符的位置信息及语义、内容字符的位置 信息及语义,生成目标图片文件中包括的表格。在具体实现时,由于识别图片文件中表格内 容的装置识别到的字符位置信息,包括的字符第一方向坐标或第二方向坐标可能存在误差, 从而使得根据字符第一方向坐标或第二方向坐标,确定表头字符或内容字符时,可能出现由 于字符位置信息错误,而导致字符类型识别错误的情况,因此,本发明实施例中,在根据字 符位置信息,确定表头字符或内容字符之前,可以首先对字符位置信息进行修正。
在实际使用时,由于识别图片文件中表格内容的装置识别到的字符位置信息中还包括字 符在第一方向的宽度和在第二方向的宽度。因此,本实施例在确定字符是否为表头字符时, 还可先根据字符在第一方向坐标及第二方向坐标,以及字符在第一方向的宽度和在第二方向 的宽度,对字符位置信息进行修正,进而再根据修正后的位置信息,确定表头字符或内容字 符。下面结合图5,对本发明识别图片文件中表格内容的方法的上述过程进行具体说明。
图5是根据本发明一示例性实施例示出的识别图片文件中表格内容的方法的流程示意 图。
需要说明的是,为了更清楚的说明该实施例,本实施例可先对目标图片文件定义一个坐 标系,比如以目标图片文件的左上角为坐标原点,由原点出发向右为X轴正方向,向下为Y 轴正方向。相应的,可将第一方向坐标定义为X轴坐标(即横坐标),第二方向坐标定义为Y 轴坐标(即纵坐标),从而实现根据上述定义的内容对该实施例进行详细说明。
如图5所示,该识别图片文件中表格内容的方法可以包括以下步骤:
步骤501,获取待识别的目标图片文件。
步骤502,对目标图片文件进行字符识别处理,得到目标图片文件中的字符信息。
其中,字符信息包括字符语义及字符位置信息,所述字符位置信息,包括字符在目标图 片文件中的第一方向坐标(即X轴坐标)及第二方向坐标(即Y轴坐标)、字符在第一方向 的宽度和在第二方向的宽度。
由于该步骤的实现方式与上述示例的实现方式类似,在此对其不作过多赘述,具体参见 步骤102或步骤202。
步骤503,将字符信息按第一方向坐标由小到大的顺序进行依次遍历,判断第j个字符与 第i个字符在第二方向的坐标是否相同,若不相同,则执行步骤504,否则,执行步骤508。
其中,第j个字符与第i个字符间相邻字符的第一方向坐标的差值均在预设范围内,i和 j均为正整数,且j大于i。
本实施例中预设范围,可以根据实际字符间的位置信息进行适应性设置,比如,预设范 围可以根据字符宽度确定,或者,根据通常的字符间距确定等,本实施例对此不作具体限定。
可选的,当获取到目标图片文件中的字符信息之后,识别图片文件中表格内容的装置可 按照字符信息的第一方向坐标从小到大的顺序依次进行遍历,以判断第j个字符与第i个字符 在第二方向的坐标是否相同。若相同,则说明各字符处于同一行,若不相同,则说明各字符 处于不同行。
其中,第j个字符和第i个字符可以是识别的字符中任意两个不相同的字符,本实施例对 此不作具体限定。
也就是说,通过将字符信息中字符的X轴坐标作为为自变量,以由小到大的顺序对字符 的Y轴坐标是否相同进行确定。其中,当字符的Y轴坐标相同时,即可确定字符处于同一行; 当字符的Y轴坐标不相同时,即可确定字符处于不同行,从而实现了对各坐标的位置信息是 否正确进行准确判定。
例如,若字符A的第一方向坐标为X1,第二方向坐标为Y1,字符B的第一方向坐标为X2,第二方向坐标为Y2,那么当Y1=Y2时,则说明字符A和字符B处于同一行;当Y1≠Y2 时,则说明字符A和字符B处于不同行。
步骤504,根据第j个字符的第二方向的宽度及第i个字符的第二方向的宽度,确定第j 个字符与第i个字符在第二方向的重合度。
具体实现时,可通过公式(1),确定第j个字符与第i个字符在第二方向的重合度:
其中,ri表示第i个字符,yi表示第i个字符的第二方向坐标,hi表示第i个字符的第二 方向的宽度,rj表示第j个字符,yj表示第j个字符的第二方向坐标,hj表示第j个字符的第 二方向的宽度。
步骤505,判断第j个字符与第i个字符在第二方向的重合度,是否大于第三阈值,若大 于,则执行步骤506,否则执行步骤508。
其中,第三阈值可根据经验进行取值,本实施例对此不作具体限定。比如,第三阈值可 以设置为第i个字符与第j个字符在第二方向的宽度中的最小值的一半。
举例说明,若第三阈值为第j个字符与第i个字符在第二方向的宽度最小值的一半,且第 j个字符的第二方向的坐标为2,第二方向的宽度为1,第i个字符的第二方向的坐标为2.1, 第二方向的宽度为0.9,那么基于上述公式(1),可以确定出第j个字符与第i个字符的重合 度大于第三阈值。
步骤506,对第j个字符和/或第i个字符在第二方向的坐标进行修正。
具体的,当确定第j个字符与第i个字符在第二方向的重合度大于第三阈值,则说明第j 个字符与第i个字符实际上是处于同一行的。因此为了减少后续对字符类型误判的可能,对 于上述重合度大于第三阈值的第j个字符和第i个字符,按照对齐方法对第j个字符和/或第i 个字符在第二方向的坐标进行修正,以使第j个字符与第i个字符在第二方向的坐标相同。
在具体对第j个字符和/或第i个字符在第二方向的坐标进行修正时,为了提高修正的效 果,本实施例可先根据第i个字符的第二方向坐标及第j个字符的第二方向坐标,确定出目标 第二方向坐标范围,然后从识别的各字符中选取出处于目标第二方向坐标范围的多个字符, 从而根据选取的多个字符的第二方向坐标,对第j个字符和/或第i个字符在第二方向的坐标 进行修正。
即:根据第i个字符的第二方向坐标及第j个字符的第二方向坐标,确定目标第二方向坐 标范围;
选取第二方向坐标属于目标第二方向坐标范围内的k个字符;
根据k个字符的第二方向坐标,对第j个字符和/或第i个字符在第二方向的坐标进行修 正。
可以理解的是,在本实施例中,对第j个字符和/或第i个字符在第二方向的坐标进行修 正,可以是对第j个字符在第二方向的坐标进行修正;或者,对第i个字符在第二方向的坐标 进行修正;或者,对第j个字符及第i个字符在第二方向的坐标进行修正,本实施例对此不作 具体限定。
步骤507,第j个字符与第i个字符处于不同行。
步骤508,第j个字符与第i字符处于同一行。
在实际应用过程中,由于目标图片文件的识别处理可能会导致目标图片文件畸变,或者 对字符信息中字符位置信息的识别出现误差,从而导致对各字符是否在第二方向坐标相同的 判断出现误差。
对此,为了减少上述缺陷导致判断结果不准确的情况发生,在本发明的一个可能实现情 景中,识别图片文件中表格内容的装置可以从字符信息中选择与第j个字符在第二方向的坐 标最接近的第i个字符进行比对,以确定第j个字符与第i个字符在第二方向的坐标是否相同。 若相同,则确定第j个字符与第i个字符处于同一行,若不相同,则根据第j个字符的第二方 向的宽度及第i个字符的第二方向的宽度,确定第j个字符与第i个字符在第二方向的重合度, 并判断重合度是否大于第三阈值,若大于,则说明第j个字符与第i个字符实际上处于同一行, 此时为了避免后续对字符类型识别出现误判,可对第j个字符和/或第i个字符在第二方向的 坐标进行修正,以使第j个字符与第i个字符在第二方向的坐标相同;否则,处于不同行。
步骤509,将字符信息与预设词库进行匹配处理,以得到与预设词库匹配度大于第一阈 值的目标字符集。
步骤510,根据字符信息中的字符语义,确定字符信息对应的表格样式。
步骤511,根据表格样式,确定目标位置信息。
步骤512,根据目标位置信息及目标字符集对应的位置信息,从目标字符集中获取表头 字符。
步骤513,根据表头字符的位置信息及语义,从字符信息中选取与表头字符对应的内容 字符的位置信息及语义。
步骤514,根据表头字符的位置信息及语义、内容字符的位置信息及语义,生成目标图 片文件中包括的表格。
需要说明的是,上述步骤509-514的具体实现过程及原理,可以参照上述实施例的详细 描述,此处不再赘述。
同样的,当识别图片文件中表格内容的根据字符在第一方向的宽度,以及字符第一方向 的坐标及第二方向的坐标,对字符的位置信息进行修正时,与上述根据字符在第二方向的宽 度,以及字符第一方向的坐标及第二方向的坐标,对字符的位置信息进行修正的过程类似, 区别仅在于:
对目标图片文件识别处理得到的字符信息进行遍历操作时,按第二方向坐标(即Y轴坐 标)由小到大的顺序进行依次遍历,并判断第j个字符与第i个字符在第一方向的坐标(即X 轴坐标)是否相同。若相同,则说明第j个字符与第i个字符处于同一列,若不相同,则根据 第j个字符的第一方向的宽度及第i个字符的第一方向的宽度,确定第j个字符与第i个字符 在第一方向的重合度,并确定重合度是否大于第三阈值。
若确定重合度小于第三阈值,则说明第j个字符与第i个字符处于不同列;若确定重合度 大于第三阈值时,则可以确定第j个字符与第i个字符在第一方向的坐标实际上是相同的,因 此为了减少后续对字符类型识别的误判概率,本实施例可对第j个字符或第i个字符在第一方 向的坐标进行修正,以使第j个字符或第i个字符在第一方向的坐标相同。具体对第j个字符 或第i个字符在第一方向的坐标进行修正时可以包括:根据第j个字符的第一方向坐标及第i 个字符的第一方向坐标,确定目标第一方向坐标范围;选取第一方向坐标属于目标第一方向 坐标范围内的m个字符;根据m个字符的第一方向坐标,对第j个字符和/或第i个字符在第 一方向的坐标进行修正。
其中,第三阈值可以是第j个字符与第i个字符在第一方向的宽度中最小值的一半等等, 本实施例对此不作具体限定。
可以理解的是,在本实施例中,对第j个字符和/或第i个字符在第二方向的坐标进行修 正,可以是对第j个字符在第二方向的坐标进行修正;或者,对第i个字符在第二方向的坐标 进行修正;或者,对第j个字符及第i个字符在第二方向的坐标进行修正,本实施例对此不作 具体限定。
本发明实施例提供的识别图片文件中表格内容的方法,通过对目标图片文件进行字符识 别,以得到目标图片文件中的字符在目标图片中的第一方向坐标及第二方向坐标,以及字符 在第一方向的宽度及在第二方向的宽度,然后将字符按照第一方向坐标由小到大的顺序进行 遍历,以判断第j个字符与第i个字符在第二方向的坐标是否相同,若不相同则判断第j个字 符与第i个字符在第二方向的重合度,并判断重合度是否大于阈值,若大于则对第j个字符或 第i个字符在第二方向的坐标进行修正,然后将字符信息与预设词库进行匹配,得到目标字 符集,然后根据字符信息中字符语义,确定表格样式,并根据表格样式,确定目标位置信息, 根据目标位置信息及目标字符集对应的位置信息,获取表头字符,然后根据表头字符的位置 信息及语义,从字符信息中选取与表头字符对应的内容字符的位置信息及语义,从而根据表 头字符的位置信息及语义,内容字符的位置信息及语义,生成目标图片文件中包括的表格。 由此,实现了对图片中包括的表格进行快速准确的识别,不仅提高了识别的准确性,还能减 少识别操作所花费的时间,从而有效提升了用户的使用体验,并且为后续用户的使用提供了 有利条件。
在示例性实施例中,还提供了一种识别图片文件中表格内容的装置。
图6是根据本发明一示例性实施例示出的识别图片文件中表格内容的装置的结构示意 图。
参照图6所示,本发明的识别图片文件中表格内容的装置包括:第一获取模块110、处 理模块120、匹配模块130及确定模块140。
其中,第一获取模块110用于获取待识别的目标图片文件;
处理模块120用于对所述目标图片文件进行字符识别处理,得到所述目标图片文件中的 字符信息;
匹配模块130用于将识别出的字符信息与预设词库进行匹配处理,以得到与所述预设词 库匹配度大于第一阈值的表头字符;
确定模块140用于根据所述表头字符对应的字符信息,确定所述目标图片文件中包括的 表格内容。
需要说明的是,前述对识别图片文件中表格内容的方法实施例的解释说明也适用于该实 施例的识别图片文件中表格内容的装置,其实现原理类似,此处不再赘述。
本发明实施例提供的识别图片文件中表格内容的装置,通过获取待识别的目标图片文件, 以对目标图片文件进行字符识别处理,得到目标图片文件中的字符信息,然后将识别出的字 符信息与预设词库进行匹配处理,以得到与预设词库匹配度大于第一阈值的表头字符,进而 根据表头字符对应的字符信息,确定目标图片文件中包括的表格内容。由此,实现了对图片 中包括的表格进行快速准确的识别,不仅提高了识别的准确性,还能减少识别操作所花费的 时间,从而有效提升了用户的使用体验。
在示例性实施例中,还提供了一种计算机设备。
图7是根据一示例性实施例示出的计算机设备的结构示意图。图7显示的计算机设备仅 仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
参照图7,该计算机设备200包括:存储器210及处理器220,所述存储器210存储有计 算机程序,所述计算机程序被处理器220执行时,使得所述处理器220执行如下步骤:获取 待识别的目标图片文件;对所述目标图片文件进行字符识别处理,得到所述目标图片文件中 的字符信息;其中,所述字符信息包括字符形状、语义及字符位置信息;将识别出的字符信 息与预设词库进行匹配处理,以得到与所述预设词库匹配度大于第一阈值的表头字符;根据 所述表头字符对应的字符信息,确定所述目标图片文件中包括的表格内容。
在一个实施例中,所述字符信息包括字符语义及字符位置信息;所述得到与所述预设词 库匹配度大于第一阈值的表头字符,包括:将识别出的字符信息与预设词库进行匹配处理, 以得到与所述预设词库匹配度大于第一阈值的目标字符集;根据所述字符信息中的字符语义, 确定所述字符信息对应的表格样式;根据所述表格样式,确定目标位置信息;根据所述目标 位置信息及所述目标字符集对应的位置信息,从所述目标字符集中获取表头字符。
在一个实施例中,所述确定所述目标图片文件中包括的表格内容之前,还包括:利用所 述预设词库,对所述表头字符及所述内容字符进行归一化及词语合并处理。
在一个实施例中,所述根据所述表头字符对应的字符信息,确定所述目标图片文件中包 括的表格内容,包括:根据所述表头字符的位置信息及语义,从所述字符信息中选取与所述 表头字符对应的内容字符的位置信息及语义;根据所述表头字符的位置信息及语义、所述内 容字符的位置信息及语义,生成所述目标图片文件中包括的表格。
在一个实施例中,所述字符位置信息,包括字符第一方向坐标、第二方向坐标;所述从 所述字符信息中选取与所述表头字符对应的内容字符的位置信息及语义,包括:根据任一表 头字符的第一方向坐标或第二方向坐标,确定与所述任一表头字符对应的目标内容字符的第 一方向坐标范围或第二方向坐标范围;从所述字符信息中选取位置信息符合所述第一方向坐 标范围或第二方向坐标范围的初选字符集;根据所述任一表头字符的语义,从所述初选字符 集中,选取与所述任一表头字符的语义匹配的字符为所述任一表头字符对应的内容字符。
在一个实施例中,所述字符信息包括字符位置信息,其中,字符位置信息,包括字符第 一方向坐标、第二方向坐标及字符在第二方向的宽度;所述得到所述目标图片文件中的字符 信息之后,还包括:将字符信息按第一方向坐标由小到大的顺序进行依次遍历,判断第j个 字符与第i个字符在第二方向的坐标是否相同,其中,第j个字符与第i个字符间各相邻字符 的第一方向坐标的差值均在预设范围内,i和j均为正整数,且j大于i;若所述第j个字符与 第i个字符在第二方向的坐标不同,则根据所述第j个字符的第二方向的宽度及所述第i个字 符的第二方向的宽度,确定所述第j个字符与所述第i个字符在第二方向的重合度;判断所述 第j个字符与所述第i个字符在第二方向的重合度,是否大于第三阈值;若大于,则对所述第 j个字符和/或所述第i个字符在第二方向的坐标进行修正。
在一个实施例中,所述对所述第j个字符和/或所述第i个字符在第二方向的坐标进行修 正之前,还包括:根据第i个字符的第二方向坐标及所述第j个字符的第二方向坐标,确定目 标第二方向坐标范围;选取第二方向坐标属于所述目标第二方向坐标范围内的k个字符;根 据所述k个字符的第二方向坐标,对所述第j个字符和/或所述第i个字符在第二方向的坐标 进行修正。
在一个实施例中,所述字符位置信息,还包括第一方向的宽度;所述将所述字符信息按 第一方向坐标由小到大的顺序进行依次遍历之后,还包括:根据第j个字符的第一方向坐标 及所述第i个字符的第一方向坐标,确定目标第一方向坐标范围;选取第一方向坐标属于所 述目标第一方向坐标范围内的m个字符;根据所述m个字符的第一方向坐标,对所述第j个 字符和/或所述第i个字符在第一方向的坐标进行修正。
在一个实施例中,所述字符信息包括字符语义;所述将识别出的字符信息与预设词库进 行匹配处理之前,还包括:根据所述字符语义,确定目标词库;所述将识别出的字符信息与 预设词库进行匹配处理,包括:将所述识别出的字符信息与所述目标词库进行匹配处理。
在一种可选的实现形式中,如图8所示,该计算机设备200还可以包括:存储器210及 处理器220,连接不同组件(包括存储器210和处理器220)的总线230,存储器210存储有计算机程序,当处理器220执行所述程序时实现本发明实施例所述的跨域数据传输方法。
总线230表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,*** 总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来 说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC) 总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总 线。
计算机设备200典型地包括多种计算机设备可读介质。这些介质可以是任何能够被计算 机设备200访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器210还可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器 (RAM)240和/或高速缓存存储器250。计算机设备200可以进一步包括其它可移动/不可移 动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***260可以用于读写不可 移动的、非易失性磁介质(图8未显示,通常称为“硬盘驱动器”)。尽管图8中未示出,可以 提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性 光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每 个驱动器可以通过一个或者多个数据介质接口与总线230相连。存储器210可以包括至少一 个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行 本发明各实施例的功能。
具有一组(至少一个)程序模块270的程序/实用工具280,可以存储在例如存储器210 中,这样的程序模块270包括——但不限于——操作***、一个或者多个应用程序、其它程 序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模 块270通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备200也可以与一个或多个外部设备290(例如键盘、指向设备、显示器291 等)通信,还可与一个或者多个使得用户能与该计算机设备200交互的设备通信,和/或与使 得该计算机设备200能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解 调器等等)通信。这种通信可以通过输入/输出(I/O)接口292进行。并且,计算机设备200 还可以通过网络适配器293与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/ 或公共网络,例如因特网)通信。如图所示,网络适配器293通过总线230与计算机设备200 的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备200使用其它硬件和/或 软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID ***、磁带驱动器以及数据备份存储***等。
需要说明的是,前述对识别图片文件中表格内容的方法实施例的解释说明也适用于该实 施例的计算机设备,其实现原理类似,此处不再赘述。
本发明实施例提供的计算机设备,通过获取待识别的目标图片文件,以对目标图片文件 进行字符识别处理,得到目标图片文件中的字符信息,然后将识别出的字符信息与预设词库 进行匹配处理,以得到与预设词库匹配度大于第一阈值的表头字符,进而根据表头字符对应 的字符信息,确定目标图片文件中包括的表格内容。由此,实现了对图片中包括的表格进行 快速准确的识别,不仅提高了识别的准确性,还能减少识别操作所花费的时间,从而有效提 升了用户的使用体验。
在示例性实施例中,本发明还提出了一种计算机可读存储介质。
上述计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现所述 的识别图片文件中表格内容的方法。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解 为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第 二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含 义是两个或两个以上,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或 “一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少 一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施 例或示例。而且,描述的具体特征或者特点可以在任一个或多个实施例或示例中以合适的方 式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实 施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或 更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且 本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根 据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所 属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现 逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行 ***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、 装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。 就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以 供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机 可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电 子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可 擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器 (CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介 质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他 合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施 方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件 来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术 中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻 辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门 阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以 通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程 序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个 单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以 采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功 能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介 质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本 发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领 域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种识别图片文件中表格内容的方法,其特征在于,包括:
获取待识别的目标图片文件;
对所述目标图片文件进行字符识别处理,得到所述目标图片文件中的字符信息;
将识别出的字符信息与预设词库进行匹配处理,以得到与所述预设词库匹配度大于第一阈值的表头字符;
根据所述表头字符对应的字符信息,确定所述目标图片文件中包括的表格内容。
2.如权利要求1所述的方法,其特征在于,所述字符信息包括字符语义及字符位置信息;
所述得到与所述预设词库匹配度大于第一阈值的表头字符,包括:
将识别出的字符信息与预设词库进行匹配处理,以得到与所述预设词库匹配度大于第一阈值的目标字符集;
根据所述字符信息中的字符语义,确定所述字符信息对应的表格样式;
根据所述表格样式,确定目标位置信息;
根据所述目标位置信息及所述目标字符集对应的位置信息,从所述目标字符集中获取表头字符。
3.如权利要求2所述的方法,其特征在于,所述确定所述目标图片文件中包括的表格内容之前,还包括:
利用所述预设词库,对所述表头字符及所述内容字符进行归一化及词语合并处理。
4.如权利要求2所述的方法,其特征在于,所述根据所述表头字符对应的字符信息,确定所述目标图片文件中包括的表格内容,包括:
根据所述表头字符的位置信息及语义,从所述字符信息中选取与所述表头字符对应的内容字符的位置信息及语义;
根据所述表头字符的位置信息及语义、所述内容字符的位置信息及语义,生成所述目标图片文件中包括的表格。
5.如权利要求4所述的方法,其特征在于,所述字符位置信息,包括字符第一方向坐标、第二方向坐标;
所述从所述字符信息中选取与所述表头字符对应的内容字符的位置信息及语义,包括:
根据任一表头字符的第一方向坐标或第二方向坐标,确定与所述任一表头字符对应的目标内容字符的第一方向坐标范围或第二方向坐标范围;
从所述字符信息中选取位置信息符合所述第一方向坐标范围或第二方向坐标范围的初选字符集;
根据所述任一表头字符的语义,从所述初选字符集中,选取与所述任一表头字符的语义匹配的字符为所述任一表头字符对应的内容字符。
6.如权利要求1所述的方法,其特征在于,所述字符信息包括字符位置信息,其中,字符位置信息,包括字符第一方向坐标、第二方向坐标及字符在第二方向的宽度;
所述得到所述目标图片文件中的字符信息之后,还包括:
将字符信息按第一方向坐标由小到大的顺序进行依次遍历,判断第j个字符与第i个字符在第二方向的坐标是否相同,其中,第j个字符与第i个字符间各相邻字符的第一方向坐标的差值均在预设范围内,i和j均为正整数,且j大于i;
若所述第j个字符与第i个字符在第二方向的坐标不同,则根据所述第j个字符的第二方向的宽度及所述第i个字符的第二方向的宽度,确定所述第j个字符与所述第i个字符在第二方向的重合度;
判断所述第j个字符与所述第i个字符在第二方向的重合度,是否大于第三阈值;
若大于,则对所述第j个字符和/或所述第i个字符在第二方向的坐标进行修正。
7.如权利要求6所述的方法,其特征在于,所述对所述第j个字符和/或所述第i个字符在第二方向的坐标进行修正之前,还包括:
根据第i个字符的第二方向坐标及所述第j个字符的第二方向坐标,确定目标第二方向坐标范围;
选取第二方向坐标属于所述目标第二方向坐标范围内的k个字符;
根据所述k个字符的第二方向坐标,对所述第j个字符和/或所述第i个字符在第二方向的坐标进行修正。
8.如权利要求6所述的方法,其特征在于,所述字符位置信息,还包括第一方向的宽度;
所述将所述字符信息按第一方向坐标由小到大的顺序进行依次遍历之后,还包括:
根据第j个字符的第一方向坐标及所述第i个字符的第一方向坐标,确定目标第一方向坐标范围;
选取第一方向坐标属于所述目标第一方向坐标范围内的m个字符;
根据所述m个字符的第一方向坐标,对所述第j个字符和/或所述第i个字符在第一方向的坐标进行修正。
9.如权利要求1-8任一所述的方法,其特征在于,所述字符信息包括字符语义;
所述将识别出的字符信息与预设词库进行匹配处理之前,还包括:
根据所述字符语义,确定目标词库;
所述将识别出的字符信息与预设词库进行匹配处理,包括:
将所述识别出的字符信息与所述目标词库进行匹配处理。
10.一种识别图片文件中表格内容的装置,其特征在于,包括:
第一获取模块,用于获取待识别的目标图片文件;
处理模块,用于对所述目标图片文件进行字符识别处理,得到所述目标图片文件中的字符信息;
匹配模块,用于将识别出的字符信息与预设词库进行匹配处理,以得到与所述预设词库匹配度大于第一阈值的表头字符;
确定模块,用于根据所述表头字符对应的字符信息,确定所述目标图片文件中包括的表格内容。
11.一种计算机设备,其特征在于,包括:存储器及处理器,所述存储器存储有计算机程序,其特征在于,当所述处理器执行所述程序时,实现如权利要求1-9任一所述的识别图片文件中表格内容的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现如权利要求1-9任一所述的识别图片文件中表格内容的方法。
CN201810285135.5A 2018-04-02 2018-04-02 识别图片文件中表格内容的方法、装置、设备及存储介质 Active CN108734089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810285135.5A CN108734089B (zh) 2018-04-02 2018-04-02 识别图片文件中表格内容的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810285135.5A CN108734089B (zh) 2018-04-02 2018-04-02 识别图片文件中表格内容的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN108734089A true CN108734089A (zh) 2018-11-02
CN108734089B CN108734089B (zh) 2023-04-18

Family

ID=63940603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810285135.5A Active CN108734089B (zh) 2018-04-02 2018-04-02 识别图片文件中表格内容的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN108734089B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726643A (zh) * 2018-12-13 2019-05-07 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN109740135A (zh) * 2018-12-19 2019-05-10 平安普惠企业管理有限公司 图表生成方法及装置、电子设备和存储介质
CN109871524A (zh) * 2019-02-21 2019-06-11 腾讯科技(深圳)有限公司 一种图表生成方法及装置
CN110059688A (zh) * 2019-03-19 2019-07-26 平安科技(深圳)有限公司 图片信息识别方法、装置、计算机设备和存储介质
CN110147774A (zh) * 2019-05-23 2019-08-20 阳光保险集团股份有限公司 表格式图片版面分析方法和计算机存储介质
CN110287854A (zh) * 2019-06-20 2019-09-27 北京百度网讯科技有限公司 表格的提取方法、装置、计算机设备和存储介质
WO2020098078A1 (zh) * 2018-11-12 2020-05-22 平安科技(深圳)有限公司 Ocr训练样本的生成方法、装置、设备及可读存储介质
CN111507230A (zh) * 2020-04-11 2020-08-07 创景未来(北京)科技有限公司 一种文档和表格数据的识别和提取方法及***
CN111683285A (zh) * 2020-08-11 2020-09-18 腾讯科技(深圳)有限公司 文件内容识别方法、装置、计算机设备及存储介质
CN111898528A (zh) * 2020-07-29 2020-11-06 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读介质及电子设备
WO2020232866A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 扫描文本分段方法、装置、计算机设备和存储介质
CN112115111A (zh) * 2019-06-20 2020-12-22 上海怀若智能科技有限公司 一种基于ocr的文档版本管理方法和***
WO2021042507A1 (zh) * 2019-09-02 2021-03-11 苏州朗动网络科技有限公司 pdf文档中表格数据的提取方法、设备和存储介质
CN112507909A (zh) * 2020-12-15 2021-03-16 信号旗智能科技(上海)有限公司 基于ocr识别的单证数据提取方法、装置、设备及介质
CN112509661A (zh) * 2021-02-03 2021-03-16 南京吉拉福网络科技有限公司 用于识别体检报告的方法、计算设备和介质
WO2021072885A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 识别文本的方法、装置、设备及存储介质
WO2021147222A1 (zh) * 2020-01-22 2021-07-29 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置、电子设备及存储介质
CN113449559A (zh) * 2020-03-26 2021-09-28 顺丰科技有限公司 一种表格识别方法、装置、计算机设备和存储介质
CN113504863A (zh) * 2021-06-02 2021-10-15 珠海金山办公软件有限公司 一种实现图片筛选的方法、装置、计算机存储介质及终端
CN113723301A (zh) * 2021-08-31 2021-11-30 广州新丝路信息科技有限公司 一种进口货物报关单ocr识别分行处理方法及装置
CN116127928A (zh) * 2023-04-17 2023-05-16 广东粤港澳大湾区国家纳米科技创新研究院 表格数据识别方法、装置、存储介质及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184265A (zh) * 2015-09-14 2015-12-23 哈尔滨工业大学 一种基于自学习的手写表格数字字符串快速识别的方法
JP2016009223A (ja) * 2014-06-23 2016-01-18 株式会社日立情報通信エンジニアリング 光学文字認識装置及び光学文字認識方法
US20160055376A1 (en) * 2014-06-21 2016-02-25 iQG DBA iQGATEWAY LLC Method and system for identification and extraction of data from structured documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055376A1 (en) * 2014-06-21 2016-02-25 iQG DBA iQGATEWAY LLC Method and system for identification and extraction of data from structured documents
JP2016009223A (ja) * 2014-06-23 2016-01-18 株式会社日立情報通信エンジニアリング 光学文字認識装置及び光学文字認識方法
CN105184265A (zh) * 2015-09-14 2015-12-23 哈尔滨工业大学 一种基于自学习的手写表格数字字符串快速识别的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
仲小挺: ""基于自学习的手写表格数字字符串快速识别方法的研究"" *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020098078A1 (zh) * 2018-11-12 2020-05-22 平安科技(深圳)有限公司 Ocr训练样本的生成方法、装置、设备及可读存储介质
CN109726643A (zh) * 2018-12-13 2019-05-07 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN112818812B (zh) * 2018-12-13 2024-03-12 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN112818812A (zh) * 2018-12-13 2021-05-18 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN109740135A (zh) * 2018-12-19 2019-05-10 平安普惠企业管理有限公司 图表生成方法及装置、电子设备和存储介质
CN109871524A (zh) * 2019-02-21 2019-06-11 腾讯科技(深圳)有限公司 一种图表生成方法及装置
CN110059688A (zh) * 2019-03-19 2019-07-26 平安科技(深圳)有限公司 图片信息识别方法、装置、计算机设备和存储介质
CN110059688B (zh) * 2019-03-19 2024-05-28 平安科技(深圳)有限公司 图片信息识别方法、装置、计算机设备和存储介质
WO2020232866A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 扫描文本分段方法、装置、计算机设备和存储介质
CN110147774A (zh) * 2019-05-23 2019-08-20 阳光保险集团股份有限公司 表格式图片版面分析方法和计算机存储介质
CN110147774B (zh) * 2019-05-23 2021-06-15 阳光保险集团股份有限公司 表格式图片版面分析方法和计算机存储介质
CN110287854A (zh) * 2019-06-20 2019-09-27 北京百度网讯科技有限公司 表格的提取方法、装置、计算机设备和存储介质
CN112115111A (zh) * 2019-06-20 2020-12-22 上海怀若智能科技有限公司 一种基于ocr的文档版本管理方法和***
CN110287854B (zh) * 2019-06-20 2022-06-10 北京百度网讯科技有限公司 表格的提取方法、装置、计算机设备和存储介质
WO2021042507A1 (zh) * 2019-09-02 2021-03-11 苏州朗动网络科技有限公司 pdf文档中表格数据的提取方法、设备和存储介质
WO2021072885A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 识别文本的方法、装置、设备及存储介质
WO2021147222A1 (zh) * 2020-01-22 2021-07-29 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置、电子设备及存储介质
CN113449559A (zh) * 2020-03-26 2021-09-28 顺丰科技有限公司 一种表格识别方法、装置、计算机设备和存储介质
CN111507230A (zh) * 2020-04-11 2020-08-07 创景未来(北京)科技有限公司 一种文档和表格数据的识别和提取方法及***
CN111898528A (zh) * 2020-07-29 2020-11-06 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN111898528B (zh) * 2020-07-29 2023-11-10 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN111683285A (zh) * 2020-08-11 2020-09-18 腾讯科技(深圳)有限公司 文件内容识别方法、装置、计算机设备及存储介质
CN112507909A (zh) * 2020-12-15 2021-03-16 信号旗智能科技(上海)有限公司 基于ocr识别的单证数据提取方法、装置、设备及介质
CN112509661A (zh) * 2021-02-03 2021-03-16 南京吉拉福网络科技有限公司 用于识别体检报告的方法、计算设备和介质
CN112509661B (zh) * 2021-02-03 2021-05-25 南京吉拉福网络科技有限公司 用于识别体检报告的方法、计算设备和介质
CN113504863A (zh) * 2021-06-02 2021-10-15 珠海金山办公软件有限公司 一种实现图片筛选的方法、装置、计算机存储介质及终端
CN113723301A (zh) * 2021-08-31 2021-11-30 广州新丝路信息科技有限公司 一种进口货物报关单ocr识别分行处理方法及装置
CN116127928A (zh) * 2023-04-17 2023-05-16 广东粤港澳大湾区国家纳米科技创新研究院 表格数据识别方法、装置、存储介质及计算机设备

Also Published As

Publication number Publication date
CN108734089B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN108734089A (zh) 识别图片文件中表格内容的方法、装置、设备及存储介质
US11232300B2 (en) System and method for automatic detection and verification of optical character recognition data
US10482174B1 (en) Systems and methods for identifying form fields
CN112185520B (zh) 一种医疗病理报告图片的文本结构化处理***和方法
US9384389B1 (en) Detecting errors in recognized text
US10489645B2 (en) System and method for automatic detection and verification of optical character recognition data
WO2019075820A1 (zh) 一种试卷批阅***
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
US9286526B1 (en) Cohort-based learning from user edits
US20120026081A1 (en) System and method for using paper as an interface to computer applications
AU2022305355A1 (en) Ai-augmented auditing platform including techniques for automated document processing
CN109783796A (zh) 预测文本内容中的样式破坏
CN111090641A (zh) 数据处理方法及装置、电子设备、存储介质
CN112509661B (zh) 用于识别体检报告的方法、计算设备和介质
CN110135225A (zh) 样本标注方法及计算机存储介质
CN108597565A (zh) 一种基于ocr与命名实体提取技术的临床队列数据协同校验方法
CN106529381A (zh) 信息处理设备和信息处理方法
JP2019212115A (ja) 検査装置、検査方法、プログラム及び学習装置
CN115937887A (zh) 文档结构化信息的提取方法及装置、电子设备、存储介质
RU2702967C1 (ru) Способ и система для проверки электронного комплекта документов
CN111008624A (zh) 光学字符识别方法和产生光学字符识别的训练样本的方法
CN112308048B (zh) 基于少量标注数据的病历完整性判别的方法、装置及***
US20230334889A1 (en) Systems and methods for spatial-aware information extraction from electronic source documents
EP3640861A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
US20220392243A1 (en) Method for training text classification model, electronic device and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant