CN112613367A

CN112613367A - 票据信息文本框获取方法、***、设备及存储介质

Info

Publication number: CN112613367A
Application number: CN202011471091.9A
Authority: CN
Inventors: 王丹; 屈舜中
Original assignee: Pacific Century Bill Service Shenzhen Co ltd
Current assignee: Pacific Century Bill Service Shenzhen Co ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-04-06

Abstract

本发明公开了票据信息文本框获取方法、***、设备及存储介质，该方法包括：获取待识别票据图片，并识别待识别票据图片中包含的所有文本框；提取所有文本框中每个文本框的文本框特征；根据每个文本框的文本框特征，采用预设检测模型判断每个文本框作为目标文本框的预测概率值；将预测概率值最大的文本框确定为对应类型的目标文本框。本发明解决了现有的票据识别方法中的提取规则过于复杂，难以维护，且容易出现规则冲突的问题，提高了票据识别中文本框的获取精度，保证了票据信息提取的准确性。

Description

票据信息文本框获取方法、***、设备及存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种票据信息文本框获取方法、***、设备及存储介质。

背景技术

票据识别过程中，主要依赖OCR技术对票据图片上的文字进行识别，得到一个一个的文本块，并从中提取关键信息，如票号、出票日期、到期日期、出票人全称、收票人全称、承兑人名称、承兑人开户行行号、出票金额等。各机构签发的票据，需要包含的关键内容项是一致的，但格式会有所不同，这就给从图片上提取票据的关键信息增加了难度。

现有的票据识别方法，一般是通过正则表达式技术、文本块的相邻关系、结合表格的单元格关系等，设定提取规则，遍历图片上的每个文本块，对于符合规则的文本块，认为是要提取的关键信息。这种方法需要配置复杂的规则，同时提取的准确性，依赖于表格识别的准确性。例如，如现有的公开号为CN110427853A，名称为一种智能票据信息提取处理的方法的专利，该专利的技术方案是先对票据图片进行预处理(裁剪取内容区域)，再对票据进行分类，对不同的票据类型设定不同的提取规则进行关键信息提取，该专利的技术方案与上述方法类似，也是需要设定复杂的提取规则。可见，这种提取规则的设定，需要人工进行规则总结，工作量较大，且需要适配大量的样本才能总结出一套完善的提取规则，最终会使得这套提取规则过于复杂，难以维护，且容易出现规则冲突的情况(如增加了一个新的规则，导致旧的规则失效等)。

发明内容

本申请实施例通过提供一种票据信息文本框获取方法、***、设备及存储介质，旨在解决现有的票据识别方法中的提取规则过于复杂，难以维护，且容易出现规则冲突的问题。

本申请实施例提供了一种票据信息文本框获取方法，所述票据信息文本框获取方法，包括：

获取待识别票据图片，并识别所述待识别票据图片中包含的所有文本框；

提取所有文本框中每个文本框的文本框特征；

根据每个所述文本框的文本框特征，采用预设检测模型判断每个所述文本框作为目标文本框的预测概率值；所述预设检测模型包括多个不同类型的分类模型；

将预测概率值最大的文本框确定为对应类型的目标文本框。

在一实施例中，所述获取待识别票据图片，包括：

获取原始票据图片；

对所述原始票据图片进行预处理，得到所述待识别票据图片。

在一实施例中，所述识别所述待识别票据图片中包含的所有文本框，包括：

获取所述待识别票据图片中每一文本信息所对应的矩形区域的四个顶点坐标，将四个所述顶点坐标按照预设顺序进行连接，得到与每一所述文本信息对应的文本框。

在一实施例中，所述提取所有文本框中每个文本框的文本框特征，包括：

获取所有文本框中每个文本框的第一文本框特征以及与每个所述文本框相邻的文本框的第二文本框特征；

将所述第一文本框特征和所述与每个所述文本框相邻的文本框的第二文本框特征共同作为所述文本框特征。

在一实施例中，所述根据每个所述文本框的文本框特征，采用预设检测模型判断每个所述文本框作为目标文本框的预测概率值之前，包括：

获取若干张训练票据图片，对每一张所述训练票据图片进行预处理，得到若干张所述预处理图片；

识别若干张所述预处理图片中包含的所有训练文本框，并提取所有训练文本框中每个所述训练文本框的训练文本框特征；

根据每个所述训练文本框中的训练文本信息，确定每个所述训练文本框的类型；

标注每个所述训练文本框的类型，并将每个所述训练文本框的类型与每个所述训练文本框的训练文本框特征进行关联；

从所有训练文本框中选取第一预设数量的第一正样本数据和第二预设数量的第一负样本数据；

采用所述第一预设数量的第一正样本数据和所述第二预设数量的第一负样本数据，对与所述第一正样本数据相同类型的原始分类模型进行训练，得到与所述第一正样本数据相同类型的分类模型。

在一实施例中，所述从所有训练文本框中选取第一预设数量的第一正样本数据和第二预设数量的第一负样本数据，包括：

采用第一标签对所有训练文本框中类型相同且与所述预处理图片数量相同的训练文本框的训练文本框特征进行标注，得到标注后的且与所述预处理图片数量相同的训练文本框；

将所述标注后的且与所述预处理图片数量相同的训练文本框确定为所述第一预设数量的第一正样本数据；

采用第二标签对所有训练文本框中类型不相同的第二预设数量的训练文本框的训练文本框特征进行标注，得到标注后的第二预设数量的训练文本框；

将所述标注后的第二预设数量的训练文本框确定为所述第二预设数量的第一负样本数据。

在一实施例中，所述票据信息文本框获取方法，还包括：

当对所述待识别票据图片中包含的至少一个文本框的文本框特征无法进行识别时，则对无法识别的文本框的类型进行预测，得到无法识别文本框的文本框特征的类型，并从所述待识别票据图片中选取类型相同且与所述待识别票据图片数量相同的无法识别文本框和类型不同的第三预设数量的文本框；

将所述类型相同且与所述待识别票据图片数量相同的无法识别文本框的数量增加至第四预设数量，并采用所述第一标签对所述第四预设数量的无法识别文本框的文本框特征进行标注，得到所述第四预设数量的第二正样本数据，以及采用所述第二标签对所述第三预设数量的文本框的文本框特征进行标注，得到第三预设数量的第二负样本数据；

根据所述第二预设数量的第一负样本数据、所述第三预设数量的第二负样本数据和所述第四预设数量的第二正样本数据对任意类型的原始分类模型重新进行训练，得到与所述第二正样本数据相同类型的分类模型。

此外，为实现上述目的，本发明还提供了一种票据信息文本框获取***，包括：

图像获取模块，用于获取待识别票据图片，并识别所述待识别票据图片中包含的所有文本框；

特征提取模块，用于提取所有文本框中每个文本框的文本框特征；

文本框预测模块，用于根据每个所述文本框的文本框特征，采用预设检测模型判断每个所述文本框作为目标文本框的预测概率值；所述预设检测模型包括多个不同类型的分类模型；

文本框确定模块，用于将预测概率值最大的文本框确定为对应类型的目标文本框。

此外，为实现上述目的，本发明还提供了一种票据信息文本框获取方法设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的票据信息文本框获取程序，所述票据信息文本框获取程序被所述处理器执行时实现上述的票据信息文本框获取方法的步骤。

此外，为实现上述目的，本发明还提供了一种存储介质，其上存储有票据信息文本框获取程序，所述票据信息文本框获取程序被处理器执行时实现上述的票据信息文本框获取方法的步骤。

本申请实施例中提供的一种票据信息文本框获取方法、***、设备及存储介质的技术方案，至少具有如下技术效果或优点：

由于采用了获取待识别票据图片，并识别待识别票据图片中包含的所有文本框，提取所有文本框中每个文本框的文本框特征，根据每个文本框的文本框特征，采用预设检测模型判断每个文本框作为目标文本框的预测概率值，将预测概率值最大的文本框确定为对应类型的目标文本框的技术方案，解决了现有的票据识别方法中的提取规则过于复杂，难以维护，且容易出现规则冲突的问题，提高了票据识别中文本框的获取精度，保证了票据信息提取的准确性。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明票据信息文本框获取方法第一实施例的流程示意图；

图3为本发明票据信息文本框获取方法第二实施例的流程示意图；

图4为部分文本框的排布示意图；

图5为本发明票据信息文本框获取方法第三实施例的流程示意图；

图6为本发明票据信息文本框获取方法第四实施例的流程示意图；

图7为本发明票据信息文本框获取***的功能模块图。

具体实施方式

为了更好的理解上述技术方案，下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明提供一种票据信息文本框获取设备。如图1所示，图1为本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图1即可为票据信息文本框获取设备的硬件运行环境的结构示意图。

如图1所示，该票据信息文本框获取设备可以包括：处理器1001，例如CPU，存储器1005，用户接口1003，网络接口1004，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，票据信息文本框获取设备还可以包括RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。

本领域技术人员可以理解，图1中示出的票据信息文本框获取设备结构并不构成对票据信息文本框获取设备限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及票据信息文本框获取程序。其中，操作***是管理和控制票据信息文本框获取设备硬件和软件资源的程序，票据信息文本框获取程序以及其它软件或程序的运行。

在图1所示的票据信息文本框获取设备中，用户接口1003主要用于连接终端，与终端进行数据通信；网络接口1004主要用于后台服务器，与后台服务器进行数据通信；处理器1001可以用于调用存储器1005中存储的票据信息文本框获取程序。

在本实施例中，票据信息文本框获取设备包括：存储器1005、处理器1001及存储在所述存储器上并可在所述处理器上运行的票据信息文本框获取程序，其中：

处理器1001调用存储器1005中存储的票据信息文本框获取程序时，执行以下操作：

提取所有文本框中每个文本框的文本框特征；

将预测概率值最大的文本框确定为对应类型的目标文本框。

处理器1001调用存储器1005中存储的票据信息文本框获取程序时，还执行以下操作：

获取原始票据图片；

本发明实施例提供了票据信息文本框获取方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，该票据信息文本框获取方法应用于图片中文本框的识别。

如图2所示，在本申请的第一实施例中，本申请的票据信息文本框获取方法，包括以下步骤：

步骤S210：获取待识别票据图片，并识别所述待识别票据图片中包含的所有文本框。

在本实施例中，待识别票据图片是预处理后的原始票据图片，可以直接作为处理对象。获取到待识别票据图片后，对待识别票据图片进行遍历，逐一为待识别票据图片中每一包含文本信息的区域绘制其对应的文本框，即文本信息包含在文本框内部；其中，文本框为矩形文本框。

进一步的，如图3所示，在本申请的第二实施例中步骤S210具体包括：

步骤S211：获取原始票据图片。

原始票据图片可以是线上的票据截图、票据的PDF文件等，也可以是线下的票据照片、票据扫描件等。

步骤S212：对所述原始票据图片进行预处理，得到所述待识别票据图片。

获取到原始票据图片后，对原始票据图片进行预处理，预处理具体为降噪处理和/或修复处理。降噪处理，为对原始票据图片中覆盖包含文本信息区域及覆盖不包含文本区域的外来像素进行去除。修复处理，为对原始票据图片中缺失或破损区域进行修复。进行预处理后的原始票据图片，有利于提高文本框识别的准确度。

步骤S213：获取所述待识别票据图片中每一文本信息所对应的矩形区域的四个顶点坐标，将四个所述顶点坐标按照预设顺序进行连接，得到与每一所述文本信息对应的文本框。

获取到待识别票据图片后，对待识别票据图片中不包含文本信息的区域进行隐藏，将包含文本信息的区域的形状以矩形形状进行显示，进而获取每个包含文本信息的区域的四个顶点坐标，然后按照预设顺序将四个顶点依次连接起来，就得到了每一文本信息对应的文本框。其中，设顺序可以是顺时针顺序，也可以是逆时针顺序。例如，包含文本信息的区域的四个顶点坐标分别是：左上坐标点A，左下坐标点D，右上坐标点B和右下坐标点C，以A-B-C-D-A或者D-C-B-A-D的顺序连接后，即可得到文本框。

步骤S220：提取所有文本框中每个文本框的文本框特征。

在本实施例中，每个文本框的文本框特征是自身文本框特征以及其相邻的其它文本框的文本框特征之和，具体用于作为预设检测模型输入，以通过预设检测模型判断其是否是最终确定的对应类型的目标文本框。

进一步的，步骤S220具体包括：获取所有文本框中每个文本框的第一文本框特征以及与每个所述文本框相邻的文本框的第二文本框特征，将所述第一文本框特征和所述与每个所述文本框相邻的文本框的第二文本框特征共同作为所述文本框特征。

每个文本框的文本框特征由至少五个文本框的子特征组成，具体由其中一个文本框的第一文本框特征和与所述其中一个文本框相邻的每个文本框的第二文本框特征组成。如果每个文本框的文本框特征具体由五个文本框的子特征组成，则具体由其中一个文本框的第一文本框特征和与所述其中一个文本框相邻的左边、右边、上方和下方文本框的第二文本框特征组成。其中，左边、右边、上方和下方文本框，分别是与所述其中一个文本框能够重叠且中心距离最小的文本框。如图4所示，文本信息10对应的文本框为文本框10，文本信息11对应的文本框为文本框11，文本信息12对应的文本框为文本框12，文本信息20对应的文本框为文本框20，文本信息30对应的文本框为文本框30。其中，水平方向上，文本框20、文本框21、文本框22、文本框30、文本框31和文本框32均与文本框10有重叠，但文本框20相对于文本框21、文本框22与文本框10的中心距离最小，文本框30相对于文本框31、文本框32与文本框10的中心距离最小，那么文本框10的文本框特征就是文本框10的第一文本框特征、文本框11的第二文本框特征、文本框12的第二文本框特征、文本框20的第二文本框特征和文本框30的第二文本框特征的组合。其中，竖直方向确定文本框的方式与水平方向同理。

具体的，其中一个文本框具有至少9个子特征，所述至少9个子特征就是第一文本特征，其他相邻的每个文本框具有至少10个子特征，所述至少10个子特征就是第二文本特征。每个文本框的文本框特征由至少五个文本框的子特征组成，那么每个文本框的文本框特征至少包括49个子特征。如果每个文本框的文本框特征具体由五个文本框的子特征组成，即每个文本框的文本框特征由49子特征组成。其中一个文本框具体具有9个子特征，则分别是第10子特征、第11子特征、...、第18子特征；其他相邻的每个文本框具体具有10个子特征，则分别是第20子特征、第21子特征、...、第29子特征；即每个文本框的文本框特征由49子特征组成。值得说明的是，与所述其中一个文本框相邻的文本框的还可以包括所述其中一个文本框的左上角、左下角、右上角和右下角的文本框，那么每个文本框的文本框特征至少由89子特征组成。本发明还可以增加更多相邻的文本框，这里不做具体限定。其中，文本框越多，每个文本框的文本框特征中的子特征就越多，识别到的目标文本框就越准确。

其中，第一文本特征中的9个子特征和第二文本特征中的前9个子特征的类型均是相同的，分别是：文本框各个顶点横坐标与待识别票据图片宽度的比值、文本框各个顶点纵坐标与待识别票据图片高度的比值、文本框的宽度与待识别票据图片宽度的比值、文本框的高度与待识别票据图片高度的比值、文本信息中首位第1个字符在字符集中的位数与文本信息中字符集的字符总数的比值、文本信息中首位第2个字符在字符集中的位数与文本信息中字符集的字符总数的比值、文本信息中末位第1个字符在字符集中的位数与文本信息中字符集的字符总数的比值、文本信息中末位第2个字符在字符集中的位数与文本信息中字符集的字符总数的比值、文本信息中字符集的字符总数与预设值的比值。其中，文本信息中首位和末位的字符个数小于2时，则用0进行补充，使得文本信息中首位和末位的字符个数大于或者等于2；预设值优选为100，也可以是其它值。第二文本特征中的第10个子特征是其中一个文本框和其相邻的每个文本框之间的最短距离与待识别票据图片高度和宽度中最大值的比值。参考图4，若文本框10的宽度大于高度，则第10个子特征就是文本框10与文本框11、文本框12、文本框20和文本框30之间的最短距离分别与文本框10的宽度的比值。值得说明的是，若相邻的文本框缺失某个方向的文本框或相邻的文本框全部缺失，则用0替代缺失的文本框，那么相邻的每个文本框的第二文本特征为0。

步骤S230：根据每个所述文本框的文本框特征，采用预设检测模型判断每个所述文本框作为目标文本框的预测概率值。

在本实施例中，预设检测模型包括多个不同类型的分类模型，不同类型的分类模型经过预先训练得到，每个分类模型中存储有识别对应类型的文本框特征的对比特征数据。具体的，将每个不同类型的文本框的文本框特征作为输入数据，输入到预设检测模型后，预设检测模型采用每个分类模型分别对每个文本框的文本框特征进行逐一对比处理，然后输出每个文本框作为与分类模型类型相同的目标文本框的预测概率值。参考图4，例如文本信息10具体是“出票人”、文本信息11具体是“账号”、文本信息12具体是“开户行”，分别将文本框10、文本框11和文本框12的文本框特征输入到预设检测模型中后，预设检测模型采用出票人类型的分类模型、账号类型的分类模型、开户行类型的分类模型以及其他类型的分类模型，一一对文本框10的文本框特征、文本框11的文本框特征和文本框12的文本框特征进行对比。具体的，出票人类型的分类模型对文本框10的文本框特征、文本框11的文本框特征和文本框12的文本框特征进行对比后，输出文本框10作为出票人类型文本框的预测概率值是A1、文本框11作为出票人类型文本框的预测概率值是A2和文本框12作为出票人类型文本框的预测概率值是A3。同理，账号类型的分类模型、开户行类型的分类模型以及其他类型的分类模型对文本框10的文本框特征、文本框11的文本框特征和文本框12的文本框特征进行对比后，也会输出文本框10、文本框11和文本框12分别作为对应类型的目标文本框的预测概率值。

步骤S240：将预测概率值最大的文本框确定为对应类型的目标文本框。

在本实施例中，不同类型的分类模型对每个文本框的文本框特征进行对比后，输出每个文本框作为与该分类模型类型相同的目标文本框的预测概率值，然后对每个预测概率值进行排序，将预测概率值最大的文本框确定为与该分类模型类型相同的目标文本框。例如，出票人类型的分类模型输出的文本框10作为出票人类型文本框的预测概率值A1为1、文本框11作为出票人类型文本框的预测概率值A2为0.75和文本框12作为出票人类型文本框的预测概率值A3为0.5，其中A1>A2>A3，那么文本框10为出票人类型文本框。

本实施例根据上述技术方案，由于采用了获取待识别票据图片，并识别待识别票据图片中包含的所有文本框，提取所有文本框中每个文本框的文本框特征，根据每个文本框的文本框特征，采用预设检测模型判断每个文本框作为目标文本框的预测概率值，将预测概率值最大的文本框确定为对应类型的目标文本框的技术手段，提高了票据识别中文本框的获取精度，保证了票据信息提取的准确性。

如图5所示，在本申请的第三实施例中，本申请的票据信息文本框获取方法，在步骤S230之前包括以下步骤：

步骤S310：获取若干张训练票据图片，对每一张所述训练票据图片进行预处理，得到若干张所述预处理图片。

若干张训练票据图片为同一类型的票据图片，可以是线上的票据截图、票据的PDF文件等，也可以是线下的票据照片、票据扫描件等。将每一张训练票据图片进行降噪和/或修复处理后，得到与训练票据图片相同数量的预处理图片。

步骤S320：识别若干张所述预处理图片中包含的所有训练文本框，并提取所有训练文本框中每个所述训练文本框的训练文本框特征。

获取每一张预处理图片中的每一训练文本信息区域，为每一张预处理图片中的每一训练文本信息区域绘制矩形的训练文本框。其中，每一训练文本信息包含在训练文本框内部。进一步的，获取到所有训练文本框后，提取所有训练文本框中每个训练文本框的训练文本框特征的过程与步骤S220中提取所有文本框中每个文本框的文本框特征同理，具体过程这里不在赘述。

步骤S330：根据每个所述训练文本框中的训练文本信息，确定每个所述训练文本框的类型。

根据每一训练文本信息的具体内容，确定每一训练文本信息的类型，并将训练文本信息的类型作为包含该训练文本信息的训练文本框的类型。例如，其中一张预处理图片中的一训练文本信息的内容是“开户行”，则该训练文本信息就是开户行类型，那么，包含“开户行”的训练文本框的类型就是开户行类型。

步骤S340：标注每个所述训练文本框的类型，并将每个所述训练文本框的类型与每个所述训练文本框的训练文本框特征进行关联。

采用标识对每个训练文本框的类型进行标注，标识如数字、字母、数字字母组合等。其中，相同类型的训练文本框采用同一标识进行标注。例如，预处理图片中的“开户行”类型训练文本框均采用同一标识进行标注，如标识为K1。进一步的，提取到每个训练文本框的训练文本框特征后，同样对每个训练文本框的训练文本框特征进行标注，即采用与训练文本框的标识共有标识进行标注，例如，“开户行”类型训练文本框的训练文本框特征的标识为K1-10。然后，将二者的标识进行关联，即将同类型的训练文本框与同类型的训练文本框特征关联起来。具体的，通过识别训练文本框特征的标识就可以确定该训练文本框特征对应的训练文本框的类型。

步骤S350：从所有训练文本框中选取第一预设数量的第一正样本数据和第二预设数量的第一负样本数据。

具体的，采用第一标签对所有训练文本框中类型相同且与预处理图片数量相同的训练文本框的训练文本框特征进行标注，得到标注后的且与预处理图片数量相同的训练文本框；将标注后的且与预处理图片数量相同的训练文本框确定为第一预设数量的第一正样本数据。其中，第一正样本数据的类型与即将训练的原始分类模型的类型相同，与即将训练的原始分类模型类型相同的训练文本框的训练文本框特征就是第一正样本数据。第一标签用于对第一正样本数据进行标注，第一标签可以设置为数字、字母等形式，如设置为1，表示第一正样本数据为目标文本框的概率为100％。每一张预处理图片中有一个第一正样本数据，例如，有1000张预处理图片，就有1000个第一正样本数据，第一预设数量为1000，即1000个第一正样本数据都会被标记为1。

进一步的，采用第二标签对所有训练文本框中类型不相同的第二预设数量的训练文本框的训练文本框特征进行标注，得到标注后的第二预设数量的训练文本框；将标注后的第二预设数量的训练文本框确定为第二预设数量的第一负样本数据。其中，第二标签也可以设置为数字、字母等形式，但具体数字、字母等与第一标签不同，如设置为0，表示第一负样本数据为目标文本框的概率为0。第一负样本数据与第一正样本数据的类型不同，每一张预处理图片中除了第一正样本数据之外的都是第一负样本数据。例如，有1000张预处理图片，就有大于1000个的第一负样本数据，从每预处理图片随机选取5个第一负样本数据，就有5000个第一负样本数据，第一预设数量为5000，即5000个第一负样本数据都会被标记为0。

步骤S360：采用所述第一预设数量的第一正样本数据和所述第二预设数量的第一负样本数据，对与所述第一正样本数据相同类型的原始分类模型进行训练，得到与所述第一正样本数据相同类型的分类模型。

将选取的所有第一正样本数据和第一负样本数据作为输入数据，对与第一正样本数据相同类型的原始分类模型进行训练，即可以得到与第一正样本数据相同类型的分类模型。例如，选取了1000个开户行类型的第一正样本数据、1000个出票人类型的第一负样本数据、1000个全称类型的第一负样本数据、1000个账号类型的第一负样本数据、1000个票据金额类型的第一负样本数据和1000个承兑人信息类型的第一负样本数据，总共6000个样本数据作为输入数据，对开户行类型的原始分类模型进行训练，训练完成后可以得到开户行类型的分类模型。

本实施例根据上述技术方案，由于采用了获取若干张训练票据图片，对每一张训练票据图片进行预处理，得到若干张预处理图片，识别若干张预处理图片中包含的所有训练文本框，并提取所有训练文本框中每个训练文本框的训练文本框特征，根据每个训练文本框的训练文本框特征，确定每个训练文本框的类型，标注每个训练文本框的类型，并将每个训练文本框的类型与每个训练文本框的训练文本框特征进行关联，从所有训练文本框中选取第一预设数量的第一正样本数据和第二预设数量的第一负样本数据，采用第一预设数量的第一正样本数据和第二预设数量的第一负样本数据，对与第一正样本数据相同类型的原始分类模型进行训练，得到与第一正样本数据相同类型的分类模型的技术手段，可以得到不同类型的分类模型。

如图6所示，在本申请的第四实施例中，本申请的票据信息文本框获取方法，还包括以下步骤：

步骤S410：当对所述待识别票据图片中包含的至少一个文本框的文本框特征无法进行识别时，则对无法识别的文本框的类型进行预测，得到无法识别文本框的文本框特征的类型，并从所述待识别票据图片中选取类型相同且与所述待识别票据图片数量相同的无法识别文本框和类型不同的第三预设数量的文本框。

待识别票据图片可能在实际使用时进行格式更新，即为原始的票据增加或删减文本框。例如，更新后的票据新增了文本框，记为新增文本框，其他文本框与原始的票据保持一致。在对更新后的票据图片进行识别时，可能无法对新增文本框的文本框特征进行识别。对于无法识别新增文本框的文本框特征时，先转译出新增文本框中的文本信息，其次根据转译出的文本信息，确定该文本信息的类型，然后根据该文本信息的类型预测新增文本框的类型，从而确定出新增文本框的文本框特征的类型。其中，新增文本框的文本框特征即为所述无法识别文本框的文本框特征。进一步，从待识别票据图片中选取类型相同且与待识别票据图片数量相同的无法识别文本框和类型不同的第三预设数量的文本框。其中，若待识别票据图片只有一张，则类型相同的无法识别文本框也就是一个，类型不同的文本框的数量可以是多个，如10个，即的第三预设数量为10。

步骤S420：将所述类型相同且与所述待识别票据图片数量相同的无法识别文本框的数量增加至第四预设数量，并采用所述第一标签对所述第四预设数量的无法识别文本框的文本框特征进行标注，得到所述第四预设数量的第二正样本数据，以及采用所述第二标签对所述第三预设数量的文本框的文本框特征进行标注，得到第三预设数量的第二负样本数据。

具体的，对类型相同的无法识别文本框进行数量增加，即将其增加为第四预设数量个，如类型相同的无法识别文本框为5个，对其进行数量增加后，得到2000个，即第四预设数量为2000。然后采用第一标签对第四预设数量的无法识别文本框的文本框特征进行标注，得到第四预设数量的第二正样本数据；同时采用第二标签对第三预设数量的文本框的文本框特征进行标注，得到第三预设数量的第二负样本数据。上述对第四预设数量的无法识别文本框的文本框特征和第三预设数量的文本框的文本框特征的标注过程与步骤S350中的标注方式相同，这里不在赘述。

步骤S430：根据所述第二预设数量的第一负样本、所述第三预设数量的第二负样本数据和所述第四预设数量的第二正样本数据对任意类型的原始分类模型重新进行训练，得到与所述第二正样本数据相同类型的分类模型。

假设，第一负样本有5000个，即第二预设数为5000，第二负样本数据为10个，即第三预设数量为10，第二正样本数据为2000，即第四预设数量为2000，则共计7010个样本数据，采用7010个样本数据对账号类型的原始分类模型进行重新训练，即得到与第二正样本数据相同类型的分类模型。如新增文本框中的文本信息为“申请日期”，则新增文本框的类型为申请日期类型，那么第二正样本数据的类型也就是申请日期类型，重新训练得到的分类模型也就是申请日期类型。其中，之前训练得到的各个类型的分类模型依然保留，即在之前训练得到的各个类型的分类模型的基础上新增了申请日期类型分类模型，如之前的分类模型数量为20个，现在就是21个。

本实施例根据上述技术方案，由于采用了当对待识别票据图片中包含的每个文本框的文本框特征无法进行识别时，则从待识别票据图片中选取一种类型且与待识别票据图片数量相同文本框和类型不同的第三预设数量的文本框，采用第一标签对一种类型且与待识别票据图片数量相同的文本框的文本框特征进行标注，得到与待识别票据图片数量相同的第二正样本数据，以及采用第二标签对第三预设数量的文本框的文本框特征进行标注，得到第三预设数量的第二负样本数据，根据第一预设数量的第一正样本、第二预设数量的第一负样本、与待识别票据图片数量相同的第二正样本数据以及第三预设数量的第二负样本数据，对与第一正样本数据相同类型的分类模型重新进行训练，得到更新后的与第一正样本数据相同类型的分类模型的技术手段，实现了分类模型进行增加，有利于预设检测模型适配检测更多类型的文本框。

如图7所示，本申请提供的一种票据信息文本框获取***，包括：

图像获取模块510，用于获取待识别票据图片，并识别所述待识别票据图片中包含的所有文本框；

特征提取模块520，用于提取所有文本框中每个文本框的文本框特征；

文本框预测模块530，用于根据每个所述文本框的文本框特征，采用预设检测模型判断每个所述文本框作为目标文本框的预测概率值；所述预设检测模型包括多个不同类型的分类模型；

文本框确定模块540，用于将预测概率值最大的文本框确定为对应类型的目标文本框。

进一步的，所述图像获取模块510在获取待识别票据图片方面，具体包括：

原始图片获取单元，用于获取原始票据图片；

原始图片处理单元，用于对所述原始票据图片进行预处理，得到所述待识别票据图片。

进一步的，所述图像获取模块510在识别所述待识别票据图片中包含的所有文本框方面具体，用于获取所述待识别票据图片中每一文本信息所对应的矩形区域的四个顶点坐标，将四个所述顶点坐标按照预设顺序进行连接，得到与每一所述文本信息对应的文本框。

进一步的，所述特征提取模块520，包括：

文本框获取单元，用于获取所有文本框中每个文本框的第一文本框特征以及与每个所述文本框相邻的文本框的第二文本框特征；

特征确定单元，用于将所述第一文本框特征和所述与每个所述文本框相邻的文本框的第二文本框特征共同作为所述文本框特征。

进一步的，所述票据信息文本框获取***，还包括：

训练图片获取单元，用于获取若干张训练票据图片，对每一张所述训练票据图片进行预处理，得到若干张所述预处理图片；

文本框识别单元，用于识别若干张所述预处理图片中包含的所有训练文本框，并提取所有训练文本框中每个所述训练文本框的训练文本框特征；

类型确定单元，用于根据每个所述训练文本框中的训练文本信息，确定每个所述训练文本框的类型；

特征关联单元，用于标注每个所述训练文本框的类型，并将每个所述训练文本框的类型与每个所述训练文本框的训练文本框特征进行关联；

样本获取单元，用于从所有训练文本框中选取第一预设数量的第一正样本数据和第二预设数量的第一负样本数据；

模型训练单元，用于采用所述第一预设数量的第一正样本数据和所述第二预设数量的第一负样本数据，对与所述第一正样本数据相同类型的原始分类模型进行训练，得到与所述第一正样本数据相同类型的分类模型。

进一步的，所述样本获取单元，包括：

第一特征标注子单元，用于采用第一标签对所有训练文本框中类型相同且与所述预处理图片数量相同的训练文本框的训练文本框特征进行标注，得到标注后的且与所述预处理图片数量相同的训练文本框；

第一样本确定子单元，用于将所述标注后的且与所述预处理图片数量相同的训练文本框确定为所述第一预设数量的第一正样本数据；

第二特征标注子单元，用于采用第二标签对所有训练文本框中类型不相同的第二预设数量的训练文本框的训练文本框特征进行标注，得到标注后的第二预设数量的训练文本框；

第二样本确定子单元，用于将所述标注后的第二预设数量的训练文本框确定为所述第二预设数量的第一负样本数据。

进一步的，所述票据信息文本框获取***，还包括：

特征检测单元，用于当对所述待识别票据图片中包含的至少一个文本框的文本框特征无法进行识别时，则对无法识别的文本框的类型进行预测，得到无法识别文本框的文本框特征的类型，并从所述待识别票据图片中选取类型相同且与所述待识别票据图片数量相同的无法识别文本框和类型不同的第三预设数量的文本框；

样本更新单元，用于将所述类型相同且与所述待识别票据图片数量相同的无法识别文本框的数量增加至第四预设数量，并采用所述第一标签对所述第四预设数量的无法识别文本框的文本框特征进行标注，得到所述第四预设数量的第二正样本数据，以及采用所述第二标签对所述第三预设数量的文本框的文本框特征进行标注，得到第三预设数量的第二负样本数据；

模型更新单元，用于根据所述第二预设数量的第一负样本、所述第三预设数量的第二负样本数据和所述第四预设数量的第二正样本数据对任意类型的原始分类模型重新进行训练，得到与所述第二正样本数据相同类型的分类模型。

本发明票据信息文本框获取***具体实施方式与上述票据信息文本框获取方法各实施例基本相同，在此不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种票据信息文本框获取方法，其特征在于，所述票据信息文本框获取方法，包括：

提取所有文本框中每个文本框的文本框特征；

将预测概率值最大的文本框确定为对应类型的目标文本框。

2.如权利要求1所述的方法，其特征在于，所述获取待识别票据图片，包括：

获取原始票据图片；

3.如权利要求1所述的方法，其特征在于，所述识别所述待识别票据图片中包含的所有文本框，包括：

4.如权利要求1所述的方法，其特征在于，所述提取所有文本框中每个文本框的文本框特征，包括：

5.如权利要求1所述的方法，其特征在于，所述根据每个所述文本框的文本框特征，采用预设检测模型判断每个所述文本框作为目标文本框的预测概率值之前，包括：

6.如权利要求5所述的方法，其特征在于，所述从所有训练文本框中选取第一预设数量的第一正样本数据和第二预设数量的第一负样本数据，包括：

7.如权利要求5所述的方法，其特征在于，所述票据信息文本框获取方法，还包括：

根据所述第二预设数量的第一负样本数据、所述第三预设数量的第二负样本数据和所述第四预设数量的第二正样本数据，对任意类型的原始分类模型重新进行训练，得到与所述第二正样本数据相同类型的分类模型。

8.一种票据信息文本框获取***，其特征在于，包括：

9.一种票据信息文本框获取设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的票据信息文本框获取程序，所述票据信息文本框获取程序被所述处理器执行时实现如权利要求1-7中任一项所述的票据信息文本框获取方法的步骤。

10.一种存储介质，其特征在于，其上存储有票据信息文本框获取程序，所述票据信息文本框获取程序被处理器执行时实现权利要求1-7中任一项所述的票据信息文本框获取方法的步骤。