CN111914835A

CN111914835A - 票据要素提取方法、装置、电子设备及可读存储介质

Info

Publication number: CN111914835A
Application number: CN202010634876.7A
Authority: CN
Inventors: 徐国功
Original assignee: China Citic Bank Corp Ltd
Current assignee: China Citic Bank Corp Ltd
Priority date: 2020-07-04
Filing date: 2020-07-04
Publication date: 2020-11-10

Abstract

本申请提供了一种票据要素提取方法、装置、电子设备及可读存储介质，应用于图像处理技术领域，其中该方法包括：对票据图像进行图像识别确定待识别文本区域，以及通过自然语言理解技术对待识别文本区域的的文本信息进行分类处理，确定目标票据的类型，继而基于目标票据的类型从待识别区域对应的文本信息中提取得到目标票据的要素信息。从而实现了票据要素信息的自动化提取，提升了票据要素提取的效率。

Description

票据要素提取方法、装置、电子设备及可读存储介质

技术领域

本申请涉及图像识别技术领域，具体而言，本申请涉及一种票据要素提取方法、装置、电子设备及可读存储介质。

背景技术

随着互联网的发展，电子化办公成为一种趋势。企业业务人员办理业务过程中涉及票据的传输、管理时，往往将纸质票据转为票据图像进行传输或管理，如通过邮件进行票据图像的传输、将票据图像进行归类保存。当需要利用票据的相关要素时，往往是通过人工阅读的方式去提取票据真的相关要素，而人工阅读提取票据要素的方式存在效率低下的问题，因此，如何快速提取相关票据的要素成为了一个问题。

发明内容

本申请提供了一种票据要素提取方法、装置、电子设备及可读存储介质，用于实现票据要素信息的自动化提取，提升了票据要素提取的效率，本申请采用的技术方案如下：

第一方面，提供了一种票据要素提取方法，该方法包括，

识别确定目标票据的图像的至少一个待识别文本区域信息；

对各个待识别区域对应的图像进行图像识别，确定各个待识别区域对应的文本信息；

基于确定的各个待识别区域对应的文本信息通过自然语言理解技术确定目标票据的类型；

基于确定的目标票据的类型与各个待识别区域对应的文本信息提取目标票据的票据要素。

可选地，所述识别确定目标票据图像的至少一个待识别文本区域信息包括：

基于预训练的目标检测模型识别确定目标票据图像的至少一个待识别文本区域信息；

所述预训练的目标检测模型为基于以下算法的任一种：YOLO、SSD、RetinaNet、Fast RCNN、Faster RCNN、Mask RCNN。

可选地，所述对各个待识别区域对应的图像进行图像识别，确定各个待识别区域对应的文本信息，包括：

通过预训练的基于CRNN与CTC算法的文字识别模型对各个待识别区域对应的图像进行图像识别，确定各个待识别区域对应的文本信息。

可选地，所述基于确定的所述目标票据的类型与各个待识别区域对应的文本信息提取目标票据的票据要素，包括：

基于确定的所述目标票据的类型确定所述类型对应的票据元素关键字；

基于确定的所述票据元素关键字从各个待识别区域对应的文本信息提取目标票据的票据要素。

可选地，所述票据要素包括以下至少一种：收款账号信息、金额信息、收款人信息、付款账号、付款人信息，该方法还包括：

基于所述票据要素进行业务办理。

可选地，该方法还包括：

所述预训练的目标检测模型与文字识别模型通过微服务方式部署。

第二方面，提供了一种票据要素提取装置，该装置包括，

第一识别模块，用于识别确定目标票据的图像的至少一个待识别文本区域信息；

第二识别模块，用于对各个待识别区域对应的图像进行图像识别，确定各个待识别区域对应的文本信息；

确定模块，用于基于确定的各个待识别区域对应的文本信息通过自然语言理解技术确定所述目标票据的类型；

提取模块，用于基于确定的所述目标票据的类型与各个待识别区域对应的文本信息提取目标票据的票据要素。

可选地，所述第一识别模块具体用于基于预训练的目标检测模型识别确定目标票据图像的至少一个待识别文本区域信息；所述预训练的目标检测模型为基于以下算法的任一种：YOLO、SSD、RetinaNet、Fast RCNN、FasterRCNN、Mask RCNN。

可选地，所述第二识别模块具体用于通过预训练的基于CRNN与CTC算法的文字识别模型对各个待识别区域对应的图像进行图像识别，确定各个待识别区域对应的文本信息。

可选地，所述提取模块包括：

确定单元，用于基于确定的所述目标票据的类型确定所述类型对应的票据元素关键字；

提取单元，用于基于确定的所述票据元素关键字从各个待识别区域对应的文本信息提取目标票据的票据要素。

可选地，所述票据要素包括以下至少一种：收款账号信息、金额信息、收款人信息、付款账号、付款人信息，该装置还包括：

办理模块，用于基于所述票据要素进行业务办理。

可选地，该装置还包括：

部署模块，用于将所述预训练的目标检测模型与文字识别模型通过微服务方式部署。

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行第一方面所示的票据要素提取方法。

第四方面，提供了一种计算机可读存储介质，计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行第一方面所示的票据要素提取方法。

本申请提供了一种票据要素提取方法、装置、电子设备及可读存储介质，与现有技术通过人工方式提取票据要素相比，本申请通过识别确定目标票据的图像的至少一个待识别文本区域信息，对各个待识别区域对应的图像进行图像识别，确定各个待识别区域对应的文本信息，基于确定的各个待识别区域对应的文本信息通过自然语言理解技术确定所述目标票据的类型，基于确定的所述目标票据的类型与各个待识别区域对应的文本信息提取目标票据的票据要素。即对票据图像进行图像识别确定待识别区域，以及通过自然语言理解技术对待识别区域的的文本信息进行分类处理，确定目标票据的类型，继而基于目标票据的类型从待识别区域对应的文本信息中提取得到目标票据的要素信息。从而实现了票据要素信息的自动化提取，提升了票据要素提取的效率。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例的一种票据要素提取方法的流程示意图；

图2为本申请实施例的一种票据要素提取装置的结构示意图；

图3为本申请实施例的YOLO算法的结构示意图；

图4为本申请实施例的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，各实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

实施例一

本申请实施例提供了一种票据要素提取方法，如图1所示，该方法可以包括以下步骤：

步骤S101，识别确定目标票据的图像的至少一个待识别文本区域信息；

具体地，通过相应的图像检测识别方法对目标票据图像进行识别，得到至少一个待识别文本区域信息。其中，目标票据可以是***、仓单、运货单等票据、单据。

具体地，在对目标票据的图像进行识别前，还可以对目标图像的票据进行预处理，如二值化、去噪、倾斜纠正、滤色等。

步骤S102，对各个待识别区域对应的图像进行图像识别，确定各个待识别区域对应的文本信息；

具体地，可以通过相应的OCR识别方法，对各个待识别区域对应的图像进行识别，得到各个待识别区域对应的文本信息。

步骤S103，基于确定的各个待识别区域对应的文本信息通过自然语言理解技术确定所述目标票据的类型；

具体地，通过自然语言理解技术，对待势必区域对应的文本信息进行分类处理，从而得到目标票据的类型。如目标票据为***或者仓单、借款单、转账单等。

步骤S104，基于确定的所述目标票据的类型与各个待识别区域对应的文本信息提取目标票据的票据要素。

具体地，不同的票据类型，其提取的要素不同，可以根据目标票据的类型与各个待识别区域对应的文本信息提取目标票据的票据要素。

本申请实施例提供了一种票据要素提取方法，与现有技术通过人工方式提取票据要素相比，本申请实施例通过识别确定目标票据的图像的至少一个待识别文本区域信息，对各个待识别区域对应的图像进行图像识别，确定各个待识别区域对应的文本信息，基于确定的各个待识别区域对应的文本信息通过自然语言理解技术确定所述目标票据的类型，基于确定的所述目标票据的类型与各个待识别区域对应的文本信息提取目标票据的票据要素。即对票据图像进行图像识别确定待识别区域，以及通过自然语言理解技术对待识别区域的的文本信息进行分类处理，确定目标票据的类型，继而基于目标票据的类型从待识别区域对应的文本信息中提取得到目标票据的要素信息。从而实现了票据要素信息的自动化提取，提升了票据要素提取的效率。

本申请实施例提供了一种可能的实现方式，步骤S101包括：

目标检测有两个主要任务：物体分类和定位。具体地，可以通过预训练的目标检测模型识别得到目标票据图像的至少一个待识别区域。其中，该目标检测识别模型可以是基于以下任一算法实现的，YOLO、SSD、RetinaNet、Fast RCNN、Faster RCNN、Mask RCNN。

较优地，该算法可以是YOLOv3，YOLO的核心思想就是利用整张图作为网络的输入，直接在输出层回归bounding box(边界框)的位置及其所属的类别。基于YOLOv3的目标检测识别模型，可以实现目标票据图像的文本区域的自动识别，与使用模型来定位文字识别区域相比，更具有通用性。此外，YOLOv3还可以实现端到端的学习。

示例性地，YOLOv3的网络结构图如图3所示，在基本的图像特征提取方面，YOLO3采用了称之为Darknet-53的网络结构(含有53个卷积层)，它借鉴了残差网络residualnetwork的做法，在一些层之间设置了快捷链路(shortcut connections)。YOLOv3的对象分类由softmax改成logistic，预测对象类别时不使用softmax，改成使用logistic的输出进行预测，这样能够支持多标签对象(比如一个人有Woman和Person两个标签)。不考虑神经网络结构细节的话，总的来说，对于一个输入图像，YOLO3将其映射到3个尺度的输出张量，代表图像各个位置存在各种对象的概率。对于一个416*416的输入图像，在每个尺度的特征图的每个网格设置3个先验框，总共有13*13*3+26*26*3+52*52*3＝10647个预测。每一个预测是一个(4+1+80)＝85维向量，这个85维向量包含边框坐标(4个数值)，边框置信度(1个数值)，对象类别的概率(对于COCO数据集，有80种对象)。

本申请实施例提供了一种可能的实现方式，步骤S102包括：

具体地，从自然场景图片中进行文字识别，需要包括2个步骤：文字检测，解决的问题是哪里有文字，文字的范围有多少；文字识别，对定位好的文字区域进行识别，主要解决的问题是每个文字是什么，将图像中的文字区域进转化为字符信息。其中，基于CRNN与CTC算法的文字识别模型，首先通过CNN提取图像卷积特征，然后通过LSTM进一步提取图像卷积特征中的序列特征，最后引入CTC解决训练时字符无法对齐的问题。从而能够提升文字识别的效率与准确率。

本申请实施例提供了一种可能的实现方式，步骤S104包括：

步骤S1041(图中未示出)，基于确定的所述目标票据的类型确定所述类型对应的票据元素关键字；

步骤S1042(图中未示出)，基于确定的所述票据元素关键字从各个待识别区域对应的文本信息提取目标票据的票据要素。

具体地，票据类型不同，其相关票据要素不同，相应要素对应的关键词不同，可以根据确定的票据的类型确定出票据的票据元素关键词，然后基于确定的所述票据元素关键字从各个待识别区域对应的文本信息提取目标票据的票据要素(即进行关键字匹配)。

本申请实施例提供了一种可能的实现方式，其中，所述票据要素包括以下至少一种：收款账号信息、金额信息、收款人信息、付款账号、付款人信息，该方法还包括：

基于所述票据要素进行业务办理。

具体地，可以根据票据的类型不同，票据要素内容不同，分别进行相应的业务办理。

本申请实施例提供了一种可能的实现方式，进一步地，该方法还包括：

步骤S105(图中未示出)，所述预训练的目标检测模型与文字识别模型通过微服务方式部署。

具体地，预训练的目标检测模型与文字识别模型通过微服务方式部署。从而使得相关数据处理过程能够并行处理，从而提升票据要素提取的效率。

实施例二

图2为本申请实施例提供的一种票据要素提取装置，该装置20包括：第一识别模块201、第二识别模块202、确定模块203以及提取模块204，其中，

第一识别模块201，用于识别确定目标票据的图像的至少一个待识别文本区域信息；

第二识别模块202，用于对各个待识别区域对应的图像进行图像识别，确定各个待识别区域对应的文本信息；

确定模块203，用于基于确定的各个待识别区域对应的文本信息通过自然语言理解技术确定所述目标票据的类型；

提取模块204，用于基于确定的所述目标票据的类型与各个待识别区域对应的文本信息提取目标票据的票据要素。

本申请实施例提供了一种票据要素提取装置，与现有技术通过人工方式提取票据要素相比，本申请实施例通过识别确定目标票据的图像的至少一个待识别文本区域信息，对各个待识别区域对应的图像进行图像识别，确定各个待识别区域对应的文本信息，基于确定的各个待识别区域对应的文本信息通过自然语言理解技术确定所述目标票据的类型，基于确定的所述目标票据的类型与各个待识别区域对应的文本信息提取目标票据的票据要素。即对票据图像进行图像识别确定待识别区域，以及通过自然语言理解技术对待识别区域的的文本信息进行分类处理，确定目标票据的类型，继而基于目标票据的类型从待识别区域对应的文本信息中提取得到目标票据的要素信息。从而实现了票据要素信息的自动化提取，提升了票据要素提取的效率。

本申请实施例提供了一种可能的实现方式，具体地，所述第一识别模块具体用于基于预训练的目标检测模型识别确定目标票据图像的至少一个待识别文本区域信息；所述预训练的目标检测模型为基于以下算法的任一种：YOLO、SSD、RetinaNet、Fast RCNN、Faster RCNN、Mask RCNN。

本申请实施例提供了一种可能的实现方式，所述第二识别模块具体用于通过预训练的基于CRNN与CTC算法的文字识别模型对各个待识别区域对应的图像进行图像识别，确定各个待识别区域对应的文本信息。

本申请实施例提供了一种可能的实现方式，具体地，所述提取模块包括：

进一步地，所述票据要素包括以下至少一种：收款账号信息、金额信息、收款人信息、付款账号、付款人信息，该装置还包括：

办理模块，用于基于所述票据要素进行业务办理。

本申请实施提供了一种可能的实现方式，该装置还包括：

本申请实施例可执行实施一所示的方法，其实现的效果相似，在此不再赘述。

本申请实施例的装置可以执行本申请实施例一所示的方法，其实现的效果类似，在此不再赘述。

实施例三

本申请实施例提供了一种电子设备，如图4所示，图4所示的电子设备40包括：处理器401和存储器403。其中，处理器401和存储器403相连，如通过总线402相连。进一步地，电子设备40还可以包括收发器404。需要说明的是，实际应用中收发器404不限于一个，该电子设备40的结构并不构成对本申请实施例的限定。其中，处理器401应用于本申请实施例中，用于实现图2所示的模块的功能。收发器404包括接收机和发射机。

处理器401可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器401也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线402可包括一通路，在上述组件之间传送信息。总线402可以是PCI总线或EISA总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器403可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器403用于存储执行本申请方案的应用程序代码，并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码，以实现图2所示实施例提供的装置的功能。

本申请实施例提供了一种电子设备适用于上述方法实施例，具体实现方式和技术效果，在此不再赘述。

实施例四

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述实施例中所示的票据要素提取方法。

本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例，具体实现方式和技术效果，在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种票据要素提取方法，其特征在于，包括：

识别确定目标票据的图像的至少一个待识别文本区域信息；

基于确定的各个待识别区域对应的文本信息通过自然语言理解技术确定所述目标票据的类型；

基于确定的所述目标票据的类型与各个待识别区域对应的文本信息提取目标票据的票据要素。

2.根据权利要求1所述的方法，其特征在于，所述识别确定目标票据图像的至少一个待识别文本区域信息包括：

所述预训练的目标检测模型为基于以下算法的任一种：YOLO、SSD、RetinaNet、FastRCNN、Faster RCNN、Mask RCNN。

3.根据权利要求1所述的方法，其特征在于，所述对各个待识别区域对应的图像进行图像识别，确定各个待识别区域对应的文本信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于确定的所述目标票据的类型与各个待识别区域对应的文本信息提取目标票据的票据要素，包括：

5.根据权利要求1所述的方法，其特征在于，所述票据要素包括以下至少一种：收款账号信息、金额信息、收款人信息、付款账号、付款人信息，该方法还包括：

基于所述票据要素进行业务办理。

6.根据权利要求2或3所述的方法，其特征在于，该方法还包括：

7.一种票据要素提取装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述第一识别模块具体用于基于预训练的目标检测模型识别确定目标票据图像的至少一个待识别文本区域信息；所述预训练的目标检测模型为基于以下算法的任一种：YOLO、SSD、RetinaNet、Fast RCNN、Faster RCNN、MaskRCNN。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1至6任一项所述的票据要素提取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行上述权利要求1至6中任一项所述的票据要素提取方法。