CN113158895A

CN113158895A - 票据识别方法、装置、电子设备及存储介质

Info

Publication number: CN113158895A
Application number: CN202110426383.9A
Authority: CN
Inventors: 王仲; 曾纪才; 李飞
Original assignee: Beijing Ctj Info Tech Co ltd
Current assignee: Beijing Ctj Info Tech Co ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-07-23
Anticipated expiration: 2041-04-20
Also published as: CN113158895B

Abstract

本申请公开了一种票据识别方法、装置、电子设备及存储介质，其中，方法包括：获取待识别票据的票据图片；识别票据图片的实际倾斜角类别，并基于实际倾斜角类别矫正票据图片的倾斜角；检测矫正后的票据图片的文本框，并从文本框中提取文字信息，且识别票据图片的实际种类的同时，基于实际种类确定文本框的实际分类，以提取待识别票据的票据页面信息。由此，解决了相关技术在票据识别时，文字识别效果较差、准确性不高，票面信息提取的适用性较差，用户体验不高等问题。

Description

票据识别方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种票据识别方法、装置、电子设备及存储介质。

背景技术

目前，基于深度学习的票据识别***是指利用深度学习技术识别票据上的文字信息，并对文字信息进行结构化提取。其中，OCR(Optical Character Recognition，光学字符识别) 技术是一种光学字符识别技术，用于识别图片上的文字。

相关技术中，虽然票据电子化已经得到了广泛地发展，然而在众多领域纸质票据仍然占有很大的比例。对于这些纸质票据，传统的处理方法主要是利用高拍仪扫描得到票据影像，然后将票据影像存入数据库，并且人工录入票据上的信息到数据库。

相关技术的票据识别方法非常耗时耗力，且随着计算机技术尤其是OCR技术的发展，出现了很多基于OCR技术的票据识别方法，其可以利用计算机实现票面信息的自动识别，并将提取到的票面信息存入数据库，大大地节省了处理票据的人力投入。但是，现有的基于OCR技术的票据识别与处理***存在如下问题：

(1)对于倾斜或者方向旋转的图片，文字识别效果不好。现有的OCR技术多采用直线检测的方法检测票据的直线轮廓，计算直线的斜率，进而计算图片的倾斜角度，从而实现图片方向的矫正。然而这类方法极易受到图像噪声的影响，并且比较耗时。

(2)对于复杂的版面信息不能较好地提取结构化的票面信息。当前对于票据的文字识别结果进行结构化提取时多利用规则和坐标。这种方法不适用于复杂版面信息的分析和提取，例如提取要素过多、提取要素错位、版面倾斜、关键字信息被污迹遮挡等的版面。

申请内容

本申请提供一种票据识别方法、装置、电子设备及存储介质，以解决相关技术在票据识别时，文字识别效果较差、准确性不高，票面信息提取的适用性较差，用户体验不高等问题。

本申请第一方面实施例提供一种票据识别方法，包括以下步骤：获取待识别票据的票据图片；识别所述票据图片的实际倾斜角类别，并基于所述实际倾斜角类别矫正所述票据图片的倾斜角；检测矫正后的票据图片的文本框，并从所述文本框中提取文字信息，且识别所述票据图片的实际种类的同时，基于所述实际种类确定所述文本框的实际分类，以提取所述待识别票据的票据页面信息。

可选地，在本申请的一个实施例中，所述识别所述票据图片的实际倾斜角类别，并基于所述实际倾斜角类别矫正所述票据图片的倾斜角，包括：分别采集逆时针旋转0度、逆时针旋转90度、逆时针旋转180度、逆时针旋转270度的数据，以确定所述实际倾斜角类别；将所述票据图片顺时针旋转所述实际倾斜角类别对应的矫正角度。

可选地，在本申请的一个实施例中，所述检测矫正后的票据图片的文本框，并从所述文本框中提取文字信息，且识别所述票据图片的实际种类的同时，基于所述实际种类确定所述文本框的实际分类，以提取所述待识别票据的票据页面信息，包括：利用预设的文本检测算法获取包含文本行的矩形区域，得到所述文本框；根据所述文本框的四个顶点的当前坐标确定文本所处位置；根据所述文本所处位置截取矩形区域图片，并将所述矩形区域图片输入预设的文本是被网络，得到所述文字信息。

可选地，在本申请的一个实施例中，所述检测矫正后的票据图片的文本框，并从所述文本框中提取文字信息，且识别所述票据图片的实际种类的同时，基于所述实际种类确定所述文本框的实际分类，以提取所述待识别票据的票据页面信息，包括：采用DenseNet网络去获取所述文本框的图像特征；将所述图像特征转化为一维的特征向量，并结合所述文本框的几何特征，生成最终的一维组合特征；将所述一维组合特征输入一个神经元数目等于分类数目的全连接网络，并利用softmax函数输出每个分类的概率值，确定所述实际分类。

可选地，在本申请的一个实施例中，在获取所述待识别票据的票据图片之后，还包括：对所述票据图片进行去燥、锐化和二值化处理，以得到对比度满足预设条件的票据图片。

本申请第二方面实施例提供一种票据识别装置，包括：获取模块，用于获取待识别票据的票据图片；矫正模块，用于识别所述票据图片的实际倾斜角类别，并基于所述实际倾斜角类别矫正所述票据图片的倾斜角；识别模块，用于检测矫正后的票据图片的文本框，并从所述文本框中提取文字信息，且识别所述票据图片的实际种类的同时，基于所述实际种类确定所述文本框的实际分类，以提取所述待识别票据的票据页面信息。

可选地，在本申请的一个实施例，所述矫正模块进一步用于分别采集逆时针旋转0度、逆时针旋转90度、逆时针旋转180度、逆时针旋转270度的数据，以确定所述实际倾斜角类别；将所述票据图片顺时针旋转所述实际倾斜角类别对应的矫正角度。

可选地，在本申请的一个实施例，所述识别模块包括：第一获取单元，用于利用预设的文本检测算法获取包含文本行的矩形区域，得到所述文本框；根据所述文本框的四个顶点的当前坐标确定文本所处位置，并根据所述文本所处位置截取矩形区域图片，并将所述矩形区域图片输入预设的文本是被网络，得到所述文字信息；第二获取单元，用于采用DenseNet网络去获取所述文本框的图像特征，并将所述图像特征转化为一维的特征向量，并结合所述文本框的几何特征，生成最终的一维组合特征，且将所述一维组合特征输入一个神经元数目等于分类数目的全连接网络，并利用softmax函数输出每个分类的概率值，确定所述实际分类。

本申请第三方面实施例提供一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行如上述实施例所述的票据识别方法。

本申请第四方面实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上述实施例所述的票据识别方法。

基于票据图片的实际倾斜角类别矫正倾斜角，无需考虑图片拍摄的角度，任意角度的图片文字均可以识别，有效提高票据识别的可用性，并且基于深度学习和机器学习对版面进行分析，识别票据页面信息，具有较强的鲁棒性，不容易受图片倾斜、文本位置偏移、关键点被遮挡、票面信息多等因素的影响，有效提升文字识别效果，保证识别的准确性和实用性，有效提升使用体验。由此，解决了相关技术在票据识别时，文字识别效果较差、准确性不高，票面信息提取的适用性较差，用户体验不高等问题。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种票据识别方法的流程图；

图2为根据本申请一个实施例的基于深度学习的图片角度分类模型示意图；

图3为根据本申请一个实施例的基于深度学习的文本框分类模型示意图。

图4为根据本申请实施例的票据识别装置的示例图；

图5为根据本申请实施例的电子设备的方框示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的票据识别方法、装置、电子设备及存储介质。针对上述背景技术中心提到的相关技术在票据识别时，文字识别效果较差、准确性不高，票面信息提取的适用性较差，用户体验不高的问题，本申请提供了一种票据识别方法，在该方法中，基于票据图片的实际倾斜角类别矫正倾斜角，无需考虑图片拍摄的角度，任意角度的图片文字均可以识别，有效提高票据识别的可用性，并且基于深度学习和机器学习对版面进行分析，识别票据页面信息，具有较强的鲁棒性，不容易受图片倾斜、文本位置偏移、关键点被遮挡、票面信息多等因素的影响，有效提升文字识别效果，保证识别的准确性和实用性，有效提升使用体验。由此，解决了相关技术在票据识别时，文字识别效果较差、准确性不高，票面信息提取的适用性较差，用户体验不高等问题。

具体而言，图1为本申请实施例所提供的一种票据识别方法的流程示意图。

如图1所示，该票据识别方法包括以下步骤：

在步骤S101中，获取待识别票据的票据图片。

可选地，在本申请的一个实施例中，在获取待识别票据的票据图片之后，还包括：对票据图片进行去燥、锐化和二值化处理，以得到对比度满足预设条件的票据图片。

本领域技术人员应该理解到的是，本申请实施例为了提高识别效率和精度，首先可以但不限于对图像进行去燥、锐化、二值化处理等操作，从而得到对比度高的较清晰图片。

在步骤S102中，识别票据图片的实际倾斜角类别，并基于实际倾斜角类别矫正票据图片的倾斜角。

可选地，在本申请的一个实施例中，识别票据图片的实际倾斜角类别，并基于实际倾斜角类别矫正票据图片的倾斜角，包括：分别采集逆时针旋转0度、逆时针旋转90度、逆时针旋转180度、逆时针旋转270度的数据，以确定实际倾斜角类别；将票据图片顺时针旋转实际倾斜角类别对应的矫正角度。

具体地，对于深度学习的图片角度矫正处理，本申请实施例可以对图片倾斜角度进行分类，并对图片角度进行矫正。其中，本申请实施例具体包括四个部分：数据集生成步骤、基于深度学习的图片角度分类模型训练步骤、基于深度学习的图片角度分类模型预测步骤和角度矫正步骤。

例如，数据集可以包括四类角度的数据集：逆时针旋转0度、逆时针旋转90度、逆时针旋转180度、逆时针旋转270度。定义分类角度用c表示，则c∈{0,90,180,270}。定义一个图片逆时针旋转角度用n表示，其中n∈[0,360]。对于一张逆时针旋转n度的图片，当 |n-c|取得最小值时c对应的分类角度即为当前图片的所属分类。本申请实施例对图片进行矫正时，首先对图片进行角度分类，然后将图片顺时针旋转该分类对应的角度。本申请实施例的的角度分类模型可以在VGG16基础上修改最后的分类数目为4，有效保证分类效果。

在步骤S103中，检测矫正后的票据图片的文本框，并从文本框中提取文字信息，且识别票据图片的实际种类的同时，基于实际种类确定文本框的实际分类，以提取待识别票据的票据页面信息。

本申请实施例不但可以准确地识别任意角度的图片文字，并对票面信息进行高准确率的结构化提取。

在实际执行过程中，本申请实施例在对图像预处理和基于深度学习的图片角度矫正处理之后，其可以基于深度学习的文本检测与定位处理、基于深度学习的版面分析处理、信息结构化提取处理，以下列举实施例，示意性说明。

可选地，在本申请的一个实施例中，检测矫正后的票据图片的文本框，并从文本框中提取文字信息，且识别票据图片的实际种类的同时，基于实际种类确定文本框的实际分类，以提取待识别票据的票据页面信息，包括：利用预设的文本检测算法获取包含文本行的矩形区域，得到文本框；根据文本框的四个顶点的当前坐标确定文本所处位置；根据文本所处位置截取矩形区域图片，并将矩形区域图片输入预设的文本是被网络，得到文字信息。

在一些实施例中，基于深度学习的文本检测与识别步骤包括文本定位和文本识别两部分。其中，文本检测指的是利用文本检测算法得到包含文本行的矩形区域，并称这个矩形区域为文本框，可以根据文本框四个顶点坐标来表示文本所在区域的位置。文本识别指的是利用文本检测环节得到的坐标截取出该矩形区域图片，最后将图片传入文本识别网络识别出图片中的文本。基于深度学习的文本检测模型可以采取的AdvancedEast模型，基于深度学习的文本识别模型可以采取的DenseNet+CTC模式。

进一步地，基于深度学习的票据分类步骤，其可以利用深度学习网络将各类票据图片进行种类的自动识别，可识别的票据种类包括增值税专票、增值税普票、增值税电子普通、增值税卷票、火车票、汽车票、飞机票、出租车票、机打***、定额***、过路费等。该步骤主要包括三部分：票据分类数据生成，票据分类模型训练、票据种类预测。本步骤采取的网络可以是在Inception-v3基础上进行修改，将最后的全连接层替换为包含11个神经元的全连接层。

可选地，在本申请的一个实施例中，检测矫正后的票据图片的文本框，并从文本框中提取文字信息，且识别票据图片的实际种类的同时，基于实际种类确定文本框的实际分类，以提取待识别票据的票据页面信息，包括：采用DenseNet网络去获取文本框的图像特征；将图像特征转化为一维的特征向量，并结合文本框的几何特征，生成最终的一维组合特征；将一维组合特征输入一个神经元数目等于分类数目的全连接网络，并利用softmmax函数输出每个分类的概率值，确定实际分类。

在一些实施例中，基于深度学习的版面分析步骤，其可以对文本框进行分类，确定每个文本框属于哪个字段，从而便于票据页面信息的结构化提取。该步骤包括数据集生成步骤、基于深度学习的文本框分类模型训练步骤、基于深度学习的文本框分类模型预测步骤三部分。基于深度学习的文本框分类模型网络结构为：采用DenseNet网络去获取文本框的图像特征，并将其转化为一维的特征向量，然后结合文本框的几何特征，生成最终的一维组合特征。最后将这个一维特征向量输入一个神经元数目等于分类数目的全连接网络，并利用softmax函数输出各分类的概率值。以增值税***为例，文本框分类模型可以建立如下分类：销售方名称，销售方纳税人识别号、购买方名称、购买方纳税人识别号、金额、***代码、***号码、日期。通过文本框分类模型我们可以判定文本检测与识别步骤提供的文本框属于哪个字段的分类。

具体而言，信息结构化提取步骤利用规则、文本框的坐标、文本框的分类信息提取出结构化的票面信息。对于确定种类的票据，本申请实施例可以确定各字段之间坐标的关系，例如对于增值税***，金额字段的纵坐标一定大于日期字段的纵坐标。首先根据规则来提取需要的字段，该类规则包括关键字、正则表达式匹配等，在此过程中用文本框的坐标信息缩小需要提取字段的搜索范围。最后根据文本框的分类结果来寻找规则未匹配到的字段，并按照需求提取。

综上，本申请实施例与现有的票据识别处理技术相比，具有如下优点：

(1)不需要高拍仪，只需要一个高清摄像头即可，降低了设备成本。

(2)提出一种新的基于深度学习的角度矫正模型，不用考虑图片拍摄的角度，任意角度的图片文字都可以识别，提高了产品可用性。

(3)提出一种新的基于深度学习和机器学习的版面分析算法，版面分析算法具有较强的鲁棒性，不容易受图片倾斜、文本位置偏移、关键点被遮挡、票面信息多等因素的影响。

下面以一个具体实施例对本申请的票据识别方法的原理进行举例说明。

结合图2和图3所示，其中，图2是一种基于深度学习的图片角度分类模型，其中带有conv前缀标注的模块为卷积操作模块、带有pool前缀标注的为池化模块、带有fc前缀的为全连接网络模块。该模型是在VGG16基础上，将VGG16最后一层全连接网络替换为神经元数目为4.的全连接网络，并且图3是一种基于深度学习的文本框分类模型，该模型利用densenet网络提取文本框图片特征并结合文本框图片的几何特征生成最终的文本框分类特征，然后输入神经元数目等于文本框分类数目的全连接网络，并最终利用softmax函数输出每个分类的概率。

举例而言，S1图像预处理步骤：

首先采用USM锐化增强算法进行去燥和增强处理，然后将所得图片进行灰度化与二值化处理，得到对比度较高的清晰图片。

S2基于深度学习的图片角度矫正步骤：

进一步地，基于深度学习的图片角度矫正步骤可以对图片倾斜角度进行分类，并对图片角度进行矫正。基于深度学习的图片角度矫正步骤具体包括四个部分：数据集生成步骤、基于深度学习的图片角度分类模型训练步骤、基于深度学习的图片角度分类模型预测步骤、角度矫正步骤。数据集包括四类角度的数据集：逆时针旋转0度、逆时针旋转90度、逆时针旋转180度、逆时针旋转270度。定义分类角度用c表示，则c∈{0,90,180,270}。定义一个图片逆时针旋转角度用n表示，其中n∈[0,360]。对于一张逆时针旋转n度的图片，当|n-c|取得最小值时c对应的分类角度即为当前图片的所属分类。

角度矫正步骤的数据集制作具体操作为：随机对图片进行亮度增强、色度增强、对比度增强、锐度增强等操作；随机对图片进行颜色空间交换、角度旋转、平移、裁剪等操作。通过这一系列操作实现数据的增强，不仅使得训练样本数量大幅增加，并且可以使得训练的模型泛化能力更强。

基于深度学习的图片角度分类模型训练步骤具体操作为：将上述数据集根据上述方法分成四类进行训练。合理设置模型训练的轮数epoch、批次batch、批大小batchsize、学习率rate初始值等参数，并根据训练效果进行调节，训练完成后将模型进行保存。基于深度学习的图片角度分类模型网络结构如附图中图2所示，该网络模型结构在VGG16基础上对最后一层的全连接网络进行了替换，修改为了神经元数目为4的全连接网络。

基于深度学习的图片角度分类模型预测步骤首先读取训练好的模型文件，然后对经过图像预处理的图片进行角度分类。通过分类号获得对应图片逆时针旋转的角度。

角度矫正步骤通过预测出的逆时针旋转的角度，将图片进行顺时针相应角度的旋转。

S3基于深度学习的文本检测与识别步骤：

进一步地，基于深度学习的文本检测与识别步骤包括文本检测步骤和文本识别步骤两部分。文本检测指的是利用文本检测算法得到包含文本行的矩形区域，并称这个矩形区域为文本框，可以根据文本框四个顶点坐标来表示文本所在区域的位置。文本识别指的是利用文本检测环节得到的坐标截取出该矩形区域图片，最后将图片传入文本识别网络识别出图片中的文本。基于深度学习的文本检测模型是采取的AdvancedEast模型，基于深度学习的文本识别模型是采取的DenseNet模式。

文本检测训练数据集包括图片集和文本框坐标数据集。文本框坐标数据集制作过程具体操作为：用labelimg等工具标注票据图片数据集，并最终生成关于每张图片的标注文本框坐标集，每张图片对应一个txt文件，文本框坐标集格式为X₁，Y₁，X₂，Y₂，X₃，Y₃，X₄，Y₄，“文本”，其中X₁，Y₁，X₂，Y₂，X₃，Y₃，X₄，Y₄分别代表文本的外接四边形四个顶点坐标，而“文本”是四边形包含的实际文本内容。图片集每一张图片都和坐标集文件对应。

文本检测模型可以采用AdvancedEast模型，根据模型输出计算得到文本框的四个顶点坐标。

文本识别模型可以采用DenseNet，利用CTC对文字序列进行解码。通过文本检测获得的文本框四个顶点的坐标截取相应文本的图片，然后将图片输入文本识别模型得到图片上的文本。

S4基于深度学习的票据分类步骤：

进一步地，基于深度学习的票据分类步骤，可以利用深度学习网络将各类票据图片进行种类的自动识别，可识别的票据种类包括增值税专票、增值税普票、增值税电子普通、增值税卷票、火车票、汽车票、飞机票、出租车票、机打***、定额***、过路费。该步骤主要包括三部分：票据分类数据生成，票据分类模型训练、票据种类预测。本步骤采取的网络可以是在InceptionV3基础上进行修改，将最后的全连接层替换为包含11个神经元的全连接层。

对于数据集制作，将票据图片分类成11类，分别是增值税专票、增值税普票、增值税电子普通、增值税卷票、火车票、汽车票、飞机票、出租车票、机打***、定额***、过路费，每一类放在一个文件夹下，然后对各类的票据图片进行数据增强，增加训练样本的数量。票据数据增强的方法具体涉及随机的对图片进行水平和垂直拉伸、裁剪、图片模糊等操作。

对于训练模型，可以用InceptionV3进行迁移学习，用原来的权重参数进行特征提取，在最后的瓶颈中添加一个分类层，该分类层神经元个数为11。

对于模型测试，首先加载训练好的模型，然后将待预测图片输入模型，得到该图片所属的票据种类。

S5基于深度学习的版面分析步骤：

进一步地，基于深度学习的版面分析步骤可以对文本框进行分类，确定每个文本框属于哪个字段，从而便于票据页面信息的结构化提取。该步骤包括数据集生成步骤、基于深度学习的文本框分类模型训练步骤、基于深度学习的文本框分类模型预测步骤三部分。基于深度学习的文本框分类模型网络结构如图3所示：采用DenseNet网络去获取文本框的图像特征，并将其转化为一维的特征向量，然后结合文本框的几何特征，生成最终的一维组合特征。最后将这个一维特征向量输入一个神经元数目等于分类数目的全连接网络，并利用softmax函数输出各分类的概率值。以增值税***为例，文本框分类模型可以建立如下分类：销售方名称，销售方纳税人识别号、购买方名称、购买方纳税人识别号、金额、发票代码、***号码、日期。通过文本框分类模型我们可以判定文本检测与识别步骤提供的文本框属于哪个字段的分类。

对于数据集生成步骤，需要的数据集为文本框图片以及文本框的顶点坐标。首先这些数据集可以通过数据标注工具获取，其次可以通过文本识别步骤的识别结果获得。文本识别步骤的输出结果为文本框的坐标和识别出的文本，该步骤同时生成了文本框坐标文本文件，文件中存储的每行数据为文本框所在图片名以及文本框图标。

对于基于深度学习的文本框分类模型训练，一种文本框分类模型只能用同一类型票据的文本框图片，例如如果要做火车票版面分析，那么就用火车票的文本框坐标和图片来制作模型训练数据集和进行模型训练。

对于基于深度学习的文本框分类模型预测，根据文本识别结果中的坐标得到对应图片中文本框图片，然后将文本框图片和文本框的几何特征输入到图3所示的网络中即可获得该文本框的分类。以火车票为例，分类字段包括火车票代码、出发地、目的地、车次、车座登记、日期、乘客姓名等信息。通过基于深度学习的文本框分类模型我们就可以判定某个文本框属于哪个字段。

S6信息结构化提取步骤：

信息结构化提取步骤利用规则、文本框的坐标、文本框的分类信息提取出结构化的票面信息。对于确定种类的票据，可以确定各字段之间坐标的关系，例如对于增值税***，金额字段的纵坐标一定大于日期字段的纵坐标。首先根据规则来提取需要的字段，该类规则包括关键字、正则表达式匹配等，在此过程中用文本框的坐标信息缩小需要提取字段的搜索范围。最后根据文本框的分类结果来寻找规则未匹配到的字段，并按照需求提取。

例如以火车票为例，通过基于深度学习的文本框分类步骤得到一张火车票的某个文本框属于’日期’分类，然后可以根据日期格式的正则表达式这种规则性方法提取这个文本框的日期信息。同时在文本框分类模型预测的分类基础上，也可以利用一些文本框位置信息对分类结果进一步判断，例如，如果此时通过模型预测得到该张火车票的另外一个文本框属于火车票’出发地’字段，那么’出发地’文本框的纵坐标应该小于’日期’本文框的坐标。

根据本申请实施例提出的票据识别方法，基于票据图片的实际倾斜角类别矫正倾斜角，无需考虑图片拍摄的角度，任意角度的图片文字均可以识别，有效提高票据识别的可用性，并且基于深度学习和机器学习对版面进行分析，识别票据页面信息，具有较强的鲁棒性，不容易受图片倾斜、文本位置偏移、关键点被遮挡、票面信息多等因素的影响，有效提升文字识别效果，保证识别的准确性和实用性，有效提升使用体验。

其次参照附图描述根据本申请实施例提出的票据识别装置。

图4是本申请实施例的票据识别装置的方框示意图。

如图4所示，该票据识别装置10包括：获取模块100、矫正模块200和识别模块300。

其中，获取模块100，用于获取待识别票据的票据图片。

矫正模块200，用于识别票据图片的实际倾斜角类别，并基于实际倾斜角类别矫正票据图片的倾斜角。

识别模块300，用于检测矫正后的票据图片的文本框，并从文本框中提取文字信息，且识别票据图片的实际种类的同时，基于实际种类确定文本框的实际分类，以提取待识别票据的票据页面信息。

可选地，在本申请的一个实施例，矫正模块200进一步用于分别采集逆时针旋转0度、逆时针旋转90度、逆时针旋转180度、逆时针旋转270度的数据，以确定实际倾斜角类别；将票据图片顺时针旋转实际倾斜角类别对应的矫正角度。

可选地，在本申请的一个实施例，识别模块300包括：第一获取单元和第二获取单元。

其中，第一获取单元，用于利用预设的文本检测算法获取包含文本行的矩形区域，得到文本框；根据文本框的四个顶点的当前坐标确定文本所处位置，并根据文本所处位置截取矩形区域图片，并将矩形区域图片输入预设的文本是被网络，得到文字信息。

第二获取单元，用于采用DenseNet网络去获取文本框的图像特征，并将图像特征转化为一维的特征向量，并结合文本框的几何特征，生成最终的一维组合特征，且将一维组合特征输入一个神经元数目等于分类数目的全连接网络，并利用softmax函数输出每个分类的概率值，确定实际分类。

需要说明的是，前述对票据识别方法实施例的解释说明也适用于该实施例的票据识别装置，此处不再赘述。

根据本申请实施例提出的票据识别装置，基于票据图片的实际倾斜角类别矫正倾斜角，无需考虑图片拍摄的角度，任意角度的图片文字均可以识别，有效提高票据识别的可用性，并且基于深度学习和机器学习对版面进行分析，识别票据页面信息，具有较强的鲁棒性，不容易受图片倾斜、文本位置偏移、关键点被遮挡、票面信息多等因素的影响，有效提升文字识别效果，保证识别的准确性和实用性，有效提升使用体验。

图5为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器1201、处理器1202及存储在存储器1201上并可在处理器1202上运行的计算机程序。

处理器1202执行程序时实现上述实施例中提供的票据识别方法。

进一步地，电子设备还包括：

通信接口1203，用于存储器1201和处理器1202之间的通信。

存储器1201，用于存放可在处理器1202上运行的计算机程序。

存储器1201可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器1201、处理器1202和通信接口1203独立实现，则通信接口1203、存储器1201和处理器1202可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1201、处理器1202及通信接口1203，集成在一块芯片上实现，则存储器1201、处理器1202及通信接口1203可以通过内部接口完成相互间的通信。

处理器1202可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上的票据识别方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行 ***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种票据识别方法，其特征在于，包括以下步骤：

获取待识别票据的票据图片；

识别所述票据图片的实际倾斜角类别，并基于所述实际倾斜角类别矫正所述票据图片的倾斜角；以及

检测矫正后的票据图片的文本框，并从所述文本框中提取文字信息，且识别所述票据图片的实际种类的同时，基于所述实际种类确定所述文本框的实际分类，以提取所述待识别票据的票据页面信息。

2.根据权利要求1所述的方法，其特征在于，所述识别所述票据图片的实际倾斜角类别，并基于所述实际倾斜角类别矫正所述票据图片的倾斜角，包括：

分别采集逆时针旋转0度、逆时针旋转90度、逆时针旋转180度、逆时针旋转270度的数据，以确定所述实际倾斜角类别；

将所述票据图片顺时针旋转所述实际倾斜角类别对应的矫正角度。

3.根据权利要求1所述的方法，其特征在于，所述检测矫正后的票据图片的文本框，并从所述文本框中提取文字信息，且识别所述票据图片的实际种类的同时，基于所述实际种类确定所述文本框的实际分类，以提取所述待识别票据的票据页面信息，包括：

利用预设的文本检测算法获取包含文本行的矩形区域，得到所述文本框；根据所述文本框的四个顶点的当前坐标确定文本所处位置；

根据所述文本所处位置截取矩形区域图片，并将所述矩形区域图片输入预设的文本是被网络，得到所述文字信息。

4.根据权利要求1所述的方法，其特征在于，所述检测矫正后的票据图片的文本框，并从所述文本框中提取文字信息，且识别所述票据图片的实际种类的同时，基于所述实际种类确定所述文本框的实际分类，以提取所述待识别票据的票据页面信息，包括：

采用DenseNet网络去获取所述文本框的图像特征；

将所述图像特征转化为一维的特征向量，并结合所述文本框的几何特征，生成最终的一维组合特征；

将所述一维组合特征输入一个神经元数目等于分类数目的全连接网络，并利用softmax函数输出每个分类的概率值，确定所述实际分类。

5.根据权利要求1所述的方法，其特征在于，在获取所述待识别票据的票据图片之后，还包括：

对所述票据图片进行去燥、锐化和二值化处理，以得到对比度满足预设条件的票据图片。

6.一种票据识别装置，其特征在于，包括：

获取模块，用于获取待识别票据的票据图片；

矫正模块，用于识别所述票据图片的实际倾斜角类别，并基于所述实际倾斜角类别矫正所述票据图片的倾斜角；以及

识别模块，用于检测矫正后的票据图片的文本框，并从所述文本框中提取文字信息，且识别所述票据图片的实际种类的同时，基于所述实际种类确定所述文本框的实际分类，以提取所述待识别票据的票据页面信息。

7.根据权利要求6所述的装置，其特征在于，所述矫正模块进一步用于分别采集逆时针旋转0度、逆时针旋转90度、逆时针旋转180度、逆时针旋转270度的数据，以确定所述实际倾斜角类别；

8.根据权利要求6所述的装置，其特征在于，所述识别模块包括：

第一获取单元，用于利用预设的文本检测算法获取包含文本行的矩形区域，得到所述文本框；根据所述文本框的四个顶点的当前坐标确定文本所处位置，并根据所述文本所处位置截取矩形区域图片，并将所述矩形区域图片输入预设的文本是被网络，得到所述文字信息；

第二获取单元，用于采用DenseNet网络去获取所述文本框的图像特征，并将所述图像特征转化为一维的特征向量，并结合所述文本框的几何特征，生成最终的一维组合特征，且将所述一维组合特征输入一个神经元数目等于分类数目的全连接网络，并利用softmax函数输出每个分类的概率值，确定所述实际分类。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-5任一项所述的票据识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-5任一项所述的票据识别方法。