CN110689658A

CN110689658A - 一种基于深度学习的出租车票据识别方法和***

Info

Publication number: CN110689658A
Application number: CN201910947944.2A
Authority: CN
Inventors: 袁学光; 张阳安; 刘威良; 刘梦雅; 吴剑岚; 肖振宇
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2020-01-14

Abstract

一种基于深度学习的出租车票据识别方法及***，***包括能够与移动终端或者用户计算机通信的服务器或者包括带有摄像头的嵌入式终端，用于实现基于深度学习的出租车票据识别方法。方法包括将经过预处理的出租车票据图像输入至神经网络模型中，识别出所述出租车票据上的信息。神经网络模型包括单张图片多框识别深度学习网络和卷积循环神经网络两部分，使用单张图片多框识别深度学习网络识别出租车票据的信息区域，并对信息区域进行分割得到对应多种信息的信息图片；使用卷积循环神经网络识别所述信息图片中的信息。上述识别模型结构简单，识别准确率高，同时神经网络的训练数据准备方便，识别也迅速快捷，方便实现多人同时使用或者本地直接处理。

Description

一种基于深度学习的出租车票据识别方法和***

技术领域

本发明涉及人工智能以及图像检测识别技术领域，尤其涉及出租车票据上信息的自动识别。

背景技术

近几年来，人工智能(AI)发展迅速，目前使用AI技术已经可以可靠地完成许多相对简单且工作量大的任务，例如大量票据的自动识别及整理就是其中的一种。政府、企业、学校等很多地方都需要对包括***在内的大量票据进行处理，记录票据上的日期、事项、金额等信息，这项工作以往都是通过人工来完成，由于此类工作具有任务并不复杂但是工作量很大的特点，因此，如今非常适合使用人工智能来解决。随着计算机技术的发展和人工智能的发展，深度学习成为一大研究热点，同时深度学习技术也开始应用在各个领域帮助人们减轻工作压力，尤其在上述这种相对简单又任务量大的工作上表现较好，能够真正地通过人工智能来辅助工作和生活。

面对票据的自动识别处理，郑祖兵等人(双网络模型下的智能医疗票据识别方法，《计算机工程与应用》，1-12[2019-07-10])使用快速目标区域卷积神经网络(Faster RCNN)与深度卷积神经网络(DCNN)实现了医疗***中相关票据里字符的定位与识别，再使用自建票据数据集与字库数据集进行网络训练得到相应位置的字符信息，整体识别正确率较高，且识别速度较快，但是由于需要自建字符库，所以技术方案实施起来很麻烦，在使用上带来不便。陈翰波等人(借力互联网AI服务实现票据文字自动识别，《金融科技时代》，2018(08):33-36)使用基于人工智能建立的“腾讯优图”通用文字识别接口，对支票图像的收款人域进行文字识别，识别印刷体或者手写体的文字，但是正确率较低，仅为69.4％，还不能满足用户的实际需求。周异等人(CN109800751A)使用深度学习图像文字识别(OCR)网络算法进行票据中的字符识别，但是发明更专注于使用其设计的特定网络结构，提高通用票据识别的准确度和计算资源的利用率，对于特定票据的识别并没有太多的优势。徐青松等人(CN109872444A)提出的票据识别方法实现了对***、账单、税单等多种票据上付款金额的自动识别，同时还提供了可部署的计算模块、显示模块等，以便在不同设备上加以实施，但是该方案只是识别票据中的金额，并不能识别票据中的其他信息。

出租车***是日常需要处理的票据中最常见的一种，其票面上的多种信息是许多组织、机构必须要采集和整理的，虽然信息的记录和整理比较简单，但是通常处理任务量很大，人工执行不仅容易看错，在向计算机录入时也容易出现错误。显然如果能够通过人工智能进行处理，不仅简单快捷节省人力，同时可以提升正确率，更能够在短时间内一次性识别大量票据，提升任务的执行效率。但是现有的票据识别方法大多具有较大的局限性，只能在针对某一特定的票据类型或者票据的某一特殊信息区域进行识别时才能获得不错的识别效果，因而不能很好的适用于目前处理需求很高的并且票面信息种类多样的出租车票据中。并且，现有很多识别方法都非常繁琐、面对多种信息的识别效率不高、使用上也不便捷。因此，对于目前还没有人提出的针对出租车票据的识别，市场上需要一种方便快速且识别效率高的识别处理方案。

发明内容

针对上述现有技术中的不足，本发明提出一种基于深度学习的出租车票据识别方法，具体包括如下步骤：

步骤1、采集待识别出租车票据的图像；

步骤2、对所述图像做预处理；

步骤3、将经过所述预处理的所述图像输入至神经网络模型中，识别出所述出租车票据上的信息；

其中，步骤3中的所述神经网络模型包括单张图片多框识别深度学习网络和卷积循环神经网络两部分，使用单张图片多框识别深度学习网络识别出租车票据的信息区域，并对信息区域进行分割得到对应多种信息的信息图片；使用卷积循环神经网络识别所述信息图片中的信息；

所述神经网络模型是预先训练好的。具体地，所述训练是通过下述方式进行：

步骤301、单张图片多框识别深度学习网络的训练；

步骤302、卷积循环神经网络的训练；

其中，所述步骤301还包括如下步骤：

步骤3011、对训练数据集中的出租车票据图像进行预处理；

步骤3012、对步骤301中预处理后的图像进行标定，标定出信息框；

步骤3013、将训练数据集中的图像送入单张图片多框识别深度学习网络，训练所述单张图片多框识别深度学习网络在大量候选框中寻找与所述信息框最相近的候选框；

所述步骤302还包括如下步骤：

步骤3021、将出租车票据中每个待识别信息的图片统一转换为特定长度和宽度大小的信息图片；

步骤3022、将所述信息图片送入卷积循环神经网络进行训练。

进一步，使用所述候选框或者所述信息框右上角和左下角的坐标来定位所述候选框或者所述信息框。

优选地，所述候选框包括一个长宽比为1:1的小框，一个长宽比为1:1的大框，以及以小框的大小为标度长宽比为2、3、1/2、1/3的四个框中的一个或者多个，如此可以灵活适应不同大小的信息区域。

所述卷积循环神经网络由卷积层、循环层和转录层组成；兼顾计算量和识别效果，所述卷积层的层数为5-10，当卷积层的尺寸减小时使用池化层；所述循环层使用长短时记忆网络；所述转录层使用时间序列分类损失函数进行计算。

特别是步骤3021中所述信息图片的转换尺寸并不是随意设计的，而是根据图片实际大小、图片中文字的大小和数量以及所述卷积循环神经网络的设置计算获得。

为了提高识别的鲁棒性，在步骤3011中和/或步骤3021中，还包括对图像进行数据增强的操作，所述数据增强的操作包括对图像进行图像模糊、随机裁剪、旋转、改变大小、拉伸、扭曲、改变颜色。

本发明还提出了一种基于深度学习的出租车票据识别***，其特征在于，包括能够与移动终端或者用户计算机通信的服务器，所述服务器包括存储器、处理器以及存储在所述存储器上并可以在处理器上运行的基于深度学习的出租车票据识别程序，所述基于深度学习的出租车票据识别程序配置为实现如权利要求1至7中任一项所述的基于深度学习的出租车票据识别方法的步骤。如此，用户可以通过移动终端例如手机或者用户计算机就可以完成对出租车票据的处理工作。

可替换地，本发明提出一种基于深度学习的出租车票据识别***包括嵌入式终端，所述嵌入式终端包括存储器、处理器以及存储在所述存储器上并可以在处理器上运行的基于深度学习的出租车票据识别程序，所述基于深度学习的出租车票据识别程序配置为实现如权利要求1至7中任一项所述的基于深度学习的出租车票据识别方法的步骤。优选地，所述嵌入式终端带有摄像头。如此，用户可以利用本地的终端机方便地直接进行出租车票据的处理操作。

本发明提出的出租车票据识别模型结构简单，识别准确率高，同时神经网络的训练数据准备方便，识别也迅速快捷。整套识别***还具有易于部署的优点，在一台服务器或者计算机上部署时，可以实现多人同时使用，部署在移动嵌入式平台时，信息识别更加便利。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1：基于深度学习的出租车票据识别***方案框图；

图2：SSD神经网络模型；

图3：出租车票据信息框、候选框示例图；

图4：SSD算法候选框示意图；

图5：出租车票据14类信息均分裁剪示意图；

图6：CRNN神经网络卷积层结构；

图7：LSTM神经元内部结构；

图8：CRNN网络转录层工作示例1；

图9：CRNN网络转录层工作示例2；

图10：车牌、金额信息识别示例图；

图11：出租车票据识别***部署方式。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明提出一种基于深度学习的出租车票据识别方法，技术方案如图1所示，主要包括：出租车票图像采集、出租车票信息区域识别及分割、出租车票信息识别三个方面。

1)出租车票图像采集

为了通过人工智能处理出租车票，首先就要完成出租车票的图像采集。具体可以使用手机直接拍照，也可以是用户收集好的截图、扫描等方式上传的图片，也可以如后文所描述的那样，使用部署好识别方法相关程序的嵌入式终端自动采集进行图像的获取。

2)出租车票信息区域识别及分割

对于一张出租车***，需要提取的信息是在乘客坐完车之后机器打印出来的，信息都打印在一个集中的区域上，上面通常有“电话”、“车号”、“时间”、“金额”等许多信息，每种信息之间通常按顺序排布，间距固定，字体大小也是固定的。基于上述特点，本发明提出信息区域的识别是使用单张图片多框识别深度学习(SSD)算法来确定出一张出租车***的所有信息区域。

SSD算法是一种图像分割算法，其主要思路是均匀地在图片的不同位置进行密集抽样，例如使用许多大小不同的候选框，然后利用卷积神经网络(CNN)提取特征后直接进行分类与回归。说明书附图2所示为SSD神经网络模型，SSD算法的神经网络的训练中，会在不同的卷积层后提取候选框，由于每个卷积层的大小是不一样的，所以相当于输入的图片被改变成了不同的大小，在不同的卷积层上设置同样大小的候选框，如此当还原到原图片大小时，候选框将成为不同的大小，这样就完成了在多尺度的卷积层中提取不同大小的候选框。如说明书附图3所示，编号a至f的示除了原图片大小中的候选框，而编号为g的框涵盖了所有需要的信息，是***最终应当确定的信息框，是人工预先标定好的。训练过程中，在提取大量的候选框后，与预先标定的信息框进行比对，选择重合度最高的候选框作为预测出的信息区域。具体地，候选框的确定可以通过确定框的右上角和左下角的坐标来实现。所以对于训练神经网络的数据集，其为大量的出租车票图片，在图片中预先标定好信息框，信息框的标定方式也为标定信息框右上角和左下角的坐标，神经网络的训练过程也就是训练神经网络在大量候选框中寻找与信息框最相近的候选框的过程。

具体实施过程中，将拍摄到的票据图片转换成特定像素大小的图片送进SSD网络。由于出租车***中的信息区域占整张***的比例较大，同时较大的图片会消耗大量计算资源，训练较慢，所以优选使用300×300像素大小的图片。SSD神经网络采用牛津大学科学工程系发布的“VGG16”(16层卷积神经网络)网络作为基础模型，经过一定修改确定的网络结构，具体整体结构如图2所示。SSD神经网络由卷积层以及max pooling层(未在图2中示出)组成，图中示出了SSD神经网络中所有的卷积层，每个卷积层的上方和中间的数据为卷积层的尺寸，下方为卷积层的通道数，卷积核的大小为3×3，每当卷积层的尺寸大小减小时，便使用max pooling层，如：在第3-4层，6-7层等中间均有max pooling层。对于候选框的位置，如图2所示，在第12、14、15、16、17、18层中，以每个像素点为中心。而提取时，相对于输入网络的300×300像素的图片，由于卷积层的尺寸逐渐变小，所以同样大小的候选框还原到原图时所覆盖的区域是不同的。候选框提取的选择如说明书附图4所示，以5×5像素大小的图片举例，图中的虚线框代表的是候选框，图中共有6个候选框，分别为一个长宽比为1:1的小框，一个长宽比为1:1的大框，以及以小框的大小为标度，长宽比为2、3、1/2、1/3的四个框。而对于第12和第18层，只有长宽比为1:1的大框和小框，以及长宽比为2、1/2这样的两个框，所以相当于在12、14、15、16、17、18层中，以每个像素点为中心，采取不同的宽高比设置了4、6、6、6、6、4个候选框。再考虑到卷积层的尺寸，所以从这6层卷积层中提取了38×38×4+19×19×6+10×10×6+5×5×6+3×3×6+1×1×4共计8732个候选框。对于每个层的候选框的大小如表1所示，表1所写的尺寸为候选框覆盖区域还原到300×300像素时所覆盖的大小，不同长宽比的标度为小框的尺寸。

表1 SSD候选款尺寸

层数	小框尺寸	大框尺寸
			12	30	42.42
14	60	81.6
			15	111	134.1
16	162	185.76
			17	213	237.13
18	264	288.73

所以通过这种密集采样得来的所有候选框和出租车票训练数据集中的标定好的车票信息框进行对比，计算信息区域的重合度，通过神经网络的反向传播进行统计计算，算法使用的损失函数为标损失函数定位损失和置信度损失的加权和，这样得到最接近真实车票信息区域的候选框，将这个最终确定的候选框作为确定的出租车***的信息区域。如说明书附图5所示，***最终能够将信息框对应的区域的图片截取出来，该区域的图片含有：单位、电话、车号等14行信息，每行信息之间间距基本一样。这也将有助于后续的处理。

优选地，在训练过程中，由于拍摄的票据图片的角度、票据折叠、弯曲等都会对识别有一定的影响，所以可以进一步在***中做数据增强。在神经网络进行训练前，***可以对输入的图片进行水平翻转、随机裁剪、拉伸、扭曲、改变颜色等多种操作，生成大量图片用作训练，大大地提升了***的鲁棒性。在本实施例的训练过程中，使用了随机裁剪、旋转、改变大小和图像模糊。随机裁剪为图片每侧裁剪或填充最多10％，旋转为随机顺时针或逆时针旋转0°到10°，改变大小为随机变成之前的1到0.8倍，图像模糊为随机在5×5像素到20×20像素大小的范围内用取灰度或者颜色分量平均值的方式进行图像模糊。上述这些数据增强方式的随机实施为有20％的概率选择其中的1至2种进行图片转换。数据增强将应用在SSD网络的训练数据集上，对所有的出租车票图片做数据增强，做完数据增强的图片将被送到SSD神经网络中学习，进行上述转换为300×300像素等操作。

对于出租车票信息识别这一固定场景，由于其图片整体不复杂且只需要提取一个信息区域，因而可替换地，可以减少卷积层的数量，可减小到12至16层，卷积层的通道数也可以适当减小。而且由于整体信息区域较为狭长，所以在候选框的提取设定时，可以只用大框、小框以及长宽比为2、3这四种候选框，这样可以进一步减小训练时需要的计算资源，加快计算速度。而如果只需要识别出租车票上的如：票价、时间、日期等单条信息时，则可以只用大框、小框以及长宽比为1/2、1/3这四种候选框。

出租车票据图片在经过SSD算法之后，将能够确定票据的信息区域，如说明书附图5所示，根据数据区域的信息的行数进行等分将得到多张图片，每张图片上都有一类信息。

3)分割图片中的信息识别

对于第2)步中分割出的所有信息图片，由于为长方形的图片，所以将被统一转换为特定长度和宽度大小的图片。具体长度和宽度需要根据图片实际大小、图片中文字的大小和数量以及CRNN网络的一些设置计算获得的。在本实施例中，所述分割出的所有信息图片被统一转换为长度为100像素，宽度为32像素大小的图片，该尺寸的计算将在后文详细说明。

信息识别的网络使用卷积循环神经网络(CRNN)，CRNN神经网络是一种端到端的***模型，输入信息图片就可以直接识别图片上的信息，而且可以识别任意长度的序列，不用根据字符进行裁剪。具体地，CRNN的网络架构由三部分组成，包括卷积层，循环层和转录层。

卷积层使用的卷积核大小多选用3、5、7这样的奇数，层数一般为5至10层，并在其中加入max pooling层。使用卷积核较小，卷积层数较少则消耗的计算资源也会较少，在本实施例中，卷积层如说明书附图6所示，图中前八层为卷积层，最后一层为对前一卷积层取平均，每个层的上方和中间为卷积层的尺寸，中间的卷积核大小为3×3。当卷积层的尺寸减小时，便使用max pooling层，例如在第2-3层，第3-4层等之间，使用了max pooling层。在第2-3层，第3-4层之间的max pooling层的步长使用2×2，而第4-5和第7-8层之间的maxpooling层的步长使用2×1，第8到第9层为对上一个卷积层的宽度取平均得到25×1的特征图。在经过卷积层之后，图片中不同字符的特征将被提取出来送入循环层。

循环层使用的是长短时记忆网络(LSTM)。LSTM是一种用来识别序列数据所使用的神经网络，包括单元模块和三个门，使用LSTM可以更好地帮助识别***中的“时间”、“车牌”、“金额”等序列化信息。LSTM的结构如图7所示，每一个神经元中都有“遗忘门”、“输入门”、“输出门”三个门，用来处理输入的序列信息。LSTM可以使用单向、双向，也可以选择单层、多层，而在本实施例中使用的是双层的双向LSTM，这个结构对要检测的文本的识别效果最好，每一层的隐藏层神经元数量为256个。

在经过循环层之后则是转录层，转录层是将循环层中输出的信息进行转录，还原出真实的数据信息。由于出租车***上只有10种***数字、26种大写的英文字母和3种标点符号，基于上述特点所以本发明使用正确率较高的基于字典的转录方式，所有的预测字符都从字典内进行选择。对于在循环层之后输出的序列信息，使用时间序列分类损失函数(CTC Loss)进行计算。CTC Loss是一种不需要对齐，不需要提前知道数据长度的数据预测算法，非常适合出租车票这样信息种类多，信息长度不定的应用场景，能够同时识别信息的内容和字符数量。CTC Loss能够对票据图片上的文本进行序列化识别，通过每一个字符的预测概率组合确定最终要预测的字符，同时通过序列化标签确定字符的长度，确定最终的字符信息。具体地，识别的过程大致分为两步，第一步为先识别出含有字符和“空白”的字符序列，第二步为根据“空白”字符确定最终字符。在预测字符序列中的单个字符和判断下一个数据是字符还是“空白”时，将通过SoftMax层进行计算，通过概率的高低确定为是字符还是“空白”，若是字符，则输出和它相对应的字典中的最相近的字符。单个字符的识别情况如说明书附图8所示，例如对单词“Dog”的识别，图中共画出5个用虚线表示的识别框，字母“D”字符较大，需要3个框才能覆盖，而字母“o、g”只需要一个框就能覆盖，所以对于单词“Dog”的字符序列被识别为“DDD空白o空白g”。识别的整体情况再例如如说明书附图9所示，图片中要识别的字符为单词“happy”，根据图片中每个字母的实际大小，一个字母可能被识别为多个，但只要识别出的相同字母中没有“空白”字符即为一个字母，如字母“p”，多个“p”字母相连，若中间有“空白”字符，即识别成“happy”，若没有，则识别为“hapy”。

将LSTM中输出的字符序列转换为含有字符和“空白”的字符序列，字符序列的最长长度设置为25，这个设置是因为出租车票图片中要提取的字符数量最多为10个，根据图片上具体的字符大小和长宽比，25个字符长度能够覆盖所有字符和“空白”字符。同时由于字符序列的长度越长对计算的需求越大，所以也不必将字符序列的最长长度设置的更高。进一步，根据字符序列的长度以及原图片的大小设定输入网络的图片的大小为100像素×32像素，这样既可以识别字符信息中相连的相同字符，又不会遗漏其他字符数据。这个图片的大小以及字符序列的最长长度可以根据要提取的信息的多少进行调整，例如如果只需要检测出租车***的金额，由于金额的图片比较小，所以可以进一步缩小图片的大小，使用大约60×30像素大小的图片，字符序列的最长长度也可以设置为15至20，这样可以在减小计算资源的情况下更好地完成出租车票据上的信息识别。

本实施例中，采用上述方案经过3360张图片的训练及交叉验证，正确率可以达到94.5％，如说明书附图10所示为出租车票据中车牌及金额信息的示例图片，下方图片为要识别的图片，上方为识别出的字符。

优选地，由于用户拍摄出租车***时图片的亮度、白平衡、角度等相差较大，所以在神经网络训练时对于第一步中分割出的图片进行数据增强，以提高识别的鲁棒性。数据增强具体为对图片进行模糊、旋转、随机遮挡、随机裁剪以及改变色彩空间等。模糊操作为随机使用5×5像素大小范围内用取灰度或者颜色分量平均值的方式进行图像模糊；旋转为随机顺时针或逆时针旋转0°到25°；随机遮挡为在图片中随机多个3×3像素大小的黑色区域，面积为图片整体的5％；随机裁剪为每侧裁剪或填充最多10％；改变色彩空间为随机改变RGB三个通道中的一个，添加40至-40的数值。数据增强方式的随机实施为有20％的概率选择上述1至3种进行图片转换，然后使用CRNN神经网络进行信息的识别。

实施例二

对于实施例一中的由两个神经网络集成的识别模型，可以通过在机器设备中部署来进行使用。在本实施例中可以有两种部署方式。

如说明书附图11a所示，第一种可以将模型部署在计算力较强的服务器或计算机S中，使用时通过手机M或者用户计算机C进行操作，并结合互联网I形成一个端到端的整体，从而整个***能够同时满足多用户同时使用。具体来说，***可以通过基于python编程语言的“bottle”框架部署。“bottle”框架是一个轻量级的web服务框架，通过这个框架将识别算法模型部署在一个固定的ip地址上面，使得用户可以自由选择部署位置，又可以远程直接访问和使用，提升了识别***的可用性。***的界面例如使用HTML语言编写，用户可以在远程使用手机浏览器或者用户计算机浏览器直接访问***，通过操作界面进行使用。可替换地，用户也可以使用微信小程序、手机应用(APP)等方式进行访问和使用。识别***可以为多线程，从而满足多人同时使用。

第二种使用方式如说明书附图11b所示，***可以部署在移动嵌入式终端中，优选部署在带有摄像头的嵌入式终端中。例如***可以部署在英伟达公司的“Jetxon TX2”嵌入式开发板上，这是一种高性能低功耗的面向深度学习的开发板，板上GPU可以进行神经网络的运算处理，利用板载摄像头可以直接对出租车票据进行拍摄和识别，进一步简化使用步骤，提高了使用的便利性，随时能够识别出租车票据。类似地，算法模型也可以部署在其他支持深度学习的嵌入式终端中。

在功能方面，***支持单张图片上传和批量上传两种方式。在用户上传单张照片时，***将直接进行信息预测并且直接在***界面上显示出租车***上的“车牌”、“时间”、“金额”等信息，方便用户进行复制。使用单张图片上传功能并且终端为手机，识别：车牌、日期、时间、金额四类信息时，信息区域分割和识别的时间约为1.2s，图片中的信息识别时间约为1.3s，包括用户操作、从手机上传、从服务器终端返回信息的时间，总时间约为4.9s，测试时服务器CPU使用2个E5-2640v4处理器，内存为64g，手机型号为一加3，正确率达到94.5％，和背景技术中所述的技术相比，识别速度较快，准确率较高。当用户使用批量上传功能时，用户可以上传一个包含多张出租车***图片的压缩包，***将自动进行解压和信息识别，并向用户返回一个Excel文件，文件中包含所有出租车票据图片中的所有信息，进一步简化用户的使用流程，提升***的可用性，用此种方法测试60张图片打包上传得到包含车牌、日期、时间、金额四类信息的Excel文件的总时间约为57s，测试时的服务器CPU使用2个E5-2640v4处理器，内存为64g，同时使用GPU进行运算，GPU为2个英伟达GTX1080，和背景技术中所述的技术相比，识别速度较快。

与现有的票据识别***相比，本发明特别适用于识别出租车***上的所有信息，既可以只使用cpu进行信息识别，简化***的部署，也可以在识别时使用图形处理器(GPU)进行并行计算，进一步加快运算速度。***部署灵活，在普通计算机和计算服务器上都可以部署，***上使用Windows***和Linux***均可，例如处理器型号为英特尔4700hq，内存为8g的笔记本电脑，或者是上述深度学习服务器，都可以满足相关需求。同时，本发明的算法及***的识别速度远远超过人工识别的速度，和背景技术相比，虽然SSD算法以及CRNN算法较为先进和复杂，在***训练时需要消耗一定的计算资源，但是当网络训练完成后部署在机器设备上进行应用时，计算速度仍然较快，对计算能力要求也很低，识别的准确率高于市面上的票据识别方式。由于神经网络的识别能力较强且使用了数据增强方案，所以信息识别也不受***上字迹的颜色、深浅影响。深度学习方法的使用也使得训练时数据的准备非常简单，成本很低。最后，本发明的识别算法模型和***还具有较强的可移植性，在经过不同的数据集训练后，可以识别全国各地的各种出租车***，易于推广。

上面所述的只是说明本发明的一种基于深度学习的出租车票据识别方法及***的实施方式，由于对相同技术领域的普通技术人员来说很容易在此基础上进行若干修改和改动，因此本说明书并非是要将本发明的识别方法及***局限在所示和所述的具体步骤或相关结构范围内，故凡是所有可能被利用的相应修改及等同方法，均属于本发明所申请的专利范围。

Claims

1.一种基于深度学习的出租车票据识别方法，其特征在于，该方法具体包括如下步骤：

步骤1、采集待识别出租车票据的图像；

步骤2、对所述图像做预处理；

所述神经网络模型是预先训练好的。

2.根据权利要求1所述的方法，其特征在于，所述训练是通过下述方式进行：

步骤301、单张图片多框识别深度学习网络的训练；

步骤302、卷积循环神经网络的训练；

其中，所述步骤301还包括如下步骤：

步骤3011、对训练数据集中的出租车票据图像进行预处理；

所述步骤302还包括如下步骤：

步骤3022、将所述信息图片送入卷积循环神经网络进行训练。

3.根据权利要求2所述的方法，其特征在于，使用所述候选框或者所述信息框右上角和左下角的坐标来定位所述候选框或者所述信息框。

4.根据权利要求2所述的方法，其特征在于，所述候选框包括一个长宽比为1:1的小框，一个长宽比为1:1的大框，以及以小框的大小为标度长宽比为2、3、1/2、1/3的四个框中的一个或者多个。

5.根据权利要求1或2所述的方法，其特征在于，所述卷积循环神经网络由卷积层、循环层和转录层组成；所述卷积层的层数为5-10，当卷积层的尺寸减小时使用池化层；所述循环层使用长短时记忆网络；所述转录层使用时间序列分类损失函数进行计算。

6.如权利要求5所述的方法，其特征在于，步骤3021中所述信息图片的尺寸是根据图片实际大小、图片中文字的大小和数量以及所述卷积循环神经网络的设置计算获得。

7.如权利要求2所述的方法，其特征在于，在步骤3011中和/或步骤3021中，还包括对图像进行数据增强的操作，所述数据增强的操作包括对图像进行图像模糊、随机裁剪、旋转、改变大小、拉伸、扭曲、改变颜色。

8.一种基于深度学习的出租车票据识别***，其特征在于，包括能够与移动终端或者用户计算机通信的服务器，所述服务器包括存储器、处理器以及存储在所述存储器上并可以在处理器上运行的基于深度学习的出租车票据识别程序，所述基于深度学习的出租车票据识别程序配置为实现如权利要求1至7中任一项所述的基于深度学习的出租车票据识别方法的步骤。

9.一种基于深度学习的出租车票据识别***，其特征在于，包括嵌入式终端，所述嵌入式终端包括存储器、处理器以及存储在所述存储器上并可以在处理器上运行的基于深度学习的出租车票据识别程序，所述基于深度学习的出租车票据识别程序配置为实现如权利要求1至7中任一项所述的基于深度学习的出租车票据识别方法的步骤。

10.根据权利要求9所述的***，其特征在于，所述嵌入式终端带有摄像头。