CN111062385A

CN111062385A - 一种用于图像文本信息检测的网络模型构建方法与***

Info

Publication number: CN111062385A
Application number: CN201911127868.7A
Authority: CN
Inventors: 周康明; 冯晓锐
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-04-24

Abstract

本申请通过一种用于图像文本信息检测的网络模型构建方法，首先获取每张训练样本图像的标签信息，接着基于所述标签信息提取对应的文本信息，然后基于所述文本信息确定所述文本信息对应的文本特征矩阵，再接着将所述文本特征矩阵与对应的训练样本图像进行拼接，获得拼接后的训练样本图像，最后将所述拼接后的训练样本图像输入改进的网络模型进行训练，直至满足预设的训练阈值。该方法结合了图像中的文本信息特征，可实现对图像中较小文本信息的检测，不仅具有较高的检测精度，而且构建的网络模型具有较好的泛化能力，扩大了构建的网络模型的适用范围。

Description

一种用于图像文本信息检测的网络模型构建方法与***

技术领域

本申请涉及计算机图像处理技术领域，尤其涉及一种用于图像文本信息检测的网络模型构建技术。

背景技术

目前对于图像中文本信息检测的常用方法是采用目标检测神经网络，其中SSD(Single Shot Multibox Detector，单点多盒检测器，一种仅需要单个深度神经网络的目标检测方法)在简单的文本信息检测中效果较好，但是如果图像中集中出现各种相近的文本信息，例如：格式相近的表单给人的感受是差不多的，但是表单中部分框线或者内容会存在差异，这种情况下采用SSD对图像中的文本信息进行检测时，SSD的表现能力一般。而如果针对文本信息相近的各种图像中的每种类型的图像分别训练一个SSD，这将特别浪费资源，效率也不高。

发明内容

本申请的目的是提供一种用于图像文本信息检测的网络模型构建方法与***。

根据本申请的一个方面，提供了一种用于图像文本信息检测的网络模型构建方法，其中，所述方法包括：

获取每张训练样本图像的标签信息；

基于所述标签信息提取对应的文本信息；

基于所述文本信息确定所述文本信息对应的文本特征矩阵；

将所述文本特征矩阵与对应的训练样本图像进行拼接，获得拼接后的训练样本图像；

将所述拼接后的训练样本图像输入改进的网络模型进行训练，直至满足预设的训练阈值。

优选地，所述方法还包括：

获取所有的训练样本图像中文本信息对应的字符；

基于所述字符建立字符库，其中，所述字符库中包含的字符不重复，每个字符对应唯一的字符标号；

其中，所述基于所述文本信息确定所述文本信息对应的文本特征矩阵包括：

基于所述文本信息确定对应的字符；

基于每个字符在所述字符库中的字符标号确定所述文本信息对应的文本特征矩阵。

优选地，当增加了新的训练样本图像，判断所述新的训练样本图像的文本信息中是否包含所述字符库中未存在的字符；

如包含所述字符库中未存在的字符，将所述未存在的字符添加至所述字符库中，以更新所述字符库。

优选地，若所述训练样本图像为三通道的彩色图，则将文本特征矩阵与对应的训练样本图像进行拼接后，获得四通道的拼接后的训练样本图像；若训练样本图像为单通道的灰度图，则将文本特征矩阵与对应的训练样本图像进行拼接后，获得两通道的拼接后的训练样本图像。

优选地，所述改进的网络模型基于SSD神经网络，包括1个数据层，VGG-16基础网络，以及VGG-16基础网络后的6个卷积层。

根据本申请的另一个方面，提供了一种用于图像文本信息检测的网络模型构建***，其中，所述***包括：

标签信息获取模块，用于获取每张训练样本图像的标签信息；

文本信息提取模块，用于基于标签信息获取模块获取到的标签信息提取对应的文本信息；

文本特征矩阵模块，用于基于文本信息提取模块提取的文本信息确定所述文本信息对应的文本特征矩阵；

拼接模块，用于将所述文本特征矩阵与对应的训练样本图像进行拼接，获得拼接后的训练样本图像；

网络模型构建模块，用于将所述拼接后的训练样本图像输入改进的网络模型进行训练，直至满足预设的训练阈值。

与现有技术相比，本申请通过一种用于图像文本信息检测的网络模型构建方法，首先获取每张训练样本图像的标签信息，接着基于所述标签信息提取对应的文本信息，然后基于所述文本信息确定所述文本信息对应的文本特征矩阵，再接着将所述文本特征矩阵与对应的训练样本图像进行拼接，获得拼接后的训练样本图像，最后将所述拼接后的训练样本图像输入改进的网络模型进行训练，直至满足预设的训练阈值。该方法结合了图像中的文本信息特征，可实现对图像中较小文本信息的检测，不仅具有较高的检测精度，而且构建的网络模型具有较好的泛化能力，扩大了构建的网络模型的适用范围。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种用于图像文本信息检测的网络模型构建方法流程图；

图2示出根据本申请另一个方面的一种用于图像文本信息检测的网络模型构建***框图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，***各模块和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

为更进一步阐述本申请所采取的技术手段及取得的效果，下面结合附图及优选实施例，对本申请的技术方案，进行清楚和完整的描述。

图1示出本申请一个方面的一种用于图像文本信息检测的网络模型构建方法流程图，其中，一个实施例的所述方法包括：

S11获取每张训练样本图像的标签信息；

S12基于所述标签信息提取对应的文本信息；

S13基于所述文本信息确定所述文本信息对应的文本特征矩阵；

S14将所述文本特征矩阵与对应的训练样本图像进行拼接，获得拼接后的训练样本图像；

S15将所述拼接后的训练样本图像输入改进的网络模型进行训练，直至满足预设的训练阈值。获取包含人体姿态的待识别图像；

在本申请中，所述方法通过设备1执行，所述设备1为计算机设备和/或云，所述计算机设备包括但不限于个人计算机、笔记本电脑、工业计算机、网络主机、单个网络服务器、多个网络服务器集；所述云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。

在此，所述计算机设备和/或云仅为举例，其他现有的或者今后可能出现的设备和/或资源共享平台如适用于本申请也应包含在本申请的保护范围内，在此，以引用的方式包含于此。

在该实施例中，在所述步骤S11中，设备1获取每张训练样本图像的标签信息。其中，所述训练样本图像中可以包含表单等类型的文本信息。所述训练样本的获得方式可以是通过将训练样本图像上传至设备1，包括但不限于拍照或扫描，或者还可以通过设备1自带的摄像/扫描装置来对纸质的文本信息进行处理来获取，在此，所述获取方式仅为举例，其他方式如适用于本申请也应包含在本申请的保护范围内。

其中，所述标签信息可以是以文件方式体现，例如xml文件或其它格式文件，所述文件中可以包含所述训练样本图像对应的图像文件名称、类别、所述训练样本图像中的文本信息以及文本信息在图像中对应的坐标信息等内容。

优选地，所述标签信息至少包括所述训练样本图像的文本信息以及文本信息对应的坐标信息。

继续在该实施例中，在所述步骤S12中，基于所述标签信息提取对应的文本信息。其中，解析标签信息，从中提取对应的文本信息。

继续在该实施例中，在所述步骤S13中，基于所述文本信息确定所述文本信息对应的文本特征矩阵。

其中，所述文本特征矩阵用以表征所述文本信息，例如，可以将文本信息划分成多个分词，并将多个分词放入表征文本特征的矩阵中，或者，还可以将文本信息通过单个字符的形式表示，将每个字符放入矩阵，或者，获取可与所述文本信息一一对应的特征，将所述特征整理成文本特征矩阵等等。

优选地，获取所有的训练样本图像中文本信息对应的字符，基于所述字符建立字符库，其中，所述字符库中包含的字符不重复，每个字符对应唯一的字符标号，其中，所述步骤S13包括：

基于所述文本信息确定对应的字符；

其中，可以通过人工方式统计训练样本图像集中所有训练样本图像中文本信息的字符，也可以通过设备1或其它设备中的软件工具实现自动统计整理。当训练样本图像数量确定的情况下，所述字符库固定，比如字符库含有n个字符，其中每个字符对应唯一确定的字符标号。

其中，所述文本特征矩阵可体现对应的文本信息。可以将文本信息中的每个字符进行one-hot编码，所述one-hot编码又称独热编码、一位有效编码，可以将类别变量转换为机器学习算法易于利用的形式，同一时间只有一个激活点。

使用one-hot编码可以将离散特征表示为特征值，在一定程度上扩充了特征，特征之间的距离计算会更加合理。

例如，一个训练样本图像中的文本信息“大写金额”，每个字符在遍历字符库中的字符后，在字符库中有一个唯一对应的标号，假设分别对应字符库中的第a、b、c、d位，即“大”对应的标号为a；“写”对应的标号为b；“金”对应的标号为c；“额”对应的标号为d。通过one-hot编码，可以得到一个M x N的文本特征矩阵，其中，M x N由被训练的网络模型支持的输入图像像素尺寸确定。其中，N大于各个字符对应的标号，所述文本特征矩阵的第一行的第a列被设置为1，该行其余列被设置为0；所述文本特征矩阵的第二行的第b列被设置为1，该行其余列被设置为0；所述文本特征矩阵的第三行的第c列被设置为1，该行其余列被设置为0；所述文本特征矩阵的第四行的第d列被设置为1，该行其余列被设置为0。经过one-hot编码，最终得到一个对应着文本信息“大写金额”的M x N的文本特征矩阵，其中，M x N为经过尺寸调整后的训练样本图像像素尺寸。

特别地，如果字符库中的字符数量n大于文本特征矩阵的列数N，那么对于包含位于字符范围(n-N)字符的文本信息，该文本信息中的字符one-hot编码采用两行标示。例如，如果某个训练样本的文本信息包含4个字符，假设分别对应字符库中的第e、f、g、h位，其中前三个字符对应字符库中的标号e、f、g都小于N，第4个字符对应字符库的标号h大于N，则通过one-hot编码，可以得到一个M x N的文本特征矩阵，所述文本特征矩阵的第一行的第e列被设置为1，该行其余列以及第二行整行被设置为0；所述文本特征矩阵的第三行的第f列被设置为1，该行其余列以及第四行整行被设置为0；所述文本特征矩阵的第五行的第g位被设置为1，该行其余列以及第六行整行被设置为0；所述文本特征矩阵的第七行整行被设置为0，所述文本特征矩阵的第八行第(h-N)列被设置为1，该行其余位被设置为0。

特别地，如果一个训练样本图像中包含多段文本信息，例如“大写金额”“小写金额”，每个字符在遍历字符库中的字符后，在字符库中有一个唯一对应的标号，两段文本信息中包含5个不重复字符，假设分别对应字符库中的第a、b、c、d、e位，即“大”对应的标号为a；“写”对应的标号为b；“金”对应的标号为c；“额”对应的标号为d；“小”对应的标号为e。通过one-hot编码，可以得到一个M x N的文本特征矩阵，其中，N大于各个字符对应的标号。所述文本特征矩阵的第一行的第a位被设置为1，该行其余位被设置为0；所述文本特征矩阵的第二行的第b位被设置为1，该行其余位被设置为0；所述文本特征矩阵的第三行的第c位被设置为1，该行其余位被设置为0；所述文本特征矩阵的第四行的第d位被设置为1，该行其余位被设置为0；所述文本特征矩阵的第五行的第e位被设置为1，该行其余位被设置为0；所述文本特征矩阵的第六行的第b位被设置为1，该行其余位被设置为0；所述文本特征矩阵的第七行的第c位被设置为1，该行其余位被设置为0；所述文本特征矩阵的第八行的第d位被设置为1，该行其余位被设置为0。经过one-hot编码，最终得到一个对应着文本信息“大写金额”和“小写金额”的M x N的文本特征矩阵。

其中，如新增的训练样本图像中的文本信息包含的字符不在字符库中，新的字符自动添加到字符库中最后一个字符的后面，确保每个训练样本图像中文本信息的字符在更新后的字符库中都有唯一对应的标号，而且不影响原有训练样本图像对应的文本特征矩阵。

继续在该实施例中，在所述步骤S14中，将所述文本特征矩阵与对应的训练样本图像进行拼接，获得拼接后的训练样本图像。

其中，所述对应的训练样本图像在与文本特征矩阵进行拼接前，可以进行各种常规的亮度、色度、对比度、散度等参数变换，以及进行常规的数据增广，以增加样本的多样性，可提高被训练的网络模型的鲁棒性。

所述对应的训练样本图像进行各种常规的亮度、色度、对比度、散度等参数变换，以及进行常规的数据增广后的像素尺寸为M x N，满足被训练的网络模型对输入图像尺寸的要求，其中，所述进行常规的数据增广后的像素尺寸调整为M x N是以不减少所述训练样本图像中的文本信息的特征为前提。

其中，基于同一个训练样本图像进行参数变换，以及进行常规的数据增广后得到的训练样本图像，其文本特征矩阵与参数变换和数据增广前的训练样本图像的文本特征矩阵相同。

优选地，将所述文本特征矩阵与对应的训练样本图像进行拼接，获得拼接后的训练样本图像，若所述对应的训练样本图像为三通道的彩色图，则将文本特征矩阵与对应的训练样本图像进行拼接后，获得四通道的拼接后的训练样本图像；若训练样本图像为单通道的灰度图，则将文本特征矩阵与对应的训练样本图像进行拼接后，获得两通道的拼接后的训练样本图像。

继续在该实施例中，在所述步骤S15中，将所述拼接后的训练样本图像输入改进的网络模型进行训练，直至满足预设的训练阈值。

其中，所述改进的网络模型基于SSD目标检测神经网络的数据层适配所述拼接后的训练样本图像输入。

其中，所述VGG-16基础网络包括13个卷积层和5个池化层，卷积层用于提取不同维度特征，池化层用于特征降维，简化计算数据量。

其中，VGG-16基础网络后的6个卷积层分成3组，每组2个卷积层，其中一个卷积层的卷积核大小为1*1、步长为1；另一个卷积层的卷积核大小为3*3、步长为2。这6个卷积层是用于进一步提取特征，得到特征图。

具体地，在特征提取过程中，分别引出5条检测分支，其中，VGG-16基础网络中引出2条检测分支，在VGG-16基础网络后的6个卷积层中引出3条检测分支。由于不同卷积层的感受野不同，不同检测分支检测不同尺度的文本，得到目标文本区域的预测框，低层(靠近输入端的卷积层)预测小目标，高层(靠近输出端的卷积层)预测大目标，在特征图上的每个像素点生成不同宽高比的预测框。

预测框的数量、尺寸和宽高比的大小可以根据具体场景进行设置，通过选择不同数量的预测框、设置不同的预测框的宽高比，可以提高网络模型的检测效率。鉴于本申请的训练样本图像中的文本信息区域基本上都是长条形，例如可以选择5个预测框，将宽高比分别设置为(1/1,1/2,1/3,1/4,1/5)，在此仅举例，其它预测框数量及宽高比等参数的选择如适用于本申请也应包含在本申请的保护范围内。SSD对特征图每个像素点所有的预测框进行分类和回归，以预测框为基准，在一定程度上减少了训练难度。

具体地，在训练过程中，SSD会对每个预测框寻找IOU(Intersection over Union，交并比)最大的真实标签，即目标框的坐标，若能够匹配到真实标签，则认为该预测框为正样本，对于没有匹配到真实标签的所有剩下的预测框，若与某个真实标签的IOU大于预设的置信度阈值(该预设的置信度阈值一般预设值为0.5，可以根据实际训练情况调整)，则认为该预测框与真实标签匹配，也认为该预测框为正样本；若与某个真实标签的IOU小于预置的置信度阈值，则认为该预测框为负样本，即背景。没有匹配到任何一个真实标签的预测框构成负样本，但是实际训练过程中，为了使正负样本比例平衡，让训练过程更容易收敛，可采用HNM(Hard Negative Mining，难分样本挖掘)策略，对负样本按照置信度误差进行排序，负样本置信度越小，误差越大，选取误差较大的一定数量预测框，例如排序前k(top-k)个预测框作为训练的负样本。

理想情况下，正负样本比例是1:1，但是在实际训练过程中很难保证出现这种理想情况，通常都是负样本比较多。但是如果负样本和正样本比例严重失衡的时候，网络往往训练效果不佳，比如有1个正样本，10个负样本，网络训练时学习的重点可能就在负样本，而真正需要的是学习正样本。

根据IOU和置信度选择正负样本，通常正负样本的比例在1:3，网络训练可以得以较快收敛，并使得训练结果稳定，得到较好效果。

对于正样本的预测框，匹配对应的真实标签，解码后得到在对应训练样本图像上的真实位置，如果超出图像范围，则进行裁剪，然后再根据置信度误差大小排序，得到排序前k个，再结合NMS(Non-Maximum Suppression，非极大值抑制)法过滤掉重叠较大的预测框，最终得到预测结果。

其中，所述NMS法用于目标检测中提取分数最高的预测框作为预测结果。其方法如下：排序前k个预测框构成一个预测框列表B，结合置信度s，选取具有最大得分的检测框M，将该具有最大得分的检测框M放入最终的检测结果列表D中，对于预测框列表中剩余的预测框，将与具有最大得分的检测框M的IOU大于预设的阈值的预测框从预测框列表中移除，得到剩余的预测框构成的新的预测框列表b，结合置信度s，选取其中具有最大得分的检测框M’，再将该具有最大得分的检测框M’放入最终的检测结果列表D中，对于新的预测框列表b中剩余的预测框，将与具有最大得分的检测框M’的IOU大于预设的阈值的预测框从预测框列表b中移除。重复上述步骤，直到预测框列表为空。

具体地，在训练过程中，可以根据得到的SSD网络的损失函数值来更新网络模型的各项权重参数和偏置参数。通常SSD网络的损失函数定义如下：

由上述公式可知，SSD网络的损失函数由置信度损失和定位损失组成。置信度损失是真实标签和预测框的归一化softmax损失；定位损失是一个格局预测框和真实标签产生的smooth L1损失。

softmax函数可以将输入映射到(0,1)区间中，从而得到属于某个分类类别的概率。，根据每个类别的概率计算softmax损失。

smooth L1损失函数定义如下：

具体地，在训练过程中通过随机梯度下降法更新网络模型参数，当SSD网络的损失函数满足预设的训练阈值时，网络趋于稳定，网络模型训练结束，完成网络模型构建。

图2示出根据本申请另一个方面的一种用于图像文本信息检测的网络模型构建***的***框图，其中，一个实施例的所述***包括：

标签信息获取模块21，用于获取每张训练样本图像的标签信息；

文本信息提取模块22，用于基于标签信息获取模块获取到的标签信息提取对应的文本信息；

文本特征矩阵模块23，用于基于文本信息提取模块提取的文本信息确定所述文本信息对应的文本特征矩阵；

拼接模块24，用于将所述文本特征矩阵与对应的训练样本图像进行拼接，获得拼接后的训练样本图像；

网络模型构建模块25，用于将所述拼接后的训练样本图像输入改进的网络模型进行训练，直至满足预设的训练阈值。

上述模块位于设备1中，实现一种用于图像文本信息检测的网络模型构建***。

根据本申请的又一方面，还提供了一种计算机可读介质，所述计算机可读介质存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述方法。

根据本申请的又一方面，还提供了一种用于图像文本信息检测的网络模型构建设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述方法的操作。

例如，计算机可读指令在被执行时使所述一个或多个处理器：首先获取每张训练样本图像的标签信息，然后基于所述标签信息提取对应的文本信息，接着基于所述文本信息确定所述文本信息对应的文本特征矩阵，再接着将所述文本特征矩阵与对应的训练样本图像进行拼接，获得拼接后的训练样本图像，最后将所述拼接后的训练样本图像输入改进的网络模型进行训练，直至满足预设的训练阈值。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于图像文本信息检测的网络模型构建方法，其特征在于，所述方法包括：

获取每张训练样本图像的标签信息；

基于所述标签信息提取对应的文本信息；

基于所述文本信息确定所述文本信息对应的文本特征矩阵；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所有的训练样本图像中文本信息对应的字符；

基于所述文本信息确定对应的字符；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

当增加了新的训练样本图像，判断所述新的训练样本图像的文本信息中是否包含所述字符库中未存在的字符；

4.根据权利要求1或2所述的方法，其特征在于，若训练样本图像为三通道的彩色图，则将文本特征矩阵与对应的训练样本图像进行拼接后，获得四通道的拼接后的训练样本图像；若训练样本图像为单通道的灰度图，则将文本特征矩阵与对应的训练样本图像进行拼接后，获得两通道的拼接后的训练样本图像。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述改进的网络模型基于SSD神经网络，包括1个数据层，VGG-16基础网络，以及VGG-16基础网络后的6个卷积层。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述标签信息至少包括所述训练样本图像的文本信息以及文本信息对应的坐标信息。

7.一种用于图像文本信息检测的网络模型构建***，所述***包括：

8.一种计算机可读介质，其中，

其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至6中任一项所述的方法。

9.一种用于图像文本信息检测的网络模型构建设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要求1至6中任一项所述方法的操作。