CN116912852A

CN116912852A - 名片的文本识别方法、装置及存储介质

Info

Publication number: CN116912852A
Application number: CN202310922909.1A
Authority: CN
Inventors: 毕岳峰; 黄瑞文
Original assignee: BOE Technology Group Co Ltd; Beijing BOE Technology Development Co Ltd
Current assignee: BOE Technology Group Co Ltd; Beijing BOE Technology Development Co Ltd
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-10-20

Abstract

本文公开名片的文本识别方法、装置及存储介质。所述方法包括：从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像；对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换，得到所述子图像对应的衍生文本图像；将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本；建立基于卷积神经网络的名片文本识别模型，利用训练数据集对模型进行训练得到训练后的模型；将待识别名片的图像数据输入所述模型进行文本识别处理。本文自动扩大了模型训练数据集的数据量，提高了名片文本识别的准确性。

Description

名片的文本识别方法、装置及存储介质

技术领域

本文涉及但不限于文本识别技术领域，尤其涉及一种名片的文本识别方法、装置及存储介质。

背景技术

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过文本识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

文本识别可以借助于模型进行，但是模型需要训练，训练用的数据集是标注过的数据集。在名片单场景文本识别任务中，因为文字相关数据集涉及隐私(比如：姓名、电话、地址等)较为敏感，从而不便于交流，所以相关的数据集比较少。并且对文本任务的标注成本远高于一般深度学习任务(比如目标检测任务)的标注成本，因此，名片单场景标注数据量少且成本高，影响了名片OCR技术的发展。

发明内容

第一方面，本公开实施例提供了一种名片的文本识别方法，包括：

从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像；对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换，得到所述子图像对应的衍生文本图像；将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本；

建立基于卷积神经网络的名片文本识别模型，利用所述训练数据集对所述名片文本识别模型进行训练，得到训练后的名片文本识别模型；

将待识别名片的图像数据输入所述名片文本识别模型进行文本识别处理。

第二方面，本公开实施例提供了一种名片的文本识别装置，包括：

样本处理模块，设置为从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像；对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换，得到所述子图像对应的衍生文本图像；将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本；

模型建立及训练模块，设置为建立基于卷积神经网络的名片文本识别模型，利用所述训练数据集对所述名片文本识别模型进行训练，得到训练后的名片文本识别模型；

文本识别模块，设置为将待识别名片的图像数据输入所述名片文本识别模型进行文本识别处理。

第三方面，本公开实施例提供了一种转换图像数据的装置，包括：存储器及处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现上述名片的文本识别方法的步骤。

第四方面，本公开实施例提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述名片的文本识别方法的步骤。

本公开实施例提供的名片的文本识别方法、装置及存储介质，从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像；对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换，得到所述子图像对应的衍生文本图像；将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本。上述训练数据集的生成方法自动扩大了训练数据集的数据量。建立基于卷积神经网络的名片文本识别模型，利用所述训练数据集对所述名片文本识别模型进行训练，得到训练后的名片文本识别模型；将待识别名片的图像数据输入所述名片文本识别模型进行文本识别处理。由于卷积神经网络模型可以进行深度学习，所以提高了名片文本识别的准确性。

附图说明

附图用来提供对本公开技术方案的理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开的技术方案，并不构成对本公开技术方案的限制。

图1为本公开实施例提供的一种名片的文本识别方法的流程图；

图2为本公开实施例提供的一种名片图像的示意图；

图3为本公开实施例提供的一种手机号码的数据构造规则示意图；

图4为本公开实施例提供的一种地址的数据构造规则示意图；

图5为本公开实施例提供的一种背景纹理的示意图；

图6为本公开实施例提供的一种不同字体类型和大小的文本数据图像示意图；

图7为本公开实施例提供的一种变换后的背景纹理的示意图；

图8为本公开实施例提供的一种倾斜后的数字串示意图；

图9为本公开实施例提供的一种四个方向的运动模糊卷积核的示意图；

图10为本公开实施例提供的一种运动模糊处理后的数字串示意图；

图11为本公开实施例提供的一种卷积循环神经网络的结构示意图；

图12-1为本公开实施例提供的一种GRU模型的正向计算示意图；

图12-2为本公开实施例提供的一种GRU模型的反向计算示意图；

图13为本公开实施例提供的一种名片的文本识别装置的结构示意图；

图14为本公开实施例提供的另一种名片的文本识别装置的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，下文中将结合附图对本公开的实施例进行详细说明。注意，实施方式可以以多个不同形式来实施。所属技术领域的普通技术人员可以很容易地理解一个事实，就是方式和内容可以在不脱离本公开的宗旨及其范围的条件下被变换为各种各样的形式。因此，本公开不应该被解释为仅限定在下面的实施方式所记载的内容中。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互任意组合。

本说明书中的“第一”、“第二”、“第三”等序数词是为了避免构成要素的混同而设置，而不是为了在数量方面上进行限定的。

如图1所示，本公开实施例提供了一种名片的文本识别方法，包括：

步骤S10，从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像；对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换，得到所述子图像对应的衍生文本图像；将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本；

步骤S20，建立基于卷积神经网络的名片文本识别模型，利用所述训练数据集对所述名片文本识别模型进行训练，得到训练后的名片文本识别模型；

步骤S30，将待识别名片的图像数据输入所述名片文本识别模型进行文本识别处理。

上述实施例提供的名片的文本识别方法，从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像；对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换，得到所述子图像对应的衍生文本图像；将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本。上述训练数据集的生成方法自动扩大了训练数据集的数据量。建立基于卷积神经网络的名片文本识别模型，利用所述训练数据集对所述名片文本识别模型进行训练，得到训练后的名片文本识别模型；将待识别名片的图像数据输入所述名片文本识别模型进行文本识别处理。由于卷积神经网络模型可以进行深度学习，所以提高了名片文本识别的准确性。

在一种示例性的实施方式中，名片的文本数据类型可以包括以下至少一种：个人姓名、个人手机号、个人电话、个人电子邮箱、个人职务、公司名称、公司地址、公司电话和公司网址。

图2提供了一种名片图像的示意图。如图2所示，名片的文本数据类型可以包括：公司名称、公司地址、公司网址、个人姓名、个人电话和个人邮箱。

在一种示例性的实施方式中，对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换，包括：

对所述名片样本的任意一种文本数据的子图像进行文本识别确定文本内容和文本构造规则，根据所述文本构造规则对所述文本内容进行变换生成至少一条衍生文本数据。

不同类型的文本数据有各自独有的数据构造规则。图3提供了一种手机号码数据的构造规则。如图3所示，手机号码一般由3位数字的号段(通常以数字1开头)加上8位数字构成。图4提供了一种地址数据的构造规则。如图4所示，地址是由省级行政区、地级行政区、县级行政区、乡级行政区和门牌号五级字段按照顺序构成的。

在一种示例性的实施方式中，根据所述文本构造规则对所述文本内容进行变换生成至少一条衍生文本数据，包括：

根据文本数据的构造规则将所述文本数据的内容分割成至少一个原始字段，对每个原始字段的内容进行至少一次变换生成至少一个变换字段，由原始字段和变换字段的组合，以及变换字段和变换字段的组合生成至少一条新的衍生文本数据。

以手机号码为例。假设原始的手机号码为“13912345678”，该手机号码可以分成两个字段：第一字段(“3位数字的号段”)和第二字段(“8位数字”)。对第一字段进行变换生成“136”、“181”、“198”等。对第二字段进行变换生成任意多组8位数字。由原始的字段和变换字段的组合(第一字段和第二字段)，以及变换字段和变换字段的组合(第一字段和第二字段)生成至少一条新的衍生文本数据。

在一种示例性的实施方式中，对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换，还包括：

提取所述子图像的背景纹理数据，将每一条衍生文本数据与所述背景纹理数据进行融合生成融合图像，对所述融合图像进行字体变换和图像变换得到衍生文本图像。

图5提供了一种背景纹理的示意图。

在一种示例性的实施方式中，所述字体变换包括：改变字体的大小和/或类型。其中，字体的类型比如：黑体、宋体、幼圆、仿宋等。图6提供了一种不同字体类型和大小的文本数据图像。

在一种示例性的实施方式中，所述图像变换可以包括以下至少一种变换：背景纹理的变换、图像的投影变换、图像的明暗变换以及图像的模糊变换。

在一种示例性的实施方式中，所述背景纹理的变换包括以下至少一种：旋转、缩放和裁剪。

图7提供了一种变换后的背景纹理的示意图。图7所示的背景纹理是对图5所示的背景纹理进行旋转(旋转90度)、缩放和裁剪后得到的。

在一种示例性的实施方式中，图像的投影变换包括以下至少一种处理：倾斜、旋转和扭曲形变。

图8提供了一种倾斜后的数字串示意图。

在一种示例性的实施方式中，图像的明暗变换包括：通过第一卷积核对图像数据进行第一卷积操作，改变所述图像的亮度。

在一种示例性的实施方式中，通过第一卷积核对图像数据进行第一卷积操作，包括：对第一卷积核乘以相应的系数，如果第一卷积核各元素之和小于1，则图像亮度减小；如果第一卷积核各元素之和大于1，则图像亮度增加；如果第一卷积核各元素之和等于1，则图像亮度不变；所述系数的绝对值越大，则亮度变化量越大。

在一种示例性的实施方式中，图像的模糊变换，包括：通过第二卷积核对图像数据进行第二卷积操作，改变所述图像的清晰度。

在一种示例性的实施方式中，所述第二卷积核包括以下至少一种：均值模糊卷积核、中值模糊卷积核、高斯模糊卷积核和运动模糊卷积核。

名片图像的采集过程中，光线的明暗、相机的对焦和抖动都会导致图像的模糊，因此在生成衍生文本图像时也要考虑模糊的影响。对图像进行明暗变化涉及到卷积计算，其关键在于设计一个合适的滤波核(第一卷积核)。使用均值模糊、中值模糊或高斯模糊可以产生类似镜头模糊的效果。运动模糊卷积核可以模拟镜头运动造成的模糊效果。

在一种示例性的实施方式中，所述运动模糊卷积核包括至少一个运动方向的运动模糊卷积核：反对角线运动方向的运动模糊卷积核、对角线运动方向的运动模糊卷积核、竖直运动方向的运动模糊卷积核和水平运动方向的运动模糊卷积核。

图9示出了四个方向的运动模糊卷积核。如图9所示，四个运动模糊卷积核从左至右分别表示：沿反对角线方向、竖直方向、水平方向、对角线方向的运动模糊卷积核。

图10示出了运动模糊处理后的数字串示意图。如图10所示，从左到右的数字串分别是对原始的数字串进行了沿反对角线方向、竖直方向、水平方向、对角线方向的运动模糊处理。

在一种示例性的实施方式中，所述卷积神经网络包括CRNN(ConvolutionRecurrent Neural Network，卷积循环神经网络)。

在一种示例性的实施方式中，如图11所示，所述卷积循环神经网络包括：卷积层、循环层和转录层；

其中，所述卷积层作为底层的骨干网络，用于从输入图像中提取特征序列；所述循环层在卷积层的基础上构建递归网络，将图像特征转换为序列特征，预测每个帧的标签分布；所述转录层通过全连接网络和softmax激活函数，将每帧的预测转换为最终的标签序列。

在一种示例性的实施方式中，所述卷积循环神经网络的循环层使用GRU(GateRecurrent Unit，门控循环单元)模型。

在一种示例性的实施方式中，所述GRU模型包括：单向GRU模型或双向GRU模型。其中，所述单向GRU模型只进行正向计算，所述双向GRU模型进行正向计算和反向计算。

图12-1和图12-2分别提供了GRU模型的正向计算示意图和反向计算示意图。

如图12-1所示，在GRU模型的正向计算中，GRU模型的输入为t时刻的隐藏节点的输入x^t和t-1时刻的隐藏层状态h^t-1(隐藏层状态包含了t时刻之前隐藏节点的相关信息)，GRU模型的输出为t时刻隐藏节点的输出y^t和传递给下一个隐藏节点的隐藏层状态h^t。在正向计算时，隐藏层的h^t与h^t-1有关。

如图12-2所示，在GRU模型的反向计算中，GRU模型的输入为t时刻的隐藏节点的输入x^t和t+1时刻的隐藏层状态h^t+1(隐藏层状态包含了t时刻之后隐藏节点的相关信息)，GRU模型的输出为t时刻隐藏节点的输出y^t和传递给上一个隐藏节点的的隐藏层状态h^t。在反向计算时，隐藏层的h^t与h^t+1有关。

正向计算在处理特征向量时只能利用当前时刻之前的信息，割裂了特征向量上下文的整体联系。因此，为了让特征向量含有充足的时序信息，可以将正向计算和反向计算结合起来使用。因此，双向GRU模型相对于单向GRU模型，特征向量的时序信息更加充足，文本识别的识别准确率更高。

如图13所示，本公开实施例提供了一种名片的文本识别装置，包括：

样本处理模块10，设置为从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像；对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换，得到所述子图像对应的衍生文本图像；将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本；

模型建立及训练模块20，设置为建立基于卷积神经网络的名片文本识别模型，利用所述训练数据集对所述名片文本识别模型进行训练，得到训练后的名片文本识别模型；

文本识别模块30，设置为将待识别名片的图像数据输入所述名片文本识别模型进行文本识别处理。

上述实施例提供的名片的文本识别装置，样本处理模块从每一个名片样本的图像中按照文本数据类型提取出每种文本数据的子图像；对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换，得到所述子图像对应的衍生文本图像；将所述名片样本集合中的每张名片样本的所有文本数据的子图像以及对应的衍生文本图像一起作为训练数据集中的样本。上述训练数据集的生成方法自动扩大了训练数据集的数据量。模型建立及训练模块建立基于卷积神经网络的名片文本识别模型，利用所述训练数据集对所述名片文本识别模型进行训练，得到训练后的名片文本识别模型。文本识别模块将待识别名片的图像数据输入所述名片文本识别模型进行文本识别处理。由于卷积神经网络模型可以进行深度学习，所以提高了名片文本识别的准确性。

在一种示例性的实施方式中，样本处理模块，设置为采用以下方式对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换：对所述名片样本的任意一种文本数据的子图像进行文本识别确定文本内容和文本构造规则，根据所述文本构造规则对所述文本内容进行变换生成至少一条衍生文本数据。

在一种示例性的实施方式中，名片的文本数据类型包括以下至少一种：个人姓名、个人手机号、个人电话、个人电子邮箱、个人职务、公司名称、公司地址、公司电话和公司网址。

在一种示例性的实施方式中，样本处理模块，还设置为采用以下方式对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换：提取所述子图像的背景纹理数据，将每一条衍生文本数据与所述背景纹理数据进行融合生成融合图像，对所述融合图像进行字体变换和图像变换得到衍生文本图像。

在一种示例性的实施方式中，样本处理模块，设置为采用以下方式根据所述文本构造规则对所述文本内容进行变换生成至少一条衍生文本数据：根据文本数据的构造规则将所述文本数据的内容分割成至少一个原始字段，对每个原始字段的内容进行至少一次变换生成至少一个变换字段，由原始字段和变换字段的组合，以及变换字段和变换字段的组合生成至少一条新的衍生文本数据。

在一种示例性的实施方式中，所述字体变换包括：改变字体的大小和/或类型；

所述图像变换包括以下至少一种变换：背景纹理的变换、图像的投影变换、图像的明暗变换以及图像的模糊变换。

在一种示例性的实施方式中，所述背景纹理的变换包括以下至少一种：旋转、缩放和裁剪；

所述图像的投影变换包括以下至少一种处理：倾斜、旋转和扭曲形变；

所述图像的明暗变换包括：通过第一卷积核对图像数据进行第一卷积操作，改变所述图像的亮度；

所述图像的模糊变换包括：通过第二卷积核对图像数据进行第二卷积操作，改变所述图像的清晰度。

在一种示例性的实施方式中，所述卷积神经网络包括卷积循环神经网络CRNN。

其中，所述卷积循环神经网络包括：卷积层、循环层和转录层。

在一种示例性的实施方式中，所述卷积循环神经网络的循环层使用单向门控循环单元GRU模型或双向GRU模型。

如图14所示，本公开实施例提供了一种名片的文本识别装置，包括：存储器及处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现上述名片的文本识别方法的步骤。

本公开实施例提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述名片的文本识别方法的步骤。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

应该注意，上述实施例或实施方式仅仅是示例性的，而不是限制性的。因此，本公开不限于在此具体示出和描述的内容。可以对实施的形式及细节进行多种修改、替换或省略，而不脱离本公开的范围。

Claims

1.一种名片的文本识别方法，包括：

2.如权利要求1所述的方法，其特征在于：

对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换，包括：

3.如权利要求2所述的方法，其特征在于：

对所述名片样本的任意一种文本数据的子图像进行文本衍生和变换，还包括：

4.如权利要求2所述的方法，其特征在于：

根据所述文本构造规则对所述文本内容进行变换生成至少一条衍生文本数据，包括：

5.如权利要求3所述的方法，其特征在于：

所述字体变换包括：改变字体的大小和/或类型；

6.如权利要求5所述的方法，其特征在于：

所述背景纹理的变换包括以下至少一种：旋转、缩放和裁剪；

7.如权利要求6所述的方法，其特征在于：

所述第二卷积核包括以下至少一种：均值模糊卷积核、中值模糊卷积核、高斯模糊卷积核和运动模糊卷积核。

8.如权利要求7所述的方法，其特征在于：

所述运动模糊卷积核包括至少一个运动方向的运动模糊卷积核：反对角线运动方向的运动模糊卷积核、对角线运动方向的运动模糊卷积核、竖直运动方向的运动模糊卷积核和水平运动方向的运动模糊卷积核。

9.如权利要求1所述的方法，其特征在于：

所述卷积神经网络包括卷积循环神经网络CRNN；

10.如权利要求9所述的方法，其特征在于：

所述卷积循环神经网络的循环层使用单向门控循环单元GRU模型或双向GRU模型。

11.如权利要求1所述的方法，其特征在于：

名片的文本数据类型包括以下至少一种：个人姓名、个人手机号、个人电话、个人电子邮箱、个人职务、公司名称、公司地址、公司电话和公司网址。

12.一种名片的文本识别装置，包括：

13.一种名片的文本识别装置，包括：存储器及处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现权利要求1-11中任一项所述的名片的文本识别方法的步骤。

14.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-11中任一项所述的名片的文本识别方法的步骤。