CN112883953B

CN112883953B - 基于联合学习的卡片识别装置及方法

Info

Publication number: CN112883953B
Application number: CN202110196711.0A
Authority: CN
Inventors: 张雷; 杜姗; 蔡为彬; 罗樋
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2022-10-28
Anticipated expiration: 2041-02-22
Also published as: CN112883953A

Abstract

一种基于联合学习的卡片识别装置及方法，适用于大数据处理领域，可用于金融领域和其他领域，所述装置包含：图像扫描模块、数据预处理模块、模型生成模块和结果输出模块；图像扫描模块用于采集预定卡片的电子影像数据；数据预处理模块用于根据预设标注规则对电子影像数据中对应图像区域进行标注生成训练图像数据；模型生成模块用于提取训练图像数据中的图像噪声的结构信息和视觉信息；通过预设的神经网络模型中嵌入层分析结构信息和视觉信息，获得图像特征、语义特征、文本向量特征和位置特征；利用上述特征训练神经网络模型获得卡片识别模型；结果输出模块用于通过卡片识别模型分析待识别卡片的电子影像数据获得识别结果。

Description

基于联合学习的卡片识别装置及方法

技术领域

本发明涉及人工智能领域，可应用于金融领域和图像识别领域，尤指一种基于联合学习的卡片识别装置及方法。

背景技术

目前在银行业，卡片已经得到广泛的使用，覆盖到银行业务的各个分支。卡片的定义，不仅仅局限在客户用以转账结算、存取现金的银行卡，还包含业务人员在营销工作中所使用的名片这类交际工具上。然而，不论是客户的银行卡还是其他业务人员交际应酬所用的名片，都极容易收到污渍、磨损的侵扰，对外在不利因素的抵抗力极弱。长此以往，不仅提高了银行的制卡成本，同时也会降低卡片影像识别的质量，进而影响银行后续模型的应用效果和场景落地，为银行带来潜在的剩余损害和利益损失。

为了解决这类问题，已有不少专家学者专注于解决图像的噪声问题，并提出了许多优秀的解决方案，例如：高斯滤波、中值滤波，但传统的去噪方法往往具有较大的局限性，只适配解决特定类别的图像噪声，这些方法虽然能够针对特定类别噪声带来一定程度的性能提升，但通用性不尽如人意。由于深度学习在图像识别领域取得了较好的成果，近年来，基于深度学习的图像去噪方法也被提出并得到了发展，例如卷积神经网络、多层感知机等等，但是该类模型没能很好的利用图像噪声的视觉信息和结构信息去辅助进行图像噪声的识别，导致图像识别的准确率仍有较大的提升空间。

发明内容

本发明目的在于提供一种基于联合学习的卡片识别装置及方法，针对传统数字图像处理去噪方法场景局限性、使图像产生模糊等缺陷，克服现有图像噪声识别算法的不足。

为达上述目的，本发明所提供的基于联合学习的卡片识别装置，所述装置包含：图像扫描模块、数据预处理模块、模型生成模块和结果输出模块；所述图像扫描模块用于采集预定卡片的电子影像数据；所述数据预处理模块用于根据预设标注规则对所述电子影像数据中对应图像区域进行标注生成训练图像数据；所述模型生成模块用于提取所述训练图像数据中的图像噪声的结构信息和视觉信息；通过预设的神经网络模型中嵌入层分析所述结构信息和视觉信息，获得图像特征、语义特征、文本向量特征和位置特征；利用所述图像特征、所述语义特征、所述文本向量特征和所述位置特征训练所述神经网络模型获得卡片识别模型；所述结果输出模块用于通过所述卡片识别模型分析待识别卡片的电子影像数据，获得识别结果。

在上述基于联合学习的卡片识别装置中，优选的，所述模型生成模块包含图像特征提取单元、语义特征提取单元、文本特征提取单元和位置特征提取单元；所述图像特征提取单元用于提取所述训练图像数据中文本边框内的图像信息，根据所述图像信息中噪声特征设定权值系数，通过所述权值系数筛除所述图像信息中噪声影像获得图像特征；所述语义特征提取单元用于根据所述图像信息中的文本内容，获得对应的文本语义特征；所述文本特征提取单元用于将所述文本内容分割为字符，并将每个字符转化为向量后生成文本向量特征；所述位置特征提取单元用于根据所述图像信息中文本的坐标信息生成位置特征。

在上述基于联合学习的卡片识别装置中，优选的，所述图像特征提取单元还包含：根据所述图像信息中的直观特征和属性特征获得所述噪声特征；通过计算噪声特征和图像信息中正文内容的像素矩阵差异，为噪声特征和正文内容分别设定权值系数。

在上述基于联合学习的卡片识别装置中，优选的，所述直观特征包含图像噪声的尺寸、颜色、字体、粒度、形状中一种或多种的组合；所述属性特征包含水滴型、侵染型、折损型、破损型、污染型中一种或多种的组合。

在上述基于联合学习的卡片识别装置中，优选的，所述模型生成模块包含训练单元，所述训练单元用于根据预设迭代轮次，通过预定数量的样本训练所述神经网络模型；当所述神经网络模型完成迭代轮次的训练后且识别准确率高于或等于预设基线时，根据所述神经网络模型获得卡片识别模型。

本发明还提供一种基于联合学习的卡片识别方法，具体包含：采集预定卡片的电子影像数据；根据预设标注规则对所述电子影像数据中对应图像区域进行标注生成训练图像数据；提取所述训练图像数据中的图像噪声的结构信息和视觉信息；通过预设的神经网络模型中嵌入层分析所述结构信息和视觉信息，获得图像特征、语义特征、文本向量特征和位置特征；利用所述图像特征、所述语义特征、所述文本向量特征和所述位置特征训练所述神经网络模型获得卡片识别模型；通过所述卡片识别模型分析待识别卡片的电子影像数据，获得识别结果。

在上述基于联合学习的卡片识别方法中，优选的，通过预设的神经网络模型中嵌入层分析所述结构信息和视觉信息，获得图像特征、语义特征、文本向量特征和位置特征包含：提取所述训练图像数据中文本边框内的图像信息，根据所述图像信息中噪声特征设定权值系数，通过所述权值系数筛除所述图像信息中噪声影像获得图像特征；根据所述图像信息中的文本内容，获得对应的文本语义特征；将所述文本内容分割为字符，并将每个字符转化为向量后生成文本向量特征；根据所述图像信息中文本的坐标信息生成位置特征。

在上述基于联合学习的卡片识别方法中，优选的，根据所述图像信息中噪声特征设定权值系数包含：根据所述图像信息中的直观特征和属性特征获得所述噪声特征；通过计算噪声特征和图像信息中正文内容的像素矩阵差异，为噪声特征和正文内容分别设定权值系数。

在上述基于联合学习的卡片识别方法中，优选的，所述直观特征包含图像噪声的尺寸、颜色、字体、粒度、形状中一种或多种的组合；所述属性特征包含水滴型、侵染型、折损型、破损型、污染型中一种或多种的组合。

在上述基于联合学习的卡片识别方法中，优选的，利用所述图像特征、所述语义特征、所述文本向量特征和所述位置特征训练所述神经网络模型获得卡片识别模型包含：根据预设迭代轮次，通过预定数量的样本训练所述神经网络模型；当所述神经网络模型完成迭代轮次的训练后且识别准确率高于或等于预设基线时，根据所述神经网络模型获得卡片识别模型。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述方法的计算机程序。

本发明所提供的基于联合学习的卡片识别装置及方法，基于深度学习技术，综合运用图像噪声视觉信息与结构关系，构建创新型神经网络模型；基于该模型进行模型训练，提升了卡片识别的准确率，不仅节约了银行制卡的成本，更为识别结果的后续应用(包括但不仅限于手机银行APP识别卡面信息，社交APP读取名片信息等)提供了强有力的准确性保障，有利于维护银行的优良信誉以及口碑；该模型有别于现有的高斯滤波、中值滤波方法，具有良好的通用性，可以对各种类型的图像噪声进行训练，且训练后的模型能够精准地识别受到各类噪声影响的内容；通过在神经网络模型中创新的添加图像嵌入层、语义嵌入层、文本嵌入层以及位置嵌入层，使得模型可以更加充分地学习到噪声的特征，提升文字识别的准确率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例所提供的基于联合学习的卡片识别装置的结构示意图；

图2为本发明一实施例所提供的图像扫描模块的应用流程示意图；

图3为本发明一实施例所提供的数据预处理模块的应用流程示意图；

图4为本发明一实施例所提供的模型构建模块的应用流程示意图；

图5为本发明一实施例所提供的模型训练模块的应用流程示意图；

图6为本发明一实施例所提供的结果输出模块的应用流程示意图；

图7为本发明一实施例所提供的图像噪声的多项特征的示意图；

图8为本发明一实施例所提供的卡片键值对分布样例的示意图；

图9为本发明一实施例所提供的基于联合学习的卡片识别方法的流程示意图；

图10为本发明一实施例所提供的特征的获取流程示意图；

图11为本发明一实施例所提供的电子设备的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

结合卡片的结构信息和视觉信息等特色数据，综合运用深度学习预训练技术、机器学习算法等技术对电子影像数据进行处理和建模，实现了对具有图像噪声的卡片电子影像内容的精准识别，降低了图像噪声对于卡片识别的影响；一方面提升了客户对卡片识别功能的体验感，延长了客户各类卡片的使用寿命；另一方面，也能够提升银行人员的业务处理效率，节约人力成本以及制卡成本。

请参考图1所示，本发明所提供的基于联合学习的卡片识别装置，所述装置包含：图像扫描模块1、数据预处理模块2、模型生成模块(图1中模型构建模块3和模型训练模块4)和结果输出模块5；所述图像扫描模块1用于采集预定卡片的电子影像数据；所述数据预处理模块2用于根据预设标注规则对所述电子影像数据中对应图像区域进行标注生成训练图像数据；所述模型生成模块用于提取所述训练图像数据中的图像噪声的结构信息和视觉信息；通过预设的神经网络模型中嵌入层分析所述结构信息和视觉信息，获得图像特征、语义特征、文本向量特征和位置特征；利用所述图像特征、所述语义特征、所述文本向量特征和所述位置特征训练所述神经网络模型获得卡片识别模型；所述结果输出模块5用于通过所述卡片识别模型分析待识别卡片的电子影像数据，获得识别结果。

在实际工作中，图像扫描模块1与数据预处理模块2相连接，数据预处理模块2与模型构建模块3相连接，模型构建模块3与模型训练模块4相连接，模型训练模块4与结果输出模块5相连接，具体来说：

图像扫描模块1，是指用于获得完整的卡片电子影像的电子设备，该设备包括但不仅限于手机、数码相机、扫描仪等。经过图像扫描模块1后，我们可以获得完整的卡片电子影像。

数据预处理模块2，是指借由数据标注工具对通过图像扫描模块1得到的卡片电子影像数据进行数据标注的过程，数据标注工具包括但不仅限于Labelme、labelImg、yolo_mark。

模型构建模块3，是指根据特定需求构建神经网络模型的过程。本文提出了一种新型卡片识别模型，对图像噪声的结构信息和视觉信息进行建模，通过构建具有图像嵌入层、语义嵌入层、文本嵌入层和位置嵌入层等神经网络模型，去有效结合图像噪声的结构信息和视觉信息，从而有效地提升原有模型效果，降低图像噪声对卡片电子影像识别的影响。

模型训练模块4，是指读取图片文件，设置模型的迭代轮次、样本数量、学习率等参数，将现有数据集按一定比例划分为训练集和测试集，加载模型构建模块3中所构建的神经网络模型进行训练的过程。训练完成后，对模型的优劣进行评估。最后，保存模型文件。

结果输出模块5，是指应用模型训练模块4中所训练好的模型，使用新的卡片图像作为输入数据，输出正确的识别的结果。该结果可作为下游应用的输入参数。

请参考图2所示，在实际工作中本发明所提供的图像扫描模块1在使用过程中的具体实施步骤如下：

步骤S101：准备卡片实物。

步骤S102：客户通过图像扫描器设备，扫描想要识别的卡片。

步骤S103：得到卡片电子影像。

步骤S104：将扫描的卡片电子影像放置在指定的目录。

请参考图3所示，图1中的数据预处理模块2的使用流程如下：

步骤S201：对从图像扫描模块1获取到的图像数据进行数据清洗，移除存在缺失值、重复等质量问题的电子影像数据。

步骤S202：制定标注规范，并将该规范作为步骤S204的基准。

步骤S203：搭建图像标注工具使用环境，安装图像标注工具。

步骤S204：使用步骤S203中的图像标注工具，打开想要标注的数据集图片进行标注。

步骤S205：标注后保存，图片上的标注信息将以json文件格式进行保存，json文件的内容包含但不仅限于文件的路径，标签名等。

在本发明一实施例中，所述模型生成模块包含图像特征提取单元、语义特征提取单元、文本特征提取单元和位置特征提取单元；所述图像特征提取单元用于提取所述训练图像数据中文本边框内的图像信息，根据所述图像信息中噪声特征设定权值系数，通过所述权值系数筛除所述图像信息中噪声影像获得图像特征；所述语义特征提取单元用于根据所述图像信息中的文本内容，获得对应的文本语义特征；所述文本特征提取单元用于将所述文本内容分割为字符，并将每个字符转化为向量后生成文本向量特征；所述位置特征提取单元用于根据所述图像信息中文本的坐标信息生成位置特征。其中，所述图像特征提取单元还包含：根据所述图像信息中的直观特征和属性特征获得所述噪声特征；通过计算噪声特征和图像信息中正文内容的像素矩阵差异，为噪声特征和正文内容分别设定权值系数。所述直观特征包含图像噪声的尺寸、颜色、字体、粒度、形状中一种或多种的组合；所述属性特征包含水滴型、侵染型、折损型、破损型、污染型中一种或多种的组合。

在实际工作中，上述模型生成模块可分为模型构建模块和模型训练模块两部分，如图4所示，本发明所提供的模型构建模块3的实施步骤如下：

步骤S301：批量读取卡片影像数据以及卡片文字内容。

步骤S302：构建神经网络模型。本创新方法的神经网络模型由四个主嵌入层组成：图像嵌入层、语义嵌入层、文本嵌入层、位置嵌入层。

其中，图像嵌入层：负责记录电子影像数据的文本边框中的图像特征，包括但不仅限于图像噪声的直观特征和属性特征，这些图像特征可以为卡片信息的抽取提供更多的信息。如图7所示，直观特征包括但不仅限于图像噪声的：大小、颜色、字体、粒度、形状，而属性特征则包括但不仅限于水滴型、侵染型、折损型、破损型、污染型。图像正文和图像噪声的颜色、形状等特征上往往具有较大的差异性，通过计算图像噪声和正文内容的像素矩阵差异，赋予图像噪声和正文内容不同的权值，可以更好的辅助模型判断正文和噪声影像。其中，权值系数的学习则是通过对直观特征和属性特征的训练来完成的。

语义嵌入层：负责记录电子影像数据的文本语义，卡片通常是以键值对的形式展现内容，如图8所示。通常情况下，键值对的排布有特殊的关联关系，例如左右、上下等等。通过语义嵌入层和位置嵌入层记录语义信息和位置信息，学习与文本天然对齐的结构信息，在面对具有高伪装性的噪声时，可以帮助进一步识别卡片的正文和图像噪声，包括但不仅限于：本应展示数字的区域出现非数字字符等场景。

文本嵌入层：将文本分割为字符，并将每个字符转化为一个向量，便于后续处理图像噪声。

位置嵌入层又可以分为四个子嵌入层：X0，Y0，X1，Y1。X0，Y0，X1，Y1指代文本在卡片影像的具***置，其中(X0，Y0)为文本边框左上角的顶点坐标，(X1,Y1)为文本边框右下角的顶点坐标。通过将实体坐标X0，Y0，X1，Y1转化为虚拟坐标，计算该坐标对应在x，y，w，h四个子层的表示，这里的x，y，w，h指的是文本边框的中心点坐标(x，y)，宽度以及高度，位置嵌入层为四个子层的合并。

在本发明一实施例红，所述模型生成模块包含训练单元，所述训练单元用于根据预设迭代轮次，通过预定数量的样本训练所述神经网络模型；当所述神经网络模型完成迭代轮次的训练后且识别准确率高于或等于预设基线时，根据所述神经网络模型获得卡片识别模型。请参考图5所示，本发明所提供的训练单元可图5中的模型训练模块4所示，具体步骤包含如下：

步骤S401：设置模型训练的迭代轮次。

步骤S402：设置批量获取样本的数量。

步骤S403：设置学习率。

步骤S404：读取卡片电子影像数据集，按照一定比例划分训练集和测试集。

步骤S405：加载步骤S402所构建的神经网络模型进行训练。

步骤S406：完成步骤S401指定轮次的迭代后，对模型进行评估。

步骤S407：若模型识别准确率达到基线，则保存模型文件。

由此，如图6，在上述基础上本发明所提供的图像识别模块5即可执行如下步骤：

步骤S501：加载步骤S507所保存的模型文件。

步骤S502：输入图片文件进行识别。

请参考图9所示，本发明还提供一种基于联合学习的卡片识别方法，具体包含：

S901采集预定卡片的电子影像数据；根据预设标注规则对所述电子影像数据中对应图像区域进行标注生成训练图像数据；

S902提取所述训练图像数据中的图像噪声的结构信息和视觉信息；

S903通过预设的神经网络模型中嵌入层分析所述结构信息和视觉信息，获得图像特征、语义特征、文本向量特征和位置特征；

S904利用所述图像特征、所述语义特征、所述文本向量特征和所述位置特征训练所述神经网络模型获得卡片识别模型；

S905通过所述卡片识别模型分析待识别卡片的电子影像数据，获得识别结果。

如图10所示，在上述实施例中，通过预设的神经网络模型中嵌入层分析所述结构信息和视觉信息，获得图像特征、语义特征、文本向量特征和位置特征包含：

S1001提取所述训练图像数据中文本边框内的图像信息，根据所述图像信息中噪声特征设定权值系数，通过所述权值系数筛除所述图像信息中噪声影像获得图像特征；

S1002根据所述图像信息中的文本内容，获得对应的文本语义特征；将所述文本内容分割为字符，并将每个字符转化为向量后生成文本向量特征；

S1003根据所述图像信息中文本的坐标信息生成位置特征。

其中，根据所述图像信息中噪声特征设定权值系数包含：根据所述图像信息中的直观特征和属性特征获得所述噪声特征；通过计算噪声特征和图像信息中正文内容的像素矩阵差异，为噪声特征和正文内容分别设定权值系数。进一步的，所述直观特征包含图像噪声的尺寸、颜色、字体、粒度、形状中一种或多种的组合；所述属性特征包含水滴型、侵染型、折损型、破损型、污染型中一种或多种的组合。

在本发明另一实施例中，利用所述图像特征、所述语义特征、所述文本向量特征和所述位置特征训练所述神经网络模型获得卡片识别模型包含：根据预设迭代轮次，通过预定数量的样本训练所述神经网络模型；当所述神经网络模型完成迭代轮次的训练后且识别准确率高于或等于预设基线时，根据所述神经网络模型获得卡片识别模型。

如图11所示，该电子设备600还可以包括：通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是，电子设备600也并不是必须要包括图11中所示的所有部件；此外，电子设备600还可以包括图11中没有示出的部件，可以参考现有技术。

如图11所示，中央处理器100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中，存储器140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序，以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142，该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143，该数据存储部143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132，以经由扬声器131提供音频输出，并接收来自麦克风132的音频输入，从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器130还耦合到中央处理器100，从而使得可以通过麦克风132能够在本机上录音，且使得可以通过扬声器131来播放本机上存储的声音。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于联合学习的卡片识别装置，其特征在于，所述装置包含：图像扫描模块、数据预处理模块、模型生成模块和结果输出模块；

所述图像扫描模块用于采集预定卡片的电子影像数据；

所述数据预处理模块用于根据预设标注规则对所述电子影像数据中对应图像区域进行标注生成训练图像数据；

所述模型生成模块用于提取所述训练图像数据中的图像噪声的结构信息和视觉信息；通过预设的神经网络模型中嵌入层分析所述结构信息和视觉信息，于所述训练图像数据中文本边框内获得图像特征、语义特征、文本向量特征和位置特征；利用所述图像特征、所述语义特征、所述文本向量特征和所述位置特征训练所述神经网络模型获得卡片识别模型；

所述结果输出模块用于通过所述卡片识别模型分析待识别卡片的电子影像数据，获得识别结果；

所述模型生成模块包含图像特征提取单元、语义特征提取单元、文本特征提取单元和位置特征提取单元；

所述图像特征提取单元用于提取所述训练图像数据中文本边框内的图像信息，根据所述图像信息中噪声特征设定权值系数，通过所述权值系数筛除所述图像信息中噪声影像获得图像特征；

所述语义特征提取单元用于根据所述图像信息中的文本内容，获得对应的文本语义特征；

所述文本特征提取单元用于将所述文本内容分割为字符，并将每个字符转化为向量后生成文本向量特征；

所述位置特征提取单元用于根据所述图像信息中文本的坐标信息生成位置特征。

2.根据权利要求1所述的基于联合学习的卡片识别装置，其特征在于，所述图像特征提取单元还包含：

根据所述图像信息中的直观特征和属性特征获得所述噪声特征；

通过计算噪声特征和图像信息中正文内容的像素矩阵差异，为噪声特征和正文内容分别设定权值系数。

3.根据权利要求2所述的基于联合学习的卡片识别装置，其特征在于，所述直观特征包含图像噪声的尺寸、颜色、字体、粒度、形状中一种或多种的组合；所述属性特征包含水滴型、侵染型、折损型、破损型、污染型中一种或多种的组合。

4.根据权利要求1所述的基于联合学习的卡片识别装置，其特征在于，所述模型生成模块包含训练单元，所述训练单元用于根据预设迭代轮次，通过预定数量的样本训练所述神经网络模型；当所述神经网络模型完成迭代轮次的训练后且识别准确率高于或等于预设基线时，根据所述神经网络模型获得卡片识别模型。

5.一种基于联合学习的卡片识别方法，其特征在于，所述方法包含：

采集预定卡片的电子影像数据；

根据预设标注规则对所述电子影像数据中对应图像区域进行标注生成训练图像数据；

提取所述训练图像数据中的图像噪声的结构信息和视觉信息；

通过预设的神经网络模型中嵌入层分析所述结构信息和视觉信息，于所述训练图像数据中文本边框内获得图像特征、语义特征、文本向量特征和位置特征；

利用所述图像特征、所述语义特征、所述文本向量特征和所述位置特征训练所述神经网络模型获得卡片识别模型；

通过所述卡片识别模型分析待识别卡片的电子影像数据，获得识别结果；

通过预设的神经网络模型中嵌入层分析所述结构信息和视觉信息，于所述训练图像数据中文本边框内获得图像特征、语义特征、文本向量特征和位置特征包含：

提取所述训练图像数据中文本边框内的图像信息，根据所述图像信息中噪声特征设定权值系数，通过所述权值系数筛除所述图像信息中噪声影像获得图像特征；

根据所述图像信息中的文本内容，获得对应的文本语义特征；

将所述文本内容分割为字符，并将每个字符转化为向量后生成文本向量特征；

根据所述图像信息中文本的坐标信息生成位置特征。

6.根据权利要求5所述的基于联合学习的卡片识别方法，其特征在于，根据所述图像信息中噪声特征设定权值系数包含：

7.根据权利要求6所述的基于联合学习的卡片识别方法，其特征在于，所述直观特征包含图像噪声的尺寸、颜色、字体、粒度、形状中一种或多种的组合；所述属性特征包含水滴型、侵染型、折损型、破损型、污染型中一种或多种的组合。

8.根据权利要求5所述的基于联合学习的卡片识别方法，其特征在于，利用所述图像特征、所述语义特征、所述文本向量特征和所述位置特征训练所述神经网络模型获得卡片识别模型包含：

根据预设迭代轮次，通过预定数量的样本训练所述神经网络模型；

当所述神经网络模型完成迭代轮次的训练后且识别准确率高于或等于预设基线时，根据所述神经网络模型获得卡片识别模型。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求5至8任一所述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求5至8任一所述方法的计算机程序。