CN116912856A

CN116912856A - 一种智能扫描笔的图像识别方法、装置以及智能扫描笔

Info

Publication number: CN116912856A
Application number: CN202311182898.4A
Authority: CN
Inventors: 车建波
Original assignee: Shenzhen Bepal Intelligent Technology Co ltd
Current assignee: Shenzhen Bepal Intelligent Technology Co ltd
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-10-20

Abstract

本发明提出智能扫描笔的图像识别方法，具体涉及人工智能技术领域,该方法为：S0：构建、训练并测试得到图像文本识别模型；S1：图像采集S2：图像预处理S4：使用图像文本识别模型对预处理图像进行文本识别，同时获取图像中的语言信息和视觉特征，输出预处理图像中包含的文本内容。本发明还提供一种装置和智能扫描笔。相比于现有技术，本发明提供的图像识别方法不需要额外的语言模型，将原有的两步识别图像文本内容转变成为一步识别，自适应地将视觉和语言信息考虑在一个统一的结构中，在保持高效的同时展现出更强的语言能力，应用与扫描笔中能显著提升扫描笔的文本识别准确度，加快扫描笔文本识别的速度，帮助用户获得更好的性能体验。

Description

一种智能扫描笔的图像识别方法、装置以及智能扫描笔

技术领域

本发明涉及人工智能技术领域，尤其涉及一种智能扫描笔。

背景技术

扫描笔作为一种便携式的电子设备，可将手写或印刷的文本扫描后转换为数字格式，对其进一步做出显示、编辑、TTS语音播放、翻译、分享等操作。

其工作过程中主要可分为图像采集、图像处理和图像识别等步骤：用户首先需手持扫描笔对准需要扫描的文本，此时扫描笔笔尖处设置的光学传感器工作，采集笔尖处的文本的图像；而后，扫描笔内部将对采集到的图像进行处理，最后将处理好的图像送入图像识别模型中进行文本识别，得到图像中的文本信息后，再进一步根据用户需求，对该文本信息进一步做出显示、翻译等处理。

现有技术中应用于扫描笔中的图像识别算法通常采用两步走的方法完成，即在将处理好的图像送入图像识别模型后，图像识别模型首先基于视觉分析方法对图像进行视觉预测，得出预测结果后，再以文本模型纠正该预测结果，最终得到文本识别结果，采用这样的方法时，图像识别模型将独立构建视觉预测模块和语言纠正模块，两模块单独考虑送入的图像中的视觉信息和文本信息。以申请号为“202310604317.5”的中国专利申请文件为例，其中清楚记载了一种词典笔的文本识别方法及装置，通过识别词典笔在扫描过程中获取的文本图像内的词语内容，在词语内容与词典笔词库内的信息不能匹配时，对词语内容进行字符信息比对，并判定字符状态，在字符完整状态下确定文本错误，在字符残缺状态下通过识别的完整字符内容与词典笔词库内的信息进行匹配，并判定对残缺字符的处置方式，包括将残缺字符丢弃或确定词语内容的关键字，基于关键字与残余字符的语义关联关系替换残余字符与词典笔词库内的信息进行匹配识别，进而，实现了对文本识别起始点以及终止点处的不完整字符进行丢弃或者识别补全，更好地适用对大密度文本的识别，提高了文本识别的准确率以及效率。

以上将视觉预测和文本语言纠正两模块区分开、对输入模型的图像先进行图像预测后再做出语言纠正的方法应用到具体的扫描笔中时，由于其处理较繁冗，其处理速度较慢，且由于视觉预测和文本语言纠正两模块独立工作，扫描笔尖端处扫描得到的含文本图像中的勾画痕迹、背景纹理、污渍遮挡等极容易影响最终的文本识别结果，扫描笔的准确率也并不理想。

发明内容

为了解决上述问题，本发明提出一种智能扫描笔的图像识别方法，该识别方法将视觉和语言模型当作一个整体，对图像一同获取语言信息是和视觉特征，不需要额外的语言模型，具体应用在扫描笔上时，能获得更高的准确率和更快的文本识别速度。

本发明还提供一种智能扫描笔的图像识别装置以及智能扫描笔以应用上述方法。

本发明提供的技术方案如下：

一种智能扫描笔的图像识别方法，该方法包括以下步骤：

S0：构建、训练并测试得到图像文本识别模型；

S1：图像采集：设置图像采集器，扫描得到目标区域的原始图像；

S2：图像预处理：对原始图像进行预处理得到预处理图像；

S4：使用图像文本识别模型对预处理图像进行文本识别，同时获取图像中的语言信息和视觉特征，输出预处理图像中包含的文本内容。

进一步的，S0：构建、训练并测试得到图像文本识别模型包括有以下子步骤：

S01：构建模型；

S02：准备训练数据集；

S03：训练模型；

S04：测试模型。

S01：构建模型包括有以下子步骤：

进一步的，S01：构建模型具体包括有：S011：分别搭建特征提取网络、掩码语言感知模块以及视觉推理模块；

S012：设置特征提取网络、掩码语言感知模块以及视觉推理模块依次连接以构建成为构建待训图像文本识别模型。

进一步的，S02具体为：

S021：选用若干张训练图像；

S022：对每一张训练图像做出单词级标注；

S023：对已经标注出单词的数据集中的每一张训练图像，根据当前图像上标注的单词的长度随机生成的字符索引；

S024：收集所有带单词级标注以及字符索引的训练图像形成训练数据集。

进一步的，S03：训练模型包括有以下子步骤：

S031：从训练数据集选择一个图像输入到待训图像文本识别模型中；

S032：特征提取网络对当前输入的图像进行特征提取，得到当前图像的二维特征向量；

S033：掩码语言感知模块对当前图像的二维特征向量、当前图像所携带的单词级标注、当前图像所携带的字符索引做出字符掩码映射处理，得到遮挡特征映射；

S034：组合当前图像、当前图像的二维特征向量、遮挡特征映射得到带遮挡字符的图像；

S035：将带遮挡字符的图像输入到视觉推理模块中，由视觉推理模块视觉空间捕获长距离的信息，预测对应的文本行识别内容；

S036：循环S031-S035直至训练数据集中所有图像都被输入到待训图像文本识别模型中，得到待测图像文本识别模型。

进一步的，04包括有以下子步骤：

S041A：选用若干张测试图像集合成为第一测试数据集；

S042A：摘除待测图像文本识别模型中的掩码语言感知模块，将特征提取网络直接与视觉推理模块连接；

S043A：将测试数据集中的每一张测试图像依次输入到特征提取网络中，由特征提取网络对当前输入的测试图像进行特征提取，得到当前测试图像的二维特征向量后，将该二维特征向量直接输入到视觉推理模块中，由预测视觉推理模块对应的文本行识别内容，得到当前测试图像的文本识别结果；

S044A:循环S041A-S043A直至测试数据集中所有测试图像都被输入到待训图像文本识别模型，得到第一待评估图像文本识别模型。

进一步的，S04还包括有以下子步骤：

S041B：选用若干张测试图像,对每一张测试图像做出单词级标注,根据当前测试图像上标注的单词的长度随机生成的字符索引；集合所有携带单词级标注以及字符索引的测试图像成为第二测试数据集；

S042B：将测试数据集中的每一张测试图像依次输入到待测图像文本识别模型中，得到当前测试图像的文本识别结果；

S043B:循环S041B-S042B直至测试数据集中所有测试图像都被输入到待训图像文本识别模型，得到第二待评估图像文本识别模型。

进一步的，S04还包括有：评估第一待评估图像文本识别模型和第二待评估图像文本识别模型，选择较优者作为最终的图像文本识别模型。

本发明还提供一种智能扫描笔的图像识别装置，该装置存储有如上述的智能扫描笔的图像识别方法并受控执行该方法。

本发明还提供一种智能扫描笔，该智能扫描笔应用如上所述的智能扫描笔的图像识别装置。

本发明的有益效果为：相比于现有技术，本发明提供的图像识别方法不需要额外的语言模型，将原有的两步识别图像文本内容转变成为一步识别，自适应地将视觉和语言信息考虑在一个统一的结构中，在保持高效的同时展现出更强的语言能力，应用与扫描笔中能显著提升扫描笔的文本识别准确度，加快扫描笔文本识别的速度，帮助用户获得更好的性能体验。

附图说明

图1为具体实施方式中所实现的智能扫描笔的图像识别方法的流程图。

图2为具体实施方式中所实现的智能扫描笔的图像识别方法中S03：训练模型的子步骤流程图。

本申请为目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

实施方式

为了更加清楚完整的说明本发明的技术方案，下面结合附图对本发明作进一步说明。

请参考图1-图2。

在本具体实施方式中提供一种智能扫描笔的图像识别方法，该方法包括以下步骤：

S0：构建、训练并测试得到图像文本识别模型；

S2：图像预处理：对原始图像进行预处理得到预处理图像；

进一步的，在本具体实施方式中，S0：构建、训练并测试得到图像文本识别模型包括有以下子步骤：

S01：构建模型；

S02：准备训练数据集；

S03：训练模型；

S04：测试模型。

进一步的，在本具体实施方式中，S01：构建模型包括有以下子步骤：

S01：构建模型具体包括有：S011：分别搭建特征提取网络、掩码语言感知模块以及视觉推理模块；

进一步的，在本具体实施方式中，S02具体为：

S021：选用若干张训练图像；

S022：对每一张训练图像做出单词级标注；

S023：对已经标注出单词的数据集中的每一张训练图像，根据当前图像上标注的单词的长度随机生成的字符索引，字符索引表示被遮挡字符的索引，对于每个长度的输入单词图像，随机获取该字符的索引；

进一步的，在本具体实施方式中，S03：训练模型包括有以下子步骤：

S033：掩码语言感知模块对当前图像的二维特征向量、当前图像所携带的单词级标注、当前图像所携带的字符索引做出字符掩码映射处理，得到遮挡特征映射；掩码语言感知模块以当前图像的二维特征向量和字符索引作为输入，在具体实现时，技术人员可以以transformer单元和sigmoid层搭建该掩码语言感知模块，利用transformer单元来提高特征表示能力，结合字符索引信息，通过sigmoid层得到字符掩码映射，并进一步生成遮挡特征映射后。

S034：组合当前图像、当前图像的二维特征向量、遮挡特征映射得到带遮挡字符的图像；为了指导遮挡特征映射的学习过程，搭建掩码语言感知模块时，可在弱监督互补学习的基础上设计了两个并行分支。

弱监督互补学习旨在引导遮挡特征映射覆盖更多被遮挡字符的区域，从而互补地使遮挡特征映射包含更多其他字符的区域。在第一个分支中，将当前图像的二维特征向量和遮挡特征映射之间的逐元素乘积，以生成包含被遮挡字符的视觉语义的特征图。与之对应的，在第二分支中，将当前图像的二维特征向量和遮挡特征映射之间的元素乘积用于生成包含其他字符的视觉语义的特征图。这样一来，第一分支与第二分支互补学习过程将引导遮挡特征映只覆盖相应位置的字符，而不与其他字符重叠。

两个平行设置的分支之间共享变换器单元和预测层的权重，可用于特征表示增强和语义引导。使用原始的词级标注和随机生成的字符索引自动获得弱监督互补学习的监督，这样一来，掩码语言感知模块可自动生成准确的字符掩码映射，而无需额外的标注。

视觉推理模块包括两部分:可视化语义推理层和并行预测层。其中可视化语义推理层由若干个变压器单元组成，多个变压器单元组成的可视化语义推理层可以有效地建模长期依赖关系，不受单词长度的影响。

由于掩码语言感知模块在训练阶段准确地遮挡了字符信息，引导可视化语义推理层预测字符视觉特征之间的依赖关系，从而推断被遮挡字符的语义。因此，在单词级监督下，可视化语义推理层学习在视觉语境中主动建模语言信息以辅助识别，也正是因为这样的设计，可视化语义推理层在后续的模型测试阶段能够在当前视觉语义混乱(如污渍遮挡、勾画痕迹等)的情况下，自适应地考虑语言信息进行视觉特征增强。可视化语义推理层生成的特征映射可视化后，能更好地理解学习到的语言信息如何提高识别性能。

进一步的，在本具体实施方式中，04包括有以下子步骤：

S041A：选用若干张测试图像集合成为第一测试数据集；

进一步的，在本具体实施方式中，S04还包括有以下子步骤：

进一步的，在本具体实施方式中，S04还包括有：评估第一待评估图像文本识别模型和第二待评估图像文本识别模型，选择较优者作为最终的图像文本识别模型。

在本具体实施方式中还提供一种智能扫描笔的图像识别装置，该装置存储有如上述的智能扫描笔的图像识别方法并受控执行该方法。

在本具体实施方式中还提供一种智能扫描笔，该智能扫描笔应用如上所述的智能扫描笔的图像识别装置。

当然，本发明还可有其它多种实施方式，基于本实施方式，本领域的普通技术人员在没有做出任何创造性劳动的前提下所获得其他实施方式，都属于本发明所保护的范围。

Claims

1.一种智能扫描笔的图像识别方法，其特征在于，该方法包括以下步骤：

S0：构建、训练并测试得到图像文本识别模型；

S2：图像预处理：对原始图像进行预处理得到预处理图像；

2.如权利要求1所述的智能扫描笔的图像识别方法，其特征在于，所述S0：构建、训练并测试得到图像文本识别模型包括有以下子步骤：

S01：构建模型；

S02：准备训练数据集；

S03：训练模型；

S04：测试模型。

3.如权利要求2所述的智能扫描笔的图像识别方法，其特征在于，所述S01：构建模型包括有以下子步骤：

4.如权利要求3所述的智能扫描笔的图像识别方法，其特征在于，所述S02具体为：

S021：选用若干张训练图像；

S022：对每一张训练图像做出单词级标注；

5.如权利要求4所述的智能扫描笔的图像识别方法，其特征在于，所述S03：训练模型包括有以下子步骤：

6.如权利要求5所述的智能扫描笔的图像识别方法，其特征在于，所述S04包括有以下子步骤：

S041A：选用若干张测试图像集合成为第一测试数据集；

7.如权利要求6所述的智能扫描笔的图像识别方法，其特征在于，所述S04还包括有以下子步骤：

8.如权利要求6所述的智能扫描笔的图像识别方法，其特征在于，所述S04还包括有：评估第一待评估图像文本识别模型和第二待评估图像文本识别模型，选择较优者作为最终的图像文本识别模型。

9.一种智能扫描笔的图像识别装置，其特征在于，该装置存储有如权利要求1-8任一项所述的智能扫描笔的图像识别方法并受控执行该方法。

10.一种智能扫描笔，其特征在于，该扫描笔应用如权利要求9所述的智能扫描笔的图像识别装置。