CN116912856A - 一种智能扫描笔的图像识别方法、装置以及智能扫描笔 - Google Patents

一种智能扫描笔的图像识别方法、装置以及智能扫描笔 Download PDF

Info

Publication number
CN116912856A
CN116912856A CN202311182898.4A CN202311182898A CN116912856A CN 116912856 A CN116912856 A CN 116912856A CN 202311182898 A CN202311182898 A CN 202311182898A CN 116912856 A CN116912856 A CN 116912856A
Authority
CN
China
Prior art keywords
image
text recognition
test
model
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311182898.4A
Other languages
English (en)
Inventor
车建波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Bepal Intelligent Technology Co ltd
Original Assignee
Shenzhen Bepal Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Bepal Intelligent Technology Co ltd filed Critical Shenzhen Bepal Intelligent Technology Co ltd
Priority to CN202311182898.4A priority Critical patent/CN116912856A/zh
Publication of CN116912856A publication Critical patent/CN116912856A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1916Validation; Performance evaluation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提出智能扫描笔的图像识别方法,具体涉及人工智能技术领域,该方法为:S0:构建、训练并测试得到图像文本识别模型;S1:图像采集S2:图像预处理S4:使用图像文本识别模型对预处理图像进行文本识别,同时获取图像中的语言信息和视觉特征,输出预处理图像中包含的文本内容。本发明还提供一种装置和智能扫描笔。相比于现有技术,本发明提供的图像识别方法不需要额外的语言模型,将原有的两步识别图像文本内容转变成为一步识别,自适应地将视觉和语言信息考虑在一个统一的结构中,在保持高效的同时展现出更强的语言能力,应用与扫描笔中能显著提升扫描笔的文本识别准确度,加快扫描笔文本识别的速度,帮助用户获得更好的性能体验。

Description

一种智能扫描笔的图像识别方法、装置以及智能扫描笔
技术领域
本发明涉及人工智能技术领域,尤其涉及一种智能扫描笔。
背景技术
扫描笔作为一种便携式的电子设备,可将手写或印刷的文本扫描后转换为数字格式,对其进一步做出显示、编辑、TTS语音播放、翻译、分享等操作。
其工作过程中主要可分为图像采集、图像处理和图像识别等步骤:用户首先需手持扫描笔对准需要扫描的文本,此时扫描笔笔尖处设置的光学传感器工作,采集笔尖处的文本的图像;而后,扫描笔内部将对采集到的图像进行处理,最后将处理好的图像送入图像识别模型中进行文本识别,得到图像中的文本信息后,再进一步根据用户需求,对该文本信息进一步做出显示、翻译等处理。
现有技术中应用于扫描笔中的图像识别算法通常采用两步走的方法完成,即在将处理好的图像送入图像识别模型后,图像识别模型首先基于视觉分析方法对图像进行视觉预测,得出预测结果后,再以文本模型纠正该预测结果,最终得到文本识别结果,采用这样的方法时,图像识别模型将独立构建视觉预测模块和语言纠正模块,两模块单独考虑送入的图像中的视觉信息和文本信息。以申请号为“202310604317.5”的中国专利申请文件为例,其中清楚记载了一种词典笔的文本识别方法及装置,通过识别词典笔在扫描过程中获取的文本图像内的词语内容,在词语内容与词典笔词库内的信息不能匹配时,对词语内容进行字符信息比对,并判定字符状态,在字符完整状态下确定文本错误,在字符残缺状态下通过识别的完整字符内容与词典笔词库内的信息进行匹配,并判定对残缺字符的处置方式,包括将残缺字符丢弃或确定词语内容的关键字,基于关键字与残余字符的语义关联关系替换残余字符与词典笔词库内的信息进行匹配识别,进而,实现了对文本识别起始点以及终止点处的不完整字符进行丢弃或者识别补全,更好地适用对大密度文本的识别,提高了文本识别的准确率以及效率。
以上将视觉预测和文本语言纠正两模块区分开、对输入模型的图像先进行图像预测后再做出语言纠正的方法应用到具体的扫描笔中时,由于其处理较繁冗,其处理速度较慢,且由于视觉预测和文本语言纠正两模块独立工作,扫描笔尖端处扫描得到的含文本图像中的勾画痕迹、背景纹理、污渍遮挡等极容易影响最终的文本识别结果,扫描笔的准确率也并不理想。
发明内容
为了解决上述问题,本发明提出一种智能扫描笔的图像识别方法,该识别方法将视觉和语言模型当作一个整体,对图像一同获取语言信息是和视觉特征,不需要额外的语言模型,具体应用在扫描笔上时,能获得更高的准确率和更快的文本识别速度。
本发明还提供一种智能扫描笔的图像识别装置以及智能扫描笔以应用上述方法。
本发明提供的技术方案如下:
一种智能扫描笔的图像识别方法,该方法包括以下步骤:
S0:构建、训练并测试得到图像文本识别模型;
S1:图像采集:设置图像采集器,扫描得到目标区域的原始图像;
S2:图像预处理:对原始图像进行预处理得到预处理图像;
S4:使用图像文本识别模型对预处理图像进行文本识别,同时获取图像中的语言信息和视觉特征,输出预处理图像中包含的文本内容。
进一步的,S0:构建、训练并测试得到图像文本识别模型包括有以下子步骤:
S01:构建模型;
S02:准备训练数据集;
S03:训练模型;
S04:测试模型。
S01:构建模型包括有以下子步骤:
进一步的,S01:构建模型具体包括有:S011:分别搭建特征提取网络、掩码语言感知模块以及视觉推理模块;
S012:设置特征提取网络、掩码语言感知模块以及视觉推理模块依次连接以构建成为构建待训图像文本识别模型。
进一步的,S02具体为:
S021:选用若干张训练图像;
S022:对每一张训练图像做出单词级标注;
S023:对已经标注出单词的数据集中的每一张训练图像,根据当前图像上标注的单词的长度随机生成的字符索引;
S024:收集所有带单词级标注以及字符索引的训练图像形成训练数据集。
进一步的,S03:训练模型包括有以下子步骤:
S031:从训练数据集选择一个图像输入到待训图像文本识别模型中;
S032:特征提取网络对当前输入的图像进行特征提取,得到当前图像的二维特征向量;
S033:掩码语言感知模块对当前图像的二维特征向量、当前图像所携带的单词级标注、当前图像所携带的字符索引做出字符掩码映射处理,得到遮挡特征映射;
S034:组合当前图像、当前图像的二维特征向量、遮挡特征映射得到带遮挡字符的图像;
S035:将带遮挡字符的图像输入到视觉推理模块中,由视觉推理模块视觉空间捕获长距离的信息,预测对应的文本行识别内容;
S036:循环S031-S035直至训练数据集中所有图像都被输入到待训图像文本识别模型中,得到待测图像文本识别模型。
进一步的,04包括有以下子步骤:
S041A:选用若干张测试图像集合成为第一测试数据集;
S042A:摘除待测图像文本识别模型中的掩码语言感知模块,将特征提取网络直接与视觉推理模块连接;
S043A:将测试数据集中的每一张测试图像依次输入到特征提取网络中,由特征提取网络对当前输入的测试图像进行特征提取,得到当前测试图像的二维特征向量后,将该二维特征向量直接输入到视觉推理模块中,由预测视觉推理模块对应的文本行识别内容,得到当前测试图像的文本识别结果;
S044A:循环S041A-S043A直至测试数据集中所有测试图像都被输入到待训图像文本识别模型,得到第一待评估图像文本识别模型。
进一步的,S04还包括有以下子步骤:
S041B:选用若干张测试图像,对每一张测试图像做出单词级标注,根据当前测试图像上标注的单词的长度随机生成的字符索引;集合所有携带单词级标注以及字符索引的测试图像成为第二测试数据集;
S042B:将测试数据集中的每一张测试图像依次输入到待测图像文本识别模型中,得到当前测试图像的文本识别结果;
S043B:循环S041B-S042B直至测试数据集中所有测试图像都被输入到待训图像文本识别模型,得到第二待评估图像文本识别模型。
进一步的,S04还包括有:评估第一待评估图像文本识别模型和第二待评估图像文本识别模型,选择较优者作为最终的图像文本识别模型。
本发明还提供一种智能扫描笔的图像识别装置,该装置存储有如上述的智能扫描笔的图像识别方法并受控执行该方法。
本发明还提供一种智能扫描笔,该智能扫描笔应用如上所述的智能扫描笔的图像识别装置。
本发明的有益效果为:相比于现有技术,本发明提供的图像识别方法不需要额外的语言模型,将原有的两步识别图像文本内容转变成为一步识别,自适应地将视觉和语言信息考虑在一个统一的结构中,在保持高效的同时展现出更强的语言能力,应用与扫描笔中能显著提升扫描笔的文本识别准确度,加快扫描笔文本识别的速度,帮助用户获得更好的性能体验。
附图说明
图1为具体实施方式中所实现的智能扫描笔的图像识别方法的流程图。
图2为具体实施方式中所实现的智能扫描笔的图像识别方法中S03:训练模型的子步骤流程图。
本申请为目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
实施方式
为了更加清楚完整的说明本发明的技术方案,下面结合附图对本发明作进一步说明。
请参考图1-图2。
在本具体实施方式中提供一种智能扫描笔的图像识别方法,该方法包括以下步骤:
S0:构建、训练并测试得到图像文本识别模型;
S1:图像采集:设置图像采集器,扫描得到目标区域的原始图像;
S2:图像预处理:对原始图像进行预处理得到预处理图像;
S4:使用图像文本识别模型对预处理图像进行文本识别,同时获取图像中的语言信息和视觉特征,输出预处理图像中包含的文本内容。
进一步的,在本具体实施方式中,S0:构建、训练并测试得到图像文本识别模型包括有以下子步骤:
S01:构建模型;
S02:准备训练数据集;
S03:训练模型;
S04:测试模型。
进一步的,在本具体实施方式中,S01:构建模型包括有以下子步骤:
S01:构建模型具体包括有:S011:分别搭建特征提取网络、掩码语言感知模块以及视觉推理模块;
S012:设置特征提取网络、掩码语言感知模块以及视觉推理模块依次连接以构建成为构建待训图像文本识别模型。
进一步的,在本具体实施方式中,S02具体为:
S021:选用若干张训练图像;
S022:对每一张训练图像做出单词级标注;
S023:对已经标注出单词的数据集中的每一张训练图像,根据当前图像上标注的单词的长度随机生成的字符索引,字符索引表示被遮挡字符的索引,对于每个长度的输入单词图像,随机获取该字符的索引;
S024:收集所有带单词级标注以及字符索引的训练图像形成训练数据集。
进一步的,在本具体实施方式中,S03:训练模型包括有以下子步骤:
S031:从训练数据集选择一个图像输入到待训图像文本识别模型中;
S032:特征提取网络对当前输入的图像进行特征提取,得到当前图像的二维特征向量;
S033:掩码语言感知模块对当前图像的二维特征向量、当前图像所携带的单词级标注、当前图像所携带的字符索引做出字符掩码映射处理,得到遮挡特征映射;掩码语言感知模块以当前图像的二维特征向量和字符索引作为输入,在具体实现时,技术人员可以以transformer单元和sigmoid层搭建该掩码语言感知模块,利用transformer单元来提高特征表示能力,结合字符索引信息,通过sigmoid层得到字符掩码映射,并进一步生成遮挡特征映射后。
S034:组合当前图像、当前图像的二维特征向量、遮挡特征映射得到带遮挡字符的图像;为了指导遮挡特征映射的学习过程,搭建掩码语言感知模块时,可在弱监督互补学习的基础上设计了两个并行分支。
弱监督互补学习旨在引导遮挡特征映射覆盖更多被遮挡字符的区域,从而互补地使遮挡特征映射包含更多其他字符的区域。在第一个分支中,将当前图像的二维特征向量和遮挡特征映射之间的逐元素乘积,以生成包含被遮挡字符的视觉语义的特征图。与之对应的,在第二分支中,将当前图像的二维特征向量和遮挡特征映射之间的元素乘积用于生成包含其他字符的视觉语义的特征图。这样一来,第一分支与第二分支互补学习过程将引导遮挡特征映只覆盖相应位置的字符,而不与其他字符重叠。
两个平行设置的分支之间共享变换器单元和预测层的权重,可用于特征表示增强和语义引导。使用原始的词级标注和随机生成的字符索引自动获得弱监督互补学习的监督,这样一来,掩码语言感知模块可自动生成准确的字符掩码映射,而无需额外的标注。
S035:将带遮挡字符的图像输入到视觉推理模块中,由视觉推理模块视觉空间捕获长距离的信息,预测对应的文本行识别内容;
视觉推理模块包括两部分:可视化语义推理层和并行预测层。其中可视化语义推理层由若干个变压器单元组成,多个变压器单元组成的可视化语义推理层可以有效地建模长期依赖关系,不受单词长度的影响。
由于掩码语言感知模块在训练阶段准确地遮挡了字符信息,引导可视化语义推理层预测字符视觉特征之间的依赖关系,从而推断被遮挡字符的语义。因此,在单词级监督下,可视化语义推理层学习在视觉语境中主动建模语言信息以辅助识别,也正是因为这样的设计,可视化语义推理层在后续的模型测试阶段能够在当前视觉语义混乱(如污渍遮挡、勾画痕迹等)的情况下,自适应地考虑语言信息进行视觉特征增强。可视化语义推理层生成的特征映射可视化后,能更好地理解学习到的语言信息如何提高识别性能。
S036:循环S031-S035直至训练数据集中所有图像都被输入到待训图像文本识别模型中,得到待测图像文本识别模型。
进一步的,在本具体实施方式中,04包括有以下子步骤:
S041A:选用若干张测试图像集合成为第一测试数据集;
S042A:摘除待测图像文本识别模型中的掩码语言感知模块,将特征提取网络直接与视觉推理模块连接;
S043A:将测试数据集中的每一张测试图像依次输入到特征提取网络中,由特征提取网络对当前输入的测试图像进行特征提取,得到当前测试图像的二维特征向量后,将该二维特征向量直接输入到视觉推理模块中,由预测视觉推理模块对应的文本行识别内容,得到当前测试图像的文本识别结果;
S044A:循环S041A-S043A直至测试数据集中所有测试图像都被输入到待训图像文本识别模型,得到第一待评估图像文本识别模型。
进一步的,在本具体实施方式中,S04还包括有以下子步骤:
S041B:选用若干张测试图像,对每一张测试图像做出单词级标注,根据当前测试图像上标注的单词的长度随机生成的字符索引;集合所有携带单词级标注以及字符索引的测试图像成为第二测试数据集;
S042B:将测试数据集中的每一张测试图像依次输入到待测图像文本识别模型中,得到当前测试图像的文本识别结果;
S043B:循环S041B-S042B直至测试数据集中所有测试图像都被输入到待训图像文本识别模型,得到第二待评估图像文本识别模型。
进一步的,在本具体实施方式中,S04还包括有:评估第一待评估图像文本识别模型和第二待评估图像文本识别模型,选择较优者作为最终的图像文本识别模型。
在本具体实施方式中还提供一种智能扫描笔的图像识别装置,该装置存储有如上述的智能扫描笔的图像识别方法并受控执行该方法。
在本具体实施方式中还提供一种智能扫描笔,该智能扫描笔应用如上所述的智能扫描笔的图像识别装置。
当然,本发明还可有其它多种实施方式,基于本实施方式,本领域的普通技术人员在没有做出任何创造性劳动的前提下所获得其他实施方式,都属于本发明所保护的范围。

Claims (10)

1.一种智能扫描笔的图像识别方法,其特征在于,该方法包括以下步骤:
S0:构建、训练并测试得到图像文本识别模型;
S1:图像采集:设置图像采集器,扫描得到目标区域的原始图像;
S2:图像预处理:对原始图像进行预处理得到预处理图像;
S4:使用图像文本识别模型对预处理图像进行文本识别,同时获取图像中的语言信息和视觉特征,输出预处理图像中包含的文本内容。
2.如权利要求1所述的智能扫描笔的图像识别方法,其特征在于,所述S0:构建、训练并测试得到图像文本识别模型包括有以下子步骤:
S01:构建模型;
S02:准备训练数据集;
S03:训练模型;
S04:测试模型。
3.如权利要求2所述的智能扫描笔的图像识别方法,其特征在于,所述S01:构建模型包括有以下子步骤:
S01:构建模型具体包括有:S011:分别搭建特征提取网络、掩码语言感知模块以及视觉推理模块;
S012:设置特征提取网络、掩码语言感知模块以及视觉推理模块依次连接以构建成为构建待训图像文本识别模型。
4.如权利要求3所述的智能扫描笔的图像识别方法,其特征在于,所述S02具体为:
S021:选用若干张训练图像;
S022:对每一张训练图像做出单词级标注;
S023:对已经标注出单词的数据集中的每一张训练图像,根据当前图像上标注的单词的长度随机生成的字符索引;
S024:收集所有带单词级标注以及字符索引的训练图像形成训练数据集。
5.如权利要求4所述的智能扫描笔的图像识别方法,其特征在于,所述S03:训练模型包括有以下子步骤:
S031:从训练数据集选择一个图像输入到待训图像文本识别模型中;
S032:特征提取网络对当前输入的图像进行特征提取,得到当前图像的二维特征向量;
S033:掩码语言感知模块对当前图像的二维特征向量、当前图像所携带的单词级标注、当前图像所携带的字符索引做出字符掩码映射处理,得到遮挡特征映射;
S034:组合当前图像、当前图像的二维特征向量、遮挡特征映射得到带遮挡字符的图像;
S035:将带遮挡字符的图像输入到视觉推理模块中,由视觉推理模块视觉空间捕获长距离的信息,预测对应的文本行识别内容;
S036:循环S031-S035直至训练数据集中所有图像都被输入到待训图像文本识别模型中,得到待测图像文本识别模型。
6.如权利要求5所述的智能扫描笔的图像识别方法,其特征在于,所述S04包括有以下子步骤:
S041A:选用若干张测试图像集合成为第一测试数据集;
S042A:摘除待测图像文本识别模型中的掩码语言感知模块,将特征提取网络直接与视觉推理模块连接;
S043A:将测试数据集中的每一张测试图像依次输入到特征提取网络中,由特征提取网络对当前输入的测试图像进行特征提取,得到当前测试图像的二维特征向量后,将该二维特征向量直接输入到视觉推理模块中,由预测视觉推理模块对应的文本行识别内容,得到当前测试图像的文本识别结果;
S044A:循环S041A-S043A直至测试数据集中所有测试图像都被输入到待训图像文本识别模型,得到第一待评估图像文本识别模型。
7.如权利要求6所述的智能扫描笔的图像识别方法,其特征在于,所述S04还包括有以下子步骤:
S041B:选用若干张测试图像,对每一张测试图像做出单词级标注,根据当前测试图像上标注的单词的长度随机生成的字符索引;集合所有携带单词级标注以及字符索引的测试图像成为第二测试数据集;
S042B:将测试数据集中的每一张测试图像依次输入到待测图像文本识别模型中,得到当前测试图像的文本识别结果;
S043B:循环S041B-S042B直至测试数据集中所有测试图像都被输入到待训图像文本识别模型,得到第二待评估图像文本识别模型。
8.如权利要求6所述的智能扫描笔的图像识别方法,其特征在于,所述S04还包括有:评估第一待评估图像文本识别模型和第二待评估图像文本识别模型,选择较优者作为最终的图像文本识别模型。
9.一种智能扫描笔的图像识别装置,其特征在于,该装置存储有如权利要求1-8任一项所述的智能扫描笔的图像识别方法并受控执行该方法。
10.一种智能扫描笔,其特征在于,该扫描笔应用如权利要求9所述的智能扫描笔的图像识别装置。
CN202311182898.4A 2023-09-14 2023-09-14 一种智能扫描笔的图像识别方法、装置以及智能扫描笔 Pending CN116912856A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311182898.4A CN116912856A (zh) 2023-09-14 2023-09-14 一种智能扫描笔的图像识别方法、装置以及智能扫描笔

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311182898.4A CN116912856A (zh) 2023-09-14 2023-09-14 一种智能扫描笔的图像识别方法、装置以及智能扫描笔

Publications (1)

Publication Number Publication Date
CN116912856A true CN116912856A (zh) 2023-10-20

Family

ID=88360690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311182898.4A Pending CN116912856A (zh) 2023-09-14 2023-09-14 一种智能扫描笔的图像识别方法、装置以及智能扫描笔

Country Status (1)

Country Link
CN (1) CN116912856A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541501A (zh) * 2020-12-18 2021-03-23 北京中科研究院 一种基于视觉语言建模网络的场景文字识别方法
CN112733768A (zh) * 2021-01-15 2021-04-30 中国科学技术大学 基于双向特征语言模型的自然场景文本识别方法及装置
US20220415072A1 (en) * 2022-02-25 2022-12-29 Beijing Baidu Netcom Science Technology Co., Ltd. Image processing method, text recognition method and apparatus
CN116704519A (zh) * 2023-06-07 2023-09-05 深圳如布科技有限公司 文字识别方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541501A (zh) * 2020-12-18 2021-03-23 北京中科研究院 一种基于视觉语言建模网络的场景文字识别方法
CN112733768A (zh) * 2021-01-15 2021-04-30 中国科学技术大学 基于双向特征语言模型的自然场景文本识别方法及装置
US20220415072A1 (en) * 2022-02-25 2022-12-29 Beijing Baidu Netcom Science Technology Co., Ltd. Image processing method, text recognition method and apparatus
CN116704519A (zh) * 2023-06-07 2023-09-05 深圳如布科技有限公司 文字识别方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DELI YU ET AL.: "Towards Accurate Scene Text Recognition with Semantic Reasoning Networks", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, pages 12110 - 12119 *
李林 等: "基于卷积神经网络的污损遮挡号牌分类", 计算机科学, no. 1, pages 213 - 219 *

Similar Documents

Publication Publication Date Title
KR102266529B1 (ko) 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체
CN111027562B (zh) 基于多尺度cnn和结合注意力机制的rnn的光学字符识别方法
CN109670494B (zh) 一种附带识别置信度的文本检测方法及***
CN113254654B (zh) 模型训练、文本识别方法、装置、设备和介质
CN112712069B (zh) 一种判题方法、装置、电子设备及存储介质
CN113298151A (zh) 一种基于多级特征融合的遥感图像语义描述方法
CN110796018A (zh) 一种基于深度图像和彩色图像的手部运动识别方法
CN112836702B (zh) 一种基于多尺度特征提取的文本识别方法
CN117010500A (zh) 一种多源异构知识联合增强的视觉知识推理问答方法
CN115393902A (zh) 一种基于对比语言图像预训练模型clip的行人重识别方法
CN116564355A (zh) 一种基于自注意力机制融合的多模态情感识别方法、***、设备及介质
CN117746078B (zh) 一种基于用户自定义类别的物体检测方法及***
CN110096987B (zh) 一种基于双路3dcnn模型的哑语动作识别方法
Sanmitra et al. Machine Learning Based Real Time Sign Language Detection
CN112686263B (zh) 文字识别方法、装置、电子设备及存储介质
CN116912856A (zh) 一种智能扫描笔的图像识别方法、装置以及智能扫描笔
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
CN115186683B (zh) 一种基于跨模态翻译的属性级多模态情感分类方法
CN111914822A (zh) 文本图像标注方法、装置、计算机可读存储介质及设备
CN111753618A (zh) 图像识别方法、装置、计算机设备及计算机可读存储介质
CN116416637A (zh) 医学文档信息抽取方法、装置、电子设备及可读介质
CN115759293A (zh) 模型训练方法、图像检索方法、装置及电子设备
CN113761209B (zh) 文本拼接方法及装置、电子设备、存储介质
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN114462418A (zh) 事件检测方法、***、智能终端及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination