CN113920293A - 信息识别方法、装置、电子设备及存储介质 - Google Patents

信息识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113920293A
CN113920293A CN202111210987.6A CN202111210987A CN113920293A CN 113920293 A CN113920293 A CN 113920293A CN 202111210987 A CN202111210987 A CN 202111210987A CN 113920293 A CN113920293 A CN 113920293A
Authority
CN
China
Prior art keywords
characters
image
line
lines
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111210987.6A
Other languages
English (en)
Inventor
马龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202111210987.6A priority Critical patent/CN113920293A/zh
Publication of CN113920293A publication Critical patent/CN113920293A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本公开是关于一种信息识别方法、装置、电子设备及存储介质,其方法包括:获取待识别图像;获取每行文字的图像特征、文字内容特征和文字内容特征在待识别图像中的位置特征;将每行文字的图像特征、文字内容特征和位置特征进行拼接,得到多行文字的多模态特征;将多行文字的多模态特征输入到训练后的预设模型中,输出每行文字分别对应的指针位置,其中,每行文字对应的指针位置用于表征该行文字所对应的输出位置。可见,在对待识别图像进行文字识别时,会结合每行文字的图像特征、文字内容特征和文字内容特征在待识别图像中的位置特征,来调整多行文字的输出位置,使得多行文字的输出位置更加准确,进而所得的文字识别结果可以保持语义上的连贯性。

Description

信息识别方法、装置、电子设备及存储介质
技术领域
本公开涉及信息技术领域,尤其涉及一种信息识别方法、装置、电子设备及存储介质。
背景技术
随着科技的不断发展,OCR(Optical Character Recognition,光学文字识别)技术也得到很大的发展,用户可以通过相关应用程序很方便的识别出图像上面的文字。然而,对于文字或者背景中的信息比较丰富的图片,例如海报或者某些视频画面等,通过现有技术识别出的结果往往不能满足用户的需要。
发明内容
为克服相关技术中存在的问题,本公开提供一种信息识别方法、装置、电子设备及存储介质。
根据本公开实施例的第一方面,提供一种信息识别方法,包括:
获取待识别图像,所述待识别图像包括多行文字;
分别获取每行文字的图像特征、文字内容特征和所述文字内容特征在所述待识别图像中的位置特征;
将所述每行文字的图像特征、文字内容特征和位置特征进行拼接,得到所述多行文字的多模态特征;
将所述多行文字的多模态特征输入到训练后的预设模型中,输出每行文字分别对应的指针位置,其中,每行文字对应的指针位置用于表征该行文字所对应的输出位置。
可选的,所述预设模型的训练过程,包括:
获取训练样本图像,所述训练样本图像包含多行文字;
提取所述训练样本图像的样本特征,所述样本特征包括所述训练样本图像的多行文字的图像特征、文字内容特征和所述文字内容特征在对应样本图像中的位置特征;
将所述样本特征输入预设模型中,得到所述训练样本图像的每行文字分别对应的样本指针位置,通过目标损失函数计算所述样本指针位置与预先标注的所述训练样本图像的每行文字对应的标注指针位置之间的损失值,在所述损失值小于阈值时,得到训练后的预设模型。
可选的,所述方法还包括:
基于所述待识别图像中每行文字分别对应的指针位置,对所述待识别图像中的多行文字进行排序,得到排序结果;
按照所述排序结果显示所述待识别图像所包括的所述多行文字。
可选的,所述获取每行文字的图像特征,包括:
通过卷积神经网络提取每行文字的图像特征,所述图像特征包括:文字大小特征、文字颜色特征、纹理特征和背景特征中的一种或几种组合。
可选的,所述图像特征、文字内容特征和所述位置特征,分别为256维的特征向量,所述多模态特征为将所述图像特征、文字内容特征和所述位置特征拼接后得到的256*3维度的特征向量。
根据本公开实施例的第二方面,提供了一种信息识别装置,包括:
图像获取模块,被配置为执行获取待识别图像,所述待识别图像包括多行文字;
特征获取模块,被配置为执行分别获取每行文字的图像特征、文字内容特征和所述文字内容特征在所述待识别图像中的位置特征;
特征拼接模块,被配置为执行将所述每行文字的图像特征、文字内容特征和位置特征进行拼接,得到所述多行文字的多模态特征;
位置获取模块,被配置为执行将所述多行文字的多模态特征输入到训练后的预设模型中,输出每行文字分别对应的指针位置,其中,每行文字对应的指针位置用于表征该行文字所对应的输出位置。
可选的,还包括特征训练模块,所述特征训练模块,具体被配置为执行:
获取训练样本图像,所述训练样本图像包含多行文字;
提取所述训练样本图像的样本特征,所述样本特征包括所述训练样本图像的多行文字的图像特征、文字内容特征和所述文字内容特征在对应样本图像中的位置特征;
将所述样本特征输入预设模型中,得到所述训练样本图像的每行文字分别对应的样本指针位置,通过目标损失函数计算所述样本指针位置与预先标注的所述训练样本图像的每行文字对应的标注指针位置之间的损失值,在所述损失值小于阈值时,得到训练后的预设模型。
可选的,所述装置还包括:
文字排序模块,被配置为执行基于所述待识别图像中每行文字分别对应的指针位置,对所述待识别图像中的多行文字进行排序,得到排序结果;
文字显示模块,被配置为执行按照所述排序结果显示所述待识别图像所包括的所述多行文字。
可选的,所述特征获取模块,具体被配置为执行:
通过卷积神经网络提取每行文字的图像特征,所述图像特征包括:文字大小特征、文字颜色特征、纹理特征和背景特征中的一种或几种组合。
可选的,所述图像特征、文字内容特征和所述位置特征,分别为256维的特征向量,所述多模态特征为将所述图像特征、文字内容特征和所述位置特征拼接后得到的256*3维度的特征向量。
根据本公开实施例的第三方面,提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行第一方面所述的信息识别方法。
根据本公开实施例的第四方面,提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行第一方面所述的信息识别方法的步骤。
根据本公开实施例的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备能够执行第一方面所述的信息识别方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开实施例提供的技术方案,获取待识别图像;分别获取待识别图像中每行文字的图像特征、文字内容特征和文字内容特征在待识别图像中的位置特征;将每行文字的图像特征、文字内容特征和位置特征进行拼接,得到多行文字的多模态特征;将多行文字的多模态特征输入到训练后的预设模型中,输出每行文字分别对应的指针位置,其中,每行文字对应的指针位置用于表征该行文字所对应的输出位置。可见,通过本公开实施例提供的技术方案,在对待识别图像进行文字识别时,会同时结合每行文字的图像特征、文字内容特征和文字内容特征在待识别图像中的位置特征,来调整多行文字的输出位置,从而使得多行文字的输出位置更加准确,进而所得的文字识别结果可以保持语义上的连贯性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种信息识别方法的流程图;
图2是根据一示例性实施例示出的一种信息识别方法的另一流程图;
图3是根据一示例性实施例示出的一种信息识别装置的框图;
图4是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种信息识别方法的流程图,如图1所示,该方法用于终端中,可以包括以下步骤:
在步骤S110中,获取待识别图像。
其中,待识别图像包括多行文字。
具体的,OCR技术实现了将图像中的文字检测并识别成文本,绝大部分情况下,OCR以行为单位进行识别。在实际应用中,一张图像通常包括多行文字。举例而言,在短视频应用场景下,在一帧图像中通常包括多行文字,不同的文字行代表不同的意义。
在步骤S120中,分别获取每行文字的图像特征、文字内容特征和文字内容特征在待识别图像中的位置特征。
具体的,由于通常情况下待识别图像包含的信息比较丰富,除了文字信息,还会有背景图像等等,另外,待识别图像上的文字通常还会有大小不同的字体。而相同大小的文字,即使在不同行显示,往往也代表语义上的连贯性,另外,具有相同背景和纹理的文字,通常情况下在语义上也是连贯的。因此,在对待识别图像中的多行文字进行识别时,需要获取每行文字中的图像特征、文字内容特征和文字内容特征在待识别图像中的位置特征,以便后续步骤中,能够准确地确定待识别图像中多行文字的输出位置。
为了能够准确地得到每行文字的图像特征,在一种实施方式中,获取每行文字的图像特征,可以包括如下步骤:
通过卷积神经网络提取每行文字的图像特征,图像特征包括:文字大小特征、文字颜色特征、纹理特征和背景特征中的一种或几种组合。
在该实施方式中,可以通过卷积神经网络CNN提取待识别图像中文字区域的图像特征。其中,图像特征包括:文字大小特征、文字颜色特征、纹理特征和背景特征中的一种或几种组合。可见,每行文字的图像特征不只是单一特征,其可以是文字大小特征、文字颜色特征、纹理特征和背景特征等多种特征,从而得到的图像特征更加准确。
并且,在获取每行文字的文字内容特征时,可以将待识别图像中的多行文字输入到训练后的Bert模型中,通过训练后的Bert模型对待识别图像中的多行文字进行识别,得到每行文字的文字内容特征。并可以通过对文字行的坐标采用多层级联来提取文字内容特征在待识别图像中的位置特征。
在步骤S130中,将每行文字的图像特征、文字内容特征和位置特征进行拼接,得到多行文字的多模态特征。
具体的,为了使得后续步骤中,能够准确地确定每行文字的输出位置,可以将每行文字的图像特征、文字内容特征和位置特征进行拼接,得到每行文字的多模态特征。由于每行文字的多模态特征是基于图像特征、文字内容特征和位置特征这三个特征拼接而成的,因此,后续步骤中依据多行文字的多模态特征能够更加准确地确定多行文字的输出位置。
在一种实施方式中,图像特征、文字内容特征和位置特征,分别为256维的特征向量,多模态特征为将图像特征、文字内容特征和位置特征拼接后得到的256*3维度的特征向量。
在该实施方式中,可以将每行文字的图像特征、文字内容特征和位置特征分别以256维特征向量进行表示,通过将这三个256维的特征向量进行拼接,可以得到256*3维的多模态特征向量,即该多模态特征可以为768维的特征向量。
由上述描述可知,图像特征、文字内容特征和位置特征的均为维度较高的特征向量,从而图像特征、文字内容特征和位置特征的准确度较高;再将图像特征、文字内容特征和位置特征进行拼接,所得的多模态特征准确度也较高,即每行文字的多模态特征可以准确地表征该行文字的特征,从而有利于基于该行文字的多模态特征准确地确定该行文字的输出位置。
在步骤S140中,将多行文字的多模态特征输入到训练后的预设模型中,输出每行文字分别对应的指针位置。
其中,每行文字对应的指针位置用于表征该行文字所对应的输出位置。
本公开提供的实施例中,该预设模型可以为Pointer Network,通过多个标注的样本对Pointer Network进行训练,可以得到训练后的预设模型。通过将图像特征、文字内容特征和位置特征拼接得到的多模态特征输入到训练后的预设模型中,可以得到每行文字对应的指针位置,每行文字对应的指针位置用于表征该行文字所对应的输出位置。
示例性的,待识别图像中包括3行文字,而输出的结果对应每行文字的指针位置分别为2、1、1,分别表示这3行文字对应的输出行数,即待识别图像中原第一行文字的输出位置为第二行,原第二行文字和原第三行文字的输出位置均为第一行。当然,这里仅仅是一个简单的举例,本公开实施例的目的是将具有相同文字大小、颜色等特征的文字在同一行输出,通过调整输出多行文字的输出位置,可以使得输出的文字在语义上保持连贯性。
本公开实施例提供的技术方案,获取待识别图像;分别获取待识别图像中每行文字的图像特征、文字内容特征和文字内容特征在待识别图像中的位置特征;将每行文字的图像特征、文字内容特征和位置特征进行拼接,得到多行文字的多模态特征;将多行文字的多模态特征输入到训练后的预设模型中,输出每行文字分别对应的指针位置,其中,每行文字对应的指针位置用于表征该行文字所对应的输出位置。可见,通过本公开实施例提供的技术方案,在对待识别图像进行文字识别时,会同时结合每行文字的图像特征、文字内容特征和文字内容特征在待识别图像中的位置特征,来调整多行文字的输出位置,从而使得多行文字的输出位置更加准确,进而所得的文字识别结果可以保持语义上的连贯性。
结合上述实施例,在本公开提供的又一实施例中,如图2所示,上述预设模型的训练过程,可以包括如下步骤:
步骤S210,获取训练样本图像。
其中,训练样本图像包含多行文字。
具体的,为了使得训练好的模型能够准确地输出一张图像中多行文字对应的输出位置,在获取训练样本图像时,需要获取大量包含多行文字的图像,并且样本图像中包含相应的图像背景和纹理,及有不同大小文字的文字行。
并且,在获取到训练样本图像后,可以对每行文字的输出位置进行预先标注。具体的,每张训练样本图像包括的多行文字是已知的,因此,可以对多行文字的输出位置进行标注,通过标注后的输出位置所输出的文字行语义具有连贯性。
步骤S220,提取训练样本图像的样本特征。
其中,样本特征包括训练样本图像的多行文字的图像特征、文字内容特征和文字内容特征在对应样本图像中的位置特征。
具体的,在获取到训练样本图像后,可以提取训练样本图像的样本特征,具体的,可以分别采用三种网络模型来分别提取。即通过训练后的Bert模型来提取文字行的识别结果,得到256维特征向量;采用训练后的卷积神经网络CNN来提取文字区域中的图像特征,得到256维特征向量;对文字行坐标采用多级联FC提取得到256维特征向量。
步骤S230,将样本特征输入预设模型中,得到训练样本图像的每行文字分别对应的样本指针位置,通过目标损失函数计算样本指针位置与预先标注的训练样本图像的每行文字对应的标注指针位置之间的损失值,在损失值小于阈值时,得到训练后的预设模型。
具体的,在得到训练样本图像的样本特征之后,可以将训练样本图像的样本特征输入到预设模型中,对预设模型进行训练,从预设模型输出的是每行文字分别对应的样本指针位置。由于预先标注了训练样本图像的每行文字对应的标注指针位置,每行文字对应的标注指针位置用于表示语义连贯时,每行文字对应的输出位置,也就是说,标注指针位置是真值。因此,在训练预设模型时,通过目标损失函数来计算样本指针位置与预先标注的训练样本图像的每行文字对应的标注指针位置之间的损失值,在损失值小于阈值时,说明从预设模型输出的样本指针位置接近预先标注的标注指针位置,也就是说,预设模型的准确度较高,此时,得到训练后的预设模型。
由上述描述可知,在训练预设模型时,训练样本图像的样本特征也是多模态特征,多模态特征的维度较高,即多模态特征较为准确。且从训练后的预设模型输出的样本指针位置接近预先标注的标注指针位置,也就是说,训练后的预设模型的准确地较高。进而将待识别图像输入到训练后的预设模型后,所得到待识别图像中多行文字的输出位置的准确率较高,进而所得的文字识别结果可以保持语义上的连贯性。
结合上述实施例,在本公开提供的又一实施例中,该信息识别方法还可以包括以下步骤:
步骤a1,基于待识别图像中每行文字分别对应的指针位置,对待识别图像中的多行文字进行排序,得到排序结果。
步骤a2,按照排序结果显示待识别图像所包括的多行文字。
具体的,由于每行文字对应的指针位置可以用于表征该行文字所对应的输出位置,在得到多行文字对应的指针位置之后,即得到了多行文字所对应的输出位置,因此,在得到了每行文字分别对应的指针位置之后,可以按照每行文字分别对应的指针位置,对多行文字进行排序,得到排序结果,并按照排序结果显示多行文字。
举例而言,待识别图像中包括3行文字,而输出的结果对应每行文字的指针位置分别为3、1、2,分别表示这3行文字对应的输出位置,即待识别图像中原第一行文字的输出位置为第三行,原第二行文字的输出位置为第一行,原第三行文字的输出位置为第二行。这三行位置按照指针位置进行排序后进行显示,即依次展示第二行文字,第三行文字和第一行文字。
可见,通过本公开实施例提供的技术方案,可以调整多行文字的输出位置,从而使得多行文字的输出位置更加准确,进而所得的文字识别结果可以保持语义上的连贯性。
图3是根据一示例性实施例示出的一种信息识别装置框图。参照图3,该装置包括图像获取模块310,被配置为执行获取待识别图像,所述待识别图像包括多行文字;
特征获取模块320,被配置为执行分别获取每行文字的图像特征、文字内容特征和所述文字内容特征在所述待识别图像中的位置特征;
特征拼接模块330,被配置为执行将所述每行文字的图像特征、文字内容特征和位置特征进行拼接,得到所述多行文字的多模态特征;
位置获取模块340,被配置为执行将所述多行文字的多模态特征输入到训练后的预设模型中,输出每行文字分别对应的指针位置,其中,每行文字对应的指针位置用于表征该行文字所对应的输出位置。
可选的,还包括特征训练模块,所述特征训练模块,具体被配置为执行:
获取训练样本图像,所述训练样本图像包含多行文字;
提取所述训练样本图像的样本特征,所述样本特征包括所述训练样本图像的多行文字的图像特征、文字内容特征和所述文字内容特征在对应样本图像中的位置特征;
将所述样本特征输入预设模型中,得到所述训练样本图像的每行文字分别对应的样本指针位置,通过目标损失函数计算所述样本指针位置与预先标注的所述训练样本图像的每行文字对应的标注指针位置之间的损失值,在所述损失值小于阈值时,得到训练后的预设模型。
可选的,所述装置还包括:
文字排序模块,被配置为执行基于所述待识别图像中每行文字分别对应的指针位置,对所述待识别图像中的多行文字进行排序,得到排序结果;
文字显示模块,被配置为执行按照所述排序结果显示所述待识别图像所包括的所述多行文字。
可选的,所述特征获取模块,具体被配置为执行:
通过卷积神经网络提取每行文字的图像特征,所述图像特征包括:文字大小特征、文字颜色特征、纹理特征和背景特征中的一种或几种组合。
可选的,所述图像特征、文字内容特征和所述位置特征,分别为256维的特征向量,所述多模态特征为将所述图像特征、文字内容特征和所述位置特征拼接后得到的256*3维度的特征向量。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开实施例提供的技术方案,获取待识别图像;分别获取待识别图像中每行文字的图像特征、文字内容特征和文字内容特征在待识别图像中的位置特征;将每行文字的图像特征、文字内容特征和位置特征进行拼接,得到多行文字的多模态特征;将多行文字的多模态特征输入到训练后的预设模型中,输出每行文字分别对应的指针位置,其中,每行文字对应的指针位置用于表征该行文字所对应的输出位置。可见,通过本公开实施例提供的技术方案,在对待识别图像进行文字识别时,会同时结合每行文字的图像特征、文字内容特征和文字内容特征在待识别图像中的位置特征,来调整多行文字的输出位置,从而使得多行文字的输出位置更加准确,进而所得的文字识别结果可以保持语义上的连贯性。
根据本公开实施例的第三方面,提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行第一方面所述的信息识别方法。
图4是根据一示例性实施例示出的一种用于信息识别装置800的框图。例如,装置800是一种电子设备,具体可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述…方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本公开实施例提供的技术方案,获取待识别图像;分别获取待识别图像中每行文字的图像特征、文字内容特征和文字内容特征在待识别图像中的位置特征;将每行文字的图像特征、文字内容特征和位置特征进行拼接,得到多行文字的多模态特征;将多行文字的多模态特征输入到训练后的预设模型中,输出每行文字分别对应的指针位置,其中,每行文字对应的指针位置用于表征该行文字所对应的输出位置。可见,通过本公开实施例提供的技术方案,在对待识别图像进行文字识别时,会同时结合每行文字的图像特征、文字内容特征和文字内容特征在待识别图像中的位置特征,来调整多行文字的输出位置,从而使得多行文字的输出位置更加准确,进而所得的文字识别结果可以保持语义上的连贯性。
根据本公开实施例的第四方面,提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行第一方面所述的信息识别方法的步骤。
本公开实施例提供的技术方案,获取待识别图像;分别获取待识别图像中每行文字的图像特征、文字内容特征和文字内容特征在待识别图像中的位置特征;将每行文字的图像特征、文字内容特征和位置特征进行拼接,得到多行文字的多模态特征;将多行文字的多模态特征输入到训练后的预设模型中,输出每行文字分别对应的指针位置,其中,每行文字对应的指针位置用于表征该行文字所对应的输出位置。可见,通过本公开实施例提供的技术方案,在对待识别图像进行文字识别时,会同时结合每行文字的图像特征、文字内容特征和文字内容特征在待识别图像中的位置特征,来调整多行文字的输出位置,从而使得多行文字的输出位置更加准确,进而所得的文字识别结果可以保持语义上的连贯性。
根据本公开实施例的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备能够执行第一方面所述的信息识别方法的步骤。
本公开实施例提供的技术方案,获取待识别图像;分别获取待识别图像中每行文字的图像特征、文字内容特征和文字内容特征在待识别图像中的位置特征;将每行文字的图像特征、文字内容特征和位置特征进行拼接,得到多行文字的多模态特征;将多行文字的多模态特征输入到训练后的预设模型中,输出每行文字分别对应的指针位置,其中,每行文字对应的指针位置用于表征该行文字所对应的输出位置。可见,通过本公开实施例提供的技术方案,在对待识别图像进行文字识别时,会同时结合每行文字的图像特征、文字内容特征和文字内容特征在待识别图像中的位置特征,来调整多行文字的输出位置,从而使得多行文字的输出位置更加准确,进而所得的文字识别结果可以保持语义上的连贯性。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、DSL(Digital Subscriber Line,数字用户线))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD(Digital Versatile Disc,数字多功能光盘))、或者半导体介质(例如SSD(Solid StateDisk,固态硬盘))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种信息识别方法,其特征在于,包括:
获取待识别图像,所述待识别图像包括多行文字;
分别获取每行文字的图像特征、文字内容特征和所述文字内容特征在所述待识别图像中的位置特征;
将所述每行文字的图像特征、文字内容特征和位置特征进行拼接,得到所述多行文字的多模态特征;
将所述多行文字的多模态特征输入到训练后的预设模型中,输出每行文字分别对应的指针位置,其中,每行文字对应的指针位置用于表征该行文字所对应的输出位置。
2.根据权利要求1所述的方法,其特征在于,所述预设模型的训练过程,包括:
获取训练样本图像,所述训练样本图像包含多行文字;
提取所述训练样本图像的样本特征,所述样本特征包括所述训练样本图像的多行文字的图像特征、文字内容特征和所述文字内容特征在对应样本图像中的位置特征;
将所述样本特征输入预设模型中,得到所述训练样本图像的每行文字分别对应的样本指针位置,通过目标损失函数计算所述样本指针位置与预先标注的所述训练样本图像的每行文字对应的标注指针位置之间的损失值,在所述损失值小于阈值时,得到训练后的预设模型。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述待识别图像中每行文字分别对应的指针位置,对所述待识别图像中的多行文字进行排序,得到排序结果;
按照所述排序结果显示所述待识别图像所包括的所述多行文字。
4.根据权利要求1~3任一所述的方法,其特征在于,所述获取每行文字的图像特征,包括:
通过卷积神经网络提取每行文字的图像特征,所述图像特征包括:文字大小特征、文字颜色特征、纹理特征和背景特征中的一种或几种组合。
5.根据权利要求1~3任一所述的方法,其特征在于,所述图像特征、文字内容特征和所述位置特征,分别为256维的特征向量,所述多模态特征为将所述图像特征、文字内容特征和所述位置特征拼接后得到的256*3维度的特征向量。
6.一种信息识别装置,其特征在于,包括:
图像获取模块,被配置为执行获取待识别图像,所述待识别图像包括多行文字;
特征获取模块,被配置为执行分别获取每行文字的图像特征、文字内容特征和所述文字内容特征在所述待识别图像中的位置特征;
特征拼接模块,被配置为执行将所述每行文字的图像特征、文字内容特征和位置特征进行拼接,得到所述多行文字的多模态特征;
位置获取模块,被配置为执行将所述多行文字的多模态特征输入到训练后的预设模型中,输出每行文字分别对应的指针位置,其中,每行文字对应的指针位置用于表征该行文字所对应的输出位置。
7.根据权利要求6所述的装置,其特征在于,还包特征训练模块,所述特征训练模块,具体被配置为执行:
获取训练样本图像,所述训练样本图像包含多行文字;
提取所述训练样本图像的样本特征,所述样本特征包括所述训练样本图像的多行文字的图像特征、文字内容特征和所述文字内容特征在对应样本图像中的位置特征;
将所述样本特征输入预设模型中,得到所述训练样本图像的每行文字分别对应的样本指针位置,通过目标损失函数计算所述样本指针位置与预先标注的所述训练样本图像的每行文字对应的标注指针位置之间的损失值,在所述损失值小于阈值时,得到训练后的预设模型。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-5任一所述的信息识别方法。
9.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行权利要求1-5任一所述的信息识别方法的步骤。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-5任一所述的信息识别方法的步骤。
CN202111210987.6A 2021-10-18 2021-10-18 信息识别方法、装置、电子设备及存储介质 Pending CN113920293A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111210987.6A CN113920293A (zh) 2021-10-18 2021-10-18 信息识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111210987.6A CN113920293A (zh) 2021-10-18 2021-10-18 信息识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113920293A true CN113920293A (zh) 2022-01-11

Family

ID=79241698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111210987.6A Pending CN113920293A (zh) 2021-10-18 2021-10-18 信息识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113920293A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114202647A (zh) * 2022-02-16 2022-03-18 阿里巴巴达摩院(杭州)科技有限公司 图像中的文本识别方法、装置、设备及存储介质
CN114239760A (zh) * 2022-02-25 2022-03-25 苏州浪潮智能科技有限公司 多模态模型训练以及图像识别方法、装置、电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114202647A (zh) * 2022-02-16 2022-03-18 阿里巴巴达摩院(杭州)科技有限公司 图像中的文本识别方法、装置、设备及存储介质
CN114202647B (zh) * 2022-02-16 2022-07-05 阿里巴巴达摩院(杭州)科技有限公司 图像中的文本识别方法、装置、设备及存储介质
CN114239760A (zh) * 2022-02-25 2022-03-25 苏州浪潮智能科技有限公司 多模态模型训练以及图像识别方法、装置、电子设备
WO2023159945A1 (zh) * 2022-02-25 2023-08-31 苏州浪潮智能科技有限公司 多模态模型训练以及图像识别方法、装置、电子设备

Similar Documents

Publication Publication Date Title
CN108038102B (zh) 表情图像的推荐方法、装置、终端及存储介质
CN111539443A (zh) 一种图像识别模型训练方法及装置、存储介质
CN110781813B (zh) 图像识别方法及装置、电子设备和存储介质
CN110781323A (zh) 多媒体资源的标签确定方法、装置、电子设备及存储介质
CN111461304B (zh) 分类神经网络的训练方法、文本分类方法、装置及设备
CN110764627B (zh) 一种输入方法、装置和电子设备
CN107229403B (zh) 一种信息内容选择方法及装置
US11335348B2 (en) Input method, device, apparatus, and storage medium
CN109886211B (zh) 数据标注方法、装置、电子设备及存储介质
CN113920293A (zh) 信息识别方法、装置、电子设备及存储介质
CN111797262A (zh) 诗词生成方法、装置、电子设备和存储介质
CN113312967B (zh) 一种检测方法、装置和用于检测的装置
CN111046927A (zh) 标注数据的处理方法、装置、电子设备及存储介质
CN107943317B (zh) 输入方法及装置
CN112381091A (zh) 视频内容识别方法、装置、电子设备及存储介质
CN111079421B (zh) 一种文本信息分词处理的方法、装置、终端及存储介质
CN110738267B (zh) 图像分类方法、装置、电子设备及存储介质
CN110213062B (zh) 处理消息的方法及装置
CN112328809A (zh) 实体分类方法、装置及计算机可读存储介质
CN112035691A (zh) 切片图像的细胞标注数据的展示方法及装置、设备和介质
CN112035651A (zh) 语句补全方法、装置及计算机可读存储介质
CN114466204B (zh) 一种视频弹幕的显示方法、装置、电子设备及存储介质
CN111428806B (zh) 图像标签确定方法、装置、电子设备及存储介质
CN112149653B (zh) 信息处理方法、装置、电子设备及存储介质
CN113127613B (zh) 聊天信息处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination