CN109271967B - 图像中文本的识别方法及装置、电子设备、存储介质 - Google Patents

图像中文本的识别方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN109271967B
CN109271967B CN201811202558.2A CN201811202558A CN109271967B CN 109271967 B CN109271967 B CN 109271967B CN 201811202558 A CN201811202558 A CN 201811202558A CN 109271967 B CN109271967 B CN 109271967B
Authority
CN
China
Prior art keywords
text
layer
region
character
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811202558.2A
Other languages
English (en)
Other versions
CN109271967A (zh
Inventor
刘铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201811202558.2A priority Critical patent/CN109271967B/zh
Publication of CN109271967A publication Critical patent/CN109271967A/zh
Application granted granted Critical
Publication of CN109271967B publication Critical patent/CN109271967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明揭示了一种图像中文本的识别方法及装置、电子设备、计算机可读存储介质,该方案通过多层叠加的网络模型执行图像中文本的端到端识别,该方案包括:通过多层方式逐层进行图像的空间可分离卷积操作,将空间可分离卷积操作提取的卷积特征融合至层层叠加所映射的低层,低层与输出卷积特征的高层相映射;从执行空间可分离卷积操作的最底层获取全局特征;通过全局特征进行图像中文本的候选区域检测和区域筛选参数预测,获得对应于所检测得到文本区域的池化特征;将池化特征后向传播至执行字符识别操作的识别分支网络层,通过识别分支网络层输出文本区域标记的字符序列。该方案节省了模型训练时间,提高了识别准确性。

Description

图像中文本的识别方法及装置、电子设备、存储介质
技术领域
本发明涉及图像处理技术领域,特别涉及一种图像中文本的识别方法及装置、电子设备、计算机可读存储介质。
背景技术
在计算机图像处理领域,文本识别是指让计算机自动地判别图像中的字符属于字符库中的哪一个字,字符库由人们事先建立,通常包含现实生活中最常用的字符。
图像中文本的识别,通常通过搭建两个模型,一个模型用于在一张包含文本的自然场景图像中找出文本所在位置,然后从图像中裁剪出文本区域。另一个模型用于识别出文本区域的具体字符内容。具体的,先获取包含不同字符的大量样本图像作为训练集,利用这些样本图像分别进行字符分类器的训练和文本***的训练。在训练完成后,先通过文本***从待测图像中定位出文本区域,然后裁剪出文本区域,再利用字符分类器识别出文本区域的字符内容。
上述方案,需要利用这些样本图像分别进行字符分类器的训练和文本***的训练,模型训练的工作量较大,并且最终字符的识别准确性,受到两个模型准确率的影响,由此限制了图像中文本识别准确率的提升。
发明内容
为了解决相关技术中存在的需要分别进行字符分类器的训练和文本***的训练,模型训练的工作量较大,识别准确性不高的问题,本发明提供了一种图像中文本的识别方法。
本发明提供一种图像中文本的识别方法,所述方法通过多层叠加的网络模型执行图像中文本的端到端识别,所述方法包括:
通过多层方式逐层进行图像的空间可分离卷积操作,将所述空间可分离卷积操作提取的卷积特征融合至层层叠加所映射的低层,所述低层与输出所述卷积特征的高层相映射;
从执行空间可分离卷积操作的最底层获取全局特征;
通过所述全局特征进行图像中文本的候选区域检测和区域筛选参数预测,获得对应于所检测得到文本区域的池化特征;
将所述池化特征后向传播至执行字符识别操作的识别分支网络层,通过所述识别分支网络层输出所述文本区域标记的字符序列。
另一方面,本发明提供了一种图像中文本的识别装置,所述装置通过多层叠加的网络模型执行图像中文本的端到端识别,所述装置包括:
空间卷积操作模块,用于通过多层方式逐层进行图像的空间可分离卷积操作,将所述空间可分离卷积操作提取的卷积特征融合至层层叠加所映射的低层,所述低层与输出所述卷积特征的高层相映射;
全局特征提取模块,用于从执行空间可分离卷积操作的最底层获取全局特征;
池化特征获得模块,用于通过所述全局特征进行图像中文本的候选区域检测和区域筛选参数预测,获得对应于所检测得到文本区域的池化特征;
字符序列输出模块,用于将所述池化特征后向传播至执行字符识别操作的识别分支网络层,通过所述识别分支网络层输出所述文本区域标记的字符序列。
另一方面,本发明还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行完成上述图像中文本的识别方法。
此外,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可由处理器执行完成上述图像中文本的识别方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明提供的技术方案,通过多层叠加的网络模型执行图像中文本的端到端识别,由此只需训练一个网络模型即可实现图像中文本的识别,无需分开训练文本***和字符分类器,降低了模型训练的工作量,并且最终识别的准确性,只受一个网络模型的准确性影响,可以利于识别准确性的提高,避免了识别准确性的提升受到两个模型的互相限制。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据本发明所涉及的实施环境的示意图;
图2是根据一示例性实施例示出的一种装置的框图;
图3是根据一示例性实施例示出的一种图像中文本的识别方法的流程图;
图4是空间可分离卷积网络层的网络架构示意图;
图5是相对本发明提出的一种图像中文字识别的网络架构示意图;
图6是图3对应实施例中步骤350的细节流程图;
图7是池化层从全局特征中提取像素级区域筛选参数的原理示意图;
图8是图6对应实施例中步骤353的细节流程图;
图9是图3对应实施例中步骤370的细节流程图;
图10是识别分支网络层是架构示意图;
图11是本发明提供的图像中文本的识别方法的网络架构示意图;
图12是在图3对应实施例的基础上另一实施例提供的图像中文本的识别方法的流程图;
图13是图12对应实施例中步骤1230的细节流程图;
图14是图13对应实施例中步骤1231的细节流程图;
图15是本发明实际应用效果示意图。
图16是根据一示例性实施例示出的一种图像中文本的识别装置的框图;
图17是图16对应实施例中池化特征获得模块的细节框图;
图18是图17对应实施例中筛选旋转单元的细节框图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本发明所涉及的实施环境的示意图。该实施环境包括:用户设备110,用户设备110可以通过运行应用程序进行图像中文本的识别。用户设备可以是服务器、台式电脑、移动终端、智能家电等。
用户设备110可以具备摄像头等图像采集设备111,进而采用本发明提供的方法对图像采集设备111采集的图像进行文本识别。
根据需要,该实施环境除用户设备110外,还可以包括服务器130,服务器130与用户设备110之间通过有线或无线网络连接,服务器130将待识别图像发送给用户设备110,进而由用户设备110进行图像中文本的识别。
在实际应用中,从图像中识别出来的文本内容,可以进一步进行文本翻译、文本内容编辑、存储等。本发明提供的图像中文本的识别方法可应用于任意场景下的文本识别任务,实现图像中文字内容理解,如自然场景文字图片、广告图片、视频、身份证、驾驶证、名片、车牌中的文字识别。
图2是根据一示例性实施例示出的一种装置200的框图。例如,装置200可以是图1所示实施环境中的用户设备110。
参照图2,装置200可以包括以下一个或多个组件:处理组件202,存储器204,电源组件206,多媒体组件208,音频组件210,传感器组件214以及通信组件216。
处理组件202通常控制装置200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作以及记录操作相关联的操作等。处理组件202可以包括一个或多个处理器218来执行指令,以完成下述的方法的全部或部分步骤。此外,处理组件202可以包括一个或多个模块,便于处理组件202和其他组件之间的交互。例如,处理组件202可以包括多媒体模块,以方便多媒体组件208和处理组件202之间的交互。
存储器204被配置为存储各种类型的数据以支持在装置200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static RandomAccess Memory,简称SRAM),电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。存储器204中还存储有一个或多个模块,该一个或多个模块被配置成由该一个或多个处理器218执行,以完成下述图3、图6、图8、图9、图12-图14任一所示方法中的全部或者部分步骤。
电源组件206为装置200的各种组件提供电力。电源组件206可以包括电源管理***,一个或多个电源,及其他与为装置200生成、管理和分配电力相关联的组件。
多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(Liquid Crystal Display,简称LCD)和触摸面板。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。屏幕还可以包括有机电致发光显示器(Organic Light Emitting Display,简称OLED)。
音频组件210被配置为输出和/或输入音频信号。例如,音频组件210包括一个麦克风(Microphone,简称MIC),当装置200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中,音频组件210还包括一个扬声器,用于输出音频信号。
传感器组件214包括一个或多个传感器,用于为装置200提供各个方面的状态评估。例如,传感器组件214可以检测到装置200的打开/关闭状态,组件的相对定位,传感器组件214还可以检测装置200或装置200一个组件的位置改变以及装置200的温度变化。在一些实施例中,该传感器组件214还可以包括磁传感器,压力传感器或温度传感器。
通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络,如WiFi(WIreless-Fidelity,无线保真)。在一个示例性实施例中,通信组件216经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件216还包括近场通信(Near FieldCommunication,简称NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RadioFrequency Identification,简称RFID)技术,红外数据协会(Infrared DataAssociation,简称IrDA)技术,超宽带(Ultra Wideband,简称UWB)技术,蓝牙技术和其他技术来实现。
在示例性实施例中,装置200可以被一个或多个应用专用集成电路(ApplicationSpecific Integrated Circuit,简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法。
图3是根据一示例性实施例示出的一种图像中文本的识别方法的流程图。该图像中文本的识别方法的适用范围和执行主体可以是用户设备,该用户设备可以是图1所示实施环境的用户设备110。该方法通过多层叠加的网络模型执行图像中文本的端到端识别。其中,端到端识别是指网络模型的输入是原始图像数据,输出是最后的字符序列。如图3所示,该方法具体包括以下步骤。
在步骤310中,通过多层方式逐层进行图像的空间可分离卷积操作,将所述空间可分离卷积操作提取的卷积特征融合至层层叠加所映射的低层,所述低层与输出所述卷积特征的高层相映射。
需要说明的是,多层叠加的网络模型可以包括空间可分离卷积网络层、区域回归网络层、池化层、时间卷积网络层、字符分类层。其中,空间可分离卷积网络层、区域回归网络层和池化层作为检测分支,用于根据原始图像数据,提取图像中文本区域的池化特征,时间卷积网络层和字符分类层作为识别分支,用于根据文本区域的池化特征,输出文本区域的字符序列。
具体的,空间可分离卷积操作是指空间可分离卷积(Effnet)层通过多层方式逐层对待识别的图像进行卷积计算。其中,空间可分离卷积层包括相映射的高层和低层,高层和低层是相对概念,先计算的称为高层,后计算的称为低层。将高层卷积计算提取的卷积特征融合至层层叠加所映射的低层,是指低层的卷积计算结果需要结合高层的卷积计算结果。因为卷积层数越多,丢失的细节越多,通过将高层提取的卷积特征融合至低层,可以保留更多的细节,避免信息丢失。
在步骤330中,从执行空间可分离卷积操作的最底层获取全局特征。
其中,最底层是指空间可分离卷积层的最后输出层,空间可分离卷积层通过多层方式逐层对待识别的原始图像进行空间可分离卷积操作,最后输出的特征矩阵即称为全局特征。全局特征可以用于表征原始输入图像的特征信息。
图4是空间可分离卷积层的网络架构示意图,如图4所示,待识别的原始图像作为空间可分离卷积层的输入,之后逐层进行卷积计算,高层提取的特征融合至相映射的低层,在空间可分离卷积层的最底层输出全局特征。其中,每个平行四边形代表每层提取的卷积特征。
在步骤350中,通过所述全局特征进行图像中文本的候选区域检测和区域筛选参数预测,获得对应于所检测得到文本区域的池化特征。
其中,候选区域检测是指根据全局特征检测出图像中文本所在的候选区域,候选区域可以是多个。区域筛选参数预测是指根据全局特征获得区域筛选参数的预测值,根据这些预测值可以进行候选区域的筛选,提高图像中文本区域的检测精度。文本区域的池化特征是指池化层输出的文本区域的特征数据,在一种实施例中,文本区域的池化特征可以是文本区域水平化后的图像数据,水平化是指将倾斜的文本区域旋转到水平位置。
具体的,空间可分离卷积网络层输出的全局特征可以分别输入区域回归网络层和池化层,通过区域回归网络层进行图像中文本的候选区域检测,输出文本边框的候选区域,简称边框候选区域。通过池化层对全局特征进行卷积变换实现区域筛选参数的预测,进而池化层根据区域筛选参数对边框候选区域进行筛选,可以检测出图像中的文本区域,进而对倾斜的文本区域进行旋转,获得水平化的文本区域的图像数据,作为文本区域的池化特征。
在步骤370中,将所述池化特征后向传播至执行字符识别操作的识别分支网络层,通过所述识别分支网络层输出所述文本区域标记的字符序列。
其中,识别分支网络层是多层叠加的网络模型的最后若干层,用于根据文本区域的池化特征,识别文本区域中所含的字符。具体的,识别分支网络层包括网络模型的时间卷积网络层和字符分类层。具体的,池化层将文本区域的池化特征传播至时间卷积网络层,通过时间卷积网络层对池化特征进行卷积计算,提取字符序列特征,进而将字符序列特征传输至字符分类层,通过字符分类层输出每个字符属于字典中各个字符的概率。
举例来说,假设字典中包含7439个文字,则字符分类层可以输出文本区域中每一字符属于字典中每个文字的概率,则字典中概率最大的文字就是文本区域中该字符的识别结果,由此,对于文本区域中的多个字符,可以输出每个字符的识别结果,得到文本区域标记的字符序列。
本发明上述示例性实施例提供的技术方案,通过多层叠加的网络模型执行图像中文本的端到端识别,由此只需训练一个网络模型即可实现图像中文本的识别,无需分开训练文本***和字符分类器,降低了模型训练的工作量,并且最终识别的准确性,只受一个网络模型的准确性影响,可以利于识别准确性的提高,避免了识别准确性的提升受到两个模型的互相限制。
相对于本发明上述示例性实施例提供的技术方案,图5是一种文字识别方案的流程图。如图5所示,该文字识别方案将文字的检测和识别分成两个任务,检测任务完成后才能进行识别任务。具体的,检测时首先将原始图像输入特征提取卷积网络,然后将提取的特征传给区域回归网络,区域回归网络会输出检测的边框候选区域,但这些区域还比较粗糙需要做进一步的边框回归,以提高边框的准确度以便更加贴近文字边缘,二次边框回归和分类会给出图像中文字边框的坐标以及对应的置信度,即包含文字的可能性。这两个预测结果会与图像中文字标注位置进行对比,然后经过损失函数计算出预测损失,依靠这个损失来调节模型的参数更新。
由于检测倾斜文字时,区域回归网络检测的边框候选区域的上方会有很大空白区域,这会降低检测框的精度,因此将区域回归网络输出的边框候选区域与特征提取卷积网络提取的全局特征共同输入到旋转兴趣区域池化层上,以获得检测的倾斜文字区域。如图5所示,倾斜文字区域在原始图像中以文本框形式标记出来,之后根据文本框的坐标从原始图像中裁剪出相应区域,由此,先完成了文字所在区域的定位。需要说明的是,在这个阶段,已存在文字所在区域的定位误差。
之后,将裁剪的文字所在区域图像输入识别网络,识别网络首先会对输入的区域图像做卷积特征提取,之后将提取的卷积特征提供给字符分类层,由该字符分类层识别输入序列表示的字符序列,当原始图像中所有文字区域都完成识别后,该原始图像的文字识别任务完成。需要说明的是,在这一阶段也需要经过另一损失函数计算出字符分类层输出的字符序列与实际字符序列的差异,依靠这个差异来调节识别网络和字符分类层的参数更新。也就是说,在这一阶段也存在字符识别的误差,所以最终整体的识别误差,包括文字区域定位的误差和字符识别的误差。
需要说明的是,如果文字区域定位误差较大,则即使字符识别的准确性提高,也限制了整体的识别准确性的提高。将区域检测和文字识别分开训练不利于性能的提升,识别阶段产生的误差也无法传达给检测部分用以纠正检测模型的参数,导致在一些训练集上表现会受到检测或识别性能的瓶颈。并且,分开训练检测模型和识别模型会增加模型训练的工作量。而特征提取卷积网络提取特征的速度较慢,影响整个***单位时间处理任务的数目,同时也不利于模型在移动端部署。
而本发明通过多层叠加的网络模型实现图像中文本的端到端识别,即输入是原始图像,输出是字符序列,最终字符识别的准确性只由一个模型的误差决定,将两个任务从模型上合成一个,避免了分开训练带来的性能瓶颈,由此利于识别准确性的提高;并且只训练一个网络模型即可实现文本的识别,大大节省了模型训练的时间,较分开训练两个模型至少节省一半时间,而在实际中因为两个模型的参数设定不一样,算上调参的时间可节省4、5倍的时间。另外,本发明使用Effnet网络架构进行图像的空间可分离卷积操作,将空间可分离卷积操作提取的卷积特征融合至层层叠加所映射的低层,既可以实现对全局特征提取阶段的加速,同时弥补现有的加速网络结构实现加速的同时需要牺牲模型精度的缺陷,并且降低了模型运行所需的存储空间,便于在移动端部署应用。
在一种示例性实施例中,如图6所示,所述上述步骤350具体包括:
在步骤351中,将所述全局特征输入执行候选区域检测的区域回归网络层,通过所述区域回归网络层输出所述图像中文本的边框候选区域;
需要解释的是,本发明通过多层叠加的网络模型执行图像中文本的端到端识别,而区域回归网络层是该网络模型的其中若干层,用于检测文本可能所在的区域,也就是执行候选区域检测。
具体的,通过该网络模型的空间可分离卷积网络层从原始图像中提取全局特征,并将全局特征输入区域回归网络层,通过区域回归网络层输出图像中文本的边框候选区域。边框候选区域是指文本边缘可能围成的区域。在训练阶段,可以通过区域回归网络层输出文本的边框候选区域,通过对边框候选区域进行二次边框回归和分类,得到检测的候选框和候选框置信度(包含文字的可能性),根据实际文本边框的位置坐标,计算多任务损失,通过调整区域网络网络层的参数,使损失达到最小。其中,区域回归网络层可以是Faster-R-CNN(快速目标检测卷积神经网络),Faster-R-CNN的主要贡献是设计了提取候选区域的网络架构,代替了费时的选择性搜索,使得检测速度大幅提高。
在步骤352中,将所述边框候选区域输入执行区域筛选和区域旋转的池化层;
其中,池化层连接空间可分离卷积网络层,用于根据空间可分离卷积网络层输出的全局特征,对边框候选区域执行区域筛选和区域旋转。其中,区域筛选是指从多个边框候选区域中筛选出准确的文本所在区域,区域旋转是指将倾斜的文本区域旋转至水平位置。由此,区域回归网络层输出的边框候选区域和空间可分离卷积网络层输出的全局特征共同输入池化层。
在步骤353中,根据所述池化层对所述全局特征进行区域筛选参数预测获得的像素级区域筛选参数,从所述边框候选区域中筛选出所述文本区域并旋转所述文本区域至水平位置,获得所述文本区域的池化特征。
其中,像素级区域筛选参数是指根据全局特征预测得到的对边框候选区域进行筛选和旋转的参数。像素级区域筛选参数可以包括像素级分类置信度、像素级旋转角度和像素级边框距离。文本区域是指文本所在的区域。池化层可以通过多种卷积核对全局特征进行卷积变换,得到像素级区域筛选参数,进而根据像素级区域筛选参数从多个边框候选区域中筛选出文本区域,进而将倾斜的文本区域旋转至水平位置,得到文本区域的池化特征。
如图7所示,全局特征经过第一个卷积核的变换,输出像素级分类置信度,即原始图像中每个像素属于文本的概率。全局特征经过第二个卷积核的变换,输出像素级边框距离,即每个像素点距离所处文本边框上下左右的预测距离。全局特征经过第三个卷积核的变换,输出像素级旋转角度,即每个像素点旋转到水平位置时需要转动的角度。
在一种示例性实施例中,如图8所示,上述步骤353具体包括:
在步骤3531中,获取所述池化层对所述全局特征进行卷积计算生成的像素级分类置信度,所述像素级分类置信度是指所述图像中每个像素属于文本区域的概率;
具体的,池化层可以通过大小为1×1,步长为1的卷积核对全局特征(特征图像)进行卷积计算,输出每个像素点属于文本的置信度预测结果,得到像素级分类置信度。置信度高的像素点,表示该像素点属于文本区域的概率较大,同理,置信度低表示该像素点属于文本区域的概率较小。
在步骤3532中,根据所述像素级分类置信度以及所述边框候选区域的交并比例,从所述边框候选区域中筛选出所述文本区域;
其中,边框候选区域的交并比例是指不同边框候选区域之间的重叠比例。由于边框候选区域中存在噪音边框,由此本发明根据像素级分类置信度和边框候选区域的交并比例,对边框候选区域的检测结果进行非极大值抑制,从而从边框候选区域中筛选出文本区域,提高文本区域检测的准确性。
具体的,可以通过非极大值抑制算法,根据像素级分类置信度,保留置信度高的边框候选区域,保留没有重叠的边框候选区域,保留交并比例低的边框候选区域,由此从所有边框候选区域中筛选得到文本区域。
在步骤3533中,根据所述池化层对所述全局特征进行卷积计算生成的像素级旋转角度和像素级边框距离,通过插值算法将所述文本区域旋转至水平位置,得到所述文本区域的池化特征。
需要说明的是,池化层在获得像素级分类置信度时,可以同时对全局特征进行卷积计算,得到像素级旋转角度和像素级边框距离。参照上文解释,像素级旋转角度是指个像素点旋转到水平位置时需要转动的角度,像素级边框距离是指每个像素点距离所处文本边框上下左右的预测距离。具体的,池化层可以通过大小为1×1,步长为4的卷积核对全局特征进行卷积计算,输出每个像素点距离所在文本边框上下左右的距离。池化层可以通过大小为1×1,步长为4的卷积核对全局特征进行卷积计算,输出将每个像素点旋转到水平位置时需要转动的角度。
由此,池化层根据像素点旋转角度和像素级边框距离可以将倾斜的文本区域旋转到水平方向上,文本区域的池化特征可以是旋转到水平方向后文本区域的图像数据。
具体的,将检测的文本区域旋转到水平位置需要经过池化层的插值,将原本带角度的文本区域变换到水平位置,以便识别模型的识别。插值需要通过变换矩阵T确定原始点与目标点之间的对应关系,变换矩阵T的计算公式如下:
Figure BDA0001830362250000121
Figure BDA0001830362250000122
Figure BDA0001830362250000123
v_ratio表示变换后的文本区域映射的高度roi_h与当前点到预测的文本区域的上边界和下边界的距离之和的比值;roi_h为预设已知量。
其中,roi_w=v_ratio×(l+r),roi_w表示变换后的文本区域映射的宽度。
dx=l×cosπi-t×sinπi-x,
dy=l×cosπi+t×sinπi-y,
其中,r、l、t、b分别是检测分支预测的当前像素点到文本边框的右边界,左边界,上边界,下边界的距离(即像素级边框距离),πi表示检测分支预测的当前像素的倾斜角度(即像素级旋转角度)。(x,y)是当前像素点在原始图像中的坐标位置。假定变换前点为Psrc(xs,ys),变换后Pdst(xd,yd),则
Figure BDA0001830362250000124
Figure BDA0001830362250000125
通过左边等式即可将变换前的特征映射位置乘以变换矩阵T得到变换后的特征映射的位置,从而完成坐标插值,实现文本区域的水平化旋转。
需要强调的是,不同于现有的文字识别方法通过将检测模型输出的检测结果传给识别模型完成文字的识别,本发明将检测作为模型的一个学习分支负责优化最终作为识别分支输入的特征图(即池化特征),在同一个模型内实现将检测结果(即检测到的文本区域)通过数值采样的方式变换成可供识别分支直接使用的特征图,实现检测和识别任务的同时学习训练。
在一种示例性实施例中,上述步骤370中的识别分支网络层包括时间卷积网络层和字符分类层,如图9所示,上述步骤370具体包括:
在步骤371中,将所述池化特征后向传播至所述时间卷积网络层进行字符特征的提取;
其中,后向传播是指将池化层输出的池化特征传输至时间卷积网络层,通过时间卷积网络层对池化特征进行卷积变换,提取出字符序列特征。不同于现有采用CTC(Connectionist temporal classification,基于神经网络的时序类分类)或者Attention(注意)网络结构,本发明使用TCN(时间卷积网络)作为识别分支网络层的一部分,该网络有以下优势:由于在TCN可以进行大规模并行所以网络的训练和测试时间都极大的缩小;由于TCN可以通过决定堆叠多少卷积层来灵活地调节感受野大小,从而更好显式控制模型的长短期记忆长短,而CTC或Attention识别模型由于无法预估模型内部循环次数,进而无法显式地控制长短期记忆的长短;TCN的传播方向与输入序列的时间方向不同,从而避免了RNN模型训练经常出现的梯度***或者消失问题;TCN消耗的内存更低,在长输入序列上表现更加明显,降低了模型的部署应用开销。
在步骤372中,将所提取的字符特征输入所述字符分类层,通过所述字符分类层输出所述文本区域标记的字符序列。
其中,字符特征就是字符序列特征,将提取的字符序列特征输入字符分类层,可以输出文本区域中每个字符属于字典中每一字符的概率,找出字典中概率最大的字符,即为文本区域中该字符的识别结果,由此文本区域中标记的字符序列。
图10是识别分支网络层是架构示意图,如图10所示,池化层输出的池化特征经过4次时间卷积操作,每一卷积层的输入分别经过空洞因果卷积、权重归一化、激活函数变换,随机丢弃后得到当前卷积层的输出。其中,第一次卷积操作的过滤器大小k为3,卷积核的膨胀因子d为1,第二次卷积操作的过滤器大小k为3,卷积核的膨胀因子d为1,第三次卷积操作的过滤器大小k为3,卷积核的膨胀因子d为2,第四次卷积操作的过滤器大小k为1,卷积核的膨胀因子d为4。之后,通过双向LSTM(长短期记忆网络)提取字符序列特征,即每个字符的特征。双向的LSTM优于单向LSTM的是它可以同时利用过去时刻和未来时刻两个方向上的信息,从而使得最终的预测更加的准确。双向LSTM的输出结果可以是512的特征向量,之后通过字符分类层的CTC解码器对输出特征进行7439类别的分类。其中7439类别表示字典中存在7439个字符,从而可以将输出特征分类到7439个字符中的其中一个。
图11是本发明提供的图像中文本识别的网络模型架构示意图,如图11所示,原始图像首先输入空间可分离卷积网络层,通过空间可分离卷积网络层从原始图像中提取全局特征,之后将全局特征分别输入区域回归网络层和池化层,区域回归网络层根据全局特征检测出边框候选区域。其中,在训练阶段,可以通过二次边框回归和边框分类,获得检测的候选框和候选框置信度,根据文本边框的位置,计算多任务损失,调整区域回归网络层的参数,使多任务损失降到最低。区域回归网络层输出的边框候选区域输入池化层,池化层可以根据空间可分离卷积网络层输入的全局特征和区域回归网络层输入的边框候选区域,进行边框候选区域的筛选和水平化,得到水平化的文本区域特征,即池化特征。进而将水平化的文本区域特征输入时间卷积网络层,提取字符序列特征,并字符序列特征输入字符分类器,输出图像中文本的字符识别结果。
在一种示例性实施例中,如图12所示,本发明提供的方法还包括:
在步骤1210中,获取图像上记录有文本信息的样本图像集,所述文本信息的内容已知;
其中,样本图像集包括大量图像样本,这些图像样本上标注有文本信息,且这些文本信息的具体内容已知。样本图像集可以存储在用户设备110的本地存储介质中,也可以存储在服务器130中。
在步骤1230中,利用所述样本图像集进行所述网络模型的训练,通过调整所述网络模型的参数,使所述网络模型输出的每个样本图像的字符序列与对应文本信息之间的差异最小。
具体的,样本图像集可以作为训练集,训练本发明进行图像中文本识别所需的网络模型。具体的,可以将样本图像集作为该网络模型的输入,根据该网络模型的输出,调整网络模型的参数,使网络模型的输出的样本图像集的字符序列识别结果与已知的文本信息之间的差异最小。举例来说,可以通过计算字符序列识别结果与已知的文本信息之间的相似度,使相似度最大。
在一种示例性实施例中,如图13所示,上述步骤1230具体包括:
在步骤1231中,根据所述网络模型进行文本区域检测产生的误差以及执行字符识别操作产生的误差,获得所述网络模型的文本识别误差;
其中,网络模型分为文本区域检测和字符识别操作两个任务。网络模型的文本识别误差是指该网络模型整体框架的识别误差。该误差可以是文本区域检测产生的误差和字符识别产生的误差之和。其中,文本区域检测产生的误差可以是输出池化特征之前,检测文本区域存在的误差,而字符识别操作产生的误差可以是输出池化特征之后,对文本区域中的字符进行分类识别产生的误差。
在步骤1232中,根据所述文本识别误差,通过后向传播调整所述网络模型进行所述文本区域检测的网络层参数和执行字符识别操作的网络层参数,使所述文本识别误差最小。
后向传播是指根据后面识别结果来调整前面网络模型的参数。具体的,根据网络模型整体框架的识别误差,即最后输出字符序列的误差,来调整前面文本区域检测任务的网络层参数以及执行字符识别操作的网络层参数,使最后输出字符序列与真实字符序列之间的误差最小。由此,识别阶段产生误差可以传达给检测部分用以纠正检测阶段的参数。
在一种示例性实施例中,如图14所示,上述步骤1231具体包括:
在步骤1401中,根据所述网络模型进行像素级分类预测产生的误差、像素级边框距离预测产生的误差以及像素级旋转角度预测产生的误差,确定所述网络模型进行文本区域检测产生的误差;
其中,像素级分类预测产生的误差是指像素级分类置信度与实际像素点属于文本区域的分类结果之间的误差。像素级边框预警预测产生的误差是指每个像素点距离所在文本边框上下左右之间的预测距离与实际距离之间的误差,像素级旋转角度预测是像素点旋转到水平位置的预测旋转角度与实际旋转角度之间的误差。
具体的,网络模型进行文本区域检测产生的误差表示为LDetection
LDetection=Lcls+αLgeo_reg
LDetection是检测分支(文本区域检测)总的损失函数,Lcls是检测分支中像素级分类置信度的损失函数,也就是像素级分类预测产生的误差,Lgeo_reg是像素级边框距离的损失函数(距离所在边框上下左右的距离),也就是每个像素点距离所在文本边框上下左右之间的预测距离与实际距离之间的误差α为Lgeoreg在总的检测分支损失中的比例。
其中,
Figure BDA0001830362250000151
N为一个置信度映射预测矩阵中正值元素数目,
Figure BDA0001830362250000152
当前像素是否文字的标注(取值为0或者1),ui当前像素是否文字的预测值(取值为0或者1)。
其中,
Figure BDA0001830362250000153
N为一个置信度映射预测矩阵中正值元素数目,πi表示预测的像素级旋转角度,
Figure BDA0001830362250000161
表示标注的像素级旋转角度,β表示角度损失占Lgeo_reg中的比例。
Figure BDA0001830362250000162
表示预测的边框的四个几何量(距所在文本框的上下左右边界距离)Bi与标注的四个几何量(距所在文本框的上下左右边界距离)
Figure BDA0001830362250000163
之间的IOU损失,IOU损失函数定义如下:
Figure BDA0001830362250000164
表示两个文字框的交集,
Figure BDA0001830362250000165
表示两个文字框的并集。
在步骤1402中,将所述网络模型进行文本区域检测产生的误差与执行字符识别操作产生的误差进行加权相加,获得所述网络模型的文本识别误差。
具体的,整个网络模型的损失函数,即网络模型的文本识别误差表示如下:
Ltotal=LDetectionrecognitionLrecogtion
LDetection为检测分支产生的损失,Lrecogtion为识别分支产生的损失,也就是执行字符识别操作产生的误差,εrecognition为识别分支的损失在模型总的损失当中占得比例,以此来控制识别分支对整个模型优化的贡献程度。检测分支产生的损失在步骤1401中已计算得到,识别分支产生的损失表示如下:
Figure BDA0001830362250000166
R为要识别区域个数,
Figure BDA0001830362250000167
是第个区域的识别标注,ρ当前识别的输入,
Figure BDA0001830362250000168
的计算公式如下:
Figure BDA0001830362250000169
c*是字符级标注序列,c*={c0,...,cL-1},L是标注序列的长度,L≤7439,7439为词典当中字符个数,只有在词典中存在的字符才能被识别。
需要说明的是,在检测任务中,边框回归的损失函数采用了IOU(Intersectionover Union,交并比)损失函数,该函数较L2损失有如下优势:将边框的四个坐标当作一个整体进行学习优化降低了模型的训练难度,可以提高检测准确率和模型的学习速度,同时对样本的多样性适应性也得到加强。
本发明提供的方案可以支持web api(网络应用程序接口)服务调用以及移动端的部署,如图15所示,通过采用本发明提供的技术方案,可以从原始图像中直接识别出具体文字内容进行输出。
下述为本发明装置实施例,可以用于执行本发明上述用户设备110执行的图像中文本的识别方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明图像中文本的识别方法实施例。
图16是根据一示例性实施例示出的一种图像中文本的识别装置的框图,该图像中文本的识别装置可以用于图1所示实施环境的用户设备110中,执行图3、图6、图8、图9、图12-图14任一所示的图像中文本的识别方法的全部或者部分步骤。该装置通过多层叠加的网络模型执行图像中文本的端到端识别,如图16所示,该装置包括但不限于:空间卷积操作模块1610、全局特征提取模块1630、池化特征获得模块1650以及字符序列输出模块1670。
空间卷积操作模块1610,用于通过多层方式逐层进行图像的空间可分离卷积操作,将所述空间可分离卷积操作提取的卷积特征融合至层层叠加所映射的低层,所述低层与输出所述卷积特征的高层相映射;
全局特征提取模块1630,用于从执行空间可分离卷积操作的最底层获取全局特征;
池化特征获得模块1650,用于通过所述全局特征进行图像中文本的候选区域检测和区域筛选参数预测,获得对应于所检测得到文本区域的池化特征;
字符序列输出模块1670,用于将所述池化特征后向传播至执行字符识别操作的识别分支网络层,通过所述识别分支网络层输出所述文本区域标记的字符序列。
上述装置中各个模块的功能和作用的实现过程具体详见上述图像中文本的识别方法中对应步骤的实现过程,在此不再赘述。
空间卷积操作模块1610比如可以是图2中的某一个物理结构处理器218。
全局特征提取模块1630、池化特征获得模块1650以及字符序列输出模块1670也可以是功能模块,用于执行上述图像中文本的识别方法中的对应步骤。可以理解,这些模块可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时,这些模块可以实施为一个或多个硬件模块,例如一个或多个专用集成电路。当以软件方式实现时,这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序,例如图2的处理器218所执行的存储在存储器204中的程序。
可选的,如图17所示,所述池化特征获得模块1650包括但不限于:
候选区域输出单元1651,用于将所述全局特征输入执行候选区域检测的区域回归网络层,通过所述区域回归网络层输出所述图像中文本的边框候选区域;
池化输入单元1652,用于将所述边框候选区域输入执行区域筛选和区域旋转的池化层;
筛选旋转单元1653,用于根据所述池化层对所述全局特征进行区域筛选参数预测获得的像素级区域筛选参数,从所述边框候选区域中筛选出所述文本区域并旋转所述文本区域至水平位置,获得所述文本区域的池化特征。
可选的,如图18所示,所述筛选旋转单元1653包括但不限于:
置信度获取子单元1801,用于获取所述池化层对所述全局特征进行卷积计算生成的像素级分类置信度,所述像素级分类置信度是指所述图像中每个像素属于文本区域的概率;
候选区域筛选子单元1802,用于根据所述像素级分类置信度以及所述边框候选区域的交并比例,从所述边框候选区域中筛选出所述文本区域;
文本区域旋转子单元1803,用于根据所述池化层对所述全局特征进行卷积计算生成的像素级旋转角度和像素级边框距离,通过插值算法将所述文本区域旋转至水平位置,得到所述文本区域的池化特征。
可选的,所述识别分支网络层包括时间卷积网络层和字符分类层,所述字符序列输出模块1670包括但不限于:
字符特征提取单元,用于将所述池化特征后向传播至所述时间卷积网络层进行字符特征的提取;
字符分类单元,用于将所提取的字符特征输入所述字符分类层,通过所述字符分类层输出所述文本区域标记的字符序列。
可选的,所述装置还包括但不限于:
样本集获取模块,用于获取图像上记录有文本信息的样本图像集,所述文本信息的内容已知;
模型训练模块,用于利用所述样本图像集进行所述网络模型的训练,通过调整所述网络模型的参数,使所述网络模型输出的每个样本图像的字符序列与对应文本信息之间的差异最小。
可选的,所述模型训练模块包括但不限于:
模型误差获得单元,用于根据所述网络模型进行文本区域检测产生的误差以及执行字符识别操作产生的误差,获得所述网络模型的文本识别误差;
模型参数调整单元,用于根据所述文本识别误差,通过后向传播调整所述网络模型进行所述文本区域检测的网络层参数和执行字符识别操作的网络层参数,使所述文本识别误差最小。
可选的,所述模型误差获得单元包括但不限于:
检测误差确定子单元,用于根据所述网络模型进行像素级分类预测产生的误差、像素级边框距离预测产生的误差以及像素级旋转角度预测产生的误差,确定所述网络模型进行文本区域检测产生的误差;
误差融合子单元,用于将所述网络模型进行文本区域检测产生的误差与执行字符识别操作产生的误差进行加权相加,获得所述网络模型的文本识别误差。
可选的,本发明还提供一种电子设备,该电子设备可以用于图1所示实施环境的用户设备110中,执行图3、图6、图8、图9、图12-图14任一所示的图像中文本的识别方法的全部或者部分步骤。所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述示例性实施例所述的图像中文本的识别方法。
该实施例中电子设备的处理器执行操作的具体方式已经在有关该图像中文本的识别方法的实施例中执行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种存储介质,该存储介质为计算机可读存储介质,例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质存储有计算机程序,所述计算机程序可由装置200的处理器218执行以完成上述图像中文本的识别方法。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (15)

1.一种图像中文本的识别方法,其特征在于,所述方法通过多层叠加的网络模型执行图像中文本的端到端识别,所述方法包括:
通过多层方式逐层进行图像的空间可分离卷积操作,将所述空间可分离卷积操作提取的卷积特征融合至层层叠加所映射的低层,所述低层与输出所述卷积特征的高层相映射;
从执行空间可分离卷积操作的最底层获取全局特征;
通过所述全局特征进行图像中文本的候选区域检测和区域筛选参数预测,获得对应于所检测得到文本区域的池化特征;
将所述池化特征后向传播至执行字符识别操作的识别分支网络层,通过所述识别分支网络层输出所述文本区域标记的字符序列。
2.根据权利要求1所述的方法,其特征在于,所述通过所述全局特征进行图像中文本的候选区域检测和区域筛选参数预测,获得对应于所检测得到文本区域的池化特征,包括:
将所述全局特征输入执行候选区域检测的区域回归网络层,通过所述区域回归网络层输出所述图像中文本的边框候选区域;
将所述边框候选区域输入执行区域筛选和区域旋转的池化层;
根据所述池化层对所述全局特征进行区域筛选参数预测获得的像素级区域筛选参数,从所述边框候选区域中筛选出所述文本区域并旋转所述文本区域至水平位置,获得所述文本区域的池化特征。
3.根据权利要求2所述的方法,其特征在于,所述根据所述池化层对所述全局特征进行区域筛选参数预测获得的像素级区域筛选参数,从所述边框候选区域中筛选出所述文本区域并旋转所述文本区域至水平位置,获得所述文本区域的池化特征,包括:
获取所述池化层对所述全局特征进行卷积计算生成的像素级分类置信度,所述像素级分类置信度是指所述图像中每个像素属于文本区域的概率;
根据所述像素级分类置信度以及所述边框候选区域的交并比例,从所述边框候选区域中筛选出所述文本区域;
根据所述池化层对所述全局特征进行卷积计算生成的像素级旋转角度和像素级边框距离,通过插值算法将所述文本区域旋转至水平位置,得到所述文本区域的池化特征。
4.根据权利要求1所述的方法,其特征在于,所述识别分支网络层包括时间卷积网络层和字符分类层,所述将所述池化特征后向传播至执行字符识别操作的识别分支网络层,通过所述识别分支网络层输出所述文本区域标记的字符序列,包括:
将所述池化特征后向传播至所述时间卷积网络层进行字符特征的提取;
将所提取的字符特征输入所述字符分类层,通过所述字符分类层输出所述文本区域标记的字符序列。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取图像上记录有文本信息的样本图像集,所述文本信息的内容已知;
利用所述样本图像集进行所述网络模型的训练,通过调整所述网络模型的参数,使所述网络模型输出的每个样本图像的字符序列与对应文本信息之间的差异最小。
6.根据权利要求5所述的方法,其特征在于,所述利用所述样本图像集进行所述网络模型的训练,通过调整所述网络模型的参数,使所述网络模型输出的每个样本图像的字符序列与对应的文本信息差异最小,包括:
根据所述网络模型进行文本区域检测产生的误差以及执行字符识别操作产生的误差,获得所述网络模型的文本识别误差;
根据所述文本识别误差,通过后向传播调整所述网络模型进行所述文本区域检测的网络层参数和执行字符识别操作的网络层参数,使所述文本识别误差最小。
7.根据权利要求6所述的方法,其特征在于,所述根据所述网络模型进行文本区域检测产生的误差以及执行字符识别操作产生的误差,获得所述网络模型的文本识别误差,包括:
根据所述网络模型进行像素级分类预测产生的误差、像素级边框距离预测产生的误差以及像素级旋转角度预测产生的误差,确定所述网络模型进行文本区域检测产生的误差;
将所述网络模型进行文本区域检测产生的误差与执行字符识别操作产生的误差进行加权相加,获得所述网络模型的文本识别误差。
8.一种图像中文本的识别装置,其特征在于,所述装置通过多层叠加的网络模型执行图像中文本的端到端识别,所述装置包括:
空间卷积操作模块,用于通过多层方式逐层进行图像的空间可分离卷积操作,将所述空间可分离卷积操作提取的卷积特征融合至层层叠加所映射的低层,所述低层与输出所述卷积特征的高层相映射;
全局特征提取模块,用于从执行空间可分离卷积操作的最底层获取全局特征;
池化特征获得模块,用于通过所述全局特征进行图像中文本的候选区域检测和区域筛选参数预测,获得对应于所检测得到文本区域的池化特征;
字符序列输出模块,用于将所述池化特征后向传播至执行字符识别操作的识别分支网络层,通过所述识别分支网络层输出所述文本区域标记的字符序列。
9.根据权利要求8所述的装置,其特征在于,所述池化特征获得模块包括:
候选区域输出单元,用于将所述全局特征输入执行候选区域检测的区域回归网络层,通过所述区域回归网络层输出所述图像中文本的边框候选区域;
池化输入单元,用于将所述边框候选区域输入执行区域筛选和区域旋转的池化层;
筛选旋转单元,用于根据所述池化层对所述全局特征进行区域筛选参数预测获得的像素级区域筛选参数,从所述边框候选区域中筛选出所述文本区域并旋转所述文本区域至水平位置,获得所述文本区域的池化特征。
10.根据权利要求9所述的装置,其特征在于,所述筛选旋转单元包括:
置信度获取子单元,用于获取所述池化层对所述全局特征进行卷积计算生成的像素级分类置信度,所述像素级分类置信度是指所述图像中每个像素属于文本区域的概率;
候选区域筛选子单元,用于根据所述像素级分类置信度以及所述边框候选区域的交并比例,从所述边框候选区域中筛选出所述文本区域;
文本区域旋转子单元,用于根据所述池化层对所述全局特征进行卷积计算生成的像素级旋转角度和像素级边框距离,通过插值算法将所述文本区域旋转至水平位置,得到所述文本区域的池化特征。
11.根据权利要求8所述的装置,其特征在于,所述识别分支网络层包括时间卷积网络层和字符分类层,所述字符序列输出模块包括:
字符特征提取单元,用于将所述池化特征后向传播至所述时间卷积网络层进行字符特征的提取;
字符分类单元,用于将所提取的字符特征输入所述字符分类层,通过所述字符分类层输出所述文本区域标记的字符序列。
12.根据权利要求8所述的装置,其特征在于,所述装置还包括:
样本集获取模块,用于获取图像上记录有文本信息的样本图像集,所述文本信息的内容已知;
模型训练模块,用于利用所述样本图像集进行所述网络模型的训练,通过调整所述网络模型的参数,使所述网络模型输出的每个样本图像的字符序列与对应文本信息之间的差异最小。
13.根据权利要求12所述的装置,其特征在于,所述模 型训练模块包括:
模型误差获得单元,用于根据所述网络模型进行文本区域检测产生的误差以及执行字符识别操作产生的误差,获得所述网络模型的文本识别误差;
模型参数调整单元,用于根据所述文本识别误差,通过后向传播调整所述网络模型进行所述文本区域检测的网络层参数和执行字符识别操作的网络层参数,使所述文本识别误差最小。
14.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行完成权利要求1-7任意一项所述的图像中文本的识别方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序可由处理器执行完成权利要求1-7任意一项所述的图像中文本的识别方法。
CN201811202558.2A 2018-10-16 2018-10-16 图像中文本的识别方法及装置、电子设备、存储介质 Active CN109271967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811202558.2A CN109271967B (zh) 2018-10-16 2018-10-16 图像中文本的识别方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811202558.2A CN109271967B (zh) 2018-10-16 2018-10-16 图像中文本的识别方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN109271967A CN109271967A (zh) 2019-01-25
CN109271967B true CN109271967B (zh) 2022-08-26

Family

ID=65196737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811202558.2A Active CN109271967B (zh) 2018-10-16 2018-10-16 图像中文本的识别方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN109271967B (zh)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919014B (zh) * 2019-01-28 2023-11-03 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN109948469B (zh) * 2019-03-01 2022-11-29 吉林大学 基于深度学习的巡检机器人仪表自动检测识别方法
CN111723627B (zh) * 2019-03-22 2024-07-23 北京搜狗科技发展有限公司 一种图像处理方法、装置和电子设备
CN110119681B (zh) * 2019-04-04 2023-11-24 平安科技(深圳)有限公司 一种文本行提取方法及装置、电子设备
CN110059188B (zh) * 2019-04-11 2022-06-21 四川黑马数码科技有限公司 一种基于双向时间卷积网络的中文情感分析方法
CN110210581B (zh) * 2019-04-28 2023-11-24 平安科技(深圳)有限公司 一种手写文本识别方法及装置、电子设备
CN110135411B (zh) * 2019-04-30 2021-09-10 北京邮电大学 名片识别方法和装置
CN110110652B (zh) * 2019-05-05 2021-10-22 达闼科技(北京)有限公司 一种目标检测方法、电子设备及存储介质
CN110135424B (zh) * 2019-05-23 2021-06-11 阳光保险集团股份有限公司 倾斜文本检测模型训练方法和票证图像文本检测方法
CN110175610B (zh) * 2019-05-23 2023-09-05 上海交通大学 一种支持隐私保护的票据图像文本识别方法
CN110276345B (zh) * 2019-06-05 2021-09-17 北京字节跳动网络技术有限公司 卷积神经网络模型训练方法、装置和计算机可读存储介质
CN110232713B (zh) * 2019-06-13 2022-09-20 腾讯数码(天津)有限公司 一种图像目标定位修正方法及相关设备
CN110414520B (zh) * 2019-06-28 2024-07-02 平安科技(深圳)有限公司 通用字符识别方法、装置、计算机设备和存储介质
CN110458011A (zh) 2019-07-05 2019-11-15 北京百度网讯科技有限公司 端到端的文字识别方法及装置、计算机设备及可读介质
CN110442860A (zh) * 2019-07-05 2019-11-12 大连大学 基于时间卷积网络的命名实体识别方法
CN110610175A (zh) * 2019-08-06 2019-12-24 深圳市华付信息技术有限公司 一种ocr数据误标注清洗方法
CN112258259A (zh) * 2019-08-14 2021-01-22 北京京东尚科信息技术有限公司 数据处理方法、装置和计算机可读存储介质
CN110533041B (zh) * 2019-09-05 2022-07-01 重庆邮电大学 基于回归的多尺度场景文本检测方法
CN110738203B (zh) * 2019-09-06 2024-04-05 中国平安财产保险股份有限公司 字段结构化输出方法、装置及计算机可读存储介质
CN110705547B (zh) * 2019-09-06 2023-08-18 中国平安财产保险股份有限公司 图像内文字识别方法、装置及计算机可读存储介质
CN110610166B (zh) * 2019-09-18 2022-06-07 北京猎户星空科技有限公司 文本区域检测模型训练方法、装置、电子设备和存储介质
CN110751146B (zh) * 2019-10-23 2023-06-20 北京印刷学院 文本区域检测方法、装置、电子终端和计算机可读存储介质
CN110807459B (zh) * 2019-10-31 2022-06-17 深圳市捷顺科技实业股份有限公司 车牌矫正方法、装置以及可读存储介质
CN111104941B (zh) * 2019-11-14 2023-06-13 腾讯科技(深圳)有限公司 图像方向纠正方法、装置及电子设备
CN111091123A (zh) * 2019-12-02 2020-05-01 上海眼控科技股份有限公司 文本区域检测方法及设备
CN111104934A (zh) * 2019-12-22 2020-05-05 上海眼控科技股份有限公司 发动机标贴的检测方法、电子设备及计算机可读存储介质
CN113128306A (zh) * 2020-01-10 2021-07-16 北京字节跳动网络技术有限公司 垂直文本行识别方法、装置、设备及计算机可读存储介质
CN111259773A (zh) * 2020-01-13 2020-06-09 中国科学院重庆绿色智能技术研究院 一种基于双向解码的不规则文本行识别方法及***
CN111462095B (zh) * 2020-04-03 2024-04-09 上海帆声图像科技有限公司 用于工业瑕疵图像检测的参数自动调节方法
CN111488883A (zh) * 2020-04-14 2020-08-04 上海眼控科技股份有限公司 车架号识别方法、装置、计算机设备和存储介质
CN111598087B (zh) * 2020-05-15 2023-05-23 华润数字科技有限公司 不规则文字的识别方法、装置、计算机设备及存储介质
CN113762259A (zh) * 2020-09-02 2021-12-07 北京沃东天骏信息技术有限公司 文本定位方法、装置、计算机***和可读存储介质
CN112798949A (zh) * 2020-10-22 2021-05-14 国家电网有限公司 一种抽水蓄能机组发电机温度预警方法和***
CN112101360B (zh) * 2020-11-17 2021-04-27 浙江大华技术股份有限公司 一种目标检测方法、装置以及计算机可读存储介质
CN112508015A (zh) * 2020-12-15 2021-03-16 山东大学 一种铭牌识别方法、计算机设备、存储介质
CN112580637B (zh) * 2020-12-31 2023-05-12 苏宁金融科技(南京)有限公司 文本信息识别方法、提取方法、装置及***
CN113076815B (zh) * 2021-03-16 2022-09-27 西南交通大学 一种基于轻量级神经网络的自动驾驶方向预测方法
CN113052159B (zh) * 2021-04-14 2024-06-07 ***通信集团陕西有限公司 一种图像识别方法、装置、设备及计算机存储介质
CN113537189A (zh) * 2021-06-03 2021-10-22 深圳市雄帝科技股份有限公司 手写文字识别方法、装置、设备及存储介质
CN113591864B (zh) * 2021-07-28 2023-04-07 北京百度网讯科技有限公司 文本识别模型框架的训练方法、装置及***
CN114049648B (zh) * 2021-11-25 2024-06-11 清华大学 工程图文本检测识别方法、装置及***
CN114842464A (zh) * 2022-05-13 2022-08-02 北京百度网讯科技有限公司 图像方向识别方法、装置、设备、存储介质及程序产品
CN115205861B (zh) * 2022-08-17 2023-03-31 北京睿企信息科技有限公司 一种获取异常文字识别区域的方法、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305630A (zh) * 2016-04-25 2017-10-31 腾讯科技(深圳)有限公司 文本序列识别方法和装置
CN108345850A (zh) * 2018-01-23 2018-07-31 哈尔滨工业大学 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180107892A1 (en) * 2015-04-20 2018-04-19 3M Innovative Properties Company Dual embedded optical character recognition (ocr) engines

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305630A (zh) * 2016-04-25 2017-10-31 腾讯科技(深圳)有限公司 文本序列识别方法和装置
CN108345850A (zh) * 2018-01-23 2018-07-31 哈尔滨工业大学 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《EffNet: AN EFFICIENT STRUCTURE FOR CONVOLUTIONAL NEURAL NETWORKS》;Ido Freeman,et al;《Computer Vision and Pattern Recognition》;20180605;1-7 *
《Towards end-to-end text spotting with convolutional recurrent neural networks》;Hui Li,et al;《2017 IEEE International Conference on Computer Vision (ICCV)》;20171022;5238-5246 *

Also Published As

Publication number Publication date
CN109271967A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN109271967B (zh) 图像中文本的识别方法及装置、电子设备、存储介质
CN112052787B (zh) 基于人工智能的目标检测方法、装置及电子设备
US10007867B2 (en) Systems and methods for identifying entities directly from imagery
WO2022213879A1 (zh) 目标对象检测方法、装置、计算机设备和存储介质
US10902056B2 (en) Method and apparatus for processing image
US10440276B2 (en) Generating image previews based on capture information
US20190171903A1 (en) Optimizations for Dynamic Object Instance Detection, Segmentation, and Structure Mapping
CN109584276A (zh) 关键点检测方法、装置、设备及可读介质
WO2018224873A1 (en) Method and system for close loop perception in autonomous driving vehicles
US10943151B2 (en) Systems and methods for training and validating a computer vision model for geospatial imagery
WO2018224874A1 (en) Method and system for distributed learning and adaptation in autonomous driving vehicles
US20200357131A1 (en) Methods and Systems for Detecting and Assigning Attributes to Objects of Interest in Geospatial Imagery
US20230186517A1 (en) Method, apparatus, and computer program product for displaying virtual graphical data based on digital signatures
CN112232311B (zh) 人脸跟踪方法、装置及电子设备
US20230035366A1 (en) Image classification model training method and apparatus, computer device, and storage medium
CN113011398A (zh) 一种针对多时相遥感图像的目标变化检测方法及装置
CN111832561A (zh) 基于计算机视觉的字符序列识别方法、装置、设备和介质
CN114385662A (zh) 路网更新方法、装置、存储介质及电子设备
CN112036517B (zh) 图像缺陷分类方法、装置及电子设备
CN110263779A (zh) 文本区域检测方法及装置、文本检测方法、计算机可读介质
CN113269730B (zh) 图像处理方法、装置、计算机设备及存储介质
US12026805B2 (en) Augmented reality based geolocalization of images
US11928861B1 (en) Generating mapping information based on image locations
KR102322600B1 (ko) 데이터 표시 방법
CN112906446B (zh) 人脸检测方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant