CN109389115A - 文本识别方法、装置、存储介质和计算机设备 - Google Patents

文本识别方法、装置、存储介质和计算机设备 Download PDF

Info

Publication number
CN109389115A
CN109389115A CN201710687380.4A CN201710687380A CN109389115A CN 109389115 A CN109389115 A CN 109389115A CN 201710687380 A CN201710687380 A CN 201710687380A CN 109389115 A CN109389115 A CN 109389115A
Authority
CN
China
Prior art keywords
character
text sequence
type
image
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710687380.4A
Other languages
English (en)
Other versions
CN109389115B (zh
Inventor
刘银松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shanghai Co Ltd
Original Assignee
Tencent Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shanghai Co Ltd filed Critical Tencent Technology Shanghai Co Ltd
Priority to CN201710687380.4A priority Critical patent/CN109389115B/zh
Publication of CN109389115A publication Critical patent/CN109389115A/zh
Application granted granted Critical
Publication of CN109389115B publication Critical patent/CN109389115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种文本识别方法、装置、存储介质和计算机设备,所述方法包括:获取文本序列图像;按各字符种类相应的字符识别方式对所述文本序列图像进行字符识别,将所述文本序列图像中不属于相应字符种类的字符,识别为不属于相应字符种类的通用的字符,得到各字符种类相应的文本序列;从各字符种类相应的文本序列中选取文本序列;确定选取的文本序列中不属于相应字符种类的通用的字符所在的位置;获取选取后剩余的文本序列中在所述位置处属于相应字符种类的字符;根据获取的字符纠正选取的文本序列中所述位置处的字符,得到识别结果。本申请提供的方案提供了文本识别的准确率。

Description

文本识别方法、装置、存储介质和计算机设备
技术领域
本发明涉及计算机技术领域,特别是涉及一种文本识别方法、装置、存储介质和计算机设备。
背景技术
随着计算机技术的发展,越来越多的文字被添加入图像中用于进行信息传播。使用文本识别技术来对图像中包括的文字进行识别也越来越常用,比如对名片或者对照片中的文字进行文本识别等。
目前,对于各种图像的文本识别,主要是基于固定的字符特征提取对各字符进行识别。然而,这种文本识别方式在文本内容复杂多样时,对文本进行识别的识别结果准确率明显降低。
发明内容
基于此,有必要针对传统的文本识别方法在文本内容复杂多样时识别准确率低问题,提供一种文本识别方法、装置、存储介质和计算机设备。
一种文本识别方法,所述方法包括:
获取文本序列图像;
按各字符种类相应的字符识别方式对所述文本序列图像进行字符识别,将所述文本序列图像中不属于相应字符种类的字符,识别为不属于相应字符种类的通用的字符,得到各字符种类相应的文本序列;
从各字符种类相应的文本序列中选取文本序列;
确定选取的文本序列中不属于相应字符种类的字符所在的位置;
获取选取后剩余的文本序列中在所述位置处属于相应字符种类的字符;
根据获取的字符纠正选取的文本序列中所述位置处的字符,得到识别结果。
一种文本识别装置,所述装置包括:
第一获取模块,用于获取文本序列图像;
识别模块,用于按各字符种类相应的字符识别方式对所述文本序列图像进行字符识别,将所述文本序列图像中不属于相应字符种类的字符,识别为不属于相应字符种类的通用的字符,得到各字符种类相应的文本序列;
选取模块,用于从各字符种类相应的文本序列中选取文本序列;
确定模块,用于确定选取的文本序列中不属于相应字符种类的字符所在的位置;
第二获取模块,用于获取选取后剩余的文本序列中在所述位置处属于相应字符种类的字符;
纠正模块,用于根据获取的字符纠正选取的文本序列中所述位置处的字符,得到识别结果。
一个或多个存储有计算机可执行指令的非易失性计算机可读存储介质,所述计算机可执行指令被一个或多个处理器执行时,使得所述一个或多个处理器执行文本识别方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行文本识别方法的步骤。
上述文本识别方法、装置、存储介质和计算机设备,在获取到文本序列图像后,按照不同的字符种类相应的字符识别方式分别进行字符识别,得到各字符种类相应的文本序列。其中,在按某种字符种类相应的字符识别方式进行识别时,将文本序列图像中不属于该字符种类的字符,识别成不属于该字符种类的通用的字符。进而任选一文本序列,确定选取的文本序列中不属于相应字符种类的通用的字符所在的位置,通过选取后剩余的文本序列中该位置处的字符,纠正选取的文本序列中该位置处的字符,得到识别结果。这样采用按字符种类进行识别的方式来对文本序列图像进行识别,确保了按每个字符种类进行识别时,属于该字符种类的字符的识别准确率,而且在文本内容复杂多样时,也可兼顾到文本序列图像中包括的多种字符种类文本的识别,再利用各字符种类识别得到的文本序列中属于该字符种类的字符,对其他文本序列中相应位置处的字符进行纠正,即可得到识别结果,提高了文本识别准确率。
附图说明
图1为一个实施例中计算机设备的内部结构示意图;
图2为一个实施例中文本识别方法的流程示意图;
图3为一个实施例中文本识别方法的原理图;
图4为一个实施例中获取的字符的数量与选取的文本序列中位置处的字符的数量一致时进行字符纠正的原理示意图;
图5为一个实施例中获取的字符的数量与选取的文本序列中位置处的字符的数量不一致时进行字符纠正的原理示意图;
图6为另一个实施例中文本识别方法的原理图;
图7为一个具体应用场景中文本识别方法的原理流程图;
图8为一个实施例中文本识别装置的结构框图;
图9为另一个实施例中文本识别装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中计算机设备的内部结构示意图。如图1所示,该计算机设备包括通过***总线连接的处理器、非易失性存储介质和内存储器。其中,该计算机设备的非易失性存储介质可存储操作***和计算机可读指令,该计算机可读指令被执行时,可使得处理器执行一种文本识别方法。该处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可储存有计算机可读指令,该计算机可读指令被所述处理器执行时,可使得所述处理器执行一种文本识别方法。该计算机设备可以是终端,也可以是服务器等。终端具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器具体可以是独立的物理服务器,也可以是物理服务器集群。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
图2为一个实施例中文本识别方法的流程示意图。本实施例主要以该方法应用于上述图1中的计算机设备来举例说明。参照图2,该方法具体包括如下步骤:
S202,获取文本序列图像。
其中,文本序列是多于一个的字符按顺序构成的字符串。文本序列图像则是包括文本序列的图像。根据文本序列图像排版的不同,文本序列可以是文本行或者文本列。文本行是字符大致沿横向排列成的文本序列,文本列则是字符大致沿纵向排列成的文本序列。
在一个实施例中,计算机设备可直接获取经过文本序列分割得到的文本序列图像。计算机设备获取到的文本序列图像可以是计算机设备接收另一计算机设备发送的文本序列图像,也可以是计算机设备从互联网上爬取的文本序列图像,还可以是计算机设备经过扫描或拍摄得到的文本序列图像等。
在一个实施例中,计算机设备可先获取到待文本序列分割处理的图像,再对该图像进行文本序列分割,以获取文本序列图像。待文本序列分割处理的图像比如名片图像或者文档图像等。名片图像是包含名片内容的图像,可以是名片照片、名片扫描件或者电子名片图片等。文档图像是一个或多个文本序列按照特定的排布特征组合形成的图像。
在一个实施例中,由于不同的文本序列之间存在规律的排布特征,计算机设备可根据文本序列的先验排布特征从图像中检测出文本序列图像。文本序列的先验排布特征比如不同的文本行之间存在空隙、文本行或者文本列内部的字符间距特征,文本行或者文本列内部字符中心大致在一条直线上的特征等。计算机设备可利用这种先验排布特征将不同的文本序列图像从图像中分割出来。
在一个实施例中,计算机设备可对图像进行连通域分析提取出连通域。由于相同文本序列中的连通域可以形成一个完整的连通域,计算机设备可将大致处于同一直线上的多个连通域的外轮廓确定为文本序列图像,以将不同的文本序列图像从图像中分割出来。
S204,按各字符种类相应的字符识别方式对文本序列图像进行字符识别,将文本序列图像中不属于相应字符种类的字符,识别为不属于相应字符种类的通用的字符,得到各字符种类相应的文本序列。
其中,字符种类是按照字符特征对字符进行分类后得到的类别。字符特征比如字符笔画特征或者字符所属语种等。
在本实施例中,计算机设备可按语种对字符进行分类,比如英文字符类型、中文字符类型以及韩文字符类型等。对于按语种分类后剩余的字符,比如数字和标点符号等,计算机设备可将剩余的字符统一分为单独的一类字符,比如其他字符类型。计算机设备也可将剩余的字符分类至按语种分类得到的其中一类字符中,比如英文字符类型可以既包括英文字符也包括按语种分类后剩余的字符。
计算机设备可按字符种类建立字符库,该字符库中包括大量属于相应字符种类的字符。比如,按英文字符类型建立的字符库包括大量属于英文的字符。字符种类相应的字符识别方式,是对属于该字符种类的字符进行精确识别的识别方式。计算机设备可对不属于该字符种类的字符精确识别或模糊识别。比如,英文字符类型相应的字符识别方式,对英文字符进行精确识别,而对非英文字符识别精度不作要求。
通用的字符是计算机设备预先设置的字符,用于在按照字符种类相应的字符识别方式进行字符识别时,作为不属于相应字符种类的字符的识别结果。比如,在按照英文字符类型相应的字符识别方式进行字符识别时,将不属于英文字符类型的字符识别为不属于英文字符类型的通用的字符。
在一个实施例中,对于每个字符种类,可存在一个不属于相应字符种类的通用的字符。比如,对于英文字符类型,可存在一个不属于英文字符类型的通用的字符“汉”,将不属于英文字符类型的字符,比如中文字符或韩文字符等均识别为“汉”。
在一个实施例中,对于每个字符种类,也可存在多个不属于相应字符种类的通用的字符。这多个通用的字符可以属于相同的字符类型。比如,对于英文字符类型,可存在多个不属于相应字符种类的通用的字符“汉”和“韩”等,将中文字符识别为“汉”,将韩文字符识别为“韩”。这多个通用的字符也可以是非相应字符种类的其他的字符种类一一对应的字符。比如,对于英文字符类型,可存在多个不属于相应字符种类的通用的字符“汉”和等,将中文字符识别为“汉”,将韩文字符识别为
在一个实施例中,计算机设备可在按各字符种类相应的字符识别方式对文本序列图像进行字符识别时,先对文本序列图像中的字符进行字符种类识别。其中,字符种类识别可以是二分类过程,确定字符是属于相应字符种类还是不属于相应字符种类。计算机设备可再对属于相应字符种类的字符进行精确识别,直接将不属于相应字符种类的通用的字符,作为不属于相应字符种类的字符的识别结果。
比如,对与英文字符类型,假设计算机设备预先设置的通用的字符为“汉”,在按英文字符类型相应的字符识别方式识别文本序列图像中包括“我A”时,第一个字符“我”确定是不属于英文字符类型的字符,将“汉”作为“我”的识别结果,第二个字符确定是不属于英文字符类型的字符,将“汉”作为的识别结果,第二个字符“A”确定是属于英文字符类型的字符,进行进一步识别,得到精确的识别结果。
字符种类识别也可以是多分类过程,确定字符是属于哪种字符种类。计算机设备可再对属于相应字符种类的字符进行精确识别,直接将不属于相应字符种类的、且与待识别的字符所属字符种类相同的通用的字符,作为该待识别的字符的识别结果。
比如,对与英文字符类型,假设计算机设备预先设置的中文字符的通用的字符为“汉”,韩文字符的通用的字符为在按英文字符类型相应的字符识别方式识别文本序列图像中包括“我A”时,第一个字符“我”确定是中文字符类型的字符,将“汉”作为“我”的识别结果,第二个字符确定是韩文字符类型的字符,将作为的识别结果,第二个字符“A”确定是属于英文字符类型的字符,进行进一步识别,得到精确的识别结果。
在一个实施例中,计算机设备进行字符识别的方式可以是基于模板匹配的识别方式。字符种类相应的字符识别方式,是采用字符种类相应的字符模板进行匹配的识别方式。比如,英文字符类型相应的字符识别方式,是采用英文字符类型相应的字符模板进行匹配的识别方式,这样可对英文字符进行精确识别。若计算机设备需要对非英文字符进行精确识别,可同时采用其他字符类型相应的字符模板进行匹配。若计算机设备不需要对非英文字符进行精确识别,可直接将非英文字符识别为非英文字符的通用的字符。
具体地,计算机设备可收集按字符种类建立的字符库中各字符的字符模板,再将待识别的字符与收集的按字符种类设置的字符模板进行相关匹配,计算待识别的字符与各字符模板之间的相似度,取相似度最大的字符模板所对应的字符作为识别结果,从而得到各字符种类相应的文本序列。
例如,按英文字符类型相应的字符识别方式识别得到的文本序列:“汉汉汉Myname is Addy”,其中,“M”、“y”和“n”等均存在于英文字符类型对应的字符库中,为属于英文字符类型的字符。“汉”为不存在于英文字符类型对应的字符库中,为不属于英文字符类型的字符。
在一个实施例中,计算机设备进行字符识别的方式也可以是基于特征提取的识别方式。字符种类相应的字符识别方式,是采用字符种类相应的字符特征进行匹配的识别方式。具体地,计算机设备可提取按字符种类建立的字符库中各字符的字符特征,再提取待识别的字符的字符特征,与字符库中各字符的字符特征相关匹配,计算待识别的字符与各字符特征之间的相似度,取相似度最大的字符模板所对应的字符作为识别结果,从而得到各字符种类相应的文本序列。
具体地,计算机设备可提取字符的几何特征,比如字符的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等,根据提取的特征的位置和相互关系进行逻辑组合判断,获得识别结果。
在一个实施例中,计算机设备可按各字符种类相应的字符识别方式直接对文本序列图像进行字符识别,也可将文本序列图像切分为单个字符图像后,再对单个字符图像进行字符识别。
在一个实施例中,计算机设备可采用机器学习模型进行字符识别。机器学习模型可以是神经网络模型,具体可采用CNN(Convolutional Neural Networks,卷积神经网络)模型或者FCNN(Fully Convolutional Neural Networks,全卷积神经网络)模型。其中CNN模型在视觉领域分类能力非常强,可准确进行单字识别。
S206,从各字符种类相应的文本序列中选取文本序列。
具体地,计算机设备可从各字符种类相应的文本序列中随机选取文本序列。计算机设备也可在选取文本序列之前,针对各字符种类相应的文本序列分别统计各文本序列包括的相应字符类型的字符的数量,选取包括相应字符类型的字符最多的文本序列。
举例说明,计算机设备按字符类型对文本序列图像识别后得到的中文字符类型的文本序列A、英文字符类型的文本序列B、韩文字符类型的文本序列C和日文字符类型的文本序列D。其中,A包括中文字符15个,B包括英文字符69个,C包括韩文字符3个,D包括日文字符6个。计算机设备可从A、B、C和D四个文本序列中任选一文本序列,也可选取包括相应字符类型的字符最多的文本序列B。
S208,确定选取的文本序列中不属于相应字符种类的通用的字符所在的位置。
具体地,计算机设备在选取文本序列后,可先确定该文本序列对应的字符类型,然后确定该文本序列中不属于该文本序列相应字符种类的通用的字符,再确定这些不属于该文本序列相应字符种类的字符在选取的文本序列中的位置。其中,不属于该文本序列相应字符种类的字符,具体可以是不包括于该文本序列相应字符种类的字符库中的字符。
在一个实施例中,计算机设备可遍历选取的文本序列中包括的字符,在遍历时,判断遍历至的字符是否为包括于相应字符种类的字符库。若计算机设备判定当前遍历至的字符为包括于相应字符种类的字符库,则继续遍历;若计算机设备判定当前遍历至的字符为不包括于相应字符种类的字符库,则记录遍历至的该字符在选取的文本序列中的位置。
在一个实施例中,计算机设备在按各字符种类相应的字符识别方式对文本序列图像进行字符识别时,可在识别出不属于相应字符类型的字符时,对该字符进行标记。计算机设备在选取文本序列后,可查看选取的文本序列中添加标记的字符,以确定该文本序列中不属于相应字符种类的字符,进而确定这些字符在选取的文本序列中的位置。在一个实施例中,选取的文本序列中不属于相应字符种类的字符所在的位置,可以是不属于相应字符种类的字符在文本序列中,与属于相应字符种类的字符相对位置。比如,按英文字符类型识别得到的文本序列:“汉汉汉My name is Addy”,那么不属于相应字符种类的字符“汉”在文本序列中的位置可以是“My name is Addy”前部。
在一个实施例中,选取的文本序列中不属于相应字符种类的字符所在的位置,也可以不属于相应字符种类的字符在文本序列中的绝对位置。比如,按英文字符类型识别得到的文本序列:“汉汉汉My name is Addy”,那么不属于相应字符种类的字符“汉”在文本序列中的位置可以是首字符到第三字符。
S210,获取选取后剩余的文本序列中在位置处属于相应字符种类的字符。
具体地,计算机设备可遍历剩余的文本序列,在遍历时,判断遍历至的文本序列中在位置处的字符是否为属于遍历至的文本序列相应字符种类的字符。若计算机设备判定当前遍历至的文本序列中在位置处的字符为属于遍历至的文本序列相应字符种类的字符,则获取该字符;若计算机设备判定当前遍历至的文本序列中在位置处的字符为不属于遍历至的文本序列相应字符种类的字符,则继续遍历。
S212,根据获取的字符纠正选取的文本序列中位置处的字符,得到识别结果。
具体地,计算机设备在获取选取后剩余的文本序列中在位置处属于相应字符种类的字符后,可分别针对确定的每个位置,比较根据该位置获取的字符与选取的文本序列中位置处的字符,在检测到两者不一致时,通过获取的字符纠正选取的文本序列中位置处的字符,在完成各确定的位置处的字符纠正后,得到准确率较高的识别结果。
上述文本识别方法,在获取到文本序列图像后,按照不同的字符种类分别进行字符识别,得到各字符种类相应的文本序列。其中,在按某种字符种类相应的字符识别方式进行识别时,将文本序列图像中不属于该字符种类的字符识别成不属于该字符种类的通用的字符。进而任选一文本序列,确定选取的文本序列中不属于相应字符种类的通用的字符所在的位置,通过选取后剩余的文本序列中该位置处的字符,纠正选取的文本序列中该位置处的字符,得到识别结果。这样采用按字符种类进行识别的方式来对文本序列图像进行识别,确保了按每个字符种类进行识别时,属于该字符种类的字符的识别准确率,而且在文本内容复杂多样时,也可兼顾到文本序列图像中包括的多种字符种类文本的识别,再利用各字符种类识别得到的文本序列中属于该字符种类的字符,对其他文本序列中相应位置处的字符进行纠正,即可得到识别结果,提高了文本识别准确率。
图3示出了一个实施例中文本识别方法的原理图。参考图3,计算机设备在获取到文本序列图像后,分别按照各字符种类对文本序列图像进行字符识别,得到各字符种类相应的文本序列,再利得到的各文本序列中属于该字符种类的字符,对其他文本序列中相应位置处的字符进行纠正,即可得到识别结果。
在一个实施例中,步骤S202包括:获取待识别图像;将待识别图像进行二值化处理,得到文本图像;从文本图像中提取文本纹理图像;确定文本纹理图像中的连通域;根据连通域确定文本序列图像。
其中,待识别图像是待对图像中包括的文本序列进行字符识别的图像。具体可以是名片图像或者文档图像等。图像的二值化是将图像上的像素点的灰度值设置为两种像素值,也就是将整个图像呈现出明显的只有两种像素值的视觉效果。
具体地,计算机设备可采用固定阈值二值化算法或者自适应阈值二值化算法,将待识别图像高于阈值和低于阈值的像素值分别置为预设的两种像素值中的一种,这两种像素值分别是第一像素值和第二像素值。经过二值化后的待识别图像,表示文本的都是第一像素值,比如白色;表示背景的都是第二像素值,比如黑色。
进一步地,计算机设备可从二值化后的待识别图像中,提取出表示文本的第一像素值对应的像素点形成的图像区域,得到文本图像。计算机设备可再从得到的文本图像中,提取字符笔画纹理,确定构成笔画纹理的像素点形成的图像区域,得到文本纹理图像。
更进一步地,计算机设备可再对文本纹理图像进行连通域分析提取出连通域,还可以将相邻连通域合并。计算机设备具体可采用行程平滑算法进行连通域分析和合并,该算法可以将相邻的连通域的像素相连,形成整块的区域,由于同一文本序列内部的各个连通域之间的距离比较接近,所以相同文本序列中的连通域可以形成一个完整的连通域。
再进一步地,计算机设备可将大致处于同一直线上的多个连通域的外轮廓确定为文本序列图像的位置并记录,以确定相应的文本序列图像。计算机设备也可以将每个连通域分别作为独立的文本序列图像处理。
在本实施例中,通过从待识别图像中逐步提取出文本纹理图像后,再根据文本纹理图像中的连通域,确定相应的文本序列图像,避免了在文本序列图像确定过程中将过多的背景区域囊括进来,使得后续进行字符识别时,准确率更高。
在一个实施例中,步骤S204包括:按各字符种类相应的识别方式,从文本序列图像中识别出属于相应字符种类的字符,并从文本序列图像中识别出不属于相应字符种类的通用的字符;将按各字符种类识别出的字符分别依次组合,得到各字符种类相应的文本序列。具体地,计算机设备可事先针对各字符种类设置相应的识别策略。在一个实施例中,计算机设备可对应于字符种类,将属于该字符种类的字符进行准确识别,得到与该字符实际对应的字符;将不属于该字符种类的字符进行模糊处理,标记为不属于该字符种类的通用的字符,以将精确识别出的字符与模糊处理的字符区别开。
在一个实施例中,按各字符种类相应的识别方式,从文本序列图像中识别出属于相应字符种类的字符,并从文本序列图像中识别出不属于相应字符种类的通用的字符的步骤包括:从文本序列图像中切分出单字图像;通过各字符种类相应的机器学习模型,分别对单字图像进行字符识别,得到属于相应字符种类的字符以及不属于相应字符种类的通用的字符。
其中,单字图像是包括单个字符的矩形图像,计算机设备从文本序列图像中切分出一个个的单字图像。计算机设备具体可根据文本序列间距特征、字符长度特征以及字符比例一致性等先验知识从文本序列图像中切分出单字图像的序列。文本序列图像在被切分前可经过图像增强,比如增加图像对比度。
在一个实施例中,计算机设备可将文本序列图像二值化后将其中的各像素值投影到文本序列图像长边方向上得到累积值,寻找到局部最大累积值或者局部最小累积值进行切分,从而得到单字图像。其中,若文本序列图像二值化后表示字符的像素颜色是白色,则寻找局部最小累积值;若文本序列图像二值化后表示字符的像素颜色是黑色,则寻找局部最大累积值。
进一步地,计算机设备在从文本序列图像中切分出单字图像后,可通过机器学习模型对单字图像进行字符识别。各字符种类相应的机器学习模型可事先训练得到。
在一个实施例中,训练各字符种类相应的机器学习模型的步骤包括:获取字符图像样本集;按字符种类,为字符图像样本集中属于相应字符种类的字符图像添加相应的字符的标注,并为字符图像样本集中不属于相应字符种类的字符图像添加通用的字符的标注;根据字符图像样本集中的字符图像和按字符种类添加的标注,分别训练各字符种类相应的机器学习模型。
其中,字符图像样本集中包括若干字符图像。字符图像可包括各种字符类型的字符生成的字符图像。训练各字符种类相应的机器学习模型时采用的字符图像样本集可以是统一的字符图像样本集,也可以是各字符种类各自对应的字符图像样本集。各字符种类各自对应的字符图像样本集具有针对相应字符种类的偏向性。具体可以包括大量属于相应字符种类的字符生成的字符图像,和少量不属于相应字符种类的字符生成的字符图像。
具体地,机器学习模型是一种将字符图像映射到相应标注的字符的函数关系。根据字符图像样本集训练机器学习模型,就是利用已知映射到相应标注的字符的字符图像样本集,调整机器学习模型内部的参数,使得机器学习模型能够预测新的字符图像所映射到的字符,以达到从含有字符的图像中识别出相应字符的效果。机器学习模型可采用SVM(支持向量机)或者各种神经网络。
在一个实施例中,机器学习模型采用卷积神经网络(CNN)。CNN是一种端到端的学习方法,CNN直接接受字符图像的像素输入,输入层神经元个数也因此等于归一化后字符图像的像素个数。CNN输入数据后先进行若干层的局部特征提取和池化处理,然后中间层进行全连接的全局特征变换,最后输出层以任务的目标为输出。
具体地,计算机设备可针对各字符种类,为字符图像样本集中属于相应字符种类的字符图像添加相应的字符的标注,并为字符图像样本集中不属于相应字符种类的字符图像添加通用的字符的标注。计算机设备再根据字符图像样本集中的字符图像和按字符种类添加的标注,分别训练各字符种类相应的机器学习模型。
在一个实施例中,机器学习模型可以是根据字符图像样本集对已训练的用于识别图像的卷积神经网络的参数进行迭代调整获得的。
本实施例中,利用机器学习模型强大的学习和表示能力进行字符大数据学习,所训练得到的机器学习模型对字符进行识别,较传统方法对字符进行识别的效果更好。
上述实施例中,将文本序列图像切分得到单字图像,再对单字图像采用机器学习模型进行字符识别,可方便、高效地完成对文本序列图像的字符识别过程。
计算机设备在对应于字符种类,从文本序列图像中识别出属于相应字符种类的字符,并从文本序列图像中识别出不属于相应字符种类的通用的字符后,将识别出的字符按照文本序列图像中文本顺序依次组合,得到该字符种类相应的文本序列。
计算机设备在对各字符种类分别得到各字符种类对应的文本序列之后,根据得到的文本序列中的字符是否为通用的字符来判定该字符是否为相应字符种类的字符。这样计算机设备从文本序列中选取文本序列后,可直接查询该文本序列中的通用的字符,该通用的字符所在的位置即为,按该文本序列中需要进行字符纠正的位置。
上述实施例中,在按字符种类进行文本序列图像识别时,将不属于相应字符种类的字符进行模糊处理,并用通用的字符来标记,以在进行字符纠正时,能够快速地定位需要进行纠正的字符,以完成字符纠正,得到更为准确的识别结果。
在一个实施例中,从文本序列图像中切分出单字图像的步骤包括:在文本序列图像中,沿文本序列图像的长边,按照比文本序列图像的短边短的间距选取候选切分点;获取各候选切分点的切分置信度;根据切分置信度确定切分点;按照确定的切分点从文本序列图像中切分出单字图像。
其中,候选切分点是候选的切分位置,可以用坐标或者距离文本序列图像头部起点的距离来表示。
在一个实施例中,文本序列图像是矩形图像,文本序列图像的短边大致为文本序列中字符的宽或者高,长边则大致是文本序列图像中文本序列的长度,计算机设备可按照比短边短的间距选取候选切分点。选取候选切分点的间距具体可以小于等于文本序列图像的短边的二分之一或者三分之一或者四分之一。
进一步地,切分置信度是相应的候选切分点是实际的切分点的概率的量化值。计算机设备具体可以按照候选切分点切分出相应的图片,将切分出的图片提取图像特征后依次输入到经过训练的分类器中,输出相应候选切分点的切分置信度。分类器可采用随机森林分类器。其中,提取的图像特征可以采用HOG(Histogram of Oriented Gradient,方向梯度直方图)特征,也还可以采用LBP(Local Binary Patterns,局部二值模式)特征等其它特征。
更进一步地,计算机设备可将切分置信度与预设阈值比较,若高于预设阈值则判定为实际的切分点。计算机设备再在文本序列图像中每一处确定的切分点处进行切分,得到一个个单字图像。
上述实施例中,可通过在文本序列图像中密集地选择候选切分点,并利用各个候选切分点的切分置信度来切分文本序列图像得到单字图像,可以实现对文本序列图像的准确切分,以提高后续文本识别准确率。
在一个实施例中,步骤S212包括:当获取的字符的数量与选取的文本序列中位置处的字符的数量一致时,则将选取的文本序列中位置处的字符,逐一替换为获取的字符中按字符顺序与位置处的字符一一对应的字符;当获取的字符的数量与选取的文本序列中位置处的字符的数量不一致,且选取的文本序列中位置处的字符的数量超过一个时,则将选取的文本序列中位置处的字符整体替换为获取的字符。
具体地,计算机设备可先统计选取的文本序列中位置处的字符的数量,再获取选取后剩余的文本序列中在位置处属于相应字符种类的字符,并统计获取的字符的数量,对比统计得到的两个字符数量。若计算机设备判定获取的字符的数量与选取的文本序列中位置处的字符的数量一致,那么则认为文本序列图像中对应的各字符分别一一对应有识别出的字符,计算机设备可将选取的文本序列中位置处的字符,逐一替换为获取的字符中按字符顺序与位置处的字符一一对应的字符。
若计算机设备判定获取的字符的数量与选取的文本序列中位置处的字符的数量不一致,那么则认为文本序列图像中对应的字符中存在字符未识别出结果,计算机设备可在选取的文本序列中位置处的字符的数量超过一个时,则将选取的文本序列中位置处的字符整体替换为获取的字符,以尽可能得到准确的识别结果。
举例说明,图4示出了一个实施例中获取的字符的数量与选取的文本序列中位置处的字符的数量一致时进行字符纠正的原理示意图。参考图4,文本序列图像中的原始内容为:“我是一个汉族人My name is Addy”,按照中文字符类型识别得到的文本序列为:“我是一个汉族人AA AAAA AA AAAA”,按照英文字符类型识别得到的文本序列为:“汉汉汉汉汉汉汉My name is Addy”。
计算机设备可选取按照英文字符类型识别得到的文本序列,确定不属于英文字符类型的通用的字符“汉”所在的位置,以及“汉”的数量:7。剩余的中文字符类型识别得到的文本序列在该位置的属于中文字符类型的字符为“我是一个汉族人”字符的数量为7,两个数量相同,则将英文字符类型对应的文本序列中该位置处的字符,逐一替换为从中文字符类型相应的文本序列中获取的字符中按字符顺序与位置处的字符一一对应的字符。
图5示出了一个实施例中获取的字符的数量与选取的文本序列中位置处的字符的数量不一致时进行字符纠正的原理示意图。参考图5,文本序列图像中的原始内容为:“我是一个汉族人My name is Addy”,按照中文字符类型识别得到的文本序列为:“我是一个汉族人AA AAAA”,按照英文字符类型识别得到的文本序列为:“汉汉汉My name is Addy”。
计算机设备可选取按照英文字符类型识别得到的文本序列,确定不属于英文字符类型的通用的字符“汉”所在的位置,以及“汉”的数量:3。剩余的中文字符类型识别得到的文本序列在该位置的属于中文字符类型的字符为“我是一个汉族人”字符的数量为7,两个数量不相同,且3大于1,则将英文字符类型对应的文本序列中该位置处的字符,整体替换为从中文字符类型相应的文本序列中获取的字符。
上述实施例中,提供了获取的字符的数量与选取的文本序列中位置处的字符的数量一致或者不一致时,进行字符纠正的处理方式。通过这种处理方式对字符进行纠正处理可以尽可能得到准确的识别结果。
如图6所示,在一个具体的实施例中,文本识别方法包括以下步骤:
S602,获取待识别图像;将待识别图像进行二值化处理,得到文本图像;从文本图像中提取文本纹理图像;确定文本纹理图像中的连通域;根据连通域确定文本序列图像。
S604,在文本序列图像中,沿文本序列图像的长边,按照比文本序列图像的短边短的间距选取候选切分点;获取各候选切分点的切分置信度;根据切分置信度确定切分点;按照确定的切分点从文本序列图像中切分出单字图像。
S606,获取字符图像样本集;按字符种类,为字符图像样本集中属于相应字符种类的字符图像添加相应的字符的标注,并为字符图像样本集中不属于相应字符种类的字符图像添加通用的字符的标注。
S608,根据字符图像样本集中的字符图像和按字符种类添加的标注,分别训练各字符种类相应的机器学习模型。
S610,通过各字符种类相应的机器学习模型,分别对单字图像进行字符识别,得到属于相应字符种类的字符以及不属于相应字符种类的通用的字符。
S612,将按各字符种类识别出的字符分别依次组合,得到各字符种类相应的文本序列。
S614,从各字符种类相应的文本序列中选取文本序列。
S616,确定选取的文本序列中不属于相应字符种类的通用的字符所在的位置。
S618,获取选取后剩余的文本序列中在位置处属于相应字符种类的字符。
S620,判断获取的字符的数量与选取的文本序列中位置处的字符的数量是否一致;若是,则跳转到步骤S622;若否,则跳转至步骤S624。
S622,将选取的文本序列中位置处的字符,逐一替换为获取的字符中按字符顺序与位置处的字符一一对应的字符。
S624,若选取的文本序列中位置处的字符的数量超过一个,则将选取的文本序列中位置处的字符整体替换为获取的字符。
在本实施例中,在获取到文本序列图像后,按照不同的字符种类分别进行字符识别,得到各字符种类相应的文本序列,进而任选一文本序列,确定选取的文本序列中不属于相应字符种类的字符所在的位置,通过选取后剩余的文本序列中该位置处的字符,纠正选取的文本序列中该位置处的字符,得到识别结果。这样采用按字符种类进行识别的方式来对文本序列图像进行识别,确保了按每个字符种类进行识别时,属于该字符种类的字符的识别准确率,而且在文本内容复杂多样时,也可兼顾到文本序列图像中包括的多种字符种类文本的识别,再利用各字符种类识别得到的文本序列中属于该字符种类的字符,对其他文本序列中相应位置处的字符进行纠正,即可得到识别结果,提高了文本识别准确率。
图7示出了一个具体应用场景中文本识别方法的原理流程图。参考图7,该具体应用场景为名片图像中的文本识别。计算机设备可先对名片图像进行文本行检测。在检测得到文本行后,分别通过中文字符类型对应的机器学习模型和英文字符类型对应的机器学习模型对文本行中的字符进行识别。在本实施例中,将数字和标点符号等其他字符,通过英文字符类型对应的机器学习模型进行准确识别。
文本行在通过中文字符类型对应的机器学习模型后,得到的文本序列包括精确识别得到的中文字符和用于标记非中文字符的通用的字符“A”。文本行在通过英文字符类型对应的机器学习模型后,得到的文本序列包括精确识别得到的英文字符、数字和标点符号,以及用于标记中文字符的通用的字符“汉”。
计算机设备可再选取按照英文字符类型识别得到的文本序列,确定不属于英文字符类型的通用的字符“汉”所在的位置,中文字符类型识别得到的文本序列在该位置的属于中文字符类型的字符,将英文字符类型对应的文本序列中该位置处的字符,整体替换为从中文字符类型相应的文本序列中获取的字符。
如图8所示,在一个实施例中,提供了一种文本识别装置800。参照图8,该文本识别装置800包括第一获取模块801、识别模块802、选取模块803、确定模块804、第二获取模块805和纠正模块806。
第一获取模块801,用于获取文本序列图像。
识别模块802,用于按各字符种类相应的识别方式对文本序列图像进行字符识别,将文本序列图像中不属于相应字符种类的字符,识别为不属于相应字符种类的通用的字符,得到各字符种类相应的文本序列。
选取模块803,用于从各字符种类相应的文本序列中选取文本序列。
确定模块804,用于确定选取的文本序列中不属于相应字符种类的通用的字符所在的位置。
第二获取模块805,用于获取选取后剩余的文本序列中在位置处属于相应字符种类的字符。
纠正模块806,用于根据获取的字符纠正选取的文本序列中位置处的字符,得到识别结果。
上述文本识别装置800,在获取到文本序列图像后,按照不同的字符种类分别进行字符识别,得到各字符种类相应的文本序列。其中,在按某种字符种类相应的字符识别方式进行识别时,将文本序列图像中不属于该字符种类的字符识别成不属于该字符种类的通用的字符。进而任选一文本序列,确定选取的文本序列中不属于相应字符种类的通用的字符所在的位置,通过选取后剩余的文本序列中该位置处的字符,纠正选取的文本序列中该位置处的字符,得到识别结果。这样采用按字符种类进行识别的方式来对文本序列图像进行识别,确保了按每个字符种类进行识别时,属于该字符种类的字符的识别准确率,而且在文本内容复杂多样时,也可兼顾到文本序列图像中包括的多种字符种类文本的识别,再利用各字符种类识别得到的文本序列中属于该字符种类的字符,对其他文本序列中相应位置处的字符进行纠正,即可得到识别结果,提高了文本识别准确率。
在一个实施例中,第一获取模块801还用于获取待识别图像;将待识别图像进行二值化处理,得到文本图像;从文本图像中提取文本纹理图像;确定文本纹理图像中的连通域;根据连通域确定文本序列图像。
在本实施例中,通过从待识别图像中逐步提取出文本纹理图像后,再根据文本纹理图像中的连通域,确定相应的文本序列图像,避免了在文本序列图像确定过程中将过多的背景区域囊括进来,使得后续进行字符识别时,准确率更高。
在一个实施例中,识别模块802还用于按各字符种类相应的识别方式,从文本序列图像中识别出属于相应字符种类的字符,并从文本序列图像中识别出不属于相应字符种类的通用的字符;将按各字符种类识别出的字符分别依次组合,得到各字符种类相应的文本序列。在本实施例中,在按字符种类进行文本序列图像识别时,将不属于相应字符种类的字符进行模糊处理,并用通用的字符来标记,以在进行字符纠正时,能够快速地定位需要进行纠正的字符,以完成字符纠正,得到更为准确的识别结果。
在一个实施例中,识别模块802还用于从文本序列图像中切分出单字图像;通过各字符种类相应的机器学习模型,分别对单字图像进行字符识别,得到属于相应字符种类的字符以及不属于相应字符种类的通用的字符。
在本实施例中,将文本序列图像切分得到单字图像,再对单字图像采用机器学习模型进行字符识别,可方便、高效地完成对文本序列图像的字符识别过程。
在一个实施例中,识别模块802还用于在文本序列图像中,沿文本序列图像的长边,按照比文本序列图像的短边短的间距选取候选切分点;获取各候选切分点的切分置信度;根据切分置信度确定切分点;按照确定的切分点从文本序列图像中切分出单字图像。
在本实施例中,可通过在文本序列图像中密集地选择候选切分点,并利用各个候选切分点的切分置信度来切分文本序列图像得到单字图像,可以实现对文本序列图像的准确切分,以提高后续文本识别准确率。
在一个实施例中,纠正模块806还用于当获取的字符的数量与选取的文本序列中所述位置处的字符的数量一致时,则将选取的文本序列中所述位置处的字符,逐一替换为获取的字符中按字符顺序与所述位置处的字符一一对应的字符;当获取的字符的数量与选取的文本序列中所述位置处的字符的数量不一致,且选取的文本序列中所述位置处的字符的数量超过一个时,则将选取的文本序列中所述位置处的字符整体替换为获取的字符。
在本实施例中,提供了获取的字符的数量与选取的文本序列中位置处的字符的数量一致或者不一致时,进行字符纠正的处理方式。通过这种处理方式对字符进行纠正处理可以尽可能得到准确的识别结果。
如图9所示,在一个实施例中,文本识别装置800还包括:训练模块807。
训练模块807,用于获取字符图像样本集;按字符种类,为字符图像样本集中属于相应字符种类的字符图像添加相应的字符的标注,并为字符图像样本集中不属于相应字符种类的字符图像添加通用的字符的标注;根据字符图像样本集中的字符图像和按字符种类添加的标注,分别训练各字符种类相应的机器学习模型。
在本实施例中,利用机器学习模型强大的学习和表示能力进行字符大数据学习,所训练得到的机器学习模型对字符进行识别,较传统方法对字符进行识别的效果更好。
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:获取文本序列图像;按各字符种类相应的识别方式对文本序列图像进行字符识别,将文本序列图像中不属于相应字符种类的字符,识别为不属于相应字符种类的通用的字符,得到各字符种类相应的文本序列;从各字符种类相应的文本序列中选取文本序列;确定选取的文本序列中不属于相应字符种类的通用的字符所在的位置;获取选取后剩余的文本序列中在位置处属于相应字符种类的字符;根据获取的字符纠正选取的文本序列中位置处的字符,得到识别结果。
在一个实施例中,获取文本序列图像,包括:获取待识别图像;将待识别图像进行二值化处理,得到文本图像;从文本图像中提取文本纹理图像;确定文本纹理图像中的连通域;根据连通域确定文本序列图像。
在一个实施例中,按各字符种类相应的识别方式对文本序列图像进行字符识别,得到各字符种类相应的文本序列,包括:按各字符种类相应的识别方式,从文本序列图像中识别出属于相应字符种类的字符,并从文本序列图像中识别出不属于相应字符种类的通用的字符;将按各字符种类识别出的字符分别依次组合,得到各字符种类相应的文本序列。
在一个实施例中,按各字符种类相应的识别方式,从文本序列图像中识别出属于相应字符种类的字符,并从文本序列图像中识别出不属于相应字符种类的通用的字符,包括:从文本序列图像中切分出单字图像;通过各字符种类相应的机器学习模型,分别对单字图像进行字符识别,得到属于相应字符种类的字符以及不属于相应字符种类的通用的字符。
在一个实施例中,从文本序列图像中切分出单字图像,包括:在文本序列图像中,沿文本序列图像的长边,按照比文本序列图像的短边短的间距选取候选切分点;获取各候选切分点的切分置信度;根据切分置信度确定切分点;按照确定的切分点从文本序列图像中切分出单字图像。
在一个实施例中,计算机可读指令还使得处理器执行以下步骤:获取字符图像样本集;按字符种类,为字符图像样本集中属于相应字符种类的字符图像添加相应的字符的标注,并为字符图像样本集中不属于相应字符种类的字符图像添加通用的字符的标注;根据字符图像样本集中的字符图像和按字符种类添加的标注,分别训练各字符种类相应的机器学习模型。
在一个实施例中,根据获取的字符纠正选取的文本序列中位置处的字符,得到识别结果,包括:当获取的字符的数量与选取的文本序列中位置处的字符的数量一致时,则将选取的文本序列中位置处的字符,逐一替换为获取的字符中按字符顺序与位置处的字符一一对应的字符;当获取的字符的数量与选取的文本序列中位置处的字符的数量不一致,且选取的文本序列中位置处的字符的数量超过一个时,则将选取的文本序列中位置处的字符整体替换为获取的字符。
上述存储介质,在获取到文本序列图像后,按照不同的字符种类分别进行字符识别,得到各字符种类相应的文本序列。其中,在按某种字符种类相应的字符识别方式进行识别时,将文本序列图像中不属于该字符种类的字符识别成不属于该字符种类的通用的字符。进而任选一文本序列,确定选取的文本序列中不属于相应字符种类的通用的字符所在的位置,通过选取后剩余的文本序列中该位置处的字符,纠正选取的文本序列中该位置处的字符,得到识别结果。这样采用按字符种类进行识别的方式来对文本序列图像进行识别,确保了按每个字符种类进行识别时,属于该字符种类的字符的识别准确率,而且在文本内容复杂多样时,也可兼顾到文本序列图像中包括的多种字符种类文本的识别,再利用各字符种类识别得到的文本序列中属于该字符种类的字符,对其他文本序列中相应位置处的字符进行纠正,即可得到识别结果,提高了文本识别准确率。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中储存有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行以下步骤:获取文本序列图像;按各字符种类相应的识别方式对文本序列图像进行字符识别,将文本序列图像中不属于相应字符种类的字符,识别为不属于相应字符种类的通用的字符,得到各字符种类相应的文本序列;从各字符种类相应的文本序列中选取文本序列;确定选取的文本序列中不属于相应字符种类的通用的字符所在的位置;获取选取后剩余的文本序列中在位置处属于相应字符种类的字符;根据获取的字符纠正选取的文本序列中位置处的字符,得到识别结果。
在一个实施例中,获取文本序列图像,包括:获取待识别图像;将待识别图像进行二值化处理,得到文本图像;从文本图像中提取文本纹理图像;确定文本纹理图像中的连通域;根据连通域确定文本序列图像。
在一个实施例中,按各字符种类相应的识别方式对文本序列图像进行字符识别,得到各字符种类相应的文本序列,包括:按各字符种类相应的识别方式,从文本序列图像中识别出属于相应字符种类的字符,并从文本序列图像中识别出不属于相应字符种类的通用的字符;将按各字符种类识别出的字符分别依次组合,得到各字符种类相应的文本序列。
在一个实施例中,按各字符种类相应的识别方式,从文本序列图像中识别出属于相应字符种类的字符,并从文本序列图像中识别出不属于相应字符种类的通用的字符,包括:从文本序列图像中切分出单字图像;通过各字符种类相应的机器学习模型,分别对单字图像进行字符识别,得到属于相应字符种类的字符以及不属于相应字符种类的通用的字符。
在一个实施例中,从文本序列图像中切分出单字图像,包括:在文本序列图像中,沿文本序列图像的长边,按照比文本序列图像的短边短的间距选取候选切分点;获取各候选切分点的切分置信度;根据切分置信度确定切分点;按照确定的切分点从文本序列图像中切分出单字图像。
在一个实施例中,计算机可读指令还使得处理器执行以下步骤:获取字符图像样本集;按字符种类,为字符图像样本集中属于相应字符种类的字符图像添加相应的字符的标注,并为字符图像样本集中不属于相应字符种类的字符图像添加通用的字符的标注;根据字符图像样本集中的字符图像和按字符种类添加的标注,分别训练各字符种类相应的机器学习模型。
在一个实施例中,根据获取的字符纠正选取的文本序列中位置处的字符,得到识别结果,包括:当获取的字符的数量与选取的文本序列中位置处的字符的数量一致时,则将选取的文本序列中位置处的字符,逐一替换为获取的字符中按字符顺序与位置处的字符一一对应的字符;当获取的字符的数量与选取的文本序列中位置处的字符的数量不一致,且选取的文本序列中位置处的字符的数量超过一个时,则将选取的文本序列中位置处的字符整体替换为获取的字符。
上述计算机设备,在获取到文本序列图像后,按照不同的字符种类分别进行字符识别,得到各字符种类相应的文本序列。其中,在按某种字符种类相应的字符识别方式进行识别时,将文本序列图像中不属于该字符种类的字符识别成不属于该字符种类的通用的字符。进而任选一文本序列,确定选取的文本序列中不属于相应字符种类的通用的字符所在的位置,通过选取后剩余的文本序列中该位置处的字符,纠正选取的文本序列中该位置处的字符,得到识别结果。这样采用按字符种类进行识别的方式来对文本序列图像进行识别,确保了按每个字符种类进行识别时,属于该字符种类的字符的识别准确率,而且在文本内容复杂多样时,也可兼顾到文本序列图像中包括的多种字符种类文本的识别,再利用各字符种类识别得到的文本序列中属于该字符种类的字符,对其他文本序列中相应位置处的字符进行纠正,即可得到识别结果,提高了文本识别准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种文本识别方法,所述方法包括:
获取文本序列图像;
按各字符种类相应的字符识别方式对所述文本序列图像进行字符识别,将所述文本序列图像中不属于相应字符种类的字符,识别为不属于相应字符种类的通用的字符,得到各字符种类相应的文本序列;
从各字符种类相应的文本序列中选取文本序列;
确定选取的文本序列中不属于相应字符种类的通用的字符所在的位置;
获取选取后剩余的文本序列中在所述位置处属于相应字符种类的字符;
根据获取的字符纠正选取的文本序列中所述位置处的字符,得到识别结果。
2.根据权利要求1所述的方法,其特征在于,所述获取文本序列图像,包括:
获取待识别图像;
将所述待识别图像进行二值化处理,得到文本图像;
从所述文本图像中提取文本纹理图像;
确定所述文本纹理图像中的连通域;
根据所述连通域确定文本序列图像。
3.根据权利要求1所述的方法,其特征在于,所述按各字符种类相应的字符识别方式对所述文本序列图像进行字符识别,将所述文本序列图像中不属于相应字符种类的字符,识别为不属于相应字符种类的通用的字符,得到各字符种类相应的文本序列,包括:
按各字符种类相应的字符识别方式,从所述文本序列图像中识别出属于相应字符种类的字符,并从所述文本序列图像中识别出不属于相应字符种类的通用的字符;
将按各字符种类识别出的字符分别依次组合,得到各字符种类相应的文本序列。
4.根据权利要求3所述的方法,其特征在于,所述按各字符种类相应的字符识别方式,从所述文本序列图像中识别出属于相应字符种类的字符,并从所述文本序列图像中识别出不属于相应字符种类的通用的字符,包括:
从所述文本序列图像中切分出单字图像;
通过各字符种类相应的机器学习模型,分别对所述单字图像进行字符识别,得到属于相应字符种类的字符以及不属于相应字符种类的通用的字符。
5.根据权利要求4所述的方法,其特征在于,所述从所述文本序列图像中切分出单字图像,包括:
在所述文本序列图像中,沿所述文本序列图像的长边,按照比所述文本序列图像的短边短的间距选取候选切分点;
获取各候选切分点的切分置信度;
根据所述切分置信度确定切分点;
按照确定的切分点从所述文本序列图像中切分出单字图像。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取字符图像样本集;
按字符种类,为所述字符图像样本集中属于相应字符种类的字符图像添加相应的字符的标注,并为所述字符图像样本集中不属于相应字符种类的字符图像添加通用的字符的标注;
根据所述字符图像样本集中的字符图像和按字符种类添加的标注,分别训练各字符种类相应的机器学习模型。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述根据获取的字符纠正选取的文本序列中所述位置处的字符,得到识别结果,包括:
当获取的字符的数量与选取的文本序列中所述位置处的字符的数量一致时,则
将选取的文本序列中所述位置处的字符,逐一替换为获取的字符中按字符顺序与所述位置处的字符一一对应的字符;
当获取的字符的数量与选取的文本序列中所述位置处的字符的数量不一致,且选取的文本序列中所述位置处的字符的数量超过一个时,则
将选取的文本序列中所述位置处的字符整体替换为获取的字符。
8.一种文本识别装置,所述装置包括:
第一获取模块,用于获取文本序列图像;
识别模块,用于按各字符种类相应的字符识别方式对所述文本序列图像进行字符识别,将所述文本序列图像中不属于相应字符种类的字符,识别为不属于相应字符种类的通用的字符,得到各字符种类相应的文本序列;
选取模块,用于从各字符种类相应的文本序列中选取文本序列;
确定模块,用于确定选取的文本序列中不属于相应字符种类的通用的字符所在的位置;
第二获取模块,用于获取选取后剩余的文本序列中在所述位置处属于相应字符种类的字符;
纠正模块,用于根据获取的字符纠正选取的文本序列中所述位置处的字符,得到识别结果。
9.根据权利要求8所述的装置,其特征在于,所述第一获取模块还用于获取待识别图像;将所述待识别图像进行二值化处理,得到文本图像;从所述文本图像中提取文本纹理图像;确定所述文本纹理图像中的连通域;根据所述连通域确定文本序列图像。
10.根据权利要求8所述的装置,其特征在于,所述识别模块还用于按各字符种类相应的字符识别方式,从所述文本序列图像中识别出属于相应字符种类的字符,并从所述文本序列图像中识别出不属于相应字符种类的通用的字符;将按各字符种类识别出的字符分别依次组合,得到各字符种类相应的文本序列。
11.根据权利要求10所述的装置,其特征在于,所述识别模块还用于从所述文本序列图像中切分出单字图像;通过各字符种类相应的机器学习模型,分别对所述单字图像进行字符识别,得到属于相应字符种类的字符以及不属于相应字符种类的通用的字符。
12.根据权利要求11所述的装置,其特征在于,所述识别模块还用于在所述文本序列图像中,沿所述文本序列图像的长边,按照比所述文本序列图像的短边短的间距选取候选切分点;获取各候选切分点的切分置信度;根据所述切分置信度确定切分点;按照确定的切分点从所述文本序列图像中切分出单字图像。
13.根据权利要求11所述的装置,其特征在于,所述装置还包括:
训练模块,用于获取字符图像样本集;按字符种类,为所述字符图像样本集中属于相应字符种类的字符图像添加相应的字符的标注,并为所述字符图像样本集中不属于相应字符种类的字符图像添加通用的字符的标注;根据所述字符图像样本集中的字符图像和按字符种类添加的标注,分别训练各字符种类相应的机器学习模型。
14.一个或多个存储有计算机可执行指令的非易失性计算机可读存储介质,所述计算机可执行指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至6中任一项所述的方法的步骤。
15.一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述的方法的步骤。
CN201710687380.4A 2017-08-11 2017-08-11 文本识别方法、装置、存储介质和计算机设备 Active CN109389115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710687380.4A CN109389115B (zh) 2017-08-11 2017-08-11 文本识别方法、装置、存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710687380.4A CN109389115B (zh) 2017-08-11 2017-08-11 文本识别方法、装置、存储介质和计算机设备

Publications (2)

Publication Number Publication Date
CN109389115A true CN109389115A (zh) 2019-02-26
CN109389115B CN109389115B (zh) 2023-05-23

Family

ID=65413997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710687380.4A Active CN109389115B (zh) 2017-08-11 2017-08-11 文本识别方法、装置、存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN109389115B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210469A (zh) * 2019-05-31 2019-09-06 中科软科技股份有限公司 一种识别图片文字语种的方法及***
CN110674876A (zh) * 2019-09-25 2020-01-10 北京猎户星空科技有限公司 一种字符检测方法、装置、电子设备及计算机可读介质
CN110969161A (zh) * 2019-12-02 2020-04-07 上海肇观电子科技有限公司 图像处理方法、电路、视障辅助设备、电子设备和介质
CN111339910A (zh) * 2020-02-24 2020-06-26 支付宝实验室(新加坡)有限公司 文本的处理、文本分类模型的训练方法及装置
CN111797922A (zh) * 2020-07-03 2020-10-20 泰康保险集团股份有限公司 文本图像分类方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272799A (ja) * 1998-03-20 1999-10-08 Canon Inc 文字認識処理装置、方法及び記憶媒体
CN101777124A (zh) * 2010-01-29 2010-07-14 北京新岸线网络技术有限公司 一种提取视频文本信息的方法及装置
CN102156865A (zh) * 2010-12-14 2011-08-17 上海合合信息科技发展有限公司 手写文本行字符切分方法、识别方法
CN102332096A (zh) * 2011-10-17 2012-01-25 中国科学院自动化研究所 一种视频字幕文本提取和识别的方法
WO2013097072A1 (zh) * 2011-12-26 2013-07-04 华为技术有限公司 识别视频的字符的方法和装置
WO2014131339A1 (zh) * 2013-02-26 2014-09-04 山东新北洋信息技术股份有限公司 字符识别方法和字符识别装置
CN104268603A (zh) * 2014-09-16 2015-01-07 科大讯飞股份有限公司 用于文字性客观题的智能阅卷方法及***
CN106056114A (zh) * 2016-05-24 2016-10-26 腾讯科技(深圳)有限公司 名片内容识别方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272799A (ja) * 1998-03-20 1999-10-08 Canon Inc 文字認識処理装置、方法及び記憶媒体
CN101777124A (zh) * 2010-01-29 2010-07-14 北京新岸线网络技术有限公司 一种提取视频文本信息的方法及装置
CN102156865A (zh) * 2010-12-14 2011-08-17 上海合合信息科技发展有限公司 手写文本行字符切分方法、识别方法
CN102332096A (zh) * 2011-10-17 2012-01-25 中国科学院自动化研究所 一种视频字幕文本提取和识别的方法
WO2013097072A1 (zh) * 2011-12-26 2013-07-04 华为技术有限公司 识别视频的字符的方法和装置
WO2014131339A1 (zh) * 2013-02-26 2014-09-04 山东新北洋信息技术股份有限公司 字符识别方法和字符识别装置
CN104268603A (zh) * 2014-09-16 2015-01-07 科大讯飞股份有限公司 用于文字性客观题的智能阅卷方法及***
CN106056114A (zh) * 2016-05-24 2016-10-26 腾讯科技(深圳)有限公司 名片内容识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
付强;丁晓青;蒋焰;: "基于多信息融合的中文手写地址字符串切分与识别" *
杨武夷;张树武;: "一种视频中字符的集成型切分与识别算法" *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210469A (zh) * 2019-05-31 2019-09-06 中科软科技股份有限公司 一种识别图片文字语种的方法及***
CN110674876A (zh) * 2019-09-25 2020-01-10 北京猎户星空科技有限公司 一种字符检测方法、装置、电子设备及计算机可读介质
CN110969161A (zh) * 2019-12-02 2020-04-07 上海肇观电子科技有限公司 图像处理方法、电路、视障辅助设备、电子设备和介质
CN110969161B (zh) * 2019-12-02 2023-11-07 上海肇观电子科技有限公司 图像处理方法、电路、视障辅助设备、电子设备和介质
CN111339910A (zh) * 2020-02-24 2020-06-26 支付宝实验室(新加坡)有限公司 文本的处理、文本分类模型的训练方法及装置
CN111339910B (zh) * 2020-02-24 2023-11-28 支付宝实验室(新加坡)有限公司 文本的处理、文本分类模型的训练方法及装置
CN111797922A (zh) * 2020-07-03 2020-10-20 泰康保险集团股份有限公司 文本图像分类方法及装置
CN111797922B (zh) * 2020-07-03 2023-11-28 泰康保险集团股份有限公司 文本图像分类方法及装置

Also Published As

Publication number Publication date
CN109389115B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
Neumann et al. Efficient scene text localization and recognition with local character refinement
CN107133622B (zh) 一种单词的分割方法和装置
CN106056114B (zh) 名片内容识别方法和装置
CN109389115A (zh) 文本识别方法、装置、存储介质和计算机设备
US8744196B2 (en) Automatic recognition of images
CN110647829A (zh) 一种票据的文本识别方法及***
CN104217203B (zh) 复杂背景卡面信息识别方法及***
CN108717543B (zh) 一种***识别方法及装置、计算机存储介质
JP5176763B2 (ja) 低品質文字の識別方法及び装置
CN106203539B (zh) 识别集装箱箱号的方法和装置
Vanetti et al. Gas meter reading from real world images using a multi-net system
Ye et al. Scene text detection via integrated discrimination of component appearance and consensus
RU2581786C1 (ru) Определение преобразований изображения для повышения качества оптического распознавания символов
Shivakumara et al. New gradient-spatial-structural features for video script identification
CN109447080B (zh) 一种字符识别方法及装置
Salvi et al. Handwritten text segmentation using average longest path algorithm
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
JPWO2015146113A1 (ja) 識別辞書学習システム、識別辞書学習方法および識別辞書学習プログラム
Li et al. Leveraging surrounding context for scene text detection
Chen et al. Salient object detection: Integrate salient features in the deep learning framework
CN113780116A (zh) ***分类方法、装置、计算机设备和存储介质
Vidhyalakshmi et al. Text detection in natural images with hybrid stroke feature transform and high performance deep Convnet computing
US9092688B2 (en) Assisted OCR
CN104574360A (zh) 纸钞图案切边识别的方法及装置
CN111382703B (zh) 一种基于二次筛选与分数融合的指静脉识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant