CN105631486A - 图像文字识别方法及装置 - Google Patents

图像文字识别方法及装置 Download PDF

Info

Publication number
CN105631486A
CN105631486A CN201410581671.1A CN201410581671A CN105631486A CN 105631486 A CN105631486 A CN 105631486A CN 201410581671 A CN201410581671 A CN 201410581671A CN 105631486 A CN105631486 A CN 105631486A
Authority
CN
China
Prior art keywords
image
word
matrix
parameter
array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410581671.1A
Other languages
English (en)
Inventor
杨杰
颜业钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen TCL Digital Technology Co Ltd
Original Assignee
Shenzhen TCL Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen TCL Digital Technology Co Ltd filed Critical Shenzhen TCL Digital Technology Co Ltd
Priority to CN201410581671.1A priority Critical patent/CN105631486A/zh
Priority to PCT/CN2014/093767 priority patent/WO2016065701A1/zh
Priority to EP14904976.9A priority patent/EP3214577A4/en
Publication of CN105631486A publication Critical patent/CN105631486A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18086Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
    • G06V30/18095Summing image-intensity values; Projection and histogram analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种图像文字识别方法,包括以下步骤:将图像进行二值化处理,获取图像对应的矩阵;分析图像的矩阵行间纹理特征,获取图像的文字矩阵参数;基于所述文字矩阵参数对图像进行切分,获取图像的文字子块;对所述文字子块进行图像分割以获取所述文字子块中的文字信息,并对所述文字信息进行识别。本发明还公开了一种图像文字识别装置。本发明能根据图像中文字的特性进行自适应调节,提高了切分获取文字子块的准确性,及对图像中文字识别的精度。

Description

图像文字识别方法及装置
技术领域
本发明涉及图像识别技术领域,尤其涉及一种图像文字识别方法及装置。
背景技术
目前,对图像中的文字一般只是通过简单的图像分割处理来进行识别,无法根据图像中的文字特征来进行自适应调节,导致现有的图像文字识别方法精度较低,无法满足实际应用的需求。
发明内容
本发明的主要目的在于解决现有的图像文字识别方法对文字的识别精度较低的技术问题。
为实现上述目的,本发明提供的一种图像文字识别方法,所述方法包括以下步骤:
将图像进行二值化处理,获取图像对应的矩阵;
分析图像的矩阵行间纹理特征,获取图像的文字矩阵参数;
基于所述文字矩阵参数对图像进行切分,获取图像的文字子块;
对所述文字子块进行图像分割以获取所述文字子块中的文字信息,并对所述文字信息进行识别。
优选地,所述分析图像的矩阵行间纹理特征,获取图像的文字矩阵参数的步骤包括:
将图像的矩阵坐标中的字体用第一像素值表示,背景用第二像素值表示,统计图像的矩阵坐标中每行第二像素值的个数,获取一数组;
获取所述数组中数值大于预设基准值的行的行号,将所述数组中数值大于预设基准值的行中符合预设条件的行组合之间的行号距离作为一个行宽参数,统计所述数组中的若干行宽参数,对若干行宽参数取平均值,获取所述数组的行宽参数;
根据获取的所述数组的行宽参数获取所述数组的列宽参数,并根据所述行宽参数和列宽参数获取所述数组的字体大小参数。
优选地,所述将所述数组中数值大于预设基准值的行中符合预设条件的行组合之间的行号距离作为一个行宽参数的步骤具体为:
将所述数组中至少连续两次大于预设基准值的行组合与下一至少连续两次大于预设基准值的行组合之间的行号距离作为一个行宽参数。
优选地,所述对所述文字子块进行图像分割以获取所述文字子块中的文字信息,并对所述文字信息进行识别的步骤具体为:
基于预设的聚类算法对切分后的文字子块进行图像分割处理,获取所述文字子块中的文字信息,并根据所述文字信息在预置的***文字库中进行比对,根据比对结果对图像中的文字进行识别。
优选地,所述分析图像的矩阵行间纹理特征,获取图像的文字矩阵参数的步骤之前还包括:
利用矩阵实验室中的图像配准函数在图像及预设的基准图像中选定若干对匹配点,并根据所述若干对匹配点对图像进行配准处理,获取图像配准参数;
基于所述图像配准参数对图像对应的矩阵中的任意坐标值进行变换处理,获取变换后的图像矩阵坐标。
此外,为实现上述目的,本发明还提供一种图像文字识别装置,所述图像文字识别装置包括:
二值化模块,用于将图像进行二值化处理,获取图像对应的矩阵;
分析模块,用于分析图像的矩阵行间纹理特征,获取图像的文字矩阵参数;
切分模块,用于基于所述文字矩阵参数对图像进行切分,获取图像的文字子块;
识别模块,用于对所述文字子块进行图像分割以获取所述文字子块中的文字信息,并对所述文字信息进行识别。
优选地,所述分析模块包括:
数组获取单元,用于将图像的矩阵坐标中的字体用第一像素值表示,背景用第二像素值表示,统计图像的矩阵坐标中每行第二像素值的个数,获取一数组;
行宽参数获取单元,用于获取所述数组中数值大于预设基准值的行的行号,将所述数组中数值大于预设基准值的行中符合预设条件的行组合之间的行号距离作为一个行宽参数,统计所述数组中的若干行宽参数,对若干行宽参数取平均值,获取所述数组的行宽参数;
字体大小参数获取单元,用于根据获取的所述数组的行宽参数获取所述数组的列宽参数,并根据所述行宽参数和列宽参数获取所述数组的字体大小参数。
优选地,所述行宽参数获取单元还用于:
将所述数组中至少连续两次大于预设基准值的行组合与下一至少连续两次大于预设基准值的行组合之间的行号距离作为一个行宽参数。
优选地,所述识别模块具体用于:
基于预设的聚类算法对切分后的文字子块进行图像分割处理,获取所述文字子块中的文字信息,并根据所述文字信息在预置的***文字库中进行比对,根据比对结果对图像中的文字进行识别。
优选地,所述图像文字识别装置还包括:
配准模块,用于利用矩阵实验室中的图像配准函数在图像及预设的基准图像中选定若干对匹配点,并根据所述若干对匹配点对图像进行配准处理,获取图像配准参数;基于所述图像配准参数对图像对应的矩阵中的任意坐标值进行变换处理,获取变换后的图像矩阵坐标。
本发明提出的一种图像文字识别方法及装置,通过对待识别图像的矩阵行间纹理特征进行分析,估算出图像中文字的相关矩阵参数,再基于文字的相关矩阵参数对图像切分获取文字子块,并对文字子块进行识别,由于是通过估算出的文字的相关矩阵参数来进行切分、识别,能根据图像中文字的特性进行自适应调节,提高了切分获取文字子块的准确性,及对图像中文字识别的精度。
附图说明
图1为本发明图像文字识别方法第一实施例的流程示意图;
图2为图1中步骤S20的细化流程示意图;
图3为本发明图像文字识别方法第二实施例的流程示意图;
图4为本发明图像文字识别装置第一实施例的功能模块示意图;
图5为图4中分析模块02的细化功能模块示意图;
图6为本发明图像文字识别装置第二实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种图像文字识别方法。
参照图1,图1为本发明图像文字识别方法第一实施例的流程示意图。
在第一实施例中,该图像文字识别方法包括:
步骤S10,将图像进行二值化处理,获取图像对应的矩阵;
将待识别的图像进行二值化处理,获取其对应的一维的矩阵,以便后续对图像进行分析时直接对其矩阵进行分析。
步骤S20,分析图像的矩阵行间纹理特征,获取图像的文字矩阵参数;
利用图像的矩阵行间纹理特征来进行分析,估算出图像中文字的特征参数,如可体现图像中文字特性的行宽、列宽、文字大小等文字矩阵参数,这样,即可根据不同图像的矩阵获取其中相应的文字矩阵参数,能根据不同图像中文字的不同特性自适应的获取其对应的文字矩阵参数。本实施例中,待识别的图像可以是jpg、bmp、png等图像格式,在此不作限定。
步骤S30,基于所述文字矩阵参数对图像进行切分,获取图像的文字子块;
获取到图像的文字矩阵参数后,根据该文字矩阵参数对图像进行切分,将图像切分为若干文字子块,由于是根据能体现图像中文字特性的文字矩阵参数来对图像进行切分,使得切分后的文字子块能最大程度的包含文字的有效信息,提高了切分图像的准确性及合理性,且有利于提升后续对文字子块识别的精度。
步骤S40,对所述文字子块进行图像分割以获取所述文字子块中的文字信息,并对所述文字信息进行识别。
由于二值化处理后的图像中只包括文字与背景这两种像素,基于预设的聚类算法对切分后的文字子块进行图像分割处理,仅保留切分后的文字子块中的文字信息也即文字像素,去除背景像素给识别带来的干扰,根据所述文字信息在预置的***文字库中进行比对,其中,所述***文字库中预先存储有常用文字信息,根据比对图像分割后的文字子块中的文字信息与所述***文字库中预先存储的常用文字信息的相似度来对文字子块中的文字进行识别,也即对图像中的文字进行识别。
本实施例通过对待识别图像的矩阵行间纹理特征进行分析,估算出图像中文字的相关矩阵参数,再基于文字的相关矩阵参数对图像切分获取文字子块,并对文字子块进行识别,由于是通过估算出的文字的相关矩阵参数来进行切分、识别,能根据图像中文字的特性进行自适应调节,提高了切分获取文字子块的准确性,且极大地提升了对图像中文字识别的精度。
具体地,如图2所示,上述步骤S20可以包括:
步骤S201,将图像的矩阵坐标中的字体用第一像素值表示,背景用第二像素值表示,统计图像的矩阵坐标中每行第二像素值的个数,获取一数组;
将待识别的图像进行二值化处理后,将图像的矩阵坐标中的字体用第一像素值表示,背景用第二像素值表示,如可设定第一像素值为0,第二像素值为255。统计图像的矩阵坐标中每行第二像素值即255的个数,形成一数组Numwhite,记为:Numwhite=[num1,num2……numn],其中n为图像矩阵的行数,numi代表第i行第二像素值即255值的个数。需要说明的是,由于目前大多数图像中都是以文字为黑色,背景为白色,因此,本实施例中,以第一像素值为黑色像素值、第二像素值为白色像素值为例进行说明,当然,也不限定第一像素值、第二像素值为其他不同颜色像素值的情况。又由于图像中背景如字里行间的颜色相对单一,几乎均为白色,而字体所在的连续行虽然黑色像素值集中,但同样存在大量白色像素值,即字体的黑色像素并没有将整个字体行填满,因此,在本实施例中,优选统计图像的矩阵坐标中每行白色像素值,即将每行的白色像素值作为基准值,这样,对区分图像矩阵坐标中的字体行和空白行更加准确有效。
步骤S202,获取所述数组中数值大于预设基准值的行的行号,将所述数组中数值大于预设基准值的行中符合预设条件的行组合之间的行号距离作为一个行宽参数,统计所述数组中的若干行宽参数,对若干行宽参数取平均值,获取所述数组的行宽参数;
理论上,数组Numwhite中numi的最大值应该为图像矩阵的列数m,即表明图像矩阵中有若干列为空白。但在实际应用中,由于前期对图像的预处理工作可能存在误差,使得不一定每个空白行中所有值都为白色像素值即255。因此,为了增加统计的鲁棒性,设定预设基准值P为列数m的85%,即设定预设基准值P=m*85%,只要图像矩阵中某一行白色像素值即255值的个数numi大于预设基准值P,则判断该行是空白行,这样,能提升统计结果的准确性,减小实际应用中误差带来的干扰。
获取所述数组中数值大于预设基准值P的行numi的行号i,并将所述数组中数值大于预设基准值P的行中符合预设条件的行组合之间的行号距离作为一个行宽参数,如可将所述数组中数值连续大于预设基准值P的行作为一连续行组合,将连续行组合之间的行号距离作为一个行宽参数,在本实施例中,优选为将所述数组中至少连续两次大于预设基准值的行组合与下一至少连续两次大于预设基准值的行组合之间的行号距离作为一个行宽参数,这样,能准确的计算出空白行组合之间每一字体行的行宽,统计所述数组中的若干行宽参数,由于各个行宽参数之间可能存在差异,因此需对若干行宽参数求平均值并取整,作为所述数组的最终的行宽参数。
步骤S203,根据获取的所述数组的行宽参数获取所述数组的列宽参数,并根据所述行宽参数和列宽参数获取所述数组的字体大小参数。
由于图像中文字一般占用的是正方形方格,因此,在本实施例中,直接将获取的所述数组的行宽参数作为所述数组的列宽参数,再根据所述行宽参数和列宽参数即可获取所述数组的字体大小参数,这样,最终获取的字体大小参数能准确的体现不同图像中的文字大小特性;当然,本发明并不排除行宽和列宽不等的情况,当文字行宽和列宽不相等时,可以采用与获取数组的行宽参数相同的方法来获取数组的列宽参数。需要说明的是,虽然图像文字中出现的标点符号在一定程度上会影响到获取的字体大小参数,但由于后续图像分割算法对于因标点影响的文字子块分割不全问题有模糊识别能力,再加上一般情况下文字中每行的标点一般不会超过10%,因此,本实施例中标点符号对图像文字识别的影响不大。
进一步地,上述步骤S40中预设的聚类算法可以是K均值聚类算法,基于K均值聚类算法对切分后的文字子块进行图像分割处理的步骤可以包括:
首先,任意选取一个切分后的文字子块进行图像分割,对该文字子块所对应原图像中的矩阵进行处理,变成一个一维向量VR,并在VR向量中随意选取两个点A和B,作为聚类的初始聚类中心;
计算VR向量中任意一个点与这两个初始聚类中心A和B的距离;将VR中的点根据其距离两个初始聚类中心的距离分为两类,即距离A点较近的属于A类,距离B点较近的属于B类;
移动聚类中心到各自的点群中心,即A类选取其中心点作为新的聚类中心,B类选取其中心点作为新的聚类中心;
重复将VR中的点根据其距离两个初始聚类中心的距离分为两类的步骤,更新聚类中心重新计算VR中的点与两个聚类中心的距离,并再次将VR中的点划分成新的两组,然后,再计算新的分组的聚类中心;
依次循环,直至聚类中心固定在某两个点,停止以上循环计算,最终将VR中的点划分成两类,即最终将切分后的文字子块中文字与背景这两种像素进行分割,获取切分后的文字子块中的文字信息也即文字像素。
参照图3,图3为本发明图像文字识别方法第二实施例的流程示意图。
在第二实施例中,在上述步骤S20之前还包括:
步骤S50,利用矩阵实验室中的图像配准函数在图像及预设的基准图像中选定若干对匹配点,并根据所述若干对匹配点对图像进行配准处理,获取图像配准参数;基于所述图像配准参数对图像对应的矩阵中的任意坐标值进行变换处理,获取变换后的图像矩阵坐标。
本实施例中,在将图像进行二值化处理,获取图像对应的矩阵后,将该图像对应的一维的矩阵记为In*m,其中n代表一维矩阵的行数,m代表一维矩阵的列数。利用矩阵实验室(Matlab)中的图像配准函数在图像及预设的基准图像中选定若干对匹配点,并根据所述若干对匹配点对图像进行配准处理,获取图像配准参数,具体地,调用Matlab中的图像配准函数cpselect(input,base)和cp2tform(input,base),[input]和[base]两个向量分别表示待配准的图像和预设的基准图像所对应的一维向量,先利用cpselect(input,base)函数在待配准的图像和预设的基准图像中选定若干对匹配点,分别存放在向量[input_points]、[base_points]中,再调用cp2tform函数,设定匹配参数为线性变换linearconformal,得到图像配准参数T,其中,
T=cp2tform(input_points,base_points,'linearconformal')。
获取图像配准参数T后,基于所述图像配准参数T对所述一维矩阵中的任意坐标值进行变换处理,如设定(w,z)为待配准的图像矩阵In*m中的任意坐标值,图像配准参数T作为变换参数,可进行平移、缩放和旋转等变换处理。则根据所述图像配准参数T进行变换后得到的配准后的图像矩阵坐标(x,y)=T(w,z)。
本实施例中,在分析图像的矩阵行间纹理特征之前,先对待识别的图像进行配准处理,这样,能使后续对图像文字进行识别时,待识别的图像接近于预设的基准图像,使图像的矩阵行间纹理特征分析更加简单、准确,进而提升对图像中文字识别的精度。
本发明进一步提供一种图像文字识别装置。
参照图4,图4为本发明图像文字识别装置第一实施例的功能模块示意图。
在第一实施例中,该图像文字识别装置包括:
二值化模块01,用于将图像进行二值化处理,获取图像对应的矩阵;
将待识别的图像进行二值化处理,获取其对应的一维的矩阵,以便后续对图像进行分析时直接对其矩阵进行分析。
分析模块02,用于分析图像的矩阵行间纹理特征,获取图像的文字矩阵参数;
利用待识别的图像的矩阵行间纹理特征来进行分析,估算出图像中文字的特征参数,如可体现图像中文字特性的行宽、列宽、文字大小等文字矩阵参数,这样,即可根据不同图像的矩阵获取其中相应的文字矩阵参数,能根据不同图像中文字的不同特性自适应的获取其对应的文字矩阵参数。本实施例中,待识别的图像可以是jpg、bmp、png等图像格式,在此不作限定。
切分模块03,用于基于所述文字矩阵参数对图像进行切分,获取图像的文字子块;
获取到图像的文字矩阵参数后,根据该文字矩阵参数对图像进行切分,将图像切分为若干文字子块,由于是根据能体现图像中文字特性的文字矩阵参数来对图像进行切分,使得切分后的文字子块能最大程度的包含文字的有效信息,提高了切分图像的准确性及合理性,且有利于提升后续对文字子块识别的精度。
识别模块04,用于对所述文字子块进行图像分割以获取所述文字子块中的文字信息,并对所述文字信息进行识别。
由于二值化处理后的图像中只包括文字与背景这两种像素,基于预设的聚类算法对切分后的文字子块进行图像分割处理,仅保留切分后的文字子块中的文字信息也即文字像素,去除背景像素给识别带来的干扰,根据所述文字信息在预置的***文字库中进行比对,其中,所述***文字库中预先存储有常用文字信息,根据比对图像分割后的文字子块中的文字信息与所述***文字库中预先存储的常用文字信息的相似度来对文字子块中的文字进行识别,也即对图像中的文字进行识别。
本实施例通过对待识别图像的矩阵行间纹理特征进行分析,估算出图像中文字的相关矩阵参数,再基于文字的相关矩阵参数对图像切分获取文字子块,并对文字子块进行识别,由于是通过估算出的文字的相关矩阵参数来进行切分、识别,能根据图像中文字的特性进行自适应调节,提高了切分获取文字子块的准确性,且极大地提升了对图像中文字识别的精度。
具体地,如图5所示,上述分析模块02可以包括:
数组获取单元021,用于将图像的矩阵坐标中的字体用第一像素值表示,背景用第二像素值表示,统计图像的矩阵坐标中每行第二像素值的个数,获取一数组;
将待识别的图像进行二值化处理后,将图像的矩阵坐标中的字体用第一像素值表示,背景用第二像素值表示,如可设定第一像素值为0,第二像素值为255。统计图像的矩阵坐标中每行第二像素值即255的个数,形成一数组Numwhite,记为:Numwhite=[num1,num2……numn],其中n为图像矩阵的行数,numi代表第i行第二像素值即255值的个数。需要说明的是,由于目前大多数图像中都是以文字为黑色,背景为白色,因此,本实施例中,以第一像素值为黑色像素值、第二像素值为白色像素值为例进行说明,当然,也不限定第一像素值、第二像素值为其他不同颜色像素值的情况。又由于图像中背景如字里行间的颜色相对单一,几乎均为白色,而字体所在的连续行虽然黑色像素值集中,但同样存在大量白色像素值,即字体的黑色像素并没有将整个字体行填满,因此,在本实施例中,优选统计图像的矩阵坐标中每行白色像素值,即将每行的白色像素值作为基准值,这样,对区分图像矩阵坐标中的字体行和空白行更加准确有效。
行宽参数获取单元022,用于获取所述数组中数值大于预设基准值的行的行号,将所述数组中数值大于预设基准值的行中符合预设条件的行组合之间的行号距离作为一个行宽参数,统计所述数组中的若干行宽参数,对若干行宽参数取平均值,获取所述数组的行宽参数;
理论上,数组Numwhite中numi的最大值应该为图像矩阵的列数m,即表明图像矩阵中有若干列为空白。但在实际应用中,由于前期对图像的预处理工作可能存在误差,使得不一定每个空白行中所有值都为白色像素值即255。因此,为了增加统计的鲁棒性,设定预设基准值P为列数m的85%,即设定预设基准值P=m*85%,只要图像矩阵中某一行白色像素值即255值的个数numi大于预设基准值P,则判断该行是空白行,这样,能提升统计结果的准确性,减小实际应用中误差带来的干扰。
获取所述数组中数值大于预设基准值P的行numi的行号i,并将所述数组中数值大于预设基准值P的行中符合预设条件的行组合之间的行号距离作为一个行宽参数,如可将所述数组中数值连续大于预设基准值P的行作为一连续行组合,将连续行组合之间的行号距离作为一个行宽参数,在本实施例中,优选为将所述数组中至少连续两次大于预设基准值的行组合与下一至少连续两次大于预设基准值的行组合之间的行号距离作为一个行宽参数,这样,能准确的计算出空白行组合之间每一字体行的行宽,统计所述数组中的若干行宽参数,由于各个行宽参数之间可能存在差异,因此需对若干行宽参数求平均值并取整,作为所述数组的最终的行宽参数。
字体大小参数获取单元023,根据所述数组的行宽参数获取所述数组的列宽参数,并根据所述行宽参数和列宽参数获取所述数组的字体大小参数。
由于图像中文字一般占用的是正方形方格,因此,直接将获取的所述数组的行宽参数作为所述数组的列宽参数,再根据所述行宽参数和列宽参数即可获取所述数组的字体大小参数,这样,最终获取的字体大小参数能准确的体现不同图像中的文字大小特性;当然,本发明并不排除行宽和列宽不等的情况,当文字行宽和列宽不相等时,可以采用与获取数组的行宽参数相同的方法来获取数组的列宽参数。需要说明的是,虽然图像文字中出现的标点符号在一定程度上会影响到获取的字体大小参数,但由于后续图像分割算法对于因标点影响的文字子块分割不全问题有模糊识别能力,再加上一般情况下文字中每行的标点一般不会超过10%,因此,本实施例中标点符号对图像文字识别的影响不大。
进一步地,上述识别模块04中预设的聚类算法可以是K均值聚类算法,上述识别模块04基于K均值聚类算法对切分后的文字子块进行图像分割处理的步骤可以包括:
首先,任意选取一个切分后的文字子块进行图像分割,对该文字子块所对应原图像中的矩阵进行处理,变成一个一维向量VR,并在VR向量中随意选取两个点A和B,作为聚类的初始聚类中心;
计算VR向量中任意一个点与这两个初始聚类中心A和B的距离;将VR中的点根据其距离两个初始聚类中心的距离分为两类,即距离A点较近的属于A类,距离B点较近的属于B类;
移动聚类中心到各自的点群中心,即A类选取其中心点作为新的聚类中心,B类选取其中心点作为新的聚类中心;
重复将VR中的点根据其距离两个初始聚类中心的距离分为两类的步骤,更新聚类中心重新计算VR中的点与两个聚类中心的距离,并再次将VR中的点划分成新的两组,然后,再计算新的分组的聚类中心;
依次循环,直至聚类中心固定在某两个点,停止以上循环计算,最终将VR中的点划分成两类,即最终将切分后的文字子块中文字与背景这两种像素进行分割,获取切分后的文字子块中的文字信息也即文字像素。
参照图6,图6为本发明图像文字识别装置第二实施例的功能模块示意图。
在第二实施例中,该图像文字识别装置还包括:
配准模块05,用于利用矩阵实验室中的图像配准函数在图像及预设的基准图像中选定若干对匹配点,并根据所述若干对匹配点对图像进行配准处理,获取图像配准参数;基于所述图像配准参数对图像对应的矩阵中的任意坐标值进行变换处理,获取变换后的图像矩阵坐标。
本实施例中,在将图像进行二值化处理,获取图像对应的矩阵后,将该图像对应的一维的矩阵记为In*m,其中n代表一维矩阵的行数,m代表一维矩阵的列数。利用矩阵实验室(Matlab)中的图像配准函数在图像及预设的基准图像中选定若干对匹配点,并根据所述若干对匹配点对图像进行配准处理,获取图像配准参数,具体地,调用Matlab中的图像配准函数cpselect(input,base)和cp2tform(input,base),[input]和[base]两个向量分别表示待配准的图像和预设的基准图像所对应的一维向量,先利用cpselect(input,base)函数在待配准的图像和预设的基准图像中选定若干对匹配点,分别存放在向量[input_points]、[base_points]中,再调用cp2tform函数,设定匹配参数为线性变换linearconformal,得到图像配准参数T,其中,
T=cp2tform(input_points,base_points,'linearconformal')。
获取图像配准参数T后,基于所述图像配准参数T对所述一维矩阵中的任意坐标值进行变换处理,如设定(w,z)为待配准的图像矩阵In*m中的任意坐标值,图像配准参数T作为变换参数,可进行平移、缩放和旋转等变换处理。则根据所述图像配准参数T进行变换后得到的配准后的图像矩阵坐标(x,y)=T(w,z)。
本实施例中,在分析图像的矩阵行间纹理特征之前,先对待识别的图像进行配准处理,这样,能使后续对图像文字进行识别时,待识别的图像接近于预设的基准图像,使图像的矩阵行间纹理特征分析更加简单、准确,进而提升对图像中文字识别的精度。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种图像文字识别方法,其特征在于,所述方法包括以下步骤:
将图像进行二值化处理,获取图像对应的矩阵;
分析图像的矩阵行间纹理特征,获取图像的文字矩阵参数;
基于所述文字矩阵参数对图像进行切分,获取图像的文字子块;
对所述文字子块进行图像分割以获取所述文字子块中的文字信息,并对所述文字信息进行识别。
2.如权利要求1所述的图像文字识别方法,其特征在于,所述分析图像的矩阵行间纹理特征,获取图像的文字矩阵参数的步骤包括:
将图像的矩阵坐标中的字体用第一像素值表示,背景用第二像素值表示,统计图像的矩阵坐标中每行第二像素值的个数,获取一数组;
获取所述数组中数值大于预设基准值的行的行号,将所述数组中数值大于预设基准值的行中符合预设条件的行组合之间的行号距离作为一个行宽参数,统计所述数组中的若干行宽参数,对若干行宽参数取平均值,获取所述数组的行宽参数;
根据获取的所述数组的行宽参数获取所述数组的列宽参数,并根据所述行宽参数和所述列宽参数获取所述数组的字体大小参数。
3.如权利要求2所述的图像文字识别方法,其特征在于,所述将所述数组中数值大于预设基准值的行中符合预设条件的行组合之间的行号距离作为一个行宽参数的步骤具体为:
将所述数组中至少连续两次大于预设基准值的行组合与下一至少连续两次大于预设基准值的行组合之间的行号距离作为一个行宽参数。
4.如权利要求1所述的图像文字识别方法,其特征在于,所述对所述文字子块进行图像分割以获取所述文字子块中的文字信息,并对所述文字信息进行识别的步骤具体为:
基于预设的聚类算法对切分后的文字子块进行图像分割处理,获取所述文字子块中的文字信息,并根据所述文字信息在预置的***文字库中进行比对,根据比对结果对图像中的文字进行识别。
5.如权利要求1至4中任一项所述的图像文字识别方法,其特征在于,所述分析图像的矩阵行间纹理特征,获取图像的文字矩阵参数的步骤之前还包括:
利用矩阵实验室中的图像配准函数在图像及预设的基准图像中选定若干对匹配点,并根据所述若干对匹配点对图像进行配准处理,获取图像配准参数;
基于所述图像配准参数对图像对应的矩阵中的任意坐标值进行变换处理,获取变换后的图像矩阵坐标。
6.一种图像文字识别装置,其特征在于,所述图像文字识别装置包括:
二值化模块,用于将图像进行二值化处理,获取图像对应的矩阵;
分析模块,用于分析图像的矩阵行间纹理特征,获取图像的文字矩阵参数;
切分模块,用于基于所述文字矩阵参数对图像进行切分,获取图像的文字子块;
识别模块,用于对所述文字子块进行图像分割以获取所述文字子块中的文字信息,并对所述文字信息进行识别。
7.如权利要求6所述的图像文字识别装置,其特征在于,所述分析模块包括:
数组获取单元,用于将图像的矩阵坐标中的字体用第一像素值表示,背景用第二像素值表示,统计图像的矩阵坐标中每行第二像素值的个数,获取一数组;
行宽参数获取单元,用于获取所述数组中数值大于预设基准值的行的行号,将所述数组中数值大于预设基准值的行中符合预设条件的行组合之间的行号距离作为一个行宽参数,统计所述数组中的若干行宽参数,对若干行宽参数取平均值,获取所述数组的行宽参数;
字体大小参数获取单元,用于根据获取的所述数组的行宽参数获取所述数组的列宽参数,并根据所述行宽参数和列宽参数获取所述数组的字体大小参数。
8.如权利要求7所述的图像文字识别装置,其特征在于,所述行宽参数获取单元还用于:
将所述数组中至少连续两次大于预设基准值的行组合与下一至少连续两次大于预设基准值的行组合之间的行号距离作为一个行宽参数。
9.如权利要求6所述的图像文字识别装置,其特征在于,所述识别模块具体用于:
基于预设的聚类算法对切分后的文字子块进行图像分割处理,获取所述文字子块中的文字信息,并根据所述文字信息在预置的***文字库中进行比对,根据比对结果对图像中的文字进行识别。
10.如权利要求6至9中任一项所述的图像文字识别装置,其特征在于,所述图像文字识别装置还包括:
配准模块,用于利用矩阵实验室中的图像配准函数在图像及预设的基准图像中选定若干对匹配点,并根据所述若干对匹配点对图像进行配准处理,获取图像配准参数;基于所述图像配准参数对图像对应的矩阵中的任意坐标值进行变换处理,获取变换后的图像矩阵坐标。
CN201410581671.1A 2014-10-27 2014-10-27 图像文字识别方法及装置 Pending CN105631486A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201410581671.1A CN105631486A (zh) 2014-10-27 2014-10-27 图像文字识别方法及装置
PCT/CN2014/093767 WO2016065701A1 (zh) 2014-10-27 2014-12-13 图像文字识别方法及装置
EP14904976.9A EP3214577A4 (en) 2014-10-27 2014-12-13 Image text recognition method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410581671.1A CN105631486A (zh) 2014-10-27 2014-10-27 图像文字识别方法及装置

Publications (1)

Publication Number Publication Date
CN105631486A true CN105631486A (zh) 2016-06-01

Family

ID=55856471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410581671.1A Pending CN105631486A (zh) 2014-10-27 2014-10-27 图像文字识别方法及装置

Country Status (3)

Country Link
EP (1) EP3214577A4 (zh)
CN (1) CN105631486A (zh)
WO (1) WO2016065701A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503711A (zh) * 2016-11-16 2017-03-15 广西大学 一种文字识别方法
CN106503712A (zh) * 2016-11-16 2017-03-15 广西大学 一种基于笔划密度特征文字识别方法
CN106503713A (zh) * 2016-11-16 2017-03-15 广西大学 一种基于粗***特征文字识别方法
CN106657663A (zh) * 2017-01-04 2017-05-10 捷开通讯(深圳)有限公司 提取移动终端图像中信息的方法及装置
CN106778752A (zh) * 2016-11-16 2017-05-31 广西大学 一种文字识别方法
CN106844481A (zh) * 2016-12-23 2017-06-13 北京信息科技大学 字体相似度及字体替换方法
CN109359644A (zh) * 2018-08-28 2019-02-19 东软集团股份有限公司 文字图像一致性比对方法、装置、存储介质和电子设备
CN110942074A (zh) * 2018-09-25 2020-03-31 京东数字科技控股有限公司 字符切分识别方法、装置、电子设备、存储介质
CN111179289A (zh) * 2019-12-31 2020-05-19 重庆邮电大学 一种适用于网页长图宽图的图像分割方法
CN111340029A (zh) * 2018-12-19 2020-06-26 富士通株式会社 用于识别收件人地址中的至少部分地址的装置和方法
CN112001819A (zh) * 2020-08-21 2020-11-27 山东商务职业学院 一种小型便携式防错乱国际贸易合同扫描装置及方法
CN112258594A (zh) * 2020-10-23 2021-01-22 北京字节跳动网络技术有限公司 文字显示方法、装置、电子设备及计算机可读存储介质
CN113240446A (zh) * 2021-03-25 2021-08-10 深圳市雅昌艺术网股份有限公司 艺术品估值***的数据分类及处理方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555433B (zh) 2018-05-30 2024-04-26 北京三星通信技术研究有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN110147516A (zh) * 2019-04-15 2019-08-20 深圳壹账通智能科技有限公司 页面设计中前端代码的智能识别方法及相关设备
CN110796130A (zh) * 2019-09-19 2020-02-14 北京迈格威科技有限公司 用于文字识别的方法、装置及计算机存储介质
US11238618B2 (en) 2019-11-26 2022-02-01 International Business Machines Corporation Image recognition
CN116071754B (zh) * 2022-12-19 2023-09-05 广东粤港澳大湾区国家纳米科技创新研究院 一种带指数字符的散点图识别方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020085758A1 (en) * 2000-11-22 2002-07-04 Ayshi Mohammed Abu Character recognition system and method using spatial and structural feature extraction
CN101149790A (zh) * 2007-11-14 2008-03-26 哈尔滨工程大学 中文印刷体公式识别方法
CN101246550A (zh) * 2008-03-11 2008-08-20 深圳华为通信技术有限公司 图像文字识别方法及装置
CN101515325A (zh) * 2009-04-08 2009-08-26 北京邮电大学 基于字符切分和颜色聚类的数字视频中的字符提取方法
CN102063611A (zh) * 2010-01-21 2011-05-18 汉王科技股份有限公司 一种文字输入方法和***
CN103324927A (zh) * 2012-03-19 2013-09-25 株式会社Pfu 图像处理装置以及文字识别方法
CN103617422A (zh) * 2013-10-29 2014-03-05 浙江工业大学 一种基于名片识别的社交关系管理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5999647A (en) * 1995-04-21 1999-12-07 Matsushita Electric Industrial Co., Ltd. Character extraction apparatus for extracting character data from a text image
JP5591578B2 (ja) * 2010-04-19 2014-09-17 日本電産サンキョー株式会社 文字列認識装置および文字列認識方法
CN102567938B (zh) * 2010-12-23 2014-05-14 北大方正集团有限公司 用于西文水印处理的水印图像分块方法和装置
CN103455814B (zh) * 2012-05-31 2017-04-12 佳能株式会社 用于文档图像的文本行分割方法和***
US9230383B2 (en) * 2012-12-28 2016-01-05 Konica Minolta Laboratory U.S.A., Inc. Document image compression method and its application in document authentication
CN103413271B (zh) * 2013-07-18 2016-03-02 西安交通大学 基于局部信息的文档图像校正方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020085758A1 (en) * 2000-11-22 2002-07-04 Ayshi Mohammed Abu Character recognition system and method using spatial and structural feature extraction
CN101149790A (zh) * 2007-11-14 2008-03-26 哈尔滨工程大学 中文印刷体公式识别方法
CN101246550A (zh) * 2008-03-11 2008-08-20 深圳华为通信技术有限公司 图像文字识别方法及装置
CN101515325A (zh) * 2009-04-08 2009-08-26 北京邮电大学 基于字符切分和颜色聚类的数字视频中的字符提取方法
CN102063611A (zh) * 2010-01-21 2011-05-18 汉王科技股份有限公司 一种文字输入方法和***
CN103324927A (zh) * 2012-03-19 2013-09-25 株式会社Pfu 图像处理装置以及文字识别方法
CN103617422A (zh) * 2013-10-29 2014-03-05 浙江工业大学 一种基于名片识别的社交关系管理方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778752A (zh) * 2016-11-16 2017-05-31 广西大学 一种文字识别方法
CN106503712A (zh) * 2016-11-16 2017-03-15 广西大学 一种基于笔划密度特征文字识别方法
CN106503713A (zh) * 2016-11-16 2017-03-15 广西大学 一种基于粗***特征文字识别方法
CN106503711A (zh) * 2016-11-16 2017-03-15 广西大学 一种文字识别方法
CN106844481B (zh) * 2016-12-23 2021-01-05 北京信息科技大学 字体相似度及字体替换方法
CN106844481A (zh) * 2016-12-23 2017-06-13 北京信息科技大学 字体相似度及字体替换方法
CN106657663A (zh) * 2017-01-04 2017-05-10 捷开通讯(深圳)有限公司 提取移动终端图像中信息的方法及装置
CN109359644A (zh) * 2018-08-28 2019-02-19 东软集团股份有限公司 文字图像一致性比对方法、装置、存储介质和电子设备
CN110942074A (zh) * 2018-09-25 2020-03-31 京东数字科技控股有限公司 字符切分识别方法、装置、电子设备、存储介质
WO2020063314A1 (zh) * 2018-09-25 2020-04-02 京东数字科技控股有限公司 字符切分识别方法、装置、电子设备、存储介质
CN110942074B (zh) * 2018-09-25 2024-04-09 京东科技控股股份有限公司 字符切分识别方法、装置、电子设备、存储介质
CN111340029A (zh) * 2018-12-19 2020-06-26 富士通株式会社 用于识别收件人地址中的至少部分地址的装置和方法
CN111179289B (zh) * 2019-12-31 2023-05-19 重庆邮电大学 一种适用于网页长图宽图的图像分割方法
CN111179289A (zh) * 2019-12-31 2020-05-19 重庆邮电大学 一种适用于网页长图宽图的图像分割方法
CN112001819A (zh) * 2020-08-21 2020-11-27 山东商务职业学院 一种小型便携式防错乱国际贸易合同扫描装置及方法
CN112258594A (zh) * 2020-10-23 2021-01-22 北京字节跳动网络技术有限公司 文字显示方法、装置、电子设备及计算机可读存储介质
CN113240446A (zh) * 2021-03-25 2021-08-10 深圳市雅昌艺术网股份有限公司 艺术品估值***的数据分类及处理方法
CN113240446B (zh) * 2021-03-25 2023-09-29 深圳市雅昌艺术网股份有限公司 艺术品估值***的数据分类及处理方法

Also Published As

Publication number Publication date
EP3214577A1 (en) 2017-09-06
WO2016065701A1 (zh) 2016-05-06
EP3214577A4 (en) 2018-06-06

Similar Documents

Publication Publication Date Title
CN105631486A (zh) 图像文字识别方法及装置
CN109753953B (zh) 图像中定位文本的方法、装置、电子设备和存储介质
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN103955660B (zh) 一种批量二维码图像识别方法
CN112837303A (zh) 一种用于模具监视的缺陷检测方法、装置、设备及介质
CN110414520B (zh) 通用字符识别方法、装置、计算机设备和存储介质
CN112232293A (zh) 图像处理模型训练、图像处理方法及相关设备
CN113379680B (zh) 缺陷检测方法、装置、电子设备和计算机可读存储介质
CN104239909A (zh) 一种图像的识别方法和装置
WO2017088462A1 (zh) 图像处理方法和装置
CN111275034B (zh) 从图像中提取文本区域的方法、装置、设备和存储介质
CN108345888A (zh) 一种连通域提取方法及装置
CN112381092B (zh) 跟踪方法、装置及计算机可读存储介质
CN110399760A (zh) 一种批量二维码定位方法、装置、电子设备及存储介质
US10558900B2 (en) Two-dimensional code processing method and apparatus
CN104915664A (zh) 联系对象标识获取方法和装置
CN116612280A (zh) 车辆分割方法、装置、计算机设备和计算机可读存储介质
CN105354570A (zh) 一种车牌左右边界精确定位的方法及***
CN106470435A (zh) 识别WiFi群的方法及***
CN108900895B (zh) 一种对视频流的目标区域的屏蔽方法及其装置
CN108710881B (zh) 神经网络模型、候选目标区域生成方法、模型训练方法
CN114511696A (zh) 控件定位方法、装置、电子设备及可读存储介质
CN105389825A (zh) 图像处理方法及***
CN113743443A (zh) 一种图像证据分类和识别方法及装置
CN107292840B (zh) 图像复原方法及装置、计算机可读存储介质、终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160601

RJ01 Rejection of invention patent application after publication