CN104298982A - 一种文字识别方法及装置 - Google Patents

一种文字识别方法及装置 Download PDF

Info

Publication number
CN104298982A
CN104298982A CN201310297948.3A CN201310297948A CN104298982A CN 104298982 A CN104298982 A CN 104298982A CN 201310297948 A CN201310297948 A CN 201310297948A CN 104298982 A CN104298982 A CN 104298982A
Authority
CN
China
Prior art keywords
word
color
background
character
character area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310297948.3A
Other languages
English (en)
Other versions
CN104298982B (zh
Inventor
梅树起
陈泳君
刘伯兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201310297948.3A priority Critical patent/CN104298982B/zh
Priority to PCT/CN2014/081663 priority patent/WO2015007168A1/en
Publication of CN104298982A publication Critical patent/CN104298982A/zh
Priority to US14/604,077 priority patent/US9349062B2/en
Application granted granted Critical
Publication of CN104298982B publication Critical patent/CN104298982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种文字识别方法,包括以下步骤:定位步骤:获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;背景判断步骤:判断该局部背景是否属于复杂背景;确定步骤:若该局部背景属于复杂背景,则确定该文字的颜色;构建步骤:结合该文字的颜色与该文字区域构建选区为该文字的掩模;及第一识别步骤:使用该掩模从文字区域中提取文字进行识别,并输出识别结果。本发明还提供一种文字识别装置。利用本发明可以提高复杂背景中文字识别的准确率。

Description

一种文字识别方法及装置
技术领域
本发明具体实施例涉及信息处理技术领域,特别涉及一种文字识别方法及装置。
背景技术
随着数码相机、摄像头、超高速扫描仪等图像获取设备的广泛应用,图像中信息越来越引起人们的关注。其中嵌入在图像中的文字是图像语义内容的一种重要表达方式,能够提供一些人们所需要的重要信息。例如图像中的文字可以是该图像的内容概述,如果能够自动提取和识别图像中的文字,就可以让计算机自动理解图像内容。让计算机像人类一样识别图像中的文字,对于图像和视频的存储、分类、理解及检索等来说具有极其重要的意义,有着广泛的应用前景和商业价值。然而,当前商业或开源的OCR(Optical Character Recognition,光学字符识别)***,例如Tesseract、OpenRTK、TypeReader、清华紫光OCR等,多用于简单背景中的文字识别,对复杂背景中的文字识别效果并不好。
发明内容
有鉴于此,有必要提供一种文字识别方法及装置,可以提高复杂背景中文字识别的准确率。
一种文字识别方法,包括以下步骤:定位步骤:获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;背景判断步骤:判断该局部背景是否属于复杂背景;确定步骤:若该局部背景属于复杂背景,则确定该文字的颜色;构建步骤:结合该文字的颜色与该文字区域构建选区为该文字的掩模;及第一识别步骤:使用该掩模从文字区域中提取文字进行识别,并输出识别结果。
一种文字识别装置,包括:定位模块,用于获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;背景判断模块,用于判断该局部背景是否属于复杂背景;确定模块,用于若该局部背景属于复杂背景,则确定该文字的颜色;构建模块,用于结合该文字的颜色与该文字区域构建选区为该文字的掩模;及第一识别模块,用于使用该掩模从文字区域中提取文字进行识别,并输出识别结果。
相较于现有技术,本发明文字识别方法及装置,在图像中定位出文字区域后,若判断该文字区域中文字的背景为复杂背景,则根据文字的颜色和该文字区域构建选区为该文字的掩模,通过该掩模来提取该文字进行识别,可以提高复杂背景中文字识别的准确率。
为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
图1为本发明第一实施例提供的文字识别方法的流程图。
图2至图5为图像的示例图。
图6为图3对应的二值图的示例图。
图7为判断局部背景是否属于复杂背景的部分流程图。
图8为对图6所示的二值图进行膨胀处理后的示意图。
图9为各颜色通道的颜色直方图。
图10为判断局部背景是否属于复杂背景的部分流程图。
图11为图1中步骤S3的详细流程图。
图12为图1中步骤S4的详细流程图。
图13为对应于图2中文字区域的掩模。
图14为对掩模进行版面分析的结果示例图。
图15为对图14进行单字切分操作的结果示例图。
图16为本发明第二实施例提供的文字识别方法的流程图。
图17为本发明第三实施例提供的文字识别装置的框图。
图18为本发明第四实施例提供的文字识别装置的框图。
具体实施方式
为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如后。
第一实施例
参阅图1所示,本发明第一实施例提供一种文字识别方法,该文字识别方法包括以下步骤:
步骤S1,获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;
步骤S2,判断该局部背景是否属于复杂背景;
步骤S3,若该局部背景属于复杂背景,则确定该文字的颜色;
步骤S4,结合该文字的颜色与该文字区域构建选区为该文字的掩模;及
步骤S5,使用该掩模从文字区域中提取文字进行识别,并输出识别结果。
按照上述的文字识别方法,在图像中定位出文字区域后,若判断该文字区域中文字的背景为复杂背景,则根据文字的颜色和该文字区域构建选区为该文字的掩模,通过该掩模来提取该文字进行识别,可以提高复杂背景中文字识别的准确率。
在一些实例中,上述方法的各步骤的实现细节如下:
步骤S1所述的图像例如图2、图3、图4或图5所示。该图像中包括文字。该图像可以通过数码相机、摄像头、扫描仪等图像获取设备采集得到。其中,该图像中文字以外的部分被称为整体背景,即该图像由该文字及整体背景组成。
在本实施例中,可以采用例如基于边缘分析、基于纹理分析、基于区域分析或基于学习等检测与定位方法,根据文字的颜色聚合性及笔画连通性来检测图像中的文字,定位该图像中的文字区域,并获取该文字区域在图像中的位置坐标、文字区域中文字的笔画信息和倾斜角度等信息。该文字区域中文字以外的部分被称为局部背景。
值得注意的是,通常为了快速检测图像中存在的文字,通过上述的检测与定位方法获得的文字的笔画信息并不完全准确,有可能会将该局部背景中与该文字相连的某些部分也误判为文字的笔画,例如图5中将人物的头发与“发”字相连的一部分也误判为“发”字的笔画。
步骤S2中,先根据所述文字区域的位置坐标及该文字的笔画信息生成二值图,该二值图的各像素与该图像的各像素的位置一一对应。该二值图包括灰度值为第一预设值,例如255的第一像素组,以及灰度值为第二预设值,例如0的第二像素组。该第一像素组用于反映图像中的该文字,该第二像素组用于反映该图像的整体背景。
如图6所示,为根据在图3中定位文字区域并获取的文字的笔画信息生成的二值图,该二值图的第一像素组呈白色,第二像素组呈黑色,使该二值图呈现明显的黑白效果。白色部分根据该文字的笔画信息形成,用于反映该图像中的文字。该二值图白色以外的部分为黑色,用于反映该图像的整体背景。由于所获取的文字的笔画信息并不完全准确,因此该二值图的第一像素组所反映的文字与该图像中的文字并不完全一致,该第一像素组只能大致反映该图像中的文字,第二像素组也只能大致反映该图像的整体背景。
在一个实例中,参阅图7所示,判断该局部背景是否属于复杂背景的方法可以包括以下步骤:
步骤S2.1,根据该二值图确定该文字区域中所述局部背景对应的像素。具体而言,可以根据该文字区域的位置坐标在该二值图中找到与该文字区域对应的特定区域,然后根据该特定区域与该文字区域中像素位置一一对应的关系,在该文字区域中找出与该特定区域中灰度值为第二预设值的像素对应的像素,即该文字区域中局部背景对应的像素。此外,在步骤S2.1之前,可以先使用例如形态学的方法对该二值图进行膨胀处理,从而使该二值图的第一像素组尽可能包裹文字边缘由于压缩造成的噪声,避免该噪声对后续局部背景或整体背景的像素统计造成影响。对图6所示的二值图进行膨胀处理后的效果如图8所示,其中的白色字体部分有加粗的效果。
步骤S2.2,对该局部背景对应的像素进行各颜色通道的颜色直方图统计,从而确定该局部背景的主颜色。具体而言,在一个实例中,以256维的RGB颜色模型为例,可以依次***部背景对应的像素中,R(红色)通道的值从0至255范围内每个值对应的像素个数,G(绿色)通道的值从0至255范围内每个值对应的像素个数,以及B(蓝色)通道的值从0至255范围内每个值对应的像素个数,从而生成各颜色通道的颜色直方图,如图9所示。
然后,将每个颜色通道的颜色直方图中对应像素个数最多的颜色通道的值提取出来,所提取的每个颜色通道中对应像素个数最多的值组合即为所述主颜色。例如R通道的颜色直方图中对应像素个数最多的R值为20,G通道的颜色直方图中对应像素个数最多的G值为30,B通道的颜色直方图中对应像素个数最多的B值为50,则可以将RGB值为(20,30,50)的颜色作为所述主颜色。此外,也可以设定一个范围d,将在所提取的颜色通道的值的基础上上下浮动该范围d的值都组合成所述主颜色。延续上一个例子,可以将在(20-d,20+d)范围内的R值、在(30-d,30+d)范围内的G值和在(50-d,50+d)范围内的B值组合成的颜色都作为所述主颜色。在另一个实例中,也可以将对应的像素个数占局部背景的像素总数的比例达到预设阈值,例如5%的颜色通道的值组合成的颜色作为所述主颜色。该局部背景的主颜色可能包括不止一种。
步骤S2.3,统计该局部背景的主颜色对应的像素总数,并计算该局部背景的主颜色对应的像素总数占该局部背景的像素总数的比例,得到第一比例值。
步骤S2.4,判断该第一比例值是否小于第一阈值,若是,则判定该局部背景属于复杂背景。该第一阈值为根据大量样本得出的经验值。
此外,若该第一比例值不小于该第一阈值,也不能简单地判定该局部背景不属于复杂背景。在本实施例中,可以结合所述整体背景更准确地判断该局部背景是否属于复杂背景,以提高后续文字识别的准确性。因此,参阅图10所示,判断该局部背景是否属于复杂背景的方法还可以包括以下步骤:
步骤S2.5,若该第一比例值不小于该第一阈值,则判断该第一比例值是否大于第二阈值。
步骤S2.6,若该第一比例值不大于该第二阈值,则根据该二值图确定该图像的所述整体背景对应的像素。具体而言,根据该二值图与该图像的像素位置一一对应的关系,在该图像中找出与该二值图中灰度值为第二预设值的像素对应的像素,即该图像的整体背景对应的像素。同样地,步骤S2.6可以使用经膨胀处理后的该二值图来确定该图像的整体背景对应的像素。
步骤S2.7,对该整体背景对应的像素进行各颜色通道的颜色直方图统计,从而确定该整体背景的主颜色。该整体背景的主颜色的确定方式与步骤S2.2所述的局部背景的主颜色的确定方式类似,此处不再赘述。
步骤S2.8,统计该整体背景的主颜色对应的像素总数,并计算该整体背景的主颜色对应的像素总数占该整体背景的像素总数的比例,得到第二比例值。
步骤S2.9,判断该第二比例值是否小于第三阈值,若是,则判定该局部背景属于复杂背景。其中,该第二阈值和第三阈值也是根据大量样本得到的经验值。
如图11所示,步骤S3具体包括以下步骤:
步骤S3.1,根据该二值图确定该文字对应的像素。同样地,根据该文字区域的位置坐标在该二值图中找到与该文字区域对应的特定区域,然后根据该特定区域与该文字区域中像素一一对应的关系,在该文字区域中找出与该特定区域中灰度值为第一预设值的像素对应的像素,即该文字区域中文字对应的像素。
步骤S3.2,统计该文字对应的各像素的颜色,对所统计的各像素的颜色进行聚类,得到该文字的颜色。具体而言,可以将所统计的各像素的颜色使用聚类算法按照预设种类数聚类,例如聚为5类。然后将该预设种类数的颜色中,颜色距离小于预设数值例如20的颜色合并,得到至少一种待定颜色。若该待定颜色有多种,则还可以进一步从该多种待定颜色排除不符合该文字的待定颜色,最后剩下的待定颜色即被认为是该文字的颜色。该文字的颜色可以包括一种或多种,例如在一行文字中,为了使其中几个文字更加醒目,通常会将这几个文字与其它文字设置成不同的颜色。
具体而言,由于现有的文字检测与定位方法还是达到了一定的精确度,因此被误判为文字笔画的像素通常较少,则从待定颜色中排除不符合文字的颜色的方法例如可以是统计所述文字对应的像素中各种待定颜色对应的像素的个数,并将对应像素的个数小于某一预设值的待定颜色排除。其次,由于局部背景中被误判为文字笔画的像素形成的纹理特征、梯度特征通常与文字不同,例如图5中人物的头发与文字的纹理特征和梯度特征明显不同,因此,也可以根据待定颜色对应的像素形成的纹理、梯度特征等信息排除不符合文字的待定颜色。此外,也可以根据文字的颜色聚合性来排除不符合文字的待定颜色。
如图12所示,步骤S4具体包括以下步骤:
步骤S4.1,分别计算该文字区域的各像素的颜色与该文字的颜色的距离,以该距离作为对应像素的颜色值,生成颜色距离图。例如,该文字的颜色以RGB格式表达为(200,200,200),将该文字区域的某一个指定像素的RGB值与该文字的RGB值相减,得到该指定像素的颜色与该文字的颜色的距离。然后,将一个像素位置与该文字区域一一对应的中间图中与该指定像素位置相同的对应像素的颜色值设置为所得到的该距离。待将该中间图每个像素的颜色值都设置为该文字区域中相同位置像素的颜色与该文字的颜色的距离后,即得到该颜色距离图。若步骤S3确定的该文字的颜色包括一种以上,则可以先判断该指定像素与哪一种文字的颜色对应的像素空间距离最近,然后计算该指定像素的颜色与该最近的像素对应的文字的颜色的距离。
步骤S4.2,对该颜色距离图进行二值化处理,得到所述掩模。例如,图2中文字区域的掩模如图13所示。在本实施例中,对该颜色距离图进行二值化处理的方法为局部自适应二值化。步骤S4.2还可以对该掩模进行去除点噪声处理。此外,若步骤S1获取的文字的倾斜角度不为0,则还需要根据所获取的倾斜角度对该文字区域及该掩模进行倾斜校正。
步骤S5中,在使用该掩模从文字区域中提取文字之前,还将先对该掩模进行版面分析及单字切分操作。通过版面分析可将掩模中的文字切分成若干文字行或文字列,通过单字切分操作则将这些文字行或文字列最终切分为单个文字,从而使用该掩模可以从该文字区域中将每一个文字分别提取出来。
具体而言,需要先判断文字区域中的文字是横向排列还是纵向排列。例如,可以对掩模逐行逐列扫描像素,得到掩模中文字的行间距和列间距,并计算文字行的高度方差及文字列的宽度方差。该文字行的高度方差用于反映文字行高度的一致性,而该文字列的宽度方差用于反映文字列宽度的一致性。然后综合该文字间距和文字行的高度或文字列的宽度的一致性等因素来判断该文字是横向排列还是纵向排列。例如,若行间距大于列间距,并且文字行高度一致,则判定文字区域中文字是横向排列。若列间距大于行间距,并且文字列宽度一致,则判定文字区域中文字是纵向排列。
然后,对掩模进行若干次横向切分和纵向切分。以文字区域中的文字横向排列为例,首先,对该掩模进行横向切分,将该掩模中的文字分为若干文字行。所述横向切分的具体方法为逐行扫描掩模的像素,以扫描得到的不属于文字的像素行作为切分线将上下行文字区分开来。然后根据切分后的文字行的宽高比判断是否需要再对上一次横向切分后的文字进行纵向切分,从而将上一次横向切分后的文字行中单行文字与多行文字切分开来。所述纵向切分的具体方法为逐列扫描掩模的像素,以扫描得到的不属于文字的像素列作为切分线将左右列文字区分开来。再根据切分后文字行的宽高比将上一次纵向切分后得到的多行文字横向切分为单行,依此类推。最后进行一次纵向切分,将所有单行文字最终切分为单个文字。
反之,若文字区域中的文字纵向排列,则先对该掩模进行纵向切分,将该掩模中的文字分为若干文字列,再根据切分后的文字列的宽高比判断是否需要再对上一次纵向切分后的文字进行横向切分,从而将上一次纵向切分后的文字列中单列文字与多列文字切分开来。再根据切分后文字行的宽高比将上一次横向切分后得到的多列文字切分为单列,依此类推。最后进行一次横向切分,将所有单列文字最终切分为单个文字。
其次,对掩模的切分结果进行修正,例如包括将错误切分后的文字行或列合并,或对英文首字母与第二字母的错误切分进行修正,最后得到可以从该文字区域中将每一个文字分别提取出来的掩模。例如图14所示,为对掩模进行版面分析的结果,图15为对图14进行单字切分操作后的结果。
使用经过版面分析及单字切分操作后的该掩模从文字区域中提取文字之前,还可以对该掩模进行膨胀处理,然后使用该掩模保留文字边缘梯度,去除局部背景梯度的干扰,从而从该文字区域中将每一个文字提取出来,并对所提取文字进行归一化处理,即将所有文字缩放到统一大小,最后提取每个文字的特征进行识别。
值得注意的是,若步骤S3确定的该文字的颜色包括一种以上,例如包括两种,则也可以针对第一种文字的颜色和第二种文字的颜色分别执行步骤S4.1和步骤S4.2,得到与该第一种文字的颜色对应的第一掩模,和与该第二种文字的颜色对应的第二掩模。然后对该第一掩模和第二掩模分别执行后续步骤S5的版面分析及单字切分操作。结合第一掩模和第二掩模分别从文字区域中提取每一个文字进行识别并根据彼此修正,可以得到更加准确的识别结果。
按照本实施例的文字识别方法,可以提高复杂背景中文字识别的准确率。在应用方面,本实施例的文字识别方法还可以与现有的文本过滤技术相结合,从图像的复杂背景中准确地识别文字,并判断该文字是否带有敏感词汇,例如图5所示的“发财地址”,从而判断该图像是否为恶意图像,提高用户安全性。
第二实施例
根据第一实施例提供的文字识别方法,当文字区域的局部背景为复杂背景时,可以根据文字的颜色及文字区域构建掩模来准确地提取文字进行识别,而构建该掩模的过程复杂,会在一定程度上降低文字提取和识别的效率。然而若文字区域的局部背景不为复杂背景,则没有必要通过上述构建掩模的过程也能够准确地提取并识别文字。因此,在对图像中文字的提取和识别过程中,为了在准确率及效率之间取得较佳的平衡,参阅图16所示,为本发明第二实施例提供的文字识别方法,其相较于第一实施例的文字识别方法,进一步包括以下步骤:
步骤S6,若该局部背景不属于复杂背景,则对该文字区域进行二值化处理。由于该局部背景不属于复杂背景,该局部背景不易与文字混淆,如图4所示。因此,可以使用自适应阈值对该文字区域进行二值化处理,使文字区域中局部背景与文字明显区分开来。若步骤S1中获取的文字区域中文字的倾斜角度不为0,则还需要根据该倾斜角度对该二值化处理后的文字区域进行倾斜校正。
步骤S7,对二值化处理后的该文字区域进行版面分析及单字切分操作,将文字区域中每个文字提取出来进行识别,并输出识别结果。在识别之前还对所提取出来的文字进行归一化处理,然后提取文字特征进行识别。对该文字区域进行版面分析及单字切分操作方法与上述步骤S5中所述类似,在此不再赘述。
综上所述,本实施例的文字识别方法,先对文字区域的局部背景是否属于复杂背景进行判断,然后针对该局部背景属于复杂背景和不属于复杂背景的两种情况分别以不同的方法进行文字的提取及识别,从而可以在对图像中文字的提取及识别的过程中,在准确率及效率之间取得较佳的平衡。
第三实施例
参阅图17所示,本发明第三实施例提供一种文字识别装置100,其包括定位模块101、背景判断模块102、确定模块103、构建模块104和第一识别模块105。可以理解,上述的各模块是指计算机程序或者程序段,用于执行某一项或多项特定的功能。此外,上述各模块的区分并不代表实际的程序代码也必须是分开的。
定位模块101,用于获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景。定位模块101还获取该文字区域的位置坐标、该文字的笔画信息及倾斜角度。
背景判断模块102,用于判断该局部背景是否属于复杂背景。具体而言,背景判断模块102先根据该文字区域的位置坐标及该文字的笔画信息生成二值图,该二值图包括灰度值为第一预设值的第一像素组,以及灰度值为第二预设值的第二像素组,该第一像素组反映图像中的该文字,第二像素组反映该图像中文字以外的部分,即整体背景。背景判断模块102还可以对所生成的该二值图进行膨胀处理。
然后,背景判断模块102根据该二值图确定该文字区域中所述局部背景对应的像素,对该局部背景对应的像素进行各颜色通道的颜色直方图统计,从而确定该局部背景的主颜色,统计该局部背景的主颜色对应的像素总数,并计算该局部背景的主颜色对应的像素总数占该局部背景的像素总数的比例,得到第一比例值。若该第一比例值小于第一阈值,则背景判断模块102判定该局部背景属于复杂背景。
若该第一比例值不小于该第一阈值,则背景判断模块102进一步判断该第一比例值是否大于第二阈值,若否,则根据该二值图确定该图像的所述整体背景对应的像素,并对该整体背景对应的像素进行各颜色通道的颜色直方图统计,从而确定该整体背景的主颜色。最后,背景判断模块102统计该整体背景的主颜色对应的像素总数,并计算该整体背景的主颜色对应的像素总数占该整体背景的像素总数的比例,得到第二比例值。若该第二比例值小于第三阈值,则背景判断模块102判定该局部背景属于复杂背景。
确定模块103,用于若该局部背景属于复杂背景,则确定该文字的颜色。具体而言,确定模块103先根据该二值图确定该文字对应的像素,然后统计该文字对应的各像素的颜色,对所统计的各像素的颜色进行聚类,得到该文字的颜色。
构建模块104,用于结合该文字的颜色与该文字区域构建选区为该文字的掩模。构建模块104分别计算该文字区域的各像素的颜色与该文字的颜色的距离,以该距离作为对应像素的颜色值,生成颜色距离图,然后对该颜色距离图进行二值化处理,得到所述掩模。在一个实例中,构建模块104可以对该颜色距离图进行局部自适应二值化处理。然后,构建模块104还可以对该掩模进行去除点噪声处理,并根据该文字的倾斜角度对该文字区域及该掩模进行倾斜校正。
第一识别模块105,用于使用该掩模从文字区域中提取文字进行识别,并输出识别结果。在提取文字进行识别之前,第一识别模块105将先对该掩模进行版面分析及单字切分操作,从而使用该掩模从文字区域中将每一个文字提取出来进行识别。为了去除噪声影响,第一识别模块105还可以对该掩模进行膨胀处理。第一识别模块105将文字提取出来后,将对所提取文字进行归一化处理后再进行识别。
对于以上各模块的具体工作过程,可进一步参考本发明第一实施例提供的文字识别方法,在此不再重复。
综上所述,本实施例的文字识别装置100,在图像中定位出文字区域后,若判断该文字区域中文字的背景为复杂背景,则根据文字的颜色和该文字区域构建选区为该文字的掩模,通过该掩模来提取该文字进行识别,可以提高复杂背景中文字识别的准确率。
第四实施例
参阅图18所示,本发明第四实施例提供一种文字识别装置200,其相较于第三实施例的文字识别装置100,进一步包括:
处理模块201,用于若该局部背景不属于复杂背景,则对该文字区域进行二值化处理。处理模块201还根据所述文字的倾斜角度对该文字区域进行倾斜校正。
第二识别模块202,用于对二值化处理后的该文字区域进行版面分析及单字切分操作,将文字区域中每个文字提取出来进行识别,并输出识别结果。
对于以上各模块的具体工作过程,可进一步参考本发明第二实施例提供的文字识别方法,在此不再重复。
综上所述,本实施例的文字识别装置200,先对文字区域的局部背景是否属于复杂背景进行判断,然后针对该局部背景属于复杂背景和不属于复杂背景的两种情况分别以不同的方法进行文字的提取及识别,从而可以在对图像中文字的提取及识别的过程中,在准确率及效率之间取得较佳的平衡。
此外,本发明实施例还提供一种计算机可读存储介质,其内存储有计算机可执行指令,上述的计算机可读存储介质例如为非易失性存储器例如光盘、硬盘、或者闪存。上述的计算机可执行指令用于让计算机或者类似的运算装置完成上述的文字识别方法中的各种操作。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (34)

1.一种文字识别方法,其特征在于,该方法包括以下步骤:
定位步骤:获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;
背景判断步骤:判断该局部背景是否属于复杂背景;
确定步骤:若该局部背景属于复杂背景,则确定该文字的颜色;
构建步骤:结合该文字的颜色与该文字区域构建选区为该文字的掩模;及
第一识别步骤:使用该掩模从文字区域中提取文字进行识别,并输出识别结果。
2.如权利要求1所述的文字识别方法,其特征在于,所述定位步骤还包括:
获取该文字区域的位置坐标及该文字的笔画信息。
3.如权利要求2所述的文字识别方法,其特征在于,所述背景判断步骤还包括:
根据该文字区域的位置坐标及该文字的笔画信息生成二值图,该二值图包括灰度值为第一预设值的第一像素组,以及灰度值为第二预设值的第二像素组,该第一像素组反映图像中的该文字,第二像素组反映该图像中文字以外的部分,即整体背景。
4.如权利要求3所述的文字识别方法,其特征在于,所述背景判断步骤还包括:
对所生成的该二值图进行膨胀处理。
5.如权利要求4所述的文字识别方法,其特征在于,所述背景判断步骤还包括:
根据该二值图确定该文字区域中所述局部背景对应的像素;
对该局部背景对应的像素进行各颜色通道的颜色直方图统计,从而确定该局部背景的主颜色;
统计该局部背景的主颜色对应的像素总数,并计算该局部背景的主颜色对应的像素总数占该局部背景的像素总数的比例,得到第一比例值;
判断该第一比例值是否小于第一阈值,若是,则判定该局部背景属于复杂背景。
6.如权利要求5所述的文字识别方法,其特征在于,所述背景判断步骤还包括:
若该第一比例值不小于该第一阈值,则判断该第一比例值是否大于第二阈值;
若该第一比例值不大于该第二阈值,则根据该二值图确定该图像的所述整体背景对应的像素;
对该整体背景对应的像素进行各颜色通道的颜色直方图统计,从而确定该整体背景的主颜色;
统计该整体背景的主颜色对应的像素总数,并计算该整体背景的主颜色对应的像素总数占该整体背景的像素总数的比例,得到第二比例值;
判断该第二比例值是否小于第三阈值,若是,则判定该局部背景属于复杂背景。
7.如权利要求3所述的文字识别方法,其特征在于,所述确定步骤包括:
根据该二值图确定该文字对应的像素;
统计该文字对应的各像素的颜色,对所统计的各像素的颜色进行聚类,得到该文字的颜色。
8.如权利要求7所述的文字识别方法,其特征在于,所述构建步骤包括:
分别计算该文字区域的各像素的颜色与该文字的颜色的距离,以该距离作为对应像素的颜色值,生成颜色距离图;
对该颜色距离图进行二值化处理,得到所述掩模。
9.如权利要求8所述的文字识别方法,其特征在于,所述对该颜色距离图进行二值化处理的步骤包括:
对该颜色距离图进行局部自适应二值化处理。
10.如权利要求8所述的文字识别方法,其特征在于,所述构建步骤还包括:
对该掩模进行去除点噪声处理。
11.如权利要求1所述的文字识别方法,其特征在于,所述定位步骤还包括:
检测该文字的倾斜角度。
12.如权利要求11所述的文字识别方法,其特征在于,所述构建步骤之后还包括:
根据该倾斜角度对该文字区域及该掩模进行倾斜校正。
13.如权利要求1所述的文字识别方法,其特征在于,所述第一识别步骤还包括:
对该掩模进行版面分析及单字切分操作,从而使用该掩模从文字区域中将每一个文字提取出来进行识别。
14.如权利要求1所述的文字识别方法,其特征在于,所述第一识别步骤还包括:
对该掩模进行膨胀处理。
15.如权利要求1所述的文字识别方法,其特征在于,所述第一识别步骤还包括:
对所提取文字进行归一化处理后再进行识别。
16.如权利要求11所述的文字识别方法,其特征在于,还包括:
处理步骤:若该局部背景不属于复杂背景,则对该文字区域进行二值化处理;
第二识别步骤:对二值化处理后的该文字区域进行版面分析及单字切分操作,将文字区域中每个文字提取出来进行识别,并输出识别结果。
17.如权利要求16所述的文字识别方法,其特征在于,所述对该文字区域进行二值化处理的步骤后还包括:
根据该倾斜角度对该文字区域进行倾斜校正。
18.一种文字识别装置,其特征在于,该装置包括:
定位模块,用于获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;
背景判断模块,用于判断该局部背景是否属于复杂背景;
确定模块,用于若该局部背景属于复杂背景,则确定该文字的颜色;
构建模块,用于结合该文字的颜色与该文字区域构建选区为该文字的掩模;及
第一识别模块,用于使用该掩模从文字区域中提取文字进行识别,并输出识别结果。
19.如权利要求18所述的文字识别装置,其特征在于,所述定位模块还用于:
获取该文字区域的位置坐标及该文字的笔画信息。
20.如权利要求19所述的文字识别装置,其特征在于,所述背景判断模块还用于:
根据该文字区域的位置坐标及该文字的笔画信息生成二值图,该二值图包括灰度值为第一预设值的第一像素组,以及灰度值为第二预设值的第二像素组,该第一像素组反映图像中的该文字,第二像素组反映该图像中文字以外的部分,即整体背景。
21.如权利要求20所述的文字识别装置,其特征在于,所述背景判断模块还用于:
对所生成的该二值图进行膨胀处理。
22.如权利要求21所述的文字识别装置,其特征在于,所述背景判断模块还用于:
根据该二值图确定该文字区域中所述局部背景对应的像素;
对该局部背景对应的像素进行各颜色通道的颜色直方图统计,从而确定该局部背景的主颜色;
统计该局部背景的主颜色对应的像素总数,并计算该局部背景的主颜色对应的像素总数占该局部背景的像素总数的比例,得到第一比例值;
判断该第一比例值是否小于第一阈值,若是,则判定该局部背景属于复杂背景。
23.如权利要求22所述的文字识别装置,其特征在于,所述背景判断模块还用于:
若该第一比例值不小于该第一阈值,则判断该第一比例值是否大于第二阈值;
若该第一比例值不大于该第二阈值,则根据该二值图确定该图像的所述整体背景对应的像素;
对该整体背景对应的像素进行各颜色通道的颜色直方图统计,从而确定该整体背景的主颜色;
统计该整体背景的主颜色对应的像素总数,并计算该整体背景的主颜色对应的像素总数占该整体背景的像素总数的比例,得到第二比例值;
判断该第二比例值是否小于第三阈值,若是,则判定该局部背景属于复杂背景。
24.如权利要求20所述的文字识别装置,其特征在于,所述确定模块用于:
根据该二值图确定该文字对应的像素;
统计该文字对应的各像素的颜色,对所统计的各像素的颜色进行聚类,得到该文字的颜色。
25.如权利要求24所述的文字识别装置,其特征在于,所述构建模块用于:
分别计算该文字区域的各像素的颜色与该文字的颜色的距离,以该距离作为对应像素的颜色值,生成颜色距离图;
对该颜色距离图进行二值化处理,得到所述掩模。
26.如权利要求25所述的文字识别装置,其特征在于,所述对该颜色距离图进行二值化处理包括:
对该颜色距离图进行局部自适应二值化处理。
27.如权利要求25所述的文字识别装置,其特征在于,所述构建模块还用于:
对该掩模进行去除点噪声处理。
28.如权利要求18所述的文字识别装置,其特征在于,所述定位模块还用于:
检测该文字的倾斜角度。
29.如权利要求28所述的文字识别装置,其特征在于,所述构建模块还用于:
根据该倾斜角度对该文字区域及该掩模进行倾斜校正。
30.如权利要求18所述的文字识别装置,其特征在于,所述第一识别模块还用于:
对该掩模进行版面分析及单字切分操作,从而使用该掩模从文字区域中将每一个文字提取出来进行识别。
31.如权利要求18所述的文字识别装置,其特征在于,所述第一识别模块还用于:
对该掩模进行膨胀处理。
32.如权利要求18所述的文字识别装置,其特征在于,所述第一识别模块还用于:
对所提取文字进行归一化处理后再进行识别。
33.如权利要求28所述的文字识别装置,其特征在于,还包括:
处理模块,用于若该局部背景不属于复杂背景,则对该文字区域进行二值化处理;
第二识别模块,用于对二值化处理后的该文字区域进行版面分析及单字切分操作,将文字区域中每个文字提取出来进行识别,并输出识别结果。
34.如权利要求33所述的文字识别装置,其特征在于,所述对该文字区域进行二值化处理后还包括:
根据该倾斜角度对该文字区域进行倾斜校正。
CN201310297948.3A 2013-07-16 2013-07-16 一种文字识别方法及装置 Active CN104298982B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310297948.3A CN104298982B (zh) 2013-07-16 2013-07-16 一种文字识别方法及装置
PCT/CN2014/081663 WO2015007168A1 (en) 2013-07-16 2014-07-04 Character recognition method and device
US14/604,077 US9349062B2 (en) 2013-07-16 2015-01-23 Character recognition method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310297948.3A CN104298982B (zh) 2013-07-16 2013-07-16 一种文字识别方法及装置

Publications (2)

Publication Number Publication Date
CN104298982A true CN104298982A (zh) 2015-01-21
CN104298982B CN104298982B (zh) 2019-03-08

Family

ID=52318703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310297948.3A Active CN104298982B (zh) 2013-07-16 2013-07-16 一种文字识别方法及装置

Country Status (3)

Country Link
US (1) US9349062B2 (zh)
CN (1) CN104298982B (zh)
WO (1) WO2015007168A1 (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260997A (zh) * 2015-09-22 2016-01-20 北京好运到信息科技有限公司 一种自动获取目标图像的方法
CN106157284A (zh) * 2015-04-01 2016-11-23 阿里巴巴集团控股有限公司 图像中文字区域的定位方法及装置
CN106326895A (zh) * 2015-06-16 2017-01-11 富士通株式会社 图像处理装置和图像处理方法
CN106384111A (zh) * 2016-08-30 2017-02-08 五八同城信息技术有限公司 图片检测方法和装置
CN106503713A (zh) * 2016-11-16 2017-03-15 广西大学 一种基于粗***特征文字识别方法
CN106503712A (zh) * 2016-11-16 2017-03-15 广西大学 一种基于笔划密度特征文字识别方法
CN106503711A (zh) * 2016-11-16 2017-03-15 广西大学 一种文字识别方法
CN106778752A (zh) * 2016-11-16 2017-05-31 广西大学 一种文字识别方法
WO2018011815A1 (en) * 2016-07-14 2018-01-18 Hewlett-Packard Development Company, L.P. Wireless data communication
CN107609558A (zh) * 2017-09-13 2018-01-19 北京元心科技有限公司 文字图像处理方法及装置
CN108960222A (zh) * 2017-05-26 2018-12-07 深圳怡化电脑股份有限公司 图像二值化方法、装置、设备及存储介质
CN109145907A (zh) * 2018-09-11 2019-01-04 上海中信信息发展股份有限公司 基于常用字字频统计的文本图像倒置检测方法及装置
CN109147002A (zh) * 2018-06-27 2019-01-04 北京捷通华声科技股份有限公司 一种图像处理方法和装置
CN109522900A (zh) * 2018-10-30 2019-03-26 北京陌上花科技有限公司 自然场景文字识别方法及装置
CN109756684A (zh) * 2019-01-30 2019-05-14 北京雷石天地电子技术有限公司 一种字幕移植方法及装置
CN109766893A (zh) * 2019-01-09 2019-05-17 北京数衍科技有限公司 适于购物小票的图片文字识别方法
CN109871844A (zh) * 2019-01-09 2019-06-11 东南大学 一种拍摄小票图像文本矫正和提取方法
CN110533049A (zh) * 2018-05-23 2019-12-03 富士通株式会社 提取***图像的方法和装置
CN111401371A (zh) * 2020-06-03 2020-07-10 中邮消费金融有限公司 一种文本检测识别方法、***及计算机设备
CN111461126A (zh) * 2020-03-23 2020-07-28 Oppo广东移动通信有限公司 文本行中的空格识别方法、装置、电子设备及存储介质
CN111476243A (zh) * 2020-04-13 2020-07-31 中国工商银行股份有限公司 影像文字识别方法及装置
CN111754414A (zh) * 2019-03-29 2020-10-09 搜狗(杭州)智能科技有限公司 一种图像处理方法、装置和用于图像处理的装置
WO2020221013A1 (zh) * 2019-04-29 2020-11-05 腾讯科技(深圳)有限公司 一种图像处理方法、装置、电子设备以及存储介质
CN113657369A (zh) * 2021-08-26 2021-11-16 北京有竹居网络技术有限公司 一种文字识别方法及其相关设备
CN114445895A (zh) * 2022-01-28 2022-05-06 上海掌门科技有限公司 一种用于确定人脸颜色的方法、设备、介质及程序产品

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096347B (zh) * 2014-04-24 2017-09-08 富士通株式会社 图像处理装置和方法
US9830508B1 (en) * 2015-01-30 2017-11-28 Quest Consultants LLC Systems and methods of extracting text from a digital image
US10771786B2 (en) * 2016-04-06 2020-09-08 Intel Corporation Method and system of video coding using an image data correction mask
CN108304761A (zh) * 2017-09-25 2018-07-20 腾讯科技(深圳)有限公司 文本检测方法、装置、存储介质和计算机设备
US11070777B2 (en) * 2018-11-23 2021-07-20 Coretronic Corporation Projection apparatus and operation method thereof
CN109740607B (zh) * 2018-12-26 2023-07-21 南京互连智能科技有限公司 字符图像的残缺区域检测和残缺字符图像恢复方法
JP7379876B2 (ja) * 2019-06-17 2023-11-15 株式会社リコー 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム
CN110705362B (zh) * 2019-09-06 2022-12-09 航天新长征大道科技有限公司 一种字印分析方法和装置
CN111178352A (zh) * 2019-12-13 2020-05-19 中国建设银行股份有限公司 一种验证码字符识别的方法和装置
CN111598102B (zh) * 2020-05-28 2023-08-22 北京轨道交通路网管理有限公司 叠加字符的检测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100362525C (zh) * 2005-06-06 2008-01-16 英华达(上海)电子有限公司 手机中使用图像识别进行名片信息的采集与录入的方法
CN101122953A (zh) * 2007-09-21 2008-02-13 北京大学 一种图片文字分割的方法
CN101599125A (zh) * 2009-06-11 2009-12-09 上海交通大学 复杂背景下图像处理的二值化方法
US20120134581A1 (en) * 2010-11-25 2012-05-31 Toyohisa Matsuda Image processing apparatus, image forming apparatus, image processing method, computer program and computer-readable medium
US20120269438A1 (en) * 2011-04-25 2012-10-25 Takeshi Kutsumi Image processing apparatus
CN102915438A (zh) * 2012-08-21 2013-02-06 北京捷成世纪科技股份有限公司 一种视频字幕的提取方法及装置
CN102968637A (zh) * 2012-12-20 2013-03-13 山东科技大学 一种复杂背景图像文字分割方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3747589B2 (ja) * 1997-09-17 2006-02-22 コニカミノルタビジネステクノロジーズ株式会社 画像特徴量比較装置および画像特徴量比較プログラムを記録した記録媒体
JP4094789B2 (ja) * 1999-11-26 2008-06-04 富士通株式会社 画像処理装置及び画像処理方法
US6748111B1 (en) * 1999-12-02 2004-06-08 Adobe Systems Incorporated Recognizing text in a multicolor image
US7024042B2 (en) * 2000-10-04 2006-04-04 Fujitsu Limited Word recognition device, word recognition method, and storage medium
US6895112B2 (en) * 2001-02-13 2005-05-17 Microsoft Corporation Red-eye detection based on red region detection with eye confirmation
US20030198386A1 (en) * 2002-04-19 2003-10-23 Huitao Luo System and method for identifying and extracting character strings from captured image data
US7283666B2 (en) * 2003-02-27 2007-10-16 Saquib Suhail S Digital image exposure correction
TWI245557B (en) * 2003-09-11 2005-12-11 Matsushita Electric Ind Co Ltd Image compensation apparatus and method for the same
GB2409028A (en) * 2003-12-11 2005-06-15 Sony Uk Ltd Face detection
US8442311B1 (en) * 2005-06-30 2013-05-14 Teradici Corporation Apparatus and method for encoding an image generated in part by graphical commands
US7783117B2 (en) * 2005-08-12 2010-08-24 Seiko Epson Corporation Systems and methods for generating background and foreground images for document compression
US7555172B2 (en) * 2005-10-31 2009-06-30 Xerox Corporation Dynamic range detection and adjustment
US7711193B2 (en) * 2006-11-07 2010-05-04 Aol Inc. Recognizing blank and nearly blank images
US8763038B2 (en) * 2009-01-26 2014-06-24 Sony Corporation Capture of stylized TV table data via OCR
JP4437825B2 (ja) * 2007-02-16 2010-03-24 シャープ株式会社 画像処理方法、画像処理装置、画像形成装置、プログラムおよび記録媒体
US8068684B2 (en) * 2007-05-04 2011-11-29 I.R.I.S. Compression of digital images of scanned documents
CA2598400A1 (en) * 2007-08-22 2009-02-22 Hazem Y. Abdelazim System and method for onscreen text recognition for mobile devices
US8139894B2 (en) * 2007-12-20 2012-03-20 Intel Corporation Automatic dominant orientation estimation in text images based on steerable filters
WO2009137073A1 (en) * 2008-05-06 2009-11-12 Compulink Management Center, Inc. Camera-based document imaging
US8787690B2 (en) * 2008-11-12 2014-07-22 Abbyy Development Llc Binarizing an image
US8311335B2 (en) * 2009-01-28 2012-11-13 Xerox Corporation Model-based comparative measure for vector sequences and word spotting using same
CN101599122B (zh) * 2009-07-02 2013-06-19 阿里巴巴集团控股有限公司 一种图像识别方法及装置
EP2306449B1 (en) * 2009-08-26 2012-12-19 Oticon A/S A method of correcting errors in binary masks representing speech
US20110255794A1 (en) * 2010-01-15 2011-10-20 Copanion, Inc. Systems and methods for automatically extracting data by narrowing data search scope using contour matching
JP5647916B2 (ja) * 2010-02-26 2015-01-07 楽天株式会社 情報処理装置、情報処理方法及び情報処理プログラム
US8995012B2 (en) * 2010-11-05 2015-03-31 Rdm Corporation System for mobile image capture and processing of financial documents
CN102331990B (zh) * 2010-12-22 2013-06-19 四川大学 一种基于字幕提取的新闻视频检索方法
JP4893861B1 (ja) * 2011-03-10 2012-03-07 オムロン株式会社 文字列検知装置、画像処理装置、文字列検知方法、制御プログラムおよび記録媒体
JP5776419B2 (ja) * 2011-07-29 2015-09-09 ブラザー工業株式会社 画像処理装置、画像処理プラグラム
TWI492166B (zh) * 2012-01-12 2015-07-11 Kofax Inc 行動影像擷取和處理的系統和方法
CN103268481B (zh) * 2013-05-29 2016-06-29 焦点科技股份有限公司 一种复杂背景图像中的文本提取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100362525C (zh) * 2005-06-06 2008-01-16 英华达(上海)电子有限公司 手机中使用图像识别进行名片信息的采集与录入的方法
CN101122953A (zh) * 2007-09-21 2008-02-13 北京大学 一种图片文字分割的方法
CN101599125A (zh) * 2009-06-11 2009-12-09 上海交通大学 复杂背景下图像处理的二值化方法
US20120134581A1 (en) * 2010-11-25 2012-05-31 Toyohisa Matsuda Image processing apparatus, image forming apparatus, image processing method, computer program and computer-readable medium
US20120269438A1 (en) * 2011-04-25 2012-10-25 Takeshi Kutsumi Image processing apparatus
CN102915438A (zh) * 2012-08-21 2013-02-06 北京捷成世纪科技股份有限公司 一种视频字幕的提取方法及装置
CN102968637A (zh) * 2012-12-20 2013-03-13 山东科技大学 一种复杂背景图像文字分割方法

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157284A (zh) * 2015-04-01 2016-11-23 阿里巴巴集团控股有限公司 图像中文字区域的定位方法及装置
CN106157284B (zh) * 2015-04-01 2019-10-11 阿里巴巴集团控股有限公司 图像中文字区域的定位方法及装置
CN106326895A (zh) * 2015-06-16 2017-01-11 富士通株式会社 图像处理装置和图像处理方法
CN106326895B (zh) * 2015-06-16 2020-07-07 富士通株式会社 图像处理装置和图像处理方法
CN105260997A (zh) * 2015-09-22 2016-01-20 北京好运到信息科技有限公司 一种自动获取目标图像的方法
WO2018011815A1 (en) * 2016-07-14 2018-01-18 Hewlett-Packard Development Company, L.P. Wireless data communication
US11328503B2 (en) 2016-07-14 2022-05-10 Hewlett-Packard Development Company, L.P. Wireless data communication of binary data as image data
CN106384111A (zh) * 2016-08-30 2017-02-08 五八同城信息技术有限公司 图片检测方法和装置
CN106384111B (zh) * 2016-08-30 2020-03-31 五八同城信息技术有限公司 图片检测方法和装置
CN106778752A (zh) * 2016-11-16 2017-05-31 广西大学 一种文字识别方法
CN106503711A (zh) * 2016-11-16 2017-03-15 广西大学 一种文字识别方法
CN106503712A (zh) * 2016-11-16 2017-03-15 广西大学 一种基于笔划密度特征文字识别方法
CN106503713A (zh) * 2016-11-16 2017-03-15 广西大学 一种基于粗***特征文字识别方法
CN108960222A (zh) * 2017-05-26 2018-12-07 深圳怡化电脑股份有限公司 图像二值化方法、装置、设备及存储介质
CN108960222B (zh) * 2017-05-26 2022-01-28 深圳怡化电脑股份有限公司 图像二值化方法、装置、设备及存储介质
CN107609558A (zh) * 2017-09-13 2018-01-19 北京元心科技有限公司 文字图像处理方法及装置
CN110533049B (zh) * 2018-05-23 2023-05-02 富士通株式会社 提取***图像的方法和装置
CN110533049A (zh) * 2018-05-23 2019-12-03 富士通株式会社 提取***图像的方法和装置
CN109147002B (zh) * 2018-06-27 2023-06-20 北京捷通华声科技股份有限公司 一种图像处理方法和装置
CN109147002A (zh) * 2018-06-27 2019-01-04 北京捷通华声科技股份有限公司 一种图像处理方法和装置
CN109145907B (zh) * 2018-09-11 2020-12-11 上海信联信息发展股份有限公司 基于常用字字频统计的文本图像倒置检测方法及装置
CN109145907A (zh) * 2018-09-11 2019-01-04 上海中信信息发展股份有限公司 基于常用字字频统计的文本图像倒置检测方法及装置
CN109522900B (zh) * 2018-10-30 2020-12-18 北京陌上花科技有限公司 自然场景文字识别方法及装置
CN109522900A (zh) * 2018-10-30 2019-03-26 北京陌上花科技有限公司 自然场景文字识别方法及装置
CN109766893A (zh) * 2019-01-09 2019-05-17 北京数衍科技有限公司 适于购物小票的图片文字识别方法
CN109871844A (zh) * 2019-01-09 2019-06-11 东南大学 一种拍摄小票图像文本矫正和提取方法
CN109756684A (zh) * 2019-01-30 2019-05-14 北京雷石天地电子技术有限公司 一种字幕移植方法及装置
CN109756684B (zh) * 2019-01-30 2021-08-13 北京雷石天地电子技术有限公司 一种字幕移植方法及装置
CN111754414B (zh) * 2019-03-29 2023-10-27 北京搜狗科技发展有限公司 一种图像处理方法、装置和用于图像处理的装置
CN111754414A (zh) * 2019-03-29 2020-10-09 搜狗(杭州)智能科技有限公司 一种图像处理方法、装置和用于图像处理的装置
WO2020221013A1 (zh) * 2019-04-29 2020-11-05 腾讯科技(深圳)有限公司 一种图像处理方法、装置、电子设备以及存储介质
US11741688B2 (en) 2019-04-29 2023-08-29 Tencent Technology (Shenzhen) Company Limited Image processing method and apparatus, electronic device, and storage medium
WO2021190155A1 (zh) * 2020-03-23 2021-09-30 Oppo广东移动通信有限公司 文本行中的空格识别方法、装置、电子设备及存储介质
CN111461126B (zh) * 2020-03-23 2023-08-18 Oppo广东移动通信有限公司 文本行中的空格识别方法、装置、电子设备及存储介质
CN111461126A (zh) * 2020-03-23 2020-07-28 Oppo广东移动通信有限公司 文本行中的空格识别方法、装置、电子设备及存储介质
CN111476243A (zh) * 2020-04-13 2020-07-31 中国工商银行股份有限公司 影像文字识别方法及装置
CN111401371A (zh) * 2020-06-03 2020-07-10 中邮消费金融有限公司 一种文本检测识别方法、***及计算机设备
CN113657369A (zh) * 2021-08-26 2021-11-16 北京有竹居网络技术有限公司 一种文字识别方法及其相关设备
CN113657369B (zh) * 2021-08-26 2024-05-24 北京有竹居网络技术有限公司 一种文字识别方法及其相关设备
CN114445895A (zh) * 2022-01-28 2022-05-06 上海掌门科技有限公司 一种用于确定人脸颜色的方法、设备、介质及程序产品

Also Published As

Publication number Publication date
CN104298982B (zh) 2019-03-08
US9349062B2 (en) 2016-05-24
US20150131908A1 (en) 2015-05-14
WO2015007168A1 (en) 2015-01-22

Similar Documents

Publication Publication Date Title
CN104298982A (zh) 一种文字识别方法及装置
US10896349B2 (en) Text detection method and apparatus, and storage medium
CN107093172B (zh) 文字检测方法及***
CN110008809B (zh) 表格数据的获取方法、装置和服务器
US20210224567A1 (en) Deep learning based license plate identification method, device, equipment, and storage medium
US8965127B2 (en) Method for segmenting text words in document images
JP5492205B2 (ja) 印刷媒体ページの記事へのセグメント化
CN107590447A (zh) 一种文字标题识别方法及装置
CN101122953A (zh) 一种图片文字分割的方法
CN114119676B (zh) 基于多特征信息融合的目标检测跟踪识别方法和***
CN104182750A (zh) 一种在自然场景图像中基于极值连通域的中文检测方法
CN112183511A (zh) 一种图像导出表格的方法、***、存储介质及设备
CN107766854B (zh) 一种基于模板匹配实现快速页码识别的方法
CN111191611A (zh) 基于深度学习的交通标志标号识别方法
WO2019041442A1 (zh) 图表数据结构化提取方法、***、电子设备及计算机可读存储介质
CN112507782A (zh) 文本图像的识别方法及装置
CN111461131A (zh) 身份证号码信息识别方法、装置、设备及存储介质
CN112418180A (zh) 表格数据提取方法、装置、设备及计算机存储介质
CN104915664A (zh) 联系对象标识获取方法和装置
Liu et al. A novel multi-oriented chinese text extraction approach from videos
Mullick et al. An efficient line segmentation approach for handwritten Bangla document image
JP5027201B2 (ja) テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム
JP4967045B2 (ja) 背景判別装置、方法及びプログラム
CN114926829A (zh) 一种证件检测方法、装置、电子设备及存储介质
CN112580452A (zh) 故障树的处理方法、装置、计算机可读存储介质以及处理器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant