CN102402693B - 处理包含字符的图像的方法和设备 - Google Patents

处理包含字符的图像的方法和设备 Download PDF

Info

Publication number
CN102402693B
CN102402693B CN201010280256.4A CN201010280256A CN102402693B CN 102402693 B CN102402693 B CN 102402693B CN 201010280256 A CN201010280256 A CN 201010280256A CN 102402693 B CN102402693 B CN 102402693B
Authority
CN
China
Prior art keywords
character
similarity
similar
shape
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010280256.4A
Other languages
English (en)
Other versions
CN102402693A (zh
Inventor
孙俊
于浩
直井聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201010280256.4A priority Critical patent/CN102402693B/zh
Priority to EP11168851.1A priority patent/EP2428917A3/en
Priority to US13/156,688 priority patent/US8478045B2/en
Priority to JP2011196171A priority patent/JP5691953B2/ja
Publication of CN102402693A publication Critical patent/CN102402693A/zh
Application granted granted Critical
Publication of CN102402693B publication Critical patent/CN102402693B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7635Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks based on graphs, e.g. graph cuts or spectral clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Discrete Mathematics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

提供了处理包含字符的图像的方法和设备。该方法包括:在字符集中搜索与该字符集中的某个字符(称为第一字符)在形状上相似度最高的一个或更多个字符,形成该第一字符的相似字符列表;在所述字符集中搜索与所述第一字符的相似字符列表中的每个字符在形状上相似度高的一个或更多个字符,作为所述第一字符的相似字符列表中的每个字符的相似字符列表;及在这些相似字符列表中选择彼此之间在形状上相似度高的一个或更多个字符,作为一个字符簇。

Description

处理包含字符的图像的方法和设备
技术领域
本公开涉及字符图像处理,具体而言,涉及一种处理包含字符的图像的方法和设备。
背景技术
在字符集中,会存在很多在外形上相似的字符。例如,在日文汉字字符集和韩文字符集中分别有如下相似字符:
始始拾蛤袷給                   (1)
(2)
上述两个字符组(1)和(2)可以分别作为其相应字符集中的字符类。如果首先对字符集进行粗分类,那么在识别某个待识别的字符时,可以首先初步判断该字符属于哪个类,再进一步将该字符与类中的每个字符进行比较。这样,可以大大减少字符识别所需时间,提高字符识别的效率。上述的粗分类过程是非常重要的。在字符识别时,如果利用这种错误的粗分类结果,会导致字符识别的错误。
已知存在多种聚类方法可以用于上述粗分类。其中K均值法是一种常用的聚类方法。关于K均值法,可以参见下列文献中的描述:“Data clustering:50years beyond K-means”(作者:A.K.Jain;刊于Proceedings of the 19th International Conference on PatternRecognition(ICPR),2008年)。在这种聚类方法中,首先为K个类中的每个类确定一个初始中心,并按照最小距离原则将每个样本分配到K个类中的一个;然后使用每个类中所有样本的均值作为新的中心,重复以上步骤,从而将将给定的样本集分成K类。
发明内容
下文中给出关于本公开一些方面的简要概述,以便提供关于本公开的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分,也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本公开的一些实施例提供了一种处理包含字符的图像的方法和设备。利用所述方法和设备,能够将字符集分成多个紧凑的字符簇。
根据本公开的实施方式,可以在字符集中搜索与该字符集中的某个字符(为了叙述方便,下文中将该字符称为第一字符)的图像样本在形状上相似度最高的一个或更多个字符,形成该第一字符的相似字符列表;然后,在所述字符集中搜索与第一字符的相似字符列表中的每个字符在形状上相似度高的一个或更多个字符,作为第一字符的相似字符列表中的每个字符的相似字符列表;然后,可以在这些相似字符列表中选择彼此之间在形状上相似度高的一个或更多个字符,作为一个字符簇。
附图说明
参照下面结合附图对本公开实施例的说明,会更加容易地理解本公开的以上和其它目的、特点和优点。附图中的部件不是成比例绘制的,而只是为了示出本公开的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1是示出了根据本公开的一个实施例的用于处理包含字符的图像的方法的示意性流程图;
图2是示出了在字符集中搜索某个字符的相似字符列表的方法的一个具体实施例的示意性流程图;
图3是示出了在字符集中搜索某个字符的相似字符列表的方法的另一具体实施例的示意性流程图;
图4是示出了在字符集中搜索字符的图像样本的候选字符集的方法的一个具体实施例的示意性流程图;
图5是示出了在字符集中搜索字符的图像样本的候选字符集的方法的另一具体实施例的示意性流程图;
图6是示出了根据一个示例而建立的字符簇的示意图;
图7是示出了根据本公开的一个实施例的用于处理包含字符的图像的设备的示意性结构框图;以及
图8是示出用于实现根据本公开的实施例/示例的方法的计算机的结构的示例性框图。
具体实施方式
下面参照附图来说明本公开的实施例。在本公开的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本公开无关的、本领域普通技术人员已知的部件和处理的表示和描述。
本公开的发明人注意到,一些聚类方法(如K均值聚类方法)需要预先定义簇的数目(K的值),但却没有提供用于选择该数目K的准则。另外,一些聚类方法(如K均值法)中所采用的距离度量往往与后续的字符识别处理所采用的相似度度量没有关联。例如,在这些聚类方法中仅利用两个元素之间的距离来找到每个元素的最近邻。而在进行字符识别或分类(如MQDF(修改的二次判别函数,Modified Quadratic Discriminant Function)和SVM(支持矢量机,Support Vector Machine))时计算距离往往会考虑多个类的影响。因此,利用这些聚类方法进行粗分类得到的字符类中的各个字符,在后续的字符识别或分类中往往不是彼此相似的。
本公开的一些实施例提供了处理包含字符的图像的方法和设备,能够弥补上述不足中的一个或更多个。
图1示出了根据本公开的一个实施例的用于处理包含字符的图像的方法的流程图。利用该实施例的方法,能够将字符集中的字符分成多个紧凑的字符簇。
如图1所示,该方法可以包括步骤103、107和111。
具体地,在步骤103中,对于字符集中的某个字符(称为第一字符),在字符集中搜索与第一字符在形状上相似度最高的一个或更多个字符。搜索到的这些字符形成第一字符的相似字符列表。
在本公开中,某个字符或其图像样本与另一字符的“相似度”是指这两个字符之间在外观上的相似程度,例如,上文所提及的字符组(1)或(2)中的各字符彼此在形状上是相似的。相似度可以采用任何适当的度量来表示。例如,可以计算两个字符之间的距离(如欧式距离、马式距离(Mahalanobis Distance)等),并利用该距离值来表示二者之间相似度,距离的值越小,则相似度越高,距离的值越大,则相似度越低。这里不一一列举。
可以采用任何适当的方法搜索与第一字符在形状上相似度高的字符。例如,可以利用第一字符的某个图像样本,在字符集中搜索与该图像样本在形状上相似度高的字符,作为与该第一字符的相似字符,形成该第一字符的相似字符列表。又如,还可以利用第一字符的多个图像样本来搜索该第一字符的相似字符,作为具体实施例,可以采用下文中参考图2或图3描述的方法。
可以采用任何适当的方法来搜索与某个图像样本在形状上相似度高的字符,作为具体示例,可以采用下文中将参考图4或图5所描述的方法。
作为一个示例,可以不预先限定相似字符列表中的字符个数。例如,可以设置某个相似度阈值,与第一字符的相似度大于该阈值的字符均可以作为其相似字符列表中的元素。作为另一示例,可以根据实际应用场景来预先设定相似字符列表中的字符个数(如用N表示,N≥1),然后根据各字符与第一字符的相似度选择其中相似度最大的N个。
在形成第一字符的相似字符列表之后,则在步骤107中对该列表中的每个字符作同样的处理,即在字符集中搜索与第一字符的相似字符列表中的每个字符在形状上相似度高的一个或更多个字符,作为第一字符的相似字符列表中的每个字符的相似字符列表。由于第一字符的相似字符列表包括一个或更多个字符,因此,可以得到分别与这些字符对应的一个或更多个相似字符列表。
最后,在步骤111中对出现在这些相似字符列表中的字符进行进一步的筛选,即,进一步在这些相似字符列表中选择彼此之间在形状上相似度高的一个或更多个字符,所选择的这些字符即可以作为该字符集的一个字符簇。
可以采用任何适当的方法对这些相似字符列表中的字符进行进一步的筛选,只要保证所形成的字符簇中的任意两个字符在形状上均具有相似性既可。
作为一个示例,可以在这些相似字符列表中选择彼此之间在形状上的相似度不小于某个阈值的字符,即所形成的字符簇中的任意两个字符在形状上的相似度不小于某个阈值(可以根据实际应用场景来选取该阈值,这里不作限定)。
作为另一示例,还可以采用基于最大团(Maximum Clique)的图论模型在这些相似字符列表中选择两两之间在形状上相似的字符。请参见下文中参考图6给出的基于最大团的图论模型来形成字符簇的方法的一个示例。
作为一个优选示例,所形成的字符簇中的任意两个字符均出现在彼此的相似字符列表中。
采用上述方法,可以将字符集分成多个字符簇。
在图1所示的方法中,在搜索到某个字符的相似字符列表之后,还进一步搜索该列表中每个相似字符的相似字符列表,并对这些相似字符列表进行进一步筛选从而形成字符簇。采用这种方法,可以保证所形成的字符簇中的任意两个字符之间均具有较高的相似度,从而保证了分簇的准确性和紧凑性。另外,在上述方法中,不需要预先设置字符簇的数目,即不需要预先规定将一个字符集划分成几个簇。利用这样形成的字符簇,可以提高字符处理和识别的准确度和效率。
在利用最大团的图论模型的示例中,可以保证所形成的字符簇中的字符数目达到最大化,从而最大可能地减少了字符簇的数目,为后续的任务(粗分类)提供最大化的效率保证。
图2示出了在字符集中搜索某个字符(如第一字符)的相似字符列表的方法的一个具体实施例。在图2所示的具体实施例中,搜索字符的相似字符列表的方法可以包括步骤103-1、103-2和103-3。具体地,在步骤103-1中,对于第一字符的多个图像样本中的每个图像样本,在字符集中搜索与每个图像样本在形状上相似度最高的一个或更多个字符,作为每个图像样本的候选字符集。可以采用任何适当的方法来搜索每个图像样本的候选字符集,请参见下文中参考图4和图5描述的一些示例。对于第一字符的多个图像样本,可以得到分别与每个图像样本对应的多个候选字符集。然后,在步骤103-2中,计算所得到的多个候选字符集中的每个字符在这些候选字符集中出现的频率,并在步骤103-3中,选择出现频率最高的一个或更多个字符,作为第一字符的相似字符,形成第一字符的相似字符列表。
图3示出了在字符集中搜索某个字符(如第一字符)的相似字符列表的方法的另一具体实施例。图3所示的具体实施例与图2相似,不同之处在于,还包括对候选字符集中的字符进行初步筛选的步骤。具体地,图3所示的搜索字符的相似字符列表的方法可以包括步骤303-1、303-4、303-2和303-3。步骤303-1与步骤103-1相似,这里不再重复。在步骤303-4中,去除每个候选字符集中与第一字符在形状上的相似度小于某个阈值的一个或更多个字符。换言之,判断候选字符集中的每个字符与第一字符在形状上的相似度是否小于某个阈值,若是,则将该字符剔除。应理解,这里所述的阈值可以根据实际应用场景来确定,这里不作限定。然后,在步骤303-2中,计算候选字符集中剩余的每个字符在这些候选字符集中出现的频率。最后,在步骤303-3中,选择出现频率最高的一个或更多个字符,形成第一字符的相似字符列表。与图2的方法相比,图3所示的方法可以降低计算量,提高处理的速度。
图4给出了在字符集中搜索与某个图像样本(如第一字符的某个图像样本)在形状上相似度最高的字符的一个具体示例。如图4所示,该方法可以包括步骤103-11和103-12。具体地,在步骤103-11中,计算图像样本与字符集中的每个字符之间的距离。可以采用任何适当的方法来计算图像样本与某个字符之间的距离,例如可以采用下列文献中描述的方法:“Modified Quadratic Discriminant Functions and theApplication to Chinese Character Recognition”(IEEE Transactions onPattern Analysis and Machine Intelligence,vol PAMI-9,No.1,1987年)等等,这里不作限定。图像样本与某个字符的距离的值越小,则它们之间的相似度越大。在步骤103-12中,根据所计算的距离值,选择与较小距离对应的一个或更多个字符,作为与该图像样本在形状上相似度高的字符,形成该图像样本的候选字符集。对于同一字符的多个图像样本,可以利用图4的方法找到分别与每个图像样本对应的多个候选字符集。
作为一个示例,可以采用与后续的字符识别相同的度量来计算字符与图像样本在形状上的相似度,使得所形成的字符簇的分类特性更加适用于后续的字符识别处理,从而提高字符识别和处理的准确度。
图5给出了在字符集中搜索与某个图像样本(如第一字符的某个图像样本)在形状上相似度最高的字符的另一具体示例。如图5所示,该方法可以包括步骤103-15和103-16。
具体地,在步骤103-15中,利用字符识别引擎对图像样本进行识别,得到该图像样本的识别结果。识别结果通常包括识别引擎得到的与该图像样本最为相似的一个或更多个字符以及这些字符中的每个与该图像样本在形状上的相似度。可以采用任何适当的字符识别引擎,这里不一一列举。作为一个优选示例,可以采用与后续字符识别处理相同的识别引擎。由于相同的识别引擎采用相同的相似度度量,因此,能够进一步提高字符识别和处理的准确度和效率。
在步骤103-16中,根据识别结果,在识别引擎得到的字符中选择与图像样本的相似度最大的一个或更多个字符,形成该图像样本的候选字符集。对于同一字符的多个图像样本,可以利用图5的方法找到分别与每个图像样本对应的多个候选字符集。
下面以韩文字符集为例来描述一个形成字符簇的具体示例。
为了简化说明,仅以形成包含字符(图6中用符号“ch1”来表示)的字符簇为例。可以使用该字符的多个图像样本。
首先,可以采用参考图4所描述的方法、采用OCR(光学字符识别,Optical Character Recognition)引擎对每个图像样本进行识别。
对于每个图像样本,OCR引擎的识别结果可以包括N个候选字符以及这些字符与该样本在形状上的相似度。
在本示例中,假设N=10,且利用OCR引擎所得到识别距离来表示每个候选字符与该图像样本在形状上的相似度。识别距离的值越大,则表示相似度越低;识别距离的值越小,则表示相似度越高。
表1示出了OCR引擎对字符的三个图像样本的识别结果。
表1
在得到上述三个候选字符集之后,可以对其中的字符进行筛选。具体地,可以先去除每个候选字符集中与对应的样本在形状上的相似度低的一个或更多个字符,例如,可以判断每个候选字符的识别距离是否大于某个阈值TH,若是,则去除该字符。在本示例中,可以取TH=1000。应理解,可以根据实际应用场景来选择阈值TH的值,本公开并不局限于本示例的具体数值。
然后,计算剩余的每个候选字符在上述三个候选列表中出现的频率,然后,选择出现频率大于某个频率阈值(用T_freq来表示)的字符,作为字符的相似字符列表。可以根据实际应用场景来确定T_freq的值。作为一个优选示例,T_freq可以与出现频率第二大的字符的出现频率成比例(由于出现频率最大的字符通常是第一字符自身,因此,不根据出现频率最大的字符的频率来设置该阈值)。例如,上述表1中出现频率第二大的字符是则T_freq可以等于该字符的出现频率的二分之一。
经过上述处理后,得到字符ch1的相似字符列表:
对上述列表(3)中的相似字符进行同样的处理,分别得到它们的相似字符列表:
上述列表的长度(即所包含的字符的个数)并不相同。包含在某个字符的相似字符列表中的字符,可能并不包含在另一字符的相似字符列表中。例如,相似,但与不相似。
然后,基于最大团的图论模型来形成字符簇。换言之,由于,要形成的字符簇中的任意两个字符之间需要具有足够的相似度,因此,找到这样的字符簇就是找到上述列表中的最大团。图6示出了基于上述相似列表(3)-(7)为字符建立的模型。在图6所示的图中,每个顶点(ch1-ch5)对应于相似字符列表(3)中的一个字符;如果两个顶点之间用边(线段)相连,则表示相应的两个字符之间是相似的,即彼此存在于对方的相似字符列表中。例如,ch2存在于ch5的相似字符列表(7)中,ch5存在于ch2的相似字符列表(4)中,因此,相应的顶点是相连的。在图6中,ch1、ch2、ch5是两两相连的,即这三个字符中的任意两个字符均出现在彼此的相似字符列表中,因此,这三个字符可以构成一个字符簇。由于图6所示的模型中,只有彼此相似的两个顶点才是相连的,因此两个字符之间的相似度度量可以使用非对称的度量。
上述基于最大团的簇形成方法能够有效地利用相似字符列表的内在结构,所形成的簇非常紧凑。利用该方法,没有必要预先定义所形成簇的数目。此外,该方法计算简单,可以提高处理的速度和效率。
下表2示出了利用参考图6所描述的方法对日文汉字字符集和韩文字符集进行处理之前的字符类别数目和处理之后的字符簇的数目:
表2
可以看出,采用参考图6所描述的方法进行分簇处理后,字符类别的数目从5315降低到3278。因此,利用这样形成的字符簇来降低字符类别,能够大大提高后续字符识别处理的速度和效率。
在上述表1和列表(3)-(7)中,为了清楚的目的,给出了各个字符的UTF-8编码。应理解,在实际应用中,这些字符也可以用其他类型的编码来表示,上述示例不应视为对本公开的任何限定。
图7是示出了根据本公开的一个实施例的用于处理包含字符的图像的设备700的示意性结构框图。设备700可以采用上述实施例/示例的方法将字符集分成多个字符簇。
如图7所示,设备700可以包括初选装置702以及簇形成装置704。
初选装置700在字符集中搜索与该字符集中的某个字符(称为第一字符)在形状上相似度最高的一个或更多个字符,形成该字符的相似字符列表。之后,初选装置700对第一字符的相似字符列表中的每个字符作同样的处理,即在字符集中搜索与第一字符的相似字符列表中的每个字符在形状上相似度高的一个或更多个字符,作为第一字符的相似字符列表中的每个字符的相似字符列表。
初选装置200可以采用任何适当的方法搜索与某个字符在形状上相似度高的字符。例如,可以利用该字符的某个图像样本,在字符集中搜索与该图像样本在形状上相似度高的字符,作为与该字符的相似字符,形成该字符的相似字符列表。又如,还可以利用该字符的多个图像样本来搜索该字符的相似字符,作为具体实施例,初选装置200可以采用上文中参考图2或图3描述的方法,这里不再赘述。
在初选装置200利用图2或图3的方法来形成相似字符列表的过程中,可以采用任何适当的方法来搜索与某个图像样本在形状上相似度高的字符。作为具体示例,可以采用上文中参考图4或图5所描述的方法,这里不再赘述。
作为一个示例,可以不规定相似字符列表中的字符个数。例如,可以设置某个相似度阈值,与第一字符的相似度大于该阈值的字符均可以作为其相似字符列表中的元素。作为另一示例,可以根据实际应用场景来预先设定相似字符列表中的字符个数(如用N表示,N≥1),然后根据各字符与第一字符的相似度选择其中相似度最大的N个。
簇形成装置704用于在初选装置702输出的这些相似字符列表中选择彼此在形状上相似度高的一个或更多个字符,作为一个字符簇。
簇形成装置704可以采用任何适当的方法对这些相似字符列表中的字符进行进一步的筛选,只要保证所形成的字符簇中的任意两个字符之间在形状上均具有较高的相似度既可。
作为一个示例,簇形成装置704可以在这些相似字符列表中选择彼此之间在形状上的相似度不小于某个阈值的字符,即所形成的字符簇中的任意两个字符在形状上的相似度不小于某个阈值(可以根据实际应用场景来选取该阈值,这里不作限定)。
作为另一示例,簇形成装置704还可以采用上文中描述的基于最大团(Maximum Clique)的图论模型(例如参考图6所描述的方法)在这些相似字符列表中选择两两之间在形状上的相似度最高的字符,这里不再重复。
作为一个优选示例,所形成的字符簇中的任意两个字符均出现在彼此的相似字符列表中。
采用上述设备700,可以将字符集分成多个字符簇。所形成的字符簇中的任意两个字符之间均具有较高的相似度,从而保证了分簇的准确性。另外,在上述设备中,不需要预先设置字符簇的数目,即不需要预先规定将一个字符集划分成几个簇。利用这样形成的字符簇,可以提高字符处理和识别的准确度和效率。
应理解,上述实施例和示例是示例性的,而不是穷举性的,本公开不应被视为局限于任何具体的实施例或示例。
在上述实施例和示例中,采用了“第一”、“第二”等表述(例如第一字符、第一阈值、第二阈值等)。本领域的普通技术人员应理解,上述表述只是为了对术语作文字上的区分,而并非表示其顺序或任何其他限定。
上述设备中各个组成部件、单元和子单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。
作为一个示例,在通过软件或固件实现的情况下,可以从存储介质或网络向具有专用硬件结构的计算机(例如图8所示的通用计算机800)安装构成用于实施上述方法的软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图8中,中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机存取存储器(RAM)803的程序执行各种处理。在RAM 803中,也根据需要存储当CPU 801执行各种处理等等时所需的数据。CPU 801、ROM 802和RAM 803经由总线804彼此连接。输入/输出接口805也连接到总线804。
下述部件链路到输入/输出接口805:输入部分806(包括键盘、鼠标等等)、输出部分807(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分808(包括硬盘等)、通信部分809(包括网络接口卡比如LAN卡、调制解调器等)。通信部分809经由网络比如因特网执行通信处理。根据需要,驱动器810也可链路到输入/输出接口805。可拆卸介质811比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器810上,使得从中读出的计算机程序根据需要被安装到存储部分808中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质811安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 802、存储部分808中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本公开还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本公开实施例的交叉相位调制损伤补偿方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本公开的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本公开的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。
通过以上的描述可以看出,根据本公开的实施例,提供了如下的方案:
附记1.一种处理包含字符的图像的方法,包括:
在字符集中搜索与该字符集中的某个字符在形状上相似度最高的一个或更多个字符,形成该字符的相似字符列表,下文中将该字符称为第一字符;
在所述字符集中搜索与所述第一字符的相似字符列表中的每个字符在形状上相似度高的一个或更多个字符,作为所述第一字符的相似字符列表中的每个字符的相似字符列表;及
在这些相似字符列表中选择彼此之间在形状上相似度高的一个或更多个字符,作为一个字符簇。
附记2.如附记1所述的方法,其中,在所述字符集中搜索与所述第一字符在形状上相似度最高的一个或更多个字符包括:
在所述字符集中搜索与所述第一字符的多个图像样本中的每个图像样本在形状上相似度最高的一个或更多个字符,作为每个图像样本的候选字符集,其中,得到分别与所述多个图像样本对应的多个候选字符集;及
计算所述多个候选字符集中的每个字符在所述多个候选字符集中出现的频率,并选择出现频率最高的一个或更多个字符形成所述第一字符的相似字符列表。
附记3.如附记2所述的方法,其中,在所述字符集中搜索与每个图像样本在形状上相似度最高的一个或更多个字符包括:
利用字符识别引擎分别对每个图像样本进行识别,得到对每个图像样本的识别结果,该识别结果包括与每个图像样本在形状上相似度高的一个或更多个字符及其与该每个图像样本在形状上的相似度;及
在所述识别结果中选择在形状上的相似度最大的一个或更多个字符。
附记4.如附记2或3所述的方法,其中,选择出现频率最高的一个或更多个字符形成所述第一字符的相似字符列表包括:
选择在所述多个候选字符集中出现的频率大于第一阈值的一个或更多个字符,形成所述第一字符的相似字符列表。
附记5.如附记1或2所述的方法,其中,所述字符簇中的任意两个字符出现在彼此的相似字符列表中。
附记6.如附记2或3所述的方法,其中,在计算所述多个候选字符集中的每个字符在所述多个候选字符集中出现的频率之前,所述方法还包括:
去除每个候选字符集中与所述第一字符在形状上的相似度小于第二阈值的一个或更多个字符。
附记7.如附记4所述的方法,其中,所述第一阈值与所述多个候选字符集中出现频率第二大的字符的频率值成比例。
附记8.一种处理包含字符的图像的设备,包括:
初选装置,用于在字符集中搜索与该字符集中的某个字符在形状上相似度最高的一个或更多个字符,形成该字符的相似字符列表,下文中将该字符称为第一字符;并且还用于在所述字符集中搜索与所述第一字符的相似字符列表中的每个字符在形状上相似度高的一个或更多个字符,作为所述第一字符的相似字符列表中的每个字符的相似字符列表;及
簇形成装置,用于在所述初选装置输出的这些相似字符列表中选择彼此在形状上相似度高的一个或更多个字符,作为一个字符簇。
附记9.如附记8所述的设备,其中,所述初选装置还被配置用于通过以下来搜索与所述第一字符在形状上相似度最高的一个或更多个字符:
在所述字符集中搜索与所述第一字符的多个图像样本中的每个图像样本在形状上相似度最高的一个或更多个字符,作为每个图像样本的候选字符集,其中,得到分别与所述多个图像样本对应的多个候选字符集;及
计算所述多个候选字符集中的每个字符在所述多个候选字符集中出现的频率,并选择出现频率最高的一个或更多个字符形成所述第一字符的相似字符列表。
附记10.如附记9所述的设备,其中,所述初选装置还被配置用于通过以下来搜索与每个图像样本在形状上相似度最高的一个或更多个字符:
利用字符识别引擎分别对每个图像样本进行识别,得到对每个图像样本的识别结果,该识别结果包括与每个图像样本在形状上相似度高的一个或更多个字符及其与该每个图像样本在形状上的相似度;及
在所述识别结果中选择在形状上的相似度最大的一个或更多个字符。
附记11.如附记9或10所述的设备,其中,所述初选装置还被配置用于通过以下来选择出现频率最高的一个或更多个字符形成所述第一字符的相似字符列表:
选择在所述多个候选字符集中出现的频率大于第一阈值的一个或更多个字符,形成所述第一字符的相似字符列表。
附记12.如附记8或9所述的设备,其中,所述字符簇中的任意两个字符出现在彼此的相似字符列表中。
附记13.如附记9或10所述的设备,其中,所述初选装置还被配置用于:在计算所述多个候选字符集中的每个字符在所述多个候选字符集中出现的频率之前,去除每个候选字符集中与所述第一字符在形状上的相似度小于第二阈值的一个或更多个字符。
附记14.如附记11所述的设备,其中,所述第一阈值与所述多个候选字符集中出现频率第二大的字符的频率值成比例。
尽管上面已经通过对本公开的具体实施例的描述对本公开进行了披露,但是,应该理解,本领域的技术人员可在所附附记的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开的保护范围内。

Claims (10)

1.一种处理包含字符的图像的方法,包括:
在字符集中搜索与该字符集中的某个字符在形状上相似度最高的一个或更多个字符,形成该某个字符的相似字符列表,下文中将该某个字符称为第一字符;
在所述字符集中搜索与所述第一字符的相似字符列表中的每个字符在形状上相似度高的一个或更多个字符,作为所述第一字符的相似字符列表中的每个字符的相似字符列表;及
在这些相似字符列表中选择彼此之间在形状上相似度高的一个或更多个字符,作为一个字符簇。
2.如权利要求1所述的方法,其中,在所述字符集中搜索与所述第一字符在形状上相似度最高的一个或更多个字符包括:
在所述字符集中搜索与所述第一字符的多个图像样本中的每个图像样本在形状上相似度最高的一个或更多个字符,作为每个图像样本的候选字符集,其中,得到分别与所述多个图像样本对应的多个候选字符集;及
计算所述多个候选字符集中的每个字符在所述多个候选字符集中出现的频率,并选择出现频率最高的一个或更多个字符形成所述第一字符的相似字符列表。
3.如权利要求2所述的方法,其中,在所述字符集中搜索与每个图像样本在形状上相似度最高的一个或更多个字符包括:
利用字符识别引擎分别对每个图像样本进行识别,得到对每个图像样本的识别结果,该识别结果包括与每个图像样本在形状上相似度高的一个或更多个字符及其与该每个图像样本在形状上的相似度;及
在所述识别结果中选择在形状上的相似度最大的一个或更多个字符。
4.如权利要求2或3所述的方法,其中,选择出现频率最高的一个或更多个字符形成所述第一字符的相似字符列表包括:
选择在所述多个候选字符集中出现的频率大于第一阈值的一个或更多个字符,形成所述第一字符的相似字符列表。
5.如权利要求1或2所述的方法,其中,所述字符簇中的任意两个字符出现在彼此的相似字符列表中。
6.一种处理包含字符的图像的设备,包括:
初选装置,用于在字符集中搜索与该字符集中的某个字符在形状上相似度最高的一个或更多个字符,形成该某个字符的相似字符列表,下文中将该某个字符称为第一字符;并且还用于在所述字符集中搜索与所述第一字符的相似字符列表中的每个字符在形状上相似度高的一个或更多个字符,作为所述第一字符的相似字符列表中的每个字符的相似字符列表;及
簇形成装置,用于在所述初选装置输出的这些相似字符列表中选择彼此在形状上相似度高的一个或更多个字符,作为一个字符簇。
7.如权利要求6所述的设备,其中,所述初选装置还被配置用于通过以下来搜索与所述第一字符在形状上相似度最高的一个或更多个字符:
在所述字符集中搜索与所述第一字符的多个图像样本中的每个图像样本在形状上相似度最高的一个或更多个字符,作为每个图像样本的候选字符集,其中,得到分别与所述多个图像样本对应的多个候选字符集;及
计算所述多个候选字符集中的每个字符在所述多个候选字符集中出现的频率,并选择出现频率最高的一个或更多个字符形成所述第一字符的相似字符列表。
8.如权利要求7所述的设备,其中,所述初选装置还被配置用于通过以下来搜索与每个图像样本在形状上相似度最高的一个或更多个字符:
利用字符识别引擎分别对每个图像样本进行识别,得到对每个图像样本的识别结果,该识别结果包括与每个图像样本在形状上相似度高的一个或更多个字符及其与该每个图像样本在形状上的相似度;及
在所述识别结果中选择在形状上的相似度最大的一个或更多个字符。
9.如权利要求7或8所述的设备,其中,所述初选装置还被配置用于通过以下来选择出现频率最高的一个或更多个字符形成所述第一字符的相似字符列表:
选择在所述多个候选字符集中出现的频率大于第一阈值的一个或更多个字符,形成所述第一字符的相似字符列表。
10.如权利要求6或7所述的设备,其中,所述字符簇中的任意两个字符出现在彼此的相似字符列表中。
CN201010280256.4A 2010-09-09 2010-09-09 处理包含字符的图像的方法和设备 Expired - Fee Related CN102402693B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201010280256.4A CN102402693B (zh) 2010-09-09 2010-09-09 处理包含字符的图像的方法和设备
EP11168851.1A EP2428917A3 (en) 2010-09-09 2011-06-06 Method and apparatus for processing an image comprising characters
US13/156,688 US8478045B2 (en) 2010-09-09 2011-06-09 Method and apparatus for processing an image comprising characters
JP2011196171A JP5691953B2 (ja) 2010-09-09 2011-09-08 文字を含む画像を処理する方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010280256.4A CN102402693B (zh) 2010-09-09 2010-09-09 处理包含字符的图像的方法和设备

Publications (2)

Publication Number Publication Date
CN102402693A CN102402693A (zh) 2012-04-04
CN102402693B true CN102402693B (zh) 2014-07-30

Family

ID=44118276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010280256.4A Expired - Fee Related CN102402693B (zh) 2010-09-09 2010-09-09 处理包含字符的图像的方法和设备

Country Status (4)

Country Link
US (1) US8478045B2 (zh)
EP (1) EP2428917A3 (zh)
JP (1) JP5691953B2 (zh)
CN (1) CN102402693B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663377B (zh) * 2012-03-15 2014-08-27 华中科技大学 一种基于模板匹配的字符识别方法
CN102831434B (zh) * 2012-07-03 2015-07-15 天津师范大学 基于鉴别归一化的手写汉字识别方法
US9928273B2 (en) * 2013-08-19 2018-03-27 International Business Machines Corporation Enhanced database searching and storage
RU2640322C2 (ru) 2014-01-30 2017-12-27 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы эффективного автоматического распознавания символов
RU2648638C2 (ru) 2014-01-30 2018-03-26 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы эффективного автоматического распознавания символов, использующие множество кластеров эталонов символов
US9589185B2 (en) 2014-12-10 2017-03-07 Abbyy Development Llc Symbol recognition using decision forests
CN104504410A (zh) * 2015-01-07 2015-04-08 深圳市唯特视科技有限公司 基于三维点云的三维人脸识别装置和方法
RU2652461C1 (ru) * 2017-05-30 2018-04-26 Общество с ограниченной ответственностью "Аби Девелопмент" Дифференциальная классификация с использованием нескольких нейронных сетей
US11003831B2 (en) * 2017-10-11 2021-05-11 Adobe Inc. Automatically pairing fonts using asymmetric metric learning

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3182290A (en) * 1960-10-20 1965-05-04 Control Data Corp Character reading system with sub matrix
US5303311A (en) * 1990-03-12 1994-04-12 International Business Machines Corporation Method and apparatus for recognizing characters
US5321773A (en) * 1991-12-10 1994-06-14 Xerox Corporation Image recognition method using finite state networks
US5379349A (en) * 1992-09-01 1995-01-03 Canon Research Center America, Inc. Method of OCR template enhancement by pixel weighting
EP0608148B1 (en) * 1993-01-22 2000-04-12 Canon Kabushiki Kaisha Recognition template enhancement
US5812697A (en) * 1994-06-10 1998-09-22 Nippon Steel Corporation Method and apparatus for recognizing hand-written characters using a weighting dictionary
TW274135B (zh) * 1994-09-14 1996-04-11 Hitachi Seisakusyo Kk
US5675665A (en) * 1994-09-30 1997-10-07 Apple Computer, Inc. System and method for word recognition using size and placement models
JP3425834B2 (ja) * 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
US5835638A (en) * 1996-05-30 1998-11-10 Xerox Corporation Method and apparatus for comparing symbols extracted from binary images of text using topology preserved dilated representations of the symbols
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
JP2000181993A (ja) * 1998-12-16 2000-06-30 Fujitsu Ltd 文字認識方法および装置
US6724936B1 (en) * 2000-08-23 2004-04-20 Art-Advanced Recognition Technologies, Ltd. Handwriting input device and method using a single character set
JP2002189747A (ja) * 2000-12-19 2002-07-05 Hitachi Ltd 文書情報の検索方法
KR100377432B1 (ko) * 2002-03-29 2003-05-09 주식회사 네오패드 문자/단어 생성 방법 및 이를 이용한 정보통신 서비스 방법
US7120297B2 (en) * 2002-04-25 2006-10-10 Microsoft Corporation Segmented layered image system
US7227993B2 (en) * 2003-01-27 2007-06-05 Microsoft Corporation Learning-based system and process for synthesizing cursive handwriting
US7174043B2 (en) * 2003-02-25 2007-02-06 Evernote Corp. On-line handwriting recognizer
CN101356541B (zh) * 2006-01-13 2012-05-30 富士通株式会社 帐票处理装置以及帐票处理方法
CN101256631B (zh) * 2007-02-26 2011-06-01 富士通株式会社 一种字符识别的方法、装置
CN101354703B (zh) * 2007-07-23 2010-11-17 夏普株式会社 文档图像处理装置和文档图像处理方法

Also Published As

Publication number Publication date
JP2012059269A (ja) 2012-03-22
EP2428917A3 (en) 2014-09-10
EP2428917A2 (en) 2012-03-14
US20120063687A1 (en) 2012-03-15
CN102402693A (zh) 2012-04-04
JP5691953B2 (ja) 2015-04-01
US8478045B2 (en) 2013-07-02

Similar Documents

Publication Publication Date Title
CN102402693B (zh) 处理包含字符的图像的方法和设备
Ru et al. Learning affinity from attention: End-to-end weakly-supervised semantic segmentation with transformers
US10846052B2 (en) Community discovery method, device, server and computer storage medium
EP3065090B1 (en) Learning method and recording medium background
WO2021164382A1 (zh) 针对用户分类模型进行特征处理的方法及装置
CN110188209B (zh) 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置
CN110458641B (zh) 一种电商推荐方法及***
CN110458078B (zh) 一种人脸图像数据聚类方法、***及设备
CN103258210B (zh) 一种基于字典学习的高清图像分类方法
CN110046634B (zh) 聚类结果的解释方法和装置
CN106685964B (zh) 基于恶意网络流量词库的恶意软件检测方法及***
CN104881458A (zh) 一种网页主题的标注方法和装置
CN107315984B (zh) 一种行人检索的方法及装置
CN111860656A (zh) 分类器训练方法、装置、设备以及存储介质
CN104573683A (zh) 字符串识别方法和装置
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
Mangalampalli et al. FAR-miner: a fast and efficient algorithm for fuzzy association rule mining
CN112633094B (zh) 同构图识别方法、装置、设备和介质
CN111488400A (zh) 数据分类方法、装置和计算机可读存储介质
CN111723122A (zh) 数据间关联规则的确定方法、装置、设备及可读存储介质
Gupta et al. Domain adaptation of information extraction models
CN112528021B (zh) 一种模型训练方法、模型训练装置及智能设备
Yu et al. Novel text classification based on k-nearest neighbor
CN114511905A (zh) 一种基于图卷积神经网络的人脸聚类方法
Li et al. Text segmentation by integrating hybrid strategy and non-text filtering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140730

Termination date: 20210909

CF01 Termination of patent right due to non-payment of annual fee