具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
传统技术对形近字的识别多为人工收集方式,工作量大,费时费力。当比较的文字均为印刷体时,可根据已建立的形近字库来实现形近字的识别,但当比较的文字是草书或手写体时,已建立的形近字库不可能涵盖所有的草书或手写体,对这种形近字的识别判断是一个难点。
而一个文字当是标准印刷体书写时,可能不构成形近字,但当其是草书或手写体时,相互不形近的汉字可能会构成形近字,而标准书写时的相互形近字反而可能不构成形近字了。可以明确,传统技术具有至少如下缺陷:在形近字检索中易产生形近字漏检,文字书写是动态的,静态的形近字库无法满足形近字判断的需要。
本申请提供的形近字识别判定方法,可以应用于如图1所示的应用环境中。其中,终端102可通过网络与服务器104进行通信,便于获取待识别的输入文字、由输入文字转换的输入图像、样本图像以及样本图像数据库涉及的相关数据,需要说明的是终端102也可不与服务器104进行通信,可由终端102预先存储相关数据或实时获取到相关数据,再进行识别判定等处理即可;也可由终端将实时获取到的输入文字等数据传输给服务器104,进而由服务器104对其进行识别判定处理;其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种形近字识别判定方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤210,对输入元素进行识别,提取输入元素的关联信息,并获取输入元素对应的文字;
其中,输入元素为输入图像或对输入文字按预设书写字体进行图像转换得到的图像;输入元素的关联信息包括图像特征描述符、图像特征描述符最小单元以及组合单元数据。
可以运用现有技术方法对输入元素的关联信息,例如图像特征描述符、图像特征描述符最小单元及组合单元数据等进行提取。
具体地,当输入元素为文字形式时,需要对输入文字进行图像转换,实际是OCR的反向形式,即将机器可编辑文本的输入文字的数字形式转化为文本图像形式,使输入文字固定在特定的形状,获得由输入文字按预设特定书写字体进行转换而得到的图像。从而可基于该特定的形状提取该图像的图像特征描述符、图像特征描述符最小单元及其组合单元数据信息。在一个具体的示例中,预设书写字体可以包括宋体、黑体以及当前已知的各种字体。
其中,图像特征描述符是一种能够对图像中具有相同感知内容或特征采用相同或高度相似的字符串进行记录而对图像中具有不相同感知内容或特征采用不同的字符串进行记录的一种图像特征表示形式。进一步的,该图像特征表示形式可以是描述待处理图像的图像特征的一组或多组字符串的集合,即图像特征描述符是对图像特征进行描述而得到的一组或多组字符串的集合。需要说明的是,可以采用现有技术方法提取待处理图像的图像特征描述符。
而图像特征描述符的字符串一般用于表示图像的特征点,每一特征点所对应的一个或多个字符串可以称为图像特征描述符最小单元。
具体地,图像特征描述符所描述的图像特征点一般是多个的,因而图像特征描述符最小单元也可以是多个。对待处理图像的图像特征描述符进行分割处理的过程可以为:将图像特征描述符所表示的每一图像特征点进行分割,将图像特征描述符的每一图像特征点所对应的每一个或多个字符串视为图像特征描述符最小单元。
在一个具体的示例中,图像特征描述符为用于表示图像轮廓线或图像骨架线任一像素点的位置数据与任一规格的标准坐标系坐标区域的对应关系的特征描述符;图像特征描述符最小单元为任一规格的标准坐标系的任一坐标区域所对应图像轮廓线或图像骨架线的一个或多个像素点的位置数据。
进一步的,孤立的图像特征描述符最小单元,可能没有实际应用意义,而按照预设最小单元组合规则对各最小单元进行组合,获取最小单元的组合单元,使组合后的图像特征描述符最小单元组合具有特定的含义。可以根据应用的需要,建立预设的图像特征描述符最小单元组合规则。
需要说明的是,本申请中的图像特征描述符最小单元组合数据可以用于表示一个连通域组合单元数据,也可表示一个线段组合单元数据,还可以表示用于进行存储处理的字符串数据。
在一个具体的实施例中,在对输入元素进行识别,提取输入元素的关联信息,并获取输入元素对应的文字的步骤之前还可以包括步骤:
建立样本图像数据库。
在一个具体的实施例中,建立样本图像数据库的步骤包括:
对样本图像进行图像特征描述符分割处理,得到样本图像的各图像特征描述符最小单元;图像特征描述符最小单元为对应图像特征描述符所表示的任一图像特征点的一个或多个字符串;
按照预设最小单元组合规则对各图像特征描述符最小单元进行组合,得到样本图像的各组合单元数据;
以及
获取样本图像对应的样本文字的整体笔顺组合单元、局部笔顺组合单元。
需要说明的是,样本图像数据库用于记录和存储每一样本文字及其样本图像的关联信息,其中,样本图像包括:每个汉语文字在各种字体下所构成的图样、每个非汉语文字在各种字体下所构成的图样、每个具有文字含义的商标图样、每个具有文字含义的外观设计图样、每个具有文字含义的著作权登记的美术作品图样、用户预设自定义的图像。样本文字包括汉语文字、非汉语文字。
样本图像数据库包括样本文字,样本文字的整体笔顺组合单元和局部笔顺组合单元以及样本文字对应的样本图像;样本图像数据库还包括样本图像对应的样本文字,样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;
具体的,对于输入元素为输入文字按预设特定书写字体进行转换而得到的图像的情况,可以基于现有技术获取其图像特征描述符、图像特征描述符最小单元及其组合单元数据信息(如前定义);
此外,还可以采用如下方式:
第一,以输入文字为关键词检索样本图像数据库,得到相匹配的样本文字;第二,找出该匹配的样本文字所对应的关联信息,包括:各种书写字体所形成的样本图像、图像特征描述符、图像特征描述符最小单元及组合单元数据;第三,将所获取的该样本文字所的关联信息作为该图像的关联信息。
在实际应用中,通常以上关联信息数据信息是已知的和海量的,并且构成规模庞大的样本图像大数据,这些数据均可成为本申请所依据的样本图像数据。
一般地,当输入元素为图像形式时(即输入元素为输入图像),可以对该输入图像进行文字转换,运用常用的OCR识别技术可实现图转文的转换,从而直接获取输入元素对应的文字。
此外,当输入元素为图像形式时,还可以通过以下方式获取输入元素对应的文字:
第一,以输入图像的图像特征描述符、图像特征描述符最小单元及组合单元数据为关键词,检索样本图像数据库,得到相匹配的样本文字;第二,将匹配度最高的样本文字作为输入图像对应的输入文字。
步骤220,对输入元素对应的文字进行笔顺编码,得到整体笔顺组合单元。
具体而言,对文字进行笔顺编码,获取整体笔顺组合单元,其中,笔顺编码处理是将汉字书写的笔画划分为横、竖、撇、捺、折5种并分别用1、2、3、4、5或用字母或符号表示,而按汉字规范的笔画书写顺序编码形成的笔顺字符串即可称之为整体笔顺组合单元;而笔顺可以指文字的笔画书写顺序;其中,笔画通常是指组成文字且不间断的各种特定形状的点和线。
在一个具体的实施例中,整体笔顺组合单元为按规范笔画书写顺序编码形成的笔顺字符串;笔顺字符串可以为笔顺数字串、笔顺字母串或笔顺符号串。
步骤230,对整体笔顺组合单元进行笔顺分词处理,得到局部笔顺组合单元;笔顺分词处理包括按照预设分割规则进行的分割处理和按照预设组合规则进行的组合处理。
具体而言,对笔顺字符串进行笔顺分词处理,获取按预设的分割规则进行切分和组合的局部笔顺组合单元;而对笔顺字符串进行笔顺分词处理可以包括:对笔顺字符串进行最小连笔单位的笔画做切分处理和对最小连笔单位的笔画编码做组合处理。
在一个具体的实施例中,按照预设分割规则进行的切分处理的具体方法:建立预设分割规则,包括:以整体的笔顺组合单元中最小连笔单位的笔画所对应的笔顺编码作为分割单位;对笔顺字符串中每一笔顺编码进行识别,将每一笔顺编码分割出来,并记录其笔顺编码的顺序。
按照预设组合规则进行组合处理的步骤可以包括:按照预设组合规则,对最小连笔单位的笔画编码进行组合,得到局部笔顺组合单元;而局部笔顺组合单元包括整体组合单元和局部部件组合单元;
在一个具体的实施例中,预设组合规则包括:预设组合规则包括将整体笔顺组合单元中任一文字的整体笔顺编码确认为文字的整体组合单元,以及将整体笔顺组合单元中任一文字预设笔画数的组合确认为文字的局部部件组合单元。进一步的,预设笔画数的取值范围为大于或等于2。
步骤240,以整体笔顺组合单元和局部笔顺组合单元为关键词,检索样本图像数据库,得到匹配的样本文字,并获取样本文字对应的样本图像的关联信息;样本图像的关联信息包括样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;
具体的,以整体笔顺组合单元和局部笔顺组合单元作为检索关键词,对样本图像数据库进行检索,获取匹配的样本文字及该样本文字对应的样本图像的关联信息,将该样本文字视为与输入文字构成笔顺形近字;将该样本图像的关联信息视为所述笔顺形近字的关联信息;
匹配是指检索关键词与样本图像数据库中记录的整体笔顺组合单元和局部笔顺组合单元是相同的。而以整体笔顺组合单元和局部笔顺组合单元作为检索关键词,对样本图像数据库进行检索后,得到了相匹配的整体笔顺组合单元和局部笔顺组合单元记录。可根据这些记录获取该样本文字对应的样本图像的关联信息,包括:该样本图像的图像特征描述符、图像特征描述符最小单元及其组合单元数据信息。
在样本图像数据库中,通过上述步骤的处理,整体笔顺组合单元或局部笔顺组合单元相对应的样本图像、对应的样本文字、该样本图像的图像特征描述符、图像特征描述符最小单元及其组合单元数据信息记录。经对样本图像数据库进行检索后,可间接获取笔顺单元所对应的相关信息。
步骤250,将样本文字确认为输入元素的笔顺形近字,将样本图像的关联信息确认为笔顺形近字的关联信息;根据输入元素的关联信息和笔顺形近字的关联信息、进行输入元素与样本图像的图像特征比对,得到笔顺形近字的图像特征近似率。
其中,在一个具体的实施例中,根据输入元素的关联信息和笔顺形近字的关联信息、进行输入元素与样本图像的图像特征比对,得到笔顺形近字的图像特征近似率的步骤包括:
获取输入元素与笔顺形近字的图像特征描述符最小单元匹配率、图像特征描述符最小单元不匹配率;
根据图像特征描述符最小单元匹配率和图像特征描述符最小单元不匹配率,得到图像特征近似率。
具体而言,获取图像特征近似率的实现过程可以包括:计算获取每一检索匹配的构成笔顺形近字的样本文字的样本图像与输入元素的图像特征描述符最小单元匹配率、图像特征描述符最小单元不匹配率;并根据图像特征描述符最小单元匹配率和图像特征描述符最小单元不匹配率,得到图像特征近似率。
其中,图像特征近似率是图像特征描述符最小单元匹配率减除图像特征描述符最小单元不匹配率所得的比率。其中,图像特征描述符最小单元匹配率是指输入元素的图像特征描述符最小单元与笔顺形近字的图像特征描述符最小单元相匹配的比率;图像特征描述符最小单元不匹配率是指输入元素的图像特征描述符最小单元与笔顺形近字的图像特征描述符最小单元不相匹配的比率。
在实际应用中,一方面,笔顺相同的文字并不必然构成形近字。另一方面,传统的形近字判断仅局限于同种文字之间。而本申请通过计算输入元素与前述检索出的样本文字对应的样本图像的图像特征描述符最小单元匹配率、图像特征描述符最小单元不匹配率,为判断两文字之间是否构成形近字提供有效的信息支撑,从而防止在形近字的检索中产生漏检。
在一个具体的实施例中,获取输入元素与笔顺形近字的图像特征描述符最小单元匹配率、图像特征描述符最小单元不匹配率的步骤包括:
获取输入元素的图像特征描述符最小单元的总数,笔顺形近字匹配输入元素的图像特征描述符最小单元合计数,笔顺形近字不匹配输入元素的图像特征描述符最小单元合计数;
基于以下公式得到图像特征描述符最小单元匹配率:
Ma=(Ua÷U0)×100%
其中,Ma表示图像特征描述符最小单元匹配率,U0表示输入元素的图像特征描述符最小单元的总数,Ua表示笔顺形近字匹配输入元素的图像特征描述符最小单元合计数;
基于以下公式得到图像特征描述符最小单元不匹配率:
Mi=(Uc÷U0)×100%+(n-1)×ω
其中,Mi表示像特征描述符最小单元不匹配率,U0表示输入元素的图像特征描述符最小单元的总数,Uc表示笔顺形近字不匹配输入元素的图像特征描述符最小单元合计数,n表示笔顺形近字与输入元素在图像特征线最小单元组合连线上所不相匹配的处数,ω表示处数的权数;其中,ω的取值范围为小于或等于90%。
需要说明的是,图像特征描述符最小单元组合连线指的是图像特征线。
在一个具体的实施例中,根据图像特征描述符最小单元匹配率和图像特征描述符最小单元不匹配率,得到图像特征近似率的步骤包括:
基于以下公式,得到图像特征近似率:
M=Ma-Mi×β
其中,M表示图像特征近似率,Ma表示图像特征描述符最小单元匹配率,Mi表示像特征描述符最小单元不匹配率,β表示Mi的权数;其中,β的取值范围为小于或等于90%。
步骤260,将图像特征近似率符合应用要求的笔顺形近字,确认为输入元素的形近字。
具体的,经前述步骤后,可以按图像特征近似率由大至小对前述检索结果进行排序,图像特征近似率越高的笔顺形近字越有机会构成形近字。而在实际应用中,可以选取出图像特征近似率符合应用需求的笔顺形近字,并推定为输入元素的形近字。
在一个具体的实施例中,将图像特征近似率符合应用要求的笔顺形近字,确认为输入元素的形近字的步骤之前还包括步骤:
选取出图像特征描述符最小单元匹配率大于匹配率阈值,且图像特征描述符最小单元不匹配率小于不匹配率阈值的笔顺形近字;
将图像特征近似率符合应用要求的笔顺形近字,确认为输入元素的形近字的步骤包括:
根据图像特征近似率对各笔顺形近字进行排序,将满足预设排序名次的笔顺形近字所对应的文字确认为输入元素的形近字。
在一个具体的实施例中,上述匹配率阈值为30%;不匹配率阈值为70%;预设排序名次为小于300。
上述形近字识别判定方法中,基于海量的知识数据信息(例如,样本图像数据库等),以整体笔顺组合单元和局部笔顺组合单元作为检索关键词,对样本图像数据库进行检索,获取匹配笔顺组合单元的样本文字和该样本文字的关联信息,将该样本文字视为与输入文字构成笔顺形近字,对笔顺形近字进行图像特征近似率评价处理,获取每一检索出的构成笔顺形近字的样本文字与输入文字的图像特征近似率,选取出图像特征近似率符合应用要求的笔顺形近字,将选取出的笔顺形近字所对应的文字确认为输入文字的形近字,将笔顺编码和文字的图像特征相结合的分析判断,从而实现将笔顺编码和文字的图像特征相结合的笔顺形近字所对应的文字推定为输入元素的形近字;
本申请对动态输入的文字或文字图形进行形近字的识别与判定,有效解决动态书写文字时形近字识别和判定的难题,克服传统技术方法在形近字检索中易产生形近字漏检,对动态书写的文字采用静态的形近字库无法满足形近字判断的需要的局限或缺陷,能通过大数据的关联信息(例如、图像特征描述符等)推定识别出形近字的信息,改善形近字检索的效果,以提高形近字检索的查全率和查准率,提高其识别的准确率。
在一个实施例中,如图3所示,提供了一种形近字识别判定方法,本实施例是在上述实施例的基础上进行具体化。以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤S310,建立样本图像数据库;
步骤S320,对输入元素进行识别,提取输入元素的关联信息,并获取输入元素对应的文字;其中,输入元素为输入图像或对输入文字按预设书写字体进行图像转换得到的图像;输入元素的关联信息包括图像特征描述符、图像特征描述符最小单元以及组合单元数据;
步骤S330,对输入元素对应的文字进行笔顺编码,得到整体笔顺组合单元;
步骤S340,对整体笔顺组合单元进行笔顺分词处理,得到局部笔顺组合单元;笔顺分词处理包括按照预设分割规则进行的分割处理和按照预设组合规则进行的组合处理;
步骤S350,以整体笔顺组合单元和局部笔顺组合单元为关键词,检索样本图像数据库,得到匹配的样本文字,并获取样本文字对应的样本图像的关联信息;样本图像的关联信息包括样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;
步骤S360,将样本文字确认为输入元素的笔顺形近字,将样本图像的关联信息确认为笔顺形近字的关联信息;根据输入元素的关联信息和笔顺形近字的关联信息、进行输入元素与样本图像的图像特征比对,得到笔顺形近字的图像特征近似率;
步骤S370,将图像特征近似率符合应用要求的笔顺形近字,确认为输入元素的形近字。
具体而言,步骤S310中建立样本图像数据库时,还可记录样本图像对应的文字和图像特征描述符、图像特征描述符最小单元及其组合单元数据信息;其中,样本图像包括:每个汉语文字在各种字体下所构成的图样、每个非汉语文字在各种字体下所构成的图样、每个具有文字含义的商标图样、每个具有文字含义的外观设计图样、每个具有文字含义的著作权登记的美术作品图样、用户预设自定义的图像;
样本文字可以包括:汉语文字、非汉语文字;
而步骤S320~步骤S370的具体实现过程可参照前述步骤S210~步骤S260的具体说明。
如图3所示,下面结合一个具体的例子对本实施例进行说明。
步骤1,建立样本图像数据库,并提取和记录样本图像对应的样本文字,样本图像的图像特征描述符、图像特征描述符最小单元及其组合单元数据信息;以及提取和记录样本文字对应的样本图像,样本文字的整体笔顺组合单元和局部笔顺组合单元;
在实际应用中,通常以上数据信息是已知的和海量的,并且构成规模庞大的样本图像大数据,这些数据均可成为本申请所依据的样本图像数据。
步骤2,按照预设特定书写字体对输入文字进行图像转换,得到输入文字对应的图像,并提取该图像的图像特征描述符、图像特征描述符最小单元及其组合单元数据信息。或,
直接提取输入图像的图像特征描述符、图像特征描述符最小单元及其组合单元数据信息。
步骤3,对输入文字(或该输入图像对应的文字)进行笔顺编码,获取整体笔顺组合单元,其中,笔顺编码是将汉字书写的笔画划分为横、竖、撇、捺、折5种并分别用1、2、3、4、5或用字母或符号表示,按汉字规范的笔画书写顺序编码形成笔顺字符串,笔顺字符串包括:笔顺数字串或笔顺字母串或笔顺符号串;
笔顺是指文字的笔画书写顺序,其中,笔画通常是指组成文字且不间断的各种特定形状的点和线,以汉字为例,根据统计,汉字的笔画有三十多种,但是最基本的笔画可以划分为五种,包括:横(一)、竖(丨)、撇(丿)、点(丶)、折(乛),它是构成汉字字形的最小连笔单位或最小结构单位。而其他笔画可以归入其中之一的分类,如“提”归入为“横”,“点”归入为“捺”,“竖钩”、“竖提”、“弯钩”归入为竖,而“横折”、“横折钩”、“横撇”、“横钩”、“竖弯钩”、“撇折”、“竖提”、“竖折”、“撇点”、“竖折折钩”、“斜钩”、“横撇弯钩”、“横折提”、“横折弯钩”、“竖弯”、“横折弯”、“横折折折钩”、“横斜钩”、“横折折撇”、“竖折撇”、“竖折折”、“横折折”、“横折折折”归入为折。
笔顺编码就是为了记录文字中具体的笔画和书写顺序而预设的一组编码,在某一实施例中,1代表“横”,2代表“竖”,3代表“撇”,4代表“捺”,5代表“折”。具体地,笔顺编码是将汉字书写的笔画划分为横、竖、撇、捺、折5种并分别用1、2、3、4、5或用字母或符号表示,按汉字规范的笔画书写顺序编码形成笔顺字符串,笔顺字符串包括:笔顺数字串或笔顺字母串或笔顺符号串。
以“城”字为例,该字的总笔画数是9,笔画包括:横、竖、横、横、撇、斜钩、横折钩、撇、点,相应的笔顺编码为121135534。
步骤4,对整体笔顺组合单元(即笔顺字符串)进行笔顺分词处理,获取按预设的分割规则进行切分和组合的局部笔顺组合单元;
对笔顺字符串进行笔顺分词处理,包括:对笔顺字符串进行最小连笔单位的笔画做分割处理和对最小连笔单位的笔画编码做组合处理。
处理方法说明如下:
第一,对笔顺字符串进行最小连笔单位的笔画做分割处理。
对笔顺字符串进行最小连笔单位的笔画做分割处理就是对笔顺字符串的最小连笔单位的笔画进行识别,将笔顺字符串中的最小连笔单位的笔画分割出来。
如以前述的“城”字为例,将该字的笔顺字符串的9个笔画所对应的笔顺编码“121135534”分割出来,以获得最小连笔单位的笔画编码分别为:1、2、1、1、3、5、5、3、4。
第二,对最小连笔单位的笔画编码进行组合处理。
对最小连笔单位的笔画编码进行组合处理就是对最小连笔单位的笔画编码按照预设的组合规则进行组合,得到局部笔顺组合单元,其中,局部笔顺组合单元是指笔顺编码所表示的文字的任一局部笔画所构成的多个文字部件及其笔画顺序。
预设的组合规则,包括:
1)每一文字的整体笔顺编码视为该文字的整体组合单元;
2)每一文字预设笔画数的组合视为该文字的局部部件组合单元,其中,预设笔画数在等于或大于2取值;
如以前述的“城”字为例,该字的整体组合单元为:121135534;
假设预设笔画数为3,则该字的局部部件组合单元分别为:
121135534;
12113553;
1211355;
121135;
12113;
1211;
121;
21135534;
2113553;
211355;
21135;
2113;
211;
1135534;
113553;
11355;
1135;
113;
135534;
13553;
1355;
135;
35534;
3553;
355;
5534;
553;
534。
步骤5,以整体笔顺组合单元和局部笔顺组合单元作为检索关键词,对样本图像数据库进行检索,获取匹配的笔顺形近字;以及该笔顺形近字的关联信息;
匹配的笔顺形近字即为匹配的样本文字;笔顺形近字的关联信息指的是样本文字对应的样本图像的图像特征描述符最小单元及其组合单元数据信息;
匹配是指检索关键词与样本图像数据库中记录的整体笔顺组合单元和局部笔顺组合单元是相同的。
以整体笔顺组合单元和局部笔顺组合单元作为检索关键词,对样本图像数据库进行检索后,获取匹配的样本文字和该样本文字的关联信息,将该样本文字视为与输入文字构成笔顺形近字。
在样本图像数据库中,通过上述步骤的处理,整体笔顺组合单元或局部笔顺组合单元有相对应的样本文字的关联信息,包括:样本图像、对应的文字、该样本图像的图像特征描述符最小单元及其组合单元数据信息记录。经对样本图像数据库进行检索后,可间接获取笔顺单元所对应的相关信息。
步骤6,对笔顺形近字进行处理,获取每一检索出的构成笔顺形近字的样本文字与输入文字的图像特征近似率;
在具体实施例中,笔顺相同的文字并不必然构成形近字。以图4、图5为例:虽然,两字的笔画数均为4画,笔顺编码均为2534,但两字之间的字形明显不同,不应构成形近字,如果仅依赖笔顺编码来判断形近字时,会产生形近字的判断错误。
另一方面,传统的形近字判断仅局限于同种文字之间,其实,不同种的文字之间也会产生形近字。例如:汉字“口”与英文字母“O”或符号“□”可以构成形近字;汉字的“丁”与大写英文字母“T”可以构成形近字,等等。
在实际应用中,为了防止在形近字的检索中产生漏检。可以通过计算输入文字对应的输入图像与前述检索出的样本文字对应的样本图像的图像特征近似率(即获取输入元素与笔顺形近字之间的图像特征近似率),为判断两文字之间是否构成形近字提供有效的信息支撑。
获取输入元素与笔顺形近字之间的图像特征近似率的方法可以包括:
图像特征近似率是图像特征描述符最小单元匹配率减除图像特征描述符最小单元不匹配率所得的比率。其中,图像特征描述符最小单元匹配率是指输入元素的图像特征描述符最小单元与笔顺形近字的图像特征描述符最小单元相匹配的比率;图像特征描述符最小单元不匹配率是指输入元素的图像特征描述符最小单元与笔顺形近字的图像特征描述符最小单元不相匹配的比率。
基于如下公式,可获取图像特征描述符最小单元匹配率、图像特征描述符最小单元不匹配率和图像特征近似率。
1、图像特征描述符最小单元匹配率:
Ma=(Ua÷U0)×100%
其中,Ma表示图像特征描述符最小单元匹配率,U0表示输入元素的图像特征描述符最小单元的总数,Ua表示样本图像中与输入图像相匹配的图像特征描述符最小单元合计数;
2、图像特征描述符最小单元不匹配率:
Mi=(Uc÷U0)×100%+(n-1)×ω
其中,Mi表示图像特征描述符最小单元不匹配率,U0表示输入元素的图像特征描述符最小单元的总数,Uc表示样本图像中与输入图像不匹配的图像特征描述符最小单元合计数,n表示样本图像与输入图像在图像特征描述符最小单元组合连线上所不相匹配的处数,ω表示处数的权数;其中,ω的取值范围为小于或等于90%;
3、图像特征近似率:
M=Ma-Mi×β
其中,M表示图像特征近似率,β表示Mi的权数;其中,β的取值范围为小于或等于90%。
步骤7,选取出图像特征近似率满足应用需求的笔顺形近字,并将选取出的笔顺形近字推定为输入元素的形近字。
经前述计算后,可以按图像特征近似率由大至小对前述检索结果进行排序,图像特征近似率越高的文字越有机会构成形近字。
在实际应用中,可以选取出图像特征近似率符合预设阈值的笔顺形近字。
在实际应用中,可根据应用需要预设图像特征描述符最小单元匹配率、预设图像特征描述符最小单元不匹配率和预设图像特征近似率及预设排序名次,一般地,预设图像特征描述符最小单元匹配率在大于30%取值,预设图像特征描述符最小单元不匹配率在小于70%取值,预设图像特征近似率在大于30%取值,预设排序名次在小于300取值。
预设排序是指以匹配的样本图像所获得的图像特征近似率进行排序。将满足预设排序名次的笔顺形近字所对应的文字推定为输入元素的形近字。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种形近字识别判定装置,包括:
识别提取模块610,用于对输入元素进行识别,提取输入元素的关联信息,并获取输入元素对应的文字;其中,输入元素为输入图像或对输入文字按预设书写字体进行图像转换得到的图像;输入元素的关联信息包括图像特征描述符、图像特征描述符最小单元以及组合单元数据;
编码模块620,用于对输入元素对应的文字进行笔顺编码,得到整体笔顺组合单元;
分词模块630,用于对整体笔顺组合单元进行笔顺分词处理,得到局部笔顺组合单元;笔顺分词处理包括按照预设分割规则进行的分割处理和按照预设组合规则进行的组合处理;
检索模块640,用于以整体笔顺组合单元和局部笔顺组合单元为关键词,检索样本图像数据库,得到匹配的样本文字,并获取样本文字对应的样本图像的关联信息;样本图像的关联信息包括样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;
图像特征近似率获取模块650,用于将样本文字确认为输入元素的笔顺形近字,将样本图像的关联信息确认为笔顺形近字的关联信息;根据输入元素的关联信息和笔顺形近字的关联信息、进行输入元素与样本图像的图像特征比对,得到笔顺形近字的图像特征近似率;
选取模块660,用于将图像特征近似率符合应用要求的笔顺形近字,确认为输入元素的形近字。
关于形近字识别判定装置的具体限定可以参见上文中对于形近字识别判定方法的限定,在此不再赘述。上述形近字识别判定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,也可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储输入文字、由输入文字转换的输入图像、样本图像以及样本图像数据库等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。该计算机程序被处理器执行时以实现一种形近字识别判定方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
对输入元素进行识别,提取输入元素的关联信息,并获取输入元素对应的文字;其中,输入元素为输入图像或对输入文字按预设书写字体进行图像转换得到的图像;输入元素的关联信息包括图像特征描述符、图像特征描述符最小单元以及组合单元数据;
对输入元素对应的文字进行笔顺编码,得到整体笔顺组合单元;
对整体笔顺组合单元进行笔顺分词处理,得到局部笔顺组合单元;笔顺分词处理包括按照预设分割规则进行的分割处理和按照预设组合规则进行的组合处理;
以整体笔顺组合单元和局部笔顺组合单元为关键词,检索样本图像数据库,得到匹配的样本文字,并获取样本文字对应的样本图像的关联信息;样本图像的关联信息包括样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;
将样本文字确认为输入元素的笔顺形近字,将样本图像的关联信息确认为笔顺形近字的关联信息;根据输入元素的关联信息和笔顺形近字的关联信息、进行输入元素与样本图像的图像特征比对,得到笔顺形近字的图像特征近似率;
将图像特征近似率符合应用要求的笔顺形近字,确认为输入元素的形近字。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述形近字识别判定方法中的各步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。