CN109190615A - 形近字识别判定方法、装置、计算机设备和存储介质 - Google Patents

形近字识别判定方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109190615A
CN109190615A CN201810834750.7A CN201810834750A CN109190615A CN 109190615 A CN109190615 A CN 109190615A CN 201810834750 A CN201810834750 A CN 201810834750A CN 109190615 A CN109190615 A CN 109190615A
Authority
CN
China
Prior art keywords
calligraphy
order
image
strokes observed
word form
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810834750.7A
Other languages
English (en)
Other versions
CN109190615B (zh
Inventor
徐庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan Guofang Software Technology Co ltd
Xu Qing
Foshan Guofang Identification Technology Co Ltd
Original Assignee
Foshan Country Trademark Services Co Ltd
Foshan National Trademark Identification Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan Country Trademark Services Co Ltd, Foshan National Trademark Identification Technology Co Ltd filed Critical Foshan Country Trademark Services Co Ltd
Priority to CN201810834750.7A priority Critical patent/CN109190615B/zh
Publication of CN109190615A publication Critical patent/CN109190615A/zh
Application granted granted Critical
Publication of CN109190615B publication Critical patent/CN109190615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种形近字识别判定方法、装置、计算机设备和存储介质;其中,形近字识别判定方法包括以下步骤:对输入元素进行识别,提取输入元素的关联信息,并获取输入元素对应的文字;对输入元素对应的文字进行笔顺编码,得到整体笔顺组合单元;对整体笔顺组合单元进行笔顺分词处理,得到局部笔顺组合单元;以整体笔顺组合单元和局部笔顺组合单元为关键词,检索样本图像数据库,得到笔顺形近字以及图像特征近似率;将图像特征近似率符合应用要求的笔顺形近字,确认为输入元素的形近字。本发明能够提高形近字检索的查全率和查准率,提高其识别的准确率。

Description

形近字识别判定方法、装置、计算机设备和存储介质
技术领域
本申请涉及图像识别技术领域,特别是涉及一种形近字识别判定方法、装置、计算机设备和存储介质。
背景技术
形近字是指在字形结构上相近的汉字,形近字是成组出现的,单个汉字不是形近字,只有在与其他汉字进行比较时,比较双方文字在字形结构上相近时才能被称为形近字。形近字的判断在一定的情度上具有主观性,受多种因素的影响,不同人的主观判断的结果可能并不一致,尤其是当不知道具体的比较对象时,如何准确找出和判定形近字,一直是形近字信息检索的难题。
目前形近字的获取主要靠人工建立形近字库而获取,在实现过程中,发明人发现传统技术中至少存在如下问题:在形近字检索中易产生形近字漏检,例如,当前形近字库无法满足动态的、书写形近字的判断需要。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效克服形近字检索中易产生形近字漏检的形近字识别判定方法、装置、计算机设备和存储介质。
为了实现上述目的,一方面,本发明实施例提供了一种形近字识别判定方法,包括:
对输入元素进行识别,提取输入元素的关联信息,并获取输入元素对应的文字;其中,输入元素为输入图像或对输入文字按预设书写字体进行图像转换得到的图像;输入元素的关联信息包括图像特征描述符、图像特征描述符最小单元以及组合单元数据;
对输入元素对应的文字进行笔顺编码,得到整体笔顺组合单元;
对整体笔顺组合单元进行笔顺分词处理,得到局部笔顺组合单元;笔顺分词处理包括按照预设分割规则进行的分割处理和按照预设组合规则进行的组合处理;
以整体笔顺组合单元和局部笔顺组合单元为关键词,检索样本图像数据库,得到匹配的样本文字,并获取样本文字对应的样本图像的关联信息;样本图像的关联信息包括样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;
将样本文字确认为输入元素的笔顺形近字,将样本图像的关联信息确认为笔顺形近字的关联信息;根据输入元素的关联信息和笔顺形近字的关联信息、进行输入元素与样本图像的图像特征比对,得到笔顺形近字的图像特征近似率;
将图像特征近似率符合应用要求的笔顺形近字,确认为输入元素的形近字。
一方面,本发明实施例还提供了一种形近字识别判定装置,包括:
识别提取模块,用于对输入元素进行识别,提取输入元素的关联信息,并获取输入元素对应的文字;其中,输入元素为输入图像或对输入文字按预设书写字体进行图像转换得到的图像;输入元素的关联信息包括图像特征描述符、图像特征描述符最小单元以及组合单元数据;
编码模块,用于对输入元素对应的文字进行笔顺编码,得到整体笔顺组合单元;
分词模块,用于对整体笔顺组合单元进行笔顺分词处理,得到局部笔顺组合单元;笔顺分词处理包括按照预设分割规则进行的分割处理和按照预设组合规则进行的组合处理;
检索模块,用于以整体笔顺组合单元和局部笔顺组合单元为关键词,检索样本图像数据库,得到匹配的样本文字,并获取样本文字对应的样本图像的关联信息;样本图像的关联信息包括样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;
图像特征近似率获取模块,用于将样本文字确认为输入元素的笔顺形近字,将样本图像的关联信息确认为笔顺形近字的关联信息;根据输入元素的关联信息和笔顺形近字的关联信息、进行输入元素与样本图像的图像特征比对,得到笔顺形近字的图像特征近似率;
选取模块,用于将图像特征近似率符合应用要求的笔顺形近字,确认为输入元素的形近字。
一方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述形近字识别判定方法的步骤。
另一方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述形近字识别判定方法的步骤。
上述技术方案中的一个技术方案具有如下优点和有益效果:
基于海量的知识数据信息(例如,样本图像数据库等),以整体笔顺组合单元和局部笔顺组合单元作为检索关键词,对样本图像数据库进行检索,获取匹配的笔顺形近字,并计算输入元素与检索出的笔顺形近字的图像特征近似率,将笔顺编码和文字的图像特征相结合的分析判断,从而实现将笔顺编码和文字的图像特征相结合的笔顺形近字所对应的文字推定为输入元素的形近字;本申请对动态输入的文字或文字图形进行形近字的识别与判定,有效解决动态书写文字时形近字识别和判定的难题,克服传统技术方法在形近字检索中易产生形近字漏检,对动态书写的文字采用静态的形近字库无法满足形近字判断的需要的局限或缺陷,能通过大数据的关联信息(例如、图像特征描述符等)推定识别出形近字的信息,改善形近字检索的效果,以提高形近字检索的查全率和查准率,提高其识别的准确率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为一个实施例中形近字识别判定方法的应用环境图;
图2为一个实施例中形近字识别判定方法的第一示意性流程示意图;
图3为一个实施例中形近字识别判定方法的第二示意性流程示意图;
图4为一个实施例中获取图像特征近似率的第一示意性文字图片;
图5为一个实施例中获取图像特征近似率的第二示意性文字图片;
图6为一个实施例中形近字识别判定装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
传统技术对形近字的识别多为人工收集方式,工作量大,费时费力。当比较的文字均为印刷体时,可根据已建立的形近字库能较来实现形近字的识别,但当比较的文字是草书或手写体时,已建立的形近字库不可能涵盖所有的草书或手写体,对这种形近字的识别判断是一个难点。
而一个文字当是标准印刷体书写时,可能不构成形近字,但当其是草书或手写体时,相互不形近的汉字可能会构成形近字,而标准书写时的相互形近字反而可能不构成形近字了。可以明确,传统技术具有至少如下缺陷:在形近字检索中易产生形近字漏检,文字书写是动态的,静态的形近字库无法满足形近字判断的需要。
本申请提供的形近字识别判定方法,可以应用于如图1所示的应用环境中。其中,终端102可通过网络与服务器104进行通信,便于获取待识别的输入文字、由输入文字转换的输入图像、样本图像以及样本图像数据库涉及的相关数据,需要说明的是终端102也可不与服务器104进行通信,可由终端102预先存储相关数据或实时获取到相关数据,再进行识别判定等处理即可;也可由终端将实时获取到的输入文字等数据传输给服务器104,进而由服务器104对其进行识别判定处理;其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种形近字识别判定方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤210,对输入元素进行识别,提取输入元素的关联信息,并获取输入元素对应的文字;
其中,输入元素为输入图像或对输入文字按预设书写字体进行图像转换得到的图像;输入元素的关联信息包括图像特征描述符、图像特征描述符最小单元以及组合单元数据。
可以运用现有技术方法对输入元素的关联信息,例如图像特征描述符、图像特征描述符最小单元及组合单元数据等进行提取。
具体地,当输入元素为文字形式时,需要对输入文字进行图像转换,实际是OCR的反向形式,即将机器可编辑文本的输入文字的数字形式转化为文本图像形式,使输入文字固定在特定的形状,获得由输入文字按预设特定书写字体进行转换而得到的图像。从而可基于该特定的形状提取该图像的图像特征描述符、图像特征描述符最小单元及其组合单元数据信息。在一个具体的示例中,预设书写字体可以包括宋体、黑体以及当前已知的各种字体。
其中,图像特征描述符是一种能够对图像中具有相同感知内容或特征采用相同或高度相似的字符串进行记录而对图像中具有不相同感知内容或特征采用不同的字符串进行记录的一种图像特征表示形式。进一步的,该图像特征表示形式可以是描述待处理图像的图像特征的一组或多组字符串的集合,即图像特征描述符是对图像特征进行描述而得到的一组或多组字符串的集合。需要说明的是,可以采用现有技术方法提取待处理图像的图像特征描述符。
而图像特征描述符的字符串一般用于表示图像的特征点,每一特征点所对应的一个或多个字符串可以称为图像特征描述符最小单元。
具体地,图像特征描述符所描述的图像特征点一般是多个的,因而图像特征描述符最小单元也可以是多个。对待处理图像的图像特征描述符进行分割处理的过程可以为:将图像特征描述符所表示的每一图像特征点进行分割,将图像特征描述符的每一图像特征点所对应的每一个或多个字符串视为图像特征描述符最小单元。
在一个具体的示例中,图像特征描述符为用于表示图像轮廓线或图像骨架线任一像素点的位置数据与任一规格的标准坐标系坐标区域的对应关系的特征描述符;图像特征描述符最小单元为任一规格的标准坐标系的任一坐标区域所对应图像轮廓线或图像骨架线的一个或多个像素点的位置数据。
进一步的,孤立的图像特征描述符最小单元,可能没有实际应用意义,而按照预设最小单元组合规则对各最小单元进行组合,获取最小单元的组合单元,使组合后的图像特征描述符最小单元组合具有特定的含义。可以根据应用的需要,建立预设的图像特征描述符最小单元组合规则。
需要说明的是,本申请中的图像特征描述符最小单元组合数据可以用于表示一个连通域组合单元数据,也可表示一个线段组合单元数据,还可以表示用于进行存储处理的字符串数据。
在一个具体的实施例中,在对输入元素进行识别,提取输入元素的关联信息,并获取输入元素对应的文字的步骤之前还可以包括步骤:
建立样本图像数据库。
在一个具体的实施例中,建立样本图像数据库的步骤包括:
对样本图像进行图像特征描述符分割处理,得到样本图像的各图像特征描述符最小单元;图像特征描述符最小单元为对应图像特征描述符所表示的任一图像特征点的一个或多个字符串;
按照预设最小单元组合规则对各图像特征描述符最小单元进行组合,得到样本图像的各组合单元数据;
以及
获取样本图像对应的样本文字的整体笔顺组合单元、局部笔顺组合单元。
需要说明的是,样本图像数据库用于记录和存储每一样本文字及其样本图像的关联信息,其中,样本图像包括:每个汉语文字在各种字体下所构成的图样、每个非汉语文字在各种字体下所构成的图样、每个具有文字含义的商标图样、每个具有文字含义的外观设计图样、每个具有文字含义的著作权登记的美术作品图样、用户预设自定义的图像。样本文字包括汉语文字、非汉语文字。
样本图像数据库包括样本文字,样本文字的整体笔顺组合单元和局部笔顺组合单元以及样本文字对应的样本图像;样本图像数据库还包括样本图像对应的样本文字,样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;
具体的,对于输入元素为输入文字按预设特定书写字体进行转换而得到的图像的情况,可以基于现有技术获取其图像特征描述符、图像特征描述符最小单元及其组合单元数据信息(如前定义);
此外,还可以采用如下方式:
第一,以输入文字为关键词检索样本图像数据库,得到相匹配的样本文字;第二,找出该匹配的样本文字所对应的关联信息,包括:各种书写字体所形成的样本图像、图像特征描述符、图像特征描述符最小单元及组合单元数据;第三,将所获取的该样本文字所的关联信息作为该图像的关联信息。
在实际应用中,通常以上关联信息数据信息是已知的和海量的,并且构成规模庞大的样本图像大数据,这些数据均可成为本申请所依据的样本图像数据。
一般地,当输入元素为图像形式时(即输入元素为输入图像),可以对该输入图像进行文字转换,运用常用的OCR识别技术可实现图转文的转换,从而直接获取输入元素对应的文字。
此外,当输入元素为图像形式时,还可以通过以下方式获取输入元素对应的文字:
第一,以输入图像的图像特征描述符、图像特征描述符最小单元及组合单元数据为关键词,检索样本图像数据库,得到相匹配的样本文字;第二,将匹配度最高的样本文字作为输入图像对应的输入文字。
步骤220,对输入元素对应的文字进行笔顺编码,得到整体笔顺组合单元。
具体而言,对文字进行笔顺编码,获取整体笔顺组合单元,其中,笔顺编码处理是将汉字书写的笔画划分为横、竖、撇、捺、折5种并分别用1、2、3、 4、5或用字母或符号表示,而按汉字规范的笔画书写顺序编码形成的笔顺字符串即可称之为整体笔顺组合单元;而笔顺可以指文字的笔画书写顺序;其中,笔画通常是指组成文字且不间断的各种特定形状的点和线。
在一个具体的实施例中,整体笔顺组合单元为按规范笔画书写顺序编码形成的笔顺字符串;笔顺字符串可以为笔顺数字串、笔顺字母串或笔顺符号串。
步骤230,对整体笔顺组合单元进行笔顺分词处理,得到局部笔顺组合单元;笔顺分词处理包括按照预设分割规则进行的分割处理和按照预设组合规则进行的组合处理。
具体而言,对笔顺字符串进行笔顺分词处理,获取按预设的分割规则进行切分和组合的局部笔顺组合单元;而对笔顺字符串进行笔顺分词处理可以包括:对笔顺字符串进行最小连笔单位的笔画做切分处理和对最小连笔单位的笔画编码做组合处理。
在一个具体的实施例中,按照预设分割规则进行的切分处理的具体方法:建立预设分割规则,包括:以整体的笔顺组合单元中最小连笔单位的笔画所对应的笔顺编码作为分割单位;对笔顺字符串中每一笔顺编码进行识别,将每一笔顺编码分割出来,并记录其笔顺编码的顺序。
按照预设组合规则进行组合处理的步骤可以包括:按照预设组合规则,对最小连笔单位的笔画编码进行组合,得到局部笔顺组合单元;而局部笔顺组合单元包括整体组合单元和局部部件组合单元;
在一个具体的实施例中,预设组合规则包括:预设组合规则包括将整体笔顺组合单元中任一文字的整体笔顺编码确认为文字的整体组合单元,以及将整体笔顺组合单元中任一文字预设笔画数的组合确认为文字的局部部件组合单元。进一步的,预设笔画数的取值范围为大于或等于2。
步骤240,以整体笔顺组合单元和局部笔顺组合单元为关键词,检索样本图像数据库,得到匹配的样本文字,并获取样本文字对应的样本图像的关联信息;样本图像的关联信息包括样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;
具体的,以整体笔顺组合单元和局部笔顺组合单元作为检索关键词,对样本图像数据库进行检索,获取匹配的样本文字及该样本文字对应的样本图像的关联信息,将该样本文字视为与输入文字构成笔顺形近字;将该样本图像的关联信息视为所述笔顺形近字的关联信息;
匹配是指检索关键词与样本图像数据库中记录的整体笔顺组合单元和局部笔顺组合单元是相同的。而以整体笔顺组合单元和局部笔顺组合单元作为检索关键词,对样本图像数据库进行检索后,得到了相匹配的整体笔顺组合单元和局部笔顺组合单元记录。可根据这些记录获取该样本文字对应的样本图像的关联信息,包括:该样本图像的图像特征描述符、图像特征描述符最小单元及其组合单元数据信息。
在样本图像数据库中,通过上述步骤的处理,整体笔顺组合单元或局部笔顺组合单元相对应的样本图像、对应的样本文字、该样本图像的图像特征描述符、图像特征描述符最小单元及其组合单元数据信息记录。经对样本图像数据库进行检索后,可间接获取笔顺单元所对应的相关信息。
步骤250,将样本文字确认为输入元素的笔顺形近字,将样本图像的关联信息确认为笔顺形近字的关联信息;根据输入元素的关联信息和笔顺形近字的关联信息、进行输入元素与样本图像的图像特征比对,得到笔顺形近字的图像特征近似率。
其中,在一个具体的实施例中,根据输入元素的关联信息和笔顺形近字的关联信息、进行输入元素与样本图像的图像特征比对,得到笔顺形近字的图像特征近似率的步骤包括:
获取输入元素与笔顺形近字的图像特征描述符最小单元匹配率、图像特征描述符最小单元不匹配率;
根据图像特征描述符最小单元匹配率和图像特征描述符最小单元不匹配率,得到图像特征近似率。
具体而言,获取图像特征近似率的实现过程可以包括:计算获取每一检索匹配的构成笔顺形近字的样本文字的样本图像与输入元素的图像特征描述符最小单元匹配率、图像特征描述符最小单元不匹配率;并根据图像特征描述符最小单元匹配率和图像特征描述符最小单元不匹配率,得到图像特征近似率。
其中,图像特征近似率是图像特征描述符最小单元匹配率减除图像特征描述符最小单元不匹配率所得的比率。其中,图像特征描述符最小单元匹配率是指输入元素的图像特征描述符最小单元与笔顺形近字的图像特征描述符最小单元相匹配的比率;图像特征描述符最小单元不匹配率是指输入元素的图像特征描述符最小单元与笔顺形近字的图像特征描述符最小单元不相匹配的比率。
在实际应用中,一方面,笔顺相同的文字并不必然构成形近字。另一方面,传统的形近字判断仅局限于同种文字之间。而本申请通过计算输入元素与前述检索出的样本文字对应的样本图像的图像特征描述符最小单元匹配率、图像特征描述符最小单元不匹配率,为判断两文字之间是否构成形近字提供有效的信息支撑,从而防止在形近字的检索中产生漏检。
在一个具体的实施例中,获取输入元素与笔顺形近字的图像特征描述符最小单元匹配率、图像特征描述符最小单元不匹配率的步骤包括:
获取输入元素的图像特征描述符最小单元的总数,笔顺形近字匹配输入元素的图像特征描述符最小单元合计数,笔顺形近字不匹配输入元素的图像特征描述符最小单元合计数;
基于以下公式得到图像特征描述符最小单元匹配率:
Ma=(Ua÷U0)×100%
其中,Ma表示图像特征描述符最小单元匹配率,U0表示输入元素的图像特征描述符最小单元的总数,Ua表示笔顺形近字匹配输入元素的图像特征描述符最小单元合计数;
基于以下公式得到图像特征描述符最小单元不匹配率:
Mi=(Uc÷U0)×100%+(n-1)×ω
其中,Mi表示像特征描述符最小单元不匹配率,U0表示输入元素的图像特征描述符最小单元的总数,Uc表示笔顺形近字不匹配输入元素的图像特征描述符最小单元合计数,n表示笔顺形近字与输入元素在图像特征线最小单元组合连线上所不相匹配的处数,ω表示处数的权数;其中,ω的取值范围为小于或等于 90%。
需要说明的是,图像特征描述符最小单元组合连线指的是图像特征线。
在一个具体的实施例中,根据图像特征描述符最小单元匹配率和图像特征描述符最小单元不匹配率,得到图像特征近似率的步骤包括:
基于以下公式,得到图像特征近似率:
M=Ma-Mi×β
其中,M表示图像特征近似率,Ma表示图像特征描述符最小单元匹配率,Mi表示像特征描述符最小单元不匹配率,β表示Mi的权数;其中,β的取值范围为小于或等于90%。
步骤260,将图像特征近似率符合应用要求的笔顺形近字,确认为输入元素的形近字。
具体的,经前述步骤后,可以按图像特征近似率由大至小对前述检索结果进行排序,图像特征近似率越高的笔顺形近字越有机会构成形近字。而在实际应用中,可以选取出图像特征近似率符合应用需求的笔顺形近字,并推定为输入元素的形近字。
在一个具体的实施例中,将图像特征近似率符合应用要求的笔顺形近字,确认为输入元素的形近字的步骤之前还包括步骤:
选取出图像特征描述符最小单元匹配率大于匹配率阈值,且图像特征描述符最小单元不匹配率小于不匹配率阈值的笔顺形近字;
将图像特征近似率符合应用要求的笔顺形近字,确认为输入元素的形近字的步骤包括:
根据图像特征近似率对各笔顺形近字进行排序,将满足预设排序名次的笔顺形近字所对应的文字确认为输入元素的形近字。
在一个具体的实施例中,上述匹配率阈值为30%;不匹配率阈值为70%;预设排序名次为小于300。
上述形近字识别判定方法中,基于海量的知识数据信息(例如,样本图像数据库等),以整体笔顺组合单元和局部笔顺组合单元作为检索关键词,对样本图像数据库进行检索,获取匹配笔顺组合单元的样本文字和该样本文字的关联信息,将该样本文字视为与输入文字构成笔顺形近字,对笔顺形近字进行图像特征近似率评价处理,获取每一检索出的构成笔顺形近字的样本文字与输入文字的图像特征近似率,选取出图像特征近似率符合应用要求的笔顺形近字,将选取出的笔顺形近字所对应的文字确认为输入文字的形近字,将笔顺编码和文字的图像特征相结合的分析判断,从而实现将笔顺编码和文字的图像特征相结合的笔顺形近字所对应的文字推定为输入元素的形近字;
本申请对动态输入的文字或文字图形进行形近字的识别与判定,有效解决动态书写文字时形近字识别和判定的难题,克服传统技术方法在形近字检索中易产生形近字漏检,对动态书写的文字采用静态的形近字库无法满足形近字判断的需要的局限或缺陷,能通过大数据的关联信息(例如、图像特征描述符等) 推定识别出形近字的信息,改善形近字检索的效果,以提高形近字检索的查全率和查准率,提高其识别的准确率。
在一个实施例中,如图3所示,提供了一种形近字识别判定方法,本实施例是在上述实施例的基础上进行具体化。以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤S310,建立样本图像数据库;
步骤S320,对输入元素进行识别,提取输入元素的关联信息,并获取输入元素对应的文字;其中,输入元素为输入图像或对输入文字按预设书写字体进行图像转换得到的图像;输入元素的关联信息包括图像特征描述符、图像特征描述符最小单元以及组合单元数据;
步骤S330,对输入元素对应的文字进行笔顺编码,得到整体笔顺组合单元;
步骤S340,对整体笔顺组合单元进行笔顺分词处理,得到局部笔顺组合单元;笔顺分词处理包括按照预设分割规则进行的分割处理和按照预设组合规则进行的组合处理;
步骤S350,以整体笔顺组合单元和局部笔顺组合单元为关键词,检索样本图像数据库,得到匹配的样本文字,并获取样本文字对应的样本图像的关联信息;样本图像的关联信息包括样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;
步骤S360,将样本文字确认为输入元素的笔顺形近字,将样本图像的关联信息确认为笔顺形近字的关联信息;根据输入元素的关联信息和笔顺形近字的关联信息、进行输入元素与样本图像的图像特征比对,得到笔顺形近字的图像特征近似率;
步骤S370,将图像特征近似率符合应用要求的笔顺形近字,确认为输入元素的形近字。
具体而言,步骤S310中建立样本图像数据库时,还可记录样本图像对应的文字和图像特征描述符、图像特征描述符最小单元及其组合单元数据信息;其中,样本图像包括:每个汉语文字在各种字体下所构成的图样、每个非汉语文字在各种字体下所构成的图样、每个具有文字含义的商标图样、每个具有文字含义的外观设计图样、每个具有文字含义的著作权登记的美术作品图样、用户预设自定义的图像;
样本文字可以包括:汉语文字、非汉语文字;
而步骤S320~步骤S370的具体实现过程可参照前述步骤S210~步骤S260 的具体说明。
如图3所示,下面结合一个具体的例子对本实施例进行说明。
步骤1,建立样本图像数据库,并提取和记录样本图像对应的样本文字,样本图像的图像特征描述符、图像特征描述符最小单元及其组合单元数据信息;以及提取和记录样本文字对应的样本图像,样本文字的整体笔顺组合单元和局部笔顺组合单元;
在实际应用中,通常以上数据信息是已知的和海量的,并且构成规模庞大的样本图像大数据,这些数据均可成为本申请所依据的样本图像数据。
步骤2,按照预设特定书写字体对输入文字进行图像转换,得到输入文字对应的图像,并提取该图像的图像特征描述符、图像特征描述符最小单元及其组合单元数据信息。或,
直接提取输入图像的图像特征描述符、图像特征描述符最小单元及其组合单元数据信息。
步骤3,对输入文字(或该输入图像对应的文字)进行笔顺编码,获取整体笔顺组合单元,其中,笔顺编码是将汉字书写的笔画划分为横、竖、撇、捺、折5种并分别用1、2、3、4、5或用字母或符号表示,按汉字规范的笔画书写顺序编码形成笔顺字符串,笔顺字符串包括:笔顺数字串或笔顺字母串或笔顺符号串;
笔顺是指文字的笔画书写顺序,其中,笔画通常是指组成文字且不间断的各种特定形状的点和线,以汉字为例,根据统计,汉字的笔画有三十多种,但是最基本的笔画可以划分为五种,包括:横(一)、竖(丨)、撇(丿)、点(丶)、折(乛),它是构成汉字字形的最小连笔单位或最小结构单位。而其他笔画可以归入其中之一的分类,如“提”归入为“横”,“点”归入为“捺”,“竖钩”、“竖提”、“弯钩”归入为竖,而“横折”、“横折钩”、“横撇”、“横钩”、“竖弯钩”、“撇折”、“竖提”、“竖折”、“撇点”、“竖折折钩”、“斜钩”、“横撇弯钩”、“横折提”、“横折弯钩”、“竖弯”、“横折弯”、“横折折折钩”、“横斜钩”、“横折折撇”、“竖折撇”、“竖折折”、“横折折”、“横折折折”归入为折。
笔顺编码就是为了记录文字中具体的笔画和书写顺序而预设的一组编码,在某一实施例中,1代表“横”,2代表“竖”,3代表“撇”,4代表“捺”,5代表“折”。具体地,笔顺编码是将汉字书写的笔画划分为横、竖、撇、捺、折5 种并分别用1、2、3、4、5或用字母或符号表示,按汉字规范的笔画书写顺序编码形成笔顺字符串,笔顺字符串包括:笔顺数字串或笔顺字母串或笔顺符号串。
以“城”字为例,该字的总笔画数是9,笔画包括:横、竖、横、横、撇、斜钩、横折钩、撇、点,相应的笔顺编码为121135534。
步骤4,对整体笔顺组合单元(即笔顺字符串)进行笔顺分词处理,获取按预设的分割规则进行切分和组合的局部笔顺组合单元;
对笔顺字符串进行笔顺分词处理,包括:对笔顺字符串进行最小连笔单位的笔画做分割处理和对最小连笔单位的笔画编码做组合处理。
处理方法说明如下:
第一,对笔顺字符串进行最小连笔单位的笔画做分割处理。
对笔顺字符串进行最小连笔单位的笔画做分割处理就是对笔顺字符串的最小连笔单位的笔画进行识别,将笔顺字符串中的最小连笔单位的笔画分割出来。
如以前述的“城”字为例,将该字的笔顺字符串的9个笔画所对应的笔顺编码“121135534”分割出来,以获得最小连笔单位的笔画编码分别为:1、2、 1、1、3、5、5、3、4。
第二,对最小连笔单位的笔画编码进行组合处理。
对最小连笔单位的笔画编码进行组合处理就是对最小连笔单位的笔画编码按照预设的组合规则进行组合,得到局部笔顺组合单元,其中,局部笔顺组合单元是指笔顺编码所表示的文字的任一局部笔画所构成的多个文字部件及其笔画顺序。
预设的组合规则,包括:
1)每一文字的整体笔顺编码视为该文字的整体组合单元;
2)每一文字预设笔画数的组合视为该文字的局部部件组合单元,其中,预设笔画数在等于或大于2取值;
如以前述的“城”字为例,该字的整体组合单元为:121135534;
假设预设笔画数为3,则该字的局部部件组合单元分别为:
121135534;
12113553;
1211355;
121135;
12113;
1211;
121;
21135534;
2113553;
211355;
21135;
2113;
211;
1135534;
113553;
11355;
1135;
113;
135534;
13553;
1355;
135;
35534;
3553;
355;
5534;
553;
534。
步骤5,以整体笔顺组合单元和局部笔顺组合单元作为检索关键词,对样本图像数据库进行检索,获取匹配的笔顺形近字;以及该笔顺形近字的关联信息;
匹配的笔顺形近字即为匹配的样本文字;笔顺形近字的关联信息指的是样本文字对应的样本图像的图像特征描述符最小单元及其组合单元数据信息;
匹配是指检索关键词与样本图像数据库中记录的整体笔顺组合单元和局部笔顺组合单元是相同的。
以整体笔顺组合单元和局部笔顺组合单元作为检索关键词,对样本图像数据库进行检索后,获取匹配的样本文字和该样本文字的关联信息,将该样本文字视为与输入文字构成笔顺形近字。
在样本图像数据库中,通过上述步骤的处理,整体笔顺组合单元或局部笔顺组合单元有相对应的样本文字的关联信息,包括:样本图像、对应的文字、该样本图像的图像特征描述符最小单元及其组合单元数据信息记录。经对样本图像数据库进行检索后,可间接获取笔顺单元所对应的相关信息。
步骤6,对笔顺形近字进行处理,获取每一检索出的构成笔顺形近字的样本文字与输入文字的图像特征近似率;
在具体实施例中,笔顺相同的文字并不必然构成形近字。以图4、图5为例:虽然,两字的笔画数均为4画,笔顺编码均为2534,但两字之间的字形明显不同,不应构成形近字,如果仅依赖笔顺编码来判断形近字时,会产生形近字的判断错误。
另一方面,传统的形近字判断仅局限于同种文字之间,其实,不同种的文字之间也会产生形近字。例如:汉字“口”与英文字母“O”或符号“□”可以构成形近字;汉字的“丁”与大写英文字母“T”可以构成形近字,等等。
在实际应用中,为了防止在形近字的检索中产生漏检。可以通过计算输入文字对应的输入图像与前述检索出的样本文字对应的样本图像的图像特征近似率(即获取输入元素与笔顺形近字之间的图像特征近似率),为判断两文字之间是否构成形近字提供有效的信息支撑。
获取输入元素与笔顺形近字之间的图像特征近似率的方法可以包括:
图像特征近似率是图像特征描述符最小单元匹配率减除图像特征描述符最小单元不匹配率所得的比率。其中,图像特征描述符最小单元匹配率是指输入元素的图像特征描述符最小单元与笔顺形近字的图像特征描述符最小单元相匹配的比率;图像特征描述符最小单元不匹配率是指输入元素的图像特征描述符最小单元与笔顺形近字的图像特征描述符最小单元不相匹配的比率。
基于如下公式,可获取图像特征描述符最小单元匹配率、图像特征描述符最小单元不匹配率和图像特征近似率。
1、图像特征描述符最小单元匹配率:
Ma=(Ua÷U0)×100%
其中,Ma表示图像特征描述符最小单元匹配率,U0表示输入元素的图像特征描述符最小单元的总数,Ua表示样本图像中与输入图像相匹配的图像特征描述符最小单元合计数;
2、图像特征描述符最小单元不匹配率:
Mi=(Uc÷U0)×100%+(n-1)×ω
其中,Mi表示图像特征描述符最小单元不匹配率,U0表示输入元素的图像特征描述符最小单元的总数,Uc表示样本图像中与输入图像不匹配的图像特征描述符最小单元合计数,n表示样本图像与输入图像在图像特征描述符最小单元组合连线上所不相匹配的处数,ω表示处数的权数;其中,ω的取值范围为小于或等于90%;
3、图像特征近似率:
M=Ma-Mi×β
其中,M表示图像特征近似率,β表示Mi的权数;其中,β的取值范围为小于或等于90%。
步骤7,选取出图像特征近似率满足应用需求的笔顺形近字,并将选取出的笔顺形近字推定为输入元素的形近字。
经前述计算后,可以按图像特征近似率由大至小对前述检索结果进行排序,图像特征近似率越高的文字越有机会构成形近字。
在实际应用中,可以选取出图像特征近似率符合预设阈值的笔顺形近字。
在实际应用中,可根据应用需要预设图像特征描述符最小单元匹配率、预设图像特征描述符最小单元不匹配率和预设图像特征近似率及预设排序名次,一般地,预设图像特征描述符最小单元匹配率在大于30%取值,预设图像特征描述符最小单元不匹配率在小于70%取值,预设图像特征近似率在大于30%取值,预设排序名次在小于300取值。
预设排序是指以匹配的样本图像所获得的图像特征近似率进行排序。将满足预设排序名次的笔顺形近字所对应的文字推定为输入元素的形近字。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种形近字识别判定装置,包括:
识别提取模块610,用于对输入元素进行识别,提取输入元素的关联信息,并获取输入元素对应的文字;其中,输入元素为输入图像或对输入文字按预设书写字体进行图像转换得到的图像;输入元素的关联信息包括图像特征描述符、图像特征描述符最小单元以及组合单元数据;
编码模块620,用于对输入元素对应的文字进行笔顺编码,得到整体笔顺组合单元;
分词模块630,用于对整体笔顺组合单元进行笔顺分词处理,得到局部笔顺组合单元;笔顺分词处理包括按照预设分割规则进行的分割处理和按照预设组合规则进行的组合处理;
检索模块640,用于以整体笔顺组合单元和局部笔顺组合单元为关键词,检索样本图像数据库,得到匹配的样本文字,并获取样本文字对应的样本图像的关联信息;样本图像的关联信息包括样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;
图像特征近似率获取模块650,用于将样本文字确认为输入元素的笔顺形近字,将样本图像的关联信息确认为笔顺形近字的关联信息;根据输入元素的关联信息和笔顺形近字的关联信息、进行输入元素与样本图像的图像特征比对,得到笔顺形近字的图像特征近似率;
选取模块660,用于将图像特征近似率符合应用要求的笔顺形近字,确认为输入元素的形近字。
关于形近字识别判定装置的具体限定可以参见上文中对于形近字识别判定方法的限定,在此不再赘述。上述形近字识别判定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,也可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储输入文字、由输入文字转换的输入图像、样本图像以及样本图像数据库等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。该计算机程序被处理器执行时以实现一种形近字识别判定方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
对输入元素进行识别,提取输入元素的关联信息,并获取输入元素对应的文字;其中,输入元素为输入图像或对输入文字按预设书写字体进行图像转换得到的图像;输入元素的关联信息包括图像特征描述符、图像特征描述符最小单元以及组合单元数据;
对输入元素对应的文字进行笔顺编码,得到整体笔顺组合单元;
对整体笔顺组合单元进行笔顺分词处理,得到局部笔顺组合单元;笔顺分词处理包括按照预设分割规则进行的分割处理和按照预设组合规则进行的组合处理;
以整体笔顺组合单元和局部笔顺组合单元为关键词,检索样本图像数据库,得到匹配的样本文字,并获取样本文字对应的样本图像的关联信息;样本图像的关联信息包括样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;
将样本文字确认为输入元素的笔顺形近字,将样本图像的关联信息确认为笔顺形近字的关联信息;根据输入元素的关联信息和笔顺形近字的关联信息、进行输入元素与样本图像的图像特征比对,得到笔顺形近字的图像特征近似率;
将图像特征近似率符合应用要求的笔顺形近字,确认为输入元素的形近字。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述形近字识别判定方法中的各步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程 ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限, RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步 DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM (ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus) 直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (12)

1.一种形近字识别判定方法,其特征在于,包括:
对输入元素进行识别,提取所述输入元素的关联信息,并获取所述输入元素对应的文字;其中,所述输入元素为输入图像或对输入文字按预设书写字体进行图像转换得到的图像;所述输入元素的关联信息包括图像特征描述符、图像特征描述符最小单元以及组合单元数据;
对所述输入元素对应的文字进行笔顺编码,得到整体笔顺组合单元;
对所述整体笔顺组合单元进行笔顺分词处理,得到局部笔顺组合单元;所述笔顺分词处理包括按照预设分割规则进行的分割处理和按照预设组合规则进行的组合处理;
以所述整体笔顺组合单元和所述局部笔顺组合单元为关键词,检索样本图像数据库,得到匹配的样本文字,并获取所述样本文字对应的样本图像的关联信息;所述样本图像的关联信息包括所述样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;
将所述样本文字确认为所述输入元素的笔顺形近字,将所述样本图像的关联信息确认为所述笔顺形近字的关联信息;根据所述输入元素的关联信息和所述笔顺形近字的关联信息、进行所述输入元素与所述样本图像的图像特征比对,得到所述笔顺形近字的图像特征近似率;
将所述图像特征近似率符合应用要求的所述笔顺形近字,确认为所述输入元素的形近字。
2.根据权利要求1所述的形近字识别判定方法,其特征在于,所述预设书写字体包括宋体、黑体以及已知的各种字体;
所述样本图像包括各字体形式的任一汉语文字所构成的图样、各字体形式的任一非汉语文字所构成的图样、任一具有文字含义的商标图样、任一具有文字含义的外观设计图样、任一具有文字含义的著作权登记的美术作品图样以及自定义图像;所述样本文字包括汉语文字、非汉语文字;
所述样本图像数据库包括所述样本文字,所述样本文字的整体笔顺组合单元和局部笔顺组合单元以及所述样本文字对应的样本图像;所述样本图像数据库还包括所述样本图像对应的样本文字,所述样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;
按照预设分割规则进行的分割处理的步骤包括:分割出所述整体笔顺组合单元中、识别到的最小连笔单位的笔画编码;
按照预设组合规则进行组合处理的步骤包括:按照所述预设组合规则,对所述最小连笔单位的笔画编码进行组合,得到所述局部笔顺组合单元;所述局部笔顺组合单元包括整体组合单元和局部部件组合单元;
所述预设组合规则包括将所述整体笔顺组合单元中任一文字的整体笔顺编码确认为所述文字的所述整体组合单元,以及将所述整体笔顺组合单元中任一文字预设笔画数的组合确认为所述文字的所述局部部件组合单元;
在对输入元素进行识别,提取所述输入元素的关联信息,并获取所述输入元素对应的文字的步骤之前还包括步骤:
建立所述样本图像数据库。
3.根据权利要求2所述的形近字识别判定方法,其特征在于,所述预设笔画数的取值范围为大于或等于2;
所述整体笔顺组合单元为按规范笔画书写顺序编码形成的笔顺字符串;所述笔顺字符串为笔顺数字串、笔顺字母串或笔顺符号串。
4.根据权利要求2所述的形近字识别判定方法,其特征在于,建立所述样本图像数据库的步骤包括:
对所述样本图像进行图像特征描述符分割处理,得到所述样本图像的各图像特征描述符最小单元;所述图像特征描述符最小单元为对应所述图像特征描述符所表示的任一图像特征点的一个或多个字符串;
按照预设最小单元组合规则对各所述图像特征描述符最小单元进行组合,得到所述样本图像的各组合单元数据;
以及
获取所述样本图像对应的样本文字的整体笔顺组合单元、局部笔顺组合单元。
5.根据权利要求1至4任意一项所述的形近字识别判定方法,其特征在于,根据所述输入元素的关联信息和所述笔顺形近字的关联信息、进行所述输入元素与所述样本图像的图像特征比对,得到所述笔顺形近字的图像特征近似率的步骤包括:
获取所述输入元素与所述笔顺形近字的图像特征描述符最小单元匹配率、图像特征描述符最小单元不匹配率;
根据所述图像特征描述符最小单元匹配率和所述图像特征描述符最小单元不匹配率,得到所述图像特征近似率。
6.根据权利要求5所述的形近字识别判定方法,其特征在于,获取所述输入元素与所述笔顺形近字的图像特征描述符最小单元匹配率、图像特征描述符最小单元不匹配率的步骤包括:
获取所述输入元素的图像特征描述符最小单元的总数,所述笔顺形近字匹配所述输入元素的图像特征描述符最小单元合计数,所述笔顺形近字不匹配所述输入元素的图像特征描述符最小单元合计数;
基于以下公式得到所述图像特征描述符最小单元匹配率:
Ma=(Ua÷U0)×100%
其中,Ma表示所述图像特征描述符最小单元匹配率,U0表示所述输入元素的图像特征描述符最小单元的总数,Ua表示所述笔顺形近字匹配所述输入元素的图像特征描述符最小单元合计数;
基于以下公式得到所述图像特征描述符最小单元不匹配率:
Mi=(Uc÷U0)×100%+(n-1)×ω
其中,Mi表示所述像特征描述符最小单元不匹配率,U0表示所述输入元素的图像特征描述符最小单元的总数,Uc表示所述笔顺形近字不匹配所述输入元素的图像特征描述符最小单元合计数,n表示所述笔顺形近字与所述输入元素在图像特征线最小单元组合连线上所不相匹配的处数,ω表示所述处数的权数;其中,ω的取值范围为小于或等于90%。
7.根据权利要求5所述的形近字识别判定方法,其特征在于,根据所述图像特征描述符最小单元匹配率和所述图像特征描述符最小单元不匹配率,得到图像特征近似率的步骤包括:
基于以下公式,得到所述图像特征近似率:
M=Ma-Mi×β
其中,M表示所述图像特征近似率,Ma表示所述图像特征描述符最小单元匹配率,Mi表示所述像特征描述符最小单元不匹配率,β表示Mi的权数;其中,β的取值范围为小于或等于90%。
8.根据权利要求5所述的形近字识别判定方法,其特征在于,将所述图像特征近似率符合应用要求的所述笔顺形近字,确认为所述输入元素的形近字的步骤之前还包括步骤:
选取出所述图像特征描述符最小单元匹配率大于匹配率阈值,且所述图像特征描述符最小单元不匹配率小于不匹配率阈值的笔顺形近字;
将所述图像特征近似率符合应用要求的所述笔顺形近字,确认为所述输入元素的形近字的步骤包括:
根据所述图像特征近似率对各所述笔顺形近字进行排序,将满足预设排序名次的笔顺形近字所对应的文字确认为所述输入元素的形近字。
9.根据权利要求8所述的形近字识别判定方法,其特征在于,所述匹配率阈值为30%;所述不匹配率阈值为70%;所述预设排序名次为小于300。
10.一种形近字识别判定装置,其特征在于,包括:
识别提取模块,用于对输入元素进行识别,提取所述输入元素的关联信息,并获取所述输入元素对应的文字;其中,所述输入元素为输入图像或对输入文字按预设书写字体进行图像转换得到的图像;所述输入元素的关联信息包括图像特征描述符、图像特征描述符最小单元以及组合单元数据;
编码模块,用于对所述输入元素对应的文字进行笔顺编码,得到整体笔顺组合单元;
分词模块,用于对所述整体笔顺组合单元进行笔顺分词处理,得到局部笔顺组合单元;所述笔顺分词处理包括按照预设分割规则进行的分割处理和按照预设组合规则进行的组合处理;
检索模块,用于以所述整体笔顺组合单元和所述局部笔顺组合单元为关键词,检索样本图像数据库,得到匹配的样本文字,并获取所述样本文字对应的样本图像的关联信息;所述样本图像的关联信息包括所述样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;
图像特征近似率获取模块,用于将所述样本文字确认为所述输入元素的笔顺形近字,将所述样本图像的关联信息确认为所述笔顺形近字的关联信息;根据所述输入元素的关联信息和所述笔顺形近字的关联信息、进行所述输入元素与所述样本图像的图像特征比对,得到所述笔顺形近字的图像特征近似率;
选取模块,用于将所述图像特征近似率符合应用要求的所述笔顺形近字,确认为所述输入元素的形近字。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
CN201810834750.7A 2018-07-26 2018-07-26 形近字识别判定方法、装置、计算机设备和存储介质 Active CN109190615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810834750.7A CN109190615B (zh) 2018-07-26 2018-07-26 形近字识别判定方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810834750.7A CN109190615B (zh) 2018-07-26 2018-07-26 形近字识别判定方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN109190615A true CN109190615A (zh) 2019-01-11
CN109190615B CN109190615B (zh) 2021-12-03

Family

ID=64937606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810834750.7A Active CN109190615B (zh) 2018-07-26 2018-07-26 形近字识别判定方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109190615B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097002A (zh) * 2019-04-30 2019-08-06 北京达佳互联信息技术有限公司 形近字确定方法、装置、计算机设备和存储介质
CN110287286A (zh) * 2019-06-13 2019-09-27 北京百度网讯科技有限公司 短文本相似度的确定方法、装置及存储介质
CN113743105A (zh) * 2021-09-07 2021-12-03 深圳海域信息技术有限公司 一种基于大数据特征识别的文字近似度检索分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101017531A (zh) * 2006-02-10 2007-08-15 富士通株式会社 字符检索装置
US20140363074A1 (en) * 2013-06-09 2014-12-11 Apple Inc. Multi-script handwriting recognition using a universal recognizer
EP3048561A1 (en) * 2015-01-21 2016-07-27 Xerox Corporation Method and system to perform text-to-image queries with wildcards
CN106874947A (zh) * 2017-02-07 2017-06-20 第四范式(北京)技术有限公司 用于确定文字形近度的方法和设备
CN108154167A (zh) * 2017-12-04 2018-06-12 昆明理工大学 一种汉字字形相似度计算方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101017531A (zh) * 2006-02-10 2007-08-15 富士通株式会社 字符检索装置
US20140363074A1 (en) * 2013-06-09 2014-12-11 Apple Inc. Multi-script handwriting recognition using a universal recognizer
EP3048561A1 (en) * 2015-01-21 2016-07-27 Xerox Corporation Method and system to perform text-to-image queries with wildcards
CN106874947A (zh) * 2017-02-07 2017-06-20 第四范式(北京)技术有限公司 用于确定文字形近度的方法和设备
CN108154167A (zh) * 2017-12-04 2018-06-12 昆明理工大学 一种汉字字形相似度计算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FANG YANG等: "An Improved Method for Similar Handwritten Chinese Character Recognition", 《2010 THIRD INTERNATIONAL SYMPOSIUM ON INTELLIGENT INFORMATION TECHNOLOGY AND SECURITY INFORMATICS》 *
王逍翔等: "基于形近字识别的互联网搜索关键字校验", 《第六届云南省科协学术年会暨红河流域发展论坛论文集——专题二:滇南中心智慧城市建设》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097002A (zh) * 2019-04-30 2019-08-06 北京达佳互联信息技术有限公司 形近字确定方法、装置、计算机设备和存储介质
CN110097002B (zh) * 2019-04-30 2020-12-11 北京达佳互联信息技术有限公司 形近字确定方法、装置、计算机设备和存储介质
CN110287286A (zh) * 2019-06-13 2019-09-27 北京百度网讯科技有限公司 短文本相似度的确定方法、装置及存储介质
CN113743105A (zh) * 2021-09-07 2021-12-03 深圳海域信息技术有限公司 一种基于大数据特征识别的文字近似度检索分析方法
CN113743105B (zh) * 2021-09-07 2022-05-24 深圳海域信息技术有限公司 一种基于大数据特征识别的文字近似度检索分析方法

Also Published As

Publication number Publication date
CN109190615B (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
TWI475406B (zh) 取決於上下文之輸入方法
WO2019200783A1 (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
JP6507472B2 (ja) 処理方法、処理システム及びコンピュータプログラム
CN103577818B (zh) 一种图像文字识别的方法和装置
CN108763380B (zh) 商标识别检索方法、装置、计算机设备和存储介质
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
US20110106805A1 (en) Method and system for searching multilingual documents
WO2019154197A1 (zh) 电子书手写笔记的显示方法、计算设备及计算机存储介质
WO2023202197A1 (zh) 文本识别方法及相关装置
CN109190615A (zh) 形近字识别判定方法、装置、计算机设备和存储介质
CN111507330A (zh) 习题识别方法、装置、电子设备及存储介质
CN107193467B (zh) 用于展示智能笔书写内容的方法及设备
JP2022160662A (ja) 文字認識方法、装置、機器、記憶媒体、スマート辞書ペン及びコンピュータプログラム
US11829710B2 (en) Deriving global intent from a composite document to facilitate editing of the composite document
CN112633431A (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN111159975B (zh) 一种显示方法及装置
WO2022206534A1 (zh) 文本内容识别方法、装置、计算机设备和存储介质
Baek et al. COO: Comic onomatopoeia dataset for recognizing arbitrary or truncated texts
CN114328798A (zh) 搜索文本的处理方法、装置、设备、存储介质和程序产品
CN111985467B (zh) 聊天记录截图处理方法、装置、计算机设备和存储介质
CN108664945B (zh) 图像文本及形音义特征识别方法和装置
CN117152770A (zh) 一种面向手写输入的书写能力智能评测方法及***
CN116225956A (zh) 自动化测试方法、装置、计算机设备和存储介质
CN110377819A (zh) 基于大数据的仲裁员推荐方法、装置和计算机设备
CN112560849B (zh) 基于神经网络算法的文理分割方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 528000 room 2002, block A, 33 Jihua five road, Chancheng District, Foshan, Guangdong.

Patentee after: Xu Qing

Patentee after: Foshan Guofang Identification Technology Co.,Ltd.

Patentee after: Foshan Guofang Software Technology Co.,Ltd.

Address before: 528000 room 2002, block A, 33 Jihua five road, Chancheng District, Foshan, Guangdong.

Patentee before: Xu Qing

Patentee before: FOSHAN GUOFANG TRADEMARK SERVICE Co.,Ltd.

Patentee before: FOSHAN GUOFANG TRADEMARK IDENTIFICATION TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder