具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
商标标识图像的构成要素内容可能是多方面的,近似因素也是多方面的,传统商标识别检索对输入商标和检索关键词的确定方法:要么是输入图片文件,要么是录入文字。检索关键词的设置及算法局限于其上传的图片文件和录入文字内容的组合,这种检索关键词的设置及算法无法反映输入商标间接的关联文本信息和商标图像任意局部信息,这些间接的关联文本信息和商标图像任意局部信息可能对输入商标与样本商标构成近似商标产生影响,对该部分信息的漏检,必易造成商标检索结果的漏检质量缺陷。
此外,传统技术可以通过光学字符识别(OCR)方法对规范的文本图像转化为机器可编辑文本的数字形式,但其也存在如下局限或缺陷:当对非规范的文本图像进行识别时,其识别的准确率不高;无法识别文本图像中不直显示出的文本图像的读音、文字组合是否具有含义、图形要素编码及其他反映图像形音义特征的信息;从图像中识别出的文字,当作为关键词用于相同或近似商标图像的检索时,虽能起到一定的检索效果,但由于其欠缺其他的图像内容描述,因而造成相同或近似商标图像的漏检在所难免。
可以明确,传统的商标检索大多还停留在手工录入的方式,工作效率低下和工作精力消耗巨大是显而易见的。
而本发明实施例通过***现有海量的商标和知识数据信息,建立样本图像数据库,样本图像数据库包括样本商标数据库、商标构成要素样本图像数据库、文字字典数据库以及词语词典数据库,对样本图像数据进行转化、分割、组合处理,得到样本图像的图像特征描述符、关联文本信息、组合单元数据及商标图像任意局部信息,对输入商标进行转化、分割、组合处理,得到输入商标的图像特征描述符、关联文本信息、组合单元数据及商标图像任意局部信息,基于所述组合单元数据及商标图像任意局部信息检索样本商标数据库,得到匹配的初步检索样本商标及该样本商标所关联的图像、商标中已记录的文本和形音义特征信息、所匹配的最小单元和组合单元数据,计算初步检索样本商标与输入商标之间在形、音、义、检索关键词的单项匹配率、不匹配率及综合近似率,按综合近似率符合预设单项匹配率、不匹配率及综合近似率和或排序名次符合预设名次的检索样本商标进行排序,从而得到输入商标检索结果。本发明各实施例能够改善商标识别检索中相同或近似图像的匹配效果,以提高相同或近似商标的查全率、查准率。
具体而言,本申请提供的商标识别检索方法,可以应用于如图1所示的应用环境中。其中,终端102可通过网络与服务器104通过网络进行通信,便于获取输入商标、样本商标、其他样本商标以及样本商标数据库涉及的相关数据,需要说明的是终端102也可不与服务器104进行通信,可预先将相关数据存储在终端102中,再进行处理即可;其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种商标识别检索方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤S210,通过检索样本图像数据库转化输入商标的图像数据,得到输入商标的图像特征描述符以及关联文本信息;样本图像数据库为预先建立的,包含样本图像的图像特征描述符、关联文本信息、最小单元以及组合单元数据的数据库;组合单元数据为表征图像任意局部信息的数据;
其中,输入商标包括以图片形式录入的输入商标和以文字形式录入的输入商标;样本图像包括以图片形式录入的样本图像和以文字形式录入的样本图像;即本发明实施例处理的商标可以为图片形式,也可以为文字形式。
样本图像包括商标图样、外观设计图样、著作权登记的美术作品图样、各汉语文字图样、各非汉语文字图样以及自定义图像;样本图像数据库包括样本商标数据库、商标构成要素样本图像数据库、文字字典数据库以及词语词典数据库。
进一步的,为了实现有效的商标检索,应从多方面考虑商标标识图像的构成要素内容,影响商标近似因素也是多方面的,要获得较好的商标检索查全率,必须科学合理地确定检索关键词及其算法,本发明涉及的样本图像数据库为预先建立的,包含样本图像的图像特征描述符、关联文本信息、最小单元以及组合单元数据的数据库;其中,组合单元数据能够表征商标图像任意局部信息;而在对样本图像和输入商标的处理过程,可以包括转化、分割以及组合等流程。以上处理使得本发明能够获取更完整齐全的商标检索关键词。
本发明各实施例中,样本图像的关联文本信息包括已记录的样本图像的商标图形要素编码、样本图像所描述的事物名称和样本图像可认读的文字的文本及形音义特征;形音义特征包括样本图像的图形形状表现形式或文字的书写形式、读音、含义以及形近字、音近字和义近字。;
而图像特征描述符为采用相同或高度相似的字符串、对输入商标或样本图像中具有相同感知内容或特征进行记录,而采用不同的字符串对输入商标或样本图像中具有不同感知内容或特征进行记录的图像特征表示形式;图像特征表示形式为描述输入商标或样本图像的图像特征的一组或多组字符串的集合。
在一个具体的实施例中,通过检索样本图像数据库转化输入商标的图像数据,得到输入商标的图像特征描述符以及关联文本信息的步骤包括:
提取以图片形式录入的输入商标的图像特征描述符;基于图像特征描述符检索样本图像数据库,将匹配的图像特征描述符对应的样本图像视为与输入商标的图像相同或高度近似的图像,并将样本图像已记录的图像特征描述符、关联文本信息确认为以图片形式录入的输入商标的图像特征描述符、关联文本信息;以及,
基于以文字形式录入的输入商标的文字检索样本图像数据库,将匹配的样本文字对应的样本图像已记录的图像特征描述符、关联文本信息确认为以文字形式录入的输入商标的图像特征描述符、关联文本信息。
具体的,上述实现过程可以包括:对以图片形式表示的输入商标的图片文件和以文字形式录入的输入商标的文字分别做转化为图像特征描述符与关联文本信息的处理。
其中,对以图片形式表示的输入商标的图片文件做转化为图像特征描述符与关联文本信息的处理的方法,包括:第一,对以图片形式表示的输入商标的图片文件采用现有技术方法提取其图像特征描述符;第二,利用现有已记录的样本图像的海量数据信息,基于图像特征描述符检索样本图像数据库,得到匹配的图像特征描述符和该图像特征描述符所对应的样本图像及关联文本信息,将该信息作为输入商标的图像特征描述符与关联文本信息,其中,关联文本信息包括:所匹配的样本图像已记录的图形商标中的商标图形要素编码,图形商标中所描述的事物名称,商标文字的书写形式、读音、含义以及其形近字、音近字、义近字等文本及形音义特征。
对以文字形式记录的输入商标的文字做转化为图像特征描述符与关联文本信息的处理的方法,包括:第一,基于以文字形式录入的输入商标的文字为关键词检索样本图像数据库,得到相匹配的样本文字;第二,找出该匹配的样本文字所对应的样本图像及关联文本信息,其中,关联文本信息包括:该匹配样本图像已记录的图形商标中的商标图形要素编码,图形商标中所描述的事物名称,对图像进行表示的图像特征描述符,商标文字的书写形式、读音、含义以及其形近字、音近字、义近字等文本及形音义特征。其中,所述的文字包括中文文字、非中文文字、数字、符号。
步骤S220,分别分割输入商标的图像特征描述符和关联文本信息,得到输入商标的各图像特征描述符最小单元、各关联文本信息最小单元;图像特征描述符最小单元为对应图像特征描述符所表示的任一图像特征点的一个或多个字符串;关联文本信息最小单元为对应关联文本信息所表示的任一文本信息特征点的一个文字或多个有含义的文字组合;
具体而言,对图像特征描述符做分割处理就是对图像特征描述符的最小单元进行识别,将图像特征描述符的每一最小单元分割出来,对关联文本信息做分割处理就是对关联文本信息的最小单元进行识别,将关联文本信息的每一最小单元分割出来。
其中,图像特征描述符最小单元指的是:图像特征描述符的字符串一般用于表示图像的特征点,每一特征点所对应的一个或多个字符串称为图像特征描述符最小单元。在一个具体的实施例中,图像特征描述符为用于表示图像轮廓线或图像骨架线任一像素点的位置数据与任一规格的标准坐标系坐标区域的对应关系的特征描述符;图像特征描述符最小单元为任一规格的标准坐标系的任一坐标区域所对应图像轮廓线或图像骨架线的一个或多个像素点的位置数据;
此外,图像特征描述符的字符串一般用于表示图像的特征点,每一特征点所对应的一个或多个字符串称为图像特征描述符最小单元。图像特征描述符所描述的图像特征点一般是多个的,因而图像特征描述符最小单元也可以是多个。对输入商标的图像特征描述符进行分割处理的过程可以包括:将图像特征描述符所表示的每一图像特征点进行分割,将图像特征描述符的每一图像特征点所对应的每一个或多个字符串视为图像特征描述符最小单元。
而关联文本信息最小单元指的是:关联文本信息的文字一般用于表示该文本信息的特征点,每一特征点所对应的一个或多个有含义的文字组合称为关联文本信息最小单元。在一个具体的实施例中,关联文本信息最小单元为任一文字或文字组合所表示的关联文本信息对应具有含义的文字或词汇的数据。
具体地,关联文本信息文字一般用于表示关联文本信息的特征点,每一特征点所对应的一个文字或多个有含义的文字组合称为关联文本信息最小单元。关联文本信息的特征点一般是多个的,因而关联文本信息的最小单元也可以是多个。
而对输入商标的关联文本信息进行分割处理的过程可以包括:将关联文本信息所表示的每一文字特征点进行分割的,将关联文本信息的每一文字特征点所对应的每一个文字或多个有含义的文字组合视为关联文本信息最小单元。其中,关联文本信息中的文字包括中文文字、非中文文字(即各语种的外国文字)、数字以及符号。
步骤S230,按照预设最小单元组合规则,分别组合输入商标的各图像特征描述符最小单元、各关联文本信息最小单元,得到输入商标的图像特征描述符组合单元数据、关联文本信息组合单元数据;
具体而言,对最小单元数据进行组合处理就是对最小单元数据按照预设的组合规则进行组合,得到组合单元数据(进而体现商标图像任意局部信息),其中,组合单元数据为对应所述图像特征描述符或关联文本信息所表示的任一局部特征的多个字符串。
孤立的图像特征描述符最小单元或关联文本信息最小单元,可能没有实际应用意义,但是基于本发明实施例,按照预设最小单元组合规则对各最小单元进行组合,获取组合单元数据,使组合后的图像特征描述符最小单元组合或关联文本信息最小单元组合具有特定的含义。
在一个具体的实施例中,预设最小单元组合规则可以包括图像特征描述符最小单元组合规则和关联文本信息最小单元组合规则;图像特征描述符组合单元数据包括用于表示连通域组合单元数据、用于表示线段组合单元数据以及用于存储的字符串数据;关联文本信息组合单元数据包括文字组合单元数据、文字读音组合单元数据、文字含义组合单元数据以及商标图形要素编码组合单元数据;
具体而言,可以根据应用的需要,建立预设的图像特征描述符最小单元和关联文本信息最小单元组合规则;进一步的,按预设的图像特征描述符最小单元和关联文本信息最小单元组合规则进行组合,获取图像特征描述符组合单元数据和关联文本信息组合单元数据。
需要说明的是,本发明实施例所获取的图像特征描述符最小单元组合数据可以用于表示一个连通域组合单元数据,也可表示一个线段组合单元数据,还可以表示用于进行存储处理的字符串数据。本发明实施例所获取的关联文本信息最小单元组合数据可以用于表示一个词汇的组合单元数据,也可表示一句话的组合单元数据,也可表示相对独立部分的一个词汇、或一组文字的组合单元数据。
进一步的,在一个具体的实施例中,预设图像特征描述符最小单元组合规则可以包括图像轮廓线的图像特征描述符最小单元组合规则和图像骨架线的图像特征描述符最小单元组合规则;
图像轮廓线的图像特征描述符最小单元组合规则包括:将任一图像轮廓线上的全部线段确认为一个图像整体组合单元;将任一图像轮廓线上的闭环线确认为一个连通域组合单元;将任一第一预设定长的图像轮廓线上的线段确认为一个线段组合单元;其中,第一预设定长的取值范围为大于或等于图像轮廓线上的线段总长的20%;
图像骨架线的图像特征描述符最小单元组合规则包括:将任一图像骨架线上的全部线段确认为一个图像整体组合单元;将任一图像骨架线上不间断的连线确认为一个连通域组合单元;将任一第二预设定长的图像骨架线上的线段确认为一个线段组合单元;其中,第二预设定长的取值范围为大于或等于图像骨架线上的线段总长的20%。
经组合处理所得到组合单元数据及商标图像任意局部信息是所对应的图像特征描述符或关联文本信息所表示的任一局部特征的多个字符串。
进一步的,在一个具体的实施例中,针对输入商标的关联文本信息最小单元,可以采取如下步骤进行组合:逐个拆分输入商标的文字,得到关联文本信息最小单元;按照关联文本信息最小单元组合规则对各关联文本信息最小单元进行组合,得到各文字组合单元数据;关联文本信息最小单元组合规则包括:将大小、颜色、语种相同并紧密相连接的文字确认为一个相连组合文字单元;将各预设文字数定长的相连组合文字单元确认为局部组合单元;其中,预设文字数定长的取值范围为在相连组合文字单元总文字数的20%以上取值;
从文字字典数据库中获取与文字最小单元组合单元数据相匹配的文字读音,根据文字读音标注各文字最小单元组合单元数据中的文字读音,得到文字读音最小单元组合单元数据;
从词语词典数据库中获取与各文字最小单元组合单元数据相匹配的词语组合,得到文字含义组合单元数据;
将输入商标标记的各商标图形要素编码,确认为商标图形要素编码组合单元数据。其中,商标图形要素编码是指依据《建立商标图形要素国际分类维也纳协定》所产生的一种商标图形要素划分工具,由商标图形要素按大类、小类及组分类的一览表组成,其中包括商标图形要素编号和商标图形要素名称。
步骤S240,基于图像特征描述符组合单元数据、关联文本信息组合单元数据检索样本图像数据库中的样本商标数据库,得到匹配的各初步检索样本商标以及初步检索样本商标的各图像特征描述符最小单元、各关联文本信息最小单元;
其中,匹配指的是输入商标经前述处理所获得的组合单元数据(即商标图像任意局部信息)与样本商标数据库所记录的组合单元数据(即商标图像任意局部信息)是相同的,进而可获取该记录的组合单元数据对应的样本商标。
具体而言,将前述方法获取的输入商标特征描述符组合单元数据、关联文本信息组合单元数据作为检索关键词,对样本图像数据库中的样本商标数据库进行检索,获取匹配的初步检索样本商标及该样本商标所关联的图像、商标中已记录的文本和形音义特征信息、最小单元和组合单元数据。
步骤S250,根据初步检索样本商标的各图像特征描述符最小单元、各关联文本信息最小单元以及输入商标的各图像特征描述符最小单元、各关联文本信息最小单元,得到单项近似率;处理单项匹配率,得到初步检索样本商标与输入商标的综合近似率;
需要说明的是,最小单元匹配率指的是样本商标与输入商标之间在形、音、义、检索关键词方面分别相匹配的最小单元占比;最小单元不匹配率指的是样本商标与输入商标在形、音、义、检索关键词方面分别不匹配的最小单元占比。其中,输入商标在形、音、义、检索关键词的最小单元可以其对应图像的图像特征描述符最小单元进行表示。
在一个具体的实施例中,关联文本信息最小单元可以包括中文最小单元以及非中文最小单元;单项近似率可以包括中文单项近似率、非中文单项近似率以及图像特征单项近似率;
步骤S250中根据初步检索样本商标的各图像特征描述符最小单元、各关联文本信息最小单元以及输入商标的各图像特征描述符最小单元、各关联文本信息最小单元,得到单项近似率的步骤包括:
获取输入商标的中文最小单元的总数、非中文最小单元的总数和图像特征描述符最小单元的总数,初步检索样本商标匹配输入商标的中文最小单元合计数、非中文最小单元合计数和图像特征描述符最小单元合计数,初步检索样本商标不匹配输入商标的中文最小单元合计数、非中文最小单元合计数和图像特征描述符最小单元合计数;
基于以下公式得到中文最小单元匹配率:
Ma1=(Ua1÷U01)×100%
其中,Ma1表示中文最小单元匹配率,U01表示输入商标的中文最小单元的总数,Ua1表示初步检索样本商标匹配输入商标的中文最小单元合计数;
基于以下公式得到非中文最小单元匹配率:
Ma2=(Ua2÷U02)×100%
其中,Ma2表示非中文最小单元匹配率,U02表示输入商标的非中文最小单元的总数,Ua2表示初步检索样本商标匹配输入商标的非中文最小单元合计数;
基于以下公式得到图像特征描述符最小单元匹配率:
Ma0=(Ua0÷U00)×100%
其中,Ma0表示图像特征描述符最小单元匹配率,U00表示输入商标的图像特征描述符最小单元的总数,Ua0表示初步检索样本商标匹配输入商标的图像特征描述符最小单元合计数;
基于以下公式得到中文最小单元不匹配率:
Mi1=(Uc1÷U01)×100%+(n1-1)×ω1
其中,Mi1表示中文最小单元不匹配率,U01表示输入商标的中文最小单元的总数,Uc1表示初步检索样本商标不匹配输入商标的中文最小单元合计数,n1表示初步检索样本商标与输入商标在中文最小单元组合连线上所不相匹配的处数,ω1表示处数n1的权数;其中,ω1的取值范围为小于或等于80%;
基于以下公式得到非中文最小单元不匹配率:
Mi2=(Uc2÷U02)×100%+(n2-1)×ω2
其中,Mi2表示非中文最小单元不匹配率,U02表示输入商标的非中文最小单元的总数,Uc2表示初步检索样本商标不匹配输入商标的非中文最小单元合计数,n2表示初步检索样本商标与输入商标在非中文最小单元组合连线上所不相匹配的处数,ω2表示处数n2的权数;其中,ω2的取值范围为小于或等于80%;
基于以下公式得到图像特征描述符最小单元不匹配率:
Mi0=(Uc0÷U00)×100%+(n0-1)×ω0
其中,Mi0表示图像特征描述符最小单元不匹配率,U00表示输入商标的图像特征描述符最小单元的总数,Uc0表示初步检索样本商标不匹配输入商标的图像特征描述符最小单元合计数,n0表示初步检索样本商标与输入商标在图像特征描述符最小单元组合连线上所不相匹配的处数,ω0表示处数n0的权数;其中,ω0的取值范围为小于或等于80%;
基于以下公式,获取中文单项近似率:
M1=Ma1-Mi1×β1
其中,M1表示中文单项近似率,β1表示Mi1的权数;其中,β1的取值范围为小于或等于80%;
基于以下公式,获取非中文单项近似率
M2=Ma2-Mi2×β2
其中,M2表示非中文单项近似率,β2表示Mi2的权数;其中,β2的取值范围为小于或等于80%;
基于以下公式,获取图像特征单项近似率:
M0=Ma0-Mi0×β0
其中,M0表示图像特征单项近似率,β0表示Mi0的权数;其中,β0的取值范围为小于或等于80%。
进一步的,基于以下公式,得到综合近似率:
M=(M1+M2+M0)÷μ
其中,μ表示M1、M2、M0不为0的项数。
在一个具体的实施例中,非中文最小单元为英文最小单元;非中文最小单元匹配率为英文最小单元匹配率;非中文最小单元不匹配率为英文最小单元不匹配率;非中文单项近似率为英文单项近似率;
其中,图像特征描述符最小单元组合连线为图像特征线;中文最小单元组合连线为中文商标文字对应的形音义特征构成的最小单元、按排列顺序形成的轨迹线;非中文最小单元组合连线为非中文商标文字对应的形音义特征构成的最小单元、按排列顺序形成的轨迹线。
例如:假设商标中的可认读的文字内容是“蓝色地球村”,其形状特征信息最小单元是该商标中可认读的每一个文字,从左至右“蓝——色——地——球——村”,或从右至左“村——球——地——色——蓝”的认读轨迹顺序线就是最小单元组合连线。
基于本发明上述检索匹配得到的样本商标图像,是以输入商标的组合单元数据及商标图像任意局部信息作为检索关键词而产生的匹配结果,体现了中文、英文和图像特征描述符最小单元的组合单元的共同性,是商标图像特征的综合反映。
在本发明各实施例中,计算初步检索样本商标与输入商标之间的综合近似率,也可以参考现有技术实现,例如,采用申请号201710553009.9发明专利《一种商标查询结果近似度评价和排序方法、装置》中论述的方法得到。
步骤S260,对综合近似率符合预设要求的初步检索样本商标进行排序,得到检索结果。
在一个具体的实施例中,筛选出综合近似率大于或等于30%的初步检索样本商标,并对筛选出的初步检索样本商标进行排序,且取排序名次小于或等于500以内的初步检索样本商标作为检索结果。
在实际应用中,可根据应用需要预设最小单元匹配率、不匹配率、综合近似率及预设排序名次,一般地,预设最小单元匹配率在大于30%取值,预设最小单元不匹配率在小于70%取值,预设综合近似率在大于30%取值,预设排序名次在小于500取值。
预设排序是指以匹配的样本商标所获得的综合近似率进行排序。将满足预设排序名次的匹配样本商标视为与输入商标相同或高度相似的商标;
前述所获得的同一检索样本商标,可能与多个检索关键词相匹配,即造成多个检索结果会有重复商标注册号的记录,这些重复信息在商标检索工作是无意义的,应对其进行去重复处理。去重复处理的具体方法是,将同一商品类别同一注册号的商标记录按前述计算出的综合近似率进行排序,仅取综合近似率最高的1条记录,删除其余同一商品类别同一注册号的商标记录。
而经前述步骤计算后,可以将满足预设排序名次的匹配的样本商标作为检索样本商标,并将其排序结果作为商标检索结果进行报告。
上述商标识别检索方法,可以通过***现有海量的商标和知识数据信息,从形音义方面对输入商标进行文本识别和其形音义特征信息的推定获取,能通过对以图片形式表示的输入商标或样本商标的图片文件和以文字形式记录的输入商标或样本商标的文字分别做转化为图像特征描述符与关联文本信息的处理,对所该处理结果进行分割、组合处理,得到输入商标或样本商标的组合单元数据及商标图像任意局部信息,运用大数据的关联信息推定识别出输入商标或样本商标的图像中不直接显示出的图像的读音、文字组合的含义、商标图形要素编码及其他反映图像形音义特征,以所获取的组合单元数据及商标图像任意局部信息作为检索关键词,有效克服过去人工录入不易对输入商标标识图像中的文字进行形近字、音近字、义近字、图形构成的局部组合等进行穷举,易造成检索关键词不统一、提取信息易遗漏的缺陷;能对规范的文本图像和非规范的文本图像进行有效识别,能克服传统技术方法易造成了商标检索关键词遗漏的缺陷,能够有效解决商标检索中检索关键词获取的自动化智能化和准确性全面性问题,实现从以往手工录入到智能化自动识别录入的跨越,提高其识别的准确率,改善商标识别检索中相同或近似商标的匹配效果,以提高相同或近似商标的查全率、查准率,能有效提高商标检索工作效率。
为了进一步阐述本发明的技术方案,特以实际应用本发明商标识别检索方法为例,在一个实施例中,如图3所示,提供了一种商标识别检索方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤S310,建立样本图像数据库,对样本图像进行特征提取、分割、组合处理,得到样本图像的组合单元数据并将其存储于样本图像数据库;
在一个具体的实施例中,建立样本图像数据库的步骤具体可以包括:
收集各样本图像,提取并存储各样本图像的图像特征描述符;
录入样本图像的关联文本信息;
对图像特征描述符进行分割以及按照图像特征描述符最小单元组合规则的组合处理,得到各图像特征描述符最小单元以及各图像特征描述符组合单元数据;
逐个拆分样本图像的关联文本信息中的文字,得到关联文本信息最小单元;按照关联文本信息最小单元组合规则对各关联文本信息最小单元进行组合,得到各文字组合单元数据;关联文本信息最小单元组合规则包括:将大小、颜色、语种相同并紧密相连接的文字确认为一个相连组合文字单元;将各预设文字数定长的相连组合文字单元确认为局部组合单元;其中,预设文字数定长的取值范围为在相连组合文字单元总文字数的20%以上取值;
从文字字典数据库中获取与文字最小单元组合单元数据相匹配的文字读音,根据文字读音标注各文字最小单元组合单元数据中的文字读音,得到文字读音最小单元组合单元数据;
从词语词典数据库中获取与各文字最小单元组合单元数据相匹配的词语组合,得到文字含义组合单元数据;
将样本商标标记的各商标图形要素编码,确认为商标图形要素编码组合单元数据。
在一个具体的实施例中,对样本图像参照下述步骤S320所述的特征提取处理过程,以样本图像为处理对象,对样本图像进行分割、组合处理,得到样本图像的最小单元以及组合单元数据。
步骤S320,对输入商标进行转化、分割、组合处理,得到输入商标的图像特征描述符、关联文本信息以及组合单元数据。
具体而言,如图4、图5所示,随机给出若干输入商标,第一示例性图像是华为技术有限公司的商标图样,第二示例性图像是“长城”由隶书体文字所构成的图形商标,这些图样均可成为本发明的实施例输入商标。
在本发明的实施例中,结合图4、图5进一步说明对样本图像(或输入商标)分别做图像特征描述符提取、分割、组合处理的具体实现过程:
一、对输入商标进行转化处理,包括:
对以图片形式表示的输入商标的图片文件做转化为图像特征描述符与关联文本信息的处理的方法:
第一,对以图片形式表示的样本图像或输入商标的图片文件采用现有技术方法提取其图像特征描述符;
以图4为例,可采用申请号为201710553007X的发明专利《一种图像轮廓线描述符的获取方法、装置》提取的图像特征描述符或图像轮廓线描述符,其中,该轮廓线基于10×10规格的标准坐标系的图像特征描述符是:
3,4,5,15,25,35,45,55,65,55,45,44,34,24,23,13;
6,7,8,18,28,27,37,47,56,66,56,46,36,26,16;
12,23,33,34,44,54,55,65,64,54,53,43,42,32,31,21,22;
19,29,30,40,50,49,48,58,57,67,66,56,57,47,37,38,28,29;
41,42,52,53,54,64,65,64,63,62,61,51;
49,50,60,70,69,68,67,57,58,59;
62,63,64,65,74,73,83,82,72;
67,68,69,70,80,79,89,88,78,77;
81,82,92,91;
82,83,93,94,84,94,93,92;
84,85,95,96,95,94;
85,95;
86,96,97,87,97,98,88,98,97,87,97,96;
88,89,90,89,90,100,99,100,99,98;
90,100。
该轮廓线基于20×20规格的标准坐标系的图像特征描述符是:
7,8,9,30,50,70,90,110,130,150,170,190,210,230,250,230,229,209,189,188,168,148,147,127,107,106,86,66,46,26,27;
12,13,14,34,35,55,75,95,115,114,134,154,174,173,193,212,232,231,251,231,211,191,171,151,131,111,91,71,51,52,32;
44,64,85,105,106,126,127,147,167,168,188,208,209,229,249,248,228,227,206,205,185,184,164,163,143,142,122,102,82,83,63;
58,78,98,99,119,139,159,179,178,198,197,196,216,215,235,234,233,253,252,232,233,213,193,194,174,154,155,135,115,116,96,97,77;
161,162,182,183,184,204,205,225,226,227,247,248,269,268,267,266,265,264,263,243,242,222,221,201,181;
179,180,200,220,240,260,259,258,278,277,276,275,274,273,253,254,234,235,236,216,217,197,198,199;
263,264,265,266,267,268,269,288,287,307,306,325,324,304,303,283;
273,274,275,276,277,278,279,299,298,318,317,337,336,315,314,294,293;
321,341,342,343,323,324,344,364,384,383,363,362,361,381,361,341;
324,325,345,365,385,386,367,347,327,347,367,387,386,385,384,364,344;
329,330,350,370,371,391,390,370,369,388,368,348,349;349,350,370,369;
331,332,352,372,373,353,333,334,354,374,375,355,335,336,356,376,375,395,394,374,354,353,373,393,392,372,371,351;
337,338,339,359,358,357,358,359,379,378,377,398,399,398,397,377,376,356,357;
340,360,380,400,380,360。
图6是图4图像轮廓线上像素点的位置数据与10×10规格的标准坐标系坐标区域的对应关系图像。
图7是图4图像轮廓线上像素点的位置数据与20×20规格的标准坐标系坐标区域的对应关系图像。
以图5为例,可采用申请号为201710553007X的发明专利《一种图像轮廓线描述符的获取方法、装置》提取的图像特征描述符或图像轮廓线描述符,其中,该轮廓线基于10×10规格的标准坐标系的图像特征描述符是:
6,7,17,27,37,27,28,18,8,9,19,29,30,40,39,49,39,40,50,60,59,69,70,80,90,100,99,89,79,89,88,98,88,78,88,87,97,96,86,87,77,67,77,76,75,65,66,56,46,36,26,16;
38,48;
47,57;
58,68;
58,59,69,79,78,68;
2,12,22,23,13,14,4,14,24,23,33,32,42,43,44,34,35,45,55,54,53,63,64,74,75,85,95,94,84,74,73,83,93,92,82,72,62,52,51,41,31,41,42,32,22,12;
52,53,52,53,63,73,72,62;
9,10,20,19,29,19。
该轮廓线基于20×20规格的标准坐标系的图像特征描述符是:
16,17,37,57,77,97,98,118,119,120,140,160,159,158,157,177,197,198,178,158,159,179,199,219,239,238,258,278,279,299,319,320,340,360,380,400,399,398,378,358,338,337,317,337,357,356,376,356,355,335,315,316,315,295,315,335,334,354,374,373,372,352,332,333,313,293,294,274,273,293,292,312,311,291,290,270,251,252,232,212,192,191,171,151,131,132,112,92,72,52,32,33,53,73,93,113,133,134,114,94,95,115,116,96,76,56,36;
155,156,176,175;
173,174,194,214,234,233,213,193;
215,216,236,256,276,275,255,235;
216,217,237,257,277,297,296,276,256,236;
3,4,24,44,64,84,85,65,66,46,47,27,28,48,68,88,87,107,106,126,125,124,144,164,165,166,167,168,148,149,169,189,209,208,207,206,205,225,226,246,247,267,268,288,289,309,310,330,350,370,390,389,388,368,367,347,327,307,306,326,345,365,364,384,383,363,343,323,303,283,263,243,223,203,202,222,221,201,181,161,141,142,162,163,143,123,103,83,63,43,23;
204,205,204,224,225,245,265,266,286,285,305,304,284,264,244,224;
18,19,39,59,79,78,98,97,77,78,58,38。
图8是图5图像轮廓线上像素点的位置数据与10×10规格的标准坐标系坐标区域的对应关系图像。
图9是图5图像轮廓线上像素点的位置数据与20×20规格的标准坐标系坐标区域的对应关系图像。
第二,利用现有已记录的样本商标的海量数据信息,基于图像特征描述符检索样本图像数据库,得到匹配的图像特征描述符和该图像特征描述符所对应的样本图像及关联文本信息,将该信息作为输入商标的图像特征描述符与关联文本信息,其中,关联文本信息包括:所匹配的样本图像已记录的图形商标中的商标图形要素编码,图形商标中所描述的事物名称,商标文字的书写形式、读音、含义以及其形近字、音近字、义近字等文本及形音义特征。
对以文字形式录入的输入商标的文字转化为图像特征描述符与关联文本信息的处理的方法,包括:
第一,基于以文字形式录入的输入商标的文字为关键词检索样本图像数据库,得到相匹配的样本文字;以图5为例,录入的输入商标的文字为“长城”,以“长城”为关键词检索样本图像数据库,可以得到相匹配的样本文字“长城”的记录。
第二,找出该匹配的样本文字所对应的样本图像及关联文本信息,其中,关联文本信息包括:该匹配样本图像已记录的图形商标中的商标图形要素编码,图形商标中所描述的事物名称,对图像进行表示的图像特征描述符,商标文字的书写形式、读音、含义以及其形近字、音近字、义近字等文本及形音义特征。其中,所述的文字包括中文文字、非中文文字、数字、符号。
上例中,经检索可获得“长城”文字所对应的样本商标及关联文本信息,图5可以是对应的样本商标之一,关联文本信息包括:“长城”文字各种书写形式所构图像的图像特征描述符,“长城”文字读音、含义以及其形近字、音近字、义近字等文本及形音义特征。
二、对图像特征描述符与关联文本信息分别做分割处理;
对图像特征描述符做分割处理就是对图像特征描述符的最小单元进行识别,将图像特征描述符的每一最小单元分割出来,对关联文本信息做分割处理就是对关联文本信息的最小单元进行识别,将关联文本信息的每一最小单元分割出来。
如上例中,图像的图像特征描述符用于表示图像轮廓线某一像素点的位置数据与某一规格的标准坐标系坐标区域的对应关系这一图像的特征点,因此,可以将每一规格的标准坐标系的一个坐标区域所对应图像轮廓线一个或多个像素点的位置数据视为图像特征描述符最小单元。
如图7为例,该轮廓线基于10×10规格的标准坐标系的图像特征描述符中的“3,4,5,15,25,35,45,55,65,55,45,44,34,24,23,13”的图像特征描述符最小单元分别为描述符中的每一个数字,即:“3”、“4”、“5”、“15”、“25”、“35”、“45”、“55”、“65”、“55”、“45”、“44”、“34”、“24”、“23”、“13”。
又如图7为例,该轮廓线基于20×20规格的标准坐标系的图像特征描述符中的“7,8,9,30,50,70,90,110,130,150,170,190,210,230,250,230,229,209,189,188,168,148,147,127,107,106,86,66,46,26,27”的图像特征描述符最小单元分别为描述符中的每一个数字,即:“7”、“8”、“9”、“30”、“50”、“70”、“90”、“110”、“130”、“150”、“170”、“190”、“210”、“230”、“250”、“230”、“229”、“209”、“189”、“188”、“168”、“148”、“147”、“127”、“107”、“106”、“86”、“66”、“46”、“26”、“27”。
以输入“长城”文字作为输入商标为例,在形状方面,关联文本信息是“长城”,“长城”中每一个文字是该输入商标的最小单元,即“长”和“城”分别是该输入商标的最小单元。
三、对最小单元数据进行组合处理;
对最小单元数据进行组合处理就是对最小单元数据按照预设的组合规则进行组合,得到组合单元数据及商标图像任意局部信息,其中,所述组合单元数据为对应所述图像特征描述符或关联文本信息所表示的任一局部特征的多个字符串。
获取组合单元数据及商标图像任意局部信息具体方法包括:
第一,根据应用的需要,建立预设的图像特征描述符最小单元组合规则,其中,预设的图像特征描述符最小单元组合规则具体包括:
图像轮廓线的图像特征描述符最小单元组合规则包括:1)每一个图像轮廓线上的全部线段视为一个图像整体组合单元;2)每一个图像轮廓线上的闭环线视为一个连通域组合单元;3)每一第一预设定长的图像轮廓线上的线段视为一个线段组合单元,其中,第一预设定长可在其线段总长的20%及以上取值。
图像骨架线的图像特征描述符最小单元组合规则包括:1)每一个图像骨架线上的全部线段视为一个图像整体组合单元;2)每一个图像骨架线上不间断的连线视为一个连通域组合单元;3)每一第二预设定长的图像骨架线上的线段视为一个线段组合单元,其中,第二预设定长可在其线段总长的20%及以上取值。
第二,按前述预设的图像特征描述符最小单元组合规则,将图像特征描述符最小单元进行组合,分别获取图像特征描述符的组合单元数据及商标图像任意局部信息。
在本发明的一些实施例中,所获取图像特征描述符组合单元数据可以用于表示一个连通域组合单元数据,也可表示一个线段组合单元数据。其中,每一连通域组合单元数据就是该图像特征描述符所表示图像的任意局部信息。
如图5中该轮廓线基于10×10规格的标准坐标系的图像特征描述符为例,每个连通域组合单元或图像任意局部信息包括如下:
“3,4,5,15,25,35,45,55,65,55,45,44,34,24,23,13”,
“6,7,8,18,28,27,37,47,56,66,56,46,36,26,16”,
“12,23,33,34,44,54,55,65,64,54,53,43,42,32,31,21,22”,
“19,29,30,40,50,49,48,58,57,67,66,56,57,47,37,38,28,29”,
“41,42,52,53,54,64,65,64,63,62,61,51”,
“49,50,60,70,69,68,67,57,58,59”,
“62,63,64,65,74,73,83,82,72”,
“67,68,69,70,80,79,89,88,78,77”,
“81,82,92,91”,
“82,83,93,94,84,94,93,92”,
“84,85,95,96,95,94”,
“85,95”,
“86,96,97,87,97,98,88,98,97,87,97,96”,
“88,89,90,89,90,100,99,100,99,98”,
“90,100”。
针对不同的信息对象,如下分别说明其关联文本信息最小单元的识别分割和组合处理具体方法:
1、可认读的文字内容,即商标中含有的文字。
商标中含有的文字包括:汉语文字、国内少数民族文字、外国文字,国内少数民族文字和外国文字按不同的语种还可细分方若干不同的语种文字。对商标中含有的文字做分割处理就是将商标含有的文字逐个文字进行拆分,使每一个字成为该商标的文字最小单元,文字数就是其最小单元数;对商标中含有的文字做商标文字最小单元组合处理就是按照如下组合规则组合,将文字组合结果,分别获取文字最小单元组合单元数据:
商标文字最小单元组合规则包括:1)每一个大小、颜色、语种相同并紧密相连接的文字视为一个相连组合文字单元;2)每一预设文字数定长的相连组合文字单元上的局部组合单元,其中,预设文字数定长可在相连组合文字单元总文字数的20%以上取值。
2、可认读的文字读音;
对前述获取的文字最小单元组合单元数据,可从文字字典数据库获取相匹配的文字读音,对其文字标注其文字读音,获取的文字读音最小单元组合单元数据。
3、可认读的文字组合含义;
对前述获取的文字最小单元组合单元数据和商标整体文字组合,可从词语词典数据库获取相匹配的词语组合,将该词语组合视为商标有含义的文字组合,将不能将商标全部文字进行词语组合的视为商标无含义的文字组合,其中,能将商标全部文字进行词语组合的每一有含义的文字组合视为一个文字组合含义最小单元组合单元数据。
4、商标图形要素编码;
当每一件商标标记的商标图形要素编码有多个时,将每一商标图形要素编码作为商标图形要素编码最小单元组合单元数据。
在一个具体的实施例中,建立样本商标数据库,通过前述步骤,将对样本商标数据进行转化、分割、组合处理所得到样本商标的组合单元数据及商标图像任意局部信息并将其存储于样本商标数据库。
步骤S330,基于组合单元数据检索样本商标数据库,得到匹配的初步检索样本商标及该样本商标所关联的图像、商标中已记录的文本和形音义特征信息、所匹配的最小单元和组合单元数据。
步骤S340,计算初步检索样本商标与输入商标之间在形、音、义、检索关键词的单项近似率及综合近似率。
步骤S350,按综合近似率符合预设单项近似率及综合近似率和/或排序名次符合预设名次的检索样本商标进行排序,报告检索结果。
在一个具体的实施例中,步骤S330至步骤S350的具体实现,可参照对输入商标的步骤S240至步骤S260所述的处理过程,以输入商标为处理对象,对输入商标进行检索匹配,并得到最终检索结果。
本发明商标识别检索方法,可以通过***现有海量的商标和知识数据信息,从形音义方面对输入商标图像进行文本识别和其形音义特征信息的推定获取,能通过对以图片形式表示的输入商标或样本商标的图片文件和以文字形式记录的输入商标或样本商标的文字分别做转化为图像特征描述符与关联文本信息的处理,对所该处理结果进行分割、组合处理,得到输入商标或样本商标的组合单元数据及商标图像任意局部信息,运用大数据的关联信息推定识别出输入商标或样本商标的图像中不直接显示出的图像的读音、文字组合的含义、商标图形要素编码及其他反映图像形音义特征,以所获取的组合单元数据及商标图像任意局部信息作为检索关键词,有效克服过去人工录入不易对输入商标标识图像中的文字进行形近字、音近字、义近字、图形构成的局部组合等进行穷举,易造成检索关键词不统一、提取信息易遗漏的缺陷;能对规范的文本图像和非规范的文本图像进行有效识别,能克服传统技术方法易造成了商标检索关键词遗漏的缺陷,能够有效解决商标检索中检索关键词获取的自动化智能化和准确性全面性问题,实现从以往手工录入到智能化自动识别录入的跨越,提高其识别的准确率,改善商标识别检索中相同或近似商标的匹配效果,以提高相同或近似商标的查全率、查准率,能有效提高商标检索工作效率。
应该理解的是,虽然图2、图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图2、图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种商标识别检索装置,包括:
转化模块110,用于通过检索样本图像数据库转化输入商标的图像数据,得到输入商标的图像特征描述符以及关联文本信息;样本图像数据库为预先建立的,包含样本图像的图像特征描述符、关联文本信息、最小单元以及组合单元数据的数据库;组合单元数据为表征图像任意局部信息的数据;
分割模块120,用于分别分割输入商标的图像特征描述符和关联文本信息,得到输入商标的各图像特征描述符最小单元、各关联文本信息最小单元;图像特征描述符最小单元为对应图像特征描述符所表示的任一图像特征点的一个或多个字符串;关联文本信息最小单元为对应关联文本信息所表示的任一文本信息特征点的一个文字或多个有含义的文字组合;
组合模块130,用于按照预设最小单元组合规则,分别组合输入商标的各图像特征描述符最小单元、各关联文本信息最小单元,得到输入商标的图像特征描述符组合单元数据、关联文本信息组合单元数据;
检索模块140,用于基于图像特征描述符组合单元数据、关联文本信息组合单元数据检索样本图像数据库中的样本商标数据库,得到匹配的各初步检索样本商标以及初步检索样本商标的各图像特征描述符最小单元、各关联文本信息最小单元;
获取近似率模块150,用于根据初步检索样本商标的各图像特征描述符最小单元、各关联文本信息最小单元以及输入商标的各图像特征描述符最小单元、各关联文本信息最小单元,得到单项近似率;处理单项匹配率,得到初步检索样本商标与输入商标的综合近似率;
排序模块160,用于对综合近似率符合预设要求的初步检索样本商标进行排序,得到检索结果。
在一个具体的实施例中,输入商标包括以图片形式录入的输入商标和以文字形式录入的输入商标;样本图像包括以图片形式录入的样本图像和以文字形式录入的样本图像;
样本图像包括商标图样、外观设计图样、著作权登记的美术作品图样、各汉语文字图样、各非汉语文字图样以及自定义图像;样本图像数据库还包括商标构成要素样本图像数据库、文字字典数据库以及词语词典数据库;
样本图像的关联文本信息包括已记录的样本图像的商标图形要素编码、样本图像所描述的事物名称和样本图像可认读的文字的文本及形音义特征;形音义特征包括样本图像的图形形状表现形式或文字的书写形式、读音、含义以及形近字、音近字和义近字;
图像特征描述符为采用相同或高度相似的字符串、对输入商标或样本图像中具有相同感知内容或特征进行记录,而采用不同的字符串对输入商标或样本图像中具有不同感知内容或特征进行记录的图像特征表示形式;图像特征表示形式为描述输入商标或样本图像的图像特征的一组或多组字符串的集合;
预设最小单元组合规则包括图像特征描述符最小单元组合规则和关联文本信息最小单元组合规则;图像特征描述符组合单元数据包括用于表示连通域组合单元数据、用于表示线段组合单元数据以及用于存储的字符串数据;关联文本信息组合单元数据包括文字组合单元数据、文字读音组合单元数据、文字含义组合单元数据以及商标图形要素编码组合单元数据;
还包括建立数据库模块,用于建立样本图像数据库。
在一个具体的实施例中,关联文本信息中的文字包括中文文字、各语种的外国文字、数字以及符号;
建立数据库模块,用于收集各样本图像,提取并存储各样本图像的图像特征描述符;录入样本图像的关联文本信息;对图像特征描述符进行分割以及按照图像特征描述符最小单元组合规则的组合处理,得到各图像特征描述符最小单元以及各图像特征描述符组合单元数据;逐个拆分样本图像的关联文本信息中的文字,得到关联文本信息最小单元;按照关联文本信息最小单元组合规则对各关联文本信息最小单元进行组合,得到各文字组合单元数据;关联文本信息最小单元组合规则包括:将大小、颜色、语种相同并紧密相连接的文字确认为一个相连组合文字单元;将各预设文字数定长的相连组合文字单元确认为局部组合单元;其中,预设文字数定长的取值范围为在相连组合文字单元总文字数的20%以上取值;从文字字典数据库中获取与文字最小单元组合单元数据相匹配的文字读音,根据文字读音标注各文字最小单元组合单元数据中的文字读音,得到文字读音最小单元组合单元数据;从词语词典数据库中获取与各文字最小单元组合单元数据相匹配的词语组合,得到文字含义组合单元数据;将样本商标标记的各商标图形要素编码,确认为商标图形要素编码组合单元数据。
在一个具体的实施例中,转化模块,用于提取以图片形式录入的输入商标的图像特征描述符;基于图像特征描述符检索样本图像数据库,将匹配的图像特征描述符对应的样本图像视为与输入商标的图像相同或高度近似的图像,并将样本图像已记录的图像特征描述符、关联文本信息确认为以图片形式录入的输入商标的图像特征描述符、关联文本信息;以及,
基于以文字形式录入的输入商标的文字检索样本图像数据库,将匹配的样本文字对应的样本图像已记录的图像特征描述符、关联文本信息确认为以文字形式录入的输入商标的图像特征描述符、关联文本信息。
在一个具体的实施例中,预设图像特征描述符最小单元组合规则可以包括图像轮廓线的图像特征描述符最小单元组合规则和图像骨架线的图像特征描述符最小单元组合规则;
图像轮廓线的图像特征描述符最小单元组合规则包括:将任一图像轮廓线上的全部线段确认为一个图像整体组合单元;将任一图像轮廓线上的闭环线确认为一个连通域组合单元;将任一第一预设定长的图像轮廓线上的线段确认为一个线段组合单元;其中,第一预设定长的取值范围为大于或等于图像轮廓线上的线段总长的20%;
图像骨架线的图像特征描述符最小单元组合规则包括:将任一图像骨架线上的全部线段确认为一个图像整体组合单元;将任一图像骨架线上不间断的连线确认为一个连通域组合单元;将任一第二预设定长的图像骨架线上的线段确认为一个线段组合单元;其中,第二预设定长的取值范围为大于或等于图像骨架线上的线段总长的20%。
在一个具体的实施例中,图像特征描述符为用于表示图像轮廓线或图像骨架线任一像素点的位置数据与任一规格的标准坐标系坐标区域的对应关系的特征描述符;
图像特征描述符最小单元为任一规格的标准坐标系的任一坐标区域所对应图像轮廓线或图像骨架线的一个或多个像素点的位置数据;
关联文本信息最小单元为任一文字或文字组合所表示的关联文本信息对应具有含义的文字或词汇的数据。
在一个具体的实施例中,关联文本信息最小单元包括中文最小单元以及非中文最小单元;单项近似率包括中文单项近似率、非中文单项近似率以及图像特征单项近似率;
获取近似率模块,用于:
获取输入商标的中文最小单元的总数、非中文最小单元的总数和图像特征描述符最小单元的总数,初步检索样本商标匹配输入商标的中文最小单元合计数、非中文最小单元合计数和图像特征描述符最小单元合计数,初步检索样本商标不匹配输入商标的中文最小单元合计数、非中文最小单元合计数和图像特征描述符最小单元合计数;
基于以下公式得到中文最小单元匹配率:
Ma1=(Ua1÷U01)×100%
其中,Ma1表示中文最小单元匹配率,U01表示输入商标的中文最小单元的总数,Ua1表示初步检索样本商标匹配输入商标的中文最小单元合计数;
基于以下公式得到非中文最小单元匹配率:
Ma2=(Ua2÷U02)×100%
其中,Ma2表示非中文最小单元匹配率,U02表示输入商标的非中文最小单元的总数,Ua2表示初步检索样本商标匹配输入商标的非中文最小单元合计数;
基于以下公式得到图像特征描述符最小单元匹配率:
Ma0=(Ua0÷U00)×100%
其中,Ma0表示图像特征描述符最小单元匹配率,U00表示输入商标的图像特征描述符最小单元的总数,Ua0表示初步检索样本商标匹配输入商标的图像特征描述符最小单元合计数;
基于以下公式得到中文最小单元不匹配率:
Mi1=(Uc1÷U01)×100%+(n1-1)×ω1
其中,Mi1表示中文最小单元不匹配率,U01表示输入商标的中文最小单元的总数,Uc1表示初步检索样本商标不匹配输入商标的中文最小单元合计数,n1表示初步检索样本商标与输入商标在中文最小单元组合连线上所不相匹配的处数,ω1表示处数n1的权数;其中,ω1的取值范围为小于或等于80%;
基于以下公式得到非中文最小单元不匹配率:
Mi2=(Uc2÷U02)×100%+(n2-1)×ω2
其中,Mi2表示非中文最小单元不匹配率,U02表示输入商标的非中文最小单元的总数,Uc2表示初步检索样本商标不匹配输入商标的非中文最小单元合计数,n2表示初步检索样本商标与输入商标在非中文最小单元组合连线上所不相匹配的处数,ω2表示处数n2的权数;其中,ω2的取值范围为小于或等于80%;
基于以下公式得到图像特征描述符最小单元不匹配率:
Mi0=(Uc0÷U00)×100%+(n0-1)×ω0
其中,Mi0表示图像特征描述符最小单元不匹配率,U00表示输入商标的图像特征描述符最小单元的总数,Uc0表示初步检索样本商标不匹配输入商标的图像特征描述符最小单元合计数,n0表示初步检索样本商标与输入商标在图像特征描述符最小单元组合连线上所不相匹配的处数,ω0表示处数n0的权数;其中,ω0的取值范围为小于或等于80%;
基于以下公式,获取中文单项近似率:
M1=Ma1-Mi1×β1
其中,M1表示中文单项近似率,β1表示Mi1的权数;其中,β1的取值范围为小于或等于80%;
基于以下公式,获取非中文单项近似率
M2=Ma2-Mi2×β2
其中,M2表示非中文单项近似率,β2表示Mi2的权数;其中,β2的取值范围为小于或等于80%;
基于以下公式,获取图像特征单项近似率:
M0=Ma0-Mi0×β0
其中,M0表示图像特征单项近似率,β0表示Mi0的权数;其中,β0的取值范围为小于或等于80%。
在一个具体的实施例中,获取近似率模块还用于:
基于以下公式,得到综合近似率:
M=(M1+M2+M0)÷μ
其中,μ表示M1、M2、M0不为0的项数。
在一个具体的实施例中,非中文最小单元为英文最小单元;非中文最小单元匹配率为英文最小单元匹配率;非中文最小单元不匹配率为英文最小单元不匹配率;非中文单项近似率为英文单项近似率;
图像特征描述符最小单元组合连线为图像特征线;中文最小单元组合连线为中文商标文字对应的形音义特征构成的最小单元、按排列顺序形成的轨迹线;非中文最小单元组合连线为非中文商标文字对应的形音义特征构成的最小单元、按排列顺序形成的轨迹线。
在一个具体的实施例中,排序模块,用于筛选出综合近似率大于或等于30%的初步检索样本商标,并对筛选出的初步检索样本商标进行排序,且取排序名次小于或等于500以内的初步检索样本商标作为检索结果。
以上各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
关于商标识别检索装置的具体限定可以参见上文中对于商标识别检索方法的限定,在此不再赘述。上述商标识别检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、数据库、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储商标样本图像以及数据库等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像文本及形音义特征识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述商标识别检索方法中的各步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述商标识别检索方法中的各步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。