CN112182275A

CN112182275A - 一种基于多维度特征融合的商标近似检索***和方法

Info

Publication number: CN112182275A
Application number: CN202011046201.7A
Authority: CN
Inventors: 迟敬泽; 尹乾
Original assignee: Digital China Information Systems Co ltd
Current assignee: Digital China Information Systems Co ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2021-01-05

Abstract

本发明提供了一种多维度特征融合的商标近似检索方法，将卷积神经网络、视觉词袋、图形要素三个维度的特征进行融合，实现更具语义信息和辨识力的商标近似检索方法。首先基于卷积神经网络，提取多尺度卷积神经网络特征，并基于三元组损失函数对多尺度卷积神经网络特征进行优化训练。同时，提取商标图像视觉词袋特征，并结合商标图形要素，考虑多种维度特征之间的互补信息，基于多尺度卷积神经网络特征、视觉词袋特征和图形要素特征三个维度的特征，充分利用并挖掘不同维度特征间的关联互补性，从而提升商标综合检索效果。

Description

一种基于多维度特征融合的商标近似检索***和方法

技术领域

本发明涉及图像搜索技术领域，具体涉及一种基于多维度特征融合的商标近似检索***和方法。

背景技术

商标是识别某商品、服务或与其相关具体个人或企业的显著标志。注册商标是一种合法的财产，需要予以保护以防止商标侵权。商标局承担商标审查注册、行政裁决等工作，而随着经济的快速发展，企业数量的不断增多，商标的注册量随之不断增长，从而使得商标局对商标的审核和管理的难度加大。

对于申请的新商标，商标局会对商标进行审核，保证新商标未模仿已注册商标，并与已注册商标具有足够的差异。目前商标局进行商标审核的方法主要是通过人工标注的文本信息和图形编码对商标进行检索。该方法的检索精度和效率都比较受限，人工标注和审核的工作量很大，使得处理日益增长的商标注册申请面临重要挑战。

而随着计算机图像处理技术的发展，基于商标图像内容本身的检索方法应运而生。该方法不依赖于人工标注的信息，而是对商标图像提取相应的图像特征，通过图像特征进行相似度匹配，进而检索出近似的商标。现有方法大多采用基于简单的单一图像特征，采用传统的图像检索方式。而商标图像通常由抽象图形和符号组成，具有很强的抽象性和复杂性，计算机对商标图像的表征和人类认知之间存在的语义鸿沟，导致现有方法难以实现对商标图像的理解，进而影响商标检索的准确率和效率。

因此，针对商标检索中存在的上述问题，本发明提出了多维度特征融合的商标近似检索方法和***，利用卷积神经网络、视觉词袋、图形要素三个维度的特征进行融合，提供更具语义信息和辨识力的商标近似检索，取得了更好的商标检索效果。

发明内容

本发明为了解决现有技术中采用单一图像特征时，由于商标图像通常由抽象图形和符号组成，具有很强的抽象性和复杂性，计算机对商标图像的表征和人类认知之间存在的语义鸿沟，导致现有方法难以实现对商标图像的理解，进而影响商标检索的准确率和效率的问题，提供了一种基于多维度特征融合的商标近似检索***和方法，利用卷积神经网络、视觉词袋、图形要素三个维度的特征进行融合，提供更具语义信息和辨识力的商标近似检索，取得了更好的商标检索效果，解决了上述问题。

本发明提供了一种基于多维度特征融合的商标近似检索***，包括商标数据库、特征检索模块、特征提取模块，商标数据库连接特征提取模块，特征提取模块连接特征检索模块；

特征提取模块包括神经网络特征模块、视觉词袋特征模块和图形要素模块，神经网络特征模块连接商标数据库、特征检索模块，视觉词袋特征模块连接商标数据库和特征检索模块，图形要素模块连接商标数据库，神经网络特征模块用于通过商标数据库提取图像多尺度卷积神经网络特征并基于三元组度量损失函数对神经网络进行优化训练并输出多尺度卷积神经网络特征至特征检索模块，视觉词袋特征模块用于通过商标数据库根据提取的图像关键点特征并构建视觉词典并输出基于视觉词典提取的图像视觉词袋特征至特征检索模块，图形要素模块用于建立已注册商标图形要素的索引库并通过查询人员手工输入图形要素特征至特征检索模块。

神经网络特征模块：该模块负责提取图像多尺度卷积神经网络特征，并基于三元组度量损失函数对神经网络进行优化训练；

视觉词袋特征模块：该模块负责提取图像关键点特征，并构建视觉词典，最终输出基于视觉词典提取的图像视觉词袋特征；

图形要素特征模块：该模块负责通过全文搜索引擎建立已注册商标图形要素的索引库，对待注册商标的图形要素特征为查询人员通过手工进行输入；

特征检索模块：该模块负责在检索阶段，调用所述特征模块提取待注册商标图像的多尺度卷积神经网络特征、视觉词袋特征和图形要素特征，并计算待注册商标和已注册商标库中商标的相似度，通过对相似度进行排序返回检索结果。

本发明的一种基于多维度特征融合的商标近似检索***，作为优选方式，神经网络特征模块包括残差网络、第一全连接层、第二全连接层、第一卷积层、第二卷积层、第一池化层和第二池化层，残差网络、第一卷积层和第二卷积层均连接商标数据库，残差网络数据连接第一全连接层，第一卷积层数据连接第一池化层，第二卷积层数据连接第二池化层，第一全连接层、第一池化层和第二池化层均连接第二全连接层，第二全连接层将多尺度卷积神经网络特征传递至特征检索模块。

本发明提供了一种基于多维度特征融合的商标近似检索方法，包括以下步骤：

S1、建立商标数据库；

S2、通过特征检索模块输入待注册商标；

S3、根据待注册商标，神经网络特征模块通过商标数据库提取商标图像的多尺度卷积神经网络特征并传输至特征检索模块，视觉词袋特征模块通过商标数据库提取商标图像的视觉词袋特征并传输至特征检索模块，图形要素模块通过商标数据库提取商标图像的图形要素特征并传输至特征检索模块；

S4、基于多尺度卷积神经网络特征、视觉词袋特征和图形要素特征，将待注册商标与已注册商标库中商标进行相似度匹配，得到三个维度特征的融合检索结果。

本发明的一种基于多维度特征融合的商标近似检索方法，作为优选方式，步骤S4中待注册商标与已注册商标库中商标进行相似度匹配，得到三个维度特征的融合检索结果的具体计算公式为：

Score(a，d_i)

＝α*Score_CNN(a，d_i)+β*Score_BoVW(a，d_i)+Score_element(a，d_i)

其中Score(a，d_i)为待注册商标a和已注册商标库中第i个商标d_i的总相似度，Score_CNN为多尺度卷积神经网络特征的相似度、Score_BoVW为视觉词袋特征的相似度、Score_element为图形要素特征的相似度，α和β为权重参数。

本发明的一种基于多维度特征融合的商标近似检索方法，作为优选方式，步骤S3中神经网络特征模块提取商标图像的多尺度卷积神经网络特征并传输至特征检索模块具体方式为：

S311、商标图像分别输入残差网络、第一卷积层和第二卷积层，ImageNet预训练参数初始化的所述残差网络，并提取残差网络中的Average Pooling层通过第一全连接层得到第一特征；

S312、第一卷积层和第二卷积层采用不同的Padding值和Stride值，分别通过第一池化层和第二池化层得到第二特征和第三特征；

S313、第一特征、第二特征和第三特征均经过L₂正则化；

S314、正则化后的第一特征、第二特征和第三特征拼接输入第二全连接层；

S315、第二全连接层通过线性映射得到多尺度卷积神经网络特征。

本发明的一种基于多维度特征融合的商标近似检索方法，作为优选方式，步骤S3中神经网络特征模块提取商标图像的多尺度卷积神经网络特征并传输至特征检索模块还包括：

S316、通过三元组度量损失函数对多尺度卷积神经网络参数进行优化，挖掘并学习已注册商标图像的语义信息；

损失函数表示为：

Loss(p，q，r)

＝max(0，margin+D(f(q)，f(p))-D(f(q)，D(f(n))))

其中，Loss(p，q，r)为三元组(p，q，r)的度量损失函数，p，q，r分别为当前商标、当前商标的近似商标和当前商标的非近似商标，f(·)为多尺度卷积神经网络的输出特征，D(·)为两个输入特征之间的余弦距离，margin为边界参数。

本发明的一种基于多维度特征融合的商标近似检索方法，作为优选方式，步骤S3中视觉词袋特征模块提取商标图像的视觉词袋特征并传输至特征检索模块的具体方式为：

S321、使用Harris、Hessian、Kaze三种局部检测子提取图像的关键点；

S322、通过Sift描述子对图像关键点提取关键点特征；

S323、关键点特征通过Kmeans聚类建立视觉词典；

S324、通过视觉词典对图像提取视觉词袋特征。

本方法一方面基于卷积神经网络，提取多尺度卷积神经网络特征，并通过基于三元组损失函数对多尺度卷积神经网络特征进行优化训练，进一步建模了商标的语义信息。同时，本发明考虑了多种维度特征之间包含着大量互补信息，基于多尺度卷积神经网络特征、视觉词袋特征和图形要素特征这三个维度的特征，充分利用并挖掘不同维度特征间的关联互补性，因此能取得更好的检索准确率。

本发明有益效果如下：

(1)多尺度卷积神经网络中残差网络侧重高层语义特征学习，而另外两路浅层网络侧重图像本身内容特征的学习，同时基于三元组度量损失函数的优化训练，使得多尺度卷积神经网络特征更好地建模商标的相对相似性，从而取得更好地检索效果；

(2)视觉词袋侧重图像内容的局部特征，图形编码体现人对商标的高层语义理解，多尺度卷积神经特征、视觉词袋特征和图形编码特征三种维度特征的融合，使得不同维度特征间的优势进行互补，从而提升商标综合检索效果。

附图说明

图1为一种基于多维度特征融合的商标近似检索***示意图；

图2为一种基于多维度特征融合的商标近似检索***特征提取模块示意图；

图3为一种基于多维度特征融合的商标近似检索***神经网络特征模块结构示意图；

图4为一种基于多维度特征融合的商标近似检索方法流程图。

附图标记：

1、商标数据库；2、特征检索模块；3、特征提取模块；31、神经网络特征模块；311、残差网络；312、第一全连接层；313、第二全连接层；314、第一卷积层；315、第二卷积层；316、第一池化层；317、第二池化层；32、视觉词袋特征模块；33、图形要素模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚.完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1

如图1所示，包括商标数据库1、特征检索模块2、特征提取模块3，商标数据库1连接特征提取模块3，特征提取模块3连接特征检索模块2。

如图2所示，特征提取模块3包括神经网络特征模块31、视觉词袋特征模块32和图形要素模块33，神经网络特征模块31连接商标数据库1、特征检索模块2，视觉词袋特征模块32连接商标数据库1和特征检索模块2，图形要素模块33连接商标数据库1，神经网络特征模块31用于通过商标数据库1提取图像多尺度卷积神经网络特征并基于三元组度量损失函数对神经网络进行优化训练并输出多尺度卷积神经网络特征至特征检索模块2，视觉词袋特征模块32用于通过商标数据库1根据提取的图像关键点特征并构建视觉词典并输出基于视觉词典提取的图像视觉词袋特征至特征检索模块2，图形要素模块33用于建立已注册商标图形要素的索引库并输出图形要素特征至特征检索模块2。

如图3所示，神经网络特征模块31包括残差网络311、第一全连接层312、第二全连接层313、第一卷积层314、第二卷积层315、第一池化层316和第二池化层317，残差网络311、第一卷积层314和第二卷积层315均连接商标数据库1，残差网络311数据连接第一全连接层312，第一卷积层314数据连接第一池化层316，第二卷积层315数据连接第二池化层317，第一全连接层312、第一池化层316和第二池化层317均连接第二全连接层313，第二全连接层313将多尺度卷积神经网络特征传递至特征检索模块2。

如图4所示，一种基于多维度特征融合的商标近似检索方法，包括以下步骤：

S1、建立商标数据库1

将所有已注册商标和待注册商标图像转为灰度图像，排除颜色对检索结果的干扰，并将所有图像统一存储为JPG格式；

S2、通过特征检索模块2输入待注册商标；

S3、根据待注册商标，神经网络特征模块31通过商标数据库1提取商标图像的多尺度卷积神经网络特征并传输至特征检索模块2，视觉词袋特征模块32通过商标数据库1提取商标图像的视觉词袋特征并传输至特征检索模块2，图形要素模块33通过商标数据库1提取商标图像的图形要素特征并传输至特征检索模块2；

待注册商标与已注册商标库中商标进行相似度匹配，得到三个维度特征的融合检索结果的具体计算公式为：

Score(a，d_i)

＝α*Score_CNN(a，d_i)+β*Score_BoVW(a，d_i)+Score_element(a，d_i)

其中Score(a，d_i)为待注册商标a和已注册商标库中第i个商标d_i的总相似度，Score_CNN为多尺度卷积神经网络特征的相似度、Score_BoVW为视觉词袋特征的相似度、Score_element为图形要素特征的相似度，α和β为权重参数，实施中α取值为0.6，β取值为0.4。基于Score(a，d_i)从大到小对已注册商标库中的商标进行排序，返回排序结果即为待注册商标的检索结果。

具体实施中采用MAP指标来评测商标检索的准确率。MAP是一种常见的检索结果统计指标，其定义如下：

其中R是商标库中正样本的总数，R_k表示前k个返回结果中正样本的数目，rel_k表示第k个返回结果是否为正样本，是正样本则为1，否则为0。上述公式定义了单一查询的AP值，MAP指标是所有查询AP的平均值。

在本实施例中，图像首先统一成224*224像素大小。第一路采用ResNet连接第一全连接层313的结构，本实施中采用经过ImageNet数据集(www.image-net.org)预训练参数初始化的ResNet101网络，并提取该网络中Average Pooling层的2048维特征输入到第一全连接层313中。第一全连接层313采用隐藏神经元的数量4096的线性映射。另外两路均采用卷积层加池化层的结构，但卷积层的Padding值分别采用1和4，Stride值分别采用16和32，并都通过池化层得到维数为1536的特征。三路网络得到的特征均经过L₂正则化，然后进行拼接输入到第二全连接层313，第二全连接层313也采用隐藏神经元的数量4096的线性映射，最终得到4096维的多尺度卷积神经网络特征。

步骤S3中神经网络特征模块31提取商标图像的多尺度卷积神经网络特征并传输至特征检索模块2具体方式为：

S311、商标图像分别输入残差网络311、第一卷积层314和第二卷积层315，ImageNet预训练参数初始化的残差网络311，并提取残差网络311中的Average Pooling层的第一特征到第一全连接层312中；

S312、第一卷积层314和第二卷积层315采用不同的Padding值和Stride值，分别通过第一池化层316和第二池化层317得到第二特征和第三特征；

S313、第一特征、第二特征和第三特征均经过L₂正则化；

S314、正则化后的第一特征、第二特征和第三特征拼接输入第二全连接层313；

S315、第二全连接层313通过线性映射得到多尺度卷积神经网络特征。

损失函数表示为：

Loss(p，q，r)

＝max(0，margin+D(f(q)，f(p))-D(f(q)，D(f(n))))

其中，Loss(p，q，r)为三元组(p，q，r)的度量损失函数，p，q，r分别为当前商标、当前商标的近似商标和当前商标的非近似商标，f(·)为多尺度卷积神经网络的输出特征，D(·)为两个输入特征之间的余弦距离，margin为边界参数，实施过程中margin的值取0.1。

实施过程中三元组根据已有的标注信息进行构建，并在训练过程中随机选取数据样本的方式进行训练。训练采用随机梯度下降算法进行优化，初始学习率为0.001，动量参数为0.9，单次训练数据量大小为64。

步骤S3中视觉词袋特征模块32提取商标图像的视觉词袋特征并传输至特征检索模块2的具体方式为：

S322、通过Sift描述子对图像关键点提取关键点特征；

S323、关键点特征通过Kmeans聚类建立视觉词典；

S324、通过视觉词典对图像提取视觉词袋特征。

在本实施中，首先使用Harris、Hessian、Kaze三种局部检测子提取图像的关键点。

基于提取的图像关键点，通过Sift描述子分别对其提取关键点特征，每个关键点特征维数为128。

基于Sift关键点特征通过Kmeans聚类算法建立视觉词典，词典大小为2000个词。

最后对于每个图像，基于视觉词典对词频和逆文档频率进行计算，输出2000维的视觉词袋特征。

本实施例中，建立已注册商标图形要素索引库，待注册商标的图形要素特征为查询人员通过手工进行输入。

该步骤采用Lucene、Whoosh等全文搜索引擎库对已注册商标的图形要素建立索引库，以支持下一步骤的图形要素快速检索，索引库索引字段包括商标的注册号和商标图像包含的图形编码集合。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多维度特征融合的商标近似检索***，其特征在于：包括商标数据库(1)、特征检索模块(2)、特征提取模块(3)，所述商标数据库(1)连接所述特征提取模块(3)，所述特征提取模块(3)连接所述特征检索模块(2)；

所述特征提取模块(3)包括神经网络特征模块(31)、视觉词袋特征模块(32)和图形要素模块(33)，所述神经网络特征模块(31)连接所述商标数据库(1)、所述特征检索模块(2)，所述视觉词袋特征模块(32)连接所述商标数据库(1)和所述特征检索模块(2)，所述图形要素模块(33)连接所述商标数据库(1)，所述神经网络特征模块(31)用于通过所述商标数据库(1)提取图像多尺度卷积神经网络特征并基于三元组度量损失函数对神经网络进行优化训练并输出多尺度卷积神经网络特征至所述特征检索模块(2)，所述视觉词袋特征模块(32)用于通过所述商标数据库(1)根据提取的图像关键点特征并构建视觉词典并输出基于所述视觉词典提取的图像视觉词袋特征至所述特征检索模块(2)，所述图形要素模块(33)用于建立已注册商标图形要素的索引库并通过查询人员手工输入图形要素特征至所述特征检索模块(2)。

2.根据权利要求1所述的一种基于多维度特征融合的商标近似检索***，其特征在于：所述神经网络特征模块(31)包括残差网络(311)、第一全连接层(312)、第二全连接层(313)、第一卷积层(314)、第二卷积层(315)、第一池化层(316)和第二池化层(317)，所述残差网络(311)、所述第一卷积层(314)和所述第二卷积层(315)均连接所述商标数据库(1)，所述残差网络(311)数据连接所述第一全连接层(312)，所述第一卷积层(314)数据连接所述第一池化层(316)，所述第二卷积层(315)数据连接所述第二池化层(317)，所述第一全连接层(312)、所述第一池化层(316)和所述第二池化层(317)均连接所述第二全连接层(313)，所述第二全连接层(313)将多尺度卷积神经网络特征传递至所述特征检索模块(2)。

3.一种基于多维度特征融合的商标近似检索方法，其特征在于：包括以下步骤：

S1、建立所述商标数据库(1)；

S2、通过所述特征检索模块(2)输入待注册商标；

S3、根据所述待注册商标，所述神经网络特征模块(31)通过所述商标数据库(1)提取所述商标图像的多尺度卷积神经网络特征并传输至所述特征检索模块(2)，所述视觉词袋特征模块(32)通过所述商标数据库(1)提取所述商标图像的视觉词袋特征并传输至所述特征检索模块(2)，所述图形要素模块(33)通过所述商标数据库(1)提取所述商标图像的图形要素特征并传输至所述特征检索模块(2)；

S4、基于所述多尺度卷积神经网络特征、所述视觉词袋特征和所述图形要素特征，将待注册商标与已注册商标库中商标进行相似度匹配，得到三个维度特征的融合检索结果。

4.根据权利要求3所述的一种基于多维度特征融合的商标近似检索方法，其特征在于：步骤S4中融合检索结果的具体计算公式为：

Score(a，d_i)

＝α*Score_CNN(a，d_i)+β*Score_BoVW(a，d_i)+Score_element(a，d_i)

5.根据权利要求3所述的一种基于多维度特征融合的商标近似检索方法，其特征在于：步骤S3中所述神经网络特征模块(31)提取所述商标图像的多尺度卷积神经网络特征并传输至所述特征检索模块(2)具体方式为：

S311、商标图像分别输入所述残差网络(311)、所述第一卷积层(314)和所述第二卷积层(315)，提取所述残差网络(311)中的平均池化层通过所述第一全连接层(312)，得到第一特征；

S312、所述第一卷积层(314)和所述第二卷积层(315)采用不同的卷积操作参数，分别通过第一池化层(316)和所述第二池化层(317)得到第二特征和第三特征；

S313、所述第一特征、所述第二特征和所述第三特征均经过L₂正则化；

S314、正则化后的所述第一特征、所述第二特征和所述第三特征拼接输入所述第二全连接层(313)；

S315、所述第二全连接层(313)通过线性映射得到所述多尺度卷积神经网络特征。

6.根据权利要求5所述的一种基于多维度特征融合的商标近似检索方法，其特征在于：所述步骤S3中所述神经网络特征模块(31)提取所述商标图像的神经网络特征并传输至所述特征检索模块(2)还包括：

所述损失函数表示为：

Loss(p，q，r)

＝max(0，margin+D(f(q)，f(p))-D(f(q)，D(f(n))))

7.根据权利要求3所述的一种基于多维度特征融合的商标近似检索方法，其特征在于：所述步骤S3中所述视觉词袋特征模块(32)提取所述商标图像的视觉词袋特征并传输至所述特征检索模块(2)的具体方式为：

S322、通过Sift描述子对图像关键点提取关键点特征；

S323、关键点特征通过Kmeans聚类建立视觉词典；

S324、通过视觉词典对图像提取视觉词袋特征。