CN113408552A - 特征量化模型训练、特征量化、数据查询方法及*** - Google Patents

特征量化模型训练、特征量化、数据查询方法及*** Download PDF

Info

Publication number
CN113408552A
CN113408552A CN202010181479.9A CN202010181479A CN113408552A CN 113408552 A CN113408552 A CN 113408552A CN 202010181479 A CN202010181479 A CN 202010181479A CN 113408552 A CN113408552 A CN 113408552A
Authority
CN
China
Prior art keywords
characteristic
quantization
feature
information
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010181479.9A
Other languages
English (en)
Inventor
方奕庚
穆亚东
唐小军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
BOE Technology Group Co Ltd
Original Assignee
Peking University
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, BOE Technology Group Co Ltd filed Critical Peking University
Priority to CN202010181479.9A priority Critical patent/CN113408552A/zh
Priority to PCT/CN2021/080461 priority patent/WO2021185171A1/zh
Priority to US17/910,651 priority patent/US20230135021A1/en
Publication of CN113408552A publication Critical patent/CN113408552A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明实施例提供一种特征量化模型训练、特征量化、数据查询方法及***,该特征量化模型训练方法包括:获取多个源数据域;获取每一所述源数据域的特征信息和标注信息;根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型,其中,训练过程中,从所述多个源数据域的特征信息中分解出公共特征信息和域专有的特征信息,所述公共特征信息为所述多个源数据域共有的特征信息。本发明实施例中,使用多个源数据域的丰富的标注信息训练得到公共特征量化模型,公共特征量化模型可用于标注信息匮乏的目标数据域的特征量化,从而提高特征量化模型在标注信息匮乏的数据域的特征量化性能。

Description

特征量化模型训练、特征量化、数据查询方法及***
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种特征量化模型训练、特征量化、数据查询方法及***。
背景技术
特征量化(feature quantization)是在计算机视觉、数据挖掘等人工智能相关领域中的一个重要技术。特征量化的目标是输出包含浓缩后的原始信息(原始的图像、视频、文本等数据的特征)的精简特征编码(特征量化码),同时能最大限度保持原始特征的表达能力。特征量化的意义在于,对于大规模数据集(如图像搜索***中的海量图像数据),通过使用量化后的精简特征编码,能以更小的存储和计算复杂度完成特定任务(如图像搜索等)。例如,在图像搜索领域,主流的图像特征维度通常为上万维,代表性视觉特征如局部聚合描述符(VLAD)、FisherVector或者深度网络经过全局平均池化后的特征向量。在进行图像搜索等操作时,高维特征需要极高的存储代价和计算复杂度。特征量化能在基本不损失精度的情况下,极大降低对存储空间的需求和运行时刻的计算复杂度。特别的,对于百万量级的图像数据集,经过特征量化操作以后,整个数据集的特征通常只有若干吉字节(GB),可以轻易读入单台服务器的内存中,从而避免了耗时的云服务中的多机通信和内存-外存之间的输入输出(I/O)代价。
传统的特征量化算法包括K均值聚类等。这些算法通常是无监督的,特征之间的距离或相似度计算常基于标准的欧氏距离或者余弦相似度。近年来,基于标注信息的特征量化算法逐步取得更大的关注,在实际应用中表现出更强大的性能。常见的标注信息的形式包括语义标签(例如对图像的语义类别给出一个或者多个标签)、相似度标签(例如指定两张图像是否相似、甚至具体的相似度数值)等。然而,在特定的目标数据域使用特征量化算法时,一种常见的问题是标注信息的缺乏。一方面,标注信息的获取常需要人工标注,代价昂贵;另一方面,某些垂直领域应用的标注信息在本质上是稀疏的,例如精细类别识别问题(fine-grained recognition)。从而难以保证特征量化算法的性能。
发明内容
本发明实施例提供一种特征量化模型训练、特征量化、数据查询方法及***,用于解决目标数据域的标注信息不足时,难以保证特征量化算法的性能的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种特征量化模型训练方法,包括:
获取多个源数据域;
获取每一所述源数据域的特征信息和标注信息;
根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型,其中,训练过程中,从所述多个源数据域的特征信息中分解出公共特征信息和域专有的特征信息,所述公共特征信息为所述多个源数据域共有的特征信息。
可选的,所述根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型包括:
根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型和每一所述源数据域的域专有的特征量化模型。
可选的,采用深度神经网络算法对所述公共特征量化模型和域专有的特征量化模型进行训练。
可选的,所述对特征量化模型进行训练包括:
调整所述特征量化模型,使得对于所有所述源数据域,Ex(L(F0(X),Y))取最小值;
其中,X为表示所有所述源数据域的特征信息,Y为所有所述源数据域的标注信息,F0表示公共特征量化模型,F0(X)表示特征信息X经过F0处理后得到的特征量化码,L(F0(X),Y)表示所述特征量化码与标注信息Y之间的损失函数,Ex(L(F0(X),Y))表示L函数针对特征信息X的数学期望。
可选的,所述对特征量化模型进行训练还包括:
调整所述特征量化模型,使得对于任意所述源数据域k,Ex(L(φ(F0(x),Fk(x)),y))取最小值,以及,对于任意所述源数据域k,Ex(L(φ(F0(x),Fk(x)),y))<Ex(L(φ(F0(x),Fp(x)),y)),其中,p不等于k;
其中,x表示所述源数据域k的特征信息,y为所述源数据域k的标注信息,F0表示公共特征量化模型,F0(x)表示特征信息x经过F0处理后得到的特征量化码,Fk表示所述源数据域k的域专有的特征量化模型,Fk(x)表示特征信息x经过Fk处理后得到的特征量化码,Fp表示所述源数据域p的域专有的特征量化模型,Fp(x)表示特征信息x经过Fp处理后得到的特征量化码,φ(F0(x),Fp(x))表示对F0(x)和Fp(x)进行融合处理,φ(F0(x),Fk(x))表示对F0(x)和Fk(x)进行融合处理,L(φ(F0(x),Fk(x)),y)和L(φ(F0(x),Fp(x)),y)表示经过融合处理后的特征量化码与标注信息y之间的损失函数,Ex()表示数学期望函数,k=1,2,…,K,p=1,2,…,K,K为所述源数据域的个数。
可选的,采用相加或者线性拼接的方法进行所述融合处理。
第二方面,本发明实施例提供了一种特征量化方法,包括:
采用公共特征量化模型对目标数据集进行特征量化,得到目标数据集的特征量化码,所述公共特征量化模型采用上述第一方面的特征模型的信令方法训练得到。
第三方面,本发明实施例提供了一种数据查询方法,应用于服务器,所述方法包括:
接收客户端发送的目标查询数据的目标特征量化码;
将所述目标特征量化码与目标数据集的特征量化码进行比对,得到与所述目标特征量化码匹配的查询结果,其中,所述目标数据集的特征量化码采用上述第二方面的特征量化方法得到;
将所述查询结果返回至所述客户端。
可选的,所述目标数据集的特征量化码是预先采用公共特征量化模型对所述目标数据集进行特征量化得到并存储的。
第四方面,本发明实施例提供了一种数据查询方法,应用于客户端,所述方法包括:
获取输入的目标查询数据;
根据公共特征量化模型,对所述目标查询数据进行特征量化计算,得到所述目标查询数据的目标特征量化码,所述公共特征量化模型采用上述第一方面的特征量化模型训练方法训练得到;
将所述目标特征量化码发送给服务器;
接收所述服务器针对所述目标特征量化码返回的查询结果。
第五方面,本发明实施例提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述第一方面的特征量化模型训练方法的步骤。
第六方面,本发明实施例提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述第二方面的特征量化方法的步骤。
第七方面,本发明实施例提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述第三方面的数据查询方法的步骤。
第八方面,本发明实施例提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述第四方面的数据查询方法的步骤。
第九方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述第一方面的特征量化模型训练方法的步骤;或者,所述计算机程序被处理器执行时实现上述第二方面的特征量化方法的步骤;或者,所述计算机程序被处理器执行时实现上述第三方面的数据查询方法的步骤;或者,所述计算机程序被处理器执行时实现上述第四方面的数据查询方法的步骤。
本发明实施例中,使用多个源数据域的丰富的标注信息训练得到公共特征量化模型,公共特征量化模型可用于标注信息匮乏的目标数据域的特征量化,从而提高特征量化模型在标注信息匮乏的数据域的特征量化性能。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为相关技术中的特征量化方法的示意图;
图2为本发明实施例的特征量化模型训练方法的流程示意图;
图3为本发明实施例中的特征量化模型训练方法的示意图;
图4为本发明实施例的特征量化方法的流程示意图;
图5为本发明实施例的应用于服务器端的数据查询方法的流程示意图;
图6为本发明实施例的应用于客户端的数据查询方法的流程示意图;
图7为本发明实施例的特征量化模型的训练***的结构示意图;
图8为本发明实施例的特征量化***的结构示意图;
图9为本发明一实施例的数据查询***的结构示意图;
图10为本发明另一实施例的数据查询***的结构示意图;
图11为本发明一实施例的电子设备的结构示意图;
图12为本发明另一实施例的电子设备的结构示意图;
图13为本发明又一实施例的电子设备的结构示意图;
图14为本发明又一实施例的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为相关技术中的特征量化方法的示意图,从图1中可以看出,相关技术中,首先需要提取数据集(或称为数据域)的特征信息(即特征提取),然后基于数据集的标注信息对特征量化模型的关键参数进行调优,最后采用得到的特征量化模型对提取到的特征信息进行特征量化,可以看出,当标注信息匮乏时,并不能保证特征量化模型的性能。
为解决上述问题,请参考图2,本发明实施例提供一种特征量化模型训练方法,包括:
步骤21:获取多个源数据域;
本发明实施例中,数据域也可以称为数据集,一个数据域包括多个数据。例如,数据域为包括多个图像的图像数据库。
所述多个源数据域具有一定的相关度,例如存在多种相同的语义类别标签。
步骤22:获取每一所述源数据域的特征信息和标注信息;
所述特征信息可以根据需要设置,例如图像数据集中,特征信息可以包括图像视觉信息描述子等。
步骤23:根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型,其中,训练过程中,从所述多个源数据域的特征信息中分解出公共特征信息和域专有的特征信息,所述公共特征信息为所述多个源数据域共有的特征信息。
公共特征信息为跨域不变的公共信息,包含了多个数据域的知识。举例来说,不同摄像机的姿态不同,所拍摄到的人脸或人体的姿态也相应地存在不同,但是这些图像中存在一些共同之处,例如,人脸的拓扑结构,即人脸的拓扑结构即为公共特征信息。
本发明实施例中,使用多个源数据域的丰富的标注信息训练得到公共特征量化模型,公共特征量化模型可用于标注信息匮乏的目标数据域的特征量化,从而提高特征量化模型在标注信息匮乏的数据域的特征量化性能。
以面向语义检索任务的图像特征量化为例,在将特定特征量化模型施用于某目标数据域时,现有的做法是基于该目标数据域的语义标注信息对特定特征量化模型的关键参数进行调优。当语义标注信息匮乏时,现有方法并不能保证特定特征量化模型在目标数据域的特征量化性能。本发明实施例中,借用已有的、具有丰富标注信息的多个相关源数据域,通过复用多个相关源数据域的标注信息,训练得到公共特征量化模型,采用公共特征量化模型对目标数据域进行特征量化,来达到提升特征量化模型在目标数据集上的特征量化性能的目的。
当然,需要说明的是,本发明实施例中,数据域并不局限于图像数据集,数据域中的数据包括但不限于图像、视频、音频等数据形式。
本发明实施例中,可选的,所述根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型包括:
根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型和每一所述源数据域的域专有的特征量化模型。
其中,域专有的特征信息,是指针对某一数据域的专有的特征信息。
请参考图3,图3为本发明实施例中的特征量化模型训练方法的示意图,从图3中可以看出,用于训练特征量化模型的数据集(也称为数据域)包括K个,特征量化模型训练时,针对每一数据集,需要获取数据集的特征信息,然后,根据所有数据集的标注信息和特征信息,对特征量化模型进行训练,训练过程中,数据集的特征信息可以分解成公共特征信息和域专有的特征信息,最终得到K+1个模型,其中一个公共特征量化模型,K个域专有的特征量化模型。
假设给定K个源数据域(数据集),记为<Xk,Yk>,其中k=1,2,…,K。其中Xk,Yk分别表示数据集的特征信息和标注信息(通常为矩阵形式)。为了便于论述,下文中用符号x,y分别表示某数据集的特征信息和标注信息。本发明实施例中,通过机器学习的方式生成F0,F1,…,FK共K+1个模型。其中,F0为所有K个数据域所共享,Fk为第k个数据域所专有。令Fk(x)表示特征信息x经过Fk处理后得到的特征量化码。φ(Fi(x),Fj(x))表示对Fi(x)和Fj(x)进行融合(例如,可以进行简单的加和或者线性拼接等)。L(Fk(x),y)表示经过第k个模型的处理后,特征信息x经过Fk处理后得到的特征量化码与标注信息y之间的损失函数(例如,L可以为分类0-1损失函数),我们希望获得更小的损失函数值。Ex(L(Fk(x),y))表示L函数针对x的数学期望。
为了得到上述各个模型,需要对所有的源数据域<Xk,Yk>进行模型学习的过程,学习过程中的具体的优化目标包括:
1)对于所有的k=1,2,…,K,Ex(L(F0(x),y))应当取得最小值。这样保证了公共特征量化模型获得优异的特征量化性能;
2)对于任意k=1,2,…,K,Ex(L(φ(F0(x),Fk(x)),y))应当取得最小值。这样保证了域专有的特征量化模型与公共特征量化模型的互补性;
3)对于任意k=1,2,…,K,Ex(L(φ(F0(x),Fk(x)),y))<Ex(L(φ(F0(x),Fp(x)),y)),其中p不等于k。这样保证了域专有的特征量化模型对于特定数据域的最优性。
即,所述对特征量化模型进行训练包括:
调整所述特征量化模型,使得对于所有所述源数据域,Ex(L(F0(X),Y))取最小值;
其中,X为表示所有所述源数据域的特征信息,Y为所有所述源数据域的标注信息,F0表示公共特征量化模型,F0(X)表示特征信息X经过F0处理后得到的特征量化码,L(F0(X),Y)表示经过F0处理后特征信息X得到的特征量化码与标注信息Y之间的损失函数,Ex(L(F0(X),Y))表示L函数针对特征信息X的数学期望。
进一步的,所述对特征量化模型进行训练还包括:
调整所述特征量化模型,使得对于任意所述源数据域k,Ex(L(φ(F0(x),Fk(x)),y))取最小值;以及,对于任意所述源数据域k,Ex(L(φ(F0(x),Fk(x)),y))<Ex(L(φ(F0(x),Fp(x)),y)),其中,p不等于k;
其中,x表示所述源数据域k的特征信息,y为所述源数据域k的标注信息,F0表示公共特征量化模型,F0(x)表示特征信息x经过F0处理后得到的特征量化码,Fk表示所述源数据域k的域专有的特征量化模型,Fk(x)表示特征信息x经过Fk处理后得到的特征量化码,Fp表示所述源数据域p的域专有的特征量化模型,Fp(x)表示特征信息x经过Fp处理后得到的特征量化码,φ(F0(x),Fk(x))表示对F0(x)和Fk(x)进行融合处理,φ(F0(x),Fp(x))表示对F0(x)和Fp(x)进行融合处理,L(φ(F0(x),Fk(x)),y)和L(φ(F0(x),Fp(x)),y)表示经过融合处理后的特征量化码与标注信息y之间的损失函数,Ex()表示数学期望函数,k=1,2,…,K,p=1,2,…,K,K为所述源数据域的个数。
本发明实施例中,可选的,采用相加或者线性拼接的方法进行所述融合处理。
本发明实施例中,对于不同的源数据域,将域专有的特征量化模型与公共特征量化模型的结果进行融合后,相对仅仅使用公共特征量化模型,能保证提升在该数据域的特征量化性能。
本发明实施例中,对于不同的数据域,还可以交换使用彼此的域专有的特征量化模型,并与公共特征量化模型融合,其实际效果将约等于引入随机噪声,或者引起严重的过拟合现象。
本发明实施例中,可选的,采用深度神经网络算法对特征量化模型进行训练。例如,可基于多层卷积、池化或非线性激活网络层对特征量化模型进行训练。
本发明实施例中,可以采用多种方式提取每一所述源数据域的特征信息,例如可以采用深度神经网络算法提取每一所述源数据域的特征信息。
本发明实施例中,可选的,公共特征量化模型和域专有的特征量化模型采用局部敏感哈希算法或者K均值算法。进一步可选的,若数据集为图像数据集,公共特征量化模型和域专有的特征量化模型采用局部敏感哈希算法。
本发明实施例中,可选的,若数据集为图像数据集,针对图像检索任务,可采用以下方式:1)图像特征提取基于预训练神经网络(如ResNet50等);2)公共特征量化模型和域专有的特征量化模型采取浅层卷积网络;3)公共特征量化模型和域专有的特征量化模型采取线性拼接方式融合。
本发明实施例中,上述特征量化模型训练方法可以由服务器端执行。
请参考图4,本发明实施例还提供一种特征量化方法,包括:
步骤41:采用公共特征量化模型对目标数据集进行特征量化,得到目标数据集的特征量化码,所述公共特征量化模型采用上述特征量化模型训练方法训练得到。
本发明实施例中,使用多个源数据域的丰富的标注信息训练得到公共特征量化模型,公共特征量化模型可用于标注信息匮乏的目标数据域的特征量化,从而提高特征量化模型在标注信息匮乏的数据域的特征量化性能。
请参考图5,本发明实施例还提供一种数据查询方法,所述数据查询方法应用于服务器端,包括:
步骤51:接收客户端发送的目标查询数据的目标特征量化码;
步骤52:将所述目标特征量化码与目标数据集的特征量化码进行比对,得到与所述目标特征量化码匹配的查询结果,其中,所述目标数据集的特征量化码采用上述特征量化方法得到;
步骤53:将所述查询结果返回至所述客户端。
可选的,所述目标数据集的特征量化码是预先采用公共特征量化模型对所述目标数据集进行特征量化得到并存储的。
请参考图6,本发明实施例还提供一种数据查询方法,所述数据查询方法应用于客户端,包括:
步骤61:获取输入的目标查询数据;
步骤62:根据公共特征量化模型,对所述目标查询数据进行特征量化计算,得到所述目标查询数据的目标特征量化码,所述公共特征量化模型采用上述特征量化模型训练方法训练得到。
请参考图7,本发明实施例还提供一种特征量化模型的训练***70,包括:
第一获取模块71,用于获取多个源数据域;
第二获取模块72,用于获取每一所述源数据域的特征信息和标注信息;
训练模块73,用于根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型,其中,训练过程中,从所述多个源数据域的特征信息中分解出公共特征信息和域专有的特征信息,所述公共特征信息为所述多个源数据域共有的特征信息。
可选的,所述训练模块73,用于根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型和每一所述源数据域的域专有的特征量化模型。
可选的,所述训练模块73,用于采用深度神经网络算法对特征量化模型进行训练。
可选的,所述训练模块73,用于调整所述特征量化模型,使得对于所有所述源数据域,Ex(L(F0(X),Y))取最小值;
其中,X为表示所有所述源数据域的特征信息,Y为所有所述源数据域的标注信息,F0表示公共特征量化模型,F0(X)表示特征信息X经过F0处理后得到的特征量化码,L(F0(X),Y)表示所述特征量化码与标注信息Y之间的损失函数,Ex(L(F0(X),Y))表示L函数针对特征信息X的数学期望。
可选的,所述训练模块73,用于调整所述特征量化模型,使得对于任意所述源数据域k,Ex(L(φ(F0(x),Fk(x)),y))取最小值,以及,对于任意所述源数据域k,Ex(L(φ(F0(x),Fk(x)),y))<Ex(L(φ(F0(x),Fp(x)),y)),其中,p不等于k;
其中,x表示所述源数据域k的特征信息,y为所述源数据域k的标注信息,F0表示公共特征量化模型,F0(x)表示特征信息x经过F0处理后得到的特征量化码,Fk表示所述源数据域k的域专有的特征量化模型,Fk(x)表示特征信息x经过Fk处理后得到的特征量化码,Fp表示所述源数据域p的域专有的特征量化模型,Fp(x)表示特征信息x经过Fp处理后得到的特征量化码,φ(F0(x),Fk(x))表示对F0(x)和Fk(x)进行融合处理,φ(F0(x),Fp(x))表示对F0(x)和Fp(x)进行融合处理,L(φ(F0(x),Fk(x)),y)和L(φ(F0(x),Fp(x)),y)表示经过融合处理后的特征量化码与标注信息y之间的损失函数,Ex()表示数学期望函数,k=1,2,…,K,p=1,2,…,K,K为所述源数据域的个数。
可选的,所述训练模块73,用于采用相加或者线性拼接的方法进行所述融合处理。
请参考图8,本发明实施例还提供一种特征量化***80,包括:
特征量化模块81,用于采用公共特征量化模型对目标数据集进行特征量化,得到目标数据集的特征量化码,所述公共特征量化模型采用上述特征量化模型训练方法训练得到。
所述特征量化***80可以为服务器。
请参考图9,本发明实施例还提供一种数据查询***90,包括:
接收模块91,用于接收客户端发送的目标查询数据的目标特征量化码;
查询模块92,用于将所述目标特征量化码与目标数据集的特征量化码进行比对,得到与所述目标特征量化码匹配的查询结果,其中,所述目标数据集的特征量化码采用上述特征量化方法得到;
发送模块93,用于将所述查询结果返回至所述客户端。
所述数据查询***90可以为服务器。
可选的,所述目标数据集的特征量化码是预先采用公共特征量化模型对所述目标数据集进行特征量化得到并存储的。
请参考图10,本发明实施例还提供一种数据查询***100,包括:
获取模块101,用于获取输入的目标查询数据;
计算模块102,用于根据公共特征量化模型,对所述目标查询数据进行特征量化计算,得到所述目标查询数据的目标特征量化码,所述公共特征量化模型采用上述特征量化模型训练方法训练得到;
发送模块103,用于将所述目标特征量化码发送给服务器;
接收模块104,用于接收所述服务器针对所述目标特征量化码返回的查询结果。
所述数据查询***100可以为客户端。
请参考图11,本发明实施例还提供一种电子设备110,包括处理器111,存储器112,存储在存储器112上并可在所述处理器111上运行的计算机程序,该计算机程序被处理器111执行时实现上述特征量化模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
可选的,所述电子设备110为服务器。
请参考图12,本发明实施例还提供一种电子设备120,包括处理器121,存储器122,存储在存储器122上并可在所述处理器121上运行的计算机程序,该计算机程序被处理器121执行时实现上述特征量化方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
可选的,所述电子设备120为服务器。
请参考图13,本发明实施例还提供一种电子设备130,包括处理器131,存储器132,存储在存储器132上并可在所述处理器131上运行的计算机程序,该计算机程序被处理器131执行时实现上述应用于服务器的数据查询方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
可选的,所述电子设备130为服务器。
请参考图14,本发明实施例还提供一种电子设备140,包括处理器141,存储器142,存储在存储器142上并可在所述处理器141上运行的计算机程序,该计算机程序被处理器141执行时实现上述应用于客户端的数据查询方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
可选的,所述电子设备140为客户端。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述特征量化模型训练方法实施例的各个过程,或者,该计算机程序被处理器执行时实现上述特征量化方法实施例的各个过程,或者,该计算机程序被处理器执行时实现上述应用于服务器端的数据查询方法实施例的各个过程,或者,该计算机程序被处理器执行时实现上述应用于客户端的数据查询方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (15)

1.一种特征量化模型训练方法,其中,包括:
获取多个源数据域;
获取每一所述源数据域的特征信息和标注信息;
根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型,其中,训练过程中,从所述多个源数据域的特征信息中分解出公共特征信息和域专有的特征信息,所述公共特征信息为所述多个源数据域共有的特征信息。
2.如权利要求1所述的特征量化模型训练方法,其中,所述根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型包括:
根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型和每一所述源数据域的域专有的特征量化模型。
3.如权利要求2所述的特征量化模型训练方法,其中,采用深度神经网络算法对特征量化模型进行训练。
4.如权利要求1或2所述的特征量化模型训练方法,其中,所述对特征量化模型进行训练包括:
调整所述特征量化模型,使得对于所有所述源数据域,Ex(L(F0(X),Y))取最小值;
其中,X为表示所有所述源数据域的特征信息,Y为所有所述源数据域的标注信息,F0表示公共特征量化模型,F0(X)表示特征信息X经过F0处理后得到的特征量化码,L(F0(X),Y)表示所述特征量化码与标注信息Y之间的损失函数,Ex(L(F0(X),Y))表示L函数针对特征信息X的数学期望。
5.如权利要求4所述的特征量化模型训练方法,其中,所述对特征量化模型进行训练还包括:
调整所述特征量化模型,使得对于任意所述源数据域k,Ex(L(φ(F0(x),Fk(x)),y))取最小值,以及,对于任意所述源数据域k,Ex(L(φ(F0(x),Fk(x)),y))<Ex(L(φ(F0(x),Fp(x)),y)),其中,p不等于k;
其中,x表示所述源数据域k的特征信息,y为所述源数据域k的标注信息,F0表示公共特征量化模型,F0(x)表示特征信息x经过F0处理后得到的特征量化码,Fk表示所述源数据域k的域专有的特征量化模型,Fk(x)表示特征信息x经过Fk处理后得到的特征量化码,Fp表示所述源数据域p的域专有的特征量化模型,Fp(x)表示特征信息x经过Fp处理后得到的特征量化码,φ(F0(x),Fk(x))表示对F0(x)和Fk(x)进行融合处理,φ(F0(x),Fp(x))表示对F0(x)和Fp(x)进行融合处理,L(φ(F0(x),Fk(x)),y)和L(φ(F0(x),Fp(x)),y)表示经过融合处理后的特征量化码与标注信息y之间的损失函数,Ex()表示数学期望函数,k=1,2,…,K,p=1,2,…,K,K为所述源数据域的个数。
6.如权利要求5所述的特征量化模型训练方法,其中,采用相加或者线性拼接的方法进行所述融合处理。
7.一种特征量化方法,其中,包括:
采用公共特征量化模型对目标数据集进行特征量化,得到目标数据集的特征量化码,所述公共特征量化模型采用如权利要求1-6任一项所述的特征量化模型训练方法训练得到。
8.一种数据查询方法,其中,应用于服务器,所述方法包括:
接收客户端发送的目标查询数据的目标特征量化码;
将所述目标特征量化码与目标数据集的特征量化码进行比对,得到与所述目标特征量化码匹配的查询结果,其中,所述目标数据集的特征量化码采用如权利要求7所述的特征量化方法得到;
将所述查询结果返回至所述客户端。
9.如权利要求8所述的数据查询方法,其中,所述目标数据集的特征量化码是预先采用公共特征量化模型对所述目标数据集进行特征量化得到并存储的。
10.一种数据查询方法,其中,应用于客户端,所述方法包括:
获取输入的目标查询数据;
根据公共特征量化模型,对所述目标查询数据进行特征量化计算,得到所述目标查询数据的目标特征量化码,所述公共特征量化模型采用如权利要求1-6任一项所述的特征量化模型训练方法训练得到;
将所述目标特征量化码发送给服务器;
接收所述服务器针对所述目标特征量化码返回的查询结果。
11.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的特征量化模型训练方法的步骤。
12.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求7所述的特征量化方法的步骤。
13.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求8或9所述的数据查询方法的步骤。
14.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求10所述的数据查询方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的特征量化模型训练方法的步骤;或者,所述计算机程序被处理器执行时实现如权利要求7所述的特征量化方法的步骤;或者,所述计算机程序被处理器执行时实现如权利要求8或9所述的数据查询方法的步骤;或者,所述计算机程序被处理器执行时实现如权利要求10所述的数据查询方法的步骤。
CN202010181479.9A 2020-03-16 2020-03-16 特征量化模型训练、特征量化、数据查询方法及*** Pending CN113408552A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010181479.9A CN113408552A (zh) 2020-03-16 2020-03-16 特征量化模型训练、特征量化、数据查询方法及***
PCT/CN2021/080461 WO2021185171A1 (zh) 2020-03-16 2021-03-12 特征量化模型训练、特征量化、数据查询方法及***
US17/910,651 US20230135021A1 (en) 2020-03-16 2021-03-12 Method for training feature quantization model, feature quantization method, data query methods and electronic devices

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010181479.9A CN113408552A (zh) 2020-03-16 2020-03-16 特征量化模型训练、特征量化、数据查询方法及***

Publications (1)

Publication Number Publication Date
CN113408552A true CN113408552A (zh) 2021-09-17

Family

ID=77676343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010181479.9A Pending CN113408552A (zh) 2020-03-16 2020-03-16 特征量化模型训练、特征量化、数据查询方法及***

Country Status (3)

Country Link
US (1) US20230135021A1 (zh)
CN (1) CN113408552A (zh)
WO (1) WO2021185171A1 (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400577B (zh) * 2013-08-01 2015-09-16 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
US10573335B2 (en) * 2018-03-20 2020-02-25 Honeywell International Inc. Methods, systems and apparatuses for inner voice recovery from neural activation relating to sub-vocalization
CN109670180B (zh) * 2018-12-21 2020-05-08 语联网(武汉)信息技术有限公司 向量化译员的翻译个性特征的方法及装置
CN109670057B (zh) * 2019-01-03 2021-06-29 电子科技大学 一种渐进式的端到端深度特征量化***及方法
CN109993128B (zh) * 2019-04-04 2020-12-18 北京航空航天大学 一种行人图像属性特征量化的方法
CN110610237A (zh) * 2019-09-17 2019-12-24 普联技术有限公司 模型的量化训练方法、装置及存储介质

Also Published As

Publication number Publication date
WO2021185171A1 (zh) 2021-09-23
US20230135021A1 (en) 2023-05-04

Similar Documents

Publication Publication Date Title
CN108694225B (zh) 一种图像搜索方法、特征向量的生成方法、装置及电子设备
CN105912611B (zh) 一种基于cnn的快速图像检索方法
US7865492B2 (en) Semantic visual search engine
CN105095435A (zh) 一种图像高维特征的相似比较方法及装置
CN113298197B (zh) 数据聚类方法、装置、设备及可读存储介质
CN113434716B (zh) 一种跨模态信息检索方法和装置
US20200175259A1 (en) Face recognition method and apparatus capable of face search using vector
CN114358188A (zh) 特征提取模型处理、样本检索方法、装置和计算机设备
CN106780639B (zh) 基于显著性特征稀疏嵌入和极限学习机的哈希编码方法
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN114358109A (zh) 特征提取模型训练、样本检索方法、装置和计算机设备
CN114090401A (zh) 处理用户行为序列的方法及装置
Carvajal et al. Summarisation of short-term and long-term videos using texture and colour
CN116541592A (zh) 向量生成方法、信息推荐方法、装置、设备及介质
Gao et al. Data-driven lightweight interest point selection for large-scale visual search
CN113408552A (zh) 特征量化模型训练、特征量化、数据查询方法及***
CN111061774B (zh) 搜索结果准确性判断方法、装置、电子设备及存储介质
CN110674342B (zh) 查询目标图像的方法和装置
Yanagisawa et al. Automatic classification of manga characters using density-based clustering
CN113569094A (zh) 视频推荐方法、装置、电子设备及存储介质
CN111695526A (zh) 网络模型生成方法、行人重识别方法及装置
Vadivukarassi et al. A framework of keyword based image retrieval using proposed Hog_Sift feature extraction method from Twitter Dataset
CN116049660B (zh) 数据处理方法、装置、设备、存储介质及程序产品
Wang [Retracted] Feature Extraction and Identification of Calligraphy Style Based on Dual Channel Convolution Network
Ramya et al. XML based approach for object oriented medical video retrieval using neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination