CN114329174A - 数据召回方法及装置 - Google Patents

数据召回方法及装置 Download PDF

Info

Publication number
CN114329174A
CN114329174A CN202111261348.2A CN202111261348A CN114329174A CN 114329174 A CN114329174 A CN 114329174A CN 202111261348 A CN202111261348 A CN 202111261348A CN 114329174 A CN114329174 A CN 114329174A
Authority
CN
China
Prior art keywords
hash
data
feature
sample
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111261348.2A
Other languages
English (en)
Inventor
郭卉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111261348.2A priority Critical patent/CN114329174A/zh
Publication of CN114329174A publication Critical patent/CN114329174A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种数据召回方法及装置,涉及人工智能技术领域,该方法包括:获取搜索数据和第一数量个待召回数据;将搜索数据和第一数量个待召回数据输入预设特征表征模型进行特征表征处理,得到搜索数据对应的第一哈希特征、第一哈希特征对应的第一分段量化码本、待召回数据对应的第二哈希特征、第二哈希特征对应的第二分段量化码本;基于第一分段量化码本和第二分段量化码本,从第一数量个待召回数据中确定待筛选召回数据;基于第一哈希特征和第二哈希特征,从待筛选召回数据中,确定目标召回数据。利用本申请提供的技术方案可以在提升数据召回准确率的同时,降低数据召回运算量,大大提升数据召回速度和效率。

Description

数据召回方法及装置
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据召回方法及装置。
背景技术
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的搜索引擎、智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等。
目前,搜索引擎的功能也日趋强大。召回是搜索中的重要环节,可以根据用户输入的搜索数据可以从海量数据中召回与搜索数据相关的数据。相关技术中,常常结合深度学习模型来召回数据,但结合深度学习模型来召回数据的召回准确率和效率往往受限于模型进行特征学习过程中的运算量,训练样本,网络越大,召回准确率往往较高,但复杂度和运算量较高,效率较低;网络轻量化时,虽然效率提升了,但召回准确率较低,且泛化性较差。因此,需要提供更可靠或更有效的方案。
发明内容
本申请提供了一种数据召回方法、装置、设备、存储介质及计算机程序产品,可以提升模型特征表征的泛化性,且可以在提升数据召回准确率的同时,降低数据召回运算量,大大提升数据召回速度和效率。
一方面,本申请提供了一种数据召回方法,所述方法包括:
获取搜索数据和第一数量个待召回数据;
将所述搜索数据和所述第一数量个待召回数据输入预设特征表征模型进行特征表征处理,得到所述搜索数据对应的第一哈希特征、所述第一哈希特征对应的第一分段量化码本、所述第一数量个待召回数据各自对应的第二哈希特征、所述第二哈希特征对应的第二分段量化码本;
基于所述第一分段量化码本和所述第二分段量化码本,从所述第一数量个待召回数据中确定第二数量个待筛选召回数据;
基于所述第一哈希特征和所述第二数量个待筛选召回数据的第二哈希特征,从所述第二数量个待筛选召回数据中,确定所述搜索数据的目标召回数据;
其中,所述预设特征表征模型为基于标注样本数据和无标注样本数据,对预设深度学习模型进行哈希量化联合训练得到的特征表征模型。
另一方面提供了一种数据召回装置,所述装置包括:
数据获取模块,被配置为执行获取搜索数据和第一数量个待召回数据;
第一特征表征处理模块,被配置为执行将所述搜索数据和所述第一数量个待召回数据输入预设特征表征模型进行特征表征处理,得到所述搜索数据对应的第一哈希特征、所述第一哈希特征对应的第一分段量化码本、所述第一数量个待召回数据各自对应的第二哈希特征、所述第二哈希特征对应的第二分段量化码本;
召回数据筛选模块,被配置为执行基于所述第一分段量化码本和所述第二分段量化码本,从所述第一数量个待召回数据中确定第二数量个待筛选召回数据;
目标召回数据确定模块,被配置为执行基于所述第一哈希特征和所述第二数量个待筛选召回数据的第二哈希特征,从所述第二数量个待筛选召回数据中,确定所述搜索数据的目标召回数据;
其中,所述预设特征表征模型为基于标注样本数据和无标注样本数据,对预设深度学习模型进行哈希量化联合训练得到的特征表征模型。
另一方面提供了一种电子设备,包括:处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现上述任一项所述的数据召回方法。
另一方面提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行上述任一数据召回方法。
另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的数据召回方法。
本申请提供的数据召回方法、装置、设备、存储介质及计算机程序产品,具有如下技术效果:
本申请在数据召回过程中,将搜索数据和第一数量个待召回数据输入预设特征表征模型进行特征表征处理,该预设特征表征模型为基于标注样本数据和无标注样本数据,对预设深度学习模型进行哈希量化联合训练得到的特征表征模型,有效保证了模型特征表征的泛化能力,且可以结合预设特征表征模型,生成搜索数据和第一数量个待召回数据各自对应的哈希特征的同时,生成搜索数据和第一数量个待召回数据各自对应的分段量化码本,可以实现对哈希特征的分段量化表征,进而可以基于哈希特征进行数据召回的过中,先结合量化码本,将搜索数据与待召回数据进行关联,筛选出待筛选召回数据,并基于待筛选召回数据与搜索数据的哈希特征,来确定目标召回数据,可以在保证数据召回准确率的同时,降低数据召回过程中的运算量,大大提升数据召回速度和效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种数据召回方法的应用环境的示意图;
图2是本申请实施例提供的一种数据召回方法的流程示意图;
图3是本申请实施例提供的一种预先训练出预设特征表征模型的流程示意图;
图4是本申请实施例提供的一种基于第一样本哈希特征,确定第一哈希损失的流程示意图;
图5是本申请实施例提供的一种根据第二样本哈希特征和样本分段量化码本,确定目标量化损失的流程示意图;
图6是本申请实施例提供的一种基于第二哈希损失和目标量化损失,训练初始特征表征模型,得到预设特征表征模型的流程示意图;
图7是本申请实施例提供的一种预先训练预设深度学习模型,以得到预设特征表征模型的示意图;
图8是本申请实施例提供的一种基于第一分段量化码本和第二分段量化码本,从第一数量个待召回数据中确定第二数量个待筛选召回数据的流程示意图;
图9是本申请实施例提供的一种数据召回装置的结构示意图;
图10是本申请实施例提供的一种用于数据召回的电子设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
相关现有技术中,在基于深度学习模型来召回数据的过程中,可以通过大量样本数据对深度学习模型进行特征学习训练,训练好的深度学习模型可以学习到的搜索数据和待召回数据的特征,基于学习到的特征可以计算搜索数据和待召回数据间的相似度;接着,结合相似度从大量待召回数据中确定搜索数据对应的召回数据。但上述相关技术中召回准确率和效率往往受限于模型进行特征学习过程中的运算量,训练样本,网络越大,召回准确率往往较高,但复杂度和运算量较高,效率较低;网络轻量化时,虽然效率提升了,但召回准确率较低,本申请提供一种数据召回方法可以在提升数据召回准确率的同时,降低数据召回运算量,大大提升数据召回速度和效率。
请参阅图1,图1是本申请实施例提供的一种数据召回方法的应用环境的示意图,如图1所示,该应用环境至少包括服务器100和终端200。
在一个可选的实施例中,服务器100可以用于基于标注样本数据和无标注样本数据,对预设深度学习模型进行哈希量化联合训练,得到可以进行特征表征的预设特征表征网络,服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云计算服务的云服务器。
在一个可选的实施例中,终端200可以结合服务器训练好的预设特征表征网络进行数据召回处理。具体的,终端200可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、智能可穿戴设备、车载终端、智能电视等类型的电子设备;也可以为运行于上述电子设备的软体,例如应用程序、小程序等。本申请实施例中电子设备上运行的操作***可以包括但不限于安卓***、IOS***、linux、windows等。
此外,需要说明的是,图1所示的仅仅是一种数据召回方法的应用环境,在实际应用中,预设特征表征网络的训练,也可以在终端200上实现。
本说明书实施例中,上述服务器100和终端200可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
以下介绍本申请一种数据召回方法,图2是本申请实施例提供的一种数据召回方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的***或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,方法可以包括:
S201:获取搜索数据和第一数量个待召回数据。
本说明书实施例中,搜索数据可以为用户输入的用于搜索召回数据的数据,具体的,搜索数据的数据形式可以结合实际应用中的搜索需求的不同而不同,例如搜索数据可以为图像、文本、音频信息等。
本说明书实施例中,第一数量个待召回数据可以为召回***中可召回的数据。具体的,待召回数据的数据形式也可以合实际应用中的搜索需求的不同而不同,例如搜索数据可以为图像、文本、音频信息等。
S203:将搜索数据和第一数量个待召回数据输入预设特征表征模型进行特征表征处理,得到搜索数据对应的第一哈希特征、第一哈希特征对应的第一分段量化码本、第一数量个待召回数据各自对应的第二哈希特征、第二哈希特征对应的第二分段量化码本。
本说明书实施例中,预设特征表征模型可以为基于标注样本数据和无标注样本数据,对预设深度学习模型进行哈希量化联合训练得到的特征表征模型。
在一个可选的实施例中,上述预设特征表征模型包括哈希特征提取模块和量化码本模块;相应的,上述将搜索数据和第一数量个待召回数据输入预设特征表征模型进行特征表征处理,得到搜索数据对应的第一哈希特征、第一哈希特征对应的第一分段量化码本、第一数量个待召回数据各自对应的第二哈希特征、第二哈希特征对应的第二分段量化码本包括:
1)将搜索数据和第一数量个待召回数据输入哈希特征提取模块进行特征提取处理,得到第一哈希特征和第二哈希特征;
2)基于量化码本模块,对第一哈希特征和第二哈希特征进行分段量化表征,得到第一分段量化码本和第二分段量化码本。
在一个具体的实施例中,哈希特征提取模块可以包括基础特征提取模块,哈希模块;相应的,上述将搜索数据和第一数量个待召回数据输入哈希特征提取模块进行特征提取处理,得到第一哈希特征和第二哈希特征可以包括将搜索数据和第一数量个待召回数据输入基础特征提取模块进行特征提取处理,得到搜索数据的第一特征信息和第一数量个待召回数据各自对应的第二特征信息;将第一特征信息和第二特征信息输入哈希特征提取模块进行哈希特征提取,得到第一哈希特征和第二哈希特征。
本说明书实施例中,上述基础特征提取模块,哈希模块和量化码本模块的模块结构可以结合实际应用进行设置。在一个具体的实施例中,基础特征提取模块可以包括卷积层和残差网络;哈希模块可以包括池化层和全连接层;量化码本模块可以包括全连接层。具体的,上述卷积层、残差网络、池化层和全连接层的输入输出数据的维度等层参数可以结合实际应用预先设置。
在一个可选的实施例中,上述基于量化码本模块,对第一哈希特征和第二哈希特征进行分段量化表征,得到第一分段量化码本和第二分段量化码本可以包括:
将第一哈希特征和第二哈希特征输入量化码本模块中;
在量化码本模块中,对第一哈希特征和第二哈希特征分别进行分段处理,得到第一哈希特征在第三数量个分段下的第一分段哈希特征和第二哈希特征在第三数量个分段下的第二分段哈希特征;
以及,对每个分段下的第一分段哈希特征和第二分段哈希特征进行聚类处理,得到在每个分段下对应的第四数量个分段聚类特征;
以及,将第一哈希特征,在第三数量个分段下对应的第四数量个分段聚类特征作为第一分段量化码本;以及,将每个待召回数据的第二哈希特征,在第三数量个分段下对应的第四数量个分段聚类特征作为每个待召回数据的第二分段量化码本。
在一个具体的实施例中,第三数量可以为哈希特征(第一哈希特征和第二哈希特征)分段后的段数;第四数量为每个分段下的类数量。第三数量和第四数量可以结合实际应用预先设置;上述第一分段量化码本可以包括第一哈希特征,在第三数量个分段下对应的第四数量个分段聚类特征;每个待召回数据的第二分段量化码本可以包括该待召回数据的第二哈希特征,在第三数量个分段下对应的第四数量个分段聚类特征。
在一个具体的实施例中,第一哈希特征和每个待召回数据的第二哈希特征对应的维度相同;在一个具体的实施例中,假设第一哈希特征和每个待召回数据的第二哈希特征对应的维度为128维,且第三数量为K,相应的,分段处理后,第一哈希特征被划分为K段128/K维的分段哈希特征(第一分段哈希特征);每个待召回数据的第二哈希特征也被划分为K段128/K维的分段哈希特征(第二分段哈希特征)。具体的,上述K段128/K维分段哈希特征可以为按照每段在对应的哈希特征中的位置有序排列;相应的,可以对第一哈希特征在某一分段下的128/K维分段哈希特征和第一数量个待召回数据的第二哈希特征在该分段下的128/K维分段哈希特征进行聚类处理,得到该分段下的第四数量个分段哈希特征簇,并计算该分段下的每个分段哈希特征簇的聚类中心特征(例如每个分段哈希特征簇中分段哈希特征的平均特征),将第四数量个分段哈希特征簇的聚类中心特征作为该分段下对应的第四数量个分段聚类特征。
本说明书实施例中,在基于预设特征表征模型提取搜索数据和第一数量个待召回数据的哈希特征的过程中,可以对哈希特征的分段量化表征,以便后续基于哈希特征进行数据召回,可以以量化码本作为索引,将搜索数据与待召回数据进行关联,进而在保证数据召回准确率的同时,降低数据召回过程中的运算量,大大提升数据召回速度和效率。
在一个具体的实施例中,上述方法还可以包括预先训练出预设特征表征模型的步骤,具体的,如图3所示,预先训练出预设特征表征模型可以包括:
S301:获取标注样本数据和无标注样本数据;
在一个具体的实施例中,上述标注样本数据和无标注样本数据的数据形式可以与搜索数据以及待召回数据的数据形式一致。具体的上述标注样本数据可以包括第一预设样本数据、第一预设样本数据对应的正样本数据和第一预设样本数据对应的负样本数据;在一个具体的实施例中,上述标注样本数据可以结合下述方式获取:获取第五数量个正样本数据对(相似的两个样本数据,例如相似度大于预设阈值的两个样本数据);从某个正样本数据对中随机选取一个样本数据X(选取一个样本数据作为第一预设样本数据,选取的样本数据所在正样本数据对中的两一个样本数据作为对应的正样本数据),确定选取的样本数据X与剩余正样本对中任一样本数据(每一剩余样本数据对中随机选取一个样本数据)间的相似度;基于相似度由小到大进行排序,排序前预设数量个样本数据作为该选取的样本数据对应的负样本数量。
在一个具体的实施例中,上述无标注样本数据包括第二预设样本数据、和第二预设样本数据对应的攻击样本数据。具体的,攻击样本数据可以结合第二预设样本数据的数据形式选取相应的算法进行攻击处理,例如第二预设样本数据为图像的情况下,可以结合图像增强算法对图像攻击处理,得到相应的增强图像。
S303:将标注样本数据和无标注样本数据输入预设深度学习模型进行特征表征处理,得到标注样本数据和无标注样本数据各自对应的第一样本哈希特征。
在一个具体的实施例中,第一样本哈希特征可以为标注样本数据和无标注样本数据的哈希特征。上述预设深度学习模型的模型结构与上述预设特征表征模型的模型结构一致,可选的,可以将标注样本数据和无标注样本数据输入预设深度学习模型中待训练的哈希特征提取模块进行特征提取处理,得到标注样本数据和无标注样本数据各自对应的第一样本哈希特征。
S305:基于第一样本哈希特征,确定第一哈希损失;
在一个具体的实施例中,如图4所示,上述基于第一样本哈希特征,确定第一哈希损失可以包括:
S401:基于预设二值转换函数,将第一样本哈希特征转换成第二目标二值特征;
本说明书实施例中,预设二值转换函数可以用于将哈希特征转换成二值特征。在一个具体的实施例中,预设二值转换函数可以为sign函数,相应的,基于预设二值转换函数,将第一样本哈希特征转换成第二目标二值特征过程中,可以判断第一样本哈希特征中每一个元素是否小于0,若小于0,将该元素转成-1;若大于等于0,将该元素转换成1。
S403:根据第一预设样本数据、正样本数据和负样本数据各自对应的第二目标二值特征、第一样本哈希特征,确定第三哈希二值化损失;
在一个具体的实施例中,第三哈希二值化损失可以表征样本数据(第一预设样本数据、正样本数据和负样本数据)的第一样本哈希特征与对应的第二目标二值特征间的差异程度。第三哈希二值化损失用于在训练过程中,将模型输出的哈希特征拉向二值目标的二值量化损失。在一个具体的实施例中,可以结合回归损失函数来确定任一样本数据对应的第二目标二值特征和第一样本哈希特征间的哈希二值化损失,并将第一预设样本数据、正样本数据和负样本数据对应的哈希二值化损失之和作为上述第三哈希二值化损失;相应的,在训练过程,可以不断缩小第三哈希二值化损失,以使模型输出哈希特征与对应的目标二值特征间的距离变小(更相似),进而使得模型输出的哈希特征中的原始要么非常接近1要么非常接近-1。
S405:基于第一预设样本数据、正样本数据和负样本数据各自对应第一样本哈希特征,确定第二哈希度量损失;
在一个具体的实施例中,第二哈希度量损失可以为基于第一预设样本数据、正样本数据和负样本数据间相似度,来度量模型对哈希特征的表征精准性;可选的,在训练过程中,可以使得第一预设样本数据与负样本数据的距离比第一预设样本数据与正样本数据间的距离大于预设阈值。
在一个可选的实施例中,上述基于第一预设样本数据、正样本数据和负样本数据各自对应第一样本哈希特征,确定第二哈希度量损失包括:对第一预设样本数据、正样本数据和负样本数据各自对应的第一样本哈希特征分别进行激活处理,得到第一激活哈希特征;根据第一激活哈希特征,确定第二哈希度量损失。
在一个具体的实施例中,第一激活哈希特征可以为第一预设样本数据、正样本数据和负样本数据各自对应的第一样本哈希特征分别进行激活处理后的激活哈希特征。在进行激活处理的过程中,对于模型输出的哈希特征y,经过tanh(y)计算后得到激活结果,激活处理后激活哈希特征分布于-1~1之间,可以避免过高输出,如远大于1造成大的第二哈希度量损失影响收敛性能,因为对于二值(-1或1)量化目标而言,输出100与输出10最终都会量化到1上,这种情况下y为100和10并没有实质的差别,然而却能带来第二哈希度量损失上剧烈的距离变化。
在一个具体的实施例中,第二哈希度量损失可以结合下述公式计算得到:
Ltriple=max(||xa-xp||-||xa-xn||+α,0)
其中,Ltriple表示第二哈希度量损失,xa表示第一预设样本数据的第一激活哈希特征,xp表示正样本数据的第一激活哈希特征,xn表示负样本数据的第一激活哈希特征,α表示上述预设阈值;max()表示取较大值;|| ||表示求取两者间的L2距离。
S407:基于第二预设样本数据和攻击样本数据各自对应的第一样本哈希特征,确定第二攻击哈希损失;
在一个具体的实施例中,第二攻击哈希损失表征无监督样本(第二预设样本数据)的哈希特征与其经过攻击后生成的攻击样本数据的哈希特征间的相似度。
在一个具体的实施例中,上述基于第二预设样本数据和攻击样本数据各自对应的第一样本哈希特征,确定第二攻击哈希损失可以包括:对第二预设样本数据和攻击样本数据各自对应的第一样本哈希特征分别进行激活处理,得到第二激活哈希特征;根据第二激活哈希特征,确定第二攻击哈希损失。
在一个具体的实施例中,对第二预设样本数据和攻击样本数据各自对应的第一样本哈希特征分别进行激活处理,得到第二激活哈希特征的具体细化可以参见上述激活处理的相关步骤,在此不再赘述。
在一个具体的实施例中,可以结合KL(Kullback-Leibler divergence)损失函数,即相对熵,对第二预设样本数据和攻击样本数据各种对应的激活哈希特征(即上述第二激活哈希特征)进行处理,得到上述第二攻击哈希损失。
S409:根据第二预设样本数据对应的第二目标二值特征和第二预设样本数据对应的第一样本哈希特征,确定第四哈希二值化损失。
在一个具体的实施例中,上述确定第四哈希二值化损失的具体细化,可以参见上述确定第三哈希二值化损失的相关细化,在此不再赘述。第四哈希二值化损失可以表征第二预设样本数据的第二样本哈希特征与对应的第二目标二值特征间的差异程度。第四哈希二值化损失也用于在训练过程中,将模型输出的哈希特征拉向二值目标的二值量化损失。
S411:基于第二哈希度量损失、第三哈希二值化损失、第二攻击哈希损失和第四哈希二值化损失,确定第二哈希损失。
在一个具体的实施例中,上述基于第二哈希度量损失、第三哈希二值化损失、第二攻击哈希损失和第四哈希二值化损失,确定第二哈希损失可以包括:基于第二哈希度量损失和第三哈希二值化损失,确定第二监督哈希损失;根据第二攻击哈希损失和第四哈希二值化损失,确定第二无监督哈希损失;根据第二监督哈希损失和第二无监督哈希损失,确定第二哈希损失。
在一个具体的实施例中,可以对第二哈希度量损失和第三哈希二值化损失进行加权相加,得到第二监督哈希损失。具体的,第三哈希二值化损失和第二哈希度量损失的权重可以结合实际应用预先设置,一般的,二值量化损失并非处于主导学习地位,模型优先保证度量特性。相应的,第三哈希二值损失的权重可以较小,例如0.1,第二哈希度量损失的权重可以较大,例如1。
在一个具体的实施例中,可以对第二攻击哈希损失和第四哈希二值化损失进行加权相加,得到第二无监督哈希损失。具体的,第二攻击哈希损失和第四哈希二值化损失可以结合实际应用预先设置,一般的,可以优先使得特征相似度满足攻击前后一致的要求,再保证量化尽量趋向于二值。相应的,第四哈希二值化损失的权重可以较小,例如0.1,第二攻击哈希损失的权重可以较大,例如1。
在一个具体的实施例中,可以对根据第二监督哈希损失和第二无监督哈希损失进行加权相加,得到第二哈希损失。具体的,第二监督哈希损失和第二无监督哈希损失可以结合实际应用预先设置,一般的,为了保证模型的特征表征精准性,第二监督哈希损失和第二无监督哈希损失的权重可以均较大,例如均等于1。
S307:基于第一哈希损失,训练预设深度学习模型,得到初始特征表征模型;
在一个具体的实施例中,为了保证模型的特征表征精准性,可以在训练过程中,采取分阶段加入不同任务的策略,即先结合第一哈希损失进行第一预设轮次(例如3轮)的训练,具体的,以有监督数据(标注样本数据)全部遍历完一次,认为完成一个轮次。具体的,在每一轮次中,可以结合当前轮次的第一哈希损失来更新预设深度学习模型的模型参数,并结合更新后的模型参数,重复上述S303、S305以及更新模型参数的步骤,直至训练轮次达到第一预设轮次。并将第一预设轮次时得到的预设深度学习模型作为上述初始特征表征模型。
S309:将标注样本数据和无标注样本数据输入初始特征表征模型进行特征表征处理,得到标注样本数据和无标注样本数据各自对应的第二样本哈希特征,以及第二样本哈希特征对应的样本分段量化码本;
在一个具体的实施例中,在得到初始特征表征模型之后,可以在特征表征处理,引入分段量化码本。具体的,将标注样本数据和无标注样本数据输入初始特征表征模型进行特征表征处理,得到标注样本数据和无标注样本数据各自对应的第二样本哈希特征,以及第二样本哈希特征对应的样本分段量化码本的具体细化,可以参见上述将预设二值转换函数搜索数据和预设二值转换函数第一数量个待召回数据输入预设特征表征模型进行特征表征处理,得到预设二值转换函数搜索数据对应的第一哈希特征、预设二值转换函数第一哈希特征对应的第一分段量化码本、预设二值转换函数第一数量个待召回数据各自对应的第二哈希特征、第二哈希特征对应的第二分段量化码本的具体细化,在此不再赘述。
S311:基于第二样本哈希特征和样本分段量化码本,确定第二哈希损失和目标量化损失;
在一个具体的实施例中,上述基于第二样本哈希特征和样本分段量化码本,确定第二哈希损失和目标量化损失包括:
1)基于第二样本哈希特征,确定第二哈希损失;
在一个具体的实施例中,上述基于第二样本哈希特征,确定第二哈希损失可以包括:基于预设二值转换函数,将第二样本哈希特征转换成第一目标二值特征;根据第一预设样本数据、正样本数据和负样本数据各自对应的第一目标二值特征、第二样本哈希特征,确定第一哈希二值化损失;基于第一预设样本数据、正样本数据和负样本数据各自对应第二样本哈希特征,确定第一哈希度量损失;基于第二预设样本数据和攻击样本数据各自对应的第二样本哈希特征,确定第一攻击哈希损失;根据第二预设样本数据对应的第一目标二值特征和第二预设样本数据对应的第二样本哈希特征,确定第二哈希二值化损失;基于第一哈希度量损失、第一哈希二值化损失、第一攻击哈希损失和第二哈希二值化损失,确定第二哈希损失。
在一个可选的实施例中,上述基于第一哈希度量损失、第一哈希二值化损失、第一攻击哈希损失和第二哈希二值化损失,确定第二哈希损失可以包括:基于第一哈希度量损失和第一哈希二值化损失,确定第一监督哈希损失;根据第一攻击哈希损失和第二哈希二值化损失,确定第一无监督哈希损失;根据第一监督哈希损失和第一无监督哈希损失,确定第二哈希损失。
在一个具体的实施例中,上述基于第一预设样本数据、正样本数据和负样本数据各自对应第二样本哈希特征,确定第一哈希度量损失可以包括:对第一预设样本数据、正样本数据和负样本数据各自对应的第二样本哈希特征分别进行激活处理,得到第一激活哈希特征;根据第一激活哈希特征,确定第一哈希度量损失;
在一个具体的实施例中,上述基于第二预设样本数据和攻击样本数据各自对应的第二样本哈希特征,确定第一攻击哈希损失可以包括:对第二预设样本数据和攻击样本数据各自对应的第二样本哈希特征分别进行激活处理,得到第二激活哈希特征;根据第二激活哈希特征,确定第一攻击哈希损失。
本说明书实施例中,基于第二样本哈希特征,确定第二哈希损失的具体步骤细化可以参见上述基于第一样本哈希特征,确定第一哈希损失的相关步骤的细化,在此不再赘述。
2)根据第二样本哈希特征和样本分段量化码本,确定目标量化损失。
在一个具体的实施例中,上述样本分段量化特征包括第二样本哈希特征,在第三数量个分段下对应的第四数量个样本分段聚类特征;可选的,如图5所示,上述根据第二样本哈希特征和样本分段量化码本,确定目标量化损失可以包括:
S501:基于第二样本哈希特征,在第三数量个分段下对应的第四数量个样本分段聚类特征,构建第二样本哈希特征对应的重构哈希特征;
在一个具体的实施例中,任一样本数据的第二样本哈希特征包括该第二样本哈希特征,在第三数量个分段下对应的第四数量个样本分段聚类特征;针对某一样本数据的第二样本哈希特征在某一分段下的样本分段哈希特征,可以计算该样本分段哈希特征与对应分段下的第四数量个样本分段聚类特征间的相似度(例如汉明距离),该分段下相似度最高的样本分段聚类特征的权重可以为1,该分段下剩余样本分段聚类特征的权重可以为0;相应的,可以将每个分段下的样本分段聚类特征乘以相应的权重后,对第三数量个分段对应的加权后的特征进行拼接,可以得到该第二样本哈希特征对应的重构哈希特征。
S503:根据第一预设样本数据、正样本数据和负样本数据各自对应的第二样本哈希特征和重构哈希特征,确定监督重建损失;
在一个具体的实施例中,监督重建损失可以表征标注样本数据的重构哈希特征与原始的第二样本哈希特征间的差异程度。可选的,可以结合均方差函数对第一预设样本数据、正样本数据和负样本数据各自对应的第二样本哈希特征和重构哈希特征进行处理,得到上述监督重建损失。
S505:根据第一预设样本数据、正样本数据和负样本数据各自对应重构哈希特征,确定重建度量损失;
在一个具体的实施例中,重建度量损失可以基于第一预设样本数据、正样本数据和负样本数据间相似度,来度量模型对重构哈希特征的表征精准性。
在一个具体的实施例中,根据第一预设样本数据、正样本数据和负样本数据各自对应重构哈希特征,确定重建度量损失的具体细化步骤,可以参见上述基于第一预设样本数据、正样本数据和负样本数据各自对应第一样本哈希特征,确定第二哈希度量损失的具体细化步骤,即第一样本哈希特征替换成重构哈希特征,在此不再赘述。可选的,在确定重建度量损失过程中的预设阈值可以与确定第二哈希度量损失过程中的预设阈值的数值不同,确定重建度量损失过程中的预设阈值可以略小于确定第二哈希度量损失过程中的预设阈值,即重建出现一定误差范围;例如确定第二哈希度量损失过程中的预设阈值为20,其中确定重建度量损失过程中的预设阈值可以为16。
S507:根据第二预设样本数据对应第二样本哈希特征和重构哈希特征,确定无监督重建损失;
在一个具体的实施例中,无监督重建损失可以表征第二预设样本数据的重构哈希特征与原始的第二样本哈希特征间的差异程度。可选的,可以结合均方差函数对第二预设样本数据的第二样本哈希特征和重构哈希特征进行处理,得到上述无监督重建损失。
S509:基于第二预设样本数据和攻击样本数据各自对应的重构哈希特征,确定攻击量化损失;
在一个具体的实施例中,攻击量化损失可以表征无监督样本(第二预设样本数据)的重构哈希特征与其经过攻击后生成的攻击样本数据的重构哈希特征间的相似度。
在一个具体的实施例中,基于第二预设样本数据和攻击样本数据各自对应的重构哈希特征,确定攻击量化损失的具体细化,可以参见上述基于第二预设样本数据和攻击样本数据各自对应的第一样本哈希特征,确定第二攻击哈希损失的具体细化,在此不再赘述。
S511:根据监督重建损失、重建度量损失、无监督重建损失和攻击量化损失,确定目标量化损失。
在一个具体的实施例中,根据监督重建损失、重建度量损失、无监督重建损失和攻击量化损失,确定目标量化损失可以包括:根据无监督重建损失和攻击量化损失,生成无监督量化损失;根据无监督量化损失、监督重建损失和重建度量损失,确定目标量化损失。
在一个具体的实施例中,可以对无监督重建损失和攻击量化损失进行加权相加,得到无监督量化损失;具体的,无监督重建损失和攻击量化损失的权重可以结合实际应用预先设置,为了优先保证模型对对不同样本数据表征的精准性,攻击量化损失的权重可以较大,无监督重建损失的权重可以较小,例如攻击量化损失的权重为0.5,无监督重建损失的权重为0.05。
在一个具体的实施例中,可以对无监督量化损失、监督重建损失和重建度量损失进行加权相加,得到目标量化损失。具体的,监督量化损失、监督重建损失和重建度量损失的权重可以结合实际应用预先设置。例如无监督量化损失的权重为1,监督重建损失的权重为0.1,重建度量损失的权重为0.1。
S313:基于第二哈希损失和目标量化损失,训练初始特征表征模型,得到预设特征表征模型。
在一个具体的实施例中,如图6所示,上述基于第二哈希损失和目标量化损失,训练初始特征表征模型,得到预设特征表征模型可以包括:
S601:根据第二哈希损失和目标量化损失,确定目标损失;
S603:基于目标损失更新初始特征表征模型的模型参数;
S605:在初始特征表征模型的当前累计更新次数为目标次数的情况下,将标注样本数据和无标注样本数据输入更新后的初始特征表征模型进行特征表征处理,以更新标注样本数据和无标注样本数据各自对应的第二样本哈希特征,以及第二样本哈希特征对应的样本分段量化码本;
S607:在初始特征表征模型的当前累计更新次数为非目标次数的情况下,将标注样本数据和无标注样本数据输入更新后的初始特征表征模型进行特征表征处理,以更新标注样本数据和无标注样本数据各自对应的第二样本哈希特征;
S609:基于当前的第二样本哈希特征和当前的样本分段量化码本,更新第二哈希损失和目标量化损失;
S611:基于更新后的第二哈希损失和更新后的目标量化损失,重复确定目标损失至进行特征表征处理的步骤,直至当前累计更新次数达到预设次数,或当前的目标损失满足预设损失条件;
S613:在当前累计更新次数达到预设次数,或当前的目标损失满足预设损失条件的情况下,将当前的初始特征表征模型作为预设特征表征模型。
在一个具体的实施例中,可以将第二哈希损失和目标量化损失相加,得到目标损失。在基于目标损失更新初始特征表征模型的模型参数的过程中,可以而结合梯度下降法。
在一个具体的实施例中,初始特征表征模型的当前累计更新次数可以为与训练轮次一致;目标次数可以为根据样本分段量化码本对应的更新频率确定的多个训练轮次,例如更新频率为每两轮更新一次;目标次数为第2、4、6、8....训练轮次。相应的,训练轮次中除了目标次数对应的轮次,其他训练轮次对应非目标次数。
在一个具体的实施例中,预设次数可以为预先设置的训练总轮次,预设损失条件可以为预先设置的目标损失收敛的条件,可选的,预设损失条件可以为目标损失小于等于预设损失。在实际应用中,训练的收敛条件可以结合实际应用预先设置,可以结合训练轮次来设置训练的收敛条件,也可以结合损失来设置训练的收敛条件。
此外,需要说明的是,上述确定各种损失过程中所涉及的函数仅仅是一种示例,在实际应用中,可以结合实际需求选用其他损失函数,本说明书实施例并不以上述为限。
在一个具体的实施例中,如图7所示,图7是本申请实施例提供的一种预先训练预设深度学习模型,以得到预设特征表征模型的示意图。具体的,结合图7所示,预设深度学习模型可以包括待训练的基础特征提取模块、哈希模块和量化码本模块;具体的,模型训练可以分两个阶段,第一个阶段可以将标注样本数据和无标注样本数据输入基础特征提取模块进行特征提取处理,然后,将基础特征提取模块提取的特征信息输入哈希模块进行特征提取,可以得到标注样本数据和无标注样本数据各自的第二样本哈希特征;并结合标注样本数据和无标注样本数据各自的第二样本哈希特征所确定出的第一哈希损失,训练预设深度学习模型,得到初始特征表征模型;接着,进入第二阶段的模型训练,将标注样本数据和非标注样本数据输入初始特征表征模型对应的基础特征提取模块进行特征提取处理,然后,将基础特征提取模块提取的特征信息输入初始特征表征模型对应的哈希模块进行特征提取,可以得到标注样本数据和无标注样本数据各自的第二样本哈希特征;并将第二样本哈希特征输入初始特征表征模型对应的量化码本模块进行分段量化表征,可以得到对应的样本分段量化码本,并基于样本分段量化码本生成重构哈希特征,并结合重构哈希特征生成目标量化损失,以及结合第二样本哈希特征,生成第二哈希损失;接着,基于第二哈希损失和目标量化损失,确定目标损失,并基于目标损失训练初始特征表征模型,并在练初始特征表征模型过程中定期更新量化码本,以训练得到上述预设特征表征模型。
本说明书实施例中,在预设特征表征模型训练过程中,通过量化码本与哈希特征联合学习,使得两者在学习中持续优化,有效避免量化从特征出发,直接做子空间的分割以及每个空间的切分,导致割裂正样本数据对(相似的样本由于特征相似度不足)的问题,可以在提升训练速度和效率的同时,大大提升量化码本的特征表征精准性;且结合量化码本重建哈希特征,实现了有监督的码本学习;另外,还引入无监督样本数据的自监督学习约束,提升量化码本在大量无标注数据上的适应性,从而提升量化码本的特征表征能力,进而提升应用过程中,基于预设特征表征模型提取的量化码本索引的泛化能力。
S205:基于第一分段量化码本和第二分段量化码本,从第一数量个待召回数据中确定第二数量个待筛选召回数据;
在一个具体的实施例中,如图8所示,上述基于第一分段量化码本和第二分段量化码本,从第一数量个待召回数据中确定第二数量个待筛选召回数据可以包括:
S801:从第一哈希特征在第三数量个分段下对应的第四数量个分段聚类特征中,确定第一哈希特征在第三数量个分段下对应的第一分段量化特征;
S803:从每个待召回数据的第二哈希特征,在第三数量个分段下对应的第四数量个分段聚类特征中,确定每个待召回数据的第二哈希特征,在第三数量个分段下对应的第二分段量化特征;
S805:从第一数量个待召回数据中,确定对应的第二哈希特征在每个分段下对应的第二分段量化特征与第一哈希特征在每个分段下对应的第一分段量化特征一致的初选待召回数据;
S807:将第三数量个分段下对应的初始待召回数据的交集,作为第二数量个待筛选召回数据。
在一个具体的实施例中,每个分段下的每一分段聚类特征会对应着一个分段哈希特征簇;相应的,可以将第一哈希特征在每个分段下所属分段哈希特征簇对应的分段聚类特征作为第一哈希特征在该分段下对应的第一分段量化特征。相应的,可以将每个待召回数据的第二哈希特征在每个分段下所属分段哈希特征簇对应的分段聚类特征作为该待召回数据的第二哈希特征在该分段下对应的第二分段量化特征。
在一个具体的实施例中,针对某一分段,可以将第一哈希特征在该分段下对应的第一分段量化特征所属分段哈希特征簇中分段哈希特征对应的待召回数据作为该分段下的初选待召回数据。接着,可以将第三孙老师个分段下的初选待召回数据的交集,作为第二数量个待筛选召回数据。
上述实施例中,结合哈希特征在多个分段下的分段量化特征,可以分段量化特征作为索引,将搜索数据与待召回数据进行关联,预先筛选出待筛选召回数据,可以有效降低后续数据召回过程中的运算量,大大提升数据召回速度和效率。
S207:基于第一哈希特征和第二数量个待筛选召回数据的第二哈希特征,从第二数量个待筛选召回数据中,确定搜索数据的目标召回数据。
在一个具体的实施例中,上述基于第一哈希特征和第二数量个待筛选召回数据的第二哈希特征,从第二数量个待筛选召回数据中,确定搜索数据的目标召回数据可以包括:确定第一哈希特征分别与第二数量个待筛选召回数据的第二哈希特征间的相似度;根据相似度,从第二数量个待筛选召回数据中,确定目标召回数据。
在一个具体的实施例中,哈希特征间的相似度可以包括但不限于哈希特征间的汉明距离、欧式距离、曼哈顿距离等,可以结合实际应用余弦设置。可选的,可选的,可以相似度最该的待筛选召回数据作为目标召回数据;也可以选取相似度排序靠前一定数量个待筛选召回数据作为目标召回数据;也可以选取相似度大于等于预设相似度的待筛选召回数据作为目标召回数据。
由以上本说明书实施例提供的技术方案可见,本说明书在数据召回过程中,将搜索数据和第一数量个待召回数据输入预设特征表征模型进行特征表征处理,该预设特征表征模型为基于标注样本数据和无标注样本数据,对预设深度学习模型进行哈希量化联合训练得到的特征表征模型,有效保证了模型特征表征的泛化能力,且可以结合预设特征表征模型,生成搜索数据和第一数量个待召回数据各自对应的哈希特征的同时,生成搜索数据和第一数量个待召回数据各自对应的分段量化码本,可以实现对哈希特征的分段量化表征,进而可以基于哈希特征进行数据召回的过中,先结合量化码本,将搜索数据与待召回数据进行关联,筛选出待筛选召回数据,并基于待筛选召回数据与搜索数据的哈希特征,来确定目标召回数据,可以在提升数据召回准确率的同时,降低数据召回过程中的运算量,大大提升数据召回速度和效率。
本申请实施例还提供了一种数据召回装置,如图9所示,上述装置包括:
数据获取模块910,被配置为执行获取搜索数据和第一数量个待召回数据;
第一特征表征处理模块920,被配置为执行将搜索数据和第一数量个待召回数据输入预设特征表征模型进行特征表征处理,得到搜索数据对应的第一哈希特征、第一哈希特征对应的第一分段量化码本、第一数量个待召回数据各自对应的第二哈希特征、第二哈希特征对应的第二分段量化码本;
召回数据筛选模块930,被配置为执行基于第一分段量化码本和第二分段量化码本,从第一数量个待召回数据中确定第二数量个待筛选召回数据;
目标召回数据确定模块940,被配置为执行基于第一哈希特征和第二数量个待筛选召回数据的第二哈希特征,从第二数量个待筛选召回数据中,确定搜索数据的目标召回数据;
其中,该预设特征表征模型为基于标注样本数据和无标注样本数据,对预设深度学习模型进行哈希量化联合训练得到的特征表征模型。
可选的,上述预设特征表征模型包括哈希特征提取模块和量化码本模块;
上述第一特征表征处理模块910包括:
特征提取处理单元,被配置为执行将搜索数据和第一数量个待召回数据输入哈希特征提取模块进行特征提取处理,得到第一哈希特征和第二哈希特征;
分段量化表征单元,被配置为执行基于量化码本模块,对第一哈希特征和第二哈希特征进行分段量化表征,得到第一分段量化码本和第二分段量化码本。
可选的,上述分段量化表征单元包括:
特征输入单元,被配置为执行将第一哈希特征和第二哈希特征输入量化码本模块中;
分段处理单元,被配置为执行在量化码本模块中,对第一哈希特征和第二哈希特征分别进行分段处理,得到第一哈希特征在第三数量个分段下的第一分段哈希特征和第二哈希特征在第三数量个分段下的第二分段哈希特征;
聚类处理单元,被配置为执行在量化码本模块中,对每个分段下的第一分段哈希特征和第二分段哈希特征进行聚类处理,得到在每个分段下对应的第四数量个分段聚类特征;
分段量化码本确定单元,被配置为执行在量化码本模块中,将第一哈希特征,在第三数量个分段下对应的第四数量个分段聚类特征作为第一分段量化码本;以及,将每个待召回数据的第二哈希特征,在第三数量个分段下对应的第四数量个分段聚类特征作为每个待召回数据的第二分段量化码本。
可选的,上述召回数据筛选模块930包括:
第一分段量化特征确定单元,被配置为执行从第一哈希特征在第三数量个分段下对应的第四数量个分段聚类特征中,确定第一哈希特征在第三数量个分段下对应的第一分段量化特征;
第二分段量化特征确定单元,被配置为执行从每个待召回数据的第二哈希特征,在第三数量个分段下对应的第四数量个分段聚类特征中,确定每个待召回数据的第二哈希特征,在第三数量个分段下对应的第二分段量化特征;
初选待召回数据确定单元,被配置为执行从第一数量个待召回数据中,确定对应的第二哈希特征在每个分段下对应的第二分段量化特征与第一哈希特征在每个分段下对应的第一分段量化特征一致的初选待召回数据;
待筛选召回数据确定单元,被配置为执行将第三数量个分段下对应的初始待召回数据的交集,作为第二数量个待筛选召回数据。
可选的,上述目标召回数据确定模块940包括:
相似度确定单元,被配置为执行确定第一哈希特征分别与第二数量个待筛选召回数据的第二哈希特征间的相似度;
目标召回数据确定单元,被配置为执行根据相似度,从第二数量个待筛选召回数据中,确定目标召回数据。
可选的,上述装置还包括:
样本数据获取模块,被配置为执行获取标注样本数据和无标注样本数据;
第二特征表征处理模块,被配置为执行将标注样本数据和无标注样本数据输入预设深度学习模型进行特征表征处理,得到标注样本数据和无标注样本数据各自对应的第一样本哈希特征;
第一哈希损失确定模块,被配置为执行基于第一样本哈希特征,确定第一哈希损失;
初始特征表征模型生成模块,被配置为执行基于第一哈希损失,训练预设深度学习模型,得到初始特征表征模型;
第三特征表征处理模块,被配置为执行将标注样本数据和无标注样本数据输入初始特征表征模型进行特征表征处理,得到标注样本数据和无标注样本数据各自对应的第二样本哈希特征,以及第二样本哈希特征对应的样本分段量化码本;
损失确定模块,被配置为执行基于第二样本哈希特征和样本分段量化码本,确定第二哈希损失和目标量化损失;
预设特征表征模型生成模块,被配置为执行基于第二哈希损失和目标量化损失,训练初始特征表征模型,得到预设特征表征模型。
可选的,预设特征表征模型生成模块包括:
目标损失确定单元,被配置为执行根据第二哈希损失和目标量化损失,确定目标损失;
模型参数更新单元,被配置为执行基于目标损失更新初始特征表征模型的模型参数;
第一特征表征处理单元,被配置为执行在初始特征表征模型的当前累计更新次数为目标次数的情况下,将标注样本数据和无标注样本数据输入更新后的初始特征表征模型进行特征表征处理,以更新标注样本数据和无标注样本数据各自对应的第二样本哈希特征,以及第二样本哈希特征对应的样本分段量化码本;
第二特征表征处理单元,被配置为执行在初始特征表征模型的当前累计更新次数为非目标次数的情况下,将标注样本数据和无标注样本数据输入更新后的初始特征表征模型进行特征表征处理,以更新标注样本数据和无标注样本数据各自对应的第二样本哈希特征;
损失更新单元,被配置为执行基于当前的第二样本哈希特征和当前的样本分段量化码本,更新第二哈希损失和目标量化损失;
迭代单元,被配置为执行基于更新后的第二哈希损失和更新后的目标量化损失,重复确定目标损失至进行特征表征处理的步骤,直至当前累计更新次数达到预设次数,或当前的目标损失满足预设损失条件;
预设特征表征模型确定单元,被配置为执行在当前累计更新次数达到预设次数,或当前的目标损失满足预设损失条件的情况下,将当前的初始特征表征模型作为预设特征表征模型。
可选的,上述损失确定模块包括:
第二哈希损失确定单元,被配置为执行基于第二样本哈希特征,确定第二哈希损失;
目标量化损失确定单元,被配置为执行根据第二样本哈希特征和样本分段量化码本,确定目标量化损失。
可选的,上述标注样本数据包括第一预设样本数据、第一预设样本数据对应的正样本数据和第一预设样本数据对应的负样本数据;无标注样本数据包括第二预设样本数据、和第二预设样本数据对应的攻击样本数据;
上述第二哈希损失确定单元包括:
特征转换单元,被配置为执行基于预设二值转换函数,将第二样本哈希特征转换成第一目标二值特征;
第一哈希二值化损失确定单元,被配置为执行根据第一预设样本数据、正样本数据和负样本数据各自对应的第一目标二值特征、第二样本哈希特征,确定第一哈希二值化损失;
第一哈希度量损失确定单元,被配置为执行基于第一预设样本数据、正样本数据和负样本数据各自对应第二样本哈希特征,确定第一哈希度量损失;
第一攻击哈希损失确定单元,被配置为执行基于第二预设样本数据和攻击样本数据各自对应的第二样本哈希特征,确定第一攻击哈希损失;
第二哈希二值化损失确定单元,被配置为执行根据第二预设样本数据对应的第一目标二值特征和第二预设样本数据对应的第二样本哈希特征,确定第二哈希二值化损失;
第二哈希损失确定单元,被配置为执行基于第一哈希度量损失、第一哈希二值化损失、第一攻击哈希损失和第二哈希二值化损失,确定第二哈希损失。
可选的,上述第一哈希度量损失确定单元包括:
第一激活处理单元,被配置为执行对第一预设样本数据、正样本数据和负样本数据各自对应的第二样本哈希特征分别进行激活处理,得到第一激活哈希特征;
第一哈希度量损失子单元,被配置为执行根据第一激活哈希特征,确定第一哈希度量损失;
上述第一攻击哈希损失确定单元包括:
第二激活处理单元,被配置为执行对第二预设样本数据和攻击样本数据各自对应的第二样本哈希特征分别进行激活处理,得到第二激活哈希特征;
第一攻击哈希损失子单元,被配置为执行根据第二激活哈希特征,确定第一攻击哈希损失。
可选的,上述标注样本数据包括第一预设样本数据、第一预设样本数据对应的正样本数据和第一预设样本数据对应的负样本数据;无标注样本数据包括第二预设样本数据、和第二预设样本数据对应的攻击样本数据;样本分段量化特征包括第二样本哈希特征,在第三数量个分段下对应的第四数量个样本分段聚类特征;
上述目标量化损失确定单元包括:
哈希特征构建单元,被配置为执行基于第二样本哈希特征,在第三数量个分段下对应的第四数量个样本分段聚类特征,构建第二样本哈希特征对应的重构哈希特征;
监督重建损失确定单元,被配置为执行根据第一预设样本数据、正样本数据和负样本数据各自对应的第二样本哈希特征和重构哈希特征,确定监督重建损失;
重建度量损失确定单元,被配置为执行根据第一预设样本数据、正样本数据和负样本数据各自对应重构哈希特征,确定重建度量损失;
无监督重建损失确定单元,被配置为执行根据第二预设样本数据对应第二样本哈希特征和重构哈希特征,确定无监督重建损失;
攻击量化损失确定单元,被配置为执行基于第二预设样本数据和攻击样本数据各自对应的重构哈希特征,确定攻击量化损失;
目标量化损失子单元,被配置为执行根据监督重建损失、重建度量损失、无监督重建损失和攻击量化损失,确定目标量化损失。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图10是本申请实施例提供的一种用于数据召回的电子设备的框图,该电子设备可以是终端,其内部结构图可以如图10所示。该电子设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据召回方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本公开实施例中的数据召回方法。
在示例性实施例中,还提供了一种计算机可读存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例中的页面显示方法。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的数据召回方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (12)

1.一种数据召回方法,其特征在于,所述方法包括:
获取搜索数据和第一数量个待召回数据;
将所述搜索数据和所述第一数量个待召回数据输入预设特征表征模型进行特征表征处理,得到所述搜索数据对应的第一哈希特征、所述第一哈希特征对应的第一分段量化码本、所述第一数量个待召回数据各自对应的第二哈希特征、所述第二哈希特征对应的第二分段量化码本;
基于所述第一分段量化码本和所述第二分段量化码本,从所述第一数量个待召回数据中确定第二数量个待筛选召回数据;
基于所述第一哈希特征和所述第二数量个待筛选召回数据的第二哈希特征,从所述第二数量个待筛选召回数据中,确定所述搜索数据的目标召回数据;
其中,所述预设特征表征模型为基于标注样本数据和无标注样本数据,对预设深度学习模型进行哈希量化联合训练得到的特征表征模型。
2.根据权利要求1所述的方法,其特征在于,所述预设特征表征模型包括哈希特征提取模块和量化码本模块;
所述将所述搜索数据和所述第一数量个待召回数据输入预设特征表征模型进行特征表征处理,得到所述搜索数据对应的第一哈希特征、所述第一哈希特征对应的第一分段量化码本、所述第一数量个待召回数据各自对应的第二哈希特征、所述第二哈希特征对应的第二分段量化码本包括:
将所述搜索数据和所述第一数量个待召回数据输入所述哈希特征提取模块进行特征提取处理,得到所述第一哈希特征和所述第二哈希特征;
基于所述量化码本模块,对所述第一哈希特征和所述第二哈希特征进行分段量化表征,得到所述第一分段量化码本和所述第二分段量化码本。
3.根据权利要求2所述的方法,其特征在于,所述基于所述量化码本模块,对所述第一哈希特征和所述第二哈希特征进行分段量化表征,得到所述第一分段量化码本和所述第二分段量化码本包括:
将所述第一哈希特征和所述第二哈希特征输入所述量化码本模块中;
在所述量化码本模块中,对所述第一哈希特征和所述第二哈希特征分别进行分段处理,得到所述第一哈希特征在第三数量个分段下的第一分段哈希特征和所述第二哈希特征在所述第三数量个分段下的第二分段哈希特征;
以及,对每个分段下的第一分段哈希特征和第二分段哈希特征进行聚类处理,得到在每个分段下对应的第四数量个分段聚类特征;
以及,将所述第一哈希特征,在所述第三数量个分段下对应的所述第四数量个分段聚类特征作为所述第一分段量化码本;以及,将每个待召回数据的第二哈希特征,在所述第三数量个分段下对应的所述第四数量个分段聚类特征作为所述每个待召回数据的第二分段量化码本。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一分段量化码本和所述第二分段量化码本,从所述第一数量个待召回数据中确定第二数量个待筛选召回数据包括:
从所述第一哈希特征在所述第三数量个分段下对应的所述第四数量个分段聚类特征中,确定所述第一哈希特征在所述第三数量个分段下对应的第一分段量化特征;
从所述每个待召回数据的第二哈希特征,在所述第三数量个分段下对应的所述第四数量个分段聚类特征中,确定所述每个待召回数据的第二哈希特征,在所述第三数量个分段下对应的第二分段量化特征;
从所述第一数量个待召回数据中,确定对应的第二哈希特征在所述每个分段下对应的第二分段量化特征与所述第一哈希特征在所述每个分段下对应的第一分段量化特征一致的初选待召回数据;
将所述第三数量个分段下对应的初始待召回数据的交集,作为所述第二数量个待筛选召回数据。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一哈希特征和所述第二数量个待筛选召回数据的第二哈希特征,从所述第二数量个待筛选召回数据中,确定所述搜索数据的目标召回数据包括:
确定所述第一哈希特征分别与所述第二数量个待筛选召回数据的第二哈希特征间的相似度;
根据所述相似度,从所述第二数量个待筛选召回数据中,确定所述目标召回数据。
6.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
获取标注样本数据和无标注样本数据;
将所述标注样本数据和所述无标注样本数据输入预设深度学习模型进行特征表征处理,得到所述标注样本数据和所述无标注样本数据各自对应的第一样本哈希特征;
基于所述第一样本哈希特征,确定第一哈希损失;
基于所述第一哈希损失,训练所述预设深度学习模型,得到初始特征表征模型;
将所述标注样本数据和所述无标注样本数据输入所述初始特征表征模型进行特征表征处理,得到所述标注样本数据和所述无标注样本数据各自对应的第二样本哈希特征,以及所述第二样本哈希特征对应的样本分段量化码本;
基于所述第二样本哈希特征和所述样本分段量化码本,确定第二哈希损失和目标量化损失;
基于所述第二哈希损失和所述目标量化损失,训练所述初始特征表征模型,得到所述预设特征表征模型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第二哈希损失和所述目标量化损失,训练所述初始特征表征模型,得到所述预设特征表征模型包括:
根据所述第二哈希损失和所述目标量化损失,确定目标损失;
基于所述目标损失更新所述初始特征表征模型的模型参数;
在所述初始特征表征模型的当前累计更新次数为目标次数的情况下,将所述标注样本数据和所述无标注样本数据输入更新后的初始特征表征模型进行特征表征处理,以更新所述标注样本数据和所述无标注样本数据各自对应的第二样本哈希特征,以及所述第二样本哈希特征对应的样本分段量化码本;
在所述初始特征表征模型的当前累计更新次数为非目标次数的情况下,将所述标注样本数据和所述无标注样本数据输入更新后的初始特征表征模型进行特征表征处理,以更新所述标注样本数据和所述无标注样本数据各自对应的第二样本哈希特征;
基于当前的第二样本哈希特征和当前的样本分段量化码本,更新所述第二哈希损失和所述目标量化损失;
基于更新后的第二哈希损失和更新后的目标量化损失,重复所述确定目标损失至进行特征表征处理的步骤,直至所述当前累计更新次数达到预设次数,或当前的目标损失满足预设损失条件;
在所述当前累计更新次数达到所述预设次数,或所述当前的目标损失满足所述预设损失条件的情况下,将当前的初始特征表征模型作为所述预设特征表征模型。
8.根据权利要求6所述的方法,其特征在于,所述基于所述第二样本哈希特征和所述样本分段量化码本,确定第二哈希损失和目标量化损失包括:
基于所述第二样本哈希特征,确定所述第二哈希损失;
根据所述第二样本哈希特征和所述样本分段量化码本,确定目标量化损失。
9.根据权利要求8所述的方法,其特征在于,所述标注样本数据包括第一预设样本数据、所述第一预设样本数据对应的正样本数据和所述第一预设样本数据对应的负样本数据;所述无标注样本数据包括第二预设样本数据、和所述第二预设样本数据对应的攻击样本数据;
所述基于所述第二样本哈希特征,确定所述第二哈希损失包括:
基于预设二值转换函数,将所述第二样本哈希特征转换成第一目标二值特征;
根据所述第一预设样本数据、所述正样本数据和所述负样本数据各自对应的第一目标二值特征、第二样本哈希特征,确定第一哈希二值化损失;
基于所述第一预设样本数据、所述正样本数据和所述负样本数据各自对应第二样本哈希特征,确定第一哈希度量损失;
基于所述第二预设样本数据和所述攻击样本数据各自对应的第二样本哈希特征,确定第一攻击哈希损失;
根据所述第二预设样本数据对应的第一目标二值特征和所述第二预设样本数据对应的第二样本哈希特征,确定第二哈希二值化损失;
基于所述第一哈希度量损失、所述第一哈希二值化损失、所述第一攻击哈希损失和所述第二哈希二值化损失,确定所述第二哈希损失。
10.根据权利要求9所述的方法,其特征在于,所述基于所述第一预设样本数据、所述正样本数据和所述负样本数据各自对应第二样本哈希特征,确定第一哈希度量损失包括:
对所述第一预设样本数据、所述正样本数据和所述负样本数据各自对应的第二样本哈希特征分别进行激活处理,得到第一激活哈希特征;
根据所述第一激活哈希特征,确定所述第一哈希度量损失;
所述基于所述第二预设样本数据和所述攻击样本数据各自对应的第二样本哈希特征,确定第一攻击哈希损失包括:
对所述第二预设样本数据和所述攻击样本数据各自对应的第二样本哈希特征分别进行激活处理,得到第二激活哈希特征;
根据所述第二激活哈希特征,确定所述第一攻击哈希损失。
11.根据权利要求8所述的方法,其特征在于,所述标注样本数据包括第一预设样本数据、所述第一预设样本数据对应的正样本数据和所述第一预设样本数据对应的负样本数据;所述无标注样本数据包括第二预设样本数据、和所述第二预设样本数据对应的攻击样本数据;所述样本分段量化特征包括所述第二样本哈希特征,在第三数量个分段下对应的第四数量个样本分段聚类特征;
所述根据所述第二样本哈希特征和所述样本分段量化码本,确定目标量化损失包括:
基于第二样本哈希特征,在第三数量个分段下对应的第四数量个样本分段聚类特征,构建所述第二样本哈希特征对应的重构哈希特征;
根据所述第一预设样本数据、所述正样本数据和所述负样本数据各自对应的第二样本哈希特征和重构哈希特征,确定监督重建损失;
根据所述第一预设样本数据、所述正样本数据和所述负样本数据各自对应重构哈希特征,确定重建度量损失;
根据所述第二预设样本数据对应第二样本哈希特征和重构哈希特征,确定无监督重建损失;
基于所述第二预设样本数据和所述攻击样本数据各自对应的重构哈希特征,确定攻击量化损失;
根据所述监督重建损失、所述重建度量损失、所述无监督重建损失和所述攻击量化损失,确定所述目标量化损失。
12.一种数据召回装置,其特征在于,所述装置包括:
数据获取模块,被配置为执行获取搜索数据和第一数量个待召回数据;
第一特征表征处理模块,被配置为执行将所述搜索数据和所述第一数量个待召回数据输入预设特征表征模型进行特征表征处理,得到所述搜索数据对应的第一哈希特征、所述第一哈希特征对应的第一分段量化码本、所述第一数量个待召回数据各自对应的第二哈希特征、所述第二哈希特征对应的第二分段量化码本;
召回数据筛选模块,被配置为执行基于所述第一分段量化码本和所述第二分段量化码本,从所述第一数量个待召回数据中确定第二数量个待筛选召回数据;
目标召回数据确定模块,被配置为执行基于所述第一哈希特征和所述第二数量个待筛选召回数据的第二哈希特征,从所述第二数量个待筛选召回数据中,确定所述搜索数据的目标召回数据;
其中,所述预设特征表征模型为基于标注样本数据和无标注样本数据,对预设深度学习模型进行哈希量化联合训练得到的特征表征模型。
CN202111261348.2A 2021-10-28 2021-10-28 数据召回方法及装置 Pending CN114329174A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111261348.2A CN114329174A (zh) 2021-10-28 2021-10-28 数据召回方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111261348.2A CN114329174A (zh) 2021-10-28 2021-10-28 数据召回方法及装置

Publications (1)

Publication Number Publication Date
CN114329174A true CN114329174A (zh) 2022-04-12

Family

ID=81044562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111261348.2A Pending CN114329174A (zh) 2021-10-28 2021-10-28 数据召回方法及装置

Country Status (1)

Country Link
CN (1) CN114329174A (zh)

Similar Documents

Publication Publication Date Title
CN113593611B (zh) 语音分类网络训练方法、装置、计算设备及存储介质
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN108229986B (zh) 信息点击预测中的特征构建方法、信息投放方法和装置
CN113641835B (zh) 多媒体资源推荐方法、装置、电子设备及介质
CN114974397A (zh) 蛋白质结构预测模型的训练方法和蛋白质结构预测方法
CN114547267A (zh) 智能问答模型的生成方法、装置、计算设备和存储介质
CN113763385A (zh) 视频目标分割方法、装置、设备及介质
CN114329029A (zh) 对象检索方法、装置、设备及计算机存储介质
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN113963205A (zh) 基于特征融合的分类模型训练方法、装置、设备及介质
CN112232360A (zh) 图像检索模型优化方法、图像检索方法、装置及存储介质
CN115392594B (zh) 一种基于神经网络和特征筛选的用电负荷模型训练方法
CN113947185B (zh) 任务处理网络生成、任务处理方法、装置、电子设备及存储介质
CN115756821A (zh) 在线任务处理模型训练、任务处理方法及装置
CN115393376A (zh) 医学图像处理方法、装置、计算机设备和存储介质
CN114528973A (zh) 业务处理模型的生成方法、业务处理方法和装置
CN114329174A (zh) 数据召回方法及装置
CN113822291A (zh) 一种图像处理方法、装置、设备及存储介质
CN113627514A (zh) 知识图谱的数据处理方法、装置、电子设备和存储介质
CN116415624A (zh) 模型训练方法及装置、内容推荐方法及装置
CN113704528A (zh) 聚类中心确定方法、装置和设备及计算机存储介质
CN112463964A (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN111091198A (zh) 一种数据处理方法及装置
CN113792163B (zh) 多媒体推荐方法、装置、电子设备及存储介质
CN116821724B (zh) 多媒体处理网络生成方法、多媒体处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination