CN114358188A - 特征提取模型处理、样本检索方法、装置和计算机设备 - Google Patents
特征提取模型处理、样本检索方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN114358188A CN114358188A CN202210007882.9A CN202210007882A CN114358188A CN 114358188 A CN114358188 A CN 114358188A CN 202210007882 A CN202210007882 A CN 202210007882A CN 114358188 A CN114358188 A CN 114358188A
- Authority
- CN
- China
- Prior art keywords
- sample
- candidate
- label
- training
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本申请涉及一种特征提取模型处理方法、装置、计算机设备、存储介质和计算机程序产品,以及一种样本检索方法、装置、计算机设备、存储介质和计算机程序产品。其中特征提取模型处理方法包括:通过待训练的特征提取模型提取训练样本的训练样本特征;对训练样本进行分类,得到分类结果;获取候选标签集合中各候选标签各自对应的代表样本特征;选取与训练样本特征匹配的代表样本特征得到目标代表样本特征;将目标代表样本特征所属的候选标签确定为推荐标签;当推荐标签与类别标签之间存在差异时,基于分类结果和推荐标签确定噪声损失;根据噪声损失和分类损失对特征提取模型进行训练,得到目标特征提取模型。采用本方法可以提高特征提取的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种特征提取模型处理方法、装置、计算机设备、存储介质和计算机程序产品,以及一种样本检索方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术的发展,出现了机器学习技术,通过机器学习可以训练用于各种任务的机器学习模型,例如,可以训练用于特征提取任务的特征提取模型,该特征提取模型可以提取得到输入样本对应的特征,可以基于该特征对输入样本进行识别,得到识别结果。举个实际的例子,可以对一段句子进行特征提取,得到表示该句子的特征向量,基于该特征向量对句子进行翻译。
传统技术中,可以通过训练样本对特征提取模型进行训练,然而经常存在训练得到的特征提取模型所提取得到的特征准确度比较低的情况。
发明内容
基于此,有必要针对上述技术问题,提供一种特征提取模型处理方法、装置、计算机设备、存储介质和计算机程序产品,以及一种样本检索方法、装置、计算机设备、存储介质和计算机程序产品。
一方面,本申请提供了一种特征提取模型处理方法。所述方法包括:通过待训练的特征提取模型提取训练样本的训练样本特征;所述训练样本存在对应的类别标签;基于所述训练样本特征对所述训练样本进行分类,得到分类结果,基于所述分类结果和所述类别标签确定分类损失;确定所述训练样本对应的候选标签集合,并获取所述候选标签集合中各候选标签各自对应的代表样本特征;从各个所述代表样本特征中,选取与所述训练样本特征匹配的代表样本特征,将选取的代表样本特征确定为目标代表样本特征;从所述候选标签集合中确定所述目标代表样本特征所属的候选标签,将所述目标代表样本特征所属的候选标签确定为所述训练样本的推荐标签;当所述推荐标签与所述类别标签之间存在差异时,基于所述分类结果和所述推荐标签确定噪声损失;根据所述噪声损失和所述分类损失,对所述特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型;所述目标特征提取模型用于提取输入样本的样本特征。
另一方面,本申请还提供了一种特征提取模型处理装置。所述装置包括:获取查询样本和候选召回样本集合;将所述查询样本和候选召回样本集合中的候选召回样本输入目标特征提取模型,得到所述查询样本对应的查询样本特征和候选召回样本对应的候选召回样本特征;基于所述查询样本特征和候选召回样本特征,从所述候选召回样本集合中确定所述查询样本对应的目标检索样本;其中,所述目标特征提取模型是根据噪声损失和分类损失对待训练的特征提取模型进行训练得到的;所述分类损失值是基于分类结果和训练样本的类别标签确定的;所述分类结果是基于训练样本特征对训练样本进行分类得到的;所述训练样本特征是通过所述特征提取模型对所述训练样本进行特征提取得到的;所述噪声损失是在推荐标签与所述类别标签之间存在差异时,基于所述分类结果和所述推荐标签确定的;所述推荐标签是从所述候选标签集合中确定的目标代表样本特征所属的候选标签;所述目标代表样本特征与所述训练样本特征匹配,是从候选标签集合中各候选标签各自对应的代表样本特征中选取得到的;所述候选标签集合与所述训练样本对应。
另一方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述特征提取模型处理方法的步骤。
另一方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述特征提取模型处理方法的步骤。
另一方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述特征提取模型处理方法的步骤。
上述特征提取模型处理方法、装置、计算机设备、存储介质和计算机程序产品,通过待训练的特征提取模型提取训练样本的训练样本特征,其中,训练样本存在对应的类别标签,基于训练样本特征对训练样本进行分类,得到分类结果,基于分类结果和类别标签确定分类损失,确定训练样本对应的候选标签集合,并获取候选标签集合中各候选标签各自对应的代表样本特征,从各个代表样本特征中,选取与训练样本特征匹配的代表样本特征,将选取的代表样本特征确定为目标代表样本特征,从候选标签集合中确定目标代表样本特征所属的候选标签,将目标代表样本特征所属的候选标签确定为训练样本的推荐标签,该推荐标签为训练样本可能的正确标签,因此,当推荐标签与类别标签之间存在差异时,训练样本有可能为噪声样本,由于不能绝对确定推荐标签、原始类别标签的噪声情况,可以进一步根据噪声损失和分类损失,对特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型,使得特征提取模型可以根据推荐标签采用对噪声友好的方法进行泛化学习,使得噪声样本的处理对模型产生正向收益,进而可以提高特征提取模型所提取得到的特征的准确度。
另一方面,本申请提供了一种样本检索方法。所述方法包括:获取查询样本和候选召回样本集合;将所述查询样本和候选召回样本集合中的候选召回样本输入目标特征提取模型,得到所述查询样本对应的查询样本特征和候选召回样本对应的候选召回样本特征;其中,所述目标特征提取模型是根据噪声损失和分类损失对待训练的特征提取模型进行训练得到的;所述分类损失值是基于分类结果和训练样本的类别标签确定的;所述分类结果是基于训练样本特征对训练样本进行分类得到的;所述训练样本特征是通过所述特征提取模型对所述训练样本进行特征提取得到的;所述噪声损失是在推荐标签与所述类别标签之间存在差异时,基于所述分类结果和所述推荐标签确定的;所述推荐标签是从所述候选标签集合中确定的目标代表样本特征所属的候选标签;所述目标代表样本特征与所述训练样本特征匹配,是从候选标签集合中各候选标签各自对应的代表样本特征中选取得到的;所述候选标签集合与所述训练样本对应基于所述查询样本特征和候选召回样本特征,从所述候选召回样本集合中确定所述查询样本对应的目标检索样本。
另一方面,本申请提供了一种样本检索装置。所述装置包括:样本获取模块,用于获取查询样本和候选召回样本集合;特征提取模块,用于将所述查询样本和候选召回样本集合中的候选召回样本输入目标特征提取模型,得到所述查询样本对应的查询样本特征和候选召回样本对应的候选召回样本特征;检索模块,用于基于所述查询样本特征和候选召回样本特征,从所述候选召回样本集合中确定所述查询样本对应的目标检索样本;其中,所述目标特征提取模型是根据噪声损失和分类损失对待训练的特征提取模型进行训练得到的;所述分类损失值是基于分类结果和训练样本的类别标签确定的;所述分类结果是基于训练样本特征对训练样本进行分类得到的;所述训练样本特征是通过所述特征提取模型对所述训练样本进行特征提取得到的;所述噪声损失是在推荐标签与所述类别标签之间存在差异时,基于所述分类结果和所述推荐标签确定的;所述推荐标签是从所述候选标签集合中确定的目标代表样本特征所属的候选标签;所述目标代表样本特征与所述训练样本特征匹配,是从候选标签集合中各候选标签各自对应的代表样本特征中选取得到的;所述候选标签集合与所述训练样本对应。
另一方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述样本检索方法的步骤。
另一方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述样本检索方法的步骤。
另一方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述样本检索方法的步骤。
上述样本检索方法、装置、计算机设备、存储介质和计算机程序产品,由于目标特征提取模型是根据噪声损失和分类损失对待训练的特征提取模型进行训练得到的;分类损失值是基于分类结果和训练样本的类别标签确定的;分类结果是基于训练样本特征对训练样本进行分类得到的;训练样本特征是通过特征提取模型对训练样本进行特征提取得到的;噪声损失是在推荐标签与类别标签之间存在差异时,基于分类结果和推荐标签确定的;推荐标签是从候选标签集合中确定的目标代表样本特征所属的候选标签;目标代表样本特征与训练样本特征匹配,是从候选标签集合中各候选标签各自对应的代表样本特征中选取得到的,候选标签集合与训练样本对应,因此,目标特征提取模型是根据推荐标签采用对噪声友好的方法进行泛化学习得到的,目标特征提取模型所提取得到的特征的准确度高,从而可以提高样本检索的准确度。
附图说明
图1为一个实施例中特征提取模型处理方法的应用环境图;
图2为一个实施例中特征提取模型处理方法的流程示意图;
图3为一个实施例中选取的代表样本特征的示意图;
图4为另一个实施例中特征提取模型处理方法的流程示意图;
图5为又一个实施例中特征提取模型处理方法的流程示意图;
图6为一个实施例中特征提取模型的训练过程示意图;
图7为一个实施例中样本检索方法的流程示意图;
图8为一个实施例中特征提取模型处理装置的结构框图;
图9为一个实施例中样本检索装置的结构框图;
图10为一个实施例中计算机设备的内部结构图;
图11为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的计算机视觉、机器学习等技术,具体通过如下实施例进行说明:
本申请提供的特征提取模型处理方法、样本检索方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储***可以存储服务器104需要处理的数据。数据存储***可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102可以但不限于是笔记本电脑、智能手机、平板电脑、台式电脑、智能电视、车载终端和便携式可穿戴设备。终端上可以设有应用程序,通过该应用程序可以对输入样本实现检索,获得目标检索样本,该应用程序可以是指安装在终端中的客户端,客户端(又可称为应用客户端、APP客户端)是指安装并运行在终端中的程序;应用程序也可以是指免安装的应用程序,即无需下载安装即可使用的应用程序,这类应用程序又俗称小程序,它通常作为子程序运行于客户端中;应用程序还可以是指通过浏览器打开的web应用程序;等等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或者云服务器来实现。
终端102和服务器104均可单独用于执行本申请实施例中提供的特征提取模型处理、样本检索方法。
例如,服务器104可以通过待训练的特征提取模型提取训练样本的训练样本特征,其中,训练样本存在对应的类别标签,基于训练样本特征对训练样本进行分类,得到分类结果,基于分类结果和类别标签确定分类损失,确定训练样本对应的候选标签集合,并获取候选标签集合中各候选标签各自对应的代表样本特征,从各个代表样本特征中,选取与训练样本特征匹配的代表样本特征,将选取的代表样本特征确定为目标代表样本特征,从候选标签集合中确定目标代表样本特征所属的候选标签,将目标代表样本特征所属的候选标签确定为训练样本的推荐标签,当推荐标签与类别标签之间存在差异时,基于分类结果和推荐标签确定噪声损失,根据噪声损失和分类损失,对特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型。
服务器104可以获取查询样本和候选召回样本集合,将查询样本和候选召回样本集合中的候选召回样本输入目标特征提取模型,得到查询样本对应的查询样本特征和候选召回样本对应的候选召回样本特征,基于查询样本特征和候选召回样本特征,从候选召回样本集合中确定查询样本对应的目标检索样本。
终端102和服务器104也可协同用于执行本申请实施例中提供的特征提取模型处理、样本检索方法。
例如,服务器104可以从终端获取训练样本,服务器104可以在训练得到目标特征提取模型后,将训练得到的目标特征提取模型发送至终端,终端基于该目标特征提取模型对输入样本提取得到样本特征。终端进一步可以基于提取得到的样本特征从服务器的数据库中检索得到该输入样本对应的目标检索样本。
在一个实施例中,如图2所示,提供了一种特征提取模型处理方法,以该方法由计算机设备执行为例进行说明,可以理解的是,计算机设备可以是图1所示的终端102,也可以是服务器104。本实施例中,特征提取模型处理方法包括以下步骤:
步骤202,通过待训练的特征提取模型提取训练样本的训练样本特征;训练样本存在对应的类别标签。
其中,训练样本指的是用于训练特征提取模型的内容样本,内容可以是文本、音频或者图像中的任意一种。训练样本存在对应的类别标签,训练样本对应的类别标签用于标识训练样本的类别。例如,若训练样本为图像,则训练样本对应的类别标签可以是狗、猫、鱼等动物品种,珊瑚、松树、桂花等植物品种,或者放大镜、柜子、水瓶等物件种类。训练样本对应的类别标签可以作为待训练的特征提取模型的监督信息。训练样本对应的类别标签可以是一个或者多个,多个指的是至少两个。当训练样本存在多个类别标签时,表示该训练样本可以归类到多个不同的类别,以训练样本为图片为例,若是训练样本中同时包含猫和狗,那么该训练样本可以归类到猫类别,也可以归类到狗类别。
训练样本的类别标签是事先标注的,当标注的标签错误或者缺失时,则该训练样本为噪声样本。噪声样本包含两种,即标签缺失噪声样本和标签错误噪声样本,其中,当一个样本内容包含多种标签,但仅标注出1种或未全部标出这些标签称为标签缺失,此类标签未全部标出的样本,称为标签缺失噪声样本;标签错误噪声指的是样本-标签信息并不一致产生的噪声,如(湛蓝的天空图,海洋)形成标签噪声,此时图像(天空图)并不具备标签(海洋)。在噪声样本下学习机器学习模型称为弱监督学习,此时需要处理噪声样本,否则会产生模型偏差,造成学习失败、效果不佳等问题。
待训练的特征提取模型指的需要进行参数调整的特征提取模型。特征提取模型为用于进行特征提取并输出特征向量的机器学习模型,特征提取模型中至少包括embedding(嵌入)模型,embedding模型用于输出特征向量,embedding模型输出的特征向量可以称为embedding。embedding模型可以是一层或者多层全连接层(full connection)构成的模型。embedding模型的输出特征即为特征提取模型提取得到的特征。
在一个实施例中,可以对embedding模型输出的特征向量进行归一化,使得特征向量的各个分量取值范围为-1至1。在其他实施例中,还可以对特征向量进行二值量化,得到二值量化特征。其中,二值量化指的是将特征进行二值编码的过程,例如,可以将特征编码为取值为0、1的二进制码,在编码的过程中还可以进行比特压缩,例如,可以将特征向量压缩到48位。对特征向量进行二值量化得到的特征可以称为哈希特征,此时,embedding模型可以称为哈希量化模型。
在一个实施例中,特征提取模型可以仅包括embedding模型,embedding模型的输入端可以连接已训练的基础神经网络模型的输出端,接收基础神经网络模型的输出作为输入。其中的基础神经网络模型可以是用于提取内容所包含的特征信息的模型,基础神经网络模型可以是基于人工智能的神经网络,例如可以是卷积神经网络(ConvolutionalNeural Networks,CNN),还可以是ResNet101(深度残差网络101)或者ResNet18(深度残差网络18)等网络。其中卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)。具体地,计算机设备在获取到训练样本后,将训练样本输入已训练的基础神经网络模型中,通过已训练的基础神经网络模型提取特征信息,将提取的特征信息输入待训练的embedding模型中,得到特征向量,该特征向量即为训练样本对应的训练样本特征。举例说明,以训练样本为图像为例,可以将图像输入已训练的CNN模型中提取得到图像的深度特征,将提取的深度特征输入embedding模型中得到图像的特征向量。
在其他实施例中,特征提取模型可以包括基础神经网络模型和embedding模型,此时基础神经网络模型和embedding模型作为特征提取模型共同进行训练。具体地,计算机设备在获取到训练样本后,将训练样本输入待训练的基础神经网络模型中,通过待训练的基础神经网络模型提取特征信息,将提取的特征信息输入待训练的embedding模型中,得到特征向量,该特征向量即为训练样本对应的训练样本特征。
可以理解的是,针对不同类型的样本可以训练不同的特征提取模型,例如,若样本为图像类型的样本,那么可以训练图像特征提取模型,若样本为语音类型的样本,那么可以训练语音特征提取模型。
在一个实施例中,计算机设备本地存储有带标注的训练样本集合,计算机设备可以从本地存储的训练样本集合中获取训练样本,将训练样本输入待训练的特征提取模型,通过特征提取模型提取特征输出训练样本对应的样本特征,得到训练样本的训练样本特征。可以理解的是,对于同一训练样本,在不同的特征提取模型下,可以得到不同的训练样本特征。例如,训练样本特征可以是embedding模型直接输出的D维特征向量,或者是对特征向量归一化后得到的特征,还可以是哈希特征。
在一个实施例中,训练样本集合中的训练样本可以通过从互联网搜索引擎进行搜索的方式来进行标注,以训练样本为图像为例,具体来说,对于某个标签,可以在搜索引擎中输入该标签,取返回的前N个图像作为带该标签的图像。如在某个搜索引擎搜索金毛,保存返回的前500张图作为训练样本集中“金毛”标签的图像样本。
步骤204,基于训练样本特征对训练样本进行分类,得到分类结果,基于分类结果和类别标签确定分类损失。
其中,分类指的是基于训练样本特征对训练样本进行类别识别,以确定出训练样本所属的具体类别。分类结果是用于表征训练样本所属的具体类别的类别信息的。分类损失用于表征分类结果和类别标签之间的差异,分类损失和该差异呈正相关,即该差异越大,则分类损失越大。
具体地,计算机设备可以基于训练样本特征对训练样本进行分类,得到分类结,然后基于述分类结果和类别标签之间的差异计算得到分类损失。
在一个实施例中,计算机设备可以采用分类模型对训练样本特征进行分类,即将训练样本特征输入到分类模型中,获取分类模型的输出作为分类结果。其中,分类模型指的是可以进行类别识别的机器学习模型。在一些实施例中,分类模型可以包括一层或者多层全连接层,当分类模型包括多层全连接层时,前几层全连接层可以对训练样本特征抽取语义特征,因此称可以为语义层Semantic_layer,最后一层全连接层用于分类,称为分类层。语义层的数量可以根据需要进行确定,对于需要更多特征交叉的情况可以加深语义层。通过设置语义层,可以抽象出高阶特征从而更充分的挖掘分类信息。
在一个实施例中,分类结果可以是用于表征训练样本所属类别的类别标识,例如,分类模型对N个类别进行分类,则可以用N维向量(1,0,0,0,……,0)表示第一个类别,用向量(0,1,0,0,……,0)表示第二个类别,依次类推。在另外的实施例中,分类结果可以是用于表征训练样本所属类别的概率,例如,分类模型可以用于对N个类别进行分类,那么分类模型可以输出包括一个N维的概率向量,其中,每一个维度的概率用于表征训练样本属于该类别的可能性大小。
在其他实施例中,计算机设备基于训练样本特征进行分类,可以是计算训练样本特征和各个候选类别对应的类别特征之间的特征距离,当训练样本特征与类别特征之间的特征距离小于距离阈值时,将该类别特征对应的训练类别确定为当前训练样本所属的分类类别,此时,当前分类结果可以是该分类类别的类别标识。其中候选类别对应的类别特征可以通过以下方式确定:收集多张候选类别对应的内容样本,通过embedding模型提取得到这些内容样本的特征向量,然后计算一个平均向量,作为该候选类别对应的类别特征。
步骤206,确定训练样本对应的候选标签集合,并获取候选标签集合中各候选标签各自对应的代表样本特征。
其中,训练样本对应的候选标签集合指的是训练样本的正确类别标签所在的标签集合。候选标签集合中的各个标签可以作为候选标签。各个候选标签所标识的类别即为在对训练样本进行分类时的候选类别。候选标签对应的代表样本特征即为能够代表该候选标签的样本特征。候选标签对应的代表样本特征例如可以是该候选标签所标识的类别下的某个样本的样本特征。候选标签对应的代表样本特征可以是一个或者多个。候选标签对应的代表样本特征也可以称为该标签的原型。
具体地,计算机设备在确定了训练样本对应的候选标签集合后,对于候选标签集合中每一个候选标签,可以获取该候选标签对应的代表样本特征,计算机设备可以将候选标签和对应的代表样本特征之间可以建立关联关系。
在一个实施例中,计算机设备可以将对训练样本进行分类过程中,所有的候选类别对应的标签确定为训练样本对应的候选标签,得到候选标签集合。
在一个实施例中,对于候选标签集合中的每一个候选标签,计算机设备可以对该候选标识所标识的类别下的多个样本进行聚类,基于聚类结果确定该候选标签的代表样本特征。例如,计算机设备可以将聚类得到的各个聚类簇中的聚类中心确定为该候选标签的代表样本特征。
步骤208,从各个代表样本特征中,选取与训练样本特征匹配的代表样本特征,将选取的代表样本特征确定为目标代表样本特征。
其中,代表样本特征与训练样本特征匹配指的是代表样本特征与训练样本特征之间的相似度满足相似度条件或者代表样本特征与训练样本特征之间的相差异度满足差异度条件。相似度条件例如可以是代表样本特征与训练样本特征之间的相似度大于预设相似度阈值或者是排序在预设排序阈值之前。相似度例如可以是余弦相似度。差异度条件例如可以是代表样本特征与训练样本特征之间的特征距离小于预设距离阈值或者是排序在预设排序阈值之前。特征距离例如可以是L2距离。目标代表样本特征可以是一个或者多个。
具体地,计算机设备在获取到各候选标签各自对应的代表样本特征后,可以从这些代表样本特征中,选取与训练样本特征匹配的代表样本特征,将选取的代表样本特征确定为目标代表样本特征。
在一个实施例中,计算机设备可以分别计算训练样本特征与各个代表样本特征之间的特征距离,将特征距离小于预设距离阈值的代表样本特征确定为目标代表样本特征。预设距离阈值可以根据需要进行设定。
在另一个实施例中,计算机设备可以分别计算训练样本特征与各个代表样本特征之间的特征距离,将各个特征距离进行排序,根据排序结果确定一个或者多个较小的特征距离,将这些特征距离对应的代表样本特征确定为目标代表样本特征。例如,计算机设备可以根据排序结果确定最小的特征距离,将该特征距离对应的代表样本特征确定为目标代表样本特征。
步骤210,从候选标签集合中确定目标代表样本特征所属的候选标签,将目标代表样本特征所属的候选标签确定为训练样本的推荐标签。
其中,目标代表样本特征所属的候选标签指的是与目标代表样本特征对应的候选标签。推荐标签指的是训练样本的可能的正确类别标签。
具体地,计算机设备可以根据预先建立的候选标签和代表样本特征的关联关系,将与目标代表样本特征存在关联关系的候选标签确定为目标代表样本特征所属的候选标签,将目标代表样本特征所属的候选标签确定为训练样本的推荐标签。
步骤212,当推荐标签与类别标签之间存在差异时,基于分类结果和推荐标签确定噪声损失。
步骤214,根据噪声损失和分类损失,对特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型;目标特征提取模型用于提取输入样本的样本特征。
其中,推荐标签与类别标签之间存在差异指的是推荐标签与类别标签不匹配。例如,推荐标签是猫,而类别标签是狗。又比如,推荐标签包括猫和狗,而类别标签只有狗。噪声损失用于表征分类结果和推荐标签之间的差异大小,差异越大,则噪声损失越大。
具体地,当计算机设备将推荐标签与类别标签进行比对后,判断推荐标签与类别标签之间存在差异,表明此时的训练样本可能存在错误标注或者漏标注标签的情况,即训练样本可能为噪声样本,由于不能绝对确定原始标注的类别标签和推荐标签的噪声情况,计算机设备可以进行泛化损失学习,同时学习类别标签和推荐标签,即基于分类结果和推荐标签之间的差异计算噪声损失,然后基于噪声损失和分类损失计算目标损失,最后根据目标损失对特征提取模型进行参数调整并继续训练,直至满足训练停止条件时,得到目标特征提取模型。训练得到的目标特征提取模型可以用于对输入样本进行特征提取,得到训练样本的样本特征。可以理解的是,输入样本和训练样本为相同类型的样本,例如,训练样本为图像时,则目标特征提取模型可以对输入的图像进行特征提取,得到输入图像的图像特征。
在一个实施例中,计算机设备在基于噪声损失和分类损失计算目标损失时,可以采用正则化的方式进行计算,即采用第一权重对噪声损失进行加权得到第一加权结果,采用第二权重对分类损失进行加权得到第二加权结果,统计第一加权结果和第二加权结果,得到目标损失。其中,第一权重和第二权重可以根据先验知识进行预先设定,第一权重例如可以是0.5,第二权重例如可以是0.5。统计例如可以是加和或者求平均。
在一个实施例中,在训练过程中,计算机设备可以使用随机梯度下降算法、Adagrad((Adaptive Gradient,自适应梯度)算法、Adadelta(AdaGrad算法的改进)、RMSprop(AdaGrad算法的改进)、Adam(Adaptive Moment Estimation,自适应矩估计)算法等中的任意一种来调整特征提取模型的模型参数。
在一个实施例中,训练停止条件可以是模型参数不再发生变化,也可以是损失到达最小值,还可以是训练次数达到最大迭代次数等等。在其他实施例中,计算机设备可以对特征提取模型进行多轮(epoch)迭代训练,每轮训练完成,都会得到该轮的目标损失,则训练停止条件可以是某epoch下平均目标损失不再下降。
上述特征提取模型处理方法中,通过待训练的特征提取模型提取训练样本的训练样本特征,其中,训练样本存在对应的类别标签,基于训练样本特征对训练样本进行分类,得到分类结果,基于分类结果和类别标签确定分类损失,确定训练样本对应的候选标签集合,并获取候选标签集合中各候选标签各自对应的代表样本特征,从各个代表样本特征中,选取与训练样本特征匹配的代表样本特征,将选取的代表样本特征确定为目标代表样本特征,从候选标签集合中确定目标代表样本特征所属的候选标签,将目标代表样本特征所属的候选标签确定为训练样本的推荐标签,该推荐标签为训练样本可能的正确标签,因此,当推荐标签与类别标签之间存在差异时,训练样本有可能为噪声样本,由于不能绝对确定推荐标签、原始类别标签的噪声情况,可以进一步根据噪声损失和分类损失,对特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型,使得特征提取模型可以根据推荐标签采用对噪声友好的方法进行泛化学习,使得噪声样本的处理对模型产生正向收益,进而可以提高特征提取模型所提取得到的特征的准确度。
进一步地,由于无需额外引入噪声先验知识或人工标注,即可确定出噪声样本,避免额外的人力投入,同时提高了特征提取模型的训练效率。
在一个实施例中,获取候选标签集合中各候选标签各自对应的代表样本特征,包括:获取各候选标签各自对应的候选样本集合;对于每一个候选标签,对候选标签对应的候选样本集合中各个候选样本进行特征提取,得到候选标签对应的各个候选样本特征;对候选标签对应的各个候选样本特征进行聚类,基于聚类结果确定候选标签对应的代表样本特征。
其中,候选标签对应的候选样本集合指的是候选标签所标识的类别下的多个训练样本所组成的集合。例如,候选标签为狗,样本为图像,则可以选择狗这一类别下的多个图像组成候选样本集合。聚类结果指的是聚类得到的多个聚类簇,各个聚类簇存在对应的聚类中心。候选样本特征指的是对候选样本进行特征提取得到的特征。
具体地,计算机设备在获取到各候选标签各自对应的候选样本集合后,对于每一个候选标签,计算机设备可以对该候选标签对应的候选样本集合中各个候选样本进行特征提取,得到各个候选样本各自的候选样本特征。
在一个实施例中,计算机设备可以将各个候选样本分别输入特征提取模型中,得到各个候选样本各自的候选样本特征。由于候选样本特征是通过特征提取模型得到,相当于联合训练特征提取模型和噪声模型,可以避免单独训练噪声模型导致迭代过程中因部分样本判决效果不佳对特征提取模型带来不良影响。
计算机设备进一步可以对各个候选样本特征进行聚类,得到该候选标签对应的多个聚类簇,根据各个聚类簇计算机设备进一步可以确定该候选标签对应的代表样本特征。其中,计算机设备可以采用传统技术中的聚类方法对各个候选样本特征进行聚类,例如,可以采用k-means方法进行聚类。
在一个实施例中,计算机设备可以选取聚类簇的聚类中心作为候选标签对应的代表样本特征。在其他实施例中,计算机设备还可以选取离聚类中心较近的候选样本特征作为代表样本特征。如图3所示,为一个实施例中选取的代表样本特征的示意图,参考图3,聚类单元对各个候选样本特征进行聚类得到三个聚类簇,聚类簇的聚类中心为图3中的三角形所代表的候选样本特征,与三角形连接的圆形所代表的候选样本特征与三角形所代表的候选样本特征处于同一聚类簇,从各个聚类簇中可以选取得到原型,这些原型共同构成多原型表征,多原型表征即通过多个原型对候选标签集合进行表征,这些原型可以代表该候选标签集合。以三角形302所在的聚类簇为例,可以将虚线圆圈内的4个候选样本特征作为候选标签的代表样本特征(即4个原型),虚线圆圈内的三角形表示其除了是原型外,还是所在聚类簇的聚类中心,虚线圆圈内的圆形表示其他非聚类中心的原型,非聚类中心原型对该标签下的罕见样本表征起到重要作用。在一个实施例中,考虑到在大规模数据下学习任务不均衡问题,如多标签学习中,有些标签在训练样本中出现频率少,如罕见的极光,造成极光相关训练样本少,计算机设备可以采用不同的特征建模方式,具体来说,对于某个候选标签,若该候选标签对应的训练样本数量小于预设阈值,则选取第一数量的训练样本组成该候选标签对应的候选样本集合,若该候选标签对应的训练样本数量大于预设阈值,则选取第二数量的训练样本组成该候选标签对应的候选样本集合,其中,第二数量大于第一数量。
上述实施例中,通过对候选标签对应的各个候选样本特征进行聚类,基于聚类结果确定候选标签对应的代表样本特征,得到的代表样本特征更加准确。
在一个实施例中,对候选标签对应的各个候选样本特征进行聚类,基于聚类结果确定候选标签对应的代表样本特征,包括:对各个候选样本特征进行聚类,得到多个聚类簇;各个聚类簇存在对应的聚类中心;对于每一个聚类簇,从聚类簇对应的候选样本特征中,选取与聚类中心之间的特征距离满足第一距离条件的候选样本特征;将选取得到的候选样本特征确定为候选标签对应的代表样本特征。
其中,特征距离满足第一距离条件可以是特征距离小于预设的距离阈值,或者是特征距离的排序在预设排序阈值之前。特征距离可以是L2距离。
具体地,对于每一个候选标签,计算机设备对该候选标签对应的各个候选样本特征进行聚类,得到多个聚类簇,对于每一聚类簇,计算机设备计算该聚类簇中各个候选样本特征与聚类中心之间的特征距离,基于计算得到的特征距离选取与聚类中心之间的特征距离满足第一距离条件的候选样本特征,作为该候选标签的代表样本特征。由于每个候选标签对应多个聚类簇,因此,对于每一候选标签可以得到多个代表样本特征。
在一个实施例中,计算机设备可以将各个特征距离与预设的特征距离阈值进行比对,若是特征距离小于预设距离阈值,则可以将该特征距离对应的候选样本特征确定为该候选标签对应的代表样本特征。其中,预设距离阈值可以根据需要进行设定。
在另一个实施例中,计算机设备可以将各个特征距离进行排序,以选取与聚类中心最近的特征距离,将该特征距离对应的候选样本特征确定为该候选标签对应的代表样本特征。例如,可以对各个特征距离进行升序排列,选取排在第一位的特征距离,将该特征距离对应的候选样本特征确定为该候选标签对应的代表样本特征。
上述实施例中,对于每一个候选标签,通过对该候选标签对应的各个候选样本特征进行聚类,得到多个聚类簇,从多个聚类簇中选取与聚类中心之间的特征距离满足第一距离条件的候选样本特征,从而可以快速地选取到代表样本特征。
在一个实施例中,如图4所示,提供了一种特征提取模型处理方法,以该方法由计算机设备执行为例进行说明,可以理解的是,计算机设备可以是图1所示的终端102,也可以是服务器104。本实施例中,特征提取模型处理方法包括以下步骤:
步骤402,通过待训练的特征提取模型提取训练样本的训练样本特征;训练样本存在对应的类别标签。
步骤404,基于训练样本特征对训练样本进行分类,得到分类结果,基于分类结果和类别标签确定分类损失。
步骤406,确定训练样本对应的候选标签集合,并获取候选标签集合中各候选标签各自对应的候选样本集合。
步骤408,对于每一个候选标签,将该候选标签对应的候选样本集合中各个候选样本分别输入特征提取模型,基于特征提取模型对各个候选样本进行特征提取,得到各个候选样本各自对应的候选样本特征。
步骤410,对候选标签对应的各个候选样本特征进行聚类,基于聚类结果确定候选标签对应的代表样本特征。
步骤412,从各个代表样本特征中,选取与训练样本特征匹配的代表样本特征,将选取的代表样本特征确定为目标代表样本特征。
步骤414,从候选标签集合中确定目标代表样本特征所属的候选标签,将目标代表样本特征所属的候选标签确定为训练样本的推荐标签。
步骤416,当推荐标签与类别标签之间存在差异时,基于分类结果和推荐标签确定噪声损失。
步骤418,根据噪声损失和分类损失,根据噪声损失和分类损失,对特征提取模型进行当前轮训练,得到中间特征提取模型。
其中,一轮训练指的是使用训练样本集中的全部训练样本对特征提取模型进行一次完整的训练。
具体地,计算机设备可以将训练样本所在的训练样本集中的所有训练样本均按照上述步骤402至步骤416得到噪声损失,进而基于各个样本的噪声损失和分类损失,对特征提取模型进行当前轮训练,得到中间特征提取模型。
步骤420,判断是否满足训练停止条件,若否,则进入步骤422;若是,则进行步骤424。
其中,训练停止条件可以是某epoch下平均目标损失不再下降。
具体地,在每轮训练完成时,计算机设备都会得到该轮的目标损失,计算机设备可以进一步计算已完成的各轮训练的评价目标损失,当某epoch下平均目标损失不再下降,则判定满足训练停止条件。
步骤422,将中间特征提取模型作为待训练的特征提取模型,并进入步骤402。
步骤424,将中间特征提取模型作为目标特征提取模型。
其中,目标特征提取模型用于提取输入样本的样本特征。提取的样本特征可以用于对输入样本进行识别,提取的样本特征还可以用于从样本数据库中检索相似样本以进行去重或者推荐。
需要说明的是,上述步骤402-404与图2中的步骤202-步骤204一致,步骤412-步骤416与图2中的步骤208-步骤212一致,这些步骤的具体解释可以参考对图2中步骤的描述,本申请在此不赘述。
上述实施例中,通过特征提取模型提取候选标签的候选样本集合中各个候选样本的候选样本特征,以聚类得到代表样本特征,由于根据代表样本特征和训练样本特征之间的匹配关系可以确定推荐标签,进而可以将推荐标签和类别标签进行比对来判决是否为噪声样本,因此特征提取模型相当于用于构成了噪声判决模型,本实施例中,相当于联合训练了特征提取模型和噪声判决模型,在多轮迭代训练的过程中,推荐标签越来越准确,噪声判决结果也越来越准确,借助多轮训练地迭代中噪声模型对样本进行标签推荐的判决结果应用到特征提取模型中,避免单次噪声判决影响学习效果,借助噪声判决结果产生特征提取模型的泛化学习任务、避免噪声模型迭代过程中因部分样本判决效果不佳对特征提取模型带来不良影响。
在一个实施例中,从各个代表样本特征中,选取与训练样本特征匹配的代表样本特征,包括:获取训练样本特征与各个代表样本特征之间的特征距离;从各个代表样本特征中,选取特征距离满足第二距离条件的代表样本特征,得到目标代表样本特征;第二距离条件包括特征距离小于预设距离阈值或者特征距离排序在预设排序阈值之前的至少一个。
在一个实施例中,计算机设备分别计算训练样本特征与各个代表样本特征之间的特征距离,并获取预设距离阈值,将特征距离小于预设距离阈值的代表样本特征确定为与训练样本特征匹配的代表样本特征。
在另一个实施例中,计算机设备分别计算训练样本特征与各个代表样本特征之间的特征距离,对各个特征距离进行排序,以选取排序在预设排序阈值之前的预设数量个特征距离各自对应的代表样本特征,将选取的代表样本特征确定为与训练样本特征匹配的代表样本特征。例如,计算机设备可以对特征距离进行升序排列,从排序在第三位之前的特征距离中选取一个特征距离,将该特征距离所对应的代表样本特征确定为与训练样本特征匹配的代表样本特征。
上述实施例中,通过获取训练样本特征与各个代表样本特征之间的特征距离,基于特征距离选取得到与训练样本特征匹配的代表样本特征,可以快速、准确地获取到匹配的代表样本特征。
在一个实施例中,从各个代表样本特征中,选取特征距离满足第二距离条件的代表样本特征,得到目标代表样本特征,包括:将各个特征距离按照从小到大进行排序,以选取最小特征距离对应的代表样本特征得到第一目标代表样本特征,以及选取次最小特征距离对应的代表样本特征得到第二目标代表样本特征;从候选标签集合中确定目标代表样本特征所属的候选标签,将目标代表样本特征所属的候选标签确定为训练样本的推荐标签,包括:从候选标签集合中,确定第一目标代表样本特征所属的候选标签得到第一推荐标签,以及确定第二代表样本特征所属的候选标签得到第二推荐标签。
具体地,计算机设备可以将各个特征距离按照从小到大进行排序,将排在第一位的特征距离确定为最小特征距离,将该最小特征距离对应的代表样本特征确定为第一代表样本特征,将排序在第二位的特征距离确定为次最小特征距离,将该次最小特征距离对应的代表样本特征确定为第二代表样本特征,将将第一代表样本特征和第二代表样本特征均确定为与训练样本特征匹配的代表样本特征,即得到两个目标代表样本特征,由于存在两个目标代表样本特征,当这两个目标代表样本特征不相同时,计算机设备可以得到两个推荐标签,由于无法绝对确定推荐标签、原始的类别标签的噪声情况,计算机设备可以通过泛化损失的学习方式,同时将两个推荐标签和原始的类别标签作为学习目标进行学习,从而可以提升特征提取模型针对噪声样本的泛化性能。
在一个实施例中,如图5所示,提供了一种特征提取模型处理方法,以该方法由计算机设备执行为例进行说明,可以理解的是,计算机设备可以是图1所示的终端102,也可以是服务器104。本实施例中,特征提取模型处理方法包括以下步骤:
步骤502,通过待训练的特征提取模型提取训练样本的训练样本特征;训练样本存在对应的类别标签。
步骤504,基于训练样本特征对训练样本进行分类,得到分类结果,基于分类结果和类别标签确定分类损失。
步骤506,确定训练样本对应的候选标签集合,并获取候选标签集合中各候选标签各自对应的代表样本特征。
步骤508,获取训练样本特征与各个代表样本特征之间的特征距离,将各个特征距离按照从小到大进行排序,以选取最小特征距离对应的代表样本特征得到第一目标代表样本特征,以及选取次最小特征距离对应的代表样本特征得到第二目标代表样本特征。
步骤510,从候选标签集合中,确定第一目标代表样本特征所属的候选标签得到第一推荐标签,以及确定第二代表样本特征所属的候选标签得到第二推荐标签。
步骤512,当第一推荐标签与类别标签之间存在差异且第二推荐标签与类别标签之间存在差异时,则基于第一推荐标签和分类结果之间的差异确定第一损失,并基于第二推荐标签和分类结果之间的差异确定第二损失,统计第一损失和第二损失,得到噪声损失。
其中,第一损失用于表征第一推荐标签和分类结果之间的差异大小,第一损失与第一推荐标签和分类结果之间的差异成正相关,即差异越大,则第一损失越大。第二损失用于表征第二推荐标签和分类结果之间的差异大小,第二损失与第二推荐标签和分类结果之间的差异成正相关,即差异越大,则第二损失越大。
具体地,计算机设备可以采用正则化的方式统计第一损失和第二损失,即按照第一噪声损失权重对第一损失进行加权,得到第一加权损失,并按照第二损失权重对第一损失进行加权,得到第二加权损失,统计第一加权损失和第二加权损失,得到噪声损失。其中,第一损失权重和第二损失权重可以根据先验知识进行预先设定,第一损失权重例如可以是0.3,第二损失权重例如可以是0.3。统计例如可以是加和或者求平均。
步骤514,根据噪声损失和分类损失,对特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型;目标特征提取模型用于提取输入样本的样本特征。
需要说明的是,上述步骤502-506与图2中的步骤202-步骤206一致,步骤514与图2中的步骤214一致,这些步骤的具体解释可以参考对图2中步骤的描述,本申请在此不赘述。
上述实施例中,计算机设备通过将选取最小特征距离对应的代表样本特征得到第一目标代表样本特征,以及选取次最小特征距离对应的代表样本特征得到第二目标代表样本特征,可以得到两个推荐标签,进行训练样本相当于同时学习三个标签,进一步提升模型针对噪声的泛化性能。
在一个实施例中,当推荐标签与类别标签之间存在差异时,基于分类结果和推荐标签确定噪声损失,包括:将推荐标签和类别标签进行比对,得到比对结果;当比对结果指示推荐标签和类别标签不一致时,基于分类结果和推荐标签确定噪声损失;上述方法还包括:当比对结果指示推荐标签和类别标签一致时,基于分类结果和类别标签计算得到目标损失;基于目标损失对特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型。
具体地,计算机设备将推荐标签和类别标签进行比对,当比对结果指示推荐标签和类别标签不一致时,说明推荐标签与类别标签之间存在差异,即推荐标签与类别标签不匹配,此时,训练样本可能为噪声样本,计算机设备可以基于分类结果和推荐标签确定噪声损失,当比对结果指示推荐标签和类别标签一致时,说明推荐标签和类别标签匹配,即推荐的标签都为原始标签,此时训练样本可能为非噪声样本,计算机设备可以直接基于分类结果和类别标签计算得到目标损失,基于目标损失对特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型。
上述实施例中,通过将推荐标签和类别标签进行比对,基于比对结果计算机设备可以自适应地选择损失计算方式,当不需要计算噪声损失时,通过基于分类结果和类别标签计算得到的目标损失训练模型,提高了训练过程的准确性和灵活性。
在一个实施例中,根据噪声损失和分类损失,对特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型,包括:获取训练样本的对比训练样本对应的对比样本提取特征,基于训练样本特征与对比样本提取特征的差异得到特征提取损失;基于噪声损失、特征提取损失以及分类损失,得到目标损失;基于目标损失对待训练的特征提取模型进行参数调整并继续训练,当满足训练停止条件时,得到目标特征提取模型。
其中,对比训练样本指的是用于与训练样本进行对比以确定特征提取损失的内容样本。对比训练样本可以包括正向对比训练样本或者负向对比训练样本中的至少一种,正向对比训练样本指的是与训练样本相似的内容样本,负向对比训练样本指的是与当前训练样本不相似的内容样本。
具体地,计算机设备可以基于待训练的特征提取模型对对比训练样本进行特征提取,得到对比训练样本对应的样本提取特征作为对比样本提取特征,基于训练样本特征与对比样本提取特征的差异得到特征提取损失,将噪声损失、特征提取损失以及分类损失进行加权求和,得到目标损失,基于目标损失对待训练的特征提取模型进行参数调整并继续训练,当满足训练停止条件时,得到目标特征提取模型。
在一个实施例中,计算机设备基于训练样本特征与对比样本提取特征的差异得到特征提取损失具体可以是:计算对比样本提取特征和训练样本特征之间的余弦相似度,用得到的余弦相似度表征训练样本特征与对比样本提取特征的差异,从而可以计算余弦相似度与训练标签之间的差值得到特征提取损失。其中,当对比训练样本为正向对比训练样本时,训练标签为1,当对比训练样本为负向对比训练样本时,训练标签为0。
在一些实施例中,计算机设备基于训练样本特征与对比样本提取特征的差异得到特征提取损失具体可以是:对训练样本特征与对比样本提取特征进行相似度分类,分为两类,相似和不相似,得到相似的概率和不相似的概率,取概率较大值为分类结果,用分类结果的概率值表征训练样本特征与对比样本提取特征的差异,进而可以计算分类结果的概率和训练标签之间的差值得到特征提取损失。其中,当对比训练样本为正向对比训练样本时,训练标签为1,当当对比训练样本为负向对比训练样本时,训练标签为0。
在一个实施例中,计算机设备基于训练样本特征与对比样本提取特征的差异得到特征提取损失具体可以是:计算训练样本特征与对比样本提取特征之间的特征距离,用该特征距离表征训练样本特征与对比样本提取特征的差异,并将该特征距离作为特征提取损失,其中特征距离例如可以是欧式距离或者是L2距离。
上述实施例中,计算机设备在对待训练的特征提取模型进行训练时,同时结合噪声损失、特征提取损失以及分类损失来进行参数调整,使得的训练得到的特征提取模型提取的特征更加准确。
在一个实施例中,对比样本提取特征包括正向对比训练样本对应的正向样本提取特征以及负向对比训练训练样本对应的负向样本提取特征;基于训练样本特征与对比样本提取特征的差异得到特征提取损失包括:获取正向特征差异值,正向特征差异值为训练样本特征与正向样本提取特征之间的特征差异值;获取负向特征差异值,负向特征差异值为训练样本特征与负向样本提取特征之间的特征差异值;基于正向特征差异值与负向特征差异值确定特征提取损失。
具体地,计算机设备基于待训练的特征提取模型对正向对比训练样本提取特征,得到正向对比训练样本对应的正向样本提取特征,基于待训练的特征提取模型对负向对比训练样本提取特征,得到负向对比训练样本对应的负向样本提取特征,获取训练样本特征与正向样本提取特征之间的特征差异值得到正向特征差异值,获取训练样本特征与负向样本提取特征之间的特征差异值得到负向特征差异值,最后基于正向特征差异值与负向特征差异值确定特征提取损失。
在一个实施例中,计算机设备可以参考以下公式(1)确定特征提取损失,其中xa为训练样本特征,xp为正向样本提取特征,xn为负向样本提取特征,||xa-xp||表示xa和xp之间的L2距离,即正向特征差异值,||xa-xn||表示xa和xn之间的L2距离,即负向特征差异值,公式(1)的目的是使得训练样本与负向对比训练样本的距离比该训练样本与正向对比训练样本的距离大α,α为margin(间隔项),α的取值可以根据需要进行设定。
Ltri=max(||xa-xp||-||xa-xn||+α,0) 公式(1)
由公式(1)可以看出,只有在训练样本与负向对比训练样本的距离比该训练样本与正向对比训练样本的距离大α时,特征提取损失值才为0,否则,特征提取损失值大于0,因此在降低损失值的过程中,训练样本与负向对比训练样本的距离,向比当前训练样本与正向对比训练样本的距离大α的方向发展,从而使得特征提取模型提取的特征能够更好地注重语义特征的保持。
在一个实施例中,负向对比训练样本可以通过以下步骤获取:对当前训练样本所属的样本集合中其他训练样本进行特征提取,得到对比样本提取特征,计算当前训练样本对应的训练样本特征与各个对比样本提取特征之间的特征距离,按照特征距离从小到大对样本集合中其他训练样本进行排序,以选取特征距离相对较小的训练样本作为负向对比训练样本。其中当前训练样本所属的样本集合可以预先进行样本去重操作,通过选取特征距离相对较小的训练样本作为负向对比训练样本,可以选取到困难样本(Hard Sample),以缓解样本不均衡的问题,使得训练得到的模型准确性更高。其中,困难样本是指这些负向对比训练样本与当前训练样本属于不同的类别但是特征距离又小,对于分类而言比较困难。其中,去重操作指的是对于相似的一个或者多个训练样本,保留其中的一个,将其他的几个去掉。
上述实施例中,由于特征提取损失值是基于正向特征差异值与负向特征差异值确定的,使得特征提取模型在进行相似性的度量学习时,考虑到了类间特征距离过小对分类的影响,提高了特征提取模型所提取特征的语义准确性。
在一个实施例中,通过待训练的特征提取模型提取训练样本的训练样本特征,包括:通过待训练的特征提取模型提取训练样本的初始样本特征,并对初始样本特征进行量化处理,得到训练样本的训练样本特征;根据噪声损失和分类损失,对特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型,包括:基于预设的符号函数确定训练样本特征中各个量化值对应的量化目标,基于各个量化值与各自对应的量化目标之间的差异确定量化损失;统计量化损失、噪声损失以及分类损失,得到目标损失;基于目标损失调整特征提取模型的模型参数,得到调整后的特征提取模型;将调整后的特征提取模型作为待训练的特征提取模型提,返回通过待训练的特征提取模型提取训练样本的初始样本特征,并对初始样本特征进行量化处理的步骤迭代执行,直至满足训练停止条件时,得到目标特征提取模型。
其中,量化损失指的是计算量化效果(是否足够接近-1或1)的损失,在训练过程中,期望训练样本特征中的每一位量化值都足够接近1或-1。量化损失与量化值、量化值对应的量化目标之间的差异成正相关。
在一个实施例中,对于每个训练样本的量化处理得到的训练样本特征,Qi为对该训练样本的量化处理得到的训练样本特征Q在第i位的值,Bi为第i位的量化目标,Bi由Qi经过预设的符号函数-sign函数-产生,通过以下公式(3)中采用sign函数可以对训练样本特征Q的每一位Qi分别计算其目标编码Bi,最终Q的目标编码为B,然后参考公式(2)计算得到量化损失。
在一个实施例中,在得到量化损失后,计算机设备可以通过量化损失、噪声损失以及分类损失各自的权重,对这三个损失进行加权求和,得到目标损失,进而基于目标损失调整特征提取模型的模型参数,得到调整后的特征提取模型。
上述实施例中,结合量化损失、噪声损失以及分类损失,得到目标损失,基于该目标损失对模型进行训练,训练得到的特征提取模型能够提取得到准确的量化特征。
在一个具体的实施例中,如图6所示,为特征提取模型的训练过程示意图。本实施例中,训练样本的内容为图像,训练样本为图像样本。待训练的特征提取模型包括CNN模块,哈希量化模块。计算机设备可以将训练样本输入CNN模块,得到基础特征信息,将基础特征信息输入哈希量化模快,通过哈希量化模块提取embedding特征向量并进行量化处理得到训练样本特征,该训练样本特征进一步输入多标签分类模型得到分类结果,计算机设备还可以将候选标签集合中各个候选标签各自对应的候选训练样本输入待训练的特征提取模型中,得到各个候选样本特征,通过将各个候选样本特征输入多原型记忆单元,可以得到多个原型,根据这些原型以及训练样本特征可以产生推荐标签,在训练中除了计算量化损失外还对原始目标损失(多标签分类损失)采用推荐标签进行带噪泛化的适应性调整计算噪声自适应损失(noise-adapted loss),基于量化损失和噪声自适应损失得到目标损失。随着模型迭代,目标多原型表征效果越好,最终产生识别准确率越高。
需要说明的是,图6中的多原型记忆单元即上文中的聚类单元,用于对各个候选样本特征进行聚类得到多原型表征,由于本实施例中候选样本特征是通过待训练的特征提取模型提取得到的,聚类单元可对标签的原型表征进行记忆,从第一个迭代开始学习类别原型,每次迭代更新原型。
在一个实施例中,如图7所示,提供了一种样本检索方法,以该方法由计算机设备执行为例进行说明,可以理解的是,计算机设备可以是图1所示的终端102,也可以是服务器104。本实施例中,样本检索方法包括以下步骤:
步骤702,获取查询样本和候选召回样本集合。
其中,候选召回样本集合指的是数据库中可召回的内容样本组成的集合。查询样本指的是需要从数据库中召回相似样本的内容样本。例如,给定图像A,从数据库中召回图像A的相似图像,则图像A为查询样本。
步骤704,将查询样本和候选召回样本集合中的候选召回样本输入目标特征提取模型,得到查询样本对应的查询样本特征和候选召回样本对应的候选召回样本特征。
其中,其中,目标特征提取模型是根据噪声损失和分类损失对待训练的特征提取模型进行训练得到的;分类损失值是基于分类结果和训练样本的类别标签确定的;分类结果是基于训练样本特征对训练样本进行分类得到的;训练样本特征是通过特征提取模型对训练样本进行特征提取得到的;噪声损失是在推荐标签与类别标签之间存在差异时,基于分类结果和推荐标签确定的;推荐标签是从候选标签集合中确定的目标代表样本特征所属的候选标签;目标代表样本特征与训练样本特征匹配,是从候选标签集合中各候选标签各自对应的代表样本特征中选取得到的;候选标签集合与训练样本对应。
具体地,计算机设备可以将查询样本以及候选召回样本集合中各个候选召回样本分别输入目标特征提取模型中,通过目标特征提取模型分别对查询样本、各个候选召回样本进行特征提取,得到查询样本对应的查询样本特征以及各个候选召回样本各自对应的候选召回样本特征。
步骤706,基于查询样本特征和候选召回样本特征,从候选召回样本集合中确定查询样本对应的目标检索样本。
在另一个在一个实施例中,计算机设备可以计算查询样本特征和各个候选召回样本特征之间的相似度,将相似度满足相似度条件的候选召回样本特征所对应的候选召回样本确定为目标检索样本。其中,相似度可以是余弦相似度,相似度条件例如可以是相似度大于预设相似度阈值或者相似度排序在预设排序阈值之前,例如,将计算得到的各个相似度从大到小排序,以选取前N个相似度,将这些相似度对应的候选召回样本特征所对应的候选召回样本确定为目标检索样本。
在另一个实施例中计算机设备可以计算查询样本特征和各个候选召回样本特征之间的差异度,将差异度满足差异度条件的候选召回样本特征所对应的候选召回样本确定为目标检索样本。其中,差异度可以是特征距离,差异度条件例如可以是差异度大于预设差异度阈值或者差异度排序在预设排序阈值之前,例如,将计算得到的各个差异度从小到大排序,以选取前N个差异度,将这些差异度对应的候选召回样本特征所对应的候选召回样本确定为目标检索样本。
上述样本检索方法,由于目标特征提取模型是根据噪声损失和分类损失对待训练的特征提取模型进行训练得到的;分类损失值是基于分类结果和训练样本的类别标签确定的;分类结果是基于训练样本特征对训练样本进行分类得到的;训练样本特征是通过特征提取模型对训练样本进行特征提取得到的;噪声损失是在推荐标签与类别标签之间存在差异时,基于分类结果和推荐标签确定的;推荐标签是从候选标签集合中确定的目标代表样本特征所属的候选标签;目标代表样本特征与训练样本特征匹配,是从候选标签集合中各候选标签各自对应的代表样本特征中选取得到的,候选标签集合与训练样本对应,因此,目标特征提取模型是根据推荐标签采用对噪声友好的方法进行泛化学习得到的,目标特征提取模型所提取得到的特征的准确度高,从而可以提高样本检索的准确度。
在一个实施例中,上述样本检索方法还包括:对候选召回样本集合中各个候选召回样本各自的候选召回样本特征进行特征聚类,得到多个聚类簇;各个聚类簇存在对应的聚类中心;对于每一个聚类中心,建立聚类中心与同一聚类簇中各个候选召回样本特征之间的关联关系;基于查询样本特征和候选召回样本特征,从候选召回样本集合中确定查询样本对应的目标检索样本,包括:基于查询样本特征与各个聚类中心之间的特征距离,从各个聚类中心中确定目标聚类中心;获取与目标聚类中心存在关联关系的各个候选召回样本特征,基于查询样本特征与获取的各个候选召回样本特征之间的特征距离,从获取的各个候选召回样本特征中确定目标检索样本。
具体地,计算机设备在进行聚类后,建立各个聚类中心与同一聚类簇中各个候选召回样本特征之间的关联关系,那么可以将聚类中心作为改聚类簇的索引,从而在进行检索时,可以先计算查询样本特征和这些索引之间的特征距离,从而筛选出相似样本所在的聚类簇,进行从筛选到的聚类簇检索得到目标检索样本。通过索引查询的方式大大减少了检索过程中的计算量,提高了检索效率。
举例说明,假设候选召回样本集合中包括1000个候选召回样本,对这些候选召回样本进行聚类后,得到10个聚类簇,那么可以则在进行检索时,计算机设备可以将查询样本特征分别与这10个聚类簇的聚类中心计算特征聚类,选取特征距离最小的前3个聚类簇,将查询样本特征与这3个聚类簇中各个候选召回样本特征计算特征聚类,从而检索得到目标检索样本,而对于其余7个聚类簇,则不需要进行计算。
在一个实施例中,上述样本检索方法还包括特征提取模型的处理步骤,该步骤具体包括:通过待训练的特征提取模型提取训练样本的训练样本特征;训练样本存在对应的类别标签;基于训练样本特征对训练样本进行分类,得到分类结果,基于分类结果和类别标签确定分类损失;确定训练样本对应的候选标签集合,并获取候选标签集合中各候选标签各自对应的代表样本特征;从各个代表样本特征中,选取与训练样本特征匹配的代表样本特征,将选取的代表样本特征确定为目标代表样本特征;从候选标签集合中确定目标代表样本特征所属的候选标签,将目标代表样本特征所属的候选标签确定为训练样本的推荐标签;当推荐标签与类别标签之间存在差异时,基于分类结果和推荐标签确定噪声损失;根据噪声损失和分类损失,对特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型。
本申请还提供一种应用场景,该应用场景可适用于上述的特征提取模型处理方法以及样本检索方法。在该应用场景中,内容为图像,训练样本为图像样本,该特征提取模型处理方法以及样本检索方法可以应用于图像检索。目前,基于深度学习语义哈希特征图像表征进行图像检索的技术在工业界开始逐渐应用起来,在大规模语义检索中,用户给出一张检索图,如攀岩图,计算机设备提取其哈希特征并与库存样本对比,找到同是攀岩的图像排序返回给用户。训练大规模语义哈希特征除了需要大规模三元组样本使得哈希特征具备图像度量能力——越相似的样本特征相似度要越高外,还需要标注大量语义多标签,而针对大规模库存有效的哈希特征需要标注极大量的图像,价格极度昂贵。一种可以替代的方案是借助已有的或预训练的多标签分类模型对库存样本打标签,常规的方法是通过互联网搜索引擎搜索标签,并把标签下返回的图像作为该标签的训练样本集,此类打标签方法存在大量噪声:1)标签缺失噪声样本;2)标签错误噪声。在此类样本下进行直接语义哈希学习容易使得图像表征产生偏差,从而造成表征失败、检索结果差等问题,如何建立更有效的弱监督学习机制提升哈希模型在噪声样本下的学习效果是其中的难点。
针对此问题,本申请提出一种特征提取模型处理方法和样本检索方法,可以基于记忆单元进行语义建模以及识别样本噪声的方法,通过动态的噪声识别在整个学习阶段对样本进行多次噪声判决避免单次噪声识别错误引发模型坍塌,并采用正则化方法处理噪声样本降低模型对噪声样本的误判,从而提升哈希特征检索的效果。
具体地,以下以该方法由计算机设备执行为例进行说明,可以理解的是,计算机设备可以是图1所示的终端102,也可以是服务器104。上述特征提取模型处理方法和样本检索方法在该应用场景的应用如下:
一、数据准备
1、标注数据获取:多标签标注的图像样本是从互联网搜索引擎获得的,对于要学习的多标签,在搜索引擎中输入该标签,取返回的前500图像作为带该标签的图像。如在搜索引擎搜索金毛,保存返回的前500张图作为训练集中“金毛”标签的图像样本。由于不需要人工对每张图像标注,仅通过搜索引擎获得大规模多标签标注,可能引发:1)标签与搜索到的图像不一致:对于搜索到的每张图像,由于搜索引擎自身错误或者结果排序问题、不一定完全对应所搜索的标签(如可能前500张图中有些不是金毛),但大部分搜索到的图像都是金毛。2)图像在所有标签中可能存在未被标注的关系:A标签搜索到的某个图像可能同时满足B标签、但在B标签中并未搜索到这张图,导致该图同时具备AB标签,但只标注了A标签。标签错误、标签缺失等上述问题带来了弱监督学习的问题。
2、训练数据挖掘:训练数据包括作为锚点(anchor,,以下简称a)的训练样本,训练样本对应的正向对比训练样本(positive,以下a)以及训练样本对应的正向对比训练样本(negative,以下n),a,p以及n组成三元组(a,p,n),三元组中a和p构成正样本对,a和n构成负样本对,在学习任务中,正样本对是需要特征足够接近——L2距离足够小(从而可被相互检索到),而负样本对需要足够远离,在该应用场景中,则需要具备相同语义的图像可以相互被检索到。
由于上述步骤1产生的是图像-标签的标注信息,需要将现有的标注信息转化为三元组。思路是:借助多标签信息,具备相同的标签的图像可以互为正样本对,具备不同标签的图像互为负样本对。由于训练中需要对全量数据每bs个图像样本作为一个批次(batch)输入到待训练的特征提取模型(以下简称模型)去,模型对每个批次样本采用随机梯度下降(SGD)算法进行学习,直到把所有图像都学习过结束一次迭代。该应用场景中需要设计每个批次的数据抽取方法,以满足多标签学习、哈希特征度量学习的需要,具体步骤包括:
2.1、batch数据组成:对于某个batch,从所有多标签中随机抽取50个标签,每个标签从未被选取过的图像中随机抽取10个图片,共产生500个图片,输入到模型中,并标记这500个图片为已经选取过。当某个标签下可选图片小于10,则取该标签所有可选图片(即某标签下选取样本可以少于10).
2.2、batch数据中挖掘三元组:从上述500个图片对应的50个标签中,进行以下操作:
a)对于其中某个标签A下图像a(作为anchor),随机选择A标签下剩余的9个图中的1个作为positive,随机抽取剩余49个标签中的1个标签B,从B的10个图片中随机抽取1个图片作为negative,从而产生一个三元组。重复该步骤5次,从而每个anchor都能产生5个三元组。(重复次数可调整,当batch的图像越多时,重复次数越大)。
B)对所有标签下的所有图像都依次作为anchor,进行上述操作产生三元组,对于所有500张图,共产生2500个三元组。
可以理解,上述过程中,由于positive和negative的样本均为有放回的随机抽取,故得到的三元组样本可能有重复(尽管概率很低),对于最终取到重复三元组,可直接去除再参与学习。
二、训练过程
其中,所要训练的模型包括三个部分:基础特征提取模块、哈希量化模快、分类模型。其中,基础特征提取模型和哈希量化模快共同构成特征提取模型,基础特征提取模型采用resnet101,参数如表1,包含卷积层1、卷积层2-卷积层5以及池化层共6个部分,卷积层1为7×7×64的卷积,步长(stride)为2,卷积层2包括3×3最大池化层(max pool)和3个ResNet模块(block),卷积层3-卷积层5分别包括3个ResNet模块、4个ResNet模块、23个ResNet模块以及3个ResNet模块。
表1
哈希量化模快的参数如表2所示,包括一层全连接层,该层以最大池化层的输出为输入,输出1x256的浮点,该浮点向量可以经过sign符号函数映射到二值向量(0或1),即为最终应用中的哈希特征。分类模型的参数如表3所示,包括分类层(Fc_class),该分类层的输入为哈希特征生成层的输出,该分类层输出为N维的预测概率。其中,N为分类的类别数量。
表2
层的名称 | 输出尺寸 | 层 |
哈希量化层 | 1x256 | 全连接层 |
表3
层的名称 | 输出尺寸 | 层 |
分类层 | 1xNclass | 全连接层 |
需要说明的,基础特征提取模型、哈希量化模快以及分类模型也可以采用其他模型结构,如基础特征提取模型采用resnet18CNN,如哈希量化模快采用多层全连接层连接等。具体训练过程如下:
1、参数初始化:
在预训练环节,卷积层1-卷积层5采用在ImageNet数据集上预训练的ResNet101的参数,新添加的层如特征层采用方差为0.01,均值为0的高斯分布进行初始化——哈希量化层、分类层采用方差为0.01,均值为0的随机正态分布进行初始化。
2、设置学习参数:表1、表2和表3所有参数都需要学习。
3、学习率:对基础特征提取模型、哈希量化模快采用lr=0.0005学习率,分类模型采用0.005学习率。每经过10轮迭代后lr变为原来的0.1倍。在梯度回传时,语义的损失(即分类损失)首先更新了分类层的参数,然后回传到哈希量化层、基础特征模块;这里设置量化哈希特征的学习率比语义标签(即类别标签)小,可以避免多标签语义损失完全传递到量化层造成语义学习过度影响量化层度量效果,从而避免语义损失过度影响度量效果,避免由于语义误判造成检索结果不相似。
4、学***均epoch loss不再下降,得到图像特征提取模型和目标多标签分类模型。其中,对每个epoch的每轮迭代中的具体操作如下:把全量图像,根据上述步骤产生每个批次(batch)的图像,并得到挖掘的三元组,进行:
4.1、当epoch大于1,初始化记忆单元。初始化的过程包括:对全量训练集的图像,从所有标签中,针对数据量大于30的标签——随机抽取200张图(数据量不足的则取60%图像),对于数据量低于30的标签——随机抽取20张图,组成更新记忆单元的样本集Ms(Memory samples,记忆样本集)。对Ms图像,经过待训练的特征提取模型得到哈希特征,对于Ms中每个标签下的图像进行Kmeans聚类,聚类中心为3,得到3个中心的特征,选择该标签下分别距离这3个中心最近的3张图像的哈希特征作为该标签在本次记忆单元更新结果——目标标签的3个原型的哈希特征。这里一个标签的原型可以理解为该标签下的不同图像内容的聚合,如在狗标签下,边牧、哈士奇、藏獒,就是3个原型,一个标签可以多于3的原型,原型数量可以根据需要进行调整。
4.2、前向计算:将表1、表2和表3所有参数都设为需要学习状态,训练时对输入的一张图片进行前向计算得到哈希特征以及分类层预测结果,用Q以及P表示,其中Q为1x256向量表示哈希特征,P为1xNclass的多标签预测,每一位表示该位置对应标签的预测概率。
4.3、当epoch大于1时执行本步骤,否则跳过——基于目标记忆单元的标签预测:对本bs中所有图像的哈希特征,分别与记忆单元中的所有原型的哈希特征进行L2距离计算,取距离最近的原型所属的标签作为图像的推荐标签。刚开始学习时由于哈希特征表征能力不足,推荐的标签可能不准确,但随着模型的迭代优化,推荐的标签越来越好。
4.4、损失计算:当epoch大于1,采用前述步骤产生的推荐标签以及原始标签(即通过搜索引擎得到的标签信息)作为联合监督信息,否则采用原始标签作为监督信息。具体地,对于每个batch,总损失可参考以下公式(4)进行计算:
其中,Ltriplet为度量学习(即在2个图像上找相似与不相似部位)对应的损失(即前文中的特征提取损失)。Ladapt-noise为语义学习(即在同一个分类的多个图像下找相同类别共性)对应的损失(即前文中的分类损失和噪声损失中的至少一种),Lcoding为量化学习(即对特征进行量化)对应的损失(即前文中的量化损失)。w1,w2和w3为权重,例如可以设置w1=0.1,w2=1,w3=0.01。
这里权重设置的原则是:由于度量学习收敛慢,相比语义学习要难得多,故语义学习可以加速收敛,避免度量学习因局部表征不当造成语义相关的图像漏召回。然而语义收敛快也容易给量化特征带来过拟合,上述通过量化学习率为语义的0.1倍来约束。由于量化学习对应的损失收敛比度量学习快,并且量化学习的重要性比特征度量能力低,为了保证度量学习的损失在整体损失中处于主导地位,从而保证embedding始终具有相似度度量的能力,故本处w3设为0.01(或小于1的其他值,可视情况调整)。
以下分别对各个损失进行具体介绍:
1)Ltriplet:采用batch挖掘到的三元组(a,p,n),并参考前文中的公式(1)进行计算。其中,三元组中的a,n样本距离需要足够大才能保证三元组在量化空间可区分,故margin需要设置更大,考虑到量化向量256维每位最终会接近-1或1的值,故预设参考margin=160。||xa-xp||表示三元组中a与p两个图像的量化输出Q的L2距离。Ltriplet的目的是使得a与n的距离比距离p的距离大于margin。
2)Lcoding:用于对哈希量化层输出的向量计算量化效果(是否足够接近-1或1)的损失,由于量化输出后最终应用需要映射到-1/1二值,若Q输出的每一位都足够接近1或-1,则上述度量学习对应的损失则足够可以描述量化特征的应用情况,否则度量效果即使再好也不代表应用中量化的表征足够好,故希望Q输出的每一位都足够接近1或-1。对于每个图像的量化结果,可参考前文中的公式(2)和公式(3)计算得到Lcoding损失其中Qi为该图像的量化Q在第i位的值(本案例中共256位),Bi为第i位的量化目标,Bi由Qi经过sign函数产生——采用符号函数产生量化学习任务的目标编码。
需要说明的是,应用中直接采用sign函数对输出的Q产生量化的二值向量(二值选择为0/1,从而方便计算机中取值为0或1的比特位来表征),即可用于图像检索。
3)Ladapt-noise:即噪声自适应损失,对分类层输出的概率向量,计算其与多标签标注(或联合多标签推荐)的多标签损失如下,当epoch=1时参考以下公式(5)计算Lclass,即多标签分类损失;当epoch>1时,参考以下公式(6)计算Ladapt-noise。对某个样本i,其中Lbce0为以原始标注为目标的bce(binary cross entropy)损失;Lbce1为以推荐标签为目标的bce损失。对于大于1的epoch,模型具备一定的表征能力,可以推荐出准确率相对高的标签,由于不能绝对确定推荐标签、原始标签的噪声情况,本实施例中设计了泛化损失的学习方法。即对于推荐标签与原标签均同时计算多标签损失,并作为两个目标学习,使得模型对该图像不是只给出一个标签的预测,而是可以给出两个预测标签。
Lclass=Lbce0 (5)
Ladapt-class=0.5*Lbce0+0.5*Lbcel (6)
Ladapt-noise另一种方案是采用多个推荐标签,如采用两个推荐标签并参考以下公式(7)计算噪声自适应损失,其中Lbce2为上述步骤5.1中第2最近原型的推荐标签(Lbce1为第1最近原型推荐标签)。Lbce可以参考以下公式(8)进行计算,其中,t[i]为真值标签向量,o[i]为分类层输出的预测概率:
Ladapt-class=0.3*Lbce0+0.3*Lbce1+0.3*Lbce2 (7)
需要说明,对于非噪声的样本,推荐的多个标签可能都是原始标签,此时噪声适应损失退化为原始多标签损失,表明原始标签相对准确。对于噪声样本,可能多次推荐的标签都不一样,也有可能某个样本既具备了标签0也具备了标签1、2,采用噪声适应性学习,相当于该样本同时学习3个标签,并以0.3的权重作为该样本的重要性加入到全部batch图像学习中,借助0.3样本权重降低这种可能是噪声样本的损失对全量数据的影响。
此处,Lbce1、Lbce2均为噪声处理的代理任务,可以提升模型针对噪声样本的泛化性能。
可以理解的是,在其他实施例中,上述的多标签分类模型也可以替换为多分类模型,此时,记忆单元得到的多原型表征是基于多分类任务得到的,那么在计算损失值时可以采用多分类的cross-entropy损失,而非上文的bce损失,并且在分类中仅需要采用1个推荐标签即可。
需要说明的是,该应用场景中的多标签中的标签指的是类别标签,多标签分类即将图像分类到多个类别。而多分类指的是从多个分类类别中确定图像所属的其中一个类别。
4.5、模型参数更新:采用随机梯度下降算法,将上一步得到目标模型损失值进行梯度后向计算得到全部模型参数的更新值,使用该更新值对全部模型的参数进行更新。
三、量化特征检索应用
对所有库存图像利用训练得到的图像特征提取模型提取到所有的Q,经过sign函数激活得到的二值量化特征,入库。对查询图像经过上述图像特征提取模型提取Q并经过二值化量化得到二值量化特征,然后跟库存的二值量化特征一一对比,采用针对二值量化特征的汉明距离计算可以加速计算效率(相比浮点的embedding特征),计算距离后根据从小到大排序取topK最相似的返回。从而可以检索到跟查询图像具备语义相似的库存图(即上文中的目标检索结果样本)。
本申请还提供另外一种应用场景,该应用场景可适用于上述的特征提取模型处理方法。在该应用场景中,通过与上文应用场景相同的步骤训练得到图像特征提取模型和目标多标签分类模型,将图像特征提取模型和目标多标签分类模型拼接得到目标分类模型,根据目标分类模型可以实现对输入图像进行多标签分类。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的特征提取模型处理方法的特征提取模型处理装置,以及用于实现上述所涉及的样本检索方法的样本检索装置。该特征提取模型处理装置以及样本检索装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个特征提取模型处理装置实施例中以及样本检索装置实施例的具体限定可以参见上文中对于特征提取模型处理方法以及样本检索方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种特征提取模型处理装置800,包括:
样本特征提取模块802,用于通过待训练的特征提取模型提取训练样本的训练样本特征;训练样本存在对应的类别标签;
分类损失计算模块804,用于基于训练样本特征对训练样本进行分类,得到分类结果,基于分类结果和类别标签确定分类损失;
代表特征获取模块806,用于确定训练样本对应的候选标签集合,并获取候选标签集合中各候选标签各自对应的代表样本特征;
目标特征确定模块808,用于从各个代表样本特征中,选取与训练样本特征匹配的代表样本特征,将选取的代表样本特征确定为目标代表样本特征;
标签推荐模块810,用于从候选标签集合中确定目标代表样本特征所属的候选标签,将目标代表样本特征所属的候选标签确定为训练样本的推荐标签;
噪声损失确定模块812,用于当推荐标签与类别标签之间存在差异时,基于分类结果和推荐标签确定噪声损失;
训练模块814,用于根据噪声损失和分类损失,对特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型;目标特征提取模型用于提取输入样本的样本特征。
上述特征提取模型处理装置,通过待训练的特征提取模型提取训练样本的训练样本特征,其中,训练样本存在对应的类别标签,基于训练样本特征对训练样本进行分类,得到分类结果,基于分类结果和类别标签确定分类损失,确定训练样本对应的候选标签集合,并获取候选标签集合中各候选标签各自对应的代表样本特征,从各个代表样本特征中,选取与训练样本特征匹配的代表样本特征,将选取的代表样本特征确定为目标代表样本特征,从候选标签集合中确定目标代表样本特征所属的候选标签,将目标代表样本特征所属的候选标签确定为训练样本的推荐标签,该推荐标签为训练样本可能的正确标签,因此,当推荐标签与类别标签之间存在差异时,训练样本有可能为噪声样本,由于不能绝对确定推荐标签、原始类别标签的噪声情况,可以进一步根据噪声损失和分类损失,对特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型,使得特征提取模型可以根据推荐标签采用对噪声友好的方法进行泛化学习,使得噪声样本的处理对模型产生正向收益,进而可以提高特征提取模型所提取得到的特征的准确度。
在一个实施例中,上述代表特征获取模块还用于获取各候选标签各自对应的候选样本集合;对于每一个候选标签,对候选标签对应的候选样本集合中各个候选样本进行特征提取,得到候选标签对应的各个候选样本特征;对候选标签对应的各个候选样本特征进行聚类,基于聚类结果确定候选标签对应的代表样本特征。
在一个实施例中,上述代表特征获取模块还用于对各个候选样本特征进行聚类,得到多个聚类簇;各个聚类簇存在对应的聚类中心;对于每一个聚类簇,从聚类簇对应的候选样本特征中,选取与聚类中心之间的特征距离满足第一距离条件的候选样本特征;将选取得到的候选样本特征确定为候选标签对应的代表样本特征。
在一个实施例中,上述代表特征获取模块还用于将候选样本集合中各个候选样本分别输入特征提取模型;基于特征提取模型对各个候选样本进行特征提取,得到各个候选样本各自对应的候选样本特征;训练模块,还用于根据噪声损失和分类损失,对特征提取模型进行当前轮训练,得到中间特征提取模型;将中间特征提取模型作为待训练的特征提取模型,并进入通过待训练的特征提取模型提取训练样本的训练样本特征的步骤以进行下一轮训练,直至满足训练停止条件时,得到目标特征提取模型。
在一个实施例中,目标特征确定模块,还用于获取训练样本特征与各个代表样本特征之间的特征距离;从各个代表样本特征中,选取特征距离满足第二距离条件的代表样本特征,得到目标代表样本特征;第二距离条件包括特征距离小于预设距离阈值或者特征距离排序在预设排序阈值之前的至少一个。
在一个实施例中,目标特征确定模块,还用于将各个特征距离按照从小到大进行排序,以选取最小特征距离对应的代表样本特征得到第一目标代表样本特征,以及选取次最小特征距离对应的代表样本特征得到第二目标代表样本特征;标签推荐模块,还用于从候选标签集合中,确定第一目标代表样本特征所属的候选标签得到第一推荐标签,以及确定第二代表样本特征所属的候选标签得到第二推荐标签。
在一个实施例中,噪声损失确定模块,还用于当第一推荐标签与类别标签之间存在差异且第二推荐标签与类别标签之间存在差异时,则基于第一推荐标签和分类结果之间的差异确定第一损失,并基于第二推荐标签和分类结果之间的差异确定第二损失;统计第一损失和第二损失,得到噪声损失。
在一个实施例中,噪声损失确定模块,还用于将推荐标签和类别标签进行比对,得到比对结果;当比对结果指示推荐标签和类别标签不一致时,基于分类结果和推荐标签确定噪声损失;上述装置还包括:目标损失计算模块,用于当比对结果指示推荐标签和类别标签一致时,基于分类结果和类别标签计算得到目标损失;基于目标损失对特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型。
在一个实施例中,训练模块,还用于获取训练样本的对比训练样本对应的对比样本提取特征,基于训练样本特征与对比样本提取特征的差异得到特征提取损失;基于噪声损失、特征提取损失以及分类损失,得到目标损失;基于目标损失对待训练的特征提取模型进行参数调整并继续训练,当满足训练停止条件时,得到目标特征提取模型。
在一个实施例中,对比样本提取特征包括正向对比训练样本对应的正向样本提取特征以及负向对比训练训练样本对应的负向样本提取特征;训练模块,还用于获取正向特征差异值,正向特征差异值为训练样本特征与正向样本提取特征之间的特征差异值;获取负向特征差异值,负向特征差异值为训练样本特征与负向样本提取特征之间的特征差异值;基于正向特征差异值与负向特征差异值确定特征提取损失。
在一个实施例中,样本特征提取模块,还用于通过待训练的特征提取模型提取训练样本的初始样本特征,并对初始样本特征进行量化处理,得到训练样本的训练样本特征;训练模块,还用于基于预设的符号函数确定训练样本特征中各个量化值对应的量化目标,基于各个量化值与各自对应的量化目标之间的差异确定量化损失;统计量化损失、噪声损失以及分类损失,得到目标损失;基于目标损失调整特征提取模型的模型参数,得到调整后的特征提取模型;将调整后的特征提取模型作为待训练的特征提取模型提,返回通过待训练的特征提取模型提取训练样本的初始样本特征,并对初始样本特征进行量化处理的步骤迭代执行,直至满足训练停止条件时,得到目标特征提取模型。
在一个实施例中,如图9所示,提供了一种样本检索装置900,包括:
样本获取模块902,用于获取查询样本和候选召回样本集合;
特征提取模块904,用于将查询样本和候选召回样本集合中的候选召回样本输入目标特征提取模型,得到查询样本对应的查询样本特征和候选召回样本对应的候选召回样本特征;其中,目标特征提取模型是根据噪声损失和分类损失对待训练的特征提取模型进行训练得到的;分类损失值是基于分类结果和训练样本的类别标签确定的;分类结果是基于训练样本特征对训练样本进行分类得到的;训练样本特征是通过特征提取模型对训练样本进行特征提取得到的;噪声损失是在推荐标签与类别标签之间存在差异时,基于分类结果和推荐标签确定的;推荐标签是从候选标签集合中确定的目标代表样本特征所属的候选标签;目标代表样本特征与训练样本特征匹配,是从候选标签集合中各候选标签各自对应的代表样本特征中选取得到的;候选标签集合与训练样本对应;
检索模块906,用于基于查询样本特征和候选召回样本特征,从候选召回样本集合中确定查询样本对应的目标检索样本。
上述样本检索装置,由于目标特征提取模型是根据噪声损失和分类损失对待训练的特征提取模型进行训练得到的;分类损失值是基于分类结果和训练样本的类别标签确定的;分类结果是基于训练样本特征对训练样本进行分类得到的;训练样本特征是通过特征提取模型对训练样本进行特征提取得到的;噪声损失是在推荐标签与类别标签之间存在差异时,基于分类结果和推荐标签确定的;推荐标签是从候选标签集合中确定的目标代表样本特征所属的候选标签;目标代表样本特征与训练样本特征匹配,是从候选标签集合中各候选标签各自对应的代表样本特征中选取得到的,候选标签集合与训练样本对应,因此,目标特征提取模型是根据推荐标签采用对噪声友好的方法进行泛化学习得到的,目标特征提取模型所提取得到的特征的准确度高,从而可以提高样本检索的准确度。
在一个实施例中,上述样本检索装置还包括:关联关系建立模块,用于对候选召回样本集合中各个候选召回样本各自的候选召回样本特征进行特征聚类,得到多个聚类簇;各个聚类簇存在对应的聚类中心;对于每一个聚类中心,建立聚类中心与同一聚类簇中各个候选召回样本特征之间的关联关系;检索模块,用于基于查询样本特征与各个聚类中心之间的特征距离,从各个聚类中心中确定目标聚类中心;获取与目标聚类中心存在关联关系的各个候选召回样本特征,基于查询样本特征与获取的各个候选召回样本特征之间的特征距离,从获取的各个候选召回样本特征中确定目标检索样本。
上述特征提取模型处理装置中以及样本检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过***总线连接,通信接口通过输入/输出接口连接到***总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练样本。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种特征提取模型处理方法或者一种样本检索方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过***总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到***总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种特征提取模型处理方法或者一种样本检索方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10和图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (18)
1.一种特征提取模型处理方法,其特征在于,所述方法包括:
通过待训练的特征提取模型提取训练样本的训练样本特征;所述训练样本存在对应的类别标签;
基于所述训练样本特征对所述训练样本进行分类,得到分类结果,基于所述分类结果和所述类别标签确定分类损失;
确定所述训练样本对应的候选标签集合,并获取所述候选标签集合中各候选标签各自对应的代表样本特征;
从各个所述代表样本特征中,选取与所述训练样本特征匹配的代表样本特征,将选取的代表样本特征确定为目标代表样本特征;
从所述候选标签集合中确定所述目标代表样本特征所属的候选标签,将所述目标代表样本特征所属的候选标签确定为所述训练样本的推荐标签;
当所述推荐标签与所述类别标签之间存在差异时,基于所述分类结果和所述推荐标签确定噪声损失;
根据所述噪声损失和所述分类损失,对所述特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型;所述目标特征提取模型用于提取输入样本的样本特征。
2.根据权利要求1所述的方法,其特征在于,根据权利要求1所述的方法,其特征在于,所述获取所述候选标签集合中各候选标签各自对应的代表样本特征,包括:
获取各候选标签各自对应的候选样本集合;
对于每一个候选标签,对所述候选标签对应的候选样本集合中各个候选样本进行特征提取,得到所述候选标签对应的各个候选样本特征;
对所述候选标签对应的各个候选样本特征进行聚类,基于聚类结果确定所述候选标签对应的代表样本特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述候选标签对应的各个候选样本特征进行聚类,基于聚类结果确定所述候选标签对应的代表样本特征,包括:
对各个所述候选样本特征进行聚类,得到多个聚类簇;各个聚类簇存在对应的聚类中心;
对于每一个聚类簇,从所述聚类簇对应的候选样本特征中,选取与所述聚类中心之间的特征距离满足第一距离条件的候选样本特征;
将选取得到的候选样本特征确定为所述候选标签对应的代表样本特征。
4.根据权利要求2所述的方法,其特征在于,所述对所述候选标签对应的候选样本集合中各个候选样本进行特征提取,得到所述候选标签对应的各个候选样本特征,包括:
将所述候选样本集合中各个候选样本分别输入所述特征提取模型;
基于所述特征提取模型对各个所述候选样本进行特征提取,得到各个所述候选样本各自对应的候选样本特征;
所述根据所述噪声损失和所述分类损失,对所述特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型,包括:
根据所述噪声损失和所述分类损失,对所述特征提取模型进行当前轮训练,得到中间特征提取模型;
将所述中间特征提取模型作为待训练的特征提取模型,并进入所述通过待训练的特征提取模型提取训练样本的训练样本特征的步骤以进行下一轮训练,直至满足训练停止条件时,得到目标特征提取模型。
5.根据权利要求1所述的方法,其特征在于,从各个所述代表样本特征中,选取与所述训练样本特征匹配的代表样本特征,将选取的代表样本特征确定为目标代表样本特征,包括:
获取所述训练样本特征与各个所述代表样本特征之间的特征距离;
从各个所述代表样本特征中,选取特征距离满足第二距离条件的代表样本特征,得到目标代表样本特征;
所述第二距离条件包括特征距离小于预设距离阈值或者特征距离排序在预设排序阈值之前的至少一个。
6.根据权利要求5所述的方法,其特征在于,所述从各个所述代表样本特征中,选取特征距离满足第二距离条件的代表样本特征,得到目标代表样本特征,包括:
将各个特征距离按照从小到大进行排序,以选取最小特征距离对应的代表样本特征得到第一目标代表样本特征,以及选取次最小特征距离对应的代表样本特征得到第二目标代表样本特征;
所述从所述候选标签集合中确定所述目标代表样本特征所属的候选标签,将所述目标代表样本特征所属的候选标签确定为所述训练样本的推荐标签,包括:
从所述候选标签集合中,确定所述第一目标代表样本特征所属的候选标签得到第一推荐标签,以及确定所述第二代表样本特征所属的候选标签得到第二推荐标签。
7.根据权利要求6所述的方法,其特征在于,所述当所述推荐标签与所述类别标签之间存在差异时,基于所述分类结果和所述推荐标签确定噪声损失,包括:
当所述第一推荐标签与所述类别标签之间存在差异且所述第二推荐标签与所述类别标签之间存在差异时,则
基于所述第一推荐标签和所述分类结果之间的差异确定第一损失,并基于所述第二推荐标签和所述分类结果之间的差异确定第二损失;
统计所述第一损失和所述第二损失,得到所述噪声损失。
8.根据权利要求1所述的方法,其特征在于,所述当所述推荐标签与所述类别标签之间存在差异时,基于所述分类结果和所述推荐标签确定噪声损失,包括:
将所述推荐标签和所述类别标签进行比对,得到比对结果;
当所述比对结果指示所述推荐标签和所述类别标签不一致时,基于所述分类结果和所述推荐标签确定噪声损失;
所述方法还包括:
当所述比对结果指示所述推荐标签和所述类别标签一致时,基于所述分类结果和所述类别标签计算得到目标损失;
基于所述目标损失对所述特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型。
9.根据权利要求1所述的方法,其特征在于,所述根据所述噪声损失和所述分类损失,对所述特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型,包括:
获取所述训练样本的对比训练样本对应的对比样本提取特征,基于所述训练样本特征与所述对比样本提取特征的差异得到特征提取损失;
基于所述噪声损失、所述特征提取损失以及所述分类损失,得到目标损失;
基于所述目标损失对待训练的特征提取模型进行参数调整并继续训练,当满足训练停止条件时,得到目标特征提取模型。
10.根据权利要求9所述的方法,其特征在于,所述对比样本提取特征包括正向对比训练样本对应的正向样本提取特征以及负向对比训练训练样本对应的负向样本提取特征;所述基于所述训练样本特征与所述对比样本提取特征的差异得到特征提取损失包括:
获取正向特征差异值,所述正向特征差异值为所述训练样本特征与所述正向样本提取特征之间的特征差异值;
获取负向特征差异值,所述负向特征差异值为所述训练样本特征与所述负向样本提取特征之间的特征差异值;
基于所述正向特征差异值与所述负向特征差异值确定特征提取损失。
11.根据权利要求1所述的方法,其特征在于,所述通过待训练的特征提取模型提取训练样本的训练样本特征,包括:
通过待训练的特征提取模型提取训练样本的初始样本特征,并对所述初始样本特征进行量化处理,得到所述训练样本的训练样本特征;
所述根据所述噪声损失和所述分类损失,对所述特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型,包括:
基于预设的符号函数确定所述训练样本特征中各个量化值对应的量化目标,基于各个量化值与各自对应的量化目标之间的差异确定量化损失;
统计所述量化损失、所述噪声损失以及所述分类损失,得到目标损失;
基于所述目标损失调整所述特征提取模型的模型参数,得到调整后的特征提取模型;
将调整后的特征提取模型作为待训练的特征提取模型提,返回通过待训练的特征提取模型提取训练样本的初始样本特征,并对所述初始样本特征进行量化处理的步骤迭代执行,直至满足训练停止条件时,得到目标特征提取模型。
12.一种样本检索方法,其特征在于,所述方法包括:
获取查询样本和候选召回样本集合;
将所述查询样本和候选召回样本集合中的候选召回样本输入目标特征提取模型,得到所述查询样本对应的查询样本特征和候选召回样本对应的候选召回样本特征;其中,所述目标特征提取模型是根据噪声损失和分类损失对待训练的特征提取模型进行训练得到的;所述分类损失值是基于分类结果和训练样本的类别标签确定的;所述分类结果是基于训练样本特征对训练样本进行分类得到的;所述训练样本特征是通过所述特征提取模型对所述训练样本进行特征提取得到的;所述噪声损失是在推荐标签与所述类别标签之间存在差异时,基于所述分类结果和所述推荐标签确定的;所述推荐标签是从所述候选标签集合中确定的目标代表样本特征所属的候选标签;所述目标代表样本特征与所述训练样本特征匹配,是从候选标签集合中各候选标签各自对应的代表样本特征中选取得到的;所述候选标签集合与所述训练样本对应;
基于所述查询样本特征和所述候选召回样本特征,从所述候选召回样本集合中确定所述查询样本对应的目标检索样本。
13.根据权利要求12所述的方法,其特征在于,所述方法还包括:
对所述候选召回样本集合中各个候选召回样本各自的候选召回样本特征进行特征聚类,得到多个聚类簇;各个聚类簇存在对应的聚类中心;
对于每一个聚类中心,建立所述聚类中心与同一聚类簇中各个候选召回样本特征之间的关联关系;
所述基于所述查询样本特征和候选召回样本特征,从所述候选召回样本集合中确定所述查询样本对应的目标检索样本,包括:
基于所述查询样本特征与各个聚类中心之间的特征距离,从各个所述聚类中心中确定目标聚类中心;
获取与所述目标聚类中心存在关联关系的各个候选召回样本特征,基于所述查询样本特征与获取的各个候选召回样本特征之间的特征距离,从获取的各个候选召回样本特征中确定目标检索样本。
14.一种特征提取模型处理装置,其特征在于,所述装置包括:
样本特征提取模块,用于通过待训练的特征提取模型提取训练样本的训练样本特征;所述训练样本存在对应的类别标签;
分类损失计算模块,用于基于所述训练样本特征对所述训练样本进行分类,得到分类结果,基于所述分类结果和所述类别标签确定分类损失;
代表特征获取模块,用于确定所述训练样本对应的候选标签集合,并获取所述候选标签集合中各候选标签各自对应的代表样本特征;
目标特征确定模块,用于从各个所述代表样本特征中,选取与所述训练样本特征匹配的代表样本特征,将选取的代表样本特征确定为目标代表样本特征;
标签推荐模块,用于从所述候选标签集合中确定所述目标代表样本特征所属的候选标签,将所述目标代表样本特征所属的候选标签确定为所述训练样本的推荐标签;
噪声损失确定模块,用于当所述推荐标签与所述类别标签之间存在差异时,基于所述分类结果和所述推荐标签确定噪声损失;
训练模块,用于根据所述噪声损失和所述分类损失,对所述特征提取模型进行训练,当满足训练停止条件时,得到目标特征提取模型;所述目标特征提取模型用于提取输入样本的样本特征。
15.一种样本检索装置,其特征在于,所述装置包括:
样本获取模块,用于获取查询样本和候选召回样本集合;
特征提取模块,用于将所述查询样本和候选召回样本集合中的候选召回样本输入目标特征提取模型,得到所述查询样本对应的查询样本特征和候选召回样本对应的候选召回样本特征;其中,所述目标特征提取模型是根据噪声损失和分类损失对待训练的特征提取模型进行训练得到的;所述分类损失值是基于分类结果和训练样本的类别标签确定的;所述分类结果是基于训练样本特征对训练样本进行分类得到的;所述训练样本特征是通过所述特征提取模型对所述训练样本进行特征提取得到的;所述噪声损失是在推荐标签与所述类别标签之间存在差异时,基于所述分类结果和所述推荐标签确定的;所述推荐标签是从所述候选标签集合中确定的目标代表样本特征所属的候选标签;所述目标代表样本特征与所述训练样本特征匹配,是从候选标签集合中各候选标签各自对应的代表样本特征中选取得到的;所述候选标签集合与所述训练样本对应;
检索模块,用于基于所述查询样本特征和候选召回样本特征,从所述候选召回样本集合中确定所述查询样本对应的目标检索样本。
16.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11或者12至13中任一项所述的方法的步骤。
18.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至11或者12至13中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210007882.9A CN114358188A (zh) | 2022-01-05 | 2022-01-05 | 特征提取模型处理、样本检索方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210007882.9A CN114358188A (zh) | 2022-01-05 | 2022-01-05 | 特征提取模型处理、样本检索方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114358188A true CN114358188A (zh) | 2022-04-15 |
Family
ID=81106419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210007882.9A Pending CN114358188A (zh) | 2022-01-05 | 2022-01-05 | 特征提取模型处理、样本检索方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114358188A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114764603A (zh) * | 2022-05-07 | 2022-07-19 | 支付宝(杭州)信息技术有限公司 | 针对用户分类模型、业务预测模型确定特征的方法及装置 |
CN114997169A (zh) * | 2022-05-30 | 2022-09-02 | 中电金信软件有限公司 | 一种实体词识别方法、装置、电子设备及可读存储介质 |
CN115346084A (zh) * | 2022-08-15 | 2022-11-15 | 腾讯科技(深圳)有限公司 | 样本处理方法、装置、电子设备、存储介质及程序产品 |
CN116049412A (zh) * | 2023-03-31 | 2023-05-02 | 腾讯科技(深圳)有限公司 | 文本分类方法、模型训练方法、装置及电子设备 |
CN116881485A (zh) * | 2023-06-19 | 2023-10-13 | 北京百度网讯科技有限公司 | 生成图像检索索引的方法及装置、电子设备和介质 |
CN117056550A (zh) * | 2023-10-12 | 2023-11-14 | 中国科学技术大学 | 长尾图像检索方法、***、设备及存储介质 |
CN117195066A (zh) * | 2023-08-21 | 2023-12-08 | 中南大学 | 分布式电力设备故障检测方法、***、存储介质及处理器 |
CN118052998A (zh) * | 2024-04-16 | 2024-05-17 | 腾讯科技(深圳)有限公司 | 特征处理方法、装置、设备、存储介质及计算机程序产品 |
-
2022
- 2022-01-05 CN CN202210007882.9A patent/CN114358188A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114764603A (zh) * | 2022-05-07 | 2022-07-19 | 支付宝(杭州)信息技术有限公司 | 针对用户分类模型、业务预测模型确定特征的方法及装置 |
CN114997169A (zh) * | 2022-05-30 | 2022-09-02 | 中电金信软件有限公司 | 一种实体词识别方法、装置、电子设备及可读存储介质 |
CN115346084A (zh) * | 2022-08-15 | 2022-11-15 | 腾讯科技(深圳)有限公司 | 样本处理方法、装置、电子设备、存储介质及程序产品 |
CN116049412A (zh) * | 2023-03-31 | 2023-05-02 | 腾讯科技(深圳)有限公司 | 文本分类方法、模型训练方法、装置及电子设备 |
CN116049412B (zh) * | 2023-03-31 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 文本分类方法、模型训练方法、装置及电子设备 |
CN116881485A (zh) * | 2023-06-19 | 2023-10-13 | 北京百度网讯科技有限公司 | 生成图像检索索引的方法及装置、电子设备和介质 |
CN117195066A (zh) * | 2023-08-21 | 2023-12-08 | 中南大学 | 分布式电力设备故障检测方法、***、存储介质及处理器 |
CN117056550A (zh) * | 2023-10-12 | 2023-11-14 | 中国科学技术大学 | 长尾图像检索方法、***、设备及存储介质 |
CN117056550B (zh) * | 2023-10-12 | 2024-02-23 | 中国科学技术大学 | 长尾图像检索方法、***、设备及存储介质 |
CN118052998A (zh) * | 2024-04-16 | 2024-05-17 | 腾讯科技(深圳)有限公司 | 特征处理方法、装置、设备、存储介质及计算机程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
CN114358188A (zh) | 特征提取模型处理、样本检索方法、装置和计算机设备 | |
CN110309331B (zh) | 一种基于自监督的跨模态深度哈希检索方法 | |
US11238093B2 (en) | Video retrieval based on encoding temporal relationships among video frames | |
CN111523621A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN111582409A (zh) | 图像标签分类网络的训练方法、图像标签分类方法及设备 | |
CN113821670B (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
US11860932B2 (en) | Scene graph embeddings using relative similarity supervision | |
CN114298122B (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
CN112148831B (zh) | 图文混合检索方法、装置、存储介质、计算机设备 | |
CN113033507B (zh) | 场景识别方法、装置、计算机设备和存储介质 | |
CN114329029B (zh) | 对象检索方法、装置、设备及计算机存储介质 | |
CN115982403B (zh) | 一种多模态哈希检索方法及装置 | |
CN113705596A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN113408282B (zh) | 主题模型训练和主题预测方法、装置、设备及存储介质 | |
CN114358109A (zh) | 特征提取模型训练、样本检索方法、装置和计算机设备 | |
CN113704534A (zh) | 图像处理方法、装置及计算机设备 | |
CN115129908A (zh) | 一种模型优化方法、装置、设备、存储介质及程序产品 | |
CN114741549A (zh) | 基于lire的图像查重方法、装置、计算机设备和存储介质 | |
CN113704528A (zh) | 聚类中心确定方法、装置和设备及计算机存储介质 | |
CN111091198A (zh) | 一种数据处理方法及装置 | |
Somnathe et al. | Image retrieval based on colour, texture and shape feature similarity score fusion using genetic algorithm | |
CN114936327B (zh) | 元素识别模型的获取方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40070414 Country of ref document: HK |