CN115134338B - 多媒体信息编码方法、对象检索方法及装置 - Google Patents
多媒体信息编码方法、对象检索方法及装置 Download PDFInfo
- Publication number
- CN115134338B CN115134338B CN202210563346.7A CN202210563346A CN115134338B CN 115134338 B CN115134338 B CN 115134338B CN 202210563346 A CN202210563346 A CN 202210563346A CN 115134338 B CN115134338 B CN 115134338B
- Authority
- CN
- China
- Prior art keywords
- information
- coding
- sample
- multimedia
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及机器学习技术领域,尤其涉及一种多媒体信息编码方法、对象检索方法及装置,所述多媒体信息编码方法包括:获取待编码多媒体信息;基于目标编码模型对所述待编码多媒体信息进行信息编码,得到与所述待编码多媒体信息对应的目标编码信息;所述目标编码模型基于损失信息对待训练编码模型进行模型训练得到;所述损失信息基于各项样本编码信息分别对应的相似编码信息以及差异编码信息确定;所述各项样本编码信息分别对应的相似编码信息以及差异编码信息基于所述各项样本多媒体信息之间的两两相似信息,从所述样本编码信息集合中确定出。本申请能够提高了多媒体信息的编码准确性。
Description
技术领域
本申请涉及机器学习技术领域,尤其涉及一种多媒体信息编码方法、对象检索方法及装置。
背景技术
随着互联网的高速发展,多媒体信息的数量急剧增长,为了便于对多媒体信息进行应用以及存储,可通过编码模型对多媒体资源进行编码,以得到相应的编码信息,并基于多媒体信息对应的编码信息进行应用或者存储。
现有技术中,在样本信息包括原始样本信息,以及对原始样本信息进行相似变换的变换样本信息时,一般是基于每项原始样本信息与其对应的变换样本信息的相似关系确定损失函数的,导致损失函数不准确,进而导致基于该损失函数训练得到的编码模型的编码性能不佳,基于该编码模型进行编码降低了对多媒体信息的编码准确性。
发明内容
本申请所要解决的技术问题在于,提供一种多媒体信息编码方法、对象检索方法及装置,能够提高编码模型的编码准确性,进而提高对象检索的检索准确性。
为了解决上述技术问题,一方面,本申请实施例提供了一种多媒体信息编码方法,包括:
获取待编码多媒体信息;
基于目标编码模型对所述待编码多媒体信息进行信息编码,得到与所述待编码多媒体信息对应的目标编码信息;
所述目标编码模型基于损失信息对待训练编码模型进行模型训练得到;所述损失信息基于各项样本编码信息分别对应的相似编码信息以及差异编码信息确定;所述各项样本编码信息分别对应的相似编码信息以及差异编码信息基于所述各项样本多媒体信息之间的两两相似信息,从所述样本编码信息集合中确定出;所述样本编码信息集合基于所述待训练编码模型对各项样本多媒体信息分别进行信息编码得到。
另一方面,本申请实施例提供了一种对象检索方法,包括:
获取待检索对象的编码信息以及候选对象的编码信息;所述待检索对象的编码信息基于目标编码模型对所述待检索对象的多媒体信息进行信息编码得到;所述候选对象的编码信息基于所述目标编码模型对所述候选对象的多媒体信息进行信息编码得到;
所述目标编码模型基于损失信息对待训练编码模型进行模型训练得到;所述损失信息基于各项样本编码信息分别对应的相似编码信息以及差异编码信息确定;所述各项样本编码信息分别对应的相似编码信息以及差异编码信息基于所述各项样本多媒体信息之间的两两相似信息,从所述样本编码信息集合中确定出;所述样本编码信息集合基于所述待训练编码模型对各项样本多媒体信息分别进行信息编码得到;
对所述待检索对象的编码信息以及所述候选对象的编码信息进行信息匹配,得到信息匹配结果;
基于所述信息匹配结果,从所述候选对象中确定出目标检索对象。
另一方面,本申请实施例提供了一种多媒体信息编码装置,包括:
第一获取模块,用于获取待编码多媒体信息;
第一编码模块,用于基于目标编码模型对所述待编码多媒体信息进行信息编码,得到与所述待编码多媒体信息对应的目标编码信息;
所述目标编码模型基于损失信息对待训练编码模型进行模型训练得到;所述损失信息基于各项样本编码信息分别对应的相似编码信息以及差异编码信息确定;所述各项样本编码信息分别对应的相似编码信息以及差异编码信息基于所述各项样本多媒体信息之间的两两相似信息,从所述样本编码信息集合中确定出;所述样本编码信息集合基于所述待训练编码模型对各项样本多媒体信息分别进行信息编码得到。
另一方面,本申请实施例提供了一种对象检索装置,包括:
第二获取模块,用于获取待检索对象的编码信息以及候选对象的编码信息;所述待检索对象的编码信息基于目标编码模型对所述待检索对象的多媒体信息进行信息编码得到;所述候选对象的编码信息基于所述目标编码模型对所述候选对象的多媒体信息进行信息编码得到;
所述目标编码模型基于损失信息对待训练编码模型进行模型训练得到;所述损失信息基于各项样本编码信息分别对应的相似编码信息以及差异编码信息确定;所述各项样本编码信息分别对应的相似编码信息以及差异编码信息基于所述各项样本多媒体信息之间的两两相似信息,从所述样本编码信息集合中确定出;所述样本编码信息集合基于所述待训练编码模型对各项样本多媒体信息分别进行信息编码得到;
信息匹配模块,用于对所述待检索对象的编码信息以及所述候选对象的编码信息进行信息匹配,得到信息匹配结果;
检索结果确定模块,用于基于所述信息匹配结果,从所述候选对象中确定出目标检索对象。
另一方面,本申请提供了一种电子设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的多媒体信息编码方法,或对象检索方法。
另一方面,本申请提供了一种计算机存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行如上述的多媒体信息编码方法,或对象检索方法。
实施本申请实施例,具有如下有益效果:
本申请在对编码模型进行训练的过程中,基于各项样本多媒体信息之间的两两相似信息,确定各项样本编码信息分别对应的相似编码信息以及差异编码信息;基于相似编码信息以及差异编码信息确定损失信息;即本申请在确定损失信息时,基于的是各项样本多媒体信息之间的两两相似信息,即全面覆盖了各项样本多媒体信息之间的相似信息,每项样本多媒体信息与样本中其他多媒体信息之间的相似信息均能够被包含在损失信息中,从而提高了损失信息确定的准确性;并且本申请既可以适用于样本多媒体信息中包含原始样本多媒体信息以及经过相似变换的变换样本多媒体信息的场景,也可以适用于样本多媒体信息中包含原始样本多媒体信息的场景,从而能够提高应用灵活性,以及适配性。进一步地,在提高了损失信息准确性的基础上,基于该损失信息进行模型训练,能够提高目标编码模型的编码性能,从而提高了多媒体信息的编码准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的实施环境示意图;
图2是本申请实施例提供的一种多媒体信息编码方法流程图;
图3是本申请实施例提供的目标编码模型的训练方法流程图;
图4是本申请实施例提供的相似编码信息以及差异编码信息的确定方法流程图;
图5是本申请实施例提供的一种相似信息确定方法流程图;
图6是本申请实施例提供的一种编码信息生成方法流程图;
图7是本申请实施例提供的一种损失信息确定方法流程图;
图8是本申请实施例提供的另一种损失信息确定方法流程图;
图9是本申请实施例提供的一种多媒体信息变换方法流程图;
图10是本申请实施例提供的一种对象检索方法流程图;
图11是本申请实施例提供的目标编码模型的结构示意图;
图12是本申请实施例提供的目标编码模型的另一种结构示意图;
图13是本申请实施例提供的一种多媒体信息编码装置示意图;
图14是本申请实施例提供的一种对象检索装置示意图;
图15是本申请实施例提供的一种电子设备结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,其示出了本申请实施例提供的实施环境示意图,该实施环境可包括:至少一个检索请求端110和检索处理端120,检索请求端110和检索处理端120可通过网络进行数据通信。
具体地,检索请求端110可向检索处理端120发送检索请求,检索请求中可包括待检索对象的对象信息;检索处理端120可基于待检索对象的对象信息确定待检索对象的编码信息,然后基于待检索对象的编码信息与候选检索对象的编码信息进行信息匹配,基于匹配结果确定相应的对象检索结果;检索处理端120将对象检索结果发送至检索请求端110。
检索请求端110可以基于浏览器/服务器模式(Browser/Server,B/S)或客户端/服务器模式(Client/Server,C/S)与检索处理端120进行通信。检索请求端110可以包括:智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端、服务器等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本申请实施例中的检索请求端110上运行的操作***可以包括但不限于安卓***、IOS***、linux、windows等。
检索处理端120与检索请求端110可以通过有线或者无线建立通信连接,所述检索处理端120可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群,其中服务器可以是云端服务器。
为了解决现有技术中编码模型的编码性能不佳,导致多媒体信息编码准确性低的问题,本申请实施例提供了一种多媒体信息编码方法,其执行主体可以为上述的检索处理端,请参阅图2,该方法具体可包括:
S210.获取待编码多媒体信息。
本申请实施例中的多媒体信息可以包括图像、文本、音频、视频等类型的信息,从而待编码多媒体信息可以包括图像、文本、音频、视频等信息中的一种或者多种。当待编码多媒体信息包括一种类型的多媒体信息时,对应的是单模态输入场景;当待编码多媒体信息包括多种类型的多媒体信息时,且多种类型的多媒体信息是用于对相同对象的描述信息,则对应的是跨模态输入场景,例如,待编码多媒体信息包括图像和文本,图像中展示内容为一只猫,文本描述信息为“一只猫”,即图像和文本的描述信息是对应的。
S220.基于目标编码模型对所述待编码多媒体信息进行信息编码,得到与所述待编码多媒体信息对应的目标编码信息。
本实施例中的目标编码模型能够实现对待编码多媒体信息进行信息编码,信息编码可以为基于变换规则将多媒体信息变换成数字信息或者符号信息的信息变换方式,经过编码后得到的编码信息便于存储、检索以及使用;例如对于不同的多媒体信息,通过相同的变换规则进行信息变换,得到处于相同衡量标准以及相同编码长度的编码信息,从而可基于不同多媒体信息对应的编码信息进行比较、检索等操作。
本实施例中的信息编码方式具体可以为MD5(Message-Digest Algorithm5,信息摘要算法5)、SHA1(Secure HashAlgorithm 1,安全散列算法1)、SHA256(SecureHashAlgorithm 256)、SHA512(Secure Hash Algorithm 512)等哈希编码,哈希编码能够将可变长度的信息变换为固定长度散列值。
目标编码模型基于损失信息对待训练编码模型进行模型训练得到;所述损失信息基于各项样本编码信息分别对应的相似编码信息以及差异编码信息确定;所述各项样本编码信息分别对应的相似编码信息以及差异编码信息基于所述各项样本多媒体信息之间的两两相似信息,从所述样本编码信息集合中确定出;所述样本编码信息集合基于所述待训练编码模型对各项样本多媒体信息分别进行信息编码得到。
在对待编码模型的训练过程中,其对应的损失信息可基于相似编码信息以及差异编码信息确定,相似编码信息以及差异编码信息可基于各项样本多媒体信息之间的两两相似信息确定,即在确定损失信息时,全面覆盖率各项样本多媒体信息之间的相似信息,每项样本多媒体信息与多媒体样本中其他多媒体信息之间的相似信息均能够被包含在损失信息中,从而提高了损失信息确定的准确性。由于在确定损失信息时涉及的是各项样本多媒体信息之间的相似信息,与样本多媒体信息的样本类型没有关系,从而该模型训练过程不仅可以适用于样本类型为样本多媒体信息包含原始样本多媒体信息的场景,还可以适用于样本类型为样本多媒体信息既包含原始样本多媒体信息,又包含对原始样本多媒体信息经过相似变换的变换样本多媒体信息的场景,从而能够提高应用灵活性,以及适配性。进一步地,在提高了损失信息准确性的基础上,基于该损失信息进行模型训练,能够提高目标编码模型的编码性能,从而提高了多媒体信息的编码准确性。
进一步地,对于目标编码模型的具体训练方法,请参阅图3,该方法可包括:
S310.基于待训练编码模型对各项样本多媒体信息分别进行信息编码,得到样本编码信息集合。
本实施例中待编码模型可以为初始化的机器学习模型,也可以为预训练模型;待训练编码模型中可包括与各种多媒体类型分别对应的编码子模型,例如与图像对应的第一编码子模型、与文本对应的第二编码子模型、与音频对应的第三编码子模型、与视频对应的第四编码子模型。在单模态输入场景中,可基于输入的多媒体信息的类型,确定相应的编码子模型,然后得到相应的编码信息;在跨模态输入场景中,可基于输入的多种类型的多媒体信息,确定相应的多个编码子模型,并基于多个编码子模型得到与跨模态多媒体信息对应的多项编码信息,其中多项编码信息的项数与输入的多媒体信息的类型数量一致;进一步地,为了便于编码信息的存储,还可对多项编码信息进行信息融合处理,得到与跨模态多媒体信息对应的融合编码信息。
基于样本多媒体信息的模态信息,通过待训练编码模型对样本多媒体信息进行信息编码,得到与各项样本多媒体信息对应的样本编码,从而得到相应的样本编码信息集合。样本编码信息集合中可包括每项样本多媒体信息对应的一项编码信息,或者包括每项样本多媒体信息对应的多项编码信息。
S320.基于所述各项样本多媒体信息之间的两两相似信息,从所述样本编码信息集合中确定各项样本编码信息分别对应的相似编码信息,以及差异编码信息。
基于各项样本多媒体信息之间的两两相似信息,可以确定任意两项样本多媒体信息之间的相似信息,任意两项样本多媒体信息之间的相似信息可表征任意两项样本多媒体信息之间的相似程度,相应可确定每项样本多媒体信息与其他样本多媒体信息之间的相似程度。本实施例中,对于相似的多媒体信息,其分别对应的编码信息也是相似的,从而可确定每项样本编码信息分别对应的相似编码信息,以及差异编码信息。
对于各项样本多媒体信息之间的两两相似信息,可通过相似度等级来表示,例如相似度等级可包括一级、二级、三级……,相似度等级越高,相应的相似程度越高;反之,相似程度越低;可设置相应的相似度阈值,例如相似度阈值可设置为三级,从而相似度等级大于等于三级的两个样本多媒体信息可被确定为相似样本多媒体信息,相似度等级小于三级的两个样本多媒体信息可被确定为差异样本多媒体信息。进一步地,还可通过相似度来表示,相似度具体可以为0-1之间的数,数值越大,相应的相似程度越高;反之,相似程度越低;可设置相应的相似度阈值,例如相似度阈值可设置为0.8,从而相似度大于等于0.8的两个样本多媒体信息可被确定为相似样本多媒体信息,相似度小于0.8的两个样本多媒体信息可被确定为差异样本多媒体信息。
从而对于每项编码信息对应的相似编码信息可以为与该项编码信息的相似度等级大于等于预设等级,或者与该项编码信息的相似度阈值大于等于预设相似度阈值的样本编码信息,相似编码信息可以包括该项编码信息本身;相应地,差异编码信息可以为与该项编码信息的相似度等级小于预设等级,或者与该项编码信息的相似度阈值小于预设相似度阈值的样本编码信息。
在各项样本多媒体信息均为原始多媒体信息时,可对每项原始多媒体信息与各项样本多媒体信息中的其他原始多媒体信息进行相似度计算,从而得到各项原始多媒体信息之间的两两相似信息。进一步地,每项原始多媒体信息与其本身也是相似的。
在各项样本多媒体信息包括原始多媒体信息和变换多媒体信息时,变换多媒体基于对原始多媒体信息进行相似变换得到,即原始多媒体信息与变换多媒体信息是一一对应的,每项原始多媒体信息均对应的一项变换多媒体信息,且具有对应关系的原始多媒体信息与变换多媒体信息是相似的。可基于各项原始多媒体信息之间的两两相似信息确定各项变换多媒体信息之间的两两相似信息,各项原始多媒体信息之间的两两相似信息与变换多媒体信息之间的两两相似信息一致。例如,对于原始多媒体信息xi和xj,其对应的变换多媒体信息分别为x'i和x'j,可以确定xi与xj的相似信息、x'i与x'j的相似信息、xi与x'j的相似信息以及x'i与xj的相似信息均一致。进一步地,每项原始多媒体信息与其本身也是相似的,每项变换多媒体信息与其本身也是相似的。从而基于原始多媒体信息之间的两两相似信息即可确定出变换多媒体信息之间的两两相似信息,进而得到各项样本多媒体信息之间的两两相似信息,提高了各项样本多媒体信息之间两两相似性确定的效率。
本实施例中在确定各项样本多媒体信息之间的两两相似信息时,可对各项样本多媒体信息进行两两组合,以得到与每个组合对应的相似信息,从而可避免任意两项样本多媒体信息之间相似信息的重复计算。
S330.基于所述各项样本编码信息分别对应的所述相似编码信息以及所述差异编码信息,确定损失信息。
本实施例中对于编码模型的训练可采用无监督训练,相应可基于相似编码信息以及差异编码信息来确定损失信息。
由于各项样本多媒体信息之间的两两相似信息是客观存在的,从而相应的训练目标是基于目标编码模型对各项样本多媒体信息进行编码所得到的编码信息也应该具备相应的两两相似信息,但是由于编码模型的参数不够完善,从而可能导致对样本多媒体信息的编码结果不准确,进而可能导致实际相似样本多媒体信息的编码信息不相似,或者实际不相似的样本多媒体信息的编码信息相似,由此生成了损失信息。
S340.基于所述损失信息对所述待训练编码模型进行模型训练,得到目标编码模型。
具体在每次训练过程中,需要基于相似编码信息以及差异编码信息确定本次训练过程的损失信息,进而可基于这个损失信息反向更新编码模型的参数。通过确定损失信息并且不断的优化损失函数,例如可采用随机梯度下降对损失函数进行优化,能够使得各项编码信息之间的两两相似信息逼近各项样本多媒体信息之间的两两相似信息,在达到预设的训练条件时,即可完成对待训练编码模型的训练,得到目标编码模型。
本申请在对编码模型进行训练的过程中,基于各项样本多媒体信息之间的两两相似信息,确定各项样本编码信息分别对应的相似编码信息以及差异编码信息;基于相似编码信息以及差异编码信息确定损失信息;即本申请在确定损失信息时,基于的是各项样本多媒体信息之间的两两相似信息,即全面覆盖了各项样本多媒体信息之间的相似信息,每项样本多媒体信息与样本中其他多媒体信息之间的相似信息均能够被包含在损失信息中,从而提高了损失信息确定的准确性,进一步地,在提高了损失信息准确性的基础上,基于该损失信息进行模型训练,能够提高目标编码模型的编码性能。
对于编码模型训练过程中的相似编码信息以及差异编码信息的确定方法,具体可参阅图4,该方法可包括:
S410.对于所述样本编码信息集合中的每项样本编码信息,确定所述每项样本编码信息对应的目标样本多媒体信息。
S420.基于所述各项样本多媒体信息之间的两两相似信息,确定所述目标样本多媒体信息的相似多媒体信息,以及差异多媒体信息。
S430.将所述样本编码信息集合中,所述相似多媒体信息对应的样本编码信息确定为所述相似编码信息。
S440.将所述样本编码信息集合中,所述差异多媒体信息对应的样本编码信息确定为所述差异编码信息。
由于样本编码信息与样本多媒体信息是对应的,从而对于样本编码信息集合中的每项样本编码信息,均可确定相应的目标样本多媒体信息。任意两项相似的样本多媒体信息,其分别对应的样本编码信息也是相似的,从而对于目标样本多媒体信息,可确定目标样本多媒体信息的相似多媒体信息以及差异多媒体信息。
具体地,以两两相似信息为相似度数值为例进行说明,将各项样本多媒体信息中,与目标样本多媒体信息的相似度数值大于等于相似度阈值的样本多媒体信息确定为目标样本多媒体信息的相似多媒体信息,本实施例中,目标样本多媒体信息本身也可被确定为其相似多媒体信息;从而各项样本多媒体信息中,与目标样本多媒体信息的相似度数值小于相似度阈值的样本多媒体信息可被确定为差异样本多媒体信息。进一步地,对于目标样本多媒体信息对应的差异多媒体信息的确定,还可直接将各项样本多媒体信息中除目标样本多媒体信息,以及与目标样本多媒体信息的相似度大于相似度阈值的样本多媒体信息之外的样本多媒体信息确定为差异多媒体信息。
在一个示例中,当各项样本多媒体信息均为原始多媒体信息时,可对应非对比学习,基于各项样本多媒体信息之间的两两相似信息,可确定每项样本多媒体信息对应的相似多媒体信息,以及差异多媒体信息。对于样本编码信息集合中的每一编码信息ui,其对应的原始多媒体信息为xi,可根据每项原始多媒体信息xi与其他原始多媒体信息之间的两两相似信息,得到与原始多媒体信息xi对应的相似多媒体信息xj,相似多媒体信息xj包括样本多媒体信息为xi本身。相应可确定相似多媒体信息xj对应的相似编码信息uj,即确定了与编码信息ui对应的相似编码信息uj。
在另一个示例中,各项样本多媒体信息可包括原始多媒体信息以及变换多媒体信息;变换多媒体基于对原始多媒体信息进行相似变换得到,即原始多媒体信息与变换多媒体信息是一一对应的,原始多媒体信息中的每项多媒体信息均对应变换多媒体信息中的一项多媒体信息,且具有对应关系的多媒体信息是相似的。可对应对比学习,各项样本多媒体信息之间的两两相似信息可通过相似度计算以及相似变换确定。对于每项原始多媒体信息,可通过相似度计算的方法确定该项多媒体信息与其他原始多媒体信息之间的相似信息;对于与该项原始多媒体信息对应的变换多媒体信息,可确定该项原始多媒体信息与对应的变换多媒体信息的相似度为目标相似度,目标相似度大于相似度阈值。对于每项变换多媒体信息,该项变换多媒体信息与其他变换多媒体信息之间的相似信息可基于相应的原始多媒体信息之间的相似信息确定。例如,对于原始多媒体信息xi和xj,其对应的变换多媒体信息分别为x'i和x'j,可以确定xi与xj的相似信息、x'i与x'j的相似信息、xi与x'j的相似信息以及x'i与xj的相似信息均一致,其相似度数值均大于相似度阈值。对于样本编码信息集合中的编码信息ui,其对应的样本多媒体信息为xi,与样本多媒体信息xi具有相似变换关系的相似多媒体信息为x'i,相似多媒体信息x'i对应的编码信息为u'i,对于样本编码信息集合中的编码信息uj,其对应的样本多媒体信息为xj,与样本多媒体信息xj具有相似变换关系的相似多媒体信息为x'j,相似多媒体信息x'j对应的编码信息为u'j,由于变换多媒体信息是经过相似变换得到的,从而xi与x'i的相似度数值大于等于相似度阈值,xj与x'j的相似度数值大于等于相似度阈值,若xi与xj的相似度数值大于等于预设相似度阈值,可知编码信息ui,uj,u'i以及u'j之间的两两相似度数值均大于等于相似度阈值,从而得到了相似编码信息集合。
从而在确定每项样本编码信息对应的相似编码信息以及差异编码信息时,首先确定每项编码信息对应的目标样本多媒体信息,基于各项样本多媒体信息之间的两两相似关系,确定各项样本编码信息之间的两两相似关系,进而能够确定出相似编码信息以及差异编码信息,从而提高了相似编码信息以及差异编码信息确定的便利性以及准确性。
对于各项样本多媒体信息之间两两相似信息的确定,可基于各项样本多媒体信息的样本特征信息来确定;具体地,待训练编码模型可包括基于预训练得到的特征提取层,相应地,请参阅图5,其示出了一种相似信息确定方法,该方法可包括:
S510.基于所述特征提取层对所述各项样本多媒体信息进行特征提取,得到与所述各项样本多媒体信息分别对应的样本特征信息。
S520.基于所述各项样本多媒体信息分别对应的样本特征信息进行相似度计算,得到所述各项样本多媒体信息之间的两两相似信息。
本实施例中待训练编码模型中的特征提取层可以为经过预训练得到的特征提取层,其具备特征提取能力,从而可基于待训练编码模型中的特征提取层对各项样本多媒体信息进行特征提取,得到各项样本多媒体信息分别对应的样本特征信息;每项样本多媒体信息对应的样本特征信息均能够表征相应多媒体信息的特征数据,从而可基于各项样本多媒体信息对应的样本特征信息进行相似度计算,得到各项多媒体信息之间的两两相似信息。样本特征信息具体可以为特征向量或者特征编码等形式。
从而基于预训练得到的特征提取层对样本多媒体信息进行特征提取,从而提高了样本特征信息提取的效率以及准确性,进一步地可提高相似信息计算的效率以及准确性。
进一步地,对于各项样本多媒体信息之间的两两相似信息,还可基于多媒体信息的类型进行确定,例如,当样本多媒体信息的类型包括图像时,相应可基于像素点比对的方式对各项样本图像进行相似度计算;当样本多媒体信息的类型包括文本时,相应可基于文本比对的方式对各项样本文本进行相似度计算。
各项样本多媒体信息可包括原始多媒体信息以及变换多媒体信息,变换多媒体基于对原始多媒体信息进行相似变换得到的,从而可通过模型参数共享的两个编码模型分别对原始多媒体信息以及变换多媒体信息进行编码,即待训练编码模型包括第一编码模型,以及第二编码模型;所述第一编码模型以及所述第二编码模型共享模型参数;具体请参阅图6,其示出了一种编码信息生成方法,该方法可包括:
S610.基于所述第一编码模型对所述原始多媒体信息进行信息编码,得到第一编码信息。
S620.基于所述第二编码模型对所述变换多媒体信息进行信息编码,得到第二编码信息。
S630.基于所述第一编码信息以及所述第二编码信息生成所述样本编码信息集合。
在获取到原始多媒体信息时,可对原始多媒体信息进行相似变换,得到变换多媒体信息,基于原始多媒体信息以及变换多媒体信息确定样本多媒体信息,从而能够减小对原始多媒体信息数量的需求,扩充了样本多媒体信息的数量。
另外,原始多媒体信息与变换多媒体信息是一一对应的,从而可基于模型参数共享的第一编码模型以及第二编码模型,分别对原始多媒体信息以及变换多媒体信息进行信息编码,得到与原始多媒体信息对应的第一编码信息,以及与变换多媒体信息对应的第二编码信息,然后基于第一编码信息以及第二编码信息生成样本编码信息。
即通过对原始多媒体信息进行相似变换,得到相应的变换多媒体信息,从而能够扩充样本多媒体信息的数量,进而能够提高后续编码模型训练的准确性。另外,通过模型参数共享的第一编码模型以及第二编码模型分别进行信息编码,能够实现在提高编码效率的基础上,保证编码模型参数的一致性,即保证第一编码模型和第二编码模型是在相同的参数条件下进行信息编码的,便于第一编码信息以及第二编码信息之间相似关系的确定。
样本编码信息集合中的各项样本编码信息,其应当具备相应样本多媒体信息之间的两两相似信息,即对于样本多媒体信息xi与xj,其分别对应的编码信息为ui与uj,若xi与xj的相似度数值大于等于预设相似度阈值,那么编码信息ui与uj的相似度数值也应该大于等于预设相似度阈值,若xi与xj的相似度数值小于预设相似度阈值,那么编码信息ui与uj的相似度数值也应该小于预设相似度阈值,从而在构建损失函数时,可分别基于相似编码信息与差异编码信息构建损失信息项。具体请参阅图7,其示出了一种损失信息确定方法,该方法可包括:
S710.对于所述样本编码信息集合中的每项样本编码信息,基于所述每项样本编码信息对应的相似编码信息构建第一损失信息项。
S720.基于所述每项样本编码信息对应的差异编码信息构建第二损失信息项。
S730.基于所述第一损失信息项以及所述第二损失信息项,确定所述损失信息。
对于每项样本编码信息,可基于其对应的相似编码信息构建第一损失信息项,基于第一损失信息项可以使得编码模型在训练过程中,拉近预测样本编码信息与相似编码信息之间的距离;基于差异编码信息构建第二损失信息项,基于第二损失信息项可以使得编码模型在训练过程中,拉大预测样本编码信息与差异编码信息之间的距离。
从而基于相似编码信息对应的第一损失信息项以及差异编码信息对应的第二损失信息项构建损失信息,能够从相似编码维度以及差异编码维度分别考虑样本编码信息对模型训练的影响,从而提高了损失信息确定的准确性。
为了进一步提高对编码模型训练过程中模型的训练损失,在样本多媒体信息包括原始多媒体信息,以及经过相似变换的变换多媒体信息时,还可基于原始多媒体信息的相似度矩阵来确定损失信息;具体请参阅图8,其示出了另一种损失信息确定方法,该方法可包括:
S810.基于所述第一编码信息、所述第二编码信息以及相似度矩阵,确定第三损失信息;所述相似度矩阵表征所述原始多媒体信息中各项多媒体信息之间的相似度。
S820.基于所述第一损失信息项、所述第二损失信息项以及所述第三损失信息项,确定所述损失信息。
以两两相似信息为相似度数值为例进行说明,相似度矩阵中可包括原始多媒体信息中各项多媒体信息之间的相似度数值,相似度数值可基于预训练得到的特征提取层提取的样本特征信息得到,也可以基于不同多媒体类型对应的信息比对方式得到,本实施例不做具体限定。
基于第一编码信息、第二编码信息以及相似度矩阵,可以确定出第三损失信息项,第三损失信息项可以表征第一编码模型与第二编码模型输出的编码信息与原始多媒体信息的相似信息之间的关联信息,从而在第一损失信息项与第二损失信息项的基础上,结合第三损失信息项确定损失信息,从而实现基于更加全面的信息确定损失信息,提高损失信息确定的准确性。
在一个示例中,基于损失信息确定的损失函数如下所示:
其中,cosh()是双曲余弦函数,cos()是余弦函数,α和μ是超参数,第一损失信息项为第二损失信息项为/>第三损失信息项为/>Z为第一编码信息,Z'为第二编码信息,r为编码长度,S为相似度矩阵,Z∪Z'为样本编码信息集合,对于Z∪Z'中的每一项编码信息u,Ou表示Z∪Z'集合中应该与编码信息u相似的编码信息集合,即对应相似编码信息,Pu对应差异编码信息,|Ou|表示集合Ou中编码信息的项数。
对原始多媒体信息进行相似变换,可生成相应的变换多媒体信息,对于每项原始多媒体信息,可基于多媒体信息类型,确定相应的相似变换方式;具体请参阅图9,其示出了一种多媒体信息变换方法,该方法可包括:
S910.基于所述原始多媒体信息的信息类型,确定多种预设相似变换。
S920.从所述多种预设相似变换中确定目标相似变换。
S930.对所述原始多媒体信息执行所述目标相似变换,得到所述变换多媒体信息。
当原始多媒体信息的信息类型为图像时,对应的预设相似变换可包括旋转、裁剪、缩放、叠加噪声、遮盖、颜色变换、滤镜等;当原始多媒体信息的信息类型为文本时,对应的预设相似变换可包括回译、字符***、字符删除等。可基于原始多媒体信息的信息类型,从相应的预设相似变换中确定一种或者多种相似变换,形成目标相似变换,对原始多媒体信息执行目标相似变换,得到变换多媒体信息。在每次训练过程中,一项原始多媒体信息对应一项变换多媒体信息,不同训练过程中,由于对同一原始多媒体信息执行的目标相似变换可能不同,从而同一原始多媒体信息对应的变换多媒体信息也可能不同。
从而通过对原始多媒体信息进行相似变换,得到相应的变换多媒体信息,从而扩充了样本多媒体信息的数量;进一步地,在不同的训练过程中,同一原始多媒体信息可能对应不同的变换多媒体信息,从而提高了样本多媒体信息的多样性。
在待训练编码模型包括信息编码层以及基于预训练得到的特征提取层的情况下,在对待训练编码模型进行模型训练时,可基于第一学习率对所述特征提取层进行训练,基于第二学习率对所述信息编码层进行训练;所述第一学习率小于所述第二学习率。
本实施例中,特征提取层可以是通过预训练得到,从而在对待训练编码模型进行训练时,可设置特征提取层的第一学习率小于信息编码层的第二学习率;其中学习率可以为表征模型参数的更新频率,从而使得对信息编码层的模型参数的更新速率大于对特征提取层的模型参数的更新速率,使得信息编码层的模型参数尽快收敛,进而提高对信息编码层的模型训练效率。
对于目标编码模型的训练过程,可基于如下算法流程实现:
1.输入:样本多媒体信息集合,迭代次数t,学习率η,batch-size=n。
2.基于预训练的特征提取层对样本多媒体信息进行特征提取,得到样本多媒体信息对应的样本特征信息。
3.基于样本特征信息构造各项样本多媒体信息之间的两两相似信息。
4.重复执行t次:
每次从样本多媒体信息集合中随机选择n项样本多媒体信息,记为Xc,对n项样本多媒体信息Xc进行相似变换,得到X'c。
将Xc以及X'c输入到待训练编码模型中进行信息编码,得到相应的编码信息Zc以及Z'c。
将Zc、Z'c以及n项样本多媒体信息之间的两两相似信息代入式(1),反向传播以学习率η更新待训练编码模型中的模型参数。
5.输出:目标编码模型。
对于本实施例上述的多媒体信息编码方法,其具体还可应用于检索场景中,具体请参阅图10,其示出了一种对象检索方法,该方法可包括:
S1010.获取待检索对象的编码信息以及候选对象的编码信息;所述待检索对象的编码信息基于目标编码模型对所述待检索对象的多媒体信息进行信息编码得到;所述候选对象的编码信息基于所述目标编码模型对所述候选对象的多媒体信息进行信息编码得到。
所述目标编码模型基于损失信息对待训练编码模型进行模型训练得到;所述损失信息基于各项样本编码信息分别对应的相似编码信息以及差异编码信息确定;所述各项样本编码信息分别对应的相似编码信息以及差异编码信息基于所述各项样本多媒体信息之间的两两相似信息,从所述样本编码信息集合中确定出;所述样本编码信息集合基于所述待训练编码模型对各项样本多媒体信息分别进行信息编码得到。
S1020.对所述待检索对象的编码信息以及所述候选对象的编码信息进行信息匹配,得到信息匹配结果。
S1030.基于所述信息匹配结果,从所述候选对象中确定出目标检索对象。
对象检索过程中所基于的目标编码模型,可基于本实施例上述的编码模型训练方法得到,在此不再赘述。
对于对象而言,在信息推送领域,对象可以为推送信息,例如广告,文章、小视频等,相应的待检索对象的多媒体信息可以为推送信息中包含的图像、文本、音频、视频等信息;在电商领域,对象可以为商品,相应的待检索对象的多媒体信息可以为商品的图像,对商品进行介绍的文字、音频或者视频等信息。
对于待检索对象以及候选对象的编码信息,均可基于目标编码模型进行信息编码得到,从而可对待检索对象的编码信息以及候选对象的编码信息进行信息匹配,得到信息匹配结果,然后可基于信息匹配结果,从候选对象中确定出目标检索对象。
本实施例中的信息编码可以实现将高维的信息编码成低维紧凑的编码信息,从而基于各个对象的多媒体信息预先进行信息编码,得到与各个对象对应的低维编码信息,便于编码信息的存储,节省存储空间;另一方面,还可将编码信息映射为二值编码信息,在计算各对象对应的编码信息之间的距离时,可通过汉明距离进行计算,进一步地,对于二值编码信息的汉明距离计算可通过计算机的位异或操作(XOR)来实现,从而提高编码距离度量的效率,以及节约计算资源。
对象的编码信息可以为连续浮点型编码信息,从而对象的编码信息可以为编码向量,在对待检索对象以及候选对象的编码信息进行信息匹配时,可计算待检索对象的编码向量与候选对象的编码向量之间的编码距离或者编码相似度,从而可将编码距离或者编码相似度确定为匹配结果。
对象的编码信息也可以为非连续二值编码信息,例如非连续编码信息中包括0和1,或者包括1和-1,从而可通过计算待检索对象的非连续编码信息与候选对象的非连续编码信息之间的汉明距离,来得到待检索对象与候选对象的匹配结果。
信息匹配结果中可包括待检索对象与各候选对象的匹配信息,可将匹配信息大于预设匹配值的候选对象确定为与待检索对象对应的目标检索对象。在检索到目标检索对象时,可基于目标检索对象进行对象推荐、对象投放等。
例如在广告***中,相似检索作为至关重要的一个环节,肩负诸多重要的业务如广告检索、商品检索;同时其对后续的召回、粗排、精排环节有较大的影响,从而基于上述的提高相似检索准确性的基础上,也能够提高后续召回、粗排、精排等环节的处理结果准确性。
从而基于待检索对象的编码信息与候选对象的编码信息进行信息匹配,得到待检索对象与各候选对象的匹配信息,进而可确定与待检索对象相匹配的目标检索对象;其中对象的编码信息可基于目标编码模型生成,而在训练生成目标编码模型的过程中,损失信息是各项样本多媒体信息之间的两两相似信息确定的,从而能够提高目标编码模型的编码准确性,基于目标编码模型的编码信息进行对象检索,能够提高对象检索结果确定的准确性。
下面以多媒体信息是图像为例进行具体说明,对原始多媒体信息的相似变换也可以理解为对原始多媒体信息的数据增强,原始样本图像为其中xi表示原始样本图像中的第i张图像,对原始样本图像中的各项图像进行数据增强处理,得到增强样本图像/>其中x'i表示原始样本图像中第i张图像对应的增强图像。从而可将原始样本图像以及增强样本信息输入到编码模型中;请参阅图11,其示出了目标编码模型的结构示意图,目标编码模型包括第一编码模型以及第二编码模型,第一编码模型以及第二编码模型共享模型参数,特征提取层具体可以为在ImageNet上预训练好的VGG19网络,相应提取的原始样本图像/>的特征表示为/>其中fi∈R4096表示原始样本图像中的第i张图像对应的特征信息,基于原始样本图像/>的特征表示为生成表征原始样本图像相似性的相似度矩阵S,S∈[-1,1]n×n,其中第i行第j列为Sij,表示原始样本图像中第i张图像与第j张图像之间的相似性,当Sij越接近1,则图像xi与图像xj越相似,当Sij越接近-1,则图像xi与图像xj越不相似。从而在对待训练模型进行模型训练时,可将原始样本图像/>以及增强样本图像/>分别输入到第一编码模型以及第二编码模型中,从而得到/>对应的编码信息对应的编码信息/>其中r为编码信息长度。
基于上述式(1)的损失函数进行损失信息的计算,具体地,Z∪Z'为原始样本图像以及增强样本图像对应的编码信息集合,对于Z∪Z'中的每一项编码信息u,Ou表示Z∪Z'集合中应该与编码信息u相似的编码信息集合,即对应相似编码信息,Pu对应Z∪Z'集合中不应该与编码信息u相似的编码信息集合,即差异编码信息,|Ou|表示集合Ou中编码信息的项数。
对于Z∪Z'中的每一项编码信息u,其对应的Ou和Pu的构造方式具体为:u为zi或z'i,即u为第i张图像xi或者其增强图像x'i对应的编码信息,当Sij大于等于预设相似度阈值时,认为图像xi与图像xj相似,图像xi与图像x'j相似,或图像x'i与图像xj相似,图像x'i与图像x'j相似,从而u与编码信息zj和z'j,即zj和z'j属于集合Ou;反之,当Sij小于预设相似度阈值时,则zj和z'j属于集合Pu。现有技术中Ou和Pu的构造方式一般为:u为zi或z'i,则Ou={zi,z'i},而Z∪Z'中的其余编码信息则属于集合Pu;即现有技术中的方法认为的一张图像的编码信息只与其自己或其增强图片的编码信息相似,而与其他图像的编码信息均不相似,然而该方式将会将样本图像中大量的相似点处理成不相似点,进而使得相似图片对的编码信息之间的距离变大。而本申请实施例中对于Ou和Pu的构造方式,可预先设置用于判断的预设相似度阈值,从而除了将每张图像的增强图像确定为与其相似的图像之外,还将样本图像中与该图像相似度大于预设相似度阈值的其他图像确定为相似图像,并且相似图像对所对应的增强图像之间也是相似的,均将其归到集合Ou,从而保证了集合Ou确定的全面性,进而能够提高损失信息确定的准确性。
在另一个示例中,以多媒体信息包括图像和文本为例进行具体说明,请参阅图12,其示出了目标编码模型的另一种结构示意图,目标编码模型包括图像编码模型以及文本编码模型,从而可实现对多模态多媒体输入信息进行编码,其中图像样本与文本样本构成样本对,即图像样本中的各项图像与文本样本中的各项文本是一一对应的。
图像编码模型包括图像特征提取层、图像全连接层、图像信息编码层,基于图像特征提取层对图像样本进行图像特征提取,得到图像特征信息,基于图像全连接层对图像特征信息进行信息分类,得到图像分类信息,基于图像信息编码层对图像分类信息进行信息编码,得到图像编码信息集合Zx。
文本编码模型包括文本特征提取层、文本全连接层、文本信息编码层,基于文本特征提取层对文本样本进行文本特征提取,得到文本特征信息,基于文本全连接层对文本特征信息进行信息分类,得到文本分类信息,基于文本信息编码层对文本分类信息进行信息编码,得到文本编码信息集合Zy。
进一步地,对于图12中示出的图像编码模型以及文本编码模型,图像编码模型还可进一步包括第一图像编码模型以及第二图像编码模型,以分别对原始图像样本进行图像编码,以及对增强图像样本进行图像编码,其具体实施过程可参阅图11所对应的实施例。同样地,文本编码模型还可进一步包括第一文本编码模型以及第二文本编码模型,已分别对原始文本样本进行文本编码,以及对增强文本样本进行文本编码,其实施过程与文本编码类似,在此不再赘述。其中对于增强图像样本以及增强文本样本的生成方法也可参阅本实施例上述内容。
需要说明的是,图12中示出的是图像与文本形成的多模态输入信息,在具体实施过程中,多模态输入信息可以为图像、文本、音频、视频等多媒体信息中的两种或者两种以上类型的多媒体信息的组合样本对。
以上实施例中所提供的各种实施方法可基于实际应用情况进行随机组合,并具备执行组合后方法相应的有益效果。
请参阅图13,其示出了一种多媒体信息编码装置,包括:
第一获取模块1310,用于获取待编码多媒体信息;
第一编码模块1320,用于基于目标编码模型对所述待编码多媒体信息进行信息编码,得到与所述待编码多媒体信息对应的目标编码信息;
所述目标编码模型基于损失信息对待训练编码模型进行模型训练得到;所述损失信息基于各项样本编码信息分别对应的相似编码信息以及差异编码信息确定;所述各项样本编码信息分别对应的相似编码信息以及差异编码信息基于所述各项样本多媒体信息之间的两两相似信息,从所述样本编码信息集合中确定出;所述样本编码信息集合基于所述待训练编码模型对各项样本多媒体信息分别进行信息编码得到。
进一步地,所述装置包括:
第一确定模块,用于对于所述样本编码信息集合中的每项样本编码信息,确定所述每项样本编码信息对应的目标样本多媒体信息;
第二确定模块,用于基于所述各项样本多媒体信息之间的两两相似信息,确定所述目标样本多媒体信息的相似多媒体信息,以及差异多媒体信息;
第三确定模块,用于将所述样本编码信息集合中,所述相似多媒体信息对应的样本编码信息确定为所述相似编码信息;
第四确定模块,用于将所述样本编码信息集合中,所述差异多媒体信息对应的样本编码信息确定为所述差异编码信息。
进一步地,待训练编码模型包括基于预训练得到的特征提取层;
所述装置还包括:
特征提取模块,用于基于所述特征提取层对所述各项样本多媒体信息进行特征提取,得到与所述各项样本多媒体信息分别对应的样本特征信息;
相似度计算模块,用于基于所述各项样本多媒体信息分别对应的样本特征信息进行相似度计算,得到所述各项样本多媒体信息之间的两两相似信息。
进一步地,所述各项样本多媒体信息包括原始多媒体信息以及变换多媒体信息;所述变换多媒体基于对所述原始多媒体信息进行相似变换得到;所述待训练编码模型包括第一编码模型,以及第二编码模型;所述第一编码模型以及所述第二编码模型共享模型参数;
所述装置还包括:
第二编码模块,用于基于所述第一编码模型对所述原始多媒体信息进行信息编码,得到第一编码信息;
第三编码模块,用于基于所述第二编码模型对所述变换多媒体信息进行信息编码,得到第二编码信息;
集合确定模块,用于基于所述第一编码信息以及所述第二编码信息生成所述样本编码信息集合。
进一步地,所述装置还包括:
第一构建模块,用于对于所述样本编码信息集合中的每项样本编码信息,基于所述每项样本编码信息对应的相似编码信息构建第一损失信息项;
第二构建模块,用于基于所述每项样本编码信息对应的差异编码信息构建第二损失信息项;
损失信息确定模块,用于基于所述第一损失信息项以及所述第二损失信息项,确定所述损失信息。
进一步地,所述基于所述第一损失信息项以及所述第二损失信息项,确定所述损失信息,包括:
第三构建模块,用于基于所述第一编码信息、所述第二编码信息以及相似度矩阵,构建第三损失信息项;所述相似度矩阵表征所述原始多媒体信息中各项多媒体信息之间的相似度;
第五确定模块,用于基于所述第一损失信息项、所述第二损失信息项以及所述第三损失信息项,确定所述损失信息。
进一步地,所述装置还包括:
预设相似变换确定模块,用于基于所述原始多媒体信息的信息类型,确定多种预设相似变换;
目标相似变换确定模块,用于从所述多种预设相似变换中确定目标相似变换;
目标相似变换模块,用于对所述原始多媒体信息执行所述目标相似变换,得到所述变换多媒体信息。
进一步地,所述待训练编码模型包括信息编码层以及基于预训练得到的特征提取层;
所述装置还包括:
模型训练模块,用于基于第一学习率对所述特征提取层进行训练,基于第二学习率对所述信息编码层进行训练;所述第一学习率小于所述第二学习率。
请参阅图14,其示出了一种对象检索装置,包括:
第二获取模块1410,用于获取待检索对象的编码信息以及候选对象的编码信息;所述待检索对象的编码信息基于目标编码模型对所述待检索对象的多媒体信息进行信息编码得到;所述候选对象的编码信息基于所述目标编码模型对所述候选对象的多媒体信息进行信息编码得到;
所述目标编码模型基于损失信息对待训练编码模型进行模型训练得到;所述损失信息基于各项样本编码信息分别对应的相似编码信息以及差异编码信息确定;所述各项样本编码信息分别对应的相似编码信息以及差异编码信息基于所述各项样本多媒体信息之间的两两相似信息,从所述样本编码信息集合中确定出;所述样本编码信息集合基于所述待训练编码模型对各项样本多媒体信息分别进行信息编码得到;
信息匹配模块1420,用于对所述待检索对象的编码信息以及所述候选对象的编码信息进行信息匹配,得到信息匹配结果;
检索结果确定模块1430,用于基于所述信息匹配结果,从所述候选对象中确定出目标检索对象。
上述实施例中提供的装置可执行本申请任意实施例所提供方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的方法。
本实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行如本实施例上述任一方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如本实施例上述任一方法。
本实施例还提供了一种电子设备,其结构图请参见图15,该设备1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(centralprocessing units,CPU)1522(例如,一个或一个以上处理器)和存储器1532,一个或一个以上存储应用程序1542或数据1544的存储媒体1530(例如一个或一个以上海量存储设备)。其中,存储器1532和存储媒体1530可以是短暂存储或持久存储。存储在存储媒体1530的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对设备中的一系列指令操作。更进一步地,中央处理器1522可以设置为与存储媒体1530通信,在设备1500上执行存储媒体1530中的一系列指令操作。设备1500还可以包括一个或一个以上电源1526,一个或一个以上有线或无线网络接口1550,一个或一个以上输入输出接口1558,和/或,一个或一个以上操作***1541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。本实施例上述的任一方法均可基于图15所示的设备进行实施。
本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的***或中断产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本实施例中所示出的结构,仅仅是与本申请方案相关的部分结构,并不构成对本申请方案所应用于其上的设备的限定,具体的设备可以包括比示出的更多或更少的部件,或者组合某些部件,或者具有不同的部件的布置。应当理解到,本实施例中所揭露的方法、装置等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元模块的间接耦合或通信连接。
基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员还可以进一步意识到,结合本说明书所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但这种实现不应认为超出本申请的范围。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (20)
1.一种多媒体信息编码方法,其特征在于,包括:
获取待编码多媒体信息;
基于目标编码模型对所述待编码多媒体信息进行信息编码,得到与所述待编码多媒体信息对应的目标编码信息;
所述目标编码模型基于损失信息对待训练编码模型进行模型训练得到;所述损失信息基于各项样本编码信息分别对应的相似编码信息以及差异编码信息确定;所述各项样本编码信息分别对应的相似编码信息以及差异编码信息基于所述各项样本多媒体信息之间的两两相似信息,从样本编码信息集合中确定出;所述样本编码信息集合基于所述待训练编码模型对各项样本多媒体信息分别进行信息编码得到;所述损失信息使得所述各项样本编码信息之间的两两相似信息逼近所述各项样本多媒体信息之间的两两相似信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对于所述样本编码信息集合中的每项样本编码信息,确定所述每项样本编码信息对应的目标样本多媒体信息;
基于所述各项样本多媒体信息之间的两两相似信息,确定所述目标样本多媒体信息的相似多媒体信息,以及差异多媒体信息;
将所述样本编码信息集合中,所述相似多媒体信息对应的样本编码信息确定为所述相似编码信息;
将所述样本编码信息集合中,所述差异多媒体信息对应的样本编码信息确定为所述差异编码信息。
3.根据权利要求1所述的方法,其特征在于,待训练编码模型包括基于预训练得到的特征提取层;
所述方法还包括:
基于所述特征提取层对所述各项样本多媒体信息进行特征提取,得到与所述各项样本多媒体信息分别对应的样本特征信息;
基于所述各项样本多媒体信息分别对应的样本特征信息进行相似度计算,得到所述各项样本多媒体信息之间的两两相似信息。
4.根据权利要求1所述的方法,其特征在于,所述各项样本多媒体信息包括原始多媒体信息以及变换多媒体信息;所述变换多媒体基于对所述原始多媒体信息进行相似变换得到;所述待训练编码模型包括第一编码模型,以及第二编码模型;所述第一编码模型以及所述第二编码模型共享模型参数;
所述方法还包括:
基于所述第一编码模型对所述原始多媒体信息进行信息编码,得到第一编码信息;
基于所述第二编码模型对所述变换多媒体信息进行信息编码,得到第二编码信息;
基于所述第一编码信息以及所述第二编码信息生成所述样本编码信息集合。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对于所述样本编码信息集合中的每项样本编码信息,基于所述每项样本编码信息对应的相似编码信息构建第一损失信息项;
基于所述每项样本编码信息对应的差异编码信息构建第二损失信息项;
基于所述第一损失信息项以及所述第二损失信息项,确定所述损失信息。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第一损失信息项以及所述第二损失信息项,确定所述损失信息,包括:
基于所述第一编码信息、所述第二编码信息以及相似度矩阵,构建第三损失信息项;所述相似度矩阵表征所述原始多媒体信息中各项多媒体信息之间的相似度;
基于所述第一损失信息项、所述第二损失信息项以及所述第三损失信息项,确定所述损失信息。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于所述原始多媒体信息的信息类型,确定多种预设相似变换;
从所述多种预设相似变换中确定目标相似变换;
对所述原始多媒体信息执行所述目标相似变换,得到所述变换多媒体信息。
8.根据权利要求1所述的方法,其特征在于,所述待训练编码模型包括信息编码层以及基于预训练得到的特征提取层;
所述方法还包括:
基于第一学习率对所述特征提取层进行训练,基于第二学习率对所述信息编码层进行训练;所述第一学习率小于所述第二学习率。
9.一种对象检索方法,其特征在于,包括:
获取待检索对象的编码信息以及候选对象的编码信息;所述待检索对象的编码信息基于目标编码模型对所述待检索对象的多媒体信息进行信息编码得到;所述候选对象的编码信息基于所述目标编码模型对所述候选对象的多媒体信息进行信息编码得到;
所述目标编码模型基于损失信息对待训练编码模型进行模型训练得到;所述损失信息基于各项样本编码信息分别对应的相似编码信息以及差异编码信息确定;所述各项样本编码信息分别对应的相似编码信息以及差异编码信息基于所述各项样本多媒体信息之间的两两相似信息,从样本编码信息集合中确定出;所述样本编码信息集合基于所述待训练编码模型对各项样本多媒体信息分别进行信息编码得到;所述损失信息使得所述各项样本编码信息之间的两两相似信息逼近所述各项样本多媒体信息之间的两两相似信息;
对所述待检索对象的编码信息以及所述候选对象的编码信息进行信息匹配,得到信息匹配结果;
基于所述信息匹配结果,从所述候选对象中确定出目标检索对象。
10.一种多媒体信息编码装置,其特征在于,包括:
第一获取模块,用于获取待编码多媒体信息;
第一编码模块,用于基于目标编码模型对所述待编码多媒体信息进行信息编码,得到与所述待编码多媒体信息对应的目标编码信息;
所述目标编码模型基于损失信息对待训练编码模型进行模型训练得到;所述损失信息基于各项样本编码信息分别对应的相似编码信息以及差异编码信息确定;所述各项样本编码信息分别对应的相似编码信息以及差异编码信息基于所述各项样本多媒体信息之间的两两相似信息,从样本编码信息集合中确定出;所述样本编码信息集合基于所述待训练编码模型对各项样本多媒体信息分别进行信息编码得到;所述损失信息使得所述各项样本编码信息之间的两两相似信息逼近所述各项样本多媒体信息之间的两两相似信息。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第一确定模块,用于对于所述样本编码信息集合中的每项样本编码信息,确定所述每项样本编码信息对应的目标样本多媒体信息;
第二确定模块,用于基于所述各项样本多媒体信息之间的两两相似信息,确定所述目标样本多媒体信息的相似多媒体信息,以及差异多媒体信息;
第三确定模块,用于将所述样本编码信息集合中,所述相似多媒体信息对应的样本编码信息确定为所述相似编码信息;
第四确定模块,用于将所述样本编码信息集合中,所述差异多媒体信息对应的样本编码信息确定为所述差异编码信息。
12.根据权利要求10所述的装置,其特征在于,待训练编码模型包括基于预训练得到的特征提取层;
所述装置还包括:
特征提取模块,用于基于所述特征提取层对所述各项样本多媒体信息进行特征提取,得到与所述各项样本多媒体信息分别对应的样本特征信息;
相似度计算模块,用于基于所述各项样本多媒体信息分别对应的样本特征信息进行相似度计算,得到所述各项样本多媒体信息之间的两两相似信息。
13.根据权利要求10所述的装置,其特征在于,所述各项样本多媒体信息包括原始多媒体信息以及变换多媒体信息;
所述变换多媒体基于对所述原始多媒体信息进行相似变换得到;所述待训练编码模型包括第一编码模型,以及第二编码模型;所述第一编码模型以及所述第二编码模型共享模型参数;
所述装置还包括:
第二编码模块,用于基于所述第一编码模型对所述原始多媒体信息进行信息编码,得到第一编码信息;
第三编码模块,用于基于所述第二编码模型对所述变换多媒体信息进行信息编码,得到第二编码信息;
集合确定模块,用于基于所述第一编码信息以及所述第二编码信息生成所述样本编码信息集合。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
第一构建模块,用于对于所述样本编码信息集合中的每项样本编码信息,基于所述每项样本编码信息对应的相似编码信息构建第一损失信息项;
第二构建模块,用于基于所述每项样本编码信息对应的差异编码信息构建第二损失信息项;
损失信息确定模块,用于基于所述第一损失信息项以及所述第二损失信息项,确定所述损失信息。
15.根据权利要求14所述的装置,其特征在于,所述损失信息确定模块包括:
第三构建模块,用于基于所述第一编码信息、所述第二编码信息以及相似度矩阵,构建第三损失信息项;所述相似度矩阵表征所述原始多媒体信息中各项多媒体信息之间的相似度;
第五确定模块,用于基于所述第一损失信息项、所述第二损失信息项以及所述第三损失信息项,确定所述损失信息。
16.根据权利要求13所述的装置,其特征在于,所述装置还包括:
预设相似变换确定模块,用于基于所述原始多媒体信息的信息类型,确定多种预设相似变换;
目标相似变换确定模块,用于从所述多种预设相似变换中确定目标相似变换;
目标相似变换模块,用于对所述原始多媒体信息执行所述目标相似变换,得到所述变换多媒体信息。
17.根据权利要求10所述的装置,其特征在于,所述待训练编码模型包括信息编码层以及基于预训练得到的特征提取层;
所述装置还包括:
模型训练模块,用于基于第一学习率对所述特征提取层进行训练,基于第二学习率对所述信息编码层进行训练;所述第一学习率小于所述第二学习率。
18.一种对象检索装置,其特征在于,包括:
第二获取模块,用于获取待检索对象的编码信息以及候选对象的编码信息;所述待检索对象的编码信息基于目标编码模型对所述待检索对象的多媒体信息进行信息编码得到;所述候选对象的编码信息基于所述目标编码模型对所述候选对象的多媒体信息进行信息编码得到;
所述目标编码模型基于损失信息对待训练编码模型进行模型训练得到;所述损失信息基于各项样本编码信息分别对应的相似编码信息以及差异编码信息确定;所述各项样本编码信息分别对应的相似编码信息以及差异编码信息基于所述各项样本多媒体信息之间的两两相似信息,从样本编码信息集合中确定出;所述样本编码信息集合基于所述待训练编码模型对各项样本多媒体信息分别进行信息编码得到;所述损失信息使得所述各项样本编码信息之间的两两相似信息逼近所述各项样本多媒体信息之间的两两相似信息;
信息匹配模块,用于对所述待检索对象的编码信息以及所述候选对象的编码信息进行信息匹配,得到信息匹配结果;
检索结果确定模块,用于基于所述信息匹配结果,从所述候选对象中确定出目标检索对象。
19.一种电子设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至8任一项所述的多媒体信息编码方法,或如权利要求9所述的对象检索方法。
20.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行如权利要求1至8任一项所述的多媒体信息编码方法,或如权利要求9所述的对象检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210563346.7A CN115134338B (zh) | 2022-05-20 | 2022-05-20 | 多媒体信息编码方法、对象检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210563346.7A CN115134338B (zh) | 2022-05-20 | 2022-05-20 | 多媒体信息编码方法、对象检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115134338A CN115134338A (zh) | 2022-09-30 |
CN115134338B true CN115134338B (zh) | 2023-08-11 |
Family
ID=83375921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210563346.7A Active CN115134338B (zh) | 2022-05-20 | 2022-05-20 | 多媒体信息编码方法、对象检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115134338B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111246209A (zh) * | 2020-01-20 | 2020-06-05 | 北京字节跳动网络技术有限公司 | 自适应编码方法、装置、电子设备及计算机存储介质 |
CN113747168A (zh) * | 2020-05-29 | 2021-12-03 | 北京三星通信技术研究有限公司 | 多媒体数据描述模型的训练方法和描述信息的生成方法 |
CN114510599A (zh) * | 2022-01-14 | 2022-05-17 | 北京有竹居网络技术有限公司 | 特征编码模型生成方法、音频确定方法以及相关装置 |
-
2022
- 2022-05-20 CN CN202210563346.7A patent/CN115134338B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111246209A (zh) * | 2020-01-20 | 2020-06-05 | 北京字节跳动网络技术有限公司 | 自适应编码方法、装置、电子设备及计算机存储介质 |
CN113747168A (zh) * | 2020-05-29 | 2021-12-03 | 北京三星通信技术研究有限公司 | 多媒体数据描述模型的训练方法和描述信息的生成方法 |
CN114510599A (zh) * | 2022-01-14 | 2022-05-17 | 北京有竹居网络技术有限公司 | 特征编码模型生成方法、音频确定方法以及相关装置 |
Non-Patent Citations (1)
Title |
---|
赵瑞.《基于深度学习的视频-文本跨模态搜索》.《中国优秀硕士学位论文全文数据库》.2023,(第undefined期),17-18、35-49. * |
Also Published As
Publication number | Publication date |
---|---|
CN115134338A (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106777318B (zh) | 基于协同训练的矩阵分解跨模态哈希检索方法 | |
WO2017012491A1 (zh) | 一种图像高维特征的相似比较方法及装置 | |
CN111382555B (zh) | 数据处理方法、介质、装置和计算设备 | |
WO2022105117A1 (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
WO2022152161A1 (zh) | 混合图神经网络模型的训练、预测 | |
CN107766492B (zh) | 一种图像搜索的方法和装置 | |
US20220147878A1 (en) | Method for approximate k-nearest-neighbor search on parallel hardware accelerators | |
CN110188158B (zh) | 关键词及话题标签生成方法、装置、介质及电子设备 | |
CN110706055A (zh) | 商品信息推送方法及装置、存储介质、计算机设备 | |
JP7504192B2 (ja) | 画像を検索するための方法及び装置 | |
CN114613450A (zh) | 药物分子的性质预测方法、装置、存储介质及计算机设备 | |
CN114048851A (zh) | 基于不均衡间隔的语义特征自学习方法、设备及存储介质 | |
CN113590898A (zh) | 数据检索方法、装置、电子设备、存储介质及计算机产品 | |
CN113254687A (zh) | 图像检索、图像量化模型训练方法、装置和存储介质 | |
CN115134338B (zh) | 多媒体信息编码方法、对象检索方法及装置 | |
CN115169489B (zh) | 数据检索方法、装置、设备以及存储介质 | |
CN116796038A (zh) | 遥感数据检索方法、装置、边缘处理设备及存储介质 | |
CN107944045B (zh) | 基于t分布哈希的图像检索方法及*** | |
CN115881211B (zh) | 蛋白质序列比对方法、装置、计算机设备以及存储介质 | |
CN114417251A (zh) | 一种基于哈希码的检索方法、装置、设备及存储介质 | |
CN110334067B (zh) | 一种稀疏矩阵压缩方法、装置、设备及存储介质 | |
CN114329065A (zh) | 视频标签预测模型的处理方法、视频标签预测方法和装置 | |
CN107845116B (zh) | 生成平面图像的压缩编码的方法和装置 | |
CN118037355A (zh) | 信息点击率预测方法、装置、电子设备及存储介质 | |
CN116701565A (zh) | 检索结果确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |