CN117115602A - 信息分类方法、多媒体资源推送方法及装置 - Google Patents

信息分类方法、多媒体资源推送方法及装置 Download PDF

Info

Publication number
CN117115602A
CN117115602A CN202210511911.5A CN202210511911A CN117115602A CN 117115602 A CN117115602 A CN 117115602A CN 202210511911 A CN202210511911 A CN 202210511911A CN 117115602 A CN117115602 A CN 117115602A
Authority
CN
China
Prior art keywords
information
model
image
text
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210511911.5A
Other languages
English (en)
Inventor
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210511911.5A priority Critical patent/CN117115602A/zh
Publication of CN117115602A publication Critical patent/CN117115602A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及机器学习技术领域,尤其涉及一种信息分类方法、多媒体资源推送方法及装置,所述信息分类方法包括:获取目标图像的目标信息;基于信息分类模型对所述目标信息进行分类,得到所述目标图像的第一分类结果;所述信息分类模型基于与目标业务对应的目标图文样本,对待训练分类模型进行训练得到;所述待训练分类模型基于目标特征提取模型以及预设分类层得到;所述目标特征提取模型基于预设图文样本对多个预训练任务模型分别进行模型训练得到,所述目标特征提取模型为所述多个预训练任务模型的共享模型。本申请能够提高信息分类模型的训练效率以及分类能力,从而提高信息分类效率以及分类准确性。

Description

信息分类方法、多媒体资源推送方法及装置
技术领域
本申请涉及机器学习技术领域,尤其涉及一种信息分类方法、多媒体资源推送方法及装置。
背景技术
互联网上的多媒体资源来源广泛且数量庞大,这些多媒体资源的质量参差不齐,其中可能包括一些不适合被推送的多媒体资源,通过对多媒体资源进行分类,可基于资源分类结果进行资源的推送。
现有技术中,一般是通过对大量多媒体资源进行人工标注,以得到相应的训练样本,从而可基于训练样本进行模型训练,得到用于进行多媒体资源分类的分类模型。但由于多媒体资源数量庞大,通过人工标注生成训练样本效率低,进而导致分类模型的训练效率低,进一步造成信息分类效率低。
发明内容
本申请所要解决的技术问题在于,提供一种信息分类模型训练方法、多媒体资源推送方法及装置,能够提高分类模型的训练效率,以及分类模型的分类能力,进一步能够提高信息分类效率以及分类准确性。
为了解决上述技术问题,一方面,本申请实施例提供了一种信息分类方法,包括:
获取目标图像的目标信息;所述目标信息为所述目标图像的图像信息和文本信息,或所述目标信息为所述目标图像的图像信息;
基于信息分类模型对所述目标信息进行分类,得到所述目标图像的第一分类结果;所述信息分类模型基于与目标业务对应的目标图文样本,对待训练分类模型进行训练得到;所述待训练分类模型基于目标特征提取模型以及预设分类层得到;所述目标特征提取模型基于预设图文样本对多个预训练任务模型分别进行模型训练得到,所述目标特征提取模型为所述多个预训练任务模型的共享模型。
另一方面,本申请实施例提供了一种多媒体资源推送方法,包括:
确定候选多媒体资源对应的候选资源信息;所述候选资源信息为所述候选多媒体资源对应的图像信息和文本信息,或所述候选资源信息为所述多媒体资源对应的图像信息;
基于信息分类模型对所述候选资源信息进行分类,得到所述候选多媒体资源的第二分类结果;所述信息分类模型基于与目标业务对应的目标图文样本,对待训练分类模型进行训练得到;所述待训练分类模型基于目标特征提取模型以及预设分类层得到;所述目标特征提取模型基于预设图文样本对多个预训练任务模型分别进行模型训练得到,所述目标特征提取模型为所述多个预训练任务模型的共享模型;
基于所述第二分类结果,从所述候选多媒体资源确定出目标多媒体资源;
推送所述目标多媒体资源。
另一方面,本申请实施例提供了一种信息分类装置,包括:
第一获取模块,用于获取目标图像的目标信息;所述目标信息为所述目标图像的图像信息和文本信息,或所述目标信息为所述目标图像的图像信息;
第一分类模块,用于基于信息分类模型对所述目标信息进行分类,得到所述目标图像的第一分类结果;所述信息分类模型基于与目标业务对应的目标图文样本,对待训练分类模型进行训练得到;所述待训练分类模型基于目标特征提取模型以及预设分类层得到;所述目标特征提取模型基于预设图文样本对多个预训练任务模型分别进行模型训练得到,所述目标特征提取模型为所述多个预训练任务模型的共享模型。
另一方面,本申请实施例提供了一种多媒体资源推送装置,包括:
候选资源信息确定模块,用于确定候选多媒体资源对应的候选资源信息;所述候选资源信息为所述候选多媒体资源对应的图像信息和文本信息,或所述候选资源信息为所述多媒体资源对应的图像信息;
第二分类模块,用于基于信息分类模型对所述候选资源信息进行分类,得到所述候选多媒体资源的第二分类结果;所述信息分类模型基于与目标业务对应的目标图文样本,对待训练分类模型进行训练得到;所述待训练分类模型基于目标特征提取模型以及预设分类层得到;所述目标特征提取模型基于预设图文样本对多个预训练任务模型分别进行模型训练得到,所述目标特征提取模型为所述多个预训练任务模型的共享模型;
目标多媒体资源确定模块,用于基于所述第二分类结果,从所述候选多媒体资源确定出目标多媒体资源;
资源推送模块,用于推送所述目标多媒体资源。
另一方面,本申请提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的信息分类方法,或多媒体资源推送方法。
另一方面,本申请提供了一种计算机存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行如上述的信息分类方法,或多媒体资源推送方法。
实施本申请实施例,具有如下有益效果:
本申请预先基于预设图文样本对多个预训练任务模型分别进行训练,得到多个预训练任务模型共享的目标特征提取模型;然后基于目标特征提取层以及预测分类层,确定待训练分类模型;基于与目标业务对应的目标图文样本,对待训练分类模型进行训练,得到与目标业务对应的信息分类模型。即本申请中,通过预训练生成目标特征提取模型,然后基于目标业务对应到目标图文样本对目标特征提取模型进行微调,以得到能够用于目标业务场景中信息分类模型,从而降低了人工标注的成本,提高了信息分类模型的训练效率;进一步地,基于预设图文样本进行模型训练,使得训练得到的信息分类模型具备基于图文信息进行分类的能力,图文信息能够从图像维度以及文本维度对多媒体资源进行信息描述,从而使得图文信息具有较好的资源特征表征能力,从而进一步提高分类的准确性;另外,本申请中通过多个预训练任务模型的训练确定目标特征提取模型,多个预训练任务模型的训练过程是对目标特征提取模型的多种训练约束,从而能够提高目标特征提取模型的特征提取能力,进一步提高信息分类模型的分类能力。从而,基于本申请中的信息分类模型进行信息分类,能够提高信息分类效率以及分类准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的实施环境示意图;
图2是本申请实施例提供的信息分类方法流程图;
图3是本申请实施例提供的一种预设图文样本扩充方法流程图;
图4是本申请实施例提供的第一任务模型训练方法流程图;
图5是本申请实施例提供的第二任务模型训练方法流程图;
图6是本申请实施例提供的另一种第二任务模型训练方法流程图;
图7是本申请实施例提供的第三任务模型训练方法流程图;
图8是本申请实施例提供的一种信息分类模型更新方法流程图;
图9是本申请实施例提供的一种资源推送方法流程图;
图10是本申请实施例提供的一种信息分类结果确定方法流程图;
图11是本申请实施例提供的多个任务模型示意图;
图12是本申请实施例提供的信息分类模型的结构示意图;
图13是本申请实施例提供的一种信息分类模型训练装置示意图;
图14是本申请实施例提供的一种多媒体资源推送装置示意图;
图15是本申请实施例提供的电子设备结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,其示出了本申请实施例提供的实施环境示意图,该实施环境可包括:至少一个客户端110和资源推送端120,所述客户端110和所述资源推送端120可通过网络进行数据通信。
具体地,客户端110可向资源推送端120发送多媒体资源展示请求,资源推送端120可基于多媒体资源展示请求,向客户端110推送相应的目标多媒体资源;其中,资源推送端120在进行多媒体资源推送之前,可对候选多媒体资源进行资源分类,基于资源分类结果确定出符合推送条件的目标推送资源。对于资源推送端120对候选多媒体资源进行分类的操作,可在出现新增候选多媒体资源的情况下进行,即对新增候选多媒体资源进行资源分类操作。
客户端110可以基于浏览器/服务器模式(Browser/Server,B/S)或客户端/服务器模式(Client/Server,C/S)与资源推送端120进行通信。所述客户端110可以包括:智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端、服务器等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本申请实施例中的客户端110上运行的操作***可以包括但不限于安卓***、IOS***、linux、windows等。
资源推送端120与客户端110可以通过有线或者无线建立通信连接,资源推送端120可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群,其中服务器可以是云端服务器。
为了解决现有技术中分类模型的训练效率低,进一步造成信息分类效率低的问题,本申请实施例提供了一种信息分类方法,其执行主体可以为上述的资源推送端,请参阅图2,该方法可包括:
S210.获取目标图像的目标信息;所述目标信息为所述目标图像的图像信息和文本信息,或所述目标信息为所述目标图像的图像信息。
其中,目标图像可以为任意类型的图像,目标图像中可包括图像信息、文本信息等;具体地,目标图像可以为多媒体资源的封面图,或者多媒体资源的资源内容图等。以目标图像封面图为例,目标图像的图像信息即可为封面图中包括的图像信息;目标图像的文本信息即可为封面图中包括的文本信息,可通过对封面图进行文字识别得到文本信息;或者目标图像的文本信息还可以为与目标图像对应的预设文本标签信息,本申请实施例不做具体限定。
目标信息为图像信息和文本信息,以及目标信息为图像信息可分别对应信息的两种输入模态,从而可基于不同输入模态的信息进行信息分类,提高信息分类的灵活性。
S220.基于信息分类模型对所述目标信息进行分类,得到所述目标图像的第一分类结果;所述信息分类模型基于与目标业务对应的目标图文样本,对待训练分类模型进行训练得到;所述待训练分类模型基于目标特征提取模型以及预设分类层得到;所述目标特征提取模型基于预设图文样本对多个预训练任务模型分别进行模型训练得到,所述目标特征提取模型为所述多个预训练任务模型的共享模型。
本实施例中的信息分类模型可以是基于模型预训练得到的,对于信息分类模型的训练方法,其可包括以下步骤:
S2202.获取目标特征提取模型;所述目标特征提取模型基于预设图文样本对多个预训练任务模型分别进行模型训练得到,所述目标特征提取模型为所述多个预训练任务模型的共享模型。
本申请实施例中的目标特征提取模型可以为经过训练之后的,用于对图文信息进行特征提取的模型。进一步地,目标特征提取模型可包括图像特征提取层、文本特征提取层以及特征融合层,在通过目标特征提取模型进行特征提取时,将待提取图文信息中的图像信息输入到图像特征提取层,得到图像特征信息,将待提取图文信息中的文本信息输入到文本特征提取层,得到文本特征信息,将图像特征信息以及文本特征信息输入特征融合层,得到与待提取图文信息对应的输出特征。具体地,对于图像特征提取层、文本特征提取层以及特征融合层均可采用Transformer结构,或者图像特征提取层也可采用卷积网络。
预设图文样本可以包括预设图像信息以及与预设图像信息匹配的预设文本信息,与预设图像信息匹配的预设文本信息可以为基于预设图像信息中包含的文字信息确定的,也可以是与预设图像信息关联的文本信息,例如图像信息对应的标题信息,或者图像信息对应的标签信息等。预设图文样本的来源可包括:
1.信息流分发领域中的内容封面图信息以及相应的标记信息;具体可包括信息流内容的封面图以及相应的标题,基于封面图以及相应的标题可生成图文样本对;进一步地,对于标题的实体信息相近的封面图可认为是相似的封面图,从而基于标题以及对应的相似封面图也可生成图文样本对。标记信息不需要专门的人工标记,可以自动从信息流链路收集。
2.已有技术领域的图文匹配对公开数据集,比如CC12M(来自Google Research2021年2月,CVPR本文发布了大型数据集Conceptual 12M(CC12M),1200万个图像文本数据对用于vision-and-language模型的训练)、CC3M(Conceptual Captions dataset,包含图像URL、字幕对的数据集,用于机器学习图像字幕***的训练和评估)、SBU(SBU Captions数据集最初将图像字幕作为一个检索任务,包含100万个图片网址、标题对)等数据集,Conceptual Captions数据集的图像及其原始描述来自网络,因此代表了更广泛的风格;还可包括一些分类和目标检测结果标签的数据,比如Flickr30K和Flickr8K,COCO数据集合,这些有标签的分类数据可以作为预训练集合的一部分数据,简单来说就是这些图片的标签和图片本身构成一个图文匹配对。
3.对互联网数据进行爬取得到的数据;通过信息流分发的内容统计内容标签对应的实体词作为检索关键字,通过搜索应用和垂类网站收集有大量图片数据及图片描述的领域数据,将爬取得到图片和图片的关键字文本作为一个图文匹配对数据。
多个预训练任务模型均是基于预设图文样本进行训练的,并且可基于预训练任务的不同,可对应不同的预处理模块,以及后处理模块,多个预训练任务模型包括相同的特征提取模型,且多个预训练任务模型共享特征提取模型的模型参数,多个预训练任务模型的训练过程是对目标特征提取模型的多种训练约束。多个预训练任务模型的训练过程可以是同步进行的,在同步训练过程中,不断更新的特征提取模型的模型参数在多个预训练任务中共享。
S2204.基于所述目标特征提取模型以及预设分类层,确定待训练分类模型。
在基于对多个预训练任务模型训练得到目标特征提取模型的情况下,为了能够应用于分类场景下,可在目标特征提取模型后连接预设分类层,从而可得到相应的待训练分类模型。本实施例中的预设分类层可以为有监督分类器,例如可以为逻辑回归LR分类器(Logistic Regression,LR)、支持向量机等。
S2206.基于与目标业务对应的目标图文样本,对所述待训练分类模型进行训练,得到与所述目标业务对应的信息分类模型。
目标特征提取模型可以是基于大规模图文样本对多个预训练任务模型进行训练后确定的,从而目标特征提取模型是一个泛化的特征提取模型,为了使得目标特征提取模型能够适用于目标业务场景中,可基于目标业务对应的目标图文样本对包含目标特征提取模型的待训练分类模型进行针对性训练,以得到能够对目标业务对应的信息进行分类的信息分类模型。其中目标业务样本的数量一般小于预设图文样本的数量,从而在基于预设图文样本确定目标特征提取模型后,可基于少量的目标业务对应的目标图文样本进行模型训练,即可得到适用于目标业务场景的信息分类模型,从而降低了对目标业务对应的目标图文样本的数量要求,可应用于图文样本稀疏,或者图文样本难以获取的目标业务场景中。
本申请中,通过预训练生成目标特征提取模型,然后基于目标业务对应到目标图文样本对目标特征提取模型进行微调,以得到能够用于目标业务场景中信息分类模型,从而降低了人工标注的成本,提高了分类模型的训练效率;进一步地,基于预设图文样本进行模型训练,使得训练得到的信息分类模型具备基于图文信息进行分类的能力,图文信息能够从图像维度以及文本维度对多媒体资源进行信息描述,从而使得图文信息具有较好的资源特征表征能力,从而进一步提高分类的准确性;另外,本申请中通过多个预训练任务模型的训练确定目标特征提取模型,多个预训练任务模型的训练过程是对目标特征提取模型的多种训练约束,从而能够提高目标特征提取模型的特征提取能力,进一步提高信息分类模型的分类能力。从而,基于本申请中的信息分类模型进行信息分类,能够提高信息分类效率以及分类准确性。
预设图文样本包括多个预设图文匹配项,每个预设图文匹配项中的图像信息以及文本信息相匹配;为了进一步对预设图文样本进行扩充,对于预设图文样本中的每个预设图文匹配项,可确定相应的相似图文匹配项,且相似图文匹配项可基于预设图文样本中的图像信息以及文本信息得到。
具体请参阅图3,其示出了一种预设图文样本扩充方法,该方法可包括:
S310.对所述多个预设图文匹配项中的文本信息分别进行信息提取,得到与所述多个预设图文匹配项分别对应的命名实体信息。
S320.基于每个预设图文匹配项对应的命名实体信息,与剩余预设图文匹配项对应的命名实体信息,确定所述每个预设图文匹配项的相似图文匹配项;所述剩余预设图文匹配项为所述多个预设图文匹配项中,除所述每个预设图文匹配项之外的预设图文匹配项。
S330.基于所述每个预设图文匹配项中的图像信息,与所述相似图文匹配项中的文本信息,生成第一新增匹配项。
S340.基于所述相似图文匹配项中的图像信息,与所述每个预设图文匹配项中的文本信息,生成第二新增匹配项。
本实施例中的命名实体可以包括人名、位置、组织、时间、物体、事件等名词信息,从而相应的命名实体信息可包括以上命名实体中的一项或者多项。对于命名实体信息的提取,可通过预设的命名实体识别模型得到。在识别得到每个预设图文匹配项对应的命名实体信息的情况下,可基于各预设图文匹配项对应的命名实体信息进行相似度计算,从而得到每个预设图文匹配项与其他预设图文匹配项的相似度,进而确定与每个预设图文匹配项对应的相似图文匹配项。在确定与每个预设图文匹配项对应的相似图文匹配项时,可将相似度大于预设相似度的预设图文匹配项确定为相似图文匹配项,也可将相似度最大的预设数量的预设图文匹配项确定为相似图文匹配项。
命名实体信息相似的文本信息所对应的图像信息也可认为是相似的,从而在确定了当前预设图文匹配项对应的相似图文匹配项的情况下,可以基于当前预设图文匹配项的图像信息,与相似图文匹配项中的文本信息组成第一新增匹配项;在相似图文匹配项为多个时,还可基于当前预设图文匹配项的图像信息,与随机选取的多个相似图文匹配项中的文本信息,组成第一新增匹配项。进一步地,在确定了当前预设图文匹配项对应的相似图文匹配项的情况下,还可以基于相似图文匹配项中的图像信息,与当前预设图文匹配项中的文本信息,生成第二新增匹配项;在相似图文匹配项为多个时,还可基于当前预设图文匹配项的文本信息,与随机选取的多个相似图文匹配项中的图像信息,组成第二新增匹配项。
在一个示例中,对于每个预设图文匹配项对应的多个相似图文匹配项,可对多个相似图文匹配项中的图像信息以及文本信息进行互相替换,从而能够生成第三新增匹配项。
通过确定每个预设图文匹配项的相似图文匹配项,在每个预设图文匹配项以及相应的相似图文匹配项之间进行图像信息以及文本信息的相互替换,从而形成新增匹配项,实现了对预设图文样本的扩充,增加了样本数量。
本申请实施例中的多个预训练任务模型可包括第一任务模型,第一任务模型可以为实现对比任务学习的模型,通过训练第一任务模型,使得第一任务模型具备识别相似点或者不同点的性能;具体地,第一任务模型可包括初始特征提取模型,以及对比输出层;相应请参阅图4,其示出了第一任务模型训练方法,该方法可包括:
S410.基于所述初始特征提取模型对所述预设图文样本,以及所述预设图文样本对应的对比图文样本分别进行特征提取,得到相应的第一输出特征,以及第二输出特征;所述对比图文样本基于对所述预设图文样本中的图像信息,和/或,文本信息进行信息变换得到。
S420.基于所述对比输出层对所述第一输出特征以及所述第二输出特征进行对比处理,得到对比输出信息。
S430.基于所述对比输出信息,以及所述预设图文样本与所述对比图文样本的预设匹配信息,对所述第一任务模型的模型参数进行调整,得到已训练第一任务模型。
S440.基于所述已训练第一任务模型确定所述目标特征提取模型。
本实施例中,可对预设图像信息进行图像变换,得到变换图像信息,预设图像信息与变换图像信息相似或者相匹配;可对预设文本信息进行图像变换,得到变换文本信息,预设文本信息与变换文本信息相似或者相匹配。预设图文样本对应的对比图文样本可以为对预设图文样本中的图像信息进行变换之后得到的图文样本,或者为对预设图文样本中的文本信息进行变换之后得到的图文样本,或者为对预设图文样本中的图像信息以及文本信息均进行变换之后得到的图文样本。具体地,对预设图像信息进行图像变换的具体方法可包括旋转、裁剪、高斯噪声、遮盖、颜色变换、滤镜等变换操作,对预设文本信息进行文本变换的具体方法可包括回译、字符***、删除等变换操作。
进一步地,在多媒体资源场景中,与多媒体资源对应的预设图像信息可以为多媒体资源中的任一图像帧对应的图像信息,从而该多媒体资源中的其他图像帧均可作为预设图像信息的变换图像信息。比如对于一个视频内容,可以认为相邻的抽帧图是相似的,去重后不同视频的抽帧和不相邻的视频帧是不相似的:具体来说负样本对从不同视频的抽帧时间随机构造,构造的同时利用已有视频去重关系链,规避掉重复视频,对信息流内容库,利用信息内容库内启用视频,每个视频内部抽取相邻/相近帧,视为相似图像作为正样本。
初始特征提取模型是与目标特征提取模型相对应的,通过对初始特征提取模型进行训练之后,即可得到相应的目标特征提取模型。
在基于初始特征提取模型对预设图文样本以及对比图文样本进行特征提取时,可基于在同一状态下的初始特征提取模型实现,同一状态可以是指两次进行特征提取时,初始特征提取模型的模型参数相同的状态,从而能够保证在相同状态下分别进行特征提取;例如可以是在对预设图文样本进行特征提取时,记录此时初始特征提取模型的模型参数,便于在进行对比图文样本特征提取时,采用相同的模型参数。进一步地,还可采用与初始特征提取模型对应的孪生网络模型来进行相应的特征提取,初始特征提取模型与孪生网络模型共享参数,从而保证了输入状态的一致性。
对比输出层可对输入的第一输出特征以及第二输出特征进行对比分析,以确定两者的对比输出信息;对于预设图文样本以及变换图文信息,可基于两者的匹配关系确定预设匹配信息,预设匹配信息可以为匹配或者不匹配。基于对比输出信息以及预设匹配信息,可确定第一损失信息,然后基于第一损失信息对第一任务模型进行模型参数调整,得到相应的已训练第一任务模型。对于第一损失信息的确定可基于Contrastive Loss损失函数来实现。
第一任务模型包括初始特征提取模型,相应的已训练第一任务模型中包括已训练特征提取模型;对于目标特征提取模型的确定,可在第一任务模型训练得到的已训练特征提取模型的基础上,结合其他一个或者多个任务模型训练得到的已训练特征模型共同确定目标特征提取模型。
通过第一任务模型执行对比学习任务,使得第一任务模型能够具备识别信息之间的相似点或者不同,从而提高第一任务模型的信息表达能力,从而也能够提高基于第一任务模型确定的目标特征提取模型的信息表达能力。
本实施例中的预训练任务模型还可包括第二任务模型,第二任务模型可以为执行图像文本匹配任务的模型,通过训练第二任务模型,使得第二任务模型能够学习到图像信息与文本信息的相关性;相应地,请参阅图5,其示出了第二任务模型训练方法,该方法可包括:
S510.获取所述多个预设图文匹配项各自对应的替换图文匹配项;所述替换图文匹配项基于对所述多个预设图文匹配项中的文本信息进行信息替换得到。
S520.基于所述多个预设图文匹配项,以及所述多个预设图文匹配项各自对应的替换图文匹配项进行匹配项划分,得到第一替换项,以及第二替换项;所述第一替换项中包括图像信息与文本信息相匹配的替换项,以及图像信息与文本信息不匹配的替换项;所述第二替换项为图像信息与文本信息不匹配的替换项。
S530.基于所述第一替换项对所述第二任务模型进行模型训练,得到已训练第二任务模型。
S540.基于所述已训练第二任务模型对所述第二替换项进行匹配预测,得到匹配预测信息。
S550.在所述匹配预测信息指示所述第二替换项中的图像信息与文本信息相匹配时,将所述第二替换项确定为目标负样本。
S560.基于所述目标负样本对所述已训练第二任务模型进行模型训练,得到已更新的第二任务模型。
S570.基于所述已更新的第二任务模型,确定所述目标特征提取模型。
在对预设图文匹配项中的信息进行替换时,可对图像信息进行替换,也可对文本信息进行替换,本实施例以对文本信息进行替换为例进行说明,具体可以预设概率对文本信息进行替换,预设概率可以为0.5、1等。在对预设图文匹配项中的文本信息进行替换时,可采用预设预设图文样本中其他预设图文匹配项的文本信息替换当前预设图文匹配项中的文本信息,或者将当前预设图文匹配项的文本信息替换为空信息。将其他预设图文匹配项的文本信息替换当前预设图文匹配项中的文本信息,使得第二任务模型能够学习到图像信息以及文本信息的相关性;通过将当前预设图文匹配项的文本信息替换为空信息,能够模拟实际应用场景中文本信息缺失的情况,从而提高第二任务模型的适应性以及鲁棒性。
在采用预设预设图文样本中其他预设图文匹配项的文本信息替换当前预设图文匹配项中的文本信息的情况下,替换图文匹配项中也可能包括图像信息与文本信息相匹配的替换项,以及图像信息与文本信息不匹配的替换项。
多个预设图文匹配项中的图像信息以及文本信息相匹配,从而可直接将多个预设图文匹配项确定为第一替换项;对于多个预设图文匹配项各自对应的替换图文匹配项,可将替换图文匹配项中图像信息与文本信息相匹配的替换项确定为第一替换项,并从图像信息与文本信息不匹配的替换项中随机选取部分替换图文匹配项作为第一替换项,以及将其余替换图文匹配项确定为第二替换项。
第一替换项中包括图像信息与文本信息相匹配的替换项,可基于第一替换项对第二任务模型进行模型训练,得到已训练第二模型;然后基于已训练第二任务模型对第二替换项进行匹配预测,得到匹配预测信息;第二替换项中的图像信息与文本信息不匹配,从而第二替换项可作为负样本。第二替换项中的各替换图文信息的预设匹配信息是不匹配,从而在匹配预测信息指示第二替换项中的图像信息与文本信息相匹配时,此时可确定预测有误,从而将图像信息与文本信息相匹配的第二替换项确定为目标负样本,目标负样本即为难负样本,即容易预测错误的负样本,从而将容易预测出错的负样本筛选出来,基于目标负样本对第二任务模型进行训练,使得第二任务模型具备学习目标负样本的能力,能够提高第二任务模型的模型性能;进一步基于已更新的第二任务模型确定出目标特征提取模型,提高目标特征提取模型的模型性能。
对于目标特征提取模型的确定,可在第二任务模型训练得到的已训练特征提取模型的基础上,结合其他一个或者多个任务模型训练得到的已训练特征模型共同确定目标特征提取模型。
进一步地,第二任务模型包括初始特征提取模型以及匹配输出层;相应地,请参阅图6,其示出了另一种第二任务模型训练方法,包括:
S610.基于所述初始特征提取模型对所述第一替换项进行特征提取,得到第三输出特征。
S620.基于所述匹配输出层对所述第三输出特征进行匹配处理,得到匹配输出信息。
S630.基于所述匹配输出信息,以及所述第一替换项中的图像信息与文本信息的预设匹配信息,对所述第二任务模型的模型参数进行调整,得到所述已训练第二任务模型。
本实施例中,第三输出特征可包括第一替换项的图像信息对应的特征,以及文本信息对应的特征,从而匹配输出层可对输入的第三输出特征进行匹配处理,得到第一替换项中图像信息与文本信息的匹配输出信息;匹配输出信息可用于表征第一替换项中图像信息与文本信息的匹配程度。
匹配输出层具体可以为线性的ITM head,其可将输入的第三输出特征映射成二值logits,基于二值logits判断图像信息和文本信息是否匹配。
第一替换项中的图像信息以及文本信息具备相应的预设匹配信息,基于匹配输出信息以及预设匹配信息能够确定第二损失信息,基于第二损失信息对第二任务模型的模型参数进行调整,得到相应的已训练第二任务模型。
通过第二任务模型执行图像-文本匹配学习任务,使得第二任务模型能够学习到图像信息与文本信息之间的相关性,进而能够提高第二任务模型的模型性能,从而也能够提高基于第二任务模型确定的目标提取模型的模型性能。
本实施例中的预训练任务模型还可以包括第三任务模型,第三任务模型可以为实现有监督分类训练任务的模型,通过训练第三任务模型,使得第三任务模型能够学习到图像信息以及文本信息所包含的分类信息;第三任务模型包括初始特征提取模型以及分类输出层;预设图文样本包括多个预设图文匹配项,每个预设图文匹配项中的图像信息以及文本信息相匹配。相应地,请参阅图7,其示出了第三任务模型训练方法,该方法可包括:
S710.基于所述初始特征提取模型对所述多个预设图文匹配项对应的置空信息项进行特征提取,得到第四输出特征;所述置空信息项基于对所述多个预设图文匹配项中的文本信息进行置空处理得到。
S720.基于所述分类输出层对所述第四输出特征进行分类处理,得到分类输出信息。
S730.基于所述分类输出信息,以及所述多个预设图文匹配项的目标分类标签,对所述第三任务模型的模型参数进行调整,得到已训练第三任务模型。
S740.基于所述已训练第三任务模型确定所述目标特征提取模型。
第三任务模型中的分类输出层能够实现基于输入特征输出相应的分类信息,分类输出层可以为逻辑回归LR分类器(Logistic Regression,LR)、支持向量机等;预设图文样本中还可包括与多个预设图文匹配项各自对应的目标分类标签,基于多个预设图文匹配项以及相应的目标分类标签对第三任务模型进行训练,可得到相应的已训练第三任务模型。
进一步地,还可对多个预设图文匹配项的文本信息进行随机置空处理,具体可以是从多个预设图文匹配项中随机选取部分预设图文匹配项,然后以预设概率对选取的部分预设图文匹配项进行置空处理,得到相应的置空信息项,预设概率可以为0.5、1等;然后可基于对未被选取的预设图文匹配项以及置空信息项对第三任务模型进行训练。
其中,在基于置空信息项对第三任务模型进行训练时,基于初始特征提取模型对置空信息项进行特征提取,得到相应的第四输出特征;基于分类输出层对第四输出特征进行分类处理,得到分类输出信息,基于分类输出信息以及目标分类标签确定第三损失信息,基于第三损失信息对第三任务模型的模型参数进行调整,得到相应的已训练第三任务模型。
对于没有被置空的预设图文匹配项,其输入初始特征提取模型的信息包括图像信息以及文本信息;对于置空信息项,其输入初始特征提取模型的信息包括图像信息以及空信息,即没有被置空的预设图文匹配项的图像信息以及文本信息,与置空信息项的图像信息以及空信息的输入形式一致;输入形式一致具体可以为输入序列长度一致,以及输入信息格式一致等。
对于目标特征提取模型的确定,可在第三任务模型训练得到的已训练特征提取模型的基础上,结合其他一个或者多个任务模型训练得到的已训练特征模型共同确定目标特征提取模型。
通过第三任务模型执行有监督分类训练任务,使得第三任务模型能够学习到图像信息以及文本信息所包含的分类信息,从而能够提高第三任务模型的模型性能,从而也能够提高基于第三任务模型确定的目标提取模型的模型性能;进一步地,通过对预设图文匹配项中的文本信息进行随机置空处理,能够模拟在文本信息缺失的情况下,基于图像信息进行信息分类,从而能够提高已训练第三任务模型的适应性以及鲁棒性,进一步能够提高基于第三任务模型确定的目标提取模型的适应性以及鲁棒性。
进一步地,本申请实施例中的预训练任务模型还可以包括第四任务模型,第四任务模型可以为掩码语言模型,第四任务模型包括初始特征提取模型以及遮蔽信息预测层,通过对预设图文匹配项中的文本信息进行遮蔽处理,然后基于初始特征提取模型对预设图文匹配项中的图像信息,以及被遮蔽后的文本信息进行特征提取,得到第五输出特征;基于遮蔽信息预测层对第五输出特征进行预测,得到遮蔽预测信息,基于遮蔽预测信息以及被遮蔽文本信息,对第四任务模型进行训练,得到已训练第四任务模型;基于已训练第四任务模型确定目标特征提取模型。
本实施例中,目标业务对应的目标图文样本中可包括多个预设图文匹配项以及相应的目标分类标签,从而可基于目标图文样本对待训练分类模型进行训练,能够得到相应的信息分类模型;在目标业务场景中,根据业务需求,进行了分类数量的增加,从而在目标分类标签的基础上,新增了与新增分类对应的更新分类标签;具体请参阅图8,其示出了一种信息分类模型更新方法,该方法可包括:
S810.获取更新图文样本;所述更新图文样本中的更新分类标签与所述多种目标分类标签不同。
S820.基于所述更新图文样本对所述信息分类模型进行模型训练,得到更新后的信息分类模型。
在一个示例中,目标业务场景中可确定M个目标分类标签,即对于目标业务场景中所涉及的图文信息,可具有M种分类;随着目标业务的不断推进,对目标业务场景中的图文信息的分类进行了更新;本实施例中,对目标分类标签进行更新可以包括在目标分类标签的基础上,添加了新增分类标签,从而增加了分类的种类;对目标分类标签进行更新也可以为对目标分类标签中的一个或者多个标签进行了进一步细化,即可将每个目标分类标签细化为两个或者两个以上的新标签,这两个或者两个以上的新标签可替换相应的目标分类标签;在更新了分类标签的同时,也需要更新相应更新分类标签所对应的图文信息。从而实现了分类标签的细粒度划分。
从而基于更新图文样本信息对信息分类模型进行模型训练,即在更新图文样本之后进行模型训练是在已训练得到的信息分类模型的基础上实现的,而不需要重新进行模型训练,对信息分类模型的再次训练可基于有更新的信息实现,从而使得信息分类模型能够学习到更新信息,从而提高了信息分类模型更新的灵活性,使得信息分类模型与目标业务实际应用场景相适配。
在训练得到信息分类模型后,可基于信息分类模型进行信息分类;具体地,在资源推送场景中,请参阅图9,其示出了一种资源推送方法,该方法可包括:
S910.确定候选多媒体资源对应的候选资源信息;所述候选资源信息为所述候选多媒体资源对应的图像信息和文本信息,或所述候选资源信息为所述多媒体资源对应的图像信息。
S920.基于信息分类模型对所述候选资源信息进行分类,得到所述候选多媒体资源的第二分类结果;所述信息分类模型基于与目标业务对应的目标图文样本,对待训练分类模型进行训练得到;所述待训练分类模型基于目标特征提取模型以及预设分类层得到;所述目标特征提取模型基于预设图文样本对多个预训练任务模型分别进行模型训练得到,所述目标特征提取模型为所述多个预训练任务模型的共享模型。
S930.基于所述第二分类结果,从所述候选多媒体资源确定出目标多媒体资源。
S940.推送所述目标多媒体资源。
本实施例中的多媒体资源可以为图像-文本资源、图像-视频资源、文本-视频资源等,从而多媒体资源的资源信息即可为多媒体资源对应的图像信息和文本信息,或者多媒体资源对应的图像信息。具体地,多媒体资源对应的图像信息可以为展示多媒体资源时的封面图像信息,或者多媒体资源包含的图像内容信息,多媒体资源对应的文本信息可以为多媒体资源的标题信息,或者从多媒体资源中识别得到的文本信息。
基于候选资源信息进行分类,得到信息分类结果,这里的信息分类结果可以是候选资源信息的分类结果,也可以是候选资源信息对应的候选多媒体资源对应的分类结果。
通过信息分类结果,从候选多媒体资源中确定出符合推送条件的目标多媒体资源,并基于目标多媒体资源进行资源推送。
由于信息分类模型是基于本实施例上述的模型训练方法得到的,从而多个预训练任务模型的训练过程是对目标特征提取模型的多种训练约束,从而能够提高目标特征提取模型的特征提取能力,进一步提高信息分类模型的分类能力;进而能够提高目标媒体资源推送的准确性以及合理性。
本实施例中,可基于多模态信息进行信息分类,多模态可以包括图像-文本输入模态,以及文本输入模态;相应地,请参阅图10,其示出了一种信息分类结果确定方法,所述方法包括:
S1010.在所述候选资源信息为所述候选多媒体资源对应的图像信息的情况下,对所述候选多媒体资源对应的文本信息进行置空处理,得到置空信息。
S1020.将所述候选多媒体资源对应的图像信息以及所述置空信息输入到所述信息分类模型,得到所述第二分类结果;所述信息分类模型通过对所述预设图文样本中的文本信息进行替换或者置空得到。
在基于信息分类模型进行分类时,可能存在文本信息缺失的情况,在本实施例上述模型训练过程中,通过对文本信息进行置空操作或者替换操作,使得信息分类模型能够适应文本信息缺失的情况,并在文本信息缺失的情况下依然能够图像信息进行信息分类,得到相应的信息分类结果。
从而信息分类模型能够适应不同输入模态,提高了信息分类模型的适应性以及使用灵活性。
下面以一具体示例在说明本申请的具体实施流程,请参阅图11,其分别示出了第一任务模型示意图、第二任务模型示意图、第三任务模型示意图以及第四任务模型示意图,从图11中可以看出,第一任务模型、第二任务模型、第三任务模型以及第四任务模型共享特征提取模型。
对于信息分类模型的结构,具体请参阅图12,在不适信息识别场景中,可基于信息分类模型进行不适信息的识别,本实施例中的不适信息可以为观看对象敏感且易引起观看对象不适的信息,相应地目标图文样本可以基于对观看对象主动反馈的不适信息进行收集得到,基于不适样本对待训练分类模型进行模型微调,即可得到应用于对不适信息进行分类的信息分类模型。不适信息具体可以包括文章、图集、视频等。具体地,信息分类模型能够预测出多种不适类型以及正常类型,并且不适类型还可随着业务调整有所更新。例如,信息分类模型能够预测出的标签类型包括不适类型a、不适类型b、不适类型c以及正常类型,现可对标签类型进行更新,可以是标签类型的添加,更新后的标签类型包括不适类型a、不适类型b、不适类型c、不适类型d、不适类型e以及正常类型;可以是对现有标签类型的细分,更新后的标签类型包括不适类型a1、不适类型a2、不适类型b、不适类型c以及正常类型。
由于不适信息具有种类多、场景复杂、占比低等特点,从而一方面本实施例中可基于不适信息的图像信息以及文本信息对不适信息进行特征描述,从而能够提高不适信息特征表达的准确性和全面性,便于信息分类模型提取到相应的特征,基于提取的特征进行信息分类;另一方面,通过引入大规模的预训练模型,在预训练模型的基础上基于少量的不适信息样本对预训练模型进行微调,得到用于对不适信息进行分类的信息分类模型,从而提高信息分类模型的准确性以及召回率。
在一个具体场景中,不适信息的分类是基于大多数观看对象的反馈信息确定的,然而不同观看对象对不适信息的接受程度不同,即对于少量观看对象来说,相关不适信息是可以被接受的。在目标信息被预测为不适类型时,还可进一步地基于待推送对象的对象画像信息,确定待推送信息对目标信息的接受程度;在接受程度大于预设值时,可以将目标信息推送给待推送对象。接收程度可基于对象画像信息与目标信息进行信息匹配确定。
多分类结果及分类的概率用于产品后续策略,比如依据概率大小进行过滤直接不启用或者进行降权分发。这里由于利用了大规模的多模态预训练学习,通过实际业务任务的少部分样本数据进行微调,从而有效减少对不适图片识别数据样本的需求和降低人工标注样本的成本,提升业务算法过程的研发速度和效率。
下面重点描述一下基于多模态预训练模型的不适图片内容识别方法和***各个服务模块的主要功能如下:
一.PGC和UGC内容生产和消费端
(1)PGC或者UGC,MCN或者PUGC的内容生产者,通过移动端或者后端接口API***,提供本地或者拍摄的视频内容或者撰写的自媒体文章或者图集,作者可以选择主动上传对应内容的封面图,这些都是信息流分发内容的主要内容来源;
(2)通过和上下行内容接口服务的通讯,先获取上传服务器接口地址,然后在上传本地文件,拍摄过程当中本地视频内容可以选择搭配的音乐,滤镜模板和视频的美化功能等等;
(3)作为消费者,和内容分发出口服务器通讯,获取对应内容的索引信息即内容的访问低质,视频的话是和视频存储服务器通讯,下载对应的流媒体文件并且通过本地播放器来播放观看,图文的话通常是直接边缘部署的CDN服务通讯;
(4)同时将上传和下载过程当中用户浏览的行为数据,阅读速度,完成率,阅读时间,卡顿,加载时间,播放点击等上报给服务器;
(5)消费端通常通过Feeds流方式浏览消费数据,对于消费端不适图片内容提供直接举报和反馈的入口,直接和人工审核***对接,进行确认和复核,复核的结果保存在不适图片内容样本库,作为后续训练业务模型的小样本数据来源;
二.上下行内容接口服务器
(1)和内容生产端直接通讯,从前端提交的内容,通常是内容的标题,发布者,摘要,封面图,发布时间,或者是拍摄的视频直接通过该服务器进入服务端,把文件存入视频内容存储服务;
(2)将视频内容的元信息,比如视频文件大小,封面图链接,码率,文件格式,标题,发布时间,作者等信息写入内容数据库;
(3)将上传的文件和内容元信息提交给调度中心服务,进行后续的内容处理和流转;
三.内容数据库
(1)内容的核心数据库,所有生产者发布内容的元信息都保存在这个业务数据库当中,重点是内容本身的元信息比如文件大小,封面图链接,码率,文件格式,标题,发布时间,作者,视频文件大小,视频格式,是否原创的标记或者首发还包括人工审核过程中对内容的分类;
(2)人工审核过程当中会读取内容数据库当中的信息,同时人工审核的结果和状态也会回传进入内容数据库;
(3)调度中心对内容处理主要包括机器处理和人工审核处理,这里机器处理核心各种质量判断比如低质过滤,内容标签比如分类,标签信息,还有就是内容排重,他们的结果会写入内容数据库,完全重复一样的内容不会给人工进行重复的二次处理;
(4)预训练图文数据对样本构成过程当中,通过从内容数据读取或者内容的元信息比如标题,分类和tag等;
四.调度中心服务
(1)负责视频和图文内容流转的整个调度过程,通过上下行内容接口服务器入库的内容,然后从内容元信息数据库中获取内容的元信息;
(2)在作为图文和视频链路运行的实际调度控制者,按照内容的类型,对链路当中的图片内容,调度多模态不适图片内容识别服务***来处理对应的内容,直接过滤和对内容写上对应的标记,推荐引擎降权使用或者个性化定向分发;
(3)调度人工审核***和机器处理***,控制调度的顺序和优先级;
(4)通过人工审核***内容被启用,然后通过内容出口分发服务(通常是推荐引擎或者搜索引擎或者运营)直接的展示页面提供给终端的内容消费者,也就是消费端获得的内容索引(内容访问的入口比如URL低质)信息;
五.人工审核服务与举报投诉上报不适图片内容
(1)通常是一个WEB***,在链路上,承接机器过滤的结果,对结果进行人工确认和复核,将复核的结果写入内容信息元数据库记录下来,同时可以通过这里人工复核的结果来在线评估机器和过滤模型的实际效果;
(2)上报人工审核过程领取任务的来源,审核结果,审核开始和结束时间等审核的详细流水到统计服务器;
(3)和用户消费端的投诉和内容举报的复核***对接,高优先级处理投诉和举报的不适图片内容,确认后直接对不适图片内容库当中,对已经启用的内容当中类似内容立即生效,主要通过内容向量化匹配的方式。同时复核的结果在不适图片内容库当中为后续构建基于多模态预训练模型的不适图片业务模型提供小样本数据基础。
六.内容存储服务
(1)通常是一组分布范围很广,离C侧用户很久的就近接入的存储服务器通常***还有CDN加速服务器进行分布式缓存加速,通过上下行内容接口服务器将内容生产者上传的视频和图片内容保存起来;
(2)终端消费者在获取内容索引信息后,也可以直接访问视频内容存储服务器下载对应的内容;
(3)除了作为对外服务的数据源意外,还作为对内服务的数据源,供下载文件***获取原始的视频数据进行相关的处理,内外数据源的通路通常是分开部署的,避免相互影响;
七.不适图片样本库
(1)从内容元信息及存储库中获取人工审核标记的内容作为建立不适图片内容的原型小样本数据;
(2)定期通常的周期是天,捞取不适图片内容;
八.多模态图片大规模预训练模型
(1)按照上面描述详细过程,通过多来源数据增加数据泛化的代表性对后续实际任务样本需求减少可以提供很多帮助,主要大规模数据来源包括信息流内容链路数据推,技术领域公开的数据集及通过爬虫***在公开的互联网上爬取的数据;
(2)图片大规模预训练使用无监督(自监督对别学习)学习及使用有弱监督(文本-图片对匹配)数据来进行,主要通过构建不同种类的预训练模型,具体如上所示来构建预训练模型;
九.不适图片内容识别模型与服务
(1)以上述的多模态图片大规模预训练模型为基础,利用不适图片小样本库当中的小样本,通过模型微调的方式将构建不适图片识别模型,然后将模型服务化;
(2)与内容调度中心服务通讯,构建能够在信息流内容流转主链路上被调用的服务来实现不适图片内容的过滤,或者标记实现后面推荐的降权分发或者定向推荐;
十.下载文件***
(1)从内容存储服务器下载和获取原始的视频内容,控制下载的速度和进度,通常是一组并行的服务器,有相关的任务调度和分发集群构成;
(2)下载完成的文件调用抽帧服务从视频源文件当中获取必要的视频文件关键帧,作为后续构造视频指纹来服务或者作为封面图的候选来源,通过提取图片当中的OCR文字本身可以图片配对成图片文本对;
十一.抽帧服务
(1)下载文件***从视频内容存储服务上下载到的文件进行视频文件特征的初级处理-视频抽帧,包括关键帧和均匀抽到的帧,作为后续构建多模态预训练模型的封面图图帧输入和视频OCR文字识别的输入源;
十二.图片多模态预训练数据库
保存从互联网上爬取对应的图片预训练的数据语料,主要是通过Query词来通过搜索引擎检索公开的图片数据;
保存信息流分发主渠道从图文封面图,视频封面图,视频内容抽取的视频帧数据或者对应技术领域公开数据集作为预训练的数据语料;
十三.爬取与数据预处理***
按照上面描述的方法通过信息流内容发掘的标签构造的关键词从互联网上爬取对应的图片数据;
可以认为相似或者相同标签对应的图片是相似的。
本申请能够用少量业务样本数据就可以有效建模不适图片多种类的识别,提升不适图片内容问题的响应和处理速度,降低模型的研发成本,直接改善对象的封面图体验;通过文本模态的引入,能够充分考虑图片的上下文场景,识别效果大大改善;同时能够提供单独图片模态的支持,对于缺少文本输入的单独图片也能获得很好的识别效果,增加了模型适应性,对于没有标题的小视频内容封面也能够进行很好的识别。
请参阅图13,本实施例还提供了一种信息分类装置,该装置可包括:
第一获取模块1310,用于获取目标图像的目标信息;所述目标信息为所述目标图像的图像信息和文本信息,或所述目标信息为所述目标图像的图像信息;
第一分类模块1320,用于基于信息分类模型对所述目标信息进行分类,得到所述目标图像的第一分类结果;所述信息分类模型基于与目标业务对应的目标图文样本,对待训练分类模型进行训练得到;所述待训练分类模型基于目标特征提取模型以及预设分类层得到;所述目标特征提取模型基于预设图文样本对多个预训练任务模型分别进行模型训练得到,所述目标特征提取模型为所述多个预训练任务模型的共享模型。
进一步地,所述预设图文样本包括多个预设图文匹配项,每个预设图文匹配项中的图像信息以及文本信息相匹配;
所述装置还包括:
信息提取模块,用于对所述多个预设图文匹配项中的文本信息分别进行信息提取,得到与所述多个预设图文匹配项分别对应的命名实体信息;
相似图文匹配项确定模块,用于基于每个预设图文匹配项对应的命名实体信息,与剩余预设图文匹配项对应的命名实体信息,确定所述每个预设图文匹配项的相似图文匹配项;所述剩余预设图文匹配项为所述多个预设图文匹配项中,除所述每个预设图文匹配项之外的预设图文匹配项;
第一新增匹配项确定模块,用于基于所述每个预设图文匹配项中的图像信息,与所述相似图文匹配项中的文本信息,生成第一新增匹配项;
第二新增匹配项确定模块,用于基于所述相似图文匹配项中的图像信息,与所述每个预设图文匹配项中的文本信息,生成第二新增匹配项。
进一步地,所述多个预训练任务模型包括第一任务模型,所述第一任务模型包括初始特征提取模型以及对比输出层;
所述装置还包括:
第一特征提取模块,用于基于所述初始特征提取模型对所述预设图文样本,以及所述预设图文样本对应的对比图文样本分别进行特征提取,得到相应的第一输出特征,以及第二输出特征;所述对比图文样本基于对所述预设图文样本中的图像信息,和/或,文本信息进行信息变换得到;
对比处理模块,用于基于所述对比输出层对所述第一输出特征以及所述第二输出特征进行对比处理,得到对比输出信息;
第一调整模块,用于基于所述对比输出信息,以及所述预设图文样本与所述对比图文样本的预设匹配信息,对所述第一任务模型的模型参数进行调整,得到已训练第一任务模型;
第一确定模块,用于基于所述已训练第一任务模型确定所述目标特征提取模型。
进一步地,所述多个预训练任务模型包括第二任务模型,所述预设图文样本包括多个预设图文匹配项,每个预设图文匹配项中的图像信息以及文本信息相匹配;
所述装置还包括:
信息替换模块,用于获取所述多个预设图文匹配项各自对应的替换图文匹配项;所述替换图文匹配项基于对所述多个预设图文匹配项中的文本信息进行信息替换得到;
划分模块,用于基于所述多个预设图文匹配项,以及所述多个预设图文匹配项各自对应的替换图文匹配项进行匹配项划分,得到第一替换项,以及第二替换项;所述第一替换项中包括图像信息与文本信息相匹配的替换项,以及图像信息与文本信息不匹配的替换项;所述第二替换项为图像信息与文本信息不匹配的替换项;
第一训练模块,用于基于所述第一替换项对所述第二任务模型进行模型训练,得到已训练第二任务模型;
匹配预测模块,用于基于所述已训练第二任务模型对所述第二替换项进行匹配预测,得到匹配预测信息;
目标负样本确定模块,用于在所述匹配预测信息指示所述第二替换项中的图像信息与文本信息相匹配时,将所述第二替换项确定为目标负样本;
第二训练模块,用于基于所述目标负样本对所述已训练第二任务模型进行模型训练,得到已更新的第二任务模型;
第二确定模块,用于基于所述已更新的第二任务模型,确定所述目标特征提取模型。
进一步地,所述第二任务模型包括初始特征提取模型以及匹配输出层;
所述第二训练模块包括:
第二特征提取模块,用于基于所述初始特征提取模型对所述第一替换项进行特征提取,得到第三输出特征;
匹配处理模块,用于基于所述匹配输出层对所述第三输出特征进行匹配处理,得到匹配输出信息;
第二调整模块,用于基于所述匹配输出信息,以及所述第一替换项中的图像信息与文本信息的预设匹配信息,对所述第二任务模型的模型参数进行调整,得到所述已训练第二任务模型。
进一步地,所述多个预训练任务模型包括第三任务模型,所述第三任务模型包括初始特征提取模型以及分类输出层;所述预设图文样本包括多个预设图文匹配项,每个预设图文匹配项中的图像信息以及文本信息相匹配;
所述装置还包括:
第三特征提取模块,用于基于所述初始特征提取模型对所述多个预设图文匹配项对应的置空信息项进行特征提取,得到第四输出特征;所述置空信息项基于对所述多个预设图文匹配项中的文本信息进行置空处理得到;
分类处理模块,用于基于所述分类输出层对所述第四输出特征进行分类处理,得到分类输出信息;
第三调整模块,用于基于所述分类输出信息,以及所述多个预设图文匹配项的目标分类标签,对所述第三任务模型的模型参数进行调整,得到已训练第三任务模型;
第三确定模块,用于基于所述已训练第三任务模型确定所述目标特征提取模型。
进一步地,所述目标图文样本包括多种目标分类标签;
所述装置还包括:
第二获取模块,用于获取更新图文样本;所述更新图文样本中的更新分类标签与所述多种目标分类标签不同;
第三训练模块,用于基于所述更新图文样本对所述信息分类模型进行模型训练,得到更新后的信息分类模型。
请参阅图14,本实施例还提供了一种多媒体资源推送装置,该装置可包括:
候选资源信息确定模块1410,用于确定候选多媒体资源对应的候选资源信息;所述候选资源信息为所述候选多媒体资源对应的图像信息和文本信息,或所述候选资源信息为所述多媒体资源对应的图像信息;
第二分类模块1420,用于基于信息分类模型对所述候选资源信息进行分类,得到所述候选多媒体资源的第二分类结果;所述信息分类模型基于与目标业务对应的目标图文样本,对待训练分类模型进行训练得到;所述待训练分类模型基于目标特征提取模型以及预设分类层得到;所述目标特征提取模型基于预设图文样本对多个预训练任务模型分别进行模型训练得到,所述目标特征提取模型为所述多个预训练任务模型的共享模型;
目标多媒体资源确定模块1430,用于基于所述第二分类结果,从所述候选多媒体资源确定出目标多媒体资源;
资源推送模块1440,用于推送所述目标多媒体资源。
进一步地,所述第二分类模块1420包括:
置空处理模块,用于在所述候选资源信息为所述候选多媒体资源对应的图像信息的情况下,对所述候选多媒体资源对应的文本信息进行置空处理,得到置空信息;
信息分类结果确定模块,用于将所述候选多媒体资源对应的图像信息以及所述置空信息输入到所述信息分类模型,得到所述候选资源信息的信息分类结果;所述信息分类模型通过对所述预设图文样本中的文本信息进行替换或者置空得到。
上述实施例中提供的装置可执行本申请任意实施例所提供方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的方法。
本实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行如本实施例上述任一方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一方法。
图15是根据一示例性实施例示出的一种用于信息分类方法,或多媒体资源推送方法的电子设备的框图,该电子设备可以是服务器,其内部结构图可以如图15所示。该电子设备包括通过***总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种信息分类方法,或多媒体资源推送的方法。
本领域技术人员可以理解,图15中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的***或中断产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本实施例中所示出的结构,仅仅是与本申请方案相关的部分结构,并不构成对本申请方案所应用于其上的设备的限定,具体的设备可以包括比示出的更多或更少的部件,或者组合某些部件,或者具有不同的部件的布置。应当理解到,本实施例中所揭露的方法、装置等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元模块的间接耦合或通信连接。
基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员还可以进一步意识到,结合本说明书所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但这种实现不应认为超出本申请的范围。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (13)

1.一种信息分类方法,其特征在于,包括:
获取目标图像的目标信息;所述目标信息为所述目标图像的图像信息和文本信息,或所述目标信息为所述目标图像的图像信息;
基于信息分类模型对所述目标信息进行分类,得到所述目标图像的第一分类结果;所述信息分类模型基于与目标业务对应的目标图文样本,对待训练分类模型进行训练得到;所述待训练分类模型基于目标特征提取模型以及预设分类层得到;所述目标特征提取模型基于预设图文样本对多个预训练任务模型分别进行模型训练得到,所述目标特征提取模型为所述多个预训练任务模型的共享模型。
2.根据权利要求1所述的方法,其特征在于,所述预设图文样本包括多个预设图文匹配项,每个预设图文匹配项中的图像信息以及文本信息相匹配;
所述方法还包括:
对所述多个预设图文匹配项中的文本信息分别进行信息提取,得到与所述多个预设图文匹配项分别对应的命名实体信息;
基于每个预设图文匹配项对应的命名实体信息,与剩余预设图文匹配项对应的命名实体信息,确定所述每个预设图文匹配项的相似图文匹配项;所述剩余预设图文匹配项为所述多个预设图文匹配项中,除所述每个预设图文匹配项之外的预设图文匹配项;
基于所述每个预设图文匹配项中的图像信息,与所述相似图文匹配项中的文本信息,生成第一新增匹配项;
基于所述相似图文匹配项中的图像信息,与所述每个预设图文匹配项中的文本信息,生成第二新增匹配项。
3.根据权利要求1所述的方法,其特征在于,所述多个预训练任务模型包括第一任务模型,所述第一任务模型包括初始特征提取模型以及对比输出层;
所述方法还包括:
基于所述初始特征提取模型对所述预设图文样本,以及所述预设图文样本对应的对比图文样本分别进行特征提取,得到相应的第一输出特征,以及第二输出特征;所述对比图文样本基于对所述预设图文样本中的图像信息,和/或,文本信息进行信息变换得到;
基于所述对比输出层对所述第一输出特征以及所述第二输出特征进行对比处理,得到对比输出信息;
基于所述对比输出信息,以及所述预设图文样本与所述对比图文样本的预设匹配信息,对所述第一任务模型的模型参数进行调整,得到已训练第一任务模型;
基于所述已训练第一任务模型确定所述目标特征提取模型。
4.根据权利要求1所述的方法,其特征在于,所述多个预训练任务模型包括第二任务模型,所述预设图文样本包括多个预设图文匹配项,每个预设图文匹配项中的图像信息以及文本信息相匹配;
所述方法还包括:
获取所述多个预设图文匹配项各自对应的替换图文匹配项;所述替换图文匹配项基于对所述多个预设图文匹配项中的文本信息进行信息替换得到;
基于所述多个预设图文匹配项,以及所述多个预设图文匹配项各自对应的替换图文匹配项进行匹配项划分,得到第一替换项,以及第二替换项;所述第一替换项中包括图像信息与文本信息相匹配的替换项,以及图像信息与文本信息不匹配的替换项;所述第二替换项为图像信息与文本信息不匹配的替换项;
基于所述第一替换项对所述第二任务模型进行模型训练,得到已训练第二任务模型;
基于所述已训练第二任务模型对所述第二替换项进行匹配预测,得到匹配预测信息;
在所述匹配预测信息指示所述第二替换项中的图像信息与文本信息相匹配时,将所述第二替换项确定为目标负样本;
基于所述目标负样本对所述已训练第二任务模型进行模型训练,得到已更新的第二任务模型;
基于所述已更新的第二任务模型,确定所述目标特征提取模型。
5.根据权利要求4所述的方法,其特征在于,所述第二任务模型包括初始特征提取模型以及匹配输出层;
所述基于所述第一替换项对所述第二任务模型进行模型训练,得到已训练第二任务模型包括:
基于所述初始特征提取模型对所述第一替换项进行特征提取,得到第三输出特征;
基于所述匹配输出层对所述第三输出特征进行匹配处理,得到匹配输出信息;
基于所述匹配输出信息,以及所述第一替换项中的图像信息与文本信息的预设匹配信息,对所述第二任务模型的模型参数进行调整,得到所述已训练第二任务模型。
6.根据权利要求1所述的方法,其特征在于,所述多个预训练任务模型包括第三任务模型,所述第三任务模型包括初始特征提取模型以及分类输出层;所述预设图文样本包括多个预设图文匹配项,每个预设图文匹配项中的图像信息以及文本信息相匹配;
所述方法还包括:
基于所述初始特征提取模型对所述多个预设图文匹配项对应的置空信息项进行特征提取,得到第四输出特征;所述置空信息项基于对所述多个预设图文匹配项中的文本信息进行置空处理得到;
基于所述分类输出层对所述第四输出特征进行分类处理,得到分类输出信息;
基于所述分类输出信息,以及所述多个预设图文匹配项的目标分类标签,对所述第三任务模型的模型参数进行调整,得到已训练第三任务模型;
基于所述已训练第三任务模型确定所述目标特征提取模型。
7.根据权利要求1所述的方法,其特征在于,所述目标图文样本包括多种目标分类标签;
所述方法还包括:
获取更新图文样本;所述更新图文样本中的更新分类标签与所述多种目标分类标签不同;
基于所述更新图文样本对所述信息分类模型进行模型训练,得到更新后的信息分类模型。
8.一种多媒体资源推送方法,其特征在于,包括:
确定候选多媒体资源对应的候选资源信息;所述候选资源信息为所述候选多媒体资源对应的图像信息和文本信息,或所述候选资源信息为所述多媒体资源对应的图像信息;
基于信息分类模型对所述候选资源信息进行分类,得到所述候选多媒体资源的第二分类结果;所述信息分类模型基于与目标业务对应的目标图文样本,对待训练分类模型进行训练得到;所述待训练分类模型基于目标特征提取模型以及预设分类层得到;所述目标特征提取模型基于预设图文样本对多个预训练任务模型分别进行模型训练得到,所述目标特征提取模型为所述多个预训练任务模型的共享模型;
基于所述第二分类结果,从所述候选多媒体资源确定出目标多媒体资源;
推送所述目标多媒体资源。
9.根据权利要求8所述的方法,其特征在于,所述基于信息分类模型对所述候选资源信息进行分类,得到所述候选多媒体资源的第二分类结果,包括:
在所述候选资源信息为所述候选多媒体资源对应的图像信息的情况下,对所述候选多媒体资源对应的文本信息进行置空处理,得到置空信息;
将所述候选多媒体资源对应的图像信息以及所述置空信息输入到所述信息分类模型,得到所述第二分类结果;所述信息分类模型通过对所述预设图文样本中的文本信息进行替换或者置空得到。
10.一种信息分类装置,其特征在于,包括:
第一获取模块,用于获取目标图像的目标信息;所述目标信息为所述目标图像的图像信息和文本信息,或所述目标信息为所述目标图像的图像信息;
第一分类模块,用于基于信息分类模型对所述目标信息进行分类,得到所述目标图像的第一分类结果;所述信息分类模型基于与目标业务对应的目标图文样本,对待训练分类模型进行训练得到;所述待训练分类模型基于目标特征提取模型以及预设分类层得到;所述目标特征提取模型基于预设图文样本对多个预训练任务模型分别进行模型训练得到,所述目标特征提取模型为所述多个预训练任务模型的共享模型。
11.一种多媒体资源推送装置,其特征在于,包括:
候选资源信息确定模块,用于确定候选多媒体资源对应的候选资源信息;所述候选资源信息为所述候选多媒体资源对应的图像信息和文本信息,或所述候选资源信息为所述多媒体资源对应的图像信息;
第二分类模块,用于基于信息分类模型对所述候选资源信息进行分类,得到所述候选多媒体资源的第二分类结果;所述信息分类模型基于与目标业务对应的目标图文样本,对待训练分类模型进行训练得到;所述待训练分类模型基于目标特征提取模型以及预设分类层得到;所述目标特征提取模型基于预设图文样本对多个预训练任务模型分别进行模型训练得到,所述目标特征提取模型为所述多个预训练任务模型的共享模型;
目标多媒体资源确定模块,用于基于所述第二分类结果,从所述候选多媒体资源确定出目标多媒体资源;
资源推送模块,用于推送所述目标多媒体资源。
12.一种电子设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的信息分类方法,或如权利要求8-9任一项所述的多媒体资源推送方法。
13.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行如权利要求1至7任一项所述的信息分类方法,或如权利要求8-9任一项所述的多媒体资源推送方法。
CN202210511911.5A 2022-05-11 2022-05-11 信息分类方法、多媒体资源推送方法及装置 Pending CN117115602A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210511911.5A CN117115602A (zh) 2022-05-11 2022-05-11 信息分类方法、多媒体资源推送方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210511911.5A CN117115602A (zh) 2022-05-11 2022-05-11 信息分类方法、多媒体资源推送方法及装置

Publications (1)

Publication Number Publication Date
CN117115602A true CN117115602A (zh) 2023-11-24

Family

ID=88798879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210511911.5A Pending CN117115602A (zh) 2022-05-11 2022-05-11 信息分类方法、多媒体资源推送方法及装置

Country Status (1)

Country Link
CN (1) CN117115602A (zh)

Similar Documents

Publication Publication Date Title
CN112203122B (zh) 基于人工智能的相似视频处理方法、装置及电子设备
CN108009228B (zh) 一种内容标签的设置方法、装置及存储介质
CN113010703B (zh) 一种信息推荐方法、装置、电子设备和存储介质
CN101960753B (zh) 注释视频区间
US20180225710A1 (en) User segment identification based on similarity in content consumption
US20170201562A1 (en) System and method for automatically recreating personal media through fusion of multimodal features
CN112749326B (zh) 信息处理方法、装置、计算机设备及存储介质
CN111125528B (zh) 信息推荐方法及装置
CN111368141B (zh) 视频标签的扩展方法、装置、计算机设备和存储介质
Garcia del Molino et al. Phd-gifs: personalized highlight detection for automatic gif creation
CN113704506A (zh) 一种媒体内容排重方法和相关装置
CN114372414A (zh) 多模态模型构建方法、装置和计算机设备
CN114329028A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN112417133A (zh) 排序模型的训练方法和装置
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
Yao Key frame extraction method of music and dance video based on multicore learning feature fusion
Fei et al. Learning user interest with improved triplet deep ranking and web-image priors for topic-related video summarization
CN113407775B (zh) 视频搜索方法、装置及电子设备
Shen et al. Multi-modal and multi-scale photo collection summarization
US20150052155A1 (en) Method and system for ranking multimedia content elements
CN117115602A (zh) 信息分类方法、多媒体资源推送方法及装置
CN114662002A (zh) 对象推荐方法、介质、装置和计算设备
Yepes et al. Listen to this: Music recommendation based on one-class support vector machine
Zhang et al. Multi-modal tag localization for mobile video search
KR20220079029A (ko) 문서 기반 멀티 미디어 콘텐츠 자동 제작 서비스 제공 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination