CN118035945A - 一种标签识别模型的处理方法和相关装置 - Google Patents

一种标签识别模型的处理方法和相关装置 Download PDF

Info

Publication number
CN118035945A
CN118035945A CN202410441452.7A CN202410441452A CN118035945A CN 118035945 A CN118035945 A CN 118035945A CN 202410441452 A CN202410441452 A CN 202410441452A CN 118035945 A CN118035945 A CN 118035945A
Authority
CN
China
Prior art keywords
tag
content
model
features
tags
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410441452.7A
Other languages
English (en)
Other versions
CN118035945B (zh
Inventor
杨善明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202410441452.7A priority Critical patent/CN118035945B/zh
Publication of CN118035945A publication Critical patent/CN118035945A/zh
Application granted granted Critical
Publication of CN118035945B publication Critical patent/CN118035945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种标签识别模型的处理方法和相关装置,可应用于计算机视觉技术、自然语言技术、机器学习技术等领域,获取内容样本、多个标签和多个共现频率,根据多个共现频率和多个标签,通过初始标签识别模型进行特征提取,得到各个标签的第一融合标签特征;根据内容样本和第一融合标签特征,通过初始标签识别模型进行识别,得到针对内容样本的第一识别标签;根据第一识别标签和真实标签之间的差异,调整初始标签识别模型的模型参数,得到标签识别模型,标签识别模型用于识别内容的标签。由此,通过引入多个标签的语义和多个标签之间的关联性,使得标签识别模型基于标签的引导更好地理解内容,从而提高标签识别模型对内容识别的准确性。

Description

一种标签识别模型的处理方法和相关装置
技术领域
本申请涉及人工智能技术技术领域,特别是涉及一种标签识别模型的处理方法和相关装置。
背景技术
随着互联网技术的发展,用户可以通过内容平台查看各种内容。为了方便用户查看内容,内容平台会为各种内容增加标签,如为内容增加人物标签、场景标签、类型标签等。根据标签可以完成多种下游任务,如内容推荐、内容搜索等。
相关技术中,为了给内容增加标签,可以针对内容进行识别,将识别结果作为标签。以视频内容为例,将视频内容划分为多个视频帧,然后针对每个视频帧进行图像识别,得到每个视频帧对应的标签,最后根据该视频包括的各个视频帧分别对应的标签,确定该视频的标签。
但是,基于上述识别方式确定的标签,准确性较低,进而还会导致基于标签完成的下游任务的准确性较低。例如,在内容推荐任务中,基于准确性较低的标签确定的推荐内容,准确性较低。
发明内容
为了解决上述技术问题,本申请提供了一种标签识别模型的处理方法和相关装置,用于提高确定内容的标签的准确性。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供一种标签识别模型的处理方法,所述方法包括:
获取内容样本、多个标签和多个共现频率,所述共现频率用于标识多个所述标签中至少两个所述标签共同标识同一内容的频率,所述标签用于标识内容的特征,所述内容样本为具有真实标签的内容;
根据多个所述共现频率和多个所述标签,通过初始标签识别模型进行特征提取,得到各个所述标签的第一融合标签特征,所述第一融合标签特征用于标识对应标签的特征以及与所述对应标签共同标识同一内容的标签的特征,且在所述第一融合标签特征中,所述对应标签以及与所述对应标签共同标识同一内容的标签的共现频率越大,所述共同标识同一内容的标签的特征对所述第一融合标签特征的影响越大;
根据所述内容样本和所述第一融合标签特征,通过所述初始标签识别模型进行识别,得到针对所述内容样本的第一识别标签;
根据所述第一识别标签和所述真实标签之间的差异,调整所述初始标签识别模型的模型参数,得到标签识别模型,所述标签识别模型用于识别内容的标签。
另一方面,本申请实施例提供一种标签识别模型的处理装置,所述装置包括:获取单元、特征提取单元、识别单元和调整单元;
所述获取单元,用于获取内容样本、多个标签和多个共现频率,所述共现频率用于标识多个所述标签中至少两个所述标签共同标识同一内容的频率,所述标签用于标识内容的特征,所述内容样本为具有真实标签的内容;
所述特征提取单元,用于根据多个所述共现频率和多个所述标签,通过初始标签识别模型进行特征提取,得到各个所述标签的第一融合标签特征,所述第一融合标签特征用于标识对应标签的特征以及与所述对应标签共同标识同一内容的标签的特征,且在所述第一融合标签特征中,所述对应标签以及与所述对应标签共同标识同一内容的标签的共现频率越大,所述共同标识同一内容的标签的特征对所述第一融合标签特征的影响越大;
所述识别单元,用于根据所述内容样本和所述第一融合标签特征,通过所述初始标签识别模型进行识别,得到针对所述内容样本的第一识别标签;
所述调整单元,用于根据所述第一识别标签和所述真实标签之间的差异,调整所述初始标签识别模型的模型参数,得到标签识别模型,所述标签识别模型用于识别内容的标签。
另一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序中的指令执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的方法。
由上述技术方案可以看出,不仅获取内容样本,还获取多个标签和多个共现频率,共现频率用于标识多个标签中至少两个标签共同标识同一内容的频率,通过共现频率能够体现多个标签之间的关系和依赖性。从而根据多个标签和多个共现频率,通过初始标签识别模型进行特征提取,得到各个标签的第一融合标签特征,使得第一融合标签特征不仅包括对应标签的特征,还包括与对应标签共同标识同一内容的标签的特征。而且,在第一融合标签特征中,对应标签与其共同标识同一内容的标签的共现频率越大,则该共同标识同一内容的标签的特征对该第一融合标签特征的影响越大。也就是说,通过初始标签识别模型可以更好地理解标签的语义和多个标签之间关联性,从而根据标签的语义和多个标签之间的关联性,引导初始标签识别模型有目的地理解内容样本,即根据内容样本和第一融合标签特征,通过初始标签识别模型进行识别,得到针对内容样本的第一识别标签。根据第一识别标签和内容样本对应的真实标签之间的差异,调整初始标签识别模型的模型参数,以使得通过初始标签识别模型识别得到的第一识别标签越来越接近真实标签,从而得到标签识别模型。由此,在对内容识别的过程中,通过引入多个标签的语义和多个标签之间的关联性,使得标签识别模型基于标签的引导更好地理解内容,从而通过不同来源的信息提高了标签识别模型对内容识别的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种标签识别模型的处理方法的应用场景示意图;
图2为本申请实施例提供的标签识别模型的处理方法的流程示意图;
图3为本申请实施例提供的一种得到第一识别标签的示意图;
图4为本申请实施例提供的又一种得到第一识别标签的示意图;
图5为本申请实施例提供的一种多模态特征提取的示意图;
图6为本申请实施例一种标签识别模型的处理方法的应用场景示意图;
图7为本申请实施例提供的一种对应图6的应用场景示意图;
图8为本申请实施例提供的一种标签识别模型的处理装置的结构示意图;
图9为本申请实施例提供的服务器的结构示意图;
图10为本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应”于以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
相关技术中,为了给内容增加标签,对内容包括的信息进行识别,从而得到内容的标签。但是,由于仅基于内容包括的信息进行识别,可能会因为信息的缺失和不足而导致识别的准确性较低。例如,若视频A为描述著名篮球运动员张三打篮球的视频,对视频A进行识别得到的标签可能为张三。若用户搜索打篮球视频,则不会推荐视频A,会导致推荐的准确性较低。
基于此,为了提高后续下游任务的准确性,可以为内容增加多个标签,如视频A的标签可以为著名篮球运动员的名字和篮球。但是,仅基于内容包括的信息进行识别,得到内容的多个标签。该种方式也可能会因为信息的缺失和不足而导致识别的准确性较低。
故此,为了提高准确性,通过引入内容的标签增加内容的信息。在引入标签的过程中发现,内容的多个标签往往不是独立的,而是具有复杂的关联性和语义。例如,张三是篮球运动的代表性人物之一,使得标签“张三”和标签“篮球”之间的关联性非常紧密,或者说,标签“张三”和标签“篮球”一起出现的概率比较高。
故此,本申请实施例提供一种标签识别模型的处理方法和相关装置,为了避免仅识别内容,引入多个标签和用于标识多个标签共同出现的频率的共现频率,使得标签识别模型可以更好地理解标签之间的关联性和语义,从而基于标签的引导更好地理解内容,提高内容识别的准确性。
针对本申请提供的标签识别模型的处理方法可以应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶、智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、对话式交互、智能客服、智慧零售、内容推荐、内容查询等场景。下面以三个场景为例。
场景一,内容推荐场景。
首先,根据本申请提供的标签识别模型的处理方法,训练内容推荐场景所需的标签识别模型。具体地,获取内容样本、该内容推荐场景的多个标签(如针对视频内容的人物标签、类型标签等)和多个标签的共现频率。根据多个标签的共现频率和多个标签,通过初始标签识别模型进行特征提取,得到各个标签的第一融合标签特征,根据内容样本和第一融合标签特征,通过初始标签识别模型进行识别,得到针对内容样本的第一识别标签。根据第一识别标签和真实标签之间的差异,调整初始标签识别模型的模型参数,得到标签识别模型。
然后,根据训练好的标签识别模型对该内容推荐场景的内容进行识别,得到各个内容(如电影、短视频等)的标签,并基于各个内容的标签和用户的喜好,确定用户可能感兴趣的内容,并推荐给用户。
可以理解的是,在本申请的具体实施方式中,涉及到用户的喜好等与用户相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户单独许可或者单独同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
场景二,内容查询场景。
首先,根据本申请提供的标签识别模型的处理方法,训练内容查询场景所需的标签识别模型。具体地,获取内容样本、该内容查询场景的多个标签(如针对文本内容的作者标签、类型标签等)和多个标签的共现频率。根据多个标签的共现频率和多个标签,通过初始标签识别模型进行特征提取,得到各个标签的第一融合标签特征,根据内容样本和第一融合标签特征,通过初始标签识别模型进行识别,得到针对内容样本的第一识别标签。根据第一识别标签和真实标签之间的差异,调整初始标签识别模型的模型参数,得到标签识别模型。
然后,根据训练好的标签识别模型对该内容查询场景的内容进行识别,得到各个内容(如新闻稿、小说等)的标签,并基于各个内容的标签和用户的查询关键词,确定符合查询关键词的内容,并返回给用户。
场景三,智能家居场景。
首先,根据本申请提供的标签识别模型的处理方法,训练智能家居场景所需的标签识别模型。具体地,获取内容样本、该智能家居场景的多个标签(如针对文本内容的关键词标签、心情标签等)和多个标签的共现频率。根据多个标签的共现频率和多个标签,通过初始标签识别模型进行特征提取,得到各个标签的第一融合标签特征,根据内容样本和第一融合标签特征,通过初始标签识别模型进行识别,得到针对内容样本的第一识别标签。根据第一识别标签和真实标签之间的差异,调整初始标签识别模型的模型参数,得到标签识别模型。
然后,根据训练好的标签识别模型对该智能家居场景的内容进行识别,得到各个内容(如答案文本对应的语音等)的标签,并基于各个内容的标签和用户的问题语音对应的文本,确定符合问题语音对应的答案文本,并以语音的形式返回给用户。
需要说明的是,上述应用场景仅为示例,本实施例提供的互动会话显示方法还可以应用于其他场景中,此处不做限定。
本申请实施例提供的标签识别模型的处理方法主要可以涉及人工智能技术,通过人工智能技术自动实现针对文本片段生成文本配图。人工智能(ArtificialIntelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互***、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,主要涉及的人工智能技术包括上述计算机视觉技术、自然语言处理技术、机器学习技术等方向。
其中,计算机视觉技术(Computer Vision, CV) 是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、检测和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。大模型技术为计算机视觉技术发展带来重要变革,通用视觉变形器骨干网络(swin-transformer)、图片分类网络(Vision Transformer,ViT),稀释视觉变形器(Vision Transformer,V-MOE),屏蔽自动编码器(masked autoencoder,MAE)等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(OpticalCharacter Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言,即人们日常使用的语言,与语言学研究密切;同时涉及计算机科学、数学和人工智能领域模型训练的重要技术。其中,预训练模型,即是从NLP领域的大语言模型(Large Language Model)发展而来。经过微调,大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
其中,预训练模型(Pre-training model,PTM),也称基石模型、大模型,指具有大参量的深度神经网络(Deep neural network,DNN),在海量未标记的数据上对其进行训练,利用大参量DNN的函数近似能力使PTM在数据上提取共性特征,经微调(fine tune)、参数高效微调(Parameter Efficient Fine-tuning ,PEFT)、提示学习(prompt-tuning)等技术,适用于下游任务。因此,预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(如ELMO、BERT、GPT等)、视觉模型(如swin-transformer、ViT、V-MOE等)、语音模型(如VALL-E)、多模态模型(如ViBERT、CLIP、Flamingo、Gato等)等,其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(Artificial Intelligence Generated Content ,AIGC)重要工具,也可以作为连接多个具体任务模型的通用接口。
在本申请实施例提供的标签识别模型的处理方法中,可以通过计算机视觉技术训练得到视频子模型、基于自然语言技术训练得到文本子模型、基于机器学习技术训练得到识别子模型等,还可以基于预训练模型训练得到标签识别模型等。
本申请提供的标签识别模型的处理方法可以应用于具有标签识别模型的处理能力的计算机设备,如终端设备、服务器。
其中,终端设备具体可以为台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等,智能车载设备可以车载导航终端和车载电脑等,便携式可穿戴设备可为智能手表、智能手环、头戴设备等,但并不局限于此。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
为了便于理解本申请实施例提供的标签识别模型的处理方法,下面以该标签识别模型的处理方法的执行主体为服务器为例,对该标签识别模型的处理方法的应用场景进行示例性介绍。
参见图1,该图为本申请实施例提供的一种标签识别模型的处理方法的应用场景示意图。如图1所示,该应用场景中包括服务器100,服务器100可以是独立的、用于训练标签识别模型的服务器,当完成标签识别模型的训练后,可以将训练得到的标签识别模型部署在产品对应的服务器或终端设备上,以便提供针对内容的标签的识别服务;服务器100也可以是提供为各种产品提供对应服务的服务器,提供的服务例如可以包括对内容的标签进行识别后,为用户推荐其可能感兴趣的内容或返回符合用户查询条件的内容等。下面以服务器100训练标签识别模型为例进行说明。
服务器100不仅获取内容样本,还获取多个标签和多个共现频率。其中,内容样本为具有真实标签的内容,内容可以为视频内容、文本内容等。标签是用于标识内容的特征,如人物标签、类型标签等。共现频率用于标识多个标签中至少两个标签共同标识同一内容的频率,即多个标签共同出现的概率,如标签“张三”和标签“篮球”一起出现(即同为一个内容的多个标签)的概率比较高,从而通过共现频率能够体现多个标签之间的关系和依赖性。
服务器100根据多个标签和多个共现频率,通过初始标签识别模型进行特征提取,得到各个标签的第一融合标签特征,使得第一融合标签特征不仅包括对应标签的特征,还包括与对应标签共同出现的标签的特征。而且,在第一融合标签特征中,对应标签与其共同出现的标签的共现频率越大,则该共同出现的标签的特征对该第一融合标签特征的影响越大。也就是说,训练初始标签识别模型更好地理解标签的语义和多个标签之间关联性。
服务器100根据标签的语义和多个标签之间的关联性,引导初始标签识别模型有目的地理解内容样本,即根据内容样本和第一融合标签特征,通过初始标签识别模型进行识别,得到针对内容样本的第一识别标签。根据第一识别标签和内容样本对应的真实标签之间的差异,调整初始标签识别模型的模型参数,以使得通过初始标签识别模型识别得到的第一识别标签越来越接近真实标签,从而得到标签识别模型。
由此,在对内容识别的过程中,通过引入多个标签的语义和多个标签之间的关联性,使得标签识别模型基于标签的引导更好地理解内容,从而通过不同来源的信息提高了标签识别模型对内容识别的准确性。
本申请实施例所提供的标签识别模型的处理方法可以由服务器执行。但是,在本申请的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本申请实施例所提供的标签识别模型的处理方法,或者由终端设备和服务器共同执行本申请实施例所提供的标签识别模型的处理方法,本实施例对此不做限定。
下面通过方法实施例对本申请提供的一种标签识别模型的处理方法进行详细介绍。
参见图2,该图为本申请实施例提供的标签识别模型的处理方法的流程示意图。为了便于描述,下述实施例仍以该标签识别模型的处理方法的执行主体为服务器为例进行介绍。如图2所示,该标签识别模型的处理方法包括以下步骤:
S201:获取内容样本、多个标签和多个共现频率。
内容样本为具有真实标签的内容,内容包括但不仅限于视频内容、图文内容以及音频内容等。真实标签是内容样本的标签,用于表示初始标签识别模型应该学习并预测的信息。以内容样本为视频内容为例,内容样本的真实标签可以为用于描述主角的人物标签、用于描述视频类别的类别标签等。
以视频内容样本为例,视频内容一般包括多个视频帧,由于相邻视频帧的相似性较大,具有较多的冗余信息,对标签识别模型的训练并没有显著增益。为了降低计算量和计算复杂度,可以对视频内容进行抽帧处理,如1秒针内抽取M个视频帧,M为正整数。作为一种可能的实现方式可以1秒钟内抽取24个视频帧,从而在不会降低标签识别模型的准确性的同时,降低计算量和计算复杂度。
标签(Label)用于标识内容的特征,如内容中突出的人物可以作为标签、内容中的核心思想可以作为标签、内容的类别可以作为标签等。多个标签是多个内容的标签的合集。需要说明的是,多个标签可以来自于内容平台包括的所有内容的标签,也可以是一个大的类别下所有内容的标签,如新闻类别下所有内容的标签等,本申请对此不做具体限定。
共现频率用于标识多个标签中至少两个标签共同标识同一内容的频率,即两个标签共同出现的频率。或者说,一组标签的共现频率用于标识该组标签的共同出现的频率,一组标签可以是两个标签或两个以上标签构成的。以一组标签包括两个标签为例,标签“张三”和标签“篮球”共同标识同一个内容的频率即为该组标签(即标签“张三”和标签“篮球”构成的)的共现频率。需要说明的是,若标签“张三”和标签“篮球”共同标识视频A,以及标签“张三”和标签“篮球”共同标识共同标识视频B,则标签“张三”和标签“篮球”共同标识同一内容两次。共现频率可以表示为公式(1):
(1)
其中,表示第i个标签和第j个标签的共现频率;/>表示第i个标签和第j个标签共同标识同一内容的次数;/>表示第i个标签出现的次数;/>表示第j个标签出现的次数。
作为一种可能的实现方式,可以获取由多个内容样本构成的数据集,每个内容样本具有一个或多个真实标签,将数据集中多个内容样本的所有真实标签的并集确定为标签集合,该标签集合包括的多个真实标签即为多个标签。此外标签集合还包括多个标签之间的关联关系,即标识同一个内容的多个标签具有关联关系,记为共同出现一次。从而基于数据集中各个标签的出现次数,以及各个标签与其他标签共同出现的次数,确定多个标签之间的共现频率。
S202:根据多个共现频率和多个标签,通过初始标签识别模型进行特征提取,得到各个标签的第一融合标签特征。
初始标签识别模型是还未训练完成的标签识别模型。以多个标签中的目标标签为例,根据目标标签,以及目标标签分别和其他标签之间的共现频率,通过初始标签识别模型进行特征提取,得到针对目标标签的第一融合标签特征,然后将多个标签分别作为目标标签,得到各个标签分别对应的第一融合标签特征。以100个标签中的标签A为例,根据标签A,以及标签A分别和另外99个标签之间的共现频率,通过初始标签识别模型进行特征提取,得到针对标签A的第一融合标签特征。
初始标签识别模型不仅对共现频率进行特征提取,还对标签进行特征,从而初始标签识别模型通过学习标签,可以使得得到的第一融合标签特征能够学习到各个标签的特征,即各个标签的语义。
而且,共现频率能够体现多个标签之间的关联关系,如标签A和标签B对应的共现频率越大,说明标签A和标签B一起标识同一个内容的概率越高,则标签A和标签B的关联程度越高。由此,初始标签识别模型通过学习共现频率,可使得得到的第一融合标签特征能够学习到多个标签之间的关联性。例如,多个标签的数量为100个,则每个标签均与另外99个标签建立关联关系,可以理解的是,若两个标签从未共同标识同一个内容,则这两个标签的关联程度为0,即不具有关联关系。
也就是说,第一融合标签特征是通过初始标签识别模型得到的融合标签特征,融合标签特征用于标识对应标签的特征以及多个标签中与对应标签共同出现的标签的特征。而且,在融合标签特征中,对应标签以及与对应标签共同出现的标签的共现频率越大,共同出现的标签的特征对融合标签特征的影响越大。例如,在针对标签A的融合特征中,标签A和标签B的共现频率越大,说明标签A和标签B共同出现的频率越高,从而标签B的特征对标签A的融合标签特征的影响越大,以使得针对标签A的融合特征学习到更多标签B的特征,从而可以更加准确地捕捉标签之间的关系和相互影响。
作为一种可能的实现方式,为了方便初始标签识别模型对共现频率和多个标签进行特征提取,可以通过矩阵形式对多个共现频率和多个标签进行表示,后续会具体说明,在此不再赘述。
S203:根据内容样本和第一融合标签特征,通过初始标签识别模型进行识别,得到针对内容样本的第一识别标签。
由于第一融合标签特征包括多个标签的语义和多个标签之间的关联性,故初始标签识别模型在根据内容样本和第一融合标签特征进行识别时,可以基于第一融合标签特征引导初始标签识别模型有目的地理解内容样本。
例如,相关技术中在对内容样本进行识别时,可能仅识别到内容样本的标签为标签A。若采用本申请实施例,由于第一融合标签特征可以引导初始标签模型有目的地理解内容样本,在识别到内容样本的标签为标签A后,由于标签A和标签B的共现频率较高,故初始标签识别模型还会尝试识别内容样本是不是还可以具有标签B,从而提高了标签B被识别到的概率,从而提高初始标签识别模型的准确性。
S204:根据第一识别标签和真实标签之间的差异,调整初始标签识别模型的模型参数,得到标签识别模型。
第一识别标签是通过初始标签识别模型进行识别得到的标签,其准确性较低。真实标签是内容样本对应的标签,其准确性较高。第一识别标签和真实标签之间的差异可以体现初始标签识别模型的准确性,故可以基于第一识别标签和真实标签之间的差异,调整初始标签识别模型的模型参数,使得初始标签识别模型识别得到的第一识别标签越来越接近真实标签,从而提高初始标签识别模型的准确性,可以在满足迭代次数或初始标签识别模型得到的识别结果收敛后等,结束针对初始标签识别模型的训练,即不再调整初始标签识别模型的模型采参数,得到准确性较高的标签识别模型,使得标签识别模型可以识别内容的标签。
由上述技术方案可以看出,不仅获取内容样本,还获取多个标签和多个共现频率,共现频率用于标识多个标签中至少两个标签共同标识同一内容的频率,通过共现频率能够体现多个标签之间的关系和依赖性。从而根据多个标签和多个共现频率,通过初始标签识别模型进行特征提取,得到各个标签的第一融合标签特征,使得第一融合标签特征不仅包括对应标签的特征,还包括与对应标签共同标识同一内容的标签的特征。而且,在第一融合标签特征中,对应标签与其共同标识同一内容的标签的共现频率越大,则该共同标识同一内容的标签的特征对该第一融合标签特征的影响越大。也就是说,通过初始标签识别模型可以更好地理解标签的语义和多个标签之间关联性,从而根据标签的语义和多个标签之间的关联性,引导初始标签识别模型有目的地理解内容样本,即根据内容样本和第一融合标签特征,通过初始标签识别模型进行识别,得到针对内容样本的第一识别标签。根据第一识别标签和内容样本对应的真实标签之间的差异,调整初始标签识别模型的模型参数,以使得通过初始标签识别模型识别得到的第一识别标签越来越接近真实标签,从而得到标签识别模型。由此,在对内容识别的过程中,通过引入多个标签的语义和多个标签之间的关联性,使得标签识别模型基于标签的引导更好地理解内容,从而通过不同来源的信息提高了标签识别模型对内容识别的准确性。
本申请实施例不具体限定S203的具体实施方式,即根据内容样本和第一融合标签特征,通过初始标签识别模型进行识别,得到针对内容样本的第一识别标签的具体实施方式。下面以两种方式为例进行说明。
方式一,直接融合。
A1:根据内容样本,通过初始标签识别模型进行特征提取,得到内容样本对应的内容特征。
内容特征用于标识内容样本的特征。
本申请实施例不具体限定初始标签识别模型的结构,例如,初始标签识别模型具有针对内容样本进行特征提取功能、针对标签具有特征提取功能、对特征进行融合的功能,以及识别模型。为了方便说明,下面以每一个功能对应一个子模型为例,即初始标签识别模型包括内容特征提取子模型、标签特征提取子模型、第一融合子模型和识别子模型进行说明。
参见图3,该图为本申请实施例提供的一种得到第一识别标签的示意图。在图3中,将内容样本输入至初始标签识别模型中的内容特征提取子模型中,通过内容特征提取子模型对内容样本进行特征提取,得到针对内容样本的内容特征。
A2:根据内容特征和第一融合标签特征,通过初始标签识别模型进行融合,得到针对内容样本的综合特征。
综合特征是根据内容特征和第一融合标签特征进行融合得到的特征。综合特征不仅可以表示内容样本的特征,还可以包括各个标签的语义以及多个标签之间的关联性。
继续参见图3,将多个共现频率和多个标签输入至初始标签识别模型包括的标签特征提取子模型中,得到第一融合标签特征。将第一融合标签特征和内容特征输入至初始标签识别模型包括的第一融合子模型中,通过第一融合子模型进行融合,得到针对内容样本的综合特征。
本申请实施例不具体限定融合的方式,本领域技术人员可以根据实际需要进行设置。例如,可以采用特征相加、特征拼接、特征相乘等方式实现特征之间的融合。以特征相乘为例,特征中每个对应元素都会被逐一相乘。
作为一种可能的实现方式,本申请实施例可以采用特征相乘方式实现特征之间的融合。通过特征相乘进行特征融合和增强共同出现的特征,同时减弱不重要的特征。这种操作可以看作是特征空间中的一种变换,它改变了原始特征的表达方式,从而可能使模型更好地捕获数据的内在结构和模式。从而通过特征相乘可以在特征级别上实现信息的融合,使初始标签识别模型能够学习到更加复杂的特征组合。此外,通过相乘操作,初始标签识别模型可以更好地强调共同出现的特征,因为这些特征的乘积会更大,从而在后续的计算中占据更大的权重。也就是说,通过特征相乘的方式,可以增强初始标签识别模型对数据的表示能力,提高初始标签识别模型的性能。
A3:根据综合特征,通过初始标签识别模型进行识别,得到针对内容样本的第一识别标签。
继续参见图3,将综合特征输入至初始标签识别模型包括的识别子模型中,通过识别子模型进行识别,得到针对内容样本的第一识别标签。
由此,通过分别提取内容样本的内容特征,以及多个标签和多个共现频率的第一融合标签特征,再直接将内容特征和第一融合标签特征直接进行融合,得到综合特征,并对综合特征进行识别,得到针对内容样本的第一识别标签。该种融合方式不仅简单方便,计算量小,而且可以提高识别结果的准确性。
方式二,复杂融合。
B1:根据内容样本,通过初始标签识别模型进行特征提取,得到内容样本对应的内容特征。
内容特征用于标识内容样本的特征。
本申请实施例不具体限定初始标签识别模型的结构,例如,初始标签识别模型具有针对内容样本进行特征提取功能、针对标签具有特征提取功能、对特征进行融合的功能,以及识别模型。为了方便说明,下面以每一个功能对应一个子模型为例,即初始标签识别模型包括内容特征提取子模型、标签特征提取子模型、第一融合子模型、第二融合子模型和识别子模型进行说明。
参见图4,该图为本申请实施例提供的又一种得到第一识别标签的示意图。在图4中,将内容样本输入至初始标签识别模型中的内容特征提取子模型中,通过内容特征提取子模型对内容样本进行特征提取,得到针对内容样本的内容特征。
B2:根据内容特征和第一融合标签特征,通过初始标签识别模型进行融合,得到综合特征。
综合特征是根据内容特征和第一融合标签特征进行融合得到的特征。综合特征不仅可以表示内容样本的特征,还可以包括各个标签的语义以及多个标签之间的关联性。
继续参见图4,将多个共现频率和多个标签输入至初始标签识别模型包括的标签特征提取子模型中,得到第一融合标签特征。将第一融合标签特征和内容特征输入至初始标签识别模型包括的第一融合子模型中,通过第一融合子模型进行融合,得到针对内容样本的综合特征。
本申请实施例不具体限定融合的方式,本领域技术人员可以根据实际需要进行设置。例如,可以采用特征相加、特征拼接、特征相乘等方式实现特征之间的融合。
B3:根据内容特征和综合特征,通过初始标签识别模型进行融合,得到针对内容样本的增强特征。
增强特征是根据内容特征和综合特征进行融合得到的,相比于综合特征,增强特征关注于内容样本对应的标签的特征,从而更关注于内容样本的独特性,从而对内容样本的理解能力更强。
继续参见图4,将内容特征和特征输入至第二融合子模型中,通过第二融合子模型进行融合,得到针对内容样本的增强特征。
B4:根据增强特征,通过初始标签识别模型进行识别,得到针对内容样本的第一识别标签。
继续参见图4,将增强特征输入至初始标签识别模型包括的识别子模型中,通过识别子模型进行识别,得到针对内容样本的第一识别标签。
由此,通过分别提取内容样本的内容特征,以及多个标签和多个共现频率的第一融合标签特征,再先将内容特征和第一融合标签特征进行融合,得到综合特征,然后将综合特征与内容特征再次进行融合,得到增强特征,相比于综合特征,增强特征更能体现内容样本对应标签的特征,从而根据增强特征进行识别,得到针对内容样本的第一识别标签,能够进一步提高特征提取的准确性,从而提高标签识别的准确性。
作为一种可能的实现方式,共同标识同一的内容的多个标签,可以是真实标识在内容上的标签,如视频内容上可以具有人物标签和场景标签。还可以是隐含标识在内容上的标签,如视频内容会被划分为多个类别,如在每个类别下视频内容可能会仅具有人物标签,其对应的视频类别虽然没有真实标识在视频内容上,但其隐含具有了类别标签。对应的,本申请实施例提供一种S201的具体实施方式,即获取内容样本、多个标签和多个共现频率的具体实施方式。下面以内容样本具有单一的标签进行说明。
获取内容样本和多个标签,该内容样本具有单一的标签,如其真实标识的标签仅有一个。确定内容样本的类别,根据内容样本的类别更新多个标签,得到更新后的多个标签,即将内容样本的类别加入至多个标签中。需要说明的是,若内容样本的类别是多个标签中已经包括的标签,则多个标签的数量不再增长;若内容样本的类别不是多个标签中已经包括的标签,则多个标签的数量加1。根据更新后的多个标签,得到多个共现频率,该共现频率用于标识内容样本的类别分别和多个标签共同出现的频率。
由此,即使内容样本具有单一的标签,还可以获取内容样本隐含的标签,如内容样本的类别,将隐含的标签作为内容样本的另一标签,从而更新多个标签,并得到更新后的多个标签对应的共现频率,以便基于更为准确的共现频率训练得到标签识别模型,不仅提高了标签识别模型的准确性,还扩展了标签识别模型的应用场景。
此外,不仅可以训练标签识别模型识别具有单一标签的内容样本,还可以训练标签识别模型识别多模态的内容样本,从而扩展标签识别模型的应用场景。其中,多模态(Multimodal)指的是同时利用多种不同模式或传感器的情境、***或技术。这些模式或传感器可以包括视觉、听觉、触觉、运动等多种模态,旨在通过结合多种感知通道来理解和处理信息。多模态技术可以用于模拟人类的自然感知过程,为机器学习和人机交互等领域提供更完整的信息输入和更丰富的交互体验。例如,多模态的内容样本可以包括属于第一类别的第一子内容和属于第二类别的第二子内容,第一类别和第二类别为不同的类别,如视频类别、文本类别、声音类别等。
基于此,本申请实施例提供一种S203的具体实施方式,即根据内容样本和第一融合标签特征,通过初始标签识别模型进行识别,得到针对内容样本的第一识别标签的具体实施方式,具体参见S2031-S2035。
S2031:根据内容样本,得到第一子内容和第二子内容。
例如,训练第一内容提取子模型和第二内容提取子模型,通过第一内容提取子模型对内容样本进行提取,得到第一子内容,通过第二内容提取子模型对内容样本进行提取,得到第二子内容。第一内容提取子模型和第二内容提取子模型用于提取不同类别的子内容。
S2032:根据第一子内容,通过初始标签识别模型进行特征提取,得到第一子内容特征。
S2033:根据第二子内容,通过初始标签识别模型进行特征提取,得到第二子内容特征。
作为一种可能的实现方式,初始标签识别模型可以包括第一特征提取子模型和第二特征提取子模型,第一特征提取子模型和第二特征提取子模型为不同的子模型,第一特征提取子模型用于对属于第一类别的第一子内容进行提特征提取,第二特征提取子模型用于对属于第二类别的第二子内容进行特征提取。或者说,根据第一子内容,通过初始标签识别模型包括的第一特征提取子模型进行特征提取,得到第一子内容特征,根据第二子内容,通过初始标签识别模型包括的第二特征提取子模型进行特征提取,得到第二子内容特征。
作为一种可能的实现方式,若第一类别为视频类别,第二类别为文本类别,以视频内容为例,第一子内容可以为视频内容中的视频子内容,第二子内容为来自标题(即生产者在发布视频内容时对整个视频内容的概括)、弹幕、评论、字幕等一种或多种组合的文本子内容。对应的,第一特征提取子模型可以为视频子模型,第二特征提取子模型可以为文本子模型,则根据第一子内容,通过初始标签识别模型包括的视频子模型进行特征提取,得到第一子内容特征。根据第二子内容,通过初始标签识别模型包括的文本子模型进行特征提取,得到第二子内容特征。
本申请实施例不具体限定视频子模型和文本子模型,例如,视频子模型可以为卷积神经网络(Convolutional Neural Network,CNN)或变换器(Transformer)。文本子模块可以为循环神经网络(Recurrent Neural Network, RNN)或变换器等。作为一种可能的实现方式,视频子模型可以为3D Swin Transformer(一种在三维数据上运行的模型),文本子模型可以为双向编码转换器(Bidirectional Encoder Representations fromTransformers,BERT)模型,从而提高特征提取的准确性,提高标签识别模型的准确性。
参见图5,该图为本申请实施例提供的一种多模态特征提取的示意图。在图5中,第一子内容可以为视频内容中的视频子内容,第二子内容为来自标题的文本子内容。将视频子内容输入至3D Swin Transformer中,通过3D Swin Transformer进行特征提取,得到第一子内容特征。将文本子内容输入至BERT模型中,通过BERT模型进行特征提取,得到第二子内容特征/>
S2034:根据第一子内容和第二子内容,通过初始标签识别模型进行融合,得到针对内容样本的内容特征。
继续参见图5,初始标签识别模型还可以包括第三融合子模型,根据第一子内容和第二子内容,通过初始标签识别模型包括的第三融合子模型进行融合,得到针对内容样本的内容特征,可以表示为公式(2):
(2)
其中,表示内容特征;/>表示第一子内容;/>表示第二子内容;B表示批次(batchsize)大小;D表示内容特征的维度。
S2035:根据内容特征和第一融合标签特征,通过初始标签识别模型进行识别,得到针对内容样本的第一识别标签。
本申请实施例不具体限定识别方式,可以采用前述方式一(A1-A3)或方式二(B1-B4)实现,以方式二(B1-B4)为例,其可以表示为公式(3):
(3)
其中,表示增强特征;/>表示内容特征;Z表示第一融合标签特征,;/>表示综合特征。
由此,针对属于多模态的内容样本,其包括的信息更加复杂,容易导致识别的不准确,即理解多个标签的相关性较为重要。以视频内容为例,其是仅拍摄篮球运动的代表性人物张三在讲述成长经历,但是没有对应的图像。若仅基于视频子内容进行识别,可能仅会得到标签“张三”。从而导致由于信息的缺失和不足而导致识别的准确性较低,基于此,可以通过对不同类别的子内容分别进行识别,如通过利用视频介质的视觉、文本和音频特征,可以更全面地理解视频内容,并提供准确且全面的标签信息。从而还可以基于文字子内容进行识别得到标签“成长经历”,通过多个标签和多个共现频率还可以得到标签“篮球”。从而即使多模态的内容包括更多的信息,也能够通过多个标签、多个共现频率,以及分别对不同模态的子内容进行识别,进一步提高识别的准确性,扩展了标签识别模型的应用场景。
由前述可知,若第一类别为视频类别,第二类别为文本类别,可以根据第一子内容,通过初始标签识别模型包括的视频子模型进行特征提取,得到第一子内容特征。根据第二子内容,通过初始标签识别模型包括的文本子模型进行特征提取,得到第二子内容特征。
由于初始标签识别模型包括的不同子模型之间的差异性,在一次模型训练中,不同子模型的特点不同,如不同的子模型可能负责处理不同的任务或功能,使得它们的数据分布、学习难度和收敛速度可能存在差异。如果所有子模型都采用相同的更新方式,可能无法适应各自的特点和需求,导致模型性能下降或训练不稳定。
基于此,可以对不同子模型采用不同的更新方式。例如,文本子模型的理解能力大于视频子模型的理解能力,故文本子模型可以采用较小的超参数进行更新,视频子模型采用较大的超参数进行更新。具体地,根据第一识别标签和真实标签之间的差异,以第一超参数调整视频子模型的模型参数以及以第二超参数调整文本子模型的模型参数,得到标签识别模型,其中,第一超参数大于第二超参数。在模型训练中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。这些参数定义了关于模型的更高层次的概念,如复杂性或学习能力,并且不能直接从标准模型训练过程中的数据中学习,而是需要预先定义。
由此,通过采用不同的更新方式可以更灵活地控制子模型的学习过程。例如,对于较为简单的子模型,可以采用较大的学习率进行快速更新;而对于复杂的子模型,可能需要采用较小的学习率或更复杂的优化策略来确保稳定的学习。而且,采用不同的更新方式也有助于提高初始标签识别模型的泛化能力。由于不同子模型采用不同的更新策略,它们可以从不同的角度和层面学习数据的特征,从而使整个模型(即初始标签识别模型)更加健壮和泛化。
本申请实施例不具体限定不同子模型的超参数的调整方式,本领域技术人员可以根据实际需要进行设置。例如,可以在训练过程中,初始标签识别模型包括的各个子模型均使用固定的超参数。又如,可以在开始训练时,初始标签识别模型中包括的各个子模型分别设置一个初始的超参数,然后根据不同子模型的训练结果,不断调整对应的超参数,从而提高各个子模型的准确性,进而进一步提高初始标签识别模型的准确性。
例如,以i+1次模型训练过程为例,i为大于或等于1的整数。根据第i次模型训练得到的视频子模型的准确率(Accuracy,ACC)更新第一超参数,得到更新后的第一超参数,并根据更新后的第一超参数第i+1次调整视频子模型的模型参数。同理,根据第i次模型训练得到的文本子模型的准确率更新第二超参数,得到更新后的第二超参数,并根据更新后的第二超参数第i+1次调整文本子模型的模型参数。例如,如果准确率在一段时间内没有明显提升,可能是陷入了局部最优或训练不足。此时,可以尝试调整增大批次大小或增加正则化强度等超参数。
此外,除了使用准确率以外,还可以使用损失函数。具体地,为初始标签识别模型包括的子模型(如需要动态调整的子模型)增加对应的分类头,如视频子模型可以增加用于针对视频子内容进行分类的分类头,文本子模型可以增加用于针对文本子内容进行分类的分类头。然后确定各个分类头对应的损失,如果损失持续保持在较高水平,可能是学习率过低。此时,可以尝试增大学习率这一超参数。相反,如果损失迅速下降并接近0,可能是学习率过高或模型复杂度过高导致过拟合。此时,应减小学习率或降低模型复杂度。
作为一种可能的实现方式,本申请实施例提供一种S202的具体实现方式,即根据多个共现频率和多个标签,通过初始标签识别模型进行特征提取,得到各个标签的第一融合标签特征的具体实现方式。
以通过图卷积网络进行说明,其中图卷积神经网络包括n个图卷积层,n为正整数。具体地,根据多个共现频率和多个标签,通过初始标签识别模型包括的n个图卷积层进行特征提取,得到各个标签的第一融合标签特征。由此,基于各个标签的标签特征与其所有邻居标签有关的思想,通过n个图卷积层不断进行特征提取,使得各个标签可以学习到与其共同出现的标签(即邻居标签)的特征。
下面针对第j+1层图卷积层的特征提取方式进行说明,j为小于或等于n的正整数。
具体地,获取归一化矩阵、第j层图卷积层的特征矩阵和第j层图卷积层的权重矩阵,根据归一化矩阵、第j层图卷积层的特征矩阵和第j层图卷积层的权重矩阵,得到第j+1层图卷积层的特征矩阵。
例如,多个标签和多个共现频率可以通过图结构表示。以多个标签的数量为M为例,M为正整数。图结构的数据集G包括M个节点,每个节点对应一个标签,每个节点都具有自己的特征,这些节点可以被表示为一个M*D大小的矩阵X,。其中,D表示每个节点隐藏状态的维度,即深层特征的维度。此外,各节点之间的关系可以被提取为一个M*M大小的关系矩阵A,/>,该关系矩阵还可以被称之为邻接矩阵(adjacencymatrix)。
可以将矩阵X和邻接矩阵A作为输入,通过图卷积神经网络(Graph ConvolutionalNetwork, GCN)模型包括的n个图卷积层进行特征提取,以便通过GCN模型学习节点之间的关系以及节点特征之间的关联,基于多个标签确定的共现频率用于初始化GCN中的邻接矩阵。其中,第j+1层图卷积层的特征矩阵可以表示为公式(4):
(4)/>
其中,表示第j+1层图卷积层的特征矩阵;σ(∙)表示非线性激活函数。一般采用Relu或tanh;/>表示归一化矩阵;/>表示第j层图卷积层的特征矩阵;/>表示第j层图卷积层的权重矩阵。
需要说明的是,归一化矩阵是根据多个标签的共现频率和单位矩阵得到的。例如,根据多个标签的共现频率,确定各个标签对应的邻接矩阵A,该邻接矩阵A包括对应标签分别和多个标签中各个标签共同出现的频率,根据邻接矩阵A和单位矩阵之和,得到自身度矩阵/>,该过程可以表示为/>。对自身度矩阵进行标准化处理,使得/>的每一行加起来都为1,得到归一化矩阵,即/>是对称且归一化的矩阵。其中,自身度矩阵的作用主要体现在图的处理和分析中。
由此,在图神经网络(Graph Neural Network ,GNN)和图嵌入等任务中,自身度矩阵经常与邻接矩阵一起使用,以使得每个节点都能够关注到其所有邻居节点和自己的特征,从而在聚合节点特征时平衡不同节点度的影响,使得度大的节点不会过度主导聚合结果,而度小的节点也不会被忽视。因此,通过引入自身度矩阵,在保持图结构信息的同时,有助于实现更加平衡和准确的特征聚合,解决自传递问题。而且,对邻接矩阵的归一化操作,通过对邻接矩阵两边乘以节点的度开方然后取逆得到,即通过范化邻接矩阵,避免邻居节点多的节点倾向于有更大的影响力,提高特征提取的准确性。
经过研究发现,通过公式(4)可以很好地提取各个标签的第一融合标签特征,即输入多个标签以及多个共现频率,通过若干层GCN每个节点的特征从单独描述标签的特征变成了不仅包括单独描述标签的特征,还包括与其共同标识同一内容的标签的特征,即包括邻居节点的特征。但是,无论中间有多少层,节点之间的连接关系,即邻接矩阵A是共享的。
基于此,为了快速实现层与层之间的传播,本申请实施例提供一种通过两个图卷积层快速实现前向传播的方式,具体地,根据多个共现频率和多个标签,通过初始标签识别模型包括的第一个图卷积层进行特征提取,得到各个标签的待定标签特征,根据待定标签特征,通过初始标签识别模型包括的第二个图卷积层进行特征提取,得到各个标签的第一融合标签特征。
作为一种可能的实现方式,若第一个图卷积层采用激活函数ReLU,第二个图卷积层采用激活函数softmax,则上述前向传播过程可以表示为公式(5):
(5)
其中,Z表示第一融合标签特征;X表示多个标签,如标签的特征,即仅包括对应标签自己的特征;A表示多个共现频率;表示自身度矩阵;/>表示图卷积层的权重矩阵,即第一个图卷积层还未进行前向传播时的权重矩阵;/>表示第一个图卷积层输出的权重矩阵。
由此,基于无论中间有多少层,节点之间的连接关系,即邻接矩阵A是共享的这一理论,可以将多个图卷积层转换为两个图卷积层,从而实现层与层之间的快速传播,提高标签识别模型的训练速度。
作为一种可能的实现方式,在基于初始标签识别模型进行模型训练后,得到训练完成的标签识别模型,标签识别模型的准确性大于或等于初始标签识别模型的准确性。本申请实施例不具体限定标签识别模型的使用,下面以四种方式为例进行说明。
方式一,获取待识别内容、多个标签和多个共现频率,其中,待识别内容是等待识别标签的内容,多个标签和多个共现频率均是训练初始标签识别模型使用的,根据多个共现频率和多个标签,通过标签识别模型进行特征提取,得到各个标签的第二融合标签特征,第二融合标签特征是通过标签识别模型得到的融合标签特征。根据待识别内容和第二融合标签特征,通过标签识别模型进行识别,得到针对待识别内容的第二识别标签。
方式二,由于上述方式一中,针对不同的待识别内容,多个标签和多个共现频率不会发生改变,故为了提高识别速度,可以在第一次通过标签识别模型基于多个共现频率和多个标签得到第二融合标签特征后,将第二融合标签特征进行存储,在后续使用中,无需再根据多个共现频率和多个标签,通过标签识别模型进行特征提取,得到各个标签的第二融合标签特征,而是直接获取第二融合标签特征,根据第二融合标签特征和不同的待识别内容,通过标签识别模型分别进行识别,得到各个待识别内容分别对应的第二识别标签。由此,通过不再重复对多个共现频率和多个标签进行特征提取,而是直接使用第二融合标签特征,可以提高标签识别模型的识别速度。
方式三,若多个标签或多个共现频率发生变化,则获取更新后的多个标签和更新后的多个共现频率,可以理解的是,若多个标签发生更新,则共现频率可能也会发生更新。根据更新后的多个标签和更新后的多个共现频率,通过标签识别模型进行特征提取,得到各个标签的第二融合标签特征。根据待识别内容和第二融合标签特征,通过标签识别模型进行识别,得到针对待识别内容的第二识别标签。由此,若多个标签或多个共现频率发生变化,为了提高标签识别模型的准确性,可以根据更新后的多个标签或更新后的多个共现频率,通过标签识别模型进行特征提取,得到各个标签的第二融合标签特征,从而通过更新后的数据提高特征提取的准确性,从而提高第二识别标签的准确性。
方式四,若多个标签或多个共现频率发生变化,则获取更新后的多个标签和更新后的多个共现频率。将训练完成的标签识别模型作为初始标签识别模型,根据更新后的多个标签或更新后的多个共现频率通过初始标签识别模型进行特征提取,得到各个标签的第一融合标签特征,可以理解的是,若只有多个共现频率更新,则使用未更新的多个标签和更新后的多个共现频率通过初始标签识别模型进行特征提取,得到各个标签的第一融合标签特征。根据内容样本和第一融合标签特征,通过初始标签识别模型进行识别,得到针对内容样本的第一识别标签;根据第一识别标签和真实标签之间的差异,调整初始标签识别模型的模型参数,得到标签识别模型。由此,根据更新后的多个标签或更新后的多个共现频率再次对标签识别模型进行模型训练,从而提高标签识别模型的准确性。
为了便于进一步理解本申请实施例提供的技术方案,下面以本申请实施例提供的标签识别模型的处理方法的执行主体为服务器,以为新闻阅读应用的使用场景为例,对该标签识别模型的处理方法进行整体示例性介绍。
在新闻阅读应用中,每天都会产生大量的各种类别的视频内容,这就带来了一些问题:如何让用户快速地找到他们感兴趣的话题或观看内容?用户在快速找到感兴趣的话题后是否能够进入深入阅读?如何精准地向用户推荐相关话题或视频内容,以提升用户的使用体验?为了方便说明,下面以视频内容为例。
上述问题均可以通过对视频内容准确地识别其对应的标签解决,即视频内容的标签准确性较高,则在基于标签和用户的查询词进行匹配,得到的匹配结果的准确性越高,从而可以快速为用户推荐较为准确的视频内容,即用户可能感兴趣的视频内容,以便用户深入阅读,提高用户的使用体验。
下面先对标签识别模型的训练过程进行说明。
参见图6,该图为本申请实施例一种标签识别模型的处理方法的应用场景示意图。在图6中,初始标签识别模型包括视频子模型、文本子模型、图神经网络模型、融合子模型和识别子模型。
首先,将内容样本中的视频子内容输入至视频子模型中,将内容样本中的文本子内容输入至文本子模型中,将基于多个标签确定的共现频率和多个标签输入至图神经网络模型(即前述所述的标签特征提取子模型)中。通过视频子模型进行特征提取,得到第一子内容特征,通过文本子模型进行特征提取,得到第二子内容特征,通过图神经网络模型进行特征提取,得到第一融合标签特征。根据第一子内容特征、第二子内容特征和第一融合标签特征,通过融合子模型进行融合,得到增强特征,根据增强特征,通过识别子模型进行识别,得到针对内容样本的第一识别标签。根据第一识别标签和真实标签之间的差异,调整初始标签识别模型的模型参数,得到标签识别模型。可以理解的是,每一次模型参数的调整均是一次模型训练,从而根据是否满足迭代条件,确定是否结束模型训练,从而得到标签识别模型。其中,迭代条件可以是预设迭代次数,或模型收敛等,本申请对此不做具体限定。
参见图7,该图为本申请实施例提供的一种对应图6的应用场景示意图。在图7中,融合子模型包括第一融合子模型、第二融合子模型和第三融合子模型。
将内容样本中的视频子内容输入至视频子模型中,通过视频子模型进行特征提取,得到第一子内容特征。将内容样本中的文本子内容输入至文本子模型中,通过文本子模型进行特征提取,得到第二子内容特征。将第一子内容特征和第二子内容特征输入至第三融合子模型中,通过第三融合子模型进行融合,得到内容特征,参见前述公式(2)。
根据多个标签,通过前述公式(1)可以确定各个标签分别对应的共现频率,并以矩阵的形式进行表示,即共现频率矩阵。对多个标签分别进行特征提取,得到各个标签的自己的特征,可以表示为矩阵X,,其中,M为多个标签的数量,D为各个标签的深层特征的维度。将共现频率矩阵和矩阵X输入至图神经网络模型中,通过图神经网络模型进行特征提取,得到第一融合标签特征。
根据内容特征和第一融合标签特征,通过第一融合子模型进行融合,得到综合特征。其中,本次融合可以是特征相乘。根据综合特征和内容特征,通过第二融合子模型进行融合,得到增强特征,参见前述公式(3)。
根据增强特征,通过识别子模型进行识别,得到针对内容样本的第一识别标签。其中,识别子模型可以为全连接(Fully Connected,FC)网络,本申请对此不做具体限定。
根据第一识别标签和真实标签之间的差异,调整初始标签识别模型的模型参数,得到标签识别模型。其中,第一识别标签和真实标签之间的差异可以通过二元交叉熵损失函数(Binary Cross Entropy Loss,BCELoss)形式表示,本申请对此不做具体限定。
在得到训练完成的标签识别模型后,可以获取待识别内容、多个标签和多个共现频率;根据多个共现频率和多个标签,通过标签识别模型进行特征提取,得到各个标签的第二融合标签特征;根据待识别内容和第二融合标签特征,通过标签识别模型进行识别,得到针对待识别内容的第二识别标签。
参见表1,该表展示了本申请实施例的方式和未采用共现频率的方式之间的对比。
表1
由此,就能按照视频的标签维度进行聚合和排序,一方面帮助用户主动搜索他们感兴趣的内容(即内容搜索场景),另一方面也有利于平台更加精准地向相关受众推荐内容(即内容推荐场景),增加用户的消费时长和深度,从而提高更多用户量。
针对上文描述的标签识别模型的处理方法,本申请还提供了对应的标签识别模型的处理装置,以使上述标签识别模型的处理方法在实际中得以应用及实现。
参见图8,该图为本申请实施例提供的一种标签识别模型的处理装置的结构示意图。如图8所示,该标签识别模型的处理装置800包括:获取单元801、特征提取单元802、识别单元803和调整单元804;
所述获取单元801,用于用于获取内容样本、多个标签和多个共现频率,所述共现频率用于标识多个所述标签中至少两个所述标签共同标识同一内容的频率,所述标签用于标识内容的特征,所述内容样本为具有真实标签的内容;
所述特征提取单元802,用于根据多个所述共现频率和多个所述标签,通过初始标签识别模型进行特征提取,得到各个所述标签的第一融合标签特征,所述第一融合标签特征用于标识对应标签的特征以及与所述对应标签共同标识同一内容的标签的特征,且在所述第一融合标签特征中,所述对应标签以及与所述对应标签共同标识同一内容的标签的共现频率越大,所述共同标识同一内容的标签的特征对所述第一融合标签特征的影响越大;
所述识别单元803,用于根据所述内容样本和所述第一融合标签特征,通过所述初始标签识别模型进行识别,得到针对所述内容样本的第一识别标签;
所述调整单元804,用于根据所述第一识别标签和所述真实标签之间的差异,调整所述初始标签识别模型的模型参数,得到标签识别模型,所述标签识别模型用于识别内容的标签。
由上述技术方案可以看出,标签识别模型的处理装置包括:获取单元、特征提取单元、识别单元和调整单元。通过获取单元,不仅获取内容样本,还获取多个标签和多个共现频率,共现频率用于标识多个标签中至少两个标签共同标识同一内容的频率,通过共现频率能够体现多个标签之间的关系和依赖性。从而通过特征提取单元,根据多个标签和多个共现频率,通过初始标签识别模型进行特征提取,得到各个标签的第一融合标签特征,使得第一融合标签特征不仅包括对应标签的特征,还包括与对应标签共同标识同一内容的标签的特征。而且,在第一融合标签特征中,对应标签与其共同标识同一内容的标签的共现频率越大,则该共同标识同一内容的标签的特征对该第一融合标签特征的影响越大。也就是说,通过初始标签识别模型可以更好地理解标签的语义和多个标签之间关联性,从而根据标签的语义和多个标签之间的关联性,引导初始标签识别模型有目的地理解内容样本,即通过识别单元,根据内容样本和第一融合标签特征,通过初始标签识别模型进行识别,得到针对内容样本的第一识别标签。通过调整单元,根据第一识别标签和内容样本对应的真实标签之间的差异,调整初始标签识别模型的模型参数,以使得通过初始标签识别模型识别得到的第一识别标签越来越接近真实标签,从而得到标签识别模型。由此,在对内容识别的过程中,通过引入多个标签的语义和多个标签之间的关联性,使得标签识别模型基于标签的引导更好地理解内容,从而通过不同来源的信息提高了标签识别模型对内容识别的准确性。
作为一种可能的实现方式,所述识别单元803,具体用于:
根据所述内容样本,通过所述初始标签识别模型进行特征提取,得到所述内容样本对应的内容特征;
根据所述内容特征和所述第一融合标签特征,通过所述初始标签识别模型进行融合,得到针对所述内容样本的综合特征;
根据所述综合特征,通过所述初始标签识别模型进行识别,得到针对所述内容样本的第一识别标签。
作为一种可能的实现方式,所述识别单元803,具体用于:
根据所述内容样本,通过所述初始标签识别模型进行特征提取,得到所述内容样本对应的内容特征;
根据所述内容特征和所述第一融合标签特征,通过所述初始标签识别模型进行融合,得到综合特征;
根据所述内容特征和所述综合特征,通过所述初始标签识别模型进行融合,得到针对所述内容样本的增强特征;
根据所述增强特征,通过所述初始标签识别模型进行识别,得到针对所述内容样本的第一识别标签。
作为一种可能的实现方式,所述获取单元801,具体用于:
获取所述内容样本和多个标签,所述内容样本具有单一的标签;
确定所述内容样本的类别;
根据内容样本的类别更新多个所述标签,得到更新后的多个所述标签;
根据更新后的多个所述标签,得到多个共现频率,所述共现频率用于标识所述类别分别和多个所述标签共同标识同一内容的频率。
作为一种可能的实现方式,若所述内容样本包括属于第一类别的第一子内容和属于第二类别的第二子内容,则所述识别单元803,具体用于:
根据所述内容样本,得到所述第一子内容和所述第二子内容;
根据所述第一子内容,通过所述初始标签识别模型进行特征提取,得到第一子内容特征;
根据所述第二子内容,通过所述初始标签识别模型进行特征提取,得到第二子内容特征;
根据所述第一子内容特征和所述第二子内容特征,通过所述初始标签识别模型进行融合,得到针对所述内容样本的内容特征;
根据所述内容特征和所述第一融合标签特征,通过所述初始标签识别模型进行识别,得到针对所述内容样本的第一识别标签。
作为一种可能的实现方式,若所述第一类别为视频类别,所述第二类别为文本类别,则所述特征提取单元802,具体用于:
根据所述第一子内容,通过所述初始标签识别模型包括的视频子模型进行特征提取,得到第一子内容特征;
根据所述第二子内容,通过所述初始标签识别模型包括的文本子模型进行特征提取,得到第二子内容特征;
所述调整单元804,具体用于:
根据所述第一识别标签和所述真实标签之间的差异,以第一超参数调整所述视频子模型的模型参数以及以第二超参数调整所述文本子模型的模型参数,得到标签识别模型,所述第一超参数大于所述第二超参数。
作为一种可能的实现方式,所述调整单元804针对所述第i+1次模型训练过程如下,i为正整数;
根据第i次模型训练得到的视频子模型的准确率更新所述第一超参数,得到更新后的第一超参数;
根据所述更新后的第一超参数第i+1次调整所述视频子模型的模型参数;
根据第i次模型训练得到的文本子模型的准确率更新所述第二超参数,得到更新后的第二超参数;
根据所述更新后的第二超参数第i+1次调整所述文本子模型的模型参数。
作为一种可能的实现方式,所述特征提取单元802,具体用于:
根据多个所述共现频率和多个所述标签,通过所述初始标签识别模型包括的n个图卷积层进行特征提取,得到各个所述标签的第一融合标签特征,n为正整数;
其中,针对第j+1层图卷积层的特征提取方式如下,j为小于n的正整数:
获取归一化矩阵、第j层图卷积层的特征矩阵和所述第j层图卷积层的权重矩阵,所述归一化矩阵是根据多个所述标签的共现频率和单位矩阵得到的;
根据所述归一化矩阵、所述第j层图卷积层的特征矩阵和所述第j层图卷积层的权重矩阵,得到所述第j+1层图卷积层的特征矩阵。
作为一种可能的实现方式,所述特征提取单元802,具体用于:
根据多个所述共现频率和多个所述标签,通过所述初始标签识别模型包括的第一个图卷积层进行特征提取,得到各个所述标签的待定标签特征;
根据所述待定标签特征,通过所述初始标签识别模型包括的第二个图卷积层进行特征提取,得到各个所述标签的第一融合标签特征。
作为一种可能的实现方式,所述标签识别模型的处理装置800还包括应用单元,用于:
获取待识别内容、多个所述标签和多个所述共现频率;
根据多个所述共现频率和多个所述标签,通过所述标签识别模型进行特征提取,得到各个所述标签的第二融合标签特征;
根据所述待识别内容和所述第二融合标签特征,通过所述标签识别模型进行识别,得到针对所述待识别内容的第二识别标签。
作为一种可能的实现方式,所述获取单元801,还用于若多个所述标签或多个所述共现频率发生变化,则获取更新后的多个标签和更新后的多个共现频率;
所述特征提取单元802,具体用于根据所述更新后的多个标签或所述更新后的多个共现频率,通过所述标签识别模型进行特征提取,得到各个所述标签的第二融合标签特征。
本申请实施例还提供了一种计算机设备,该计算机设备可以为服务器或者终端设备,下面将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。其中,图9所示为服务器的结构示意图,图10所示为终端设备的结构示意图。
参见图9,该图为本申请实施例提供的一种服务器结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器1422,如中央处理器(Central Processing Units,CPU),存储器1432,一个或一个以上应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,处理器1422可以设置为与存储介质1430通信,在服务器1400上执行存储介质1430中的一系列指令操作。
服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作***1441,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图9所示的服务器结构。
其中,处理器1422用于执行如下步骤:
获取内容样本、多个标签和多个共现频率,所述共现频率用于标识多个所述标签中至少两个所述标签共同标识同一内容的频率,所述标签用于标识内容的特征,所述内容样本为具有真实标签的内容;
根据多个所述共现频率和多个所述标签,通过初始标签识别模型进行特征提取,得到各个所述标签的第一融合标签特征,所述第一融合标签特征用于标识对应标签的特征以及与所述对应标签共同标识同一内容的标签的特征,且在所述第一融合标签特征中,所述对应标签以及与所述对应标签共同标识同一内容的标签的共现频率越大,所述共同标识同一内容的标签的特征对所述第一融合标签特征的影响越大;
根据所述内容样本和所述第一融合标签特征,通过所述初始标签识别模型进行识别,得到针对所述内容样本的第一识别标签;
根据所述第一识别标签和所述真实标签之间的差异,调整所述初始标签识别模型的模型参数,得到标签识别模型,所述标签识别模型用于识别内容的标签。
可选的,处理器1422还可以执行本申请实施例中标签识别模型的处理方法任一具体实现方式的方法步骤。
参见图10,该图为本申请实施例提供的一种终端设备的结构示意图。以该终端设备是智能手机为例进行说明,图10示出的是该智能手机的部分结构的框图,该智能手机包括:射频(Radio Frequency,简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(简称WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图10中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对智能手机的各个构成部件进行具体的介绍:
RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1580处理;另外,将设计上行的数据发送给基站。
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而实现智能手机的各种功能应用以及数据处理。
输入单元1530可用于接收输入的数字或字符信息,以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作,并根据预先设定的程式驱动相应的连接装置。除了触控面板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元1540可包括显示面板1541,可选的,可以采用液晶显示器(LiquidCrystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板1541。
智能手机还可包括至少一种传感器1550,比如光传感器、运动传感器以及其他传感器。至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1560、扬声器1561,传声器1562可提供用户与智能手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出;另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路1560接收后转换为音频数据,再将音频数据输出处理器1580处理后,经RF电路1510以发送给比如另一智能手机,或者将音频数据输出至存储器1520以便进一步处理。
处理器1580是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行智能手机的各种功能和处理数据。可选的,处理器1580可包括一个或多个处理单元。
智能手机还包括给各个部件供电的电源1590(比如电池),优选的,电源可以通过电源管理***与处理器1580逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。
尽管未示出,智能手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该智能手机所包括的存储器1520可以存储计算机程序,并将所述计算机程序传输给所述处理器。
该智能手机所包括的处理器1580可以根据所述计算机程序中的指令执行上述实施例提供的标签识别模型的处理方法。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行上述实施例提供的标签识别模型的处理方法。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的标签识别模型的处理方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:Read-Only Memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (15)

1.一种标签识别模型的处理方法,其特征在于,所述方法包括:
获取内容样本、多个标签和多个共现频率,所述共现频率用于标识多个所述标签中至少两个所述标签共同标识同一内容的频率,所述标签用于标识内容的特征,所述内容样本为具有真实标签的内容;
根据多个所述共现频率和多个所述标签,通过初始标签识别模型进行特征提取,得到各个所述标签的第一融合标签特征,所述第一融合标签特征用于标识对应标签的特征以及与所述对应标签共同标识同一内容的标签的特征,且在所述第一融合标签特征中,所述对应标签以及与所述对应标签共同标识同一内容的标签的共现频率越大,所述共同标识同一内容的标签的特征对所述第一融合标签特征的影响越大;
根据所述内容样本和所述第一融合标签特征,通过所述初始标签识别模型进行识别,得到针对所述内容样本的第一识别标签;
根据所述第一识别标签和所述真实标签之间的差异,调整所述初始标签识别模型的模型参数,得到标签识别模型,所述标签识别模型用于识别内容的标签。
2.根据权利要求1所述的方法,其特征在于,所述根据所述内容样本和所述第一融合标签特征,通过所述初始标签识别模型进行识别,得到针对所述内容样本的第一识别标签,包括:
根据所述内容样本,通过所述初始标签识别模型进行特征提取,得到所述内容样本对应的内容特征;
根据所述内容特征和所述第一融合标签特征,通过所述初始标签识别模型进行融合,得到针对所述内容样本的综合特征;
根据所述综合特征,通过所述初始标签识别模型进行识别,得到针对所述内容样本的第一识别标签。
3.根据权利要求1所述的方法,其特征在于,所述根据所述内容样本和所述第一融合标签特征,通过所述初始标签识别模型进行识别,得到针对所述内容样本的第一识别标签,包括:
根据所述内容样本,通过所述初始标签识别模型进行特征提取,得到所述内容样本对应的内容特征;
根据所述内容特征和所述第一融合标签特征,通过所述初始标签识别模型进行融合,得到综合特征;
根据所述内容特征和所述综合特征,通过所述初始标签识别模型进行融合,得到针对所述内容样本的增强特征;
根据所述增强特征,通过所述初始标签识别模型进行识别,得到针对所述内容样本的第一识别标签。
4.根据权利要求1所述的方法,其特征在于,所述获取内容样本、多个标签和多个共现频率,包括:
获取所述内容样本和多个标签,所述内容样本具有单一的标签;
确定所述内容样本的类别;
根据内容样本的类别更新多个所述标签,得到更新后的多个所述标签;
根据更新后的多个所述标签,得到多个共现频率,所述共现频率用于标识所述类别分别和各个所述标签共同标识同一内容的频率。
5.根据权利要求1所述的方法,其特征在于,若所述内容样本包括属于第一类别的第一子内容和属于第二类别的第二子内容,则所述根据所述内容样本和所述第一融合标签特征,通过所述初始标签识别模型进行识别,得到针对所述内容样本的第一识别标签,包括:
根据所述内容样本,得到所述第一子内容和所述第二子内容;
根据所述第一子内容,通过所述初始标签识别模型进行特征提取,得到第一子内容特征;
根据所述第二子内容,通过所述初始标签识别模型进行特征提取,得到第二子内容特征;
根据所述第一子内容特征和所述第二子内容特征,通过所述初始标签识别模型进行融合,得到针对所述内容样本的内容特征;
根据所述内容特征和所述第一融合标签特征,通过所述初始标签识别模型进行识别,得到针对所述内容样本的第一识别标签。
6.根据权利要求5所述的方法,其特征在于,若所述第一类别为视频类别,所述第二类别为文本类别,则所述根据所述第一子内容,通过所述初始标签识别模型进行特征提取,得到第一子内容特征,包括:
根据所述第一子内容,通过所述初始标签识别模型包括的视频子模型进行特征提取,得到第一子内容特征;
所述根据所述第二子内容,通过所述初始标签识别模型进行特征提取,得到第二子内容特征,包括:
根据所述第二子内容,通过所述初始标签识别模型包括的文本子模型进行特征提取,得到第二子内容特征;
所述根据所述第一识别标签和所述真实标签之间的差异,调整所述初始标签识别模型的模型参数,得到标签识别模型,包括:
根据所述第一识别标签和所述真实标签之间的差异,以第一超参数调整所述视频子模型的模型参数以及以第二超参数调整所述文本子模型的模型参数,得到标签识别模型,所述第一超参数大于所述第二超参数。
7.根据权利要求6所述的方法,其特征在于,所述模型参数的第i+1次调整方式如下,i为正整数:
根据第i次模型训练得到的视频子模型的准确率,更新所述第一超参数,得到更新后的第一超参数;
根据所述更新后的第一超参数,第i+1次调整所述视频子模型的模型参数;
根据第i次模型训练得到的文本子模型的准确率更新所述第二超参数,得到更新后的第二超参数;
根据所述更新后的第二超参数,第i+1次调整所述文本子模型的模型参数。
8.根据权利要求1所述的方法,其特征在于,所述根据多个所述共现频率和多个所述标签,通过初始标签识别模型进行特征提取,得到各个所述标签的第一融合标签特征,包括:
根据多个所述共现频率和多个所述标签,通过所述初始标签识别模型包括的n个图卷积层进行特征提取,得到各个所述标签的第一融合标签特征,n为正整数;
其中,针对第j+1层图卷积层的特征提取方式如下,j为小于n的正整数:
获取归一化矩阵、第j层图卷积层的特征矩阵和所述第j层图卷积层的权重矩阵,所述归一化矩阵是根据多个所述标签的共现频率和单位矩阵得到的;
根据所述归一化矩阵、所述第j层图卷积层的特征矩阵和所述第j层图卷积层的权重矩阵,得到所述第j+1层图卷积层的特征矩阵。
9.根据权利要求7所述的方法,其特征在于,所述根据多个所述共现频率和多个所述标签,通过初始标签识别模型进行特征提取,得到各个所述标签的第一融合标签特征,包括:
根据多个所述共现频率和多个所述标签,通过所述初始标签识别模型包括的第一个图卷积层进行特征提取,得到各个所述标签的待定标签特征;
根据所述待定标签特征,通过所述初始标签识别模型包括的第二个图卷积层进行特征提取,得到各个所述标签的第一融合标签特征。
10.根据权利要求1-9任意一项所述的方法,其特征在于,所述方法还包括:
获取待识别内容、多个所述标签和多个所述共现频率;
根据多个所述共现频率和多个所述标签,通过所述标签识别模型进行特征提取,得到各个所述标签的第二融合标签特征;
根据所述待识别内容和所述第二融合标签特征,通过所述标签识别模型进行识别,得到针对所述待识别内容的第二识别标签。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
若多个所述标签或多个所述共现频率发生变化,则获取更新后的多个标签和更新后的多个共现频率;
所述根据多个所述共现频率和多个所述标签,通过所述标签识别模型进行特征提取,得到各个所述标签的第二融合标签特征,包括:
根据所述更新后的多个标签或所述更新后的多个共现频率,通过所述标签识别模型进行特征提取,得到各个所述标签的第二融合标签特征。
12.一种标签识别模型的处理装置,其特征在于,所述装置包括:获取单元、特征提取单元、识别单元和调整单元;
所述获取单元,用于获取内容样本、多个标签和多个共现频率,所述共现频率用于标识多个所述标签中至少两个所述标签共同标识同一内容的频率,所述标签用于标识内容的特征,所述内容样本为具有真实标签的内容;
所述特征提取单元,用于根据多个所述共现频率和多个所述标签,通过初始标签识别模型进行特征提取,得到各个所述标签的第一融合标签特征,所述第一融合标签特征用于标识对应标签的特征以及与所述对应标签共同标识同一内容的标签的特征,且在所述第一融合标签特征中,所述对应标签以及与所述对应标签共同标识同一内容的标签的共现频率越大,所述共同标识同一内容的标签的特征对所述第一融合标签特征的影响越大;
所述识别单元,用于根据所述内容样本和所述第一融合标签特征,通过所述初始标签识别模型进行识别,得到针对所述内容样本的第一识别标签;
所述调整单元,用于根据所述第一识别标签和所述真实标签之间的差异,调整所述初始标签识别模型的模型参数,得到标签识别模型,所述标签识别模型用于识别内容的标签。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序执行权利要求1-11中任意一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-11中任意一项所述的方法。
15.一种包括计算机程序的计算机程序产品,其特征在于,当其在计算机设备上运行时,使得所述计算机设备执行权利要求1-11中任意一项所述的方法。
CN202410441452.7A 2024-04-12 2024-04-12 一种标签识别模型的处理方法和相关装置 Active CN118035945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410441452.7A CN118035945B (zh) 2024-04-12 2024-04-12 一种标签识别模型的处理方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410441452.7A CN118035945B (zh) 2024-04-12 2024-04-12 一种标签识别模型的处理方法和相关装置

Publications (2)

Publication Number Publication Date
CN118035945A true CN118035945A (zh) 2024-05-14
CN118035945B CN118035945B (zh) 2024-07-05

Family

ID=90991735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410441452.7A Active CN118035945B (zh) 2024-04-12 2024-04-12 一种标签识别模型的处理方法和相关装置

Country Status (1)

Country Link
CN (1) CN118035945B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118228021A (zh) * 2024-05-24 2024-06-21 腾讯科技(深圳)有限公司 一种识别模型的训练方法和相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627447A (zh) * 2021-10-13 2021-11-09 腾讯科技(深圳)有限公司 标签识别方法、装置、计算机设备、存储介质及程序产品
CN113761291A (zh) * 2021-04-27 2021-12-07 腾讯科技(深圳)有限公司 标签分类的处理方法和装置
CN114283310A (zh) * 2021-08-25 2022-04-05 腾讯科技(深圳)有限公司 图像识别模型的获取方法、图像识别方法、装置及介质
CN115344698A (zh) * 2022-08-11 2022-11-15 腾讯科技(深圳)有限公司 标签处理方法、装置、计算机设备、存储介质和程序产品

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761291A (zh) * 2021-04-27 2021-12-07 腾讯科技(深圳)有限公司 标签分类的处理方法和装置
CN114283310A (zh) * 2021-08-25 2022-04-05 腾讯科技(深圳)有限公司 图像识别模型的获取方法、图像识别方法、装置及介质
CN113627447A (zh) * 2021-10-13 2021-11-09 腾讯科技(深圳)有限公司 标签识别方法、装置、计算机设备、存储介质及程序产品
CN115344698A (zh) * 2022-08-11 2022-11-15 腾讯科技(深圳)有限公司 标签处理方法、装置、计算机设备、存储介质和程序产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118228021A (zh) * 2024-05-24 2024-06-21 腾讯科技(深圳)有限公司 一种识别模型的训练方法和相关装置

Also Published As

Publication number Publication date
CN118035945B (zh) 2024-07-05

Similar Documents

Publication Publication Date Title
Yang et al. Image-text multimodal emotion classification via multi-view attentional network
CN111897964B (zh) 文本分类模型训练方法、装置、设备及存储介质
CN111930992B (zh) 神经网络训练方法、装置及电子设备
US12008810B2 (en) Video sequence selection method, computer device, and storage medium
CN112182166B (zh) 一种文本匹配方法、装置、电子设备及存储介质
CN110209897B (zh) 智能对话方法、装置、存储介质及设备
CN118035945B (zh) 一种标签识别模型的处理方法和相关装置
CN113515942A (zh) 文本处理方法、装置、计算机设备及存储介质
CN113761153A (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN112085120B (zh) 多媒体数据的处理方法、装置、电子设备及存储介质
CN116935188B (zh) 模型训练方法、图像识别方法、装置、设备及介质
CN113761887A (zh) 基于文本处理的匹配方法、装置、计算机设备和存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN111314771A (zh) 一种视频播放方法及相关设备
Ishmam et al. From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities
CN116186197A (zh) 话题推荐方法、装置、电子设备及存储介质
Liu et al. A multimodal approach for multiple-relation extraction in videos
CN116578729B (zh) 内容搜索方法、装置、电子设备、存储介质和程序产品
Sun et al. Rumour detection technology based on the BiGRU_capsule network
CN116910201A (zh) 一种对话数据生成方法及其相关设备
CN114357203B (zh) 多媒体检索方法、装置及计算机设备
CN115269961A (zh) 内容搜索方法以及相关设备
CN114625986A (zh) 对搜索结果进行排序的方法、装置、设备及存储介质
CN114510942A (zh) 获取实体词的方法、模型的训练方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant