CN116955707A - 内容标签的确定方法、装置、设备、介质及程序产品 - Google Patents

内容标签的确定方法、装置、设备、介质及程序产品 Download PDF

Info

Publication number
CN116955707A
CN116955707A CN202211483665.3A CN202211483665A CN116955707A CN 116955707 A CN116955707 A CN 116955707A CN 202211483665 A CN202211483665 A CN 202211483665A CN 116955707 A CN116955707 A CN 116955707A
Authority
CN
China
Prior art keywords
content
text
candidate
tag
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211483665.3A
Other languages
English (en)
Inventor
杨煜霖
陈世哲
刘霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211483665.3A priority Critical patent/CN116955707A/zh
Publication of CN116955707A publication Critical patent/CN116955707A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种内容标签的确定方法、装置、设备、介质及程序产品,涉及人工智能技术领域。该方法包括:获取目标内容的多个候选标签;获取所述目标内容对应的文本内容;获取多个候选标签分别对应的标签描述内容;对多个候选标签分别对应的置信度分数进行特征提取,得到分数特征表示;以及对文本内容和标签描述内容进行特征提取,得到多个候选标签分别对应的关联特征表示;基于分数特征表示和关联特征表示,从多个候选标签中确定目标内容对应的内容标签。整合了目标内容和候选标签本身的文本信息,充分利用了丰富的文本信息,且充分利用了候选标签之间的关联信息做决策,从而提高了最终得到内容标签的准确率。

Description

内容标签的确定方法、装置、设备、介质及程序产品
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种内容标签的确定方法、装置、设备、介质及程序产品。
背景技术
内容标签是指对指定内容进行高度概括的关键字或词,例如:对于视频来说,其内容标签可以是视频中出现的人名,剧名,曲名,物品,场景等,帮助观看者更加直接的了解视频内容。
相关技术中,对于视频标签的确定方法为基于检索的方法,需要根据预设标签建立相应的视频标签索引库;在实际确定指定视频帧对应的标签时,需要在视频标签索引库检索得到与指定视频帧相似度最高的目标视频帧,将目标视频帧对应的预设标签确定为指定视频帧的标签。
然而,相关技术中的标签确定方法仅通过图片相似度确定指定视频帧的标签,得到的标签的准确率较低。
发明内容
本申请实施例提供了一种内容标签的确定方法、装置、设备、介质及程序产品,能够提高内容标签的准确率,所述技术方案如下:
一方面,提供了一种内容标签的确定方法,所述方法包括:
获取目标内容的多个候选标签,所述多个候选标签对应有至少两种获取方式,所述至少两种获取方式是指基于至少两种不同的分析方式对所述目标内容进行分析得到候选标签的方式,所述候选标签包括在所述获取方式下对应的置信度分数;
获取所述目标内容对应的文本内容,所述文本内容是与所述目标内容相关联的文本数据;
获取所述多个候选标签分别对应的标签描述内容,所述标签描述内容用于对所述候选标签进行描述;
对所述多个候选标签分别对应的置信度分数进行特征提取,得到分数特征表示;以及对所述文本内容和所述标签描述内容进行特征提取,得到所述多个候选标签分别对应的关联特征表示,所述关联特征表示用于指示不同候选标签之间的关联关系;
基于所述分数特征表示和所述关联特征表示,从所述多个候选标签中确定所述目标内容对应的内容标签。
另一方面,提供了一种内容标签的确定装置,所述装置包括:
获取模块,用于获取目标内容的多个候选标签,所述多个候选标签对应有至少两种获取方式,所述至少两种获取方式是指基于至少两种不同的分析方式对所述目标内容进行分析得到候选标签的方式,所述候选标签包括在所述获取方式下对应的置信度分数;
所述获取模块,还用于获取所述目标内容对应的文本内容,所述文本内容是与所述目标内容相关联的文本数据;
所述获取模块,还用于获取所述多个候选标签分别对应的标签描述内容,所述标签描述内容用于对所述候选标签进行描述;
提取模块,用于对所述多个候选标签分别对应的置信度分数进行特征提取,得到分数特征表示;以及对所述文本内容和所述标签描述内容进行特征提取,得到所述多个候选标签分别对应的关联特征表示,所述关联特征表示用于指示不同候选标签之间的关联关系;
确定模块,用于基于所述分数特征表示和所述关联特征表示,从所述多个候选标签中确定所述目标内容对应的内容标签。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上述实施例中任一所述内容标签的确定方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述实施例中任一所述的内容标签的确定方法。
另一方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述实施例中任一所述的内容标签的确定方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过获取目标内容对应的文本内容以及目标内容的多个候选标签分别对应的标签描述内容,提取得到分数特征表示和关联特征表示,并对这二者进行联合分析,从而从多个候选标签中确定目标内容对应的内容标签。一方面,多个候选标签是基于至少两种不同的分析方式对目标内容进行分析得到的,增加了目标内容对应的候选标签的多样性,也提高了最终得到的内容标签的容错率;另一方面,整合了目标内容和候选标签本身的文本信息,充分利用了丰富的文本信息,且充分利用了候选标签之间的关联信息做决策,从而提高了最终得到内容标签的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的内容标签的确定方法的过程示意图;
图2是本申请一个示例性实施例提供的实施环境示意图;
图3是本申请一个示例性实施例提供的内容标签的确定方法的流程图;
图4是本申请另一个示例性实施例提供的内容标签的确定方法的流程图;
图5是本申请一个示例性实施例提供的内容标签的确定方法的整体流程示意图;
图6是本申请一个示例性实施例提供的网络结构示意图;
图7是本申请一个示例性实施例提供的标签确定模型的训练方法的流程图;
图8是本申请一个示例性实施例提供的标签确定模型的训练方法的整体结构图;
图9是本申请一个示例性实施例提供的内容标签的确定装置的结构框图;
图10是本申请另一个示例性实施例提供的内容标签的确定装置的结构框图;
图11是本申请一个示例性实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中术语“第一”、“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
首先,针对本申请实施例中涉及的名词进行简单介绍。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
计算机视觉技术(Computer Vision,CV):是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
相关技术中,对于视频标签的确定方法为基于检索的方法,需要根据预设标签建立相应的视频标签索引库;在实际确定指定视频帧对应的标签时,需要在视频标签索引库检索得到与指定视频帧相似度最高的目标视频帧,将目标视频帧对应的预设标签确定为指定视频帧的标签。然而,相关技术中的标签确定方法仅通过图片相似度确定指定视频帧的标签,得到的标签的准确率较低。
本申请实施例提供了一种内容标签的确定方法,将通过至少两种获取方式获取得到的目标内容的标签作为候选标签,在此基础上加入了候选标签排序算法,充分利用了丰富的文本信息,充分利用了候选标签之间的关联信息做决策,从而提高了确定得到的目标内容对应的内容标签的准确率。
示意性的,请参考图1,图1是本申请一个示例性实施例提供的内容标签的确定方法的整体过程示意图,如图1所示:
对于目标视频101来说,在视频标签***中,可通过至少两种获取方式(例如:人脸识别、物体检测、标签多分类、视频检索等)得到目标视频101的多个候选标签102,对于每一个候选标签来说,都有其对应的获取方式和在获取方式下的置信度分数,例如:广场舞(标签内容),0.9(置信度分数),物体检测(获取方式)。
获取多个候选标签102后,通过本申请实施例提供的标签确定模型103,可获取目标视频101对应的视频文本内容,以及多个候选标签102分别对应的标签描述内容;然后,对多个候选标签102分别对应的置信度分数进行特征提取得到分数特征表示,以及对视频文本内容和标签描述内容进行特征提取,得到多个候选标签102分别对应的关联特征表示,关联特征表示用于指示不同候选标签之间的关联关系;最后,基于分数特征表示和关联特征表示,从多个候选标签102中确定目标视频101对应的视频标签。
本申请实施例提供的内容标签的确定方法,可以应用于短视频发布场景中,当创作者在短视频平台上传短视频后,计算机设备可识别短视频对应的内容标签,发布携带有内容标签的短视频;还可以应用于视频推荐场景中,计算机设备对目标视频进行识别,识别得到目标视频对应的内容标签,从而将目标视频与对应的内容标签进行关联存储,后续在目标视频推荐过程中,当观看者搜索与内容标签相关的视频时,可根据关联存储的视频进行推荐,提高推荐准确性。值得注意的是,上述应用场景仅为示意性的举例,本实施例提供的内容标签的确定方法还可以应用于其他场景中,本申请实施例对此不加以限定。
其次,对本申请实施例中涉及的实施环境进行说明,可选地,本申请实施例可以由终端单独实现,也可以由服务器单独实现,还可以由终端和服务器共同实现。本实施例中,以终端和服务器共同实现为例进行说明。
示意性的,请参考图2,该实施环境中涉及终端210、服务器220,终端210和服务器220之间通过通信网络230连接。其中,通信网络230可以是有线网络,还可以是无线网络,本申请实施例对此不加以限定。
在一些可选的实施例中,终端210中安装和运行有具有内容标签的确定功能的目标应用程序。该目标应用程序可以实现为即时通讯应用程序、视频应用程序、新闻资讯应用程序、综合搜索引擎应用程序、社交应用程序、游戏应用程序、购物应用程序、地图导航应用程序等,本申请实施例对此不加以限定。示意性的,当需要对目标内容(例如:目标视频)进行标签确定时,可将目标视频输入到终端210中,终端210识别得到目标视频对应的内容标签后,可选地,终端210对该内容标签进行展示。
在一些可选的实施例中,服务器220用于为终端210中安装的目标应用程序提供后台服务,服务器220中设置标签标注***和标签确定模型,服务器220收到目标视频后,可通过标签标注***在至少两种获取方式下获取得到目标视频的多个候选标签,对于每个候选标签来说,对应有在指定获取方式下的置信度分数;服务器220将多个候选标签输入到标签确定模型中,首先,获取目标视频对应的文本内容,以及多个候选标签分别对应的标签描述内容;其次,对多个候选标签分别对应的置信度分数进行特征提取,得到分数特征表示,以及对文本内容和标签描述内容进行特征提取,得到多个候选标签分别对应的关联特征表示;最后,基于分数特征表示和关联特征表示,从多个候选标签中确定目标视频对应的内容标签。可选地,服务器220将获取得到的内容标签发送到终端210中。
在一些可选的实施例中,上述标签标注***设置在终端210中,即终端210可通过标签标注***对目标视频进行分析后,获取多个候选标签;然后,终端210将多个候选标签发送至服务器220。
其中,终端210包括智能手机、平板电脑、便携式膝上笔记本电脑、台式计算机、智能音箱、智能可穿戴设备、智能语音交互设备、智能家电、车载终端等终端中的至少一种。
值得注意的是,服务器220能够是独立的物理服务器,也能够是多个物理服务器构成的服务器集群或者分布式***,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模型应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台***进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的***后盾支撑,只能通过云计算来实现。可选地,服务器220还可以实现为区块链***中的节点。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户单独授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的候选标签、目标内容对应的文本内容等都是在充分授权的情况下获取的。
结合上述介绍和实施环境,图3是本申请实施例提供的一种内容标签的确定方法的流程图,该方法可以由服务器或者终端执行,也可以由服务器和终端共同执行,本申请实施例中,以该方法由服务器执行为例进行说明,如图3所示,该方法包括:
步骤301,获取目标内容的多个候选标签。
其中,多个候选标签对应有至少两种获取方式,至少两种获取方式是指基于至少两种不同的分析方式对目标内容进行分析得到候选标签的方式,候选标签包括在获取方式下对应的置信度分数。
可选地,目标内容包括目标视频、目标文本、目标音频等中的至少一种;目标内容可以是对象在指定平台(例如:即时通讯应用程序)上发布的任意内容,例如:短视频、公众号文章、音乐等。
可选地,基于预设的标签***,通过至少两种获取方式获取得到目标内容的多个候选标签。其中,标签***中可设置至少两种召回模型,每种召回模型对应一种获取方式,召回模型用于对目标内容进行分析得到对应的候选标签。可选地,召回模型包括人脸识别模型、物体检测模型、标签多分类模型、视频检索模型、剧名识别模型、场景识别模型等可对目标内容进行标签识别的模型,本申请实施例对此不加以限定。
可选地,不同的召回模型负责识别得到不同类型的标签,例如:人脸识别模型负责识别得到人名标签;剧名识别模型负责识别得到电影、电视剧、综艺、动漫等主题类型标签;场景识别模型负责识别得到场景标签等。
可选地,一个候选标签对应有一个召回模型;或者一个候选标签对应有多个召回模型,示意性的,场景识别模型识别出目标视频的场景为沙漠,物体检测模型也识别得到沙漠,则标签“沙漠”对应的召回模型有两个。
对于每一个候选标签来说,都对应有标签分数,该标签分数用于指示在指定分析方式下对目标内容进行分析,得到的候选标签属于目标内容实际标签的概率。可选地,候选标签可通过三元组的方式存储在预设的标签***中,其中,三元组的格式为<标签名,置信度分数,召回模型>,例如:目标视频的其中一个候选标签为<沙漠,0.8,场景识别模型>,即代表通过场景识别模型对目标视频进行场景识别,得到标签“沙漠”,且该标签属于目标视频实际场景的概率为0.8。
步骤302,获取目标内容对应的文本内容。
其中,文本内容是与目标内容相关联的文本数据。
可选地,若目标内容实现为目标文本,则文本内容包括该目标文本本身所包含的第一文本数据,例如:标题、关键词、正文等内容;该文本内容还可以包括与目标文本关联性较强的第二文本数据,例如:参考文献等。可选地,将第一文本数据和第二文本数据进行拼接得到与目标文本对应的文本内容。
可选地,若目标内容实现为目标音频,则文本内容包括目标音频本身所包含的第三文本数据,例如:标题文本、字幕文本、来源信息等;该文本内容还可以包括对目标音频进行自动语音识别(Automatic Speech Recognition,ASR)后得到的第四文本数据。可选地,将第三文本数据和第四文本数据进行拼接得到与目标音频对应的文本内容。
可选地,若目标文本实现为目标视频,则文本内容包括目标视频本身所包含的第五文本数据,例如:标题文本、字幕文本、视频链接等;该文本内容还可以包括对目标视频进行识别后得到的文本数据,例如:对目标视频进行ASR后得到第六文本数据;或者,对目标视频进行光学字符识别(Optical Character Recognition,OCR)后,将视频画面中包含的文本转换为第七文本数据。可选地,将第五文本数据、第六文本数据和第七文本数据进行拼接得到与目标内容对应的文本内容。
步骤303,获取多个候选标签分别对应的标签描述内容。
其中,标签描述内容用于对候选标签进行描述。
可选地,预设的标签***中包含有标签库,该标签库中记录有多个候选标签分别对应的标签信息,可选地,该标签信息包括标签标识,标签名称,标签描述,标签分类等,例如:<“001”,“刘某某”,“国内知名演员,参演作品《某某录》等”,演员>。
可选地,对于上述候选标签的标签信息,可对其进行筛选,并处理得到一个完整的语句,作为候选标签对应的标签描述内容。示意性的,标签描述内容的构成为:“标签名,分类:标签的分类,描述:标签的描述”,假设标签i为<刘某某,0.9,人脸识别>,则标签i的标签描述内容为:“刘某某,分类:演员,描述:国内知名演员,参演作品《某某录》等”。
步骤304,对多个候选标签分别对应的置信度分数进行特征提取,得到分数特征表示;以及对文本内容和标签描述内容进行特征提取,得到多个候选标签分别对应的关联特征表示。
其中,关联特征表示用于指示不同候选标签之间的关联关系。
下面分别分数特征表示和关联特征表示的提取过程进行说明:
1、分数特征表示
可选地,对多个候选标签分别对应的置信度分数进行特征提取,得到分数特征向量作为分数特征表示,其中至少两种获取方式的数量即为该分数特征向量的维度。则根据K种获取方式以及候选标签在K种获取方式下分别对应的置信度分数,构建K维分数向量作为分数特征表示,K维分数向量中第j个维度对应的分数用于指示候选标签在第j种获取方式下对应的置信度分数,其中,K和j为正整数,j小于或者等于K,K大于或者等于2;对K维分数向量进行特征提取,得到分数特征表示。
其中,K种获取方式对应有K种召回模型,召回模型用于对目标内容进行分析得到对应的候选标签。可选地,若召回模型包括人脸识别模型、物体检测模型、标签多分类模型、视频检索模型、剧名识别模型、场景识别模型这6种模型,则对应有6种获取方式,K为6,也即构建的分数向量为6维分数向量。
示意性的,对于每一个候选标签,提取其在所有召回模型下的分数(同一个候选标签可能被多种召回模型同时识别到),构成一个分数向量。其中,分数向量的维度(或者长度)为所有召回模型的数量,示意性的,对于候选标签i来说,假设总共有7种召回模型,其中人脸识别模型为第3种召回模型,多模态分类模型为第5种召回模型,则候选标签i为<刘某某,0.9,人脸识别>|<刘某某,0.3,多模态分类模型>,候选标签i的分数向量为[0,0,0.9,0,0.3,0,0];构建得到候选标签i的分数向量后,对该向量进行特征提取,得到的分数特征表示即为候选标签i的分数特征表示。
在一些实施例中,也可使用对单一维度的分数向量进行特征提取得到分数特征表示。可选地,对于仅被一个召回模型识别到的候选标签,则在该召回模型下的置信度分数即为该候选标签对应的分数向量;对于被多个召回模型识别到的候选标签,则对该候选标签在各个召回模型下的置信度分数进行加权平均,得到的加权平均结果即为该候选标签对应的分数向量,例如:标签i在召回模型1下的置信度分数为0.9,在召回模型2下的置信度分数为0.6,则标签i最终的分分数向量可以是两者的平均值0.75。
2、关联特征表示
关联特征表示是指不同标签之间的关联度,示意性的,标签i的关联特征表示1用于指示标签i和标签j之间的关联度,可表征在标签j属于目标内容的实际标签的情况下,标签i属于目标内容的实际标签的可能性。例如:候选标签列表中出现了“刘某某”和“某某录”,则可以认为这两个标签非常可信(刘某某出演过某某录),若列表中出现了“刘某某”和“某某奥特曼”,则这两个标签都不可信,因为这两个标签出现在一起的概率很低。
可选地,在提取每个候选标签分别对应的分数特征表示时,综合考虑候选标签本身的文本信息和候选标签对应的目标内容的文本信息。则将文本内容和标签描述内容进行文本拼接处理,得到文本拼接内容;对文本拼接内容进行特征提取,得到多个候选标签分别对应的关联特征表示。
需要进行说明的是,每个候选标签进行拼接的文本内容都是相同的,即目标内容对应的文本内容。示意性的,对于候选标签i来说,将候选标签i对应的标签描述内容和目标内容对应的文本内容进行拼接得到第i个文本拼接内容,对第i个文本拼接内容进行特征提取,得到候选标签i对应的关联特征表示。
步骤305,基于分数特征表示和关联特征表示,从多个候选标签中确定目标内容对应的内容标签。
可选地,对分数特征表示和关联特征表示进行加权平均处理,得到多个候选标签分别对应的目标特征表示;基于目标特征表示,从多个候选标签中确定目标内容对应的内容标签。
可选地,对分数特征表示和关联特征表示进行平均得到目标特征表示;对目标特征表示进行特征分析,基于特征分析的结果从多个候选标签中确定目标内容对应的内容标签。
综上所述,本申请实施例提供的内容标签的确定方法,通过获取目标内容对应的文本内容以及目标内容的多个候选标签分别对应的标签描述内容,提取得到分数特征表示和关联特征表示,并对这二者进行联合分析,从而从多个候选标签中确定目标内容对应的内容标签。一方面,多个候选标签是基于至少两种不同的分析方式对目标内容进行分析得到,增加了目标内容对应的候选标签的多样性,也提高了最终得到的内容标签的容错率;另一方面,整合了目标内容和候选标签本身的文本信息,充分利用了丰富的文本信息,且充分利用了候选标签之间的关联信息做决策,从而提高了最终得到内容标签的准确率。
本申请实施例提供的方法,通过将与目标内容相关的文本信息和候选标签相关的文本信息进行文本拼接,从而对于每个候选标签来说,其对应的关联特征表示都包含有目标内容的相关信息,增加了关联特征表示的信息表达能力,提高了最终得到的内容标签的准确率。
本申请实施例提供的方法,通过候选标签在至少两种获取方式下分别对应的置信度分数,构建分数向量,从而对分数向量进行特征提取,得到候选标签的分数特征表示。通过构建分数向量的方法,较好的体现了候选标签在不同分析方式下的置信度分数情况,提高了提取得到的分数特征表示的准确率和全面性。
本申请实施例提供的方法,通过对分数特征表示和关联特征表示进行加权平均处理,得到目标特征表示,从而基于目标特征表示,从多个候选标签中确定目标内容对应的内容标签,最大化了候选标签和与其关联的内容之间的相关性,提高了获取得到的目标特征表示的准确率和概括能力。
在一些可选的实施例中,可通过对目标特征表示进行特征分析,对各个候选标签进行重新打分,从而根据预设的分数阈值,通过“卡阈值”的方式,从多个候选标签中确定目标内容对应的内容标签,图4是本申请实施例提供的另一种内容标签的确定方法的流程图,该方法可以由服务器或者终端执行,也可以由服务器和终端共同执行,本申请实施例中,以该方法由服务器执行为例进行说明,如图4所示,该方法包括:
步骤401,获取目标内容的多个候选标签。
其中,多个候选标签对应有至少两种获取方式,至少两种获取方式是指基于至少两种不同的分析方式对目标内容进行分析得到候选标签的方式,候选标签包括在获取方式下对应的置信度分数。
步骤402,获取目标内容对应的文本内容。
其中,文本内容是与目标内容相关联的文本数据。
可选地,以目标内容实现为目标视频为例进行说明,获取目标视频对应的标题文本、ASR文本(对目标视频进行自动语音识别后得到的文本)、OCR文本(对目标视频进行光学字符识别后得到的文本)。
示意性的,请参考图5,其示出了本申请实施例提供的内容标签的确定方法的整体流程示意图,如图5所示,内容标签的确定方法由标签确定模型500实现,在标签确定模型500中包括信息处理器501、分数映射器502、文本特征提取器503、文本特征融合器504、打分器505。将目标视频对应的标题文本,ASR文本,OCR文本输入信息处理器501中,在信息处理器501中将标题文本,ASR文本,OCR文本拼接得到目标视频对应的视频文本信息506。
步骤403,获取多个候选标签分别对应的标签描述内容。
其中,标签描述内容用于对候选标签进行描述。
可选地,多个候选标签通过三元组<标签名,置信度分数,召回模型>的方式存储在标签***中,该标签***中还存储多个候选标签分别对应的标签信息,包括:标签标识,标签名称,标签描述,标签分类等。
示意性的,请参考图5,将上述多个候选标签分别对应的三元组和标签信息输入到信息处理器501,在信息处理器501中整合候选标签对应的描述信息和其本身的文本信息,得到多个候选标签分别对应的标签文本信息507,即标签描述内容,可存储为形如“标签名,分类:标签的分类,描述:标签的描述”的方式。
步骤404,根据K种获取方式以及候选标签在K种获取方式下分别对应的置信度分数,构建K维分数向量。
其中,K维分数向量中第j个维度对应的分数用于指示候选标签在第j种获取方式下对应的置信度分数,K和j为正整数,j小于或者等于K,K大于或者等于2。
示意性的,请参考图5,将上述多个候选标签分别对应的三元组输入到信息处理器501,对于候选标签i来说,在信息处理器501中提取得到候选标签i分别对应的在所有召回模型下的置信度分数,构成一个分数向量;其中,分数向量的长度为所有召回模型的数量;将该分数向量初始化为全零向量,将对应召回模型位置的数字改为其分数,得到的向量即为候选标签i对应的K维分数向量。
步骤405,对K维分数向量进行特征提取,得到分数特征表示。
示意性的,请参考图5,将候选标签i对应的K维分数向量输入到分数映射器502中,可选地,该分数映射器502为一个五层结构的网络,一层全连接层,一层layer_norm(用于对所有特征进行归一化),一层激活函数层(例如:relu函数),一层全连接层,最后一层为layer_norm。其中,第一个全连接层的维度为K×512,K为召回模型的数量,也即K种获取方式,数字512为映射后的特征维度,也即将K维分数向量映射后的维度为512维;第二个全连接层的维度为512×512,则最终输出的特征向量维度不变,为512维,即候选标签i对应的K维分数向量进行特征提取后,得到的分数特征表示为512维。需要进行说明的是,每一个候选标签都映射成一个512维的分数特征表示508。
步骤406,将文本内容和标签描述内容进行文本拼接处理,得到文本拼接内容。
示意性的,请参考图5,对于每一个候选标签,将视频文本信息506和标签文本信息507拼接成一个文本,得到每一个候选标签分别对应的文本拼接内容。
可选地,在进行文本拼接处理之前,还可以对目标内容对应的文本内容进行预处理操作,其中,预处理操作包括:去冗余信息处理,文本内容中可能包含一些不必要的空格、重复的标点符号、不必要的重复的字等冗余信息,则在进行文本拼接操作之前可以对这些冗余信息进行检查,并删除这些冗余信息;错别字的纠正处理,文本内容中可能包含有错别字,则需要对错别字进行检测,然后改正目标文本中的错别字;标点符号处理,文本内容中可能包含标点符号,则可以对这些标点符号进行标记,或者,将这些标点符号从目标文本中删除。需要说明的是,上述预处理操作仅为示意性的举例,本申请实施例对此不加以限定。
步骤407,响应于文本拼接内容对应的文本长度与预设长度之间的差值大于预设阈值,根据预设阈值对文本拼接内容进行文本长度调整操作,得到目标文本拼接内容。
其中,多个候选标签中包括第一部分候选标签、第二部分候选标签和第三部分候选标签;各个部分的候选标签的文本拼接内容对应的文本长度所在的长度范围不同。
可选地,响应于第一部分候选标签的文本拼接内容对应的文本长度大于预设长度,根据预设长度对文本拼接内容进行文本长度截断操作,得到第一文本拼接内容;响应于第二部分候选标签的文本拼接内容对应的文本长度小于预设长度,根据预设长度对文本拼接内容进行文本长度补充操作,得到第二文本拼接内容;响应于第三部分候选标签的文本拼接内容对应的文本长度等于预设长度,将该文本拼接内容作为第三文本拼接内容;将第一文本拼接内容、第二文本拼接内容和第三文本拼接内容共同作为多个候选标签分别对应的目标文本拼接内容。
示意性的,请参考图5,将多个候选标签分别对应的文本拼接内容输入文本特征提取器503,在文本特征提取器503中,对于每一个文本拼接内容,若文本长度大于384则进行截断,若文本长度小于384则在文本末尾补充标志位直至文本长度为384,例如:[PAD]标志位;若文本长度等于384,则不需要对文本拼接内容的文本长度进行操作。
在一些可选的实施例中,还可以根据对文本拼接内容的语义分析结果对文本拼接内容进行文本长度调整操作,可选地,响应于文本拼接内容对应的文本长度大于预设长度,对文本拼接内容进行分句处理,得到内容分句结果;对内容分句结果进行语义相似度分析,得到相似度分析结果,相似度分析结果用于指示内容分句结果中分句之间的语义相似度;基于相似度分析结果,根据预设长度对文本拼接内容进行裁剪操作,得到目标文本拼接内容。
示意性的,当文本拼接内容的文本长度大于预设长度时,可以对文本进行剪裁处理,则首先对文本拼接内容进行分句,得到各个分句后,分析各个分句之间的语义相似度,通过语义相似度得到目标文本拼接内容。
其中,基于语义相似度得到目标文本拼接内容的情况,包括以下情况中的至少一种:
1、相似度分析结果包括文本拼接内容中拼接的文本内容对应的m个第一分句之间的语义相似度,m为正整数,m大于或者等于2;响应于相似度分析结果中n对第一分句之间的相似度大于预设相似度阈值,n为正整数,2n小于或者等于m;根据预设长度,对n对第一分句进行裁剪操作,得到目标文本拼接内容。
示意性的,获取得到文本拼接内容中视频文本内容的分句后,计算视频文本内容中各分句之间的相似度,若视频文本中分句1和分句2的相似度大于预设相似度阈值,对分句1和分句2进行剪裁操作。计算预设长度与文本长度之间的差值,若分句1长度较为接近该差值,则对分句1进行剪裁操作,若分句2长度较为接近该差值,则对分句2进行剪裁操作。可选地,若经过剪裁后,文本长度还未达到预设长度,则继续对下一对语义相似度较高的分句3和分句4进行择一剪裁操作,直至文本长度达到预设长度。
2、相似度分析结果包括文本拼接内容中拼接的标签描述内容对应的第二分句与m个第一分句之间的语义相似度;获取标签描述内容对应的第二分句与m个第一分句之间的相似度平均值;基于相似度平均值,根据预设长度,对m个第一分句进行裁剪操作,得到目标文本拼接内容。
示意性的,获取得到标签描述内容对应的分句a,获取视频文本内容对应的分句1、分句2、分句3、分句4,计算分句a与分句1、分句2、分句3、分句4之间的语义相似度的平均值,可选地,按照m个第一分句与平均值之间的差值大小,从大到小对m个分句进行剪裁操作,直至文本长度达到预设长度。
步骤408,对目标文本拼接内容进行特征提取,得到多个候选标签分别对应的标签文本特征表示。
示意性的,请参考图5,在文本特征提取器503中,将所有候选标签的文本拼接内容对应的文本长度统一后,将得到的目标文本拼接内容经过嵌入(embedding)处理,使目标文本拼接内容中的每个字都映射为一个稠密向量,以此得到384个输入embedding;文本特征提取器503中设置有基于转换器的双向编码器中文语言表征(Bidirectional EncoderRepresentations from Transformer-base-chinese,BERT-base-chinese)模型,上述384个输入embedding经过BERT-base-chinese模型的特征编码后得到384个输出embedding,取384个输出embedding中第一位[CLS]对应的embedding:feature_0作为文本特征提取器503的输出,每个输出的特征向量维度都为512维,即为标签文本特征表示;接着,将每一个候选标签都映射成一个512维的标签文本特征表示。
需要进行说明的是,上述文本特征提取器503还可以实现为任意中文文本特征提取模型,例如:词集(Set of Words,SoW)模型、词袋(Bag of Words,BoW)模型等,本申请实施例对此不加以限定。
步骤409,对多个候选标签中第i个候选标签和其他候选标签分别对应的标签文本特征表示进行关联度分析,得到第i个候选标签对应的关联特征表示,i为正整数。
示意性的,请参考图5,将多个候选标签中第i个候选标签和其他候选标签分别对应的标签文本特征表示输入到文本特征融合器504,在文本特征融合器504中对其进行关联度分析,输出得到第i个候选标签对应的关联特征表示509。需要进行说明的是,对每一个候选标签进行关联度分析得到其对应的关联特征表示。
其中,文本特征融合器504可实现为包含注意力机制的卷积神经网络,可选地,将第i个候选标签和其他候选标签分别对应的标签文本特征表示输入卷积神经网络中,对第i个候选标签和其他候选标签分别对应的标签文本特征表示进行卷积操作;基于卷积操作,得到第i个候选标签与其他候选标签之间的注意力权重,将注意力权重作为第i个候选标签对应的关联特征表示,注意力权重用于指示第i个候选标签和其他候选标签之间的关联程度。
示意性的,请参考图6,卷积神经网络600的网络结构为一个简单的三层多头注意力层堆叠,中间对应***了layer_norm和激活函数层。可选地,在卷积神经网络600中添加残差结构,将输入的标签关联特征601直接与最后一层输出相加得到输出特征,即为关联特征表示。可选地,在卷积神经网络600中输入k个维度为512的向量,k为候选标签的数量;输出k个维度为512的向量。
需要进行说明的是,上述文本特征融合器504还可以是基于长短期记忆的循环神经网络(Long Short Term Memory,LSTM)、图卷积网络(graph convolutional networks,GCN)等中的至少一种,本申请实施例对此不加以限定。
步骤410,对分数特征表示和关联特征表示进行加权平均处理,得到多个候选标签分别对应的目标特征表示。
可选地,计算分数特征表示和关联特征表示之间的平均特征,得到多个候选标签分别对应的目标特征表示。
示意性的,请参考图5,对于候选标签i,将其分数特征表示508和关联特征表示509进行平均得到目标特征表示。
步骤411,对目标特征表示进行特征分析,得到多个候选标签分别对应的重打分结果。
其中,重打分结果为对候选标签的置信度分数进行更新后得到的结果。
示意性的,请参考图5,对于候选标签i,将目标特征表示输入打分器505,在打分器505中包括一个维度为512×1的全连接层,通过该全连接层将目标特征表示映射为一个数,使用激活函数(例如:sigmoid函数)将这个数的值域映射到(0,1)范围中,最后得到的分数即为候选标签i的重打分结果。对于每一个候选标签,都需要对其对应的目标特征表示进行特征分析,得到其对应的重打分结果。
步骤412,将多个候选标签中重打分结果大于或者等于预设分数阈值的目标候选标签作为目标内容对应的内容标签。
示意性的,在打分器505中,若候选标签的重打分结果大于等于设定好的分数阈值,即认为此候选标签是正确,则输出此候选标签;若候选标签的重打分结果小于设定好的分数阈值,则不输出此候选标签;最后,将输出的所有候选标签作为目标内容对应的内容标签。
可选地,对于重打分结果大于或者等于预设分数阈值的目标候选标签,打分器505在对其进行的同时,还可以对其进行排序;按照候选标签重新得到的分数的大小进行排序。
综上所述,本申请实施例提供的内容标签的确定方法,通过获取目标内容对应的文本内容以及目标内容的多个候选标签分别对应的标签描述内容,提取得到分数特征表示和关联特征表示,并对这二者进行联合分析,从而从多个候选标签中确定目标内容对应的内容标签。一方面,多个候选标签是基于至少两种不同的分析方式对目标内容进行分析得到,增加了目标内容对应的候选标签的多样性,也提高了最终得到的内容标签的容错率;另一方面,整合了目标内容和候选标签本身的文本信息,充分利用了丰富的文本信息,且充分利用了候选标签之间的关联信息做决策,从而提高了最终得到内容标签的准确率。
本申请实施例提供的方法,对不同的候选标签的标签文本特征进行关联度分析,通过注意力机制的方法,充分考虑了候选标签之间的相互关系,增强了对于内容标签的筛选的有效性,提高了获取得到的内容标签的准确率。
本申请实施例提供的方法,将不同的候选标签的标签文本特征进行统一长度后进行分析,减少了模型的复杂度,提高了获取得到内容标签的效率。
本申请实施例提供的方法,对目标特征表示进行特征分析,得到多个候选标签分别对应的重打分结果,将多个候选标签中重打分结果大于或者等于预设分数阈值的目标候选标签作为目标内容对应的内容标签,通过设定阈值的方式对多个候选标签进行筛选,提高了获取得到的内容标签的准确率。
在一些可选的实施例中,可通过监督训练的方法训练得到上述实施例中的标签确定模型,图7是本申请实施例提供的一种标签确定模型的训练方法的流程图,该方法可以由服务器或者终端执行,也可以由服务器和终端共同执行,本申请实施例中,以该方法由服务器执行为例进行说明,如图7所示,该方法包括:
步骤701,获取样本内容的q个样本标签,以及获取样本内容的参考标签集合。
其中,q个样本标签对应有至少两种获取方式,至少两种获取方式是指基于至少两种不同的分析方式对样本内容进行分析得到样本标签的方式,样本标签包括在获取方式下对应的置信度分数,q为正整数;样本内容的参考标签集合为样本内容的实际标签集合,可选地,通过人工标注的方式获取样本内容的参考标签集合。
步骤702,获取样本内容对应的样本文本内容。
其中,样本文本内容是与样本内容相关联的文本数据。
可选地,以样本内容实现为样本视频为例进行说明,获取样本视频对应的标题文本、ASR文本、OCR文本。
示意性的,准备数量为50万的视频,对应的标题文本,ASR文本,OCR文本,以及其对应的样本标签和这50万视频对应的标签集合作为样本标签确定模型的训练数据集。
请参考图8,其示出了本申请实施例提供的标签确定模型的训练方法的整体结构示意图,如图8所示,标签确定模型800中包括样本信息处理器801、样本分数映射器802、样本文本特征提取器803、共享随机遮罩器804、样本文本特征注意力融合器805、样本打分器806。将样本视频对应的标题文本,ASR文本,OCR文本输入样本信息处理器801,将标题文本,ASR文本,OCR文本拼接得到样本视频对应的样本视频文本信息807。
步骤703,通过样本标签确定模型获取q个样本标签分别对应的样本标签描述内容。
其中,样本标签描述内容用于对样本标签进行描述。可选地,q个样本标签通过三元组<样本标签名,置信度分数,召回模型>的方式存储在标签***中,该标签***中还存储有q个样本标签分别对应的标签信息,包括:标签标识,标签名称,标签描述,标签分类等。将该标签信息进行整合得到q个样本标签分别对应的样本标签描述内容。
示意性的,请参考图8,将上述q个样本标签分别对应的三元组和标签信息输入到样本信息处理器801,整合样本标签对应的描述信息和其本身的文本信息,得到m个样本标签分别对应的样本标签文本信息808,即样本标签描述内容。
步骤704,通过样本标签确定模型根据K种获取方式以及样本标签在K种获取方式下分别对应的置信度分数,构建K维分数向量;以及对K维分数向量进行特征提取,得到样本分数特征表示。
其中,K维分数向量中第j个维度对应的分数用于指示样本标签在第j种获取方式下对应的置信度分数,K和j为正整数,j小于或者等于K,K大于或者等于2。
示意性的,请参考图8,将上述q个样本标签分别对应的三元组输入到样本信息处理器801,对于样本标签i来说,提取得到样本标签i分别对应的在所有召回模型下的置信度分数,构成一个分数向量;其中,分数向量的长度为所有召回模型的数量;将该分数向量初始化为全零向量,将对应召回模型位置的数字改为其分数,得到的向量即为样本标签i对应的K维分数向量;将样本标签i对应的K维分数向量输入到样本分数映射器802,即可输出得到样本标签i对应的样本分数特征表示809,其中样本分数映射器802与分数映射器502的网络结构相同,对于K维分数向量的特征提取过程可参考步骤405,此处不再赘述。
步骤705,通过样本标签确定模型将样本文本内容和样本标签描述内容进行文本拼接处理,得到样本文本拼接内容。
示意性的,请参考图8,对于每一个样本标签,将样本视频文本信息807和样本标签文本信息808拼接成一个文本,得到每一个样本标签分别对应的样本文本拼接内容。
步骤706,响应于样本文本拼接内容对应的文本长度与预设长度之间的差值大于预设阈值,根据预设阈值对样本文本拼接内容进行文本长度调整操作,得到目标文本拼接内容。
示意性的,请参考图8,将q个样本标签分别对应的样本文本拼接内容输入样本文本特征提取器803,对于每一个样本文本拼接内容,若文本长度大于384则进行截断,若文本长度小于384则在文本末尾补充标志位直至文本长度为384,例如:[PAD]标志位;若文本长度等于384,则不需要对样本文本拼接内容的文本长度进行操作。
步骤707,通过样本标签确定模型对目标文本拼接内容进行特征提取,得到多个样本标签分别对应的样本标签文本特征表示。
示意性的,请参考图8,在样本文本特征提取器803中,将所有样本标签的样本文本拼接内容对应的文本长度统一后,对目标文本拼接内容进行特征提取,得到多个样本标签分别对应的样本标签文本特征表示。其中,样本文本特征提取器803和文本特征提取器503的网络结构相同,对目标文本拼接内容进行特征提取的过程可参考步骤408,此处不再赘述。
步骤708,通过样本标签确定模型根据预设概率p,随机对q×p个样本标签对应的样本分数特征表示和样本标签文本特征表示进行丢弃操作,得到y个样本标签分别对应的样本分数特征表示和样本标签文本特征表示。
其中,p大于0且小于1,y=q-q×p。
示意性的,为了提升样本标签确定模型的泛化能力,在样本分数映射器802和样本文本特征提取器803后分别加入一个共享随机遮罩层804,以p的概率随机丢弃特征,p∈(0,1)。
在样本标签确定模型训练过程中,假设一个样本视频有q个样本标签,随机丢弃其中q×p个样本标签分别对应的样本分数特征表示和样本标签文本特征表示,并将此位置特征置零。其中,在共享随机遮罩层804中丢弃的样本分数特征表示和样本标签文本特征表示对应的样本标签需为同一个标签;且每次遮罩的范围为随机生成。
需要进行说明的是,在模型实际应用过程中,可将p设置为0,即保留所有的候选标签对应的分数特征表示和标签文本特征表示。
步骤709,通过样本标签确定模型对q个样本标签中第i个样本标签和其他样本标签分别对应的样本标签文本特征表示进行关联度分析,得到第i个样本标签对应的样本关联特征表示。
其中,i为正整数,i小于或者等于q。
示意性的,请参考图8,将q个样本标签中第i个样本标签和其他样本标签分别对应的样本标签文本特征表示输入到样本文本特征注意力融合器805,对其进行关联度分析,输出得到第i个样本标签对应的样本关联特征表示810。需要进行说明的是,对每一个样本标签进行关联度分析得到其对应的样本关联特征表示。其中,样本文本特征注意力融合器805与文本特征融合器504的结构相同,关联度分析的具体过程可参考步骤409,此处不再赘述。
步骤710,通过样本标签确定模型对样本分数特征表示和样本关联特征表示进行加权平均处理,得到多个样本标签分别对应的样本特征表示。
可选地,计算样本分数特征表示和样本关联特征表示之间的平均特征,得到多个样本标签分别对应的样本特征表示。
示意性的,请参考图8,对于样本标签i,将其样本分数特征表示809和样本关联特征表示810进行平均得到样本特征表示。
步骤711,通过样本标签确定模型对样本特征表示进行特征分析,预测得到多个样本标签分别对应的样本重打分结果。
其中,样本重打分结果为对样本标签的置信度分数进行更新后得到的结果。
示意性的,请参考图8,对于样本标签i,将样本特征表示输入样本打分器806,通过其中包含的全连接层将样本特征表示映射为一个数,使用激活函数(例如:sigmoid函数)将这个数的值域映射到(0,1)范围中,最后得到的分数即为样本标签i的样本重打分结果。对于每一个样本标签,都需要对其对应的样本特征表示进行特征分析,得到其对应的样本重打分结果。
步骤712,基于样本重打分结果与参考标签集合,对样本标签确定模型进行训练,得到标签确定模型。
可选地,通过均方误差损失函数(Mean Square Error,MSE)对样本标签确定模型进行监督训练,更新样本标签确定模型中的模型参数,从而得到标签确定模型,上述MSE损失函数如下公式一所示:
公式一:loss(Xi,Yi)=(Xi,Yi)2
其中,其中X为通过样本标签确定模型预测得到的重打分分数,y为lable,对于lable,若样本重打分结果对应的样本标签属于参考标签集合,则lable为1;若样本重打分结果对应的样本标签不属于参考标签集合,则lable为0。
本申请实施例提供的标签确定模型的训练方法,通过获取样本内容对应的样本文本内容以及样本内容的多个样本标签分别对应的样本标签描述内容,提取得到样本分数特征表示和样本关联特征表示,并对这二者进行联合分析,得到多个样本标签的样本重打分结果,从而基于样本重打分结果与参考标签集合,对样本标签确定模型进行训练,得到标签确定模型。一方面,在训练过程中,通过随机丢弃特征的方式,提升训练得到的模型的泛化性能,使得模型在实际使用时减少过拟合的现象;另一方面,通过充分使用目标内容自身对应的文本信息,以及充分使用与标签关联的文本信息,为模型提供了更丰富的信息,增强了模型提取特征的能力,从而提高了训练得到的标签确定模型的准确率。
请参考图9,其示出了本申请一个示例性的实施例提供的内容标签的确定装置结构框图,该装置包括:
获取模块900,用于获取目标内容的多个候选标签,所述多个候选标签对应有至少两种获取方式,所述至少两种获取方式是指基于至少两种不同的分析方式对所述目标内容进行分析得到候选标签的方式,所述候选标签包括在所述获取方式下对应的置信度分数;
所述获取模块900,还用于获取所述目标内容对应的文本内容,所述文本内容是与所述目标内容相关联的文本数据;
所述获取模块900,还用于获取所述多个候选标签分别对应的标签描述内容,所述标签描述内容用于对所述候选标签进行描述;
提取模块910,用于对所述多个候选标签分别对应的置信度分数进行特征提取,得到分数特征表示;以及对所述文本内容和所述标签描述内容进行特征提取,得到所述多个候选标签分别对应的关联特征表示,所述关联特征表示用于指示不同候选标签之间的关联关系;
确定模块920,用于基于所述分数特征表示和所述关联特征表示,从所述多个候选标签中确定所述目标内容对应的内容标签。
请参考图10,在一些可选的实施例中,所述提取模块910,包括:
拼接单元911,用于将所述文本内容和所述标签描述内容进行文本拼接处理,得到文本拼接内容;
所述提取模块910,还用于对所述文本拼接内容进行特征提取,得到所述多个候选标签分别对应的关联特征表示。
在一些可选的实施例中,所述对所述文本拼接内容进行特征提取,得到所述多个候选标签分别对应的关联特征表示,所述提取模块910,还用于基于所述文本拼接内容提取得到所述多个候选标签分别对应的标签文本特征表示;所述提取模块910,包括:
第一分析单元912,用于对所述多个候选标签中第i个候选标签和其他候选标签分别对应的标签文本特征表示进行关联度分析,得到所述第i个候选标签对应的关联特征表示,i为正整数。
在一些可选的实施例中,所述提取模块910,还包括:
调整单元913,用于响应于所述文本拼接内容对应的文本长度与预设长度之间的差值大于预设阈值,根据所述预设阈值对所述文本拼接内容进行文本长度调整操作,得到目标文本拼接内容;
所述提取模块910,还用于对所述目标文本拼接内容进行特征提取,得到所述多个候选标签分别对应的标签文本特征表示。
在一些可选的实施例中,所述调整单元913,用于响应于所述文本拼接内容对应的文本长度大于预设长度,对所述文本拼接内容进行分句处理,得到内容分句结果;所述调整单元913,用于对所述内容分句结果进行语义相似度分析,得到相似度分析结果,所述相似度分析结果用于指示所述内容分句结果中分句之间的语义相似度;所述调整单元913,用于基于所述相似度分析结果,根据所述预设长度对所述文本拼接内容进行裁剪操作,得到所述目标文本拼接内容。
在一些可选的实施例中,所述相似度分析结果包括所述文本拼接内容中拼接的所述文本内容对应的m个第一分句之间的语义相似度,m为正整数,m大于或者等于2;所述调整单元913,用于响应于所述相似度分析结果中n对第一分句之间的相似度大于预设相似度阈值,n为正整数,2n小于或者等于m;所述调整单元913,用于根据所述预设长度,对所述n对第一分句进行裁剪操作,得到所述目标文本拼接内容。
在一些可选的实施例中,所述相似度分析结果包括所述文本拼接内容中拼接的所述标签描述内容对应的第二分句与所述m个第一分句之间的语义相似度;所述调整单元913,用于获取所述标签描述内容对应的第二分句与所述m个第一分句之间的相似度平均值;所述调整单元913,用于基于所述相似度平均值,根据所述预设长度,对所述m个第一分句进行裁剪操作,得到所述目标文本拼接内容。
在一些可选的实施例中,所述第一分析单元912,用于将所述第i个候选标签和所述其他候选标签分别对应的标签文本特征表示输入卷积神经网络中,对所述第i个候选标签和所述其他候选标签分别对应的标签文本特征表示进行卷积操作;所述第一分析单元912,还用于基于所述卷积操作,得到所述第i个候选标签与所述其他候选标签之间的注意力权重,将所述注意力权重作为所述第i个候选标签对应的关联特征表示,所述注意力权重用于指示所述第i个候选标签和所述其他候选标签之间的关联程度。
在一些可选的实施例中,所述提取模块910,包括:
构建单元914,用于根据K种获取方式以及所述候选标签在所述K种获取方式下分别对应的置信度分数,构建K维分数向量,所述K维分数向量中第j个维度对应的分数用于指示所述候选标签在第j种获取方式下对应的置信度分数,其中,K和j为正整数,j小于或者等于K,K大于或者等于2;
所述提取模块910,还用于对所述n维分数向量进行特征提取,得到所述分数特征表示。
在一些可选的实施例中,所述确定模块920,包括:
处理单元921,用于对所述分数特征表示和所述关联特征表示进行加权平均处理,得到所述多个候选标签分别对应的目标特征表示;
所述确定模块920,还用于基于所述目标特征表示,从所述多个候选标签中确定所述目标内容对应的内容标签。
在一些可选的实施例中,所述确定模块920,包括:
第二分析单元922,用于对所述目标特征表示进行特征分析,得到所述多个候选标签分别对应的重打分结果,所述重打分结果为对候选标签的置信度分数进行更新后得到的结果;
所述确定模块920,还用于将所述多个候选标签中重打分结果大于或者等于预设分数阈值的目标候选标签作为所述目标内容对应的内容标签。
综上所述,本申请实施例提供的内容标签的确定装置,通过获取目标内容对应的文本内容以及目标内容的多个候选标签分别对应的标签描述内容,提取得到分数特征表示和关联特征表示,并对这二者进行联合分析,从而从多个候选标签中确定目标内容对应的内容标签。一方面,多个候选标签是基于至少两种不同的分析方式对目标内容进行分析得到,增加了目标内容对应的候选标签的多样性,也提高了最终得到的内容标签的容错率;另一方面,整合了目标内容和候选标签本身的文本信息,充分利用了丰富的文本信息,且充分利用了候选标签之间的关联信息做决策,从而提高了最终得到内容标签的准确率。
需要说明的是:上述实施例提供的内容标签的确定装置仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的内容标签的确定装置与内容标签的确定方法实施例属于同一构思,其具体实现过程详见方法实施例,此处不再赘述。
图11示出了本申请一个示例性实施例提供的计算机设备1100的结构框图。该计算机设备1100可以是终端或服务器。
通常,计算机设备1100包括有:处理器1101和存储器1102。
处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1101可以在集成有图像处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1101还可以包括人工智能(Artificial Intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储计算机程序,该计算机程序用于被处理器1101所执行以实现本申请中方法实施例提供的内容标签的确定方法。
示意性的,计算机设备1100还包括其他组件,本领域技术人员可以理解,图11中示出的结构并不构成对计算机设备1100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入计算机设备中的计算机可读存储介质。该计算机可读存储介质中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述实施例中任一所述的内容标签的确定方法。
可选的,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过计算机程序来指令相关的硬件完成,所述的计算机程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种内容标签的确定方法,其特征在于,所述方法包括:
获取目标内容的多个候选标签,所述多个候选标签对应有至少两种获取方式,所述至少两种获取方式是指基于至少两种不同的分析方式对所述目标内容进行分析得到候选标签的方式,所述候选标签包括在所述获取方式下对应的置信度分数;
获取所述目标内容对应的文本内容,所述文本内容是与所述目标内容相关联的文本数据;
获取所述多个候选标签分别对应的标签描述内容,所述标签描述内容用于对所述候选标签进行描述;
对所述多个候选标签分别对应的置信度分数进行特征提取,得到分数特征表示;以及对所述文本内容和所述标签描述内容进行特征提取,得到所述多个候选标签分别对应的关联特征表示,所述关联特征表示用于指示不同候选标签之间的关联关系;
基于所述分数特征表示和所述关联特征表示,从所述多个候选标签中确定所述目标内容对应的内容标签。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本内容和所述标签描述内容进行特征提取,得到所述多个候选标签分别对应的关联特征表示,包括:
将所述文本内容和所述标签描述内容进行文本拼接处理,得到文本拼接内容;
对所述文本拼接内容进行特征提取,得到所述多个候选标签分别对应的关联特征表示。
3.根据权利要求2所述的方法,其特征在于,所述对所述文本拼接内容进行特征提取,得到所述多个候选标签分别对应的关联特征表示,包括:
基于所述文本拼接内容提取得到所述多个候选标签分别对应的标签文本特征表示;
对所述多个候选标签中第i个候选标签和其他候选标签分别对应的标签文本特征表示进行关联度分析,得到所述第i个候选标签对应的关联特征表示,i为正整数。
4.根据权利要求3所述的方法,其特征在于,所述基于所述文本拼接内容提取得到所述多个候选标签分别对应的标签文本特征表示,包括:
响应于所述文本拼接内容对应的文本长度与预设长度之间的差值大于预设阈值,根据所述预设阈值对所述文本拼接内容进行文本长度调整操作,得到目标文本拼接内容;
对所述目标文本拼接内容进行特征提取,得到所述多个候选标签分别对应的标签文本特征表示。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
响应于所述文本拼接内容对应的文本长度大于预设长度,对所述文本拼接内容进行分句处理,得到内容分句结果;
对所述内容分句结果进行语义相似度分析,得到相似度分析结果,所述相似度分析结果用于指示所述内容分句结果中分句之间的语义相似度;
基于所述相似度分析结果,根据所述预设长度对所述文本拼接内容进行裁剪操作,得到所述目标文本拼接内容。
6.根据权利要求5所述的方法,其特征在于,所述相似度分析结果包括所述文本拼接内容中拼接的所述文本内容对应的m个第一分句之间的语义相似度,m为正整数,m大于或者等于2;
所述基于所述相似度分析结果,根据所述预设长度对所述文本拼接内容进行裁剪操作,得到所述目标文本拼接内容,包括:
响应于所述相似度分析结果中n对第一分句之间的相似度大于预设相似度阈值,n为正整数,2n小于或者等于m;
根据所述预设长度,对所述n对第一分句进行裁剪操作,得到所述目标文本拼接内容。
7.根据权利要求6所述的方法,其特征在于,所述相似度分析结果包括所述文本拼接内容中拼接的所述标签描述内容对应的第二分句与所述m个第一分句之间的语义相似度;
所述基于所述相似度分析结果,根据所述预设长度对所述文本拼接内容进行裁剪操作,得到所述目标文本拼接内容,包括:
获取所述标签描述内容对应的第二分句与所述m个第一分句之间的相似度平均值;
基于所述相似度平均值,根据所述预设长度,对所述m个第一分句进行裁剪操作,得到所述目标文本拼接内容。
8.根据权利要求3所述的方法,其特征在于,所述对所述多个候选标签中第i个候选标签和其他候选标签分别对应的标签文本特征表示进行关联度分析,得到所述第i个候选标签对应的关联特征表示,包括:
将所述第i个候选标签和所述其他候选标签分别对应的标签文本特征表示输入卷积神经网络中,对所述第i个候选标签和所述其他候选标签分别对应的标签文本特征表示进行卷积操作;
基于所述卷积操作,得到所述第i个候选标签与所述其他候选标签之间的注意力权重,将所述注意力权重作为所述第i个候选标签对应的关联特征表示,所述注意力权重用于指示所述第i个候选标签和所述其他候选标签之间的关联程度。
9.根据权利要求1所述的方法,其特征在于,所述对所述多个候选标签分别对应的置信度分数进行特征提取,得到分数特征表示,包括:
根据K种获取方式以及所述候选标签在所述K种获取方式下分别对应的置信度分数,构建K维分数向量,所述K维分数向量中第j个维度对应的分数用于指示所述候选标签在第j种获取方式下对应的置信度分数,其中,K和j为正整数,j小于或者等于K,K大于或者等于2;
对所述K维分数向量进行特征提取,得到所述分数特征表示。
10.根据权利要求1至9任一所述的方法,其特征在于,所述基于所述分数特征表示和所述关联特征表示,从所述多个候选标签中确定所述目标内容对应的内容标签,包括:
对所述分数特征表示和所述关联特征表示进行加权平均处理,得到所述多个候选标签分别对应的目标特征表示;
基于所述目标特征表示,从所述多个候选标签中确定所述目标内容对应的内容标签。
11.根据权利要求10所述的方法,其特征在于,所述基于所述目标特征表示,从所述多个候选标签中确定所述目标内容对应的内容标签,包括:
对所述目标特征表示进行特征分析,得到所述多个候选标签分别对应的重打分结果,所述重打分结果为对候选标签的置信度分数进行更新后得到的结果;
将所述多个候选标签中重打分结果大于或者等于预设分数阈值的目标候选标签作为所述目标内容对应的内容标签。
12.一种内容标签的确定装置,其特征在于,所述装置包括:
获取模块,用于获取目标内容的多个候选标签,所述多个候选标签对应有至少两种获取方式,所述至少两种获取方式是指基于至少两种不同的分析方式对所述目标内容进行分析得到候选标签的方式,所述候选标签包括在所述获取方式下对应的置信度分数;
所述获取模块,还用于获取所述目标内容对应的文本内容,所述文本内容是与所述目标内容相关联的文本数据;
所述获取模块,还用于获取所述多个候选标签分别对应的标签描述内容,所述标签描述内容用于对所述候选标签进行描述;
提取模块,用于对所述多个候选标签分别对应的置信度分数进行特征提取,得到分数特征表示;以及对所述文本内容和所述标签描述内容进行特征提取,得到所述多个候选标签分别对应的关联特征表示,所述关联特征表示用于指示不同候选标签之间的关联关系;
确定模块,用于基于所述分数特征表示和所述关联特征表示,从所述多个候选标签中确定所述目标内容对应的内容标签。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至11任一所述的内容标签的确定方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至11任一所述的内容标签的确定方法。
15.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至11任一所述的内容标签的确定方法。
CN202211483665.3A 2022-11-24 2022-11-24 内容标签的确定方法、装置、设备、介质及程序产品 Pending CN116955707A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211483665.3A CN116955707A (zh) 2022-11-24 2022-11-24 内容标签的确定方法、装置、设备、介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211483665.3A CN116955707A (zh) 2022-11-24 2022-11-24 内容标签的确定方法、装置、设备、介质及程序产品

Publications (1)

Publication Number Publication Date
CN116955707A true CN116955707A (zh) 2023-10-27

Family

ID=88460765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211483665.3A Pending CN116955707A (zh) 2022-11-24 2022-11-24 内容标签的确定方法、装置、设备、介质及程序产品

Country Status (1)

Country Link
CN (1) CN116955707A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573870A (zh) * 2023-11-20 2024-02-20 中国人民解放军国防科技大学 一种多模态数据的文本标签提取方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573870A (zh) * 2023-11-20 2024-02-20 中国人民解放军国防科技大学 一种多模态数据的文本标签提取方法、装置、设备及介质
CN117573870B (zh) * 2023-11-20 2024-05-07 中国人民解放军国防科技大学 一种多模态数据的文本标签提取方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN111079444B (zh) 一种基于多模态关系的网络谣言检测方法
Kaur et al. Comparative analysis on cross-modal information retrieval: A review
CN111783903B (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN113766299B (zh) 一种视频数据播放方法、装置、设备以及介质
CN112085120B (zh) 多媒体数据的处理方法、装置、电子设备及存储介质
CN113641797A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN114329051B (zh) 数据信息识别方法、装置、设备、存储介质及程序产品
CN115269781A (zh) 模态关联度预测方法、装置、设备、存储介质及程序产品
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
Li et al. Social context-aware person search in videos via multi-modal cues
CN114398505A (zh) 目标词语的确定方法、模型的训练方法、装置及电子设备
Wajid et al. Neutrosophic-CNN-based image and text fusion for multimodal classification
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN114329004A (zh) 数字指纹生成、数据推送方法、装置和存储介质
Liu et al. A multimodal approach for multiple-relation extraction in videos
CN113822127A (zh) 视频处理方法、装置、视频处理设备及存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN116756363A (zh) 一种由信息量引导的强相关性无监督跨模态检索方法
CN116977992A (zh) 文本信息识别方法、装置、计算机设备和存储介质
CN112101154B (zh) 视频分类方法、装置、计算机设备和存储介质
CN113395584B (zh) 一种视频数据处理方法、装置、设备以及介质
CN115129908A (zh) 一种模型优化方法、装置、设备、存储介质及程序产品
CN114329064A (zh) 视频处理方法、装置、计算机设备及存储介质
CN114443916A (zh) 一种面向试验数据的供需匹配方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication