CN116881392A

CN116881392A - 多媒体处理方法、相关设备、存储介质及计算机程序产品

Info

Publication number: CN116881392A
Application number: CN202210308761.8A
Authority: CN
Inventors: 石磊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2023-10-13

Abstract

本申请公开了一种多媒体处理方法、相关设备、存储介质及计算机程序产品，方法包括：先获取目标多媒体的媒体描述信息，并根据媒体描述信息确定出目标多媒体的特征信息,其中目标多媒体的特征信息用于描述目标多媒体的主题语义；然后，从内容库中获取出与主题语义相匹配的一个或多个参考内容，以便最后根据目标多媒体的特征信息及每个参考内容的特征信息，生成目标多媒体的媒体特征。采用本申请实施例，可以实现准确获取到多媒体的媒体特征。

Description

多媒体处理方法、相关设备、存储介质及计算机程序产品

技术领域

本申请涉及计算机技术领域，尤其涉及多媒体处理方法、相关设备、存储介质及计算机程序产品。

背景技术

在内容推荐、内容分类等场景下，需要先获取到多媒体的媒体特征，才能便于后续对多媒体进行推荐、分类、筛选等。一般情况下，获取媒体特征的方式有两种，第一种是直接将提取到的多媒体的标题、内容概述等描述性文本的特征作为媒体特征；第二种是先通过光学字符识别、自动语音识别等技术识别出多媒体中的媒体内容文本，然后将提取到的描述性文本和媒体内容文本的特征作为媒体特征。前者提取到的媒体特征表征出的关于目标多媒体的内容较少从而使得媒体特征所表征的信息并不准确，后者则过于依赖光学字符识别和自动语音识别的识别效果，如果识别效果不好，最终提取到的媒体特征也会有误，所以现有方式提取到的媒体特征都不够准确。因此，如何准确获取到多媒体的媒体特征，是目前亟需解决的问题。

发明内容

本申请实施例提供了多媒体处理方法、相关设备、存储介质及计算机程序产品，可实现准确获取到多媒体的媒体特征。

一方面，本申请实施例提供了一种多媒体处理方法，包括：

获取目标多媒体的媒体描述信息，并根据所述媒体描述信息确定出所述目标多媒体的特征信息，所述目标多媒体的特征信息用于描述所述目标多媒体的主题语义；

获取所述目标多媒体的特征信息所描述的主题语义，从内容库中获取出与所述主题语义相匹配的一个或多个参考内容；所述一个或多个参考内容中的任一参考内容均与一个相应的特征信息相对应；

根据所述目标多媒体的特征信息及每个参考内容的特征信息，生成所述目标多媒体的媒体特征。

一方面，本申请实施例提供了一种多媒体处理装置，包括：

获取单元，用于获取目标多媒体的媒体描述信息，并根据所述媒体描述信息确定出所述目标多媒体的特征信息，所述目标多媒体的特征信息用于描述所述目标多媒体的主题语义；

所述获取单元，还用于获取所述目标多媒体的特征信息所描述的主题语义，从内容库中获取出与所述主题语义相匹配的一个或多个参考内容；所述一个或多个参考内容中的任一参考内容均与一个相应的特征信息相对应；

处理单元，用于根据所述目标多媒体的特征信息及每个参考内容的特征信息，生成所述目标多媒体的媒体特征。

一方面，本申请实施例还提供了一种计算机设备，包括：

处理器，适于实现一条或多条计算机程序；

计算机存储介质，计算机存储介质存储有一条或多条计算机程序，一条或多条计算机程序适于由处理器加载并执行上述多媒体处理方法。

一方面，本申请实施例还提供了一种计算机存储介质，计算机存储介质存储有一条或多条计算机程序，一条或多条计算机程序适于由处理器加载并执行上述多媒体处理方法。

一方面，本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品包括计算机程序，计算机程序适于由处理器加载并执行上述多媒体处理方法。

在本申请实施例中，在获取目标多媒体的媒体特征的过程中，可以先获取目标多媒体的媒体描述信息，并根据媒体描述信息确定出目标多媒体的特征信息,其中目标多媒体的特征信息用于描述目标多媒体的主题语义；然后，从内容库中获取出与主题语义相匹配的一个或多个参考内容，以便最后根据目标多媒体的特征信息及每个参考内容的特征信息，生成目标多媒体的媒体特征。可见，在本申请实施例中，不用依赖光学字符识别和自动语音识别等技术，而是通过从内容库中获取出与目标多媒体的主题语义相匹配的一个或多个参考内容的方式，就可以实现获取到更多符合目标多媒体的媒体内容的文本信息，从而使得根据目标多媒体的特征信息及每个参考内容的特征信息所生成的目标多媒体的媒体特征能够准确、充分地表征出目标多媒体的媒体内容，因此，本申请实施例可以实现准确获取到多媒体的媒体特征。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种多媒体处理***的架构示意图；

图2是本申请实施例提供的一种多媒体处理方法的流程示意图；

图3是本申请实施例提供的另一种多媒体处理方法的流程示意图；

图4是本申请实施例提供的一种孪生网络模型的架构示意图；

图5是本申请实施例提供的一种确定特征相似度的示意图；

图6是本申请实施例提供的又一种多媒体处理方法的流程示意图；

图7是本申请实施例提供的一种多媒体处理装置的结构示意图；

图8是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

本申请提出了一种多媒体处理方法，该方法在生成目标多媒体的媒体特征的之前，可以基于目标多媒体的媒体描述信息，得到目标多媒体的主题语义(即目标多媒体的中心思想或主要内容的含义)；并进一步根据目标多媒体的主题语义，从内容库中获取出中心思想或主要内容所表达的含义与目标多媒体的主题语义相似或相同的参考内容，从而将通过媒体描述信息确定出的目标多媒体的特征信息，以及参考内容的特征信息均用于生成目标多媒体的媒体特征，进而使得生成的媒体特征所表征的语义中不仅包含目标多媒体的主题语义，还包含与目标多媒体的主题语义相似的参考内容的语义，达到媒体特征能够准确、充分地表征出目标多媒体的媒体内容的目的。不难看出，采用上述多媒体处理方法，媒体特征所表征的语义更加丰富了，且媒体特征表征的语义都是与目标多媒体的主题语义相关的，故而媒体特征所表征的关于目标多媒体的语义也更加准确了；此外，因为主要是通过目标多媒体的主题语义从内容库中去获取参考内容，全程没有使用到光学字符识别和自动语音识别等技术，也做到了避免了由于光学字符识别和自动语音识别等技术的识别效果不好所导致的最终生成的媒体特征有误的情况。

其中，媒体指的是传输和存储信息的载体，传输的信息包括文本、图像、视频、音频等，而多媒体指的是组合两种或两种以上媒体的一种传播媒体。在本申请实施例中，所述目标多媒体可以仅由一种媒体组成，如仅是视频、仅是音频等，也可以是由多种媒体组成，如有配乐的视频、含有文字的图像等，在此不限定。而目标多媒体的媒体描述信息指的是用于描述目标多媒体的媒体内容的文本信息，具体可以是目标多媒体的标题、简介、tag(即：大众分类或者一种利于搜索查找的关键词标记)等。

此外，特征指的是事物异于其他事物的特点，而特征信息指的是最基本的、最能反映事物特征的信息。因此，目标多媒体的特征信息可以表征出目标多媒体中具有特点的媒体内容，以区别出媒体描述信息与其他信息的不同；也就是说，目标多媒体的特征信息可以用于描述所述目标多媒体的主题语义。其中，主题语义指的是目标多媒体的中心思想或主要内容的含义。具体来说，特征信息可以是由包括一个或多个能够表征目标多媒体的特点的词语组成，也可以是由一个或多个能够表征目标多媒体的特点的符号组成。

在本申请实施例中，由于媒体描述信息中可能只含有目标多媒体的标题，或者只含有目标多媒体的简介，此时通过媒体描述信息确定出的特征信息中则只含有标题特征，或者简介特征；而当媒体描述信息中同时包含目标多媒体的标题和目标多媒体的简介时，通过媒体描述信息确定出的特征信息中则会同时含有标题特征和简介特征。因此，特征信息可以由一个或多个特征向量组成，所述一个或多个特征向量可以是将目标多媒体的媒体描述信息输入预训练语言模型进行特征编码后得到的。其中，预训练语言模型指的是能够对自然语言进行编码的模型，包括BERT模型(Bidirectional Encoder Representationsfrom Transformer，基于Transformer的双向编码器表征)、XLNet(自回归和自编码模型)、LayoutLM(Pre-training of Text and Layout for Document Image Understanding)等，预训练语言模型对文本进行编码的过程为本领域技术人员惯用技术手段，在此不赘述。为了便于说明，在无特殊说明的情况下，以下所有实施例中均以特征信息包括一个或多个特征向量为例，来对本申请实施例提供的多媒体处理方法所涉及的各步骤进行详细说明。

另外，内容库指的是具有存储功能的模块，如本地或远程数据库，本地或远程存储器等。内容库中存储有N个文本，N为大于预设阈值的正整数，所述预设阈值可以是一个具体的数值，如0、9999等，也可以是一个数值区间，如0-999、8000-10000等。优选的，由于内容库中的文本需要与各种各样的多媒体的主题语义进行匹配，因此，内容库中存储的文本的数量可以相对较大，N的取值也可以相对取大一些。参考内容则指的是内容库中与主题语义匹配的文本。其中，内容库中存储的文本可以是新闻、资讯内容等文章，也可以是标题、内容概述等句子，还可以关键词等，在此不限定。可选的，内容库中存储的文本也可以是图像、视频、音频等媒体的内容文本。具体的，在将图像、视频或者音频存储至内容库之前，可以先通过文本识别(如，光学字符识别)、语音识别(如，隐马尔可夫模型等自动语音识别模型)或者人工识别等方式，获取到图像、视频或者音频的内容文本，然后将内容文本存储至内容库。可选的，由于内容库中的目标文本的特征信息后续可能会被作为参考内容的特征信息，用于扩充目标多媒体的媒体特征的，与目标多媒体的媒体特征的准确性密切相关，因此获取到图像、视频或者音频的内容文本在作为目标文本被存储至内容库之前，需要通过人工核查或者***核查等方式进行反复核查，以使得获取到图像、视频或者音频的内容文本是没有错误的，是与图像、视频或者音频匹配的。

基于上述多媒体处理方法，本申请实施例提供了一种多媒体处理***，可参见图1，图1所示的多媒体处理***可以包括终端设备101以及服务器102。其中，终端设备101可以包括智能手机、平板电脑、笔记本电脑、台式计算机、智能车载以及智能可穿戴设备中的任意一种或多种。终端设备内可运行各式各样的客户端(application，APP)，如多媒体播放客户端、社交客户端、浏览器客户端、信息流客户端、教育客户端，等等。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101以及服务器102之间可以通过有线或无线通信方式进行直接或间接地通信连接，本申请在此不做限制。

在一个实施例中，上述多媒体处理方法可以仅由图1所示多媒体处理***中的终端设备101来执行，具体执行过程为：终端设备先获取到目标多媒体的媒体描述信息，并基于目标多媒体的媒体描述信息，得到目标多媒体的主题语义；然后，终端设备根据目标多媒体的主题语义，从内容库中获取出一个或多个参考内容；最后，终端设备根据目标多媒体的特征信息及每个参考内容的特征信息，生成目标多媒体的媒体特征。可选的，上述多媒体处理方法也可以仅由图1所示的多媒体处理***中的服务器102执行，其具体执行过程可参见终端设备的具体执行过程，在此不再赘述。

在另一个实施例中，上述多媒体处理方法可以运行在多媒体处理***中，多媒体处理***可以包括终端设备和服务器，其中，所述多媒体处理方法可由图1所示的多媒体处理***中所包含的终端设备和服务器设备来共同完成，具体执行过程为：终端设备获取到目标多媒体和目标多媒体的媒体描述信息后，将目标多媒体和目标多媒体的媒体描述信息上传至服务器；服务器接收到目标多媒体的媒体描述信息后，根据媒体描述信息确定出目标多媒体的特征信息，然后，服务器获取目标多媒体的特征信息所描述的主题语义，以从服务器的内容库中获取出与主题语义相匹配的一个或多个参考内容；最后，服务器根据目标多媒体的特征信息及每个参考内容的特征信息，生成目标多媒体的媒体特征。可选的，服务器还可以将生成的媒体特征传输至终端设备，以便终端设备根据目标多媒体的媒体特征对目标多媒体进行分类、筛选和推荐。

请参见图2，图2是本申请实施例提供的一种多媒体处理方法的示意流程图。该多媒体处理方法可以由上述提及的终端设备或者服务器执行，如图2所示，该多媒体处理方法包括步骤S201-S203：

S201，获取目标多媒体的媒体描述信息，并根据媒体描述信息确定出目标多媒体的特征信息。

在本申请实施例中，媒体描述信息可以是与目标多媒体关联存储的，因此可以直接从相应数据库或者存储器中获取到目标多媒体的媒体描述信息。示例性地，用户在上传短视频时，编辑并保存了短视频的视频名称和视频简介，因此，短视频的视频名称和视频简介就可以作为与短视频关联存储的媒体描述信息。

可选的，媒体描述信息也可以包括描述目标多媒体中的重要媒体内容的文本信息。举例来说，当目标多媒体为有声视频时，可以先确定视频中的关键图像帧(一般可以是视频的前几帧图像或者作为视频封面的一帧图像)，以及关键图像帧对应的关键音频段，然后对关键图像帧进行文本识别，对关键音频段进行语音识别；最后，将识别出关键图像帧和关键音频段的文本信息作为目标多媒体的媒体描述信息。由于媒体描述信息仅是描述目标多媒体中的重要媒体内容的文本信息，并非目标多媒体中的所有媒体内容对应的文本信息，也就是说，这里媒体描述信息只是简短的句子，而非描述了目标多媒体中的所有媒体内容的长文章，因此由于需要进行语音识别和文本识别的内容较少，在识别过程中出现错误的概率也相对较低；此外，当语音识别和文本识别出现错误时，错误对短句的语义的影响也远小于该错误对整个长文章的语义的影响。

S202，获取目标多媒体的特征信息所描述的主题语义，从内容库中获取出与主题语义相匹配的一个或多个参考内容。

在本申请实施例中，由于目标多媒体的特征信息可以表征出目标多媒体中核心的、具有特点的媒体内容，而目标多媒体的主题语义指的是目标多媒体所呈现的媒体内容的中心思想或主要内容的含义，因此，目标多媒体的特征信息是可以表征出目标多媒体的主题语义的，故而可以直接通过对目标多媒体的特征信息进行分析，从而获取到目标多媒体的主题语义。而该实施例中所述内容库可以是执行步骤S202的终端设备或服务器中的数据库或者存储器。举例来说，目标多媒体为一幅画着郁金香、人群和太阳的图像，那么，可以确定该图像中具有特点的媒体内容为鲜花、游人和阳光，从而可以根据该图像的特点获取到该图像的主题语义为“晴日赏花”。

此外，与主题语义相匹配指的是参考内容的文本语义与主题语义相似或大致相同。举例来说，设定视频A为目标多媒体，其中通过对视频A的特征信息进行分析后，可以确定视频A所描述的主题语义B为“世界杯预选赛中国队一胜三负暂排第五”，而内容库中的文本1的文本语义为“3个月小猫的正确喂食方法”、文本2的文本语义为“世界杯预选赛中国队4场比赛的赛况分析”、文本3的文本语义为“高中阅读理解的解题方式”；通过将主题语义B与三个文本的文本语义进行比较之后，可以确定主题语义B与文本2的文本语义最相似，因此可以确定文本2为与主题语义B相匹配的参考内容。

另外，一个或多个参考内容中的任一参考内容均与一个相应的特征信息相对应，其中，关于参考内容的特征信息的具体解释可以参见前述关于目标多媒体的特征信息，在此不赘述。

S203，根据目标多媒体的特征信息及每个参考内容的特征信息，生成目标多媒体的媒体特征。

在一个实施例中，根据目标多媒体的特征信息及每个参考内容的特征信息，生成目标多媒体的媒体特征的方式可以是：将目标多媒体的特征信息及每个参考内容的特征信息进行特征融合，以得到融合后的特征；然后将融合后的特征作为目标多媒体的媒体特征。其中，特征融合指的是将两个或两个以上不同的特征融合成一个特征的方法及过程。具体来说，将目标多媒体的特征信息及每个参考内容的特征信息进行特征融合可以是先将目标多媒体的特征信息，以及每个参考内容的特征信息进行归一化处理，也就是说，需要使目标多媒体的特征信息及每个参考内容的特征信息的表示方式统一。举例来说，目标多媒体的特征信息为一个4x6维的特征向量，每个参考内容的特征信息为一个8x9维的特征向量，那么可以先将目标多媒体的特征信息及每个参考内容的特征信息都转换成一个2x3维的特征向量，然后对两个2x3维的特征向量做外积(outproduct，一种线性运算的运算方式)，从而得到一个特征向量，实现特征融合。

可选地，根据目标多媒体的特征信息及每个参考内容的特征信息，生成目标多媒体的媒体特征的方式还可以是：将目标多媒体的特征信息及每个参考内容的特征信息进行特征拼接，以得到拼接后的特征；然后将拼接后的特征作为目标多媒体的媒体特征。其中，特征拼接可以是直接将多个特征相加得到一个新的特征；也可以是预先设定每个特征的权重，然后按照权重将多个特征相加得到一个新的特征，在此不限定。

基于上述描述可知，通过本申请实施例提出的多媒体处理方法对目标多媒体进行处理后所得到目标多媒体的媒体特征可以在不依赖语音识别或者文本识别等识别技术的前提下，准确表征出目标多媒体的媒体内容。因此，该多媒体处理方法可以广泛应用于多个应用场景中，其包括但不限于：需要对目标多媒体进行分类的场景、目标多媒体进行筛选的场景以及目标多媒体进行推荐的场景。

在本申请实施例中，在生成目标多媒体的媒体特征之前，会先基于目标多媒体的媒体描述信息，确定目标多媒体的特征信息，进而获取到目标多媒体的主题语义，从而可以方便后续根据目标多媒体的主题语义，从内容库中获取出中心思想或主要内容所表达的含义与目标多媒体的主题语义相似或相同的参考内容；以使得最后可以通过将目标多媒体的特征信息，以及参考内容的特征信息进行特征融合或者特征拼接的方式，去生成目标多媒体的媒体特征。也就是说，针对媒体描述信息所描述的目标多媒体的媒体内容有限，使得最终得到目标多媒体的特征信息表征的关于目标多媒体的主题语义不丰富的问题，本申请实施例通过从内容库中获取与目标多媒体的主题语义相匹配的参考内容，以及将参考内容的特征信息也作为生成目标多媒体的媒体特征的特征信息之一的方式，实现了在不依赖光学字符识别和自动语音识别等技术的情况下，就可以获取到能够较为准确表达出目标多媒体的媒体内容的文本，并且基于目标多媒体的特征信息，以及参考内容的特征信息所生成的媒体特征所表征的语义中不仅包含目标多媒体的主题语义，还包含与目标多媒体的主题语义相似或相同的参考内容的语义，从而实现媒体特征能够准确、充分地表征出目标多媒体的媒体内容。因此，采用上述多媒体处理方法，可以无需依赖光学字符识别和自动语音识别等技术，就可以扩充用于生成目标多媒体的媒体特征的特征信息，从而实现准确获取到多媒体的媒体特征。

请参见图3，图3是本申请实施例提供的又一种多媒体处理方法的示意流程图，该多媒体处理方法也可以由上述提及的终端设备或者服务器来执行。如图3所示，该多媒体处理方法包括步骤S301-S306：

S301，获取目标多媒体的媒体描述信息，并根据媒体描述信息确定出目标多媒体的特征信息。

S302，获取目标多媒体的特征信息所描述的主题语义。

在步骤S301至步骤S302中，由于前述有说明媒体描述信息指的是标题、简介等文本，因此所述根据媒体描述信息确定出目标多媒体的特征信息的方式可以是将媒体描述信息输入至用于孪生网络模型(孪生网络模型指的是由两个参数相同的模型分支所组成的网络模型，所述两个模型分支分别被称为第一特征提取模块和第二特征提取模块)的第一特征提取模块，由第一特征提取模块对媒体描述信息中的一个或多个句子进行特征编码处理，得到一个或多个目标多媒体的特征向量，所述一个或多个目标多媒体的特征向量组成目标多媒体的特征信息。示例性地，孪生网络模型可以是Sentence-Bert模型，Sentence-Bert模型是由两个参数共享的Bert模型分支组成的。通过Sentence-Bert模型中的Bert模型分支可以实现对句子进行特征编码，使得每个句子都能得到一个具有语义的特征向量。在本实施例中，第一特征提取模块指的是Sentence-Bert模型的其中一个Bert模型分支，而第二特征提取模块指的是Sentence-Bert模型的两个Bert模型中除第一特征提取模块指示的Bert模型分支之外的Bert模型分支。

需要说明的是，语义相近的句子，它们的特征向量距离越近。由此可见，每个特征向量都是具有语义的，也就是说，目标多媒体的特征信息是用于描述目标多媒体的主题语义，因此主题语义可以直接通过对目标多媒体的特征信息进行分析所得到，其分析过程具体可以是对特征信息进行解码处理、语义提取等，在此不赘述。

S303，针对内容库包含的目标文本，对目标文本进行文本分割处理，得到目标文本对应的文本分割集。

在本申请实施例中，目标文本指的是内容库中存储的N个文本中的任意一个。文本分割处理指的是将目标文本分割成一个或多个句子或者短语。将目标文本进行文本分割处理后所得到一个或多个文本就是一个或多个分割文本，而分割文本集中就包含了所述一个或多个分割文本。具体来说，文本分割处理的方式可以是通过检测“，”、“。”、“！”等标点符号来判断一个句子是否结束，若判断出一个句子已经结束，则将该句子从而文本中分割出来，形成一个单独的句子(即一个分割文本)。

S304，根据目标文本的文本分割集生成目标文本的特征信息，并计算目标文本的特征信息和目标多媒体的特征信息之间的特征相似度。

在本申请实施例中，根据目标文本的文本分割集生成目标文本的特征信息的方式具体可以是：先分别对文本分割集中包含的每个分割文本进行特征提取处理，得到每个分割文本分别对应的文本特征；然后，由每个分割文本对应的文本特征构成的特征集为文本分割集对应的特征集；最后将文本分割集对应的特征集作为目标文本的特征信息。

在具体实现中，所述分别对文本分割集中包含的每个分割文本进行特征提取处理的方式可以是将文本分割集中包含的每个分割文本输入至步骤S301至步骤S302中提及的孪生网络模型中的第二特征提取模块，由第二特征提取模块对每个分割文本分别进行特征编码处理，以得到每个分割文本分别对应的特征向量，而所述每个分割文本分别对应的特征向量就是每个分割文本分别对应的文本特征。也就是说，文本分割集对应的特征集由目标文本的每个分割文本分别对应的特征向量构成。

此外，特征相似度指的是所述目标文本的特征信息和所述目标多媒体的特征信息之间的相似程度。而目标文本的特征信息是由目标文本中的每个分割文本的文本特征来构成的，那么，计算目标文本的特征信息和目标多媒体的特征信息之间的特征相似度的方式可以是：计算出目标文本中的每个分割文本的文本特征，与目标多媒体的特征信息之间的相似程度，然后通过统计每个分割文本的文本特征，与目标多媒体的特征信息之间的相似程度来确定出特征相似度。具体来说，可以对目标多媒体的特征信息与特征集中的任一文本特征进行特征关联性计算(即计算特征与特征之间的相似程度)，得到目标多媒体的特征信息与任一文本特征之间的第一特征关联度，其中，第一特征关联度指的就是目标多媒体的特征信息与所述任一文本特征之间的相似程度；然后将目标多媒体的特征信息与各文本特征之间的第一特征关联度，作为目标文本的特征信息和目标多媒体的特征信息之间的特征相似度。

其中，由于目标多媒体的特征信息以及特征集中的文本特征都是通过特征向量来表示的，所以在实际应用中，上述特征关联性计算的具体过程可以是，先将目标多媒体的特征向量(即目标多媒体的特征信息)与任一分割文本对应的特征向量(即任一文本特征)进行向量相似度计算，然后将计算出的两个特征向量之间的向量相似度作为目标多媒体的特征信息与任一文本特征之间的第一特征关联度。具体的，两个特征向量之间的相似度计算的方法可以是计算两个特征向量的欧几里德距离、皮尔逊相关系数(Pearson CorrelationCoefficient)或者余弦距离等，在此不限定。此外，由于第一特征关联度用于指示两个特征向量之间的相似度，因此第一特征关联度可以是具体的数值，如80％、0.763等。

可选的，由于步骤S302中提及目标多媒体的特征信息中可能包括多个目标多媒体的特征向量，所以当目标多媒体的特征向量有多个时，可以将每个目标多媒体的特征向量与任一分割文本对应的特征向量分别进行相似度计算，以得到多个特征关联度。然后，可以将所述多个特征关联度中最小或者最大的特征关联度作为目标多媒体的特征信息与任一文本特征之间的第一特征关联度；也可以计算多个特征关联度的平均特征关联度，然后将平均特征关联度作为目标多媒体的特征信息与任一文本特征之间的第一特征关联度，在此不限定。

具体实现中，还可以通过孪生网络模型中的相似度计算模块对目标多媒体的特征信息和内容库中所有文本的特征信息进行相似度计算。示例性地，请参见附图4，示出了一种孪生网络模型的架构示意图，孪生网络模型包括第一特征提取模块401，第二特征提取模块402和相似度计算模块403。其中，第一特征提取模块401和第二特征提取模块402均由Bert模型和池化层(Pooling)组成，Bert模型用于对句子进行特征编码，而池化层使得每个特征向量的特征维度相同，也就是固定特征向量的特征维度。

首先，确定目标多媒体为短视频Q，然后获取短视频Q的标题Sentence A(即，媒体描述信息)，并将Sentence A输入至第一特征提取模块401，由第一特征提取模块401对Sentence A进行特征编码后得到特征向量u(即短视频Q的特征信息)；然后，将内容库的目标文本Y中的SentenceB(即分割文本)输入至第二特征提取模块402，由第二特征提取模块402对Sentence B进行特征编码后得到特征向量v(即文本特征)；之后，由相似度计算模块403通过余弦函数Cosin-sim计算特征向量u和特征向量v的向量相似度，并将特征向量u和特征向量v的向量相似度作为短视频Q的特征信息与SentenceB的文本特征的第一特征关联度。由于目标文本Y在进行文本分割处理后，除了SentenceB还有其他分割文本，因此在计算了目标多媒体的特征信息与SentenceB的文本特征的第一特征关联度之后，需要逐一将目标文本Y中的其他分割文本输入至第二特征提取模块402，从而得到其他每个分割文本分别对应的特征向量，进而再通过相似度计算模块403计算其他每个分割文本分别对应的特征向量与短视频Q的特征信息的第一特征关联度。最后，将目标文本Y的所有分割文本对应的特征向量与短视频Q的特征信息的第一特征关联度，作为目标文本Y的特征信息和短视频Q的特征信息之间的特征相似度。

此外，孪生网络模型是一个训练完成的网络模型，训练前的网络模型的架构可以参见附图4中孪生网络模型的架构示意图，在此不赘述。其中，孪生网络模型的训练过程具体包括：先获取训练样本对，以及训练样本对的样本标签。训练样本对包含两个训练样本，训练样本对中的一个训练样本可以是标题、简介、中心句等用于描述多媒体的文本，而另一个训练样本则可以是文章、新闻资讯等文本。而所述样本标签用于指示训练样本对包含的两个训练样本之间的语义相似度，样本标签主要是通过人工标注的，样本标签可以是数值，如90％、0.4等，也可以是文本标签，如强相关、弱相关、负相关等，在此不限定。

然后，将训练样本对输入训练前的网络模型，由训练前的网络模型中的训练前的第一特征提取模块和训练前的第一特征提取模块提取出训练样本对中每一个训练样本的特征向量，再由训练前的网络模型中的训练前的相似度计算模块计算出两个训练样本的特征向量的相似度，从而输出训练样本对之间的预测相似度。最后根据预测相似度和样本标签指示的语义相似度之间的差异，不断更新网络模型的模型参数，直至据预测相似度和样本标签指示的语义相似度之间的差异较小或者小于预设差异，就停止训练，得到训练完成的孪生网络模型。

可选的，请参见附图5，示出了一种确定特征相似度的示意图，先通过第一特征提取模块对短视频W的标题(即，短视频W的媒体描述信息)进行特征编码后，得到特征向量T。然后，将内容库中的目标文本A进行文本分割后得到目标文本A的文本分割集502，文本分割集502中包括Sentence 1～Sentence 24；之后，再通过第二特征提取模块分别对Sentence1～Sentence 24进行特征编码处理，得到文本分割集502对应的特征集501，特征集501包括特征向量1～特征向量24，而特征集501为目标文本A的特征信息。最后，通过相似度计算模块计算特征向量T与特征集501中每一个特征向量的第一特征关联度，并将得到的特征向量T与特征集501中每一个特征向量的第一特征关联度作为短视频W的特征信息(即，特征向量T)与目标文本A的特征信息之间的特征相似度。

进一步的，为了提高在生成目标多媒体的媒体特征时的效率，可以预先通过孪生网络模型中的第二特征提取模块确定出内容库中每个文本对应的特征集，也就是说，预先获取得到内容库中每一个文本的特征信息。然后，只需在获取到目标多媒体的媒体描述信息之后，根据目标多媒体的媒体描述信息确定出目标多媒体的特征信息，就可以直接计算出内容库中任一文本的特征信息与目标多媒体的特征信息之间的特征相似度。

S305，在特征相似度指示目标文本的文本语义与目标多媒体的主题语义之间的相似程度满足预设相似程度时，将目标文本作为与目标多媒体的主题语义相匹配的一个参考内容，直至从内容库中获取出与主题语义相匹配的一个或多个参考内容。

在本申请实施例中，由于目标文本的文本语义是由目标文本中的每个分割文本的文本语义来构成的，因此可以通过目标文本中每一个分割文本的文本语义与目标多媒体的主题语义之间的相似程度，去判断特征相似度指示目标文本的文本语义与目标多媒体的主题语义之间的相似程度是否满足预设相似程度。

具体来说，可以是先根据目标多媒体的特征信息与目标文本的特征集中的各文本特征之间的第一特征关联度，从目标文本的特征集中选取出对应第一特征关联度大于关联度阈值的文本特征；然后确定选取出的对应第一特征关联度大于关联度阈值的文本特征的特征数量；最后，当确定出的特征数量大于等于预设数量时，确定目标文本的文本语义与目标多媒体的主题语义之间的相似程度满足预设相似程度。其中，所述关联度阈值可以是百分比、小数等具体的数值，如80％、0.6等。此外，预设数量可以是预设的固定数量值，如4、8、15等；或者，预设数量也可以是根据目标文本的分割文本总数计算得到的数量值，如设定预设数量为目标文本的分割文本总数的五分之一，那么，当目标文本的分割文本总数为50时，预设数量就应该为10。

举例来说，设定关联度阈值为0.6，预设数量为5。目标文本E进行分割处理后得到了10个分割文本，对10个分割文本进行特征提取处理后，可以得到目标文本E的文本特征1～文本特征10；然后，获取目标多媒体R的特征信息，并计算目标多媒体R的特征信息与目标文本E的各文本特征的第一特征关联度，目标多媒体R的特征信息与文本特征1～文本特征10的第一特征关联度分别为0.8、0.4、0.2、0.7、0.3、0.5、0.5、0.4、0.7、0.8。由此可见，第一特征关联度大于0.6的文本特征的特征数量为4，小于预设数量5，从而可以确定目标文本E的特征信息与目标多媒体R的特征信息之间的特征相似度所指示目标文本的文本语义与目标多媒体的主题语义之间的相似程度不满足预设相似程度。

通过步骤S201中所解释的媒体描述信息，可以知道媒体描述信息中可以包括目标多媒体的标题，而目标多媒体的标题往往是最能简明扼要地概括目标多媒体的中心思想的句子，因此，可选的，可以确定出目标多媒体的特征信息包含标题的标题特征，从而可以在当选取出的对应第一特征关联度大于关联度阈值的文本特征的特征数量大于等于预设数量时，获取特征集中的各文本特征与目标多媒体的标题特征之间的第二特征关联度，并从特征集中选取出对应第二特征关联度大于目标阈值的文本特征；之后，当选取出的对应第二特征关联度大于目标阈值的数量大于等于参考数量时，则确定目标文本的文本语义与目标多媒体的主题语义之间的相似程度满足预设相似程度。

其中，第二特征关联度指的是特征集中的各文本特征与目标多媒体的标题特征的特征关联度。参考数量可以是预设的固定数量值，如4、8、15等。所述目标阈值可以是百分比、小数等具体的数值，如80％、0.6等，同时，目标阈值可以与关联度阈值相同，也可以与关联度阈值不同，在此不限定。

举例来说，设定关联度阈值为0.6，预设数量为5，目标阈值为0.7，参考数量为2。对目标文本U进行分割处理后得到了10个分割文本，对10个分割文本进行特征提取处理后，可以得到目标文本U的文本特征1～文本特征10。然后，获取目标多媒体D的特征信息，目标多媒体D的特征信息中包括目标多媒体D的标题特征和简介特征。计算目标多媒体D的标题特征与目标文本E的各文本特征的特征关联度，目标多媒体D的标题特征与文本特征1～文本特征10的特征关联度分别为0.8、0.4、0.8、0.9、0.3、0.5、0.4、0.6、0.8、0.3；目标多媒体D的简介特征与文本特征1～文本特征10的特征关联度分别为0.7、0.5、0.8、0.7、0.3、0.8、0.8、0.6、0.6、0.2。然后，将计算得到的标题特征和简介特征，分别与文本特征1～文本特征10的特征关联度的平均特征关联度作为目标多媒体D的特征信息与文本特征1～文本特征10的第一特征关联度，从而可以得到目标多媒体D的特征信息与文本特征1～文本特征10的第一特征关联度为0.75、0.45、0.8、0.8、0.3、0.65、0.6、0.6、0.75、0.25。由此可见，第一特征关联度大于0.6的文本特征的特征数量为5，等于预设数量5。

在确定出的特征数量等于预设数量之后，获取目标多媒体D的标题特征分别与文本特征1～文本特征10之间的第二特征关联度，也就是0.8、0.4、0.8、0.9、0.3、0.5、0.4、0.6、0.8、0.3。可见，第二特征关联度大于等于0.7的数量为4，大于参考数量2，从而可以确定目标文本E的特征信息与目标多媒体R的特征信息之间的特征相似度所指示目标文本的文本语义与目标多媒体的主题语义之间的相似程度不满足预设相似程度。

可选的，因为标题往往是最能简明扼要地概括文本的中心思想的句子，因此，在当选取出的对应第一特征关联度大于关联度阈值的文本特征的特征数量大于等于预设数量时，还可以只获取特征集中对应目标文本的标题(目标文本的分割文本之一)的标题特征，与目标多媒体的标题特征之间的第二特征关联度，若目标文本的标题特征与目标多媒体的标题特征之间的第二特征关联度大于目标阈值，则确定目标文本的文本语义与目标多媒体的主题语义之间的相似程度满足预设相似程度。

在一种可能的实现方式中，内容库中可能存在多个目标文本的文本语义与目标多媒体的主题语义之间的相似程度满足预设相似程度，而从内容库中获取到的参考内容的文本语义虽然与目标多媒体的主题语义相似程度高，但参考内容也存在部分与目标多媒体的主题语义相似程度低的句子，获取到的参考内容越多，引入的与目标多媒体的主题语义相似程度低的句子也就越多，反而容易使得后续生成的目标多媒体的媒体特征所表征的语义出现偏差。

因此，可以设定当从内容库中获取到目标数量的参考内容后，就停止从内容库中获取参考内容，其中，目标数量是固定的数量值，一般为正整数，如1、2、3等。可选的，也可以设定在遍历了内容库中的所有文本，选出了多个参考内容之后，将各个参考内容的特征信息和目标多媒体的特征信息之间的特征相似度进行降序排序，选取特征相似度在前几名的参考内容作为目标参考内容，最后根据目标多媒体的特征信息及每个目标参考内容的特征信息，生成目标多媒体的媒体特征。

S306，根据目标多媒体的特征信息及每个参考内容的特征信息，生成目标多媒体的媒体特征。

其中，步骤S306的具体实施方式可以参见步骤S203中的具体实施方式，本申请在此不做赘述。

在一个实施例中，在生成了目标多媒体的媒体特征之后，还可以根据媒体特征对多媒体进行相应的推荐，具体过程包括：先根据目标多媒体的媒体特征生成目标多媒体的媒体标签；然后，当检测到为目标用户进行多媒体推荐的需求时，获取目标用户的用户需求信息；最后，根据不同多媒体的媒体标签为目标用户推荐与目标用户的需求信息匹配的多媒体。

其中，根据目标多媒体的媒体特征生成目标多媒体的媒体标签的具体方式可以是将目标多媒体的媒体特征输入softmax(一种用于多分类的回归模型)、决策树模型等机器学习模型，以得到目标多媒体的媒体标签。其中，softmax和决策树模型等机器学习模型的训练过程为本领域技术人员惯用技术手段，在此不赘述。需要说明的是，媒体标签用于指示所述目标多媒体的媒体类型。媒体类型可以是简要描述目标多媒体的媒体特征所表征的语义的关键词。举例来说，当目标多媒体的媒体特征所表征的语义为“3个月小猫的正确喂食方法”，那么，媒体标签可以是“萌宠”、“动物喂养”、“猫”等。可选的，媒体类型也可以是多媒体的类型，如文本型、视频型、图像型等。

此外，所述目标用户指的是有多媒体浏览和观看需求的用户，也就是需要和允许进行多媒体推荐的用户。所述根据不同多媒体的媒体标签为目标用户推荐与目标用户的需求信息匹配的多媒体的具体方式可以是，先对目标用户的需求信息进行特征提取处理，得到需求信息的需求特征；然后，根据需求信息的需求特征确定出需求信息的需求标签，最后，将媒体标签与需求标签匹配的多媒体确定为与目标用户的需求信息匹配的多媒体。其中，特征提取处理和确定出需求信息的需求标签的具体实施过程可以参见步骤S302和步骤S604，在此不赘述。

在另一个实施例中，步骤S301至步骤S306可以由图1所示的多媒体处理***中的服务器执行，在服务器生成了目标多媒体的媒体特征之后，服务器还可以根据媒体特征为使用图1所示的多媒体处理***中的终端设备的目标用户进行多媒体推荐，其具体过程包括步骤S3701-S3704：

S3701，服务器根据目标多媒体的媒体特征生成目标多媒体的媒体标签。

其中，步骤S3701的具体实施过程可以参见步骤S306中关于生成目标多媒体的媒体标签的具体方式，在此不赘述。

S3702，当服务器检测到为目标用户进行多媒体推荐的需求时，服务器获取目标用户的用户需求信息。

在本实施例中，目标用户指的是使用终端设备的用户。检测目标用户是否有进行多媒体推荐的需求具体可以是：当检测到目标用户的搜索操作时，确定目标用户有多媒体推荐的需求；当检测到目标用户在浏览短视频、图像等多媒体时，确定目标用户有多媒体推荐的需求。可选的，也可以通过其他方式确定目标用户是否有多媒体推荐的需求，在此不限定。此外，需求信息指的是目标用户的推荐需求，如观看短视频的偏好等；具体可以通过目标用户的历史浏览数据、搜索数据、关于多媒体的历史操作数据等数据来生成。

S3703，服务器根据不同多媒体的媒体标签为目标用户推荐与目标用户的需求信息匹配的多媒体。

S3704，服务器将匹配的多媒体发送至客户端。

本申请实施例中，由于从内容库中获取出与主题语义相匹配的一个或多个参考内容是通过参考内容的中心思想或主要内容所表达的含义(即参考内容的文本语义)与目标多媒体的主题语义是否相似或相同来判断，而目标多媒体的特征信息可以表征出目标多媒体的主题语义，参考内容的特征信息可以表征出参考内容的文本语义，因此，通过计算内容库中存在的目标文本的特征信息和目标多媒体的特征信息之间的特征相似度，就可以方便判断目标文本的文本语义与目标多媒体的主题语义之间的相似程度，从而确定出该目标文本是否为与主题语义匹配的参考内容。同时，由于文本目标文本的特征信息是由目标文本中的每个分割文本的文本特征来构成的，因此，在计算目标文本的特征信息和目标多媒体的特征信息之间的特征相似度时，是需要先计算出目标文本中的每一个分割文本的文本特征，与目标多媒体的特征信息之间的相似程度，然后再进一步确定出特征相似度。最后，根据目标多媒体的特征信息，以及每个参考内容的特征信息所生成的目标多媒体的媒体特征所表征的语义中不仅包含目标多媒体的主题语义，还包含与目标多媒体的主题语义匹配的参考内容的语义，从而实现媒体特征能够准确、充分地表征出目标多媒体的媒体内容。此外，本申请实施例中还提到了可以根据目标多媒体的媒体特征生成所述目标多媒体的媒体标签，以实现在检测到为目标用户进行多媒体推荐的需求时，能够直接根据不同多媒体的媒体标签为目标用户推荐与目标用户的需求信息匹配的多媒体，从而在实现了可以基于表征语义准确、充分的媒体特征为目标用户进行推荐更准确的多媒体的基础上，进一步基于媒体标签预先对目标多媒体进行分类，以提升多媒体推荐时的效率，进而提升用户体验。

基于上述多媒体处理方法的相关描述，本申请还公开了一种多媒体处理装置。该多媒体处理装置可以是运行与上述所提及的计算机设备中的一个计算机程序(包括程序代码)。该多媒体处理装置可以执行如图2和图3所示的多媒体处理方法，请参见图7，该多媒体处理装置至少可以包括：获取单元701和处理单元702。

获取单元701，用于获取目标多媒体的媒体描述信息，并根据媒体描述信息确定出目标多媒体的特征信息，目标多媒体的特征信息用于描述目标多媒体的主题语义；

获取单元701，还用于获取目标多媒体的特征信息所描述的主题语义，从内容库中获取出与主题语义相匹配的一个或多个参考内容；一个或多个参考内容中的任一参考内容均与一个相应的特征信息相对应；

处理单元702，用于根据目标多媒体的特征信息及每个参考内容的特征信息，生成目标多媒体的媒体特征。

在一种实施方式中，所述内容库中包含N个文本，N为大于预设阈值的正整数；所述获取单元701可以具体执行：

针对内容库包含的目标文本，对目标文本进行文本分割处理，得到目标文本对应的文本分割集，文本分割集包含由目标文本进行文本分割处理后得到的一个或多个分割文本；其中，目标文本为N个文本中的任意一个；

根据目标文本的文本分割集生成目标文本的特征信息，并计算目标文本的特征信息和目标多媒体的特征信息之间的特征相似度；特征相似度用于指示目标文本的文本语义和目标多媒体的主题语义之间的相似程度；

在特征相似度指示目标文本的文本语义与目标多媒体的主题语义之间的相似程度满足预设相似程度时，将目标文本作为与目标多媒体的主题语义相匹配的一个参考内容，直至从内容库中获取出与主题语义相匹配的一个或多个参考内容。

在又一种实施方式中，获取单元701可以具体执行：

分别对文本分割集中包含的每个分割文本进行特征提取处理，得到每个分割文本分别对应的文本特征；由每个分割文本对应的文本特征构成的特征集为文本分割集对应的特征集；

将文本分割集对应的特征集作为目标文本的特征信息。

在又一种实施方式中，所述目标文本的特征信息为由所述目标文本的各分割文本的文本特征构成的特征集；获取单元701可以具体执行：

对目标多媒体的特征信息与特征集中的任一文本特征进行特征关联性计算，得到目标多媒体的特征信息与任一文本特征之间的第一特征关联度；

将目标多媒体的特征信息与各文本特征之间的第一特征关联度，作为目标文本的特征信息和目标多媒体的特征信息之间的特征相似度。

在又一种实施方式中，获取单元701具体还可以用于执行：

根据目标多媒体的特征信息与各文本特征之间的第一特征关联度，从特征集中选取出对应第一特征关联度大于关联度阈值的文本特征；

确定选取出的对应第一特征关联度大于关联度阈值的文本特征的特征数量；

当确定出的特征数量大于等于预设数量时，确定目标文本的文本语义与目标多媒体的主题语义之间的相似程度满足预设相似程度；

其中，预设数量为预设的固定数量值，或者，预设数量是根据目标文本的分割文本总数计算得到的数量值。

在又一种实施方式中，所述媒体描述信息包含所述目标多媒体的标题，所述目标多媒体的特征信息包含所述标题的标题特征；所述获取单元701具体还可以用于执行：

当确定出的特征数量大于等于预设数量时，获取特征集中的各文本特征与目标多媒体的标题特征之间的第二特征关联度，并从特征集中选取出对应第二特征关联度大于目标阈值的文本特征；

当选取出的对应第二特征关联度大于目标阈值的数量大于等于参考数量时，确定目标文本的文本语义与目标多媒体的主题语义之间的相似程度满足预设相似程度。

在又一种实施方式中，所述特征信息的确定过程，以及对不同的特征信息进行特征相似度计算的过程均是通过获取单元701调用孪生网络模型计算得到的；

孪生网络模型包含第一特征提取模块和第二特征提取模块，媒体描述信息被输入第一特征提取模块中以得到目标多媒体的特征信息，内容库包含的N个文本被输入第二特征提取模块以得到每个文本的特征信息；

孪生网络模型还包含相似度计算模块，相似度计算模块用于对目标多媒体的特征信息和内容库中文本的特征信息进行相似度计算，以从内容库中获取出一个或多个参考内容。

在又一种实施方式中，所述孪生网络模型是训练完成的网络模型，所述获取单元701还可以用于对所述孪生网络模型进行训练，其具体训练过程包括：

获取训练样本对，以及训练样本对的样本标签，训练样本对包含两个训练样本，样本标签用于指示训练样本对包含的两个训练样本之间的语义相似度；

将训练样本对输入训练前的网络模型，输出训练样本对之间的预测相似度；

根据预测相似度和样本标签指示的语义相似度之间的差异训练孪生网络模型，得到训练完成的孪生网络模型。

根据本申请的一个实施例，图2和图3所示的方法所涉及各个步骤可以是由图7所示的多媒体处理装置中的各个单元来执行的。例如，图2所示的步骤S201和步骤S202均可由图7所示的多媒体处理装置中的获取单元701来执行；步骤S203可由图7所示的多媒体处理装置中的处理单元702来执行。再如，图3所示的步骤S301至步骤S305均可由图7所示的多媒体处理装置中的获取单元701来执行；步骤S306可由图7所示的多媒体处理装置中的处理单元702来执行。又如，图6所示的步骤S601至步骤S602均可由图7所示的多媒体处理装置中的获取单元701来执行；步骤S603至步骤S607可由图7所示的多媒体处理装置中的处理单元702来执行。

根据本申请的另一个实施例，图7所示的多媒体处理装置中的各个单元是基于逻辑功能划分的，上述各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。在本申请的其它实施例中，上述基于多媒体处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机设备的通用计算设备上，运行能够执行如图2、图3或图6所示的方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图7所示的多媒体处理装置，以及来实现本申请实施例的多媒体处理方法。计算机程序可以记载于例如计算机存储介质上，并通过计算机存储介质装载于上述计算机设备中，并在其中运行。

基于上述方法实施例以及装置实施例的相关描述，本申请实施例还提供了一种计算机设备，请参见图8。该计算机设备至少包括处理器801和计算机存储介质802，且计算机设备的处理器801和计算机存储介质802可通过总线或其他方式连接。

其中，上述提及的计算机存储介质802是计算机设备中的记忆设备，用于存放计算机程序和数据。可以理解的是，此处的计算机存储介质802既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质802提供存储空间，该存储空间存储了计算机设备的操作***。并且，在该存储空间中还存放了适于被处理器801加载并执行的一条或多条的计算机程序，这些计算机程序可以是一个或一个以上的程序代码。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的存储介质。处理器801(或称CPU(Central Processing Unit，中央处理器))是计算机设备的计算核心以及控制核心，其适于实现一条或多条计算机程序，具体适于加载并执行一条或多条计算机程序从而实现相应方法流程或相应功能。

在一个实施例中，可由处理器801加载并执行计算机存储介质802中存放的一条或多条计算机程序，以实现上述有关图2、图3和图6所示的方法实施例中的相应方法步骤；具体实现中，计算机存储介质802中的一条或多条计算机程序可以由处理器801加载并执行如下步骤：

获取目标多媒体的媒体描述信息，并根据媒体描述信息确定出目标多媒体的特征信息，目标多媒体的特征信息用于描述目标多媒体的主题语义；获取目标多媒体的特征信息所描述的主题语义，从内容库中获取出与主题语义相匹配的一个或多个参考内容；一个或多个参考内容中的任一参考内容均与一个相应的特征信息相对应；根据目标多媒体的特征信息及每个参考内容的特征信息，生成目标多媒体的媒体特征。

在一种实施方式中，所述内容库中包含N个文本，N为大于预设阈值的正整数；所述处理器801可以用于加载并执行：针对内容库包含的目标文本，对目标文本进行文本分割处理，得到目标文本对应的文本分割集，文本分割集包含由目标文本进行文本分割处理后得到的一个或多个分割文本；其中，目标文本为N个文本中的任意一个；根据目标文本的文本分割集生成目标文本的特征信息，并计算目标文本的特征信息和目标多媒体的特征信息之间的特征相似度；特征相似度用于指示目标文本的文本语义和目标多媒体的主题语义之间的相似程度；在特征相似度指示目标文本的文本语义与目标多媒体的主题语义之间的相似程度满足预设相似程度时，将目标文本作为与目标多媒体的主题语义相匹配的一个参考内容，直至从内容库中获取出与主题语义相匹配的一个或多个参考内容。

在又一种实施方式中，所述处理器801可以用于加载并执行：分别对文本分割集中包含的每个分割文本进行特征提取处理，得到每个分割文本分别对应的文本特征；由每个分割文本对应的文本特征构成的特征集为文本分割集对应的特征集；将文本分割集对应的特征集作为目标文本的特征信息。

在又一种实施方式中，所述目标文本的特征信息为由所述目标文本的各分割文本的文本特征构成的特征集；所述处理器801可以用于加载并执行：对目标多媒体的特征信息与特征集中的任一文本特征进行特征关联性计算，得到目标多媒体的特征信息与任一文本特征之间的第一特征关联度；将目标多媒体的特征信息与各文本特征之间的第一特征关联度，作为目标文本的特征信息和目标多媒体的特征信息之间的特征相似度。

在又一种实施方式中，所述处理器801可以用于加载并执行：根据目标多媒体的特征信息与各文本特征之间的第一特征关联度，从特征集中选取出对应第一特征关联度大于关联度阈值的文本特征；确定选取出的对应第一特征关联度大于关联度阈值的文本特征的特征数量；当确定出的特征数量大于等于预设数量时，确定目标文本的文本语义与目标多媒体的主题语义之间的相似程度满足预设相似程度；其中，预设数量为预设的固定数量值，或者，预设数量是根据目标文本的分割文本总数计算得到的数量值。

在又一种实施方式中，所述媒体描述信息包含所述目标多媒体的标题，所述目标多媒体的特征信息包含所述标题的标题特征；所述处理器801可以用于加载并执行：当确定出的特征数量大于等于预设数量时，获取特征集中的各文本特征与目标多媒体的标题特征之间的第二特征关联度，并从特征集中选取出对应第二特征关联度大于目标阈值的文本特征；当选取出的对应第二特征关联度大于目标阈值的数量大于等于参考数量时，确定目标文本的文本语义与目标多媒体的主题语义之间的相似程度满足预设相似程度。

在又一种实施方式中，特征信息的确定过程，以及对不同的特征信息进行特征相似度计算的过程均是通过处理器801调用孪生网络模型计算得到的；

孪生网络模型包含第一特征提取模块和第二特征提取模块，处理器801可以用于加载并执行：将媒体描述信息输入至第一特征提取模块中以得到目标多媒体的特征信息，内容库包含的N个文本被输入第二特征提取模块以得到每个文本的特征信息；

孪生网络模型还包含相似度计算模块，处理器801可以用于加载并执行：通过相似度计算模块对目标多媒体的特征信息和内容库中文本的特征信息进行相似度计算，以从内容库中获取出一个或多个参考内容。

在又一种实施方式中，所述孪生网络模型是训练完成的网络模型，处理器801对所述孪生网络模型的训练过程包括：获取训练样本对，以及训练样本对的样本标签，训练样本对包含两个训练样本，样本标签用于指示训练样本对包含的两个训练样本之间的语义相似度；将训练样本对输入训练前的网络模型，输出训练样本对之间的预测相似度；根据预测相似度和样本标签指示的语义相似度之间的差异训练孪生网络模型，得到训练完成的孪生网络模型。

本申请还提供了一种计算机存储介质，该计算机存储介质中存储了上述多媒体处理方法对应的一条或多条计算机程序，当一个或多个处理器加载并执行该一条或多条计算机程序，可以实现实施例中对多媒体处理方法的描述，在此不再赘述。对采用相同方法的有益效果的描述，在此不再赘述。可以理解的是，计算机程序可以被部署在一个或多个能够相互通信的设备上执行。

需要说明的是，根据本申请的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品包括计算机程序，该计算机程序存储在计算机存储介质中。计算机设备中的处理器从计算机存储介质读取该计算机程序，然后执行该计算机程序，进而使得该计算机设备能够执行上述图2和图3所示的多媒体处理方法实施例方面的各种可选方式中提供的方法。

可以理解的是，在本申请的具体实施方式中，部分实施例涉及到需求信息等与用户信息相关的数据；因此当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于计算机取存储介质中，该计算机程序在执行时，可包括如上述数据处理方法的实施例的流程。其中，计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

以上所揭露的仅为本申请的局部实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或局部流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种多媒体处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述内容库中包含N个文本，N为大于预设阈值的正整数；

所述从内容库中获取出与所述主题语义相匹配的一个或多个参考内容，包括：

针对所述内容库包含的目标文本，对所述目标文本进行文本分割处理，得到所述目标文本对应的文本分割集，所述文本分割集包含由所述目标文本进行文本分割处理后得到的一个或多个分割文本；其中，所述目标文本为所述N个文本中的任意一个；

根据所述目标文本的文本分割集生成所述目标文本的特征信息，并计算所述目标文本的特征信息和所述目标多媒体的特征信息之间的特征相似度；所述特征相似度用于指示所述目标文本的文本语义和所述目标多媒体的主题语义之间的相似程度；

在所述特征相似度指示所述目标文本的文本语义与所述目标多媒体的主题语义之间的相似程度满足预设相似程度时，将所述目标文本作为与所述目标多媒体的主题语义相匹配的一个参考内容，直至从所述内容库中获取出与所述主题语义相匹配的一个或多个参考内容。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标文本的文本分割集生成所述目标文本的特征信息，包括：

分别对所述文本分割集中包含的每个分割文本进行特征提取处理，得到所述每个分割文本分别对应的文本特征；由所述每个分割文本对应的文本特征构成的特征集为所述文本分割集对应的特征集；

将所述文本分割集对应的特征集作为所述目标文本的特征信息。

4.根据权利要求2所述的方法，其特征在于，所述目标文本的特征信息为由所述目标文本的各分割文本的文本特征构成的特征集；

所述计算所述目标文本的特征信息和所述目标多媒体的特征信息之间的特征相似度，包括：

对所述目标多媒体的特征信息与所述特征集中的任一文本特征进行特征关联性计算，得到所述目标多媒体的特征信息与任一文本特征之间的第一特征关联度；

将所述目标多媒体的特征信息与各文本特征之间的第一特征关联度，作为所述目标文本的特征信息和所述目标多媒体的特征信息之间的特征相似度。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

根据所述目标多媒体的特征信息与各文本特征之间的第一特征关联度，从所述特征集中选取出对应第一特征关联度大于关联度阈值的文本特征；

确定选取出的对应第一特征关联度大于所述关联度阈值的文本特征的特征数量；

当确定出的特征数量大于等于预设数量时，确定所述目标文本的文本语义与所述目标多媒体的主题语义之间的相似程度满足预设相似程度；

其中，所述预设数量为预设的固定数量值，或者，所述预设数量是根据所述目标文本的分割文本总数计算得到的数量值。

6.根据权利要求5所述的方法，其特征在于，所述媒体描述信息包含所述目标多媒体的标题，所述目标多媒体的特征信息包含所述标题的标题特征；

所述当确定出的特征数量大于等于预设数量时，确定所述目标文本的文本语义与所述目标多媒体的主题语义之间的相似程度满足预设相似程度，包括：

当确定出的特征数量大于等于预设数量时，获取所述特征集中的各文本特征与所述目标多媒体的标题特征之间的第二特征关联度，并从所述特征集中选取出对应第二特征关联度大于目标阈值的文本特征；

当选取出的对应第二特征关联度大于所述目标阈值的数量大于等于参考数量时，确定所述目标文本的文本语义与所述目标多媒体的主题语义之间的相似程度满足预设相似程度。

7.根据权利要求1～6任一项所述的方法，其特征在于，特征信息的确定过程，以及对不同的特征信息进行特征相似度计算的过程均是通过调用孪生网络模型计算得到的；

所述孪生网络模型包含第一特征提取模块和第二特征提取模块，所述媒体描述信息被输入所述第一特征提取模块中以得到所述目标多媒体的特征信息，所述内容库包含的N个文本被输入所述第二特征提取模块以得到每个文本的特征信息；

所述孪生网络模型还包含相似度计算模块，所述相似度计算模块用于对所述目标多媒体的特征信息和所述内容库中文本的特征信息进行相似度计算，以从所述内容库中获取出一个或多个参考内容。

8.根据权利要求7所述的方法，其特征在于，所述孪生网络模型是训练完成的网络模型，对所述孪生网络模型的训练过程包括：

获取训练样本对，以及所述训练样本对的样本标签，所述训练样本对包含两个训练样本，所述样本标签用于指示所述训练样本对包含的两个训练样本之间的语义相似度；

将所述训练样本对输入训练前的网络模型，输出所述训练样本对之间的预测相似度；

根据所述预测相似度和所述样本标签指示的语义相似度之间的差异训练所述孪生网络模型，得到训练完成的孪生网络模型。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述目标多媒体的媒体特征生成所述目标多媒体的媒体标签，所述媒体标签用于指示所述目标多媒体的媒体类型；

当检测到为目标用户进行多媒体推荐的需求时，获取所述目标用户的用户需求信息，并根据不同多媒体的媒体标签为所述目标用户推荐与所述目标用户的需求信息匹配的多媒体。

10.一种多媒体处理装置，其特征在于，所述多媒体处理装置包括获取单元和处理单元，其中：

所述获取单元，用于获取目标多媒体的媒体描述信息，并根据所述媒体描述信息确定出所述目标多媒体的特征信息，所述目标多媒体的特征信息用于描述所述目标多媒体的主题语义；

所述处理单元，用于根据所述目标多媒体的特征信息及每个参考内容的特征信息，生成所述目标多媒体的媒体特征。

11.一种计算机设备，其特征在于，包括：

处理器，所述处理器适于实现一条或多条计算机程序；

计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行如权利要求1-9任一项所述的多媒体处理方法。

12.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行如权利要求1-9任一项所述的多媒体处理方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序适于由处理器加载并执行如权利要求1-9任一项所述的多媒体处理方法。