CN114491272A

CN114491272A - 一种多媒体内容推荐方法及装置

Info

Publication number: CN114491272A
Application number: CN202210133881.9A
Authority: CN
Inventors: 李勇志; 迟禄; 袁泽寰; 赵修影
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2022-05-13
Anticipated expiration: 2042-02-14
Also published as: CN114491272B

Abstract

本申请公开了一种多媒体内容推荐方法，可以获取待推送多媒体内容以及第一用户有过交互行为的N个多媒体内容，N为大于或者等于1的整数，而后，可以基于所述N个多媒体内容的内容和所述待推送多媒体内容的内容，确定所述第一用户与所述待推送多媒体内容交互的可能性。并且，在所述第一用户与所述待推送多媒体内容交互的可能性符合预设条件时，为所述第一用户推荐所述待推送多媒体内容。由此可见，利用本方案，在为用户推荐多媒体内容时，结合了待推送多媒体内容的内容、以及用户历史有过交互行为的多媒体内容的内容。因此，利用本方案，用户与为用户推荐的多媒体内容交互的可能性较高，从而有效提升了为用户推荐多媒体内容的效果。

Description

一种多媒体内容推荐方法及装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种多媒体内容推荐方法及装置。

背景技术

为了为用户提供较好的服务质量，客户端可以为用户推荐对应的多媒体内容，例如，为用户推荐广告。

但是，目前客户端为用户推荐多媒体内容的效果并不好，例如，客户端为用户推荐某一多媒体内容之后，用户并未与该多媒体内容交互。

因此，急需一种方案，能够解决上述问题。

发明内容

本申请所要解决的技术问题是如何提升为用户推荐多媒体内容的效果，提供一种多媒体内容推荐方法及装置。

第一方面，本申请实施例提供了一种多媒体内容推荐方法，所述方法包括：

获取待推送多媒体内容以及第一用户有过交互行为的N个多媒体内容，N为大于或者等于1的整数；

基于所述N个多媒体内容的内容和所述待推送多媒体内容的内容，确定所述第一用户与所述待推送多媒体内容交互的可能性；

在所述第一用户与所述待推送多媒体内容交互的可能性符合预设条件时，为所述第一用户推荐所述待推送多媒体内容。

可选的，所述多媒体内容的内容，包括以下任意一项或者多项：

文本内容，图像内容以及音频内容。

可选的，所述基于所述N个多媒体内容的内容和所述待推送多媒体内容的内容，确定所述第一用户与所述待推送多媒体内容交互的可能性，通过机器学习模型实现。

可选的，所述机器学习模型，包括：特征融合模块、特征提取模块和相似度计算模块；

所述特征融合模块，用于基于所述N个多媒体内容的内容，得到所述N个多媒体内容的融合特征；

所述特征提取模块，用于基于所述待推送多媒体内容的内容，得到所述待推送多媒体内容的多媒体内容特征；

所述相似度计算模块，用于计算所述融合特征和所述待推送多媒体内容的多媒体内容特征的相似度，得到所述第一用户与所述待推送多媒体内容交互的可能性。

可选的，所述特征提取模块，还用于基于所述N个多媒体内容中每个多媒体内容，得到所述N个多媒体内容中每个多媒体内容的多媒体内容特征；

所述特征融合模块，用于：

基于所述特征提取模块输出的所述N个多媒体内容中每个多媒体内容的多媒体内容特征，得到所述融合特征。

可选的，所述特征提取模块包括：第一特征提取子模块、第二特征提取子模块和特征融合子模块；

所述第一特征提取子模块用于对多媒体内容的内容中的非文本内容进行特征提取；

所述第二特征提取子模块用于对多媒体内容的内容中的文本内容进行特征提取；

所述特征融合子模块用于对所述第一特征提取子模块输出的特征和所述第二特征提取子模块输出的特征进行融合，得到多媒体内容特征。

可选的，所述特征融合模块采用自注意力机制和全局池化策略。

可选的，所述机器学习模型，通过如下方式训练得到：

获取第一网络用户历史有过交互行为的M个多媒体内容以及所述第一网络用户并未有过交互行为的S个多媒体内容，M为大于2的整数，S为大于或者等于1的整数；

基于所述M个多媒体内容以及所述S个多媒体内容，训练得到所述机器学习模型。

可选的，所述机器学习模型，包括：特征提取模块和特征融合模块；所述基于所述M个多媒体内容以及所述S个多媒体内容，训练得到所述机器学习模型，包括：

利用所述特征提取模块，提取所述M个多媒体内容和所述S个多媒体内容的多媒体内容特征，其中：所述特征提取模块，用于基于所述M个多媒体内容的内容得到所述M个多媒体内容的多媒体内容特征，以及基于所述S个多媒体内容的内容得到所述S个多媒体内容的多媒体内容特征；

利用所述特征融合模块计算所述M个多媒体内容中的N个多媒体内容的融合特征；

基于所述融合特征、所述S个多媒体内容的多媒体内容特征以及所述M个多媒体内容中其它(M-N)个多媒体内容的多媒体内容特征，调整所述特征提取模块和所述特征融合模块的参数。

可选的，所述方法还包括：

输出所述N个多媒体内容中每个多媒体内容的多媒体内容特征。

第二方面，本申请实施例提供了一种多媒体内容推荐装置，所述装置包括：

获取单元，用于获取待推送多媒体内容以及第一用户有过交互行为的N个多媒体内容，N为大于或者等于1的整数；

确定单元，用于基于所述N个多媒体内容的内容和所述待推送多媒体内容的内容，确定所述第一用户与所述待推送多媒体内容交互的可能性；

推荐单元，用于在所述第一用户与所述待推送多媒体内容交互的可能性符合预设条件时，为所述第一用户推荐所述待推送多媒体内容。

文本内容，图像内容以及音频内容。

所述特征融合模块，用于：

可选的，所述机器学习模型，通过如下方式训练得到：

可选的，所述装置还包括：

输出单元，用于输出所述N个多媒体内容中每个多媒体内容的多媒体内容特征。

第三方面，本申请实施例提供了一种设备，所述设备包括处理器和存储器；

所述处理器用于执行所述存储器中存储的指令，以使得所述设备执行如以上第一方面中任一项所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，包括指令，所述指令指示设备执行如以上第一方面中任一项所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行以上第一方面任一项所述的方法。

与现有技术相比，本申请实施例具有以下优点：

本申请实施例提供了一种多媒体内容推荐方法，在该方法中，可以获取待推送多媒体内容以及第一用户有过交互行为的N个多媒体内容，N为大于或者等于1的整数，而后，考虑到所述N个多媒体内容的内容，能够体现第一用户的偏好，因此，基于所述N个多媒体内容的内容和所述待推送多媒体内容的内容，可以确定所述待推送多媒体内容是否符合所述第一用户的偏好。因此，可以基于所述N个多媒体内容的内容和所述待推送多媒体内容的内容，确定所述第一用户与所述待推送多媒体内容交互的可能性。并且，在所述第一用户与所述待推送多媒体内容交互的可能性符合预设条件时，例如，在基于所述可能性确定第一用户与所述待推送多媒体内容交互的可能性较大时，为所述第一用户推荐所述待推送多媒体内容。由此可见，利用本方案，在为用户推荐多媒体内容时，结合了待推送多媒体内容的内容、以及用户历史有过交互行为的多媒体内容的内容。因此，利用本方案，用户与为用户推荐的多媒体内容交互的可能性较高，从而有效提升了为用户推荐多媒体内容的效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种多媒体内容推荐方法的流程示意图；

图2为本申请实施例提供的一个机器学习模型的结构示意图；

图3为本申请实施例提供的一种模型训练方法的流程示意图；

图4为本申请实施例提供的一种多媒体内容推荐装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的发明人经过研究发现，目前，为用户推荐多媒体内容时，可以结合多媒体内容的标识(identifier，ID)和用户的ID为用户推荐多媒体内容。但是，由于多媒体内容的ID所携带的语义是有限的，尤其是对于一个新多媒体内容而言，其ID所携带的语义更少。类似的，用户的ID所携带的语义也是有限的。因此，基于多媒体内容的ID和用户的ID为用户推荐多媒体内容，推荐效果并不是很好。

为了解决上述问题，本申请实施例提供了一种多媒体内容推荐方法及装置。

下面结合附图，详细说明本申请的各种非限制性实施方式。

示例性方法

参见图1，该图为本申请实施例提供的一种多媒体内容推荐方法的流程示意图。本申请实施例提供的多媒体内容推荐方法，可以由客户端执行，也可以由服务端执行，此处不做限定。在本实施例中，所述多媒体内容推荐方法例如可以包括以下步骤：S101-S103。

S101：获取待推送多媒体内容以及第一用户有过交互行为的N个多媒体内容，N为大于或者等于1的整数。

本申请实施例不具体限定所述多媒体内容，所述多媒体内容包括但不限于广告、音频、视频等。

在本申请实施例中，考虑到用户历史有过交互行为的多媒体内容，可以体现用户的偏好。因此，可以获取第一用户有过交互行为的N个多媒体内容，所述N个多媒体内容用于确定第一用户的偏好。本申请实施例不具体限定N的具体取值，N的具体取值可以根据实际情况确定，例如，所述N的值可以等于10。

在本申请实施例中，交互行为可以是浏览、点赞、收藏、评论或者购买等行为中的其中一项或者多项。

在一个示例中。考虑到用户的偏好可能会随着时间发生改变。因此，为了能够基于所述N个多媒体内容准确的确定出用户偏好，所述N个多媒体内容可以是第一用户最近有过交互行为的N个多媒体内容。

S102：基于所述N个多媒体内容的内容和所述待推送多媒体内容的内容，确定所述第一用户与所述待推送多媒体内容交互的可能性。

在一个示例中，考虑到对于用户而言，其与某一多媒体内容交互的原因是其对多媒体内容的内容感兴趣。因此，前述N个多媒体内容的内容，可以体现所述第一用户的偏好。而所述待推送多媒体内容的内容和用户偏好的匹配度，则可以体现第一用户与所述待推送多媒体内容交互的可能性。因此，可以基于所述N个多媒体内容的内容和所述待推送多媒体内容的内容，确定所述第一用户与所述待推送多媒体内容交互的可能性。

其中，第一用户与所述待推送多媒体内容交互，可以是第一用户浏览、点赞、收藏、评论或者购买所述待推送多媒体内容。

关于多媒体内容的内容以及待推送对媒体内容的内容，需要说明的是，在本申请实施例中，所述内容可以包括文本内容、图像内容以及音频内容中的其中一项或者多项。其中：

文本内容可以包括：多媒体内容的标题、对多媒体内容中的音频进行识别得到的结果、对多媒体内容视频的视频帧中的文字进行识别得到的结果等中的其中一项或者多项。其中，可以利用自动语音识别(Automatic Speech Recognition，ASR)技术对音频进行识别；可以利用光学字符识别技术(Optical Character Recognition，OSR)识别视频帧中的文字。

图像内容包括：多媒体内容视频的视频帧。

音频内容包括：多媒体内容视频中的音乐、多媒体内容视频中的伴奏以及多媒体内容视频中的人物语音等中的其中一项或者多项。

S102在具体实现时，可以基于所述N个多媒体内容的内容，得到所述N个多媒体内容的融合特征，并根据所述待推送多媒体内容的内容，得到所述待推送多媒体内容的多媒体内容特征，而后，根据所述融合特征和所述待推送多媒体内容的多媒体内容特征的相似度，确定所述第一用户与所述待推送多媒体内容交互的可能性。

在一个示例中，S102可以由预先训练得到的机器学习模型实现。关于所述机器学习模型的训练过程，可以参考下文的相关描述部分，此处不做详述。

在一个示例中，所述机器学习模型，可以包括特征融合模块、特征提取模块和相似度计算模块。其中：

所述特征融合模块，用于基于所述N个多媒体内容的内容，得到所述N个多媒体内容的融合特征。

作为一个示例中，所述特征融合模块可以基于所述N个多媒体内容的内容得到所述N个多媒体内容的多媒体内容特征，并进一步对所述N个多媒体内容的多媒体内容特征进行融合，从而得到所述融合特征。在一些实施例中，所述特征融合模块可以利用自注意力(self-attention)机制和全局均值池化(global average pooling)策略对所述N个多媒体内容的多媒体内容特征进行融合，从而得到所述融合特征。

作为又一个示例，可以由所述特征提取模块提取所述N个多媒体内容的多媒体内容特征，并由所述特征融合模块对所述特征提取模块输出的所述N个多媒体内容的多媒体内容特征进行融合，得到所述融合特征。其中，所述特征提取模块可以包括：

第一特征提取子模块、第二特征提取子模块和特征融合子模块，其中，第一特征提取子模块可以用于对内容中的非文本内容进行特征提取，第二特征提取子模块可以用于对内容中的文本内容进行特征提取，特征融合子模块用于对第一特征提取子模块输出的特征和第二特征提取子模块输出的特征进行融合，得到多媒体内容特征。

在一个示例中，所述第一特征提取子模块可以采用卷积神经网络(例如resnet)结构，第二特征提取子模块可以是一个bert模型，所述特征融合子模块可以采用跨模态注意力机制和模态均值两种策略对第一特征提取子模块输出的特征和第二特征提取子模块输出的特征进行融合。

所述特征提取模块，还可以基于所述待推送多媒体内容的内容，得到所述待推送多媒体内容的多媒体内容特征。关于特征提取模块提取待推送多媒体内容的多媒体内容特征的具体实现，可以参考上文对于特征提取模块的描述部分，此处不再详述。

所述相似度计算模块，用于计算所述融合特征和所述待推送多媒体内容的多媒体内容特征的相似度，从而得到所述第一用户与所述待推送多媒体内容交互的可能性。其中，所述相似度计算模块可以计算所述融合特征和所述待推送多媒体内容的多媒体内容特征的余弦相似度，并将计算得到的余弦相似度作为所述第一用户与所述待推送多媒体内容交互的可能性。

S103：在所述第一用户与所述待推送多媒体内容交互的可能性符合预设条件时，为所述第一用户推荐所述待推送多媒体内容。

在一个示例中，S103在具体实现时，可以在所述第一用户与所述待推送多媒体内容交互的可能性大于预设阈值(例如0.8)时，为所述第一用户推荐所述推送多媒体内容。其中，为所述第一用户推荐所述待推送多媒体内容，可以是在所述第一用户的客户端上播放所述待推送多媒体内容。

在又一个示例中，可以对多个待推送多媒体内容均执行S101-S102。对于这种情况，S103在具体实现时，可以将第一用户交互可能性最高的待推送多媒体内容推荐给所述第一用户。即：若所述第一用户与第一待推送多媒体内容交互(多个待推送多媒体内容中的其中一个待推送多媒体内容)的可能性，大于所述第一用户与所述多个待推送多媒体内容中其它待推送多媒体内容交互的可能性，则将第一待推送多媒体内容推送给所述第一用户。

在一个示例中，利用前述特征提取模块得到所述N个多媒体内容的多媒体内容特征之后，可以输出所述N个多媒体内容的多媒体内容特征，以便于将所述N个多媒体内容的多媒体内容特征应用在于多媒体内容处理相关的其它场景中。例如，可以将所述N个多媒体内容的多媒体内容特征应用在传统的多媒体内容投放点击率(Click-through Rate，CTR)预测模型中，又如，可以将所述N个多媒体内容的多媒体内容特征应用在传统的多媒体内容投放转化率(Conversion Rate，CVR)预测模型中。

由此可见，利用本方案，在为用户推荐多媒体内容时，结合了待推送多媒体内容的内容、以及用户历史有过交互行为的多媒体内容的内容。因此，利用本方案，用户与为用户推荐的多媒体内容交互的可能性较高，从而有效提升了为用户推荐多媒体内容的效果。

关于所述机器学习模型，先结合图2举例说明。图2为本申请实施例提供的一个机器学习模型的结构示意图。

如图2所示，所述机器学习模型200，可以包括特征提取模块210、特征融合模块220和相似度计算模块230。所述特征提取模块210，包括：第一特征提取子模块211、第二特征提取子模块212和特征融合子模块213。

获取待推送多媒体内容之后，可以由所述第一特征提取子模块211，对所述待推送多媒体内容的内容中的非文本内容进行特征提取，由所述第二特征提取子模块212，对所述待推送多媒体内容的内容中的文本内容进行特征提取，进一步地，由所述特征融合子模块213对所述第一特征提取子模块211的输出和所述第二特征提取子模块212的输出进行融合，得到所述待推送多媒体内容的多媒体内容特征。

类似的，利用所述特征提取模块210，可以得到所述N个多媒体内容的多媒体内容特征。得到所述N个多媒体内容的多媒体内容特征之后，所述特征融合模块220可以对所述N个多媒体内容的多媒体内容特征进行融合，得到融合特征。进一步地，由所述相似度计算模块230计算所述融合特征和所述待推送多媒体内容的多媒体内容特征的相似度，从而得到所述第一用户与所述待推送多媒体内容交互的可能性。

接下来，对所述机器学习模型的训练过程进行介绍。

参见图3，该图为本申请实施例提供的一种模型训练方法的流程示意图。在本实施例中，所述方法可以由客户端执行，也可以由服务器执行，本申请实施例不做具体限定。

图3所示的方法，例如可以包括以下步骤：S301-S302。

需要说明的是，模型训练的过程是一个多次迭代计算的过程，每一次迭代都可以对模型的参数进行调整，调整后的参数参与下一轮迭代计算。

图3以第一网络用户对应的多媒体内容(历史有过交互行为的多媒体内容以及并未有过交互行为的多媒体内容)为例，对该机器学习模型中的某一轮迭代过程进行介绍。可以理解的是，训练所述机器学习可以使用多个网络用户对应的多媒体内容，在训练所述机器学习模型时，每个网络用户对应的多媒体内容的处理方式类似。

S301：获取第一网络用户历史有过交互行为的M个多媒体内容以及所述第一网络用户并未有过交互行为的S个多媒体内容，M为大于2的整数，S为大于或者等于1的整数。

其中，所述第一网络用户并未有过交互行为的S个多媒体内容，可以包括推送给所述第一网络用户、但所述第一网络用户并未有过交互行为的多媒体内容，也可以包括并未推送给所述第一网络用户的多媒体内容，此处不做限定。

S302：基于所述M个多媒体内容以及所述S个多媒体内容，训练得到所述机器学习模型。

如上所述，所述机器学习模型，包括：特征提取模块、特征融合模块和相似度计算模块。在本申请实施例中，在所述模型计算的过程中，所述特征提取模块的参数和特征融合模块的参数得以更新，所述相似度计算模块的参数保持不变。

在模型训练的过程中：

可以利用所述特征提取模块，提取所述M个多媒体内容和所述S个多媒体内容的多媒体内容特征。其中，所述特征提取模块，用于基于所述M个多媒体内容的内容得到所述M个多媒体内容的多媒体内容特征，以及基于所述S个多媒体内容的内容得到所述S个多媒体内容的多媒体内容特征。关于所述特征提取模块，可以参考上文的相关描述部分，此处不再详述。

另外，可以利用所述特征融合模块计算所述M个多媒体内容中的N个多媒体内容的融合特征。其中，M大于N。关于所述特征融合模块，可以参考上文的相关描述部分，此处不再详述。

而后，基于所述融合特征、以及所述S个多媒体内容的多媒体内容特征以及所述M个多媒体内容中其它(M-N)个多媒体内容的多媒体内容特征，调整所述特征提取模块和所述特征融合模块的参数。

在一个示例中，可以基于所述融合特征和所述S个多媒体内容的多媒体内容特征，计算噪声压缩估计损失(Noise-Constrastive Estimation Loss，NCE loss)，可以基于所述融合特征以及所述M个多媒体内容中其它(M-N)个多媒体内容的多媒体内容特征计算二元交叉熵损失(binary Cross Entropy Loss，BCE loss)，而后，基于所述NCE loss和BCEloss，调整所述特征提取模块和所述特征融合模块的参数。在一个示例中，所述BCE loss可以基于所述融合特征以及所述(M-N)个多媒体内容中的若干个多媒体内容的多媒体内容特征计算得到。其中，所述若干个多媒体内容为推送给所述第一网络用户、但所述第一网络用户并未有过交互行为的多媒体内容。

示例性设备

基于以上实施例提供的方法，本申请实施例还提供了一种装置，以下结合附图介绍该装置。

参见图4，该图为本申请实施例提供的一种多媒体内容推荐装置的结构示意图。所述装置400例如可以具体包括：获取单元401、确定单元402和推荐单元403。

获取单元401，用于获取待推送多媒体内容以及第一用户有过交互行为的N个多媒体内容，N为大于或者等于1的整数；

确定单元402，用于基于所述N个多媒体内容的内容和所述待推送多媒体内容的内容，确定所述第一用户与所述待推送多媒体内容交互的可能性；

推荐单元403，用于在所述第一用户与所述待推送多媒体内容交互的可能性符合预设条件时，为所述第一用户推荐所述待推送多媒体内容。

文本内容，图像内容以及音频内容。

所述特征融合模块，用于：

可选的，所述机器学习模型，通过如下方式训练得到：

可选的，所述装置还包括：

由于所述装置400是与以上方法实施例提供的方法对应的装置，所述装置400的各个单元的具体实现，均与以上方法实施例为同一构思，因此，关于所述装置400的各个单元的具体实现，可以参考以上方法实施例的描述部分，此处不再赘述。

本申请实施例还提供了一种设备，所述设备包括处理器和存储器；

所述处理器用于执行所述存储器中存储的指令，以使得所述设备执行以上方法实施例提供的多媒体内容推荐方法。

本申请实施例提供了一种计算机可读存储介质，包括指令，所述指令指示设备执行以上方法实施例提供的多媒体内容推荐方法。

本申请实施例还提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行以上方法实施例提供的多媒体内容推荐方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种多媒体内容推荐方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述多媒体内容的内容，包括以下任意一项或者多项：

文本内容，图像内容以及音频内容。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述N个多媒体内容的内容和所述待推送多媒体内容的内容，确定所述第一用户与所述待推送多媒体内容交互的可能性，通过机器学习模型实现。

4.根据权利要求3所述的方法，其特征在于，所述机器学习模型，包括：特征融合模块、特征提取模块和相似度计算模块；

5.根据权利要求4所述的方法，其特征在于，所述特征提取模块，还用于基于所述N个多媒体内容中每个多媒体内容，得到所述N个多媒体内容中每个多媒体内容的多媒体内容特征；

所述特征融合模块，用于：

6.根据权利要求4所述的方法，其特征在于，所述特征提取模块包括：第一特征提取子模块、第二特征提取子模块和特征融合子模块；

7.根据权利要求4所述的方法，其特征在于，所述特征融合模块采用自注意力机制和全局池化策略。

8.根据权利要求3所述的方法，其特征在于，所述机器学习模型，通过如下方式训练得到：

9.根据权利要求8所述的方法，其特征在于，所述机器学习模型，包括：特征提取模块和特征融合模块；所述基于所述M个多媒体内容以及所述S个多媒体内容，训练得到所述机器学习模型，包括：

10.根据权利要求5所述的方法，其特征在于，所述方法还包括：

11.一种多媒体内容推荐装置，其特征在于，所述装置包括：

12.一种设备，其特征在于，所述设备包括处理器和存储器；

所述处理器用于执行所述存储器中存储的指令，以使得所述设备执行如权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，包括指令，所述指令指示设备执行如权利要求1至10中任一项所述的方法。