CN111897996A

CN111897996A - 话题标签推荐方法、装置、设备及存储介质

Info

Publication number: CN111897996A
Application number: CN202010797673.XA
Authority: CN
Inventors: 吴翔宇; 杨帆; 王思博
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-11-06
Anticipated expiration: 2040-08-10
Also published as: CN111897996B

Abstract

本公开关于一种话题标签推荐方法、装置、设备及存储介质，属于多媒体技术领域。本公开的实施例提供了一种基于视频在多个模态的特征来推荐话题标签的方法，通过视频中的图像以及视频生产者的用户特征，由机器自动化地生成话题标签，将话题标签推荐给用户。由于推荐的话题标签既与视频的内容匹配，又体现了视频生产者自身的信息，因此充分保证了话题标签与视频之间的匹配度，从而提高了话题标签的精确性，使得推荐的话题标签更加贴近用户意图。

Description

话题标签推荐方法、装置、设备及存储介质

技术领域

本公开涉及多媒体技术领域，尤其涉及一种话题标签推荐方法、装置、设备及存储介质。

背景技术

视频的话题标签(Hashtag)是用户在视频生产环节，在描述视频内容时打上的带“#”的文字信息。话题标签对于视频的内容识别、聚合、分发、推荐都发挥着重要的作用。

相关技术添加话题标签的过程包括：当用户拍摄视频后，点击发布页面中的话题选项。视频客户端会显示搜索框。用户想好与视频匹配的话题标签后，在搜索框中执行输入操作，输入想要添加的话题标签，再对输入的话题标签执行确认操作，从而在发布视频时添加输入的话题标签。

采用上述方式时，需要用户人工确定与视频匹配的话题标签，然而人工确定话题标签存在主观性，难以保证确定出的话题标签与视频之间的匹配性，导致话题标签的精确性差，进而影响了根据视频标签对视频进行内容识别、分发、推荐等过程的准确性。

发明内容

本公开提供一种话题标签推荐方法、装置、设备及存储介质，能够提高话题标签的精确性。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种话题标签推荐方法，包括:获取视频；

从所述视频中提取至少一帧图像；

根据上传所述视频的用户账号，获取所述用户账号对应的用户特征；

根据所述至少一帧图像以及所述用户特征，生成与所述视频匹配的话题标签；

向所述用户账号推荐所述话题标签。

可选地，所述根据所述至少一帧图像以及所述用户特征，生成与所述视频匹配的话题标签，包括：

对所述至少一帧图像分别进行特征提取，得到每帧图像的图像特征；

对所述至少一帧图像的图像特征与所述用户特征进行融合，得到融合特征；

根据所述融合特征，确定多个候选标签的概率；

根据每个候选标签的概率，在所述多个候选标签中确定所述话题标签。

可选地，所述对所述至少一帧图像的图像特征与所述用户特征进行融合，得到融合特征，包括：

通过多头注意力网络，对所述至少一帧图像的图像特征与所述用户特征分别进行自注意力运算，得到所述融合特征。

可选地，所述对所述至少一帧图像分别进行特征提取，得到每帧图像的图像特征，包括：

通过至少一个分类网络，并行对所述至少一帧图像卷积处理，输出每帧图像的图像特征。

可选地，所述根据上传所述视频的用户账号，获取所述用户账号对应的用户特征，包括：

获取所述用户账号对应的用户属性；

对所述用户属性进行线性映射以及非线性映射，得到所述用户特征。

获取所述用户账号对应的历史行为数据；

对所述历史行为数据进行线性映射以及非线性映射，得到所述用户特征。

可选地，所述获取视频之后，所述方法还包括：获取所述视频对应的地理位置信息；

所述根据所述至少一帧图像以及所述用户特征，生成与所述视频匹配的话题标签，包括：根据所述至少一帧图像、所述用户特征以及所述地理位置信息，生成与所述视频匹配的话题标签。

可选地，所述获取视频之后，所述方法还包括：获取所述视频对应的时间信息；

所述根据所述至少一帧图像以及所述用户特征，生成与所述视频匹配的话题标签，包括：根据所述至少一帧图像、所述用户特征以及所述时间信息，生成与所述视频匹配的话题标签。

根据本公开实施例的第二方面，提供一种话题标签推荐装置，包括：

第一获取单元，被配置为执行获取视频；

提取单元，被配置为执行从所述视频中提取至少一帧图像；

第二获取单元，被配置为执行根据上传所述视频的用户账号，获取所述用户账号对应的用户特征；

生成单元，被配置为执行根据所述至少一帧图像以及所述用户特征，生成与所述视频匹配的话题标签；

推荐单元，被配置为执行向所述用户账号推荐所述话题标签。

可选地，所述生成单元，被配置为执行对所述至少一帧图像分别进行特征提取，得到每帧图像的图像特征；对所述至少一帧图像的图像特征与所述用户特征进行融合，得到融合特征；根据所述融合特征，确定多个候选标签的概率；根据每个候选标签的概率，在所述多个候选标签中确定所述话题标签。

可选地，所述生成单元，被配置为执行通过多头注意力网络，对所述至少一帧图像的图像特征与所述用户特征分别进行自注意力运算，得到所述融合特征。

可选地，所述生成单元，被配置为执行通过至少一个分类网络，并行对所述至少一帧图像卷积处理，输出每帧图像的图像特征。

可选地，所述第二获取单元，被配置为执行获取所述用户账号对应的用户属性；对所述用户属性进行线性映射以及非线性映射，得到所述用户特征。

可选地，所述第二获取单元，被配置为执行获取所述用户账号对应的历史行为数据；对所述历史行为数据进行线性映射以及非线性映射，得到所述用户特征。

可选地，所述装置还包括：第三获取单元，被配置为执行获取所述视频对应的地理位置信息；

所述生成单元，被配置为执行根据所述至少一帧图像、所述用户特征以及所述地理位置信息，生成与所述视频匹配的话题标签。

可选地，所述装置还包括：第四获取单元，被配置为执行获取所述视频对应的时间信息；

所述生成单元，被配置为执行根据所述至少一帧图像、所述用户特征以及所述时间信息，生成与所述视频匹配的话题标签。

根据本公开实施例的第三方面，提供一种电子设备，包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行所述程序代码，以实现上述话题标签推荐方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的程序代码由电子设备的处理器执行时，使得所述电子设备能够执行上述话题标签推荐方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括一条或多条程序代码，所述一条或多条程序代码由电子设备的处理器执行时，使得所述电子设备能够执行上述话题标签推荐方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开的实施例提供了一种基于视频在多个模态的特征来推荐话题标签的方法，通过视频中的图像以及视频生产者的用户特征，由机器自动化地生成话题标签，将话题标签推荐给用户。一方面，由于生成话题标签时利用了视频在图像模态的特征，使得机器依据图像模态的特征能够从视觉的角度理解视频的内容，从而保证话题标签与视频的内容匹配。另一方面，由于生成话题标签时利用了视频在用户模态的特征，使得机器能够依据用户模态的特征学习到视频生产者自身的信息，从而保证话题标签体现视频生产者自身的信息。由于推荐的话题标签既与视频的内容匹配，又体现了视频生产者自身的信息，因此充分保证了话题标签与视频之间的匹配度，从而提高了话题标签的精确性，使得推荐的话题标签更加贴近用户意图，进而有助于提高根据视频标签对视频进行内容识别、视频分发、视频推荐等过程的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种话题标签推荐方法的实施环境的架构图；

图2是根据一示例性实施例示出的一种用于话题标签推荐的多模态模型的结构图；

图3是根据一示例性实施例示出的一种话题标签推荐方法的流程图；

图4是根据一示例性实施例示出的一种话题标签推荐方法的流程图；

图5是根据一示例性实施例示出的一种话题标签推荐装置的框图；

图6是根据一示例性实施例示出的一种终端的框图；

图7是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本申请实施例提供的话题标签推荐方法能够应用在用户发布作品时添加话题标签的场景。例如，当用户拍摄了短视频，要在平台上发布短视频时，服务器通过本实施例提供的话题标签推荐方法，能够自动为短视频生成匹配的话题标签，将话题标签下发至发布页面，从而为用户提供选择话题标签的功能。下面，先对话题标签以及相关的场景进行简单的介绍。

话题标签(HashTag)是对视频的一种文本描述。例如，话题标签是用户在视频生产环节，在描述视频内容时打上的带“#”的文字信息。例如，话题标签是“#舞蹈”、“#搞笑”等。在发布短视频的场景下，由于平台会基于短视频关联的话题标签对短视频进行内容聚合以及内容分发，因此，准确的话题标签对于短视频的理解、聚合、分发都发挥着显著的正向作用。

话题标签生成过程包括两种可能的实现方式。

在一种可能的实现方式中，通过用户主动键入得到短视频话题标签。这种方式能表示反映用户的真实意图，但是由于这种方式需要用户自己人工确定话题标签，难度较大，因此存在用户主动性不高的问题。经过在平台短视频中抽样，发现含有话题标签的短视频约占15％。由此可见，当前被打上话题标签的作品量占比较少，话题标签的曝光量不足，话题标签的使用量不足，影响了话题标签服务的利用率，造成话题标签对于内容运营的优势不足以最大化。

在另一种可能的实现方式中，通过从视频中提取图像帧，利用图像帧进行视觉理解，进而实现视频内容的理解，根据理解的视频内容得到短视频话题标签。这种方式对视频内容理解的时效性和准确性都有较高的要求。

有鉴于以上描述的话题标签技术存在的需求，本申请的一些实施例提供了一种基于多模态学习的话题标签推荐技术，在利用图像进行视觉理解的基础上，在线地维护一组用户特征，并通过多模态模型利用图像特征以及用户特征进行训练与推理，从而下发更贴近作者真实意图的话题标签。一方面，给用户提供了由手动键入话题标签到选择话题标签的便利。另一方面，也能较为直接地提高话题标签的曝光量和使用量。

图1是根据一示例性实施例示出的一种话题标签推荐方法的实施环境的架构图。该实施环境包括：终端101和视频发布平台110。

终端101通过无线网络或有线网络与视频发布平台110相连。终端101可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture ExpertsGrou p Audio Layer III，动态影像专家压缩标准音频层面3)播放器或MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。终端101安装和运行有支持发布视频的应用程序。该应用程序可以是直播应用、多媒体应用、短视频应用等。示例性的，终端101是用户使用的终端，终端101中运行的应用程序内登录有用户账号。

终端101通过无线网络或有线网络与视频发布平台110相连。

视频发布平台110包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。视频发布平台110用于为支持视频发布、话题标签添加或播放视频功能的应用程序提供后台服务。可选地，在执行下述方法实施例过程中，视频发布平台110和终端101可以协同工作。例如，视频发布平台110承担主要工作，终端101承担次要工作；或者，视频发布平台110承担次要工作，终端101承担主要工作；或者，视频发布平台110或终端101分别可以单独承担工作。

可选地，视频发布平台110包括：接入服务器、业务服务器1101和数据库1102。接入服务器用于为终端101提供接入服务。业务服务器1101用于提供推荐话题标签有关的后台服务，例如训练多模态模型、提取用户特征、采集样本视频等等。业务服务器1101可以是一台或多台。当业务服务器1101是多台时，存在至少两台业务服务器1101用于提供不同的服务，和/或，存在至少两台业务服务器1101用于提供相同的服务，比如以负载均衡方式提供同一种服务，本公开实施例对此不加以限定。数据库1102可以用于存储视频、样本视频或者下述方法实施例涉及的其他数据等，当需要时，数据库1102可以将存储的数据提供给终端101以及业务服务器1101。

终端101可以泛指多个终端中的一个，本实施例仅以终端101来举例说明。

本领域技术人员可以知晓，终端101的数量可以更多或更少。比如终端101可以仅为一个，或者终端101为几十个或几百个，或者更多数量，此时上述实施环境还包括其他终端。本公开实施例对终端的数量和设备类型不加以限定。

下面对本实施例涉及的面向话题标签推荐任务的模型进行介绍。

请参考附图2，附图2示出了实现话题标签推荐功能的模型的架构图。附图2中的多模态模型200用于执行话题标签推荐任务。多模态模型200例如是机器学习模型。多模态模型200例如是深度学习模型。多模态模型200会提取视频在多个模态的特征，根据多个模态的特征生成与视频匹配的话题标签。模态是指数据的来源或者形式，同一数据的不同模态可以从不同方面来描述数据的特征。视频的模态包括而不限于视频中的图像、视频的用户(如生产者或消费者)、地理位置、时间、音频、文本、语义中的至少一项。

多模态模型200的输入参数包括至少一帧图像、用户特征以及其他特征。

至少一帧图像例如包括从视频中提取的两帧图像。每一帧图像也称一路图像输入。

例如，请参考附图2，附图2中的图像1(image#1)、图像2(image#2)、图像n(image#n)是对输入参数中的多帧图像的举例说明。省略号(…)表示附图2未示出而还可作为输入参数的其他图像。本实施例对多模态模型200支持输入多少帧图像不做限定。例如，根据算力的需求或者时延的需求，配置多模态模型200输入的图像数量。

用户特征(user-feature)是视频的生产者的特征，例如用户特征是视频的作者的特征。用户特征例如是特征向量。用户特征例如包括多个维度。用户特征包括而不限于用户属性特征或者用户行为特征中的至少一项。用户属性包括而不限于用户的年龄、身高、民族、性别、职业、颜值中的至少一项。用户行为特征用于描述用户的历史行为。用户行为特征包括而不限于用户对视频的生产行为特征或用户对视频的消费行为特征中的至少一项。在一些实施例中，通过用户分析部门根据用户的生产行为与消费行为生成64维特征，作为用户特征。

其他特征(other feature)是指视频在图像和用户之外的其他模态的特征。其他特征包括而不限于地理位置信息、时间信息中的至少一项。例如，地理位置信息用于指示拍摄视频的地理位置。例如，地理位置信息用于指示用户发布视频时的所在地。例如，地理位置信息用于指示用户输入的地点。例如，时间信息用于指示拍摄视频的时间。例如，时间信息是用户发布视频时的时间段。通过向多模态模型200中输入其他特征以及在多模态模型200中设置处理其他特征的模块，使得多模态模型200适用于更多模态特征的处理，可扩展性更强，灵活性更高。

多模态模型200包括至少一个图像处理模块(image model)、至少一个特征处理模块、特征融合层(feature fusion layer)以及全连接层(full connect layer)。

图像处理模块用于对图像进行特征提取。每个图像处理模块的输入参数包括一帧图像。每个图像处理模块的输出参数包括输入图像的图像特征。每个图像处理模块输出的图像特征会输入至特征融合层。例如，参见附图2，至少一个图像处理模块包括图像处理模块211、图像处理模块212以及图像处理模块213。图像处理模块211用于对图像1特征提取，图像处理模块212用于对图像2特征提取，图像处理模块213用于对图像n特征提取。至少一个图像处理模块均与特征融合层相连。

在一些实施例中，图像处理模块为分类网络。分类网络用于提取图像特征并根据图像特征进行分类。在一些实施例中，分类网络包括至少一个卷积层以及池化层。分类网络中的卷积层用于提取图像特征。具体地，分类网络中第一个卷积层用于对输入的图像进行卷积处理，得到特征图，将特征图输出至第二个卷积层。第二个卷积层用于对第一个卷积层输出的特征图进行卷积处理，得到特征图，将特征图输出至第三个卷积层。依次类推，第一个卷积层之外的每个卷积层对前一个卷积层输出的特征图进行卷积处理，将得到的特征图输出至下一个卷积层。最后一个卷积层用于进行卷积处理，得到特征图，将特征图输出至池化层。池化层用于对特征图进行池化处理，输出图像特征。

在一些实施例中，分类网络为ResNet-50网络。ResNet-50网络为一种用于图像分类的神经网络，具体是一种残差网络(Residual Network，ResNet)。ResNet-50网络对输入的图像进行了包括50次卷积操作在内的一系列神经网络运算，输出512维的图像特征。参见下表1，表1是对ResNet-50网络的架构以及各层执行的操作的举例说明。

表1

表1所示的ResNet-50网络包括卷积层Conv1、卷积层Conv2_x、卷积层Conv3_x、卷积层Conv4_x、卷积层Conv5_x和池化层Pooling。

卷积层Conv1输出的特征图大小为112x112。卷积层Conv1对应的“7x7，64，stride2”中，7x7的含义是卷积层Conv1中每个卷积核的大小为7x7；64的含义是卷积层Conv1包括64个卷积核；stride 2的含义是卷积层Conv1卷积操作的步长(stride)为2。

卷积层Conv2_x输出的特征图大小为56x56。卷积层Conv2_x还用于执行最大值池化(max pool)，最大值池化的窗口大小为3*3。

卷积层Conv2_x对应的

中，

的含义是卷积层Conv2_x包含64个大小为1x1的卷积核、64个大小为3x3的卷积核以及256个大小为1x1的卷积核。“X3”中3指代卷积操作的次数，“X3”的含义是卷积层Conv2_x的一组卷积序列重复执行3次。

卷积层Conv3_x输出的特征图大小为28x28。卷积层Conv3_x对应的

中，

的含义是卷积层Conv3_x包含128个大小为1x1的卷积核、128个大小为3x3的卷积核以及512个大小为1x1的卷积核。“X4”中4指代卷积操作的次数，“X4”的含义是卷积层Conv3_x的一组卷积序列重复执行4次。

卷积层Conv4_x输出的特征图大小为14x14。卷积层Conv4_x对应的

中，

的含义是卷积层Conv4_x包含256个大小为1x1的卷积核、256个大小为3x3的卷积核以及1024个大小为1x1的卷积核。“X6”中6指代卷积操作的次数，“X6”的含义是卷积层Conv4_x的一组卷积序列重复执行6次。

卷积层Conv5_x输出的特征图大小为7x7。卷积层Conv5_x对应的

中，

的含义是卷积层Conv5_x包含512个大小为1x1的卷积核、512个大小为3x3的卷积核以及2048个大小为1x1的卷积核。“X3”中3指代卷积操作的次数，“X3”的含义是卷积层Conv5_x的一组卷积序列重复执行3次。

池化层Pooling输出512维的图像特征。

至少一个特征护理模块用于对特征进行处理。至少一个特征护理模块均与特征融合层相连。例如，参见附图2，至少一个特征处理模块包括特征处理模块214以及特征处理模块215。

特征处理模块214用于对用户特征进行线性映射以及非线性映射，从而将用户特征从低维特征映射为高维特征。特征处理模块214的输入参数包括用户特征。特征处理模块214的输出参数包括映射后的用户特征。映射后的用户特征和图像特征的维度数量例如是相等的。特征处理模块214输出的映射后的用户特征会输入至特征融合层。

特征处理模块215用于对其他特征进行线性映射以及非线性映射，从而将其他特征从低维特征映射为高维特征。特征处理模块215的输入参数包括其他特征。特征处理模块215的输出参数包括映射后的其他特征。映射后的其他特征和图像特征的维度数量例如是相等的。特征处理模块215输出的映射后的其他特征会输入至特征融合层。

在一些实施例中，特征处理模块为多层感知器(Multilayer Perceptron，MLP)，特征处理模块为多层神经网络。例如，特征处理模块为全连接神经网络，特征处理模块用于对用户特征进行至少一次全连接操作，将处理后的用户特征输出至特征融合层。例如，参见下表2，特征处理模块包括三个全连接层，每个全连接层用于进行一次全连接操作，特征处理模块对输入的用户特征执行三次全连接操作，得到512维的用户特征。具体地，特征处理模块包括全连接层FullConnect_1、全连接层FullConnect_2和全连接层FullConnect_3。其中，全连接层FullConnect_1对用户特征进行全连接操作后，输出128维的特征向量。全连接层FullConnect_2对128维的特征向量进行全连接操作后，输出256维的特征向量。全连接层FullConnect_3对256维的特征向量进行全连接操作后，输出512维的特征向量。

表2

层名称(Layer Name)	输出大小(Output Size)
		FullConnect_1	128
FullConnect_2	256
		FullConnect_3	512

特征融合层用于对至少一帧图像的图像特征与用户特征进行融合，得到融合特征。特征融合层的输入参数包括至少一帧图像中每帧图像的图像特征以及用户特征。特征融合层的输出参数包括融合特征。特征融合层与全连接层相连。特征融合层输出的融合特征会输入至全连接层。例如，参见附图2，附图2中的特征融合层220是对多模态模型中特征融合层的举例说明。特征融合层220对图像1的图像特征、图像2的图像特征以及用户特征进行融合，输出一个2048维的特征向量。在一些实施例中，特征融合层220为多头注意力(multi-head attention)网络。多头注意力网络包含h个注意力模块，h为大于1的正整数。每一个注意力模块用于进行自注意力运算。每一个注意力模块包括查询权重矩阵、键权重矩阵、值权重矩阵。每一个注意力模块均可以实现自注意力机制。多头注意力网络用于通过多头注意力机制进行特征融合。

由于利用多头注意力机制进行特征融合，使得多模态模型能够关注不同方面的信息，因此多模态模型能够学习到更丰富的特征。经过实验证明，使用多头注意力机制对图像特征以及用户特征进行特征融合，比简单使用特征拼接的方式进行特征融合而言，在训练集上获得了1个百分点的增益。

全连接层用于根据特征融合层输出的融合特征进行分类。在本实施例中，预测话题标签的任务可以理解为n分类的任务，预测话题标签例如是预测每个候选标签与视频匹配的概率。每个类别为一个候选标签。具体地，全连接层用于根据融合特征确定多个候选标签的概率。全连接层的输入参数包括融合特征。全连接层的输出参数包括多个候选标签中每个候选标签的概率。全连接层的输出参数的维度数量例如和候选标签的数量相等。例如，参见附图2，附图2中的全连接层230是对多模态模型中全连接层的举例说明。在一些实施例中，全连接层的输出参数为Logits。Logits是指未归一化的概率。可选地，多模态模型200还包括归一化指数(Softmax)层。Softmax层与全连接层相连，Softmax层用于对全连接层的输出进行Softmax操作。Softmax操作的结果为0至1之间的实数，Softmax操作的结果可以理解为概率。

多模态模型200根据多个样本视频以及每个样本视频匹配的话题标签训练得到。例如，在根据多个样本视频中的样本视频A进行训练时，从样本视频A中提取至少一帧图像、确定上传样本视频A的用户账号对应的用户特征，并从话题标签库中确定样本视频A匹配的话题标签，将样本视频A的图像、用户特征和话题标签作为多模态模型200的输入进行训练。

在一些实施例中，在模型训练阶段，向多模态模型200输入的图像是样本视频中等间隔抽取的两帧图像。向多模态模型200输入的用户特征来自于用户分析部门根据用户的生产行为与消费行为产出的64维特征。

当得到多模态模型200中全连接层的输出结果(例如Logits)后，对全连接层的输出结果进行Softmax操作。根据Softmax操作的结果以及样本视频匹配的话题标签，利用交叉熵损失(cross entropy loss)函数计算损失值。根据损失值，通过反向传播以及梯度更新，调整多模态模型200的参数，使得多模态模型200通过样本视频得到了学习。

在一些实施例中，在模型预测阶段，通过多模态模型200执行分类以实现话题标签的推荐。例如，对话题标签库(HashTag词库)进行清洗，将清洗后的话题标签库中每个话题标签作为多模态模型200要识别的一个类别。例如，将短视频中抽取的两帧以及64维的用户特征，输入多模态模型200，确定Softmax操作输出的每个类别(即每个候选标签)的概率。对每个类别按照概率的大小进行排序，确定概率排在前10个的类别，将概率排在前10个的类别对应的话题标签作为要推荐的话题标签，下发至用户的编辑界面。具体如何应用多模态模型200预测话题标签请参考下述附图3或附图4所示实施例。此外，清洗后的话题标签库包括数万个话题标签，涵盖了日常生活中的绝大多数场景，因此通过多模态模型200进行分类，能够满足为多种场景找到匹配话题标签的需求。

图3是根据一示例性实施例示出的一种话题标签推荐方法的流程图，如图3所示，话题标签推荐方法用于电子设备中，包括以下步骤。

在步骤S32中，电子设备获取视频。

在一些实施例中，视频是短视频。

在步骤S34中，电子设备从视频中提取至少一帧图像。

在步骤S36中，电子设备根据上传视频的用户账号，获取用户账号对应的用户特征。

需要说明的一点是，本实施例对步骤S34与步骤S36的先后顺序不做限定。在一些实施例中，步骤S34与步骤S36可以顺序执行。例如，可以先执行步骤S34，再执行步骤S36；也可以先执行步骤S36，再执行步骤S34。在另一些实施例中，步骤S34与步骤S36也可以并行执行，即，可以同时执行步骤S34以及步骤S36。

在步骤S38中，电子设备根据至少一帧图像以及用户特征，生成与视频匹配的话题标签。

在步骤S39中，电子设备向用户账号推荐话题标签。

本实施例提供了一种基于视频在多个模态的特征来推荐话题标签的方法，通过视频中的图像以及视频生产者的用户特征，由机器自动化地生成话题标签，将话题标签推荐给用户。一方面，由于生成话题标签时利用了视频在图像模态的特征，使得机器依据图像模态的特征能够从视觉的角度理解视频的内容，从而保证话题标签与视频的内容匹配。另一方面，由于生成话题标签时利用了视频在用户模态的特征，使得机器能够依据用户模态的特征学习到视频生产者自身的信息，从而保证话题标签体现视频生产者自身的信息。由于推荐的话题标签既与视频的内容匹配，又体现了视频生产者自身的信息，因此充分保证了话题标签与视频之间的匹配度，从而提高了话题标签的精确性，使得推荐的话题标签更加贴近用户意图，进而有助于提高根据视频标签对视频进行内容识别、视频分发、视频推荐等过程的准确性。

图4是根据一示例性实施例示出的一种话题标签推荐方法的流程图，如图4所示，话题标签推荐方法的交互主体包括终端以及服务器，包括以下步骤。

在步骤S401中，终端向服务器发送话题标签推荐请求。

话题标签推荐请求用于请求服务器推荐与视频匹配的话题标签。例如，终端显示视频发布界面，视频发布界面包括话题选项。用户对话题选项触发点击操作。终端响应于点击操作，生成话题标签推荐请求，向服务器发送话题标签推荐请求。

在步骤S402中，服务器获取视频。

视频例如由终端拍摄。在一些实施例中，终端在发送话题标签推荐请求时，将待发布的视频一起发送给服务器，服务器接收终端发送的视频，从而得到视频。在另一些实施例中，服务器确定终端登录的用户账号，获取用户账号历史发布的视频。

在步骤S403中，服务器从视频中提取至少一帧图像。

具体从视频中提取哪些帧图像以生成话题标签包括多种情况。在一些实施例中，从视频中提取的图像包括视频中的等间隔的多帧图像。在一些实施例中，从视频中提取的图像包括视频中的关键帧。在一些实施例中，从视频中提取的图像包括视频封面。在一些实施例中，从视频中提取的图像包括视频首帧。

在步骤S404中，服务器根据上传视频的用户账号，获取用户账号对应的用户特征。

在一些实施例中，用户特征是由用户属性映射得到的。例如，服务器获取用户账号对应的用户属性；服务器对用户属性进行线性映射以及非线性映射，得到用户特征。线性映射的方式例如包括与权重矩阵相乘的步骤以及与偏置相加的步骤。非线性映射包括而不限于求最大值、通过激活函数等。

由于用户特征是由用户属性映射得到的，用户特征能够表达用户在属性方面相关的信息。因此，在根据用户特征生成话题标签时，机器根据用户特征能够学习到用户在属性方面的信息，使得生成的话题标签体现出用户在属性方面的信息。因此，相对于单纯依赖图像生成话题标签的方式而言，利用图像以及用户属性生成的话题标签会更加精细化，保证下发给用户的话题标签会更加贴近用户意图。例如，需要推荐话题标签的视频是女性跳舞视频。如果使用纯视觉方案(即只根据图像不根据用户特征)为女性跳舞视频生成话题标签，生成的话题标签会是“舞蹈”，“民族舞蹈”等较泛化的标签。而在图像的基础上叠加用户属性映射的用户特征后，模型能够根据用户在民族维度的属性学习到用户的民族相关信息，从而给出“傣族舞蹈”等精细化的推荐标签，显然给出的标签更贴近用户的意图。

在一些实施例中，用户特征是根据用户的历史行为确定的。例如，服务器获取用户账号对应的历史行为数据；服务器对历史行为数据进行线性映射以及非线性映射，得到用户特征。

由于用户特征是由历史行为数据映射得到的，用户特征能够表达用户在历史行为方面相关的信息，或者说用户的习惯。因此，在根据用户特征生成话题标签时，机器根据用户特征能够学习到用户在历史行为方面的信息，使得生成的话题标签体现出用户在历史行为方面的信息。因此，相对于单纯依赖图像生成话题标签的方式而言，利用图像以及历史行为数据生成的话题标签会更加精细化，保证下发给用户的话题标签会更加贴近用户意图。

在步骤S405中，服务器根据至少一帧图像以及用户特征，生成与视频匹配的话题标签。

在一些实施例中，话题标签是基于多模态模型200生成的。例如，服务器将至少一帧图像以及用户特征输入多模态模型200，通过多模态模型200对至少一帧图像以及用户特征进行处理，输出话题标签。

在一些实施例中，话题标签的生成过程包括以下步骤(1)至步骤(4)。例如，以下步骤(1)至步骤(4)中一个或多个步骤由多模态模型200中相应的模块执行。

在步骤(1)中，服务器对至少一帧图像分别进行特征提取，得到每帧图像的图像特征。

在一些实施例中，对图像特征提取的过程是通过多模态模型200中图像处理模块实现的。例如，服务器将至少一帧图像分别输入至少一个图像处理模块，通过至少一个图像处理模块对至少一帧图像分别进行特征提取，得到每帧图像的图像特征。

在图像处理模块为分类网络的情况下，在一些实施例中，服务器通过至少一个分类网络，并行对至少一帧图像卷积处理，输出每帧图像的图像特征。其中，并行卷积处理例如是多个分类网络同时进行卷积处理。例如，服务器在通过分类网络1对图像1卷积处理的同时，通过分类网络2对图像2卷积处理。

通过使用至少一个分类网络并行卷积处理，使得多路图像的特征提取过程得以并行化，因此加速了视频在图像模态整体的特征提取过程，有助于提高预测话题标签的效率。

在步骤(2)中，服务器对至少一帧图像的图像特征与用户特征进行融合，得到融合特征。

在一些实施例中，特征融合的过程是通过多模态模型200中特征融合层实现的。具体地，服务器对至少一帧图像的图像特征与用户特征输入至特征融合层，通过特征融合层对对至少一帧图像的图像特征与用户特征进行融合，得到融合特征。

在特征融合层为多头注意力网络的情况下，在一些实施例中，服务器通过多头注意力网络，对至少一帧图像的图像特征与用户特征分别进行自注意力运算，得到融合特征。例如，将至少一帧图像的图像特征与用户特征分别输入多头注意力网络对应的注意力模块，通过多个注意力模块并行对至少一帧图像的图像特征与用户特征进行自注意力运算。

在步骤(3)中，服务器根据融合特征，确定多个候选标签的概率。

候选标签的概率用于指示候选标签是与视频匹配的话题标签的可能性。候选标签的概率越高，表示候选标签是与视频匹配的话题标签的可能性越大。概率确定过程例如通过多模态模型200中全连接层以及Softmax操作实现。例如，服务器将融合特征输入至全连接层，通过全连接层对融合特征进行映射，再通过Softmax函数对全连接层的输出进行运算，得到多个候选标签的概率。

在步骤(4)中，服务器根据每个候选标签的概率，在多个候选标签中确定话题标签。

例如，服务器根据每个候选标签的概率，对多个候选标签按照概率从大到小的顺序排序，从多个候选标签中选择概率排在前预设位数的候选标签，将概率排在前预设位数的每个候选标签作为要推荐的话题标签。其中，预设位数例如是10个。例如，服务器从多个候选标签中选择概率最大的候选标签，将概率最大的候选标签作为要推荐的话题标签。

通过以上步骤(1)至步骤(4)，由于将视频中多帧图像的图像特征与用户特征融合，使得融合特征不仅包含视频在视觉方面的特征，还包含用户特征。因此融合特征不仅表达视频的内容，还表达视频的生产者信息，显然融合特征的表达能力更强，因此利用融合特征能够更精准地预测出每个候选标签的概率，从而保证在候选标签中确定的话题标签更精确，使得推荐的话题标签更加贴近用户意图。

在一些实施例中，服务器还使用地理位置模态预测话题标签。例如，服务器获取视频对应的地理位置信息；服务器根据至少一帧图像、用户特征以及地理位置信息，生成与视频匹配的话题标签。例如，参见附图2，服务器将地理位置信息作为其他特征，输入至多模态模型200。服务器通过多模态模型200中特征处理模块215对地理位置信息进行处理，输出地理位置特征。服务器对至少一帧图像的图像特征、用户特征以及地理位置特征输入至特征融合层，通过特征融合层对至少一帧图像的图像特征、用户特征以及地理位置特征进行融合，得到融合特征。

通过这种方式，由于在生成话题标签时不仅利用了视频在图像模态的特征以及视频在用户模态的特征，还利用了视频在地理位置模态的特征，从而保证生成的话题标签体现出视频对应的地理位置，因此提高了推荐的话题标签与视频之间的匹配度，保证推荐的话题标签更精细化，推荐的话题标签更加贴近用户意图。

在一些实施例中，服务器还使用时间模态预测话题标签。例如，服务器获取视频对应的时间信息；服务器根据至少一帧图像、用户特征以及时间信息，生成与视频匹配的话题标签。例如，参见附图2，服务器将时间信息作为其他特征，输入至多模态模型200。服务器通过多模态模型200中特征处理模块215对时间信息进行处理，输出时间特征。服务器对至少一帧图像的图像特征、用户特征以及时间特征输入至特征融合层，通过特征融合层对至少一帧图像的图像特征、用户特征以及时间特征进行融合，得到融合特征。

通过这种方式，由于在生成话题标签时不仅利用了视频在图像模态的特征以及视频在用户模态的特征，还利用了视频在时间模态的特征，从而保证生成的话题标签体现出视频对应的时间，因此提高了推荐的话题标签与视频之间的匹配度，保证推荐的话题标签更精细化，推荐的话题标签更加贴近用户意图。

在步骤S406中，服务器向用户账号推荐话题标签。

在步骤S407中，终端显示话题标签。

具体地，服务器向登录有用户账号的终端发送话题标签。终端接收话题标签，在话题标签的添加界面中显示话题标签。例如，添加界面包括搜索框，终端在搜索框中显示话题标签。用户对终端显示的话题标签触发确认操作。终端向服务器发送话题标签添加请求。服务器响应于话题标签添加请求，向视频添加话题标签。

在服务器生成多个话题标签的情况下，在一些实施例中，终端显示多个话题标签中的每个话题标签。例如，终端显示多个选项，每个选项包括一个话题标签。用户对多个选项中的目标选项触发确认操作。终端响应于确认操作，确定目标选项中的目标话题标签，将目标话题标签携带在话题标签添加请求，向服务器发送话题标签添加请求。服务器响应于话题标签添加请求，从话题标签添加请求中获得目标话题标签，向视频添加目标话题标签。通过这种方式，不仅为用户下发了推荐的话题标签，还提供了话题标签的选择功能，用户能够从推荐的多个话题标签中选择偏好的话题标签，扩展了添加话题标签服务的功能，更能增加话题标签的使用量。

本实施例提供了一种基于视频在多个模态的特征来推荐话题标签的方法，通过视频中的图像以及视频生产者的用户特征，由机器自动化地生成话题标签，将话题标签推荐给用户。一方面，由于生成话题标签时利用了视频在图像模态的特征，使得机器能够依据图像模态的特征从视觉的角度理解视频的内容，从而保证话题标签与视频的内容匹配。另一方面，由于生成话题标签时利用了视频在用户模态的特征，使得机器能够依据用户模态的特征学习到视频生产者自身的信息，从而保证话题标签体现视频生产者自身的信息。由于推荐的话题标签既与视频的内容匹配，又体现了视频生产者自身的信息，因此提高了推荐的话题标签与视频之间的匹配度，保证推荐的话题标签更精细化，推荐的话题标签更加贴近用户意图，从而有助于提高根据视频标签对视频进行内容识别、分发、推荐等过程的准确性。

附图5是根据一示例性实施例示出的一种话题标签推荐装置的框图。参照附图5，该装置包括第一获取单元501、提取单元502、第二获取单元503、生成单元504和推荐单元505。

第一获取单元501，被配置为执行获取视频；

提取单元502，被配置为执行从视频中提取至少一帧图像；

第二获取单元503，被配置为执行根据上传视频的用户账号，获取用户账号对应的用户特征；

生成单元504，被配置为执行根据至少一帧图像以及用户特征，生成与视频匹配的话题标签；

推荐单元505，被配置为执行向用户账号推荐话题标签。

本实施例提供了一种基于视频在多个模态的特征来推荐话题标签的装置，通过视频中的图像以及视频生产者的用户特征，由机器自动化地生成话题标签，将话题标签推荐给用户。一方面，由于生成话题标签时利用了视频在图像模态的特征，使得机器依据图像模态的特征能够从视觉的角度理解视频的内容，从而保证话题标签与视频的内容匹配。另一方面，由于生成话题标签时利用了视频在用户模态的特征，使得机器能够依据用户模态的特征学习到视频生产者自身的信息，从而保证话题标签体现视频生产者自身的信息。由于推荐的话题标签既与视频的内容匹配，又体现了视频生产者自身的信息，因此充分保证了话题标签与视频之间的匹配度，从而提高了话题标签的精确性，使得推荐的话题标签更加贴近用户意图，进而有助于提高根据视频标签对视频进行内容识别、视频分发、视频推荐等过程的准确性。

可选地，生成单元504，被配置为执行对至少一帧图像分别进行特征提取，得到每帧图像的图像特征；对至少一帧图像的图像特征与用户特征进行融合，得到融合特征；根据融合特征，确定多个候选标签的概率；根据每个候选标签的概率，在多个候选标签中确定话题标签。

可选地，生成单元504，被配置为执行通过多头注意力网络，对至少一帧图像的图像特征与用户特征分别进行自注意力运算，得到融合特征。

可选地，生成单元504，被配置为执行通过至少一个分类网络，并行对至少一帧图像卷积处理，输出每帧图像的图像特征。

可选地，第二获取单元503，被配置为执行获取用户账号对应的用户属性；对用户属性进行线性映射以及非线性映射，得到用户特征。

可选地，第二获取单元503，被配置为执行获取用户账号对应的历史行为数据；对历史行为数据进行线性映射以及非线性映射，得到用户特征。

可选地，装置还包括：第三获取单元，被配置为执行获取视频对应的地理位置信息；

生成单元504，被配置为执行根据至少一帧图像、用户特征以及地理位置信息，生成与视频匹配的话题标签。

可选地，装置还包括：第四获取单元，被配置为执行获取视频对应的时间信息；

生成单元504，被配置为执行根据至少一帧图像、用户特征以及时间信息，生成与视频匹配的话题标签。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

上述方法实施例中的电子设备可以实现为终端或服务器，例如，图6示出了本申请一个示例性实施例提供的终端600的结构框图。该终端600可以是：智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：一个或多个处理器601和一个或多个存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器601所执行以实现本申请中方法实施例提供的话题标签推荐方法。

在一些实施例中，终端600还可选包括有：***设备接口603和至少一个***设备。处理器601、存储器602和***设备接口603之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口603相连。具体地，***设备包括：射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。

***设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和***设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和***设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在另一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时，由处理器601根据用户对显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制显示屏605的显示亮度。具体地，当环境光强度较高时，调高显示屏605的显示亮度；当环境光强度较低时，调低显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述方法实施例中的电子设备可以实现为服务器，例如，图7是本公开实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)701和一个或一个以上的存储器702，其中，存储器702中存储有至少一条程序代码，至少一条程序代码由处理器701加载并执行以实现上述各个方法实施例提供的话题标签推荐方法。当然，该服务器还可以具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括程序代码的存储介质，例如包括程序代码的存储器，上述程序代码可由电子设备的处理器执行以完成上述话题标签推荐方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory，简称：ROM)、随机存取存储器(Random AccessMemory，简称：RAM)、只读光盘(Compact Disc Read-Only Memory，简称：CD-ROM)、磁带、软盘和光数据存储设备等。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种话题标签推荐方法，其特征在于，所述方法包括：

获取视频；

从所述视频中提取至少一帧图像；

向所述用户账号推荐所述话题标签。

2.根据权利要求1所述的话题标签推荐方法，其特征在于，所述根据所述至少一帧图像以及所述用户特征，生成与所述视频匹配的话题标签，包括：

根据所述融合特征，确定多个候选标签的概率；

3.根据权利要求2所述的话题标签推荐方法，其特征在于，所述对所述至少一帧图像的图像特征与所述用户特征进行融合，得到融合特征，包括：

4.根据权利要求1所述的话题标签推荐方法，其特征在于，所述获取视频之后，所述方法还包括：获取所述视频对应的地理位置信息；

5.根据权利要求1所述的话题标签推荐方法，其特征在于，所述获取视频之后，所述方法还包括：获取所述视频对应的时间信息；

6.一种话题标签推荐装置，其特征在于，包括：

第一获取单元，被配置为执行获取视频；

提取单元，被配置为执行从所述视频中提取至少一帧图像；

7.根据权利要求6所述的话题标签推荐装置，其特征在于，所述生成单元，被配置为执行对所述至少一帧图像分别进行特征提取，得到每帧图像的图像特征；对所述至少一帧图像的图像特征与所述用户特征进行融合，得到融合特征；根据所述融合特征，确定多个候选标签的概率；根据每个候选标签的概率，在所述多个候选标签中确定所述话题标签。

8.根据权利要求7所述的话题标签推荐装置，其特征在于，所述生成单元，被配置为执行通过多头注意力网络，对所述至少一帧图像的图像特征与所述用户特征分别进行自注意力运算，得到所述融合特征。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行程序代码的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行所述程序代码，以实现如权利要求1至5中任一项所述的话题标签推荐方法。

10.一种存储介质，其特征在于，当所述存储介质中的程序代码由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至5中任一项所述的话题标签推荐方法。