CN110175245A

CN110175245A - 多媒体推荐方法、装置、设备及存储介质

Info

Publication number: CN110175245A
Application number: CN201910487392.1A
Authority: CN
Inventors: 田元
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2019-08-27

Abstract

本申请公开了一种多媒体推荐方法、装置、设备及存储介质，该方法包括：获得多媒体推荐请求，该多媒体推荐请求携带有用户的生物特征数据；识别该生物特征数据表征的情绪类型；获取多媒体库中与该情绪类型匹配的至少一个多媒体；推荐该至少一个多媒体。本申请的方案有利于提高多媒体的推荐效果。

Description

多媒体推荐方法、装置、设备及存储介质

技术领域

本申请涉及多媒体推荐技术领域，尤其涉及一种多媒体推荐方法、装置、设备及存储介质。

背景技术

多媒体服务平台中经常会涉及到向用户推荐多媒体。如，在用户通过终端访问多媒体服务平台之后，多媒体服务器会向终端返回需要推荐给用户的多媒体资源。

目前，多媒体服务平台一般会结合用户的历史行为向用户推荐多媒体。如，音乐应用中会根据用户历史听过的歌曲的类型，向用户推荐相应类型的音乐资源。然而，用户在不同时刻以及不同场景下所喜好的多媒体差别会较大，因此，在根据用户的历史行为向用户推荐多媒体的情况下，很容易出现用户对推荐的多媒体不感兴趣的情况，从而使得用户点击播放推荐的多媒体的可能性较低，导致多媒体推荐效果较差。

发明内容

有鉴于此，本申请提供了一种多媒体推荐方法、装置、设备及存储介质，以有利于提高多媒体推荐效果。

为实现上述目的，一方面，本申请提供了一种多媒体推荐方法，包括：

获得多媒体推荐请求，所述多媒体推荐请求携带有用户的生物特征数据；

识别所述生物特征数据表征的情绪类型；

获取多媒体库中与所述情绪类型匹配的至少一个多媒体；

推荐所述至少一个多媒体。

在一种可能的实现方式中，所述用户的生物特征数据包括：用户的声音信号；

所述识别所述生物特征数据表征的情绪类型，包括：

识别所述用户的声音信号所表达的情绪类型。

在又一种可能的实现方式中，所述用户的生物特征数据包括：用户的至少一帧用户图像，所述用户图像为包含用户身体部位特征的图像，所述用户身体部位包括：所述用户的脸部特征和肢体动作特征的一种或者多种；

所述识别所述生物特征数据表征的情绪类型，包括：

依据所述至少一帧用户图像中包含的用户身体部位特征，确定所述用户的情绪类型。

在又一种可能的情况中，所述用户的至少一帧用户图像为用户的至少一帧人脸图像；

所述依据所述至少一帧用户图像中包含的用户身体部位特征，确定所述用户的情绪类型，包括：

识别所述至少一帧人脸图像中的人脸表情所表达的情绪类型。

在又一种可能的实现方式中，所述获取多媒体库中与所述情绪类型匹配的至少一个多媒体，包括：

依据多媒体库中各个多媒体所标注的情绪类型，从所述多媒体库中获取与所述生物特征数据表征的情绪类型匹配的至少一个多媒体。

在又一种可能的实现方式中，所述多媒体库中的每个多媒体所标注的情绪类型为：依据从该多媒体的关联信息中识别出的至少一个情绪词，确定出的该多媒体所适合的情绪类型，其中，多媒体的关联信息包括多媒体的名称和多媒体的内容中的一种或多种。

在又一种可能的实现方式中，所述获得多媒体推荐请求，包括：

在多媒体推荐界面检测到信息采集请求的情况下，通过采集单元采集用户的生物特征数据；

基于所述采集单元采集到的所述用户的生物特征数据，生成多媒体推荐请求。

在多媒体推荐界面检测到信息上传请求的情况下，获取用户从本地存储的数据中选择出的用户的生物特征数据；

基于所述用户的生物特征数据，生成多媒体推荐请求。

又一方面，本申请还提供了一种多媒体推荐装置，包括：

请求获得单元，用于获得多媒体推荐请求，所述多媒体推荐请求携带有用户的生物特征数据；

情绪识别单元，用于识别所述生物特征数据表征的情绪类型；

多媒体匹配单元，用于获取多媒体库中与所述情绪类型匹配的至少一个多媒体；

多媒体推荐单元，用于推荐所述至少一个多媒体。

在一种可能的情况中，所述请求获取单元获取的多媒体推荐请求携带的所述用户的生物特征数据包括：用户的声音信号；

所述情绪识别单元，包括：

第一情绪识别单元，用于识别所述用户的声音信号所表达的情绪类型。

在又一种可能的情况中，所述请求获取单元获取的多媒体推荐请求携带的所述用户的生物特征数据包括：用户的至少一帧用户图像，所述用户图像为包含用户身体部位特征的图像，所述用户身体部位包括：所述用户的脸部特征和肢体动作特征的一种或者多种；

所述情绪识别单元，包括：

第二情绪识别单元，用于依据所述至少一帧用户图像中包含的用户身体部位特征，确定所述用户的情绪类型。

又一方面，本申请还提供了一种多媒体推荐设备，包括：

处理器和存储器；

所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器用于存储所述程序，所述程序至少用于：

识别所述生物特征数据表征的情绪类型；

获取多媒体库中与所述情绪类型匹配的至少一个多媒体；

推荐所述至少一个多媒体。

又一方面，本申请还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上任一项所述的多媒体推荐方法。

经由上述的技术方案可知，本申请的多媒体推荐请求携带有用户的生物特征数据，而基于该生物特征数据可以识别出用户的情绪类型，并能够根据用户的情绪类型从多媒体库中匹配至少一个多媒体，有利于根据用户的情绪更为合理的向用户推荐多媒体，从而更有利于提高用户对于推荐的多媒体感兴趣的程度，进而有利于提高用户播放推荐的多媒体的概率，提高多媒体推荐效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请的一种多媒体推荐方法的一种应用场景的组成结构示意图；

图2示出了本申请一种多媒体推荐方法的一种流程示意图；

图3示出了本申请一种多媒体推荐方法的一种流程交互示意图；

图4a和图4b示出了本申请的多媒体推荐界面的两种界面示意图；

图5示出了本申请一种多媒体推荐方法的又一种流程交互示意图；

图6示出了本申请的多媒体推荐方法的一种应用场景示意图；

图7示出了本申请的多媒体推荐方法在一种应用场景中的流程交互示意图；

图8示出了本申请的多媒体推荐方法的又一种应用场景示意图；

图9示出了本申请的一种多媒体推荐装置的一种组成结构示意图；

图10示出了本申请的一种多媒体推荐装置的又一种组成结构示意图；

图11示出了本申请的一种多媒体推荐设备的一种组成结构示意图。

具体实施方式

本申请的方案适用于向多媒体服务***的用户推荐多媒体，以实现结合用户的情绪向用户推荐适合用户的多媒体，提高多媒体推荐的合理性。

本申请的多媒体服务***可以是具备多媒体服务的即时通讯***、音视频播放***等等。

为了便于理解，先对本申请实施例的多媒体推荐方法所适用的多媒体推荐***的组成进行介绍。

如图1，该多媒体推荐***可以包括：至少一台终端101以及至少一台服务器102。

其中，终端101可以为手机、平板电脑、笔记本电脑、智能音响、智能电视等等。

该终端101中安装有应用程序(Application，APP)，基于该APP，终端可以与该APP所属的服务器102建立通信连接，并从该服务器102请求多媒体或者接收服务器推荐的多媒体。如，该应用程序可以为即时通信应用，在该即时通讯应用中可以包括多媒体服务功能或者在该即时通讯应用中包含具备音视频播放的小程序；又如，该应用程序可以为音频播放应用或者视频播放应用等。

其中，服务器102可以在检测到终端与服务器建立通信连接时，向终端返回所需推荐的多媒体，或者在接收到终端发送的多媒体请求之后，向终端返回多媒体。

可以理解的是，为了提高多媒体服务质量以及可靠性，多媒体推荐***一般会设置有多台服务器，该多台服务器可以构成服务器集群或者分布式服务器***。

可以理解的是，在本申请中服务器中可以存储多媒体资源，如服务器中存储有多媒体库，该多媒体库中存储有多个多媒体。

在实际应用中，该多媒体推荐***还可以包括：数据存储设备103，该数据存储设备可以与服务器建立通信连接，且，该数据存储设备可以存储有多媒体库。相应的，该服务器102可以从数据存储设备的多媒体库中查询多媒体并反馈给终端。

在本申请实施例的多媒体推荐方法可以应用于如上提到的终端或者服务器，下面结合流程图，对本申请的多媒体推荐方法进行介绍。

如，参见图2，其示出了本申请一种多媒体推荐方法一个实施例的流程示意图，本实施例的方法可以应用于终端或者服务器，本实施例的方法可以包括：

S201，获得多媒体推荐请求。

该多媒体推荐请求用于请求推荐多媒体，如，在实际应用中，该多媒体推荐请求可以是用于请求多媒体的搜索请求或者获取请求等等。

与现有的多媒体推荐请求携带推荐多媒体相关的关键词不同，在本申请中，该多媒体推荐请求携带有用户的生物特征数据。其中，该生物特征数据为用于表征用户情绪的生物特征。

如，在一种可能的情况中，该生物特征数据可以为能够反映用户情绪的声音信号。该用户的声音信号可以是通过用户的终端实时采集到的声音信号；也可以是用户从终端中已存储的语音数据中选择出的声音信号。

在又一种可能的情况中，该生物特征数据可以为包含用户身体部位特征的至少一帧用户图像。其中，至少一帧用户图像可以是一幅用户图像，也可以是多幅独立的用户图像，还可以是由多帧连续的用户图像构成的视频。

该用户图像中的用户身体部位的特征可以反映出用户当前的情绪特点，如，用户身体部位特征可以为用户的人脸表情、用户的肢体动作特征等中的一种或多种。其中，通过用户的人脸表情可以直观表达出用户的情绪。而肢体动作特征是通过肢体动作的状态或者变化来反映出用户的情绪状态，例如，用户高兴的时候，用户的身体会有兴奋的跳跃、摇摆、手舞足蹈等动作特征；用户伤心的时候，用户会有垂头丧气等身体特征。

S202，识别该生物特征数据表征的情绪类型。

其中，用户的情绪类型可以根据需要设置多种，如，情绪类型可以分为：高兴、伤心、平静、气愤等等类型。一般情况下，从生物特征数据识别出的情绪类型为一种，但是考虑到情绪的多样性，该生物特征数据所表征的情绪类型也可能存在多种。

其中，通过分析生物特征数据中与情绪相关的特征，可以识别出该生物特征数据所表征的情绪类型。在生物特征数据不同时，识别情绪类型的方式会有所差别。

如，在用户的生物特征数据为用户的声音信号时，可以是识别该用户的声音信号所表达的情绪类型。

可选的，声音信号所表达的情绪类型可以是通过声音信号中的语音内容直接表达，也可以是通过声音信号的音调、音频等声音特征表达，因此，识别声音信号所表达的情绪可以有两种可能：

一种可能为：识别该用户的声音信号包含的语音内容所表达的情绪类型。如，将该用户的声音信号包含的语音内容转换为文本；检测文本中属于预置的情绪词库中的至少一个情绪词；按照情绪词与情绪类型的对应关系，确定该至少一个情绪词所归属的至少一种情绪类型。其中，该情绪词库中包含多个用于表达情绪的情绪词。通过将用户的声音信号所转换出的文本中包含的情绪词，可以匹配出该声音信号的语音内容所表达的情绪。

举例说明，假设用户的声音信号转换出的文本为“美好的一天，给我推荐一首歌曲”，根据情绪词库可以检测到该文本中“美好”为情绪词，而“美好”这一情绪词对应的情绪类型为开心。

识别声音信号所表达的情绪的又一种可能为：识别该用户的声音信号对应的声音特征所表征的情绪类型。其中，声音特征可以为该声音信号的音调、音色、响度以及频率等等。可以理解的是，在用户的情绪不同时，用户说同一句话的声音状态也会有所差别，比如，高兴的时候声音的频率、音调也会较高，而失落的时候语调以及频率等都会较为低沉，因此，通过识别声音信号的声音特征，可以分析该声音特征所符合的情绪类型。

在具体实现时，可以依据预先配置不同情绪类型对应的声音特征，识别出该声音信号的声音特征所对应的情绪类型。或者是，预先利用用户在不同情绪下的声音信号样本训练神经网络模型，利用训练出的神经网络模型来预测该声音信号的声音特征所属的情绪类型。当然，还可以有其他实现形式，对此不加限制。

以上是以生物特征数据为声音信号的说明，在用户的生物特征数据为用户的至少一帧用户图像的情况下，则可以依据该至少一帧用户图像中包含的用户身体部位特征，确定该用户的情绪类型。如，通过预先训练出的情绪识别模型来识别该用户特征中的用户身体部位特征所对应的情绪类型等。

可选的，在该用户图像中的用户身体部位特征为人脸表情的情况下，该用户图像可以为人脸图像。在该种情况下，可以通过识别该至少一帧人脸图像中的人脸表情所表达的情绪类型。如，识别每帧人脸图像中人脸表情，然后确定该至少一帧人脸图像的人脸表情所归属的至少一个情绪类型。

其中，识别人脸图像中的人脸表情所表达的情绪类型的方式可以有多种，无论采用那种方式均适用于本实施例。

为了便于理解，以一种情况为例说明：针对每帧人脸图像，可以提取人脸图像中的人脸区域，对人脸区域进行灰度化，得到人脸区域的灰度图像，并对人脸区域的灰度图像进行情绪类型的分类。其中，在对人脸区域进行灰度化之前，还可以对人脸区域进行标准化处理，以将人脸区域处理为设定的同一标度。

其中，对人脸区域的灰度图像进行情绪类型的分类可以是：利用预先训练得到的表情分类模型得到，如，利用不同情绪类型的人脸灰度图像样本训练神经网络模型得到表情分类模型。

对人脸区域的灰度图像进行情绪类型的分类可以是：预先利用已标注情绪类型的人脸灰度图像样本，分析出不同情绪类型对应的灰度图像的特征，并构建出包含不同情绪类型对应的灰度图像的特征的表情特征库。在此基础上，对于待识别的人脸区域的灰度图像，可以将该灰度图像的特征与该表情特征库中各个灰度图像的特征进行比对，得到该灰度图像的特征所对应的情绪类型。

S203，获取多媒体库中与该情绪类型匹配的至少一个多媒体。

其中，该多媒体库中存储有多个多媒体。

在一种可能的情况中，多媒体库中每个多媒体都标注有该多媒体适合的至少一种情绪类型。相应的，可以依据多媒体中各个多媒体所标注的情绪类型，从该多媒体库中获取与该用户的生物特征数据表征的情绪类型匹配的至少一个多媒体。

举例说明，对于多媒体库中多媒体标注的情绪类型可以如表1所示：

表1

多媒体类型	资源链接	名字	情绪类型
				音乐	……	**之歌	平静

其中，多媒体库中每个多媒体所标注的情绪类型可以是由人工根据多媒体的内容，确定出该多媒体所适合的至少一种情绪类型，并为该多媒体标注该多媒体所适合的至少一种情绪类型。

可选的，为了更为高效的确定多媒体库中每个多媒体所适合的情绪类型，在本申请实施例中，还可以是服务器根据多媒体的关联信息预先将多媒体分类为适合不同情绪的多媒体。具体的，可以依据从该多媒体的关联信息中识别出的至少一个情绪词，确定出的该多媒体所适合的情绪类型。其中，多媒体的关联信息可以包括：多媒体的名称和多媒体的内容中的一种或者多种，当然，该多媒体的关联信息还可以包括：多媒体的介绍信息等。

如，对于音乐等多媒体，可以通过对多媒体的名称进行识别，识别出该多媒体的名称包含的至少一个情绪词，或者与该多媒体的名称具有关联的至少一个情绪词，然后，将识别出的至少一个情绪词所归属的情绪类型确定为该多媒体所适合的情绪类型。

又如，对于图片、视频等多媒体，可以通过对图片或者视频中图像的内容进行识别，以识别出图片或者视频的内容中所包含的至少一个情绪词，并确定该至少一个情绪词所归属的至少一种情绪类型，从而得到图片或视频所适合的至少一种情绪类型。

可以理解的是，以上是以多媒体库中每个多媒体都标注有相应的情绪类型为例说明，在实际应用中，也可以是在得到该用户的生物特征数据对应的情绪类型之后，依次将该情绪类型与多媒体库中各个多媒体的名称或者内容匹配，从而得到名称或内容与该情绪类型匹配的至少一个多媒体。当然，在实际应用中，还可以有其他实现方式，在此不再赘述。

可选的，为了提高推荐的精准度，除了依据情绪类型确定可推荐的多媒体之外，本申请还可以结合发起多媒体推荐请求的该用户对应的用户画像以及该用户在多媒体推荐平台等网络平台上的行为来综合确定可推荐给用户的多媒体。

具体的，还可以获取多媒体推荐平台存储的该用户的用户特征信息。相应的，可以从多媒体库中，获取与该用户的用户特征信息和识别出的该情绪类型匹配的多媒体。可选的，考虑到精准度的要求，此处可以仅仅获取一个多媒体。

其中，该用户特征信息为与用户的属性信息和该用户在网络平台的行为数据中的一种或者多种相关的信息。其中，用户的属性信息可以为俗称的用户画像，具体可以包括用户的性别、年龄、学历、工作性能以及爱好等等用户标签数据。该用户在网络平台的行为数据可以包括：用户在该多媒体推荐平台中历史选择的多媒体等行为，还可以是用户最近一段时间在社交网络中发表的言论或者相关操作等等历史行为。

可以理解的是，在结合用户特征信息匹配多媒体时，可以是先基于用户特征信息从多媒体库中选择出至少一个多媒体，然后再基于该情绪类型筛选出一个多媒体。还可以是：先利用从多媒体库中匹配出与该情绪类型匹配的至少一个多媒体，如果匹配出的多媒体有多个，则可以结合用户特征信息，从该至少一个多媒体中选择出最适合该用户的一个多媒体。

S204，推荐该至少一个多媒体。

如，对于服务器侧执行本实施例的情况，服务器可以将该至少一个多媒体推荐给终端，以使得终端展现出该至少一个多媒体的信息。

对于终端侧执行本实施例的情况，终端可以在从服务器获取到匹配出的至少一个多媒体之后，输出该至少一个多媒体，以实现将该至少一个多媒体推荐给用户的目的。

可见，本实施例的多媒体推荐请求携带有用户的生物特征数据，而基于该生物特征数据可以识别出用户的情绪类型，并能够根据用户的情绪类型从多媒体库中匹配至少一个多媒体，有利于根据用户的情绪更为合理的向用户推荐多媒体，从而更有利于提高用户对于推荐的多媒体感兴趣的程度，进而有利于提高用户播放推荐的多媒体的概率，提高多媒体推荐效果。

可以理解的是，本申请的多媒体推荐方法可以由服务器侧执行，也可以是终端侧执行。为了便于理解，下面分别针对在服务器侧以及终端侧完成情绪类型识别、基于情绪类型匹配多媒体等多媒体推荐操作的两种情况进行介绍。

如图3所示，其示出了本申请一种多媒体推荐方法的一种流程交互示意图，本实施例以服务器侧完成多媒体推荐的主要过程为例说明。本实施例可以包括如下步骤：

S301，终端在多媒体推荐界面检测到信息采集请求的情况下，通过采集单元采集用户的生物特征数据。

其中，该多媒体推荐界面为终端用于搜索多媒体或者向用户推荐多媒体的界面。

其中，该信息采集请求用于请求采集推荐多媒体所需的生物特征数据，该信息采集请求可以触发终端运行采集单元，以采集用户的生物特征数据。

如，在该多媒体推荐界面可以包括用于触发信息采集请求的操作项，该操作项可以为按键或者图标。如果终端检测到用户点击该操作项，则会确定检测到信息采集请求，并启动采集单元采集生物特征数据。

其中，该采集单元可以为声音采集单元，如，麦克风。相应的，通过该声音采集单元采集到的生物特征数据可以为用户的声音信号。

该采集单元还可以图像采集单元，如摄像头。相应的，通过该图像采集单元可以采集用户的人脸图像、包含人脸图像的视频、包含用户肢体动作的用户图像或者包含用户肢体动作的视频。

可选的，在多媒体推荐界面可以设置用于触发不同采集单元的操作项，以使得用户通过点击不同的操作项触发不同的信息采集请求。如，在终端检测到多媒体推荐界面中的第一操作项被触按时，则确认检测到第一信息采集请求，并启动声音采集单元采集用户的声音信号；如果终端检测到多媒体推荐界面的第二操作项被触按，则确认检测到第二信息采集请求，并启动图像采集单元采集用户的人脸图像等图像或者视频。

如，参见图4a，其示出了本申请多媒体推荐界面的一种示意图。

由图4a可以看出，在该多媒体推荐界面400中包括搜索栏401，该搜索栏401中可以搜索关键词，该搜索关键词为请求搜索或者推荐多媒体所依据的关键词。用户在该搜索栏中输入搜索关键词并点击搜索图标402，则可以触发终端向服务器发送多媒体推荐请求(也可以认为所多媒体搜索请求)，只不过该多媒体推荐请求携带的是搜索关键词。

在本申请中，该搜索栏401中还设置有第一信息采集选项403和第二信息采集选项404。其中，该第一信息采集选项用于触发语音采集，该第二信息采集选项用于触发采集用户图像。相应的，如果用户点击该第一信息采集选项403，则终端会启动麦克风，并通过麦克风采集用户输入的语音信号。如果用户点击该第二信息采集选项，则相当于终端的前摄像头，并通过前摄像头采集用户的人脸图像、包含人脸图像的视频。

S302，终端基于采集单元采集到的用户的生物特征数据，生成多媒体推荐请求。

其中，该多媒体推荐请求携带有该用户的生物特征数据。

本实施例，是以终端在确认采集单元采集到生物特征数据之后，终端自动生成多媒体推荐请求为例，在实际应用中，在终端采集到用户的生物特征数据之后，还可以是由用户指示或者触发生成多媒体推荐请求。如，在获得该用户的生物特征数据之后，如果检测到用户点击如图4a中的搜索图标之后，则确认检测到多媒体推荐请求，或者生成多媒体推荐请求。

可以理解的是，在本实施例中步骤S301和S302为终端获得多媒体推荐请求的一种实现方式，在该种实现方式中是以用户需要推荐多媒体的情况下，触发终端采集用户的声音信号或者用户图像为例说明。在实际应用中，用户也可以通过选择终端本地已经存储的生物特征数据，来触发终端生成多媒体推荐请求。

如，在多媒体推荐界面检测到信息上传请求的情况下，获取用户从终端本地存储的数据中选择出的用户的生物特征数据；基于该用户的生物特征数据，生成该多媒体推荐请求。

举例说明，参见图4b，其示出了多媒体推荐界面的又一种示意图。

对比图4a和图4b可以看出，在图4b的多媒体推荐界面中搜索栏401中还设置有信息上传图标405，该信息上传图标405用于请求上传本地存储的生物特征数据。

相应的，在用户点击该信息上传图标之后，终端可以在搜索栏下方展现出信息上传区，该信息上传区可以接收用户拖拽到此处的图片、视频或者音频文件，该信息上传区还可以上传操作项，用户点击该上传操作项可以实现手动选择本地的图片、视频或者音频文件作为用户的生物特征数据。相应的，在终端确认用户选择了本地的图片、视频或音频作为生物特征数据之后，终端会生成携带该生物特征数据的多媒体推荐请求。

当然，终端获得多媒体推荐请求的方式还可以有其他可能，对于其他可能也同样适用于本实施例，在此不加限制。

S303，终端将多媒体推荐请求发送给服务器。

在本实施例中，服务器通过接收终端发送的多媒体推荐请求来实现获得该多媒体推荐请求。

S304，服务器获得该多媒体推荐请求中携带的生物特征数据，并识别该生物特征数据表征的情绪类型。

如，生物特征数据为声音信号，则可以识别该声音信号的声音内容所表达的情绪类型。

具体的，该步骤S304可以参见前面实施例的相关介绍，在此不再赘述。

S305，服务器依据多媒体中各个多媒体所标注的情绪类型，从该多媒体库中查询与该用户的生物特征数据表征的情绪类型匹配的至少一个多媒体，得到与该生物特征数据表征的情绪类型匹配的至少一个多媒体。

该步骤以多媒体库中标注了多媒体对应的情绪类型为例，但是对于通过其他方式确定与该情绪类型匹配的多媒体也同样适用于本实施例，具体可以参见前面实施例的相关介绍。

可选的，在该步骤S305中，服务器选取出该至少一个多媒体之后，还可以获取用户的用户特征信息，并结合该用户的用户特征信息，从该至少一个多媒体中确定出最适合该用户的多媒体，以便后续将该多媒体推荐给终端。

S306，服务器将该至少一个多媒体的信息推荐给终端。

其中，该多媒体的信息可以为多媒体的名称、图标、标识或者链接地址等信息中的一种或者多种。

S307，终端显示出服务器推荐的该至少一个多媒体的信息。

如，终端在多媒体推荐界面的多媒体推荐区呈现出多媒体推荐列表，该多媒体推荐列表包含该至少一个多媒体的名称或者图标等信息。

可以理解的是，本实施例中从多媒体推荐请求携带的生物特征数据中识别用户的情绪类型，从多媒体库中匹配该情绪类别对应的多媒体均由服务器侧执行，这样，可以有利于减少终端侧的数据处理量，有利于提高基于情绪类型匹配多媒体的效率。

下面以终端侧完成多媒体推荐的主要过程为例说明，如图5，其示出了本申请一种多媒体推荐方法的又一种流程交互示意图，本实施例可以包括如下步骤：

S501，终端在多媒体推荐界面检测到信息采集请求的情况下，通过采集单元采集用户的生物特征数据。

S502，终端在基于采集单元采集到的用户的生物特征数据的情况下，确认获得携带有该用户的生物特征数据的多媒体推荐请求。

与前面图3实施例相似，该步骤S501和S502为终端获得多媒体推荐请求的一种实现方式，对于前面提到的其他方式，也同样适用于本实施例，在此不再赘述。

S503，终端识别该用户的生物特征数据表征的情绪类型。

该步骤S503可以参见前面识别生物特征数据表征的情绪类型的具体介绍，在此不再赘述。

S504，终端将该情绪类型发送给服务器。

如，终端向服务器发送携带该情绪类型的多媒体查询请求。

S505，服务器从多媒体库中查询与该情绪类型匹配的至少一个多媒体，并将与该情绪类型匹配的至少一个多媒体的信息返回给该终端。

其中，该多媒体库中存储有多个多媒体。

在本实施例中，终端通过服务器查询得到与该情绪类型匹配的至少一个多媒体。其中，服务器查询与该情绪类型匹配的至少一个多媒体的具体实现方式可以参见前面的相关介绍。

与前面图3实施例相似，此处同样可以结合用户的用户特征信息和该情绪类型，来综合确定适合用户的多媒体，具体可参见前面实施例的相关介绍。

S506，终端输出与该情绪类型匹配的至少一个多媒体，以将该至少一个多媒体推荐给用户。

在本实施例中，由终端侧识别用户输入的生物特征数据所表征的情绪类型，从而可以减少终端与服务器侧的数据交互次数，有利于减少带宽资源的耗费。

为了便于理解本申请的方案，下面结合一个场景进行介绍。以结合用户的人脸图像，向用户推荐音乐的场景为例说明。

如图6其示出了本申请的方案在一种应用场景中实现多媒体推荐的示意图。

图6中第一排最左侧的一幅图中为终端侧多媒体推荐界面610的示意图，图6中处于第一排中间的一幅图为终端中用于采集人脸图像的图像采集界面620的示意图；图6中第一排最右侧的一幅图为终端侧展现出的用于推荐给用户的音乐推荐列表界面630的示意图。

基于图6，下面结合图7的交互流程进行详细介绍。如图7所示，其示出了本申请一种多媒体推荐方法的又一种流程交互示意图。本实施例包括：

S701，终端在多媒体推荐界面检测到图像采集请求的情况下，通过终端的摄像头摄取用户的人脸图像。

结合图6说明，在图6中多媒体推荐界面610中具有搜索栏611，在该搜索栏611中设置有图像采集图标612，如果用户点击该图像采集图标612，终端确认检测到图像采集单元，则会启动终端的前置摄像头(与显示屏处于同侧的摄像头)，并进入到图像采集界面620。在该图像采集界面中可以呈现出摄像头采集到的人脸图像621。

本实施例是以摄取人脸图像为例，如果是采集包含人脸图像的视频，则可以认为是多张连续的人脸图像，其过程与本实施例相似。

S702，终端基于摄取到的人脸图像，生成携带该人脸图像的多媒体推荐请求。

如在图6的图像采集界面620中，终端可以在确认采集到符合要求的人脸图像(如具备人脸且人脸的清晰度符合条件)的情况下，生成该多媒体推荐请求。或者是，在该图像采集界面可以设置“确认选项”，在用户点击该“确认选项”时，则终端生成该多媒体推荐请求。

S703，终端将多媒体推荐请求发送给服务器。

S704，服务器获得该多媒体推荐请求中携带的人脸图像，并识别该人脸图像中的人脸表情，并确定识别出的人脸表情所表征的情绪类型。

S705，服务器依据音乐库中不同音乐所标注的情绪类型，获取与该人脸表情对应的情绪类型匹配的至少一个音乐。

如图6中，该图像采集界面620中采集到的人脸图像中人脸表情为微笑的表情，则服务器可以识别出该人脸表情所表征的情绪类型为开心。相应的，服务器可以从音乐库中查询所有标注的情绪类型为开心的音乐，并将查询出的音乐确定为适合该用户在开心的情绪下收听的音乐。

S706，服务器将包含该至少一个音乐的音乐列表推荐给终端。

S707，终端将该音乐列表作为音乐推荐列表输出在显示界面中。

如，如图6中，在该图像采集界面之后，终端会将包含人脸图像的多媒体推荐请求发送给服务器。服务器根据人脸图像识别出用户的情绪之后，会向终端返回与该用户的情绪匹配的音乐列表。而终端会在音乐推荐列表界面630中显示出音乐列表中各个音乐的信息，以将该符合用户的情绪的音乐推荐给用户。

目前结合用户的身份信息或者历史行为为用户推荐音乐，并未考虑用户当前的情绪，导致推荐一些用户不感兴趣甚至反感的音乐，如，在用户伤心的情况下，很可能会给用户推荐一些音乐节奏过快或者过于劲爆的音乐，而用户在该种情绪下根本无心听这种音乐。

而结合图6和图7的介绍可知，在用户希望通过终端从服务器请求音乐推荐的情况下，用户可以通过摄像头扫描自身的人脸图像，从而触发终端向服务器发送携带该人脸图像的音乐推荐请求，由于该人脸图像中包含可以反映用户情绪的人脸表情，服务器通过该人脸图像可以识别出用户当前的情绪，并能够从音乐库中查询出适合该用户当前情绪的音乐，并推荐给用户，从而使得用户可以获取到适合用户自身情绪的音乐，进而有利于提高用户选择收听音乐的兴趣，提高了音乐推荐效果。

可以理解的是，在图6和图7中是以结合用户的人脸表情，推荐符合该用户的人脸表情对应的情绪的音乐为例。对于结合用户输入的声音信号确定用户的情绪，并推荐与用户情绪匹配的音乐过程，除了采集声音信号以及识别声音信号中的情绪会有所差别，其整体过程与图7相似，在此不再赘述。

可以理解的是，在多媒体推荐请求携带的至少一帧用户图像均为包含用户的肢体动作特征的图像时，还可以通过对该至少一帧用户图像中包含的肢体动作特征进行情绪识别，以确定出用户的情绪类型。

具体的，可以识别该至少一帧用户图像中的肢体动作特征的连续变化所表现出的用户动作行为类型，并确定该用户动作行为类型所表达的情绪类型。

可以理解的是，通过识别一帧用户图像可以得到该帧用户图像中呈现出的肢体动作特征，而通过该至少一帧用户图像各自对应的肢体动作特征，则可以得到一系列连续变化的肢体动作特征，而这一系列连续变化的肢体动作特征可以表现出用户不同的动作行为类型。

其中，用户动作行为类型可以预先设定，如，用户动作行为类型可以包括：手舞足蹈、暴躁跳动、身体蜷缩等等动作行为类型。同时，不同动作行为类型可以用于表达不同的情绪类型，具体可以通过模型分类或者预先设定出不同动作行为类型所对应的情绪类型。例如，在用户高兴的情况下，用户会表现出手舞足蹈的动作行为，这样，如果识别出用户的动作行为类型为手舞足蹈，则可以确认用户的情绪类型为高兴；又如，用户伤心的情况下，情绪比较低沉，身体的动作幅度会相对较小，从而呈现出身体蜷缩抽泣，或者头部低垂且动作迟缓等行为类型，因此，如果识别出该种类型的用户行为类型，则可以确定用户的情绪类型为伤心。

为了便于理解本申请的方案，下面以基于用户的视频图像中各帧用户图像所表达的情绪类型，向用户推荐音乐的场景为例进行说明。如，参见图8，其示出了本申请的方案在又一种应用场景中实现多媒体推荐的示意图。

图8中多媒体推荐界面810中显示有搜索栏811，在搜索栏811中具有图像采集图标812。终端在该多媒体推荐界面检测到用户点击或者触按该图像采集图标812之后，该终端会启动摄像头，如图8中为终端的前置摄像头。通过该前置摄像头会持续采集用户图像，如8中图像采集界面820中采集到一帧图像821为用户的身体做出跳跃准备姿势的图像。由于本实施例中以连续多帧用户图像为例说明，因此，前置摄像头会连续一段时间持续采集用户的图像，如在该图像采集界面820之后，该终端还会持续展现采集到另一帧用户图像的图像采集界面830。在该图像采集界面830中呈现出一帧图像831为用户处于跳跃状态的图像，如图像采集界面830中所示的图像831可以看出，该用户的腿部向上蜷缩，手臂上扬，使得用户身体呈现出向上跳跃的肢体动作特征。

在终端确认前置摄像头采集到多帧包含用户肢体动作特征的用户图像之后，终端会将该多帧用户图像对应的视频发送给服务器，以通过服务器对该视频图像中多帧用户图像进行情绪识别。

其中，服务器通过视频中多帧连续的用户图像的肢体动作特征进行识别，可以得到该多帧用户图像对应的连续用户动作行为，结合图8中图像采集界面820和图像采集界面830以及这两个图像采集界面之间可能采集到的用户图像可以看出，基于该视频可以识别出该多帧用户图像的肢体动作特征的连续变化可以得到，用户的肢体不断上扬，腿部跳跃，整个身体的连续状态表现出的动作行为类型属于手舞足蹈。基于此，服务器可以确定手舞足蹈这一动作行为类型对应的情绪类型为高兴。相应的，服务器可以匹配出与“高兴”这一情绪类型匹配的音乐，并反馈给终端。

终端接收到服务器推荐的音乐之后，则可以呈现音乐推荐界面840，以使得用户可以查看推荐给用户的音乐信息。

对应本申请的一种多媒体推荐方法，本申请还提供了一种多媒体推荐装置。

如图9所示，其示出了本申请一种多媒体推荐装置的一种组成结构示意图，该多媒体推荐装置可以应用于前面提到的终端或者服务器，该装置可以包括：

请求获得单元901，用于获得多媒体推荐请求，所述多媒体推荐请求携带有用户的生物特征数据；

情绪识别单元902，用于识别所述生物特征数据表征的情绪类型；

多媒体匹配单元903，用于获取多媒体库中与所述情绪类型匹配的至少一个多媒体；

多媒体推荐单元904，用于推荐所述至少一个多媒体。

在一种可能的实现方式中，所述多媒体匹配单元具体为，用于依据多媒体库中各个多媒体所标注的情绪类型，从所述多媒体库中获取与所述生物特征数据表征的情绪类型匹配的至少一个多媒体。

可选的，所述多媒体库中的每个多媒体所标注的情绪类型为：依据从该多媒体的关联信息中识别出的至少一个情绪词，确定出的该多媒体所适合的情绪类型，其中，多媒体的关联信息包括多媒体的名称和多媒体的内容中的一种或多种。

可选的，所述多媒体匹配单元，包括：

特征获取子单元，用于获取多媒体推荐平台存储的所述用户的用户特征信息，所述用户特征信息为与用户的属性信息和所述用户在网络平台的行为数据中的一种或者多种相关的信息；

多媒体匹配子单元，用于从多媒体库中，获取与所述用户的用户特征信息和所述情绪类型匹配的一个多媒体。在又一种可能的实现方式中，在该装置应用于终端的情况下，该请求获得单元可以包括：

信息采集单元，用于在多媒体推荐界面检测到信息采集请求的情况下，通过采集单元采集用户的生物特征数据；

第一请求生成单元，用于基于所述采集单元采集到的所述用户的生物特征数据，生成多媒体推荐请求。

在又一种可能的情况中，在该装置应用于终端的情况下，该请求获得单元还可以包括：

信息上传单元，用于在多媒体推荐界面检测到信息上传请求的情况下，获取用户从本地存储的数据中选择出的用户的生物特征数据；

第二请求生成单元，用于基于所述用户的生物特征数据，生成多媒体推荐请求。

如图10所示，其示出了本申请一种多媒体推荐方法的又一种组成结构示意图，该实施例的装置与图9实施例的区别在于：

该请求获取单元获取的多媒体推荐请求携带的所述用户的生物特征数据包括：用户的声音信号；

所述情绪识别单元902可以包括：

第一情绪识别单元9021，用于识别所述用户的声音信号所表达的情绪类型。

可选的，所述第一情绪识别单元可以用于通过如下以下一种或多种方式识别所述用户的声音信号所表达的情绪类型：

识别所述用户的声音信号包含的语音内容所表达的情绪类型；

识别所述用户的声音信号对应的声音特征所表征的情绪类型。

在又一种可能的实现方式中，所述请求获取单元获取的多媒体推荐请求携带的所述用户的生物特征数据包括：用户的至少一帧用户图像，所述用户图像为包含用户身体部位特征的图像，所述用户身体部位包括：所述用户的脸部特征和肢体动作特征的一种或者多种；

所述情绪识别单元，可以包括：

第二情绪识别单元9022，用于依据所述至少一帧用户图像中包含的用户身体部位特征，确定所述用户的情绪类型。

可选的，所述请求获取单元获取的多媒体推荐请求携带的所述用户的至少一帧用户图像为用户的至少一帧人脸图像；

所述第二情绪识别单元具体为，用于识别所述至少一帧人脸图像中的人脸表情所表达的情绪类型。

可选的，所述请求获取单元获取的多媒体推荐请求携带的用户图像为包含用户的肢体动作特征的图像；

所述第二情绪识别单元，包括：

动作识别子单元，用于识别所述至少一帧用户图像中的肢体动作特征的连续变化所表现出的用户动作行为类型；

第二情绪识别子单元，用于确定所述用户动作行为类型所表达的情绪类型。

在本申请实施例中，还提供了一种多媒体推荐设备，该多媒体推荐设备可以为前面提到的终端或者服务器。如，参见图11，其示出了本申请实施例的多媒体推荐设备的一种组成结构示意图。在图11中，该多媒体推荐设备可以包括：处理器1101和存储器1102。

可选的，该设备还可以包括：通信接口1103、输入单元1104和显示器1105和通信总线1106。其中，处理器1101、存储器1102、通信接口1103、输入单元1104、显示器1105、均通过通信总线1106完成相互间的通信。

在本申请实施例中，该处理器1101，可以为中央处理器(Central ProcessingUnit，CPU)，特定应用集成电路(application-specific integrated circuit，ASIC)，数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。

该处理器可以调用存储器1102中存储的程序。

存储器1102中用于存放一个或者一个以上程序，程序可以包括程序代码，所述程序代码包括计算机操作指令，在本申请实施例中，该存储器中至少存储有用于实现以下功能的程序：

获得多媒体推荐请求，该多媒体推荐请求携带有用户的生物特征数据；

识别该生物特征数据表征的情绪类型；

获取多媒体库中与该情绪类型匹配的至少一个多媒体；

推荐该至少一个多媒体。

在一种可能的实现方式中，该存储器1102可包括存储程序区和存储数据区，其中，存储程序区可存储操作***、以上所提到的程序，以及至少一个功能(比如声音播放功能、图像播放功能等)所需的应用程序等；存储数据区可存储根据多媒体推荐设备运行过程中所创建的数据，比如，音频数据等。

此外，存储器1102可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或闪存器件等。

该通信接口1103可以为通信模块的接口，如GSM模块的接口。

该输入单元可以包括感应触摸显示面板上的触摸事件的触摸感应单元、键盘等等。

该显示器1104包括显示面板，如触摸显示面板等。在一种可能的情况中，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-EmittingDiode,OLED)等形式来配置显示面板。

当然，图11所示的设备结构并不构成对本申请实施例中多媒体推荐设备的限定，在实际应用中多媒体推荐设备可以包括比图11所示的更多或更少的部件，或者组合某些部件。

另一方面，本申请还提供了一种存储介质，该存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上任意一个实施例中的多媒体推荐方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种多媒体推荐方法，其特征在于，包括：

识别所述生物特征数据表征的情绪类型；

获取多媒体库中与所述情绪类型匹配的至少一个多媒体；

推荐所述至少一个多媒体。

2.根据权利要求1所述的多媒体推荐方法，其特征在于，所述用户的生物特征数据包括：用户的声音信号；

所述识别所述生物特征数据表征的情绪类型，包括：

识别所述用户的声音信号所表达的情绪类型。

3.根据权利要求2所述的多媒体推荐方法，其特征在于，所述识别所述用户的声音信号所表达的情绪类型包括以下一种或多种：

4.根据权利要求1所述的多媒体推荐方法，其特征在于，所述用户的生物特征数据包括：用户的至少一帧用户图像，所述用户图像为包含用户身体部位特征的图像，所述用户身体部位包括：所述用户的脸部特征和肢体动作特征的一种或者多种；

所述识别所述生物特征数据表征的情绪类型，包括：

5.根据权利要求4所述的多媒体推荐方法，其特征在于，所述用户的至少一帧用户图像为用户的至少一帧人脸图像；

6.根据权利要求4所述的多媒体推荐方法，其特征在于，所述用户图像为包含用户的肢体动作特征的图像；

识别所述至少一帧用户图像中的肢体动作特征的连续变化所表现出的用户动作行为类型；

确定所述用户动作行为类型所表达的情绪类型。

7.根据权利要求1所述的多媒体推荐方法，其特征在于，所述获取多媒体库中与所述情绪类型匹配的至少一个多媒体，包括：

8.根据权利要求7所述的多媒体推荐方法，其特征在于，所述多媒体库中的每个多媒体所标注的情绪类型为：依据从该多媒体的关联信息中识别出的至少一个情绪词，确定出的该多媒体所适合的情绪类型，其中，多媒体的关联信息包括多媒体的名称和多媒体的内容中的一种或多种。

9.根据权利要求1所述的多媒体推荐方法，其特征在于，所述获取多媒体库中与所述情绪类型匹配的至少一个多媒体，包括：

获取多媒体推荐平台存储的所述用户的用户特征信息，所述用户特征信息为与用户的属性信息和所述用户在网络平台的行为数据中的一种或者多种相关的信息；

从多媒体库中，获取与所述用户的用户特征信息和所述情绪类型匹配的一个多媒体。

10.根据权利要求1至6任一项所述的多媒体推荐方法，其特征在于，所述获得多媒体推荐请求，包括：

11.根据权利要求1至6任一项所述的多媒体推荐方法，其特征在于，所述获得多媒体推荐请求，包括：

基于所述用户的生物特征数据，生成多媒体推荐请求。

12.一种多媒体推荐装置，其特征在于，包括：

多媒体推荐单元，用于推荐所述至少一个多媒体。

13.根据权利要求12所述的多媒体推荐装置，其特征在于，所述请求获取单元获取的多媒体推荐请求携带的所述用户的生物特征数据包括：用户的声音信号；

所述情绪识别单元，包括：

14.根据权利要求12所述的多媒体推荐装置，其特征在于，所述请求获取单元获取的多媒体推荐请求携带的所述用户的生物特征数据包括：用户的至少一帧用户图像，所述用户图像为包含用户身体部位特征的图像，所述用户身体部位包括：所述用户的脸部特征和肢体动作特征的一种或者多种；

所述情绪识别单元，包括：

15.一种多媒体推荐设备，其特征在于，包括：

处理器和存储器；

所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器用于存储所述程序，所述程序至少用于：

识别所述生物特征数据表征的情绪类型；

获取多媒体库中与所述情绪类型匹配的至少一个多媒体；

推荐所述至少一个多媒体。

16.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上权利要求1至11任一项所述的多媒体推荐方法。