CN110505504B

CN110505504B - 视频节目处理方法、装置、计算机设备及存储介质

Info

Publication number: CN110505504B
Application number: CN201910650680.4A
Authority: CN
Inventors: 王晶晶; 陈恺
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2022-09-23
Anticipated expiration: 2039-07-18
Also published as: CN110505504A

Abstract

本发明公开了视频节目处理方法、装置、计算机设备以及计算机可读存储介质，用于提高视频推荐匹配度，方法部分包括：获取用户播放的目标视频节目中的目标音频信息和目标人脸图像信息，目标音频信息和目标人脸图像信息为目标视频节目中同一播放时段内所获取的信息；根据预设声纹匹配模型对目标音频信息进行声纹特征提取，以提取目标声纹特征信息；确定目标声纹特征信息对应的声纹置信度；根据目标声纹特征信息对应的声纹置信度，以及目标人脸图像信息确定所采用的目标人物信息；根据目标人物信息确定目标视频节目，目标视频节目为与目标人物信息相关联的节目；向用户推荐目标视频节目。

Description

视频节目处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及智能推荐领域，尤其涉及一种视频节目处理方法、装置、计算机设备及存储介质。

背景技术

随着电子科技技术以及互联网技术的发展，智能手机等用户端的功能越来越强大，只要用户按照自身的需求在用户端上安装各种应用程序安装包，便可以通过各种应用程序来完成各种事务。其中，就包括利用用户端去观看一些视频节目，为了给用户推荐适合的视频节目，传统的作法是，通过接收节目中的音频信息，先识别出视频中声纹识别出目标人物，再从视频库中查找出与目标人物相关的视频作为推荐视频进行推荐，然而，在上面的推荐算法中，有一个比较明显的缺陷，那就是从视频中获取的语音信息对应的声纹特征，由于语调、方言、节奏以及鼻音等存在，会存在相似度较高的声纹特征，或其他干扰信息，从而会影响最后识别所述语音信息对应的目标人物的这个过程，也就是最终会导致目标人物匹配不准确的情况，从而导致了最终推荐的视频得到匹配度不高。

发明内容

本发明实施例提供一种视频节目方法、装置、计算机设备及存储介质，可以有效地提高视频推荐匹配度。

一种视频节目处理方法，包括：

获取用户播放的目标视频节目中的目标音频信息和目标人脸图像信息，所述目标音频信息和目标人脸图像信息为所述目标视频节目中同一播放时段内所获取的信息；

根据预设声纹匹配模型对所述目标音频信息进行声纹特征提取，以提取目标声纹特征信息；

确定所述目标声纹特征信息对应的声纹置信度，所述声纹置信度用于指示所述目标声纹特征信息与在所述同一播放时段内所述目标视频节目出现的人物的对应关系的可信程度；

根据目标声纹特征信息对应的声纹置信度，以及目标人脸图像信息确定所采用的目标人物信息；

根据所述目标人物信息确定目标视频节目，所述目标视频节目为与所述目标人物信息相关联的节目；

向所述用户推荐所述目标视频节目。

一种视频节目处理装置，包括：

获取模块，用于获取用户播放的目标视频节目中的目标音频信息和目标人脸图像信息，所述目标音频信息和目标人脸图像信息为所述目标视频节目中同一播放时段内所获取的信息；

提取模块，用于根据预设声纹匹配模型对所述目标音频信息进行声纹特征提取，以提取目标声纹特征信息；

第一确定模块，用于确定所述目标声纹特征信息对应的声纹置信度，所述声纹置信度用于指示所述目标声纹特征信息与在所述同一播放时段内所述目标视频节目出现的人物的对应关系的可信程度；

第二确定模块，用于根据目标声纹特征信息对应的声纹置信度，以及目标人脸图像信息确定所采用的目标人物信息；

第三确定模块，用于根据所述目标人物信息确定目标视频节目，所述目标视频节目为与所述目标人物信息相关联的节目；

推荐模块，用于向所述用户推荐所述目标视频节目。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述视频节目处理方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述视频节目处理方法。

上述视频节目处理方法、装置、计算机设备及存储介质所实现的方案中，除了从目标视频节目中抽取目标音频信息外，还会抽取目标人脸图像信息，也即人物的目标音频信息和目标人脸图像信息，并依据人物的目标音频信息的目标声纹特征信息置信度来择优选择对应的目标人物信息的方式，例如，当从视频中所抽取的目标音频信息对应的声纹置信度比较低时，说明所提取的目标声纹特征信息与人物间的可信程度差了点，此时依据人脸信息，或人脸信息以及目标声纹特征信息结合的方式确定目标人物信息。从而有效地减少了存在相似度较高的声纹特征，或其他干扰信息的情况时，会影响最后识别所述语音信息对应的目标人物信息的这个过程，而是依据人物的目标音频信息的目标声纹特征信息置信度来择优选择对应的目标人物信息的方式，有效地提高了视频推荐的匹配度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中视频节目处理方法的一个应用环境示意图；

图2是本发明一实施例中视频节目处理方法的一流程示意图；

图3是本发明一实施例中视频节目处理方法的另一流程示意图；

图4是本发明一实施例中视频节目处理方法的另一流程示意图；

图5是本发明一实施例中视频节目处理方法的另一流程示意图；

图6是本发明一实施例中视频节目处理方法的另一流程示意图；

图7是本发明一实施例中视频节目处理装置的一结构示意图；

图8是本发明一实施例中计算机设备的一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的视频节目处理方法，可应用在如图1的应用环境中，其中，用户端可以通过网络与服务端进行通信。其中用户端可以获取用户播放中目标视频节目中，同一播放时段内的目标音频信息以及目标人脸图像信息，并反馈至服务器，服务器根据用户端反馈的目标音频信息以及目标人脸图像信息，向用户端推荐合适的目标视频节目。其中，用户端可以包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面对本发明实施例进行详细的描述，请参阅图2，包括如下步：

S10：获取用户播放的目标视频节目中的目标音频信息和目标人脸图像信息，所述目标音频信息和目标人脸图像信息为所述目标视频节目中同一播放时段内所获取的信息。

其中，目标视频节目指的是用户播放中的视频节目，对于用户端正在播放的目标视频节目，例如在网页上或视频应用APP上播放的目标视频节目，用户端可以获取用户播放的目标音频信息和目标人脸图像信息，对于服务器而言，可以获取到用户端反馈的目标音频信息以及目标人脸图像信息，其中，所述目标音频信息和目标人脸图像信息为所述目标视频节目中同一播放时段内所获取的信息。

其中，目标视频节目中的目标音频信息包括语音信息，语音信息即为存在人物说话的声音信息。目标音频信息可以预设时长的一段目标音频信息，而目标人脸图像信息指的是该预设时长内目标视频节目中出现的目标人脸图像信息，也即，目标音频信息和目标人脸图像信息为目标视频节目中同一播放时段内所获取的信息。示例性的，例如目标视频节目某5-10秒中人物A的一段目标音频信息，以及视频某5-10秒目标视频节目中出现的目标人脸图像信息。需要说明的是，上述例子在这里只是举例说明，并不对本发明实施例构成限定。

S20：根据预设声纹匹配模型对所述目标音频信息进行声纹特征提取，以提取目标声纹特征信息。

在获取用户播放的目标视频节目中的目标音频信息和目标人脸图像信息之后，根据训练后的声纹匹配模型对目标音频信息进行声纹特征提取，以提取人物的目标声纹特征信息。

可以理解，在获取的目标视频节目的目标音频信息中，包含了目标视频节目的各种各样的声音信息，其中，包括了人物的目标音频信息，当然，目标音频信息也可以包括是其他非必要的语音信息或者噪音信息。因此，需要能提取到目标音频信息中的人物的声纹信息的模型。在本发明实施例中，提供一训练后的声纹匹配模型，也即预设声纹匹配模型，该预设声纹匹配模型为获取了声纹训练语音集合后，基于声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息，对建立的声纹匹配模型进行训练得到。需要说明的是，所述声纹匹配模型可以是对预先采集的声纹训练语音集合中的各声纹训练语音和所述声纹训练语音对应的样本特征信息采用某种训练算法进行训练后建立的模型，示例性的，上述训练算法包括但不局限于神经网络方法、隐马尔可夫方法或者矢量聚类(vector quantification，VQ)方法等。另外值得注意的是，所述声纹训练语音集合中的语音对应的语音采集者可以是随机的实验对象并不限定特定的对象，所述声纹训练语音对应的样本特征信息可以是所述声纹训练语音的目标声纹特征信息。进一步的，根据训练后的声纹匹配模型对语音信息进行声纹特征提取，以提取人物的目标声纹特征信息，该目标声纹特征信息可以是该人物的语音信息中的区别特征信息，例如，可以是频谱、倒频谱、共振峰、基音、反射系数等信息，这里不做限定，可以根据不同应用场景或需求进行配置。例如，语音信息可以认为是一种短时平稳信号和长时非平稳信号，在短时间内，可以认为语音信息还是可以当成平稳信号来处理，这个短时一般范围在10到30毫秒之间。语音信息的相关特征参数的分布规律在短时间(10-30ms)内可以认为是一致的，而在长时间来看则是有明显变化的。在数字信号处理时，一般而言都期望对平稳信号进行时频分析，从而提取特征。因此，在对语音信息进行特征提取的时候，可以设置一个20ms左右的时间窗，在这个时间窗内可以认为语音信号是平稳的。然后以这个窗为单位在语音信号上进行滑动，每一个时间窗都可以提取出一个能够表征这个时间窗内信号的特征，从而就得到了语音信息中语音信息的声纹特征序列，也即声纹特征信息。这个特征能够表征出在这个时间窗内的语音信号相关信息。通过上述技术手段即可以实现将一段语音信息化得到一个以帧为单位的特征序列。具体地，传统的声纹特征包括梅尔倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)、感知线性预测系数(Perceptual LinearPrediction，PLP)都能作为声纹识别在特征提取层面可选且表现良好的声纹特征，本发明实施例中的目标声纹特征信息也可以是指传统的声纹特征，本发明实施例可依据合适的声纹特征类型训练出所需的声纹特征模型，这里不做限定。

S30：确定所述目标声纹特征信息对应的声纹置信度，所述声纹置信度用于指示所述目标声纹特征信息与在所述同一播放时段内所述目标视频节目出现的人物的对应关系的可信程度。

在根据训练后的预设声纹匹配模型对所述目标音频信息进行声纹特征提取，以提取人物的目标声纹特征信息之后，确定所述目标声纹特征信息对应的声纹置信度。其中，该声纹置信度用于指示所述目标声纹特征信息与在所述同一播放时段内所述目标视频节目出现的人物的对应关系的可信程度。

在一些可选的实施例中，服务器可以将所述目标声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配，获取特征匹配度最高时的匹配度值，然后根据所述匹配度值确定所述目标声纹特征信息对应的声音置信度。例如，所述目标声纹特征信息与所述声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配后，检测到声纹训练语音A的样本特征信息与所述目标声纹特征信息的匹配度最高，且最高值为90％，则所述服务器可以确定所述目标声纹特征信息对应的声音置信度为90％。

S40：根据目标声纹特征信息对应的声纹置信度，以及目标人脸图像信息确定所采用的目标人物信息。

可以理解的是，服务器可以采用目标声纹特征信息生成人物的识别结果，该识别结果可以指示目标音频信息所属的人物，例如，假设当前语音环境中存在至少两个人物。这样，当目标声纹特征信息中存在两个相似的声纹特征时，服务器不能准确地通过对上述两个相似的声纹特征得出人物的识别结果。对于上述情况，服务器可以基于声音置信度并采用目标人脸图像信息和目标声纹特征信息确定所采用的目标人物信息，具体地，服务器可以基于声音置信度和预设声音置信度阈值的关系，确定用于识别人物的识别结果的目标人物信息，以便后续根据目标人物信息获取人物的识别结果，简单点说，目标人物信息为从目标人脸图像信息和目标声纹特征信息中确定出可信度较高的信息，以便后续向用户推荐目标视频节目所采用。

S50：根据所述目标人物信息确定目标视频节目，所述目标视频节目为与所述目标人物信息相关联的节目。

在得到所采用的目标人物信息之后，根据所述目标人物信息确定目标视频节目，所述目标视频节目为与所述目标人物信息相关联的节目。

S60：向所述用户推荐所述目标视频节目。

在根据所述目标人物信息确定目标视频节目之后，就可以向所述用户推荐所述目标视频节目。

可见，在本发明实施例中，除了从目标视频节目中抽取目标音频信息外，还会抽取目标人脸图像信息，也即人物的目标音频信息和目标人脸图像信息，并依据人物的目标音频信息的目标声纹特征信息置信度来择优选择对应的目标人物信息的方式，例如，当从视频中所抽取的目标音频信息对应的声纹置信度比较低时，说明所提取的目标声纹特征信息与人物间的可信程度差了点，此时依据人脸信息，或人脸信息以及目标声纹特征信息结合的方式确定目标人物信息。从而有效地减少了存在相似度较高的声纹特征，或其他干扰信息的情况时，会影响最后识别所述语音信息对应的目标人物信息的这个过程，而是依据人物的目标音频信息的目标声纹特征信息置信度来择优选择对应的目标人物信息的方式，有效地提高了视频推荐的匹配度。

具体地，在本发明实施例中，提供了一些获取到目标视频节目中的目标音频信息和目标人脸图像信息的方式，在一些实施例中，如图3所示，步骤S10中，也即获取目标视频节目中的目标音频信息和目标人脸图像信息，具体包括如下步骤：

S11：接收用户端发送的视频感兴趣片段，所述视频感兴趣片段为所述用户端播放所述目标视频节目过程中，采集所述用户观看所述目标视频节目过程中的微表情信息，并对所述微表情信息进行微表情识别后得到，所述视频感兴趣片段为所述目标视频节目中的其中一段。

S12：根据所述视频感兴趣片段中的所述目标音频信息和目标人脸图像信息。

对于步骤S11-S12，可以理解，用户端在播放目标视频节目的时，会启动用户端的采集装置，以通过该采集装置获取用户观看目标视频节目的观看动态。具体的，用户端通过预设微表情识别模型，识别出用户观看目标视频节目过程中的用户人脸图像，并对用户人脸图像进行微表情识别，从而获取到用户人脸图像的微表情状态。预设微表情识别模型进行微表情识别后得到的输出为该人脸图像属于预设的微表情情绪标签的可能性，用户端将最大概率对应的微表情情绪作为该用户人脸图像的微表情状态。其中，微表情情绪可用高兴、郁闷、平静困惑、等情绪表达，可以理解，上述情绪表达均能通过预设微表情识别模型进行识别，从而可以得出用户观看目标视频节目时的情绪状态，从而识别出用户对目标视频节目中的感兴趣情况。另外，预设微表情识别模型可以是基于深度学习的神经网络识别模型，具体这里不做限定，也不对模型的训练过程展开描述。

用户端根据用户人脸图像的微表情状态，获取满足预设类型的微表情状态对应的视频片段，并将该视频片段作为上述视频感兴趣片段。其中，满足预设情绪的微表情状态对应的视频片段指的是，目标视频节目中，符合预设类型的微表情状态的时刻向前延续之前，或向后延续的一段视频片段，具体的向前延续或向后延续的时长这里不做限定，上述向前延续或向后延续的时段内也就是上述同一播放时段内，预设类型是指用户可以预先设置的可以作为用户感兴趣所在的视频看点的类型，具体可以包括悲伤、震撼、悬疑等类型，或者其他分类类型，例如历史相关、纪实相关等等，每种看点类型可以对应多种不同的微表情情绪标签，每种看点类型被预先配置与之相对应的微表情情绪标签。示例性的，“悬疑”的看点类型对应的微表情情绪标签可以包括困惑、震惊情绪表达等。

在用户端获取到上述视频感兴趣片段后，可以将上述视频感兴趣片段发送至服务器，以使得服务器接收用户端发送的视频感兴趣片段，并根据所述视频感兴趣片段获取所述目标音频信息和目标人脸图像信息。可以理解，通过微表情识别的方式确定视频感兴趣片段，也即用户针对目标视频节目的视频看点所在的视频，从而获取用户针对所观看的目标视频节目中的感兴趣内容，在后续服务器推荐目标视频节目中增加了目标视频节目中感兴趣内容这个维度，从而完成对目标人物的相关视频进行推荐。一方面，通过截取视频看点，减少后续一系列有关视频的计算，另一方面是在后续中增加感兴趣内容，可更进一步提高视频推荐的针对性(视频类型等等)等，进一步提高了视频推荐的针对性。

除了上述获取到目标视频节目中的目标音频信息和目标人脸图像信息的方式外，还可以通过其他的方式获取到目标音频信息和目标人脸图像信息，在一些实施例中，其中，当用户想要对正在播放的目标视频节目进行识别的时候，可以通过启动用户端中安装的用于目标视频节目识别的用户端来进行识别。那么在启动了该目标视频节目识别的用户端后，用户可以通过用户端中预设的触发方式来输入目标视频节目识别指令，此时，用户端即接收到该输入的目标视频节目识别指令，在接收到上述目标视频节目识别指令后，可获取目标视频节目中的目标音频信息和目标人脸图像信息，另外，上述目标视频节目包括直播类的目标视频节目和非直播类的目标视频节目，这里不做限定。需要说明的是，本发明不限定上述输入目标视频节目识别指令预设的触发方式的具体实现方式，示例性的，可以通过点击虚拟按钮，或按动物理按键，或输入语音指令等方式作为上述预设的触发方式。

在一些实施例中，如图4所示，步骤S40中，也即根据目标声纹特征信息对应的声纹置信度，以及目标人脸图像信息确定所采用的目标人物信息，具体包括：

S41：当所述声纹置信度大于或等于第一预设置信度阈值时，将所述目标声纹特征信息确定为所采用的所述目标人物信息。

S42：当所述声纹置信度大于或等于第二预设置信度阈值、且小于所述第一预设置信度阈值时，将所述目标人脸图像信息和所述目标声纹特征信息中的任意一个信息确定为所采用的所述目标人物信息。

S43：当所述声纹置信度小于所述第二预设置信度阈值时，将所述目标人脸图像信息确定为所采用的所述目标人物信息。

在本发明实施例中，服务器可以在所述声音置信度大于或等于第一置信度阈值时，将所述目标声纹特征信息确定为所采用的目标人物信息，并根据所述目标人物信息获取人物的识别结果，并根据所述目标人物信息获取所述人物的识别结果(即仅采用所述目标人脸图像信息识别所述人物)，从而推荐上述目标人物信息相关联的目标视频节目，也即与上述人物相关联的目标视频节目。

可见，基于声音置信度并采用目标人脸图像信息和目标声纹特征信息获取人物的识别结果。通过分析声音置信度在获取人物的识别结果中的调节作用，实现根据目标人脸图像信息或目标声纹特征信息获取人物的识别结果，增加了获取到的人物的识别结果的准确性。总的来说即是:步骤S41-S42中，提出了一种具体的根据所述每个人物的目标声纹特征信息对应的声纹置信度，以及所述目标人脸图像信息确定所采用的目标人物信息的实现手段，在于确定声纹置信度和预设声纹置信度阈值之间的关系，在人脸信息和目标声纹特征信息中确定所采用的目标人物信息，提出了一种可以适应不同的声纹情况选取最优推荐方式的具体实施手段，提高了方案的可实施性，减少声纹不准确所带来的视频匹配度较低的问题。

在一实施例中，如图5所示，步骤S50中，也即根据所述目标人物信息确定目标视频节目，具体包括如下步骤：

S501：采集多个视频节目。

具体地，服务器可以预先采集足够多的视频节目。

S502：分析所述多个视频节目，以获得所述多个视频节目中每个视频节目关联的人物信息的声学特征和人脸特征。

具体地，服务器可以预先将采集的所有视频节目通过人工标注的方式，标注出视频节目里面所有语音信息的片段所对应的人物信息(即人物身份信息)，然后通过从每一段对语音信息提取基音频谱及包络、基音帧的能量、基音共振峰的出现频率及其轨迹等特征参数，提取的特征参数即为该人物的声纹特征，并且从每一段对语音信息提取视频内容中出现的人物的人脸特征。

S503：建立声学人脸特征表，所述声学人脸特征列表包括每个人物信息各自关联的视频节目，以及所述人物信息在每个视频节目中对应的语音信息的声纹特征以及人脸特征。

其中，所述声学人脸特征列表包括每个人物信息各自关联的视频节目为视频库中的节目，具体地，该声纹特征列表包括每个人物各自关联的视频节目，以及该人物在每个视频节目中对应的声纹特征以及人脸特征。也就是说，可以先整理每个视频节目关联的人物信息，然后整理以基音频谱及包络、基音帧的能量、基音共振峰的出现频率及其轨迹等特征参数组成语音信息的声纹特征，和人脸特征，最后将上述声纹特征以及人脸特征整理成以人物信息为键，对应到该人物关联的所有视频节目列表，再以每一部视频节目为键，对应到该人物信息关联的该视频节目中对应的声学人脸特征列表的映射表。

S504：根据所述目标人物信息以及所述声学人脸特征表，从所述视频数据库确定出所述目标视频节目。

这样，确定了目标人物信息之后即可根据所述目标人物信息以及所述声学人脸特征表，从视频库中确定出所述目标视频节目。

在一实施例中，如图6所示，步骤S504中，也即所述根据所述目标人物信息以及所述声学人脸特征表，从所述视频数据库确定出所述目标视频节目，具体包括如下步骤：

S5041：若将所述目标声纹特征信息确定为所采用的所述目标人物信息，将所述目标声纹特征信息与所述声学人脸特征表进行匹配，以匹配出目标声纹特征；将所述目标声纹特征对应的目标视频节目作为所述目标视频节目。

可以理解，所述声学人脸特征列表包括每个人物信息各自关联的视频节目，以及所述人物信息在每个视频节目中对应的语音信息的声纹特征以及人脸特征，该声学人脸特征表存储有视频节目对应的语音信息的声纹特征；那么服务器可以将目标声纹特征信息与声学人脸特征表中声纹特征进行匹配；匹配成功的声纹特征即为目标声纹特征，并根据声学人脸特征列表确定出该目标声纹特征对应的视频节目作为目标视频节目进行推荐。

S5042：若将所述目标人脸图像信息确定为所采用的所述目标人物信息，则从所述目标人脸图像信息提取出人脸特征；将所述人脸特征与所述声学人脸特征表进行匹配，以匹配出目标人脸特征；将所述目标人脸特征对应的目标视频节目作为所述目标视频节目。

可以理解，所述声学人脸特征列表包括每个人物信息各自关联的视频节目，以及所述人物信息在每个视频节目中对应的语音信息的声纹特征以及人脸特征，该声学人脸特征表存储有视频节目对应的人脸特征；那么服务器可以将将所述人脸特征与所述声学人脸特征表进行匹配，以匹配出目标人脸特征；匹配成功的人脸特征即为目标人脸特征，并根据声学人脸特征列表确定出该目标人脸特征对应的视频节目作为目标视频节目进行推荐。

将所述目标人脸图像信息和所述目标声纹特征信息的任意一个确定为所采用的目标人物信息，则可以依据步骤S5041或S5042的方式确定出目标视频节目，具体这里不再重复赘述。

在本发明实施例中，服务器可以在所述声音置信度大于或等于第一置信度阈值时，将所述目标声纹特征信息确定为所采用的目标人物信息，并根据所述目标人物信息获取人物的识别结果(即采用所述目标声纹特征信息辨别人物，而所述目标人脸图像信息不采用)；在所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时，将所述目标人脸图像信息和所述目标声纹特征信息共同确定为所采用的目标人物信息，并根据所述目标人物信息获取人物的识别结果(即采用是目标声纹特征信息进行声纹辨别人物，同时采用目标人脸图像信息以人脸识别的方式进一步识别所述人物)；在所述声音置信度小于第二置信度阈值时，将所述目标人脸图像信息确定为所采用的目标人物信息，并根据所述目标人物信息获取所述人物的识别结果(即仅采用所述目标人脸图像信息识别所述人物)，从而推荐上述目标人物信息相关联的目标视频节目，也即与上述人物相关联的目标视频节目。

在一些实施例中，可以理解，经过步骤S60后，可以得到所述目标人物信息关联的目标视频节目中的目标视频节目，接着可以向用户端推荐上述目标视频节目。具体地，可以向用户端发送上述目标视频节目的相关信息。示例性的，上述该目标视频节目的相关信息可以包括该目标视频节目的名称信息，该目标视频节目的完成的时间信息等。服务器还可以获取该目标视频节目的咨询信息；然后将该目标视频节目的咨询信息发送给用户端，以便用户端展示所述目标视频节目的相关信息。该咨询信息包括以下至少一项：简介信息、人物列表信息、花絮信息、评论信息、集数信息、完整目标视频节目链接信息、完整目标视频节目链接信息等。其中，简介信息可以为该目标视频节目的概要或摘要的介绍信息；人物列表信息可以为参与该目标视频节目的演员或表演者的信息；花絮信息可以为拍摄该目标视频节目是的周边花絮信息；评论信息可以为观看过该目标视频节目的用户进行评论信息；集数信息可以为当前播放的目标视频节目处于第几集，以及总共有多少集的信息；完整目标视频节目链接信息可以为链接到查看该目标视频节目的所有集数的信息等。需要说明的是，目标视频节目的相关信息可以依据实际应用场景或需求进行配置，这里不做限定，也不一一赘述。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种视频节目处理装置，该视频节目处理装置与上述实施例中视频节目处理方法一一对应。如图7所示，该视频节目处理装置10包括获取模块101、提取模块102、第一确定模块103、第二确定模块104、第三确定模块105以及推荐模块106。各功能模块详细说明如下：

获取模块101，用于获取用户播放的目标视频节目中的目标音频信息和目标人脸图像信息，所述目标音频信息和目标人脸图像信息为所述目标视频节目中同一播放时段内所获取的信息；

提取模块102，用于根据预设声纹匹配模型对所述目标音频信息进行声纹特征提取，以提取目标声纹特征信息；

第一确定模块103，用于确定所述目标声纹特征信息对应的声纹置信度，所述声纹置信度用于指示所述目标声纹特征信息与在所述同一播放时段内所述目标视频节目出现的人物的对应关系的可信程度；

第二确定模块104，用于根据目标声纹特征信息对应的声纹置信度，以及目标人脸图像信息确定所采用的目标人物信息；

第三确定模块105，用于根据所述目标人物信息确定目标视频节目，所述目标视频节目为与所述目标人物信息相关联的节目；

推荐模块106，用于向所述用户推荐所述目标视频节目。

在一实施例中，所述获取模块具体用于：

接收用户端发送的视频感兴趣片段，所述视频感兴趣片段为所述用户端播放所述目标视频节目过程中，采集所述用户观看所述目标视频节目过程中的微表情信息，并对所述微表情信息进行微表情识别后得到，所述视频感兴趣片段为所述目标视频节目中的其中一段；

获取所述视频感兴趣片段中的所述目标音频信息和目标人脸图像信息。

在一实施例中，所述第二确定模块具体用于：

当所述声纹置信度大于或等于第一预设置信度阈值时，将所述目标声纹特征信息确定为所采用的所述目标人物信息；

当所述声纹置信度大于或等于第二预设置信度阈值、且小于所述第一预设置信度阈值时，将所述目标人脸图像信息和所述目标声纹特征信息中的任意一个信息确定为所采用的所述目标人物信息；

当所述声纹置信度小于所述第二预设置信度阈值时，将所述目标人脸图像信息确定为所采用的所述目标人物信息。

在一实施例中，所述第三确定模块具体用于：

采集多个视频节目；

分析所述多个视频节目，以获得所述多个视频节目中每个视频节目关联的人物的声纹特征和人脸特征；

建立声学人脸特征表，将所述声学人脸特征表对应存储在视频数据库中，所述声学人脸特征列表包括每个人物信息各自关联的视频节目，以及所述人物信息在每个视频节目中对应的人物的声纹特征以及人脸特征；

根据所述目标人物信息以及所述声学人脸特征表，从所述视频数据库确定出所述目标视频节目。

在一实施例中，所述第三确定模块用于根据所述目标人物信息以及所述声学人脸特征表，从所述视频数据库确定出所述目标视频节目，具体包括：

所述第三确定模块用于：

若将所述目标声纹特征信息确定为所采用的所述目标人物信息，将所述目标声纹特征信息与所述声学人脸特征表进行匹配，以匹配出目标声纹特征；将所述目标声纹特征对应的目标视频节目作为所述目标视频节目；

若将所述目标人脸图像信息确定为所采用的所述目标人物信息，则从所述目标人脸图像信息提取出人脸特征；将所述人脸特征与所述声学人脸特征表进行匹配，以匹配出目标人脸特征；将所述目标人脸特征对应的目标视频节目作为所述目标视频节目。

关于视频节目处理装置的具体限定可以参见上文中对于视频节目处理方法的限定，在此不再赘述。上述视频节目处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储获取的人脸图像信息和声纹特征信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频节目处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

向所述用户推荐所述目标视频节目。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

向所述用户推荐所述目标视频节目。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种视频节目处理方法，其特征在于，包括：

向所述用户推荐所述目标视频节目；

所述根据目标声纹特征信息对应的声纹置信度，以及目标人脸图像信息确定所采用的目标人物信息，包括：

2.如权利要求1所述的视频节目处理方法，其特征在于，所述获取用户播放的目标视频节目中的目标音频信息和目标人脸图像信息，包括：

3.如权利要求1-2任一项所述的视频节目处理方法，其特征在于，所述根据所述目标人物信息确定目标视频节目，包括：

采集多个视频节目；

建立声学人脸特征表，将所述声学人脸特征表对应存储在视频数据库中，所述声学人脸特征表包括每个人物信息各自关联的视频节目，以及所述人物信息在每个视频节目中对应的人物的声纹特征以及人脸特征；

4.如权利要求3所述的视频节目处理方法，其特征在于，所述根据所述目标人物信息以及所述声学人脸特征表，从所述视频数据库确定出所述目标视频节目，包括：

5.一种视频节目处理装置，其特征在于，包括：

推荐模块，用于向所述用户推荐所述目标视频节目；

第二确定模块，具体用于：当所述声纹置信度大于或等于第一预设置信度阈值时，将所述目标声纹特征信息确定为所采用的所述目标人物信息；当所述声纹置信度大于或等于第二预设置信度阈值、且小于所述第一预设置信度阈值时，将所述目标人脸图像信息和所述目标声纹特征信息中的任意一个信息确定为所采用的所述目标人物信息；当所述声纹置信度小于所述第二预设置信度阈值时，将所述目标人脸图像信息确定为所采用的所述目标人物信息。

6.如权利要求5所述的视频节目处理装置，其特征在于，所述获取模块具体用于：

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的视频节目处理方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的视频节目处理方法。