CN109286848B

CN109286848B - 一种终端视频信息的交互方法、装置及存储介质

Info

Publication number: CN109286848B
Application number: CN201811167565.3A
Authority: CN
Inventors: 邓朔
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2020-08-04
Anticipated expiration: 2038-10-08
Also published as: CN109286848A

Abstract

本发明涉及视频处理技术领域，公开了一种终端视频信息的交互方法、装置及存储介质，用于提升用户观看视频时的体验感，以及提升终端与用户之间的视频信息交互速率。所述方法包括：当接收到用户的暂停命令时，暂停终端当前播放的视频，并获得暂停画面；在组成所述视频的元素中，获取与所述暂停画面相关的元素信息；将所述元素信息发送给服务器进行识别，并获得所述服务器反馈的识别结果；将所述识别结果，关联在所述暂停画面中。

Description

一种终端视频信息的交互方法、装置及存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种终端视频信息的交互方法、装置及存储介质。

背景技术

随着互联网资源的发展和视频播放软件的多样化，越来越多的用户喜欢在终端如平板电脑或是移动设备上观看视频文件，在观看视频文件的过程中，若用户想要了解视频中出现的人、物或其他内容时，需要离开当前的视频播放器，打开终端中的搜索引擎进行相关信息的搜索，这样就大大降低了用户观看视频时的体验感。

因此，在视频播放过程中，如何进行视频信息的交互，以提升用户观看视频时的体验感，也是一个需要考虑的技术问题。

发明内容

本发明实施例提供一种终端视频信息的交互方法、装置及存储介质，用于提升用户观看视频时的体验感，以及提升终端与用户之间的视频信息交互速率。

一方面，本发明实施例提供一种终端视频信息的交互方法，包括：

当接收到用户的暂停命令时，暂停终端当前播放的视频，并获得暂停画面；

在组成所述视频的元素中，获取与所述暂停画面相关的元素信息；

将所述元素信息发送给服务器进行识别，并获得所述服务器反馈的识别结果；

将所述识别结果，关联在所述暂停画面中。

本发明实施例中，在终端接收到用户的暂停命令时，可暂停终端当前播放的视频，终端可获取组成视频的元素中，与暂停画面相关的元素信息，例如组成视频画面的图像的信息，组成视频声音或字幕的音频的信息，进而终端可将获取到的元素信息发送给服务器进行识别，从而获得服务器反馈的识别结果，进一步的，终端可将识别结果关联在终端显示界面显示的暂停画面中，以实现用户与终端设备中播放的视频信息的交互，所以，提升了用户观看视频时的体验感，也提升了终端与用户之间的视频信息交互速率。

可选的，所述在组成所述视频的元素中，获取与所述暂停画面相关的元素信息，具体包括：对暂停画面进行图像识别，获取暂停画面的图像信息；

所述将所述元素信息发送给服务器进行识别，具体包括：

将所述图像信息发送给服务器进行识别；以及

所述获得所述服务器反馈的识别结果，具体包括：

获得所述服务器反馈的人和\或物的属性信息，所述人和\或物的属性信息为所述服务器根据从图像信息中提取出人和\或物的图像特征信息与所述服务器数据库中存储的人和\或物的图像特征信息进行匹配而获得的属性信息。

可选的，所述在组成所述视频的元素中，获取与所述暂停画面相关的元素信息，具体包括：

对暂停画面进行图像识别，获取暂停画面的图像信息，并从所述图像信息中提取出人和\或物的图像特征信息；

所述将所述元素信息发送给服务器进行识别，具体包括：

将所述人和\或物的图像特征信息发送给服务器进行识别；以及

所述获得所述服务器反馈的识别结果，具体包括：

可选的，所述对暂停画面进行图像识别之前，还包括：

评估所述暂停画面，并确定所述暂停画面是否满足进行识别的预设条件。

可选的，所述评估所述暂停画面，并确定所述暂停画面是否满足进行识别的预设条件，具体包括：

对所述暂停画面进行人脸检测，以确定所述暂停画面中是否包括人脸；

当所述暂停画面包括人脸时，确定人脸面积占所述暂停画面面积的比值是否大于比例阈值；

其中，在人脸面积占所述暂停画面面积的比值大于所述比例阈值时，则确定所述暂停画面满足所述预设条件，在人脸面积占所述暂停画面面积的比值小于或等于所述比例阈值时，则确定所述暂停画面不满足所述预设条件。

对所述暂停画面进行边缘检测，获得所述暂停画面的边缘密度

确定所述边缘密度是否大于密度阈值；

其中，在所述边缘密度大于所述密度阈值时，则确定所述暂停画面满足所述预设条件，在所述边缘密度小于或等于所述密度阈值时，则确定所述暂停画面不满足所述预设条件。

可选的，所述服务器反馈的识别结果为表征所述人和\或物的属性信息，所述将所述识别结果，关联在所述暂停画面中，具体为：

在所述暂停画面中的预设位置，显示所述属性信息；或者

在所述属性信息包括人或物在所述暂停画面的位置信息时，根据所述位置信息，在所述暂停画面中识别出的人和\或物所在的位置，建立人机交互组件，以及将所述组件与所述属性信息建立关联，以便在接收到所述用户操作所述组件的命令时，显示所述属性信息。

可选的，所述获取组成所述视频的元素中，与暂停画面相关的元素信息，具体包括：

获取所述视频中包含所述暂停画面的时间点的预设时长之内的音频信息；

所述将所述元素信息发送给服务器进行识别，具体包括：将所述音频信息发送给服务器进行识别。

可选的，所述将所述音频信息发送给服务器进行识别，具体包括：

确定所述音频信息中的音频类别；

当所述音频类别为语音信号或为音乐信号时，将所述音频信息发送给所述服务器，以便所述服务器对所述音频信息的音频内容进行识别。

可选的，所述服务器反馈的识别结果为表征所述音频内容的属性信息，所述将所述识别结果，关联在所述暂停画面中，具体为：

在所述暂停画面中的预设位置，显示所述属性信息；或者

在在所述暂停画面中的预设位置建立人机交互组件，将所述属性信息与所述组件进行关联，以便在接收到所述用户操作所述组件的命令时，显示所述属性信息。

另一方面，本发明实施例提供一种终端视频信息的交互装置，包括：

暂停单元，用于当接收到用户的暂停命令时，暂停终端当前播放的视频，并获得暂停画面；

获取单元，用于在组成所述视频的元素中，获取与所述暂停画面相关的元素信息，以及将所述元素信息发送给服务器进行识别，并获得所述服务器反馈的识别结果；

关联单元，用于将所述识别结果，关联在所述暂停画面中。

可选的，所述获取单元，还用于：

对暂停画面进行图像识别，获取暂停画面的图像信息；

将所述图像信息发送给所述服务器进行识别；以及

可选的，所述获取单元，还用于：

可选的，所述获取单元，还用于：评估所述暂停画面，并确定所述暂停画面是否满足进行识别的预设条件。

可选的，所述获取单元，还用于：

对所述暂停画面进行边缘检测，获得所述暂停画面的边缘密度；

确定所述边缘密度是否大于密度阈值；

可选的，所述关联单元，还用于：

在所述暂停画面中的预设位置，显示所述属性信息；或者

在所述属性信息包括识人或物在所述暂停画面的位置信息时，根据所述位置信息，在所述暂停画面中识别出的人和\或物所在的位置，建立人机交互组件，以及将所述组件与所述属性信息建立关联，以便在接收到所述用户操作所述组件的命令时，显示所述属性信息。

可选的，所述获取单元，还用于：

确定所述音频信息中的音频类别；

可选的，所述关联单元，还用于：

在所述暂停画面中的预设位置，显示所述属性信息；或者

在所述暂停画面中的预设位置建立人机交互组件，将所述属性信息与所述组件进行关联，以便在接收到所述用户操作所述组件的命令时，显示所述属性信息。

另一方面，本发明实施例提供一种信息处理装置，包括至少一个处理器、以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行如上述终端视频信息的交互方法的步骤。

另一方面，本发明实施例提供一种存储介质，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如上述终端视频信息的交互方法的步骤。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1为本发明实施例提供的一种应用场景示意图；

图2为本发明实施例提供的一种终端视频信息的交互流程图；

图3为本发明实施例提供的一种评估暂停画面方法的流程图；

图4为本发明实施例提供的另一种评估暂停画面方法的流程图；

图5为本发明实施例提供的一种对暂停画面进行图像识别的流程图；

图6为本发明实施例提供的另一种对暂停画面进行图像识别的流程图；

图7为本发明实施例提供的一种识别图像中人、物的示意图；

图8为本发明实施例提供的另一种识别图像中人、物的示意图；

图9为本发明实施例提供的再一种识别图像中人、物的示意图；

图10为本发明实施例提供的再一种识别图像中人、物的示意图；

图11为本发明实施例提供的对暂停画面的音频进行识别的流程图；

图12为本发明实施例提供一种终端视频信息的交互装置示意图；

图13为本发明实施例提供另一种终端视频信息的交互装置示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明技术方案保护的范围。

现有技术中，在视频播放过程中，若用户想要了解视频中出现的人、物或其他内容时，需要离开当前的视频播放器，打开终端中的搜索引擎进行相关信息的搜索，不仅降低了用户体验，且该方式获取视频中相关信息的速度较慢，从而进一步影响了用户体验。

为此，本发明实施例提出了一种终端视频信息的交互方法，该方法在接收到用户暂停命令时，暂停终端当前播放的视频，进而获取组成视频的元素中与暂停画面相关的元素信息，其中，获取的元素信息可以是组成暂停画面的图像的相关信息，也可以是与暂停画面同步的音频的相关信息，当然，获取的元素信息还可以同时包括上述图像的相关信息以及音频的相关信息，终端可以将获取的元素信息发送给服务器进行识别，以识别出暂停画面中的图像内容和\或与暂停画面同步的音频内容，终端进一步可以将识别出的上述内容关联在暂停画面中，以实现用户与终端设备中的暂停画面中的图像内容和\或与暂停画面同步的音频内容的交互，所以，提升了用户观看视频时的体验感，也提升了终端与用户之间的视频信息交互速率。

本发明实施例中的终端视频信息的交互方法可以应用于如图1所示的应用场景，在该应用场景中包括终端10以及服务器11，终端10为任何能够按照程序运行、自动、高速处理大量数据的具有视频播放功能的智能电子设备，这样的终端10如智能手机，平板电脑等，服务器11可以是一台服务器，也可以是若干台服务器组成的服务器集群或云计算中心，终端10通过网络与服务器11通信，网络可以为局域网、广域网或移动互联网等通信网络中的任意一种。在该应用场景下，终端10可以安装任何类型的视频播放软件，然后通过安装的视频播放软件播放视频，在通过视频播放软件播放视频的过程中，若接收到用户的暂停命令时，可以按照本发明实施例提供的终端视频信息交互方法进行处理，下文将进行详细描述。

需要注意的是，上文提及的应用场景仅是为了便于理解本发明的精神和原理而示出，本发明实施例在此方面不受任何限制。相反，本发明实施例可以应用于适用的任何场景。

下面结合图1所示的应用场景，对本发明实施例提供的终端视频信息的交互方法进行说明。

如图2所示，本发明实施例提供的一种终端视频信息的交互方法，包括：

步骤101：当接收到用户的暂停命令时，暂停终端当前播放的视频。

本发明实施例中，终端接收用户的暂停命令的方式包括多种，例如，可以通过接收用户点击正在播放的视频画面的点击操作，获得用户的暂停命令，还可以是通过接收到用户点击终端中专门设置的用于暂停当前播放视频的按钮的方式，获得用户的暂停命令，也可以通过接收用户发出的语音方式，进而识别语音获得用户的暂停命令。

终端在接收用户的暂停命令之后，暂停播放终端当前正在播放的视频，同时终端的显示界面会显示暂停播放视频时的暂停画面，其中，暂停画面是指，终端执行暂停当前播放的视频的操作时，终端显示界面显示的视频中的一帧图像。

步骤102：获取组成视频的元素中，与暂停画面相关的元素信息。

本发明实施例中，组成视频的元素是指组成视频画面的图像，以及组成视频声音的音频，视频在播放时，图像以每秒超过24帧的速度变化，进而形成连续的视频画面，音频与图像进行同步，从而在连续的视频画面中同步播放出视频的声音。

因此，本发明实施例中，终端在暂停当前播放的视频之后，获取组成视频元素中与暂停画面相关的元素信息，其中，与暂停画面相关的元素信息，可以是组成暂停画面的图像的相关信息，也可以是与暂停画面同步的音频的相关信息，还可以同时包括上述两种相关信息。

例如，当暂停画面没有同步的音频时，终端可以获取与暂停画面相关的图像的相关信息，进而步骤102中的元素信息可以为与暂停画面相关的图像的相关信息；当暂停画面有同步的音频时，步骤102中的元素信息可以同时包括与暂停画面相关的图像的相关信息，以及与暂停画面同步的音频的相关信息。

步骤103：将元素信息发送给服务器进行识别，并获得服务器反馈的识别结果。

在本发明实施例中，为了降低对终端硬件的要求以及提升视频信息交互的速度，终端在获取到组成暂停画面的图像的相关信息和\或与暂停画面同步的音频的相关信息之后，可以将上述相关信息发送给后台的服务器(下文简称为服务器)进行识别，通过服务器的反馈，获得对组成暂停画面的图像的相关信息的识别结果，以及获得与暂停画面同步的音频的相关信息的识别结果。

下文将分别针对终端将获取到的组成暂停画面的图像的相关信息发送给服务器进行识别，以及终端将获取到的与暂停画面同步的音频的相关信息发送给服务器进行识别的情况进行详细介绍。

步骤104：将识别结果关联在暂停画面中。

在本发明实施例中，终端接收到服务器反馈的识别结果，例如，在终端将组成暂停画面的图像相关信息发送给服务器进行识别，对应的，终端会接收到服务器反馈的对上述图像相关信息的识别结果；在终端将与暂停画面同步的音频的相关信息发送给服务器进行识别，对应的，终端会接收到服务器反馈对上述音频内容的识别结果。

在本发明实施例中，终端将接收服务器反馈的对上述图像相关信息的识别结果，以及对上述音频内容的识别结果，关联在终端显示的暂停画面中，关联的方式包括多种，例如，可以在终端显示的暂停画面的预设位置中显示对图像相关信息的识别结果以及音频内容的识别结果，其中，预设位置可以是终端显示的暂停画面中的任意位置；还可以在终端显示虚拟按键，将该虚拟按键关联图像相关信息的识别结果，以及音频内容的识别结果，进而在接收到用户操作该虚拟按钮的操作时，展示该虚拟按钮关联的上述识别内容。

所以，通过上述方法，在终端接收到用户的暂停命令时，可暂停终端当前播放的视频，获取组成视频的元素中，与暂停画面相关的元素信息，例如组成视频画面的图像的信息，组成视频声音或字幕的音频的信息，进而终端可将获取到的元素信息发送给服务器进行识别，从而获得服务器反馈的识别结果，进一步的，终端可将识别结果关联在终端显示界面显示的暂停画面中，以实现用户与终端设备中播放的视频信息的交互，所以，提升了用户观看视频时的体验感，也提升了终端与用户之间的视频信息交互速率。

一种可选的方式，在本发明实施例中，为了提高准确识别用户发出暂停终端当前播放的视频的命令，是因为用户想要了解暂停画面中出现的人、物或其他内容的意图的概率，因此，在执行步骤102之前，还可以先评估暂停画面，并确定暂停画面是否满足进行识别的预设条件。

在实际应用中，暂停画面包括的信息量越多，用户发出暂停命令是因为其想要了解暂停画面中的内容的意图的概率就越大，因此，在本发明实施例中，终端在获取用户的暂停命令，暂停终端当前播放的视频之后，可以先对暂停画面进行评估(又可称为对暂停画面的价值评估)，以评估暂停画面中包括的信息量的多少，进而可以根据评估结果，确定用户发出暂停命令是因为其想要了解暂停画面中的内容的意图的概率的大小，进而确定是否对暂停画面进行识别。

因此，预设条件可以设置为：评估结果即暂停画面中包括的信息量是否大于阈值，若是，则认为用户发出暂停命令是因为其想要了解暂停画面中的内容的意图的概率的大，进而确定对暂停画面进行识别；否则，认为用户发出暂停命令是因为其想要了解暂停画面中的内容的意图的概率的小，进而确定对暂停画面不进行识别，因此，在本发明实施例中，通过采用确定暂停画面是否满足进行识别的预设条件，并在评估结果满足对暂停画面满足进行识别的预设条件时，才执行上述步骤102，具有能够提高准确识别用户发出暂停终端当前播放的视频的命令，是因为用户想要了解暂停画面中内容的意图的概率，并在识别该意图之后，才对暂停画面进行识别，以实现视频信息的交互，且还具有能够减少不必要的终端资源的消耗的效果。

在本发明实施例中，可以灵活设置评估暂停画面的方式，下文列举两种优选的评估暂停画面的方式：

一种方式，如图3所示的流程，包括：

步骤201：对暂停画面进行人脸检测；

步骤202：根据检测结果，确定暂停画面中是否包括人脸，若是则执行步骤203，否则结束操作；

步骤203：确定人脸面积占暂停画面面积的比值是否大于比例阈值，若是，则执行步骤204，否则执行步骤205；

步骤204：确定暂停画面满足进行识别的预设条件；

步骤205：确定暂停画面不满足进行识别的预设条件。

在本发明实施例中的此种方式中，基于人们对视频中出现的人物感兴趣的概率较大的思想，若暂停画面中出现的人物越多，信息量越大，人物感兴趣的概率越高，因此，采用人脸检测方法对暂停画面进行价值评估。

其中，人脸检测技术是指对于任意一幅给定的图像，采用一定的策略对其进行搜索以确定其中是否含有人脸，如果是则返回一脸的位置、大小和姿态。

本发明实施例中，采用人脸检测技术对暂停画面进行检测之后，可以根据检测结果确定暂停画面中是否包括人脸，若不包括人脸，表征暂停画面中的信息量少，此时可以结束操作，若根据检测结果，确定暂停画面包括人脸，则可以进一步确定暂停画面中的人脸面积占暂停画面面积的比值是否大于比例阈值，进一步提高暂停画面价值评估的准确度。

在本发明实施例中，在暂停画面包括人脸时，若包括的人脸面积所占的暂停画面面积的比值太小，不仅表征暂停画面中的信息量较小，且可能存在采用人脸识别技术都无法识别出来该人脸是谁的情况，因此，可以事先设置比例阈值，当暂停画面中的人脸面积所占的暂停画面面积的比值大于比例阈值时，则确定暂停画面满足进行识别的条件，执行上述步骤102，否则，确定暂停画面不满足进行识别的条件，可结束操作。

另一种方式，如图4所示，包括：

步骤301：对暂停画面进行边缘检测，获得暂停画面的边缘密度；

步骤302：确定边缘密度是否大于密度阈值，若是，则执行步骤303，否则执行步骤304；

步骤303：确定暂停画面满足进行识别的预设条件；

步骤304：确定暂停画面不满足进行识别的预设条件。

在本发明实施例的此种方式中，考虑到在图像学中，图像的信息往往包含在具有复杂纹理的目标中，包含这种物体的目标往往具有边缘丰富，高频信息丰富，若暂停画面的边缘密度越大，则信息量越丰富，因此，采用图像边缘检测技术对暂停画面进行价值评估。

其中，图像边缘是指边图像局部特征的不连续性，边缘广泛存在于目标与目标之间，物体与背景之间，区域与区域之间，因此，图像边缘密度越大，信息量越丰富。

在本发明实施例中，采用图像边缘检测技术对暂停画面进行边缘检测时，先使用边缘检测提取暂停画面的边缘，再使用形态学滤波，去除噪音得到二值暂停画面的I_bin，采用公式(1)计算获得暂停画面的边缘密度：

其中，m为图像的宽度，n为图像的高度。

在本发明实施例中，可预先设置一密度阈值，该密度阈值用于与判断计算获得暂停画面的边缘密度(下文简称暂停画面边缘密度)进行比较，当暂停画面边缘密度大于密度阈值，则认为暂停画面的所包括的信息量丰富，满足对暂停画面进行识别的条件，执行上述步骤102，否则，确定暂停画面不满足进行识别的条件，可结束操作。在本发明实施例中，经过大量实验验证得到，将密度阈值设置为0.3左右时(如0.3)，暂停画面价值评估的准确度较高。因此，在本发明实施例中，可以将密度阈值设置为0.3。

需要说明的是，在具体实践过程中，可以同时采用上文叙述的两种价值评估方式对暂停画面进行价值评估，也可以结合其他价值评估方式对暂停画面进行价值评估。

一种可选的方式，在本发明实施例中，执行步骤102之前，还可以确定是否接收到用户对暂停画面进行识别的命令。

在本发明实施例中，在执行步骤102之前，除了可以采用上文叙述的评估暂停画的方式，使终端自动识别用户发出暂停终端当前播放的视频的命令，是因为用户想要了解暂停画面中出现的人、物或其他内容的意图，还可以采用确定是否接收到用户对暂停画面进行识别的命令的方式，让用户主动触发终端对暂停画面进行识别的功能。

例如，终端在接收到用户的暂停命令，暂停终端当前播放的视频时，可在暂停画面中显示操作按键，操作按键作为用户向终端传递用户想要识别暂停终端的指令的接口，当用户操作该操作按键时，如点击该操作按键，终端就获取到用户想要识别暂停终端的指令，进而终端可执行上述步骤102，否则，不对暂停画面进行识别，可结束操作。

一种可选的方式，在本发明实施例中，若终端在组成视频的元素中，获取与暂停画面相关的元素信息包括组成暂停画面的图像的相关信息时，本发明实施例中步骤102和步骤103还可以具体按照图5所示的流程执行，或按照图6所示的流程执行。

图5所示的流程，包括：

步骤401：对暂停画面进行图像识别，获取暂停画面的图像信息；

步骤402：将图像信息发送给服务器进行识别；

步骤403：获得服务器根据从图像信息中提取出人和\或物的图像特征信息进行匹配而获得的人和\或物的属性信息。

图6所示的流程，包括：

步骤404：对暂停画面进行图像识别，获取暂停画面的图像信息；

步骤405：从图像信息中提取出人和\或物的图像特征信息；

步骤406：将人和\或物的图像特征信息发送给服务器进行识别；

步骤407：获得服务器根据接收到的人和\或物的图像特征信息进行匹配而获得的人和\或物的属性信息。

在本发明实施例中，终端在接收到用户的暂停命令，暂停播放的视频之后，可对暂停画面进行图像识别，进而获取暂停画面的图像信息，该图像信息可以是视频中与暂停画面对应的一帧图像的信息，也可以是直接截取暂停画面的图像的信息，终端获取暂停画面的图像信息之后，可以如图5所示的步骤402，将该图像信息直接发送给服务器，服务器接收到终端发送的暂停画面的图像信息之后，对该图像信息中的图像采用图像识别技术进行识别，以识别图像中包括的人、物。

假设上述图像信息中的图像如图7所示，为张三的演唱会的图像，服务器可以对该图像进行颜色以及色彩的显著性分析即进行显著性算法处理，对图像进行Pixel-wise级别的分割即图像分割，再结合显著性分析信息，获取图像中的前景信息，并对图像中的前景信息与服务器中图像数据库中保存的人、物的信息进行对比分析，即人脸识别和人的属性确定过程，以及物体识别和物的属性的确定过程，以识别出图中的人是谁，图中物是什么物体。

服务器中图像数据库保存大量的不同人的人脸特征信息以及对应的人的属性信息，还保存大量的不同物的特征信息以及各个物的属性信息，其中，人脸特征信息，是指对人脸器官的形状描述以及人脸器官之间的距离特征的描述，人脸器官主要包括眼睛、鼻子、嘴、下巴等；物的特征信息，是指对物的形状、构造等的描述。

服务器可以提取出图7中的人脸，例图7中的1号人脸，对1号人脸进行人脸识别，提取出1号人脸的特征信息，将1号人脸的特征信息与服务器中图像数据库中的人脸特征信息进行对比，以识别出1号人脸是谁，假设识别出该1号人脸为张三，那么，服务器可以进一步从图像数据库中搜索出张三的属性信息，张三的属性信息可以包括张三的姓名、年龄、身高、体重，主要作品等等，基于同样的原理，服务器可以识别出图像中的其他人脸如图7中2号人脸，获得2号人脸对应的人的属性信息，进而终端基于服务器的反馈，获得图像7中的1号人脸对应的人的属性信息和2号人脸对应的人的属性信息。

同样的，对于图中的物，服务器可以提取出图7中3号物体和4号物体进行物体识别，同样的，服务器可以先提取出3号物体和4号物体的特征信息，将3号物体和4号物体的特征信息与服务器中图像数据库中的物的特征信息进行对比，以识别出3号物体和4号物体是什么物体，即识别出3号物体和4号物体均为话筒，那么，服务器可以进一步从图像数据库中搜索出话筒的属性信息，话筒的属性信息可以包括话筒的价格、分类、话筒工作原理描述等信息，基于同样的原理，服务器可以识别出图像中的其他物，获得其他物体的属性信息，进而终端基于服务器的反馈，获得图像中的物的属性信息。

需要说明的是，在实际应用中，也存在步骤401和步骤404中获得的图像信息中的图像包括人脸不包括物的情况或包括物不包括人脸的情况，对应的，在图像包括人脸不包括物时，可以如上文叙述方法识别图像中的人脸，进而获得识别的人脸对应的人的属性信息；在图像包括物不包括人脸时，可以如上文叙述方法识别图像中的物，进而获得识别的物的属性信息。

在图6所示的流程中，终端在获取暂停画面的图像信息之后，可以对图像信息中的图像进行预处理，以提取出图像中的人和\或物的图像特征信息，将提取出的人的图像特征信息以及物的图像特征信息发送给服务器进行图像识别，以识别图像中的人是谁，物是什么物体，并基于服务器的反馈，获得图像中人脸对应的人的属性信息以及物的属性信息，具体过程参照上文的叙述，在此就不重复叙述了。

一种可选的方式，在本发明实施例中，终端将获得的人的属性信息以及物的属性信息，关联在暂停图像中的方式至少包括以下两种。

一种关联方式为：

在暂停画面中的预设位置，显示属性信息。

在本发明实施例中，终端可以在暂停画面中预先设置用于显示识别结果的位置，该预设位置可以是终端显示的暂停画面中的任一位置，终端在获取服务器反馈的识别结果，即人的属性信息以及物的属性信息，可以在暂停画面中设置的预设位置显示人的属性信息以及物的属性信息。

例如图8所示，预设位置可以设置在暂停画面中的对应的人或物所在的位置的旁边，因此，可以在该区域中显示获得的人的属性信息，假设图8中获得的1号人脸对应的人即张三的属性信息包括张三的姓名、身高以及年龄信息，获得的2号人脸对应的人假设为李四，获得的2号人脸对应的人即李四的属性信息包括李四的姓名、身高以及年龄信息，获得的物的属性信息为物的名称如图8中的话筒，那么，就可以在图8所示的暂停画面中对应的人或物所在的位置的旁边，显示识别出的1号人脸对应的人即张三的姓名、身高、年龄信息，2号人脸对应的人即李四的姓名、身高、年龄信息，以及话筒的名称，以实现用户与终端设备中播放的视频信息的交互。

另一种关联方式为：

根据识别出的人或物在暂停画面的位置信息，在暂停画面中识别出的人和\或物所在的位置，建立人机交互组件；将人机交互组件与属性信息建立关联，以便在接收到用户操作所人机交互组件的命令时，显示关联的属性信息。

在本发明实施例中，终端还可以在识别出的人在暂停画面的所处位置建立人机交互组件，如UI组件，以及在识别出的物在暂停画面的所处位置建立人机交互组件，将识别出的人的属性信息与该人所在暂停画面的位置建立的人机交互组件进行关联，将识别出的物的属性信息与该物所在暂停画面的位置建立的人机交互组件进行关联，那么，用户就可以通过操作暂停画面中建立的人机交互组件，获取到该人机交互组件关联的人的属性信息，或获取到该人机交互组件关联的物的属性信息。

例如图9所示，终端分别在识别出的张三在暂停画面的所处位置、李四在暂停画面的所处位置、以及话筒在暂停画面的所处位置分别建立人机交互组件，建立的人机交互组件的样式可以灵活设置，图9中的人机交互组件为半透明的椭圆，所以，在用户点击图9中的人机交互组件时，如点击图9中张三的人机交互组，那么终端就可如图10所示，在暂停画面显示张三的属性信息，即张三的姓名、身高、年龄信息，以实现用户与终端设备中播放的视频信息的交互。

一种可选的方式，在本发明实施例中，若终端在组成视频的元素中，获取与暂停画面相关的元素信息包括组成暂停画面的音频的相关信息时，本发明实施例中步骤102和步骤103还可以具体按照图11所示的流程执行。

图11所示的流程，包括：

步骤501：获取所述视频中包含所述暂停画面的时间点的预设时长之内的音频信息；

步骤502：判断音频信息中的音频类别，若音频类别为语音信号或为音乐信号时，执行步骤503，否则结束流程；

步骤503：将音频信息发送给所述服务器，以便服务器对所述音频信息的音频内容进行识别。

在本发明实施例中，在暂停画面有同步的音频时，终端还可以获取与暂停画面同步的音频的相关信息，为了更加准确的识别暂停画面同步的音频，获取的音频的相关信息可以具体为包括暂停画面的时间点的预设时长之内的音频信息，其中，暂停画面的时间点是指视频中播放到暂停画面时的时间节点。

例如，当视频的总时长为1小时20分钟时，播放到暂停画面的时间节点为1小时20分钟中的第50分钟，那么，暂停画面的时间点就是该第50分钟，因此，可以获取包括第50分钟在内的预设时长对应的音频信息，预设时长可以根据实际需要灵活设置，例如设置为3分钟，对应的可以获取第49分钟至第51分钟对应的音频信息，也可以获取第50分钟至第52分钟对应的音频信息，或获取第48分钟至第50分钟对应的音频信息。

本发明实施例中，以获取第49分钟至第51分钟对应的音频信息为例，终端在获取到第49分钟至第51分钟对应的音频信息之后，终端可以先对该音频信息进行预处理，识别该音频信息的音频类别，通常，音频类别分为语音信号(如人的说话声)、音乐信号(如歌声、乐器声)以及噪音，音频信息的预处理方式可以是基于机器学习语音识别算法，对频信息进行二分类运算，以识别出音频信息的音频类别。

若识别出来音频信息的音频类别为语音信号或为音乐信号时，终端可以将该音频信息发送给服务器，由服务器对音频信息的音频内容进行识别，例如，当音频信息的音频类别为音乐信号时，可以由服务器识别出的音频内容包括的与音乐相关的属性信息，与音乐相关的属性信息可以是该音乐对应的歌曲的名称，歌曲的歌词，歌曲的创作者等信息；当音频信息的音频类别为语音信号时，服务器识别出的音频内容与对话相关的属性信息，与对话相关的属性信息可以是对话的具体内容，在实际应用中，可以将对话的具体内容以文字的方式呈现，因此，服务器识别出的与对话相关的属性信息可以具体是对话对应的文字。

同样的，服务器可以将识别出的音频内容发送给终端，进而使终端获得识别的音频内容，终端也可以在暂停画面中关联识别出的音频内容，关联的方式可以如上文的叙述，在终端显示的暂停画面的预设位置中显示识别出的音频内容，还可以在终端显示虚拟按键，将该虚拟按键关联识别出的音频内容，进而在接收到用户操作该虚拟按钮的操作时，展示该虚拟按钮关联的识别出的音频内容，以实现用户与终端设备中播放的视频信息的交互，在此，就不重复叙述了。

在实际应用中，可以将本发明实施例中的终端视频信息的交互方法，应用到任何涉及视频播放的终端设备中，当终端设备在播放视频时，可以按照本发明实施例中提供的终端视频信息的交互方法，实现用户与终端设备中播放的视频信息的交互，以提升用户的视频观看体验度。

在实际应用中，还可以使用编程语言如C语言、C++语言、Java语言等，基于本发明实施例提供的终端视频信息的交互方法，开发专门用于实现用户与终端设备中播放的视频信息的交互的程序或APP，进而在终端播放的视频时，调用该程序或APP，完成与用户的进行视频信息的交互。

基于同一发明构思，本发明实施例中提供了一种终端视频信息的交互装置，该装置的终端视频信息的交互方法的具体实施可参见上述方法实施例部分的描述，重复之处不再赘述，该装置如图12所示，包括：

暂停单元20，用于当接收到用户的暂停命令时，暂停终端当前播放的视频；

获取单元21，用于获取组成所述视频的元素中，与暂停画面相关的元素信息，以及将所述元素信息发送给服务器进行识别，并获得所述服务器反馈的识别结果；

关联单元22，用于将所述识别结果，关联在所述暂停画面中。

可选的，所述获取单元，还用于：

对暂停画面进行图像识别，获取暂停画面的图像信息；

将所述图像信息发送给服务器进行识别；以及

获得服务器根据从图像信息中提取出人和\或物的图像特征信息进行匹配而获得的人和\或物的属性信息。

可选的，所述获取单元，还用于：

获得服务器根据接收到的人和\或物的图像特征信息进行匹配而获得的人和\或物的属性信息。

可选的，所述获取单元，还用于：评估所述暂停画面，并确定所述暂停画面满足进行识别的预设条件。

可选的，所述获取单元，还用于：

当所述暂停画面包括人脸时，确定人脸面积占所述暂停画面面积的比值大于预设条件包括的比例阈值。

可选的，所述获取单元，还用于：

确定所述边缘密度大于预设条件包括的密度阈值。

可选的，所述关联单元，还用于：

在所述暂停画面中的预设位置，显示所述属性信息；或者

在所述属性信息包括识别出的人或物在所述暂停画面的位置信息时，根据所述位置信息，在所述暂停画面中识别出的人和\或物所在的位置，建立人机交互组件，以及将所述组件与所述属性信息建立关联，以便在接收到所述用户操作所述组件的命令时，显示所述属性信息。

可选的，所述获取单元，还用于：

确定所述音频信息中的音频类别；

可选的，所述关联单元，还用于：

在所述暂停画面中的预设位置，显示所述属性信息；或者

基于同一发明构思，本发明实施例提供一种信息处理装置，如图13所示，包括至少一个处理器30、以及至少一个存储器31，其中，所述存储器31存储有计算机程序，当所述程序被所述处理器30执行时，使得所述处理器30执行如上文叙述的终端视频信息的交互方法的步骤。

基于同一发明构思，本发明实施例提供一种存储介质，其特征在于，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如上文叙述的终端视频信息的交互方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种终端视频信息的交互方法，其特征在于，包括：

评估所述暂停画面，并确定所述暂停画面满足进行识别的预设条件；其中，所述预设条件用于表示所述暂停画面包含的信息量大于阈值；所述预设条件至少包括以下两者中的一种或其组合：人脸面积占所述暂停画面面积的比值大于比例阈值，或者所述暂停画面的边缘密度大于密度阈值；

在组成所述视频的元素中，获取与所述暂停画面相关的元素信息；其中，所述元素信息包括与所述暂停画面同步的音频的相关信息；

将所述识别结果，关联在所述暂停画面中。

2.如权利要求1所述的方法，其特征在于：

所述在组成所述视频的元素中，获取与所述暂停画面相关的元素信息，具体包括：对暂停画面进行图像识别，获取暂停画面的图像信息；

所述将所述元素信息发送给服务器进行识别，具体包括：

将所述图像信息发送给服务器进行识别；以及

所述获得所述服务器反馈的识别结果，具体包括：

3.如权利要求1所述的方法，其特征在于：

所述在组成所述视频的元素中，获取与所述暂停画面相关的元素信息，具体包括：

所述将所述元素信息发送给服务器进行识别，具体包括：

所述获得所述服务器反馈的识别结果，具体包括：

4.如权利要求1所述的方法，其特征在于，所述评估所述暂停画面，并确定所述暂停画面是否满足进行识别的预设条件，具体包括：

5.如权利要求1所述的方法，其特征在于，所述评估所述暂停画面，并确定所述暂停画面是否满足进行识别的预设条件，具体包括：

确定所述边缘密度是否大于密度阈值；

6.如权利要求1所述的方法，其特征在于，所述服务器反馈的识别结果为人和\或物的属性信息，所述将所述识别结果，关联在所述暂停画面中，具体为：

在所述暂停画面中的预设位置，显示所述属性信息；或者

7.如权利要求1、2或3所述的方法，其特征在于，所述获取组成所述视频的元素中，与暂停画面相关的元素信息，具体包括：

8.如权利要求7所述的方法，其特征在于，所述将所述音频信息发送给服务器进行识别，具体包括：

确定所述音频信息中的音频类别；

9.如权利要求8所述的方法，其特征在于，所述服务器反馈的识别结果为表征所述音频内容的属性信息，所述将所述识别结果，关联在所述暂停画面中，具体为：

在所述暂停画面中的预设位置，显示所述属性信息；或者

10.一种终端视频信息的交互装置，其特征在于，包括：

获取单元，用于评估所述暂停画面，并确定所述暂停画面满足进行识别的预设条件，在组成所述视频的元素中，获取与所述暂停画面相关的元素信息，以及将所述元素信息发送给服务器进行识别，并获得所述服务器反馈的识别结果；其中，所述元素信息包括与所述暂停画面同步的音频的相关信息；其中，所述预设条件用于表示所述暂停画面包含的信息量大于阈值；所述预设条件至少包括以下两者中的一种或其组合：人脸面积占所述暂停画面面积的比值大于比例阈值，或者所述暂停画面的边缘密度大于密度阈值；

关联单元，用于将所述识别结果，关联在所述暂停画面中。

11.如权利要求10所述的装置，其特征在于，所述获取单元，还用于：

对暂停画面进行图像识别，获取暂停画面的图像信息；

将所述图像信息发送给所述服务器进行识别；以及

12.如权利要求10所述的装置，其特征在于，所述获取单元，还用于：

13.一种信息处理装置，其特征在于，包括至少一个处理器、以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行权利要求1～9任一项所述方法的步骤。

14.一种存储介质，其特征在于，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1-9任一权利要求所述的方法的步骤。