CN110519636A

CN110519636A - 语音信息播放方法、装置、计算机设备及存储介质

Info

Publication number: CN110519636A
Application number: CN201910831934.2A
Authority: CN
Inventors: 陈姿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2019-11-29
Anticipated expiration: 2039-09-04
Also published as: CN110519636B

Abstract

本发明实施例公开了一种语音信息播放方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：对视频的图像信息进行识别，得到第一播放数据，根据第一播放数据获取第二播放数据，第一播放数据包括用于对图像信息进行描述的文本信息，第二播放数据包括由文本信息转换得到的目标语音信息；当接收到对视频的语音播放指令，播放目标语音信息。由于目标语音信息通过文本信息转换得到，文本信息用于对图像信息进行描述，因此该目标语音信息可以对该视频的图像信息进行描述，当用户无法正常观看图像信息，通过收听该目标语音信息即可了解视频的图像信息的内容，获得图像信息中的信息量，增加了用户获得的信息量，提高了视频的播放效率。

Description

语音信息播放方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，特别涉及一种语音信息播放方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的快速发展和智能设备的广泛普及，视频行业逐渐兴起，播放视频已成为用户休闲状态下常用的一种娱乐形式，受到了广大用户的青睐。

视频包括图像信息和语音信息，播放视频时，可以展示图像信息，同步播放语音信息。用户可以观看图像信息，同时还可以收听语音信息。但是，视力障碍用户无法正常观看图像信息，只能收听语音信息，所获得的信息量较少，导致视频播放效率降低。

发明内容

本发明实施例提供了一种语音信息播放方法、装置、计算机设备及存储介质，能够提高语音信息的信息量，提高视频播放效率。所述技术方案如下：

一方面，提供了一种语音信息播放方法，所述方法包括：

对视频的图像信息进行识别，得到第一播放数据，所述第一播放数据包括用于对所述图像信息进行描述的文本信息；

根据所述第一播放数据获取第二播放数据，所述第二播放数据包括由所述文本信息转换得到的目标语音信息；

当接收到对所述视频的语音播放指令时，根据所述第二播放数据，播放所述目标语音信息。

可选地，所述当接收到对所述视频的语音播放指令时，根据所述第二播放数据，播放所述目标语音信息之前，所述方法还包括：

显示所述视频的播放界面，所述播放界面包括语音播放选项，当检测到对所述语音播放选项的触发操作时，确定接收到所述语音播放指令；或者，

接收输入的语音信息，当所述语音信息中包含语音播放关键词时，确定接收到所述语音播放指令。

可选地，所述方法还包括：

当在显示所述视频的播放界面的情况下接收到所述语音播放指令时，展示提示信息，所述提示信息用于提示用户关闭所述视频的播放界面；

当接收到对所述提示信息的确认指令时，关闭所述播放界面。

可选地，所述对视频的图像信息进行识别，得到第一播放数据，包括：

对所述图像信息中的目标对象进行识别，得到属于所述目标对象的对象标识及对应的出现时间段，将所述对象标识及所述对应的出现时间段作为所述第一播放数据；

所述根据所述第一播放数据获取第二播放数据，包括：

将所述对象标识转换为目标语音信息，将所述目标语音信息及对应的出现时间段作为所述第二播放数据。

可选地，所述目标对象包括人物、背景或动作中的至少两种，所述对所述图像信息中的目标对象进行识别，得到属于所述目标对象的对象标识及对应的出现时间段，将所述对象标识及所述对应的出现时间段作为所述第一播放数据，包括：

对所述图像信息中的人物、背景或动作中的至少两种分别进行识别，得到至少两个播放数据项，每个播放数据项包括属于同一种目标对象的对象标识及对应的出现时间段；

将所述至少两个播放数据项中，对应于同一出现时间段的对象标识按照预设句式结构组合构成文本信息，将所述文本信息及对应的出现时间段作为所述第一播放数据。

可选地，所述目标对象包括人物，所述对所述图像信息中的目标对象进行识别，得到属于所述目标对象的对象标识及对应的出现时间段，将所述对象标识及所述对应的出现时间段作为所述第一播放数据，包括：

对所述图像信息中的人脸进行识别，得到人脸特征及对应的出现时间段；

基于人物划分模型，获取所述人脸特征对应的人物标识；

将所述人脸特征对应的人物标识及对应的出现时间段，作为所述第一播放数据。

可选地，所述人物划分模型包括多个人物划分子模型，每个人物划分子模型具有对应的人物标识；

所述基于人物划分模型，获取所述人脸特征对应的人物标识，包括：

基于所述多个人物划分子模型，分别获取所述人脸特征的分类标识，所述分类标识包括第一标识或第二标识，所述第一标识表示所述人脸特征与所述人物划分子模型对应的人物匹配，所述第二标识表示所述人脸特征与所述人物划分子模型对应的人物不匹配；

当基于任一人物划分子模型所获取的分类标识是所述第一标识时，将所述任一人物划分子模型对应的人物标识作为所述人脸特征对应的人物标识。

可选地，所述基于人物划分模型，获取所述人脸特征对应的人物标识之前，所述方法还包括：

获取所述视频的多条人物特征信息，每条人物特征信息包括一个人物标识和与所述人物标识匹配的多个人脸图像；

根据所述每条人物特征信息中的多个人脸图像，训练一个人物划分子模型。

可选地，所述根据所述第一播放数据获取第二播放数据，包括：

获取所述视频的预设标签；

在模型数据库中确定所述预设标签对应的语音生成模型，所述模型数据库中包括多个语音生成模型及对应的预设标签；

基于确定的语音生成模型，将所述文本信息转换为所述目标语音信息。

可选地，所述第二播放数据包括所述目标语音信息及对应的出现时间段；所述根据所述第二播放数据，播放所述目标语音信息，包括：

按照每个出现时间段的先后顺序，依次播放所述每个出现时间段对应的目标语音信息。

可选地，所述视频包括第一视频片段和第二视频片段，所述第一视频片段包括图像信息但不包括原始语音信息，所述第二视频片段包括图像信息及原始语音信息；

所述第一播放数据包括用于对所述第一视频片段的图像信息进行描述的文本信息及对应的出现时间段；

所述第二播放数据包括由所述文本信息转换得到的目标语音信息及对应的出现时间段，以及所述第二视频片段的原始语音信息及对应的出现时间段；

所述根据所述第二播放数据，播放所述目标语音信息，包括：按照每个出现时间段的先后顺序，依次播放所述每个出现时间段对应的语音信息。

另一方面，提供了另一种语音信息播放方法，所述方法包括：

接收终端对所述视频的语音播放指令；

根据所述第二播放数据，向所述终端发送所述目标语音信息，以便所述终端播放所述目标语音信息。

可选地，所述第二播放数据包括所述目标语音信息及对应的出现时间段；所述根据所述第二播放数据，向所述终端发送所述目标语音信息，包括：

按照每个出现时间段的先后顺序，依次向所述终端发送所述每个出现时间段对应的目标语音信息，以便所述终端依次播放所述每个出现时间段对应的目标语音信息。

另一方面，提供了一种语音信息播放装置，所述装置包括：

识别模块，用于对视频的图像信息进行识别，得到第一播放数据，所述第一播放数据包括用于对所述图像信息进行描述的文本信息；

获取模块，用于根据所述第一播放数据获取第二播放数据，所述第二播放数据包括由所述文本信息转换得到的目标语音信息；

播放模块，用于当接收到对所述视频的语音播放指令时，根据所述第二播放数据，播放所述目标语音信息。

可选地，所述装置还包括：

显示模块，用于显示所述视频的播放界面，所述播放界面包括语音播放选项，当检测到对所述语音播放选项的触发操作时，确定接收到所述语音播放指令；或者，

接收模块，用于接收输入的语音信息，当所述语音信息中包含语音播放关键词时，确定接收到所述语音播放指令。

可选地，所述装置还包括：

展示模块，用于当在显示所述视频的播放界面的情况下接收到所述语音播放指令时，展示提示信息，所述提示信息用于提示用户关闭所述视频的播放界面；

关闭模块，用于当接收到对所述提示信息的确认指令时，关闭所述播放界面。

可选地，所述识别模块，包括：

识别单元，用于对所述图像信息中的目标对象进行识别，得到属于所述目标对象的对象标识及对应的出现时间段，将所述对象标识及所述对应的出现时间段作为所述第一播放数据；

所述获取模块，包括：

转换单元，用于将所述对象标识转换为目标语音信息，将所述目标语音信息及对应的出现时间段作为所述第二播放数据。

可选地，所述目标对象包括人物、背景或动作中的至少两种，所述识别单元，包括：

对象识别子单元，用于对所述图像信息中的人物、背景或动作中的至少两种分别进行识别，得到至少两个播放数据项，每个播放数据项包括属于同一种目标对象的对象标识及对应的出现时间段；

组合子单元，用于将所述至少两个播放数据项中，对应于同一出现时间段的对象标识按照预设句式结构组合构成文本信息，将所述文本信息及对应的出现时间段作为所述第一播放数据。

可选地，所述目标对象包括人物，所述识别单元，包括：

人脸识别子单元，用于对所述图像信息中的人脸进行识别，得到人脸特征及对应的出现时间段；

获取子单元，用于基于人物划分模型，获取所述人脸特征对应的人物标识；

确定子单元，用于将所述人脸特征对应的人物标识及对应的出现时间段，作为所述第一播放数据。

所述获取子单元，用于：

可选地，所述装置还包括：

特征获取模块，用于获取所述视频的多条人物特征信息，每条人物特征信息包括一个人物标识和与所述人物标识匹配的多个人脸图像；

训练模块，用于根据所述每条人物特征信息中的多个人脸图像，训练一个人物划分子模型。

可选地，所述获取模块，包括：

预设标签获取单元，用于获取所述视频的预设标签；

模型确定单元，用于在模型数据库中确定所述预设标签对应的语音生成模型，所述模型数据库中包括多个语音生成模型及对应的预设标签；

转换单元，用于基于确定的语音生成模型，将所述文本信息转换为所述目标语音信息。

可选地，所述第二播放数据包括所述目标语音信息及对应的出现时间段；所述播放模块，包括：

播放单元，用于按照每个出现时间段的先后顺序，依次播放所述每个出现时间段对应的目标语音信息。

所述播放模块，包括：

播放单元，用于按照每个出现时间段的先后顺序，依次播放所述每个出现时间段对应的语音信息。

另一方面，提供了另一种语音信息播放装置，所述装置包括：

接收模块，用于接收终端对所述视频的语音播放指令；

发送模块，用于根据所述第二播放数据，向所述终端发送所述目标语音信息，以便所述终端播放所述目标语音信息。

可选地，所述第二播放数据包括所述目标语音信息及对应的出现时间段；所述发送模块，包括：

发送单元，用于按照每个出现时间段的先后顺序，依次向所述终端发送所述每个出现时间段对应的目标语音信息，以便所述终端依次播放所述每个出现时间段对应的目标语音信息。

另一方面，提供了一种计算机设备，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如所述语音信息播放方法中所执行的操作。

再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并具有以实现如所述语音信息播放方法中所执行的操作。

本发明实施例提供的方法、装置、计算机设备及存储介质，对视频的图像信息进行识别，得到第一播放数据，根据第一播放数据获取第二播放数据，第一播放数据包括用于对图像信息进行描述的文本信息，第二播放数据包括由文本信息转换得到的目标语音信息；当接收到对视频的语音播放指令时，根据第二播放数据，播放目标语音信息。由于目标语音信息通过文本信息转换得到，该文本信息用于对图像信息进行描述，因此该目标语音信息可以对该视频的图像信息进行描述，当用户无法正常观看图像信息时，通过收听该目标语音信息即可了解视频的图像信息中的内容，获得图像信息中的信息量，增加了用户获得的信息量，提高了视频的播放效率。当该视频为电影或电视剧等影视作品时，视力障碍用户或者当前处于某种不便观看视频画面场景下的用户通过收听目标语音信息，也可以了解影视作品的画面中的信息量，享受到影视作品丰富的观影体验，让用户更有代入感。

并且，由于用户在不方便观看视频的图像信息时，会触发语音播放指令，此时视频的图像信息并不会受到关注。因此当接收到语音播放指令时关闭播放界面，关闭播放界面，可以避免对终端的内存和电量造成不必要的损耗。

并且，获取视频的预设标签，在模型数据库中确定预设标签对应的语音生成模型，模型数据库中包括多个语音生成模型及对应的预设标签，基于确定的语音生成模型，将文本信息转换为目标语音信息。通过视频的预设标签来确定对应的语音生成模型，基于该语音生成模型，生成的目标语音信息的风格与视频的风格相同，则目标语音信息可以更加充分地对视频的图像信息进行描述，便于用户通过目标语音信息来理解图像信息中的内容。

并且，通过接收输入的语音信息，当语音信息中包含语音播放关键词时，确定接收到语音播放指令。用户通过输入语音信息即可指示终端播放目标语音信息，无需在显示屏幕上进行触发操作，简化了用户的操作，提高了可操作性。

并且，当视频包括第一视频片段和第二视频片段，第一视频片段包括图像信息但不包括原始语音信息，第二视频片段包括图像信息及原始语音信息时，第二播放数据包括由文本信息转换得到的目标语音信息及对应的出现时间段，以及第二视频片段的原始语音信息及对应的出现时间段，根据第二播放数据，播放每个出现时间段对应的语音信息，保留了视频本身包括的语音信息，增加了第二播放数据中的语音信息的信息量，提高了视频播放效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种实施环境的示意图。

图2是本发明实施例提供的一种语音信息播放方法的流程图。

图3是本发明实施例提供的另一种语音信息播放方法的流程图。

图4是本发明实施例提供的另一种语音信息播放方法的流程图。

图5是本发明实施例提供的一种确定语音生成模型的流程示意图。

图6是本发明实施例提供的一种播放界面的示意图。

图7是本发明实施例提供的另一种播放界面的示意图。

图8是本发明实施例提供的一种对视频进行语音播放的流程图。

图9是本发明实施例提供的一种获取第二播放数据的流程图。

图10是本发明实施例提供的一种动作识别的流程图。

图11是本发明实施例提供的一种人物识别的流程图。

图12是本发明实施例提供的另一种人物识别的流程图。

图13是本发明实施例提供的另一种人物识别的流程图。

图14是本发明实施例提供的一种语音信息播放装置的结构示意图。

图15是本发明实施例提供的另一种语音信息播放装置的结构示意图。

图16是本发明实施例提供的另一种语音信息播放装置的结构示意图。

图17是本发明实施例提供的另一种语音信息播放装置的结构示意图。

图18是本发明实施例提供的一种终端的结构示意图。

图19是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提供的语音信息播放方法，涉及人工智能的自然语言处理技术。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。以下将基于自然语言处理技术，对本发明实施例提供的语音信息播放方法进行说明。

图1是本发明实施例提供的一种实施环境的示意图，该实施环境包括终端101和服务器102。

其中，终端101可以为手机、计算机、平板电脑、智能电视等多种类型的设备，服务器102可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

终端101和服务器102之间通过网络连接，通过终端101与服务器102之间的交互，可实现视频播放等功能。本发明实施例提供了一种语音信息播放方法，可以将视频中的图像信息转换成可以描述该图像信息的目标语音信息，通过播放该目标语音信息，从而将视频按照语音形式进行播放。

在一种可能实现方式中，该方法应用于终端101中。终端101可以对视频的图像信息进行识别，得到第一播放数据，根据第一播放数据获取第二播放数据，该第二播放数据包括目标语音信息，该目标语音信息能够以语音的形式对视频中的图像信息进行描述。当终端101接收到对视频的语音播放指令时，根据第二播放数据，播放第二播放数据中的目标语音信息。

在另一种可能实现的方式中，该方法应用于终端101和服务器102中。服务器102中存储有一个或多个视频，可以对任一视频的图像信息进行识别，得到第一播放数据，根据第一播放数据获取第二播放数据该第二播放数据包括目标语音信息，该目标语音信息能够以语音的形式对视频中的图像信息进行描述。之后，服务器102接收到终端对视频的语音播放指令时，根据第二播放数据，将该视频对应的目标语音信息发送给终端101，以便终端101进行播放。

图2是本发明实施例提供的一种语音信息播放方法的流程图。本发明实施例的执行主体为终端，参见图2，该方法包括：

201、对视频的图像信息进行识别，得到第一播放数据。

其中，第一播放数据包括用于对图像信息进行描述的文本信息。

视频可以由终端从服务器中下载，或者由终端拍摄得到，或者还可以为其他来源的视频。

202、根据第一播放数据获取第二播放数据。

其中，第二播放数据包括由文本信息转换得到的目标语音信息。

203、当接收到对视频的语音播放指令时，根据第二播放数据，播放目标语音信息。

本发明实施例提供的方法，对视频的图像信息进行识别，得到第一播放数据，根据第一播放数据获取第二播放数据，第一播放数据包括用于对图像信息进行描述的文本信息，第二播放数据包括由文本信息转换得到的目标语音信息；当接收到对视频的语音播放指令时，根据第二播放数据，播放目标语音信息。由于目标语音信息通过文本信息转换得到，该文本信息用于对图像信息进行描述，因此该目标语音信息可以对该视频的图像信息进行描述，当用户无法正常观看图像信息时，通过收听该目标语音信息即可了解视频的图像信息中的内容，获得图像信息中的信息量，增加了用户获得的信息量，提高了视频的播放效率。当该视频为电影或电视剧等影视作品时，视力障碍用户或者当前处于某种不便观看视频画面场景下的用户通过收听目标语音信息，也可以了解影视作品的画面中的信息量，享受到影视作品丰富的观影体验，让用户更有代入感。

图3是本发明实施例提供的另一种语音信息播放方法的流程图。本发明实施例的执行主体为服务器，参见图2，该方法包括：

301、对视频的图像信息进行识别，得到第一播放数据。

视频可以由服务器从其他设备中下载，或者由一个或多个终端上传到服务器中，或者由维护人员存储于服务器中，或者由服务器通过摄像设备拍摄得到，或者还可以为其他来源的视频。

302、根据第一播放数据获取第二播放数据。

303、接收终端对视频的语音播放指令。

其中，语音播放指令用于指示服务器向终端发送该视频的目标语音信息。

304、根据第二播放数据，向终端发送目标语音信息，以便终端播放目标语音信息。

本发明实施例提供的方法，对视频的图像信息进行识别，得到第一播放数据，根据第一播放数据获取第二播放数据，第一播放数据包括用于对图像信息进行描述的文本信息，第二播放数据包括由文本信息转换得到的目标语音信息；当接收到终端对视频的语音播放指令时，根据第二播放数据，向终端发送目标语音信息，以便终端播放目标语音信息。由于目标语音信息通过文本信息转换得到，该文本信息用于对图像信息进行描述，因此该目标语音信息可以对该视频的图像信息进行描述，当用户无法正常观看图像信息时，通过收听该目标语音信息即可了解视频的图像信息中的内容，获得图像信息中的信息量，增加了用户获得的信息量，提高了视频的播放效率。当该视频为电影或电视剧等影视作品时，视力障碍用户或者当前处于某种不便观看视频画面场景下的用户通过收听目标语音信息，也可以了解影视作品的画面中的信息量，享受到影视作品丰富的观影体验，让用户更有代入感。

图4是本发明实施例提供的另一种语音信息播放方法的流程图。本发明实施例的交互主体为服务器和终端，参见图4，该方法包括：

401、服务器对视频的图像信息进行识别，得到第一播放数据。

另外，该视频可以为任意类型的视频，例如，影视类视频、娱乐新闻类视频、体育类视频等。视频包括图像信息和原始语音信息，例如，当该视频为电影时，图像信息为该电影中的电影画面，原始语音信息为该电影中的人物对话、旁白、背景音乐等。

第一播放数据包括用于对图像信息进行描述的文本信息。例如，该文本信息可以为“一个红衣女子小翠在房间坐着啃鸡腿”等描述性的文本信息。

对视频的图像信息进行识别，得到第一播放数据。由于识别图像信息可以得到能够对该图像信息进行描述的文本信息，将文本信息作为第一播放数据，则该第一播放数据中包含该图像信息所包含的信息量。

可选地，服务器中存储有预先训练的识别模型，识别模型用于对图像信息进行处理、分析和理解，以识别各种不同模式的目标和对象。该识别模型可以为人脸识别模型、背景识别模型、动作识别模型等。服务器可基于该识别模型，对视频的图像信息进行识别，得到第一播放数据。

可选地，视频中包括按照时间先后顺序依次排列的多个视频帧，每个视频帧对应一个出现时间点，出现时间点采用该视频帧的播放时间点与该视频的起始时间点之间的时间差值表示。服务器获取视频，从视频中提取多个视频帧，基于预先训练的识别模型，将每个视频帧输入到识别模型中进行识别，得到每个视频帧对应的文本信息，由于每个视频帧对应一个出现时间点，因此该文本信息对应的出现时间点也就是该视频帧对应的出现时间点。则可以将每个视频对应的文本信息及对应的出现时间点作为第一播放数据。

进一步地，相邻的视频帧在内容上存在关联，在获取文本信息时可以一起考虑，因此，将视频划分为多个出现时间段，每个出现时间段包括一个或多个视频帧，则对每个出现时间段中的视频帧进行识别，可以得到多个出现时间段分别对应的多个文本信息，将得到的多个文本信息及对应出现时间段作为第一播放数据。

或者，由于在时间上连续的多个视频帧的图像信息可能相同，则得到的文本信息也相同，因此将识别到的多个连续且相同的文本信息合并为一个文本信息，该文本信息对应一个出现时间段，出现时间段由该多个视频帧中最后一个视频帧的出现时间点与第一个视频帧的出现时间点确定。则将该文本信息以及对应的出现时间段，作为第一播放数据。

需要说明的是，本发明实施例涉及的出现时间段可以仅包括一个出现时间点，或者可以包括多个连续的出现时间点。该出现时间段的长短可以为1s、5s、10s等，每个出现时间段的长短可能相同也可能不同。

402、服务器根据第一播放数据获取第二播放数据，存储第二播放数据。

服务器将第一播放数据中的文本信息转换为目标语音信息，来获取第二播放数据，将该第二播放数据存储下来。由于第一播放数据中的文本信息能够对视频的图像信息进行描述，因此由文本信息转换所得的目标语音信息也能够采用语音形式对该视频的图像信息进行描述，则第二播放数据中包含图像信息所包含的信息量。例如，该目标语音信息可以为“一个红衣女子小翠在房间坐着啃鸡腿”等描述性的语音信息。

在一种可能实现方式中，服务器中存储有预先训练的语音生成模型。服务器将第一播放数据中的文本信息输入语音生成模型，基于该语音生成模型生成该文本信息对应的目标语音信息。其中，语音生成模型用于将文本信息转换为语音信息，可以为TTS(Text ToSpeech，从文本到语音)模型或其他模型。

可选地，服务器创建模型数据库，模型数据库中包括多个语音生成模型。不同的语音生成模型具有不同的音量、语速、语调、语气、音色、语种等参数，以生成不同特征的语音信息。例如，所生成的语音信息可以为活泼的卡通人物语音、低沉的男性语音、温柔的女性语音等。

每个语音生成模型具有对应的预设标签，语音生成模型的预设标签用于表示该语音生成模型所生成的语音信息的特征，该预设标签可以为语音生成模型对应的类型、语音生成模型的题材、语音生成模型的人物等。例如，语音生成模型的类型可以为卡通、武侠、科幻、新闻、综艺等，语音生成模型的题材可以为喜剧、悲剧、正剧等，语音生成模型的人物可以为电影角色A、卡通人物B等。

而视频也具有预设标签，视频的预设标签用于对该视频的类型进行描述，该预设标签可以为视频类型、视频题材、视频人物等。例如，视频类型可以为卡通、武侠、科幻、新闻、综艺等，视频题材可以为喜剧、悲剧、正剧等，视频人物可以为电影角色A、卡通人物B等。

因此，服务器获取视频的预设标签，在模型数据库中确定预设标签对应的语音生成模型，基于确定的语音生成模型，将文本信息转换为目标语音信息，则该目标语音信息的特征与该视频的特征匹配，也就是目标语音信息与视频具有相同的风格，目标语音信息可以更加充分地对视频的图像信息进行描述，便于用户通过目标语音信息来理解视频的内容。

可选地，一个视频可以包括一个或者多个预设标签，模型数据库中的语音生成模型也可以包括一个或多个预设标签。因此，当视频包括多个预设标签时，服务器获取该多个预设标签，遍历模型数据库中的多个语音生成模型，确定每个语音生成模型的预设标签与该视频的预设标签相同的数量，确定对应数量最大的语音生成模型。基于确定的语音生成模型，将文本信息输入该语音生成模型，生成目标语音信息。

进一步地，服务器获取该多个预设标签，遍历模型数据库中的多个语音生成模型，从模型数据库中确定包含该多个预设标签中的至少一个预设标签的多个语音生成模型，遍历所确定的多个语音生成模型，确定每个语音生成模型的预设标签与该视频的预设标签相同的数量，确定对应数量最大的语音生成模型。基于确定的语音生成模型，将文本信息输入该语音生成模型，生成目标语音信息。

例如，图5是确定语音生成模型的流程示意图，参见图5，标签获取模块用于获取视频对应的多个预设标签，为后续的步骤提供数据支持。召回模块用于从模型数据库中确定包含该多个预设标签中的至少一个预设标签的多个语音生成模型，实现了对语音生成模型的初步筛选，在一定程度上决定了后续排序模块的操作效率和推荐结果的优劣。排序模块用于根据召回模块确定的多个语音生成模型，按照对应的数量由大到小的顺序，对该多个语音生成模型进行排序，实现了更精细化地打分排序。结果展示模块用于确定排序模块中排在第一位的语音生成模型，将该语音生成模型生成的目标语音信息播放给用户。

可选地，在上述步骤401中将文本信息以及文本信息对应的出现时间段作为第一播放数据的情况下，文本信息对应的出现时间段即为目标语音信息对应的出现时间段，则将目标语音信息以及目标语音信息对应的出现时间段作为第二播放数据。

可选地，服务器获取到第二播放数据后，将第二播放数据和该视频的视频标识对应存储。其中，视频标识可唯一确定一个视频，该视频标识可以为视频名称、视频编号等。

需要说明的是，服务器可以存储一个或多个视频，本发明实施例所涉及的视频可以为服务器中的任意数量的、任意类型的视频。例如服务器每次获取到一个新的视频时，执行上述步骤401-402，对该视频进行处理，或者，服务器每隔固定的周期，对当前周期内获取到的新视频执行上述步骤401-402，对每个新视频进行处理。

403、终端显示视频的播放界面。

可选地，终端上运行视频播放应用，视频播放应用的主界面中设置有至少一个视频的播放选项，当检测到用户对任一视频的播放选项的触发操作时，终端显示该视频的播放界面。其中，对播放选项的触发操作可以为点击操作、长按操作、滑动操作等。或者，终端打开视频播放应用时，自动获取服务器推荐的某一视频，显示该视频的播放界面。

其中，播放界面用于进行视频播放。播放界面包括语音播放选项，语音播放选项用于触发语音播放指令，进而以语音形式来播放视频。该播放界面还可以包括进度条、暂停选项、分享选项、缓存选项、退出选项等，其中进度条用于切换视频的播放进度，暂停选项用于暂停播放视频，分享选项用于分享当前播放的视频，缓存选项用于缓存当前播放的视频，退出选项用于退出当前的播放界面。

在一种可能实现方式中，终端显示该播放界面时，暂时未开始播放视频，而是显示视频播放选项和语音播放选项。视频播放选项用于指示终端采用视频播放模式来播放该视频。语音播放选项用于指示终端采用语音播放模式来播放该视频，也即是指示终端播放该视频对应的目标语音信息。

在另一种可能实现方式中，终端显示该播放界面时，默认播放模式为视频播放模式，因此终端会基于该播放界面播放视频。并且，播放界面中包括语音播放选项，该语音播放选项用于指示终端将视频播放模式切换为语音播放模式。

404、当终端检测到对语音播放选项的触发操作时，确定接收到语音播放指令。

视力障碍用户或者当前处于某种不便观看视频画面场景下的用户，如当前正在做家务，无法看到电视画面的用户等，这些用户不方便观看视频的图像信息，希望收听视频的语音信息。此时用户可以触发语音播放选项，指示终端将该视频以语音形式进行播放。终端检测到对语音播放选项的触发操作时，确定接收到语音播放指令。其中，该触发操作可以为点击操作、长按操作、滑动操作等，该语音播放指令携带该视频的视频标识，该语音播放指令用于指示终端播放视频的目标语音信息。

在另一实施例中，步骤404可以由以下步骤代替：当终端接收到输入的语音信息，且语音信息中包含语音播放关键词时，确定接收到语音播放指令。

当用户要采用语音形式播放视频时，输入包含语音播放关键词的语音信息。当终端接收到用户输入的语音信息时，将该语音信息转换为文本信息，将该文本进行分词得到至少一个词语，检测该至少一个词语中是否包含语音播放关键词。当检测该至少一个词语中包含语音播放关键词时，终端确定接收到语音播放指令。

其中，语音播放关键词可以由终端自动设置，也可以由用户自行设置。例如，该语音播放关键词可以为“我要听视频”等。

终端接收到语音播放指令时，可以执行本发明实施例的后续步骤，启动语音播放流程。并且，当终端在显示视频的播放界面的情况下，接收到语音播放指令时，还可以展示提示信息，当接收到对提示信息的确认指令时，关闭播放界面。

由于在语音播放模式下，终端播放该视频的目标语音信息，视频的图像信息并不会受到关注。因此可以通过关闭播放界面，来避免对终端的内存和电量造成不必要的损耗。

关闭播放界面的方式可以为关闭该视频的播放界面，退回至视频播放应用的主界面，或者关闭该视频播放应用的界面，或者关闭终端的显示屏幕等，该方式可以由终端默认设置或者由用户进行设置。

可选地，终端接收到对视频的语音播放指令时，基于视频的播放界面，展示提示窗口，提示窗口中包括提示信息、确认选项和否认选项。其中，提示信息用于提示用户触发确认选项或者否认选项，以选择是否关闭屏幕，例如该提示信息可以为“是否需要关闭屏幕”等提示性的文本，确认选项用于确定关闭终端的显示屏幕，否认选项用于确定不关闭终端的显示屏幕，也即是不关闭视频的播放界面。

用户基于该提示窗口，触发确认选项，终端检测到对该确认选项的触发操作时，确认接收到对提示信息的确认指令，关闭显示屏幕。或者，用户基于该提示窗口，触发否认选项，终端检测到对该否认选项的触发操作时，继续保持显示屏幕的开启状态，继续显示视频的播放界面。其中，该触发操作可以为点击操作、长按操作、滑动操作等。

可选地，终端接收到对视频的语音播放指令时，基于视频的播放界面，显示提示窗口，提示窗口中包括提示信息，提示信息用于提示用户输入包括关闭播放界面关键词或不关闭播放界面关键词的语音信息，例如该提示信息可以为“你可以告诉我是否需要关闭屏幕”等提示性的文本信息，关闭播放界面关键词可以为“关闭屏幕”等，不关闭播放界面关键词可以为“不关闭屏幕”等。

用户基于该提示窗口，输入语音信息，当终端接收到用户输入的语音信息时，将该语音信息转换为文本信息，将该文本进行分词得到至少一个词语，检测该至少一个词语中是否包含关闭播放界面关键词或不关闭播放界面关键词。当检测该至少一个词语中包含关闭播放界面关键词时，终端关闭播放界面。或者，当检测该至少一个词语中包含不关闭播放界面关键词时，终端继续显示播放界面。

图6是一种播放界面的示意图，其中，箭头所指的选项为语音播放选项。参见图7，当终端接收到对视频的语音播放指令时，基于视频的播放界面，显示第一提示窗口和第二提示窗口，第一提示窗口中显示“是否需要关闭屏幕”，还包括确认选项“是”和否认选项“否”。第二提示窗口中显示“你可以告诉我是否需要关闭屏幕”。

例如，用户需要对视频进行语音播放时，可以按照图8所示的流程图进行操作。通过触发语音播放选项或输入语音信息来选择“听”视频功能，此时终端切换成语音播放模式，将视频中的原始语音信息切换成视频的目标语音信息，以便播放该目标语音信息，并且用户还可以选择是否关闭屏幕。

另外，终端上可以运行语音助手应用，该语音助手应用是一种智能应用，能够采用自然语言处理技术，对用户输入的语音信息进行处理，从而使用户可以与终端进行自然的对话，实现智能交互。因此，终端可以通过该语音助手应用接收用户输入的语音信息，当确定语音信息中包括关闭播放界面关键词时，关闭该播放界面。

405、终端向服务器发送对该视频的语音播放指令。

当终端接收到语音播放指令时，将该语音播放指令发送给服务器。该语音播放指令携带视频标识，该语音播放指令用于指示服务器向终端发送该视频标识对应的第二播放数据。

406、服务器接收到该语音播放指令时，向终端发送第二播放数据。

服务器根据语音播放指令携带的视频标识，获取已存储的该视频标识对应的第二播放数据，将该第二播放数据发送给终端。

407、终端接收该第二播放数据，根据第二播放数据，播放目标语音信息。

第二播放数据中包括目标语音信息，终端接收到该第二播放数据时，播放该目标语音信息。

在一种可能实现方式中，第二播放数据包括至少一个目标语音信息以及该至少一个目标语音信息对应的出现时间段。上述步骤406中，服务器根据语音播放指令携带的视频标识，获取已存储的该视频标识对应的第二播放数据，按照目标语音信息对应的出现时间段的先后顺序，将该第二播放数据中的目标语音信息依次发送给终端。相应地，在步骤407中，终端在每个出现时间段会接收到对应的目标语音信息，则按照接收到的该至少一个目标语音信息的先后顺序，依次播放所接收到的目标语音信息，实现了目标语音信息的在线播放。

在另一种可能实现方式中，视频包括第一视频片段和第二视频片段，第一视频片段包括图像信息但不包括原始语音信息，第二视频片段包括图像信息及原始语音信息。例如，原始语音信息可以为视频片段中的人物旁白、人物对话、背景音乐等。

因此，针对视频中的第一视频片段，服务器可以执行上述步骤401-402。获取到的第一播放数据包括用于对第一视频片段的图像信息进行描述的文本信息及对应的出现时间段，第二播放数据包括由文本信息转换得到的目标语音信息及对应的出现时间段。

而针对视频中的第二视频片段，服务器可以直接获取第二视频片段中的原始语音信息，该原始语音信息也具有对应的出现时间段。因此将原始语音信息及对应的出现时间段也作为第二播放数据。

也即是，第二播放数据包括由文本信息转换得到的目标语音信息及对应的出现时间段，以及第二视频片段的原始语音信息及对应的出现时间段。

相应地，服务器按照目标语音信息和原始语音信息对应的出现时间段的先后顺序，将每个出现时间段对应的语音信息依次发送给终端。终端按照接收到的多个语音信息的先后顺序，依次播放所接收到的语音信息，实现了目标语音信息与原始语音信息的流畅衔接。

例如，视频中包含按照先后顺序排列的视频片段A、视频片段B和视频片段C，三个视频片段分别对应一个出现时间段。其中，视频片段B中包括原始语音信息y，服务器通过上述步骤401和步骤402，得到视频片段A的目标语音信息x和视频片段C的目标语音信息z，则第二播放数据如表1所示。

表1

视频片段A	目标语音信息x	出现时间段1
			视频片段B	原始语音信息y	出现时间段2
视频片段C	目标语音信息z	出现时间段3

需要说明的是，本实施例仅以当服务器接收到语音播放指令时，在线向终端发送第二播放数据，以便终端进行播放为例。在另一实施例中，服务器也可以预先将视频及视频的第二播放数据发送给终端，由终端将视频及第二播放数据对应存储。当终端接收到对该视频的语音播放指令时，获取该视频对应的第二播放数据，根据该第二播放数据，播放目标语音信息。

例如，服务器采用推荐算法为终端确定了待推荐的视频，则获取该视频的第二播放数据，将视频和第二播放数据发送给终端，供终端播放。

需要说明的是，本实施例仅以终端执行步骤403、步骤404、步骤405和步骤407为例。在另一实施例中，终端安装有第三方的视频播放应用，或者，终端内置视频播放应用，由该视频播放应用来执行上述步骤403、步骤404、步骤405和步骤407。

在上述实施例的基础上，在一种可能实现方式中，步骤401和步骤402可以包括：

对视频的图像信息中的目标对象进行识别，得到属于目标对象的对象标识及对应的出现时间段，作为第一播放数据，将第一播放数据中的对象标识转换为目标语音信息，将目标语音信息及对应的出现时间段作为第二播放数据。

其中，目标对象是指图像信息中包括的人物、背景、动作、物品、文本等，对象标识用于唯一确定一个目标对象，例如对象标识可以为人物标识、背景标识、动作标识、物品标识、文本标识等，人物标识可以为人物名称、人物编号等，背景标识可以为背景名称、背景编号等，动作标识可以为动作名称、动作编号等，物品标识可以为物品名称、物品编号等，文本标识可以为文本名称、文本编号等。

可选地，目标对象包括人物、背景或动作中的至少两种，对图像信息中的人物、背景或动作中的至少两种分别进行识别，得到至少两个播放数据项，将至少两个播放数据项中，对应于同一出现时间段的对象标识按照预设句式结构组合构成文本信息，将文本信息及对应的出现时间段作为第一播放数据。

其中，每个播放数据项包括属于同一种目标对象的对象标识及对应的出现时间段。例如，播放数据项可以如表2所示。

表2

其中，预设句式结构可以为按照符合中文语法的顺序对主语、谓语、宾语进行组合所得的结构，例如，将对象标识中的人物标识作为主语，动作标识作为谓语，背景标识作为宾语，按照“主语+宾语+谓语”的句式结构进行组合构成文本信息。

参见图9，在图像信息包括人物、背景和动作这三项的情况下，对视频的图像信息进行识别得到第一播放数据，根据第一播放数据获取第二播放数据的过程，可以包括：

901、服务器对图像信息中的人物进行识别，得到人物标识及对应的出现时间段，将人物标识及对应的出现时间段作为第一播放数据的播放数据项。

可选地，服务器中存储有预先训练的人脸识别模型，人脸识别模型用于对图像信息进行处理、分析和理解，以识别各种不同的人脸。则基于该人脸识别模型，能够对图像信息中的人物进行识别，得到人物标识。

可选地，服务器获取待处理的视频，从视频中提取多个视频帧，基于该人脸识别模型，对每个视频帧中的人物进行识别，以识别图像信息中的各种不同的人物，得到该视频帧中的人物标识。

相邻的视频帧在内容上存在关联，在获取文本信息时可以一起考虑，因此，将视频划分为多个出现时间段，每个出现时间段包括一个或多个视频帧，则对每个出现时间段中的视频帧中的人物进行识别，可以得到多个出现时间段分别对应的人物标识，作为第一播放数据的播放数据项。

或者，视频中的每个视频帧具有对应的出现时间点，并且在时间上连续的多个视频帧的图像信息可能相同，则识别得到的人物标识也相同。因此同一个人物标识对应多个视频帧，也即是对应该多个视频帧的出现时间段，因此将识别得到的人物标识及对应的出现时间段，作为第一播放数据的播放数据项。

902、服务器对图像信息中的背景进行识别，得到背景标识及对应的出现时间段，将背景标识及对应的出现时间段也作为第一播放数据的播放数据项。

可选地，服务器中存储有预先训练的背景识别模型，背景识别模型用于对图像信息进行处理、分析和理解，以识别各种不同的背景。其中，背景可以为山、田野、房间、火车站等。

可选地，服务器获取待处理的视频，从视频中提取多个视频帧，将视频帧输入背景识别模型中，基于该背景识别模型，对视频帧的图像信息进行识别，得到该视频帧中的背景标识，其中，背景标识用来唯一确定一个背景。背景标识可以为背景名称、背景代号等。

与上述步骤901类似，服务器也会将背景标识及对应的出现时间段作为第一播放数据的播放数据项，具体过程在此不再赘述。

903、服务器对图像信息中的动作进行识别，得到动作标识及对应的出现时间段，将动作标识及对应的出现时间段也作为第一播放数据的播放数据项。

可选地，服务器中存储有预先训练的动作识别模型，动作识别模型用于对图像信息进行处理、分析和理解，以识别各种不同的动作。其中，动作可以为奔跑、坐着、跳跃、吃东西等。

可选地，服务器获取待处理的视频，从视频中提取多个视频帧，将视频帧输入动作识别模型中，基于该动作识别模型，对视频帧的图像信息进行识别，得到该视频帧中的动作标识，其中，动作标识用来唯一确定一个动作。动作标识可以为动作名称、动作代号等。

图10是本发明实施例提供的一种动作识别的流程图，服务器获取待处理的视频，对该视频中的每个视频帧进行特征提取，得到每个视频帧的动作特征，对每个视频帧的动作特征进行识别，得到每个视频帧的动作标识。

与上述步骤901类似，服务器也会将动作标识及对应的出现时间段作为第一播放数据的播放数据项，具体过程在此不再赘述。

需要说明的是，本实施例仅以按照步骤901、步骤902、步骤903的顺序来执行为例，在另一实施例中，服务器可以执行步骤901、步骤902、步骤903中的至少两项，且对执行顺序不进行限制。

904、服务器将三个播放数据项中，对应于同一出现时间段的对象标识按照预设句式结构组合构成文本信息，将文本信息及对应的出现时间段作为第一播放数据。

三个播放数据项中，每个播放数据项包括对象标识及对应的出现时间段，对象标识可以包括人物标识、背景标识、动作标识等。

服务器获取对应于同一出现时间段的人物标识、背景标识、动作标识，将人物标识、背景标识、动作标识按照预设句式结构组合构成文本信息，将文本信息及对应的出现时间段作为第一播放数据。该文本信息可以对图像信息的人物、背景、动作进行描述。

其中，预设句式结构可以为按照符合中文语法的顺序对主语、谓语、宾语进行组合所得的结构。

例如，预设句式结构为：将对象标识中的人物标识作为主语，动作标识作为谓语，背景标识作为宾语，以人物标识为“红衣女子小翠”，该背景标识为“房间”，该动作标识为“坐着啃鸡腿”为例，按照“主语+宾语+谓语”的句式结构进行组合，得到的文本信息为“一个红衣女子小翠在房间坐着啃鸡腿”。

需要说明的是，当只执行步骤901、步骤902、步骤903中的一项时，直接将所得的播放数据项作为第一播放数据。例如，只执行步骤901，也就是只对人物进行识别时，得到人物标识及对应的出现时间段，作为第一播放数据。

905、服务器将文本信息转换为目标语音信息，将目标语音信息及对应的出现时间段作为第二播放数据。

步骤905与上述步骤402类似，在此不再一一赘述。

后续还可以执行上述步骤403-407，将该第二播放数据中的目标文本信息按照对应的出现时间段的先后顺序进行播放。

本发明实施例提供的方法，将三个播放数据项中，对应于同一出现时间段的对象标识按照预设句式结构组合构成文本信息，将文本信息及对应的出现时间段作为第一播放数据。文本信息中包括不同的对象标识，将不同的对象标识进行组合，构成的文本信息可以更充分地对图像信息进行描述，提供了更为丰富的信息量，进一步提高了视频播放效率。

图11是本发明实施例提供的一种人物识别的流程图，图12是本发明实施例提供的一种基于人物划分模型进行人物识别的流程图，13是以目标对象为人物A为例进行人物识别的流程图。参见图11-13，在一种可能实现方式中，上述步骤901可以包括：

1101、服务器获取视频的多条人物特征信息，每条人物特征信息包括一个人物标识和与该人物标识匹配的多个人脸图像。

视频的图像信息中包括多个人物，为了对每个人物进行识别来获取文本信息，需要预先训练人物划分模型。因此，视频提供者可以将视频的多条人物特征信息上传至服务器，服务器根据该多条人物特征信息来训练人物划分模型。该视频提供者可以为发布视频的任一用户，或者观看到该视频的某一用户，或者服务器的维护人员等。

例如，视频为电影，视频制作人获取视频中每个人物的角色名称，以及每个人物的多个人脸图像，上传到服务器中。

1102、服务器根据每条人物特征信息中的多个人脸图像，训练一个人物划分子模型。

对于每条人物特征信息来说，服务器获取该人物特征信息中的多个人脸图像，对多个人脸图像进行人脸特征提取，来获取样本人脸特征，根据样本人脸特征和与该样本人脸特征对应人物标识，来训练一个人物划分子模型，一个人物划分子模型对应一条人物特征信息，也就是一个人物划分子模型对应一个人物标识。最终根据每条人物特征信息，训练出多个人物划分子模型。

其中，人脸特征提取用于对人脸图像的人脸特征进行提取，可以看做对人脸进行特征建模的过程。人脸特征通常分为视觉特征、像素统计特征、人脸图像变换系数特征、人脸图像代数特征等。人脸特征提取的算法可以为：基于人脸特征点的算法、基于光照估计模型的算法、基于深度学习的算法、基于模板的算法等。

例如，人脸特征提取的算法为基于深度学习的CNN(Convolution NeuralNetwork，卷积神经网络)。CNN是基于深度学习理论的一种人工神经网络，利用权值共享来减小普通神经网络中的参数膨胀问题并在前向计算过程中使用卷积核对输入数据进行卷积操作，将得到的结果通过一个非线性函数作为该层的输出，这样的层称为卷积层，卷积层和卷积层之间会出现下采样层，下采样层用于获取局部特征的不变性，同时降低特征空间的尺度。一般在卷积层和下采样层之后是一个全连接的神经网络，用于对人脸进行识别。除此之外，特征提取算法还可以为其他算法。

另外，根据样本人脸特征和与该样本人脸特征对应人物标识训练人物划分子模型时，所采用的训练算法可以为CNN算法、循环神经网络算法、深度学习网络算法等多种算法。

可选地，服务器获取一条人物特征信息中的多个人脸图像，可以对多个人脸图像进行预处理，再识别人脸图像中的人脸区域，将人脸区域进行切割，之后再对切换出的人脸区域进行特征提取，来获取每个人物的样本人脸特征。

其中，对人脸图像进行预处理，能够方便后续进行特征提取的过程，服务器获取的人脸图像由于受到各种条件的限制和随机干扰，往往不能直接使用，此时可以进行预处理，包括人脸图像的光线补偿、灰度变换、直方图均衡化、归一化、几何校正、滤波以及锐化等，从而提升图像的显示效果，便于后续的处理。

而人脸图像切割是指将人脸图像中的人脸区域切割出来，由于人脸图像中可能包括人脸区域和非人脸区域，为了方便后续对人脸进行特征提取，且减小计算量，需要切割出人脸区域。

对人物划分模型进行训练的过程可参见图12所示的流程图，服务器对多个人物标识对应的人脸图像，针对每个人物标识对应的人脸图像执行图片预处理、人脸识别与切割、特征提取的操作，获取每个人脸图像对应的样本人脸特征，根据得到的多个样本人脸特征训练该人物标识对应的人物划分子模型，从而得到多个人物标识对应的人物划分子模型，得到的多个人物划分子模型构成人物划分模型。

1103、服务器对该视频的图像信息中的人脸进行识别，得到人脸特征及对应的出现时间段。

可选地，服务器获取待处理的视频，从视频中提取多个视频帧，对每个视频帧中的人脸进行特征提取，来获取视频帧中每个人物的人脸特征。相应的，还会获取到人脸特征对应的出现时间段，获取方式与上述获取目标语音信息对应的出现时间段的方式类似，在此不再赘述。

可选地，服务器在获取每个视频帧中每个人物的人脸特征时，可以对视频帧进行预处理、人脸识别与切割、特征提取等操作，具体步骤与上述步骤1102类似，在此不再赘述。

1104、服务器基于多个人物划分子模型，分别获取人脸特征的分类标识。

将人脸特征输入任一人物划分子模型，即可得到该人脸特征在该人物划分子模型下的分类标识。

其中，每个人物划分子模型对应一个人物标识，分类标识包括第一标识或第二标识。第一标识表示人脸特征与人物划分子模型对应的人物匹配，第二标识表示人脸特征与人物划分子模型对应的人物不匹配。

例如，第一标识为“1”，第二标识为“0”。当将人脸特征输入人物划分子模型得到“1”时，表示该人脸特征与该人物划分子模型对应的人物标识匹配；当将人脸特征输入人物划分子模型得到“0”时，表示该人脸特征与该人物划分子模型对应的人物标识不匹配，则将该人脸特征输入其他人物划分子模型进行检测。

1105、当基于任一人物划分子模型所获取的分类标识是第一标识时，服务器将该任一人物划分子模型对应的人物标识作为人脸特征对应的人物标识。

当人脸特征输入每个人物划分子模型，得到人脸特征的分类标识。当任一人物划分子模型获取的分类标识是第一标识时，表示该人脸特征与该人物划分子模型对应的人物匹配。因此将人物划分子模型对应的人物标识作为人脸特征对应的人物标识。

对人物进行识别的过程可参见图12所示的流程图，服务器对视频中的每个视频帧进行图片预处理、人脸识别与切割、特征提取的操作，获取每个视频帧中每个人物的人脸特征。将获取到的人脸特征输入人物划分模型，也即是将获取到的人脸特征分别输入每个人物划分子模型，得到人脸特征的分类标识。当任一人物划分子模型获取的分类标识是第一标识时，将人物划分子模型对应的人物标识作为人脸特征对应的人物标识，该人脸特征与该人物划分子模型的匹配过程结束。

需要说明的是，本发明实施例仅以上述步骤1101-1105对人物识别的过程进行说明，而在另一实施例中，所采用的人物划分模型还可以为其他类型的模型，如深度学习模型、卷积神经网络模型等，只需保证该人物划分模型能够根据人脸特征确定该人脸特征对应的人物标识即可。

1106、服务器将人脸特征对应的人物标识及对应的出现时间段，作为第一播放数据。

由于人物标识与人脸特征相对应，因此该人物标识对应的出现时间段与该人脸特征对应的出现时间段相同。将人物标识及对应的出现时间段，作为第一播放数据。

以目标对象为电影中的人物A为例，参见图13所示的人物识别的流程图，由运营人员将需要检测的电影以及电影中人物A的多张图片提交给服务器，服务器根据人物A的多张图片训练人物A的人物划分子模型。并且，获取电影中的人脸特征及对应的出现时间段，从而基于人物A的人物划分子模型，判断电影中的每个人脸特征是否属于人物A，从而找出电影中人物A的出现时间段，将人物A的出现时间段保存下来，以便后续进行使用。

需要说明的是，本实施例仅以目标对象为人物为例，说明对图像信息中的目标对象进行识别的过程。当目标对象为背景、动作等时，对图像信息中的目标对象进行识别的过程与上述步骤1101-1106类似，在此不再一一赘述。区别在于采用的样本图像不同。在训练人物划分模型时采用的样本图像中包括人脸，在训练背景识别模型时采用的样本图像中包括背景，在训练动作识别模型时采用的样本图像中包括动作。

本发明实施例提供的方法，通过对图像信息中的人脸进行识别，获取人脸特征，通过人物划分子模型，获取人脸特征对应的人物标识，将人物标识及对应的出现时间段，作为第一播放数据。因此，通过第一播放数据中的人物标识，即可得知对应的图像信息中包括的人物。

并且，对视频帧进行预处理、人脸识别与切割、特征提取等操作，获取的人脸特征更为精确，提高了后续人脸识别的正确率，并且还去除了视频帧中的无关信息，减少了计算量。

图14是本发明实施例提供的一种语音信息播放装置的结构示意图。参见图14，该装置包括：

识别模块1401，用于对视频的图像信息进行识别，得到第一播放数据，第一播放数据包括用于对图像信息进行描述的文本信息；

获取模块1402，用于根据第一播放数据获取第二播放数据，第二播放数据包括由文本信息转换得到的目标语音信息；

播放模块1403，用于当接收到对视频的语音播放指令时，根据第二播放数据，播放目标语音信息。

可选地，参见图15，装置还包括：

显示模块1404，用于显示视频的播放界面，播放界面包括语音播放选项，当检测到对语音播放选项的触发操作时，确定接收到语音播放指令；或者，

接收模块1405，用于接收输入的语音信息，当语音信息中包含语音播放关键词时，确定接收到语音播放指令。

可选地，参见图15，装置还包括：

展示模块1406，用于当在显示视频的播放界面的情况下接收到语音播放指令时，展示提示信息，提示信息用于提示用户关闭视频的播放界面；

关闭模块1407，用于当接收到对提示信息的确认指令时，关闭播放界面。

可选地，参见图15，识别模块1401，包括：

识别单元1411，用于对图像信息中的目标对象进行识别，得到属于目标对象的对象标识及对应的出现时间段，将对象标识及对应的出现时间段作为第一播放数据；

获取模块1402，包括：

转换单元1412，用于将对象标识转换为目标语音信息，将目标语音信息及对应的出现时间段作为第二播放数据。

可选地，参见图15，目标对象包括人物、背景或动作中的至少两种，识别单元1411，包括：

对象识别子单元14111，用于对图像信息中的人物、背景或动作中的至少两种分别进行识别，得到至少两个播放数据项，每个播放数据项包括属于同一种目标对象的对象标识及对应的出现时间段；

组合子单元14112，用于将至少两个播放数据项中，对应于同一出现时间段的对象标识按照预设句式结构组合构成文本信息，将文本信息及对应的出现时间段作为第一播放数据。

可选地，参见图15，目标对象包括人物，识别单元1411，包括：

人脸识别子单元14113，用于对图像信息中的人脸进行识别，得到人脸特征及对应的出现时间段；

获取子单元14114，用于基于人物划分模型，获取人脸特征对应的人物标识；

确定子单元14115，用于将人脸特征对应的人物标识及对应的出现时间段，作为第一播放数据。

可选地，参见图15，人物划分模型包括多个人物划分子模型，每个人物划分子模型具有对应的人物标识；

获取子单元14114，用于：

基于多个人物划分子模型，分别获取人脸特征的分类标识，分类标识包括第一标识或第二标识，第一标识表示人脸特征与人物划分子模型对应的人物匹配，第二标识表示人脸特征与人物划分子模型对应的人物不匹配；

当基于任一人物划分子模型所获取的分类标识是第一标识时，将任一人物划分子模型对应的人物标识作为人脸特征对应的人物标识。

可选地，参见图15，装置还包括：

特征获取模块1408，用于获取视频的多条人物特征信息，每条人物特征信息包括一个人物标识和与人物标识匹配的多个人脸图像；

训练模块1409，用于根据每条人物特征信息中的多个人脸图像，训练一个人物划分子模型。

可选地，参见图15，获取模块1402，包括：

标签获取单元1422，用于获取视频的预设标签；

模型确定单元1432，用于在模型数据库中确定预设标签对应的语音生成模型，模型数据库中包括多个语音生成模型及对应的标签；

转换单元1412，用于基于确定的语音生成模型，将文本信息转换为目标语音信息。

可选地，参见图15，第二播放数据包括目标语音信息及对应的出现时间段；播放模块1403，包括：

播放单元1413，用于按照每个出现时间段的先后顺序，依次播放每个出现时间段对应的目标语音信息。

可选地，参见图15，视频包括第一视频片段和第二视频片段，第一视频片段包括图像信息但不包括原始语音信息，第二视频片段包括图像信息及原始语音信息；

第一播放数据包括用于对第一视频片段的图像信息进行描述的文本信息及对应的出现时间段；

第二播放数据包括由文本信息转换得到的目标语音信息及对应的出现时间段，以及第二视频片段的原始语音信息及对应的出现时间段；

播放模块1403，包括：

播放单元1413，用于按照每个出现时间段的先后顺序，依次播放每个出现时间段对应的语音信息。

图16是本发明实施例提供的另一种语音信息播放装置的结构示意图。参见图16，该装置包括：

识别模块1601，用于对视频的图像信息进行识别，得到第一播放数据，第一播放数据包括用于对图像信息进行描述的文本信息；

获取模块1602，用于根据第一播放数据获取第二播放数据，第二播放数据包括由文本信息转换得到的目标语音信息；

接收模块1603，用于接收终端对视频的语音播放指令；

发送模块1604，用于根据第二播放数据，向终端发送目标语音信息，以便终端播放目标语音信息。

可选地，参见图17，第二播放数据包括目标语音信息及对应的出现时间段；发送模块1604，包括：

发送单元1614，用于按照每个出现时间段的先后顺序，依次向终端发送每个出现时间段对应的目标语音信息，以便终端依次播放每个出现时间段对应的目标语音信息。

需要说明的是：上述实施例提供的语音信息播放装置在播放语音信息时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端和服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音信息播放装置与语音信息播放方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图18示出了本发明一个示例性实施例提供的终端1800的结构框图。该终端1800可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、头戴式设备、智能电视、智能音箱、智能遥控器、智能话筒，或其他任意智能终端。终端1800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1800包括有：处理器1801和存储器1802。

处理器1801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。存储器1802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的，用于存储至少一个指令，该至少一个指令用于被处理器1801所具有以实现本申请中方法实施例提供的语音信息播放方法。

在一些实施例中，终端1800还可选包括有：***设备接口1803和至少一个***设备。处理器1801、存储器1802和***设备接口1803之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1803相连。具体地，***设备包括：射频电路1804、显示屏1805和音频电路1806中的至少一种。

射频电路1804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1804通过电磁信号与通信网络以及其他通信设备进行通信。

显示屏1805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。该显示屏1805可以是触摸显示屏，还可以用于提供虚拟按钮和/或虚拟键盘。

音频电路1806可以包括麦克风和扬声器。麦克风用于采集用户及环境的音频信号，并将音频信号转换为电信号输入至处理器1801进行处理，或者输入至射频电路1804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1801或射频电路1804的电信号转换为音频信号。

本领域技术人员可以理解，图18中示出的结构并不构成对终端1800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图19是本发明实施例提供的一种服务器的结构示意图，该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1901和一个或一个以上的存储器1902，其中，所述存储器1902中存储有至少一条指令，所述至少一条指令由所述处理器1901加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器1900可以用于执行上述语音信息播放方法中服务器所执行的步骤。

本发明实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，指令、程序、代码集或指令集由处理器加载并具有以实现上述实施例的语音信息播放方法中所具有的操作。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该指令、该程序、该代码集或该指令集由处理器加载并具有以实现上述实施例的语音信息播放方法中所具有的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明实施例的较佳实施例，并不用以限制本发明实施例，凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音信息播放方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述当接收到对所述视频的语音播放指令时，根据所述第二播放数据，播放所述目标语音信息之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述对视频的图像信息进行识别，得到第一播放数据，包括：

所述根据所述第一播放数据获取第二播放数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述目标对象包括人物、背景或动作中的至少两种，所述对所述图像信息中的目标对象进行识别，得到属于所述目标对象的对象标识及对应的出现时间段，将所述对象标识及所述对应的出现时间段作为所述第一播放数据，包括：

6.根据权利要求4所述的方法，其特征在于，所述目标对象包括人物，所述对所述图像信息中的目标对象进行识别，得到属于所述目标对象的对象标识及对应的出现时间段，将所述对象标识及所述对应的出现时间段作为所述第一播放数据，包括：

基于人物划分模型，获取所述人脸特征对应的人物标识；

7.根据权利要求6所述的方法，其特征在于，所述人物划分模型包括多个人物划分子模型，每个人物划分子模型具有对应的人物标识；

8.根据权利要求1所述的方法，其特征在于，所述根据所述第一播放数据获取第二播放数据，包括：

获取所述视频的预设标签；

9.根据权利要求1-8任一项所述的方法，其特征在于，所述视频包括第一视频片段和第二视频片段，所述第一视频片段包括图像信息但不包括原始语音信息，所述第二视频片段包括图像信息及原始语音信息；

10.一种语音信息播放方法，其特征在于，所述方法包括：

接收终端对所述视频的语音播放指令；

11.根据权利要求10所述的方法，其特征在于，所述第二播放数据包括所述目标语音信息及对应的出现时间段；所述根据所述第二播放数据，向所述终端发送所述目标语音信息，包括：

12.一种语音信息播放装置，其特征在于，所述装置包括：

13.一种语音信息播放装置，其特征在于，所述装置包括：

接收模块，用于接收终端对所述视频的语音播放指令；

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至9任一权利要求所述的语音信息播放方法中所执行的操作，或者实现如权利要求10至11任一权利要求所述的语音信息播放方法中所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至9任一权利要求所述的语音信息播放方法中所执行的操作，或者实现如权利要求10至11任一权利要求所述的语音信息播放方法中所执行的操作。