CN105357475A

CN105357475A - 用于视频播放的方法及装置

Info

Publication number: CN105357475A
Application number: CN201510713118.3A
Authority: CN
Inventors: 张涛; 陈志军; 龙飞
Original assignee: Xiaomi Inc
Current assignee: Beijing Xiaomi Technology Co Ltd; Xiaomi Inc
Priority date: 2015-10-28
Filing date: 2015-10-28
Publication date: 2016-02-24
Also published as: MX363623B; KR101798011B1; US20170125060A1; EP3163473A1; WO2017071086A1; RU2016118885A; JP6419201B2; MX2016005835A; JP2018503148A

Abstract

本公开是关于一种用于视频播放的方法及装置，属于互联网技术领域。所述方法包括：接收播放请求，所述播放请求中携带目标对象信息，所述目标对象信息包括目标对象所在的目标图像或者所述目标对象所属的目标关键词；基于所述目标对象信息，确定所述目标对象在监控视频中所处的视频段；将所述视频段发送给终端，使所述终端播放所述视频段。本公开可以使终端直接播放该监控视频中存在目标对象的视频段，无需播放该监控视频中除该目标对象之外的其他对象所在的视频段，进而避免用户手动对该监控视频的播放进行调整来观看目标对象所处的视频，操作简单，且提高了视频播放效率。

Description

用于视频播放的方法及装置

技术领域

本公开涉及互联网技术领域，尤其涉及一种用于视频播放的方法及装置。

背景技术

随着摄像头的普及，利用摄像头进行实时监控越来越流行。由于利用摄像头实时监控得到的监控视频具有时间上的连续性，所以，当用户想要查看监控视频中的特定对象的行为时，比如用户想要查看监控视频中婴儿的行为时，用户往往需要在监控视频播放的过程中，手动地对监控视频的播放进度进行调整，使监控视频前进或者后退到特定对象所在的视频画面，从而查看特定对象的行为。而用户手动对监控视频的播放进度进行调整的操作比较繁琐，降低了视频播放效率，因此，亟需一种提高视频播放效率的用于视频播放的方法。

发明内容

为克服相关技术中存在的问题，本公开提供一种用于视频播放的方法及装置。

根据本公开实施例的第一方面，提供一种用于视频播放的方法，所述方法包括：

接收播放请求，所述播放请求中携带目标对象信息，所述目标对象信息包括目标对象所在的目标图像或者所述目标对象所属的目标关键词；

基于所述目标对象信息，确定所述目标对象在监控视频中所处的视频段；

将所述视频段发送给终端，使所述终端播放所述视频段。

结合第一方面，在上述第一方面的第一种可能的实现方式中，所述基于所述目标对象信息，确定所述目标对象在监控视频中所处的视频段，包括：

当所述目标对象信息包括目标对象所在的目标图像时，基于指定分类模型和所述目标图像，确定所述目标对象所属的目标类别；

基于所述目标类别，确定所述目标对象所属的目标关键词；

基于所述目标关键词，确定所述目标对象在所述监控视频中所处的视频段。

结合第一方面，在上述第一方面的第二种可能的实现方式中，所述基于所述目标对象信息，确定所述目标对象在监控视频中所处的视频段，包括：

基于所述目标对象信息对应的所述目标关键词和存储的索引库，获取所述目标对象在所述监控视频中所处的至少一帧视频图像；

将所述至少一帧视频图像组成所述目标对象在所述监控视频中所处的视频段。

结合第一方面的第二种可能的实现方式，在上述第一方面的第三种可能的实现方式中，所述基于所述目标对象信息对应的所述目标关键词和存储的索引库，获取所述目标对象在所述监控视频中所处的至少一帧视频图像，包括：

当所述索引库中存储关键词与监控时间点之间的对应关系时，基于所述目标对象信息对应的所述目标关键词，从所述关键词与监控时间点之间的对应关系中，获取至少一个监控时间点；

基于所述至少一个监控时间点，从所述监控视频中，获取至少一帧视频图像。

结合第一方面的第二种可能的实现方式，在上述第一方面的第四种可能的实现方式中，所述基于所述目标对象信息对应的所述目标关键词和存储的索引库，获取所述目标对象在所述监控视频中所处的至少一帧视频图像，包括：

当所述索引库中存储关键词与视频图像之间的对应关系时，基于所述目标对象信息对应的所述目标关键词，从所述关键词与视频图像之间的对应关系中，获取至少一帧视频图像。

结合第一方面的第二种可能的实现方式至第一方面的第四种可能的实现方式中任一可能的实现方式，在上述第一方面的第五种可能的实现方式中，所述基于所述目标对象信息对应的所述目标关键词和存储的索引库，获取所述目标对象在所述监控视频中的至少一帧视频图像之前，还包括：

获取监控视频；

对于所述监控视频中每帧视频图像，基于指定分类模型，确定所述视频图像包括的对象所属的对象类别；

基于所述对象类别，确定所述视频图像包括的对象所属的关键词；

基于所述关键词和所述监控视频，生成所述索引库。

结合第一方面的第五种可能的实现方式，在上述第一方面的第六种可能的实现方式中，所述基于所述对象类别，确定所述视频图像包括的对象所属的关键词，包括：

当所述对象类别为人时，对所述视频图像包括的对象进行人脸识别，得到人脸特征；

基于所述人脸特征，从存储的人脸特征与身份标识之间的对应关系中，获取对应的身份标识；

将所述身份标识确定为所述视频图像包括的对象所属的关键词。

结合第一方面的第五种可能的实现方式，在上述第一方面的第七种可能的实现方式中，所述基于所述关键词和所述监控视频，生成所述索引库，包括：

从所述监控视频中，确定所述视频图像所在的监控时间点；

将所述关键词和所述监控时间点存储在所述索引库包括的关键词与监控时间点之间的对应关系中。

结合第一方面的第五种可能的实现方式，在上述第一方面的第八种可能的实现方式中，所述基于所述关键词和所述监控视频，生成所述索引库，包括：

将所述关键词和所述视频图像存储在所述索引库包括的关键词与视频图像之间的对应关系中。

根据本公开实施例的第二方面，提供一种用于视频播放的装置，所述装置包括：

接收模块，用于接收播放请求，所述播放请求中携带目标对象信息，所述目标对象信息包括目标对象所在的目标图像或者所述目标对象所属的目标关键词；

确定模块，用于基于所述目标对象信息，确定所述目标对象在监控视频中所处的视频段；

发送模块，用于将所述视频段发送给终端，使所述终端播放所述视频段。

结合第二方面，在上述第二方面的第一种可能的实现方式中，所述确定模块包括：

第一确定单元，用于当所述目标对象信息包括目标对象所在的目标图像时，基于指定分类模型和所述目标图像，确定所述目标对象所属的目标类别；

第二确定单元，用于基于所述目标类别，确定所述目标对象所属的目标关键词；

第三确定单元，用于基于所述目标关键词，确定所述目标对象在所述监控视频中所处的视频段。

结合第二方面，在上述第二方面的第二种可能的实现方式中，所述确定模块包括：

第一获取单元，用于基于所述目标对象信息对应的所述目标关键词和存储的索引库，获取所述目标对象在所述监控视频中所处的至少一帧视频图像；

组成单元，用于将所述至少一帧视频图像组成所述目标对象在所述监控视频中所处的视频段。

结合第二方面的第二种可能的实现方式，在上述第二方面的第三种可能的实现方式中，所述第一获取单元包括：

第一获取子单元，用于当所述索引库中存储关键词与监控时间点之间的对应关系时，基于所述目标对象信息对应的所述目标关键词，从所述关键词与监控时间点之间的对应关系中，获取至少一个监控时间点；

第二获取子单元，用于基于所述至少一个监控时间点，从所述监控视频中，获取至少一帧视频图像。

结合第二方面的第二种可能的实现方式，在上述第二方面的第四种可能的实现方式中，所述第一获取单元包括：

第三获取子单元，用于当所述索引库中存储关键词与视频图像之间的对应关系时，基于所述目标对象信息对应的所述目标关键词，从所述关键词与视频图像之间的对应关系中，获取至少一帧视频图像。

结合第二方面的第二种可能的实现方式至第二方面的第四种可能的实现方式中任一可能的实现方式，在上述第二方面的第五种可能的实现方式中，所述确定模块还包括：

第二获取单元，用于获取监控视频；

第四确定单元，用于对于所述监控视频中每帧视频图像，基于指定分类模型，确定所述视频图像包括的对象所属的对象类别；

第五确定单元，用于基于所述对象类别，确定所述视频图像包括的对象所属的关键词；

生成单元，用于基于所述关键词和所述监控视频，生成所述索引库。

结合第二方面的第五种可能的实现方式，在上述第二方面的第六种可能的实现方式中，所述第五确定单元包括：

识别子单元，用于当所述对象类别为人时，对所述视频图像包括的对象进行人脸识别，得到人脸特征；

第四获取子单元，用于基于所述人脸特征，从存储的人脸特征与身份标识之间的对应关系中，获取对应的身份标识；

第一确定子单元，用于将所述身份标识确定为所述视频图像包括的对象所属的关键词。

结合第二方面的第五种可能的实现方式，在上述第二方面的第七种可能的实现方式中，所述生成单元包括：

第二确定子单元，用于从所述监控视频中，确定所述视频图像所在的监控时间点；

第一存储子单元，用于将所述关键词和所述监控时间点存储在所述索引库包括的关键词与监控时间点之间的对应关系中。

结合第二方面的第五种可能的实现方式，在上述第二方面的第八种可能的实现方式中，所述生成单元包括：

第二存储子单元，用于将所述关键词和所述视频图像存储在所述索引库包括的关键词与视频图像之间的对应关系中。

根据本公开实施例的第三方面，提供一种用于视频播放的装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

将所述视频段发送给终端，使所述终端播放所述视频段。

在本公开实施例中，服务器接收播放请求，该播放请求中携带目标对象信息，服务器基于目标对象信息确定目标对象在监控视频中所处的视频段，并将该视频段发送给终端，使终端可以直接播放该监控视频中存在目标对象的视频段，无需播放该监控视频中除该目标对象之外的其他对象所在的视频段，进而避免用户手动对该监控视频的播放进行调整来观看目标对象所处的视频，操作简单，且提高了视频播放效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种用于视频播放的方法所涉及的实施环境的示意图。

图2是根据一示例性实施例示出的一种用于视频播放的方法的流程图。

图3是根据一示例性实施例示出的另一种用于视频播放的方法的流程图。

图4是根据一示例性实施例示出的一种用于视频播放的装置的框图。

图5是根据一示例性实施例示出的一种确定模块的框图。

图6是根据一示例性实施例示出的另一种确定模块的框图。

图7是根据一示例性实施例示出的一种第一获取单元的框图。

图8是根据一示例性实施例示出的又一种确定模块的框图。

图9是根据一示例性实施例示出的一种第五确定单元的框图。

图10是根据一示例性实施例示出的一种生成单元的框图。

图11是根据一示例性实施例示出的另一种用于视频播放的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种用于视频播放的方法所涉及的实施环境的示意图。如图1所示，该实施环境可以包括：服务器101、智能摄像设备102和终端103。服务器101可以是一台服务器，或者是由若干台服务器组成的服务器集群，或者是一个云计算服务中心，智能摄像设备102可以是智能摄像机，终端103可以是移动电话，计算机，平板设备等。服务器101和智能摄像设备102之间可以通过网络进行连接，服务器101与终端103之间也可以通过网络进行连接。服务器101用于接收终端发送的播放请求，基于该播放请求获取对应的视频，并将该视频发送给终端。智能摄像设备102用于采集监控区域内的监控视频，并将监控视频发送给服务器。终端103用于接收服务器发送的视频，并播放该视频。

图2是根据一示例性实施例示出的一种用于视频播放的方法的流程图，如图2所示，该方法用于服务器中，包括以下步骤。

在步骤201中，接收播放请求，播放请求中携带目标对象信息，目标对象信息包括目标对象所在的目标图像或者目标对象所属的目标关键词。

在步骤202中，基于目标对象信息，确定目标对象在监控视频中所处的视频段。

在步骤203中，将目标对象在监控视频中所处的视频段发送给终端，使终端播放该视频段。

在本公开的另一实施例中，基于目标对象信息，确定目标对象在监控视频中所处的视频段，包括：

当目标对象信息包括目标对象所在的目标图像时，基于指定分类模型和目标图像，确定目标对象所属的目标类别；

基于目标类别，确定目标对象所属的目标关键词；

基于目标关键词，确定目标对象在监控视频中所处的视频段。

其中，服务器基于指定分类模型和目标图像，确定目标对象所属的目标类别，并基于该目标类别，确定目标对象所属的目标关键词，可以便于服务器基于该目标关键词快速确定目标对象在监控视频中所处的视频段。

基于目标对象信息对应的目标关键词和存储的索引库，获取目标对象在监控视频中所处的至少一帧视频图像；

将至少一帧视频图像组成目标对象在监控视频中所处的视频段。

由于终端发送播放请求是为了获取目标对象在监控视频中所处的视频段，而视频段可以由至少一帧视频图像组成，因此，服务器基于目标关键词和存储的索引库，可以快速获取目标对象在监控视频中所处的至少一帧视频图像，提高了视频获取效率。

在本公开的另一实施例中，基于目标对象信息对应的目标关键词和存储的索引库，获取目标对象在监控视频中所处的至少一帧视频图像，包括：

当索引库中存储关键词与监控时间点之间的对应关系时，基于目标对象信息对应的目标关键词，从关键词与监控时间点之间的对应关系中，获取至少一个监控时间点；

基于至少一个监控时间点，从监控视频中，获取至少一帧视频图像。

由于监控视频中包括该监控视频包括的每帧视频图像对应的监控时间点，因此，服务器可以确定目标关键词对应的至少一个监控时间点，并从监控视频中，获取该至少一个监控时间点对应的至少一帧视频图像，提高了视频图像的获取准确性。

当索引库中存储关键词与视频图像之间的对应关系时，基于目标对象信息对应的目标关键词，从关键词与视频图像之间的对应关系中，获取至少一帧视频图像。

其中，服务器基于目标关键词，直接获取目标对象对应的至少一帧视频图像，提高了视频图像获取效率。

在本公开的另一实施例中，基于目标对象信息对应的目标关键词和存储的索引库，获取目标对象在监控视频中的至少一帧视频图像之前，还包括：

获取监控视频；

对于监控视频中每帧视频图像，基于指定分类模型，确定视频图像包括的对象所属的对象类别；

基于对象类别，确定视频图像包括的对象所属的关键词；

基于关键词和监控视频，生成索引库。

其中，服务器基于关键词和监控视频，生成索引库，可以便于服务器在接收到播放请求时，基于该索引库，快速获取目标对象在监控视频中所处的至少一帧视频图像，提高了视频图像的获取效率。

在本公开的另一实施例中，基于对象类别，确定视频图像包括的对象所属的关键词，包括：

当对象类别为人时，对视频图像包括的对象进行人脸识别，得到人脸特征；

基于人脸特征，从存储的人脸特征与身份标识之间的对应关系中，获取对应的身份标识；

将身份标识确定为视频图像包括的对象所属的关键词。

其中，当对象类别为人时，服务器将对象的身份标识确定为该对象所述的目标关键词，可以便于终端获取具有特定身份的人在监控视频中所处的至少一帧视频图像，可以针对性地获取某一个人的视频段。

在本公开的另一实施例中，基于关键词和监控视频，生成索引库，包括：

从监控视频中，确定视频图像所在的监控时间点；

将关键词和监控时间点存储在索引库包括的关键词与监控时间点之间的对应关系中。

由于监控视频中包括每帧视频图像对应的监控时间点，因此，服务器将关键词和监控时间点存储在索引库包括的关键词与监控时间点之间的对应关系中，可以便于服务器基于关键词，获取对应的监控时间点，进而从监控视频中，获取该监控时间点对应的视频图像，提高了视频图像的获取准确性。

将关键词和视频图像存储在索引库包括的关键词与视频图像之间的对应关系中。

其中，服务器将关键词和视频图像存储在索引库包括的关键词与视频图像之间的对应关系中，可以便于服务器基于关键词，直接获取对应的视频图像，提高了视频图像获取效率。

上述所有可选技术方案，均可按照任意结合形成本公开的可选实施例，本公开实施例对此不再一一赘述。

图3是根据一示例性实施例示出的一种用于视频播放的方法的流程图，如图3所示，该方法包括以下步骤。

在步骤301中，服务器接收播放请求，该播放请求中携带目标对象信息，目标对象信息包括目标对象所在的目标图像或者目标对象所属的目标关键词。

需要说明的是，该播放请求可以由终端直接发送，当然，该播放请求也可以由终端先发送给其它设备，再由其它设备发送给服务器，本公开实施例对此不做具体限定。

另外，当终端发送播放请求时，该终端可以在接收到播放指令时，向服务器或者其它设备发送播放请求。

需要说明的是，播放指令用于获取目标对象在监控视频中所处的视频段，且播放指令可以由用户触发，用户可以通过指定操作触发，该指定操作可以为点击操作、滑动操作、语音操作等等，本公开实施例对此不做具体限定。

另外，目标图像为包括目标对象的图像，且该目标图像可以为目标对象的照片，或者是终端在播放监控视频的过程中，当终端基于监控视频的视频图像接收到选择指令时，该选择指令中携带目标对象的图像，当然，目标图像还可以通过其它方式获取得到，本公开实施例对此不做具体限定。

再者，目标关键词与目标对象唯一对应，且目标关键词可以为目标对象所属的类别、目标对象的身份标识等等，本公开实施例对此不做具体限定。

在步骤302中，服务器基于目标对象信息，确定目标对象在监控视频中所处的视频段。

由于目标对象信息中包括目标对象所在的图像或者目标对象所属的目标关键词，因此，根据目标对象信息包括的不同内容，服务器基于目标对象信息，确定目标对象在监控视频中所处的视频段可以有如下两种方式：

第一种方式：基于目标对象信息对应的目标关键词和存储的索引库，获取目标对象在监控视频中所处的至少一帧视频图像，并将该至少一帧视频图像组成目标对象在该监控视频中所处的视频段。

由于终端发送播放请求是为了获取目标对象在监控视频中所处的视频段，而视频段可以由至少一帧视频图像组成，因此，服务器可以获取目标对象在监控视频中所处的至少一帧视频图像，并将该至少一帧视频图像组成目标对象在监控视频中所处的视频段。

需要说明的是，当目标对象信息包括目标关键词时，目标对象信息对应的目标关键词可以为该目标对象信息中包括的目标关键词，当目标对象信息中包括目标图像时，目标对象信息对应的目标关键词可以通过该目标图像获取得到。

其中，服务器基于目标关键词和存储的索引库，获取目标对象在监控视频中所处的至少一帧视频图像时，当索引库中存储关键词与监控时间点之间的对应关系时，服务器基于目标关键词，从该关键词与监控时间点之间的对应关系中，获取至少一个监控时间点，并基于该至少一个监控时间点，从监控视频中，获取至少一帧视频图像。或者，当索引库中存储关键词与视频图像之间的对应关系时，服务器基于目标关键词，从该关键词与视频图像之间的对应关系中，获取至少一帧视频图像。

由于监控视频中包括该监控视频包括的每帧视频图像对应的监控时间点，因此，当服务器基于目标关键词，该关键词与监控时间点之间的对应关系中，获取该目标关键词对应的至少一个监控时间点之后，服务器可以基于该至少一个监控时间点，从该监控视频中，获取该至少一个监控时间点对应的至少一帧视频图像。

其中，服务器基于该至少一个监控时间点，从监控视频中，获取至少一帧视频图像的过程可以参考相关技术，本公开实施例在此不进行详细阐述。

例如，当索引库中存储关键词与监控时间点之间的对应关系时，假设目标关键词为杨乐乐，则服务器可以基于目标关键词杨乐乐，从如下表1所示的关键词与监控时间点之间的对应关系中，获取杨乐乐对应的至少一个监控时间点为2015/02/03-21:08:31、2015/03/05-11:08:11、2015/08/03-09:05:31，之后，服务器可以从监控视频中，获取2015/02/03-21:08:31、2015/03/05-11:08:11、2015/08/03-09:05:31分别对应的视频图像。

表1

关键词	监控时间点
		杨乐乐	2015/02/03-21:08:31、2015/03/05-11:08:11、2015/08/03-09:05:31
郭杰	2015/05/13-21:10:02、2015/05/25-21:03:06、2015/08/11-19:18:26
		……	……

需要说明的是，在本公开实施例中，仅以上述表1所示的关键词与监控时间点之间的对应关系为例进行说明，上述表1并不对本公开实施例构成限定。

再例如，当索引库中存储关键词与视频图像之间的对应关系时，假设目标关键词为杨乐乐，服务器可以基于目标关键词杨乐乐，从如下表2所示关键词与视频图像之间的对应关系中，获取杨乐乐对应的至少一帧视频图像为1.JPEG、2.JPEG、3.JPEG。

表2

关键词	视频图像
		杨乐乐	1.JPEG、2.JPEG、3.JPEG
郭杰	1.JPEG、2.JPEG、3.JPEG
		……	……

需要说明的是，在本公开实施例中，仅以上述表2所示的关键词与视频图像之间的对应关系为例进行说明，上述表2并不对本公开实施例构成限定。

其中，服务器将该至少一帧视频图像组成目标对象在监控视频中所处的视频段的过程可以参考相关技术，本发明实施例在此不进行详细阐述。

进一步地，服务器基于目标关键词和存储的索引库，获取目标对象在监控视频中的至少一帧视频图像之前，还可以通过如下步骤(1)-(4)来生成索引库，包括：

(1)服务器获取监控视频。

需要说明的是，服务器可以从智能摄像设备中获取该监控视频，当然，该智能摄像设备也可以将该监控视频发送到其它设备中，以使服务器可以从其它设备中获取该监控视频，本公开实施例对此不做具体限定。

其中，智能摄像设备用于采集监控区域内的监控视频，且智能摄像设备采集监控区域内的监控视频的过程可以参考相关技术，本公开实施例在此不进行详细阐述。

另外，智能摄像设备可以通过有线网络或者无线网络和服务器或者其它设备进行通信，而当智能摄像设备通过无线网络和服务器或者其它设备进行通信时，智能摄像设备可以通过内置的无线保真(英文：WIreless-FIdelity，简称：WIFI)、蓝牙或者其它无线通信芯片来和服务器或者其它设备进行通信，本公开实施例对此不做具体限定。

(2)对于该监控视频中每帧视频图像，服务器基于指定分类模型，确定该视频图像包括的对象所属的对象类别。

需要说明的是，指定分类模型用于确定图像所对应的对象类别，且指定分类模型可以预先建立。

由于指定分类模型可以预先建立，且为了提高对象类别确定的效率，指定分类模型一般可以对预设尺寸的图像进行处理，以确定该图像包括的对象所属的对象类别，因此，服务器基于指定分类模型，确定该视频图像包括的对象所属的对象类别时，服务器可以在监控视频的视频图像中，对该对象所在的区域进行裁剪，得到对象图像，并将对象图像的尺寸处理为预设尺寸，之后，基于指定分类模型和处理后的对象图像，确定该对象所属的对象类别。

其中，服务器在监控视频的视频图像中，对该对象所在的区域进行裁剪，得到对象图像时，可以从该对象所在的视频图像中，截取该对象的外接矩形，并将该外接矩形确定为该对象在监控视频中所处的图像区域，即对象图像。当然，服务器也可以以其它方式对该对象所在的区域进行裁剪，得到对象图像，本公开实施例对此不做具体限定。

另外，预设尺寸可以预先设置，如预设尺寸可以为224*224像素、300*300像素等等，本公开实施例对此不做具体限定。

需要说明的是，服务器基于指定分类模型和处理后的对象图像，确定该对象所属的对象类别的过程可以参考相关技术，本公开实施例在此不进行详细阐述。

(3)服务器基于该视频图像包括的对象所属的对象类别，确定该视频图像包括的对象所属的关键词。

由于该视频图像包括的对象所属的对象类别可能为人，也可能为宠物，还可能为其它物体，而当该视频图像包括的对象所属的对象类别为人或宠物时，终端需要获取具有特定身份的人或宠物在监控视频中所处的视频段，因此，服务器基于该视频图像包括的对象所属的对象类别，确定该视频图像包括的对象所属的关键词的操作可以为：当视频图像包括的对象所属的对象类别为人时，服务器对该对象进行人脸识别，得到人脸特征，之后，基于该人脸特征，从存储的人脸特征与身份标识之间的对应关系中，获取对应的身份标识，并将该身份标识确定为该视频图像包括的对象所属的关键词。当视频图像包括的对象所属的对象类别为宠物时，服务器基于该视频图像，获取宠物标识，并基于该宠物标识，从存储的宠物标识与身份标识的对应关系中，获取对应的身份标识，并将该身份标识确定为该视频图像包括的对象所属的关键词。当视频图像包括的对象所属的对象类别不为人，也不为宠物时，服务器可以直接将该对象类别确定为该视频图像包括的对象所属的关键词。

需要说明的是，服务器对该对象进行人脸识别，得到人脸特征的过程可以参考相关技术，本公开实施例在此不进行详细阐述。

还需要说明的是，宠物标识用于唯一标识该宠物，且该宠物标识可以通过置于该宠物上的二维码、条形码或者其他可识别标识获取得到，本公开实施例对此不做具体限定。

例如，当视频图像包括的对象所属的对象类别为人时，服务器对该对象进行人脸识别，得到人脸特征为A，之后，基于该人脸特征A，从如下表3所示的人脸特征与身份标识之间的对应关系中，获取A对应的身份标识为杨乐乐，则服务器可以将杨乐乐确定为该视频图像包括的对象所属的关键词。

表3

人脸特征	身份标识
		A	杨乐乐
B	郭杰
		……	……

需要说明的是，在本公开实施例中，仅以上述表3所示的人脸特征与身份标识之间的对应关系为例进行说明，上述表3并不对本公开实施例构成限定。

再例如，当视频图像包括的对象所属的对象类别为宠物时，服务器基于该视频图像，扫描置于该宠物上的二维码、条形码或者其他可识别标识，获取宠物标识为ID1，之后，基于该宠物标识ID1，从如下表4所示的宠物标识与身份标识之间的对应关系中，获取ID1对应的身份标识为豆豆，则服务器可以将豆豆确定为该视频图像包括的对象所属的关键词。

表4

宠物标识	身份标识
		ID1	豆豆
ID2	欢欢
		……	……

需要说明的是，在本公开实施例中，仅以上述表4所示的宠物标识与身份标识之间的对应关系为例进行说明，上述表4并不对本公开实施例构成限定。

进一步地，服务器基于该人脸特征，从存储的人脸特征与身份标识之间的对应关系中，获取对应的身份标识之前，服务器可以接收终端发送的第一设置信息，该第一设置信息中携带该对象的身份标识以及该对象的人脸图像，服务器对该人脸图像进行特征提取，得到该对象的人脸特征，并将该人脸特征与该身份标识存储在人脸特征与身份标识之间的对应关系中。

例如，终端发送的第一设置信息中携带身份标识和人脸图像，且该身份标识为杨乐乐，服务器对该人脸图像进行特征提取，得到人脸特征为A，则服务器可以将A和杨乐乐存储在如表3所示的人脸特征与身份标识之间的对应关系中。

进一步地，服务器基于该宠物标识，从存储的宠物标识与身份标识之间的对应关系中，获取对应的身份标识之前，服务器可以接收终端发送的第二设置信息，该第二设置信息中携带该对象的身份标识以及该对象的宠物标识，服务器该宠物标识与该身份标识存储在宠物标识与身份标识之间的对应关系中。

例如，终端发送的第二设置信息中携带身份标识和宠物标识，且该身份标识为豆豆，宠物标识为ID1，则服务器可以将ID1和豆豆存储在如表4所示的宠物标识与身份标识之间的对应关系中。

(4)服务器基于该关键词和该监控视频，生成索引库。

由于索引库中既可以存储关键词与监控时间点之间的对应关系，也可以存储关键词与视频图像之间的对应关系，因此，服务器基于该关键词和该监控视频，生成索引库的操作可以为：当索引库中存储关键词与监控时间点之间的对应关系时，服务器从该监控视频中，确定该视频图像所在的监控时间点，并将该关键词和该监控时间点存储在索引库包括的关键词与监控时间点之间的对应关系中。当索引库中存储关键词与视频图像之间的对应关系时，服务器将该关键词和该视频图像存储在索引库包括的关键词与视频图像之间的对应关系中。

由于监控视频中包括该监控视频中每帧视频图像对应的监控时间点，因此，当服务器确定了存在某个对象的视频图像时，可以基于该视频图像，从该视频图像所属的监控视频中获取该视频图像对应的监控时间点，之后，服务器可以将该对象所属的关键词和该监控时间点存储在索引库包括的关键词与监控时间点之间的对应关系中。

例如，该对象所属的关键词为杨乐乐，服务器从该监控视频中，确定存在杨乐乐的视频图像所在的监控时间点为2015/08/03-09:05:31，则服务器可以将杨乐乐和2015/08/03-09:05:31存储在如表1所示的关键词与监控时间点之间的对应关系中。

再例如，该对象所属的关键词为杨乐乐，该监控视频中存在杨乐乐的视频图像为3.JPEG，则服务器可以将杨乐乐和3.JPEG存储在如表2所示的关键词与视频图像之间的对应关系中。

第二种方式：当目标对象信息包括目标对象所在的目标图像时，服务器基于指定分类模型和目标图像，确定目标对象所属的目标类别，并基于目标类别，确定目标对象所属的目标关键词，进而基于目标关键词，确定目标对象在监控视频中所处的视频段。

其中，服务器基于指定分类模型和目标图像，确定目标对象所属的目标类别时，服务器可以将目标图像的尺寸处理为预设尺寸，并基于指定分类模型和处理后的目标图像，确定该目标图像包括的目标对象所属的目标类别。

需要说明的是，服务器基于指定分类模型和处理后的目标图像，确定该目标对象所属目标类别的过程可以参考相关技术，本公开实施例在此不进行详细阐述。

需要说明的是，服务器基于目标类别，确定目标对象所属的目标关键词的过程与步骤302第一种方式中步骤(3)的确定过程类似，本公开实施例对此不再赘述。

还需要说明的是，服务器基于目标关键词，确定目标对象在监控视频中所处的视频段的过程与步骤302第一种方式的确定过程相同，本公开实施例对此不再赘述。

在步骤303中，服务器将目标对象在监控视频中所处的视频段发送给终端，使终端播放该视频段。

需要说明的是，终端播放该视频段时，不仅可以通过终端中设置的播放模块来播放，当然，终端还可以通过自身安装的播放应用程序来播放，本公开实施例对此不做具体限定。

在本公开实施例中，服务器获取监控视频，并基于指定分类模型确定该监控视频的视频图像中包括的对象所属的对象类别，进而基于该对象类别，确定该对象所属的关键词，并将该关键词和该关键词对应的监控时间点或者将该关键词和该关键词对应的视频图像存储在索引库中，之后，服务器在接收到播放请求时，基于该播放请求携带的目标对象信息，确定目标对象所属的目标关键词，并基于该目标关键词和存储的索引库，获取目标对象在该监控视频中所处的至少一帧视频图像，并将该至少一帧视频图像组成目标对象在该监控视频中所处的视频段，进而将该视频段发送给终端，使终端可以直接播放该监控视频中存在目标对象的视频段，无需播放该监控视频中除该目标对象之外的其他对象所在的视频段，进而避免用户手动对该监控视频的播放进行调整来观看目标对象所处的视频，操作简单，且提高了视频播放效率。

图4是根据一示例性实施例示出的一种用于视频播放的装置的框图。参照图4，该装置包括接收模块401，确定模块402，发送模块403。

接收模块401，用于接收播放请求，播放请求中携带信息，目标对象信息包括目标对象所在的目标图像或者目标对象所属的目标关键词；

确定模块402，用于基于目标对象信息，确定目标对象在监控视频中所处的视频段；

发送模块403，用于将视频段发送给终端，使终端播放视频段。

在本公开的另一实施例中，参照图5，该确定模块402包括：

第一确定单元4021，用于当目标对象信息包括目标对象所在的目标图像时，基于指定分类模型和目标图像，确定目标对象所属的目标类别；

第二确定单元4022，用于基于目标类别，确定目标对象所属的目标关键词；

第三确定单元4023，用于基于目标关键词，确定目标对象在监控视频中所处的视频段。

在本公开的另一实施例中，参照图6，该确定模块402包括第一获取单元4024，组成单元4025。

第一获取单元4024，用于基于目标对象信息对应的目标关键词和存储的索引库，获取目标对象在监控视频中所处的至少一帧视频图像；

组成单元4025，用于将至少一帧视频图像组成目标对象在监控视频中所处的视频段。

在本公开的另一实施例中，参照图7，该第一获取单元4024包括第一获取子单元40241，第二获取子单元40242。

第一获取子单元40241，用于当索引库中存储关键词与监控时间点之间的对应关系时，基于目标对象信息对应的目标关键词，从关键词与监控时间点之间的对应关系中，获取至少一个监控时间点；

第二获取子单元40242，用于基于至少一个监控时间点，从监控视频中，获取至少一帧视频图像。

在本公开的另一实施例中，该第一获取单元4024包括：

第三获取子单元，用于当索引库中存储关键词与视频图像之间的对应关系时，基于目标对象信息对应的目标关键词，从关键词与视频图像之间的对应关系中，获取至少一帧视频图像。

在本公开的另一实施例中，参照图8，该确定模块402还包括第二获取单元4026，第一确定单元4027，第二确定单元4028，生成单元4029。

第二获取单元4026，用于接收智能摄像设备发送的监控视频；

第四确定单元4027，用于对于监控视频中每帧视频图像，基于指定分类模型，确定视频图像包括的对象所属的对象类别；

第五确定单元4028，用于基于对象类别，确定视频图像包括的对象所属的关键词；

生成单元4029，用于基于关键词和监控视频，生成索引库。

在本公开的另一实施例中，参照图9，该第五确定单元4028包括识别子单元40281，第四获取子单元40282，第一确定子单元40283。

识别子单元40281，用于当对象类别为人时，对视频图像包括的对象进行人脸识别，得到人脸特征；

第四获取子单元40282，用于基于人脸特征，从存储的人脸特征与身份标识之间的对应关系中，获取对应的身份标识；

第一确定子单元40283，用于将身份标识确定为视频图像包括的对象所属的关键词。

在本公开的另一实施例中，参照图10，该生成单元4029包括第二确定子单元40291，第一存储子单元40292。

第二确定子单元40291，用于从监控视频中，确定视频图像所在的监控时间点；

第一存储子单元40292，用于将关键词和监控时间点存储在索引库包括的关键词与监控时间点之间的对应关系中。

在本公开的另一实施例中，该生成单元4029包括：

第二存储子单元，用于将关键词和视频图像存储在索引库包括的关键词与视频图像之间的对应关系中。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图11是根据一示例性实施例示出的一种用于视频播放的装置1100的框图。例如，装置1100可以被提供为一服务器。参照图11，装置1100包括处理组件1122，其进一步包括一个或多个处理器，以及由存储器1132所代表的存储器资源，用于存储可由处理部件1122的执行的指令，例如应用程序。存储器1132中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。

装置1100还可以包括一个电源组件1126被配置为执行装置1100的电源管理，一个有线或无线网络接口1150被配置为将装置1100连接到网络，和一个输入输出(I/O)接口1158。装置1100可以操作基于存储在存储器1132的操作***，例如WindowsServerTM，MacOSXTM，UnixTM,LinuxTM，FreeBSDTM或类似。

此外，处理组件1122被配置为执行指令，以执行下述视频播放方法，所述方法包括：

接收播放请求，播放请求中携带目标对象信息，目标对象信息包括目标对象所在的目标图像或者目标对象所属的目标关键词。

基于目标对象信息，确定目标对象在监控视频中所处的视频段。

将目标对象在监控视频中所处的视频段发送给终端，使终端播放该视频段。

基于目标类别，确定目标对象所属的目标关键词；

获取监控视频；

基于对象类别，确定视频图像包括的对象所属的关键词；

基于关键词和监控视频，生成索引库。

将身份标识确定为视频图像包括的对象所属的关键词。

从监控视频中，确定视频图像所在的监控时间点；

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种用于视频播放的方法，其特征在于，所述方法包括：

将所述视频段发送给终端，使所述终端播放所述视频段。

2.如权利要求1所述的方法，其特征在于，所述基于所述目标对象信息，确定所述目标对象在监控视频中所处的视频段，包括：

基于所述目标类别，确定所述目标对象所属的目标关键词；

3.如权利要求1所述的方法，其特征在于，所述基于所述目标对象信息，确定所述目标对象在监控视频中所处的视频段，包括：

4.如权利要求3所述的方法，其特征在于，所述基于所述目标对象信息对应的所述目标关键词和存储的索引库，获取所述目标对象在所述监控视频中所处的至少一帧视频图像，包括：

5.如权利要求3所述的方法，其特征在于，所述基于所述目标对象信息对应的所述目标关键词和存储的索引库，获取所述目标对象在所述监控视频中所处的至少一帧视频图像，包括：

当所述索引库中存储关键词与视频图像之间的对应关系时，基于所述目标对象信息对应的所述目标关键词，从所述关键词与视频图像之间的对应关系中，获取至少一帧频图像。

6.如权利要求3-5任一权利要求所述的方法，其特征在于，所述基于所述目标对象信息对应的所述目标关键词和存储的索引库，获取所述目标对象在所述监控视频中的至少一帧视频图像之前，还包括：

获取监控视频；

基于所述关键词和所述监控视频，生成所述索引库。

7.如权利要求6所述的方法，其特征在于，所述基于所述对象类别，确定所述视频图像包括的对象所属的关键词，包括：

8.如权利要求6所述的方法，其特征在于，所述基于所述关键词和所述监控视频，生成所述索引库，包括：

从所述监控视频中，确定所述视频图像所在的监控时间点；

9.如权利要求6所述的方法，其特征在于，所述基于所述关键词和所述监控视频，生成所述索引库，包括：

10.一种用于视频播放的装置，其特征在于，所述装置包括：

11.如权利要求10所述的装置，其特征在于，所述确定模块包括：

12.如权利要求10所述的装置，其特征在于，所述确定模块包括：

13.如权利要求12所述的装置，其特征在于，所述第一获取单元包括：

14.如权利要求12所述的装置，其特征在于，所述第一获取单元包括：

15.如权利要求12-14任一权利要求所述的装置，其特征在于，所述确定模块还包括：

第二获取单元，用于获取监控视频；

16.如权利要求15所述的装置，其特征在于，所述第五确定单元包括：

17.如权利要求15所述的装置，其特征在于，所述生成单元包括：

18.如权利要求15所述的装置，其特征在于，所述生成单元包括：

19.一种用于视频播放的装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

接收播放请求，所述播放请求中携带目标对象信息，所述目标对象信息包括目标对象所在的目标图像或者所述目标对象所属的目标关键词所属的目标关键词；

将所述视频段发送给终端，使所述终端播放所述视频段。