CN110691202A

CN110691202A - 视频剪辑方法、装置及计算机存储介质

Info

Publication number: CN110691202A
Application number: CN201910804184.XA
Authority: CN
Inventors: 马丹; 马晓琳; 张进; 莫东松; 张健; 钟宜峰; 赵璐; 王科
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2020-01-14

Abstract

本发明实施例涉及计算机技术领域，公开了一种视频剪辑方法，包括：获取待剪辑视频，并获取目标人物的人脸特征及整体特征；根据目标人物的人脸特征及整体特征，确定目标人物在待剪辑视频中出现的视频帧；根据目标人物在待剪辑视频中出现的视频帧剪辑待剪辑视频。本发明实施方式中公开的视频剪辑方法、装置及存储介质，使得可以同时提高视频剪辑的准确率和效率。

Description

视频剪辑方法、装置及计算机存储介质

技术领域

本发明实施例涉及计算机技术领域，特别涉及一种视频剪辑方法、装置及存储介质。

背景技术

现有的视频剪辑通常为人力剪辑或利用基于人脸识别的剪辑***进行剪辑。人力剪辑虽然准确率较高，但音乐会、电影、体育比赛等视频具有人物穿插性较为频繁的特点，往往在一个特定时间段会有大量目标和非目标人物交替出现，需要编辑人员具备较为专业的视觉识别能力和持续的专注力，这给人力剪辑操作带来极大的成本和压力、剪辑效率较低；

而基于人脸识别的剪辑***进行剪辑，虽然可以提高剪辑效率，但存在一定的技术边界，特别是在条件较为复杂的场景，如演唱会/体育赛事等现场直播流中，受光照、角度等条件限制较大，识别精准度较低从而影响剪辑的准确率。

发明内容

本发明实施方式的目的在于提供一种视频剪辑方法、装置及存储介质，使得可以同时提高视频剪辑的准确率和效率。

为解决上述技术问题，本发明的实施方式提供了一种视频剪辑方法，包括：获取待剪辑视频，并获取目标人物的人脸特征及整体特征；根据目标人物的人脸特征及整体特征，确定目标人物在待剪辑视频中出现的视频帧；根据目标人物在待剪辑视频中出现的视频帧剪辑待剪辑视频。

本发明的实施方式还提供了一种视频剪辑装置，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的视频剪辑方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述视频剪辑方法。

本发明实施方式相对于现有技术而言，提供了一种视频剪辑方法，获取待剪辑视频，并获取目标人物的人脸特征及整体特征；根据目标人物的人脸特征及整体特征，确定目标人物在待剪辑视频中出现的视频帧；根据目标人物在待剪辑视频中出现的视频帧剪辑待剪辑视频。本实施方式中通过目标人物的人脸特征和整体特征来共同确定待剪辑视频中目标人物出现的视频帧，弥补了由于待剪辑视频的视频帧中人脸区域较小或未露出人脸，导致人脸特征捕捉不准确的缺陷，使得确定的目标人物出现的视频帧更加的准确；且根据确定出的目标人物在待剪辑视频中出现的视频帧剪辑待剪辑视频，实现了自动剪辑，同时提高了视频剪辑的效率和准确率。

另外，根据目标人物的人脸特征及整体特征，确定目标人物在待剪辑视频中出现的视频帧，具体包括：识别待剪辑视频的视频帧中待识别人物的人脸特征；判断待识别人物的人脸特征与目标人物的人脸特征是否匹配成功；若未匹配成功，则识别待剪辑视频的视频帧中待识别人物的整体特征；判断待识别人物的整体特征与目标人物的整体特征是否匹配成功；若匹配成功，则将视频帧确定为目标人物在待剪辑视频中出现的视频帧。该方案中人脸特征匹配不成功时，根据整体特征值来确定视频帧中的待识别人物是否为目标人物，从而弥补了由于待剪辑视频的视频帧中人脸区域较小或未露出人脸，导致人脸特征捕捉不准确的缺陷，使得确定的目标人物出现的视频帧更加的准确。

另外，识别待剪辑视频的视频帧中待识别人物的整体特征，具体为：分割待剪辑视频的视频帧中的待识别人物，得到待识别人物的子图像；将子图像输入19层卷积神经网络中得到待识别人物的整体特征，其中，19层卷积神经网络中的最后一层为全连接层。该方案中给出了获取待识别人物的整体特征的具体实现方式。

另外，根据目标人物在待剪辑视频中出现的视频帧剪辑待剪辑视频，具体包括：确定目标人物的人脸特征首次匹配成功的视频帧，并将首次匹配成功的视频帧作为首次的出场视频帧；依照时间顺序确定目标人物的人脸特征或整体特征匹配成功的前一视频帧与后一视频帧之间的间隔时长；若间隔时长大于第一预设时长，则将前一视频帧作为上一次的退场视频帧，并将后一视频帧作为下一次的出场视频帧；根据出场视频帧及退场视频帧剪辑待剪辑视频。

另外，根据出场视频帧和退场视频帧剪辑待剪辑视频之前，还包括：根据出场视频帧和退场视频帧计算目标人物的出场时长；判断出场时长是否大于第二预设时长；若出场时长大于第二预设时长，则再执行根据出场视频帧和退场视频帧剪辑待剪辑视频。该方案中根据出场视频帧和退场视频帧计算目标人物的出场时长，从而将出场时长小于第二预设时长的片段不做处理，避免了目标人物在视频中短暂闪现而导致的误判，进一步提高了剪辑的准确率。

另外，确定目标人物的人脸特征首次匹配成功的视频帧，具体为：获取与目标人物的人脸特征匹配成功的待识别人物的人脸特征的置信度值；判断置信度值是否大于预设阈值；将第一个置信度值大于预设阈值的视频帧确定为首次匹配成功的视频帧。该方案中将第一个置信度值大于预设阈值的视频帧确定为首次匹配成功的视频帧，从而提高了确定目标人物首次的出场视频帧的准确性。

另外，判断待识别人物的整体特征与目标人物的整体特征是否匹配成功，具体为：计算待识别人物的整体特征的值与目标人物的整体特征的值的差值；判断差值是否小于预设差值；若小于预设差值，则匹配成功。

另外，待识别人物的整体特征至少包括：待识别人物在视频帧中的像素颜色特征。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式的视频剪辑方法的流程示意图；

图2是根据本发明第一实施方式的识别整体特征的示意图；

图3是根据本发明第二实施方式的视频剪辑方法的流程示意图；

图4是根据本发明第三实施方式的视频剪辑装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种视频剪辑方法，本实施方式的核心在于，包括：获取待剪辑视频，并获取目标人物的人脸特征及整体特征；根据目标人物的人脸特征及整体特征，确定目标人物在待剪辑视频中出现的视频帧；根据目标人物在待剪辑视频中出现的视频帧剪辑待剪辑视频。本实施方式中通过目标人物的人脸特征和整体特征来共同确定待剪辑视频中目标人物出现的视频帧，弥补了由于待剪辑视频的视频帧中人脸区域较小或未露出人脸，导致人脸特征捕捉不准确的缺陷，使得确定的目标人物出现的视频帧更加的准确；且根据确定出的目标人物在待剪辑视频中出现的视频帧剪辑待剪辑视频，实现了自动剪辑，同时提高了视频剪辑的效率和准确率。

下面对本实施方式的视频剪辑方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施方式中的视频剪辑方法的流程示意图如图1所示：

步骤101：获取待剪辑视频，并获取目标人物的人脸特征及整体特征。

具体地说，首先获取待剪辑视频，并确定需要剪辑的目标人物，该目标人物可以为一个，也可以为多个。本实施方式中以目标人物为多个进行举例说明，预先获取每个目标人物的人脸特征和整体特征，具体地预先获取包含目标人物的图片，该包含目标人物的图片进行人脸特征检测提取，得到目标人物的人脸特征；对该包含目标人物的图片进行人物的整体特征提取该目标人物的整体特征。值得说明的是，提取该目标人物的整体特征也可在识别待剪辑视频中人物时执行，根据目标人物的人脸特征确定待剪辑视频中为目标人物，则获取该目标人物的整体特征值，此时便可得到目标人物的人脸特征和整体特征。

步骤102：识别待剪辑视频的视频帧中待识别人物的人脸特征。

具体地说，首先，使用开源的暂态混沌神经网络(mtcnn)对视频中每帧待识别人物的人脸进行检测和定位，确定待剪辑视频帧的当前视频帧中是否包含人脸，若包含人脸，则进一步检测出人脸的具***置以及包围盒位置；其次，使用普氏分析法(Procrustes)对包围盒内的人脸图像进行仿射变换对齐人脸，普氏分析法是根据输入的人脸图像，自动定位出人脸特征，如眼睛、鼻尖、嘴角点、眉毛以及人脸各部件轮廓点等；最后，采用剩余神经网络(Residual Neural Network，ResNet)来提取定位出的人脸特征(表示为128维的向量)，从而得到待剪辑视频的当前视频帧中待识别人物的人脸特征，若当前视频帧中包含多个目标人物，则可得到当前视频帧中的每个目标人物的人脸特征。可选地，可将待剪辑视频的每一帧视频帧的人脸特征的识别结果存入缓存数据库中，以供后续使用。

值得说明的是，本实施方式中使用开源的暂态混沌神经网络(mtcnn)进行人脸检测，相较于传统的人脸检测方法来说，开源的暂态混沌神经网络(mtcnn)更能够适用各种自然条件下复杂的人脸场景检测。

步骤103：判断待识别人物的人脸特征与目标人物的人脸特征是否匹配成功。若判定为是，则进入步骤106；若判定为否，则进入步骤104。

具体地说，从缓存数据库中获取待剪辑视频的视频帧的人脸特征，将每一视频帧中待识别人物的人脸特征与预先获取的目标人物的人脸特征进行匹配，具体可通过距离算法(欧式、余弦等)计算待识别人物的人脸特征的值与目标人物的人脸特征的值的差值，通过判断该差值是否小于预设阈值，从而判定该待识别人物的人脸特征与目标人物的人脸特征是否匹配，若匹配，则确定当前视频帧中的待识别人物为该目标人物，即就是说，该视频帧中出现该目标人物，此时进入步骤106，将视频帧确定为目标人物出现的视频帧；若不匹配，则可以确定当前视频帧中并未出现该待识别人物，或者出现该待识别人物、但该待识别人物并未露出人脸或仅露出一部分人脸，此时无法根据人脸特征来判断视频帧中是否出现目标人物，此时进入步骤104，识别待剪辑视频的视频帧中待识别人物的整体特征，根据该整体特征值来确定视频帧中的待识别人物是否为目标人物，从而弥补了由于待剪辑视频的视频帧中人脸区域较小或未露出人脸，导致人脸特征捕捉不准确的缺陷，使得确定的目标人物出现的视频帧更加的准确。其中，该预设阈值表征该待识别人物的人脸特征接近该目标人物的人脸特征，该预设阈值可以根据实际需求自行设置。

步骤104：识别待剪辑视频的视频帧中待识别人物的整体特征。

本实施方式方式中识别待剪辑视频的视频帧中待识别人物的整体特征，具体为：分割待剪辑视频的视频帧中的待识别人物，得到待识别人物的子图像；将子图像输入19层卷积神经网络中得到待识别人物的整体特征，其中，19层卷积神经网络中的最后一层为全连接层。

具体地说，本实施方式中所提到的待识别人物的整体特征至少包括：待识别人物在视频帧中的像素颜色特征，该像素颜色特征表征该待识别人物的衣物颜色。可以理解的是，待识别人物的整体特征不仅仅包括像素颜色特征，还可以包括：身高特征、体型特征、姿态特征等等。本实施方式中使用全卷积网络(Fully Convolutional Networks，FCN)对包含待识别人物的视频进行角色语义识别，分割并抽取出视频帧中的待识别人物的子图像，将抽取出来的子图像送入事先训练好的19层卷积神经网络(VGG-19)，本实施方式中所示的VGG-19网络将最后一层softmax分类层替换为了输出为64维向量的全连接层，将子图像输入该19层卷积神经网络中，便可得到该待识别人物的整体特征f_bady64。本实施方式中识别视频帧中待识别人物的整体特征的示意图如图2所示。可选地，可将待剪辑视频的视频帧的整体特征的识别结果存入缓存数据库中，以供后续使用。

值得说明的是，在将子图像输入19层卷积神经网络之前，还可以获取该待识别人物在子图像中的位置向量(pos_x,pos_y)，再进一步识别子图像中待识别人物的整体特征，从而提高得到的待识别人物的整体特征的置信度值。

步骤105：判断待识别人物的整体特征与目标人物的整体特征是否匹配成功。若判定为是，则进入步骤106；若判定为否，则该流程结束。

本实施方式中判断待识别人物的整体特征与目标人物的整体特征是否匹配成功，具体为：计算待识别人物的整体特征的值与目标人物的整体特征的值的差值；判断差值是否小于预设差值；若小于预设差值，则匹配成功。

具体地说，从缓存数据库中获取待识别人物的整体特征，并计算待识别人物的整体特征的值与目标人物的整体特征的值的差值，若该差值小于预设差值，则确定视频帧中的待识别人物的整体特征与目标人物的整体特征相匹配，从而可以确定视频帧中的待识别人物为目标人物，此时，进入步骤106，将该视频帧确定为目标人物在待剪辑视频中出现的视频帧；若该差值不小于预设差值，则确定视频帧中的待识别人物的整体特征与目标人物的整体特征并不匹配，从而可以确定视频帧中的待识别人物不是目标人物，此时该流程结束。其中，该预设差值表征该待识别人物的人脸特征接近该目标人物的人脸特征，该预设阈值可以根据实际需求自行设置。

步骤106：将视频帧确定为目标人物在待剪辑视频中出现的视频帧。

步骤107：确定目标人物的人脸特征首次匹配成功的视频帧，并将所述首次匹配成功的视频帧作为首次的出场视频帧。

本实施方式中在确定了目标人物出现的视频帧后，根据视频帧上的时间，确定目标人物的人脸特征首次匹配成功的视频帧，并将该视频帧作为该目标人物首次的出场视频帧。

进一步地，本实施方式中确定目标人物在待剪辑视频中首次匹配成功的视频帧，具体为：获取与目标人物的人脸特征匹配成功的待识别人物的人脸特征的置信度值；判断置信度值是否大于预设阈值；将第一个置信度值大于预设阈值的视频帧确定为首次匹配成功的视频帧。该方案中将第一个置信度值大于预设阈值的视频帧确定为首次匹配成功的视频帧，从而提高了确定目标人物首次的出场视频帧的准确性。

步骤108：依照时间顺序确定目标人物的人脸特征或整体特征匹配成功的前一视频帧与后一视频帧之间的间隔时长。

步骤109：判断间隔时长是否大于第一预设时长。若判定为是，则进入步骤110；若判定为否，则返回步骤108。

步骤110：将前一视频帧作为上一次的退场视频帧，并将所述后一视频帧作为下一次的出场视频帧。

步骤111：根据出场视频帧及退场视频帧剪辑待剪辑视频。

针对上述步骤108至步骤111，具体地说，依照时间顺序逐帧确定目标人物的人脸特征或整体特征匹配成功的前一视频帧与后一视频帧之间的间隔时长，若间隔时长大于第一预设时长，则表征视频帧中的目标人物消失了一段时间，可认为该目标人物已经退场，此时，可将前一视频帧作为上一次的退场视频帧，将后一视频帧作为下一次的出场视频帧；直至将视频帧全部处理完毕，可得到多个出场视频帧和退场视频帧，此时，可根据得到的多个出场视频帧和退场视频帧来剪辑待剪辑视频，从该待识别人物的首次的出场视频帧开始，最近的一个退场视频帧，即为该待识别人物的首次的退场视频帧，依据该首次出场的视频帧以及该首次退场的视频帧便可得到该目标人物的首次出现的视频片段，采用此方法，便可得到该待识别人物在待剪辑视频中的多次出场的视频片段。

与现有技术相比，本发明实施方式提供了一种视频剪辑方法，获取待剪辑视频，并获取目标人物的人脸特征及整体特征；根据目标人物的人脸特征及整体特征，确定目标人物在待剪辑视频中出现的视频帧；根据目标人物在待剪辑视频中出现的视频帧剪辑待剪辑视频。本实施方式中通过目标人物的人脸特征和整体特征来共同确定待剪辑视频中目标人物出现的视频帧，弥补了由于待剪辑视频的视频帧中人脸区域较小或未露出人脸，导致人脸特征捕捉不准确的缺陷，使得确定的目标人物出现的视频帧更加的准确；且根据确定出的目标人物在待剪辑视频中出现的视频帧剪辑待剪辑视频，实现了自动剪辑，同时提高了视频剪辑的效率和准确率。

本发明的第二实施方式涉及一种视频剪辑方法。第二实施方式是对第一实施方式的改进，主要改进之处在于，根据出场视频帧和退场视频帧计算目标人物的出场时长，从而将出场时长小于第二预设时长的片段不做处理，避免了目标人物在视频中短暂闪现而导致的误判，进一步提高了剪辑的准确率。

本实施方式中的视频剪辑方法的流程示意图如图3所示，具体包括：

步骤201：获取待剪辑视频，并获取目标人物的人脸特征及整体特征。

步骤202：识别待剪辑视频的视频帧中待识别人物的人脸特征。

步骤203：判断待识别人物的人脸特征与目标人物的人脸特征是否匹配成功。若判定为是，则进入步骤206；若判定为否，则进入步骤204。

步骤204：识别待剪辑视频的视频帧中待识别人物的整体特征。

步骤205：判断待识别人物的整体特征与目标人物的整体特征是否匹配成功。若判定为是，则进入步骤206；若判定为否，则该流程结束。

步骤206：将视频帧确定为目标人物在待剪辑视频中出现的视频帧。

步骤207：确定目标人物的人脸特征首次匹配成功的视频帧，并将所述首次匹配成功的视频帧作为首次的出场视频帧。

步骤208：依照时间顺序确定目标人物的人脸特征或整体特征匹配成功的前一视频帧与后一视频帧之间的间隔时长。

步骤209：判断间隔时长是否大于第一预设时长。若判定为是，则进入步骤210；若判定为否，则返回步骤208。

步骤210：将前一视频帧作为上一次的退场视频帧，并将所述后一视频帧作为下一次的出场视频帧。

本实施方式中的步骤201至步骤210与第一实施方式中的步骤101至步骤110相同，为避免重复，本实施方式中不再赘述。

步骤211：根据出场视频帧和退场视频帧计算目标人物的出场时长。

步骤212：判断出场时长是否大于第二预设时长。若判定为是，则进入步骤213；若判定为否，则进入步骤214。

步骤213：根据出场视频帧及退场视频帧剪辑待剪辑视频。

步骤214：舍弃出场视频帧和退场视频帧。

针对上述步骤211至步骤214，具体地说，根据待识别人物的出场视频帧和出场视频帧之后最近的一个退场视频帧来计算目标人物的出场时长，判断该出场时长是否大于第二预设时长，若大于，则表征该目标人物出现的时长较长，该目标人物很可能是此次视频片段的主角，此时，根据出场视频帧及退场视频帧剪辑待剪辑视频中待识别人物的片段。若出场时长不大于第二预设时长，则表征该目标人物出现的时长较短，该目标人物很可能仅在该视频片段中短暂闪现，而并非是此次视频片段的主角，此时，舍弃该出场视频帧和退场视频帧，并重新返回步骤211执行，直至所有的出场视频帧和退场视频帧处理完毕。

与现有技术相比，本发明实施方式中视频剪辑方法，提供了一种根据出场视频帧和退场视频帧剪辑待剪辑视频之前，还包括：根据出场视频帧和退场视频帧计算目标人物的出场时长；判断出场时长是否大于第二预设时长；若出场时长大于第二预设时长，则再执行根据出场视频帧和退场视频帧剪辑待剪辑视频。该方案中根据出场视频帧和退场视频帧计算目标人物的出场时长，从而将出场时长小于第二预设时长的片段不做处理，避免了目标人物在视频中短暂闪现而导致的误判，进一步提高了剪辑的准确率。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种视频剪辑装置，如图4所示，包括至少一个处理器301；及，与至少一个处理器301通信连接的存储器302；其中，存储器302存储有可被至少一个处理器301执行的指令，指令被至少一个处理器301执行，以使至少一个处理器301能够执行上述的视频剪辑方法。

其中，存储器302和处理器301采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器301和存储器302的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器301处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器301。

处理器301负责管理总线和通常的处理，还可以提供各种功能，包括定时、***接口、电压调节、电源管理及其他控制功能。而存储器302可以被用于存储处理器301在执行操作时所使用的数据。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述视频剪辑方法。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种视频剪辑方法，其特征在于，包括：

获取待剪辑视频，并获取目标人物的人脸特征及整体特征；

根据所述目标人物的人脸特征及所述整体特征，确定所述目标人物在所述待剪辑视频中出现的视频帧；

根据所述目标人物在所述待剪辑视频中出现的视频帧剪辑所述待剪辑视频。

2.根据权利要求1所述的视频剪辑方法，其特征在于，所述根据所述目标人物的人脸特征及所述整体特征，确定所述目标人物在所述待剪辑视频中出现的视频帧，具体包括：

识别所述待剪辑视频的视频帧中待识别人物的人脸特征；

判断所述待识别人物的人脸特征与所述目标人物的人脸特征是否匹配成功；

若未匹配成功，则识别所述待剪辑视频的视频帧中待识别人物的整体特征；

判断所述待识别人物的整体特征与所述目标人物的整体特征是否匹配成功；

若匹配成功，则将所述视频帧确定为所述目标人物在所述待剪辑视频中出现的视频帧。

3.根据权利要求2所述的视频剪辑方法，其特征在于，所述识别所述待剪辑视频的视频帧中待识别人物的整体特征，具体为：

分割所述待剪辑视频的视频帧中的待识别人物，得到所述待识别人物的子图像；

将所述子图像输入19层卷积神经网络中得到所述待识别人物的整体特征，其中，所述19层卷积神经网络中的最后一层为全连接层。

4.根据权利要求2所述的视频剪辑方法，其特征在于，所述根据所述目标人物在所述待剪辑视频中出现的视频帧剪辑所述待剪辑视频，具体包括：

确定所述目标人物的人脸特征首次匹配成功的视频帧，并将所述首次匹配成功的视频帧作为首次的出场视频帧；

依照时间顺序确定所述目标人物的人脸特征或整体特征匹配成功的前一视频帧与后一视频帧之间的间隔时长；

若所述间隔时长大于第一预设时长，则将所述前一视频帧作为上一次的退场视频帧，并将所述后一视频帧作为下一次的出场视频帧；

根据所述出场视频帧及所述退场视频帧剪辑所述待剪辑视频。

5.根据权利要求4所述的视频剪辑方法，其特征在于，所述根据所述出场视频帧和所述退场视频帧剪辑所述待剪辑视频之前，还包括：

根据所述出场视频帧和所述退场视频帧计算所述目标人物的出场时长；

判断所述出场时长是否大于第二预设时长；

若所述出场时长大于所述第二预设时长，则再执行所述根据所述出场视频帧和所述退场视频帧剪辑所述待剪辑视频。

6.根据权利要求4所述的视频剪辑方法，其特征在于，所述确定所述目标人物的人脸特征首次匹配成功的视频帧，具体为：

获取与所述目标人物的人脸特征匹配成功的待识别人物的人脸特征的置信度值；

判断所述置信度值是否大于预设阈值；

将第一个所述置信度值大于所述预设阈值的视频帧确定为所述首次匹配成功的视频帧。

7.根据权利要求2所述的视频剪辑方法，其特征在于，所述判断所述待识别人物的整体特征与所述目标人物的整体特征是否匹配成功，具体为：

计算所述待识别人物的整体特征的值与所述目标人物的整体特征的值的差值；

判断所述差值是否小于预设差值；

若小于所述预设差值，则匹配成功。

8.根据权利要求2所述的视频剪辑方法，其特征在于，所述待识别人物的整体特征至少包括：所述待识别人物在所述视频帧中的像素颜色特征。

9.一种视频剪辑装置，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至8中任一所述的视频剪辑方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一所述的视频剪辑方法。