WO2019023953A1

WO2019023953A1 - 一种基于智能终端的视频剪辑方法及视频剪辑***

Info

Publication number: WO2019023953A1
Application number: PCT/CN2017/095540
Authority: WO
Inventors: 覃桐
Original assignee: 深圳传音通讯有限公司
Priority date: 2017-08-02
Filing date: 2017-08-02
Publication date: 2019-02-07

Abstract

提供了一种基于智能终端的视频剪辑方法及视频剪辑***，视频剪辑方法包括以下步骤：获取待剪辑视频文件，并存储于所述智能终端内；获取具有人物肖像元素的人物肖像图片，并提取所述人物肖像元素的人物肖像特征；获取所述待剪辑视频中包含与所述人物肖像特征相符的人物的视频片段；将所述视频片段或待剪辑视频中除所述视频片段外的剩余视频片段进行拼接。采用上述技术方案后，可根据用户的需求结合用户导入的人物图片实现智能剪辑并形成含或不含某一人物或多个人物的完整视频，同时提供交互接口，由用户对提取的视频片段再次筛选，提高准确度。

Description

一种基于智能终端的视频剪辑方法及视频剪辑***

技术领域

本发明涉及智能设备领域，尤其涉及一种基于智能终端的视频剪辑方法及视频剪辑***。

背景技术

随着视频节目的多元蓬勃发展，电视剧、电影等视频节目成为了人们生活中不可或缺的一部分，而人们对视频节目中的情节、人物都存在一定的偏好，经常出现想看某一演员但由不想看完全剧或整个电影的情况，人们一般都会采取快进的手段，但此方法不仅浪费时间、而且容易错过故事情节。现有技术中存在对感兴趣人物的视频片段进行提取的算法，但准确度不高。

因此，本发明通过图像识别算法，将目标人物的背影与正面画面相区分，分别比对，并结合用户的需求提供一种视频剪辑的方法，不仅适用与视频节目，同样适用于用户拍摄的生活视频，可以剪辑包含某一人物的专属视频，也可剪辑同时包含某多个人物的视频，或不包含某一人物的视频，同时可以提供包含目标人物背影的视频，节省时间，并且精确度高，并通过与用户交互对提取内容进行筛选，再次提高精确度。

发明内容

为了克服上述技术缺陷，本发明的目的在于提供一种基于智能终端的视频剪辑方法及视频剪辑***，可根据用户的需求进行包含或不包含某一人物或某多个人物的专属视频剪辑，且快捷方便，精确度高，节省时间。

本发明公开了一种基于智能终端的视频剪辑方法，包括以下步骤：

获取待剪辑视频文件，并存储于所述智能终端内；

获取具有人物肖像元素的人物肖像图片，并提取所述人物肖像元素的人物肖像特征；

获取所述待剪辑视频中包含与所述人物肖像特征相符的人物的视频片段；

将所述视频片段或待剪辑视频中除所述视频片段外的剩余视频片段进行拼接。

优选地，获取具有人物肖像元素的人物肖像图片，并提取所述人物肖像元素的人物肖像特征的步骤包括：

获取具有人物肖像元素的人物肖像图片，并存储于所述智能终端内；

识别所述人物肖像图片中的人物肖像元素；

提取所述人物肖像元素的身形轮廓特征为第一身形轮廓特征，提取所述人物肖像元素的面部肖像特征为第一面部肖像特征。

优选地，获取所述待剪辑视频中包含与所述人物肖像特征相符的人物的视频片段的步骤包括：

将待剪辑视频进行拆分，获取每一帧画面，提取所述每一帧画面中的待比对人物肖像元素，包括人物背影元素与人物面部元素；

提取所述人物背影元素的身形轮廓特征为第二身形轮廓特征，提取所述人物面部元素的面部肖像特征为第二面部肖像特征；

对所述第二身形轮廓特征与所述第一身形轮廓特征进行比对，获取相似度大于等于第一相似度阈值时所述第二身形轮廓特征对应的画面为人物背影画面；

对所述第二面部肖像特征与所述第一面部肖像特征进行比对，获取相似度大于等于第二相似度阈值时所述第二面部肖像特征对应的画面为人物正面画面；

从所述待剪辑视频中剪切所述人物背影画面与所述人物正面画面，形成视频片段。

优选地，将所述视频片段或待剪辑视频中除所述视频片段外的剩余视频片段进行拼接的步骤包括：

分离所述视频片段或待剪辑视频中除所述视频片段外的剩余视频片段中的音频信息与视频信息，形成音频部分与视频部分；

将所述音频部分与所述视频部分单独进行拼接形成完整音频部分与完整视频部分；

将所述完整音频部分与所述完整视频部分进行同步。

优选地，在获取所述待剪辑视频中包含与所述人物肖像特征相符的人物的视频片段的步骤与将所述视频片段或待剪辑视频中除所述视频片段外的剩余视频片段进行拼接的步骤之间，所述视频剪辑方法还包括：

向用户推送所述视频片段，由用户进行筛选，剔除无关的视频片段。

本发明还公开了一种基于智能终端的视频剪辑***，包括：

视频获取模块，获取待剪辑视频文件，并存储于所述智能终端内；

肖像特征提取模块，获取具有人物肖像元素的人物肖像图片，并提取所述人物肖像元素的人物肖像特征；

视频片段获取模块，与所述视频获取模块及所述肖像特征提取模块连接，获取所述待剪辑视频中包含与所述人物肖像特征相符的人物的视频片段；

视频拼接模块，与所述视频片段获取模块连接，将所述视频片段或待剪辑视频中除所述视频片段外的剩余视频片段进行拼接。

优选地，所述肖像特征提取模块包括：

图片获取单元，获取具有人物肖像元素的人物肖像图片，并存储于所述智能终端内；

肖像元素识别单元，与所述图片获取单元连接，识别所述人物肖像图片中的人物肖像元素；

肖像特征提取单元，与所述肖像元素识别单元连接，提取所述人物肖像元素的身形轮廓特征为第一身形轮廓特征，提取所述人物肖像元素的面部肖像特征为第一面部肖像特征。

优选地，所述视频片段获取模块包括：

元素提取单元，将待剪辑视频进行拆分，获取每一帧画面，提取所述每一帧画面中的待比对人物肖像元素，包括人物背影元素与人物面部元素；

特征提取单元，与所述元素提取单元连接，提取所述人物背影元素的身形轮廓特征为第二身形轮廓特征，提取所述人物面部元素的面部肖像特征为第二面部肖像特征；

背影画面获取单元，与所述特征提取单元连接，对所述第二身形轮廓特征与所述第一身形轮廓特征进行比对，获取相似度大于等于第一相似度阈值时所述第二身形轮廓特征对应的画面为人物背影画面；

正面画面获取单元，与所述特征提取单元连接，对所述第二面部肖像特征与所述第一面部肖像特征进行比对，获取相似度大于等于第二相似度阈值时所述第二面部肖像特征对应的画面为人物正面画面；

剪切单元，与所述背影画面获取单元及所述正面画面获取单元连接，从所述待剪辑视频中剪切所述人物背影画面与所述人物正面画面，形成视频片段。

优选地，所述视频拼接模块包括：

分离单元，分离所述视频片段中的音频信息与视频信息，形成音频部分与视频部分；

拼接单元，与所述分离单元连接，将所述音频部分与所述视频部分单独进行拼接形成完整音频部分与完整视频部分；

同步单元，与所述拼接单元连接，将所述完整音频部分与所述完整视频部分进行同步。

优选地，在视频片段获取模块与视频拼接模块之间，所述视频剪辑***还包括：

视频片段筛选模块，向用户推送所述视频片段，由用户进行筛选，剔除无关的视频片段。

采用了上述技术方案后，与现有技术相比，具有以下有益效果：

1.满足用户对获取包含或不包含某一人物或某多个人物的专属视频的需求；

2.可识别目标人物的背影，获取包含或不包含某一人物或某多个人物背影的视频片段；

3.快捷方便，准确度高；

附图说明

图1为符合本发明一优选实施例中视频剪辑方法的流程示意图；

图2为符合本发明一优选实施例中，视频剪辑方法的提取人物肖像特征的方法的流程示意图；

图3为符合本发明一优选实施例中，视频剪辑方法的获取视频片段的方法的流程示意图；

图4为符合本发明一优选实施例中，视频剪辑方法的将视频片段或待剪辑视频中除视频片段外的剩余视频片段进行拼接的方法的流程示意图；

图5为符合本发明另一优选实施例中视频剪辑方法的流程示意图；

图6为符合本发明一优选实施例视频剪辑***的***结构示意图。

图7为符合本发明一优选实施例中，视频剪辑***的肖像特征提取模块的结构示意图。

图8为符合本发明一优选实施例中，视频剪辑***的视频片段获取模块的结构示意图。

图9为符合本发明一优选实施例中，视频剪辑***的视频拼接模块的结构示意图。

图10为符合本发明另一优选实施例视频剪辑***的***结构示意图。

附图标记：

100-视频剪辑***；11-视频获取模块；12-视频片段获取模块；13-肖像特征提取模块；14-视频拼接模块；15-视频片段筛选模块。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

在本发明的描述中，除非另有规定和限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，“模块”与“部件”可以混合地使用。

移动终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

参阅图1，为本发明一优选实施例中基于智能终端的视频剪辑方法的流程示意图。该实施例中，视频剪辑方法具体包括以下步骤：

S100：获取待剪辑视频文件，并存储于所述智能终端内

为了实现视频剪辑，首先必须要获取待剪辑的视频文件，获取待剪辑视频文件的方式既包括导入智能终端内的视频，也包括从智能终端外部导入视频，并存储在智能终端内。此处导入的待剪辑视频文件必须包含用户想要剪辑的目标人物，若用户导入视频错误，即不包含其想要剪辑的目标人物，则在后续图像识别获取视频片段时将会没有结果，并提醒用户未获取相关视频，请用户核对待剪辑视频文件或目标人物肖像图片是否导入错误。

S200：获取具有人物肖像元素的人物肖像图片，并提取所述人物肖像元素的人物肖像特征

获取待剪辑视频后，为了实现以目标人物为中心的视频剪辑，需要获取具有人物肖像元素的人物肖像图片，并提取图片中人物肖像元素的人物肖像特征。获取人物肖像图片的方式既包括导入智能终端内的图片，也包括从智能终端外部导入图片，并存储在智能终端内。此处导入的人物肖像图片必须与用户的需求紧密结合，如果用户需要目标人物的正面肖像视频片段，则用户提供的人物肖像图片必须包含目标人物的面部元素，如果用户需要包含目标人物背影的视频片段，则用户提供的人物肖像图片必须包含目标人物的背影，同时，当目标人物数量为1时，用户提供的人物肖像图片也必须为包含目标人物单独一人的图片；当目标人物数量大于1时，用户需提供目标人物的相应的人物肖像图片，所有图片中均不可出现除目标人物以外的其他人，但可为同时并仅包含多个目标人物的人物肖像图片。为提供结果的精确度，将建议用户从待剪辑视频中截取满足上述要求的图片作为人物肖像图片，比对结果更加准确。

S300：获取所述待剪辑视频中包含与所述人物肖像特征相符的人物的视频片段

获取待剪辑视频文件以及人物肖像图片并提取人物肖像特征后，需要根据提取的人物肖像特征对视频中的画面的人物进行比对，获取包含与提取的人物肖像特征相符的人物的视频片段。在此过程中，需要根据用户的需求建立策略，既包括目标人物正面画面与目标人物背影画面的区分，目标人物数量的区分，也包括目标人物与其他人物的区分。首先，用户需要的视频片段若为只含目标人物正面肖像的画面则只需要获取含目标人物正面肖像的画面，用户需要的视频片段若为只含目标人物背影的画面则只需要获取含目标人物背影的画面，若二者都需要，则含目标人物正面肖像的画面与含目标人物背影的画面之间应为逻辑或的关系。其次，用户的目标人物数量超过1时，则需要考虑各人物之间的关系，当用户需要各目标人物同时出现的画面时，各目标人物肖像特征之间的关系应为逻辑与，当用户需要各目标人物任一出现的画面即可时，各目标人物肖像特征之间的关系应为逻辑或，除此之外，各目标人物之间的逻辑关系均可用户需求确定，如其中两者是逻辑与关系，另一者与该两者为逻辑或的关系。以电视剧为例，若用户需要某一男配角与女主角的所有对戏集锦，则两人物应同时出现，二者之间应为逻辑与的关系，则只获取二者人物肖像均出现的画面，既包括背影也包括正面。最后，关于目标人物与其他人物的区分，若用户需要只包含目标人物的画面，则画面中提取的人物数量应与画面中目标人物数量一致。

获取待剪辑视频中包含与目标人物肖像特征相符的人物的视频片段的过程如下，对待剪辑视频进行分帧，获取每一帧画面，通过图像变换技术、图像增强技术、图像识别技术以及图像分割技术将每一帧画面中的人物肖像元素提取出来，再通过取样提取人物肖像元素中的人物肖像特征，一一与目标人物图片中提取的人物肖像元素比对，二者相一致时，则该画面即为含该目标人物的画面，相连的画面即形成一个视频片段。

在上述电视剧例子中，将人物肖像特征分为面部肖像特征与身形轮廓特征，若男配角的面部肖像特征为A1，身形轮廓特征为A2，女主角的面部肖像特征为B1，身形轮廓特征为B2，画面人物肖像元素数量为N，则只有该男配角与该女主角对戏，既包括正面也包括背影，且不包含其他人的画面应包含的特征的逻辑关系应为(A1 orA2)and(B1 or B2)and(N＝2)。

S400：将所述视频片段或待剪辑视频中除所述视频片段外的剩余视频片段进行拼接

获取待剪辑视频中包含与目标人物肖像特征相符的人物的视频片段后，需要将获取的片段进行拼接，拼接时应按照一定的顺序，既可以按照时间顺序，也可以按照画面中人物由少到多或由多到少的顺序，其中人物由少到多的变化即为仅含目标人物到含其他人的变化，由多到少与之相反，也可以按照目标人物占视频画面的比例由小到大或由大到小的顺序，后两种顺序均应辅以时间顺序。以按目标人物占视频画面的比例为标准的顺序为例，该人物占视频画面的比例可通过该人物肖像元素在视频画面中的面积除以视频画面的面积计算，记为占比率，此计算应在在识别每一帧画面后进行。当某一画面的人物占比率较高时，若该画面在某一被选取的视频片段中，则该视频片段视为一体，不论该视频片段其它画面中占比率高低，均按时间顺序拼接，防止单纯由占比率进行拼接造成画面断裂不连续。相当于用视频片段中画面的最大占比率进行比较，并按最大占比率大小顺序进行拼接，同时，占比率相同时，也按时间顺序拼接。

除了将获取的视频片段进行拼接外，当用户需求为不含某一人物或某多个人物的视频，则需要将待剪辑视频中除获取的视频片段外的剩余视频片段进行拼接，去除获取的视频片段。

具有上述配置后，用户可根据用户的需求快速准确获取包含或不包含某一人物或某多个人物的专属视频，同时可准确识别含目标人物背影的视频片段。

参阅图2，在一优选实施例中，获取具有人物肖像元素的人物肖像图片，并提取所述人物肖像元素的人物肖像特征的步骤，具体包括有：

S201：获取具有人物肖像元素的人物肖像图片，并存储于所述智能终端内

获取待剪辑视频后，为了实现以目标人物为中心的视频剪辑，需要获取具有人物肖像元素的人物肖像图片，获取人物肖像图片的方式既包括导入智能终端内的图片，也包括从智能终端外部导入图片，并存储在智能终端内。

S202：识别所述人物肖像图片中的人物肖像元素

获取具有人物肖像元素的人物肖像图片后，由于图片中可能存在具有干扰因素的背景，因此，需要将图片中的人物肖像元素提取出来，此处首先需要通过图像变换，如傅里叶变换、沃尔什-阿达玛变换以及离散卡夫纳-勒维变换将图像从时域变换到频域，再通过图像增强技术将频域图像中的高频突变分量强化，强化图像边缘，图像边缘被强化后，则需要通过图像识别技术通过提取特征、建立索引以及查询步骤识别图片中的人物肖像元素，通过图像分割技术提取人物肖像元素。此处的提取特征操作需以外部的相应人物肖像数据库为基础，通过对人物肖像数据库中肖像元素的采样建立不同肖像元素的识别模型，以区分不同的肖像元素，如对数据库中大量面部肖像的采样建立面部肖像的识别模型，在对人物肖像进行识别过程中利用该模型进行识别，当在图片中识别到与该模型一致的部分时，即认为该部分为面部肖像元素。

S203：提取所述人物肖像元素的身形轮廓特征为第一身形轮廓特征，提取所述人物肖像元素的面部肖像特征为第一面部肖像特征

提取人物肖像元素后，需要提取其中的肖像特征，此处应对人物肖像图片进行区分，当人物肖像图片中的人物肖像元素为人物背影时，应提取人物背影的身形轮廓特征，包括身体轮廓，各部分的比例等特征，形成第一身形轮廓特征；当人物肖像图片中的人物肖像元素为人物正面肖像时，应提取人物正面肖像的面部肖像特征，包括面部肤色、五官形状大小、位置距离关系以及面部具有识别意义的特征，如嘴角的黑痣等特征，也可以在面部进行均匀取样，并记录面部肖像在画面中的面积大小。

参阅图3，在一优选实施例中，获取所述待剪辑视频中包含与所述人物肖像特征相符的人物的视频片段的步骤可具体包括：

S301：将待剪辑视频进行拆分，获取每一帧画面，提取所述每一帧画面中的待比对人物肖像元素，包括人物背影元素与人物面部元素

为了对待剪辑视频中的人物肖像进行识别，需要首先对视频进行分帧，形成一帧一帧的画面，并提取每一帧画面中的人物肖像元素，首先需要通过图像变换，如傅里叶变换、沃尔什-阿达玛变换以及离散卡夫纳-勒维变换将图像从时域变换到频域，再通过图像增强技术将频域图像中的高频突变分量强化，强化图像边缘，图像边缘被强化后，则需要通过图像识别技术通过提取特征、建立索引以及查询步骤识别图片中的人物肖像元素，最后通过图像分割技术提取人物肖像元素，提取的人物肖像元素包括人物背影元素与人物面部元素。此处的提取特征操作需以外部的相应人物肖像数据库为基础，通过对人物肖像数据库中肖像元素的采样建立不同肖像元素的识别模型，以区分不同的肖像元素，如对数据库中大量面部肖像的采样建立面部肖像的识别模型，在对人物肖像进行识别过程中利用该模型进行识别，当在图片中识别到与该模型一致的部分时，即认为该部分为面部肖像元素。

S302：提取所述人物背影元素的身形轮廓特征为第二身形轮廓特征，提取所述人物面部元素的面部肖像特征为第二面部肖像特征

在待剪辑视频的画面中提取到人物背影元素后，需对人物背影元素进行采样，提取身体轮廓、各部分的比例等身形轮廓特征形成第二身形轮廓特征，此处的提取方法应与提取人物第一身形轮廓特征中的方法保持一致；在待剪辑视频的画面中提取到人物面部元素后，需对人物面部元素进行采样，提取包括面部肤色、五官形状大小、位置距离关系以及面部具有识别意义的特征，如嘴角的黑痣等特征的面部肖像特征形成第二面部肖像特征，此处的提取方法应与提取人物第一面部肖像特征中的方法保持一致。存在目标人物有可能会戴墨镜，因此在提取面部肖像特征时需要对墨镜部分删除，只考虑剩余面部肖像部分，删除墨镜部分的步骤包括通过对大量墨镜数据库的采样形成由轮廓线条与颜色等特征构成的墨镜模型，通过墨镜模型建立索引对面部元素进行查询，当查询到与墨镜模型一致的部分时，认为该部分为墨镜部分，删除该部分。

S303：对所述第二身形轮廓特征与所述第一身形轮廓特征进行比对，获取相似度大于等于第一相似度阈值时所述第二身形轮廓特征对应的画面为人物背影画面

获取第二身形轮廓特征与第一身形轮廓特征后，根据第一身形轮廓特征建立索引，将第二身形轮廓特征缩放至与第一身形轮廓特征相同的尺寸，并根据索引对缩放后的第二身形轮廓特征进行采样查询，如身体的轮廓线条是否吻合，身体各部分的比例是否吻合等等，取第一相似度阈值为90％，当吻合度均大于等于第一相似度阈值时认为第二身形轮廓特征与第一身形轮廓特征的相似度大于等于第一相似度阈值，认为该第二身形轮廓特征对应的人物与第一身形轮廓特征对应的人物为同一人，获取该第二身形轮廓特征对应的画面，为人物背影画面。此处第一相似度阈值的标准可上下进行调整，满足一定的识别准确度均可。由于背影识别的难度较大，容易识别错误，因此，设置较高的相似度阈值有利于提高准确度，为了防止相似度阈值太高时遗漏画面，可设置相似度在85％-90％之间时弹出该画面，由用户进行选择是否获取该画面，以此减少画面的遗漏。

S304：对所述第二面部肖像特征与所述第一面部肖像特征进行比对，获取相似度大于等于第二相似度阈值时所述第二面部肖像特征对应的画面为人物正面画面

获取第二面部肖像特征与第一面部肖像特征后，根据第一面部肖像特征建立索引，将第二面部肖像特征缩放至与第一面部肖像特征相同的尺寸，并根据索引对缩放后的第二面部肖像特征进行比对，如面部肤色是否相同、五官形状大小、位置距离关系是否吻合以及面部具有识别意义的特征，如嘴角的黑痣是否相同等等，取第二相似度阈值为85％，当吻合度均大于等于第二相似度阈值时，认为第二面部肖像特征与第一面部肖像特征的相似度大于等于第二相似度阈值，认为该第二面部肖像特征对应的人物与第一面部肖像特征对应的人物为同一人，获取该第二面部肖像特征对应的画面，为人物正面画面。此处第二相似度阈值的标准可上下进行调整，满足一定的识别准确度均可。由于面部肖像特征较多，比对更准确，因此面部肖像特征比对时阈值即第二相似度阈值比身形轮廓特征比对时阈值即第一相似度阈值稍低。同样，对于面部肖像特征的比对，设置较高的相似度阈值有利于提高准确度，为了防止相似度阈值太高时遗漏画面，可设置相似度在80％-85％之间时弹出该画面，由用户进行选择是否获取该画面，以此减少画面的遗漏。

S305：从所述待剪辑视频中剪切所述人物背影画面与所述人物正面画面，形成视频片段

获取人物背影画面与人物正面画面后，查询相邻帧的画面是否也被获取，当相邻帧的画面被获取时，将连续帧画面视为一体从待剪辑视频中剪切下来，形成视频片段。

参阅图4，在一优选实施例中，将所述视频片段或待剪辑视频中除所述视频片段外的剩余视频片段进行拼接的步骤具体包括：

S401：分离所述视频片段或待剪辑视频中除所述视频片段外的剩余视频片段中的音频信息与视频信息，形成音频部分与视频部分

获取视频片段或待剪辑视频中除所述视频片段外的剩余视频片段后，需将每一片段中的音频信息与视频信息分离，此处的视频信息不包括音频信息，同时需要记录音频信息与视频信息的位置关系，并将音频信息与视频信息提取出来，形成音频部分与视频部分。

S402：将所述音频部分与所述视频部分单独进行拼接形成完整音频部分与完整视频部分

获取每一片段的音频部分与视频部分后，需要将音频部分与视频部分单元按顺序进行拼接，形成完全由音频部分构成的完整音频部分与完全由视频部分构成的完整视频部分。

S403：将所述完整音频部分与所述完整视频部分进行同步

获取完整音频部分与完整视频部分后，根据所记录的音频信息与视频信息的位置关系，将完整音频部分与完整视频部分进行同步，形成最终完整的视频。

参阅图5，为本发明另一优选实施例中基于智能终端的视频剪辑方法的流程示意图。该实施例中，在获取所述待剪辑视频中包含与所述人物肖像特征相符的人物的视频片段的步骤与将所述视频片段或待剪辑视频中除所述视频片段外的剩余视频片段进行拼接的步骤之间，该视频剪辑方法还包括以下步骤：

S500：向用户推送所述视频片段，由用户进行筛选，剔除无关的视频片段

获取视频片段后，为进一步提高准确度，通过向用户推送获取的视频片段，由用户进行筛选，并可进行删除操作剔除识别错误的无关视频片段。

参阅图6，为符合本发明一优选实施例中基于智能终端的视频剪辑***100，其具体包括以下部件：

视频获取模块11，为了实现视频剪辑，首先必须要获取待剪辑的视频文件，获取待剪辑视频文件的方式既包括导入智能终端内的视频，也包括从智能终端外部导入视频，并存储在智能终端内。此处导入的待剪辑视频文件必须包含用户想要剪辑的目标人物，若用户导入视频错误，即不包含其想要剪辑的目标人物，则在后续图像识别获取视频片段时将会没有结果，并提醒用户未获取相关视频，请用户核对待剪辑视频文件或目标人物肖像图片是否导入错误。

肖像特征提取模块13，获取待剪辑视频后，为了实现以目标人物为中心的视频剪辑，需要获取具有人物肖像元素的人物肖像图片，并提取图片中人物肖像元素的人物肖像特征。获取人物肖像图片的方式既包括导入智能终端内的图片，也包括从智能终端外部导入图片，并存储在智能终端内。此处导入的人物肖像图片必须与用户的需求紧密结合，如果用户需要目标人物的正面肖像视频片段，则用户提供的人物肖像图片必须包含目标人物的面部元素，如果用户需要包含目标人物背影的视频片段，则用户提供的人物肖像图片必须包含目标人物的背影，同时，当目标人物数量为1时，用户提供的人物肖像图片也必须为包含目标人物单独一人的图片；当目标人物数量大于1时，用户需提供目标人物的相应的人物肖像图片，所有图片中均不可出现除目标人物以外的其他人，但可为同时并仅包含多个目标人物的人物肖像图片。为提供结果的精确度，将建议用户从待剪辑视频中截取满足上述要求的图片作为人物肖像图片，比对结果更加准确。

视频片段获取模块12，与所述视频获取模块11及所述肖像特征提取模块13连接，获取待剪辑视频文件以及人物肖像图片并提取人物肖像特征后，需要根据提取的人物肖像特征对视频中的画面的人物进行比对，获取包含与提取的人物肖像特征相符的人物的视频片段。在此过程中，需要根据用户的需求建立策略，既包括目标人物正面画面与目标人物背影画面的区分，目标人物数量的区分，也包括目标人物与其他人物的区分。首先，用户需要的视频片段若为只含目标人物正面肖像的画面则只需要获取含目标人物正面肖像的画面，用户需要的视频片段若为只含目标人物背影的画面则只需要获取含目标人物背影的画面，若二者都需要，则含目标人物正面肖像的画面与含目标人物背影的画面之间应为逻辑或的关系。其次，用户的目标人物数量超过1时，则需要考虑各人物之间的关系，当用户需要各目标人物同时出现的画面时，各目标人物肖像特征之间的关系应为逻辑与，当用户需要各目标人物任一出现的画面即可时，各目标人物肖像特征之间的关系应为逻辑或，除此之外，各目标人物之间的逻辑关系均可用户需求确定，如其中两者是逻辑与关系，另一者与该两者为逻辑或的关系。以电视剧为例，若用户需要某一男配角与女主角的所有对戏集锦，则两人物应同时出现，二者之间应为逻辑与的关系，则只获取二者人物肖像均出现的画面，既包括背影也包括正面。最后，关于目标人物与其他人物的区分，若用户需要只包含目标人物的画面，则画面中提取的人物数量应与画面中目标人物数量一致。

视频拼接模块14，与所述视频片段获取模块12连接，获取待剪辑视频中包含与目标人物肖像特征相符的人物的视频片段后，需要将获取的片段进行拼接，拼接时应按照一定的顺序，既可以按照时间顺序，也可以按照画面中人物由少到多或由多到少的顺序，其中人物由少到多的变化即为仅含目标人物到含其他人的变化，由多到少与之相反，也可以按照目标人物占视频画面的比例由小到大或由大到小的顺序，后两种顺序均应辅以时间顺序。以按目标人物占视频画面的比例为标准的顺序为例，该人物占视频画面的比例可通过该人物肖像元素在视频画面中的面积除以视频画面的面积计算，记为占比率，此计算应在在识别每一帧画面后进行。当某一画面的人物占比率较高时，若该画面在某一被选取的视频片段中，则该视频片段视为一体，不论该视频片段其它画面中占比率高低，均按时间顺序拼接，防止单纯由占比率进行拼接造成画面断裂不连续。相当于用视频片段中画面的最大占比率进行比较，并按最大占比率大小顺序进行拼接，同时，占比率相同时，也按时间顺序拼接。

参阅图7，在一优选实施例中，肖像特征提取模块13具体包括：

图片获取单元，获取待剪辑视频后，为了实现以目标人物为中心的视频剪辑，需要获取具有人物肖像元素的人物肖像图片，获取人物肖像图片的方式既包括导入智能终端内的图片，也包括从智能终端外部导入图片，并存储在智能终端内。

肖像元素识别单元，与所述图片获取单元连接，获取具有人物肖像元素的人物肖像图片后，由于图片中可能存在具有干扰因素的背景，因此，需要将图片中的人物肖像元素提取出来，此处首先需要通过图像变换，如傅里叶变换、沃尔什-阿达玛变换以及离散卡夫纳-勒维变换将图像从时域变换到频域，再通过图像增强技术将频域图像中的高频突变分量强化，强化图像边缘，图像边缘被强化后，则需要通过图像识别技术通过提取特征、建立索引build以及查询步骤识别图片中的人物肖像元素，通过图像分割技术提取人物肖像元素。此处的提取特征操作需以外部的相应人物肖像数据库为基础，通过对人物肖像数据库中肖像元素的采样建立不同肖像元素的识别模型，以区分不同的肖像元素，如对数据库中大量面部肖像的采样建立面部肖像的识别模型，在对人物肖像进行识别过程中利用该模型进行识别，当在图片中识别到与该模型一致的部分时，即认为该部分为面部肖像元素。

肖像特征提取单元，与所述肖像元素识别单元连接，提取人物肖像元素后，需要提取其中的肖像特征，此处应对人物肖像图片进行区分，当人物肖像图片中的人物肖像元素为人物背影时，应提取人物背影的身形轮廓特征，包括身体轮廓，各部分的比例等特征，形成第一身形轮廓特征；当人物肖像图片中的人物肖像元素为人物正面肖像时，应提取人物正面肖像的面部肖像特征，包括面部肤色、五官形状大小、位置距离关系以及面部具有识别意义的特征，如嘴角的黑痣等特征，也可以在面部进行均匀取样，并记录面部肖像在画面中的面积大小。

参阅图8，一优选实施例中，视频片段获取模块12具体包括：

元素提取单元，为了对待剪辑视频中的人物肖像进行识别，需要首先对视频进行分帧，形成一帧一帧的画面，并提取每一帧画面中的人物肖像元素，首先需要通过图像变换，如傅里叶变换、沃尔什-阿达玛变换以及离散卡夫纳-勒维变换将图像从时域变换到频域，再通过图像增强技术将频域图像中的高频突变分量强化，强化图像边缘，图像边缘被强化后，则需要通过图像识别技术通过提取特征、建立索引build以及查询步骤识别图片中的人物肖像元素，最后通过图像分割技术提取人物肖像元素，提取的人物肖像元素包括人物背影元素与人物面部元素。此处的提取特征操作需以外部的相应人物肖像数据库为基础，通过对人物肖像数据库中肖像元素的采样建立不同肖像元素的识别模型，以区分不同的肖像元素，如对数据库中大量面部肖像的采样建立面部肖像的识别模型，在对人物肖像进行识别过程中利用该模型进行识别，当在图片中识别到与该模型一致的部分时，即认为该部分为面部肖像元素。

特征提取单元，与所述元素提取单元连接，在待剪辑视频的画面中提取到人物背影元素后，需对人物背影元素进行采样，提取身体轮廓、各部分的比例等身形轮廓特征形成第二身形轮廓特征，此处的提取方法应与提取人物第一身形轮廓特征中的方法保持一致；在待剪辑视频的画面中提取到人物面部元素后，需对人物面部元素进行采样，提取包括面部肤色、五官形状大小、位置距离关系以及面部具有识别意义的特征，如嘴角的黑痣等特征的面部肖像特征形成第二面部肖像特征，此处的提取方法应与提取人物第一面部肖像特征中的方法保持一致。存在目标人物有可能会戴墨镜，因此在提取面部肖像特征时需要对墨镜部分删除，只考虑剩余面部肖像部分，删除墨镜部分的步骤包括通过对大量墨镜数据库的采样形成由轮廓线条与颜色等特征构成的墨镜模型，通过墨镜模型建立索引对面部元素进行查询，当查询到与墨镜模型一致的部分时，认为该部分为墨镜部分，删除该部分。

背影画面获取单元，与所述特征提取单元连接，获取第二身形轮廓特征与第一身形轮廓特征后，根据第一身形轮廓特征建立索引，将第二身形轮廓特征缩放至与第一身形轮廓特征相同的尺寸，并根据索引对缩放后的第二身形轮廓特征进行采样查询，如身体的轮廓线条是否吻合，身体各部分的比例是否吻合等等，取第一相似度阈值为90％，当吻合度均大于等于第一相似度阈值时认为第二身形轮廓特征与第一身形轮廓特征的相似度大于等于第一相似度阈值，认为该第二身形轮廓特征对应的人物与第一身形轮廓特征对应的人物为同一人，获取该第二身形轮廓特征对应的画面，为人物背影画面。此处第一相似度阈值的标准可上下进行调整，满足一定的识别准确度均可。由于背影识别的难度较大，容易识别错误，因此，设置较高的相似度阈值有利于提高准确度，为了防止相似度阈值太高时遗漏画面，可设置相似度在85％-90％之间时弹出该画面，由用户进行选择是否获取该画面，以此减少画面的遗漏。

正面画面获取单元，与所述特征提取单元连接，获取第二面部肖像特征与第一面部肖像特征后，根据第一面部肖像特征建立索引，将第二面部肖像特征缩放至与第一面部肖像特征相同的尺寸，并根据索引对缩放后的第二面部肖像特征进行比对，如面部肤色是否相同、五官形状大小、位置距离关系是否吻合以及面部具有识别意义的特征，如嘴角的黑痣是否相同等等，取第二相似度阈值为85％，当吻合度均大于等于第二相似度阈值时，认为第二面部肖像特征与第一面部肖像特征的相似度大于等于第二相似度阈值，认为该第二面部肖像特征对应的人物与第一面部肖像特征对应的人物为同一人，获取该第二面部肖像特征对应的画面，为人物正面画面。此处第二相似度阈值的标准可上下进行调整，满足一定的识别准确度均可。由于面部肖像特征较多，比对更准确，因此面部肖像特征比对时阈值即第二相似度阈值比身形轮廓特征比对时阈值即第一相似度阈值稍低。同样，对于面部肖像特征的比对，设置较高的相似度阈值有利于提高准确度，为了防止相似度阈值太高时遗漏画面，可设置相似度在80％-85％之间时弹出该画面，由用户进行选择是否获取该画面，以此减少画面的遗漏。

剪切单元，与所述背影画面获取单元及所述正面画面获取单元连接，获取人物背影画面与人物正面画面后，查询相邻帧的画面是否也被获取，当相邻帧的画面被获取时，将连续帧画面视为一体从待剪辑视频中剪切下来，形成视频片段。

参阅图9，在一优选实施例中，视频拼接模块14具体包括：

分离单元，获取视频片段或待剪辑视频中除所述视频片段外的剩余视频片段后，需将每一片段中的音频信息与视频信息分离，此处的视频信息不包括音频信息，同时需要记录音频信息与视频信息的位置关系，并将音频信息与视频信息提取出来，形成音频部分与视频部分。

拼接单元，获取每一片段的音频部分与视频部分后，需要将音频部分与视频部分单元按顺序进行拼接，形成完全由音频部分构成的完整音频部分与完全由视频部分构成的完整视频部分。

同步单元，获取完整音频部分与完整视频部分后，根据所记录的音频信息与视频信息的位置关系，将完整音频部分与完整视频部分进行同步，形成最终完整的视频。

参阅图10，为符合本发明另一优选实施例中基于智能终端的视频剪辑***100，在视频片段获取模块12与视频拼接模块14之间，所述视频剪辑***100还包括以下部件：

视频片段筛选模块15，获取视频片段后，为进一步提高准确度，通过向用户推送获取的视频片段，由用户进行筛选，并可进行删除操作剔除识别错误的无关视频片段。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当注意的是，本发明的实施例有较佳的实施性，且并非对本发明作任何形式的限制，任何熟悉该领域的技术人员可能利用上述揭示的技术内容变更或修饰为等同的有效实施例，但凡未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何修改或等同变化及修饰，均仍属于本发明技术方案的范围内。

Claims

一种基于智能终端的视频剪辑方法，其特征在于，包括以下步骤：

获取待剪辑视频文件，并存储于所述智能终端内；

获取具有人物肖像元素的人物肖像图片，并提取所述人物肖像元素的人物肖像特征；

获取所述待剪辑视频中包含与所述人物肖像特征相符的人物的视频片段；

将所述视频片段或待剪辑视频中除所述视频片段外的剩余视频片段进行拼接。
如权利要求1所述的视频剪辑方法，其特征在于，

获取具有人物肖像元素的人物肖像图片，并提取所述人物肖像元素的人物肖像特征的步骤包括：

获取具有人物肖像元素的人物肖像图片，并存储于所述智能终端内；

识别所述人物肖像图片中的人物肖像元素；

提取所述人物肖像元素的身形轮廓特征为第一身形轮廓特征，提取所述人物肖像元素的面部肖像特征为第一面部肖像特征。
如权利要求2所述的视频剪辑方法，其特征在于，

获取所述待剪辑视频中包含与所述人物肖像特征相符的人物的视频片段的步骤包括：

将待剪辑视频进行拆分，获取每一帧画面，提取所述每一帧画面中的待比对人物肖像元素，包括人物背影元素与人物面部元素；

提取所述人物背影元素的身形轮廓特征为第二身形轮廓特征，提取所述人物面部元素的面部肖像特征为第二面部肖像特征；

对所述第二身形轮廓特征与所述第一身形轮廓特征进行比对，获取相似度大于等于第一相似度阈值时所述第二身形轮廓特征对应的画面为人物背影画面；

对所述第二面部肖像特征与所述第一面部肖像特征进行比对，获取相似度大于等于第二相似度阈值时所述第二面部肖像特征对应的画面为人物正面画面；

从所述待剪辑视频中剪切所述人物背影画面与所述人物正面画面，形成视频片段。
如权利要求1所述的视频剪辑方法，其特征在于，

将所述视频片段或待剪辑视频中除所述视频片段外的剩余视频片段进行拼接的步骤包括：

分离所述视频片段或待剪辑视频中除所述视频片段外的剩余视频片段中的音频信息与视频信息，形成音频部分与视频部分；

将所述音频部分与所述视频部分单独进行拼接形成完整音频部分与完整视频部分；

将所述完整音频部分与所述完整视频部分进行同步。
如权利要求1-4任一所述的视频剪辑方法，其特征在于，在获取所述待剪辑视频中包含与所述人物肖像特征相符的人物的视频片段的步骤与将所述视频片段或待剪辑视频中除所述视频片段外的剩余视频片段进行拼接的步骤之间，所述视频剪辑方法还包括：

向用户推送所述视频片段，由用户进行筛选，剔除无关的视频片段。
一种基于智能终端的视频剪辑***，其特征在于，包括：

视频获取模块，获取待剪辑视频文件，并存储于所述智能终端内；

肖像特征提取模块，获取具有人物肖像元素的人物肖像图片，并提取所述人物肖像元素的人物肖像特征；

视频片段获取模块，与所述视频获取模块及所述肖像特征提取模块连接，获取所述待剪辑视频中包含与所述人物肖像特征相符的人物的视频片段；

视频拼接模块，与所述视频片段获取模块连接，将所述视频片段或待剪辑视频中除所述视频片段外的剩余视频片段进行拼接。
如权利要求6所述的视频剪辑***，其特征在于，

所述肖像特征提取模块包括：

图片获取单元，获取具有人物肖像元素的人物肖像图片，并存储于所述智能终端内；；

肖像元素识别单元，与所述图片获取单元连接，识别所述人物肖像图片中的人物肖像元素；

肖像特征提取单元，与所述肖像元素识别单元连接，提取所述人物肖像元素的身形轮廓特征为第一身形轮廓特征，提取所述人物肖像元素的面部肖像特征为第一面部肖像特征。
如权利要求7所述的视频剪辑***，其特征在于，

所述视频片段获取模块包括：

元素提取单元，将待剪辑视频进行拆分，获取每一帧画面，提取所述每一帧画面中的待比对人物肖像元素，包括人物背影元素与人物面部元素；

特征提取单元，与所述元素提取单元连接，提取所述人物背影元素的身形轮廓特征为第二身形轮廓特征，提取所述人物面部元素的面部肖像特征为第二面部肖像特征；

背影画面获取单元，与所述特征提取单元连接，对所述第二身形轮廓特征与所述第一身形轮廓特征进行比对，获取相似度大于等于第一相似度阈值时所述第二身形轮廓特征对应的画面为人物背影画面；

正面画面获取单元，与所述特征提取单元连接，对所述第二面部肖像特征与所述第一面部肖像特征进行比对，获取相似度大于等于第二相似度阈值时所述第二面部肖像特征对应的画面为人物正面画面；

剪切单元，与所述背影画面获取单元及所述正面画面获取单元连接，从所述待剪辑视频中剪切所述人物背影画面与所述人物正面画面，形成视频片段。
如权利要求6所述的视频剪辑***，其特征在于，

所述视频拼接模块包括：

分离单元，分离所述视频片段中的音频信息与视频信息，形成音频部分与视频部分；

拼接单元，与所述分离单元连接，将所述音频部分与所述视频部分单独进行拼接形成完整音频部分与完整视频部分；

同步单元，与所述拼接单元连接，将所述完整音频部分与所述完整视频部分进行同步。
如权利要求6-9任一所述的视频剪辑***，其特征在于，在视频片段获取模块与视频拼接模块之间，所述视频剪辑***还包括：

视频片段筛选模块，向用户推送所述视频片段，由用户进行筛选，剔除无关的视频片段。