CN113269854B

CN113269854B - 一种智能生成访谈类综艺节目的方法

Info

Publication number: CN113269854B
Application number: CN202110803384.0A
Authority: CN
Inventors: 袁琦; 李�杰; 杨瀚
Original assignee: Chengdu Sobei Video Cloud Computing Co ltd
Current assignee: Chengdu Sobei Video Cloud Computing Co ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-10-15
Anticipated expiration: 2041-07-16
Also published as: CN113269854A

Abstract

本发明公开了一种智能生成访谈类综艺节目的方法，包括步骤：S1，通过多通道收录软件收录节目现场多个摄像机拍摄的节目视频；S2，根据节目视频中的摄像机拍摄画面，设定每个通道素材扮演的角色；S3，对每个通道素材提取视频特征；S4，根据提取的视频特征在每个通道生成多个候选视频片段；S5，按照预定义规则挑选候选视频片段，合成节目初片等；本发明能够快速生成初片，并提供给后期编辑人员快速编辑、出成片，减少人工负荷。

Description

一种智能生成访谈类综艺节目的方法

技术领域

本发明涉及视频节目合成领域，更为具体的，涉及一种智能生成访谈类综艺节目的方法。

背景技术

访谈类节目是一种主持人与嘉宾之间围绕某个主题，以谈话为主要形式进行的一种氛围轻松愉悦的电视节目形式，而访谈类综艺节目是以愉悦身心、休闲逗乐为主要目的访谈节目，并加入较多的综艺成分和滑稽的情境设计，达到戏剧化的效果，以娱人耳目。其嘉宾主要为演艺圈明星和体育界明星，因此往往在年轻人中拥有非常高的人气。此类节目虽不像其他综艺类节目，通常只在单一的场景、舞台中拍摄完成，但仍需在现场布置位数众多的摄像机，并在拍摄时，通过现场导演与各机组成员之间实时协调，切镜等一系列繁琐的操作，来充分利用现场不同镜头拍摄到的不同角度画面，合成节目初片，这往往需要导演有丰富的指挥经验和临场能力。

发明内容

本发明的目的在于克服现有技术的不足，提供一种智能生成访谈类综艺节目的方法，能够快速生成初片，并提供给后期编辑人员快速编辑、出成片，减少人工负荷。

本发明的目的是通过以下方案实现的：

一种智能生成访谈类综艺节目的方法，包括步骤：

S1，通过多通道收录软件收录节目现场多个摄像机拍摄的节目视频素材；

S2，根据节目视频中的摄像机拍摄画面，设定每个通道素材扮演的角色；

S3，对每个通道素材提取视频特征；

S4，根据提取的视频特征在每个通道生成多个候选视频片段；

S5，按照预定义规则挑选候选视频片段，合成节目初片。

进一步地，在步骤S2中，所述设定每个通道素材扮演的角色包括如下步骤：按照景别将通道素材分为三个类别，即近景、中景、远景；近景的拍摄画面为嘉宾、主持人特写；中景的拍摄画面为嘉宾与嘉宾、嘉宾与主持人、主持人与主持人之间的互动；远景的拍摄画面为整个舞台。

进一步地，在步骤S3中，包括如下步骤：

S31，建立包含该场节目的主持人和嘉宾的人脸库；

S32，对每个通道的视频素材进行人脸识别分析，提取每一帧中人脸框坐标、人脸68关键点坐标和对应的人名；

S33，对每个通道的视频素材进行画面稳定性分析，标记因摄像机运动或对焦错误导致的模糊画面；

S34，使用步骤S31中的数据，使用同一人物连续时间维度的人脸关键点数据，进行嘴形分析，判断其在设定时间内是否正在说话。

进一步地，在步骤S31中，如果该场节目共有

人，通过互联网收集该场节目相关主持人和嘉宾单人照片，每人一张，通过人脸识别网络提取512维的人脸特征作为其人物表征，则有

的特征矩阵

和

的人名矩阵

；

为整数，

分别对应矩阵

和

的第

行第

列元素。

进一步地，在步骤S32中，如果有

个通道的视频素材，每个视频素材均为

帧，且每一帧均已在时间线上对齐，则通过对第

个素材

的第

帧图像

进行人脸识别处理，得到该帧的处理结果集合

，

，

其中

，表示第

帧提取得到的人脸特征矩阵，

为检测到的人脸个数，

表示第

帧提取到的第

个人脸的特征，

，表示第

帧检测到的所有人脸框，

表示第

帧检测出的第

个人脸框，

，表示第

帧检测出到的所有人脸的关键点，

表示第

帧检测出的第

个人的人脸关键点，

，表示第

帧检测到的人脸对应识别出的人名，

表示第

帧检测出的第

个人对应的人名，

，

即取人脸库相似度最高人名作为该人脸对应的人名，

表示第

个人名，

表示取最大值对应的索引，

表示相似度计算函数。所有素材提取视频特征的结果表示为

。

进一步地，在步骤S33中，对第

个素材

的第

帧图像

，设其宽为

，高为

，通过统计其画面稳定性得分

来表征该帧图像画面是否稳定，

,

,

,

,

其中，

表示对第

帧图像取灰度图，

表示傅立叶变换，

表示将0频分量转换到频谱中心，

表示取绝对值，

为

的绝对值，

为

的灰度图变换到频域并将0频分量转换到频谱中心后的结果，

为阈值，设定为

中最大值的

，

为

中大于该阈值的像素个数，当

大于设定的经验值时，则表示图像

画面稳定。

进一步地，在步骤S34中，对于第

个素材

，取固定时间窗口大小为

（即固定时长为

）的同一人物人脸关键点数据

，即

，

计算其嘴形面积

，即

，

从而计算出

内该人物嘴形面积方差

：

，

其中

，表示

内该人物嘴形面积均值，

表示人物

在时刻

时的人脸关键点，

表示其计算出的面积，当

大于设定的经验值时，视名为

的人物在该

时间段内正在说话，标记为说话人。

进一步地，在步骤S4中，包括如下步骤：

S41，根据步骤S33中各通道的视频素材分析所得画面稳定结果，生成各通道初始候选视频片段；对于第

个素材

的所有帧分析结果

，遍历所有结果，当

大于设定的经验值时，标记

为更新的候选片段的入点，继续遍历后续结果，当

小于等于设定的经验值时，标记

为更新的候选片段的出点，依此类推，生成素材

的共

个候选片段的初始候选片段列表

；

S42，遍历S41中生成的初始候选片段列表

，比较当前片段

的出点

与下一个片段

的入点

，如果

大于设定的经验值时，则将片段

与片段

合并为

，其入点为

的入点

，出点为

的出点

，依此类推，生成最终的候选片段列表

。

进一步地，在步骤S5中，包括如下步骤：

S51，根据每个通道素材的拍摄画面类别，按景别设定优先级；

S52，整合步骤S42中

个通道素材的最终候选片段列表

和步骤S34中的说话人标记结果，按照如下规则（越靠前优先级越高）将各通道素材的最终候选列表中的片段填入最终成片的时间线，得到最后的合成视频：

该片段是近景，存在说话人，且说话人是嘉宾；

该片段是近景，存在说话人，且说话人是主持人；

该片段是中景，存在说话人，且说话人数量不高于3；

该片段是远景。

进一步地，在步骤S51中，设定优先级：近景>中景>远景。进一步地，在步骤S52中，采用时间线填空的方法，即当前时刻，依据上述规则从

中挑选最适合的候选片段，并将该片段填入生成初片的对应时间线上，然后更新当前时刻为候选片段出点对应时刻，以此类推，直到生成初片所有时间线上填写完毕。

本发明的有益效果包括：

（1）本发明的方法，通过观察导演在拍摄访谈类综艺节目时的现场指挥、切镜逻辑，提出一种利用视频人脸识别、说话人识别、画面稳定性分析的节目初片生成方法，从多个不同角度拍摄画面中提取最合适的镜头片段，自动生成访谈类综艺节目初片的方法，以此减轻导演、后期节目编辑人员的工作负担。

（2）本发明提供了一种简单高效，只需少量预先设定即可自动化合成访谈类综艺视频节目初片的方法；具体的，通过对节目录制现场不同摄像机拍摄画面按景别划分角色，通过人脸识别处理标记主持人和嘉宾，并通过嘴形分析标记说话人物，通过计算画面稳定性得分过滤无效镜头，生成候选视频片段列表，最后再通过规则组合各候选视频片段生成节目初片。本发明方法达到了快速生成初片，并提供给后期编辑人员快速编辑、出成片，减少人工负荷的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法实施例中的步骤流程图；

图2为本发明的方法实施例中对某一通道素材提取视觉特征的流程图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

如图1，2所示，一种智能生成访谈类综艺节目的方法，包括步骤：

S1，通过多通道收录软件收录节目现场多个摄像机拍摄的节目视频；

例如，在该步骤中收录《春晚进行时》节目现场6个摄像机拍摄的节目视频，分别为

；也可以是收录其他节目，摄像机数量可以为8个、10个、12个等，此处不再赘述。

根据摄像机拍摄的画面，设定每个通道素材扮演的角色；具体地，

为固定摄像机，拍摄画面为近景，

为固定摄像机，拍摄画面为中景，

为固定摄像机，拍摄画面为远景，

为摇臂摄像机，拍摄画面为远景。

在步骤S2中，所述设定每个通道素材扮演的角色包括如下步骤：按照景别将各通道素材分为三个类别，即近景、中景、远景；近景的拍摄画面为嘉宾、主持人特写；中景的拍摄画面为嘉宾与嘉宾、嘉宾与主持人、主持人与主持人之间的互动；远景的拍摄画面为整个舞台。

S3，对每个通道素材提取视频特征，在步骤S3中，包括如下步骤：

S31，建立包含该场节目的主持人和嘉宾的人脸库；

在步骤S31中，如果该场节目共有

的特征矩阵

和

的人名矩阵

；

为整数，

分别对应矩阵

和

的第

行第

列元素。

S32，对每个通道的视频素材进行人脸识别分析，提取每一帧中人脸框坐标、人脸 68关键点坐标和对应的人名；在步骤S32中，如果有

个通道的视频素材，这里以N=6为例（也可以是其他数字），每个视频素材均为

帧，且每一帧均已在时间线上对齐，则通过对第

个素材

的第

帧图像

进行人脸识别处理，得到该帧的处理结果集合

；

，

其中

，表示第

帧提取得到的人脸特征矩阵，

为检测到的人脸个数，

表示第

帧提取到的第

个人脸的特征，

，表示第

帧检测到的所有人脸框，

表示第

帧检测出的第

个人脸框，

，表示第

帧检测出到的所有人脸的关键点，

表示第

帧检测出的第

个人的人脸关键点，

，表示第

帧检测到的人脸对应识别出的人名，

表示第

帧检测出的第

个人对应的人名，

，

即取人脸库相似度最高人名作为该人脸对应的人名，

表示第

个人名，

表示取最大值对应的索引，

表示相似度计算函数。所有素材提取视频特帧的结果表示为

。

S33，对每个通道的视频素材进行画面稳定性分析，标记因摄像机运动或对焦错误导致的模糊画面；在步骤S33中，对第

个素材

的第

帧图像

，设其宽为

，高为

，通过统计其画面稳定性得分

来表征该帧图像画面是否稳定，

,

,

,

,

其中，

表示对第

帧图像取灰度图，

表示傅立叶变换，

表示将0频分量转换到频谱中心，

表示取绝对值，

为

的绝对值，

为

的灰度图变换到频域并将0频分量转换到频谱中心后的结果，

为阈值，设定为

中最大值的

，

为

中大于该阈值的像素个数，当

大于某个预设值时，则表示图像

画面稳定。在本实施例中，例如，预设值取为

，即

，则表示图像

画面稳定。

S34，使用步骤S31中的数据，使用同一人物连续时间维度的人脸关键点数据，进行嘴形分析，判断其在设定时间内是否正在说话。在步骤S34中，对于第

个素材

，取固定时长为

的同一人物人脸关键点数据

，即

，

计算其嘴形面积

，即

，

从而计算出该段时间内该人物嘴形面积方差

：

，

其中

，表示该段时间内该人物嘴形面积均值，

表示人物

在时刻

时的人脸关键点，

表示其计算出的面积，当

大于某个预设值时，这里V可取500，视名为

的人物在该

时间段内正在说话，标记为说话人。在本实施例中，例如，T可以为250单位等，视实际情况选定。

S4，根据提取的视频特征在每个通道生成多个候选视频片段；在步骤S4中，包括如下步骤：

个素材

的所有帧分析结果

，遍历所有结果，当

大于某个预设值时（这里预设值可取0.002，视不同节目而定），标记

为更新的候选片段的入点，继续遍历后续结果，当

小于等于某个预设值时（这里预设值可取0.002，视不同节目而定），标记

为更新的候选片段的出点，依此类推，生成素材

的共

个候选片段的初始候选片段列表

；

S42，遍历S41中生成的初始候选片段列表

，比较当前片段

的出点

与下一个片段

的入点

，如果

大于某个预设值（这里取50帧），则将片段

与片段

合并为

，其入点为

的入点

，出点为

的出点

，依此类推，生成最终的候选片段列表

。

S5，按照预定义规则挑选候选视频片段，合成节目初片。在步骤S5中，包括如下步骤：

S51，根据每个通道素材的拍摄画面类别，按景别设定优先级；特别的，对该6个通道素材

到

，

优先级最高，

优先级第二，

优先级最低；

S52，整合步骤S42中

个通道素材的最终候选片段列表

和步骤S34中的说话人标记结果，按照如下规则将各通道素材的最终候选列表中的片段填入最终成片的时间线，得到最后的合成视频：

该片段是近景，存在说话人，且说话人是嘉宾；

该片段是近景，存在说话人，且说话人是主持人；

该片段是中景，存在说话人，且说话人数量不高于3；

该片段是远景。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，在一台计算机设备（可以是个人计算机，服务器，或者网络设备等）以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质，进行测试或者实际的数据在程序实现中存在于只读存储器（Random Access Memory，RAM）、随机存取存储器（Random Access Memory，RAM）等。

Claims

1.一种智能生成访谈类综艺节目的方法，其特征在于，包括步骤：

S2，根据节目视频中的摄像机拍摄画面，设定每个通道素材扮演的角色；在步骤S2中，所述设定每个通道素材扮演的角色包括如下步骤：按照景别将通道素材分为三个类别，即近景、中景、远景；近景的拍摄画面为嘉宾、主持人特写；中景的拍摄画面为嘉宾与嘉宾、嘉宾与主持人、主持人与主持人之间的互动；远景的拍摄画面为整个舞台；

S3，对每个通道素材提取视频特征；在步骤S3中，包括如下步骤：

S31，建立包含该场节目的主持人和嘉宾的人脸库；在步骤S31中，如果该场节目共有