CN113269854B - 一种智能生成访谈类综艺节目的方法 - Google Patents

一种智能生成访谈类综艺节目的方法 Download PDF

Info

Publication number
CN113269854B
CN113269854B CN202110803384.0A CN202110803384A CN113269854B CN 113269854 B CN113269854 B CN 113269854B CN 202110803384 A CN202110803384 A CN 202110803384A CN 113269854 B CN113269854 B CN 113269854B
Authority
CN
China
Prior art keywords
face
frame
video
channel
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110803384.0A
Other languages
English (en)
Other versions
CN113269854A (zh
Inventor
袁琦
李�杰
杨瀚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sobei Video Cloud Computing Co ltd
Original Assignee
Chengdu Sobei Video Cloud Computing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sobei Video Cloud Computing Co ltd filed Critical Chengdu Sobei Video Cloud Computing Co ltd
Priority to CN202110803384.0A priority Critical patent/CN113269854B/zh
Publication of CN113269854A publication Critical patent/CN113269854A/zh
Application granted granted Critical
Publication of CN113269854B publication Critical patent/CN113269854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种智能生成访谈类综艺节目的方法,包括步骤:S1,通过多通道收录软件收录节目现场多个摄像机拍摄的节目视频;S2,根据节目视频中的摄像机拍摄画面,设定每个通道素材扮演的角色;S3,对每个通道素材提取视频特征;S4,根据提取的视频特征在每个通道生成多个候选视频片段;S5,按照预定义规则挑选候选视频片段,合成节目初片等;本发明能够快速生成初片,并提供给后期编辑人员快速编辑、出成片,减少人工负荷。

Description

一种智能生成访谈类综艺节目的方法
技术领域
本发明涉及视频节目合成领域,更为具体的,涉及一种智能生成访谈类综艺节目的方法。
背景技术
访谈类节目是一种主持人与嘉宾之间围绕某个主题,以谈话为主要形式进行的一种氛围轻松愉悦的电视节目形式,而访谈类综艺节目是以愉悦身心、休闲逗乐为主要目的访谈节目,并加入较多的综艺成分和滑稽的情境设计,达到戏剧化的效果,以娱人耳目。其嘉宾主要为演艺圈明星和体育界明星,因此往往在年轻人中拥有非常高的人气。此类节目虽不像其他综艺类节目,通常只在单一的场景、舞台中拍摄完成,但仍需在现场布置位数众多的摄像机,并在拍摄时,通过现场导演与各机组成员之间实时协调,切镜等一系列繁琐的操作,来充分利用现场不同镜头拍摄到的不同角度画面,合成节目初片,这往往需要导演有丰富的指挥经验和临场能力。
发明内容
本发明的目的在于克服现有技术的不足,提供一种智能生成访谈类综艺节目的方法,能够快速生成初片,并提供给后期编辑人员快速编辑、出成片,减少人工负荷。
本发明的目的是通过以下方案实现的:
一种智能生成访谈类综艺节目的方法,包括步骤:
S1,通过多通道收录软件收录节目现场多个摄像机拍摄的节目视频素材;
S2,根据节目视频中的摄像机拍摄画面,设定每个通道素材扮演的角色;
S3,对每个通道素材提取视频特征;
S4,根据提取的视频特征在每个通道生成多个候选视频片段;
S5,按照预定义规则挑选候选视频片段,合成节目初片。
进一步地,在步骤S2中,所述设定每个通道素材扮演的角色包括如下步骤:按照景别将通道素材分为三个类别,即近景、中景、远景;近景的拍摄画面为嘉宾、主持人特写;中景的拍摄画面为嘉宾与嘉宾、嘉宾与主持人、主持人与主持人之间的互动;远景的拍摄画面为整个舞台。
进一步地,在步骤S3中,包括如下步骤:
S31,建立包含该场节目的主持人和嘉宾的人脸库;
S32,对每个通道的视频素材进行人脸识别分析,提取每一帧中人脸框坐标、人脸68关键点坐标和对应的人名;
S33,对每个通道的视频素材进行画面稳定性分析,标记因摄像机运动或对焦错误导致的模糊画面;
S34,使用步骤S31中的数据,使用同一人物连续时间维度的人脸关键点数据,进行嘴形分析,判断其在设定时间内是否正在说话。
进一步地,在步骤S31中,如果该场节目共有
Figure 919903DEST_PATH_IMAGE001
人,通过互联网收集该场节目相关 主持人和嘉宾单人照片,每人一张,通过人脸识别网络提取512维的人脸特征作为其人物表 征,则有
Figure 633781DEST_PATH_IMAGE002
的特征矩阵
Figure 679097DEST_PATH_IMAGE003
Figure 871044DEST_PATH_IMAGE004
的人名矩阵
Figure 950996DEST_PATH_IMAGE005
Figure 304617DEST_PATH_IMAGE001
为整数,
Figure 102809DEST_PATH_IMAGE006
分 别对应矩阵
Figure 832867DEST_PATH_IMAGE007
Figure 537299DEST_PATH_IMAGE008
的第
Figure 61821DEST_PATH_IMAGE009
行第
Figure 347309DEST_PATH_IMAGE010
列元素。
进一步地,在步骤S32中,如果有
Figure 615479DEST_PATH_IMAGE011
个通道的视频素材,每个视频素材均为
Figure 404444DEST_PATH_IMAGE012
帧,且 每一帧均已在时间线上对齐,则通过对第
Figure 365446DEST_PATH_IMAGE013
个素材
Figure 138230DEST_PATH_IMAGE014
的第
Figure 678933DEST_PATH_IMAGE015
帧图像
Figure 119142DEST_PATH_IMAGE016
进行人脸识别 处理,得到该帧的处理结果集合
Figure 221352DEST_PATH_IMAGE017
Figure 481432DEST_PATH_IMAGE018
其中
Figure 91405DEST_PATH_IMAGE019
,表示第
Figure 120541DEST_PATH_IMAGE015
帧提取得到的人脸特征矩阵,
Figure 423346DEST_PATH_IMAGE020
为检测到的人脸个数,
Figure 905143DEST_PATH_IMAGE021
表示第
Figure 318807DEST_PATH_IMAGE015
帧提取到的第
Figure 202450DEST_PATH_IMAGE010
个人脸的特征,
Figure 174691DEST_PATH_IMAGE022
,表示第
Figure 143784DEST_PATH_IMAGE015
帧检测到的所有人脸框,
Figure 95560DEST_PATH_IMAGE023
表 示第
Figure 99288DEST_PATH_IMAGE015
帧检测出的第
Figure 478317DEST_PATH_IMAGE010
个人脸框,
Figure 934706DEST_PATH_IMAGE024
,表示第
Figure 690172DEST_PATH_IMAGE015
帧检测出到的所有人脸的关键点,
Figure 282828DEST_PATH_IMAGE025
表 示第
Figure 98337DEST_PATH_IMAGE015
帧检测出的第
Figure 402541DEST_PATH_IMAGE010
个人的人脸关键点,
Figure 961699DEST_PATH_IMAGE026
,表示第
Figure 674440DEST_PATH_IMAGE015
帧检测到的人脸对应识别出 的人名,
Figure 395271DEST_PATH_IMAGE027
表示第
Figure 560673DEST_PATH_IMAGE015
帧检测出的第
Figure 416197DEST_PATH_IMAGE010
个人对应的人名,
Figure 249024DEST_PATH_IMAGE028
即取人脸库相似度最高人名作为该人脸对应的人名,
Figure 140757DEST_PATH_IMAGE029
表示第
Figure 793455DEST_PATH_IMAGE030
个人名,
Figure 694415DEST_PATH_IMAGE031
表 示取最大值对应的索引,
Figure 116169DEST_PATH_IMAGE032
表示相似度计算函数。所有素材提取视频特征的结果表示为
Figure 444382DEST_PATH_IMAGE033
进一步地,在步骤S33中,对第
Figure 584376DEST_PATH_IMAGE013
个素材
Figure 790492DEST_PATH_IMAGE034
的第
Figure 332332DEST_PATH_IMAGE015
帧图像
Figure 565867DEST_PATH_IMAGE016
,设其宽为
Figure 458737DEST_PATH_IMAGE035
,高为
Figure 701499DEST_PATH_IMAGE036
,通过 统计其画面稳定性得分
Figure 97845DEST_PATH_IMAGE037
来表征该帧图像画面是否稳定,
Figure 502282DEST_PATH_IMAGE038
,
Figure 616869DEST_PATH_IMAGE039
,
Figure 896278DEST_PATH_IMAGE040
,
Figure 412710DEST_PATH_IMAGE041
,
其中,
Figure 253627DEST_PATH_IMAGE042
表示对第
Figure 855510DEST_PATH_IMAGE016
帧图像取灰度图,
Figure 440075DEST_PATH_IMAGE043
表示傅立叶变换,
Figure 545434DEST_PATH_IMAGE044
表示将0频分量 转换到频谱中心,
Figure 557252DEST_PATH_IMAGE045
表示取绝对值,
Figure 380852DEST_PATH_IMAGE046
Figure 769108DEST_PATH_IMAGE047
的绝对值,
Figure 230438DEST_PATH_IMAGE047
Figure 413158DEST_PATH_IMAGE016
的灰度图变换到频域并将0频 分量转换到频谱中心后的结果,
Figure 989633DEST_PATH_IMAGE048
为阈值,设定为
Figure 916001DEST_PATH_IMAGE046
中最大值的
Figure 995952DEST_PATH_IMAGE049
Figure 615152DEST_PATH_IMAGE050
Figure 413344DEST_PATH_IMAGE046
中大于该阈值的 像素个数,当
Figure 877823DEST_PATH_IMAGE037
大于设定的经验值时,则表示图像
Figure 812281DEST_PATH_IMAGE016
画面稳定。
进一步地,在步骤S34中,对于第
Figure 106777DEST_PATH_IMAGE013
个素材
Figure 392265DEST_PATH_IMAGE034
,取固定时间窗口大小为
Figure 660435DEST_PATH_IMAGE051
(即固定时长 为
Figure 714979DEST_PATH_IMAGE051
)的同一人物人脸关键点数据
Figure 410403DEST_PATH_IMAGE052
,即
Figure 917607DEST_PATH_IMAGE053
计算其嘴形面积
Figure 989469DEST_PATH_IMAGE054
,即
Figure 164098DEST_PATH_IMAGE055
从而计算出
Figure 764844DEST_PATH_IMAGE051
内该人物嘴形面积方差
Figure 526388DEST_PATH_IMAGE056
Figure 136361DEST_PATH_IMAGE057
其中
Figure 165497DEST_PATH_IMAGE058
,表示
Figure 202723DEST_PATH_IMAGE051
内该人物嘴形面积均值,
Figure 950100DEST_PATH_IMAGE059
表示人物
Figure 363763DEST_PATH_IMAGE060
在时刻
Figure 981826DEST_PATH_IMAGE010
时的人脸关键 点,
Figure 455533DEST_PATH_IMAGE061
表示其计算出的面积,当
Figure 923161DEST_PATH_IMAGE056
大于设定的经验值时,视名为
Figure 874937DEST_PATH_IMAGE060
的人物在该
Figure 878665DEST_PATH_IMAGE051
时间段内正 在说话,标记为说话人。
进一步地,在步骤S4中,包括如下步骤:
S41,根据步骤S33中各通道的视频素材分析所得画面稳定结果,生成各通道初始 候选视频片段;对于第
Figure 257694DEST_PATH_IMAGE013
个素材
Figure 714083DEST_PATH_IMAGE014
的所有帧分析结果
Figure 203970DEST_PATH_IMAGE062
,遍历所有结果,当
Figure 327784DEST_PATH_IMAGE063
大于设定的经验值时,标记
Figure 877714DEST_PATH_IMAGE009
为更新的候选片段的入点,继续遍历后续结果,当
Figure 821399DEST_PATH_IMAGE064
小于等于设定的经验值时,标记
Figure 616442DEST_PATH_IMAGE065
为更新的候选片段的出点,依此类推, 生成素材
Figure 329183DEST_PATH_IMAGE034
的共
Figure 315594DEST_PATH_IMAGE066
个候选片段的初始候选片段列表
Figure 746575DEST_PATH_IMAGE067
S42,遍历S41中生成的初始候选片段列表
Figure 843844DEST_PATH_IMAGE068
,比较当前片段
Figure 145512DEST_PATH_IMAGE069
的出点
Figure 302824DEST_PATH_IMAGE070
与下一个片段
Figure 221102DEST_PATH_IMAGE071
的入点
Figure 372596DEST_PATH_IMAGE072
,如果
Figure 59929DEST_PATH_IMAGE073
大于设定的经验值 时,则将片段
Figure 388142DEST_PATH_IMAGE069
与片段
Figure 262557DEST_PATH_IMAGE071
合并为
Figure 967208DEST_PATH_IMAGE074
,其入点为
Figure 509048DEST_PATH_IMAGE069
的入点
Figure 8162DEST_PATH_IMAGE075
,出点为
Figure 635453DEST_PATH_IMAGE071
的出点
Figure 612636DEST_PATH_IMAGE076
,依此类 推,生成最终的候选片段列表
Figure 510447DEST_PATH_IMAGE077
进一步地,在步骤S5中,包括如下步骤:
S51,根据每个通道素材的拍摄画面类别,按景别设定优先级;
S52,整合步骤S42中
Figure 180463DEST_PATH_IMAGE011
个通道素材的最终候选片段列表
Figure 295049DEST_PATH_IMAGE078
和步骤S34中 的说话人标记结果,按照如下规则(越靠前优先级越高)将各通道素材的最终候选列表中的 片段填入最终成片的时间线,得到最后的合成视频:
该片段是近景,存在说话人,且说话人是嘉宾;
该片段是近景,存在说话人,且说话人是主持人;
该片段是中景,存在说话人,且说话人数量不高于3;
该片段是远景。
进一步地,在步骤S51中,设定优先级:近景>中景>远景。进一步地,在步骤S52中, 采用时间线填空的方法,即当前时刻,依据上述规则从
Figure 75923DEST_PATH_IMAGE077
中挑选最适合的候选片段,并将该 片段填入生成初片的对应时间线上,然后更新当前时刻为候选片段出点对应时刻,以此类 推,直到生成初片所有时间线上填写完毕。
本发明的有益效果包括:
(1)本发明的方法,通过观察导演在拍摄访谈类综艺节目时的现场指挥、切镜逻辑,提出一种利用视频人脸识别、说话人识别、画面稳定性分析的节目初片生成方法,从多个不同角度拍摄画面中提取最合适的镜头片段,自动生成访谈类综艺节目初片的方法,以此减轻导演、后期节目编辑人员的工作负担。
(2)本发明提供了一种简单高效,只需少量预先设定即可自动化合成访谈类综艺视频节目初片的方法;具体的,通过对节目录制现场不同摄像机拍摄画面按景别划分角色,通过人脸识别处理标记主持人和嘉宾,并通过嘴形分析标记说话人物,通过计算画面稳定性得分过滤无效镜头,生成候选视频片段列表,最后再通过规则组合各候选视频片段生成节目初片。本发明方法达到了快速生成初片,并提供给后期编辑人员快速编辑、出成片,减少人工负荷的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法实施例中的步骤流程图;
图2为本发明的方法实施例中对某一通道素材提取视觉特征的流程图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
如图1,2所示,一种智能生成访谈类综艺节目的方法,包括步骤:
S1,通过多通道收录软件收录节目现场多个摄像机拍摄的节目视频;
例如,在该步骤中收录《春晚进行时》节目现场6个摄像机拍摄的节目视频,分别为
Figure 592355DEST_PATH_IMAGE079
;也可以是收录其他节目,摄像机数量可以为8个、10个、12个等,此处不再 赘述。
S2,根据节目视频中的摄像机拍摄画面,设定每个通道素材扮演的角色;
根据摄像机拍摄的画面,设定每个通道素材扮演的角色;具体地,
Figure 433272DEST_PATH_IMAGE080
为固定摄像 机,拍摄画面为近景,
Figure 35155DEST_PATH_IMAGE081
为固定摄像机,拍摄画面为中景,
Figure 619720DEST_PATH_IMAGE082
为固定摄像机,拍摄画面为远 景,
Figure 489194DEST_PATH_IMAGE083
为摇臂摄像机,拍摄画面为远景。
在步骤S2中,所述设定每个通道素材扮演的角色包括如下步骤:按照景别将各通道素材分为三个类别,即近景、中景、远景;近景的拍摄画面为嘉宾、主持人特写;中景的拍摄画面为嘉宾与嘉宾、嘉宾与主持人、主持人与主持人之间的互动;远景的拍摄画面为整个舞台。
S3,对每个通道素材提取视频特征,在步骤S3中,包括如下步骤:
S31,建立包含该场节目的主持人和嘉宾的人脸库;
在步骤S31中,如果该场节目共有
Figure 501012DEST_PATH_IMAGE001
人,通过互联网收集该场节目相关主持人和嘉 宾单人照片,每人一张,通过人脸识别网络提取512维的人脸特征作为其人物表征,则有
Figure 324612DEST_PATH_IMAGE002
的特征矩阵
Figure 712868DEST_PATH_IMAGE003
Figure 672733DEST_PATH_IMAGE004
的人名矩阵
Figure 855453DEST_PATH_IMAGE005
Figure 431928DEST_PATH_IMAGE001
为整数,
Figure 358296DEST_PATH_IMAGE006
分别对应矩 阵
Figure 438247DEST_PATH_IMAGE007
Figure 558912DEST_PATH_IMAGE008
的第
Figure 357104DEST_PATH_IMAGE009
行第
Figure 556004DEST_PATH_IMAGE010
列元素。
S32,对每个通道的视频素材进行人脸识别分析,提取每一帧中人脸框坐标、人脸 68关键点坐标和对应的人名;在步骤S32中,如果有
Figure 756041DEST_PATH_IMAGE011
个通道的视频素材,这里以N=6为例(也 可以是其他数字),每个视频素材均为
Figure 546143DEST_PATH_IMAGE012
帧,且每一帧均已在时间线上对齐,则通过对第
Figure 566051DEST_PATH_IMAGE013
个 素材
Figure 99801DEST_PATH_IMAGE014
的第
Figure 154344DEST_PATH_IMAGE015
帧图像
Figure 584189DEST_PATH_IMAGE016
进行人脸识别处理,得到该帧的处理结果集合
Figure 861367DEST_PATH_IMAGE017
Figure 933228DEST_PATH_IMAGE018
其中
Figure 842279DEST_PATH_IMAGE019
,表示第
Figure 974183DEST_PATH_IMAGE015
帧提取得到的人脸特征矩阵,
Figure 703104DEST_PATH_IMAGE020
为检测到的人脸个数,
Figure 578656DEST_PATH_IMAGE021
表示第
Figure 607792DEST_PATH_IMAGE015
帧提取到的第
Figure 645018DEST_PATH_IMAGE010
个人脸的特征,
Figure 893859DEST_PATH_IMAGE022
,表示第
Figure 307523DEST_PATH_IMAGE015
帧检测到的所有人脸框,
Figure 925586DEST_PATH_IMAGE023
表 示第
Figure 399293DEST_PATH_IMAGE015
帧检测出的第
Figure 368386DEST_PATH_IMAGE010
个人脸框,
Figure 585741DEST_PATH_IMAGE024
,表示第
Figure 58310DEST_PATH_IMAGE015
帧检测出到的所有人脸的关键点,
Figure 702918DEST_PATH_IMAGE025
表 示第
Figure 159308DEST_PATH_IMAGE015
帧检测出的第
Figure 413309DEST_PATH_IMAGE010
个人的人脸关键点,
Figure 271544DEST_PATH_IMAGE026
,表示第
Figure 821474DEST_PATH_IMAGE015
帧检测到的人脸对应识别出 的人名,
Figure 765159DEST_PATH_IMAGE027
表示第
Figure 58737DEST_PATH_IMAGE015
帧检测出的第
Figure 771478DEST_PATH_IMAGE010
个人对应的人名,
Figure 757889DEST_PATH_IMAGE028
即取人脸库相似度最高人名作为该人脸对应的人名,
Figure 188870DEST_PATH_IMAGE029
表示第
Figure 787604DEST_PATH_IMAGE030
个人名,
Figure 354851DEST_PATH_IMAGE031
表 示取最大值对应的索引,
Figure 246584DEST_PATH_IMAGE032
表示相似度计算函数。所有素材提取视频特帧的结果表示为
Figure 899282DEST_PATH_IMAGE084
S33,对每个通道的视频素材进行画面稳定性分析,标记因摄像机运动或对焦错误 导致的模糊画面;在步骤S33中,对第
Figure 800242DEST_PATH_IMAGE013
个素材
Figure 487575DEST_PATH_IMAGE034
的第
Figure 815789DEST_PATH_IMAGE015
帧图像
Figure 955783DEST_PATH_IMAGE016
,设其宽为
Figure 394855DEST_PATH_IMAGE035
,高为
Figure 429370DEST_PATH_IMAGE036
,通过统 计其画面稳定性得分
Figure 928485DEST_PATH_IMAGE037
来表征该帧图像画面是否稳定,
Figure 290196DEST_PATH_IMAGE038
,
Figure 532958DEST_PATH_IMAGE039
,
Figure 194884DEST_PATH_IMAGE040
,
Figure 864900DEST_PATH_IMAGE041
,
其中,
Figure 713907DEST_PATH_IMAGE042
表示对第
Figure 760360DEST_PATH_IMAGE016
帧图像取灰度图,
Figure 778257DEST_PATH_IMAGE043
表示傅立叶变换,
Figure 619174DEST_PATH_IMAGE044
表示将0频分量 转换到频谱中心,
Figure 689898DEST_PATH_IMAGE045
表示取绝对值,
Figure 274463DEST_PATH_IMAGE046
Figure 910981DEST_PATH_IMAGE047
的绝对值,
Figure 922799DEST_PATH_IMAGE047
Figure 746399DEST_PATH_IMAGE016
的灰度图变换到频域并将0频 分量转换到频谱中心后的结果,
Figure 869076DEST_PATH_IMAGE048
为阈值,设定为
Figure 360100DEST_PATH_IMAGE046
中最大值的
Figure 41355DEST_PATH_IMAGE049
Figure 352250DEST_PATH_IMAGE050
Figure 13039DEST_PATH_IMAGE046
中大于该阈值的 像素个数,当
Figure 624149DEST_PATH_IMAGE037
大于某个预设值时,则表示图像
Figure 712191DEST_PATH_IMAGE016
画面稳定。在本实施例中,例如,预设值取 为
Figure 510382DEST_PATH_IMAGE085
,即
Figure 974862DEST_PATH_IMAGE086
,则表示图像
Figure 440478DEST_PATH_IMAGE016
画面稳定。
S34,使用步骤S31中的数据,使用同一人物连续时间维度的人脸关键点数据,进行 嘴形分析,判断其在设定时间内是否正在说话。在步骤S34中,对于第
Figure 699421DEST_PATH_IMAGE013
个素材
Figure 486374DEST_PATH_IMAGE034
,取固定时 长为
Figure 20123DEST_PATH_IMAGE051
的同一人物人脸关键点数据
Figure 74667DEST_PATH_IMAGE052
,即
Figure 770090DEST_PATH_IMAGE053
计算其嘴形面积
Figure 277295DEST_PATH_IMAGE054
,即
Figure 349156DEST_PATH_IMAGE055
从而计算出该段时间内该人物嘴形面积方差
Figure 258207DEST_PATH_IMAGE056
Figure 655690DEST_PATH_IMAGE057
其中
Figure 154585DEST_PATH_IMAGE058
,表示该段时间内该人物嘴形面积均值,
Figure 764558DEST_PATH_IMAGE059
表示人物
Figure 528115DEST_PATH_IMAGE060
在时刻
Figure 830920DEST_PATH_IMAGE010
时的人脸 关键点,
Figure 312717DEST_PATH_IMAGE061
表示其计算出的面积,当
Figure 726381DEST_PATH_IMAGE056
大于某个预设值时,这里V可取500,视名为
Figure 610023DEST_PATH_IMAGE060
的人物 在该
Figure 818151DEST_PATH_IMAGE051
时间段内正在说话,标记为说话人。在本实施例中,例如,T可以为250单位等,视实际 情况选定。
S4,根据提取的视频特征在每个通道生成多个候选视频片段;在步骤S4中,包括如下步骤:
S41,根据步骤S33中各通道的视频素材分析所得画面稳定结果,生成各通道初始 候选视频片段;对于第
Figure 787244DEST_PATH_IMAGE013
个素材
Figure 506063DEST_PATH_IMAGE014
的所有帧分析结果
Figure 244212DEST_PATH_IMAGE062
,遍历所有结果,当
Figure 888820DEST_PATH_IMAGE063
大于某个预设值时(这里预设值可取0.002,视不同节目而定),标记
Figure 345209DEST_PATH_IMAGE009
为更新的 候选片段的入点,继续遍历后续结果,当
Figure 100676DEST_PATH_IMAGE064
小于等于某个预设值时(这里预设 值可取0.002,视不同节目而定),标记
Figure 693331DEST_PATH_IMAGE065
为更新的候选片段的出点,依此类推,生成素材
Figure 243261DEST_PATH_IMAGE034
的共
Figure 186946DEST_PATH_IMAGE066
个候选片段的初始候选片段列表
Figure 244639DEST_PATH_IMAGE067
S42,遍历S41中生成的初始候选片段列表
Figure 957380DEST_PATH_IMAGE068
,比较当前片段
Figure 678211DEST_PATH_IMAGE069
的出点
Figure 843613DEST_PATH_IMAGE070
与下一个片段
Figure 940882DEST_PATH_IMAGE071
的入点
Figure 773709DEST_PATH_IMAGE072
,如果
Figure 665442DEST_PATH_IMAGE073
大于某个预设值 (这里取50帧),则将片段
Figure 318140DEST_PATH_IMAGE069
与片段
Figure 219100DEST_PATH_IMAGE071
合并为
Figure 407898DEST_PATH_IMAGE074
,其入点为
Figure 736111DEST_PATH_IMAGE069
的入点
Figure 610526DEST_PATH_IMAGE075
,出点为
Figure 315177DEST_PATH_IMAGE071
的出点
Figure 591438DEST_PATH_IMAGE076
,依此类推,生成最终的候选片段列表
Figure 90552DEST_PATH_IMAGE077
S5,按照预定义规则挑选候选视频片段,合成节目初片。在步骤S5中,包括如下步骤:
S51,根据每个通道素材的拍摄画面类别,按景别设定优先级;特别的,对该6个通 道素材
Figure 717842DEST_PATH_IMAGE087
Figure 695026DEST_PATH_IMAGE083
Figure 91372DEST_PATH_IMAGE080
优先级最高,
Figure 277501DEST_PATH_IMAGE081
优先级第二,
Figure 392088DEST_PATH_IMAGE088
优先级最低;
S52,整合步骤S42中
Figure 704120DEST_PATH_IMAGE011
个通道素材的最终候选片段列表
Figure 689394DEST_PATH_IMAGE078
和步骤S34中 的说话人标记结果,按照如下规则将各通道素材的最终候选列表中的片段填入最终成片的 时间线,得到最后的合成视频:
该片段是近景,存在说话人,且说话人是嘉宾;
该片段是近景,存在说话人,且说话人是主持人;
该片段是中景,存在说话人,且说话人数量不高于3;
该片段是远景。
进一步地,在步骤S51中,设定优先级:近景>中景>远景。进一步地,在步骤S52中, 采用时间线填空的方法,即当前时刻,依据上述规则从
Figure 530311DEST_PATH_IMAGE077
中挑选最适合的候选片段,并将该 片段填入生成初片的对应时间线上,然后更新当前时刻为候选片段出点对应时刻,以此类 推,直到生成初片所有时间线上填写完毕。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,在一台计算机设备(可以是个人计算机,服务器,或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质,进行测试或者实际的数据在程序实现中存在于只读存储器(Random Access Memory,RAM)、随机存取存储器(Random Access Memory,RAM)等。

Claims (2)

1.一种智能生成访谈类综艺节目的方法,其特征在于,包括步骤:
S1,通过多通道收录软件收录节目现场多个摄像机拍摄的节目视频;
S2,根据节目视频中的摄像机拍摄画面,设定每个通道素材扮演的角色;在步骤S2中,所述设定每个通道素材扮演的角色包括如下步骤:按照景别将通道素材分为三个类别,即近景、中景、远景;近景的拍摄画面为嘉宾、主持人特写;中景的拍摄画面为嘉宾与嘉宾、嘉宾与主持人、主持人与主持人之间的互动;远景的拍摄画面为整个舞台;
S3,对每个通道素材提取视频特征;在步骤S3中,包括如下步骤:
S31,建立包含该场节目的主持人和嘉宾的人脸库;在步骤S31中,如果该场节目共有
Figure 52497DEST_PATH_IMAGE001
人,通过互联网收集该场节目相关主持人和嘉宾单人照片,每人一张,通过人脸识别网络提 取512维的人脸特征作为其人物表征,则有
Figure 180990DEST_PATH_IMAGE002
的特征矩阵
Figure 611490DEST_PATH_IMAGE003
Figure 141829DEST_PATH_IMAGE004
的人名矩 阵
Figure 629442DEST_PATH_IMAGE005
Figure 979652DEST_PATH_IMAGE001
为整数,
Figure 945334DEST_PATH_IMAGE006
分别对应矩阵
Figure 330179DEST_PATH_IMAGE007
Figure 988693DEST_PATH_IMAGE008
的第
Figure 826199DEST_PATH_IMAGE009
行第
Figure 861151DEST_PATH_IMAGE010
列元素;
S32,对每个通道的视频素材进行人脸识别分析,提取每一帧中人脸框坐标、人脸68关 键点坐标和对应的人名;在步骤S32中,如果有
Figure 100503DEST_PATH_IMAGE011
个通道的视频素材,每个视频素材均为
Figure 926989DEST_PATH_IMAGE012
帧,且每一帧均已在时间线上对齐,则通过对第
Figure 251791DEST_PATH_IMAGE013
个素材
Figure 824855DEST_PATH_IMAGE014
的第
Figure 184292DEST_PATH_IMAGE015
帧图像
Figure 919030DEST_PATH_IMAGE016
进行人脸 识别处理,得到该帧的处理结果集合
Figure 731128DEST_PATH_IMAGE017
Figure 576724DEST_PATH_IMAGE018
其中
Figure 525088DEST_PATH_IMAGE019
,表示第
Figure 430728DEST_PATH_IMAGE015
帧提取得到的人脸特征矩阵,
Figure 291691DEST_PATH_IMAGE020
为检测到的人脸个数,
Figure 940978DEST_PATH_IMAGE021
表示 第
Figure 9428DEST_PATH_IMAGE015
帧提取到的第
Figure 85969DEST_PATH_IMAGE010
个人脸的特征,
Figure 341501DEST_PATH_IMAGE022
表示第
Figure 528900DEST_PATH_IMAGE015
帧检测到的所有人脸框,
Figure 451856DEST_PATH_IMAGE023
表示第
Figure 964877DEST_PATH_IMAGE015
帧检测出的第
Figure 970355DEST_PATH_IMAGE010
个人脸框,
Figure 961445DEST_PATH_IMAGE024
表示第
Figure 4487DEST_PATH_IMAGE015
帧检测出到的所有人脸的关键点,
Figure 422830DEST_PATH_IMAGE025
表示第
Figure 652954DEST_PATH_IMAGE015
帧检测出的第
Figure 650997DEST_PATH_IMAGE010
个人的人脸关键点,
Figure 548546DEST_PATH_IMAGE026
表示第
Figure 403370DEST_PATH_IMAGE015
帧检测到的人脸对应识别出的人名,
Figure 123720DEST_PATH_IMAGE027
表示第
Figure 191033DEST_PATH_IMAGE015
帧检测出的第
Figure 411930DEST_PATH_IMAGE010
个人对应的人名,
Figure 906496DEST_PATH_IMAGE028
即取人脸库相似度最高人名作为该人脸对应的人名,
Figure 580054DEST_PATH_IMAGE029
表示第
Figure 716637DEST_PATH_IMAGE030
个人名,
Figure 323199DEST_PATH_IMAGE031
表示取 最大值对应的索引,
Figure 251316DEST_PATH_IMAGE032
表示相似度计算函数;所有素材提取视频特征的结果表示为
Figure 943329DEST_PATH_IMAGE033
S33,对每个通道的视频素材进行画面稳定性分析,标记因摄像机运动或对焦错误导致 的模糊画面;在步骤S33中,对第
Figure 883603DEST_PATH_IMAGE013
个素材
Figure 344671DEST_PATH_IMAGE034
的第
Figure 977778DEST_PATH_IMAGE015
帧图像
Figure 422666DEST_PATH_IMAGE016
,设其宽为
Figure 166631DEST_PATH_IMAGE035
,高为
Figure 13364DEST_PATH_IMAGE036
,通过统计其 画面稳定性得分
Figure 817372DEST_PATH_IMAGE037
来表征该帧图像画面是否稳定,
Figure 483977DEST_PATH_IMAGE038
,
Figure 757264DEST_PATH_IMAGE039
,
Figure 192925DEST_PATH_IMAGE040
,
Figure 167834DEST_PATH_IMAGE041
,
其中,
Figure 321735DEST_PATH_IMAGE042
表示对第
Figure 407503DEST_PATH_IMAGE016
帧图像取灰度图,
Figure 228828DEST_PATH_IMAGE043
表示傅立叶变换,
Figure 374639DEST_PATH_IMAGE044
表示将0频分量转换 到频谱中心,
Figure 15836DEST_PATH_IMAGE045
表示取绝对值,
Figure 905294DEST_PATH_IMAGE046
Figure 581126DEST_PATH_IMAGE047
的绝对值,
Figure 163417DEST_PATH_IMAGE047
Figure 288981DEST_PATH_IMAGE016
的灰度图变换到频域并将0频分量 转换到频谱中心后的结果,
Figure 716551DEST_PATH_IMAGE048
为阈值,设定为
Figure 512469DEST_PATH_IMAGE046
中最大值的
Figure 734502DEST_PATH_IMAGE049
Figure 350292DEST_PATH_IMAGE050
Figure 847132DEST_PATH_IMAGE046
中大于该阈值的像素 个数,当
Figure 497556DEST_PATH_IMAGE037
大于设定的经验值时,则表示图像
Figure 421650DEST_PATH_IMAGE016
画面稳定;
S34,使用步骤S31中的数据,使用同一人物连续时间维度的人脸关键点数据,进行嘴形 分析,判断其在设定时间内是否正在说话;在步骤S34中,对于第
Figure 524735DEST_PATH_IMAGE013
个素材
Figure 294108DEST_PATH_IMAGE034
,取固定时间窗 口大小为
Figure 64618DEST_PATH_IMAGE051
的同一人物人脸关键点数据
Figure 894034DEST_PATH_IMAGE052
,即
Figure 484415DEST_PATH_IMAGE053
计算其嘴形面积
Figure 60408DEST_PATH_IMAGE054
,即
Figure 685425DEST_PATH_IMAGE055
从而计算出
Figure 951321DEST_PATH_IMAGE051
内该人物嘴形面积方差
Figure 763419DEST_PATH_IMAGE056
Figure 874595DEST_PATH_IMAGE057
其中
Figure 354118DEST_PATH_IMAGE058
,表示
Figure 525336DEST_PATH_IMAGE051
内该人物嘴形面积均值,
Figure 90309DEST_PATH_IMAGE059
表示人物
Figure 5176DEST_PATH_IMAGE060
在时刻
Figure 73626DEST_PATH_IMAGE010
时的人脸关键点,
Figure 681325DEST_PATH_IMAGE061
表示其计算出的面积,当
Figure 468015DEST_PATH_IMAGE056
大于设定的经验值时,视名为
Figure 452152DEST_PATH_IMAGE060
的人物在该
Figure 372179DEST_PATH_IMAGE051
时间段内正在说话, 标记为说话人;
S4,根据提取的视频特征在每个通道生成多个候选视频片段;在步骤S4中,包括如下步骤:
S41,根据步骤S33中各通道的视频素材分析所得画面稳定结果,生成各通道初始候选 视频片段;对于第
Figure 150779DEST_PATH_IMAGE013
个素材
Figure 424765DEST_PATH_IMAGE014
的所有帧分析结果
Figure 947014DEST_PATH_IMAGE062
,遍历所有结果,当
Figure 990056DEST_PATH_IMAGE063
大于设定的经验值时,标记
Figure 673978DEST_PATH_IMAGE009
为更新的候选片段的入点,继续遍历后续结果,当
Figure 700840DEST_PATH_IMAGE064
小于等于设定的经验值时,标记
Figure 761200DEST_PATH_IMAGE065
为更新的候选片段的出点,依此类推, 生成素材
Figure 658749DEST_PATH_IMAGE034
的共
Figure 44731DEST_PATH_IMAGE066
个候选片段的初始候选片段列表
Figure 27730DEST_PATH_IMAGE067
S42,遍历S41中生成的初始候选片段列表
Figure 891781DEST_PATH_IMAGE068
,比较当前片段
Figure 924064DEST_PATH_IMAGE069
的出点
Figure 949789DEST_PATH_IMAGE070
与下 一个片段
Figure 685664DEST_PATH_IMAGE071
的入点
Figure 353405DEST_PATH_IMAGE072
,如果
Figure 225547DEST_PATH_IMAGE073
大于设定的经验值时,则将片段
Figure 422173DEST_PATH_IMAGE069
与 片段
Figure 645344DEST_PATH_IMAGE071
合并为
Figure 585618DEST_PATH_IMAGE074
,其入点为
Figure 577845DEST_PATH_IMAGE069
的入点
Figure 210951DEST_PATH_IMAGE075
,出点为
Figure 655839DEST_PATH_IMAGE071
的出点
Figure 399804DEST_PATH_IMAGE076
,依此类推,生成最终的候选 片段列表
Figure 246537DEST_PATH_IMAGE077
S5,按照预定义规则挑选候选视频片段,合成节目初片,在步骤S5中,包括如下步骤:
S51,根据每个通道素材的拍摄画面类别,按景别设定优先级;
S52,整合步骤S42中
Figure 782036DEST_PATH_IMAGE011
个通道素材的最终候选片段列表
Figure 979800DEST_PATH_IMAGE078
和步骤S34中的说 话人标记结果,按照如下规则将各通道素材的最终候选列表中的片段填入最终成片的时间 线,得到最后的合成视频:
该片段是近景,存在说话人,且说话人是嘉宾;
该片段是近景,存在说话人,且说话人是主持人;
该片段是中景,存在说话人,且说话人数量不高于3;
该片段是远景。
2.根据权利要求1所述的一种智能生成访谈类综艺节目的方法,其特征在于,在步骤S51中,设定优先级:近景>中景>远景。
CN202110803384.0A 2021-07-16 2021-07-16 一种智能生成访谈类综艺节目的方法 Active CN113269854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110803384.0A CN113269854B (zh) 2021-07-16 2021-07-16 一种智能生成访谈类综艺节目的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110803384.0A CN113269854B (zh) 2021-07-16 2021-07-16 一种智能生成访谈类综艺节目的方法

Publications (2)

Publication Number Publication Date
CN113269854A CN113269854A (zh) 2021-08-17
CN113269854B true CN113269854B (zh) 2021-10-15

Family

ID=77236586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110803384.0A Active CN113269854B (zh) 2021-07-16 2021-07-16 一种智能生成访谈类综艺节目的方法

Country Status (1)

Country Link
CN (1) CN113269854B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115174962B (zh) * 2022-07-22 2024-05-24 湖南芒果融创科技有限公司 预演仿真方法、装置、计算机设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005091211A1 (en) * 2004-03-16 2005-09-29 3Vr Security, Inc. Interactive system for recognition analysis of multiple streams of video
CN104732991A (zh) * 2015-04-08 2015-06-24 成都索贝数码科技股份有限公司 一种快速整理、挑选和编辑综艺节目海量素材的***和方法
CN105307028A (zh) * 2015-10-26 2016-02-03 新奥特(北京)视频技术有限公司 一种针对多个镜头视频素材的视频编辑方法和装置
CN106682617A (zh) * 2016-12-28 2017-05-17 电子科技大学 一种基于频谱段信息的图像清晰与模糊判别特征提取方法
CN108875602A (zh) * 2018-05-31 2018-11-23 珠海亿智电子科技有限公司 监控环境下基于深度学习的人脸识别方法
CN111191484A (zh) * 2018-11-14 2020-05-22 普天信息技术有限公司 视频图像中人物说话的识别方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9818136B1 (en) * 2003-02-05 2017-11-14 Steven M. Hoffberg System and method for determining contingent relevance
US8095466B2 (en) * 2006-05-15 2012-01-10 The Directv Group, Inc. Methods and apparatus to conditionally authorize content delivery at content servers in pay delivery systems
US20170032559A1 (en) * 2015-10-16 2017-02-02 Mediatek Inc. Simulated Transparent Device
CN110691258A (zh) * 2019-10-30 2020-01-14 中央电视台 一种节目素材制作方法、装置及计算机存储介质、电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005091211A1 (en) * 2004-03-16 2005-09-29 3Vr Security, Inc. Interactive system for recognition analysis of multiple streams of video
CN104732991A (zh) * 2015-04-08 2015-06-24 成都索贝数码科技股份有限公司 一种快速整理、挑选和编辑综艺节目海量素材的***和方法
CN105307028A (zh) * 2015-10-26 2016-02-03 新奥特(北京)视频技术有限公司 一种针对多个镜头视频素材的视频编辑方法和装置
CN106682617A (zh) * 2016-12-28 2017-05-17 电子科技大学 一种基于频谱段信息的图像清晰与模糊判别特征提取方法
CN108875602A (zh) * 2018-05-31 2018-11-23 珠海亿智电子科技有限公司 监控环境下基于深度学习的人脸识别方法
CN111191484A (zh) * 2018-11-14 2020-05-22 普天信息技术有限公司 视频图像中人物说话的识别方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"索贝AI剪辑应用于总台综艺访谈类节目";无;《现代电视技术》;20200229(第2期);第160页 *
F'elicien Vallet等."ROBUST VISUAL FEATURES FOR THE MULTIMODAL IDENTIFICATION OF UNREGISTERED SPEAKERS IN TV TALK-SHOWS".《2010 IEEE 17th International Conference on Image Processing》.2010, *
无."索贝AI剪辑应用于总台综艺访谈类节目".《现代电视技术》.2020,(第2期), *
说话人辨认中有效参数的研究;王炳锡等;《应用声学》;19920431;第11卷(第02期);第20-23页 *

Also Published As

Publication number Publication date
CN113269854A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN107707931B (zh) 根据视频数据生成解释数据、数据合成方法及装置、电子设备
JP7252362B2 (ja) 動画を自動編集する方法及びポータブル型端末
JP7228682B2 (ja) 動画解析のためのゲーティングモデル
Chen et al. What comprises a good talking-head video generation?: A survey and benchmark
CN106686452B (zh) 一种动态图片的生成方法及装置
WO2022184117A1 (zh) 基于深度学习的视频剪辑方法、相关设备及存储介质
Kang Affective content detection using HMMs
US7949188B2 (en) Image processing apparatus, image processing method, and program
JP5510167B2 (ja) ビデオ検索システムおよびそのためのコンピュータプログラム
CN107430780B (zh) 用于基于视频内容特性的输出创建的方法
CN109218629B (zh) 视频生成方法、存储介质和装置
CN111683209A (zh) 混剪视频的生成方法、装置、电子设备及计算机可读存储介质
US8873861B2 (en) Video processing apparatus and method
CN112367551B (zh) 视频编辑的方法及装置、电子设备和可读存储介质
US20070165022A1 (en) Method and system for the automatic computerized audio visual dubbing of movies
JPH11514479A (ja) 映画のコンピュータ化された自動オーディオビジュアルダビングのための方法
US20030085901A1 (en) Method and system for the automatic computerized audio visual dubbing of movies
US20170213576A1 (en) Live Comics Capturing Camera
CN110505498A (zh) 视频的处理、播放方法、装置及计算机可读介质
CN113255628B (zh) 一种针对新闻场景的景别识别方法
WO2020029883A1 (zh) 一种视频指纹生成方法和装置
Zhang et al. Detecting and removing visual distractors for video aesthetic enhancement
CN113269854B (zh) 一种智能生成访谈类综艺节目的方法
US9542976B2 (en) Synchronizing videos with frame-based metadata using video content
JP6389296B1 (ja) 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant