CN106067989A

CN106067989A - 一种人像语音视频同步校准装置及方法

Info

Publication number: CN106067989A
Application number: CN201610273130.1A
Authority: CN
Inventors: 陈潇君; 苟建平; 詹天明; 成科扬; 陈小波; 詹永照; 毛启容; 柯佳; 汪满容
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2016-04-28
Filing date: 2016-04-28
Publication date: 2016-11-02
Anticipated expiration: 2036-04-28
Also published as: CN106067989B

Abstract

本发明公开了一种人像语音视频同步校准装置及方法，使用现有的成熟的人脸识别技术、动态嘴唇识别技术、人声提取技术等，通过信息化手段和硬件设备的设计，实现人像语音视频同步校准功能。本发明只采用低时间复杂度的左移位，右移位和异或计算，提高了计算性能，而且不需要语音和视频文件中加入时间戳信息，减少了信息存储量。本发明可应用于人像语音视频的同步检测以及对异步语音视频的校准。

Description

一种人像语音视频同步校准装置及方法

技术领域

本发明属于多媒体信息处理技术领域，具体涉及一种人像语音视频同步校准装置及方法。

背景技术

随着多媒体和互联网的普及和发展，人像语音视频应用在各个领域中，如谈话类娱乐节目，网络主播节目，大规模开放的在线课程等。人像语音视频使用的语音信息和视频信息一般采用不同硬件分别录制，然后经过计算机进行综合处理合成一个可以直接播放的语音视频文件。在录制过程中由于硬件或者网络出现问题，会导致语音信息和视频信息不同步。传统的语音视频同步校准一般采用人工逐帧播放语音视频文件，发现误差时，人为进行校准的方法，需要耗费很多工作量；有一些加入时间戳的同步方法只能识别具有时间戳的语音信息和视频信息，不能识别没有加入时间戳的语音信息和视频信息；还有一些采用识别视频帧中运动幅度特征与语音信息特征进行匹配的方法，需要运动随之产生声音信息的变化，而无法判断没有产生声音的运动。

发明内容

本发明的目的在于提供一种人像语音视频同步校准装置及方法，以达到对谈话类娱乐节目，网络主播节目，大规模开放的在线课程等人像语音视频的同步检测以及对异步语音视频的校准目的。

为了解决上述技术问题，本发明使用现有的成熟的人脸识别技术、动态嘴唇识别技术、人声提取技术等，通过信息化手段和硬件设备的设计，实现人像语音视频同步校准功能，所采用的具体技术方案如下：

一种人像语音视频同步校准装置，包括：人脸识别模块，动态嘴唇识别模块，人声提取模块，时间差计算模块，同步调节模块；

所述的人脸识别模块与动态嘴唇识别模块连接；

所述的时间差计算模块与动态嘴唇识别模块连接；

所述的时间差计算模块与人声提取模块连接；

所述的时间差计算模块与同步调节模块连接；

所述的人脸识别模块用于识别图片信息中的人脸区域；

所述的动态嘴唇识别模块用于识别出人脸区域中的嘴唇区域，并且判断嘴唇闭合状态，进一步判断嘴唇是否处于发音状态；

所述的人声提取模块用于提取语音信息中的人声部分；

所述的时间差计算模块用于计算动态嘴唇绝对时刻和人声时刻的距离；

所述的同步调节模块用于调节动态嘴唇绝对时刻和人声时刻；

一种人像语音视频同步校准方法如下：

步骤S1，读取语音视频头文件信息，获得语音视频的时间总长度T，语音视频的某一时刻为t，1≤t≤T；

步骤S2，设定动态嘴唇数组P[k]，1≤k≤T，将数组P中所有元素初始值设为0，设定人声数组S[f]，1≤f≤T，将数组S中所有元素初始值设为0；

步骤S3，依次提取视频文件t时刻的图片帧，采用人脸识别技术识别出某一时刻图片帧中的i个人脸区域M_t,i，1≤i≤I，I为识别出来的人脸区域总数；

步骤S4，采用嘴唇识别技术识别出某一时刻人脸区域M_t,i中的嘴唇区域L_t,i，1≤i≤I；

步骤S5，比较嘴唇区域L_t,j，与L_t,j-1，L_t,j-2，…L_t,j-J的位置偏移情况，确定嘴唇区域L_t,j是否处于动态开启或闭合状态，其中J为可以调整的阈值，用于控制比较嘴唇区域的数量，J≤j≤I，如果确定嘴唇区域L_t,j处于运动状态，则将P[t]的值设为1；

步骤S6，将语音文件E分成左右两个声道文件A，B，用左声道文件A的音频信号减去右声道文件B的音频信号，得到文件C，用右声道文件B的音频信号减去左声道文件A的音频信号，得到文件D，将C和D两路信号重新合成F，进一步，从语音文件E中减去语音文件F可以得到人声文件G；

步骤S7，按时序依次提取人声文件G在t时刻的频率H_t,H_t单位为Hz，0≤t≤T，如果Za≤H_t≤Zb，则将S[t]的值设为1，其中Za为人声频率下限阈值，Zb为人声频率上限阈值；

步骤S8，完全复制一份S[t]，命名为数组Sr[t]，设定用于移位操作的初始值，左移位left＝0，右移位right＝0，确认校准时间间隔sure＝0，并给出左移位上限阈值LEFT，右移位上限阈值RIGHT，校准阈值Z；

步骤S9，对P[t]和S[t]进行异或操作的累加，如果X小于Z，则sure＝left，并转入S13，否则转入S10；

步骤S10，对S[t]进行一次左移位操作S[t]<<，left＝left+1，如果left≤LEFT，转入S9，否则转入S11；

步骤S11，对P[t]和Sr[t]进行异或操作的累加，如果X小于Z，则sure＝-right，并转入S13，否则转入S12；

步骤S12，对S[t]进行一次右移位操作S[t]>>，right＝right+1，如果right≤RIGHT，转入S11，否则转入S14；

步骤S13，校准检测成功，将语音文件移位sure个时刻和视频文件重新合成；

步骤S14，校准结束。

本发明具有有益效果。本发明提供了一种人像语音视频同步检测与校准的新方法，通过识别视频文件中嘴唇闭合状态，得到了视频中人物的发音信息，通过识别语音文件，得到了人声信息，将两者进行时间差检测，可以校准语音和视频不同步情况，本发明只采用低时间复杂度的左移位，右移位和异或计算，提高了计算性能，而且不需要语音和视频文件中加入时间戳信息，减少了信息存储量。

本发明装置的工作过程如下：采用人脸识别模块识别出图片信息中的人脸区域；然后，采用动态嘴唇识别模块识别出人脸区域中的嘴唇区域，并且判断嘴唇闭合状态，进一步判断嘴唇是否处于发音状态；接着，采用人声提取模块提取语音信息中的人声部分；随后，采用时间差计算模块计算动态嘴唇绝对时刻和人声时刻的距离；最后，采用同步调节模块调节动态嘴唇绝对时刻和人声时刻，生成调整好的人像语音视频。

附图说明

图1是本发明装置的总体结构示意图。

图中：1-人脸识别模块，2-动态嘴唇识别模块，3-人声提取模块，4-时间差计算模块，5-同步调节模块。

图2是一种人像语音视频同步校准方法的流程图。

图3是实施例一视频文件第32秒图片帧的二值图。

图4是实施例一视频文件第32秒图片帧的人脸区域图。

图5是实施例一视频文件第32秒图片帧的嘴唇区域图。

图6是实施例一视频文件第31秒图片帧的二值图。

图7是实施例一视频文件第31秒图片帧的人脸区域图。

图8是实施例一视频文件第31秒图片帧的嘴唇区域图。

图9是实施例一语音文件的语音声谱图和人声声谱图。

图10是实施例一动态嘴唇数组和人声数组的数值趋势图。

图11是实施例二视频文件第19秒图片帧的二值图。

图12是实施例二视频文件第19秒图片帧的人脸区域图。

图13是实施例二视频文件第19秒图片帧的嘴唇区域图。

图14是实施例二视频文件第18秒图片帧的识别示意图。

图15是实施例二视频文件第18秒图片帧的人脸区域图。

图16是实施例二视频文件第18秒图片帧的嘴唇区域图。

图17是实施例二语音文件的语音声谱图和人声声谱图。

图18是实施例二校准前动态嘴唇数组和人声数组的数值趋势图。

图19是实施例二校准后动态嘴唇数组和人声数组的数值趋势图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细地说明。

由图1所示的一种人像语音视频同步校准装置的总体结构示意图可知，它包括1-人脸识别模块，2-动态嘴唇识别模块，3-人声提取模块，4-时间差计算模块，5-同步调节模块。

所述的人脸识别模块1与动态嘴唇识别模块2连接；

所述的时间差计算模块4与动态嘴唇识别模块2连接；

所述的时间差计算模块4与人声提取模块3连接；

所述的时间差计算模块4与同步调节模块5连接；

本发明在使用时，各部件的功能描述如下。

所述的人脸识别模块1用于识别图片信息中的人脸区域；

所述的动态嘴唇识别模块2用于识别出人脸区域中的嘴唇区域，并且判断嘴唇闭合状态，进一步判断嘴唇是否处于发音状态；

所述的人声提取模块3用于提取语音信息中的人声部分；

所述的时间差计算模块4用于计算动态嘴唇绝对时刻和人声时刻的距离；

所述的同步调节模块5用于调节动态嘴唇绝对时刻和人声时刻。以下是发明人给出的实施例：

一种人像语音视频同步校准方法的工作流程如图2所示。

实施例1：对同步的语音视频检测过程

步骤S1，读取语音视频头文件信息，获得语音视频的时间总长度72，单位为秒，语音视频的某一时刻为t，1≤t≤72；

步骤S2，设定动态嘴唇数组P[k]，1≤k≤72，将数组P中所有元素初始值设为0，设定人声数组S[f]，1≤f≤72，将数组S中所有元素初始值设为0；

步骤S3，依次提取视频文件t时刻的图片帧，图3是视频文件第32秒提取出来的图片帧的二值图，图6是视频文件第31秒提取出来的图片帧的二值图，采用人脸识别技术识别出某一时刻图片帧中的i个人脸区域M_t,i，1≤i≤I，I＝1，图4是从图3中提取出来的一个人脸区域M_32,1，图7是从图6提取出来的一个人脸区域M_31,1；

步骤S4，采用嘴唇识别技术识别出某一时刻人脸区域M_t,i中的嘴唇区域L_t,i，1≤i≤I，I＝1，图5是从图4中提取出来的一个嘴唇区域L_32,1，图8是从图7中提取出来的一个嘴唇区域L_31,1；

步骤S5，比较嘴唇区域L_t,j，与L_t,j-1，L_t,j-2，…L_t,j-J的位置偏移情况，确定嘴唇区域L_t,j是否处于动态开启或闭合状态，J为可以调整的阈值，实施例中J＝1，J≤j≤I，图5中嘴唇区域L_32,1和图8中嘴唇区域L_31,1进行比较，确定嘴唇处于动态开启状态，则将P[32]的值设为1；

步骤S6，将语音文件E分成左右两个声道文件即左声道文件A和右声道文件B，如图9(a)所示为语音文件E的频谱图，用左声道文件A的音频信号减去右声道文件B的音频信号，得到文件C，用右声道文件B的音频信号减去左声道文件A的音频信号，得到文件D，将文件C和文件D两路信号重新合成语音文件F，进一步，从语音文件E中减去语音文件F可以得到人声文件G，如图9(b)所示为人声文件G的频谱图；

步骤S7，按时序依次提取人声文件G在t时刻的频率H_t,H_t的单位为Hz，0≤t≤72，如果Za≤H_t≤Zb，则将S[t]的值设为1，Za为人声频率下限阈值，实施例中Za＝100，Zb为人声频率上限阈值，实施例中Zb＝600；

步骤S8，完全复制一份S[t]，命名为数组Sr[t]，设定用于移位操作的初始值，左移位left＝0，右移位right＝0，确认校准时间间隔sure＝0，并给出左移位上限阈值LEFT＝5，右移位上限阈值RIGHT＝5，校准阈值Z＝8；

步骤S9，对动态嘴唇数组P[t]和语音数组S[t]进行异或操作的累加，如图10所示为P[t]和S[t]的数值趋势图，计算得到X＝5，X小于Z，则sure＝0，并转入步骤S13；

步骤S13，校准检测成功，将语音文件移位0个时刻和视频文件重新合成；

步骤S14，校准结束。

实施例2：对不同步的语音视频检测与校准过程

步骤S1，读取语音视频头文件信息，获得语音视频的时间总长度58，单位为秒，语音视频的某一时刻为t，1≤t≤58；

步骤S2，设定动态嘴唇数组P[k]，1≤k≤58，将数组P中所有元素初始值设为0，设定人声数组S[f]，1≤f≤58，将数组S中所有元素初始值设为0；

步骤S3，依次提取视频文件t时刻的图片帧，图11是从视频文件第19S提取出来的图片帧的二值图，图14是从视频文件第18秒提取出来的图片帧的二值图，采用人脸识别技术识别出某一时刻图片帧中的i个人脸区域M_t,i，1≤i≤I，I＝3，图12是从图11中提取出来的三个人脸区域M_19,1，M_19,2，M_19,3，图15是从图14中提取出来的三个人脸区域M_18,1，M_18,2，M_18,3；

步骤S4，采用嘴唇识别技术识别出某一时刻人脸区域M_t,i中的嘴唇区域L_t,i，1≤i≤I，I＝3，图13是从图12中提取出来的三个嘴唇区域L_19,1，L_19,2，L_19,3，图16是从图15中提取出来的三个嘴唇区域L_18,1，L_18,2，L_18,3；

步骤S5，比较嘴唇区域L_t,j，与L_t,j-1，L_t,j-2，…L_t,j-J的位置偏移情况，确定嘴唇区域L_t,j是否处于动态开启或闭合状态，J为可以调整的阈值，实施例中J＝1，J≤j≤I，图13中嘴唇区域L_19,1和图16中嘴唇区域L_18,1进行比较，确定嘴唇处于静态状态，继续将图13中嘴唇区域L_19,2和图16中嘴唇区域L_18,2进行比较，确定嘴唇处于动态闭合状态，则将P[19]的值设为1；

步骤S6，将语音文件E分成左右两个声道文件即左声道文件A和右声道文件B，如图17(a)所示为语音文件E的频谱图，用左声道文件A的音频信号减去右声道文件B的音频信号，得到文件C，用右声道文件B的音频信号减去左声道文件A的音频信号，得到文件D，将文件C和文件D两路信号重新合成语音文件F，进一步，从语音文件E中减去语音文件F可以得到人声文件G，如图17(b)所示为人声文件G的频谱图；

步骤S7，按时序依次提取人声文件G在t时刻的频率H_t,单位Hz，0≤t≤58，如果Za≤H_t≤Zb，则将S[t]的值设为1，Za为人声频率下限阈值，实施例中Za＝80，Zb为人声频率上限阈值，实施例中Zb＝800；

步骤S8，完全复制一份S[t]，命名为数组Sr[t]，设定用于移位操作的初始值，左移位left＝0，右移位right＝0，确认校准时间间隔sure＝0，并给出左移位上限阈值LEFT＝4，右移位上限阈值RIGHT＝4，校准阈值Z＝6；

步骤S9，对动态嘴唇数组P[t]和语音数组S[t]进行异或操作的累加，如图18所示为P[t]和S[t]的数值趋势图，计算得到X＝9，X大于Z，则sure＝0，并转入步骤S10；

步骤S10，对S[t]进行一次左移位操作S[t]<<，left＝left+1，计算得到left＝1，left≤LEFT，转入步骤S9；

步骤S9，对P[t]和S[t]进行异或操作的累加，计算得到X＝6，X大于Z，则sure＝1，并转入步骤S10；

步骤S10，对S[t]进行一次左移位操作S[t]<<，left＝left+1，计算得到left＝2，left≤LEFT，转入步骤S9；

步骤S9，对P[t]和S[t]进行异或操作的累加，如图19所示为P[t]和S[t]的数值趋势图，计算得到X＝2，X小于Z，则sure＝2，并转入步骤S13；

步骤S13，校准检测成功，将语音文件左移位2个时刻和视频文件重新合成；

步骤S14，校准结束。

Claims

1.一种人像语音视频同步校准装置，其特征在于包括：人脸识别模块、动态嘴唇识别模块、人声提取模块、时间差计算模块和同步调节模块；

所述人脸识别模块与动态嘴唇识别模块连接；

所述时间差计算模块分别与动态嘴唇识别模块、人声提取模块、同步调节模块连接；

所述人脸识别模块用于识别图片信息中的人脸区域；

所述动态嘴唇识别模块用于识别出人脸区域中的嘴唇区域，并且判断嘴唇闭合状态，进一步判断嘴唇是否处于发音状态；

所述人声提取模块用于提取语音信息中的人声部分；

所述时间差计算模块用于计算动态嘴唇绝对时刻和人声时刻的距离；

所述同步调节模块用于调节动态嘴唇绝对时刻和人声时刻。

2.权利要求1所述的一种人像语音视频同步校准装置的人像语音视频同步校准方法，其特征在于包括以下步骤：

步骤S5，比较嘴唇区域L_t,j，与L_t,j-1，L_t,j-2，…L_t,j-J的位置偏移情况，确定嘴唇区域L_t,j是否处于动态开启或闭合状态，J为可以调整的阈值，用于控制比较嘴唇区域的数量，J≤j≤I；

如果确定嘴唇区域L_t,j处于运动状态，则将P[t]的值设为1，否则不作操作；

步骤S6，将语音文件E分成左右两个声道文件即左声道文件A和右声道文件B，用左声道文件A的音频信号减去右声道文件B的音频信号，得到文件C，用右声道文件B的音频信号减去左声道文件A的音频信号，得到文件D，将文件C和文件D两路信号重新合成语音文件F，进一步，从语音文件E中减去语音文件F可以得到人声文件G；

步骤S7，按时序依次提取人声文件G在t时刻的频率H_t,H_t单位为Hz，0≤t≤T；如果Za≤H_t≤Zb，则将S[t]的值设为1，Za为人声频率下限阈值，Zb为人声频率上限阈值；

步骤S9，对动态嘴唇数组P[t]和人声数组S[t]进行异或操作的累加，如果X小于Z，则sure＝left，并转入步骤S13，否则转入步骤S10；

步骤S10，对S[t]进行一次左移位操作S[t]<<，left＝left+1，如果left≤LEFT，转入步骤S9，否则转入步骤S11；

步骤S11，对P[t]和Sr[t]进行异或操作的累加，如果X小于Z，则sure＝-right，并转入步骤S13，否则转入步骤S12；

步骤S12，对S[t]进行一次右移位操作S[t]>>，right＝right+1，如果right≤RIGHT，转入步骤S11，否则转入步骤S14；

步骤S14，校准结束。