CN106067989A - 一种人像语音视频同步校准装置及方法 - Google Patents

一种人像语音视频同步校准装置及方法 Download PDF

Info

Publication number
CN106067989A
CN106067989A CN201610273130.1A CN201610273130A CN106067989A CN 106067989 A CN106067989 A CN 106067989A CN 201610273130 A CN201610273130 A CN 201610273130A CN 106067989 A CN106067989 A CN 106067989A
Authority
CN
China
Prior art keywords
voice
file
lip
video
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610273130.1A
Other languages
English (en)
Other versions
CN106067989B (zh
Inventor
陈潇君
苟建平
詹天明
成科扬
陈小波
詹永照
毛启容
柯佳
汪满容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN201610273130.1A priority Critical patent/CN106067989B/zh
Publication of CN106067989A publication Critical patent/CN106067989A/zh
Application granted granted Critical
Publication of CN106067989B publication Critical patent/CN106067989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种人像语音视频同步校准装置及方法,使用现有的成熟的人脸识别技术、动态嘴唇识别技术、人声提取技术等,通过信息化手段和硬件设备的设计,实现人像语音视频同步校准功能。本发明只采用低时间复杂度的左移位,右移位和异或计算,提高了计算性能,而且不需要语音和视频文件中加入时间戳信息,减少了信息存储量。本发明可应用于人像语音视频的同步检测以及对异步语音视频的校准。

Description

一种人像语音视频同步校准装置及方法
技术领域
本发明属于多媒体信息处理技术领域,具体涉及一种人像语音视频同步校准装置及方法。
背景技术
随着多媒体和互联网的普及和发展,人像语音视频应用在各个领域中,如谈话类娱乐节目,网络主播节目,大规模开放的在线课程等。人像语音视频使用的语音信息和视频信息一般采用不同硬件分别录制,然后经过计算机进行综合处理合成一个可以直接播放的语音视频文件。在录制过程中由于硬件或者网络出现问题,会导致语音信息和视频信息不同步。传统的语音视频同步校准一般采用人工逐帧播放语音视频文件,发现误差时,人为进行校准的方法,需要耗费很多工作量;有一些加入时间戳的同步方法只能识别具有时间戳的语音信息和视频信息,不能识别没有加入时间戳的语音信息和视频信息;还有一些采用识别视频帧中运动幅度特征与语音信息特征进行匹配的方法,需要运动随之产生声音信息的变化,而无法判断没有产生声音的运动。
发明内容
本发明的目的在于提供一种人像语音视频同步校准装置及方法,以达到对谈话类娱乐节目,网络主播节目,大规模开放的在线课程等人像语音视频的同步检测以及对异步语音视频的校准目的。
为了解决上述技术问题,本发明使用现有的成熟的人脸识别技术、动态嘴唇识别技术、人声提取技术等,通过信息化手段和硬件设备的设计,实现人像语音视频同步校准功能,所采用的具体技术方案如下:
一种人像语音视频同步校准装置,包括:人脸识别模块,动态嘴唇识别模块,人声提取模块,时间差计算模块,同步调节模块;
所述的人脸识别模块与动态嘴唇识别模块连接;
所述的时间差计算模块与动态嘴唇识别模块连接;
所述的时间差计算模块与人声提取模块连接;
所述的时间差计算模块与同步调节模块连接;
所述的人脸识别模块用于识别图片信息中的人脸区域;
所述的动态嘴唇识别模块用于识别出人脸区域中的嘴唇区域,并且判断嘴唇闭合状态,进一步判断嘴唇是否处于发音状态;
所述的人声提取模块用于提取语音信息中的人声部分;
所述的时间差计算模块用于计算动态嘴唇绝对时刻和人声时刻的距离;
所述的同步调节模块用于调节动态嘴唇绝对时刻和人声时刻;
一种人像语音视频同步校准方法如下:
步骤S1,读取语音视频头文件信息,获得语音视频的时间总长度T,语音视频的某一时刻为t,1≤t≤T;
步骤S2,设定动态嘴唇数组P[k],1≤k≤T,将数组P中所有元素初始值设为0,设定人声数组S[f],1≤f≤T,将数组S中所有元素初始值设为0;
步骤S3,依次提取视频文件t时刻的图片帧,采用人脸识别技术识别出某一时刻图片帧中的i个人脸区域Mt,i,1≤i≤I,I为识别出来的人脸区域总数;
步骤S4,采用嘴唇识别技术识别出某一时刻人脸区域Mt,i中的嘴唇区域Lt,i,1≤i≤I;
步骤S5,比较嘴唇区域Lt,j,与Lt,j-1,Lt,j-2,…Lt,j-J的位置偏移情况,确定嘴唇区域Lt,j是否处于动态开启或闭合状态,其中J为可以调整的阈值,用于控制比较嘴唇区域的数量,J≤j≤I,如果确定嘴唇区域Lt,j处于运动状态,则将P[t]的值设为1;
步骤S6,将语音文件E分成左右两个声道文件A,B,用左声道文件A的音频信号减去右声道文件B的音频信号,得到文件C,用右声道文件B的音频信号减去左声道文件A的音频信号,得到文件D,将C和D两路信号重新合成F,进一步,从语音文件E中减去语音文件F可以得到人声文件G;
步骤S7,按时序依次提取人声文件G在t时刻的频率Ht,Ht单位为Hz,0≤t≤T,如果Za≤Ht≤Zb,则将S[t]的值设为1,其中Za为人声频率下限阈值,Zb为人声频率上限阈值;
步骤S8,完全复制一份S[t],命名为数组Sr[t],设定用于移位操作的初始值,左移位left=0,右移位right=0,确认校准时间间隔sure=0,并给出左移位上限阈值LEFT,右移位上限阈值RIGHT,校准阈值Z;
步骤S9,对P[t]和S[t]进行异或操作的累加,如果X小于Z,则sure=left,并转入S13,否则转入S10;
步骤S10,对S[t]进行一次左移位操作S[t]<<,left=left+1,如果left≤LEFT,转入S9,否则转入S11;
步骤S11,对P[t]和Sr[t]进行异或操作的累加,如果X小于Z,则sure=-right,并转入S13,否则转入S12;
步骤S12,对S[t]进行一次右移位操作S[t]>>,right=right+1,如果right≤RIGHT,转入S11,否则转入S14;
步骤S13,校准检测成功,将语音文件移位sure个时刻和视频文件重新合成;
步骤S14,校准结束。
本发明具有有益效果。本发明提供了一种人像语音视频同步检测与校准的新方法,通过识别视频文件中嘴唇闭合状态,得到了视频中人物的发音信息,通过识别语音文件,得到了人声信息,将两者进行时间差检测,可以校准语音和视频不同步情况,本发明只采用低时间复杂度的左移位,右移位和异或计算,提高了计算性能,而且不需要语音和视频文件中加入时间戳信息,减少了信息存储量。
本发明装置的工作过程如下:采用人脸识别模块识别出图片信息中的人脸区域;然后,采用动态嘴唇识别模块识别出人脸区域中的嘴唇区域,并且判断嘴唇闭合状态,进一步判断嘴唇是否处于发音状态;接着,采用人声提取模块提取语音信息中的人声部分;随后,采用时间差计算模块计算动态嘴唇绝对时刻和人声时刻的距离;最后,采用同步调节模块调节动态嘴唇绝对时刻和人声时刻,生成调整好的人像语音视频。
附图说明
图1是本发明装置的总体结构示意图。
图中:1-人脸识别模块,2-动态嘴唇识别模块,3-人声提取模块,4-时间差计算模块,5-同步调节模块。
图2是一种人像语音视频同步校准方法的流程图。
图3是实施例一视频文件第32秒图片帧的二值图。
图4是实施例一视频文件第32秒图片帧的人脸区域图。
图5是实施例一视频文件第32秒图片帧的嘴唇区域图。
图6是实施例一视频文件第31秒图片帧的二值图。
图7是实施例一视频文件第31秒图片帧的人脸区域图。
图8是实施例一视频文件第31秒图片帧的嘴唇区域图。
图9是实施例一语音文件的语音声谱图和人声声谱图。
图10是实施例一动态嘴唇数组和人声数组的数值趋势图。
图11是实施例二视频文件第19秒图片帧的二值图。
图12是实施例二视频文件第19秒图片帧的人脸区域图。
图13是实施例二视频文件第19秒图片帧的嘴唇区域图。
图14是实施例二视频文件第18秒图片帧的识别示意图。
图15是实施例二视频文件第18秒图片帧的人脸区域图。
图16是实施例二视频文件第18秒图片帧的嘴唇区域图。
图17是实施例二语音文件的语音声谱图和人声声谱图。
图18是实施例二校准前动态嘴唇数组和人声数组的数值趋势图。
图19是实施例二校准后动态嘴唇数组和人声数组的数值趋势图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细地说明。
由图1所示的一种人像语音视频同步校准装置的总体结构示意图可知,它包括1-人脸识别模块,2-动态嘴唇识别模块,3-人声提取模块,4-时间差计算模块,5-同步调节模块。
所述的人脸识别模块1与动态嘴唇识别模块2连接;
所述的时间差计算模块4与动态嘴唇识别模块2连接;
所述的时间差计算模块4与人声提取模块3连接;
所述的时间差计算模块4与同步调节模块5连接;
本发明在使用时,各部件的功能描述如下。
所述的人脸识别模块1用于识别图片信息中的人脸区域;
所述的动态嘴唇识别模块2用于识别出人脸区域中的嘴唇区域,并且判断嘴唇闭合状态,进一步判断嘴唇是否处于发音状态;
所述的人声提取模块3用于提取语音信息中的人声部分;
所述的时间差计算模块4用于计算动态嘴唇绝对时刻和人声时刻的距离;
所述的同步调节模块5用于调节动态嘴唇绝对时刻和人声时刻。以下是发明人给出的实施例:
一种人像语音视频同步校准方法的工作流程如图2所示。
实施例1:对同步的语音视频检测过程
步骤S1,读取语音视频头文件信息,获得语音视频的时间总长度72,单位为秒,语音视频的某一时刻为t,1≤t≤72;
步骤S2,设定动态嘴唇数组P[k],1≤k≤72,将数组P中所有元素初始值设为0,设定人声数组S[f],1≤f≤72,将数组S中所有元素初始值设为0;
步骤S3,依次提取视频文件t时刻的图片帧,图3是视频文件第32秒提取出来的图片帧的二值图,图6是视频文件第31秒提取出来的图片帧的二值图,采用人脸识别技术识别出某一 时刻图片帧中的i个人脸区域Mt,i,1≤i≤I,I=1,图4是从图3中提取出来的一个人脸区域M32,1,图7是从图6提取出来的一个人脸区域M31,1
步骤S4,采用嘴唇识别技术识别出某一时刻人脸区域Mt,i中的嘴唇区域Lt,i,1≤i≤I,I=1,图5是从图4中提取出来的一个嘴唇区域L32,1,图8是从图7中提取出来的一个嘴唇区域L31,1
步骤S5,比较嘴唇区域Lt,j,与Lt,j-1,Lt,j-2,…Lt,j-J的位置偏移情况,确定嘴唇区域Lt,j是否处于动态开启或闭合状态,J为可以调整的阈值,实施例中J=1,J≤j≤I,图5中嘴唇区域L32,1和图8中嘴唇区域L31,1进行比较,确定嘴唇处于动态开启状态,则将P[32]的值设为1;
步骤S6,将语音文件E分成左右两个声道文件即左声道文件A和右声道文件B,如图9(a)所示为语音文件E的频谱图,用左声道文件A的音频信号减去右声道文件B的音频信号,得到文件C,用右声道文件B的音频信号减去左声道文件A的音频信号,得到文件D,将文件C和文件D两路信号重新合成语音文件F,进一步,从语音文件E中减去语音文件F可以得到人声文件G,如图9(b)所示为人声文件G的频谱图;
步骤S7,按时序依次提取人声文件G在t时刻的频率Ht,Ht的单位为Hz,0≤t≤72,如果Za≤Ht≤Zb,则将S[t]的值设为1,Za为人声频率下限阈值,实施例中Za=100,Zb为人声频率上限阈值,实施例中Zb=600;
步骤S8,完全复制一份S[t],命名为数组Sr[t],设定用于移位操作的初始值,左移位left=0,右移位right=0,确认校准时间间隔sure=0,并给出左移位上限阈值LEFT=5,右移位上限阈值RIGHT=5,校准阈值Z=8;
步骤S9,对动态嘴唇数组P[t]和语音数组S[t]进行异或操作的累加, 如图10所示为P[t]和S[t]的数值趋势图,计算得到X=5,X小于Z,则sure=0,并转入步骤S13;
步骤S13,校准检测成功,将语音文件移位0个时刻和视频文件重新合成;
步骤S14,校准结束。
实施例2:对不同步的语音视频检测与校准过程
步骤S1,读取语音视频头文件信息,获得语音视频的时间总长度58,单位为秒,语音视频的某一时刻为t,1≤t≤58;
步骤S2,设定动态嘴唇数组P[k],1≤k≤58,将数组P中所有元素初始值设为0,设定人声数组S[f],1≤f≤58,将数组S中所有元素初始值设为0;
步骤S3,依次提取视频文件t时刻的图片帧,图11是从视频文件第19S提取出来的图片帧 的二值图,图14是从视频文件第18秒提取出来的图片帧的二值图,采用人脸识别技术识别出某一时刻图片帧中的i个人脸区域Mt,i,1≤i≤I,I=3,图12是从图11中提取出来的三个人脸区域M19,1,M19,2,M19,3,图15是从图14中提取出来的三个人脸区域M18,1,M18,2,M18,3
步骤S4,采用嘴唇识别技术识别出某一时刻人脸区域Mt,i中的嘴唇区域Lt,i,1≤i≤I,I=3,图13是从图12中提取出来的三个嘴唇区域L19,1,L19,2,L19,3,图16是从图15中提取出来的三个嘴唇区域L18,1,L18,2,L18,3
步骤S5,比较嘴唇区域Lt,j,与Lt,j-1,Lt,j-2,…Lt,j-J的位置偏移情况,确定嘴唇区域Lt,j是否处于动态开启或闭合状态,J为可以调整的阈值,实施例中J=1,J≤j≤I,图13中嘴唇区域L19,1和图16中嘴唇区域L18,1进行比较,确定嘴唇处于静态状态,继续将图13中嘴唇区域L19,2和图16中嘴唇区域L18,2进行比较,确定嘴唇处于动态闭合状态,则将P[19]的值设为1;
步骤S6,将语音文件E分成左右两个声道文件即左声道文件A和右声道文件B,如图17(a)所示为语音文件E的频谱图,用左声道文件A的音频信号减去右声道文件B的音频信号,得到文件C,用右声道文件B的音频信号减去左声道文件A的音频信号,得到文件D,将文件C和文件D两路信号重新合成语音文件F,进一步,从语音文件E中减去语音文件F可以得到人声文件G,如图17(b)所示为人声文件G的频谱图;
步骤S7,按时序依次提取人声文件G在t时刻的频率Ht,单位Hz,0≤t≤58,如果Za≤Ht≤Zb,则将S[t]的值设为1,Za为人声频率下限阈值,实施例中Za=80,Zb为人声频率上限阈值,实施例中Zb=800;
步骤S8,完全复制一份S[t],命名为数组Sr[t],设定用于移位操作的初始值,左移位left=0,右移位right=0,确认校准时间间隔sure=0,并给出左移位上限阈值LEFT=4,右移位上限阈值RIGHT=4,校准阈值Z=6;
步骤S9,对动态嘴唇数组P[t]和语音数组S[t]进行异或操作的累加, 如图18所示为P[t]和S[t]的数值趋势图,计算得到X=9,X大于Z,则sure=0,并转入步骤S10;
步骤S10,对S[t]进行一次左移位操作S[t]<<,left=left+1,计算得到left=1,left≤LEFT,转入步骤S9;
步骤S9,对P[t]和S[t]进行异或操作的累加,计算得到X=6,X大于Z,则sure=1,并转入步骤S10;
步骤S10,对S[t]进行一次左移位操作S[t]<<,left=left+1,计算得到left=2,left≤LEFT,转入步骤S9;
步骤S9,对P[t]和S[t]进行异或操作的累加,如图19所示为P[t]和S[t]的数值趋势图,计算得到X=2,X小于Z,则sure=2,并转入步骤S13;
步骤S13,校准检测成功,将语音文件左移位2个时刻和视频文件重新合成;
步骤S14,校准结束。

Claims (2)

1.一种人像语音视频同步校准装置,其特征在于包括:人脸识别模块、动态嘴唇识别模块、人声提取模块、时间差计算模块和同步调节模块;
所述人脸识别模块与动态嘴唇识别模块连接;
所述时间差计算模块分别与动态嘴唇识别模块、人声提取模块、同步调节模块连接;
所述人脸识别模块用于识别图片信息中的人脸区域;
所述动态嘴唇识别模块用于识别出人脸区域中的嘴唇区域,并且判断嘴唇闭合状态,进一步判断嘴唇是否处于发音状态;
所述人声提取模块用于提取语音信息中的人声部分;
所述时间差计算模块用于计算动态嘴唇绝对时刻和人声时刻的距离;
所述同步调节模块用于调节动态嘴唇绝对时刻和人声时刻。
2.权利要求1所述的一种人像语音视频同步校准装置的人像语音视频同步校准方法,其特征在于包括以下步骤:
步骤S1,读取语音视频头文件信息,获得语音视频的时间总长度T,语音视频的某一时刻为t,1≤t≤T;
步骤S2,设定动态嘴唇数组P[k],1≤k≤T,将数组P中所有元素初始值设为0,设定人声数组S[f],1≤f≤T,将数组S中所有元素初始值设为0;
步骤S3,依次提取视频文件t时刻的图片帧,采用人脸识别技术识别出某一时刻图片帧中的i个人脸区域Mt,i,1≤i≤I,I为识别出来的人脸区域总数;
步骤S4,采用嘴唇识别技术识别出某一时刻人脸区域Mt,i中的嘴唇区域Lt,i,1≤i≤I;
步骤S5,比较嘴唇区域Lt,j,与Lt,j-1,Lt,j-2,…Lt,j-J的位置偏移情况,确定嘴唇区域Lt,j是否处于动态开启或闭合状态,J为可以调整的阈值,用于控制比较嘴唇区域的数量,J≤j≤I;
如果确定嘴唇区域Lt,j处于运动状态,则将P[t]的值设为1,否则不作操作;
步骤S6,将语音文件E分成左右两个声道文件即左声道文件A和右声道文件B,用左声道文件A的音频信号减去右声道文件B的音频信号,得到文件C,用右声道文件B的音频信号减去左声道文件A的音频信号,得到文件D,将文件C和文件D两路信号重新合成语音文件F,进一步,从语音文件E中减去语音文件F可以得到人声文件G;
步骤S7,按时序依次提取人声文件G在t时刻的频率Ht,Ht单位为Hz,0≤t≤T;如果Za≤Ht≤Zb,则将S[t]的值设为1,Za为人声频率下限阈值,Zb为人声频率上限阈值;
步骤S8,完全复制一份S[t],命名为数组Sr[t],设定用于移位操作的初始值,左移位left=0,右移位right=0,确认校准时间间隔sure=0,并给出左移位上限阈值LEFT,右移位上限阈值RIGHT,校准阈值Z;
步骤S9,对动态嘴唇数组P[t]和人声数组S[t]进行异或操作的累加, 如果X小于Z,则sure=left,并转入步骤S13,否则转入步骤S10;
步骤S10,对S[t]进行一次左移位操作S[t]<<,left=left+1,如果left≤LEFT,转入步骤S9,否则转入步骤S11;
步骤S11,对P[t]和Sr[t]进行异或操作的累加,如果X小于Z,则sure=-right,并转入步骤S13,否则转入步骤S12;
步骤S12,对S[t]进行一次右移位操作S[t]>>,right=right+1,如果right≤RIGHT,转入步骤S11,否则转入步骤S14;
步骤S13,校准检测成功,将语音文件移位sure个时刻和视频文件重新合成;
步骤S14,校准结束。
CN201610273130.1A 2016-04-28 2016-04-28 一种人像语音视频同步校准装置及方法 Active CN106067989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610273130.1A CN106067989B (zh) 2016-04-28 2016-04-28 一种人像语音视频同步校准装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610273130.1A CN106067989B (zh) 2016-04-28 2016-04-28 一种人像语音视频同步校准装置及方法

Publications (2)

Publication Number Publication Date
CN106067989A true CN106067989A (zh) 2016-11-02
CN106067989B CN106067989B (zh) 2022-05-17

Family

ID=57420679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610273130.1A Active CN106067989B (zh) 2016-04-28 2016-04-28 一种人像语音视频同步校准装置及方法

Country Status (1)

Country Link
CN (1) CN106067989B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108924617A (zh) * 2018-07-11 2018-11-30 北京大米科技有限公司 同步视频数据和音频数据的方法、存储介质和电子设备
CN109951652A (zh) * 2019-03-20 2019-06-28 合肥科塑信息科技有限公司 一种人像语音视频同步校准装置及***
CN111225237A (zh) * 2020-04-23 2020-06-02 腾讯科技(深圳)有限公司 一种视频的音画匹配方法、相关装置以及存储介质
CN111953922A (zh) * 2019-05-16 2020-11-17 南宁富桂精密工业有限公司 视频会议的人脸辨识方法、服务器及计算机可读存储介质
CN111954064A (zh) * 2020-08-31 2020-11-17 三星电子(中国)研发中心 音视频同步方法和装置
CN112653916A (zh) * 2019-10-10 2021-04-13 腾讯科技(深圳)有限公司 一种音视频同步优化的方法及设备
CN112911276A (zh) * 2021-01-21 2021-06-04 广东九联科技股份有限公司 一种用于检测机顶盒音视频同步的方法
CN113242361A (zh) * 2021-07-13 2021-08-10 腾讯科技(深圳)有限公司 一种视频处理方法、装置以及计算机可读存储介质
CN114422825A (zh) * 2022-01-26 2022-04-29 科大讯飞股份有限公司 音视频同步方法、装置、介质、设备及程序产品
DE102021128261A1 (de) 2021-10-29 2023-05-04 Deutsche Telekom Ag Verbessertes Nutzererlebnis bei der Medienwiedergabe aus dem Internet

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06162168A (ja) * 1992-11-20 1994-06-10 Fujitsu Ltd 合成画像表示システム
EP0983575A1 (en) * 1997-05-27 2000-03-08 Telia Ab Improvements in, or relating to, visual speech synthesis
CN1832568A (zh) * 2005-03-11 2006-09-13 乐金电子(中国)研究开发中心有限公司 便携终端的影像和语音信号的同步装置及其方法
US20070136071A1 (en) * 2005-12-08 2007-06-14 Lee Soo J Apparatus and method for speech segment detection and system for speech recognition
CN101171838A (zh) * 2005-04-28 2008-04-30 松下电器产业株式会社 口形同步修正装置及口形同步修正方法
CN101199208A (zh) * 2005-04-13 2008-06-11 皮克索尔仪器公司 使用嘴唇和牙齿特征来测量音频视频同步的方法、***和程序产品
WO2009024442A2 (de) * 2007-08-22 2009-02-26 Siemens Aktiengesellschaft Verfahren zum synchronisieren von medialen datenströmen

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06162168A (ja) * 1992-11-20 1994-06-10 Fujitsu Ltd 合成画像表示システム
EP0983575A1 (en) * 1997-05-27 2000-03-08 Telia Ab Improvements in, or relating to, visual speech synthesis
CN1832568A (zh) * 2005-03-11 2006-09-13 乐金电子(中国)研究开发中心有限公司 便携终端的影像和语音信号的同步装置及其方法
CN101199208A (zh) * 2005-04-13 2008-06-11 皮克索尔仪器公司 使用嘴唇和牙齿特征来测量音频视频同步的方法、***和程序产品
CN101171838A (zh) * 2005-04-28 2008-04-30 松下电器产业株式会社 口形同步修正装置及口形同步修正方法
US20070136071A1 (en) * 2005-12-08 2007-06-14 Lee Soo J Apparatus and method for speech segment detection and system for speech recognition
WO2009024442A2 (de) * 2007-08-22 2009-02-26 Siemens Aktiengesellschaft Verfahren zum synchronisieren von medialen datenströmen

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
V. PAHOR 等: "A fuzzy synchronization algorithm for bimodal speech signals", 《IEEE》 *
吕国云等: "基于BTSM-LDA的口形动态特征及多流异步音视频语音识别", 《数据采集与处理》 *
张亚妮: "基于MPEG-4的人脸动画技术研究", 《计算机应用与软件》 *
赵小蕾,毛启容,詹永照: "融合功能性副语言的语音情感识别新方法", 《计算机科学与探索》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108924617A (zh) * 2018-07-11 2018-11-30 北京大米科技有限公司 同步视频数据和音频数据的方法、存储介质和电子设备
CN109951652A (zh) * 2019-03-20 2019-06-28 合肥科塑信息科技有限公司 一种人像语音视频同步校准装置及***
CN111953922B (zh) * 2019-05-16 2022-05-27 南宁富联富桂精密工业有限公司 视频会议的人脸辨识方法、服务器及计算机可读存储介质
CN111953922A (zh) * 2019-05-16 2020-11-17 南宁富桂精密工业有限公司 视频会议的人脸辨识方法、服务器及计算机可读存储介质
CN112653916A (zh) * 2019-10-10 2021-04-13 腾讯科技(深圳)有限公司 一种音视频同步优化的方法及设备
CN112653916B (zh) * 2019-10-10 2023-08-29 腾讯科技(深圳)有限公司 一种音视频同步优化的方法及设备
CN111225237A (zh) * 2020-04-23 2020-06-02 腾讯科技(深圳)有限公司 一种视频的音画匹配方法、相关装置以及存储介质
CN111225237B (zh) * 2020-04-23 2020-08-21 腾讯科技(深圳)有限公司 一种视频的音画匹配方法、相关装置以及存储介质
US11972778B2 (en) 2020-04-23 2024-04-30 Tencent Technology (Shenzhen) Company Limited Sound-picture matching method of video, related apparatus, and storage medium
WO2022045516A1 (en) * 2020-08-31 2022-03-03 Samsung Electronics Co., Ltd. Audio and video synchronization method and device
CN111954064B (zh) * 2020-08-31 2022-11-04 三星电子(中国)研发中心 音视频同步方法和装置
CN111954064A (zh) * 2020-08-31 2020-11-17 三星电子(中国)研发中心 音视频同步方法和装置
CN112911276A (zh) * 2021-01-21 2021-06-04 广东九联科技股份有限公司 一种用于检测机顶盒音视频同步的方法
CN113242361A (zh) * 2021-07-13 2021-08-10 腾讯科技(深圳)有限公司 一种视频处理方法、装置以及计算机可读存储介质
CN113242361B (zh) * 2021-07-13 2021-09-24 腾讯科技(深圳)有限公司 一种视频处理方法、装置以及计算机可读存储介质
DE102021128261A1 (de) 2021-10-29 2023-05-04 Deutsche Telekom Ag Verbessertes Nutzererlebnis bei der Medienwiedergabe aus dem Internet
CN114422825A (zh) * 2022-01-26 2022-04-29 科大讯飞股份有限公司 音视频同步方法、装置、介质、设备及程序产品

Also Published As

Publication number Publication date
CN106067989B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN106067989A (zh) 一种人像语音视频同步校准装置及方法
EP1922720B1 (en) System and method for synchronizing sound and manually transcribed text
CN101808202B (zh) 实现影音文件中声音与字幕同步的方法、设备和计算机
EP3226245B1 (en) System and method to insert visual subtitles in videos
US7450821B2 (en) Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period
JP2007213176A (ja) 情報処理装置および方法、並びにプログラム
TW200833116A (en) Extracting features of video and audio signal content to provide a reliable identification of the signals
CN101359473A (zh) 自动进行语音转换的方法和装置
KR950035447A (ko) 음성 분석 자동화를 이용하는 비디오 신호 처리 시스템 및 그 방법
CN113242361B (zh) 一种视频处理方法、装置以及计算机可读存储介质
CN105898556A (zh) 一种外挂字幕的自动同步方法及装置
CN105898500A (zh) 网络视频播放方法及装置
CN112037788B (zh) 一种语音纠正融合方法
GB2422755A (en) Audio signal processing
US20200312302A1 (en) System for improving dysarthria speech intelligibility and method thereof
Li et al. Audiovisual source association for string ensembles through multi-modal vibrato analysis
CN110349063A (zh) 一种学业成长曲线测试方法和***
CN107707936A (zh) 在线答疑时的视频回放方法和装置
CN109885173A (zh) 一种无声交互方法和电子设备
CN108428458A (zh) 一种声乐学习电子辅助发音***
US20110166857A1 (en) Human Voice Distinguishing Method and Device
Li et al. Online audio-visual source association for chamber music performances
Fan et al. Audio-visual isolated digit recognition for whispered speech
CN112398912B (zh) 一种语音信号加速方法、装置、计算机设备及存储介质
CN113593326A (zh) 一种英语发音教学装置和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant