CN105335755A - 一种涉及媒体片段的说话检测方法及*** - Google Patents

一种涉及媒体片段的说话检测方法及*** Download PDF

Info

Publication number
CN105335755A
CN105335755A CN201510719532.5A CN201510719532A CN105335755A CN 105335755 A CN105335755 A CN 105335755A CN 201510719532 A CN201510719532 A CN 201510719532A CN 105335755 A CN105335755 A CN 105335755A
Authority
CN
China
Prior art keywords
follows
speaking
result
markov model
hidden markov
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510719532.5A
Other languages
English (en)
Other versions
CN105335755B (zh
Inventor
胡瑞敏
王瑾
梁超
王晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOOSLINK SUZHOU INFORMATION TECHNOLOGY Co.,Ltd.
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201510719532.5A priority Critical patent/CN105335755B/zh
Publication of CN105335755A publication Critical patent/CN105335755A/zh
Application granted granted Critical
Publication of CN105335755B publication Critical patent/CN105335755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)

Abstract

本发明提供一种涉及媒体片段的说话检测方法及***,包括将输入的媒体信号分为音频信号和视频信号,分别进行处理,对于音频信号根据谐频似然比采用隐马尔可夫模型计算每秒的条件概率,进行聚类,对于视频信号对输入的媒体文件的视频信号,提取每帧图像中人脸区域、提取嘴唇部分、嘴唇区域的图像能量,根据图像能量进行聚类,采用隐马尔可夫模型计算每秒的条件概率,进行聚类,得到两类;将对音频信号和视频信号分别得到的聚类结果进行匹配,得到说话检测的最终结果。本发明的优点是能够通过音频和视频两种信息进行说话检测,提高检测率。

Description

一种涉及媒体片段的说话检测方法及***
技术领域
本发明涉及说话检测技术领域,具体涉一种涉及媒体片段的说话检测方法及***。
背景技术
随着信息技术的发展,人机交互、远程会议、声纹识别等技术成为热点研究对象,说话检测作为其中重要的部分也得到了越来越多的重视。说话检测技术就是区分媒体片段中的人员是否说话的一种技术。传统的说话活动检测方法主要是单纯基于音频信息或者视频信息,鲁棒性差。为了解决这一问题,基于音视频信息的多模态说话检测技术被引入。但现有技术通常通过一个监督学习的训练器,泛化能力不强,导致检测率下降。
发明内容
本发明针对不同媒体文件在不同环境具有不同的特性,提出了一种音视频信息匹配的说话检测方法及***,有别于传统基于有监督的方法,利用说话活动在音频和视频信息遵循相同的时间分布,通过音视频信息的匹配进行说话检测。
为达到上述目的,本发明提供的技术方案为一种涉及媒体片段的说话检测方法,包括以下步骤:
步骤1,将输入的媒体信号S(t)分为音频信号S1(t)和视频信号S2(t),分别进行处理,
对于音频信号S1(t),处理如下,
对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量;
计算各帧谐频似然比logΛ(t),作为音频的特征,t为音频的帧标号;
根据谐频似然比logΛ(t),采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为谐频似然比logΛ(t)归一化后结果,隐状态qt表示说话或者不说话;
对于视频信号S2(t),处理如下:
对输入的媒体文件的视频信号,提取每帧图像中人脸区域;
在提取的人脸区域提取嘴唇部分;
提取每帧图像中嘴唇区域的特征,所述特征为图像能量E[n];
根据图像能量,采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为图像能量E[n]归一化后结果,隐状态qt表示说话或者不说话;
步骤2,将对音频信号和视频信号分别得到的聚类结果,采用测试DNA序列的编辑距离算法进行匹配,得到说话检测的最终结果,匹配时编辑距离计算实现如下,
定义LX,Y(m,n)表示第一个序列X=x1x2…xm的长度为n的子串到第二个序列Y=y1y2…yn的长度为m的子串的编辑距离,设0≤i≤m,0≤j≤n,Del,Ins,Sub分别是删除、***、替换的代价,计算如下,
若min(i,j)=0,LX,Y(m,n)=max(i,j),
否则
L X , Y ( m , n ) = min L X , Y ( i - 1 , j ) + D e l L X , Y ( i , j - 1 ) + I n s L X , Y ( i - 1 , j - 1 ) + { 0 x i = y j s u b o t h e r w i s e
其中,xi表示音频聚类结果,yj表示视频聚类结果。
而且,所述图像能量E[n]计算如下,
E [ n ] = Σ i = 1 M Σ i = 1 N | v y , t ( i , j ) | 2
其中,vy,t(i,j)表示像素点(i,j)在M×N大小的图像中Y方向上的速度。
本发明还相应提供一种涉及媒体片段的说话检测***,包括以下模块:
音视频聚类模块,将输入的媒体信号S(t)分为音频信号S1(t)和视频信号S2(t),分别进行处理,
对于音频信号S1(t),处理如下,
对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量;
计算各帧谐频似然比logΛ(t),作为音频的特征,t为音频的帧标号;
根据谐频似然比logΛ(t),采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为谐频似然比logΛ(t)归一化后结果,隐状态qt表示说话或者不说话;
对于视频信号S2(t),处理如下:
对输入的媒体文件的视频信号,提取每帧图像中人脸区域;
在提取的人脸区域提取嘴唇部分;
提取每帧图像中嘴唇区域的特征,所述特征为图像能量E[n];
根据图像能量,采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为图像能量E[n]归一化后结果,隐状态qt表示说话或者不说话;
匹配模块,用于将对音频信号和视频信号分别得到的聚类结果,采用测试DNA序列的编辑距离算法进行匹配,得到说话检测的最终结果,匹配时编辑距离计算实现如下,
定义LX,Y(m,n)表示第一个序列X=x1x2…xm的长度为n的子串到第二个序列Y=y1y2…yn的长度为m的子串的编辑距离,设0≤i≤m,0≤j≤n,Del,Ins,Sub分别是删除、***、替换的代价,计算如下,
若min(i,j)=0,LX,Y(m,n)=max(i,j),
否则
L X , Y ( m , n ) = min L X , Y ( i - 1 , j ) + D e l L X , Y ( i , j - 1 ) + I n s L X , Y ( i - 1 , j - 1 ) + { 0 x i = y j s u b o t h e r w i s e
其中,xi表示音频聚类结果,yj表示视频聚类结果。
而且,所述图像能量E[n]计算如下,
E [ n ] = Σ i = 1 M Σ i = 1 N | v y , t ( i , j ) | 2
其中,vy,t(i,j)表示像素点(i,j)在M×N大小的图像中Y方向上的速度。
本发明通过对音视频信息进行匹配的角度进行说话检测,去除了传统方法复杂的训练过程,同时提高了正确检测率。
附图说明
图1是本发明实施例的方法流程图。
图2是本发明实施例的结构框图。
具体实施方式
以下结合实施例和附图详细说明本发明技术方案。
如图1,本发明实施例所提供方法的处理工作包括具体以下的步骤:
步骤1,将输入的媒体信号S(t)分为音频信号S1(t)和视频信号S2(t),分别进行处理,
对于音频信号S1(t),处理如下:
(1)对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量,设实施例中得到多个离散傅里叶窗DFT(DiscreteFouriertransform)中共有的一个谐波频率。
(2)计算各帧含有谐频成分的似然比logΛ(t),作为音频特征,t为音频的帧标号。
具体实施时,(1)和(2)可采用现有技术实现,例如参考文献LNTan,BJBorgstrom,AAlwan.Voiceactivitydetectionusingharmonicfrequencycomponentsinlikelihoodratiotest[C].AcousticsSpeechandSignalProcessing(ICASSP),2010:4466–4469.
(3)根据谐频似然比进行聚类,得到两类。实施例中根据一秒内所有帧的谐频似然比logΛ(t),用HMM(HiddenMarkovModels)计算每秒的条件概率P(Ot|λ),其中的显状态Ot为步骤(2)得到的谐频似然比logΛ(t)(将其归一化[1,10],即Ot∈{1,2,…,10}),隐状态qt表示说话或者不说话,隐状态个数为Nq,即Nq=2。用Baum-Welch进行训练学习,得到模型参数λ=(A,B,π),其中A表示隐状态的转移矩阵,B表示某个时刻因隐藏状态而可观察的状态的概率,即混淆矩阵;π表示初始状态概率。设计一个窗口长度为T(T为视频的每秒帧数)的滑窗,利用前向后向算法计算其对应的P(Ot|λ)作为聚类的特征。具体实施时,可参考文献Rabiner,L.R.,etal.:Atutorialonhiddenmarkovmodelsandselectedapplicationsinspeechrecognition.Proc.IEEE77(2),257–286(1989).AT&TBellLab,MurrayHill。
实施例聚类用的是K-means算法,得到两类,分别用0和1表示。
对于视频信号S2(t),处理如下:
(1)提取输入的媒体文件的视频信号的每帧图像中人脸区域,实施例利用Haar特征的级联器提取视频每帧图像中的人的脸部区域。具体实施时,Haar特征的级联器为现有技术,例如参考文献P.Viola,M.Jones.Robustreal-timefacedetection[J].InternationalJournalofComputerVision(IJCV),2004:137-154.
(2)在提取的人脸区域提取嘴唇部分。具体实施时,提取实现可采用现有技术,例如参考文献JieZhang,ShiguangShan,MeinaKan,etal.Coarse-to-FineAuto-EncoderNetworks(CFAN)forReal-TimeFaceAlignment[C].EuropeanConferenceonComputerVision(ECCV),2014:1-16.
实施例在脸部区域求得其68个脸部特征点(68个特征点标记出眼睛、鼻子、嘴巴和脸部轮廓),通过标记嘴唇部分的特征点坐标提取出一个包含嘴唇区域的矩形框。
(3)提取每帧图像中嘴唇区域的特征—图像能量。实施例计算Y方向上连续两帧嘴唇区域的光流vy,t(i,j),并将其平方得到图像能量E[n],即
式中vy,t(i,j)表示像素点(i,j)在M×N大小的图像中Y方向(垂直方向)上的速度,具体实施时,计算实现可参考文献TiawongsombatP,JeongMH,YunJS,etal.Robustvisualspeakingnessdetectionusingbi-levelHMM[J].PatternRecognition,2012,45(2):783-793.
(4)根据图像能量进行聚类,得到两类。根据每秒所有帧的图像能量,可以计算每秒的条件概率,作为聚类的特征。实施例中,根据每秒所有帧的图像能量E[n],用HMM计算每秒的条件概率P(Ot|λ),其中的显状态Ot为步骤(3)得到的图像能量E[n](将其归一化[1,10],即Ot∈{1,2,…,10}),隐状态qt就是说话或者不说话,Nq=2。用Baum-Welch进行训练学习,得到模型参数λ=(A,B,π),其中A表示隐状态的转移矩阵;B表示某个时刻因隐藏状态而可观察的状态的概率,即混淆矩阵;π表示初始状态概率。设计一个窗口长度为T的滑窗(T为音频的每秒帧数),利用前向后向算法计算其对应的P(Ot|λ)作为聚类的特征。用K-means聚类得到两类,分别用0和1表示。
步骤2,根据步骤1对音频信号和视频信号分别得到的聚类结果,将得到的两个聚类结果进行匹配,得到说话检测的最终结果。实施例中,因为音频中说话活动在时间轴上发生的概率与视频中的说话活动的概率满足同样的分布,利用生物学中测试DNA序列方法—编辑距离算法计算音视频信息的距离进行说话活动匹配。定义LX,Y(m,n)表示第一个序列X=x1x2…xm的长度为n的子串到第二个序列Y=y1y2…yn的长度为m的子串的编辑距离,这里其中,xi表示音频聚类结果,yj表示视频聚类结果。因为音频聚类结果和视频聚类结果都为两类,都可以表示为0和1组成的子串。
得到最后匹配的结果的说话检测。假设0≤i≤m,0≤j≤n,Del,Ins,Sub是删除,***,替换的代价。得到的最后匹配结果就是说话检测结果。计算方法:若min(i,j)=0,LX,Y(m,n)=max(i,j),否则
L X , Y ( m , n ) = min L X , Y ( i - 1 , j ) + D e l L X , Y ( i , j - 1 ) + I n s L X , Y ( i - 1 , j - 1 ) + { 0 x i = y j s u b o t h e r w i s e
其中,xi表示音频聚类结果,yj表示视频聚类结果。
根据计算所得编辑距离,即可获知音频信号的聚类结果和视频信号的聚类结果进行匹配的结果,得到是否说话的检测结果。一般来说,编辑距离越小,两个串的相似度越大。利用生物学中测试DNA序列方法,可以支持视频长度和音频长度存在少量误差的情况,实现最优比对,即将匹配的数量最大化,将空格和不匹配的数量最小化,一般两个序列长度相同则不考虑空格情况。对于两个子串序列中对应匹配的元素,认定相应媒体片段中的人员是在说话,对于两个子串序列中不匹配的元素,认定检测结果为相应媒体片段中的人员不是在说话。利用是否说话的检测结果,可以进一步改善通信效率,应用于人机交互、远程会议、声纹识别等方面,例如,当检测到并未说话时,可以降低媒体信号的质量,例如减小视频画面的清晰度。
具体实施时,可参考文献VladimirLevenshtein,Binarycodescapableofcorrectingdeletions,insertionsandreversals,”inSovietphysicsdoklady,1966,vol.10,p.707.
本发明技术方案可采用计算机软件方式支持自动运行流程,也可采用模块化方式提供相应***。实施例提供一种涉及媒体片段的说话检测***,包括以下模块:
音视频聚类模块,将输入的媒体信号S(t)分为音频信号S1(t)和视频信号S2(t),分别进行处理,
对于音频信号S1(t),处理如下,
对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量;
计算各帧谐频似然比logΛ(t),作为音频的特征,t为音频的帧标号;
根据谐频似然比logΛ(t),采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为谐频似然比logΛ(t)归一化后结果,隐状态qt表示说话或者不说话;
对于视频信号S2(t),处理如下:
对输入的媒体文件的视频信号,提取每帧图像中人脸区域;
在提取的人脸区域提取嘴唇部分;
提取每帧图像中嘴唇区域的特征,所述特征为图像能量E[n];
根据图像能量进行聚类,采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为图像能量E[n]归一化后结果,隐状态qt表示说话或者不说话;
匹配模块,用于将对音频信号和视频信号分别得到的聚类结果,采用测试DNA序列的编辑距离算法进行匹配,得到说话检测的最终结果,匹配时编辑距离计算实现如下,
定义LX,Y(m,n)表示第一个序列X=x1x2…xm的长度为n的子串到第二个序列Y=y1y2…yn的长度为m的子串的编辑距离,设0≤i≤m,0≤j≤n,Del,Ins,Sub分别是删除、***、替换的代价,计算如下,
若min(i,j)=0,LX,Y(m,n)=max(i,j),
否则
L X , Y ( m , n ) = min L X , Y ( i - 1 , j ) + D e l L X , Y ( i , j - 1 ) + I n s L X , Y ( i - 1 , j - 1 ) + { 0 x i = y j s u b o t h e r w i s e
其中,xi表示音频聚类结果,yj表示视频聚类结果
参见图2,本领域技术人员可对***进行更细致的设计,例如一种音视频信息匹配的说话检测***,音视频聚类模块包括音频处理,视频处理两个部分:音频处理部分进一步由音频预处理模块、音频特征提取模块和第一聚类模块组成;视频处理部分进一步由人脸检测模块,嘴唇提取模块、视频特征提取模块和第二聚类模块组成。
所述音频预处理模块记为模块1,用于对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量,所得结果输入音频特征提取模块。
所述音频特征提取模块记为模块2,用于计算各帧谐频似然比logΛ(t),作为音频的特征,并输入第一聚类模块。
所述第一聚类模块记为模块3,用于根据谐频似然比logΛ(t),采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类,所得结果输入匹配模块。
所述人脸检测模块记为模块4,用于对输入的媒体文件的视频信号,提取每帧图像中人脸区域并将其输入嘴唇提取模块。
所述嘴唇提取模块记为模块5,用于在提取的人脸区域提取嘴唇部分,所得结果输入视频特征提取模块。
所述视频特征提取模块记为模块6,用于提取每帧图像中嘴唇区域的特征,所得结果输入第二聚类模块。
所述第二聚类模块记为模块7,用于根据图像能量进行聚类,采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类,所得结果输入匹配模块。
所述匹配模块记为模块8,用于将第一聚类模块和第二聚类模块得到的两个聚类结果进行匹配,得到说话检测的最终结果。
各模块具体实现与各步骤相应,本发明不予赘述。
本文中所描述的具体实施例仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例作各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或超越所附权利要求书所定义的范围。

Claims (4)

1.一种涉及媒体片段的说话检测方法,其特征在于,包括以下步骤:
步骤1,将输入的媒体信号S(t)分为音频信号S1(t)和视频信号S2(t),分别进行处理,对于音频信号S1(t),处理如下,
对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量;
计算各帧谐频似然比logΛ(t),作为音频的特征,t为音频的帧标号;
根据谐频似然比logΛ(t),采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为谐频似然比logΛ(t)归一化后结果,隐状态qt表示说话或者不说话;
对于视频信号S2(t),处理如下:
对输入的媒体文件的视频信号,提取每帧图像中人脸区域;
在提取的人脸区域提取嘴唇部分;
提取每帧图像中嘴唇区域的特征,所述特征为图像能量E[n];
根据图像能量,采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为图像能量E[n]归一化后结果,隐状态qt表示说话或者不说话;
步骤2,将对音频信号和视频信号分别得到的聚类结果,采用测试DNA序列的编辑距离算法进行匹配,得到说话检测的最终结果,匹配时编辑距离计算实现如下,
定义LX,Y(m,n)表示第一个序列X=x1x2…xm的长度为n的子串到第二个序列Y=y1y2…yn的长度为m的子串的编辑距离,设0≤i≤m,0≤j≤n,Del,Ins,Sub分别是删除、***、替换的代价,计算如下,
若min(i,j)=0,LX,Y(m,n)=max(i,j),
否则
L X , Y ( m , n ) = min L X , Y ( i - 1 , j ) + D e l L X , Y ( i , j - 1 ) + I n s L X , Y ( i - 1 , j - 1 ) + 0 x i = y j s u b o t h e r w i s e
其中,xi表示音频聚类结果,yj表示视频聚类结果。
2.根据权利要求1所述涉及媒体片段的说话检测方法,其特征在于:步骤b3中,所述图像能量E[n]计算如下,
E [ n ] = Σ i = 1 M Σ i = 1 N | v y , t ( i , j ) | 2
其中,vy,t(i,j)表示像素点(i,j)在M×N大小的图像中Y方向上的速度。
3.一种涉及媒体片段的说话检测***,其特征在于,包括以下模块:
音视频聚类模块,将输入的媒体信号S(t)分为音频信号S1(t)和视频信号S2(t),分别进行处理,
对于音频信号S1(t),处理如下,
对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量;
计算各帧谐频似然比logΛ(t),作为音频的特征,t为音频的帧标号;
根据谐频似然比logΛ(t),采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为谐频似然比logΛ(t)归一化后结果,隐状态qt表示说话或者不说话;
对于视频信号S2(t),处理如下:
对输入的媒体文件的视频信号,提取每帧图像中人脸区域;
在提取的人脸区域提取嘴唇部分;
提取每帧图像中嘴唇区域的特征,所述特征为图像能量E[n];
根据图像能量,采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为图像能量E[n]归一化后结果,隐状态qt表示说话或者不说话;
匹配模块,用于将对音频信号和视频信号分别得到的聚类结果,采用测试DNA序列的编辑距离算法进行匹配,得到说话检测的最终结果,匹配时编辑距离计算实现如下,
定义LX,Y(m,n)表示第一个序列X=x1x2…xm的长度为n的子串到第二个序列Y=y1y2…yn的长度为m的子串的编辑距离,设0≤i≤m,0≤j≤n,Del,Ins,Sub分别是删除、***、替换的代价,计算如下,
若min(i,j)=0,LX,Y(m,n)=max(i,j),
否则
L X , Y ( m , n ) = min L X , Y ( i - 1 , j ) + D e l L X , Y ( i , j - 1 ) + I n s L X , Y ( i - 1 , j - 1 ) + 0 x i = y j s u b o t h e r w i s e
其中,xi表示音频聚类结果,yj表示视频聚类结果。
4.根据权利要求3所述涉及媒体片段的说话检测***,其特征在于:所述图像能量E[n]计算如下,
E [ n ] = Σ i = 1 M Σ i = 1 N | v y , t ( i , j ) | 2
其中,vy,t(i,j)表示像素点(i,j)在M×N大小的图像中Y方向上的速度。
CN201510719532.5A 2015-10-29 2015-10-29 一种涉及媒体片段的说话检测方法及*** Active CN105335755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510719532.5A CN105335755B (zh) 2015-10-29 2015-10-29 一种涉及媒体片段的说话检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510719532.5A CN105335755B (zh) 2015-10-29 2015-10-29 一种涉及媒体片段的说话检测方法及***

Publications (2)

Publication Number Publication Date
CN105335755A true CN105335755A (zh) 2016-02-17
CN105335755B CN105335755B (zh) 2018-08-21

Family

ID=55286270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510719532.5A Active CN105335755B (zh) 2015-10-29 2015-10-29 一种涉及媒体片段的说话检测方法及***

Country Status (1)

Country Link
CN (1) CN105335755B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831462A (zh) * 2018-06-26 2018-11-16 北京奇虎科技有限公司 车载语音识别方法及装置
CN110309799A (zh) * 2019-07-05 2019-10-08 四川长虹电器股份有限公司 基于摄像头的说话判断方法
CN110706709A (zh) * 2019-08-30 2020-01-17 广东工业大学 一种结合视频信号的多通道卷积混叠语音信道估计算法
WO2020073403A1 (zh) * 2018-10-08 2020-04-16 清华大学 静默语音输入辨识方法、计算装置和计算机可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7684982B2 (en) * 2003-01-24 2010-03-23 Sony Ericsson Communications Ab Noise reduction and audio-visual speech activity detection
CN103198833A (zh) * 2013-03-08 2013-07-10 北京理工大学 一种高精度说话人确认方法
CN103856689A (zh) * 2013-10-31 2014-06-11 北京中科模识科技有限公司 面向新闻视频的人物对话字幕提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7684982B2 (en) * 2003-01-24 2010-03-23 Sony Ericsson Communications Ab Noise reduction and audio-visual speech activity detection
CN103198833A (zh) * 2013-03-08 2013-07-10 北京理工大学 一种高精度说话人确认方法
CN103856689A (zh) * 2013-10-31 2014-06-11 北京中科模识科技有限公司 面向新闻视频的人物对话字幕提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KINNUNEN T 等: "self-adaptive voice activity detector for speaker verification with noisy telephone and microphone data", 《PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS》 *
王瑾 等: "基于视觉显著度的说话检测", 《武汉大学学报(理学版)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831462A (zh) * 2018-06-26 2018-11-16 北京奇虎科技有限公司 车载语音识别方法及装置
WO2020073403A1 (zh) * 2018-10-08 2020-04-16 清华大学 静默语音输入辨识方法、计算装置和计算机可读介质
CN110309799A (zh) * 2019-07-05 2019-10-08 四川长虹电器股份有限公司 基于摄像头的说话判断方法
CN110309799B (zh) * 2019-07-05 2022-02-08 四川长虹电器股份有限公司 基于摄像头的说话判断方法
CN110706709A (zh) * 2019-08-30 2020-01-17 广东工业大学 一种结合视频信号的多通道卷积混叠语音信道估计算法
CN110706709B (zh) * 2019-08-30 2021-11-19 广东工业大学 一种结合视频信号的多通道卷积混叠语音信道估计方法

Also Published As

Publication number Publication date
CN105335755B (zh) 2018-08-21

Similar Documents

Publication Publication Date Title
CN108446601B (zh) 一种基于动静特征融合的人脸识别方法
Potamianos et al. Recent advances in the automatic recognition of audiovisual speech
Tariq et al. Recognizing emotions from an ensemble of features
WO2020143263A1 (zh) 一种基于语音样本特征空间轨迹的说话人识别方法
CN105335755A (zh) 一种涉及媒体片段的说话检测方法及***
CN102004549A (zh) 一种适用于中文的自动唇语识别***
CN108345866B (zh) 一种基于深度特征学习的行人再识别方法
Yang et al. Simultaneous spotting of signs and fingerspellings based on hierarchical conditional random fields and boostmap embeddings
Zhang et al. BoMW: Bag of manifold words for one-shot learning gesture recognition from kinect
CN103093199A (zh) 基于在线识别的特定人脸跟踪方法
CN113435421B (zh) 一种基于跨模态注意力增强的唇语识别方法及***
Dalka et al. Visual lip contour detection for the purpose of speech recognition
Theodorakis et al. Model-level data-driven sub-units for signs in videos of continuous sign language
CN115497124A (zh) 身份识别方法和装置及存储介质
CN103488977A (zh) 基于svm的医学影像管理***
Goh et al. Dynamic fingerspelling recognition using geometric and motion features
Liu et al. Lip event detection using oriented histograms of regional optical flow and low rank affinity pursuit
Yu et al. Vision-based continuous sign language recognition using product HMM
Radha et al. A person identification system combining recognition of face and lip-read passwords
Nopsuwanchai et al. Maximization of mutual information for offline Thai handwriting recognition
Yang et al. Sign language recognition system based on weighted hidden Markov model
Al-Hames et al. A multi-modal mixed-state dynamic bayesian network for robust meeting event recognition from disturbed data
Polat et al. Unsupervised term discovery for continuous sign language
Theodorakis et al. Recognitionwith raw canonical phonetic movement and handshape subunits on videos of continuous sign language
Sahu et al. Result based analysis of various lip tracking systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210707

Address after: 215000 unit 01, 5 / F, building a, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee after: BOOSLINK SUZHOU INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 430072 Hubei Province, Wuhan city Wuchang District of Wuhan University Luojiashan

Patentee before: WUHAN University

TR01 Transfer of patent right