CN105335755B - 一种涉及媒体片段的说话检测方法及*** - Google Patents
一种涉及媒体片段的说话检测方法及*** Download PDFInfo
- Publication number
- CN105335755B CN105335755B CN201510719532.5A CN201510719532A CN105335755B CN 105335755 B CN105335755 B CN 105335755B CN 201510719532 A CN201510719532 A CN 201510719532A CN 105335755 B CN105335755 B CN 105335755B
- Authority
- CN
- China
- Prior art keywords
- audio
- state
- result
- follows
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 30
- 239000012634 fragment Substances 0.000 title claims abstract description 12
- 230000005236 sound signal Effects 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 239000000284 extract Substances 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 abstract description 3
- 238000012795 verification Methods 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 238000003657 Likelihood-ratio test Methods 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/758—Involving statistics of pixels or of feature values, e.g. histogram matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Acoustics & Sound (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
Abstract
本发明提供一种涉及媒体片段的说话检测方法及***,包括将输入的媒体信号分为音频信号和视频信号,分别进行处理,对于音频信号根据谐频似然比采用隐马尔可夫模型计算每秒的条件概率,进行聚类,对于视频信号对输入的媒体文件的视频信号,提取每帧图像中人脸区域、提取嘴唇部分、嘴唇区域的图像能量,根据图像能量进行聚类,采用隐马尔可夫模型计算每秒的条件概率,进行聚类,得到两类;将对音频信号和视频信号分别得到的聚类结果进行匹配,得到说话检测的最终结果。本发明的优点是能够通过音频和视频两种信息进行说话检测,提高检测率。
Description
技术领域
本发明涉及说话检测技术领域,具体涉一种涉及媒体片段的说话检测方法及***。
背景技术
随着信息技术的发展,人机交互、远程会议、声纹识别等技术成为热点研究对象,说话检测作为其中重要的部分也得到了越来越多的重视。说话检测技术就是区分媒体片段中的人员是否说话的一种技术。传统的说话活动检测方法主要是单纯基于音频信息或者视频信息,鲁棒性差。为了解决这一问题,基于音视频信息的多模态说话检测技术被引入。但现有技术通常通过一个监督学习的训练器,泛化能力不强,导致检测率下降。
发明内容
本发明针对不同媒体文件在不同环境具有不同的特性,提出了一种音视频信息匹配的说话检测方法及***,有别于传统基于有监督的方法,利用说话活动在音频和视频信息遵循相同的时间分布,通过音视频信息的匹配进行说话检测。
为达到上述目的,本发明提供的技术方案为一种涉及媒体片段的说话检测方法,包括以下步骤:
步骤1,将输入的媒体信号S(t)分为音频信号S1(t)和视频信号S2(t),分别进行处理,
对于音频信号S1(t),处理如下,
对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量;
计算各帧谐频似然比logΛ(t),作为音频的特征,t为音频的帧标号;
根据谐频似然比logΛ(t),采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为谐频似然比logΛ(t)归一化后结果,隐状态qt表示说话或者不说话;
对于视频信号S2(t),处理如下:
对输入的媒体文件的视频信号,提取每帧图像中人脸区域;
在提取的人脸区域提取嘴唇部分;
提取每帧图像中嘴唇区域的特征,所述特征为图像能量E[n];
根据图像能量,采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为图像能量E[n]归一化后结果,隐状态qt表示说话或者不说话;
步骤2,将对音频信号和视频信号分别得到的聚类结果,采用测试DNA序列的编辑距离算法进行匹配,得到说话检测的最终结果,匹配时编辑距离计算实现如下,
定义LX,Y(m,n)表示第一个序列X=x1x2…xm的长度为n的子串到第二个序列Y=y1y2…yn的长度为m的子串的编辑距离,设0≤i≤m,0≤j≤n,Del,Ins,Sub分别是删除、***、替换的代价,计算如下,
若min(i,j)=0,LX,Y(m,n)=max(i,j),
否则
其中,xi表示音频聚类结果,yj表示视频聚类结果。
而且,所述图像能量E[n]计算如下,
其中,vy,t(i,j)表示像素点(i,j)在M×N大小的图像中Y方向上的速度。
本发明还相应提供一种涉及媒体片段的说话检测***,包括以下模块:
音视频聚类模块,将输入的媒体信号S(t)分为音频信号S1(t)和视频信号S2(t),分别进行处理,
对于音频信号S1(t),处理如下,
对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量;
计算各帧谐频似然比logΛ(t),作为音频的特征,t为音频的帧标号;
根据谐频似然比logΛ(t),采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为谐频似然比logΛ(t)归一化后结果,隐状态qt表示说话或者不说话;
对于视频信号S2(t),处理如下:
对输入的媒体文件的视频信号,提取每帧图像中人脸区域;
在提取的人脸区域提取嘴唇部分;
提取每帧图像中嘴唇区域的特征,所述特征为图像能量E[n];
根据图像能量,采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为图像能量E[n]归一化后结果,隐状态qt表示说话或者不说话;
匹配模块,用于将对音频信号和视频信号分别得到的聚类结果,采用测试DNA序列的编辑距离算法进行匹配,得到说话检测的最终结果,匹配时编辑距离计算实现如下,
定义LX,Y(m,n)表示第一个序列X=x1x2…xm的长度为n的子串到第二个序列Y=y1y2…yn的长度为m的子串的编辑距离,设0≤i≤m,0≤j≤n,Del,Ins,Sub分别是删除、***、替换的代价,计算如下,
若min(i,j)=0,LX,Y(m,n)=max(i,j),
否则
其中,xi表示音频聚类结果,yj表示视频聚类结果。
而且,所述图像能量E[n]计算如下,
其中,vy,t(i,j)表示像素点(i,j)在M×N大小的图像中Y方向上的速度。
本发明通过对音视频信息进行匹配的角度进行说话检测,去除了传统方法复杂的训练过程,同时提高了正确检测率。
附图说明
图1是本发明实施例的方法流程图。
图2是本发明实施例的结构框图。
具体实施方式
以下结合实施例和附图详细说明本发明技术方案。
如图1,本发明实施例所提供方法的处理工作包括具体以下的步骤:
步骤1,将输入的媒体信号S(t)分为音频信号S1(t)和视频信号S2(t),分别进行处理,
对于音频信号S1(t),处理如下:
(1)对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量,设实施例中得到多个离散傅里叶窗DFT(Discrete Fourier transform)中共有的一个谐波频率。
(2)计算各帧含有谐频成分的似然比logΛ(t),作为音频特征,t为音频的帧标号。
具体实施时,(1)和(2)可采用现有技术实现,例如参考文献LN Tan,BJBorgstrom,A Alwan.Voice activity detection using harmonic frequencycomponents in likelihood ratio test[C].Acoustics Speech and Signal Processing(ICASSP),2010:4466–4469.
(3)根据谐频似然比进行聚类,得到两类。实施例中根据一秒内所有帧的谐频似然比logΛ(t),用HMM(Hidden Markov Models)计算每秒的条件概率P(Ot|λ),其中的显状态Ot为步骤(2)得到的谐频似然比logΛ(t)(将其归一化[1,10],即Ot∈{1,2,…,10}),隐状态qt表示说话或者不说话,隐状态个数为Nq,即Nq=2。用Baum-Welch进行训练学习,得到模型参数λ=(A,B,π),其中A表示隐状态的转移矩阵,B表示某个时刻因隐藏状态而可观察的状态的概率,即混淆矩阵;π表示初始状态概率。设计一个窗口长度为T(T为视频的每秒帧数)的滑窗,利用前向后向算法计算其对应的P(Ot|λ)作为聚类的特征。具体实施时,可参考文献Rabiner,L.R.,et al.:A tutorial on hidden markov models and selectedapplications in speech recognition.Proc.IEEE 77(2),257–286(1989).AT&T BellLab,MurrayHill。
实施例聚类用的是K-means算法,得到两类,分别用0和1表示。
对于视频信号S2(t),处理如下:
(1)提取输入的媒体文件的视频信号的每帧图像中人脸区域,实施例利用Haar特征的级联器提取视频每帧图像中的人的脸部区域。具体实施时,Haar特征的级联器为现有技术,例如参考文献P.Viola,M.Jones.Robust real-time face detection[J].International Journal of Computer Vision(IJCV),2004:137-154.
(2)在提取的人脸区域提取嘴唇部分。具体实施时,提取实现可采用现有技术,例如参考文献Jie Zhang,Shiguang Shan,MeinaKan,et al.Coarse-to-Fine Auto-EncoderNetworks(CFAN)for Real-Time Face Alignment[C].European Conference on ComputerVision(ECCV),2014:1-16.
实施例在脸部区域求得其68个脸部特征点(68个特征点标记出眼睛、鼻子、嘴巴和脸部轮廓),通过标记嘴唇部分的特征点坐标提取出一个包含嘴唇区域的矩形框。
(3)提取每帧图像中嘴唇区域的特征—图像能量。实施例计算Y方向上连续两帧嘴唇区域的光流vy,t(i,j),并将其平方得到图像能量E[n],即
式中vy,t(i,j)表示像素点(i,j)在M×N大小的图像中Y方向(垂直方向)上的速度,具体实施时,计算实现可参考文献Tiawongsombat P,Jeong M H,Yun J S,et al.Robustvisual speakingness detection using bi-level HMM[J].Pattern Recognition,2012,45(2):783-793.
(4)根据图像能量进行聚类,得到两类。根据每秒所有帧的图像能量,可以计算每秒的条件概率,作为聚类的特征。实施例中,根据每秒所有帧的图像能量E[n],用HMM计算每秒的条件概率P(Ot|λ),其中的显状态Ot为步骤(3)得到的图像能量E[n](将其归一化[1,10],即Ot∈{1,2,…,10}),隐状态qt就是说话或者不说话,Nq=2。用Baum-Welch进行训练学习,得到模型参数λ=(A,B,π),其中A表示隐状态的转移矩阵;B表示某个时刻因隐藏状态而可观察的状态的概率,即混淆矩阵;π表示初始状态概率。设计一个窗口长度为T的滑窗(T为音频的每秒帧数),利用前向后向算法计算其对应的P(Ot|λ)作为聚类的特征。用K-means聚类得到两类,分别用0和1表示。
步骤2,根据步骤1对音频信号和视频信号分别得到的聚类结果,将得到的两个聚类结果进行匹配,得到说话检测的最终结果。实施例中,因为音频中说话活动在时间轴上发生的概率与视频中的说话活动的概率满足同样的分布,利用生物学中测试DNA序列方法—编辑距离算法计算音视频信息的距离进行说话活动匹配。定义LX,Y(m,n)表示第一个序列X=x1x2…xm的长度为n的子串到第二个序列Y=y1y2…yn的长度为m的子串的编辑距离,这里其中,xi表示音频聚类结果,yj表示视频聚类结果。因为音频聚类结果和视频聚类结果都为两类,都可以表示为0和1组成的子串。
得到最后匹配的结果的说话检测。假设0≤i≤m,0≤j≤n,Del,Ins,Sub是删除,***,替换的代价。得到的最后匹配结果就是说话检测结果。计算方法:若min(i,j)=0,LX,Y(m,n)=max(i,j),否则
其中,xi表示音频聚类结果,yj表示视频聚类结果。
根据计算所得编辑距离,即可获知音频信号的聚类结果和视频信号的聚类结果进行匹配的结果,得到是否说话的检测结果。一般来说,编辑距离越小,两个串的相似度越大。利用生物学中测试DNA序列方法,可以支持视频长度和音频长度存在少量误差的情况,实现最优比对,即将匹配的数量最大化,将空格和不匹配的数量最小化,一般两个序列长度相同则不考虑空格情况。对于两个子串序列中对应匹配的元素,认定相应媒体片段中的人员是在说话,对于两个子串序列中不匹配的元素,认定检测结果为相应媒体片段中的人员不是在说话。利用是否说话的检测结果,可以进一步改善通信效率,应用于人机交互、远程会议、声纹识别等方面,例如,当检测到并未说话时,可以降低媒体信号的质量,例如减小视频画面的清晰度。
具体实施时,可参考文献Vladimir Levenshtein,Binary codes capable ofcorrecting deletions,insertions and reversals,”in Sovietphysics doklady,1966,vol.10,p.707.
本发明技术方案可采用计算机软件方式支持自动运行流程,也可采用模块化方式提供相应***。实施例提供一种涉及媒体片段的说话检测***,包括以下模块:
音视频聚类模块,将输入的媒体信号S(t)分为音频信号S1(t)和视频信号S2(t),分别进行处理,
对于音频信号S1(t),处理如下,
对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量;
计算各帧谐频似然比logΛ(t),作为音频的特征,t为音频的帧标号;
根据谐频似然比logΛ(t),采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为谐频似然比logΛ(t)归一化后结果,隐状态qt表示说话或者不说话;
对于视频信号S2(t),处理如下:
对输入的媒体文件的视频信号,提取每帧图像中人脸区域;
在提取的人脸区域提取嘴唇部分;
提取每帧图像中嘴唇区域的特征,所述特征为图像能量E[n];
根据图像能量进行聚类,采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为图像能量E[n]归一化后结果,隐状态qt表示说话或者不说话;
匹配模块,用于将对音频信号和视频信号分别得到的聚类结果,采用测试DNA序列的编辑距离算法进行匹配,得到说话检测的最终结果,匹配时编辑距离计算实现如下,
定义LX,Y(m,n)表示第一个序列X=x1x2…xm的长度为n的子串到第二个序列Y=y1y2…yn的长度为m的子串的编辑距离,设0≤i≤m,0≤j≤n,Del,Ins,Sub分别是删除、***、替换的代价,计算如下,
若min(i,j)=0,LX,Y(m,n)=max(i,j),
否则
其中,xi表示音频聚类结果,yj表示视频聚类结果
参见图2,本领域技术人员可对***进行更细致的设计,例如一种音视频信息匹配的说话检测***,音视频聚类模块包括音频处理,视频处理两个部分:音频处理部分进一步由音频预处理模块、音频特征提取模块和第一聚类模块组成;视频处理部分进一步由人脸检测模块,嘴唇提取模块、视频特征提取模块和第二聚类模块组成。
所述音频预处理模块记为模块1,用于对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量,所得结果输入音频特征提取模块。
所述音频特征提取模块记为模块2,用于计算各帧谐频似然比logΛ(t),作为音频的特征,并输入第一聚类模块。
所述第一聚类模块记为模块3,用于根据谐频似然比logΛ(t),采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类,所得结果输入匹配模块。
所述人脸检测模块记为模块4,用于对输入的媒体文件的视频信号,提取每帧图像中人脸区域并将其输入嘴唇提取模块。
所述嘴唇提取模块记为模块5,用于在提取的人脸区域提取嘴唇部分,所得结果输入视频特征提取模块。
所述视频特征提取模块记为模块6,用于提取每帧图像中嘴唇区域的特征,所得结果输入第二聚类模块。
所述第二聚类模块记为模块7,用于根据图像能量进行聚类,采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类,所得结果输入匹配模块。
所述匹配模块记为模块8,用于将第一聚类模块和第二聚类模块得到的两个聚类结果进行匹配,得到说话检测的最终结果。
各模块具体实现与各步骤相应,本发明不予赘述。
本文中所描述的具体实施例仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例作各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或超越所附权利要求书所定义的范围。
Claims (4)
1.一种涉及媒体片段的说话检测方法,其特征在于,包括以下步骤:
步骤1,将输入的媒体信号S(t)分为音频信号S1(t)和视频信号S2(t),分别进行处理,
对于音频信号S1(t),处理如下,
对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量;
计算各帧谐频似然比logΛ(t),作为音频的特征,t为音频的帧标号;
根据谐频似然比logΛ(t),采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为谐频似然比logΛ(t)归一化后结果,隐状态qt表示说话或者不说话,模型参数λ=(A,B,π),其中A表示隐状态的转移矩阵,B表示某个时刻因隐藏状态而可观察的状态的概率,即混淆矩阵;π表示初始状态概率;
对于视频信号S2(t),处理如下:
对输入的媒体文件的视频信号,提取每帧图像中人脸区域;
在提取的人脸区域提取嘴唇部分;
提取每帧图像中嘴唇区域的特征,所述特征为图像能量E[n];
根据图像能量,采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为图像能量E[n]归一化后结果,隐状态qt表示说话或者不说话;
步骤2,将对音频信号和视频信号分别得到的聚类结果,采用测试DNA序列的编辑距离算法进行匹配,得到说话检测的最终结果,匹配时编辑距离计算实现如下,
定义LX,Y(m,n)表示第一个序列X=x1x2…xm的长度为n的子串到第二个序列Y=y1y2…yn的长度为m的子串的编辑距离,设0≤i≤m,0≤j≤n,Del,Ins,Sub分别是删除、***、替换的代价,计算如下,
若min(i,j)=0,LX,Y(m,n)=max(i,j),
否则
其中,xi表示音频聚类结果,yj表示视频聚类结果。
2.根据权利要求1所述涉及媒体片段的说话检测方法,其特征在于:步骤b3中,所述图像能量E[n]计算如下,
其中,vy,t(i,j)表示像素点(i,j)在M×N大小的图像中Y方向上的速度。
3.一种涉及媒体片段的说话检测***,其特征在于,包括以下模块:
音视频聚类模块,将输入的媒体信号S(t)分为音频信号S1(t)和视频信号S2(t),分别进行处理,
对于音频信号S1(t),处理如下,
对输入的媒体文件的音频信号,计算离散傅里叶窗中的谐波频率向量;
计算各帧谐频似然比logΛ(t),作为音频的特征,t为音频的帧标号;
根据谐频似然比logΛ(t),采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为谐频似然比logΛ(t)归一化后结果,隐状态qt表示说话或者不说话,模型参数λ=(A,B,π),其中A表示隐状态的转移矩阵,B表示某个时刻因隐藏状态而可观察的状态的概率,即混淆矩阵;π表示初始状态概率;
对于视频信号S2(t),处理如下:
对输入的媒体文件的视频信号,提取每帧图像中人脸区域;
在提取的人脸区域提取嘴唇部分;
提取每帧图像中嘴唇区域的特征,所述特征为图像能量E[n];
根据图像能量,采用隐马尔可夫模型计算每秒的条件概率P(Ot|λ),进行聚类,得到两类;所述隐马尔可夫模型中,显状态Ot为图像能量E[n]归一化后结果,隐状态qt表示说话或者不说话;
匹配模块,用于将对音频信号和视频信号分别得到的聚类结果,采用测试DNA序列的编辑距离算法进行匹配,得到说话检测的最终结果,匹配时编辑距离计算实现如下,
定义LX,Y(m,n)表示第一个序列X=x1x2…xm的长度为n的子串到第二个序列Y=y1y2…yn的长度为m的子串的编辑距离,设0≤i≤m,0≤j≤n,Del,Ins,Sub分别是删除、***、替换的代价,计算如下,
若min(i,j)=0,LX,Y(m,n)=max(i,j),
否则
其中,xi表示音频聚类结果,yj表示视频聚类结果。
4.根据权利要求3所述涉及媒体片段的说话检测***,其特征在于:所述图像能量E[n]计算如下,
其中,vy,t(i,j)表示像素点(i,j)在M×N大小的图像中Y方向上的速度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510719532.5A CN105335755B (zh) | 2015-10-29 | 2015-10-29 | 一种涉及媒体片段的说话检测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510719532.5A CN105335755B (zh) | 2015-10-29 | 2015-10-29 | 一种涉及媒体片段的说话检测方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105335755A CN105335755A (zh) | 2016-02-17 |
CN105335755B true CN105335755B (zh) | 2018-08-21 |
Family
ID=55286270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510719532.5A Active CN105335755B (zh) | 2015-10-29 | 2015-10-29 | 一种涉及媒体片段的说话检测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105335755B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831462A (zh) * | 2018-06-26 | 2018-11-16 | 北京奇虎科技有限公司 | 车载语音识别方法及装置 |
CN109558788B (zh) * | 2018-10-08 | 2023-10-27 | 清华大学 | 静默语音输入辨识方法、计算装置和计算机可读介质 |
CN110309799B (zh) * | 2019-07-05 | 2022-02-08 | 四川长虹电器股份有限公司 | 基于摄像头的说话判断方法 |
CN110706709B (zh) * | 2019-08-30 | 2021-11-19 | 广东工业大学 | 一种结合视频信号的多通道卷积混叠语音信道估计方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7684982B2 (en) * | 2003-01-24 | 2010-03-23 | Sony Ericsson Communications Ab | Noise reduction and audio-visual speech activity detection |
CN103198833A (zh) * | 2013-03-08 | 2013-07-10 | 北京理工大学 | 一种高精度说话人确认方法 |
CN103856689A (zh) * | 2013-10-31 | 2014-06-11 | 北京中科模识科技有限公司 | 面向新闻视频的人物对话字幕提取方法 |
-
2015
- 2015-10-29 CN CN201510719532.5A patent/CN105335755B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7684982B2 (en) * | 2003-01-24 | 2010-03-23 | Sony Ericsson Communications Ab | Noise reduction and audio-visual speech activity detection |
CN103198833A (zh) * | 2013-03-08 | 2013-07-10 | 北京理工大学 | 一种高精度说话人确认方法 |
CN103856689A (zh) * | 2013-10-31 | 2014-06-11 | 北京中科模识科技有限公司 | 面向新闻视频的人物对话字幕提取方法 |
Non-Patent Citations (2)
Title |
---|
self-adaptive voice activity detector for speaker verification with noisy telephone and microphone data;Kinnunen T 等;《Proceedings of the IEEE International Conference on Acoustics》;20131231;第7229-7233页 * |
基于视觉显著度的说话检测;王瑾 等;《武汉大学学报(理学版)》;20150830;第61卷(第4期);第363-367页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105335755A (zh) | 2016-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shillingford et al. | Large-scale visual speech recognition | |
Kong et al. | Towards subject independent continuous sign language recognition: A segment and merge approach | |
Raj et al. | Face recognition based smart attendance system | |
Potamianos et al. | Audio-visual automatic speech recognition: An overview | |
Potamianos et al. | Recent advances in the automatic recognition of audiovisual speech | |
CN105335755B (zh) | 一种涉及媒体片段的说话检测方法及*** | |
US20130226587A1 (en) | Lip-password Based Speaker Verification System | |
Liu et al. | Learning multi-boosted HMMs for lip-password based speaker verification | |
KR20010039771A (ko) | 시청각적 발성자 인식 및 발성 검증 방법 및 장치 | |
Khoury et al. | Hierarchical speaker clustering methods for the nist i-vector challenge | |
CN105139856B (zh) | 基于先验知识规整协方差的概率线性鉴别说话人识别方法 | |
Slimane et al. | Context matters: Self-attention for sign language recognition | |
Ibrahim et al. | Geometrical-based lip-reading using template probabilistic multi-dimension dynamic time warping | |
Koller et al. | Read my lips: Continuous signer independent weakly supervised viseme recognition | |
Dalka et al. | Visual lip contour detection for the purpose of speech recognition | |
Sarhan et al. | HLR-net: a hybrid lip-reading model based on deep convolutional neural networks | |
Guy et al. | Learning visual voice activity detection with an automatically annotated dataset | |
Jain et al. | Visual speech recognition for isolated digits using discrete cosine transform and local binary pattern features | |
Paleček et al. | Audio-visual speech recognition in noisy audio environments | |
Benhaim et al. | Designing relevant features for visual speech recognition | |
Kuzmin et al. | Magnitude-aware probabilistic speaker embeddings | |
Radha et al. | A person identification system combining recognition of face and lip-read passwords | |
Liu et al. | Exploring deep learning for joint audio-visual lip biometrics | |
Pathan et al. | Recognition of spoken English phrases using visual features extraction and classification | |
Hassanat et al. | Visual words for lip-reading |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210707 Address after: 215000 unit 01, 5 / F, building a, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Patentee after: BOOSLINK SUZHOU INFORMATION TECHNOLOGY Co.,Ltd. Address before: 430072 Hubei Province, Wuhan city Wuchang District of Wuhan University Luojiashan Patentee before: WUHAN University |