CN105335755A

CN105335755A - 一种涉及媒体片段的说话检测方法及***

Info

Publication number: CN105335755A
Application number: CN201510719532.5A
Authority: CN
Inventors: 胡瑞敏; 王瑾; 梁超; 王晓晨
Original assignee: Wuhan University WHU
Current assignee: BOOSLINK SUZHOU INFORMATION TECHNOLOGY Co.,Ltd.
Priority date: 2015-10-29
Filing date: 2015-10-29
Publication date: 2016-02-17
Anticipated expiration: 2035-10-29
Also published as: CN105335755B

Abstract

本发明提供一种涉及媒体片段的说话检测方法及***，包括将输入的媒体信号分为音频信号和视频信号，分别进行处理，对于音频信号根据谐频似然比采用隐马尔可夫模型计算每秒的条件概率，进行聚类，对于视频信号对输入的媒体文件的视频信号，提取每帧图像中人脸区域、提取嘴唇部分、嘴唇区域的图像能量，根据图像能量进行聚类，采用隐马尔可夫模型计算每秒的条件概率，进行聚类，得到两类；将对音频信号和视频信号分别得到的聚类结果进行匹配，得到说话检测的最终结果。本发明的优点是能够通过音频和视频两种信息进行说话检测，提高检测率。

Description

一种涉及媒体片段的说话检测方法及***

技术领域

本发明涉及说话检测技术领域，具体涉一种涉及媒体片段的说话检测方法及***。

背景技术

随着信息技术的发展，人机交互、远程会议、声纹识别等技术成为热点研究对象，说话检测作为其中重要的部分也得到了越来越多的重视。说话检测技术就是区分媒体片段中的人员是否说话的一种技术。传统的说话活动检测方法主要是单纯基于音频信息或者视频信息，鲁棒性差。为了解决这一问题，基于音视频信息的多模态说话检测技术被引入。但现有技术通常通过一个监督学习的训练器，泛化能力不强，导致检测率下降。

发明内容

本发明针对不同媒体文件在不同环境具有不同的特性，提出了一种音视频信息匹配的说话检测方法及***,有别于传统基于有监督的方法，利用说话活动在音频和视频信息遵循相同的时间分布，通过音视频信息的匹配进行说话检测。

为达到上述目的，本发明提供的技术方案为一种涉及媒体片段的说话检测方法，包括以下步骤：

步骤1，将输入的媒体信号S(t)分为音频信号S₁(t)和视频信号S₂(t)，分别进行处理，

对于音频信号S₁(t)，处理如下，

对输入的媒体文件的音频信号，计算离散傅里叶窗中的谐波频率向量；

计算各帧谐频似然比logΛ(t)，作为音频的特征，t为音频的帧标号；

根据谐频似然比logΛ(t)，采用隐马尔可夫模型计算每秒的条件概率P(O_t|λ)，进行聚类，得到两类；所述隐马尔可夫模型中，显状态O_t为谐频似然比logΛ(t)归一化后结果，隐状态q_t表示说话或者不说话；

对于视频信号S₂(t)，处理如下：

对输入的媒体文件的视频信号，提取每帧图像中人脸区域；

在提取的人脸区域提取嘴唇部分；

提取每帧图像中嘴唇区域的特征，所述特征为图像能量E[n]；

根据图像能量，采用隐马尔可夫模型计算每秒的条件概率P(O_t|λ)，进行聚类，得到两类；所述隐马尔可夫模型中，显状态O_t为图像能量E[n]归一化后结果，隐状态q_t表示说话或者不说话；

步骤2，将对音频信号和视频信号分别得到的聚类结果，采用测试DNA序列的编辑距离算法进行匹配，得到说话检测的最终结果，匹配时编辑距离计算实现如下，

定义L_X,Y(m,n)表示第一个序列X＝x₁x₂…x_m的长度为n的子串到第二个序列Y＝y₁y₂…y_n的长度为m的子串的编辑距离，设0≤i≤m,0≤j≤n，Del,Ins,Sub分别是删除、***、替换的代价，计算如下，

若min(i,j)＝0，L_X,Y(m,n)＝max(i,j)，

否则

L_{X, Y} (m, n) = \min \{\begin{matrix} L_{X, Y} (i - 1, j) + D e l \\ L_{X, Y} (i, j - 1) + I n s \\ L_{X, Y} (i - 1, j - 1) + {\begin{matrix} \begin{matrix} 0 & x_{i} = y_{j} \end{matrix} \\ s u b \end{matrix} o t h e r w i s e \end{matrix}

其中，x_i表示音频聚类结果，y_j表示视频聚类结果。

而且，所述图像能量E[n]计算如下，

E [n] = Σ_{i = 1}^{M} Σ_{i = 1}^{N} {| v_{y, t} (i, j) |}^{2}

其中，v_y,t(i,j)表示像素点(i,j)在M×N大小的图像中Y方向上的速度。

本发明还相应提供一种涉及媒体片段的说话检测***，包括以下模块：

音视频聚类模块，将输入的媒体信号S(t)分为音频信号S₁(t)和视频信号S₂(t)，分别进行处理，

对于音频信号S₁(t)，处理如下，

对于视频信号S₂(t)，处理如下：

对输入的媒体文件的视频信号，提取每帧图像中人脸区域；

在提取的人脸区域提取嘴唇部分；

提取每帧图像中嘴唇区域的特征，所述特征为图像能量E[n]；

匹配模块，用于将对音频信号和视频信号分别得到的聚类结果，采用测试DNA序列的编辑距离算法进行匹配，得到说话检测的最终结果，匹配时编辑距离计算实现如下，

若min(i,j)＝0，L_X,Y(m,n)＝max(i,j)，

否则

L_{X, Y} (m, n) = \min \{\begin{matrix} L_{X, Y} (i - 1, j) + D e l \\ L_{X, Y} (i, j - 1) + I n s \\ L_{X, Y} (i - 1, j - 1) + {\begin{matrix} \begin{matrix} 0 & x_{i} = y_{j} \end{matrix} \\ s u b \end{matrix} o t h e r w i s e \end{matrix}

其中，x_i表示音频聚类结果，y_j表示视频聚类结果。

而且，所述图像能量E[n]计算如下，

E [n] = Σ_{i = 1}^{M} Σ_{i = 1}^{N} {| v_{y, t} (i, j) |}^{2}

本发明通过对音视频信息进行匹配的角度进行说话检测，去除了传统方法复杂的训练过程，同时提高了正确检测率。

附图说明

图1是本发明实施例的方法流程图。

图2是本发明实施例的结构框图。

具体实施方式

以下结合实施例和附图详细说明本发明技术方案。

如图1，本发明实施例所提供方法的处理工作包括具体以下的步骤：

对于音频信号S₁(t)，处理如下：

(1)对输入的媒体文件的音频信号，计算离散傅里叶窗中的谐波频率向量，设实施例中得到多个离散傅里叶窗DFT(DiscreteFouriertransform)中共有的一个谐波频率。

(2)计算各帧含有谐频成分的似然比logΛ(t)，作为音频特征，t为音频的帧标号。

具体实施时，(1)和(2)可采用现有技术实现，例如参考文献LNTan,BJBorgstrom,AAlwan.Voiceactivitydetectionusingharmonicfrequencycomponentsinlikelihoodratiotest[C].AcousticsSpeechandSignalProcessing(ICASSP),2010:4466–4469.

(3)根据谐频似然比进行聚类，得到两类。实施例中根据一秒内所有帧的谐频似然比logΛ(t)，用HMM(HiddenMarkovModels)计算每秒的条件概率P(O_t|λ)，其中的显状态O_t为步骤(2)得到的谐频似然比logΛ(t)(将其归一化[1,10]，即O_t∈{1,2,…,10})，隐状态q_t表示说话或者不说话，隐状态个数为N^q，即N^q＝2。用Baum-Welch进行训练学习，得到模型参数λ＝(A,B,π)，其中A表示隐状态的转移矩阵，B表示某个时刻因隐藏状态而可观察的状态的概率，即混淆矩阵；π表示初始状态概率。设计一个窗口长度为T(T为视频的每秒帧数)的滑窗，利用前向后向算法计算其对应的P(O_t|λ)作为聚类的特征。具体实施时，可参考文献Rabiner,L.R.,etal.:Atutorialonhiddenmarkovmodelsandselectedapplicationsinspeechrecognition.Proc.IEEE77(2),257–286(1989).AT&TBellLab,MurrayHill。

实施例聚类用的是K-means算法，得到两类，分别用0和1表示。

对于视频信号S₂(t)，处理如下：

(1)提取输入的媒体文件的视频信号的每帧图像中人脸区域，实施例利用Haar特征的级联器提取视频每帧图像中的人的脸部区域。具体实施时，Haar特征的级联器为现有技术，例如参考文献P.Viola,M.Jones.Robustreal-timefacedetection[J].InternationalJournalofComputerVision(IJCV),2004:137-154.

(2)在提取的人脸区域提取嘴唇部分。具体实施时，提取实现可采用现有技术，例如参考文献JieZhang,ShiguangShan,MeinaKan,etal.Coarse-to-FineAuto-EncoderNetworks(CFAN)forReal-TimeFaceAlignment[C].EuropeanConferenceonComputerVision(ECCV),2014:1-16.

实施例在脸部区域求得其68个脸部特征点(68个特征点标记出眼睛、鼻子、嘴巴和脸部轮廓)，通过标记嘴唇部分的特征点坐标提取出一个包含嘴唇区域的矩形框。

(3)提取每帧图像中嘴唇区域的特征—图像能量。实施例计算Y方向上连续两帧嘴唇区域的光流v_y,t(i,j)，并将其平方得到图像能量E[n]，即

式中v_y,t(i,j)表示像素点(i,j)在M×N大小的图像中Y方向(垂直方向)上的速度，具体实施时，计算实现可参考文献TiawongsombatP,JeongMH,YunJS,etal.Robustvisualspeakingnessdetectionusingbi-levelHMM[J].PatternRecognition,2012,45(2):783-793.

(4)根据图像能量进行聚类，得到两类。根据每秒所有帧的图像能量，可以计算每秒的条件概率，作为聚类的特征。实施例中，根据每秒所有帧的图像能量E[n]，用HMM计算每秒的条件概率P(O_t|λ)，其中的显状态O_t为步骤(3)得到的图像能量E[n](将其归一化[1,10]，即O_t∈{1,2,…,10})，隐状态q_t就是说话或者不说话，N^q＝2。用Baum-Welch进行训练学习，得到模型参数λ＝(A,B,π)，其中A表示隐状态的转移矩阵；B表示某个时刻因隐藏状态而可观察的状态的概率，即混淆矩阵；π表示初始状态概率。设计一个窗口长度为T的滑窗(T为音频的每秒帧数)，利用前向后向算法计算其对应的P(O_t|λ)作为聚类的特征。用K-means聚类得到两类，分别用0和1表示。

步骤2，根据步骤1对音频信号和视频信号分别得到的聚类结果，将得到的两个聚类结果进行匹配，得到说话检测的最终结果。实施例中，因为音频中说话活动在时间轴上发生的概率与视频中的说话活动的概率满足同样的分布，利用生物学中测试DNA序列方法—编辑距离算法计算音视频信息的距离进行说话活动匹配。定义L_X,Y(m,n)表示第一个序列X＝x₁x₂…x_m的长度为n的子串到第二个序列Y＝y₁y₂…y_n的长度为m的子串的编辑距离，这里其中，x_i表示音频聚类结果，y_j表示视频聚类结果。因为音频聚类结果和视频聚类结果都为两类，都可以表示为0和1组成的子串。

得到最后匹配的结果的说话检测。假设0≤i≤m,0≤j≤n，Del,Ins,Sub是删除，***，替换的代价。得到的最后匹配结果就是说话检测结果。计算方法：若min(i,j)＝0，L_X,Y(m,n)＝max(i,j)，否则

L_{X, Y} (m, n) = \min \{\begin{matrix} L_{X, Y} (i - 1, j) + D e l \\ L_{X, Y} (i, j - 1) + I n s \\ L_{X, Y} (i - 1, j - 1) + {\begin{matrix} \begin{matrix} 0 & x_{i} = y_{j} \end{matrix} \\ s u b \end{matrix} o t h e r w i s e \end{matrix}

其中，x_i表示音频聚类结果，y_j表示视频聚类结果。

根据计算所得编辑距离，即可获知音频信号的聚类结果和视频信号的聚类结果进行匹配的结果，得到是否说话的检测结果。一般来说，编辑距离越小，两个串的相似度越大。利用生物学中测试DNA序列方法，可以支持视频长度和音频长度存在少量误差的情况，实现最优比对，即将匹配的数量最大化，将空格和不匹配的数量最小化，一般两个序列长度相同则不考虑空格情况。对于两个子串序列中对应匹配的元素，认定相应媒体片段中的人员是在说话，对于两个子串序列中不匹配的元素，认定检测结果为相应媒体片段中的人员不是在说话。利用是否说话的检测结果，可以进一步改善通信效率，应用于人机交互、远程会议、声纹识别等方面，例如，当检测到并未说话时，可以降低媒体信号的质量，例如减小视频画面的清晰度。

具体实施时，可参考文献VladimirLevenshtein,Binarycodescapableofcorrectingdeletions,insertionsandreversals,”inSovietphysicsdoklady,1966,vol.10,p.707.

本发明技术方案可采用计算机软件方式支持自动运行流程，也可采用模块化方式提供相应***。实施例提供一种涉及媒体片段的说话检测***，包括以下模块：

对于音频信号S₁(t)，处理如下，

对于视频信号S₂(t)，处理如下：

对输入的媒体文件的视频信号，提取每帧图像中人脸区域；

在提取的人脸区域提取嘴唇部分；

提取每帧图像中嘴唇区域的特征，所述特征为图像能量E[n]；

根据图像能量进行聚类，采用隐马尔可夫模型计算每秒的条件概率P(O_t|λ)，进行聚类，得到两类；所述隐马尔可夫模型中，显状态O_t为图像能量E[n]归一化后结果，隐状态q_t表示说话或者不说话；

若min(i,j)＝0，L_X,Y(m,n)＝max(i,j)，

否则

L_{X, Y} (m, n) = \min \{\begin{matrix} L_{X, Y} (i - 1, j) + D e l \\ L_{X, Y} (i, j - 1) + I n s \\ L_{X, Y} (i - 1, j - 1) + {\begin{matrix} \begin{matrix} 0 & x_{i} = y_{j} \end{matrix} \\ s u b \end{matrix} o t h e r w i s e \end{matrix}

其中，x_i表示音频聚类结果，y_j表示视频聚类结果

参见图2，本领域技术人员可对***进行更细致的设计，例如一种音视频信息匹配的说话检测***，音视频聚类模块包括音频处理，视频处理两个部分：音频处理部分进一步由音频预处理模块、音频特征提取模块和第一聚类模块组成；视频处理部分进一步由人脸检测模块，嘴唇提取模块、视频特征提取模块和第二聚类模块组成。

所述音频预处理模块记为模块1，用于对输入的媒体文件的音频信号，计算离散傅里叶窗中的谐波频率向量，所得结果输入音频特征提取模块。

所述音频特征提取模块记为模块2，用于计算各帧谐频似然比logΛ(t)，作为音频的特征，并输入第一聚类模块。

所述第一聚类模块记为模块3，用于根据谐频似然比logΛ(t)，采用隐马尔可夫模型计算每秒的条件概率P(O_t|λ)，进行聚类，得到两类，所得结果输入匹配模块。

所述人脸检测模块记为模块4，用于对输入的媒体文件的视频信号，提取每帧图像中人脸区域并将其输入嘴唇提取模块。

所述嘴唇提取模块记为模块5，用于在提取的人脸区域提取嘴唇部分，所得结果输入视频特征提取模块。

所述视频特征提取模块记为模块6，用于提取每帧图像中嘴唇区域的特征，所得结果输入第二聚类模块。

所述第二聚类模块记为模块7，用于根据图像能量进行聚类，采用隐马尔可夫模型计算每秒的条件概率P(O_t|λ)，进行聚类，得到两类，所得结果输入匹配模块。

所述匹配模块记为模块8，用于将第一聚类模块和第二聚类模块得到的两个聚类结果进行匹配，得到说话检测的最终结果。

各模块具体实现与各步骤相应，本发明不予赘述。

本文中所描述的具体实施例仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例作各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或超越所附权利要求书所定义的范围。

Claims

1.一种涉及媒体片段的说话检测方法，其特征在于，包括以下步骤：

步骤1，将输入的媒体信号S(t)分为音频信号S₁(t)和视频信号S₂(t)，分别进行处理，对于音频信号S₁(t)，处理如下，

根据谐频似然比logΛ(t)，采用隐马尔可夫模型计算每秒的条件概率P(O_t|λ)，进行聚类，得到两类；所述隐马尔可夫模型中，显状态O_t为谐频似然比logΛ(t)归一化后结果，隐状态qt表示说话或者不说话；

对于视频信号S₂(t)，处理如下：

对输入的媒体文件的视频信号，提取每帧图像中人脸区域；

在提取的人脸区域提取嘴唇部分；

提取每帧图像中嘴唇区域的特征，所述特征为图像能量E[n]；

若min(i,j)＝0，L_X,Y(m,n)＝max(i,j)，

否则

L_{X, Y} (m, n) = \min \{\begin{matrix} L_{X, Y} (i - 1, j) + D e l \\ L_{X, Y} (i, j - 1) + I n s \\ L_{X, Y} (i - 1, j - 1) + \{\begin{matrix} 0 & x_{i} = y_{j} \\ s u b & o t h e r w i s e \end{matrix} \end{matrix}

其中，x_i表示音频聚类结果，y_j表示视频聚类结果。

2.根据权利要求1所述涉及媒体片段的说话检测方法，其特征在于：步骤b3中，所述图像能量E[n]计算如下，

E [n] = Σ_{i = 1}^{M} Σ_{i = 1}^{N} | v_{y, t} (i, j) |^{2}

3.一种涉及媒体片段的说话检测***，其特征在于，包括以下模块：

对于音频信号S₁(t)，处理如下，

对于视频信号S₂(t)，处理如下：

对输入的媒体文件的视频信号，提取每帧图像中人脸区域；

在提取的人脸区域提取嘴唇部分；

提取每帧图像中嘴唇区域的特征，所述特征为图像能量E[n]；

若min(i,j)＝0，L_X,Y(m,n)＝max(i,j)，

否则

L_{X, Y} (m, n) = \min \{\begin{matrix} L_{X, Y} (i - 1, j) + D e l \\ L_{X, Y} (i, j - 1) + I n s \\ L_{X, Y} (i - 1, j - 1) + \{\begin{matrix} 0 & x_{i} = y_{j} \\ s u b & o t h e r w i s e \end{matrix} \end{matrix}

其中，x_i表示音频聚类结果，y_j表示视频聚类结果。

4.根据权利要求3所述涉及媒体片段的说话检测***，其特征在于：所述图像能量E[n]计算如下，

E [n] = Σ_{i = 1}^{M} Σ_{i = 1}^{N} | v_{y, t} (i, j) |^{2}