CN101359472A

CN101359472A - 一种人声判别的方法和装置

Info

Publication number: CN101359472A
Application number: CN200810167142.1A
Authority: CN
Inventors: 谢湘勇; 陈展
Original assignee: Actions Semiconductor Co Ltd
Current assignee: Hefei Torch Core Intelligent Technology Co., Ltd.
Priority date: 2008-09-26
Filing date: 2008-09-26
Publication date: 2009-02-04
Anticipated expiration: 2028-09-26
Also published as: EP2328143A4; CN101359472B; WO2010037251A1; EP2328143B8; EP2328143A1; EP2328143B1; US20110166857A1

Abstract

本发明公开了一种人声判别的方法，包括如下步骤：计算外部输入的音频信号的滑动最大绝对值；判断所述滑动最大绝对值相对于判别阈值是否发生了跃迁；若是，则进一步判断单位时间内的跃迁次数以及两次相邻跃迁之间的时间间隔是否达到预先设定的条件，若是，则得出音频信号为人声。本发明还公开了一种人声判别的装置。本发明方案能够较为准确地判别音频信号中的人声，并且计算开销很小。

Description

一种人声判别的方法和装置

技术领域

本发明涉及音频处理技术领域，特别涉及一种人声判别的方法和装置。

背景技术

人声判别，顾名思义，就是判别音频信号中是否出现了人的说话声。人声判别具有其特殊使用环境和要求。一方面，不需要知道说话人所说的内容，只关心是否有人在说话；另一方面，需要做到对人声进行实时地判别。此外，还需要考虑***软硬件的开销，尽可能地降低软硬件方面的要求。

现有的人声判别技术主要包括如下两种方式：一种是从提取音频信号的特征参数出发，利用音频信号中出现人声和音频信号中没有人声时特征参数的不同之处，进行人声的检测。目前人声判别主要利用的特征参数包括：能量值、过零率、自相关系数，倒谱等。另一种人声判别技术是利用语言学的原理，对音频信号的线性预测倒谱系数或Mel频率倒谱系数进行特征提取，然后通过模板匹配技术来进行人声判别。

现有的人声判别技术存在如下不足之处：

1：能量值、过零率、自相关系数等特征参数不能很好地反映出人声和非人声之间的区别，从而导致检测效果不佳；

2：计算线性预测倒谱系数或Mel频率倒谱系数，然后通过模板匹配技术来进行人声判别的方法过于复杂，计算量太大，需要占用过多的软硬件资源，可行性不好。

发明内容

有鉴于此，本发明实施例提出一种人声判别的方法和装置，能够较为准确地判别音频信号中的人声，并且计算开销很小。

本发明实施例提出的一种人声判别的方法，包括如下步骤：

一种人声判别的方法，用于判别外部输入的音频信号中的人声，包括如下步骤：

计算所述音频信号的滑动最大绝对值；

判断所述滑动最大绝对值相对于判别阈值是否发生了跃迁，所述判别阈值用于与所述滑动最大绝对值的曲线进行比对；

若是，则进一步判断单位时间内的跃迁次数以及两次相邻跃迁之间的时间间隔是否达到预先设定的条件，若是，则得出音频信号为人声。

本发明实施例提出的一种人声判别装置，用于判别外部输入的音频信号中的人声，包括：

计算模块，用于计算外部输入的音频信号的滑动最大绝对值；

跃迁判断模块，用于判断所述计算模块得到的滑动最大绝对值是否相对于判别阈值发生了跃迁，并得到单位时间内的跃迁次数以及两次相邻跃迁之间的时间间隔；

人声判别模块，用于判断所述跃迁判断模块所得单位时间内的跃迁次数以及两次相邻跃迁之间的时间间隔是否达到预先设定的条件，若是则判定音频信号为人声。

从以上技术方案可以看出，通过音频信号的滑动最大绝对值相对于阈值的跃迁来区分人声和非人声，可以很好地反应出人声与非人声的特性，并且所需计算量和存储空间较小。

附图说明

图1示出了作为示例的纯人声时域波形；

图2示出了作为示例的纯音乐的时域波形；

图3示出了作为示例的人唱歌的流行音乐的时域波形；

图4为根据图1所示纯人声转换得到的滑动最大绝对值曲线；

图5为根据图2所示纯音乐转换得到的滑动最大绝对值曲线；

图6为根据图3所示人唱歌的流行音乐转换得到的滑动最大绝对值曲线；

图7为一段广播节目录音的时域波形图；

图8为将图7所示的时域波形转换得到的滑动最大绝对值曲线，其中包括了判别阈值；

图9为本发明实施例提出的人声判别的流程图；

图10示出了典型的人声的滑动最大绝对值与判别阈值的关系图；

图11示出了典型的非人声的滑动最大绝对值与判别阈值的关系图；

图12为本发明实施例提出的人声判别装置的模块示意图。

具体实施方式

在对本发明具体实施方案进行说明之前，首先介绍一下本发明方案依据的原理。图1至图3给出了三段时域波形图的示例，图中横坐标为音频信号采样点的标号，纵坐标为采样点的相对强度，其中采样率为44100。以下各示意图中，采样率均为44100。其中，图1是纯人声的时域波形图；图2是纯音乐的时域波形图；图3是人唱歌的流行音乐时域波形图，可以看作是人声和音乐的叠加效果。

观察图1至图3的波形特征，可以发现人声的时域图和非人声的时域图具有明显差别。人说话声音是抑扬顿挫的，音节之间具有停顿，在停顿处声强很弱，体现在时域波形图上就是图像变化非常剧烈，而非人声就没有这样的典型特征。为了更加明显地体现出人声的上述特征，将图1至图3转换为滑动最大绝对值的曲线图，分别如图4至图6所示，横坐标依然为采样点的标号，而纵坐标为采样点的相对强度。滑动最大绝对值是指从一个长度为n的时间区间的时间相关数据中，选取多个连续的长度为m时间区间的该数据的最大值，m称为滑动长度。可以看出，图4与图5或图6之间的最大区别点就是曲线中是否会出现零值，人声的波形特征导致其滑动最大绝对值会出现零值，而音乐等非人声则不会出现零值。

本发明方案利用人声的滑动最大绝对值会出现零值的这个特性来实现人声判别。但具体应用中，人说话时周围的环境不可能是绝对安静的，或多或少会混有非人声。因此，需要确定一个合适的判别阈值，如果滑动最大绝对值的曲线越过了判别阈值代表的横线，则表明有人声。

图7是一段广播节目录音的时域波形，前面一段是主持人说话，后面是播放流行歌曲。其滑动最大绝对值曲线如图8所示，图7和图8中的横坐标为采样点的标号，纵坐标表示音频采样点的相对强度。通过选取合适的判别阈值就可以区分人声和非人声。图8中的横实线表示判别阈值。在主持人说话的部分，滑动最大绝对值曲线会出现与该横实线相交的现象；而在播放流行歌曲的部分，滑动最大绝对值曲线与该横实线就不再相交。本专利文件中，将滑动最大值曲线与判别阈值曲线相交称为滑动最大绝对值相对于判别阈值发生了跃迁，或简称为跃迁。滑动最大值曲线与判别阈值曲线相交的次数则称为跃迁次数。需要说明的是，图8中的判别阈值是一个恒定值，实际应用中判别阈值可能会根据音频信号的强度进行动态调整。

本发明以如下步骤实现：一种人声判别的方法，用于判别外部输入的音频信号中的人声，其特征在于，包括如下步骤：

计算所述音频信号的滑动最大绝对值；

本发明实施例实现人声判别的具体流程如图9所示，包括如下步骤：

步骤901：进行参数初始化。需要初始化的参数包括音频信号的帧长、判别阈值、滑动长度和延迟帧数。此外，还要将目前最大绝对值和跃迁次数归零。

关于选取判别阈值的问题，可以从最大绝对值角度出发取到截至目前的脉冲编码调制(PCM)数据点的最大值的K分之一。K是正数，不同的K会导致判别能力的不同，建议选择K＝8有较好的效果。通过实验发现实际上非人声也会跃迁到这条线，图10示出了典型的人声的滑动最大绝对值与判别阈值的关系图，图11示出了典型的非人声的滑动最大绝对值与判别阈值的关系图，其中横坐标均为采样点标号，纵坐标为采样点的相对强度。可以发现，人声和非人声跃迁的分布特征不一样，人声两次相邻跃迁之间的时间间隔大而非人声两次相邻跃迁之间的时间间隔小。因此为了进一步避免误判，还需要引入跃迁长度的判断，将两次相邻跃迁之间的时间间隔称为跃迁长度，只有发生跃迁并且跃迁长度大于预先设置的标准跃迁长度，才认为是人声。

本发明方案应用于实时处理的场合，对当前音频信号进行判别后，由于当前音频信号已经播放，无法对当前音频信号进行相应处理，只能处理当前音频信号之后的音频信号。而人说话声有一定的延续性，因此可以设置延迟帧数k，当判别当前帧为人声后，可以认为当前帧之后的连续k个帧的音频信号都是人声，而将这k个帧当作人声进行处理。k为正整数，例如可以取为5。

步骤902：将当前帧的每n个采样点作为一个分段，取每个分段的最大绝对值，得到当前帧各个分段的最大绝对值。

目前流行音乐等常用的音频采样率为44100，即每秒采样点的数目是44100，对于不同的采样率参数都需要进行适当调整，下面我们就以44100采样率为例。如果每个点都要做一次滑动最大绝对值的话，这样空间就会占用太大了，帧长为4096，滑动最大绝对值长度选择2048，那就意味着需要4096+2048个存储单元来存储这些数据，这显然存储单元占用太多。发明人通过实验发现256点的解析度就满足要求。因此可以规定n的值为256，滑动长度仍然是2048，一帧包括16个分段，滑动长度包括8个分段，每个分段取一个采样点，则只需要16+8＝24个存储单元。

步骤903：对于其中任一分段，取该分段以及该分段之后滑动长度内的各个分段的初始最大绝对值中的最大值，作为该分段的滑动最大绝对值。例如，取分段1到分段9的初始绝对值中的最大值作为分段1的滑动最大绝对值；取分段2到分段10的初始绝对值中的最大值作为分段2的滑动最大绝对值并依次类推。。

步骤904：根据截至目前的PCM数据点的最大值更新判别阈值。判断延迟帧数是否为零，若为零则直接转至步骤905，若延迟帧数非零则减1，并将音频信号作为人声进行处理。所述处理根据具体应用而定，例如进行消音处理。

步骤905：根据最大绝对值以及判别阈值，判断是否滑动最大绝对值相对于判别阈值发生了跃迁。具体做法可以是：分别对该帧所有的滑动最大绝对值做下面的计算：(当前这个点滑动最大绝对值-判别阈值)×(该点上一个滑动最大绝对值-判别阈值)，

判断乘积是否小于0，若是则发生了跃迁，否则没有跃迁。

步骤906：根据发生跃迁的分布判断音频信号是否为人声。

具体做法可以包括：

判断跃迁密度和跃迁长度是否达到要求。跃迁密度的含义就是单位时间内发生的跃迁次数。统计截至目前一段时间内的跃迁密度是否符合预定标准。该预定标准包括了最大的跃迁密度和最小跃迁密度，即规定了跃迁密度的上限和下限。所述预定预定标准可以通过对标准的人声信号进行训练得出。如果跃迁次数的密度小于所述上限并大于所述下限，同时跃迁长度大于标准跃迁长度，则音频信号是人声，否则不是人声。

若判断音频信号是人声，则将延迟帧数设置为预定值，再执行步骤907。如果判断音频信号非人声，则直接执行步骤907。

步骤907：判断是否结束人声判别，若是，则结束本流程，否则转至步骤903。

本发明实施例还提出一种用于进行人声判别的装置，其模块示意图如图12所示，包括：

计算模块1201，用于计算音频信号的滑动最大绝对值；

跃迁判断模块1202，用于判断所述计算模块1201得到的滑动最大绝对值是否相对于判别阈值发生了跃迁，并得到跃迁密度以及跃迁长度；

人声判别模块1203，用于判断所述跃迁判断模块1202所得单位时间内的跃迁次数以及两次相邻跃迁之间的时间间隔是否达到预先设定的要求，若是则判定音频信号为人声。

其中，所述计算模块1201可以包括：

最大绝对值单元1204，用于将当前帧的每n个采样点作为一个分段，取每个分段的音频信号最大绝对值，得到当前帧各个分段的初始最大绝对值，其中n为正整数；

比较滑动单元1205，用于根据最大绝对值单元1204所得各个分段的初始最大绝对值，得到各个分段的滑动最大绝对值，具体包括：取当前分段以及当前分段之后滑动长度内的各个分段的初始最大绝对值中的最大值，作为当前分段的滑动最大绝对值。

所述跃迁判断模块1202包括：

跃迁单元1206，用于计算当前分段的滑动最大绝对值减去预先设定的判别阈值的差，以及上一个分段的滑动最大绝对值与所述判别阈值的差，将所述两个差值相乘，判断所得乘积是否小于0，若是则跃迁次数加1；

计数单元1207，用于统计截至目前一段时间内跃迁单元1206得到的跃迁次数，以及两次相邻跃迁之间的跃迁长度，，并根据所统计的跃迁次数得到跃迁密度。

所述人声判别模块1203包括：

判断单元1208，用于判断所述跃迁判断模块1202得到的单位时间内的跃迁次数是否大于预先设置的下限并小于预先设置的上限，并且跃迁长度大于标准跃迁长度，若是则将所述音频信号标识为人声；

延迟单元1209，用于当所述判断单元1208将音频信号标识为人声时启动对延迟帧数的计数，该计数值随着时间递减，每隔音频信号1帧的时间则减1，减到零则停止递减。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，便携媒体播放器，或者其它具有媒体播放功能的电子产品)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明提出了一套适用于便携式多媒体播放器上的人声判别方案，所需计算量较小，需要的存储空间也较小。本发明实施例方案中，采取时域数据做滑动最大值，可以很好的反应出人声与非人声的特性；采用跃迁方式的判断标准，可以很好地避免由于不同音量带来的标准不一致问题。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1、一种人声判别的方法，用于判别外部输入的音频信号中的人声，其特征在于，包括如下步骤：

计算所述音频信号的滑动最大绝对值；

2、根据权利要求1所述的人声判别的方法，其特征在于，所述计算音频信号的滑动最大绝对值的步骤包括：

将所述音频信号的当前帧的每n个采样点作为一个分段，取每个分段的音频信号最大绝对值，得到当前帧各个分段的初始最大绝对值，其中n为正整数；

对于其中任一分段，取该分段以及该分段之后滑动长度内的各个分段的初始最大绝对值中的最大值，作为该分段的滑动最大绝对值。

3、根据权利要求2所述的人声判别的方法，其特征在于，当音频信号的采样率为44100时，n的值取为256。

4、根据权利要求2所述的人声判别的方法，其特征在于，所述判断所述滑动最大绝对值相对于判别阈值是否发生了跃迁包括：

计算目前的滑动最大绝对值减去预先设定的判别阈值的差，以及上一个滑动最大绝对值与所述判别阈值的差，将所述两个差值相乘，判断所得乘积是否小于0，若是，则滑动最大绝对值相对于判别阈值发生了跃迁；否则滑动最大绝对值相对于判别阈值没有发生跃迁。

5、根据权利要求4所述的人声判别的方法，其特征在于，所述判别阈值为音频信号截至目前最大绝对值的八分之一。

6、根据权利要求1所述的人声判别的方法，其特征在于，所述得出音频信号为人声的步骤之后，进一步包括：判断是否结束人声判别，若否，则转至所述计算音频信号的滑动最大绝对值的步骤。

7、根据权利要求1至6任一项所述的人声判别的方法，其特征在于，所述判断单位时间内的跃迁次数以及两次相邻跃迁之间的时间间隔是否达到预先设定的条件包括：

统计截至目前一段时间内的跃迁次数，根据所述跃迁次数计算得到跃迁密度，判断所述跃迁密度是否大于预先设置的下限，并且小于预先设置的上限，若是则单位时间内的跃迁次数达到预先设定的条件；

判断本次跃迁距离上一次跃迁的时间长度是否大于预先设置的标准跃迁长度，若是则两次相邻跃迁之间的时间间隔达到预先设定的条件。

8、根据权利要求7所述的人声判别的方法，其特征在于，所述判断单位时间内的跃迁次数是否达到预先设定的条件之前，进一步包括：

判断当前是否处于延迟帧数中，若是，则转至所述计算音频信号的滑动最大绝对值的步骤；否则，执行所述判断单位时间内的跃迁次数是否达到预先设定的要求的步骤。

9、一种人声判别的装置，用于判别外部输入的音频信号中的人声，其特征在于，包括：

计算模块，用于计算所述音频信号的滑动最大绝对值；

10、根据权利要求9所述的人声判别装置，其特征在于，所述计算模块包括：

最大绝对值单元，用于将当前帧的每n个采样点作为一个分段，取每个分段的音频信号最大绝对值，得到当前帧各个分段的初始最大绝对值，其中n为正整数；

比较滑动单元，用于根据最大绝对值单元所得各个分段的初始最大绝对值，得到各个分段的滑动最大绝对值，具体包括：取当前分段以及当前分段之后滑动长度内的各个分段的初始最大绝对值中的最大值，作为当前分段的滑动最大绝对值。

11、根据权利要求9所述的人声判别装置，其特征在于，所述跃迁判断模块包括：

跃迁单元，用于计算当前分段的滑动最大绝对值减去预先设定的判别阈值的差，以及上一个分段的滑动最大绝对值与所述判别阈值的差，将所述两个差值相乘，判断所得乘积是否小于0，若是则跃迁次数加1；

计数单元，用于统计截至目前一段时间内跃迁单元得到的跃迁次数，以及两次相邻跃迁之间的跃迁长度，并根据所统计的跃迁次数得到跃迁密度。

12、根据权利要求9、10或11所述的人声判别装置，其特征在于，所述人声判别模块包括：

判断单元，用于判断所述跃迁判断模块得到的单位时间内的跃迁次数是否大于预先设置的下限并小于预先设置的上限，并且跃迁长度大于标准跃迁长度，若是则将所述音频信号标识为人声。

13、根据权利要求12所述的人声判别装置，其特征在于，所述人声判别模块进一步包括：

延迟单元，用于当所述判断单元将音频信号标识为人声时启动对延迟帧数的计数，该计数值每隔音频信号1帧的时间则减1，减到零则停止递减。