CN101359472A - 一种人声判别的方法和装置 - Google Patents

一种人声判别的方法和装置 Download PDF

Info

Publication number
CN101359472A
CN101359472A CN200810167142.1A CN200810167142A CN101359472A CN 101359472 A CN101359472 A CN 101359472A CN 200810167142 A CN200810167142 A CN 200810167142A CN 101359472 A CN101359472 A CN 101359472A
Authority
CN
China
Prior art keywords
transition
maximum value
voice
segmentation
sound signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810167142.1A
Other languages
English (en)
Other versions
CN101359472B (zh
Inventor
谢湘勇
陈展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Torch Core Intelligent Technology Co., Ltd.
Original Assignee
Actions Semiconductor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Actions Semiconductor Co Ltd filed Critical Actions Semiconductor Co Ltd
Priority to CN200810167142.1A priority Critical patent/CN101359472B/zh
Publication of CN101359472A publication Critical patent/CN101359472A/zh
Priority to EP09817165.5A priority patent/EP2328143B8/en
Priority to PCT/CN2009/001037 priority patent/WO2010037251A1/zh
Priority to US13/001,596 priority patent/US20110166857A1/en
Application granted granted Critical
Publication of CN101359472B publication Critical patent/CN101359472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种人声判别的方法,包括如下步骤:计算外部输入的音频信号的滑动最大绝对值;判断所述滑动最大绝对值相对于判别阈值是否发生了跃迁;若是,则进一步判断单位时间内的跃迁次数以及两次相邻跃迁之间的时间间隔是否达到预先设定的条件,若是,则得出音频信号为人声。本发明还公开了一种人声判别的装置。本发明方案能够较为准确地判别音频信号中的人声,并且计算开销很小。

Description

一种人声判别的方法和装置
技术领域
本发明涉及音频处理技术领域,特别涉及一种人声判别的方法和装置。
背景技术
人声判别,顾名思义,就是判别音频信号中是否出现了人的说话声。人声判别具有其特殊使用环境和要求。一方面,不需要知道说话人所说的内容,只关心是否有人在说话;另一方面,需要做到对人声进行实时地判别。此外,还需要考虑***软硬件的开销,尽可能地降低软硬件方面的要求。
现有的人声判别技术主要包括如下两种方式:一种是从提取音频信号的特征参数出发,利用音频信号中出现人声和音频信号中没有人声时特征参数的不同之处,进行人声的检测。目前人声判别主要利用的特征参数包括:能量值、过零率、自相关系数,倒谱等。另一种人声判别技术是利用语言学的原理,对音频信号的线性预测倒谱系数或Mel频率倒谱系数进行特征提取,然后通过模板匹配技术来进行人声判别。
现有的人声判别技术存在如下不足之处:
1:能量值、过零率、自相关系数等特征参数不能很好地反映出人声和非人声之间的区别,从而导致检测效果不佳;
2:计算线性预测倒谱系数或Mel频率倒谱系数,然后通过模板匹配技术来进行人声判别的方法过于复杂,计算量太大,需要占用过多的软硬件资源,可行性不好。
发明内容
有鉴于此,本发明实施例提出一种人声判别的方法和装置,能够较为准确地判别音频信号中的人声,并且计算开销很小。
本发明实施例提出的一种人声判别的方法,包括如下步骤:
一种人声判别的方法,用于判别外部输入的音频信号中的人声,包括如下步骤:
计算所述音频信号的滑动最大绝对值;
判断所述滑动最大绝对值相对于判别阈值是否发生了跃迁,所述判别阈值用于与所述滑动最大绝对值的曲线进行比对;
若是,则进一步判断单位时间内的跃迁次数以及两次相邻跃迁之间的时间间隔是否达到预先设定的条件,若是,则得出音频信号为人声。
本发明实施例提出的一种人声判别装置,用于判别外部输入的音频信号中的人声,包括:
计算模块,用于计算外部输入的音频信号的滑动最大绝对值;
跃迁判断模块,用于判断所述计算模块得到的滑动最大绝对值是否相对于判别阈值发生了跃迁,并得到单位时间内的跃迁次数以及两次相邻跃迁之间的时间间隔;
人声判别模块,用于判断所述跃迁判断模块所得单位时间内的跃迁次数以及两次相邻跃迁之间的时间间隔是否达到预先设定的条件,若是则判定音频信号为人声。
从以上技术方案可以看出,通过音频信号的滑动最大绝对值相对于阈值的跃迁来区分人声和非人声,可以很好地反应出人声与非人声的特性,并且所需计算量和存储空间较小。
附图说明
图1示出了作为示例的纯人声时域波形;
图2示出了作为示例的纯音乐的时域波形;
图3示出了作为示例的人唱歌的流行音乐的时域波形;
图4为根据图1所示纯人声转换得到的滑动最大绝对值曲线;
图5为根据图2所示纯音乐转换得到的滑动最大绝对值曲线;
图6为根据图3所示人唱歌的流行音乐转换得到的滑动最大绝对值曲线;
图7为一段广播节目录音的时域波形图;
图8为将图7所示的时域波形转换得到的滑动最大绝对值曲线,其中包括了判别阈值;
图9为本发明实施例提出的人声判别的流程图;
图10示出了典型的人声的滑动最大绝对值与判别阈值的关系图;
图11示出了典型的非人声的滑动最大绝对值与判别阈值的关系图;
图12为本发明实施例提出的人声判别装置的模块示意图。
具体实施方式
在对本发明具体实施方案进行说明之前,首先介绍一下本发明方案依据的原理。图1至图3给出了三段时域波形图的示例,图中横坐标为音频信号采样点的标号,纵坐标为采样点的相对强度,其中采样率为44100。以下各示意图中,采样率均为44100。其中,图1是纯人声的时域波形图;图2是纯音乐的时域波形图;图3是人唱歌的流行音乐时域波形图,可以看作是人声和音乐的叠加效果。
观察图1至图3的波形特征,可以发现人声的时域图和非人声的时域图具有明显差别。人说话声音是抑扬顿挫的,音节之间具有停顿,在停顿处声强很弱,体现在时域波形图上就是图像变化非常剧烈,而非人声就没有这样的典型特征。为了更加明显地体现出人声的上述特征,将图1至图3转换为滑动最大绝对值的曲线图,分别如图4至图6所示,横坐标依然为采样点的标号,而纵坐标为采样点的相对强度。滑动最大绝对值是指从一个长度为n的时间区间的时间相关数据中,选取多个连续的长度为m时间区间的该数据的最大值,m称为滑动长度。可以看出,图4与图5或图6之间的最大区别点就是曲线中是否会出现零值,人声的波形特征导致其滑动最大绝对值会出现零值,而音乐等非人声则不会出现零值。
本发明方案利用人声的滑动最大绝对值会出现零值的这个特性来实现人声判别。但具体应用中,人说话时周围的环境不可能是绝对安静的,或多或少会混有非人声。因此,需要确定一个合适的判别阈值,如果滑动最大绝对值的曲线越过了判别阈值代表的横线,则表明有人声。
图7是一段广播节目录音的时域波形,前面一段是主持人说话,后面是播放流行歌曲。其滑动最大绝对值曲线如图8所示,图7和图8中的横坐标为采样点的标号,纵坐标表示音频采样点的相对强度。通过选取合适的判别阈值就可以区分人声和非人声。图8中的横实线表示判别阈值。在主持人说话的部分,滑动最大绝对值曲线会出现与该横实线相交的现象;而在播放流行歌曲的部分,滑动最大绝对值曲线与该横实线就不再相交。本专利文件中,将滑动最大值曲线与判别阈值曲线相交称为滑动最大绝对值相对于判别阈值发生了跃迁,或简称为跃迁。滑动最大值曲线与判别阈值曲线相交的次数则称为跃迁次数。需要说明的是,图8中的判别阈值是一个恒定值,实际应用中判别阈值可能会根据音频信号的强度进行动态调整。
本发明以如下步骤实现:一种人声判别的方法,用于判别外部输入的音频信号中的人声,其特征在于,包括如下步骤:
计算所述音频信号的滑动最大绝对值;
判断所述滑动最大绝对值相对于判别阈值是否发生了跃迁,所述判别阈值用于与所述滑动最大绝对值的曲线进行比对;
若是,则进一步判断单位时间内的跃迁次数以及两次相邻跃迁之间的时间间隔是否达到预先设定的条件,若是,则得出音频信号为人声。
本发明实施例实现人声判别的具体流程如图9所示,包括如下步骤:
步骤901:进行参数初始化。需要初始化的参数包括音频信号的帧长、判别阈值、滑动长度和延迟帧数。此外,还要将目前最大绝对值和跃迁次数归零。
关于选取判别阈值的问题,可以从最大绝对值角度出发取到截至目前的脉冲编码调制(PCM)数据点的最大值的K分之一。K是正数,不同的K会导致判别能力的不同,建议选择K=8有较好的效果。通过实验发现实际上非人声也会跃迁到这条线,图10示出了典型的人声的滑动最大绝对值与判别阈值的关系图,图11示出了典型的非人声的滑动最大绝对值与判别阈值的关系图,其中横坐标均为采样点标号,纵坐标为采样点的相对强度。可以发现,人声和非人声跃迁的分布特征不一样,人声两次相邻跃迁之间的时间间隔大而非人声两次相邻跃迁之间的时间间隔小。因此为了进一步避免误判,还需要引入跃迁长度的判断,将两次相邻跃迁之间的时间间隔称为跃迁长度,只有发生跃迁并且跃迁长度大于预先设置的标准跃迁长度,才认为是人声。
本发明方案应用于实时处理的场合,对当前音频信号进行判别后,由于当前音频信号已经播放,无法对当前音频信号进行相应处理,只能处理当前音频信号之后的音频信号。而人说话声有一定的延续性,因此可以设置延迟帧数k,当判别当前帧为人声后,可以认为当前帧之后的连续k个帧的音频信号都是人声,而将这k个帧当作人声进行处理。k为正整数,例如可以取为5。
步骤902:将当前帧的每n个采样点作为一个分段,取每个分段的最大绝对值,得到当前帧各个分段的最大绝对值。
目前流行音乐等常用的音频采样率为44100,即每秒采样点的数目是44100,对于不同的采样率参数都需要进行适当调整,下面我们就以44100采样率为例。如果每个点都要做一次滑动最大绝对值的话,这样空间就会占用太大了,帧长为4096,滑动最大绝对值长度选择2048,那就意味着需要4096+2048个存储单元来存储这些数据,这显然存储单元占用太多。发明人通过实验发现256点的解析度就满足要求。因此可以规定n的值为256,滑动长度仍然是2048,一帧包括16个分段,滑动长度包括8个分段,每个分段取一个采样点,则只需要16+8=24个存储单元。
步骤903:对于其中任一分段,取该分段以及该分段之后滑动长度内的各个分段的初始最大绝对值中的最大值,作为该分段的滑动最大绝对值。例如,取分段1到分段9的初始绝对值中的最大值作为分段1的滑动最大绝对值;取分段2到分段10的初始绝对值中的最大值作为分段2的滑动最大绝对值并依次类推。。
步骤904:根据截至目前的PCM数据点的最大值更新判别阈值。判断延迟帧数是否为零,若为零则直接转至步骤905,若延迟帧数非零则减1,并将音频信号作为人声进行处理。所述处理根据具体应用而定,例如进行消音处理。
步骤905:根据最大绝对值以及判别阈值,判断是否滑动最大绝对值相对于判别阈值发生了跃迁。具体做法可以是:分别对该帧所有的滑动最大绝对值做下面的计算:(当前这个点滑动最大绝对值-判别阈值)×(该点上一个滑动最大绝对值-判别阈值),
判断乘积是否小于0,若是则发生了跃迁,否则没有跃迁。
步骤906:根据发生跃迁的分布判断音频信号是否为人声。
具体做法可以包括:
判断跃迁密度和跃迁长度是否达到要求。跃迁密度的含义就是单位时间内发生的跃迁次数。统计截至目前一段时间内的跃迁密度是否符合预定标准。该预定标准包括了最大的跃迁密度和最小跃迁密度,即规定了跃迁密度的上限和下限。所述预定预定标准可以通过对标准的人声信号进行训练得出。如果跃迁次数的密度小于所述上限并大于所述下限,同时跃迁长度大于标准跃迁长度,则音频信号是人声,否则不是人声。
若判断音频信号是人声,则将延迟帧数设置为预定值,再执行步骤907。如果判断音频信号非人声,则直接执行步骤907。
步骤907:判断是否结束人声判别,若是,则结束本流程,否则转至步骤903。
本发明实施例还提出一种用于进行人声判别的装置,其模块示意图如图12所示,包括:
计算模块1201,用于计算音频信号的滑动最大绝对值;
跃迁判断模块1202,用于判断所述计算模块1201得到的滑动最大绝对值是否相对于判别阈值发生了跃迁,并得到跃迁密度以及跃迁长度;
人声判别模块1203,用于判断所述跃迁判断模块1202所得单位时间内的跃迁次数以及两次相邻跃迁之间的时间间隔是否达到预先设定的要求,若是则判定音频信号为人声。
其中,所述计算模块1201可以包括:
最大绝对值单元1204,用于将当前帧的每n个采样点作为一个分段,取每个分段的音频信号最大绝对值,得到当前帧各个分段的初始最大绝对值,其中n为正整数;
比较滑动单元1205,用于根据最大绝对值单元1204所得各个分段的初始最大绝对值,得到各个分段的滑动最大绝对值,具体包括:取当前分段以及当前分段之后滑动长度内的各个分段的初始最大绝对值中的最大值,作为当前分段的滑动最大绝对值。
所述跃迁判断模块1202包括:
跃迁单元1206,用于计算当前分段的滑动最大绝对值减去预先设定的判别阈值的差,以及上一个分段的滑动最大绝对值与所述判别阈值的差,将所述两个差值相乘,判断所得乘积是否小于0,若是则跃迁次数加1;
计数单元1207,用于统计截至目前一段时间内跃迁单元1206得到的跃迁次数,以及两次相邻跃迁之间的跃迁长度,,并根据所统计的跃迁次数得到跃迁密度。
所述人声判别模块1203包括:
判断单元1208,用于判断所述跃迁判断模块1202得到的单位时间内的跃迁次数是否大于预先设置的下限并小于预先设置的上限,并且跃迁长度大于标准跃迁长度,若是则将所述音频信号标识为人声;
延迟单元1209,用于当所述判断单元1208将音频信号标识为人声时启动对延迟帧数的计数,该计数值随着时间递减,每隔音频信号1帧的时间则减1,减到零则停止递减。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,便携媒体播放器,或者其它具有媒体播放功能的电子产品)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明提出了一套适用于便携式多媒体播放器上的人声判别方案,所需计算量较小,需要的存储空间也较小。本发明实施例方案中,采取时域数据做滑动最大值,可以很好的反应出人声与非人声的特性;采用跃迁方式的判断标准,可以很好地避免由于不同音量带来的标准不一致问题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (13)

1、一种人声判别的方法,用于判别外部输入的音频信号中的人声,其特征在于,包括如下步骤:
计算所述音频信号的滑动最大绝对值;
判断所述滑动最大绝对值相对于判别阈值是否发生了跃迁,所述判别阈值用于与所述滑动最大绝对值的曲线进行比对;
若是,则进一步判断单位时间内的跃迁次数以及两次相邻跃迁之间的时间间隔是否达到预先设定的条件,若是,则得出音频信号为人声。
2、根据权利要求1所述的人声判别的方法,其特征在于,所述计算音频信号的滑动最大绝对值的步骤包括:
将所述音频信号的当前帧的每n个采样点作为一个分段,取每个分段的音频信号最大绝对值,得到当前帧各个分段的初始最大绝对值,其中n为正整数;
对于其中任一分段,取该分段以及该分段之后滑动长度内的各个分段的初始最大绝对值中的最大值,作为该分段的滑动最大绝对值。
3、根据权利要求2所述的人声判别的方法,其特征在于,当音频信号的采样率为44100时,n的值取为256。
4、根据权利要求2所述的人声判别的方法,其特征在于,所述判断所述滑动最大绝对值相对于判别阈值是否发生了跃迁包括:
计算目前的滑动最大绝对值减去预先设定的判别阈值的差,以及上一个滑动最大绝对值与所述判别阈值的差,将所述两个差值相乘,判断所得乘积是否小于0,若是,则滑动最大绝对值相对于判别阈值发生了跃迁;否则滑动最大绝对值相对于判别阈值没有发生跃迁。
5、根据权利要求4所述的人声判别的方法,其特征在于,所述判别阈值为音频信号截至目前最大绝对值的八分之一。
6、根据权利要求1所述的人声判别的方法,其特征在于,所述得出音频信号为人声的步骤之后,进一步包括:判断是否结束人声判别,若否,则转至所述计算音频信号的滑动最大绝对值的步骤。
7、根据权利要求1至6任一项所述的人声判别的方法,其特征在于,所述判断单位时间内的跃迁次数以及两次相邻跃迁之间的时间间隔是否达到预先设定的条件包括:
统计截至目前一段时间内的跃迁次数,根据所述跃迁次数计算得到跃迁密度,判断所述跃迁密度是否大于预先设置的下限,并且小于预先设置的上限,若是则单位时间内的跃迁次数达到预先设定的条件;
判断本次跃迁距离上一次跃迁的时间长度是否大于预先设置的标准跃迁长度,若是则两次相邻跃迁之间的时间间隔达到预先设定的条件。
8、根据权利要求7所述的人声判别的方法,其特征在于,所述判断单位时间内的跃迁次数是否达到预先设定的条件之前,进一步包括:
判断当前是否处于延迟帧数中,若是,则转至所述计算音频信号的滑动最大绝对值的步骤;否则,执行所述判断单位时间内的跃迁次数是否达到预先设定的要求的步骤。
9、一种人声判别的装置,用于判别外部输入的音频信号中的人声,其特征在于,包括:
计算模块,用于计算所述音频信号的滑动最大绝对值;
跃迁判断模块,用于判断所述计算模块得到的滑动最大绝对值是否相对于判别阈值发生了跃迁,并得到单位时间内的跃迁次数以及两次相邻跃迁之间的时间间隔;
人声判别模块,用于判断所述跃迁判断模块所得单位时间内的跃迁次数以及两次相邻跃迁之间的时间间隔是否达到预先设定的条件,若是则判定音频信号为人声。
10、根据权利要求9所述的人声判别装置,其特征在于,所述计算模块包括:
最大绝对值单元,用于将当前帧的每n个采样点作为一个分段,取每个分段的音频信号最大绝对值,得到当前帧各个分段的初始最大绝对值,其中n为正整数;
比较滑动单元,用于根据最大绝对值单元所得各个分段的初始最大绝对值,得到各个分段的滑动最大绝对值,具体包括:取当前分段以及当前分段之后滑动长度内的各个分段的初始最大绝对值中的最大值,作为当前分段的滑动最大绝对值。
11、根据权利要求9所述的人声判别装置,其特征在于,所述跃迁判断模块包括:
跃迁单元,用于计算当前分段的滑动最大绝对值减去预先设定的判别阈值的差,以及上一个分段的滑动最大绝对值与所述判别阈值的差,将所述两个差值相乘,判断所得乘积是否小于0,若是则跃迁次数加1;
计数单元,用于统计截至目前一段时间内跃迁单元得到的跃迁次数,以及两次相邻跃迁之间的跃迁长度,并根据所统计的跃迁次数得到跃迁密度。
12、根据权利要求9、10或11所述的人声判别装置,其特征在于,所述人声判别模块包括:
判断单元,用于判断所述跃迁判断模块得到的单位时间内的跃迁次数是否大于预先设置的下限并小于预先设置的上限,并且跃迁长度大于标准跃迁长度,若是则将所述音频信号标识为人声。
13、根据权利要求12所述的人声判别装置,其特征在于,所述人声判别模块进一步包括:
延迟单元,用于当所述判断单元将音频信号标识为人声时启动对延迟帧数的计数,该计数值每隔音频信号1帧的时间则减1,减到零则停止递减。
CN200810167142.1A 2008-09-26 2008-09-26 一种人声判别的方法和装置 Active CN101359472B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN200810167142.1A CN101359472B (zh) 2008-09-26 2008-09-26 一种人声判别的方法和装置
EP09817165.5A EP2328143B8 (en) 2008-09-26 2009-09-15 Human voice distinguishing method and device
PCT/CN2009/001037 WO2010037251A1 (zh) 2008-09-26 2009-09-15 一种人声判别的方法和装置
US13/001,596 US20110166857A1 (en) 2008-09-26 2009-09-15 Human Voice Distinguishing Method and Device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810167142.1A CN101359472B (zh) 2008-09-26 2008-09-26 一种人声判别的方法和装置

Publications (2)

Publication Number Publication Date
CN101359472A true CN101359472A (zh) 2009-02-04
CN101359472B CN101359472B (zh) 2011-07-20

Family

ID=40331902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810167142.1A Active CN101359472B (zh) 2008-09-26 2008-09-26 一种人声判别的方法和装置

Country Status (4)

Country Link
US (1) US20110166857A1 (zh)
EP (1) EP2328143B8 (zh)
CN (1) CN101359472B (zh)
WO (1) WO2010037251A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010037251A1 (zh) * 2008-09-26 2010-04-08 炬力集成电路设计有限公司 一种人声判别的方法和装置
CN104916288A (zh) * 2014-03-14 2015-09-16 深圳Tcl新技术有限公司 一种音频中人声突出处理的方法及装置
CN109545191A (zh) * 2018-11-15 2019-03-29 电子科技大学 一种歌曲中人声起始位置的实时检测方法
CN113131965A (zh) * 2021-04-16 2021-07-16 成都天奥信息科技有限公司 一种民航甚高频地空通信电台遥控装置及人声判别方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110890104B (zh) * 2019-11-26 2022-05-03 思必驰科技股份有限公司 语音端点检测方法及***

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236964B1 (en) * 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
US6411928B2 (en) * 1990-02-09 2002-06-25 Sanyo Electric Apparatus and method for recognizing voice with reduced sensitivity to ambient noise
US5457769A (en) * 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
JPH07287589A (ja) * 1994-04-15 1995-10-31 Toyo Commun Equip Co Ltd 音声区間検出装置
US5768263A (en) * 1995-10-20 1998-06-16 Vtel Corporation Method for talk/listen determination and multipoint conferencing system using such method
US6314392B1 (en) * 1996-09-20 2001-11-06 Digital Equipment Corporation Method and apparatus for clustering-based signal segmentation
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
JP2001166783A (ja) * 1999-12-10 2001-06-22 Sanyo Electric Co Ltd 音声区間検出方法
US7127392B1 (en) * 2003-02-12 2006-10-24 The United States Of America As Represented By The National Security Agency Device for and method of detecting voice activity
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
DE10327239A1 (de) * 2003-06-17 2005-01-27 Opticom Dipl.-Ing. Michael Keyhl Gmbh Vorrichtung und Verfahren zum extrahieren eines Testsignalabschnitts aus einem Audiosignal
CN100375996C (zh) * 2003-08-19 2008-03-19 联发科技股份有限公司 判断声音信号中是否混有低频声音信号的方法及相关装置
FI118704B (fi) * 2003-10-07 2008-02-15 Nokia Corp Menetelmä ja laite lähdekoodauksen tekemiseksi
US20050096900A1 (en) * 2003-10-31 2005-05-05 Bossemeyer Robert W. Locating and confirming glottal events within human speech signals
US7672835B2 (en) * 2004-12-24 2010-03-02 Casio Computer Co., Ltd. Voice analysis/synthesis apparatus and program
CA2613145A1 (en) * 2005-06-24 2006-12-28 Monash University Speech analysis system
CN102222498B (zh) * 2005-10-20 2013-05-01 日本电气株式会社 声音判别***、声音判别方法以及声音判别用程序
US8121835B2 (en) * 2007-03-21 2012-02-21 Texas Instruments Incorporated Automatic level control of speech signals
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
US8630848B2 (en) * 2008-05-30 2014-01-14 Digital Rise Technology Co., Ltd. Audio signal transient detection
US20100017203A1 (en) * 2008-07-15 2010-01-21 Texas Instruments Incorporated Automatic level control of speech signals
CN101359472B (zh) * 2008-09-26 2011-07-20 炬力集成电路设计有限公司 一种人声判别的方法和装置
JP2011065093A (ja) * 2009-09-18 2011-03-31 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010037251A1 (zh) * 2008-09-26 2010-04-08 炬力集成电路设计有限公司 一种人声判别的方法和装置
CN104916288A (zh) * 2014-03-14 2015-09-16 深圳Tcl新技术有限公司 一种音频中人声突出处理的方法及装置
CN104916288B (zh) * 2014-03-14 2019-01-18 深圳Tcl新技术有限公司 一种音频中人声突出处理的方法及装置
CN109545191A (zh) * 2018-11-15 2019-03-29 电子科技大学 一种歌曲中人声起始位置的实时检测方法
CN109545191B (zh) * 2018-11-15 2022-11-25 电子科技大学 一种歌曲中人声起始位置的实时检测方法
CN113131965A (zh) * 2021-04-16 2021-07-16 成都天奥信息科技有限公司 一种民航甚高频地空通信电台遥控装置及人声判别方法
CN113131965B (zh) * 2021-04-16 2023-11-07 成都天奥信息科技有限公司 一种民航甚高频地空通信电台遥控装置及人声判别方法

Also Published As

Publication number Publication date
EP2328143A4 (en) 2012-06-13
CN101359472B (zh) 2011-07-20
WO2010037251A1 (zh) 2010-04-08
EP2328143B8 (en) 2016-06-22
EP2328143A1 (en) 2011-06-01
EP2328143B1 (en) 2016-04-13
US20110166857A1 (en) 2011-07-07

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
Dean et al. The QUT-NOISE-TIMIT corpus for evaluation of voice activity detection algorithms
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
Kennedy et al. Laughter detection in meetings
JP5331784B2 (ja) スピーチエンドポインタ
US8442833B2 (en) Speech processing with source location estimation using signals from two or more microphones
CN110706690A (zh) 语音识别方法及其装置
EP1909263A1 (en) Exploitation of language identification of media file data in speech dialog systems
CN101359472B (zh) 一种人声判别的方法和装置
CN107274906A (zh) 语音信息处理方法、装置、终端及存储介质
CN102446504B (zh) 语音/音乐识别方法及装置
CN104079247A (zh) 均衡器控制器和控制方法
CN103915093B (zh) 一种实现语音歌唱化的方法和装置
CN101578659A (zh) 音质转换装置及音质转换方法
CN112133277B (zh) 样本生成方法及装置
CN105706167B (zh) 有语音的话音检测方法和装置
Rossignol et al. Feature extraction and temporal segmentation of acoustic signals
JP2002136764A (ja) 入力音声をキャラクタの動作に反映させるエンタテインメント装置、方法および記憶媒体
CN102237085A (zh) 音频信号的分类方法及装置
CN107274892A (zh) 说话人识别方法及装置
CN104364845A (zh) 处理装置、处理方法、程序、计算机可读信息记录介质以及处理***
US20050159942A1 (en) Classification of speech and music using linear predictive coding coefficients
JP4696418B2 (ja) 情報検出装置及び方法
WO2007049879A1 (en) Apparatus for vocal-cord signal recognition and method thereof
US20150112687A1 (en) Method for rerecording audio materials and device for implementation thereof

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20170612

Address after: 519085 C District, 1# workshop, No. 1, science and technology No. four road, hi tech Zone, Zhuhai, Guangdong, China

Patentee after: ACTIONS (ZHUHAI) TECHNOLOGY CO., LTD.

Address before: 519085 No. 1, unit 15, building 1, 1 Da Ha Road, Tang Wan Town, Guangdong, Zhuhai

Patentee before: Juli Integrated Circuit Design Co., Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191010

Address after: Room 1101, Wanguo building office, intersection of Tongling North Road and North 2nd Ring Road, Xinzhan District, Hefei City, Anhui Province, 230000

Patentee after: Hefei Torch Core Intelligent Technology Co., Ltd.

Address before: 519085 High-tech Zone, Tangjiawan Town, Zhuhai City, Guangdong Province

Patentee before: Torch Core (Zhuhai) Technology Co., Ltd.

TR01 Transfer of patent right