CN103530432A - 一种具有语音提取功能的会议记录器及语音提取方法 - Google Patents
一种具有语音提取功能的会议记录器及语音提取方法 Download PDFInfo
- Publication number
- CN103530432A CN103530432A CN201310439113.7A CN201310439113A CN103530432A CN 103530432 A CN103530432 A CN 103530432A CN 201310439113 A CN201310439113 A CN 201310439113A CN 103530432 A CN103530432 A CN 103530432A
- Authority
- CN
- China
- Prior art keywords
- speaker
- voice
- module
- voice segments
- segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种具有说话人语音提取功能的会议记录器,包括主控模块、录音与放音模块、可移动存储模块、交互与显示模块和说话人语音处理模块,其中说话人语音处理模块包含说话人分割模块和说话人聚类模块。主控模块将会议语音流传输至说话人分割模块,说话人分割模块检测上述语音流中说话人改变点,根据这些改变点将语音流分成多个语音段;说话人聚类模块利用谱聚类算法对分割出来的语音段进行说话人聚类,把相同说话人的语音段按顺序拼接在一起,得到说话人个数以及各个说话人的语音。本发明的会议记录器及语音提取方法,可以从会议语音中自动提取出各个说话人的语音,功能全面且使用方便。
Description
技术领域
本发明涉及音频处理领域,特别涉及一种具有语音提取功能的会议记录器及语音提取方法。
背景技术
目前市场上的会议记录器只是具有简单的录音、回放、转存等功能,没有说话人语音内容分析与理解的功能。使用者在做作会议记录时,如果需要针对某一个特定的说话人讲话进行汇总与处理,必须听完整个录音,人工进行识别是否为同一说话人。为了节省时间,快进播放又会存在漏掉有用信息的风险。通过手工对语音数据进行标注和提取,对使用者来说,是极为不方便的。
因此,人们希望会议记录器除了能录音、放音等功能外,还能对会议记录内容进行内容分析与理解,特别希望会议记录器能根据会议语音资料自动地从所有与会人员中提取出每个说话人的语音。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种具有语音提取功能的会议记录器,其不仅具有录音、放音、转存功能,而且还可以自动提取各个说话人的语音。
本发明的另一目的在于提供一种语音提取方法,其能分析说话人的个数以及对各个说话人的语音进行分类。
本发明的目的通过以下的技术方案实现:一种具有语音提取功能的会议记录器,包括主控模块、录音与放音模块、可移动存储模块、交互与显示模块,还包括说话人语音处理模块,说话人语音处理模块包含说话人分割模块和说话人聚类模块,其中
说话人分割模块:主控模块将会议音流传输至说话人分割模块,说话人分割模块检测上述语音流中说话人改变点,根据这些改变点将语音流分成多个语音段;
说话人聚类模块,利用谱聚类算法对说话人分割模块分割出来的语音段进行说话人聚类,把相同说话人的语音段按顺序拼接在一起,得到说话人个数以及各个说话人的语音。
所述的说话人分割模块,包含静音段和语音段检测模块、音频特征提取模块、说话人改变点检测模块和语音段分割模块,其中
静音段和语音段检测模块,利用基于门限判决的静音检测算法从上述读入的语音流中找出静音段和语音段;
音频特征提取模块,将上述语音段按顺序拼接成一个长语音段,并从长语音段中提取音频特征;
说话人改变点检测模块,利用上述提取出来的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;
语音段分割模块,根据上述说话人改变点,把语音流分割成多个语音段,且每个语音段只包含一个说话人。
静音段和语音段检测模块中,所述的基于门限判决的静音检测算法包含以下顺序的步骤:
(1)对读入的语音流进行分帧,并计算每帧语音的能量,得到语音流的能量特征矢量;
(2)计算能量门限;
(3)将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,将相邻的静音帧按顺序拼接成一个静音段,将相邻的语音帧按顺序拼接成一个语音段。
音频特征提取模块中,所述的音频特征包括梅尔频率倒谱系数(MelFrequency Cepstral Coefficients,MFCCs)及其一阶差分(Delta-MFCCs)。梅尔频率倒谱系数及其一阶差分是业内公知的特征。
所述录音与放音模块,包括麦克风、扬声器和音频处理芯片。
所述交互与显示模块,包括一个触摸屏及其控制电路,提供具有控制功能的用户交互界面,利用触摸屏与用户交互。
所述可移动存储模块,采用SD卡实现对数据的存储。
本发明的另一目的通过以下的技术方案来实现:一种语音提取方法,包含以下顺序的步骤:
(1)读入语音流:读入记录有多说话人语音的语音流;
(2)通过说话人语音处理模块对读入的语音流进行处理,其中说话人语音处理模块包括说话人分割模块和说话人聚类模块;
(3)通过说话人分割模块检测上述语音流中说话人改变点,根据这些改变点将语音流分成多个语音段;
(4)说话人聚类模块利用谱聚类算法对说话人分割模块分割出来的语音段进行说话人聚类,把相同说话人的语音段按顺序拼接在一起,得到说话人个数以及各个说话人的语音。
所述的步骤(3)具体包含以下步骤:
a、说话人分割模块包含静音段和语音段检测模块、音频特征提取模块、说话人改变点检测模块和语音段分割模块;
b、静音段和语音段检测模块利用基于门限判决的静音检测算法从上述读入的语音流中找出静音段和语音段;
c、音频特征提取模块,将上述语音段按顺序拼接成一个长语音段,并从长语音段中提取音频特征;
d、说话人改变点检测模块,利用上述提取出来的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;
e、语音段分割模块,根据上述说话人改变点,把语音流分割成多个语音段,且每个语音段只包含一个说话人。
步骤b中,所述的基于门限判决的静音检测算法包含以下顺序的步骤:
(1)对读入的语音流进行分帧,并计算每帧语音的能量,得到语音流的能量特征矢量;
(2)计算能量门限;
(3)将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,将相邻的静音帧按顺序拼接成一个静音段,将相邻的语音帧按顺序拼接成一个语音段;
步骤c中,所述的音频特征包括梅尔频率倒谱系数及其一阶差分。
本发明与现有技术相比,具有如下优点和有益效果:
A、使用方便、节省时间:本发明所述的会议记录器通过录音与放音模块采集语音数据之后,可以对语音资料自动进行处理,将各个说话人区别开来,并将各个说话人的语音进行归类、存储,使用者可以根据自己的需要直接选择特定说话人及特定说话人的语音。
B、功能全面:本发明的会议记录器同时具有一般会议记录器的功能,如录音、放音、转存,另外其可移动存储模块可以将别处获得的语音数据拷贝到本会议记录器进行分析处理。
附图说明
图1为本发明所述的一种具有说话人语音提取功能的会议记录器的结构框图;
图2为图1所述会议记录器的工作流程图;
图3为本发明所述的语音提取方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,如图1、2,一种具有说话人语音提取功能的会议记录器,如图1,包括主控模块、录音与放音模块、可移动存储模块、交互与显示模块,还包括说话人语音处理模块,说话人语音处理模块包含说话人分割模块和说话人聚类模块,其中
录音与放音模块,包括麦克风、扬声器和音频处理芯片;
交互与显示模块,包括一个触摸屏及其控制电路,提供具有控制功能的用户交互界面,利用触摸屏与用户交互;
可移动存储模块,采用SD卡实现对数据的存储;
录音与放音模块,负责语音资料的录入与播放;
主控模块,发出指令,控制各个模块之间的协调工作,主控模块采用基于三星S5PV210处理器的微电脑处理平台,搭载嵌入式Linux***;
说话人分割模块,主控模块将读入记录有多个说话人语音的语音流传输至说话人分割模块,说话人分割模块检测上述语音流中说话人改变点,根据这些改变点将语音流分成多个语音段,说话人分割模块具体包含静音段和语音段检测模块、音频特征提取模块、说话人改变点检测模块和语音段分割模块,其中
静音段和语音段检测模块,利用基于门限判决的静音检测算法从上述读入的语音流中找出静音段和语音段,其中基于门限判决的静音检测算法包含以下顺序的步骤:
(1)对读入的语音流进行分帧,并计算每帧语音的能量,得到语音流的能量特征矢量;
(2)计算能量门限;
(3)将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,将相邻的静音帧按顺序拼接成一个静音段,将相邻的语音帧按顺序拼接成一个语音段;
音频特征提取模块,将上述语音段按顺序拼接成一个长语音段,并从长语音段中提取音频特征,音频特征包括梅尔频率倒谱系数及其一阶差分;
说话人改变点检测模块中,所述的利用贝叶斯信息准则确定说话人改变点的方法具体包括以下步骤:
(1)将经过静音检测得到的各个语音段按顺序拼接成一个长语音段,将长语音段切分成数据窗,窗长为2秒,窗移为0.1秒。对每个数据窗进行分帧,帧长为32毫秒,帧移为16毫秒,从每一帧语音信号中提取MFCCs与Delta-MFCCs特征,MFCCs与Delta-MFCCs的维数M都取12,每个数据窗的特征构成一个特征矩阵F,特征矩阵F的维数d=2M为24;
(2)计算两个相邻数据窗(x和y)之间的BIC距离,BIC距离计算公式如下:
其中,z是将数据窗x和y合并之后得到的数据窗,nx和ny分别是数据窗x和y的帧数,Fx、Fy和Fz分别是数据窗x、y和z的特征矩阵,cov(Fx)、cov(Fy)和cov(Fz)分别是特征矩阵Fx、Fy和Fz的协方差矩阵,det(·)表示求矩阵的行列式值,α是惩罚系数且实验取值为2.0;
(3)如果BIC距离ΔBIC大于零,则这两个数据窗被视为属于两个不同的说话人(即它们之间存在说话人改变点),否则这两个数据窗被视为属于同一个说话人并将它们合并;
(4)不断地滑动数据窗判断两个相邻数据窗之间的BIC距离是否大于零,并保存说话人改变点,直到长语音段的所有相邻数据窗之间的BIC距离都被判断完为止;
语音段分割模块,根据上述说话人改变点,把语音流分割成多个语音段,且每个语音段只包含一个说话人;
说话人聚类模块中,所述的谱聚类方法具体包括以下步骤:
(1)从每帧语音中提取梅尔频率倒谱系数及其一阶差分的音频特征,MFCCs和Delta-MFCCs的维数M,每个语音段的特征构成一个特征矩阵Fj,特征矩阵Fj的维数d=2M;
(2)根据各个特征矩阵Fj得到所有待聚类语音段的特征矩阵集合F={F1,...,FJ},J为语音段总个数,再根据F构造亲和矩阵A∈RJ×J,A的第(i,j)个元素Aij定义如下:
其中,d(Fi,Fj)是特征矩阵Fi与Fj之间的欧式距离,σi或σj表示尺度参数,定义为第i或j个特征矩阵Fi或Fj与其它J-1个特征矩阵之间的欧式距离矢量的方差,所述T表示将多人会话语音分成的总帧数,i、j表示语音段的编号;
(3)构造对角矩阵D,它的第(i,i)个元素等于亲和矩阵A的第i行所有元素之和,再根据矩阵D和A构造归一化的亲和矩阵L=D-1/2AD-1/2;
根据估计出来的说话人个数K,构造矩阵V=[v1,v2,...,vK]∈RJ×K,式中:1≤k≤Kmax;
(5)归一化矩阵V的每一行,得到矩阵Y∈RJ×K,Y的第(j,k)个元素Yjk:
(6)将矩阵Y中的每一行当作空间RK中的一个点,利用K均值算法聚类成K类;
(7)当矩阵Y的第j行被聚类在第k类中,则特征矩阵Fj所对应的语音段判为第k类即第k个说话人;
(8)根据上述聚类结果,得到说话人个数、各个说话人的语音时长及各个说话人的语音段数。
如图2,一种具有说话人语音提取功能的会议记录器的工作流程如下所示:
1)会议记录器开机,进行***初始化;
2)通过交互与显示模块,会议记录器显示交互界面;
3)使用者通过交互界面选择是否进行录音动作:
若录音,则主控模块控制录音与放音模块开始录音,并将录音资料存储在可移动存储模块中,结束后返回交互界面;
若不录音,则使用者通过交互界面选择已录文件,然后主控模块控制说话人语音处理模块即说话人分割模块和说话人聚类模块,对说话人的语音进行分割、聚类处理,提取出各个说话人的语音;
4)然后交互界面提示使用者选择是否播放原始语音:
若是,则播放原始语音;
若否,则进一步提示是否某说话人语音:若是,则选择此人并播放其语音;若否,则返回到交互界面。
一种语音提取方法,如图3,包含以下顺序的步骤:
(1)读入语音流:读入记录有多说话人语音的语音流;
(2)通过说话人语音处理模块对读入的语音流进行处理,其中说话人语音处理模块包括说话人分割模块和说话人聚类模块;
(3)通过说话人分割模块检测上述语音流中说话人改变点,根据这些改变点将语音流分成多个语音段,具体包含以下步骤:
a、说话人分割模块包含静音段和语音段检测模块、音频特征提取模块、说话人改变点检测模块和语音段分割模块;
b、静音段和语音段检测模块利用基于门限判决的静音检测算法从上述读入的语音流中找出静音段和语音段,其中基于门限判决的静音检测算法包含以下顺序的步骤:
(1)对读入的语音流进行分帧,并计算每帧语音的能量,得到语音流的能量特征矢量;
(2)计算能量门限;
(3)将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,将相邻的静音帧按顺序拼接成一个静音段,将相邻的语音帧按顺序拼接成一个语音段;
c、音频特征提取模块,将上述语音段按顺序拼接成一个长语音段,并从长语音段中提取音频特征,音频特征包括梅尔频率倒谱系数及其一阶差分;
d、说话人改变点检测模块,利用上述提取出来的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;
e、语音段分割模块,根据上述说话人改变点,把语音流分割成多个语音段,且每个语音段只包含一个说话人;
(4)说话人聚类模块利用谱聚类算法对说话人分割模块分割出来的语音段进行说话人聚类,把相同说话人的语音段按顺序拼接在一起,得到说话人个数以及各个说话人的语音。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种具有语音提取功能的会议记录器,包括主控模块、录音与放音模块、可移动存储模块、交互与显示模块,其特征在于,还包括说话人语音处理模块,说话人语音处理模块包含说话人分割模块和说话人聚类模块,其中
说话人分割模块:主控模块将会议语音流传输至说话人分割模块,说话人分割模块检测上述会议语音流中说话人改变点,根据这些改变点将语音流分成多个语音段;
说话人聚类模块,利用谱聚类算法对说话人分割模块分割出来的语音段进行说话人聚类,把相同说话人的语音段按顺序拼接在一起,得到说话人个数以及各个说话人的语音。
2.根据权利要求1所述的具有语音提取功能的会议记录器,其特征在于,所述的说话人分割模块,包含静音段和语音段检测模块、音频特征提取模块、说话人改变点检测模块和语音段分割模块,其中
静音段和语音段检测模块,利用基于门限判决的静音检测算法从上述读入的语音流中找出静音段和语音段;
音频特征提取模块,将上述语音段按顺序拼接成一个长语音段,并从长语音段中提取音频特征;
说话人改变点检测模块,利用上述提取出来的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;
语音段分割模块,根据上述说话人改变点,把语音流分割成多个语音段,且每个语音段只包含一个说话人。
3.根据权利要求2所述的具有语音提取功能的会议记录器,其特征在于,静音段和语音段检测模块中,所述的基于门限判决的静音检测算法包含以下顺序的步骤:
(1)对读入的语音流进行分帧,并计算每帧语音的能量,得到语音流的能量特征矢量;
(2)计算能量门限;
(3)将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,将相邻的静音帧按顺序拼接成一个静音段,将相邻的语音帧按顺序拼接成一个语音段。
4.根据权利要求2所述的具有语音提取功能的会议记录器,其特征在于,音频特征提取模块中,所述的音频特征包括梅尔频率倒谱系数及其一阶差分。
5.根据权利要求1所述的具有语音提取功能的会议记录器,其特征在于,所述录音与放音模块,包括麦克风、扬声器和音频处理芯片。
6.根据权利要求1所述的具有语音提取功能的会议记录器,其特征在于,所述交互与显示模块,包括一个触摸屏及其控制电路,提供具有控制功能的用户交互界面,利用触摸屏与用户交互。
7.根据权利要求1所述的具有语音提取功能的会议记录器,其特征在于,所述可移动存储模块,采用SD卡实现对数据的存储。
8.一种语音提取方法,包含以下顺序的步骤:
(1)读入语音流:读入记录有多说话人语音的语音流;
(2)通过说话人语音处理模块对读入的语音流进行处理,其中说话人语音处理模块包括说话人分割模块和说话人聚类模块;
(3)通过说话人分割模块检测上述语音流中说话人改变点,根据这些改变点将语音流分成多个语音段;
(4)说话人聚类模块利用谱聚类算法对说话人分割模块分割出来的语音段进行说话人聚类,把相同说话人的语音段按顺序拼接在一起,得到说话人个数以及各个说话人的语音。
9.根据权利要求8所述的语音提取方法,其特征在于,所述的步骤(3)具体包含以下步骤:
a、说话人分割模块包含静音段和语音段检测模块、音频特征提取模块、说话人改变点检测模块和语音段分割模块;
b、静音段和语音段检测模块利用基于门限判决的静音检测算法从上述读入的语音流中找出静音段和语音段;
c、音频特征提取模块,将上述语音段按顺序拼接成一个长语音段,并从长语音段中提取音频特征;
d、说话人改变点检测模块,利用上述提取出来的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;
e、语音段分割模块,根据上述说话人改变点,把语音流分割成多个语音段,且每个语音段只包含一个说话人。
10.根据权利要求9所述的语音提取方法,其特征在于,步骤b中,所述的基于门限判决的静音检测算法包含以下顺序的步骤:
(1)对读入的语音流进行分帧,并计算每帧语音的能量,得到语音流的能量特征矢量;
(2)计算能量门限;
(3)将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,将相邻的静音帧按顺序拼接成一个静音段,将相邻的语音帧按顺序拼接成一个语音段;
步骤c中,所述的音频特征包括梅尔频率倒谱系数(Mel Frequency CepstralCoefficients,MFCCs)及其一阶差分(Delta-MFCCs)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310439113.7A CN103530432A (zh) | 2013-09-24 | 2013-09-24 | 一种具有语音提取功能的会议记录器及语音提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310439113.7A CN103530432A (zh) | 2013-09-24 | 2013-09-24 | 一种具有语音提取功能的会议记录器及语音提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103530432A true CN103530432A (zh) | 2014-01-22 |
Family
ID=49932441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310439113.7A Pending CN103530432A (zh) | 2013-09-24 | 2013-09-24 | 一种具有语音提取功能的会议记录器及语音提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103530432A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021785A (zh) * | 2014-05-28 | 2014-09-03 | 华南理工大学 | 一种提取会议中最重要嘉宾语音的方法 |
CN104409080A (zh) * | 2014-12-15 | 2015-03-11 | 北京国双科技有限公司 | 语音端点检测方法和装置 |
CN105161093A (zh) * | 2015-10-14 | 2015-12-16 | 科大讯飞股份有限公司 | 一种判断说话人数目的方法及*** |
CN105895102A (zh) * | 2015-11-15 | 2016-08-24 | 乐视移动智能信息技术(北京)有限公司 | 录音编辑方法及录音装置 |
WO2016165346A1 (zh) * | 2015-09-16 | 2016-10-20 | 中兴通讯股份有限公司 | 存储和播放音频文件的方法和装置 |
CN106375182A (zh) * | 2016-08-22 | 2017-02-01 | 腾讯科技(深圳)有限公司 | 基于即时通信应用的语音通信方法及装置 |
CN107886955A (zh) * | 2016-09-29 | 2018-04-06 | 百度在线网络技术(北京)有限公司 | 一种语音会话样本的身份识别方法、装置及设备 |
CN106610451B (zh) * | 2016-12-23 | 2019-01-04 | 杭州电子科技大学 | 基于倒谱及贝叶斯决策的周期信号基频提取与匹配方法 |
CN109599120A (zh) * | 2018-12-25 | 2019-04-09 | 哈尔滨工程大学 | 一种基于大规模养殖场厂哺乳动物异常声音监测方法 |
CN109767757A (zh) * | 2019-01-16 | 2019-05-17 | 平安科技(深圳)有限公司 | 一种会议记录生成方法和装置 |
CN109960743A (zh) * | 2019-01-16 | 2019-07-02 | 平安科技(深圳)有限公司 | 会议内容区分方法、装置、计算机设备及存储介质 |
CN110021302A (zh) * | 2019-03-06 | 2019-07-16 | 厦门快商通信息咨询有限公司 | 一种智能办公会议***及会议记录方法 |
CN110197665A (zh) * | 2019-06-25 | 2019-09-03 | 广东工业大学 | 一种用于公安刑侦监听的语音分离与跟踪方法 |
WO2019183904A1 (zh) * | 2018-03-29 | 2019-10-03 | 华为技术有限公司 | 自动识别音频中不同人声的方法 |
CN110517667A (zh) * | 2019-09-03 | 2019-11-29 | 龙马智芯(珠海横琴)科技有限公司 | 一种语音处理方法、装置、电子设备和存储介质 |
CN110517694A (zh) * | 2019-09-06 | 2019-11-29 | 北京清帆科技有限公司 | 一种教学场景说话人转换检测*** |
CN110689906A (zh) * | 2019-11-05 | 2020-01-14 | 江苏网进科技股份有限公司 | 一种基于语音处理技术的执法检测方法及*** |
CN110930984A (zh) * | 2019-12-04 | 2020-03-27 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN111883159A (zh) * | 2020-08-05 | 2020-11-03 | 龙马智芯(珠海横琴)科技有限公司 | 语音的处理方法及装置 |
CN111968657A (zh) * | 2020-08-17 | 2020-11-20 | 北京字节跳动网络技术有限公司 | 语音处理方法、装置、电子设备和计算机可读介质 |
CN112053691A (zh) * | 2020-09-21 | 2020-12-08 | 广东迷听科技有限公司 | 会议辅助方法、装置、电子设备及存储介质 |
CN112165599A (zh) * | 2020-10-10 | 2021-01-01 | 广州科天视畅信息科技有限公司 | 一种用于视频会议的会议纪要自动生成方法 |
CN112382282A (zh) * | 2020-11-06 | 2021-02-19 | 北京五八信息技术有限公司 | 一种语音去噪处理方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6873953B1 (en) * | 2000-05-22 | 2005-03-29 | Nuance Communications | Prosody based endpoint detection |
CN101211615A (zh) * | 2006-12-31 | 2008-07-02 | 于柏泉 | 一种对特定人的语音进行自动录制的方法、***及设备 |
CN102543063A (zh) * | 2011-12-07 | 2012-07-04 | 华南理工大学 | 基于说话人分割与聚类的多说话人语速估计方法 |
CN102682760A (zh) * | 2011-03-07 | 2012-09-19 | 株式会社理光 | 重叠语音检测方法和*** |
CN102968986A (zh) * | 2012-11-07 | 2013-03-13 | 华南理工大学 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
-
2013
- 2013-09-24 CN CN201310439113.7A patent/CN103530432A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6873953B1 (en) * | 2000-05-22 | 2005-03-29 | Nuance Communications | Prosody based endpoint detection |
CN101211615A (zh) * | 2006-12-31 | 2008-07-02 | 于柏泉 | 一种对特定人的语音进行自动录制的方法、***及设备 |
CN102682760A (zh) * | 2011-03-07 | 2012-09-19 | 株式会社理光 | 重叠语音检测方法和*** |
CN102543063A (zh) * | 2011-12-07 | 2012-07-04 | 华南理工大学 | 基于说话人分割与聚类的多说话人语速估计方法 |
CN102968986A (zh) * | 2012-11-07 | 2013-03-13 | 华南理工大学 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021785A (zh) * | 2014-05-28 | 2014-09-03 | 华南理工大学 | 一种提取会议中最重要嘉宾语音的方法 |
CN104409080B (zh) * | 2014-12-15 | 2018-09-18 | 北京国双科技有限公司 | 语音端点检测方法和装置 |
CN104409080A (zh) * | 2014-12-15 | 2015-03-11 | 北京国双科技有限公司 | 语音端点检测方法和装置 |
WO2016165346A1 (zh) * | 2015-09-16 | 2016-10-20 | 中兴通讯股份有限公司 | 存储和播放音频文件的方法和装置 |
CN105161093B (zh) * | 2015-10-14 | 2019-07-09 | 科大讯飞股份有限公司 | 一种判断说话人数目的方法及*** |
CN105161093A (zh) * | 2015-10-14 | 2015-12-16 | 科大讯飞股份有限公司 | 一种判断说话人数目的方法及*** |
WO2017080235A1 (zh) * | 2015-11-15 | 2017-05-18 | 乐视控股(北京)有限公司 | 录音编辑方法及录音装置 |
CN105895102A (zh) * | 2015-11-15 | 2016-08-24 | 乐视移动智能信息技术(北京)有限公司 | 录音编辑方法及录音装置 |
CN106375182A (zh) * | 2016-08-22 | 2017-02-01 | 腾讯科技(深圳)有限公司 | 基于即时通信应用的语音通信方法及装置 |
CN106375182B (zh) * | 2016-08-22 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 基于即时通信应用的语音通信方法及装置 |
CN107886955A (zh) * | 2016-09-29 | 2018-04-06 | 百度在线网络技术(北京)有限公司 | 一种语音会话样本的身份识别方法、装置及设备 |
CN107886955B (zh) * | 2016-09-29 | 2021-10-26 | 百度在线网络技术(北京)有限公司 | 一种语音会话样本的身份识别方法、装置及设备 |
CN106610451B (zh) * | 2016-12-23 | 2019-01-04 | 杭州电子科技大学 | 基于倒谱及贝叶斯决策的周期信号基频提取与匹配方法 |
WO2019183904A1 (zh) * | 2018-03-29 | 2019-10-03 | 华为技术有限公司 | 自动识别音频中不同人声的方法 |
CN109599120A (zh) * | 2018-12-25 | 2019-04-09 | 哈尔滨工程大学 | 一种基于大规模养殖场厂哺乳动物异常声音监测方法 |
CN109599120B (zh) * | 2018-12-25 | 2021-12-07 | 哈尔滨工程大学 | 一种基于大规模养殖场厂哺乳动物异常声音监测方法 |
CN109767757A (zh) * | 2019-01-16 | 2019-05-17 | 平安科技(深圳)有限公司 | 一种会议记录生成方法和装置 |
CN109960743A (zh) * | 2019-01-16 | 2019-07-02 | 平安科技(深圳)有限公司 | 会议内容区分方法、装置、计算机设备及存储介质 |
WO2020147407A1 (zh) * | 2019-01-16 | 2020-07-23 | 平安科技(深圳)有限公司 | 一种会议记录生成方法、装置、存储介质及计算机设备 |
CN110021302A (zh) * | 2019-03-06 | 2019-07-16 | 厦门快商通信息咨询有限公司 | 一种智能办公会议***及会议记录方法 |
CN110197665A (zh) * | 2019-06-25 | 2019-09-03 | 广东工业大学 | 一种用于公安刑侦监听的语音分离与跟踪方法 |
CN110517667A (zh) * | 2019-09-03 | 2019-11-29 | 龙马智芯(珠海横琴)科技有限公司 | 一种语音处理方法、装置、电子设备和存储介质 |
CN110517694A (zh) * | 2019-09-06 | 2019-11-29 | 北京清帆科技有限公司 | 一种教学场景说话人转换检测*** |
CN110689906A (zh) * | 2019-11-05 | 2020-01-14 | 江苏网进科技股份有限公司 | 一种基于语音处理技术的执法检测方法及*** |
CN110930984A (zh) * | 2019-12-04 | 2020-03-27 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN111883159A (zh) * | 2020-08-05 | 2020-11-03 | 龙马智芯(珠海横琴)科技有限公司 | 语音的处理方法及装置 |
CN111968657A (zh) * | 2020-08-17 | 2020-11-20 | 北京字节跳动网络技术有限公司 | 语音处理方法、装置、电子设备和计算机可读介质 |
CN112053691A (zh) * | 2020-09-21 | 2020-12-08 | 广东迷听科技有限公司 | 会议辅助方法、装置、电子设备及存储介质 |
CN112165599A (zh) * | 2020-10-10 | 2021-01-01 | 广州科天视畅信息科技有限公司 | 一种用于视频会议的会议纪要自动生成方法 |
CN112382282A (zh) * | 2020-11-06 | 2021-02-19 | 北京五八信息技术有限公司 | 一种语音去噪处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103530432A (zh) | 一种具有语音提取功能的会议记录器及语音提取方法 | |
CN105405439B (zh) | 语音播放方法及装置 | |
CN107274916B (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
Heittola et al. | Supervised model training for overlapping sound events based on unsupervised source separation | |
Eronen et al. | Audio-based context recognition | |
US8793127B2 (en) | Method and apparatus for automatically determining speaker characteristics for speech-directed advertising or other enhancement of speech-controlled devices or services | |
Temko et al. | Acoustic event detection in meeting-room environments | |
US8867891B2 (en) | Video concept classification using audio-visual grouplets | |
US8699852B2 (en) | Video concept classification using video similarity scores | |
US20150081288A1 (en) | Speech recognition device and the operation method thereof | |
EP2642427A2 (en) | Video concept classification using temporally-correlated grouplets | |
US20030231775A1 (en) | Robust detection and classification of objects in audio using limited training data | |
CN101470897B (zh) | 基于音视频融合策略的敏感影片检测方法 | |
US20060224438A1 (en) | Method and device for providing information | |
Imoto | Introduction to acoustic event and scene analysis | |
US20220199099A1 (en) | Audio Signal Processing Method and Related Product | |
KR100792016B1 (ko) | 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오요약 장치 및 그 방법 | |
Lailler et al. | Semi-supervised and unsupervised data extraction targeting speakers: From speaker roles to fame? | |
CN104021785A (zh) | 一种提取会议中最重要嘉宾语音的方法 | |
CN103559882A (zh) | 一种基于说话人分割的会议主持人语音提取方法 | |
CN107358947A (zh) | 说话人重识别方法及*** | |
CN107025913A (zh) | 一种录音方法及终端 | |
Gao et al. | Wearable audio monitoring: Content-based processing methodology and implementation | |
WO2023088448A1 (zh) | 语音处理方法、设备及存储介质 | |
JP2008005167A (ja) | 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140122 |