CN107430850A - 确定谐波信号的特征 - Google Patents

确定谐波信号的特征 Download PDF

Info

Publication number
CN107430850A
CN107430850A CN201680017664.6A CN201680017664A CN107430850A CN 107430850 A CN107430850 A CN 107430850A CN 201680017664 A CN201680017664 A CN 201680017664A CN 107430850 A CN107430850 A CN 107430850A
Authority
CN
China
Prior art keywords
frequency
signal
pitch
estimation
chirp rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680017664.6A
Other languages
English (en)
Inventor
大卫·卡尔森·布拉德利
黄瑶
马西莫·马斯卡洛
贾尼斯·I·印托尼
肖恩·迈克尔·欧康纳
以利沙·纳塔利·马罗格力
罗伯特·尼古拉斯·希尔顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Crossbow Ltd By Share Ltd
Original Assignee
Crossbow Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/969,036 external-priority patent/US9922668B2/en
Priority claimed from US14/969,038 external-priority patent/US9842611B2/en
Priority claimed from US14/969,022 external-priority patent/US9548067B2/en
Priority claimed from US14/969,029 external-priority patent/US9870785B2/en
Application filed by Crossbow Ltd By Share Ltd filed Critical Crossbow Ltd By Share Ltd
Priority claimed from PCT/US2016/016261 external-priority patent/WO2016126753A1/en
Publication of CN107430850A publication Critical patent/CN107430850A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Auxiliary Devices For Music (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

可以从谐波信号计算的特征包括分数啁啾率,音高和谐波的振幅。例如,可以通过计算对应于不同分数啁啾率的得分并选择最高得分来估计分数啁啾率。例如,可以通过利用频率分布中的峰到峰距离,从利用估计的分数啁啾率计算的频率表示计算第一音高。例如,可以通过利用频率表示的部分的相关性,使用第一音高和信号的频率表示来计算第二音高。可以使用估计的分数啁啾率和第二音高来确定信号的谐波的振幅。估计的分数啁啾率,第二音高和谐波振幅中的任何一个可以用于进一步的处理,例如语音识别,说话人验证,说话人识别或信号重构。

Description

确定谐波信号的特征
优先权要求
本申请基于并要求以下申请的优先权:2015年2月6日提交的题为“光谱运动变换”的美国临时专利申请No.62/112836;2015年2月6日提交的题为“音高速度评估”的美国临时专利申请No.62/112796;2015年2月6日提交的题为“峰值区间音高估计”的美国临时专利申请62/112832;2015年2月6日提交的题为“来自对称特征的音高”的美国临时专利申请62/112850和2015年12月15日提交的题为“确定谐波信号的特征”的美国非临时专利申请14/969029;2015年12月15日提交的题为“使用对称特征估计音高”的美国非临时专利申请14/969022;2015年12月15日提交的题为“利用多个频率表示估计分数啁啾率”的美国非临时专利申请14/969036;2015年12月15日提交的题为“利用峰到峰距离估计音高”的美国非临时专利申请14/969038,其内容通过引用整体并入本文。
背景技术
谐波信号可以具有基频和一个或多个泛音。谐波信号包括例如语音和音乐。谐波信号可以具有基频,其可以被称为第一谐波。谐波信号可以包括可能在第一谐波的倍数处发生的其它谐波。例如,如果在一定时间基频为f,则其它谐波的频率可以为2f,3f等。
谐波信号的基频可随时间而改变。例如,当一个人在说话时,语音的基频可能在问题结束时增加。信号频率的变化可以被称为啁啾率。谐波信号的啁啾率对于不同的谐波可能是不同的。例如,如果第一谐波具有啁啾率c,则其它谐波可以具有2c,3c等的啁啾率。
在诸如语音识别,信号重建和说话者识别等应用中,可能需要确定谐波信号随时间的特性。例如,可能需要确定信号的音高,音高随时间的变化率,或频率,啁啾率或不同谐波的振幅。
发明内容
在一个实施方式中,发明特征可以包括:
1、一种用于估计音高的计算机实现的方法,所述方法包括:
获得信号的第一部分的频率表示;
获得所述信号的第一部分的第一音高估计;
使用所述第一音高估计来识别所述频率表示的多个频率部分,所述多个频率部分包括第一频率部分和第二频率部分;
使用所述多个频率部分来计算多个相关性,所述多个相关性包括所述第一频率部分和所述第二频率部分之间的第一相关性;
使用所述多个相关性来计算第一得分;和
使用所述第一得分计算第二音高估计。
2、根据条款1所述的方法,其中所述多个相关性还包括(i)所述第一频率部分与所述第二频率部分的反转版本之间的第二相关性,以及(ii)所述第一频率部分和所述第一频率部分的反转版本之间的第三相关性。
3、根据条款1所述的方法,其中所述多个频率部分分割所述频率表示。
4、根据条款1所述的方法,其中计算所述第一得分包括计算所述多个相关性中的每个相关性的似然度或对数似然度。
5、根据条款1所述的方法,其中计算所述第二音高估计包括使用所述第一得分执行黄金分割搜索或梯度下降。
6、根据条款1所述的方法,其中所述多个频率部分中的每个频率部分以所述第一音高的倍数为中心。
7、根据条款1所述的方法,还包括在计算所述多个相关性之前对所述多个频率部分中的每个频率部分进行归一化。
8、根据条款1所述的方法,还包括使用所述第二音高估计来执行语音识别,说话人验证,说话人识别或信号重建中的至少一个。
9、一种用于估计谐波信号的特征的***,所述***包括一个或多个计算设备,所述一个或多个计算设备包括至少一个处理器和至少一个存储器,所述一个或多个计算设备被配置为:
获得信号的第一部分的频率表示;
获得所述信号的第一部分的第一音高估计;
使用所述第一音高估计来识别所述频率表示的多个频率部分,所述多个频率部分包括第一频率部分和第二频率部分;
使用所述多个频率部分来计算多个相关性,所述多个相关性包括所述第一频率部分和所述第二频率部分之间的第一相关性;
使用所述多个相关性来计算第一得分;和
使用所述第一得分计算第二音高估计。
10、根据条款1所述的***,其中所述多个相关性还包括(i)所述第一频率部分与所述第二频率部分的反转版本之间的第二相关性,以及(ii)所述第一频率部分和所述第一频率部分的反转版本之间的第三相关性。
11、根据条款1所述的***,其中所述多个频率部分分割所述频率表示。
12、根据条款1所述的***,其中计算所述第一得分包括计算所述多个相关性中的每个相关性的费雪(Fisher)转换。
13、根据条款1所述的***,其中所述多个频率部分中的每个频率部分以所述第一音高的倍数为中心。
14、根据条款1所述的***,其中所述一个或多个计算设备还被配置为在计算所述多个相关性之前对所述多个频率部分中的每个频率部分进行归一化。
15、根据条款1所述的***,其中所述一个或多个计算设备还被配置为:
使用所述第二音高估计来识别所述频率表示的第二多个频率部分,所述多个频率部分包括第三频率部分和第四频率部分;
使用所述第二多个频率部分计算第二多个相关性;
使用所述第二多个相关性来计算第二得分;和
使用所述第二得分计算第三音高估计。
16、一种或多种非临时性计算机可读介质,包括计算机可执行指令,所述计算机可执行指令在被执行时使至少一个处理器执行动作,所述动作包括:
获得信号的第一部分的频率表示;
获得所述信号的第一部分的第一音高估计;
使用所述第一音高估计来识别所述频率表示的多个频率部分,所述多个频率部分包括第一频率部分和第二频率部分;
使用所述多个频率部分来计算多个相关性,所述多个相关性包括所述第一频率部分和所述第二频率部分之间的第一相关性;
使用所述多个相关性来计算第一得分;和
使用所述第一得分计算第二音高估计。
17、根据条款16所述的一种或多种非临时性计算机可读介质,其中使用多个峰到峰距离来计算所述第一音高估计。
18、根据条款16所述的一种或多种非临时性计算机可读介质,其中使用估计的分数啁啾率计算所述频率表示。
19、根据条款16所述的一种或多种非临时性计算机可读介质,其中所述多个相关性还包括(i)所述第一频率部分与所述第二频率部分的反转版本之间的第二相关性,以及(ii)所述第一频率部分和所述第一频率部分的反转版本之间的第三相关性。
20、根据条款16所述的一种或多种非临时性计算机可读介质,其中所述多个相关性还包括(i)所述多个频率部分中的每对频率部分之间的相关性,(ii)所述多个频率部分中的每对频率部分之间的相关性,其中所述每对频率部分中的一个频率部分已经被反转,以及(iii)每个频率部分与其自身的反转版本之间的相关性。
在另一个实施方式中,发明特征可以包括:
1、一种用于估计分数啁啾率的计算机实现的方法,所述方法包括:
获得信号的一部分;
使用分数啁啾率的第一值来计算所述信号的一部分的第一频率表示;
使用所述第一频率表示计算第一得分;
使用分数啁啾率的第二值来计算所述信号的一部分的第二频率表示;
使用所述第二频率表示计算第二得分;和
使用所述第一得分和所述第二得分计算所述信号的一部分的估计分数啁啾。
2、根据条款1所述的方法,其中所述第一频率表示是使用频率啁啾分布,音高速度变换或具有线调频小波(chirplet)的所述信号的一部分的内积来计算的。
3、根据条款1所述的方法,其中所述方法还包括计算所述第一频率表示的多个频率的对数似然比,并且其中所述对数似然比是在频率上存在谐波的对数似然比和在所述频率上不存在谐波的对数似然比的比率。
4、根据条款1所述的方法,其中使用所述第一频率表示的自相关性来计算所述第一得分。
5、根据条款4所述的方法,其中使用所述第一频率表示的自相关性的Fisher信息来计算所述第一得分。
6、根据条款1所述的方法,其中计算估计的分数啁啾率包括选择对应于最高得分的分数啁啾率。
7、根据条款1所述的方法,其中所述方法还包括使用估计的分数啁啾率来估计所述信号的一部分的音高。
8、根据条款7所述的方法,还包括使用估计的分数啁啾率或估计的音高中的至少一个来执行语音识别,说话人验证,说话人识别或信号重构中的至少一个。
9、一种用于估计分数啁啾率的***,所述***包括一个或多个计算设备,所述一个或多个计算设备包括至少一个处理器和至少一个存储器,所述一个或多个计算设备被配置为:
获得信号的一部分;
使用分数啁啾率的第一值来计算所述信号的一部分的第一频率表示;
使用所述第一频率表示计算第一得分;
使用分数啁啾率的第二值来计算所述信号的一部分的第二频率表示;
使用所述第二频率表示计算第二得分;和
使用所述第一得分和所述第二得分计算所述信号的一部分的估计分数啁啾。
10、根据条款9所述的***,其中所述一个或多个计算设备还被配置为计算所述第一频率表示的多个频率的对数似然比,并且其中所述对数似然比是在频率上存在谐波的对数似然比和在所述频率上不存在谐波的对数似然比的比率。
11、根据条款9所述的***,其中使用所述第一频率表示的自相关性来计算所述第一得分。
12、根据条款11所述的***,其中使用所述第一频率表示的自相关性的Fisher信息来计算所述第一得分。
13、根据条款9所述的***,其中所述第一得分指示所述第一分数啁啾率与所述信号的一部分的分数啁啾率之间的匹配。
14、根据条款9所述的***,其中所述一个或多个计算设备还被配置为使用估计的分数啁啾率来估计所述信号的一部分的音高。
15、根据条款15所述的***,其中所述一个或多个计算设备还被配置为使用估计的分数啁啾率或估计的音高中的至少一个来执行语音识别,说话人验证,说话人识别或信号重构中的至少一个。
16、一种或多种非临时性计算机可读介质,包括计算机可执行指令,所述计算机可执行指令在执行时使至少一个处理器执行动作,所述动作包括:
获得信号的一部分;
使用分数啁啾率的第一值来计算所述信号的一部分的第一频率表示;
使用所述第一频率表示计算第一得分;
使用分数啁啾率的第二值来计算所述信号的一部分的第二频率表示;
使用所述第二频率表示计算第二得分;和
使用所述第一得分和所述第二得分计算所述信号的一部分的估计分数啁啾。
17、根据条款16所述的一种或多种非临时性计算机可读介质,其中计算所述第一得分包括计算所述第一频率表示的函数。
18、根据条款16所述的一种或多种非临时性计算机可读介质,其中所述动作还包括:
使用分数啁啾率的第三值来计算所述信号的一部分的第三频率表示;
使用所述第三频率表示计算第三得分;和
其中计算所述信号的一部分的估计分数啁啾还包括使用所述第三得分。
19、根据条款16所述的一种或多种非临时性计算机可读介质,其中:
通过使用所述第一分数啁啾率修改所述第三频率表示来创建所述第一频率表示;以及
通过使用所述第二分数啁啾率修改所述第三频率表示来创建所述第二频率表示。
20、根据条款19所述的一种或多种非临时性计算机可读介质,其中所述第三频率表示对应于所述信号的一部分的傅里叶(Fourier)变换。
在另一个实施方式中,发明特征可以包括:
1、一种用于估计音高的计算机实现的方法,所述方法包括:
获得信号的第一部分;
计算所述信号的第一部分的第一频率表示;
使用第一阈值识别所述第一频率表示中的第一多个峰值;
使用所述第一多个峰值的频率中的位置来计算第一多个峰到峰距离;以及
使用所述第一多个峰到峰距离估计所述信号的第一部分的音高。
2、根据条款1所述的方法,其中估计所述第一部分的音高包括估计所述第一多个峰到峰距离的累积分布函数。
3、根据条款1所述的方法,还包括使用所述多个峰到峰距离来计算直方图,并且其中估计所述信号的第一部分的音高包括使用所述直方图估计所述音高。
4、根据条款1所述的方法,其中使用所述信号的第一部分的估计分数啁啾率来计算所述第一频率表示。
5、根据条款1所述的方法,其中计算所述第一频率表示包括使用第一平滑核。
6、根据条款1所述的方法,其中所述第一频率表示包括对数似然比(LLR)频谱。
7、根据条款1所述的方法,其中所述第一频率表示包括固定频谱。
8、根据条款1所述的方法,还包括使用估计的音高来执行语音识别,说话人验证,说话人识别或信号重建中的至少一个。
9、一种用于估计音高的***,所述***包括一个或多个计算设备,所述一个或多个计算设备包括至少一个处理器和至少一个存储器,所述一个或多个计算设备被配置为:
获得信号的第一部分;
计算所述信号的第一部分的第一频率表示;
使用第一阈值识别所述第一频率表示中的第一多个峰值;
使用所述第一多个峰值的频率中的位置来计算第一多个峰到峰距离;以及
使用所述第一多个峰到峰距离估计所述信号的第一部分的音高。
10、根据条款9所述的***,其中所述一个或多个计算设备还被配置为通过估计所述第一多个峰到峰距离的累积分布函数来估计所述第一部分的音高。
11、根据条款9所述的***,其中所述一个或多个计算设备还被配置为使用所述多个峰到峰距离来计算直方图,并且使用所述直方图来估计所述信号的第一部分的音高。
12、根据条款9所述的***,其中所述一个或多个计算设备还被配置为使用第一平滑核来计算所述第一频率表示。
13、根据条款9所述的***,其中所述第一频率表示包括对数似然比(LLR)频谱。
14、根据条款9所述的***,其中所述一个或多个计算设备还被配置为:
使用第二阈值识别所述第一频率表示中的第二多个峰值;
使用所述第二多个峰值的频率中的位置来计算第二多个峰到峰距离;以及
使用所述第二多个峰到峰距离估计所述信号的第一部分的音高。
15、根据条款9所述的***,其中所述一个或多个计算设备还被配置为:
获得所述信号的第二部分;
计算所述信号的第二部分的第二频率表示;
识别所述第二频率表示中的第二多个峰值;
使用所述第二多个峰值的频率中的位置来计算第二多个峰到峰距离;以及
使用所述第二多个峰到峰距离估计所述信号的第一部分的音高。
16、根据条款12所述的***,其中所述一个或多个计算设备还被配置为:
使用第二平滑核计算所述信号的第一部分的第二频率表示;
识别所述第二频率表示中的第二多个峰值;
使用所述第二多个峰值的频率中的位置来计算第二多个峰到峰距离;以及
使用所述第二多个峰到峰距离估计所述信号的第一部分的音高。
17、一种或多种非临时性计算机可读介质,包括计算机可执行指令,所述计算机可执行指令在执行时使至少一个处理器执行动作,所述动作包括:
获得信号的第一部分;
计算所述信号的第一部分的第一频率表示;
识别所述第一频率表示中的第一多个峰值;
使用所述第一多个峰值的频率中的位置来计算第一多个峰到峰距离;以及
使用所述第一多个峰到峰距离估计所述信号的第一部分的音高。
18、根据条款17所述的一种或多种非临时性计算机可读介质,其中估计所述第一部分的音高包括估计所述第一多个峰到峰距离的累积分布函数。
19、根据条款17所述的一种或多种非临时性计算机可读介质,还包括使用所述多个峰到峰距离来计算直方图,并且其中估计所述信号的第一部分的音高包括使用所述直方图估计所述音高。
20、根据条款17所述的一种或多种非临时性计算机可读介质,其中所述第一频率表示包括对数似然比(LLR)频谱。
在再一个实施方式中,发明特征可以包括:
1、一种用于估计谐波信号的特征的计算机实现的方法,该方法包括:
获得信号的一部分;
计算所述信号的一部分的估计分数啁啾率;
使用估计的分数啁啾率计算所述信号的一部分的第一频率表示;
使用所述第一频率表示中的多个峰到峰距离来计算所述信号的第一部分的第一音高估计;以及
使用所述第一音高估计和所述信号的一部分的第二频率表示的第一频率部分与所述第二频率表示的第二频率部分之间的相关性来计算所述信号的一部分的第二音高估计。
2、根据条款1所述的方法,还包括使用估计的分数啁啾率和所述第二音高估计来计算所述信号的一部分的多个谐波的振幅。
3、根据条款1所述的方法,其中所述第二频率表示是所述第一频率表示。
4、根据条款1所述的方法,其中计算估计的分数啁啾率包括计算多个得分,其中所述多个得分包括第一得分和第二得分,所述第一得分使用第一分数啁啾率计算,所述第二得分使用第二分数啁啾率计算,并通过选择最高得分来计算估计的分数啁啾率。
5、根据条款4所述的方法,其中使用频率表示的自相关性来计算所述第一得分,并且使用所述第一分数啁啾率来计算所述频率表示。
6、根据条款1所述的方法,其中通过利用频率和啁啾率的函数执行所述信号的一部分的内积来计算所述第一频率表示,并且其中所述函数的所述啁啾率随频率而增加。
7、根据条款1所述的方法,其中使用所述多个峰到峰距离的估计累积分布函数来计算所述第一音高估计。
8、根据条款1所述的方法,其中所述第一频率部分对应于所述第一音高估计的第一倍数,并且所述第二频率部分对应于所述第一音高估计的第二倍数。
9、根据条款2所述的方法,还包括:
使用所述多个谐波的振幅来计算特征向量;以及
使用所述特征向量来执行语音识别,说话人验证,说话人识别或信号重建中的至少一个。
10、一种用于估计谐波信号的特征的***,所述***包括一个或多个计算设备,所述一个或多个计算设备包括至少一个处理器和至少一个存储器,所述一个或多个计算设备被配置为:
获得信号的一部分;
计算所述信号的一部分的估计分数啁啾率;
使用估计的分数啁啾率计算所述信号的一部分的第一频率表示;
使用所述信号的一部分的所述第一频率表示中的多个峰到峰距离来计算所述信号的第一部分的第一音高估计;以及
使用所述第一音高估计和所述信号的一部分的第二频率表示的第一频率部分与所述第二频率表示的第二频率部分之间的相关性来计算所述信号的一部分的第二音高估计。
11、根据条款10所述的***,其中所述一个或多个计算设备还被配置为使用估计的分数啁啾率和所述第二音高估计来计算所述信号的一部分的多个谐波的振幅。
12、根据条款10所述的***,其中使用估计的分数啁啾率来计算所述第一频率表示。
13、根据条款10所述的***,其中所述第二频率表示不同于所述第一频率表示。
14、根据条款10所述的***,其中使用音高速度变换来计算所述第一频率表示。
15、根据条款10所述的***,其中使用所述多个峰到峰距离的直方图来计算所述第一音高估计。
16、根据条款10所述的***,其中所述一个或多个计算设备还被配置为通过使用第一频率部分的反转版本计算相关性来计算所述第二音高估计。
17、一种或多种非临时性计算机可读介质,包括计算机可执行指令,所述计算机可执行指令在执行时使至少一个处理器执行动作,所述动作包括:
获得信号的一部分;
计算所述信号的一部分的估计分数啁啾率;
使用所述信号的一部分的所述第一频率表示中的多个峰到峰距离来计算所述信号的第一部分的第一音高估计;以及
使用所述第一音高估计和所述信号的一部分的第二频率表示的第一频率部分与所述第二频率表示的第二频率部分之间的相关性来计算所述信号的一部分的第二音高估计。
18、根据条款17所述的一种或多种非临时性计算机可读介质,还包括计算机可执行指令,所述计算机可执行指令在被执行时使所述至少一个处理器执行动作,所述动作包括使用估计的分数啁啾率和所述第二音高估计来计算所述信号的一部分的多个谐波的振幅。
19、根据条款17所述的一种或多种非临时性计算机可读介质,还包括计算机可执行指令,所述计算机可执行指令在被执行时使所述至少一个处理器执行动作,所述动作包括:
获得所述信号的第二部分;
计算所述信号的第二部分的第二估计分数啁啾率;
计算所述信号的第二部分的第三音高估计;以及
使用所述第三音高估计来计算所述信号的第二部分的第四音高估计。
20、根据条款19所述的一种或多种非临时性计算机可读介质,还包括计算机可执行指令,所述计算机可执行指令在被执行时使所述至少一个处理器执行动作,所述动作包括:
使用估计的分数啁啾率和所述第二音高估计来计算所述信号的一部分的多个谐波的振幅;
使用所述振幅计算特征向量;
使用所述第二估计分数啁啾率和所述第四音高估计来计算所述信号的第二部分的第二多个谐波的第二振幅;
使用所述第二振幅计算第二特征向量;以及
使用所述特征向量和所述第二特征向量来执行语音识别,说话人验证,说话人识别或信号重建中的至少一个。
附图说明
参考以下附图,可以理解本发明及其某些实施方式的以下详细描述:
图1示出了具有不同分数啁啾率的谐波信号的示例。
图2示出了语音信号的一部分的频谱。
图3示出了谐波信号的频率和啁啾率的表示。
图4示出了谐波信号的频率和分数啁啾率的表示。
图5示出了信号的广义频谱的两个示例。
图6示出了语音信号的音高速度变换。
图7示出了语音信号的广义频谱的两个示例。
图8示出了语音信号的LLR频谱。
图9A示出了语音信号的LLR频谱中的单个阈值的峰到峰距离。
图9B示出了语音信号的LLR频谱中的多个阈值的峰到峰距离。
图10A示出了用于第一音高估计的语音信号的频率表示的频率部分。
图10B示出了用于第二音高估计的语音信号的频率表示的频率部分。
图11是计算信号特征的示例实现的流程图。
图12是估计信号的分数啁啾率的示例实现的流程图。
图13是利用峰到峰距离估计信号音高的示例实现的流程图。
图14是利用相关性来估计信号音高的示例实现的流程图。
图15是可以用于估计信号特征的示例性计算设备。
具体实施方式
这里描述了用于确定谐波信号随时间的性质的技术。例如,谐波信号的特性可以以规则的间隔(例如,每10毫秒)来确定。这些特性可以用于处理语音或其他信号,例如作为用于执行自动语音识别或说话人验证或识别的特征。这些特性也可用于执行信号重建以降低谐波信号的噪声电平。
可以使用谐波信号的谐波之间的关系来改善对谐波信号的特性的估计。例如,如果谐波信号的第一次谐波具有频率f和啁啾率c,则预期高次谐波的频率为f的倍数,啁啾率为c的倍数。利用这些关系的技术可以提供比其他技术更好的结果。
谐波信号可以具有音高。对于一些谐波信号,音高可以对应于第一次谐波的频率。对于一些谐波信号,第一次谐波可能不存在或不可见(例如,可能被噪声覆盖),并且可以根据二次谐波和三次谐波之间的频率差来确定音高。对于一些谐波信号,多个谐波可能存在或不可见,并且可以根据可见谐波的频率来确定音高。
谐波信号的音高可能随时间而变化。例如,声音的音高或乐器的音符可能随着时间而改变。随着谐波信号的音高变化,每个谐波将具有啁啾率,并且每个谐波的啁啾率可能不同。音高的变化率可以称为音高速度或由分数啁啾率来描述。在一些实现中,分数啁啾率可以计算为χ=cn/fn,其中χ表示分数啁啾率,cn表示第n次谐波的啁啾率,fn表示第n次谐波的频率。
在一些实现中,可能期望以规则的间隔计算谐波信号的音高和/或分数啁啾率。例如,可能希望对信号的一部分执行计算来计算每10毫秒的音高和/或分数啁啾率,所述信号部分可以通过对信号应用时间窗口(例如,高斯(Gaussian),汉明(Hamming)或韩恩(Hann)窗口)而获得。信号的连续部分可以被称为帧,并且帧可以重叠。例如,可以每10毫秒创建一个帧,每个帧的长度可以是50毫秒。
图1示出了具有不同分数啁啾率的四个谐波信号作为时间和频率的函数的示例。图1不代表实际信号,但提供了线调频小波(具有指定时间,频率,啁啾率和持续时间的高斯信号)如何在时间-频率表示(例如频谱图)中出现的概念图。
谐波信号110以时间t1为中心并具有四个谐波。第一次谐波的频率为f,第二次、第三次和第四次谐波的频率分别为2f,3f和4f。因为谐波的频率随着时间的推移不变,所以每个谐波的啁啾率为0。因此,谐波信号110的分数啁啾率为0。
谐波信号120以时间t2为中心并具有四个谐波。第一次谐波的频率为2f,第二次、第三次和第四次谐波的频率分别为4f,6f和8f。第一次谐波的啁啾率c为正,因为频率随着时间的推移而增加。第二次、第三次和第四次谐波的啁啾率分别为2c,3c和4c。因此,谐波信号120的分数啁啾率为c/2f。
谐波信号130以时间t3为中心并具有四个谐波。第一次谐波的频率为f,第二次、第三次和第四次谐波的频率分别为2f,3f和4f。第一次谐波的啁啾率也为c,第二次、第三次和第四次谐波的啁啾率分别为2c,3c和4c。因此,谐波信号130的分数啁啾率是c/f,它是谐波信号120的两倍。
谐波信号140以时间t4为中心并具有四个谐波。第一次谐波的频率为f,第二次、第三次和第四次谐波的频率分别为2f,3f和4f。第一次谐波的啁啾率为2c,因为频率变化率是谐波信号130的两倍。第二次、第三次和第四次谐波的啁啾率分别为4c,6c和8c。因此,谐波信号140的分数啁啾率是2c/f,它是谐波信号130的两倍。
图2示出了语音信号的一部分的频谱。在频谱图中,可以看到多个谐波。在频谱图中的每个时刻,谐波具有上述关系。例如,在每个时刻,第二次谐波的频率和啁啾率是第一次谐波的频率和啁啾率的两倍。
图3示出了作为频率和啁啾率的函数的四个谐波信号的示例,这在本文中将被称为频率-啁啾分布或表示。图3不代表实际信号,但提供了图1的谐波信号如何以频率和啁啾率的表示出现的概念图。在计算频率-啁啾表示时,可能不存在时间变量,因此频率-啁啾分布可以表示整个信号,而不是特定时间的信号的一部分。在一些实现中,可能需要计算对应于不同时间的信号的部分的频率-啁啾分布。例如,可能需要通过对信号施加滑动窗口来计算每10毫秒的频率-啁啾分布。
可以通过查看图1所示谐波信号的谐波的频率和啁啾率来概念上构造图3。例如,对于谐波信号110,每个啁啾率为0,并且四个谐波的频率分别为2f,3f和4f。因此,谐波信号110的四个谐波在图3中在这些位置中被表示。类似地,谐波信号120,130和140的谐波根据它们各自的来自图1的频率和啁啾率在图3中示出。
可以使用类似于计算时间-频率分布(例如频谱图)的技术来计算频率-啁啾分布。例如,在一些实现中,可以使用内积来计算频率-啁啾分布。用FC(f,c)表示频率-啁啾分布,其中f对应于频率变量,c对应于啁啾率变量。可以利用内积来计算频率-啁啾率分布:
FC(f,c)=<x,ψ(f,c)>
其中x是正在处理的信号(或其窗口部分),ψ(f,c)是由频率f和啁啾率c参数化的函数。在一些实现中,ψ(f,c)可以表示一个线调频小波,例如:
其中σ对应于啁啾的持续时间或传播,t0是线调频小波在时间上的位置。为了计算频率和啁啾率的分布,可以选择适当的函数ψ(f,c),如线调频小波,并计算f和c的多个值的FC(f,c)。频率-啁啾分布不限于上述示例,并且可以以其他方式计算。例如,频率-啁啾分布可以被计算为内积的实部,虚部,振幅或振幅平方,可以使用除内积之外的相似度的度量来计算,或者可以使用信号的非线性函数来计算。
图3中的四个谐波信号各有不同的分数啁啾率。谐波信号110的分数啁啾率为0,谐波信号120的分数啁啾率为c/2f,谐波信号130的分数啁啾率为c/f,并且谐波信号120的分数啁啾率为2c/f。图3中的短划线和点虚线因此表示恒定分数啁啾率的线。以短划-点虚线为中心的谐波将具有c/2f的分数啁啾率,以点虚线为中心的谐波将具有c/f的分数啁啾率,并且以短划线为中心的谐波将具有2c/f的分数啁啾率。
因此,图3中的任何径向线对应于恒定的分数啁啾率。根据该观察,可以生成频率和分数啁啾率的分布,其可以被称为音高-速度变换(PVT)或啁啾声(chirprum)。PVT可以表示为P(f,χ),其中f对应于频率变量,χ对应于分数啁啾率变量。在概念上,可以通过扭曲频率-啁啾分布,使得频率-啁啾分布的径向线变为PVT的水平线来构造PVT。图4示出了根据图3的频率-啁啾分布产生的PVT的概念示例。由于谐波信号的每个谐波具有相同的分数啁啾率,所以它们水平对齐,如图4所示。
在一些实现中,可以根据频率-啁啾分布计算PVT。例如,PVT可以计算为:
P(f,χ)=FC(f,χf)
因为如上所述,c=χf。然而,不需要根据频率-啁啾分布计算PVT。
还可以使用类似于计算时间-频率分布(例如,频谱图)的技术来计算PVT。例如,在一些实现中,可以使用内积来计算PVT。频率-啁啾率分布可以计算为:
P(f,χ)=<x,ψ(f,χf)>
其中ψ()是如上所述的函数。为了计算PVT,可以选择适当的函数ψ(),例如线调频小波,并计算f和χ的多个值的P(f,χ)。PVT不限于上述示例,并且PVT可以用其他方式计算。例如,PVT可以被计算为内积的实部,虚部,振幅或振幅平方,可以使用除内积之外的相似度的度量来计算,或者可以使用信号的非线性函数来计算。
分数啁啾率的指定值的PVT是频率的函数,可以被认为是信号的频谱或广义频谱。因此,对于分数啁啾率的每个值,可以根据与特定分数啁啾率相关联的PVT确定广义频谱。广义频谱可以称为Xχ(f)。如下所述,这些广义频谱不需要从PVT计算,并且可以用其他方式计算。指定分数啁啾率的PVT对应于PVT的切片,其在本文中将被称为PVT的行(如果PVT以不同的取向呈现,则也可以称为列,并且PVT的取向不是本文所述技术的限制特征)。为了解释的清晰性,在下面的讨论中将为函数ψ()使用线调频小波,但是对于ψ()可以使用任何适当的函数。
对于为0的分数啁啾率,PVT对应于
P(f,0)=<x,ψ(f,0)>
其对应于具有高斯的信号的内积,其中高斯具有为零的啁啾率并被调制到PVT的相应频率f。这可能与用高斯窗口计算信号的短时傅立叶变换相同。
对于非零分数啁啾率,PVT对应于高斯信号的内积,其中高斯的啁啾率随高斯的频率增加而增加。特别地,啁啾率可以是分数啁啾率和频率的乘积。对于非零啁啾率,PVT可能具有类似于减慢或降低信号的分数啁啾率的效果(或相反,加速或增加信号的分数啁啾率)。因此,PVT的每行对应于广义频谱,在该广义频谱中,信号的分数啁啾率已经通过与PVT的行对应的值被修改。
当广义频谱(或PVT行)的分数啁啾率等于信号的分数啁啾率时,广义频谱可对应于去除信号的分数啁啾率,并且针对分数啁啾率的该值的广义频谱可以被称为信号的固定频谱或PVT的最佳行。
图5示出了使用图1所示谐波信号140的两个不同分数啁啾率值产生的假想广义频谱(或PVT行)。四个峰(511,512,513,514)示出了广义频谱,其中分数啁啾率与信号的分数啁啾率匹配,这可以称为固定频谱。由于广义频谱的行的分数啁啾率与信号的分数啁啾率匹配,所以(i)四个峰的宽度可能比其他分数啁啾率值的广义频谱窄,和(ii)四个峰的高度可能高于其他分数啁啾率值的广义频谱。因为峰可能会变得更窄和更高,它们可能比其他广义频谱更易于检测。固定频谱的峰可能会更窄和更高,因为固定频谱有消除信号的分数啁啾率的效果。
四个峰(521,522,523,524)示出了与信号的分数啁啾率不同的分数啁啾率的广义频谱。由于广义频谱的分数啁啾率与信号不匹配,峰可能较短和较宽。
图6示出了图2所示信号在大约0.21秒的PVT。此时,信号具有大约为230Hz的音高和大约为4的分数啁啾率。PVT显示了每个谐波的信号特征。例如,PVT在频率轴上约230Hz处,并且在分数啁啾率轴上4处显示第一次谐波。类似地,PVT在频率轴上约460Hz处,并且在分数啁啾率轴上4处显示第二次谐波,以此类推。在谐波之间的频率下,PVT具有较低的值,因为这些区域中的信号能量较低。在不同于4的分数啁啾率下,PVT具有较低的值,因为PVT的分数啁啾率与信号的分数啁啾率不匹配。
图7示出了与图6所示PVT的行对应的两个广义频谱。实线对应于广义频谱,其中分数啁啾率与信号的分数啁啾率(大约为4的分数啁啾率)或固定频谱匹配。点虚线对应于具有零分数啁啾的广义频谱,其将被称为零广义频谱(并且可以对应于信号的短时傅立叶变换)。固定频谱的峰比零广义频谱的峰更高和更窄。对于第一次谐波,固定频谱的峰711是零广义频谱峰721的高度的两倍和宽度的三分之一。对于第三次谐波,固定频谱的峰712与零广义频谱的峰722之间的差异甚至更大。对于第七次谐波,固定频谱的峰713是清晰可见的,但是零广义频谱的峰是不可见的。
可以使用不同的广义频谱(或PVT的行)的特征来确定信号的分数啁啾率。如上所述,对于分数啁啾率的正确值,广义频谱的峰可以更窄和更高。因此,用于测量信号的较窄和较高峰的技术可用于估计信号的分数啁啾率。
为了估计分数啁啾率,可以使用将向量(例如,频谱)作为输入并且根据某些标准输出一个或多个得分的函数。g()是将向量作为输入(例如PVT的广义频谱或行)并输出与输入对应的一个或多个值或得分的函数。在一些实现中,g()的输出可以是指示输入的峰度的数字。例如,g()可以对应于熵,Fisher信息,KL(Kullback-Leibler)发散度或输入的四次方或更高次方的量级。利用函数g(),可以使用以下方式根据PVT估计信号的分数啁啾率:
其中是分数啁啾率的估计。可以为PVT的多行计算函数g(),并且可以选择产生g()的最高值的行对应于信号的估计分数啁啾率。
也可以根据频率-啁啾分布(例如,上述的频率啁啾分布)计算分数啁啾率的估计:
也可以根据广义频谱计算分数啁啾率的估计:
也可以利用函数ψ()使用信号的内积来计算分数啁啾率的估计:
如上所述,可以使用各种技术来计算PVT,频率-啁啾率分布和广义频谱中的每一个。在一些实现中,这些量可以通过计算具有线调频小波的信号的内积来确定,但是本文所描述的技术不限于该特定实现。例如,可以使用除了啁啾之外的函数,并且可以使用除内积之外的相似度的度量。
在一些实现中,可以在用于确定信号的分数啁啾率之前修改广义频谱。例如,可以从广义频谱计算对数似然比(LLR)频谱,并且可以将LLR频谱表示为LLRx(f)。LLR频谱可以使用假设测试技术来改进确定在频谱的频率上是否存在谐波。例如,为了确定在图7所示固定频谱的频率上是否存在谐波,可以将频谱的值与阈值进行比较。使用LLR频谱可以改善这一确定。
可以使用两个假设的对数似然比来计算LLR频谱:(1)在信号的频率处存在谐波,以及(2)在信号的频率处不存在谐波。对于两个假设中的每一个,可以计算似然度。可以比较这两个似然度以确定是否存在谐波,例如通过计算两个似然度的对数的比率。
在一些实现中,可以通过在频率处将高斯拟合到信号频谱,然后计算高斯和信号之间的残差平方和来计算在信号频率处存在的谐波的对数似然度。为了在频率处将高斯拟合到频谱中,高斯可以以频率为中心,然后可以使用适于估计这些参数的任何技术来计算高斯的振幅。在一些实现中,高斯的频率或持续时间的扩展可以匹配用于计算信号频谱的窗口,或者也可以在拟合过程期间确定高斯的扩展。例如,当将高斯拟合到图7所示固定频谱的峰711时,高斯的振幅可以近似为0.12,并且高斯的持续时间可以近似对应于峰的持续时间(或用于计算频谱的窗口)。然后可以通过在计算似然度的频率周围的窗口中计算高斯与信号频谱之间的残差平方和来计算对数似然度。
在一些实现中,在频率上不存在谐波的对数似然度可以对应于在计算似然度的频率周围的窗口中计算零频谱(所有频率处都为零的频谱)和信号频谱之间的残差平方和来计算对数似然度。
LLR频谱可以通过计算信号频谱(例如,广义频谱)的每个频率的两个似然度,然后计算两个似然度的比率的对数(例如,自然对数)来确定。也可以执行其他步骤,例如估计信号中的噪声方差,并使用估计的噪声方差来归一化对数似然度。在一些实现中,用于频率f的LLR频谱可以计算为:
其中是估计的噪声方差,X是频谱,h是厄米特(Hermitian)转置,是频率f处的频谱的最佳拟合高斯。
图8示出了对应于图7所示固定频谱的LLR频谱的示例。对于每个频率,LLR频谱在谐波存在时具有高值,在不存在谐波时具有低值。相比其他频谱(如广义或固定频谱),LLR频谱能够更好地确定不同频率上是否存在谐波。
也可以使用LLR频谱计算分数啁啾率的估计:
为了说明估计分数啁啾率的一些可能的实现,将提供函数g()的示例。以下示例将使用广义频谱,但也可以使用其他频谱,例如LLR频谱。
在一些实现中,可以使用对广义频谱的四次方的量级来估计分数啁啾率:
g(Xχ(f))=∫|Xχ(f)|4df
在一些实现中,函数g()可以包括以下系列操作中的至少一些:(1)计算|Xχ(f)|2(可以通过除以信号的总能量或一些其他归一化值来归一化);(2)计算|Xχ(f)|2的自相关性,表示为rX(τ);(3)计算Fisher信息,熵,Kullback-Leibler发散,rX(τ)值的平方(或振幅平方)和,或rX(τ)的二次导数平方和。上述示例不是限制性的,并且其它变化是可能的。例如,在步骤(1)中,可以使用Xχ(f)或其大小,或实部或虚部代替|Xχ(f)|2
因此,可以使用上述技术的任何组合或本领域技术人员已知的任何类似技术来确定信号的分数啁啾率。
除了估计信号的分数啁啾率之外,还可以估计信号的音高。在一些实现中,可以首先估计分数啁啾率,并且估计的分数啁啾率可用于估计音高。例如,在估计分数啁啾率(表示为)之后,可以使用对应于估计的分数啁啾率的广义频谱来估计音高。
当估计音高时,音高估计可能与真正的音高存在倍频程的差异,该倍频程可被称为倍频程误差。例如,如果真实音高是300Hz,则音高估计可以是150Hz或600Hz。为了避免倍频程误差,可以采用两步法来估计音高。首先,可以确定粗略音高估计以获得可能不太准确但不太容易受倍频程误差影响的估计,其次,可以使用精确音高估计来改善粗略音高估计。
可以通过计算频谱,例如广义频谱或LLR频谱(对应于分数啁啾率的估计)的峰到峰距离来确定粗略音高估计。为了在下面的说明中清楚起见,将使用LLR频谱作为示例频谱,但是本文描述的技术不限于LLR频谱,并且可以使用任何适当的频谱。
当计算频谱中的峰到峰距离时,可能并不总是清楚哪些峰对应于信号,哪些峰对应于噪声。包括太多对应于噪声的峰或排除太多对应于信号的峰可能会降低粗略音高估计的精度。虽然图8中的示例LLR频谱具有低噪声,但对于具有较高噪声电平的信号,也可能存在由噪声引起的附加峰。
在一些实现中,可以使用阈值从LLR频谱中选择峰。例如,可以确定频谱中的噪声的标准偏差(或方差),并且可以使用噪声的标准偏差来计算或选择阈值,例如将阈值设置为标准偏差的倍数或分数(例如,将阈值设置为噪声标准偏差的两倍)。选择阈值后,可以确定峰到峰距离。例如,图9A示出了阈值约为0.3的峰到峰距离。在该阈值处,前5个峰到峰距离大约为230Hz,第六个大约为460Hz,第七个和第八个大约为230Hz,第九个大约为690Hz。在确定峰到峰距离之后,可以选择最频繁出现的峰到峰距离作为粗略音高估计。例如,可以使用宽度为2至5Hz的直条(bin)来计算直方图,并且可以选择具有最大计数数量的直方图直条作为粗略音高估计。
在一些实现中,可以使用如图9B所示的多个阈值。例如,可以使用LLR频谱中的峰的高度,例如十个最高峰或高于第二阈值的所有峰(例如,高于噪声的标准偏差的两倍)来选择阈值。可以针对每个阈值计算峰到峰距离。在图9B中,使用最高峰作为阈值确定峰到峰距离901,使用第二最高峰作为阈值确定峰到峰距离911和912,使用第三最高峰作为阈值确定峰到峰距离921,922和923,以此类推。如上所述,例如通过使用直方图,可以选择最频繁出现的峰到峰距离作为粗略音高估计。
在一些实现中,可以针对多个时间帧计算峰到峰距离,以确定粗略音高估计。例如,为了确定特定帧的粗略音高估计,可以针对当前帧,前五个帧和后续五帧计算峰到峰距离。所有帧的峰到峰距离可以合并在一起以确定粗略音高估计,例如计算所有峰到峰距离的直方图。
在一些实现中,可以通过在频谱上使用不同的平滑核计算峰到峰距离。将平滑核应用于频谱可能会降低由噪声引起的峰,但也可能降低由信号引起的峰。对于嘈杂的信号,更宽的核可能表现更好,并且对于较小的噪声信号,较窄的核可能会表现更好。可能不知道如何选择适当的核宽度,因此可以根据指定的一组核宽度中每个核宽度的频谱计算峰到峰距离。如上所述,在确定粗略音高估计时,可以将所有平滑核的峰到峰距离合并在一起。
因此,可以用各种方式计算峰到峰距离,包括但不限于不同的阈值,不同的时刻(例如,帧)和不同的平滑核。从这些峰到峰距离,可以确定粗略音高估计。在一些实现中,可以将粗略音高估计确定为与所有计算的峰到峰距离的直方图的模式相对应的频率。
在一些实现中,可以通过估计峰到峰距离的累积分布函数(CDF)和/或概率密度函数(PDF)而不是使用直方图来确定粗略音高估计。例如,音高的CDF可以估计如下。对于小于最小峰到峰距离的任何音高值,CDF将为零,对于大于最大峰到峰距离的任何音高值,CDF将为一。对于这两个界限之间的音高值,可以将CDF估计为小于音高值的峰到峰距离的累积数除以峰到峰距离的总数。例如,考虑图9A所示的峰到峰距离。图9A示出了总共9个峰到峰距离,包括7个230Hz的峰到峰距离,1个460Hz的峰到峰距离,以及1个690Hz的峰到峰距离。对于低于230Hz的频率,估计CDF的值为0,对于在230Hz和460Hz之间的频率,估计CDF的值为7/9,对于在460Hz和690Hz之间的频率,估计CDF的值为8/9,对于高于690Hz的频率,估计CDF的值为1。
该估计的CDF可以类似于阶梯函数,因此可以使用任何适当的平滑技术(例如样条插值,低通滤波或局部加权回归散点(LOWESS)平滑)来平滑CDF。粗略音高估计可以被确定为对应于CDF的最大斜率的音高值。
在一些实现中,可以通过计算CDF的导数从CDF估计PDF,并且可以使用任何适当的技术来计算导数。然后可以将粗略音高估计确定为对应于PDF的峰的音高值。
在一些实现中,可以确定多个初步粗略音高估计,并且可以使用初步音高估计来确定实际粗略音高估计。例如,可以选择初步粗略音高估计或最常用粗略音高估计的平均值作为实际粗略音高估计。例如,可以针对一组阈值中的每一个计算粗略音高估计。对于高阈值,粗略音高估计可能太高,而对于低阈值,粗略音高估计可能太低。对于两者之间的阈值,粗略音高估计可能更准确。为了确定实际粗略音高估计,可以计算多个初步粗略音高估计的直方图,并且实际粗略音高估计可以对应于直方图的模式的频率。在一些实现中,可以从直方图中去除异常值以改善实际粗略音高估计。
在获得粗略音高估计之后,可以使用粗略音高估计作为起点获得精确的音高估计。可以使用频谱中的每个谐波的形状来确定精确的音高估计(再次,可以使用任何适当的频谱,例如广义频谱,固定频谱或LLR频谱)。为了比较频谱中谐波的形状,可以如图10A和图10B所示提取频谱的部分。
图10A示出了用于第一音高估计的频谱的部分,其中音高估计非常接近信号的真实音高。假设信号的真实音高大约为230Hz,音高估计也大约为230Hz。可以通过使用估计的音高的倍数来识别每个谐波的频谱的一部分。在图10A中,部分1010处于大约230Hz,部分1011处于大约460Hz,部分1012-1017各自处于230Hz的较高倍数。由于音高估计是准确的,所以每个谐波近似地以每个部分的中间为中心。基于对称特性估计音频信号中的音高的一些例子在2014年9月30日提交的题为“用于根据独立于谐波放大器的对称特性估计音频信号中的音高的***和方法”的美国专利申请No.14/502,844中描述,其全部内容通过引用并入本文。
图10B示出了用于第二音高估计的频谱的部分,其中音高估计稍低于信号的真实音高。例如,音高估计可以是228Hz,实际音高可能是230Hz。再次,可以使用音高估计的倍数来识别每个谐波的频谱的一部分。对于每个谐波,该部分稍微位于谐波的真实位置的左侧,并且偏移随着谐波数目的增加而增大。部分1020位于第一次谐波的真实位置的左侧大约2Hz处,部分1021位于第二次谐波的真实位置的左侧大约4Hz处,并且部分1022-1027分别随着谐波数量的增加而越来越向左。例如,部分1027位于第八次谐波的真实位置的左侧大约16Hz处。
来自图10A和10B的频率部分可以用于确定音高估计的精度。当音高估计准确时,如图10A所示,每个谐波以频率部分为中心,因此频率部分都具有相似的形状。当音高估计不准确时,如图10B所示,每个谐波不以频率部分为中心,并且随着谐波数量的增加而更加偏离中心。因此,当音高估计不太准确时,频率部分彼此不太相似。
除了将第一频率部分的形状与第二频率部分进行比较之外,频率部分可以与其自身的反向版本进行比较,因为谐波的形状通常是对称的。对于准确的音高估计,谐波将以频率部分为中心,因此反转该部分将提供相似的形状。对于不准确的音高估计,谐波不会以频率部分为中心,并且反转该部分将导致不同的形状。类似地,第一频率部分可以与第二频率部分的反转版本进行比较。
频率部分可以具有任何适当的宽度。在一些实现中,频率部分可以分割频谱,可能与相邻部分重叠,或者可以在它们之间具有间隙(如图10A和10B所示)。使用的频率部分可以对应于任何频率表示,例如信号的频谱,或信号的频谱的实部,虚部,振幅或振幅平方。频率部分也可以被归一化,以消除与确定音高相关度小的差异。例如,对于每个频率部分,可以确定平均值和标准偏差,并且可以通过减去平均值然后除以标准偏差(例如,z得分)来对频率部分进行归一化。
可以使用相关性来测量两个频率部分是否具有相似的形状并且确定谐波是否以预期频率为中心。可以如上所述确定用于音高估计的频率部分,并且可以通过计算两个频率部分的内积来执行相关。可以执行的相关包括:第一频率部分与第二频率部分的相关,第一频率部分与其自身的反转版本的相关,以及第一频率部分与第二频率部分的反向版本的相关。
对于更准确的音高估计相关性可能具有较高值,对于较不准确的音高估计相关性可能具有较低值。对于更准确的音高估计,频率部分彼此间以及与彼此的反向版本间将具有更大的相似性(例如,每个谐波以频率部分为中心),因此相关性可能更高。对于不那么准确的音高估计,频率部分彼此间以及与彼此的反向版本间将具有较低的相似性(例如,每个谐波的中心偏离对应于谐波数的量),因此相关性可能较低。
可以例如通过执行两个频率部分(或者频率部分和另一个频率部分的所述频率部分的反向版本)的内积来计算每个相关性。相关性也可以通过除以N-1来归一化,其中N是每个频率部分中的采样数。在一些实现中,可以使用皮尔森(Pearson)积差相关系数。
上述相关性中的一些或全部可用于确定音高估计精度的得分。例如,对于八个谐波,可以计算频率部分与其自身反向版本的相关的八个相关性,可以针对频率部分和另一个频率部分之间的相关计算28个相关性,并且可以针对频率部分和另一个频率部分的反向版本之间计算28个相关性。这些相关性可以以任何适当的方式组合,以获得音高估计的精度的总得分。例如,相关性可以相加或相乘以获得总得分。
在一些实现中,可以使用Fisher变换来组合相关性。个体相性r的Fisher变换可以计算为:
在个体相关性的感兴趣区域中,Fisher变换可以近似为:
F(r)≈r
个体相关性的Fisher变换可以具有近似高斯的概率密度函数,其标准偏差为其中N是每个部分中的样本的数量。因此,使用上述近似法,个体相关性的Fisher变换的概率密度函数f(r)可以表示为:
然后可以通过计算每个相关性的f(r)并将它们相乘来计算总分。因此,如果存在M个相关性,则总得分s可以被计算为似然度:
或者,可以将得分S计算为对数似然度:
这些得分可以用于通过迭代过程获得精确的音高估计,例如黄金分割搜索或任何种类的梯度下降算法。例如,可以用粗略音高估计来初始化精确音高估计。可以针对当前的精确音高估计和精确音高估计附近的其他音高值计算得分。如果另一音高值的得分高于当前音高估计的得分,则可以将当前音高估计设置为该其它音高值。可以重复该过程,直到达到适当的停止条件。
在一些实现中,确定精确音高估计的过程可以被约束,例如要求精确音高估计在粗略音高估计的范围内。可以使用任何适当的技术来确定该范围。例如,可以根据粗略音高估计的方差或置信区间确定该范围,例如使用自举技术来确定粗略音高估计的置信区间。可以根据置信区间,例如置信区间的倍数确定范围。在确定精确音高估计时,可以限制搜索,使得精确音高估计不会超出指定范围。
在一些实现中,在确定分数啁啾率和音高之后,可能需要估计信号的谐波的振幅(其可以是复值并且包括相位信息)。每个谐波可以被建模为线调频小波,其中使用估计的音高和估计的分数啁啾率来设置线调频小波的频率和啁啾率。例如,对于第k次谐波,谐波的频率可以是估计的音高的k倍,并且谐波的啁啾率可以是分数啁啾率乘以线调频小波的频率。任何适当的持续时间都可用于线调频小波。
可以使用任何适当的技术来估计谐波的振幅,包括例如最大似然度估计。在一些实现中,谐波振幅的向量可以被估计为:
其中M是矩阵,其中每行对应于具有如上所述参数的每个谐波的线调频小波,矩阵M的行数对应于要估计的谐波的振幅数,h是厄米特转置,x是信号的时间序列表示。谐波振幅的估计可以是复值,并且在一些实现中,可以使用振幅的其他函数,例如振幅,振幅平方,实部或虚部。
在一些实现中,可以在先前的步骤中计算振幅,并且不需要再次明确计算。例如,在先前的处理步骤中使用LLR频谱的情况下,可以在计算LLR频谱时计算振幅。通过将高斯拟合到频谱中计算LLR频谱,高斯的一个拟合参数是高斯的振幅。在计算LLR频谱的过程中可以保存高斯的振幅,并且可以调用这些振幅,而不是重新计算。在一些实现中,根据LLR频谱确定的振幅可以是起始点,并且可以例如通过使用迭代技术来改善振幅。
上述技术可以对待处理的信号的连续部分进行,例如每十毫秒的信号帧。对于处理的信号的每个部分,可以确定分数啁啾率,音高和谐波振幅。分数啁啾率,音高和谐波振幅的部分或全部可以被称为HAM(谐波振幅矩阵)特征,并且可以创建包括HAM特征的特征向量。除了或替代用于处理谐波信号的任何其他特征,还可以使用HAM特征的特征向量。例如,除了或替代梅尔频率倒谱系数,感知线性预测特征或神经网络特征,还可以使用HAM特征。HAM特征可以应用于谐波信号的任何应用,包括但不限于执行语音识别,字识别,说话人识别,说话人验证,降噪或信号重建。
图11-14是示出上述处理的示例实现的流程图。注意,对于下面描述的流程图,步骤的顺序是示例性的,并且其他顺序是可能的,并不是所有步骤都是必需的,并且在一些实现中,可以省略一些步骤或者可以添加其他步骤。流程图的处理可以由一个或多个计算机(例如,下面描述的计算机)来实现。
图11是计算信号的第一部分的特征的示例实现的流程图。在步骤1110,获得信号的一部分。信号可以是估计特征可能有用的任何信号,包括但不限于语音信号或音乐信号。该部分可以是信号的任何相关部分,并且该部分可以是例如以规则的间隔(例如每10毫秒)提取的信号帧。
在步骤1120,估计信号的一部分的分数啁啾率。可以使用上述任何技术来估计分数啁啾率。例如,可以识别多个可能的分数啁啾率,并且可以为每个可能的分数啁啾率计算得分。可以使用诸如上述任何函数g()的函数来计算得分。可以通过选择对应于最高得分的分数啁啾率来确定分数啁啾率的估计。在一些实现中,可以使用迭代过程来确定分数啁啾率的更精确的估计,例如通过选择附加的可能的分数啁啾率并用黄金分割搜索或梯度下降迭代。函数g()可以将上述第一部分的任何频率表示作为输入,包括但不限于第一部分的频谱,第一部分的LLR频谱,第一部分的广义频谱,第一部分的频率-啁啾分布,或第一部分的PVT。
在步骤1130,使用估计的分数啁啾率来计算信号的一部分的频率表示。频率表示可以是作为频率的函数的信号部分的任何表示。频率表示可以是例如固定频谱,广义频谱,LLR频谱或PVT的行。可以在步骤1120的处理期间计算频率表示,不需要是单独的步骤。例如,可以在确定分数啁啾率的估计的其他处理期间计算频率表示。
在步骤1140,使用频率表示从信号的一部分计算粗略音高估计。可以使用上述任何技术来确定粗略音高估计。例如,可以针对上述的任何类型的频谱以及各种参数(例如不同的阈值,不同的平滑核)以及信号的其它部分确定峰到峰距离。然后可以使用直方图或上述任何其他技术根据峰到峰距离计算粗略音高估计。
在步骤1150,使用频率表示和粗略音高估计从信号的一部分计算精确音高估计。可以用粗略音高估计来初始化精确音高估计,然后用迭代过程进行改善。对于精确音高估计的每个可能的值,可以计算诸如似然度或对数似然度之类的得分,并且可以通过最大化得分来确定精确音高估计。可以使用如上所述的相关性的组合来确定得分。可以使用任何适当的程序(例如黄金分割搜索或梯度下降)来最大化得分。
在步骤1160,使用估计的分数啁啾率和估计的音高来计算谐波振幅。例如,可以通过将每个谐波建模为线调频小波并执行最大似然估计来计算谐波振幅。
对于信号的连续部分或时间间隔,可以重复图11的处理。例如,可以每10毫秒计算分数啁啾率,音高和谐波振幅。分数啁啾率,音高和谐波振幅可以用于各种应用,包括但不限于音高跟踪,信号重建,语音识别和说话人验证或识别。
图12是计算信号的一部分的分数啁啾率的示例实现的流程图。在步骤1210,如上所述,获得信号的一部分。
在步骤1220,计算信号的所述部分的多个频率表示,并且可以使用上述任何技术来计算频率表示。每个频率表示可以对应于分数啁啾率。在一些实现中,可以(i)根据PVT的行,(ii)根据频率-啁啾分布的径向切片,或(iii)使用具有线调频小波的信号的部分的内积(其中,线调频小波的啁啾率随频率增加)计算频率表示。
在步骤1230,为每个频率表示计算得分,并且每个得分对应于分数啁啾率。得分可以指示对应于得分的分数啁啾率与信号部分的分数啁啾率之间的匹配。可以使用上述任何技术来计算得分。在一些实现中,可以使用频率表示的自相关性来计算得分,例如频率表示的振幅平方的自相关性。可以使用Fisher信息,熵,Kullback-Leibler发散,自相关性的平方(或振幅平方)值之和或自相关性的二次导数平方和根据自相关性计算得分。
在步骤1240,估计信号的一部分的分数啁啾率。在一些实现中,通过选择对应于最高得分的分数啁啾率来估计分数啁啾率。在一些实施方式中,可以使用迭代技术(例如黄金分割搜索或梯度下降)来改进分数啁啾率的估计。然后可以将估计的分数啁啾率用于如上所述的信号的进一步处理,例如语音识别或说话人识别。
图13是计算信号的一部分的音高估计的示例实现的流程图。在步骤1310,如上所述获得信号的第一部分,并且在步骤1320,使用上述任何技术来计算信号的第一部分的频率表示。
在步骤1330,使用上述技术中的任一种来选择阈值。例如,可以使用信噪比来选择阈值,或者可以使用信号的第一部分的频率表示中的峰的高度来选择阈值。
在步骤1340,识别信号的第一部分的频率表示中的多个峰。可以使用任何适当的技术来识别峰。例如,频率表示的值可以与阈值进行比较,以识别始终高于阈值的频率表示(每个频率部分)的连续部分。可以例如通过以下方式识别峰:选择频率部分的最高点,选择频率部分的开始部分和频率部分的结束点之间的中点,或者将曲线(诸如高斯)拟合至频率部分并使用拟合选择峰。因此可以处理频率表示以识别高于阈值的频率部分,并识别每个频率部分的峰。
在步骤1350,计算信号的第一部分的频率表示中的多个峰到峰距离。每个峰可以与对应于峰的频率值相关联。峰到峰距离可以计算为相邻峰的频率值的差。例如,如果峰存在于230Hz,690Hz,920Hz,1840Hz(例如,类似于图9B中的的931,932,933和934),则峰到峰距离可以是460Hz,230Hz和920Hz。
可以针对其他阈值,对具有相同阈值的其他设置的改变,或者对具有其他阈值的其它设置的改变重复步骤1330,1340和1350。例如,如上所述,可以使用频率表示中的多个峰的高度来选择多个阈值,可以使用与信号的第二部分对应的第二频率表示相同的阈值或其他阈值(例如,其中第二部分紧接在第一部分之前或之后),并且相同或其它阈值可以与不同的平滑核一起使用。
在步骤1360,计算峰到峰距离的直方图。直方图可以使用上述的峰到峰距离中的一些或全部。可以使用任何适当的直条宽度,例如2至5Hz的直条宽度。
在步骤1370,使用峰到峰距离的直方图来确定音高估计。在一些实现中,音高估计可以对应于直方图的模式。在一些实现中,可以使用多个直方图来确定音高估计。例如,可以针对多个阈值(或多个阈值与其他参数(例如时刻或平滑核)的组合)计算多个直方图,并且可以针对多个直方图中的每一个确定初始音高估计。可以通过例如通过选择最常见的初步音高估计,根据多个初步音高估计来确定最终的音高估计。
图14是计算信号的一部分的音高估计的示例实现的流程图。在步骤1410,如上所述,获得信号的一部分的频率表示。
在步骤1420,获得信号部分的音高估计。所获得的音高估计可以使用估计音高的任何技术来计算,包括但不限于上述粗略音高估计技术。获得的音高估计可以被认为是要更新的初始音高估计,或者可以被认为是通过迭代过程更新的运行音高估计。
在步骤1430,获得频率表示的多个频率部分。每个频率部分可以以音高估计的倍数为中心。例如,第一频率部分可以以音高估计为中心,第二频率部分可以以音高估计的两倍为中心,以此类推。频率部分可以使用任何适当的宽度。例如,频率部分可以分割频率表示,可以重叠,或者它们之间具有间隙。
在步骤1440,使用频率表示的多个频率部分来计算多个相关性。在计算相关性之前可以进一步处理频率部分。例如,每个频率部分可以从频率表示中提取并存储在长度为N的向量中,其中向量的开始对应于频率部分的开始,并且向量的结束对应于频率部分的结束。频率部分可以移位子样本量,使得频率部分准确地排列。例如,音高估计可以位于频率表示的频率点之间(例如,230Hz的音高估计可以位于频率点37和频率点38之间,大约位置为37.3)。因此,频率部分的开始,中心和结束可以由分数采样值来定义。频率部分可以被移位子采样量,使得频率部分的开始,中心和结束中的一个或多个对应于频率表示的整数样本。在一些实现中,也可以通过减去平均值并除以频率部分的标准偏差来对频率部分进行归一化。
相关性可以包括以下相关性中的任何一者:第一频率部分和第二频率部分之间的相关性,第一频率部分和反向第二频率部分之间的相关性,以及第一频率部分和反向第一频率部分之间的相关性。可以使用任何适当的技术来计算相关性。例如,频率部分可以从频率表示中提取并存储在如上所述的向量中,并且可以通过执行向量的内积(或具有另一个向量的反转版本的向量的内积)来计算相关性。
在步骤1450,组合相关性以获得音高估计的得分。可以使用任何适当的技术来生成得分,包括例如计算相关性的乘积,相关性的总和,相关性的Fisher变换的组合,或相关性的似然度或对数似然度或相关性的Fisher变换的组合,如上所述。
在步骤1460,更新音高估计。例如,可以比较第一音高估计的第一得分与第二音高估计的第二分数,并且可以通过选择具有最高得分的音高估计来确定音高估计。可以重复步骤1420至1460,以使用诸如黄金分割搜索或梯度下降之类的技术来连续更新音高估计。可以重复步骤1420至1460,直到达到一些适当的停止条件,例如最大迭代次数或者对根据先前估计的音高估计的改善降低到阈值之下。
图15示出了用于实现上述任何技术的计算设备110的一个实现的部件。在图15中,部件被示出为在单个计算设备1510上,但是部件可以分布在诸如计算设备的***之类的多个计算设备中,包括例如终端用户计算设备(例如,智能手机或平板电脑)和/或服务器计算设备(例如,云计算)。例如,音频数据的收集和音频数据的预处理可由终端用户计算设备执行,并且其他操作可以由服务器执行。
计算设备1510可以包括计算设备的任何典型部件,例如易失或非易失存储器1520,一个或多个处理器1521,以及一个或多个网络接口1522。计算设备1510还可以包括任何输入和输出部件,例如显示器,键盘和触摸屏。计算设备1510还可以包括提供特定功能的各种部件或模块,并且这些部件或模块可以以软件,硬件或其组合来实现。下面,为一个示例性实现描述了部件的几个示例,并且其他实现可以包括附加部件或者排除下面描述的一些部件。
计算设备1510可以具有用于对输入信号执行任何所需操作(例如,模数转换,编码,解码,子采样,加窗或计算频率表示)的信号处理部件1530。计算设备1510可以具有使用上述任何技术来估计信号的分数啁啾率的分数啁啾率估计部件1531。计算装置1510可以具有如上所述使用峰到峰距离估计信号音高的粗略音高估计部件1532。计算设备1510可以具有如上所述使用相关性来估计信号音高的精确音高估计部件1533。计算设备1510可以具有如上所述确定谐波振幅的HAM特征生成部件1534。
计算设备1510还可以具有将上述技术应用于特定应用的部件。例如,计算设备1510可以具有语音识别部件1540,说话人验证部件1541,说话人识别部件1542,信号重建部件1543和字识别部件1544中的任何一个。例如,估计分数啁啾速率,估计音调和估计谐波振幅可以用作任何应用的输入,并且在用于这些应用的其它特征或参数之外或作为替代使用。
根据实现,上述任何技术的步骤可以以不同的顺序执行,可以组合,可以被分成多个步骤,或者可以完全不执行。可由通用计算机执行的步骤可以由专用于特定应用的计算机执行,可以由单个计算机或处理器执行,可以由多个计算机或处理器执行,可以顺序地执行,或者可以是同时进行。
上述技术可以以硬件,软件或硬件和软件的组合来实现。在硬件或软件中实现上述技术的任何部分的选择可以取决于特定实现的要求。软件模块或程序代码可以存在在易失存储器,非易失存储器,RAM,闪存,ROM,EPROM或任何其他形式的非临时性计算机可读存储介质中。
这里使用的条件语言,例如“能够”,“可以”,“可能”,“会”,“例如”意在表示某些实现包括但是其他实现不包括某些特征,元件和/或步骤。因此,这样的条件语言表明,某些实现不需要特征,元件和/或步骤。术语“包括”,“包含”,“具有”等是同义的,以开放的方式使用,并且不排除附加元件,特征,动作,操作。术语“或”以其包容性意义(而不是其排他性意义)使用,因此当用于例如连接元件列表时,术语“或”是指列表中元素的一个,一些或全部。
除非另有明确说明,否则诸如短语“X,Y和Z中的至少一个”的连字语言应被理解为表示项目,术语等可以是X,Y或Z,或其组合。因此,这种连接语言并不意味着某些实施方式要求存在至少一个X,至少一个Y和至少一个Z到每一个都存在。
虽然上述详细描述已经示出,描述并指出了应用于各种实施方式的新颖特征,但是可以理解,可以在不脱离本发明的精神的情况下对所示设备或技术的形式和细节做出各种省略,替换和改变。本文公开的发明的范围由所附权利要求而不是前面的描述来指示。在权利要求的等同物的含义和范围内的所有变化将被包括在其范围内。

Claims (20)

1.一种用于估计谐波信号的特征的计算机实现的方法,该方法包括:
获得信号的一部分;
计算所述信号的一部分的估计分数啁啾率;
使用估计的分数啁啾率计算所述信号的一部分的第一频率表示;
使用所述第一频率表示中的多个峰到峰距离来计算所述信号的第一部分的第一音高估计;以及
使用所述第一音高估计和所述信号的一部分的第二频率表示的第一频率部分与所述第二频率表示的第二频率部分之间的相关性来计算所述信号的一部分的第二音高估计。
2.根据权利要求1所述的方法,还包括使用估计的分数啁啾率和所述第二音高估计来计算所述信号的一部分的多个谐波的振幅。
3.根据权利要求1所述的方法,其中所述第二频率表示是所述第一频率表示。
4.根据权利要求1所述的方法,其中计算估计的分数啁啾率包括计算多个得分,其中所述多个得分包括第一得分和第二得分,所述第一得分使用第一分数啁啾率计算,所述第二得分使用第二分数啁啾率计算,并通过选择最高得分来计算估计的分数啁啾率。
5.根据权利要求4所述的方法,其中使用频率表示的自相关性来计算所述第一得分,并且使用所述第一分数啁啾率来计算所述频率表示。
6.根据权利要求1所述的方法,其中通过利用频率和啁啾率的函数执行所述信号的一部分的内积来计算所述第一频率表示,并且其中所述函数的所述啁啾率随频率而增加。
7.根据权利要求1所述的方法,其中使用所述多个峰到峰距离的估计累积分布函数来计算所述第一音高估计。
8.根据权利要求1所述的方法,其中所述第一频率部分对应于所述第一音高估计的第一倍数,并且所述第二频率部分对应于所述第一音高估计的第二倍数。
9.根据权利要求2所述的方法,还包括:
使用所述多个谐波的振幅来计算特征向量;以及
使用所述特征向量来执行语音识别,说话人验证,说话人识别或信号重建中的至少一个。
10.一种用于估计谐波信号的特征的***,所述***包括一个或多个计算设备,所述一个或多个计算设备包括至少一个处理器和至少一个存储器,所述一个或多个计算设备被配置为:
获得信号的一部分;
计算所述信号的一部分的估计分数啁啾率;
使用估计的分数啁啾率计算所述信号的一部分的第一频率表示;
使用所述信号的一部分的所述第一频率表示中的多个峰到峰距离来计算所述信号的第一部分的第一音高估计;以及
使用所述第一音高估计和所述信号的一部分的第二频率表示的第一频率部分与所述第二频率表示的第二频率部分之间的相关性来计算所述信号的一部分的第二音高估计。
11.根据权利要求10所述的***,其中所述一个或多个计算设备还被配置为使用估计的分数啁啾率和所述第二音高估计来计算所述信号的一部分的多个谐波的振幅。
12.根据权利要求10所述的***,其中使用估计的分数啁啾率来计算所述第一频率表示。
13.根据权利要求10所述的***,其中所述第二频率表示不同于所述第一频率表示。
14.根据权利要求10所述的***,其中使用音高速度变换来计算所述第一频率表示。
15.根据权利要求10所述的***,其中使用所述多个峰到峰距离的直方图来计算所述第一音高估计。
16.根据权利要求10所述的***,其中所述一个或多个计算设备还被配置为通过使用第一频率部分的反转版本计算相关性来计算所述第二音高估计。
17.一种或多种非临时性计算机可读介质,包括计算机可执行指令,所述计算机可执行指令在被执行时使至少一个处理器执行动作,所述动作包括:
获得信号的一部分;
计算所述信号的一部分的估计分数啁啾率;
使用所述信号的一部分的所述第一频率表示中的多个峰到峰距离来计算所述信号的第一部分的第一音高估计;以及
使用所述第一音高估计和所述信号的一部分的第二频率表示的第一频率部分与所述第二频率表示的第二频率部分之间的相关性来计算所述信号的一部分的第二音高估计。
18.根据权利要求17所述的一种或多种非临时性计算机可读介质,还包括计算机可执行指令,所述计算机可执行指令在被执行时使所述至少一个处理器执行动作,所述动作包括使用估计的分数啁啾率和所述第二音高估计来计算所述信号的一部分的多个谐波的振幅。
19.根据权利要求17所述的一种或多种非临时性计算机可读介质,还包括计算机可执行指令,所述计算机可执行指令在被执行时使所述至少一个处理器执行动作,所述动作包括:
获得所述信号的第二部分;
计算所述信号的第二部分的第二估计分数啁啾率;
计算所述信号的第二部分的第三音高估计;以及
使用所述第三音高估计来计算所述信号的第二部分的第四音高估计。
20.根据权利要求19所述的一种或多种非临时性计算机可读介质,还包括计算机可执行指令,所述计算机可执行指令在被执行时使所述至少一个处理器执行动作,所述动作包括:
使用估计的分数啁啾率和所述第二音高估计来计算所述信号的一部分的多个谐波的振幅;
使用所述振幅计算特征向量;
使用所述第二估计分数啁啾率和所述第四音高估计来计算所述信号的第二部分的第二多个谐波的第二振幅;
使用所述第二振幅计算第二特征向量;以及
使用所述特征向量和所述第二特征向量来执行语音识别,说话人验证,说话人识别或信号重建中的至少一个。
CN201680017664.6A 2015-02-06 2016-02-03 确定谐波信号的特征 Pending CN107430850A (zh)

Applications Claiming Priority (17)

Application Number Priority Date Filing Date Title
US201562112832P 2015-02-06 2015-02-06
US201562112836P 2015-02-06 2015-02-06
US201562112850P 2015-02-06 2015-02-06
US201562112796P 2015-02-06 2015-02-06
US62/112,836 2015-02-06
US62/112,832 2015-02-06
US62/112,850 2015-02-06
US62/112,796 2015-02-06
US14/969,036 2015-12-15
US14/969,036 US9922668B2 (en) 2015-02-06 2015-12-15 Estimating fractional chirp rate with multiple frequency representations
US14/969,022 2015-12-15
US14/969,038 US9842611B2 (en) 2015-02-06 2015-12-15 Estimating pitch using peak-to-peak distances
US14/969,038 2015-12-15
US14/969,029 2015-12-15
US14/969,022 US9548067B2 (en) 2014-09-30 2015-12-15 Estimating pitch using symmetry characteristics
US14/969,029 US9870785B2 (en) 2015-02-06 2015-12-15 Determining features of harmonic signals
PCT/US2016/016261 WO2016126753A1 (en) 2015-02-06 2016-02-03 Determining features of harmonic signals

Publications (1)

Publication Number Publication Date
CN107430850A true CN107430850A (zh) 2017-12-01

Family

ID=60239707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680017664.6A Pending CN107430850A (zh) 2015-02-06 2016-02-03 确定谐波信号的特征

Country Status (2)

Country Link
EP (1) EP3254282A1 (zh)
CN (1) CN107430850A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389575A (zh) * 2018-01-11 2018-08-10 苏州思必驰信息科技有限公司 音频数据识别方法及***
CN108399923A (zh) * 2018-02-01 2018-08-14 深圳市鹰硕技术有限公司 多人发言中发言人识别方法以及装置
CN108510991A (zh) * 2018-03-30 2018-09-07 厦门大学 利用泛音列的说话人确认方法
CN110931035A (zh) * 2019-12-09 2020-03-27 广州酷狗计算机科技有限公司 音频处理方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1525435A (zh) * 2003-02-24 2004-09-01 国际商业机器公司 用于估计语音信号的音调频率的方法和装置
CN102197423A (zh) * 2008-10-30 2011-09-21 高通股份有限公司 用于低位速率应用的过渡语音帧的译码
US20130041656A1 (en) * 2011-08-08 2013-02-14 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
CN103718242A (zh) * 2011-03-25 2014-04-09 英特里斯伊斯公司 采用谱运动变换的用于处理声音信号的***和方法
CN103999076A (zh) * 2011-08-08 2014-08-20 英特里斯伊斯公司 包括将声音信号变换成频率调频域的处理声音信号的***和方法
CN104200818A (zh) * 2014-08-06 2014-12-10 重庆邮电大学 一种音高检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1525435A (zh) * 2003-02-24 2004-09-01 国际商业机器公司 用于估计语音信号的音调频率的方法和装置
CN102197423A (zh) * 2008-10-30 2011-09-21 高通股份有限公司 用于低位速率应用的过渡语音帧的译码
CN103718242A (zh) * 2011-03-25 2014-04-09 英特里斯伊斯公司 采用谱运动变换的用于处理声音信号的***和方法
US20130041656A1 (en) * 2011-08-08 2013-02-14 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
CN103999076A (zh) * 2011-08-08 2014-08-20 英特里斯伊斯公司 包括将声音信号变换成频率调频域的处理声音信号的***和方法
CN104200818A (zh) * 2014-08-06 2014-12-10 重庆邮电大学 一种音高检测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389575A (zh) * 2018-01-11 2018-08-10 苏州思必驰信息科技有限公司 音频数据识别方法及***
CN108389575B (zh) * 2018-01-11 2020-06-26 苏州思必驰信息科技有限公司 音频数据识别方法及***
CN108399923A (zh) * 2018-02-01 2018-08-14 深圳市鹰硕技术有限公司 多人发言中发言人识别方法以及装置
WO2019148586A1 (zh) * 2018-02-01 2019-08-08 深圳市鹰硕技术有限公司 多人发言中发言人识别方法以及装置
CN108510991A (zh) * 2018-03-30 2018-09-07 厦门大学 利用泛音列的说话人确认方法
CN110931035A (zh) * 2019-12-09 2020-03-27 广州酷狗计算机科技有限公司 音频处理方法、装置、设备及存储介质
CN110931035B (zh) * 2019-12-09 2023-10-10 广州酷狗计算机科技有限公司 音频处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
EP3254282A1 (en) 2017-12-13

Similar Documents

Publication Publication Date Title
EP3440672B1 (en) Estimating pitch of harmonic signals
KR102213013B1 (ko) 신경망을 이용한 주파수 기반 오디오 분석
CN102124518B (zh) 采用特征提取处理音频信号用于语音增强的方法和装置
US9485597B2 (en) System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
Singh et al. Vector quantization approach for speaker recognition using MFCC and inverted MFCC
US9870785B2 (en) Determining features of harmonic signals
US9922668B2 (en) Estimating fractional chirp rate with multiple frequency representations
CN107430850A (zh) 确定谐波信号的特征
US20040199382A1 (en) Method and apparatus for formant tracking using a residual model
Karthikeyan et al. Hybrid machine learning classification scheme for speaker identification
CN112116922B (zh) 一种噪声盲源信号分离方法、终端设备及存储介质
US9548067B2 (en) Estimating pitch using symmetry characteristics
CN113593604A (zh) 检测音频质量方法、装置及存储介质
Kumar et al. A new pitch detection scheme based on ACF and AMDF
CN116665698A (zh) 一种基于希尔伯特-黄变换和Mel谱变换的脉冲声识别方法
US20210256970A1 (en) Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium
CN110379438A (zh) 一种语音信号基频检测与提取方法及***
US11929086B2 (en) Systems and methods for audio source separation via multi-scale feature learning
US10235993B1 (en) Classifying signals using correlations of segments
CN112786068A (zh) 一种音频音源分离方法、装置及存储介质
US9842611B2 (en) Estimating pitch using peak-to-peak distances
KR101524848B1 (ko) 오디오 유형 판별장치
Ahuja et al. A complex matrix factorization approach to joint modeling of magnitude and phase for source separation
Sharma et al. Reduced feature sets for vowel recognition
Nesbitt et al. Speech segment clustering for real-time exemplar-based speech enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171201

WD01 Invention patent application deemed withdrawn after publication