CN104756182A

CN104756182A - 组合听觉注意力线索与音位后验得分以用于音素/元音/音节边界检测

Info

Publication number: CN104756182A
Application number: CN201380057316.8A
Authority: CN
Inventors: O.卡林利-阿克巴卡克
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2012-11-29
Filing date: 2013-11-21
Publication date: 2015-07-01
Anticipated expiration: 2033-11-21
Also published as: US20140149112A1; US10049657B2; EP2926335B1; US10424289B2; EP2926335B8; US20190005943A1; WO2014085204A1; EP2926335A1; CN104756182B; JP6189970B2; US20170263240A1; JP2016502140A; US9672811B2; EP2926335A4

Abstract

可通过从对应于所记录音频的信号提取听觉注意力特征并从所述信号提取音位后验子来从所述信号确定音位边界。随后可组合所述听觉注意力特征和音位后验子以检测所述信号中的边界。

Description

组合听觉注意力线索与音位后验得分以用于音素/元音/音节边界检测

相关申请的交叉引用

本申请是关于2011年4月1日申请的颁予Ozlem Kalinli等人的共同所有且共同待决的第13/078,866号美国非临时专利申请，所述申请的标题为“使用听觉注意力线索的语音音节/元音/音素边界检测(SPEECHSYLLABLE/VOWEL/PHONE BOUNDARY DETECTION USING AUDITORYATTENTION CUES)”且整个公开内容以引用方式并入本文。

背景技术

将连续的语音分段成多个片段有益于许多应用，包含语音分析、自动语音识别(ASR)和语音合成。然而，举例来说，手动确定音位标音和分段需要专门的知识，且对于大数据库来说此过程是费力的且昂贵的。因此，过去提出许多自动分段和标记方法来解决此问题。

提出的方法包括：[1]S,Dusan和L.Rabiner，“最大频谱转变位置与音素边界之间的关系(On the relation between maximum spectral transition positionsand phone boundaries)”，ICSLP会议，2006(下文称为“参考文献[1]”)；[2]v.Qiao、N,Shimomura和N,Minematsu，“无人监督最佳音位分段：目标、算法和比较(Unsupervised optimal phoneme segmentation:objectives,algorithm andcomparisons)”，lCASSP会议，2008(下文称为“参考文献[2]”)；[3]F.Brugnara、D,Falavigna和M,Omologo，“基于隐式马尔可夫模型的自动语音分段和标记(Automatic segmentation and labeling of speech based on hidden markovmodels)”，语音通信(Speech Communication)，1993年第12卷第4号357-370页(下文称为“参考文献[3]”)；[4]A.Sethy和S,S,Narayanan，“用于串联语音合成的精炼语音分段(Refined speech segmentation for concatenative speechsynthesis)”，ICSLP会议，2002(下文称为“参考文献[4]”)；以及[5]v.Estevan、V,Wan和0,Scharenborg，“找到语音中的最大裕度片段(Finding maximummargin segments in speech)”，ICASSP会议，2007(下文称为“参考文献[5]”)。

这些提出的方法对应于在Ozlem Kalinli在INTERSPEECH 2012(国际语音通信协会第13次年会，美国俄勒冈州波特兰市，2012年9月9-13日)上的标题为“使用听觉注意力特征的自动音位分段(Automatic Phoneme SegmentationUsing Auditory Attention Features)”的音位分段论文中引用的参考文献[1,2,3,4,5]，所述论文以引用方式并入本文。

第一组提出的分段方法需要标音，而标音并不总是可用。当标音不可用时，可考虑使用用于分段的音位识别器。然而，例如HMM等语音识别技术无法准确地安置音位边界，因为这些技术针对音位序列的正确识别经过优化。参见参考文献[4]。第二组方法不需要对音位的标音或声学模型的任何事先了解。但是，它们的性能通常有限。

本公开的方面是在此背景下出现的。

附图说明

图1A是说明根据本发明的实施方案的用于语音中的音节/元音/音素边界检测的方法的流程图。

图1B到图1F是说明可在本发明的实施方案中使用的频谱-时间接受滤波器的实施例的示意图。

图2A是说明根据本公开的方面的组合听觉注意力特征与音位后验子以用于边界检测的方法的流程图。

图2B是说明根据本公开的方面的组合听觉注意力特征与音位后验子以用于边界检测的另一方法的流程图。

图3是说明根据本发明的实施方案的用于语音中的音节/元音/音素边界检测的设备的框图。

图4是说明根据本发明的实施方案的用于语音中的音节/元音/音素边界检测的设备的胞元处理器实现方式的实施例的框图。

具体实施方式

虽然以下详细描述为了说明的目的而含有许多具体细节，但本领域的任何技术人员将了解，对以下细节的许多变化和更改在本发明的范围内。因此，陈述下文描述的本发明的示例性实施方案，而不会有所要求本发明的任何一般性损失且不会对所要求本发明强加限制。

介绍

已经提出使用听觉注意力特征的边界检测方法。为了进一步改善边界准确性，可将音位后验子与听觉注意力特征组合。通过训练一个模型(例如深度神经网络)获得音位后验子，所述模型在给定声学特征(mfcc、梅尔滤波器组等等)的情况下估计音位类后验得分。已知通常在边界附近这些模型的音位分类准确性下降，因为后验子往往变得彼此混淆，即在音位片段的边界处典型地不存在清晰的获胜类，而在音位片段的中间，获胜者(例如，后验得分的最大值)是明确的。这实际上是对于边界检测非常有用的信息。所提出的是通过组合音位后验子与听觉注意力特征，可进一步改善边界检测性能。当前帧的音位后验子可用于此目的。另外，相邻帧“后验子”也可通过使用上下文信息进一步帮助改善性能。

在本公开中，提出一种新颖的分段方法，它组合听觉注意力特征与音位后验子。所述算法不需要标音，且可准确地执行分段。

仅使用听觉注意力特征的边界检测方法已在2011年4月1日申请的第13/078,866号美国专利申请中描述，所述美国专利申请的整个内容以引用方式并入本文。为了进一步改善边界准确性，可将音位后验子与听觉注意力特征组合。通过训练一个模型(例如深度神经网络)可获得音位后验子，所述模型在给定声学特征(mfcc、梅尔(mel)滤波器组等等)的情况下估计音位类后验得分。已知通常在边界附近这些模型音位分类准确性下降，因为后验子变得更容易彼此混淆。举例来说，当音位后验子在边界附近时不存在清晰的获胜类，而在音位片段的中间，获胜者(例如，后验得分的最大值)是明确的。这实际上是对于边界检测非常有用的信息。因此，此处所提出的是通过组合音位后验子与听觉注意力特征，可进一步改善边界检测性能。当前帧的音位后验子可用于此目的。另外，相邻帧“后验子”也可通过使用上下文信息进一步帮助改善性能。

论述

在本公开的方面中，可分析对应于所记录音频的信号以确定边界，例如音位边界。可通过从信号提取听觉注意力特征并从信号提取音位后验子来实施这种边界检测。随后可组合听觉注意力特征和音位后验子以检测信号中的边界。可如下概括本公开的细节：首先描述听觉注意力特征提取。随后描述音素后验子提取。随后论述用于组合听觉注意力特征和音位后验子以用于边界检测的两种提出的方法。

在本公开中，提出一种使用听觉注意力线索用于语音的音位分段的新颖方法。在不限于任何操作理论的情况下，所提出方法的动机如下。在语音频谱中，通常可见在音位边界附近、尤其在元音附近的边缘和局部不连续，因为它们展现高能量和清晰的共振峰结构。举例来说，在上文提到的论文“使用听觉注意力特征的自动音位分段”的图1中，示出了被标音为“his captain was”的语音片段的频谱以及近似音位边界。在频谱中，视觉上可观察到这些边界中的一些对应于例如元音ih、ae、ix等的边界的音位边界。因此，相信通过检测听觉频谱中的相关定向边缘和不连续，即，就像在视觉上完成那样，可定位语音中的音位片段和/或边界。

提取听觉注意力特征

通过模仿人类听觉***中的处理阶段，可以在生物学上激发和提取听觉注意力线索。基于中央听觉***中的处理阶段使用2D频谱-时间滤波器从声音频谱提取一组多尺度特征，并将所述特征转换为低等级听觉要点特征。与文献中的先前工作不同，听觉注意力模型像图像一样分析2D声音频谱，以检测边缘以及局部的时间和频谱不连续。因此，所述模型成功地检测语音中的边界。

在听觉注意力模型中，可将听觉频谱视为类似于视觉上的场景的图像，且使用2D频谱-时间接受滤波器在多个尺度中从频谱提取对比特征。可将所提取的特征调谐到不同的局部定向边缘：例如，可将频率对比特征调谐到局部水平定向边缘，所述局部水平定向边缘对于检测且捕获共振峰和共振峰变化来说是较好的。接着，可获得低等级听觉要点特征，且可使用神经网络来发现相关定向边缘并学习所述要点特征与音位边界之间的映射。

从输入语音信号提取听觉注意力线索可如下进行。可基于早期听觉***模型或快速傅立叶变换(FFT)计算第一频谱。随后可基于中央听觉***提取多尺度特征。随后可计算中央-周围差异，且可比较精细尺度和较粗糙的尺度。通过将每一特征图划分为m乘n网格，并计算网格的每一子区的平均值，可计算听觉要点特征。随后可例如使用主分量分析(PCA)和/或离散余弦变换(DCT)来减少听觉要点特征的维度和冗余。维度减少和冗余减少产生了在此称为听觉要点的最终特征。

第13/078,866号美国专利申请中描述了听觉特征提取的细节。图1A中示出注意力模型的框图和特征提取的流程图。图1A中的流程图说明根据本公开的方面的使用听觉注意力线索在语音中的音节/元音/音素边界检测的方法。在生物学上激发听觉注意力模型，且所述模型模仿人类听觉***中的处理阶段。所述模型经过设计以确定何时以及在何处声音信号吸引人的注意力。

起初接收声音输入窗101。举例来说且不作为限制，可使用麦克风，在某个有限持续时间的时间窗中捕获此声音输入窗101，所述麦克风用来将表征特定声音输入窗101的声波转换为电信号以用于进一步处理。声音输入窗101可为人的语音的任何片段。举例来说且不作为限制，声音输入窗101可含有单个音节、单词、句子或这些的任意组合。

随后使声音输入窗101通过一组处理阶段103，所述处理阶段操作以将此声音窗101转换为音频频谱105。这些处理阶段103可以基于例如人类听觉***等听觉***的早期处理阶段。举例来说且不作为限制，处理阶段103可由模仿听觉***中从基膜到耳蜗核的过程的耳蜗滤波、内毛细胞和侧向抑制阶段组成。可使用一组128个重叠的常数Q不对称带通滤波器实施耳蜗滤波，所述滤波器具有沿着对数频率轴均匀分布的中心频率。通过可为特定目的建构的经合适配置的电子硬件可以实施这些滤波器。或者，可以在用实施所述滤波器的功能的软件编程的通用计算机上实施所述滤波器。为了分析，可使用具有10ms移位的音频的20ms帧，这导致每一音频帧由128维向量表示。

一旦声音输入窗101已经转换为听觉频谱105，便通过模仿中央听觉***中的信息处理阶段，如107处指示提取多尺度特征117来分析频谱105。可通过广泛多种声学特征来捕获听觉注意力或将听觉注意力自愿地引导到广泛多种声学特征，所述声学特征例如为强度(或能量)、频率、时间、音高、音品、FM方向或斜率(此处称为“定向”)等等。可以选择和实施这些特征以模仿主听觉皮层中的接受场。

举例来说且不作为限制，在模型中可包含以涵盖上述特征的四个特征是：强度(I)、频率对比(F)、时间对比(T)，和定向(O_θ)，其中θ＝{45°,135°}。强度特征捕获与信号的强度或能量相关的信号特性。频率对比特征捕获与信号的频谱(频率)改变相关的信号特性。时间对比特征捕获与信号中的时间改变相关的信号特性。定向滤波器对信号中的移动纹波敏感。

可使用二维频谱-时间接受滤波器109、111、113、115来提取每一特征，所述滤波器模仿主听觉皮层中的某些接受场。图1B到图1F分别说明接受滤波器(RF)109、111、113、115的实施例。以对应于正提取的特征的灰阶图像来说明针对特征提取模拟的接受滤波器(RF)109、111、113、115中的每一者。分别以白色和黑色示出激励阶段110和抑制阶段112。

这些滤波器109、111、113、115中的每一者能够检测和捕获信号特性的某些改变。举例来说，图1B中说明的强度滤波器109可经配置以模仿听觉皮层中仅具有对于特定区为选择性的激励阶段的接受场，使得所述强度滤波器在声音输入窗的持续时间中检测和捕获强度/能量的改变。类似地，图1C中描绘的频率对比滤波器111可经配置以对应于主听觉皮层中具有激励阶段和同时的对称抑制边带的接受场。图1D中说明的时间对比滤波器113可经配置以对应于具有抑制阶段和后续激励阶段的接受场。

可以认为听觉频谱类似于在视觉上的场景的图像，且将这些特征中的一些特征调谐到不同的局部定向边缘；即，将频率对比特征调谐到局部水平定向边缘，所述局部水平定向边缘对于检测且捕获共振峰和共振峰变化可能是较好的。换句话说，图1C所示的频率对比滤波器111在声音窗的持续时间中检测和捕获频谱改变。图1D中所示的时间对比滤波器113检测和捕获时间域中的改变。定向滤波器115'和115”模仿对移动纹波的听觉神经元响应的动态。可用如图1E所示的具有45°定向的激励和抑制阶段来配置定向滤波器115'以检测和捕获纹波何时向上移动。类似地，可用如图1F所示的具有135°定向的激励和抑制阶段来配置定向滤波器115″以检测和捕获纹波何时向下移动。一个重要点在于，在模型中，计算特征对比而不是绝对特征强度，这对于改变点/边界检测和分段是至关重要的。

可使用具有变化角度的二维Gabor滤波器来实施用于产生频率对比111、时间对比113和定向特征115的RF。用于频率和时间对比特征的滤波器可分别解释为水平和垂直定向滤波器，且可用具有0°和90°定向的二维Gabor滤波器来实施。类似地，可使用具有{45°,135°}定向的二维Gabor滤波器来提取定向特征。使用二维高斯内核来实施用于产生强度特征109的RF。

使用多尺度平台来完成特征提取107。产生给定数据集合的尺度空间表示的动机源自于对象由处于不同尺度的不同结构组成的基本观测。对于分析未知数据集合的***，没有方法先验地知道什么尺度对于描述与数据相关联的所关注结构是适当的。因此仅有的合理方法是考虑处于多个尺度的描述以便捕获可能发生的未知尺度变化。在本发明的实施方案中，可使用二元金字塔来获得多尺度特征117(即，以因数二对输入频谱进行滤波和抽选，并重复此过程)。因此，产生八个尺度(如果窗持续时间大于1.28秒就是这样，否则存在较少的尺度)，从而产生范围从1:1(尺度1)到1:128(尺度8)的大小减少因数。

在获得多尺度特征117之后，如119处指示使用那些多尺度特征117产生特征图121。这是通过计算“中心-周围”差来实现，所述“中心-周围”差涉及将“中心”(精细)尺度与“周围”(较粗糙)尺度进行比较。中心-周围操作模仿局部皮层抑制的性质且检测局部时间和空间不连续。此模拟是通过在“中心”精细尺度(c)与“周围”较粗糙尺度(s)之间的交叉尺度减法(θ)，从而产生特征图Μ(c,s)：M(c,s)＝|M(c)θM(s)|,M∈{I,F,T,O_θ}。通过内插到较精细尺度和逐点减法来计算两个尺度之间的交叉尺度减法。举例来说且不作为限制，可使用c＝{2,3,4},s＝c+δ，其中δ∈{3,4}，这导致当在八个尺度下提取特征时的总共30个特征图。

接着，如123处指示可从I,F,T,O_θ的每一特征图121提取“听觉要点”向量125，使得听觉要点向量125的总和在低分辨率下覆盖整个输入声音窗101。为了针对给定特征图121确定听觉要点向量125，首先将特征图121划分为m乘n子区网格，且可计算每一子区的统计数据，例如最大值、最小值、平均值、标准偏差等等。举例来说且不作为限制，可计算每一子区的平均值以捕获图的总体性质。对于具有高度h和宽度w的特征图M_i，听觉要点向量的计算可写为：

其中

k＝{0，…，n-1}，l＝{0，…，m-1}。

图1中示出m＝4、n＝5的听觉要点向量提取123的实施例，其中可使用20维听觉要点向量来表示特征图。m和n的这些特定值是为了举例的目的而提供，且不作为对本发明的任何实施方案的限制。

在从每一特征图121提取听觉要点向量125之后，可增强且组合听觉要点向量以产生累积要点向量。累积要点向量可随后经历维度减少127以减少维度和冗余，以便使音节/元音/音素边界检测更实际。举例来说且不作为限制，可以对维度减少127使用主分量分析(PCA)。维度减少127的结果是最终特征，在此称为听觉要点特征129，所述听觉要点特征传达累积要点向量在较少维度中的信息。PCA常用作模式识别中的主要技术。如通常了解，PCA在数学上定义为一个正交线性变换，它将数据变换到一个新坐标系，使得通过数据的任何投影的最大方差位于第一坐标(称为第一主分量)上，第二最大方差位于第二坐标上，等等。PCA可在用合适配置的软件编程的计算机上实施。可通过PCA实施维度减少的市售软件的实施例包含美国马萨诸塞州内蒂克市MathWorks公司的Matlab，或新西兰Waikato大学开发的Weka机器学习软件。或者，可使用例如因数分析、内核PCA、线性判别分析(LDA)等等其它线性和非线性维度减少技术来实施维度减少129。

在已确定表征输入声音窗101的听觉要点特征127'之后，可从听觉要点特征和音素后验子检测音素边界、元音边界、音节核或音节边界。为了对给定输入声音窗执行此检测，可使用例如神经网络、最近相邻者分类器、决策树等等机器学习算法131来分类边界，例如音素边界、元音边界、音节核或音节边界。举例来说且不作为限制，可使用神经网络作为机器学习算法131，因为神经网络以生物学方式受良好激发。在此情况下，神经网络131可在给定输入声音所关联的累积要点向量的情况下识别输入声音内的音素边界、元音边界、音节核或音节边界。

如本文使用，术语“神经网络”指代自然或人工神经元的互连群组，它使用基于连通计算方法的信息处理的计算/数学模型。神经网络是基于流过所述网络的外部或内部信息而改变结构的自适应***。它们用来实施非线性统计数据建模，且可用来对输入与输出之间的复杂关系进行建模。

可以两种方式使用神经网络输出估计：i)硬决策，ii)软决策。在硬决策中，神经网络的最终决策用作二进制决策；例如，如果在一帧处存在边界，那么神经网络输出一，否则输出零。在软决策中，作为[0,1]之间的值的神经网络概率得分可用作在给定注意力特征的情况下当前帧是边界的后验概率。而且，在软决策中，可将估计后验概率馈送到另一***中且与来自另一源的信息组合以进一步改善任一***的性能。举例来说，可使用边界信息来改善语音识别性能，或可使用来自语音识别引擎的补充信息来进一步改善边界检测性能等等。另外，本发明的某些实施方案还可任选地提供关于片段中的音节数目的信息；例如，每秒或每话语的音节数目，这可用于估计说话速率。随后，可使用估计说话速率来改善其它口头语言处理应用，例如，通过基于语音速率选择适当声学模型或找到语音的情感片段等等来改善语音识别性能。

音节/音素/元音边界信息可单独使用或用来改善例如语音识别等其它口头语言处理***。而且，可以将音素/元音/音节边界视为阶层式***。还可使用来自一类边界的信息改善另一类边界；即，可使用元音边界信息改善音素或音节边界检测。而且，本发明的实施方案可用于分析所有类型的语音以及说话风格和噪声条件；即，隔离语音、连续语音、自发语音、阅读语音、无噪声/有噪声语音等等。

音素后验子：

音素后验子的提取类似于音素识别器。基本上，从语音提取声学特征，并训练模型或音素模型来学习特征和音素之间的映射。

举例来说且不作为限制，可如下每个帧提取音素后验子。首先可针对每一语音帧提取用于音素分类的声学特征。可使用移位窗处理语音；例如，可每10毫秒(ms)提取声学特征。特征可以是MFCC、梅尔滤波器组特征、PLP、听觉注意力特征、节律特征等等，或它们的组合。为了捕获上下文，可增强多个帧的特征以形成较大维度的特征向量。典型地，帧数目可从大约9帧到25帧变化。随后，可使用机器学习算法来学习特征与音素类之间的映射；举例来说，神经网络、svn、HMM、DBN(深度信念网络)属于用于音素分类或识别的此类工具。

举例来说且不作为限制，可使用J.Lee和S.-Y.Lee在Interpseech 2011的“用于改进的音素识别的语音特征的深度学习(Deep Learning of SpeechFeatures for Improved Phonetic Recognition)”中描述的现有技术音素分类器来获得音素后验子。

作为数值实施例，可以使用25ms分析窗与10ms移位来提取26个频带对数梅尔频谱特征。可以增强对应于210ms的时间上下文的21个连续帧以产生一个546维特征向量。在馈送到DBN中之前可对特征进行平均值以及方差正规化。

举例来说，DBN可具有：具有线性单元的一个输入层(取546个输入)，具有1000个二进制单元的3个隐藏层，以及具有正常对数单元的一个输出层。在实验中，使用原始61个TIMIT音素类。然而，由于子音位表示改进了建模，因此也可使用用于音位的子音位表示。假定每一音位具有3个时间状态，因此DBN的输出层具有61×3＝183个输出。

为了训练DBN，可使用TIMIT训练数据集合。为了获得子音位标记，首先执行均匀分段。在网络收敛之后，通过维特比强制对准来完成状态的重新对准。所述算法的特征在于以无监督方式(预训练)逐层初始化的简单生成模型层，之后是使用有监督技术的整层的判别再训练。从下部层到上部层预训练每一层是使用基于受限玻尔兹曼机(Restricted Boltzmann Machine，RBM)的无监督学习算法来完成，且最终有监督训练可使用众所周知的为了最终分类而精细调谐网络的误差向后传播算法来完成。重复训练直到模型参数收敛，换句话说，直到验证集合中的误差开始增加。结构化的DBN以及训练过程的更多细节可以参见Lee等人的论文(上文引用)。

一旦DBN模型经过训练，便可用于提取音素类后验子。为此，再次从声音提取对数梅尔特征。随后可针对每一帧增强来自21个帧的特征，并将这些特征馈送到DBN中。在DBN的输出端处，获得每一状态(子音位)的后验子得分。为了获得每一帧的音位后验子得分，对每一音位的3个状态的概率进行简单平均化。

组合听觉注意力特征与音素后验子以用于边界检测

图2A中图示了组合听觉注意力特征与音素后验子以用于边界检测的一种方法200a。在此处称为“早期融合”的此技术中，可从声音信号并行地提取听觉注意力(AA)特征232和音素后验子(PP)234，例如如上文所描述。可增强AA特征和音素后验子并将其发送到机器学习算法238，例如三层神经网络(NN)，以用于边界估计。

举例来说，对于音素边界检测试验，可使用TIMIT核心测试集合(192句)进行测试，且将其余官方测试集合用作开发数据。对于开发数据，首先可使用AA模型提取听觉注意力特征。并行地，针对从可能使用TIMIT训练集合训练的经训练DBN模型传递对数梅尔特征的每一帧提取61个音位后验子。随后，针对每一帧将音位后验子得分正规化以求和为1。

使用三层神经网络238进行音素边界分类，其中神经网络具有D个输入(D＝D_AA+D_PP，AA特征的维度加音素后验子的维度)、(N+D)/2个隐藏单元，以及N＝2个输出单元(边界对非边界)。此处当来自一个单个帧的音素后验子结合上文描述的DBN使用时，则D_PP＝61，因为存在从DBN取得的61个音素后验子。还可使用上下文来同样从音素后验子追踪音素边界。举例来说，可以指派具有最高后验子得分的音素作为用于所述帧的音素类。类似地，可针对先前或后续帧执行音素分类。随后，如果音素索引从一个帧到另一帧改变，那么这指示边界的存在。当使用上下文时，还可增强相邻的左和/或右帧的音位后验子，这将导致较大的特征向量。举例来说，如果使用三个上下文帧(包含当前帧以及相邻的左和右帧)，那么将61×3＝183个音素后验子馈送到NN，其中D_PP＝183。甚至可以将用于当前帧和相邻帧的估计音位索引馈送到NN中以用于边界检测。举例来说，在某些实验中，已经使用单个帧、三个上下文帧以及五个上下文帧。

在图2B中描绘的替代实现方式200b中，两个边界分类器238a-b可分别使用1)听觉注意力特征238a和2)音素后验子238b来训练。这些分类器的输出是边界后验子；例如，二维特征，其中第一维表示作为边界的概率，且第二维是作为非边界的概率。在使用来自两个不同分类器的这些边界后验子的校准阶段239期间，可使用找到能得到最佳性能的权重的回归(即，使用对数线性回归)或者以数据驱动方式(例如，使用机器学习算法或类似算法)来使性能最大化。同样可使用上下文，例如，在校准阶段期间还可包含相邻帧边界概率。

实验

对于TIMIT上的音素边界检测已经进行实验。然而，以上想法也可用于检测语音中的元音边界和其它边界，例如元音的末尾、音节核、音节核的中间或末尾，或音节的末尾。

神经网络返回所述帧作为边界的概率。随后，可使用软决策，使得使用神经网络概率得分来产生随着时间而变的一维曲线。随后可对所述曲线执行峰搜索以定位局部最大值，所述最大值在高于阈值的情况下将被作为检测到的边界而计数。与其它方法中的做法一样，在需要时容许音位边界周围有20ms误差。可按照将使用边界信息的下一应用程序的需要来选择阈值。举例来说，降低阈值将增加重新调用速率(或检测较多边界)同时降低精度(可能存在较多错误警报)，而增加阈值将增加精度且减少重新调用。此处，对于表I中的结果简单地选择0.5阈值以避免参数调谐。

下文示出通过不同方法获得的结果的比较。在表I中，“Dusan等人”和“Quiao等人”的提法是指代上文提到的参考文献[1]和参考文献[2]描述的先前方法。DBN帧等级音素分类以及DBN加用于音素识别的维特比解码是直接使用DBN提取的两种音位边界检测基线。在DBN帧等级音素分类中，每当音素类从一帧到后续帧改变时，对检测到的边界进行标记。当通过使音位后验子得分通过维特比解码器来采用音素识别时，对应于话语的音位串连同它们的估计音位边界一起返回。在表I中，还示出了通过组合听觉注意力(AA)特征和音素后验子(PP)与x帧后验子(AA+PP_xf)而实现的音位边界检测结果，其中x表示帧数目。以下表I中示出了结果。

表I

使用早期融合的TIMIT上的片段等级音素边界检测结果。

方法	重新调用	精度	F-得分
				Dusan等人[1]	75.2	72.73	73.94
Quiao等人[2]	77.5	78.76	78.13
				DBN帧音素类	92.71	66.01	77.11
DBN+维特比音素解码器	71.82	76.61	74.14
				AA特征	80.59	80.05	81.31
AA+PP_1f	82.52	92.50	87.23
				AA+PP_3f	89.16	87.71	88.43

如从以上表I可见，组合听觉注意力与音位后验子得分通过提供30％以上的相对改进而改善了总体F得分并胜过基线和先前报告的数字。

根据本公开的方面组合听觉注意力与音位后验子可有利地用于各种语音识别(VR)应用。举例来说，此技术可用以改善音位识别速率并改善自动语音识别(VR)的稳健性。本公开的方面还可用以改善VR的置信度量度。

本公开的方面的具体应用包含通过哼唱或仅单个元音语音执行的歌声或语音搜索。本公开的方面还可用于语音合成。本公开的方面还可用以估计说话速率，估计唱歌的节拍，改善语音记分(比唱歌记分更常用)。

本发明的实施方案可在经合适配置的计算机设备上实施。图3图示了根据本发明的实施方案可用以实施使用与音位后验子组合的听觉注意力线索的音素/音节/元音边界检测方法的计算机设备的框图。设备300一般可包含处理器模块301和存储器305。处理器模块301可包含一个或多个处理器核。使用多个处理器模块的处理***的实施例是胞元处理器(cell processor)，它的实施例例如在http://www-306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA2776387257060006E61BA/$file/CBEA_01_pub.pdf在线可以获得并以引用方式并入本文的“胞元宽带引擎架构”中详细描述。

存储器305可以呈集成电路的形式，例如RAM、DRAM、ROM和类似形式。存储器305还可为可由所有处理器模块存取的主存储器。在一些实施方案中，处理器模块301可具有与每一核相关联的局部存储器。程序303可以用可在处理器模块上执行的处理器可读指令的形式存储在主存储器305中。程序303可经配置以使用与音位后验子组合的听觉注意力线索对声音窗执行边界检测。程序303可以用任何合适的处理器可读语言(例如，C、C++、JAVA、汇编、MATLAB、FORTRAN)以及许多其它语言来编写。输入数据307也可存储在存储器中。此输入数据337可包含声音、特征图或听觉要点向量的输入窗。在程序303执行期间，可将程序代码和/或数据的一些部分加载到存储器或处理器核的局部存储装置中以用于由多个处理器核并行处理。

设备300还可包含众所周知的支持功能309，例如输入/输出(I/O)元件311、电源(P/S)313、时钟(CLK)315以及高速缓冲存储器317。设备300可任选地包含用于存储程序和/或数据的大容量存储装置319，例如磁盘驱动器、CD-ROM驱动器、磁带驱动器或类似物。装置300可任选地包含显示器单元321、音频扬声器单元322以及用户接口单元325，以便于设备与用户之间的交互。显示器单元321可采用显示文本、数字、图形符号或图像的阴极射线管(CRT)或平板屏幕的形式。用户接口325可包含可以结合图形用户接口(GUI)使用的键盘、鼠标、操纵杆、光笔或其它装置。设备300还可包含网络接口323，用以使装置能够经由例如因特网等网络与其它装置通信。

在一些实施方案中，***300可包含任选的麦克风329，所述麦克风可为单个麦克风或麦克风阵列。麦克风329可经由I/O元件311耦接到处理器301。举例来说且不作为限制，可使用麦克风329记录不同的声音输入窗。

***300的组件，包含处理器301、存储器305、支持功能309、大容量存储装置319、用户接口325、网络接口323以及显示器321，可以用可操作方式经由一个或多个数据总线327彼此连接。这些组件可以用硬件、软件或固件或者这些当中的两者或两者以上的某种组合来实施。

存在许多额外方法来使设备中的多个处理器的并行处理成流线型。举例来说，例如通过在两个或两个以上处理器核上复制代码并使每一处理器核实施所述代码以处理不同的一条数据，可以“解开”处理循环。此实现方式可避免与设置所述循环相关联的等待时间。如应用于本发明的实施方案，多个处理器可并行地从输入声音窗提取不同特征。强度提取滤波器、频率对比提取滤波器、时间对比提取滤波器以及定向提取滤波器可全部同时处理听觉频谱，从而在实施于不同处理器元件上的情况下并行地有效得多地产生对应多尺度特征。此外，还可以并行地产生特征图以及它们对应的听觉要点向量。由于能并行处理数据，节省了宝贵的处理时间，从而得到用于语音中的音素/音节/元音边界检测的更有效且流线化的***。

具体来说能够实施并行处理的处理***的一个实施例称为胞元处理器。存在可以分类为胞元处理器的许多不同处理器架构。举例来说且不作为限制，图4图示了一类胞元处理器。胞元处理器400包含主存储器401、单个功率处理器元件(PPE)407以及八个协处理器元件(SPE)411。或者，胞元处理器可以配置有任何数目个SPE。相对于图4，存储器401、PPE 407和SPE 411可以经由环式元件互连总线417彼此通信且与I/O装置415通信。存储器401含有与上文描述的输入数据具有共同特征的输入数据403，以及与上文描述的程序具有共同特征的程序405。SPE 411中的至少一者在它的局部存储装置(LS)中可包含音节/元音边界检测指令413和/或例如如上文所述将并行处理的输入数据的一部分。PPE 407在它的L1高速缓冲存储器中可包含与上文描述的程序具有共同特征的音节/元音边界检测指令409。指令405和数据403也可存储在存储器401中，用于在需要时由SPE 411和PPE 407存取。

举例来说且不作为限制，不同的SPE 411可实施多尺度特征的提取。具体来说，不同的SPE 411可分别专用于从频谱并行提取强度(I)、频率对比(F)、时间对比(T)以及定向(O_θ)特征。类似地，不同的SPE 411可分别实施针对强度(I)、频率对比(F)、时间对比(T)以及定向(O_θ)特征的特征图产生或听觉要点向量提取。

举例来说，PPE 407可为具有相关联高速缓冲存储器的64位PowerPC处理器单元(PPU)。PPE 407可包含任选的向量多媒体扩展单元。每一SPE 411包含协处理器单元(SPU)和局部存储装置(LS)。在一些实现方式中，局部存储装置可具有例如用于程序和数据的大约256千字节存储器的容量。SPU是复杂性低于PPU的计算单元，因为它们通常不执行***管理功能。SPU可具有单指令多数据(SIMD)能力，且通常处理数据和起始任何所需的数据传送(经受由PPE设置的存取性质)以便执行SPU的被分配的任务。SPE 411允许***实施需要较高计算单元密度且可有效地使用所提供指令集的应用程序。通过PPE 407管理大量的SPE 411允许广泛多种应用中的具成本效益的处理。举例来说，胞元处理器的特征可以在于称为胞元宽带引擎架构(CBEA)的架构。在符合CBEA的架构中，多个PPE可组合为PPE群组，且多个SPE可组合为SPE群组。为了实施例的目的，将胞元处理器描绘为具有仅有单个SPE和单个PPE的单个SPE群组和单个PPE群组。或者，胞元处理器可包含多个功率处理器元件群组(PPE群组)和多个协处理器元件群组(SPE群组)。符合CBEA的处理器例如在http://www-306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA277638725706000E61BA/$file/CBEA_01_pub.pdf在线可以获得且以引用方式并入本文的“胞元宽带引擎架构”中详细描述。

虽然上文是本发明的优选实施方案的完整描述，但也可能使用各种替代方案、修改和等效物。因此，本发明的范围不应当参考以上描述来确定，而是应当参考所附权利要求书及其完整等效物范围来确定。在此描述的无论是优选还是不优选的任何特征都可与在此描述的无论是优选还是不优选的任何其它特征组合。在所附的权利要求书中，不定冠词“一”指代跟随所述冠词的项目有一个或多个的量，以另外方式明确陈述的情况除外。所附权利要求书不应解释为包含装置加功能限制，除非在使用短语“用于...的装置”的给定权利要求中明确陈述这种限制。

Claims

1.一种用于处理音频信号的输入窗的方法，所述输入窗具有多个帧，所述方法包括：

从所述输入窗的所述帧中的每一者提取听觉注意力特征；

从所述输入窗的所述帧中的每一者提取音素后验子；

使用机器学习从所述听觉注意力特征和所述音素后验子的组合产生组合边界后验子；以及

从所述组合边界后验子估计所述音频信号中含有的语音中的边界。

2.如权利要求1所述的方法，其中所述产生组合边界后验子包括：

将所述听觉注意力特征和所述音素后验子都馈送到边界分类器的机器学习算法中以输出所述组合边界后验子。

3.如权利要求1所述的方法，其中所述产生组合边界后验子包括：

将所述听觉注意力特征馈送到第一边界分类器的机器学习算法中以输出第一边界后验子集合；

将所述音素后验子馈送到第二边界分类器的机器学习算法中以输出第二边界后验子集合；

校准所述第一边界后验子集合和所述第二边界后验子集合以确定用于所述第一边界后验子集合和第二边界后验子集合的相对权重；以及

将所述相对权重指派给所述第一边界后验子集合和所述第二边界后验子集合以输出所述组合边界后验子。

4.如权利要求1所述的方法，其中所述提取音素后验子包括：

从所述输入窗的所述帧中的每一者提取声学特征；以及

将所述声学特征馈送到音素分类器的机器学习算法中以输出所述音素后验子。

5.如权利要求1所述的方法，其中所述提取听觉注意力特征包括：

确定所述输入窗的听觉频谱；

从所述听觉频谱提取一个或多个多尺度特征，其中每一多尺度特征是使用单独的二维频谱-时间接受滤波器来提取；

产生对应于所述一个或多个多尺度特征的一个或多个特征图；

从所述一个或多个特征图中的每一者提取听觉要点向量；

通过从所述一个或多个特征图提取的每一听觉要点向量的增强而获得累积要点向量；以及

从所述累积要点向量产生所述听觉注意力特征。

6.如权利要求2所述的方法，其中所述边界分类器的所述机器学习算法是三层神经网络。

7.如权利要求3所述的方法，其中所述第一边界分类器的所述机器学习算法是三层神经网络，且所述第二边界分类器的所述机器学习算法是三层神经网络。

8.如权利要求4所述的方法，其中所述音素分类器的所述机器学习算法是深度信念网络。

9.如权利要求4所述的方法，其中所述声学特征是对数梅尔频谱特征。

10.如权利要求1所述的方法，还包括通过在对应于所述输入窗的时间片段中用处理器对所述音频信号进行数字取样来产生所述音频信号的所述输入窗。

11.如权利要求3所述的方法，其中所述校准包含使用回归确定所述相对权重。

12.如权利要求3所述的方法，其中所述校准包含使用机器学习确定所述相对权重。

13.如权利要求1所述的方法，其中所述估计边界是音节边界、元音边界、音位边界或其组合。

14.一种用于语音识别中的边界检测的设备，包括：

处理器；

存储器；以及

实施于所述存储器中且可由所述处理器执行的计算机编码指令，其中所述计算机编码指令经配置以实施用于处理音频信号的输入窗的方法，所述方法包括：

从所述信号的帧中的每一者提取一个或多个听觉注意力特征；

从所述信号的所述帧中的每一者提取一个或多个音素后验子；

使用机器学习从所述听觉注意力特征和所述音素后验子的组合产生一个或多个组合边界后验子；以及

从所述组合边界后验子估计所述音频信号中含有的语音中的一个或多个边界。

15.如权利要求14所述的设备，还包括耦接到所述处理器的麦克风，所述方法还包括用所述麦克风检测所述音频信号。

16.一种具有实施于其中的程序指令的非暂时性计算机可读媒体，其中所述程序指令由计算机***的处理器执行使所述处理器执行用于处理音频信号的输入窗的方法，所述方法包括：