CN112074903A

CN112074903A - 用于口语中的声调识别的***和方法

Info

Publication number: CN112074903A
Application number: CN201880090126.9A
Authority: CN
Inventors: 洛伦·鲁哥什; 维坎特·托马
Original assignee: Fluent Artificial Intelligence Co
Current assignee: Fluent Artificial Intelligence Co
Priority date: 2017-12-29
Filing date: 2018-12-28
Publication date: 2020-12-11
Also published as: WO2019126881A1; US20210056958A1; US20230186905A1

Abstract

提供一种在电子设备中使用序列到序列神经网络来识别口语的声调模式的***和方法。所识别的声调模式可用于改善语音识别***对声调语言的准确性。

Description

用于口语中的声调识别的***和方法

对相关申请的引用

本申请要求于2017年12月29日提交的美国临时申请第62/611,848号的优先权，该临时申请的全部内容通过引用结合在此。

技术领域

本发明涉及一种用于处理和/或识别声学信号的方法和装置。更具体地说，在本文中所述的***能够识别语言的语音声调，其中该声调可用于区分词汇或语法含义，包括声调变化。

背景技术

声调是许多语言的音韵学的一个重要组成部分。声调是一种区分或改变单词的音高模式，例如音高轨迹。声调语言的一些例子包括亚洲的汉语和越南语、印度的旁遮普语以及非洲的坎金语和富拉尼语。例如，在汉语普通话中，单词“妈”(mā)、“麻”(má)、“马”(mǎ)和“骂”(mà)由相同的两个音素(/ma/)组成，只能通过它们的声调模式来区分。因此，针对声调语言的自动语音识别***不能仅依赖音素，必须结合一些关于声调识别(无论是暗含的还是外显的)的知识，以避免歧义。除了声调语言中的语音识别之外，声调识别的示例性实施例还包括自动声调识别的其他用途，包括大规模语料库语言学和计算机辅助语言学习。

由于说话者之间和说话者内部的声调发音的差异，声调识别是一个很难实现的功能。虽然有这些变化，但是研究人员发现可利用学习算法(例如神经网络)来识别声调。例如，可训练简单的多层感知器(MLP)神经网络，以从音节中提取的一组声调特征作为输入，并输出声调预测。类似地，训练好的神经网络可将一组梅尔频率倒谱系数(MFCC)帧作为输入，并输出中心帧的声调预测。

现有的基于神经网络的声调识别***的一个缺点是，它们需要分段语音的数据集(即，每个声学帧都标记有训练目标的语音)，以便进行训练。人工分割语音的成本高昂，需要时间和大量的语言专业知识。可以使用强制对准器来自动分割语音，但是强制对准器本身必须首先在手动分割的数据上进行训练。对于几乎没有训练数据和专业知识可用的语言来说，这尤其成问题。

因此，仍非常需要一种支持在没有分割好的语音的情况下训练声调识别的***和方法。

发明内容

根据一个方面，提供了一种在计算设备中处理和/或识别与声调语言相关联的声学信号中的声调的方法，该方法包括：将特征向量提取器应用于输入声学信号，并输出输入声学信号的特征向量序列；以及将一个或多个神经网络的至少一个运行时模型应用于该特征向量序列，并从输入声学信号产生声调序列作为输出；其中该声调序列被预测为特征向量序列的每个给定语音特征向量代表声调的一部分的概率。

根据一个方面，使用一个或多个序列到序列网络将特征向量序列映射到声调序列，以学习用于将特征向量序列映射到声调序列的至少一个模型。

根据一个方面，该特征向量提取器包括多层感知器(MLP)、卷积神经网络(CNN)、递归神经网络(RNN)、倒谱图计算机、谱图计算机、梅尔滤波倒谱系数(MFCC)计算机或滤波器组系数(FBANK)计算机之中的一种或多种。

根据一个方面，该输出声调序列可与互补的声学向量(例如MFCC或FBANK特征向量或音素后验图)相结合，以实现一种能够以更高精度进行声调语言的语音识别的语音识别***。

根据一个方面，该序列到序列网络包括使用适合于CTC训练、编码器-解码器训练或注意力训练的损失函数训练的MLP、前馈神经网络(DNN)、CNN或RNN之中的一种或多种。

根据一个方面，使用单向或双向GRU、LSTM单元或其衍生装置之中的一种或多种来实现RNN。

所述的***和方法可在语音识别***中实现，以帮助估计单词。该语音识别***是在具有处理器、存储器和麦克风输入装置的计算设备上实现的。

在另一个方面中，提供了一种处理和/或识别声学信号中的声调的方法，该方法包括可训练的特征向量提取器和序列到序列神经网络。

在另一个方面中，提供了一种包括用于执行所述方法的计算机可执行指令的计算机可读介质。

在另一个方面中，提供了一种用于处理声学信号的***，该***包括处理器和存储器，该存储器包括用于执行所述方法的计算机可执行指令。

在该***的一种实现方案中，该***包括用于执行基于云的处理的基于云的装置。

在另一个方面中，提供了一种电子装置，该电子装置包括用于接收声学信号的声学传感器、本文所述的***以及与该***的接口，该接口用于在所述***输出估计声调时利用它们。

附图说明

通过结合附图阅读下文的详细说明，本公开的其他特征和优点将变得明显。

图1示出了用于实现口语声调识别的***的框图；

图2示出了使用具有CTC的双向递归神经网络、基于倒谱(cepstrum)的预处理以及卷积神经网络进行声调预测的方法；

图3示出了不使用由所公开的方法产生的声调后验信息的语音识别器的混淆矩阵的一个示例；

图4示出了使用由所公开的方法产生的声调后验信息的语音识别器的混淆矩阵的一个示例；

图5示出了用于实现所公开的***的计算设备；和

图6示出了用于处理和/或识别与声调语言相关联的声学信号中的声调的方法。

应注意，在所有附图中，相似的特征以相似的附图标记标识。

具体实施方式

本发明提供了一种使用序列到序列网络学习识别声调序列而无需分割的训练数据的***和方法。序列到序列网络是一种被训练为以一个序列作为输入并输出一个序列的神经网络。序列到序列网络包括联结主义时间分类(CTC)网络、编码器-解码器网络和注意网络等。在序列到序列网络中使用的模型通常是递归神经网络(RNN)；但是，也存在非递归架构，可使用类似于CTC的序列损失函数将这种架构训练为用于语音识别的卷积神经网络。

根据另一个方面，使用一个或多个序列到序列网络将特征向量序列映射到声调序列，以学习用于将特征向量序列映射到声调序列的至少一个模型。

在另一个方面中，提供了一种电子装置，该电子装置包括用于接收声学信号的声学传感器、本文所述的***以及与该***的接口，该接口用于在该***输出估计声调时利用它们。

请参考图1，该***由可训练特征向量提取器104和序列到序列网络108组成。使用基于随机梯度的优化以端到端的方式训练该组合***，以最大限度地减少由语音音频和声调序列组成的数据集的序列损失。向该***提供输入声学信号(例如语音波形102)，可训练特征向量提取器104确定特征向量序列106。序列到序列网络108使用特征向量序列106来学习用于将特征向量映射到声调序列110的至少一个模型。声调序列110被预测为每个给定语音特征向量代表声调的一部分的概率。这也可称为声调后验图。

请参考图2，在一个实施例中，在预处理网络210中，使用汉明窗(hamming window)212从帧计算倒谱图214。对于声调识别目的，倒谱图214是输入表示的一个好选择：它在与说话者的声音的声调对应的索引处有一个峰值，并且包含声音信号中存在的除相位之外的所有信息。相反，F0特征和MFCC特征破坏输入信号中的大部分信息。或者，也可使用对数梅尔滤波特征(也称为滤波器组特征(FBANK))而不是倒谱图。虽然倒谱图是高度冗余的，但可训练特征向量提取器可学***均池化、L2-范数池化等)和激活层(例如sigmoid、tanh等)的其他配置也是可能的。

序列到序列网络通常是可具有一个或多个单向或双向递归层的递归神经网络(RNN)230。递归神经网络230还可具有更复杂的递归单元，例如长-短期记忆(LSTM)或门控递归单元(GRU)等。

在一个实施例中，序列到序列网络使用CTC损失函数240来学习输出正确的声调序列。可使用贪婪搜索或定向搜索从由网络产生的logit中解码输出。

示例和实验

在图2中示出了所述方法的一个示例。使用这个示例的实验是在如Hui Bu等人于2017年在《Oriental COCOSDA 2017》上发表的论文“AIShell-1：开源普通话语音语料库和语音识别基准”中所述的AISHELL-1数据集上进行的，该论文通过引用结合在此。AISHELL-1由来自中国各地的400名讲话者录制的165个小时的清晰语音组成，其中47％是男性，53％是女性。该语音是在无噪声环境中录制的，并且量化为16位并以16000赫兹重新采样。训练集包含340名讲话者的120098条话语(150小时的语音)，开发集包含40名讲话者的14326条话语(10小时)，测试集包含其余20名讲话者的7176条话语(5小时)。

表1列出了在用于这些示例性实验的识别器中使用的一组可能的超参数。我们使用双向门控递归单元(BiGRU)作为RNN，每个方向上有128个隐藏单元。该RNN具有一个带6路输出的仿射层：5路输出用于5个普通话声调，1路输出用于CTC“空白”标签。

表1：实验中描述的识别器的层次

层类型	超参数
		帧结构	25毫秒，具有10毫秒跨度
开窗	汉明窗
		FFT	长度-512
abs	-
		log	-
IFFT	长度-512
		conv2d	11x11，16个提升器，跨度1
池化	4x4，最大，跨度2
		激活	ReLU
conv2d	11x11，16个提升器，跨度1
		池化	4x4，最大，跨度2
激活	ReLU
		conv2d	11x11，16个提升器，跨度1
池化	4x4，最大，跨度2
		激活	ReLU
丢弃	50％
		递归	BiGRU，128个隐藏单元
CTC	-

使用优化方法、0.001学习速率和梯度截断方式对该网络进行了最多20个时期的训练，该优化方法例如是Diederik Kingma和Jimmy Ba于2015年在国际学习表征会议(ICLR)上发表的论文“Adam：一种随机优化方法”中所公开的方法，该论文通过引用结合在此。利用了RNN的批量归一化和称为SortaGrad课程学习策略的新优化课程，该课程在DarioAmodei、Sundaram Ananthanarayanan、Rishita Anubhai、Jingliang Bai、EricBattenberg、Carl Case、Jared Casper、Bryan Catanzaro、Qiang Cheng、Guoliang Chen等人在2016年第33届国际机器学习会议(ICML)论文集的第173-182页上发表的论文“深度语音2：英语和汉语的端到端语音识别”中有所说明，其中，训练序列在第一时期内是按照以下长度顺序从训练集中提取的，而在后续时期内是随机提取的。为了进行正则化，使用验证集的早期停止来选择最终模型。为了从logit解码声调序列，使用了贪婪搜索法。

在一个实施例中，该预测声调与互补的声学信息相结合，以增强语音识别***的性能。这种互补的声学信息的例子包括通过一个单独的模型或一组模型(例如全连接网络、卷积神经网络或递归神经网络)获得的声学特征向量序列或后验音素概率序列(也称为音素后验图)。后验概率也可通过联合学习方法获得，例如对组合声调的多任务学习以及其他任务中的音素识别。

进行了一个实验，表明预测的声调能改善语音识别***的性能。在这个实验中，记录了31名母语为汉语的说话者阅读由8对发音相似的命令构成的一组命令。如表1所示的16个命令被选择为除了声调之外在语音上是相同的。训练了两个神经网络来识别这组命令：一个神经网络仅以音素后验信息作为输入，另一个神经网络同时以音素后验信息和声调后验信息作为输入。

表2：在易混淆命令实验中使用的命令

结果

表3比较了一些声调识别器的性能。在表的第[1]-[5]行中，提供了在文献中的其他地方报告的其他普通话声调识别结果。在表的第[6]行中示出了当前公开的方法的一个例子的结果。当前公开的方法获得的结果比其他报告的结果更好，具有11.7％的TER。

表3：声调识别结果的比较

	方法	模型和输入特征	TER
				[1]	Lei等人	HDPF→MLP	23.8％
[2]	Kalinli	声谱图→Gabor→MLP	21.0％
				[3]	Huang等人	HDPF→GMM	19.0％
[4]	Huang等人	MFCC+HDPF→RNN	17.1％
				[5]	Ryant等人	MFCC→MLP	15.6％
[6]	当前方法	CG→CNN→RNN→CTC	11.7％

[1]-Xin Lei、Manhung Siu、Mei-Yuh Hwang、Mari Ostendorf和Tan Lee，“用于普通话广播新闻语音识别的改良声调模型”，国际口语处理会议论文集，第1237-1240页，2006年。

[2]-Ozlem Kalinli，“使用听觉注意线索的声调和音高重音分类”，ICASSP，2011年5月，第5208-5211页。

[3]-Hank Huang、Han Chang和Frank Seide，“汉语语音识别的音高跟踪和声调特征”，ICASSP，第1523-1526页，2000年。

[4]-Hao Huang、Ying Hu和Haihua Xu，“使用递归神经网络的普通话声调建模”，arXiv预印本arXiv：1711.01946，2017年。

[5]-Ryant、Neville、Jiahong Yuan和Mark Liberman，“无音高跟踪的普通话声调分类”，2014年IEEE国际声学、语音和信号处理会议，2014年，第4868-4872页。

图3和图4示出了易混淆命令识别任务的混淆矩阵，其中每对连续的行代表一对发音相似的命令，较暗的方块表示较高频率的事件(较亮的方块表示很少出现，较暗的方块表示多次出现)。图3示出了无声调输入的语音识别器的混淆矩阵300，图4示出了有声调输入的语音识别器的混淆矩阵400。从图3中能明显看出，仅仅依靠音素后验信息会导致一对命令之间的混淆。此外，通过比较图3和图4，能够看出由所提出的方法产生的声调特征有助于消除语音相似命令的歧义。

声调识别在其中很有用的另一个实施例是计算机辅助语言学习。正确的声调发音是说话者在以声调语言说话时能够被理解的必要条件。在计算机辅助语言学习应用(例如Rosetta Stone^TM或Duolingo^TM)中，声调识别可用于检查学习者是否对短语的声调正确发音。这可通过识别学习者所说的声调并检查它们是否与要说的短语的预期声调相匹配来完成。

自动声调识别在其中很有用的另一个实施例是语料库语言学，其中口语中的模式是从为该语言获得的大量数据中推断出来的。例如，某个单词可能有多种发音(可想一下英语中的“either”可发音为“IY DH ER”或“AY DH ER”)，每个发音都有不同的声调模式。可使用自动声调识别来搜索大型音频数据库，并通过识别单词发音的声调来确定每种发音变化形式的使用频率以及每种发音的使用环境。

图5示出了用于实现所公开的使用序列到序列网络进行口语声调识别的***和方法的计算设备。***500包括用于执行从非易失性存储装置506提供至内部存储器504的指令的一个或多个处理器502。该处理器可位于计算设备中，或者位于网络或基于云的计算平台的一部分中。输入/输出508接口使得包括声调的声信号能够被音频输入装置(例如麦克风510)接收。然后，处理器502可使用序列到序列网络来处理口语的声调。随后可将该声调映射到相关装置514的命令或动作，在显示器516上产生输出，提供听觉输出512，或者产生针对另一个处理器或装置的指令。

图6示出了用于处理和/或识别与声调语言相关联的声学信号中的声调的方法600。电子设备(602)从音频输入(例如耦合至该设备的麦克风)接收输入声学信号。该输入可以是从位于该电子设备内或远离该电子设备的位置的麦克风接收的。此外，可从多个麦克风输入提供输入声学信号，并且可在输入级对输入声学信号进行预处理以消除噪声。将特征向量提取器应用于输入声学信号，并输出输入声学信号的特征向量序列(604)。将一个或多个序列到序列神经网络的至少一个运行时模型应用于特征向量序列(606)，并从输入声学信号产生声调序列作为输出(608)。可选地，可将该声调序列与互补的声学向量组合，以增强语音识别***的性能(612)。将该声调序列预测为特征向量序列的每个给定语音特征向量代表声调的一部分的概率。将具有最高概率的声调映射为与该电子设备或由该电子设备控制或耦合至该电子设备的设备相关联的命令或动作(610)。该命令或动作可在所述设备或远程设备上执行软件功能，执行向用户界面或应用编程接口(API)的输入，或者导致某个设备执行用于进行一个或多个物理动作的命令。该设备例如可以是消费者或个人电子设备、智能家庭组件、车辆接口、工业设备、物联网(IOT)类型的设备、或者能够使API向设备提供数据或者能够在设备上执行功能动作的任何计算设备。

本公开的实施例中的每个元件可实现为硬件、软件/程序、或它们的任意组合。全部或一部分软件代码可存储在计算机可读介质或存储器中(例如作为只读存储器，例如非易失性存储器，例如闪存、CD ROM、DVD ROM、Blu-ray^TM、半导体ROM、USB；或者作为磁记录介质，例如硬盘)。该程序可以是源代码、目标代码、介于源代码与目标代码之间的代码的形式(例如部分编译的形式)、或者任何其他形式。

本领域普通技术人员应理解，图1-6所示的***和部件可包括未在附图中示出的部件。为了确保示图的简洁性和清晰性，附图中的元件不一定是按比例绘制的，而仅是示意性的，并且对元件结构没有限制。对于本领域技术人员来说显而易见的是，在不脱离如所附权利要求所限定的本发明的范围的前提下，能够做出各种变化和修改。

Claims

1.一种在计算设备中处理和/或识别与声调语言相关联的声学信号中的声调的方法，所述方法包括：

将特征向量提取器应用于输入声学信号，并输出针对所述输入声学信号的特征向量序列；和

将一个或多个神经网络的至少一个运行时模型应用于所述特征向量序列，并从所述输入声学信号产生声调序列作为输出；

其中所述声调序列被预测为所述特征向量序列的每个给定语音特征向量代表声调的一部分的概率。

2.根据权利要求1所述的方法，其中所述声调序列限定声调后验图。

3.根据权利要求1或2所述的方法，其中所述声调序列与从单独的声学模型获得的互补声学向量相结合。

4.根据权利要求3所述的方法，其中所述互补声学向量是语音特征向量或音素后验图。

5.根据权利要求4所述的方法，其中所述语音特征向量是通过梅尔频率倒谱系数(MFCC)提供的。

6.根据权利要求4所述的方法，其中所述语音特征向量是通过滤波器组特征(FBANK)技术提供的。

7.根据权利要求4所述的方法，其中所述语音特征向量是通过感知线性预测(PLP)技术提供的。

8.根据权利要求1至7中任一项所述的方法，还包括：

使用一个或多个神经网络学习用于将所述特征向量序列映射到所述声调序列的至少一个模型，从而将所述特征向量序列映射到所述声调序列。

9.根据权利要求1至8中任一项所述的方法，其中所述特征向量提取器包括以下中的一者或多者：多层感知器(MLP)、卷积神经网络(CNN)、递归神经网络(RNN)、倒谱图、谱图、梅尔滤波倒谱系数(MFCC)或滤波器组系数(FBANK)。

10.根据权利要求9所述的方法，其中所述神经网络是序列到序列网络。

11.根据权利要求10所述的方法，其中所述序列到序列网络包括使用适合于联结主义时间分类(CTC)训练、编码器-解码器训练或注意力训练的损失函数而训练的MLP、CNN、RNN中的一者或多者。

12.根据权利要求11所述的方法，其中所述序列到序列网络具有一个或多个单向或双向递归层。

13.根据权利要求11所述的方法，其中在所述序列到序列网络是RNN的情况下，该RNN具有递归单元，如长-短期记忆(LSTM)或门控递归单元(GRU)。

14.根据权利要求13所述的方法，其中所述RNN是使用一个或多个单向或双向LSTM或GRU单元实现的。

15.根据权利要求1至14中任一项所述的方法，还包括使用汉明窗计算帧的预处理网络，所述汉明窗用于定义倒谱输入表示。

16.根据权利要求13所述的方法，还包括卷积神经网络，其用于在施加激活层之前对倒谱图执行n×m卷积然后进行池化。

17.根据权利要求16所述的方法，其中n＝2、3或4，并且m＝3或4。

18.根据权利要求16或17所述的方法，其中所述池化包括2×2池化、平均池化或L2-范数池化。

19.根据权利要求16至18中任一项所述的方法，其中所述激活层是使用三层网络、sigmoid层或tanh层的整流线性单元(ReLU)激活功能之一。

20.根据权利要求1至19中任一项所述的方法，其中所述计算设备提供以较高的准确度识别声调语言中的语音的语音识别***。

21.一种语音识别***，包括：

音频输入装置；

耦合至所述音频输入装置的处理器；

耦合至所述处理器的存储器，所述存储器用于执行权利要求1至20中任一项所述的方法，以帮助估计输入声音信号中存在的声调，并输出针对所述输入声音信号的特征向量序列。