CN113574595B

CN113574595B - 语音识别***、方法以及非暂时性计算机可读存储介质

Info

Publication number: CN113574595B
Application number: CN202080021866.4A
Authority: CN
Inventors: N·莫里茨; 堀贵明; J·勒鲁克斯
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-03-25
Filing date: 2020-01-16
Publication date: 2023-11-24
Anticipated expiration: 2040-01-16
Also published as: US11100920B2; JP7170920B2; US20200312306A1; EP3948850A1; JP2022522379A; WO2020195068A1; EP3948850B1; CN113574595A

Abstract

本申请实施例提供一种语音识别***、方法以及非暂时性计算机可读存储介质，该语音识别***包括用于将输入声学信号转换为编码器状态序列的编码器、用于识别编码器状态序列中的对转录输出进行编码的编码器状态的位置的对齐解码器、用于基于所识别的编码器状态的位置将编码器状态序列划分成分区集合的划分模块、以及确定针对作为输入提交至基于注意力的解码器的编码器状态的每个分区的转录输出的基于注意力的解码器。当接收到声学信号时，***使用编码器生成编码器状态序列，基于由对齐解码器识别出的编码器状态的位置，将编码器状态序列划分为分区集合，并且将分区集合顺序地提交到基于注意力的解码器中，以产生针对每个所提交的分区的转录输出。

Description

语音识别***、方法以及非暂时性计算机可读存储介质

技术领域

本发明总体涉及一种用于语音识别的***和方法，并且更具体地，涉及一种用于端到端语音识别的方法和***。

背景技术

自动语音识别(ASR)***广泛用于各种界面应用，诸如语音搜索。然而，制作实现高识别准确性的语音识别***是具有挑战性的。这是因为这样的制作需要对ASR***接受的目标语言有深入语言知识。例如，音素集、词汇和发音词典对于制作这样的ASR***是必不可少的。音素集需要由语言的语言学家仔细定义。发音词典需要通过为包括超过10万个单词的词汇表中的每个单词分配一个或更多个音素序列来手动创建。此外，一些语言没有明确的词汇边界，因此我们可能需要标记化来从文本语料库中创建词汇表。因此，开发语音识别***非常困难，尤其是针对小语种的语音识别***。另一个问题是语音识别***被分解为多个模块，包括声学、词典和语言模型，这些模块分别进行优化。这种架构可能会导致局部最优，但是每个模型都经过训练以匹配其它模型。

端到端和序列到序列神经网络模型最近分别在ASR社区中获得了越来越多的关注和普及。端到端ASR***的输出通常是字素序列，其可以是单个字母，也可以是更大的单位，诸如单词片段和整个单词。端到端ASR的吸引力在于，与传统ASR***相比，它通过由神经网络组件组成并避免对语言专家知识的需要来构建ASR***，从而实现简化的***架构。端到端ASR***可以直接学习语音识别器的所有组件，包括发音、声学和语言模型，从而避免了语言特定语言信息和文本规范化的需要。

端到端语音识别的目标是将传统架构简化为深度学习框架内的单一神经网络架构。例如，一些端到端ASR***使用2015年卡内基梅隆大学和Google Brain的Chan等人和不来梅雅各布大学和蒙特利尔大学的Bahdanau等人提出的基于注意力的神经网络。基于注意力的神经网络(例如参见美国专利9,990,918)展示了端到端语音识别的最新成果。然而，基于注意力的神经网络具有输出延迟，不太适用于需要低延迟的在线/流传输ASR。

因此，需要减少由用于端到端和/或序列到序列语音识别的这种基于注意力的模型架构引起的输出延迟。

发明内容

自动语音识别(ASR)可以看作是序列到序列问题，其中，输入是以一定速率从音频帧中提取的声学特征序列，并且输出是字符序列。一些实施方式的目的是提高用于端到端和/或序列到序列语音识别的基于注意力的网络的性能。另外地或另选地，一些实施方式的另一目的是减少由基于注意力的模型架构引入的输出延迟并且使端到端的基于注意力的ASR***适用于以流传输/在线方式进行识别。

一些实施方式基于这样的认识，即，基于注意力的ASR***需要观察输入序列，(输入序列通常是由语音暂停划分的整个语音话语)，以向每个输入帧分配权重，以便识别输出序列的每个转录输出。例如，转录输出可以包括单个字母字符或一系列字符，诸如单词或句子片段。由于缺乏关于输入序列的哪些部分与识别下一个转录输出相关的先验知识以及需要为每个输入帧分配权重，因此基于注意力的网络通常需要处理大的输入序列。这种处理允许利用将注意力放在话语的不同部分，但是也增加了输出延迟，因此对于流传输/在线方式的语音识别来说是不切实际的。

如这里所使用的，ASR的输出延迟是接收语音话语的声学帧的时间与识别接收的声学帧的时间之间的差。例如，当基于注意力的ASR***对整个语音话语进行操作时，话语中的单词的识别被延迟，直到接收到该话语的最后一个音频样本。这种识别的延迟导致输出延迟增加。

一些实施方式基于以下认识：与输入序列的不同部分与识别下一转录输出的相关性有关的先验知识的示例是与在输入序列中待识别的转录片段相对应的帧的位置的指示。事实上，如果转录片段的位置是已知的，那么可以通过限制输入序列来约束基于注意力的网络，以更加关注它们周围的区域。以这种方式，对于每个转录输出，基于注意力的网络可以将注意力集中在该转录片段在输入序列中的假定位置周围的区域。这种引导的注意力减少了处理大的输入序列的需要，这反过来又减少了输出延迟，使基于注意力的网络对于以流传输/在线方式进行识别是实际的。

因此，需要确定基于注意力的网络的输入与基于注意力的网络的输出的位置对齐，以减少输出延迟。然而，不幸的是，对于ASR应用程序，由于人类发音的不规则性，这种对齐远非直接的。例如，即使在单个话语中，发音速度也会有所不同，从而在同一话语的不同单词之间或甚至在单个单词的不同字符之间引入不同数量的静音段。此外，大多数基于注意力的***首先通过编码器网络将输入特征(诸如，声学特征)转换为本文称为编码器状态的不同表示。为此，对编码状态而不是输入声学特征执行期望对齐。

一些实施方式基于以下认识，即，需要提供被训练以确定对转录输出(诸如字符、位、单词等)进行编码的编码器状态的位置的对齐网络。例如，连接时序分类(CTC)是一种类型的神经网络输出和相关评分函数，用于训练循环神经网络(RNN)，诸如长短期记忆(LSTM)网络，以解决时序可变的序列问题。基于CTC的ASR***是基于注意力的ASR***的替代方案。基于CTC的神经网络生成针对输入序列的每帧的输出，即，输入和输出是同步的，并且使用波束搜索算法将神经网络输出折叠(collapse)到输出转录。基于注意力的ASR***的性能可能优于基于CTC的ASR***。然而，一些实施方式基于以下认识：基于CTC的ASR***的中间操作所使用的输入和输出帧对齐可以由基于注意力的ASR***使用，以解决其上述输出延迟缺陷。

另外地或另选地，一些实施方式基于以下认识：基于隐马尔可夫模型(基于HMM)的***可以提供期望对齐。具体来说，可以使用传统的基于HMM的ASR***(诸如基于混合深度神经网络(DNN)或高斯混合模型(GMM)的HMM模型)来计算对齐信息。

因此，一个实施方式公开了一种语音识别***，该语音识别***被训练以从声学信号产生话语的转录。语音识别***包括：编码器网络，其被配置为处理声学信号以产生包括编码器状态序列的编码声学信号；对齐网络，诸如基于连接时序分类(基于CTC)的神经网络和/或基于HMM的模型，其被配置为处理编码器状态序列以产生转录输出的对齐，以便识别对最相关信息进行编码的编码器状态的位置以生成转录输出；以及基于注意力的神经网络，其被配置为从编码器状态的子序列确定话语的转录的表示。

为此，语音识别***将接收到的声学信号提交到编码器网络中以产生编码器状态序列；将编码器状态序列提交到对齐网络中以识别编码器状态序列中的对转录输出进行编码的编码器状态的位置；基于所识别的编码器状态的位置，将编码器状态序列划分为分区集合；并且将分区集合顺序地提交到基于注意力的神经网络中，以针对每个提交的分区产生转录输出。由于包括转录输出的分区的这种顺序处理，基于注意力的网络采用端到端的基于注意力的ASR***用于以流传输/在线方式进行识别。

在一些实现方式中，编码器、对齐解码器和基于注意力的解码器是适于联合训练的神经网络。值得注意的是，对齐解码器(诸如基于CTC的神经网络)也可以不对原始声学特征帧进行操作，而是对由编码器产生的编码器状态进行操作。因此，基于CTC的神经网络可以针对用于训练基于注意力的神经网络的相同编码器进行训练，以生成作为输入提供给基于注意力的神经网络的编码器状态的对齐。由基于CTC的神经网络产生的对齐指示对话语的转录的输出进行编码的编码声学信号的帧序列中的帧的位置。由于这种对齐，基于注意力的神经网络可以使用这种先验知识作为锚点来查找包括足够信息以识别下一个转录输出的输入帧序列。反过来，这种对齐允许减少转录错误、降低计算复杂性和/或以流传输/在线方式调整基于注意力的网络以进行语音识别。

各种实施方式解决的另一个问题是如何使用位置的对齐以高效方式调节基于注意力的解码器的注意力。例如，一个实施方式修改基于注意力的解码器的结构，以接受转录片段的位置作为辅助信息，并且训练基于注意力的神经网络，以使用该辅助信息来引起注意。另一个实施方式基于由对齐解码器检测到的下一个转录输出的位置，将输入划分成基于注意力的神经网络。这种划分迫使基于注意力的解码器仅将注意力放在期望输入帧。此外，这种划分允许减少等待直到接收到达到话语结束的未来输入帧的需要，这减少了输出延迟。

例如，在一些实施方式中，ASR***根据所指示的位置划分表示编码声学信号的编码器状态序列。编码声学信号的这些分区由基于注意力的解码器迭代处理以产生话语的转录。以这种方式，不同迭代处理整个输入信号的不同部分。这允许以流传输/在线方式处理输入声学信号。

例如，在一个实施方式中，基于注意力的解码器的迭代从由先前迭代得到的内部状态开始，以处理与在先前迭代期间处理的分区不同的分区。因此，基于注意力的神经网络的内部状态不仅被保留用于处理相同输入帧序列的字符，还被保留用于处理不同输入帧序列的字符。以这种方式，基于注意力的解码器转发其内部状态以处理不同部分，即，不同帧序列。这种区分允许基于注意力的模型将注意力集中在话语的不同部分，以减少由例如删除/跳过转录输出引起的错误。

例如，在一个实现方式中，每个分区对应于由基于CTC的神经网络识别的位置，以包括从序列开头直到一些前瞻帧的帧序列的一部分。这样的分区将新信息增量地添加到输入帧序列，同时保留先前处理的信息。实际上，这样的划分遵循基于注意力的模型的原则，允许多次处理话语的相同部分并使用权重来优先关注话语的不同部分。但是，由于先前部分已经被解码，而添加的新部分对应于待解码的新转录输出，因此基于注意力的模型可以增加对新添加帧的关注，以提高解码的准确性。

另外地或另选地，一些实施方式不仅限制未来输入帧的处理，而且限制由基于注意力的解码器处理的过去帧的数量。例如，一个实施方式对经编码的声学帧进行划分，使得每个分区包括具有固定数量帧的帧序列的子序列。根据由对齐解码器识别的位置执行划分以在帧的子序列中的识别位置处包括帧。例如，帧的子序列可以以相应识别位置处的帧为中心和/或包括帧的在识别位置的帧周围的子序列。本实施方式减小了基于注意力的神经网络处理的分区的大小，以降低计算复杂度。

在一些实施方式中，编码器神经网络、基于CTC的神经网络和基于注意力的神经网络被联合训练以形成触发注意力(TA)神经网络。以这种方式，基于CTC的神经网络和基于注意力的神经网络是从同一编码器神经网络的输出训练的。这提高了TA网络的不同组件之间的协作的准确性，并允许以端到端的方式训练TA网络以产生端到端的ASR***。

因此，一个实施方式公开了一种语音识别***，其包括：计算机存储器，其被配置为存储编码器，该编码器被配置为将输入声学信号转换成编码器状态序列；对齐解码器，其被配置为识别编码器状态序列中的对转录输出进行编码的编码器状态的位置；划分模块，其被配置为基于所识别的编码器状态的位置将编码器状态序列划分为分区集合；基于注意力的解码器，其被配置为确定针对作为输入提交至基于注意力的解码器的编码器状态的每个分区的转录输出；输入接口，其被配置为接收表示语音话语的至少一部分的声学信号；硬件处理器，其被配置为将接收到的声学信号提交至编码器以产生编码器状态序列；将编码器状态序列提交到对齐解码器中，以识别对转录输出进行编码的编码器状态的位置；基于识别的编码器状态的位置，使用划分模块将编码器状态序列划分为分区集合；并且将分区集合顺序地提交到基于注意力的解码器中，以针对每个提交的分区生成转录输出；以及输出接口，其被配置为输出转录输出。

另一个实施方式公开了一种语音识别方法，其中，该方法使用与实现该方法的存储指令相关的处理器，其中，该指令在由该处理器执行时执行该方法的步骤，该方法包括以下步骤：接收表示语音话语的至少一部分的声学信号；将声学信号转换为编码器状态序列；识别编码器状态序列中的对转录输出进行编码的编码器状态的位置；基于所识别的编码器状态的位置，将编码器状态序列划分为分区集合；将分区集合顺序地提交到基于注意力的解码器中，以针对每个提交的分区生成转录输出；并且输出转录输出。

又一实施方式公开了一种非暂时性计算机可读存储介质，其上包含可由处理器执行以执行方法的程序。该方法包括：接收表示语音话语的至少一部分的声学信号；将声学信号转换为编码器状态序列；识别编码器状态序列中的对转录输出进行编码的编码器状态的位置；基于所识别的编码器状态的位置，将编码器状态序列划分为分区集合；将分区集合顺序地提交至基于注意力的解码器中，以针对每个所提交的分区生成转录输出；并且输出转录输出。

附图说明

[图1]

图1示出根据一些实施方式的被配置用于端到端语音识别的语音识别***(ASR)的示意图。

[图2A]

图2A示出根据一些实施方式的对齐解码器的示意图。

[图2B]

图2B示出根据一些实施方式的划分编码器状态序列的示例。

[图2C]

图2C示出根据一些实施方式的划分编码器状态序列的示例。

[图3]

图3示出根据一些实施方式的基于注意力的解码器的示例。

[图4]

图4示出根据一些实施方式的语音识别***的框图。

[图5]

图5示出根据一个实施方式的由ASR***在接收到表示语音话语的后续部分的后续声学信号时执行的方法的框图。

[图6]

图6示出根据一个实施方式的端到端语音识别***的触发注意神经网络的框图。

[图7]

图7是示出根据一些实施方式的组合神经网络的示意图。

[图8]

图8示出根据一些实施方式的语音识别的性能比较图。

[图9]

图9是示出根据一些实施方式的可以在用于实现***和方法的各种配置中使用的一些组件的框图。

具体实施方式

图1示出根据一些实施方式的被配置用于端到端语音识别的语音识别***(ASR)100的示意图。语音识别***100获得输入声学序列并处理输入声学序列以生成转录输出序列。每个转录输出序列是由相应的输入声学信号表示的话语或话语的一部分的转录。例如，语音识别***100可以获得输入声学信号102并生成对应的转录输出110，该转录输出110是由输入声学信号102表示的话语的转录。

输入声学信号102可以包括作为话语的数字表示的音频数据的多帧序列，例如，连续数据流。音频数据的多帧序列可以对应于时间步长序列，例如，其中，音频数据的每帧与从音频数据的前一帧在时间上进一步偏移10毫秒的25毫秒音频流数据相关联。音频数据的多帧序列中的每帧音频数据可以包括表征在相应时间步长的话语部分的帧的特征值。例如，多帧音频数据的序列可以包括滤波器组谱特征向量(filter bankspectra featurevector)。

转录输出110可以包括由输入声学信号102表示的话语的转录片段序列。转录输出可以包括一个或更多个字符。例如，转录输出可以是来自Unicode字符集合的一个字符或一系列字符。例如，字符集合可以包括英语、亚洲语、西里尔语以及***语的字母表。字符集合还可以包括***数字、空格字符和标点符号。另外地或另选地，转录输出可以包括位、单词和其它语言结构。

语音识别***100包括声学编码器104和基于注意力的解码器108。声学编码器104处理输入声学信号102并生成编码器状态序列106，该编码器状态序列106针对输入声学信号102提供替代的(例如更高的)表示。编码器状态序列可以包括对应于第二时间步长集合的多个音频数据帧的替代序列。在一些实现方式中，输入声学序列的替代表示被二次采样到较低帧速率，即，替代表示中的第二时间步长集合小于输入声学序列中的第一时间步长集合。训练基于注意力的解码器108以处理表示针对输入声学信号102的替代表示的编码器状态106，并且从提供给基于注意力的解码器108的编码器状态序列生成转录输出110。

一些实施方式基于这样的认识：基于注意力的ASR***可能需要观察由语音暂停划分的整个语音话语，以将权重分配给每个输入帧，以便识别每个转录输出110。由于缺乏关于输入声学信号的哪一部分与识别下一个转录输出相关的先验知识以及需要为每个编码器状态分配权重，因此基于注意力的解码器通常需要处理大的输入序列。这种处理允许利用将注意力放在话语的不同部分，但也增加了输出延迟，因此对于流传输/在线方式的语音识别来说是不切实际的。

如这里所使用的，ASR的输出延迟是接收语音话语的声学帧的时间与识别所接收的声学帧的时间之间的差。例如，当基于注意力的ASR***对整个语音话语进行操作时，对话语中的单词的识别被延迟，直到接收到话语的最后一个单词。这种识别的延迟导致输出延迟增加。

一些实施方式基于以下认识：关于输入序列的不同部分与识别下一转录输出的相关性的先验知识的示例是与在输入序列中待识别的转录输出相对应的帧的位置的指示。事实上，如果转录输出位置是已知的，则可以通过限制输入序列，迫使基于注意力的解码器更多地关注这些位置，而较少或不关注其它位置。通过这种方式，对于每个转录输出，基于注意力的网络可以将其注意力集中在其在输入序列中的位置周围。这种引导的注意力减少了处理大的输入序列的需要，这反过来又减少了输出延迟，使基于注意力的解码器能够以流传输/在线方式进行识别。

为此，ASR 100包括对齐解码器120，该对齐解码器120被训练以确定序列106中的对转录输出进行编码的编码器状态的位置125，诸如字符、位、词等。例如，连接时序分类(CTC)是一种目标函数和相关神经网络输出，用于训练循环神经网络(RNN)，诸如长短期记忆(LSTM)网络，以解决时序可变的序列问题。基于CTC的ASR***是基于注意力的ASR***的替代方案。基于CTC的神经网络针对输入序列的每帧生成输出，即，输入和输出是同步的，并且在将神经网络输出折叠至输出转录之前，使用波束搜索算法找到最佳输出序列。基于注意力的ASR***的性能可能优于基于CTC的ASR***。然而，一些实施方式基于以下认识：基于CTC的ASR***的中间操作所使用的输入和输出帧对齐可以由基于注意力的ASR***使用以解决其上述输出延迟缺陷。

为了利用对齐解码器120提供的对齐信息125，ASR***100包括划分模块130，其被配置为将编码器状态序列106划分为分区集合135。例如，划分模块130可以针对所识别的编码器状态的每个位置125划分编码器状态序列，使得分区135的数量由例如等于对转录输出进行编码的所识别的编码器状态106的数量定义。以此方式，基于注意力的解码器不接受整个序列106作为输入，而是接受该序列的部分135，而每个部分可能包括新转录输出以形成转录输出序列110。在一些实施方式中，对齐解码器、基于注意力的解码器和划分模块的组合被称为触发注意力解码器。实际上，触发注意力解码器可以在接收到话语时对其部分进行处理，从而使ASR***100对于以流传输/在线方式进行识别是实际的。

图2A示出了根据一些实施方式的对齐解码器120的示意图。对齐解码器120的目标之一是解码由编码器104产生的编码器状态序列106。为此，对齐解码器被训练以解码序列106以便产生转录输出序列126。这就是为什么对齐解码器120在本公开中被称为解码器的原因。然而，至少一些实施方式不使用对齐解码器的解码转录输出。相反，一些实施方式使用由对齐解码器产生的中间对齐信息来解码编码器状态序列106。换言之，一些实施方式忽略由对齐解码器解码的转录输出，而是使用编码器状态在序列106中的位置125以提高基于注意力的解码器108的性能。这种方法背后的基本原理是基于注意力的解码器108的性能会优于对齐解码器120的性能。为此，由对齐解码器120产生的中间对齐信息被用于进一步提高基于注意力的解码器108的性能。

然而，在一些实施方式中，由对齐解码器120解码的转录输出126进一步与由基于注意力的解码器108解码的转录输出组合以进一步提高识别的准确性。在这些实施方式中，对齐解码器120被使用两次：第一次用于帮助划分基于注意力的解码器108的编码器状态序列，第二次用于进一步提高由基于注意力的解码器108解码的转录输出的准确性。

图2A示出对齐解码器处理带有单词“dog”的话语的示例部分的操作的示例。加索引序列的元素周围的框识别编码器状态序列106中的对转录输出进行编码的编码器状态125的位置。例如，编码器104将声学特征(诸如，log-mel谱能量)的输入声学序列x转换为T-编码器状态序列H：

H＝Encoder(X)。

例如，在一种实现方式中，与采样率为100Hz的特征矩阵X相比，编码器输出被二次采样到四倍低帧速率。令Z＝(z₁，...，z_T)表示T的编码器状态106的逐帧序列，且，其中，/>表示可以是单个字符或单词片段的不同字素的集合以及例如∈空白符号的集合。令C＝(c₁，...，c_L)，且/>表示长度为L的字素序列，使得当将重复的标签折叠为单个出现并删除空白符号时，序列Z减少到C。

在一些实施方式中，对齐解码器概率性地对编码器状态序列进行解码，且概率被导出为：

其中，p(Z|C)表示转变概率，p(Z|H)表示声学模型。

在一些实施方式中，对齐解码器将对应于Z中的相同字素的帧的每个子序列内的具有最高概率的帧识别为所识别的编码器状态。例如，如果序列Z使用索引i_l和j_l针对Z中的第l个标签c_l出现的开始和结束被编写，且并且对于所有t，Z_t＝c_l，使得对于所有其它索引，i_l≤t≤j_l且z_t＝∈。对齐解码器执行从序列Z到具有相同长度T的包括对具有最高概率125的转录输出进行编码的所识别编码器状态的子集的序列Z′＝(∈^*，c₁，∈^*，[0]c₂，∈^*，...，c_L，∈^*)的映射，其中*表示零次或更多次重复，并且其中，每个c_l在对应于c_l的那些帧中具有最大概率的帧处只出现一次，如下所示：

另选地，对齐解码器可以将对应于Z中的相同字素的帧的每个子序列内的第一帧或最后一帧识别为所识别的编码器状态。

图2B和图2C示出根据一些实施方式的划分编码器状态序列的示例。在各种实施方式中，分区由可操作地连接到对齐解码器120、基于注意力的解码器108和编码器104的划分模块130执行。划分模块130被配置为访问对齐解码器120的对齐信息125，划分由编码器104产生的编码器状态序列，并且将编码器状态序列的部分135顺序地提交至基于注意力的解码器108。

例如，在图2B的一个实施方式中，每个分区135b包括从编码器状态序列的开始直到通过将所识别的编码器状态的位置向前移位固定位移而确定的前瞻编码器状态为止的编码器状态。图1示出了前瞻编码器状态140的示例。例如，如果固定位移的值是5，并且所识别的状态编码器的位置是编码器状态序列中的第8个，则分区135b包括前13个编码器状态。如果后续识别的编码器状态的位置是11，则分区135b包括前16个编码器状态。实际上，每个分区都包括新转录输出的编码器状态，而增加分区的长度，允许基于注意力的解码器利用其长度。

在图2C的另选实施方式中，对应于所识别的编码器状态的位置的分区135c包括以所识别的编码器状态的位置为中心的预定数量的编码器状态。例如，如果编码器状态的预定数量是7并且所识别的编码器状态的位置是编码器状态序列中的第15个，则分区135c包括编码器状态序列106中的第12个和第18个之间的编码器状态。实际上，每个分区都包括用于新转录输出的编码器状态，同时具有固定长度的分区以减少基于注意力的解码器的计算负担。另外地或另选地，与所识别的编码器状态的位置对应的分区135c包括所识别的编码器状态的位置周围的预定数量的编码器状态，例如，从中心移位以提供偏心覆盖。

图3示出了根据一些实施方式的基于注意力的解码器108的示例。基于注意力的解码器108包括上下文向量生成器304和解码器神经网络306。上下文向量生成器304接收自前一时间步长的解码器神经网络306的隐藏解码器状态312、自前一时间步长的上下文向量生成器的注意力权重分布310、替代表示135(即，以上参考图1描述的声学信号102的替代表示)作为输入。上下文向量生成器304处理解码器神经网络的先前隐藏解码器状态306、先前注意力权重分布310和替代表示135，以计算替代表示135的时间帧上的注意力权重分布并生成时间步长的上下文向量314作为输出。上下文向量生成器304将时间步长的上下文向量314提供给解码器神经网络306。

对于不同的迭代，基于注意力的解码器108接收不同的分区331、333和335。例如，分区集合包括第一分区331和后续分区333和335。基于注意力的解码器108处理第一分区331以产生第一个转录输出。在基于注意力的神经网络完成处理将基于注意力的网络置于其内部状态的第一分区之后，基于注意力的解码器108使用基于注意力的网络处理后续分区，而不重置基于注意力的网络的内部状态，以针对后续分区一个接一个地产生转录输出。

实际上，基于注意力的解码器108在不重置基于注意力的网络的内部状态的情况下处理不同分区，以利用先前解码的信息。在确定语音话语结束时，基于注意力的解码器108被配置为重置其内部状态。

解码器神经网络306接收时间步长的上下文向量314以及前一时间步长的转录输出308和隐藏解码器状态312作为输入。解码器神经网络306在处理时间步长的上下文向量314和来自先前时间步长的转录输出308之前，用先前隐藏解码器状态312初始化其内部隐藏状态，以生成时间步长的转录输出分数集合316作为输出。在一些实现方式中，解码器神经网络306是具有softmax输出层的循环神经网络(RNN)。每个转录输出分数与来自转录输出集合的相应转录输出对应。例如，如以上参考图1所述，转录输出集合可以是来自用于编写一种或更多种自然语言的Unicode字符集合的字符或字符序列，例如英语、亚洲语、西里尔文和***语的字符表。转录输出集合还可以包括***数字、空格字符和标点符号。给定转录输出的分数表示相应转录输出是作为话语的转录的输出序列中的时间步长处的当前转录片段的可能性。

语音识别***处理每个时间步长的转录输出分数316，以确定表示话语转录的转录输出序列。例如，对于每个时间步长，语音识别***可以从转录输出分数集合中选择具有最高分数的转录输出以确定转录输出序列。

图4示出了根据一些实施方式的语音识别***400的框图。语音识别***400可以具有将***400与其它***和设备连接的多个接口。网络接口控制器450适于通过总线406将***400连接到将语音识别***400与传感设备连接的网络490。例如，语音识别***400包括音频接口470，其被配置为接受来自诸如麦克风的声学输入设备475的输入。通过输入音频接口470，***400可以接受表示语音话语的至少一部分的声学信号。

另外地或另选地，语音识别***400可以从各种其它类型的输入接口接收声学信号。输入接口的示例包括网络接口控制器(NIC)450，其被配置为通过网络490接受声学序列495，网络490可以是有线网络和无线网络之一或组合。另外地或另选地，***400可以包括人机界面410。***400内的人机界面410将***连接到键盘411和指示设备412，其中，指示设备412可以包括鼠标、轨迹球、触摸板、操纵杆、指示杆、手写笔或触摸屏等。

语音识别***400包括输出接口460，其被配置成输出***400的转录输出。例如，输出接口460可以在显示设备465上显示转录输出，将转录输出存储到存储介质中和/或在网络上传输转录输出。显示设备465的示例包括计算机监视器、相机、电视、投影仪或移动设备等。***400还可以连接到应用接口480，应用接口480适于将***连接到外部设备485以执行各种任务。

***400包括被配置为执行存储指令430的处理器420、以及存储可由处理器执行的指令的存储器440。处理器420可以是单核处理器、多核处理器、计算集群或任何数量的其它配置。存储器440可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪存或任何其它合适的存储器***。处理器420可以通过总线406连接到一个或更多个输入和输出设备。

根据一些实施方式，指令430可以实现用于端到端语音识别的方法。为此，计算机存储器440存储被训练以将输入声学信号转换为编码器状态序列的编码器104、被训练以确定在编码器状态的输入序列中的对转录输出进行编码的编码器状态的位置的对齐解码器120、以及被训练以确定针对编码器状态的每个输入子序列的转录输出的基于注意力的解码器108。在一些实施方式中，基于注意力的解码器108的输出是***400的转录输出。在一些其它实施方式中，基于注意力的解码器108和对齐解码器120的输出是***400的转录输出。

在接受表示语音话语的至少一部分的声学序列时，处理器420被配置为将接收到的声学序列提交到编码器网络104，以产生编码器状态序列，将由编码器104产生的编码器状态序列提交至对齐解码器120，以识别编码器状态序列中的对转录输出进行编码的编码器状态的位置，执行划分模块130以基于所识别的编码器状态的位置将编码器状态序列划分为分区集合，并且将分区集合顺序地提交到基于注意力的解码器108，以针对每个提交的分区生成转录输出。

输出接口(例如接口460)输出转录输出。例如，在一个实施方式中，输出接口被配置为单独输出每个转录输出。例如，如果转录输出表示字符，则输出接口逐个字符地输出。类似地，如果转录输出表示单词，则输出接口逐词输出。另外地或另选地，在一个实施方式中，输出接口被配置为累积转录输出集合以形成单词并且单独输出语音话语中的每个单词。例如，基于注意力的解码器108可以被配置为检测词尾字符，使得输出接口在接收到词尾字符时输出累积的转录输出。

在一些实施方式中，基于注意力的解码器108被配置为在不重置基于注意力的网络的内部状态的情况下处理不同分区，其中，处理器被配置为在确定语音话语结束时重置基于注意力的网络的内部状态。为此，在一些实施方式中，存储器440还存储被配置为检测语音话语的结束的话语结束模块436。不同实施方式使用不同技术来实现模块436。例如，一些实施方式使用语音活动检测(SAD)模块来检测话语的结束或者SAD和辅助端点检测***的组合。

在一些实施方式中，基于注意力的ASR***100被配置为以流传输/在线方式进行识别。例如，存储器440可以包括门434，以将语音话语划分成声学序列集合。例如，在一些实施方式中，门被实现为在其转换期间划分语音的音频接口470的一部分。集合中的每个声学序列的长度可以相同，也可以基于发音语音的特征而变化。以此方式，ASR***100以流线方式转录输入声学序列。在一些实施方式中，门将语音话语划分成声学信号块，使得输入接口一次接收一个声学信号块。例如，门可以由声卡实现，并且块处理可以由声卡的时钟定义，使得从声卡接收的音频被逐块采样。

图5示出了根据一个实施方式的由ASR***在接收到表示语音话语的后续部分的后续声学信号时执行的方法的框图。该方法将后续声学信号提交510到编码器104，以产生编码器状态的后续序列515。该方法将编码器状态的后续序列515提交520到对齐解码器120，以识别在编码器状态的后续序列中的对转录输出进行编码的编码器状态的位置525。该方法将通过处理先前声学信号接收到的编码器状态序列530与编码器状态的后续序列515连结，以产生连结的编码器状态序列535。该方法基于所识别的编码器状态的位置525划分540连结的编码器状态序列535，以更新分区序列545。以这种方式，将传入的声学信号拼接在一起以实现无缝在线转录。

在语音识别***的一些实现方式中，编码器、对齐解码器和基于注意力的解码器是联合训练的神经网络。这些实施方式以神经网络的协同操作方式利用联合训练来提高语音识别的准确性。

图6示出了根据一个实施方式的端到端语音识别***的触发注意力神经网络600的框图。在这个实施方式中，编码器、对齐解码器和基于注意力的解码器被实现为神经网络。例如，对齐解码器120是基于连接时序分类(基于CTC)的神经网络。为此，触发的神经网络600包括编码器网络模块602、编码器网络参数603、注意力解码器模块604、解码器网络参数605、划分模块606、CTC模块608和CTC网络参数609。编码器网络参数603、解码器网络参数605和CTC网络参数609分别存储在存储设备中，以给相应的模块602、604和608提供参数。声学特征序列601从音频波形数据提取，并且可以被存储在存储设备中并提供给编码器网络模块602。音频波形数据可以经由输入设备使用数字信号处理模块(未示出)接收和处理音频数据中的语音声音来获得。

编码器网络模块602包括编码器网络，编码器网络使用从编码器网络参数603读取参数的编码器网络，将声学特征序列601转换为编码器特征向量序列。CTC模块608从编码器网络模块602接收隐藏向量序列，并且使用CTC网络参数609和动态规划技术计算标签序列的基于CTC的后验概率分布。在计算之后，CTC模块608向划分模块606提供最可能标签的位置。

注意力解码器网络模块604包括解码器网络。注意力解码器网络模块604从划分模块606接收分区，每个分区包括编码器特征向量序列的一部分，然后使用从解码器网络参数605读取参数的解码器网络来计算标签的基于注意力的后验概率分布。

端到端语音识别通常被定义为在给定输入声学特征序列X的情况下，寻找最可能的标签序列的问题，即，

其中，表示给定预定义字母集合/>的可能标签序列集合。

在端到端语音识别中，p(Y|X)由预训练的神经网络计算，而没有发音词典，也没有繁重的基于WFST的图搜索。在相关技术的基于注意力的端到端语音识别中，神经网络由编码器网络和解码器网络组成。

编码器模块602包括编码器网络，该编码器网络用于按照下式将声学特征序列X＝x₁，...，x_T转换为隐藏向量序列H＝h₁，...，h_T

H＝Encoder(X) (2)

其中，函数Encoder(X)可以包括成堆的一个或更多个循环神经网络(RNN)和卷积神经网络(CNN)。RNN可以被实现为长短期记忆(LSTM)，它在每个隐藏单元中有输入门、遗忘门、输出门和记忆单元。另一个RNN可以是双向RNN(BRNN)或双向LSTM(BLSTM)。BLSTM是一对LSTM RNN，一个是前向LSTM，另一个是后向LSTM。BLSTM的隐藏向量是作为前向LSTM和后向LSTM的隐藏向量的连结获得的。

使用前向LSTM，前向第t个隐藏向量被计算为

/>

其中，σ(·)是逐元素sigmoid函数，tanh(·)是逐元素双曲正切函数，并且和/>分别是针对X_t的输入门、遗忘门、输出门和单元激活向量。⊙表示向量之间的逐元素相乘。权重矩阵/>和偏置向量/>是LSTM的参数，其由下标z∈{x，h，i，f，o，c}识别。例如，/>是隐藏到输入门矩阵，并且/>是输入到输出门矩阵。隐藏向量/>是从输入向量X_t和先前隐藏向量/>递归获得的，其中，/>被假设为零向量。

使用后向LSTM，后向第t个隐藏向量被计算为

其中，和/>分别是针对X_t的输入门、遗忘门、输出门和单元激活向量。权重矩阵/>和偏置向量/>是LSTM的参数，其与前向LSTM一样的方式由下标标识。隐藏向量/>是从输入向量X_t和后续隐藏向量/>递归获得的，其中，/>假设为零向量。

BLSTM的隐藏向量是通过连结前向隐藏向量和后向隐藏向量获得的

其中，T表示假设所有向量都是列向量的向量的转置操作。和/>被认为是BLSTM的参数。

为了获得更好的隐藏向量，一些实现方式通过将第一BLSTM的隐藏向量提供给第二BLSTM，然后将第二BLSTM的隐藏向量提供给第三BLSTM，依此类推来堆叠多个BLSTM。如果h_t′是由一个BLSTM获得的隐藏向量，在将其提供到另一个BLSTM时，假设x_t＝h_t′。为了减少计算量，它可能只将一个BLSTM的每个第二隐藏向量提供给另一个BLSTM。在这种情况下，输出隐藏向量序列的长度变为输入声学特征序列长度的一半。

注意力解码器模块604包括解码器网络，解码器网络用于使用隐藏向量序列H计算标签序列概率p(Y|X)。假设Y是L长度的标签序列y₁，y₂，...，y_L。为了高效地计算p(Y|X)，可以通过概率链规则将概率分解为

每个标签概率p(y_l|y₁，…，y_l-1，X)是从标签的概率分布中获得的，其使用解码器网络被估计为

p(y|y₁，…，y_l-1，X)＝Decoder(r_l，q_l-1) (15)

其中，y是整数序列，每个整数表示一个标签，r_l被称为内容向量，其包含H的内容信息。q_l-1是解码器状态向量，其包含先前标签y₁，...，y_l-1的上下文信息和先前内容向量r₀，...，r_l-1。因此，在给定上下文的情况下，标签概率被获得为概率y＝y_l，即

p(y_l|y₁，…，y_l-1，X)＝p(y＝y_l|y₁，…，y_l-1，X) (16)

内容向量r_l通常被给定为编码器网络的隐藏向量的加权和，即

其中，a_lt被称为注意力权重，其满足∑_ta_lt＝1。注意力权重可以使用q_l-1和H计算为

e_lt＝w^Ttanh(Wq_l-1+Vh_t+Uf_lt+b) (18)

f_l＝F*a_l-1 (19)

其中，W、V、F和U是矩阵，w和b是向量，它们是解码器网络的可训练参数。e_lt是第(l-1)个状态向量q_l-1和第t个隐藏向量h_t之间的匹配分数，以形成时间对齐分布a_l＝{a_lt|t＝1，...，T}。a_l-1表示用于预测先前标签y_l-1的先前对齐分布{a_(l-1)t|t＝1，...，T}。f_l＝{f_lt|t＝1，...，T}是与针对a_l-1的F的卷积结果，其用于将先前对齐反映到当前对齐。“*”表示卷积运算。

标签概率分布由状态向量q_l-1和内容向量r_l得到为

Decoder(r_l，q_l-1)＝softmax(w_qyq_l-1+W_ryr_l+b_y) (21)

其中，w_qy和w_ry是矩阵，b_y是向量，它们是解码器网络的可训练参数。softmax()函数被计算为

对于K维向量v，其中，v[i]表示v的第i个元素。

之后，解码器状态向量q_l-1按照下式使用LSTM被更新为q_l

其中，和/>分别是输入向量X_l的输入门、遗忘门、输出门和单元激活向量。权重矩阵/>和偏置向量/>是LSTM的参数，其与前向LSTM一样用下标标识。状态向量q_l是从输入向量/>和先前状态向量q_l-1递归获得的，其中，假设q_-1＝0、y₀＝<sos>和a₀＝1/T，计算q₀。对于解码器网络，输入向量/>作为标签y_l和内容向量r_l的连结向量给出，可以得到/>其中Embed(·)表示标签嵌入，其将标签转换为固定维度向量。

在基于注意力的语音识别中，估计适当注意力权重对于预测正确标签是非常重要的，因为内容向量r_l非常依赖于对齐分布a_l，如等式(17)所示。在语音识别中，内容向量表示对齐分布峰值周围的编码器的隐藏向量中的声学信息，并且声学信息是预测标签y_l的最重要线索。然而，注意力机制通常提供不规则对齐分布，因为没有明确的约束，使得在递增地预测y_l时，分布的峰值会随着时间单调进行。在语音识别中，输入序列和输出序列之间的对齐一般应该是单调的。虽然卷积特征f_lt减轻了产生不规则对齐，但是不能保证避免它们。

在给定隐藏向量序列H的情况下，CTC模块608计算标签序列Y的CTC前向概率。注意，CTC公式使用L长度标签序列Y＝(y₁，...，y_L)，其中，并且/>是不同标签的集合。通过引入逐帧标签序列Z＝(z₁，...，z_T)且/>其中∈表示额外空白标签，并且使用概率链规则和条件独立假设，后验分布p(Y|X)被分解如下：

其中，p(z_t|z_t-1，Y)被认为是包括空白标签的标签转变概率。p(z_t|X)是以输入序列X为条件的逐帧后验分布，并使用双向长短期记忆(BLSTM)建模：

其中，h_t是通过编码器网络获得的。是矩阵，/>是向量，它们是CTC的可训练参数。虽然方程(28)必须处理所有可能Z的求和，但是它是通过使用前向算法和动态规划高效计算的。

CTC的前向算法执行如下。一些实现方式使用长度为2L+1的扩展标签序列Y′＝y′₁，y′₂，...，y′_2L+1＝∈，y₁，∈，y₂，...，∈，y_L，∈，其中，在每对相邻标签之间***一个空白标签∈。设α_t(s)为前向概率，其表示标签序列y₁，...，y_l针对时间帧1，...，t的后验概率，其中s表示扩展标签序列Y′中的位置。

对于初始化，我们设置

α₁(1)＝p(z₁＝∈|X) (30)

α₁(2)＝p(z₁＝y₁|X) (31)

对于t＝2到T，α_t(s)被递归计算为

其中，

最后，得到基于CTC的标签序列概率为

p(Y|X)＝α_T(2L⁺1)+α_T(2L) (35₎

逐帧标签序列Z表示输入声学特征序列X和输出标签序列Y之间的对齐。当计算前向概率时，等式(33)的递归强制Z是单调的，并且不允许在对齐Z中循环或大跳跃s，因为获得α_t(s)的递归只考虑至多α_t-1(s)，α_t-1(s-1)，α_t-1(s-2)。这意味着当时间帧进行一帧时，标签从前一标签或空白改变，或保持相同的标签。该约束起转变概率p(z_t|z_t-1，Y)的作用，其强制对齐是单调的。因此，当p(Y|X)基于不规则(非单调)对齐被计算时，它可以是0或非常小的值。输入声学特征序列X和输出标签序列Y之间的对齐被划分模块606用来控制基于注意力的神经网络604的操作。

一些实施方式基于这样的认识：可以通过组合来自CTC和基于注意力的解码器的解码器输出来进一步提高识别的准确性。例如，在端到端语音识别600的一种实现方式中，等式(34)中的CTC前向概率与等式(14)中的基于注意力的概率相结合以获得更准确的标签序列概率。

图7是示出根据一些实施方式的组合神经网络的示意图。组合神经网络包括编码器网络模块602、注意力解码器网络模块604和CTC模块608。每个箭头表示有或没有变换的数据传输，并且每个正方形或圆形节点表示向量或预测标签。声学特征序列X＝x₁，...，X_T被提供到编码器网络模块602，其中，两个BLSTM被堆叠，并且第一BLSTM的每个第二隐藏向量被提供到第二BLSTM。编码器模块602的输出导致隐藏向量序列H＝h′₁，h′₂，...，h′_T，，其中，T′＝T/2。然后，H被馈送到CTC模块608和解码器网络模块604。基于CTC和基于注意力的序列概率分别用CTC模块608和解码器网络模块604计算，并且被组合以获得标签序列可能性。

在一些实施方式中，概率可以在对数域中组合为

log p(Y|X)＝λlog p_ctc(Y|X)+(1-λ)log p_att(Y|X) (36)

其中，p_ctc(Y|X)是等式(35)中的基于CTC的标签序列概率，并且p_att(Y|X)是等式(14)中的基于注意力的标签序列概率。λ是平衡基于CTC的概率和基于注意力的概率的比例因子。

一些实施方式执行标签序列搜索以根据标签序列概率分布p(Y|X)找到最可能的标签序列即

在一些基于注意力的语音识别中，p(Y|X)是p_att(Y|X)。然而，在一些实施方式中，p(Y|X)通过如等式(36)中的标签序列概率的组合来计算，即，它根据以下找到

一些实施方式基于以下认识：难以枚举针对Y的所有可能标签序列并计算p(Y|X)，因为可能的标签序列的数量随序列的长度以指数方式增加。因此，通常使用波束搜索技术来找到这是有限数量的假设，其得分高于其它假设。最后，从到达话语结束的完整假设中选择最佳标签序列假设。

图8示出了根据一些实施方式的语音识别的性能比较图。示出了根据一些实施方式的端到端ASR***的字符错误率(CER)以评估前瞻参数140对三种不同注意力机制的影响，这些机制是基于点积的注意力810、基于内容的注意力820和位置感知注意力830，其用于计算上下文向量314。然而，根据一些实施方式的端到端ASR***不限于这三种注意力机制，它们仅作为示例。基于点积的注意力810、基于内容的注意力320、以及位置感知注意力830结果表明，根据注意力机制类型，不同的前瞻参数设置可能是有利的。例如，位置感知注意力类型对于较大的前瞻值获得较低的CER，而基于点积的注意力和基于内容的注意力往往更喜欢较小的前瞻值以获得低错误率，这也降低了处理延迟。

图9是示出根据一些实施方式的可以在用于实现***和方法的各种配置中使用的一些组件的框图。例如，组件900可以包括与传感器2或多个传感器(诸如，声学传感器)通信的硬件处理器11，所述传感器从环境1收集包括声学信号8的数据。此外，传感器2可以将声学输入转换成声学信号。硬件处理器11与计算机存储存储器(即，存储器9)通信，使得存储器9包括存储可以由硬件处理器11实现的数据，包括算法、指令和其它数据。

可选地，硬件处理器11可以连接到网络7，该网络与数据源3、计算机设备4、移动电话设备5和存储设备6通信。同样可选地，硬件处理器11可以连接到与客户端设备15连接的网络使能服务器13。硬件处理器11可以可选地连接到外部存储设备17和/或发送器19。此外，可以根据特定用户预期用途21输出扬声器的文本，例如，某些类型的用户用途可以包括在一个或更多个显示设备(诸如，监视器或屏幕)上显示文本或者将扬声器的文本输入到计算机相关设备中以进行进一步分析，等等。

可以设想，硬件处理器11可以根据特定应用的要求包括一个或更多个硬件处理器，其中，处理器可以是内部的或外部的。当然，其它组件可以与组件900结合，该组件900包括输出接口和收发器、以及其它设备。

通过非限制性示例，网络7可以包括一个或更多个局域网(LAN)和/或广域网(WAN)。其中，网络环境可以类似于企业范围的计算机网络、内部网和互联网。考虑到所有提到的组件，可以存在任意数量的客户端设备、存储组件和与组件900一起使用的数据源。每个可以包括单个设备或在分布式环境中协作的多个设备。此外，组件900可以包括一个或更多个数据源3。数据源3包括用于训练语音识别网络的数据资源。数据源3提供的数据可以包括标记数据和未标记数据，诸如转录数据和未转录数据。例如，在一个实施方式中，数据包括一个或更多个声音并且还可以包括可以用于初始化语音识别网络的相应转录信息或标签。

此外，数据源3中的未标记数据可以由一个或更多个反馈回路提供。例如，来自在搜索引擎上执行的口头搜索查询的使用数据可以作为未转录数据提供。数据源的其它示例可以包括例如但不限于包括流传输声音或视频的各种口语音频或图像源、网络查询、移动设备相机或音频信息、网络摄像头馈送、智能眼镜和智能-手表馈送、客户关注***、安全摄像头馈送、Web文档、目录、用户馈送、SMS日志、即时消息日志、口述文字转录、，诸如语音命令或捕获的图像(例如，深度摄像头图像)的游戏***用户交互、推文、聊天或视频通话记录、或社交网络媒体。所使用的特定数据源3可以基于应用来确定，包括该数据是特定类别的数据(例如，仅与特定类型的声音相关的数据，例如包括机器***、娱乐***)还是本质上是一般的(非类特定的)。

组件900可以包括或连接到第三方设备4、5，第三方设备4、5可以包括任何类型的计算设备，使得可能有兴趣在计算设备上具有自动语音识别(ASR)***。例如，第三方设备可以包括计算机设备4或移动设备5。设想用户设备可以体现为个人数字助理(PDA)、诸如智能电话、智能手表、智能眼镜(或其它可穿戴智能设备)的移动设备、增强现实耳机、虚拟现实耳机。此外，用户设备可以是膝上型电脑，诸如平板电脑、遥控器、娱乐***、车载计算机***、嵌入式***控制器、电器、家用计算机***、安全***、消费者电子设备或其它类似的电子设备。在一个实施方式中，客户端设备能够接收输入数据，诸如可由在该设备上运行的这里描述的ASR***使用的音频和图像信息。例如，第三方设备可能具有用于接收音频信息的麦克风或线路输入、用于接收视频或图像信息的相机、或用于从另一个源接收此类信息的通信组件(例如，Wi-Fi功能)，诸如作为互联网或数据源3。

使用语音识别网络的ASR模型可以处理输入的数据以确定计算机可用信息。例如，可以处理用户对着麦克风说出的询问以确定询问的内容，例如，是否提出问题。示例第三方设备4、5可选地被包括在组件900中以说明可以部署深度神经网络模型的环境。此外，本公开的一些实施方式可以不包括第三方设备4、5。例如，深度神经网络模型可以在服务器上或在云网络、***或类似布置中。

关于存储装置6，存储装置6可以存储包括数据、计算机指令(例如，软件程序指令、例程或服务)和/或在本文描述的技术的实施方式中使用的模型的信息。例如，存储器6可以存储来自一个或更多个数据源3的数据、一个或更多个深度神经网络模型、用于生成和训练深度神经网络模型的信息、以及由一个或更多个深度神经网络输出的计算机可用信息。

该描述仅提供示例性实施方式，并不旨在限制本公开的范围、适用性或配置。相反，示例性实施方式的以下描述将为本领域技术人员提供用于实现一个或更多个示例性实施方式的可行描述。在不脱离如所附权利要求中阐述的公开的主题的精神和范围的情况下，可以想到可以在元件的功能和布置方面做出的各种改变。

在以下描述中给出具体细节以提供对实施方式的透彻理解。然而，本领域普通技术人员可以理解，可以在没有这些具体细节的情况下实践这些实施方式。例如，所公开的主题中的***、过程和其它元素可以以框图形式显示为组件，以免以不必要的细节混淆实施方式。在其它情况下，可以在没有不必要的细节的情况下示出众所周知的过程、结构和技术以避免混淆实施方式。此外，各图中相同的参考数字和标记表示相同的元件。

此外，各个实施方式可以被描述为被描绘为流程图、作业图、数据流图、结构图或框图的过程。尽管流程图可以将操作描述为顺序过程，但许多操作可以并行或并发执行。此外，可以重新安排操作的顺序。一个进程可以在其操作完成时终止，但可能具有未讨论或未包括在图中的附加步骤。此外，并非所有具体描述的过程中的操作都可以在所有实施方式中发生。一个进程可以对应一个方法、一个函数、一个过程、一个子程序、一个次程序等。当一个进程对应一个函数时，函数的终止可以对应一个函数返回到调用函数或主函数。

此外，所公开的主题的实施方式可以至少部分地手动或自动地实现。可以通过使用机器、硬件、软件、固件、中间件、微代码、硬件描述语言或其任何组合来执行或至少辅助手动或自动实现。当以软件、固件、中间件或微代码实现时，执行必要任务的程序代码或代码段可以存储在机器可读介质中。处理器可以执行必要的任务。

此外，本公开的实施方式和在本说明书中描述的功能操作可以在数字电子电路中、在有形体现的计算机软件或固件中、在计算机硬件中、或一种或多种的组合(包括在本说明书中公开的结构及其结构等效物)实现。本公开的另外一些实施方式可以实现为一个或更多个计算机程序，即，编码在有形非暂时性程序载体上编码的一个或更多个计算机程序指令模块，用于由数据处理装置执行或控制数据处理装置的操作。更进一步，程序指令可以编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，其被生成以对信息进行编码以传输到合适的接收器设备以供数据处理设备执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一种或更多种的组合。

根据本公开的实施方式，术语“数据处理装置”可以涵盖用于处理数据的所有种类的装置、设备和机器，例如包括可编程处理器、计算机或多个处理器或计算机。该装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理***、操作***或它们中的一种或更多种的组合的代码。

计算机程序(也可称为或描述为程序、软件、软件应用程序、模块、软件模块、脚本或代码)可以用任何形式的编程语言编写，所述编程语言包括编译语言或解释语言、声明性或过程性语言，它可以以任何形式部署，包括作为独立程序或作为模块、组件、子程序或适合在计算环境中使用的其它单元。计算机程序可以但不必对应于文件***中的文件。程序可以存储在包含其它程序或数据的文件的一部分中，例如存储在标记语言文档中的一个或更多个脚本、专用于相关程序的单个文件或多个协调文件，例如，存储一个或更多个模块、子程序或部分代码的文件。计算机程序可以部署为在一台计算机上执行，也可以在位于一个站点或分布在多个站点并通过通信网络互连的多台计算机上执行。适于执行计算机程序的计算机包括例如可以基于通用或专用微处理器或两者、或任何其它种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本要素是用于履行或执行指令的中央处理单元以及用于存储指令和数据的一个或更多个存储设备。通常，计算机还将包括或可操作地联接到一个或更多个大容量存储设备(例如，磁光盘、磁光盘或光盘)以从用于存储数据的一个或更多个大容量存储设备(例如，磁光盘、磁光盘或光盘)接收数据或将数据传送到这些设备或两者。然而，计算机不必须有这样的设备。此外，计算机可以嵌入到另一个设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位***(GPS)接收器或便携式存储设备，例如，通用串行总线(USB)闪存驱动器，仅举几例。

为了提供与用户的交互，本说明书中描述的主题的实施方式可以在具有显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)(用于向用户显示信息)以及键盘和指示设备(例如鼠标或轨迹球，用户可以通过它们向计算机提供输入)的计算机上实现。也可以使用其它类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声学、语音或触觉输入。此外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，响应于从网络浏览器接收到的请求，通过将网页发送到用户客户端设备上的网络浏览器来与用户交互。

本说明书中描述的主题的实施方式可以在包括后端组件(例如，作为数据服务器)或包括中间件组件(例如，应用服务器)或包括前端组件(例如，具有图形用户界面或Web浏览器的客户端计算机，用户可以通过其与本说明书中描述的主题的实现交互)的计算***中、或者一个或更多个这样的后端、中间件或前端组件的任意组合实现。***的组件可以通过任何形式或媒介的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)和例如互联网的广域网(“WAN”)。

计算***可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络进行交互。客户端和服务器的关系是由于在各自的计算机上运行并且彼此之间具有客户端-服务器关系的计算机程序而产生的。

尽管已经参考某些优选实施方式描述了本公开，但是应当理解，在本公开的精神和范围内可以进行各种其它修改和改变。因此，所附权利要求的方面是覆盖落入本公开的真实精神和范围内的所有此类变化和修改。

Claims

1.一种语音识别***，所述语音识别***包括：

计算机存储器，所述计算机存储器被配置为存储：

编码器，所述编码器被配置为将输入的声学信号转换成编码器状态序列；

对齐解码器，所述对齐解码器被配置为识别所述编码器状态序列中的对转录输出进行编码的编码器状态的位置；

划分模块，所述划分模块被配置为基于所识别的编码器状态的位置，将所述编码器状态序列划分为分区集合；以及

基于注意力的解码器，所述基于注意力的解码器被配置为确定针对作为输入提交至所述基于注意力的解码器的编码器状态的每个分区的转录输出；输入接口，所述输入接口被配置为接收表示语音话语的至少一部分的所述声学信号；

硬件处理器，所述硬件处理器被配置为：

将接收到的声学信号提交至所述编码器以产生所述编码器状态序列；

将所述编码器状态序列提交到所述对齐解码器中，以识别对所述转录输出进行编码的编码器状态的位置；

基于所识别的编码器状态的位置，使用所述划分模块将所述编码器状态序列划分为所述分区集合；以及

将所述分区集合顺序地提交到所述基于注意力的解码器中，以产生针对每个所提交的分区的转录输出；以及

输出接口，所述输出接口被配置为输出所述转录输出。

2.根据权利要求1所述的语音识别***，其中，所述输出接口被配置为在每个转录输出被转录时单独地输出每个转录输出。

3.根据权利要求1所述的语音识别***，其中，所述输出接口被配置为累积转录输出集合以形成单词并且单独地输出每个单词。

4.根据权利要求1所述的语音识别***，其中，所述处理器针对所识别的编码器状态的每个位置划分所述编码器状态序列，使得分区的数量由所识别的编码器状态的数量定义。

5.根据权利要求4所述的语音识别***，其中，每个分区包括从所述编码器状态序列的开始直到通过将所识别的编码器状态的位置向前移位固定位移而确定的前瞻编码器状态的编码器状态。

6.根据权利要求4所述的语音识别***，其中，与所识别的编码器状态的位置对应的每个分区包括在所识别的编码器状态的位置周围的预定数量的编码器状态。

7.根据权利要求1所述的语音识别***，其中，所述分区集合包括第一分区和后续分区，其中，所述处理器用所述基于注意力的解码器处理所述第一分区以产生第一转录输出，其中，在所述基于注意力的解码器完成将所述基于注意力的解码器置于其内部状态的对所述第一分区的处理之后，所述处理器用所述基于注意力的解码器处理所述后续分区，而不重置所述基于注意力的解码器的所述内部状态，以一个接一个地针对所述后续分区产生转录输出。

8.根据权利要求7所述的语音识别***，其中，所述基于注意力的解码器被配置为在不重置所述基于注意力的解码器的内部状态的情况下处理不同分区，其中，所述处理器在确定所述语音话语结束时被配置为重置所述基于注意力的解码器的所述内部状态。

9.根据权利要求1所述的语音识别***，其中，所述处理器在接收到表示所述语音话语的后续部分的后续声学信号时被配置为：

将所述后续声学信号提交至所述编码器以产生所述编码器状态的后续序列；

将所述编码器状态的所述后续序列提交至所述对齐解码器，以识别所述编码器状态的后续序列中的对转录输出进行编码的编码器状态的位置；

将所述编码器状态序列和所述编码器状态的后续序列连结在一起，以产生编码器状态的连结序列；以及

基于所识别的编码器状态的位置对编码器状态的连结序列进行划分，以更新分区序列。

10.根据权利要求9所述的语音识别***，所述语音识别***还包括：

门，所述门将所述语音话语划分成声学信号块，使得所述输入接口一次接收一个声学信号块。

11.根据权利要求1所述的语音识别***，其中，所述编码器、所述对齐解码器和所述基于注意力的解码器是联合训练的神经网络。

12.根据权利要求11所述的语音识别***，其中，所述对齐解码器包括基于连接时序分类CTC的神经网络或基于隐马尔可夫模型HMM的分类器。

13.根据权利要求11所述的语音识别***，其中，所述对齐解码器是基于连接时序分类的基于CTC的神经网络，其中，所述基于注意力的解码器是基于注意力的神经网络，

其中，由所述基于注意力的神经网络确定的转录输出包括转录输出的概率，

其中，所述基于CTC的神经网络被进一步训练以确定作为输入提供给所述基于CTC的神经网络的所述编码器状态中的转录输出的概率，

其中，所述处理器通过将所述编码器状态序列提交到所述基于CTC的神经网络中来确定所述声学信号中的转录输出的第一概率序列，

其中，所述处理器通过将所述编码器状态序列的分区提交到所述基于注意力的神经网络中来确定所述声学信号中的转录输出的第二概率序列，

其中，所述处理器被配置为基于转录输出的所述第一概率序列和所述第二概率序列的组合来确定所述声学信号中的转录输出。

14.一种语音识别方法，其中，所述方法使用与实现所述方法的存储指令联接的处理器，其中，所述指令在由所述处理器执行时执行所述方法的步骤，所述方法包括以下步骤：

接收表示语音话语的至少一部分的声学信号；

将所述声学信号转换为编码器状态序列；

识别所述编码器状态序列中的对转录输出进行编码的编码器状态的位置；

基于所识别的编码器状态的位置，将所述编码器状态序列划分为分区集合；

将所述分区集合顺序地提交到基于注意力的解码器中，以产生针对每个所提交的分区的转录输出；以及

输出所述转录输出。

15.一种非暂时性计算机可读存储介质，在所述非暂时性计算机可读存储介质上包含能够由处理器执行以用于执行方法的程序，所述方法包括：

接收表示语音话语的至少一部分的声学信号；

将所述声学信号转换为编码器状态序列；

输出所述转录输出。