CN109697977B

CN109697977B - 语音识别方法和设备

Info

Publication number: CN109697977B
Application number: CN201810872293.0A
Authority: CN
Inventors: 宋仁哲; 郑峻泳; 金兑燮; 柳尚贤
Original assignee: Universite de Montreal; Samsung Electronics Co Ltd
Current assignee: Universite de Montreal; Samsung Electronics Co Ltd
Priority date: 2017-10-23
Filing date: 2018-08-02
Publication date: 2023-10-31
Anticipated expiration: 2038-08-02
Also published as: EP3474274B1; EP3474274A1; CN109697977A

Abstract

提供语音识别方法和设备。所述语音识别方法包括：获得划分成多个帧的声学序列；通过预测声学序列中的同一发音的持续时间并跳过针对与所述持续时间对应的帧的发音预测，确定声学序列中的发音。

Description

语音识别方法和设备

本申请要求于2017年10月23日提交到美国专利和商标局的第62/575,643号美国临时申请的权益，以及于2018年2月14日提交到韩国知识产权局的第10-2018-0018301号韩国专利申请的权益，所述专利申请的全部公开出于所有的目的通过引用合并于此。

技术领域

下面的描述涉及语音识别方法和设备。

背景技术

语音识别***包括声学模型、语言模型和解码器。声学模型提供关于语音信号与发音之间的关联的信息，语言模型提供关于特定词序列在语言中出现频率的信息。解码器基于由声学模型和语言模型提供的信息来计算语音信号与句子之间的关联。

声学模型可通过神经网络来实现。然而，并行计算无法容易地执行，并且计算时间会因此随着语音信号的帧数增加而增加。

发明内容

提供本发明内容以简化的形式介绍在下面的具体实施方式中进一步描述的构思的选择。本发明内容不意在标识要求保护的主题的关键特征或必要特征，也不意在用于帮助确定要求保护的主题的范围。

在一个总体方面，一种语音识别方法，包括：获得划分成多个帧的声学序列；通过预测声学序列中的同一发音的持续时间并跳过针对与所述持续时间对应的帧的发音预测，确定声学序列中的发音。

所述持续时间可由将跳过发音预测的帧的数量来表示。

确定发音的步骤可包括：使用声学模型预测所述多个帧之中的第一帧的第一发音；使用声学模型预测第一发音的第一持续时间；跳过针对与第一持续时间对应的至少一个第二帧的发音预测。

确定发音的步骤还可包括：将所述至少一个第二帧中的每一帧的发音确定为第一发音。

确定发音的步骤还可包括：预测所述至少一个第二帧的最后一帧之后的帧的第二发音和第二发音的持续时间。

声学模型可包括神经网络，神经网络的输出层可包括标签层和跳过层，标签层可被配置为预测输入到神经网络的输入帧的发音，跳过层可被配置为预测所述输入帧的发音的持续时间。

标签层可包括数量等于能够由标签层预测的所有可能的发音的数量的节点，所述持续时间可由将跳过发音预测的帧的数量来表示，跳过层可包括数量等于针对将被跳过发音预测的帧的数量的所有可能选择的数量的节点。

在另一总体方面，一种存储指令的非暂时性计算机可读介质，其中，当所述指令被处理器执行时，使得处理器执行上面描述的语音识别方法。

在另一总体方面，一种语音识别方法，包括：获得划分成多个帧的声学序列；使用声学模型预测所述多个帧之中的第一帧的第一发音；使用声学模型预测第一发音的第一持续时间；通过跳过针对与第一持续时间对应的至少一帧的发音预测，对声学序列执行语音识别。

第一持续时间可由将跳过发音预测的帧的数量来表示。

执行语音识别的步骤可包括：将所述至少一帧中的每一帧的发音确定为第一发音。

执行语音识别的步骤可包括：预测所述至少一帧中的最后一帧之后的帧的第二发音和第二发音的持续时间。

在另一总体方面，一种语音识别设备，包括：处理器，被配置为：获得划分成多个帧的声学序列，通过预测声学序列中的同一发音的持续时间并跳过针对与所述持续时间对应的帧的发音预测，确定声学序列中的发音。

所述持续时间可由将跳过发音预测的帧的数量来表示。

处理器还可被配置为：使用声学模型预测所述多个帧之中的第一帧的第一发音，使用声学模型预测第一发音的第一持续时间，跳过针对与第一持续时间对应的至少一个第二帧的发音预测。

处理器还可被配置为：将所述至少一个第二帧中的每一帧的发音确定为第一发音。

处理器还可被配置为：预测所述至少一个第二帧中的最后一帧之后的帧的第二发音和第二发音的持续时间。

在另一总体方面，一种语音识别方法，包括：接收声学序列；预测在声学序列中的第一点处的第一发音；预测在声学序列中的第一发音预期被改变的第二点；跳过发音预测直到达到第二点为止。

预测第二点的步骤可包括：预测预期在第一点之后持续第一发音的第一持续时间，跳过发音预测的步骤可包括：跳过针对第一持续时间的发音预测。

预测第一发音的步骤可包括：使用声学模型预测第一发音，预测第一持续时间的步骤可包括：使用声学模型预测第一持续时间。

声学模型可包括被配置为接收声学序列的神经网络，所述神经网络可包括输出层，输出层可包括标签层和跳过层，标签层可被配置为预测在声学序列中的点处的发音，跳过层可被配置为预测在声学序列中的所述点处预测的发音的持续时间。

标签层可包括数量等于能够由标签层预测的所有可能的发音的数量的节点，跳过层可包括数量等于能够由跳过层预测的所有可能的持续时间的数量的节点。

标签层可以是softmax层，与标签层的所述节点中的具有最大输出值的标签层的节点对应的发音可对应于在声学序列的所述点处的预测的发音，跳过层可以是softmax层，与跳过层的所述节点中的具有最大输出值的跳过层的节点对应的发音可对应于在声学序列中的所述点处的预测的发音的预测的持续时间。

声学序列可被划分成多个帧，预测第一发音的步骤可包括：针对声学序列中的第一帧预测第一发音，预测第二点的步骤可包括：预测声学序列中的在第一帧之后将持续第一发音的第二帧的数量，跳过发音预测的步骤可包括：跳过针对所述数量的第二帧的发音预测。

所述语音识别方法还包括：将第一发音分配给第二帧中的每一帧；针对第三帧预测第二发音；预测声学序列中的在第三帧之后将持续第二发音的第四帧的数量。

第二帧的数量可大于或等于0，并且小于或等于能够跳过发音预测的帧的最大可允许数量。

可基于语音识别的准确度与语音识别的速度之间的期望的折衷来设置能够跳过发音预测的帧的最大可允许数量。

增加能够跳过发音预测的帧的最大可允许数量可降低语音识别的准确度并提高语音识别的速度，减少能够跳过发音预测的帧的最大可允许数量可提高语音识别的准确度并降低语音识别的速度。

通过下面的具体实施方式、附图和权利要求，其他特征和方面将是清楚的。

附图说明

图1是示出语音识别方法的示例的流程图。

图2是示出语音识别方法的另一示例的示图。

图3是示出语音识别方法的另一示例的示图。

图4是示出语音识别方法的另一示例的示图。

图5是示出用于语音识别的训练方法的示例的流程图。

图6是示出用于语音识别的训练方法的另一示例的示图。

图7是示出语音识别***的示例的示图。

图8是示出设备的示例的示图。

贯穿附图和具体实施方式，相同的参考标号表示相同的元件。附图可不按比例绘制，并且为了清楚、说明和方便，附图中元件的相对大小、比例和描绘可被夸大。

具体实施方式

提供下面的详细描述以帮助读者获得对在此描述的方法、设备和/或***的全面理解。然而，在理解本申请的公开之后，在此描述的方法、设备和/或***的各种改变、修改和等同物将是清楚的。例如，在此描述的操作的顺序仅是示例，并且不受限于在此阐述的那些顺序，而是除了必须以特定的顺序发生的操作之外，可如在理解本申请的公开之后将是清楚地那样被改变。此外，为了更加清楚和简明，可省略本领域中已知的特征的描述。

在此描述的特征可以以不同的形式来实现，而不被解释为受限于在此描述的示例。相反，提供在此描述的示例，仅用于示出实现在此描述的方法、设备和/或***的许多可行方式中的一些方式，这在理解本申请的公开之后将是清楚的。

在此使用的术语仅用于描述各种示例，并不用于限制本公开。除非上下文另外清楚地指示，否则单数形式也意在包括复数形式。术语“包括”、“包含”和“具有”指明存在叙述的特征、数量、操作、构件、元件和/或它们的组合，但并不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。

虽然在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或者部分，但是这些构件、组件、区域、层或者部分不被这些术语所限制。相反，这些术语仅用于将一个构件、组件、区域、层或者部分与另一构件、组件、区域、层或者部分进行区分。因此，在不脱离示例的教导的情况下，在此描述的示例中表示的第一构件、第一组件、第一区域、第一层或者第一部分也可被称为第二构件、第二组件、第二区域、第二层或者第二部分。

贯穿本说明书，当组件被描述为“连接到”或“结合到”另一组件时，它可直接“连接到”或“结合到”该另一组件，或者它们之间可存在一个或多个其他组件。相反，当元件被描述为“直接连接”或“直接结合”到另一元件时，它们之间可不存在中间元件。类似地，例如，表述“在……之间”和“直接在……之间”以及“与……相邻”和“直接与……相邻”也可如前所述被解释。

如在此使用的，术语“和/或”包括关联所列项中的任何一个和任何两个或多个的任何组合。

除非另外定义，否则在此使用的所有术语(包括技术术语和科学术语)具有与本申请的公开所属领域的普通技术人员通常理解的含义相同的含义。除非在此明确如此定义，否则术语(诸如，在通用词典中定义的术语)将被解释为具有与它们在相关领域的上下文中的含义一致的含义，并且将不被解释为理想化或过于形式化的意义。

在此描述的示例可以以各种类型的产品(例如，个人计算机(PC)、膝上型计算机、平板PC、智能电话、电视(TV)、智能家电、智能车辆、自助服务终端(kiosk)和可穿戴装置)来实现。这些示例可被应用于用在例如智能电话、移动装置和智能家居***中的用户验证或认证。这些示例还可被应用于将经由用户验证或认证提供的支付服务。此外，这些示例还可被应用于经由用户验证或认证自动启动车辆的智能车辆***。

图1是示出语音识别方法的示例的流程图。在下文中描述的语音识别方法可通过在此描述的语音识别设备来执行。

参照图1，在操作101中，语音识别设备获得划分成多个帧的声学序列。语音识别设备是被配置为处理执行语音识别所需的信息的硬件设备。语音识别设备执行与语音识别相关的操作和计算并处理与语音识别相关的指令。语音识别设备可被设置在各种计算设备和/或***中，其中，各种计算设备和/或***的一些示例包括智能电话、平板PC、膝上型计算机、台式计算机、TV、可穿戴装置、安全***和智能家居***。语音识别设备可从预先设置的数据库加载与声学模型相关联的信息。数据库可被实现为包括在语音识别设备中的存储器或外部装置(诸如，通过网络或者有线通信或无线通信连接到语音识别设备的服务器)。

在一个示例中，语音识别设备获得声学序列。语音识别设备将获得的声学序列划分成多个帧。声学序列是包括语音信息的语音信号并且被划分成帧。在一个示例中，一秒(sec)声学序列被划分成100帧，每个帧包括10毫秒(msec)的语音信息。

在操作102中，语音识别设备预测声学序列中的同一发音的持续时间，并通过跳过针对与预测的持续时间对应的帧的发音预测来确定声学序列中的发音。同一发音的持续时间可由将跳过发音预测的帧的数量来表示。

语音识别设备通过动态地跳过声学序列的至少一部分来执行语音识别。语音识别设备预测包括在声学序列中的帧的发音，预测该发音的持续时间，并跳过与该发音的预测的持续时间对应的后续的帧。因此，与跳过预设数量的帧的静态跳过方法不同，在此描述的语音识别方法基于发音动态地确定将被跳过的帧的数量。

语音识别设备使用声学模型来处理语音信号。声学模型通过神经网络来实现。神经网络的示例包括深度神经网络(DNN)、循环神经网络(RNN)和循环DNN(RDNN)。语音识别设备使用预先训练的声学模型来动态地跳过在预测与声学序列对应的发音时被认为相对不太重要的时间步长。例如，使用由RNN实现的声学模型，语音识别设备预测将跳过发音预测的目标，并预测与声学序列对应的发音。在这个示例中，RNN被训练为预测发音并跳过发音预测。RNN包括用于发音预测的网络和用于跳过发音预测的网络，并且这些网络共享与声学序列对应的语音信号中的信息。

在一个示例中，当处理声学序列时，语音识别设备动态地调节声学序列的将被跳过的部分的大小来使信息损失和处理时间最小化。例如，当处理序列化的数据(诸如，文本和语音)时，语音识别设备通过减少处理信息所需的读取操作的数量来提高语音识别的处理速度，通过减少将被处理的声学序列中的信息量来提高语音识别的响应速度，并通过增加用于语音识别的服务器的并发连接吞吐量来降低服务器成本。

在下文中，将参照图2至图4来描述语音识别方法，并且将参照图5和图6来描述用于语音识别的训练方法。此外，将参照图7和图8来描述***和设备。

图2是示出语音识别方法的另一示例的示图。在下文中描述的语音识别方法可通过在此描述的语音识别设备来执行。

语音识别设备使用由DNN、RNN或RDNN实现的声学模型来执行语音识别。在神经网络的总体架构中，输入和输出彼此独立。然而，RNN具有先前的输出影响计算或运算新的输出的结果的架构。

参照图2，语音识别设备将声学序列201划分成多个帧，并预测多个帧的至少一个发音和发音的持续时间。语音识别设备使用声学模型执行语音识别，其中，声学模型包括输入层(未示出)、多个隐藏层203和输出层。声学模型的输出层包括标签层204和跳过层205。标签层204是用于预测输入帧202的发音的层，跳过层205是用于预测输入帧202的发音的持续时间的层。标签层204和跳过层205均可以是softmax层。

标签层204包括数量等于所有可能的发音的数量的节点。标签层204的每个节点指示输入帧202具有特定发音的概率。跳过层205包括数量等于针对将被跳过发音预测的帧的数量的所有可能选择的数量的节点。例如，跳过层205的第一节点指示不跳过帧的概率，即，跳过0帧的概率，跳过层205的第二节点指示跳过一帧的概率，跳过层205的第三节点指示跳过两帧的概率，类似地，跳过层205的第n节点指示跳过n-1帧的概率。即，存在将跳过0帧至将跳过n-1帧的n个选择，因此跳过层205包括分别与这n个选择对应的n个节点。

基于语音识别的准确度与语音识别的速度之间的期望的折衷来设置能够跳过发音预测的帧的最大可允许数量。增加能够跳过发音预测的帧的最大可允许数量会降低语音识别的准确度并提高语音识别的速度，减少能够跳过发音预测的帧的最大可允许数量会提高语音识别的准确度并降低语音识别的速度。

图3是示出语音识别方法的另一示例的示图。在下文中描述的语音识别方法可通过在此描述的语音识别设备来执行。

语音识别设备使用声学模型来预测给定帧的发音，并同时预测给定帧之后的将被跳过的帧的数量。然后，语音识别设备将当前帧的发音概率应用到将被跳过的帧的发音概率。例如，当给定帧是第一帧并且确定跳过五帧时，语音识别设备跳过第一帧之后的五帧(即，第二帧至第六帧)而无需处理这五帧。然后，语音识别设备预测第六帧之后的第七帧的发音，并且还预测第七帧之后的将被跳过的帧的数量。语音识别设备重复这个处理直到没有剩余的将被处理的帧为止。

参照图3，语音识别设备生成与多个帧301分别对应的多个标签302。标签对应于发音。语音识别设备预测第一帧303的发音304为“a”并且将被跳过的帧的数量是二。例如，与“a”(发音304)对应的概率值是从声学模型的标签层的节点输出的概率值之中的最大值，与2(将被跳过的帧的数量)对应的概率值是从声学模型的跳过层的节点输出的概率值之中的最大值。语音识别设备在不处理第二帧和第三帧305的情况下将第二帧和第三帧305的发音306确定为“a”。然后，语音识别设备处理第四帧307，并预测第四帧307的发音308是“b”并且将被跳过的帧的数量是一。语音识别设备在不处理第五帧309的情况下将第五帧309的发音310确定为“b”，并重复这个处理直到已经处理了多个帧301中的所有的帧为止。

图4是示出语音识别方法的另一示例的示图。在下文中描述的语音识别方法可通过在此描述的语音识别设备来执行。

在这个示例中，声学模型由RNN实现，并且包括与隐藏状态对应的隐藏层和生成两个输出的输出层。最后的隐藏状态用于计算由标签层和跳过层生成的概率值，其中，标签层和跳过层是softmax层。

参照图4，当获得划分成包括第一帧x₁ 401至第T帧x_T的T帧x_1:T的声学序列时，语音识别设备通过处理第一帧x₁ 401来计算隐藏状态。基于隐藏状态，标签层生成与发音对应的概率值，跳过层生成与将被跳过的帧的数量对应的概率值，并且语音识别设备预测第一帧x₁ 401的发音402和将被跳过的帧的数量(1)。语音识别设备基于跳过层的输出来复制标签层的输出，以确定第二帧x₂ 403的发音404。然后，语音识别设备预测第三帧x₃ 405的发音406和将被跳过的帧的数量(3)。语音识别设备重复在前面描述的这个处理直到已经处理最后一帧x_T为止。

图5是示出用于语音识别的训练方法的示例的流程图。在下文中描述的训练方法可通过在此描述的用于语音识别的训练设备来执行。

参照图5，在操作501中，用于语音识别的训练设备获得划分成多个训练帧的训练声学序列。训练设备是被配置为执行用于语音识别的训练的硬件设备。训练设备执行与训练相关联的操作和计算并处理与训练相关联的指令。用于实现在此描述的语音识别设备的硬件的示例还可用于实现训练设备。

在操作502中，训练设备使用声学模型来预测训练声学序列中的同一发音的持续时间，并基于同一发音的预测持续时间和最优持续时间来训练声学模型。训练设备基于预测持续时间和最优持续时间生成奖励，并基于生成的奖励来训练声学模型。

在一个示例中，训练设备预测与训练帧对应的持续时间。训练设备基于与训练帧对应的预测持续时间和与训练帧对应的最优持续时间来生成与训练帧对应的奖励。训练设备通过确定预测持续时间是否等于最优持续时间并向两个持续时间之间的差施加权重来生成与训练帧对应的奖励。在预测持续时间大于最优持续时间时将被施加的权重和在预测持续时间小于最优持续时间时将被施加的权重被不同地设置。使用奖励函数来生成奖励。

在一个示例中，训练设备使用与能够使声学模型预测同一发音的持续时间的参数对应的目标函数。训练设备通过将生成的奖励施加到目标函数来优化用于预测持续时间的参数。此外，训练设备使用与允许声学模型预测发音的参数对应的目标函数。训练设备通过将奖励施加到与用于预测持续时间的参数对应的目标函数并将奖励施加到与用于预测发音的参数对应的目标函数来优化用于预测持续时间的参数和用于预测发音的参数。将参照图6来描述训练方法的示例。

图6是示出用于语音识别的训练方法的另一示例的示图。

参照图6，训练设备预测训练帧的第一发音是“a”并且发音“a”的持续时间是2。持续时间2表示将跳过发音预测的帧的数量，在下文中简称为跳过帧的数量。在图6所示的示例中，最优持续时间4、3、2、1、0、1、0、0、1、0、……和标签“a”、“a”、“a”、“a”、“a”、“b”、“b”、“c”、“a”、“a”、……是与训练帧对应的基础真值。在这个示例中，2、1、4、……是通过声学模型预测的持续时间。

在这个示例中，训练设备基于由声学模型从训练帧预测的持续时间2和与训练帧对应的最优持续时间4来生成与训练帧对应的奖励。如上所述，训练设备通过将奖励施加到目标函数来优化声学模型的参数。

在一个示例中，声学模型由用于预测发音的参数θ_l和用于预测跳过帧的数量的参数θ_s来定义。训练设备优化参数θ_l和参数θ_s来训练声学模型。训练设备定义针对参数θ_l的交叉熵目标函数J₁(θ_l)。目标函数J₁(θ_l)是可微分函数，并且训练设备通过反向传播算法寻找使目标函数J₁(θ_l)最小化的参数θ_l。

此外，训练设备使用强化学习方法来寻找参数θ_s。定义针对参数θ_s的奖励函数，并且训练设备通过策略梯度法寻找使奖励函数最大化的参数θ_s。现在将描述如何寻找用于优化的参数θ_s。

例如，当声学模型正在处理划分成T帧的声学序列x_1:T时跳过的多个帧的序列是s_1:N，声学序列x_1:T是训练声学序列，序列s_1:N指示跳过帧的数量。在图6所示的示例中，s_1:N包括信息2、1、4、……。在这个示例中，假设：当声学模型在第i次预测跳过帧的数量时使用的最后隐藏层是h_i，当预测2时使用的最后隐藏层是h₁，当预测1时使用的最后隐藏层是h₂，当预测4时使用的最后隐藏层是h₃。声学模型通过从多项式分布p(s_i|h_i；θ_s)提取样本来预测跳过帧的数量(例如，s_i)，其中，s_i表示在第i预测的跳过帧的预测数量，p表示与s_i对应的概率值。声学模型的跳过层输出p(s_i|h_i；θ_s)。

在一个示例中，声学序列x_1:T的正确发音是y_1:T，跳过帧的最大数量是M，当在第i预测预测跳过帧的数量时使用的帧的标号是j。当发音持续时，训练设备训练声学模型跳过除了该持续发音的第一帧之外的该持续发音的所有的帧，以在不损失识别准确度的情况下跳过尽可能多的帧。假设声学模型在处理第j帧的同时即将预测第i预测的跳过帧的数量，与第j帧对应的发音是y_i，从第j帧开始发音y_i的长度或持续时间是D(y_i)。在这样的示例中，跳过帧的最大数量是M，与跳过帧的数量的第i预测对应的跳过帧的目标数量是s_i*，其中，s_i*由下面的等式1表示。

s_i ^*＝min(D(y_i),M) (1)

当由声学模型预测的跳过帧的数量等于跳过帧的目标数量时，训练设备将奖励0分配给跳过帧的数量的预测。否则，训练设备基于跳过帧的预测数量与跳过帧的目标数量之间的差向跳过帧的数量的预测分配奖励。与跳过帧的数量的第i预测对应的奖励函数r_i由下面的等式2表示。

r_i＝-|s_i ^*-s_i| (2)

在等式2中，s_i表示在第i预测的跳过帧的预测数量，s_i ^*表示与第i预测对应的跳过帧的目标数量。

为了对由声学模型进行的更不准确的预测分配较高的惩罚来训练声学模型，与将被跳过的帧的数量的准确预测对应的奖励被设置为0，与将被跳过的帧的数量的不准确预测对应的奖励被设置为负值或惩罚。随着在训练期间由声学模型进行的预测的不准确度增加，被分配给声学模型的训练的惩罚增加，因此当声学模型基于奖励函数被训练时，声学模型被训练为进行更少的将被跳过的帧的数量的不准确预测。

用于优化θ_s的目标函数J₂(θ_s)由下面的等式3表示。

在等式3中，目标函数J₂(θ_s)表示从跳过帧的数量的第一预测开始与跳过帧的数量的第N预测对应的预期的奖励。γ表示折扣因子，N表示这样的帧或者帧的标号：在该帧处，预测跳过帧的数量。

在一个示例中，训练设备基于等式3训练声学模型以使预期的奖励最大化。

用于预测跳过帧的数量的概率值p(s_1:N；θ_s)由下面的等式4表示。

p(s_1:N；θ_s)＝∏_ip(s_i|h_i；θ_s) (4)

训练设备使用强化算法来优化等式3的目标函数，并获得由下面的等式5表示的等式3的目标函数的近似导数。

在等式5中，R_i由下面的等式6表示。

训练设备根据等式5使用基于跳过帧的数量的预测的奖励来计算J₂(θ_s)的近似导数。在等式5中的目标函数的导数中，R_i表示除了施加到跳过帧的数量的当前预测之外施加到跳过帧的数量的后续预测的奖励值。为了减少对当前预测的后续预测的奖励的影响，折扣因子γ被施加到R_i。当使用梯度下降学习参数θ_s时，包括R_i的目标函数的导数被使用，因此在训练跳过帧的数量的当前预测时，基于折扣因子γ施加跳过帧的数量的后续预测。训练设备可使用各种方法来减少J₂(θ_s)的导数的分布。

训练设备使用由下面的等式7表示的目标函数来训练声学模型。

J(θ_l,θ_s)＝J₁(θ_l)+J₂(θ_s) (7)

在一个示例中，奖励函数被定义为在保持语音识别的准确度的同时跳过声学序列中尽可能多的帧。根据语音识别方法的应用，语音识别的准确度可被认为比识别速度更重要，反之亦然。也就是说，在语音识别的准确度与识别速度之间存在相反的关系。例如，跳过声学序列中的很多帧以提高识别速度会由于不能准确执行对语音信号中的变化进行建模而降低语音识别的准确度。相反地，跳过声学序列中的较少的帧以提高语音识别的准确度会降低识别速度。

在一个示例中，训练设备通过确定重点关注语音识别的准确度还是识别速度来训练声学模型。例如，在声学模型预测到等于跳过帧的目标数量的跳过帧的数量的情况下，奖励函数将奖励0分配给跳过帧的数量的预测。在跳过帧的目标数量与跳过帧的预测数量之间的差增大的另一情况下，奖励函数将较大的惩罚分配给跳过帧的数量的预测。在一个示例中，训练设备改变奖励函数以调节将通过声学模型而被跳过的帧的数量。在一个示例中，训练设备向奖励函数施加速度权重w。例如，不同的权重被分配给声学模型预测到比跳过帧的目标数量小的跳过帧的数量的情况和声学模型预测到比跳过帧的目标数量大的跳过帧的数量的情况的奖励函数r_i'由下面的等式8表示。

r_i'＝A，如果s_i ^*＝s_i

r_i'＝s_i ^*-s_i，如果s_i ^*<s_i (8)

r_i'＝w×(s_i-s_i ^*)，如果s_i ^*>s_i

在等式8中，A是大于或等于0的常数。s_i ^*<s_i的情况是声学模型预测到比跳过帧的目标数量大的跳过帧的数量的情况，因此训练设备将惩罚分配给如上所述的跳过帧的数量的预测。相反地，s_i ^*>s_i的情况是声学模型预测到比跳过帧的目标数量小的跳过帧的数量的情况，因此训练设备通过将分配给较大的跳过帧的数量的预测的惩罚乘以速度权重w来增加分配给较小的跳过帧的数量的预测的惩罚，其中，速度权重w指示将被分配给较小的跳过帧的数量的预测的惩罚比分配给较大的跳过帧的数量的预测的惩罚多多少。

训练设备通过确定准确度和识别速度中的哪一个需要相对更大的权重来确定速度权重w的值。例如，当w是1.0时，相似的奖励被分配给比跳过帧的目标数量大的跳过帧的数量的预测和比跳过帧的目标数量小的跳过帧的数量的预测两种情况。当w小于1.0时，较小的惩罚被分配给比跳过帧的目标数量小的跳过帧的数量的预测，因此声学模型跳过较少的帧并且识别的准确度提高。然而，当w大于1.0时，较大的惩罚被分配给较小的跳过帧的数量的预测，因此声学模型跳过较多的帧并且识别速度提高。

图7是示出语音识别***的示例的示图。

参照图7，语音识别***包括声学模型703、解码器705和语言模型706。语音识别***使用声学模型703从与语音信号701对应的声学序列702预测发音704，并使用解码器705和语言模型706来执行语音识别。

图8是示出设备的示例的示图。

参照图8，设备801包括处理器802和存储器803。设备801是参照图1至图7描述的语音识别设备和训练设备中的一个或二者。处理器802实现参照图1至图7描述的语音识别设备和训练设备中的一个或二者的至少一部分，并执行由参照图1至图7描述的语音识别设备和训练设备中的一个或二者执行的一个或多个操作或处理或者所有的操作或处理。存储器803存储在此描述的语音识别方法或与语音识别方法相关联的信息，存储在此描述的训练方法或与训练方法相关联的信息，或存储实现语音识别方法和训练方法中的一个或二者的程序。存储器803可以是易失性存储器或非易失性存储器。

处理器802执行程序并控制设备801。由处理器802执行的程序的程序代码被存储在存储器803中。设备801可经由输入装置和输出装置(未示出)连接到外部装置(例如，PC和网络)，并可与外部装置交换数据。

通过硬件组件来实现参照图1至图3描述的语音识别设备、图2中的隐藏层203、标签层204和跳过层205、图3中的隐藏层、标签层和跳过层、参照图5和图6描述的训练设备、图7的语音识别***、声学模型703、解码器705和语言模型706以及图8的设备801、处理器802和存储器803。可用于执行本申请中描述的操作的硬件组件的示例在适当的情况下包括：控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器以及被配置为执行本申请中描述的操作的任何其他电子组件。在其他示例中，通过计算硬件(例如，通过一个或多个处理器或计算机)来实现执行本申请中描述的操作的硬件组件中的一个或多个。可通过一个或多个处理元件(诸如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以实现期望的结果的任何其他装置或装置的组合)来实现处理器或计算机。在一个示例中，处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。通过处理器或计算机实现的硬件组件可执行用于执行本申请中描述的操作的指令或软件(诸如，操作***(OS)和在OS上运行的一个或多个软件应用)。硬件组件还可响应于指令或软件的执行来访问、操控、处理、创建和存储数据。为了简单起见，单数术语“处理器”或“计算机”可用于本申请中所述的示例的描述中，但是在其他的示例中，多个处理器或计算机可被使用，或者一个处理器或计算机可包括多个处理元件或多种类型的处理元件或二者。例如，单个硬件组件或者两个或更多个硬件组件可通过单个处理器、或者两个或更多个处理器、或者一个处理器和一个控制器来实现。一个或多个硬件组件可通过一个或多个处理器、或者一个处理器和一个控制器来实现，一个或多个其他硬件组件可通过一个或多个其他处理器、或者另一个处理器和另一个控制器来实现。一个或多个处理器或者一个处理器和一个控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任何一个或多个，其中，不同的处理配置的示例包括：单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。

图1至图6所示的执行在本申请中描述的操作的方法通过计算硬件(例如，通过一个或多个处理器或计算机)来执行，其中，计算硬件被实现为如上所述地执行用于执行在本申请中描述的通过该方法执行的操作的指令或软件。例如，单个操作或者两个或更多个操作可通过单个处理器或者两个或更多个处理器或者一个处理器和一个控制器来执行。一个或多个操作可通过一个或多个处理器或者一个处理器和一个控制器来执行，并且一个或多个其他操作可通过一个或多个其他处理器或者另一个处理器和另一个控制器来执行。一个或多个处理器或者一个处理器和一个控制器可执行单个操作或者两个或更多个操作。

用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并执行如上所述的方法的指令或软件可被编写为计算机程序、代码段、指令或它们的任何组合，以单独地或共同地指示或配置一个或多个处理器或者计算机作为机器或专用计算机进行操作，以执行由硬件组件执行的操作和如上所述的方法。在一个示例中，指令或软件包括由一个或多个处理器或者计算机直接执行的机器代码(诸如，由编译器产生的机器代码)。在另一个示例中，指令或软件包括由一个或多个处理器或者计算机使用解释器执行的高级代码。可基于附图中所示的框图和流程图以及说明书中的对应描述，使用任何编程语言来编写指令或软件，其中，附图中所示的框图和流程图以及说明书中的相应描述公开了用于执行由硬件组件执行的操作和如上所述的方法的算法。

用于控制计算硬件(例如，一个或多个处理器或者计算机)实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中，或者可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其它装置，其中，该任何其它装置被配置为：以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构，并且为一个或多个处理器或者计算机提供指令或软件以及任何相关联的数据、数据文件和数据结构，使得一个或多个处理器或者计算机能够执行指令。在一个示例中，指令或软件以及任何相关联的数据、数据文件和数据结构分布在联网的计算机***上，使得指令和软件以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或者计算机以分布式方式被存储、访问和执行。

虽然本公开包括特定的示例，但是在理解了本申请的公开之后将清楚，在不脱离权利要求和它们的等同物的精神和范围的情况下可在这些示例中进行形式和细节的各种改变。在此描述的示例仅在描述性意义上被考虑，而不是为了限制的目的。每一个示例中的特征或方面的描述被认为可应用到其他示例中的相似特征或方面。如果描述的技术以不同的顺序被执行，和/或如果描述的***、架构、装置或电路中的组件以不同方式被组合，和/或被其他组件或它们的等同物替换或补充，则可实现适当的结果。因此，本公开的范围不是由具体实施方式限定，而是由权利要求和它们的等同物限定，并且在权利要求和它们的等同物的范围内的所有变化将被解释为包括在本公开内。

Claims

1.一种语音识别方法，包括：

获得划分成多个帧的声学序列；

通过预测声学序列中的同一发音的持续时间并跳过针对与所述持续时间对应的帧的发音预测，确定声学序列中的发音，

其中，确定发音的步骤包括：使用声学模型预测所述多个帧之中的第一帧的第一发音，使用声学模型预测第一发音的第一持续时间，跳过针对与第一持续时间对应的至少一个第二帧的发音预测，

其中，确定发音的步骤还包括：将所述至少一个第二帧中的每一帧的发音确定为第一发音。

2.根据权利要求1所述的语音识别方法，其中，所述持续时间由将跳过发音预测的帧的数量来表示。

3.根据权利要求1所述的语音识别方法，其中，确定发音的步骤还包括：预测所述至少一个第二帧的最后一帧之后的帧的第二发音和第二发音的持续时间。

4.根据权利要求1所述的语音识别方法，其中，声学模型包括神经网络，

神经网络的输出层包括标签层和跳过层，

标签层被配置为预测输入到神经网络的输入帧的发音，

跳过层被配置为预测所述输入帧的发音的持续时间。

5.根据权利要求4所述的语音识别方法，其中，标签层包括数量等于能够由标签层预测的所有可能的发音的数量的节点，

所述持续时间由将跳过发音预测的帧的数量来表示，

跳过层包括数量等于针对将被跳过发音预测的帧的数量的所有可能选择的数量的节点。

6.一种存储指令的非暂时性计算机可读介质，其中，当所述指令被处理器执行时使得处理器执行权利要求1所述的语音识别方法。

7.一种语音识别方法，包括：

获得划分成多个帧的声学序列；

使用声学模型预测所述多个帧之中的第一帧的第一发音；

使用声学模型预测第一发音的第一持续时间；

通过跳过针对与第一持续时间对应的至少一帧的发音预测，对声学序列执行语音识别，

其中，执行语音识别的步骤包括：将所述至少一帧中的每一帧的发音确定为第一发音。

8.根据权利要求7所述的语音识别方法，其中，第一持续时间由将跳过发音预测的帧的数量来表示。

9.根据权利要求7所述的语音识别方法，其中，执行语音识别的步骤包括：预测所述至少一帧中的最后一帧之后的帧的第二发音和第二发音的持续时间。

10.根据权利要求7所述的语音识别方法，其中，声学模型包括神经网络，

神经网络的输出层包括标签层和跳过层，

标签层被配置为预测输入到神经网络的输入帧的发音，

跳过层被配置为预测所述输入帧的发音的持续时间。

11.一种语音识别设备，包括：

处理器，被配置为：

获得划分成多个帧的声学序列，

其中，处理器还被配置为：使用声学模型预测所述多个帧之中的第一帧的第一发音，使用声学模型预测第一发音的第一持续时间，跳过针对与第一持续时间对应的至少一个第二帧的发音预测，

其中，处理器还被配置为：将所述至少一个第二帧中的每一帧的发音确定为第一发音。

12.根据权利要求11所述的语音识别设备，其中，所述持续时间由将跳过发音预测的帧的数量来表示。

13.根据权利要求11所述的语音识别设备，其中，处理器还被配置为：预测所述至少一个第二帧中的最后一帧之后的帧的第二发音和第二发音的持续时间。

14.根据权利要求11所述的语音识别设备，其中，声学模型包括神经网络，

神经网络的输出层包括标签层和跳过层，

标签层被配置为预测输入到神经网络的输入帧的发音，

跳过层被配置为预测所述输入帧的发音的持续时间。

15.根据权利要求14所述的语音识别设备，其中，标签层包括数量等于能够由标签层预测的所有可能的发音的数量的节点，

所述持续时间由将跳过发音预测的帧的数量来表示，

16.一种语音识别方法，包括：

接收声学序列；

预测在声学序列中的第一点处的第一发音；

预测在声学序列中的第一发音预期被改变的第二点；

跳过发音预测直到达到第二点为止，

其中，声学序列被划分成多个帧，

预测第一发音的步骤包括：针对声学序列中的第一帧预测第一发音，

预测第二点的步骤包括：预测声学序列中的在第一帧之后将持续第一发音的第二帧的数量，

跳过发音预测的步骤包括：跳过针对所述数量的第二帧的发音预测，

所述语音识别方法还包括：将第一发音分配给所述数量的第二帧中的每一帧。

17.根据权利要求16所述的语音识别方法，其中，预测第二点的步骤包括：预测预期在第一点之后持续第一发音的第一持续时间，

跳过发音预测的步骤包括：跳过针对第一持续时间的发音预测。

18.根据权利要求17所述的语音识别方法，其中，预测第一发音的步骤包括：使用声学模型预测第一发音，

预测第一持续时间的步骤包括：使用声学模型预测第一持续时间。

19.根据权利要求18所述的语音识别方法，其中，声学模型包括被配置为接收声学序列的神经网络，

所述神经网络包括输出层，

输出层包括标签层和跳过层，

标签层被配置为预测在声学序列中的点处的发音，

跳过层被配置为预测在声学序列中的所述点处预测的发音的持续时间。

20.根据权利要求19所述的语音识别方法，其中，标签层包括数量等于能够由标签层预测的所有可能的发音的数量的节点，

跳过层包括数量等于能够由跳过层预测的所有可能的持续时间的数量的节点。

21.根据权利要求20所述的语音识别方法，其中，标签层是softmax层，

与标签层的所述数量的节点中的具有最大输出值的标签层的节点对应的发音对应于在声学序列的所述点处的预测的发音，

跳过层是softmax层，

与跳过层的所述数量的节点中的具有最大输出值的跳过层的节点对应的持续时间对应于在声学序列中的所述点处的预测的发音的预测的持续时间。

22.根据权利要求16所述的语音识别方法，还包括：

针对所述数量的第二帧之后的第三帧预测第二发音；

预测声学序列中的在第三帧之后将持续第二发音的第四帧的数量。

23.根据权利要求16所述语音识别方法，其中，第二帧的数量大于或等于0，并且小于或等于能够跳过发音预测的帧的最大可允许数量。

24.根据权利要求23所述的语音识别方法，其中，基于语音识别的准确度与语音识别的速度之间的期望的折衷来设置能够跳过发音预测的帧的最大可允许数量。

25.根据权利要求24所述的语音识别方法，其中，增加能够跳过发音预测的帧的最大可允许数量，来降低语音识别的准确度并提高语音识别的速度，

减少能够跳过发音预测的帧的最大可允许数量，来提高语音识别的准确度并降低语音识别的速度。