CN110959159A

CN110959159A - 话语分类器

Info

Publication number: CN110959159A
Application number: CN201880049126.4A
Authority: CN
Inventors: N.D.霍华德; G.西姆科; M.C.帕拉达桑马丁; R.卡尔亚纳森达拉姆; G.P.阿鲁穆加姆; S.瓦苏德范
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-07-25
Filing date: 2018-04-09
Publication date: 2020-04-03
Also published as: KR20200023456A; WO2019022797A1; KR20220162891A; US10311872B2; JP6740504B1; US20200349946A1; US20190035390A1; US11361768B2; JP6945695B2; KR102360924B1; KR102474941B1; US20190304459A1; US11848018B2; JP2020527758A; KR102509464B1; US20240096326A1; KR20220021037A; US20220293101A1; JP2020173483A; EP3659028A1

Abstract

一种方法、***和装置，包括在计算机存储介质上编码的、用于使用神经网络进行分类的计算机程序。一种方法包括接收与话语相对应的音频数据。获得话语的转录。生成音频数据的表示。生成话语的转录的表示。向分类器提供(i)音频数据的表示和(ii)话语的转录的表示，该分类器基于音频数据的给定表示和话语的转录的给定表示，被训练为输出与给定表示相关联的话语是否可能指向自动辅助还是可能不指向自动辅助的指示。

Description

话语分类器

技术领域

本说明书通常涉及分类，并且更具体地涉及使用神经网络的分类。

背景技术

语音使能(speech-enabled)的环境是其中用户可以大声说出查询或命令并且基于计算机的***将使用语音识别技术获得查询、答复查询和/或使命令被执行的环境。语音使能的环境可以包括分布在整个环境的各个房间或区域中的连接的麦克风设备的网络。用户基本上可以在语音使能的环境中从任何地方对基于计算机的***进行口头查询，而无需在他/她面前甚至附近拥有计算机或其他设备。例如，在早上穿衣服的时候，用户可能会问基于计算机的***“外面的温度是多少？”，并且作为响应，用户会从***例如以合成语音输出的形式接收到答复。在其他示例中，用户可能会问基于计算机的***问题，诸如“我最喜欢的餐厅几点开门？”或“最近的加油站在哪里？”。

发明内容

对于语音使能的环境，用户可以主要通过语音输入与基于计算机的***进行交互。作为结果，基于计算机的***可以潜在地获得在语音使能的环境中生成的所有话语和噪声，包括不针对基于计算机的***的那些话语。因此，基于计算机的***必须具有某种方式来区分针对基于计算机的***的话语与不针对基于计算机的***的话语，更确切地说，针对存在于语音使能的环境中的其他个人的话语。一种实现此目的的方法是，用户使用预定的词(诸如热词或关键词)来表示对基于计算机的***的关注。此外，语音使能的环境中的其他个人了解到，预定词的使用仅用于基于计算机的***。例如，用户可以说“好的电脑”，后跟查询，以向基于计算机的***提问。然而，每次用户问基于计算机的***时，用户都必须说预定的词，这样的问题会打乱正常的对话流程，并给用户带来认知负担。为了减轻这种认知负担，基于计算机的***可以在用户使用预定词问了第一个问题之后使麦克风保持打开状态，以解决用户可能遇到的任何后续问题。后续问题将不需要使用预定的词。然而，基于计算机的***仍将需要辨别针对计算机***的问题以及获得的并非针对计算机***的其他话语。因此，如果基于计算机的***确定后续话语看起来像是可能针对基于计算机的***的问题，则接受并处理话语。否则，基于计算机的***将关闭麦克风，并等待来自用户的包括预定词的下一次话语。因此，可以提供一种改进的机制来促进诸如用户命令的用户输入到基于计算机的***。

在一些实施方式中，一旦基于计算机的***侦听问题的跟进，基于计算机的***就允许与用户进行自由形式的对话。用户不再需要使用预定的热词来与基于计算机的***通信。基于计算机的***使用所获得话语的声学特性和所获得话语的识别文本两者来确定后续问题是否直接针对基于计算机的***。

在一些实施方式中，分类***包括用于识别人类语音内容的分类器。具体地，内容包括人类语音的受众可能指向自动辅助服务器的确定。分类***包括语音识别器、转录表示生成器、声学特征生成器、连接模块和分类器以执行该确定功能。语音识别器可以获得由用户说出的话语信息，并生成来自用户的口头话语(spoken utterance)的转录(transcription)。声学特征生成器可以接收由用户说出的话语信息并输出语音单元表示，诸如描述所接收的口头话语的音频特性的特征向量。转录表示生成器可以从语音识别器接收语音的转录，并输出包括词嵌入的转录。连接模块可以接收声音信息和词嵌入，将声音信息和词嵌入连接成矩阵表示，并将矩阵表示提供给分类器。分类器提供指示，表明所获得话语的受众很可能是指向自动辅助服务器的。

在一些实施方式中，分类器包括一个或多个神经网络元件以处理口头话语。分类器使用用户先前说过的查询示例训练神经网络元件，这些查询不太可能指向自动辅助服务器。这种类型的训练允许分类器检测这些类型的查询，并另外提供指示，表明所获得的查询的受众可能会指向自动辅助服务器。

在一个总体方面，由分类***的一个或多个计算机执行一种方法。该方法包括：接收与话语相对应的音频数据；获得话语转录，生成音频数据的表示；生成话语转录的表示；基于音频数据的给定表示和话语转录的给定表示，向分类器提供(i)音频数据的表示和(ii)话语转录的表示，该分类器被训练以输出与给定表示相关的话语是可能指向自动辅助还是可能不指向自动辅助的指示；从分类器接收关于与所接收的音频数据相对应的话语可能是指向自动辅助还是可能不指向自动辅助的指示；以及至少基于与所接收的音频数据相对应的话语可能是指向自动辅助还是可能不指向自动辅助的指示，选择性地指示(instruct)自动辅助。

本公开内容的这个方面和其他方面的其他实施例包括被配置为执行在计算机存储设备上编码的方法的动作的相应***、装置和计算机程序。可以借助于安装在在操作中使***执行动作的***上的软件、固件、硬件或它们的组合来配置一个或多个计算机的***。一个或多个计算机程序可以通过具有指令的方式进行配置，该指令在由数据处理设备运行时使该设备执行动作。

实施方式可以包括以下特征中的一个或多个。例如，在一些实施方式中，其中向分类器提供(i)音频数据的表示和(ii)话语转录的表示，还包括：生成(i)音频数据的表示与(ii)话语的表示之间的连接的输入表示；以及将连接的输入表示提供给分类器。

在一些实施方式中，该方法还包括：生成(i)音频数据的表示与(ii)话语转录的表示之间的连接的输入表示，还包括：生成一个或多个从一个或多个在话语转录的表示中识别的词转换而来的数字向量；以及生成包含一个或多个数字向量的数字向量矩阵，以提供给分类器。

在一些实施方式中，该方法还包括：在词嵌入模型处从语音识别器接收与该话语相对应的可识别文本；在词嵌入模型处，从可识别的文本中生成话语转录；以及从词嵌入模型提供话语转录到分类器。

在一些实施方式中，其中音频数据的表示包括声学梅尔频率倒谱系数(mel-frequency cepstral coefficients，MFCC)值。

在一些实施方式中，该方法还包括：由词嵌入模型的最大池化层提供包括嵌入单元的话语转录；通过声学神经网络提供包括音频单元的音频数据的表示；将嵌入单元和音频单元连接到表示单元输入(representation unit input)；以及将表示单元输入作为输入提供给分类器。

在一些实施方式中，其中，选择性地指示自动辅助还包括：当分类器提供与所接收的音频数据相对应的话语可能指向自动辅助的指示时，选择性地指示自动辅助处理话语；以及当分类器提供与所接收的音频数据相对应的话语不太可能指向自动辅助的指示时，选择性地指示自动辅助不处理话语。

在附图和以下描述中阐述本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1是示出使用分类器的用于语音分类的***的示例的框图。

图2是示出分类***的示例的框图。

图3是示出用于语音分类的处理的示例的流程图。

图4示出了计算设备和移动计算设备的示例。

在各个附图中，相同的参考编号和标记指示相同的元件。

具体实施方式

说明书描述了一种用于执行语音分类以确定所获得的话语是否可能指向基于计算机的***的技术。基于计算机的***不需要所获得的话语包含预定的词(诸如热词)以引起基于计算机的***的注意。而是，基于计算机的***的麦克风会保持打开状态，用于在用户的第一次查询中确实包含预定词之后的问题的任何获得的话语。有利地，该技术将神经网络用于所获得的话语的声学特性和所识别的文本两者，以训练神经网络以生成所获得的话语的受众是否可能指向基于计算机的***的指示。这可能是有益的，因为用户可以更流畅地与基于计算机的***进行对话，而无需使用热词。

图1是示出使用分类器服务器108进行语音分类的***100的示例的框图。***100包括分类器服务器108和自动辅助服务器116。分类器服务器108和自动辅助服务器116中的每一个可以包括一个或多个计算机。分类器服务器108包括一个或多个神经网络组件、语音识别器和声学特征生成器，下面将相对于图2进一步说明。分类器服务器108可以包括本地或通过网络连接的一个或多个服务器。分类器服务器108可以以软件、硬件、固件或其组合来实现。图1示出了阶段(A)至(D)和(A’)至(B’)中的各种操作，它们可以按所示的顺序或按另一顺序被执行。

图1的示例示出了分类器服务器108确定话语是否可能指向接收者的示例。图1所示的处理完成两项重要任务。首先，与每次用户与该***对话时都要求用户说热词或关键词的***不同，分类器服务器108在第一次使用表示受众可能指向自动辅助服务器116的热词或关键词之后不需要话语包括热词或关键词。分类器服务器108要求用户在用户102第一次与自动辅助服务器116对话时包括诸如热词或关键词的词。分类器服务器108包括响应于听到热词或关键词而打开的麦克风。另外，麦克风保持接通用于由用户102提供的后续问题。一旦用户102停止提问，麦克风就关闭。

在会话设置中，当用户每次在其对诸如分类器服务器108的设备进行表示时都包括热词或关键词时，该热词可以中断正常会话的流程。因此，图1所示的处理在第一次使用热词或关键词后，便不再使用该热词或关键词，从而使会话更加流畅。

其次，分类器服务器108可以在不使用热词的情况下，将自动辅助服务器116确定为话语可能指向的受众。结果，分类器服务器108可以区分指向自动辅助服务器116的话语和不指向自动辅助服务器116的话语。在一些实施方式中，不指向自动辅助服务器116的话语可以包括潜在指向自动辅助服务器116的短语。短语例如“现在几点了”可以包括在分类器服务器108可以获得的诸如“嘿妈妈，我上学迟到了，现在几点了”的短语中。

然而，在分析记录的话语时，分类器服务器108可以确定该话语包括与该问题有关的其他短语，并且指示该话语的受众不是自动辅助服务器116。总之，分类器服务器108可以判断可能性并提供指示，表明获得的话语的受众很可能指向自动辅助服务器116。

在一些实施方式中，分类器服务器108可以向自动辅助服务器116提供指示所获得的话语和指令的数据。分类器服务器108创建指令以向自动辅助服务器116传达是否处理所获得的话语。例如，分类器服务器108可以获得由诸如用户102的用户说出的话语，并且确定所获得的话语的受众很可能指向自动辅助服务器116。作为响应，分类器服务器108可以通过诸如网络114的网络向自动辅助服务器116提供指示指令和获得的话语的数据。指令要求自动辅助服务器116处理获得的话语并生成对获得的话语的响应。

在一些实施方式中，自动辅助服务器116可以生成对所获得的话语的响应。具体地，自动辅助服务器116可以提供对由分类器服务器108所提供的问题和/或陈述的答复。例如，自动辅助服务器116可以获得指示话语要求自动辅助服务器116处理话语指令的数据。自动辅助服务器116确定话语叙述“现在几点了”，并生成对话语的响应。例如，自动辅助服务器116确定时间是“下午6:02”，并生成响应113以通过网络114提供给分类器服务器108。响应113可以包括叙述的答复“时间是下午6:02”。分类器服务器108可以将由自动辅助服务器116生成的响应提供给用户102所拥有的客户端设备，诸如客户端设备110。

可以相对于如下所述的图1所示的示例用例来说明上述***的示例。

在阶段(A)期间，分类器服务器108从用户102获得口头话语。该口头话语可以包括各种类型的短语和/或指向自动辅助服务器116的问题。在其他实施方式中，分类器服务器108可以从用户102获得一个或多个不太可能指向自动辅助服务器116的口头话语。该口头话语可以包括预定时间长度上的音频波形。

在一些实施方式中，分类器服务器108可以记录在音量的阈值水平以上检测到的话语。可以以分贝(dB)为单位测量音量水平。例如，分类器服务器108可以从分类器服务器108第一次从阈值以上附近的用户和/或设备检测到声学特性开始到第二次分类器服务器108不再从附近的用户和/或设备检测到声学特性来获得音频记录。例如，取决于用户与分类器服务器108之间的距离，典型区域中的用户的正常语音可以在42dB和80dB之间变化。在音量级别的较低端，例如，分类器服务器108可能正在记录微弱的背景噪音。仅举几个示例，在音量级别的较高端，分类器服务器108可能正在录制大声音乐或大声话语。在一个示例中，用户102可以在下午2:15向自动辅助服务器116提出问题，诸如“好吧电脑，我今天应该穿什么？”。分类器服务器108可以从对话问题的声学特性中检测到热词并处理问题“今天我应该穿什么？”。然后，分类器服务器108的麦克风从下午2:15开始保持打开状态一段时间，以等待来自用户102的后续问题。仅举几个示例，时间段可以是5秒、10秒或15秒。只要用户102继续询问指向自动辅助服务器116的问题，麦克风就会保持打开状态。

在一些实施方式中，分类器服务器108可以记录来自位于特定阈值水平以上的分类器服务器108的位置附近的各种设备和/或用户的每个音频话语。例如，分类器服务器108可以在与分类器服务器108相同的房间中收听和记录来自用户的音频。在一个示例中，分类器服务器108可以收听和记录一个或多个从通过电视显示的电视节目进行交流的个人。在另一示例中，分类器服务器108可以收听和记录在分类器服务器108的可听范围内从扬声器播放的音乐。在另一示例中，分类器服务器108可以收听和记录通过客户端设备(诸如使用语音或视频聊天应用程序的手机或笔记本电脑)进行交流的一个或多个个人。具体地，可以从位于分类器服务器108所位于的整个房间中的各种设备和/或用户来记录音频记录。

在所示的示例中，分类器服务器108从用户102获得话语104。话语104向自动辅助服务器116提出问题106。问题106叙述：“外面的温度是多少？”。分类器服务器108获得话语104并记录话语104用于进行进一步处理。

在一些实施方式中，用户102可以在短时间段内向自动辅助服务器116询问一个以上的问题。在其他实施方式中，用户102可以向该区域中的另一个人提出一个问题，向自动辅助服务器116提出一个后续问题。例如，用户102可以向他或她的重要其他人提出该问题“雷切尔，我今天应该穿什么？”，随后向自动辅助服务器116询问另一个问题-“外界温度是多少？”。在此示例中，分类器服务器108可以记录用户102提出的两个问题，并确定记录的话语的后续处理为前一个问题不指向自动辅助服务器116，而后一个问题指向自动辅助服务器116。

在阶段(B)期间，分类器服务器108对记录的话语104进行处理。具体地，分类器服务器108对记录的话语104进行分类，并提供指示话语的受众可能指向自动辅助服务器116的可能性的输出。如下面关于图2进一步描述的，分类器服务器108利用话语104的声学表示和文本表示来确定话语104的受众是否可能指向自动辅助服务器116。

在该示出的示例中，分类器服务器108生成话语104的受众很可能指向自动辅助服务器116的指示。在图2中，复选框示出了该指示。在实际应用中，自动辅助服务器116可以在分类器服务器108确定话语的受众104可能指向自动辅助服务器116时，提供诸如闪光的指示。在一些实施方式中，自动辅助服务器116可以响应于从分类器服务器108接收到选择性指令109而提供指示。在其他实施方式中，自动辅助服务器116可以提供如由用户102所指示的蜂鸣声、铃声或预定音调来表示来自用户102的话语104的受众很可能指向自动辅助服务器116。

在替代实施方式中，分类器服务器108可以获得话语并确定所获得的话语不太可能指向自动辅助服务器116。这可以在图1所示的示例中进行说明。

在阶段(A')期间，分类器服务器108从一个或多个设备获得另一种口头话语122。在该示出的示例中，来自电视120的电视节目产生包括问题106的短语118的口头话语122。例如，电视节目中的人物可能叙述：“鲍勃说，外面的温度是多少，我发抖”。作为响应，在确定话语的音量高于分贝阈值水平时，分类器服务器108可以获得并记录口头话语122。

在一些实施方式中，分类器服务器108可以基本上同时获得并记录诸如话语104和话语122的话语。分类器服务器108可以在每个记录的话语之间进行区分。在其他实施方式中，分类器服务器108可以顺序地获得并记录诸如话语104和话语122的话语。在分类器服务器108顺序获得话语的情况下，分类器服务器108按照所接收的顺序处理每个话语。在其他实施方式中，分类器服务器108可以产生所获得并记录的话语不可辨别的指示。例如，所获得并记录的话语104可以包括各种噪声分量，这些噪声分量来自外部事件，诸如仅举几个示例的其他用户的话语、电视的音量、背景中运行的风扇以及狗叫声。分类器服务器108可以通过扬声器向用户102提供诸如“请重复该短语”的指示。

在阶段(B')期间，分类器服务器108对所记录的话语122进行处理。具体地，分类器服务器108对所记录的话语122进行分类，并提供输出，该输出指示话语122可能指向自动辅助***116的可能性。在该示出的示例中，分类器服务器108提供关于所记录的话语122的受众不太可能指向自动辅助服务器116的指示。在图2中，框中的“X”提供如在分类器服务器108内部所示的指示。在实际应用中，分类器服务器108响应于确定所记录的话语122不太可能指向自动辅助服务器116而关闭麦克风以停止收听对话。

在其他实施方式中，分类器服务器108可以响应于确定所记录的话语的受众不太可能指向自动辅助服务器116而执行附加动作。例如，分类器服务器108可以丢弃所记录的话语(诸如所记录的话语122)，并继续收听其他话语。在另一示例中，分类器服务器108可以利用特定指令将所记录的话语(诸如所记录的话语122)传送到自动辅助服务器116。

在一些实施方式中，代替分类器服务器108指示自动辅助服务器116处理所记录的话语122，分类器服务器108可以指示自动辅助服务器116将话语存储在数据库中。数据库可以存储分类器服务器108可以访问的一个或多个话语以确定当前获得的话语是否与任何存储的话语不匹配。例如，分类器服务器108可以将所获得的话语104与数据库中存储的一个或多个话语进行比较。如果任何比较都在预定阈值内匹配，则分类器服务器108可以拒绝该特定话语，因为受众不太可能指向自动辅助服务器116。或者，如果没有一个比较匹配，则分类器服务器108可以如下面关于图2所述的通过分类器处理记录的话语。

在阶段(C)期间，自动辅助服务器116从分类器服务器108获得指示所记录的话语和选择性的指令的数据。在所示的示例中，自动辅助服务器116获得所记录的话语104而非所记录的话语122，因为分类器服务器108确定前者的受众可能指向自动辅助服务器116，而后者的受众不太可能指向自动辅助服务器116。分类器服务器108不提供谁可能是所记录的话语104的接收者的指示，而是提供接收者不太可能指向自动辅助服务器116的指示。

在一些实施方式中，响应于数据109中的指令，自动辅助服务器116处理所记录的话语，诸如话语104。例如，指令可以传送到自动辅助服务器116以处理所记录的话语104并提供对用户102的问题106的响应。自动辅助服务器116可以使用对因特网的网络访问来搜索并获得对用户102的问题106的答复。继续如图1的示例所示，自动辅助服务器116可以获得对问题106的答复-“外面的温度是多少？”。

在一些实施方式中，自动辅助服务器116可以使用与分类器服务器108相关联的信息来帮助答复问题。例如，自动辅助服务器116可以获得分类器服务器108的位置坐标、时间和模型类型，以帮助答复问题106。通过知道分类器服务器108的位置和时间，自动辅助服务器116可以从因特网或其他数据库获得“35华氏度”的答复。

在一些实施方式中，自动辅助服务器116生成包括对用户102的问题106的答复的响应113。例如，该响应包括以句子结构的格式对用户102的问题的答复。响应113可以包括陈述112，陈述112叙述“温度为35华氏度”。在一些实施方式中，陈述112可以是文本形式或音频形式。自动辅助服务器116通过网络114将响应113发送到分类器服务器108。

在阶段(D)期间，分类器服务器108从自动辅助服务器116获得响应113。分类器服务器108可以通过网络114获得响应113。响应于获得响应113，分类器服务器108确定哪个客户端设备发送陈述112。分类器服务器108分析连接到分类器服务器108的一个或多个客户端设备的列表。在一些实施方式中，诸如客户端设备110的客户端设备可以经由短距离通信协议(诸如蓝牙或Wi-Fi)连接到分类器服务器108。在一些实施方式中，分类器服务器108可以将陈述112发送到每个连接的设备。

在一些实施方式中，分类器服务器108可以将陈述112发送到与诸如用户102的用户相关联的客户端设备110。例如，分类器服务器108可以从获得的所记录的话语104中确定说话者是用户102。每当新用户说出可能指向自动辅助服务器116的话语时，分类器服务器108便可以在配置文件中存储用户(诸如用户102)的音频表示。这可能是有益的，并且可以改善响应于用户的话语的延迟，因为分类器108可以接收到话语并确定哪个用户在说话。如果所接收的话语不具有与用户文件相关联的相应话语，则分类器服务器108创建新的用户文件，并将新获得的话语和新的用户文件存储在存储器中。

在一些实施方式中，分类器服务器108可以使用陈述112向客户端设备110发送消息，诸如仅举几个示例的文本消息、电子邮件和短消息服务(SMS)消息。在其他实施方式中，分类器服务器108可以从连接到分类器服务器108的扬声器中播放陈述112。

步骤(A)至(D)和(A')至(B')的操作示出了使用分类器服务器108确定获得的话语可能指向的受众的一个或多个迭代。分类器服务器108可以针对许多其他迭代来重复阶段(A)至(D)和(A’)至(B’)的操作。在一些实施方式中，分类器服务器108可以同时地执行图1所示的操作。另外，分类器服务器108可以确定图1所示的操作用于比一次仅两个话语(诸如话语104和话语122)更多的话语。图1仅出于示例性目的示出了两个话语。

图2是示出分类***的示例的框图。具体地，图2示出了以上讨论的***100的分类器服务器108的示例。在一些实施方式中，分类器服务器108包括用于记录所获得的话语的麦克风201、语音识别器202、声学特征生成器、转录表示生成器、连接模块208、神经网络209和西格玛(sigma)211。如图1所示，分类器服务器108从用户102获得记录的话语104。在一些实施方式中，分类器服务器108通过语音识别器202、声学特征生成器204、转录表示生成器206、连接模块208、神经网络209和西格玛211传播所记录的话语104，以判断所获得的话语104的受众可能会指向自动辅助服务器116的可能性。

语音识别器202可以是包括硬件、软件和固件的组合的设备，该设备被配置为识别口语中的词和短语。在一些实施方式中，语音识别器202将所获得的话语104转换为机器可读格式。机器可读格式可以包括表示所获得的话语104的以句子结构的格式的一个或多个词。在一些实施方式中，语音识别器202可以使用方法的各种组合来执行语音识别。例如，语音识别器202可以包括隐马尔可夫模型方法(Hidden Markov model approach)、基于动态时间规整(DTW)的神经网络、深度前馈和递归神经网络方法或各种方法的某种组合。分类器服务器108将语音识别器202的输出提供给转录表示生成器206。同时，分类器服务器108将所获得的话语104提供给声学特征生成器204。

在一些实施方式中，声学特征生成器204可以是包括硬件、软件和固件的组合的设备，该设备被配置为从所获得的话语104中提取特征向量并将所提取的特征向量作为输入提供给递归神经网络元件。声学特征生成器204分析所获得的话语104的不同片段或分析窗口。这些窗口可以是w_0,…w_n，被称为音频的帧。在一些实施方式中，每个窗口或帧表示相同的固定大小的音频量，例如，五毫秒(ms)的音频。窗口可以部分重叠或不重叠。对于所获得的话语104，第一帧w₀可以表示从0ms到5ms的片段；第二窗口w₁可以表示从5ms到10ms的片段，等等。

在一些实施方案中，可以针对所获得的话语104的每一帧确定特征向量或一组声学特征向量。例如，声学特征生成器可以对每个窗口w_0,…w_n中的音频执行快速傅立叶变换(FFT)；使用梅尔频率标度绘制频谱功率；取每个梅尔频率下的幂的对数；对梅尔对数幂的列表进行离散余弦变换；然后，分析特征的幅度内容，以确定每个窗口的声学特征。声学特征可以是梅尔频率倒谱系数(mel-frequency cepstral coefficients，MFCC)、使用感知线性预测(Hidden Markov model approach，PLP)变换确定的特征或使用其他技术确定的特征。

分类器服务器108一次将一个特征向量提供给声学特征生成器204中的循环神经网络元件。循环神经网络元件可以是一个或多个长短期记忆(LSTM)层。声学特征生成器204可以是通过堆叠多个LSTM层而构建的深层LSTM神经网络架构。分类器服务器108可以在声学特征生成器204中训练神经网络以提供固定大小的语音单元表示或嵌入的输出。例如，嵌入可以是64单位的向量。在一些实施方式中，单位可以是比特或字节。为每个特征向量输出一个嵌入。

在一些实施方式中，分类器服务器108包括声音特征生成器204以及语音识别器202，以增强对所获得的话语104的上下文的识别。如图1所示，在分类器服务器108对问题106进行分类并且用户102未提出后续问题之后，有时分类器服务器108记录将来的话语，其可能包含微弱的背景噪声或由语音识别***错误识别的语音。例如，在不使用声学特征生成器204的情况下，分类器服务器108可以将误识别转录为诸如“停止”或“播放”的常用短语。

另外，在没有声学特征生成器204的情况下，当分类器服务器108对这些话语进行分类时，所识别的文本变得不能充分区分。通过在分类器服务器108中启用声学特征生成器204，分类器服务器108可以减少误识别的失败情况。此外，人们的话语还包含独特的声学元素，这些元素并未被话语的文本所捕捉。例如，声学元素可以包括仅举几例的诸如音调、语音节奏和口音的特性。通过包括声学特征生成器204，独特的声学元素可以帮助确定话语的受众是否可能指向自动辅助服务器116。

转录表示生成器206可以包括一个或多个神经网络层。例如，转录表示生成器206可以包括卷积神经网络(CNN)词嵌入模型。类似于声学特征生成器204，转录表示生成器206可以包括一个或多个LSTM层，并且可以是通过堆叠多个LSTM层而构建的深度LSTM神经网络体系架构。另外，分类器服务器108在转录表示生成器206中训练神经网络以提供所获得的话语104的转录的输出。在一些实施方式中，话语的转录包括固定大小的文本单位表示或嵌入。例如，每个嵌入输出可以是100单位的向量。在一些实施方式中，单位可以是浮点数或整数值。从转录表示生成器206为句子的每个词输出一个嵌入。转录包括作为输出提供的每个嵌入单元。

在一些实施方式中，分类器服务器108向转录表示生成器206提供包括由语音识别器202生成的句子的输入。分类器服务器108每次从该句子将一个词输入到转录表示生成器206的CNN词嵌入模型中。另外，CNN词嵌入模型可以最大池化(max pool)提供给CNN词嵌入模型的句子数据，以减少输入数据，从而降低网络的计算复杂度。通过过滤和平均输入数据，最大池化可以通过CNN字嵌入模型显著降低数据吞吐量。这加快了由转录表示生成器206执行的处理，而不会有损输出质量的细节。

为了使分类器服务器108提供所获得的话语104指向自动辅助服务器116的最大概率，分类器服务器108利用了转录表示生成器206和声学特征生成器204两者的输出。连接模块208可以是将来自转录表示生成器206的嵌入输出与来自声学特征生成器204的嵌入输出进行组合的软件、硬件、固件或其组合的设备。例如，连接模块208将来自从转录表示生成器206输出的100单位向量和从声学特征生成器204输出的64单位向量结合输出以创建164单位向量输出。

在一些实施方式中，连接模块208可以创建164单位向量输出的矩阵。例如，矩阵可以包括一列或多列164单位向量。该连接模块208可以将100单位嵌入转换为包括一个或多个数字的语义上有意义的向量。连接模块208使用诸如word2vec或GloVe的编程语言中的一个或多个功能调用将100单位嵌入转换为包括一个或多个数字的语义上有意义的向量。

在所示的示例中，连接模块208可以从转录表示生成器208生成数字向量的矩阵，并从声学特征生成器204生成嵌入的矩阵。具体地，给定10个词的句子，其中每个词如果与100单位嵌入相关联，则连接模块208可以创建10x100矩阵，并将其与来自声学特征生成器204的矩阵进行连接。在同一示例中，来自声学特征生成器204的矩阵可以包括10个特征向量，每个都包括64单位嵌入。连接模块208可以创建10x64矩阵，以与来自转录表示生成器206的10x100矩阵进行连接。由连接模块208创建的结果矩阵可以是10x164。

产生用于话语104的声学特征的矩阵和用于话语104的文本特征的矩阵的益处在于，每个相应矩阵的尺寸使得它们可以被组合成适当的矩阵。例如，每个矩阵包括相同数量的行，从而允许水平连接。假设各个矩阵之间的列数相似，则连接模块208将创建垂直连接。在一些实施方式中，连接模块208将连接矩阵提供给神经网络209。

在一些实施方式中，连接模块208可以缓冲矩阵中的164单位向量的数量，直到神经网络209已经处理了一个164单位向量。一旦神经网络209处理了一个164单位向量，则连接模块208将下一个164单位向量提供给神经网络209。语音识别器202、声学特征生成器204、转录表示生成器206和连接模块208可以比神经网络209可以处理一个164单位向量更快地创建164单位向量。因此，连接模块208创建164单位向量的矩阵缓冲器以存储并准备进行处理。

在一些实施方式中，分类器服务器108包括神经网络209以处理连接的矩阵。具体地，神经网络209包括分类器210-A和另一个LSTM 210-B。分类器服务器108可以训练分类器210-A和LSTM 210-B以生成输出，该输出指示所获得的话语104的受众可能指向自动辅助服务器116的可能性。在一些实施方式中，使用先前由用户说出的查询和未指向自动辅助服务器116的对话的示例来训练分类器210-A和LSTM 210-B。例如，分类器服务器108可以检索未指向自动辅助服务器116的多个短语和文本格式。

在一些实施方式中，分类器服务器108可以从因特网上的一个或多个数据库检索其他短语，其包括不指向自动辅助服务器116的短语。例如，短语之一可以包括“鲍勃说，外面的温度是多少，我发抖”或者“你父母什么时候来？”。通常，尽管分类器服务器108由于这些类型的问题可能会将受众解释为可能指向自动辅助服务器116，但通常这些类型的问题的受众是房间里的另一个人。然而，这些类型的问题是用于训练神经网络209的最佳短语。分类器210-A可以学习识别短语，这些短语严密地识别并且似乎包括可能指向自动辅助服务器116的受众，但实际上是背景噪音，或指向房间中的其他人。这样的示例包括“你父母什么时候来”，“你有多重”或“你在杂货店买了什么？”。这些问题中的每一个都不包含指示说话者正在与谁说话的标识符，然而确实包含当识别不指向自动辅助服务器116的短语时指示分类器210-A移开视线的代词。

在一些实施方式中，分类器服务器108在训练期间更新分类器210-A的权重和LSTM210-B的权重。例如，分类器服务器108可以使用具有随机梯度下降的随时间的误差的反向传播来更新分类器210-A和LSTM 210-B的权重。

在一些实施方式中，分类器210-A和LSTM 210-B的输出可以包括所获得的话语104的受众很可能指向自动辅助服务器116的指示。例如，该指示可以包括164单位向量的输出指示所获得的话语的受众很可能指向自动辅助服务器116的可能性。在其他实施方式中，分类器210-A和LSTM 210B的输出可共同地包括从0到100的得分范围。

在一些实施方式中，西格玛211将由LSTM 210-B提供的每个输出相加。例如，对于通过神经网络209传播的每个话语，西格玛211为通过神经网络209传播的每个话语接收164单位向量中的每个的输出概率或输出得分。西格玛211针对所获得的话语104对来自神经网络209的每个输出概率或得分进行累加求和。

在一些实施方式中，西格玛211将最终输出概率或得分与预定阈值进行比较。如果西格玛211确定最终输出概率或得分超过预定阈值，则分类器服务器108指示所获得的话语104的受众很可能指向自动辅助服务器116的可能性。或者，如果最终输出概率或得分低于预定阈值，则分类器服务器108指示所获得的话语104的受众很可能指向自动辅助服务器116的可能性。例如，预定阈值可以是50％的概率或50/100的得分。

在一些实施方式中，分类器服务器108可以从西格玛211的输出确定是否将所获得的话语104提供给自动辅助服务器116。例如，如果分类器服务器108确定最终的输出概率或得分如果超过预定阈值，则分类器服务器108生成要提供给自动辅助服务器116的指令。该指令传送到自动辅助服务器116以处理所获得的话语104。分类器服务器108将所获得的话语104和所生成的指令封装(package)为数据109，并将数据109发送到自动辅助服务器116进行处理。

替代地，分类器服务器108可以确定最终输出概率或得分不超过预定阈值。作为响应，分类器服务器108可以从存储器中删除所获得的话语104，并继续等待直到新获得的话语。在其他实施方式中，分类器服务器108可以为自动辅助服务器116生成指示不处理所获得的话语104的指令。此外，这些指令可以传送到自动辅助服务器116以将所获得的话语104存储在存储不指向自动辅助服务器116的话语的数据库中。分类器服务器108将所获得的话语104和所生成的指令封装为数据109，并将数据发送到自动辅助服务器116进行处理。

图3是示出用于语音分类的处理300的示例的流程图。诸如分类器服务器108的一个或多个计算机的一个或多个计算机可以执行处理300。

在处理300中，一个或多个计算机接收与话语相对应的音频数据(302)。例如，分类器服务器108从用户102获得口头话语。口头话语可以包括指向自动辅助服务器116的各种类型的短语和/或问题。在其他实施方式中，分类器服务器108可以从不指向自动辅助服务器116的用户102获得一个或多个口头话语。在其他实施方式中，分类器服务器108可以从位于分类器服务器108附近的各种设备获得音频话语。例如，分类器服务器108可以收听并记录在由电视所显示的电视节目中进行交流的一个或多个个人。在另一个示例中，分类器服务器108可以收听和记录在分类器服务器108的可听范围内从扬声器播放的音乐。

一个或多个计算机提供对话语的转录(304)。例如，包括在分类器服务器108中的语音识别器202将所获得的话语104转换为机器可读格式。机器可读格式可以包括表示所获得的话语104的结构化格式的一个或多个词。分类器服务器108将包括由语音识别器202产生的句子的输入提供给转录表示生成器206。

一个或多个计算机生成音频数据的表示和话语的转录的表示(306)。例如，分类器服务器108包括声学特征生成器204，其被配置为从所获得的话语104中提取特征向量，并将所提取的特征向量作为输入提供给声学特征生成器204中的递归神经网络元件。具体地，分类器服务器108一次一个地将所提取的特征向量提供给递归神经网络元件。

在一些实施方式中，分类器服务器108可以在声学特征生成器204中训练递归神经网络以提供固定大小的语音表示或嵌入的输出。例如，嵌入可以是64单位向量。在一些实施方式中，单位可以是比特或字节。为每个特征向量输出一个嵌入。

在一些实施方式中，分类器服务器108一次从句子将一个词输入到转录表示生成器206的CNN词嵌入模型中。分类器服务器108可以训练转录表示生成器206中的神经网络以提供所获得的话语104的转录的输出。话语的转录包括固定大小的文本单位表示或嵌入。例如，每个嵌入输出可以是100单位向量。转录包括作为输出提供的每个嵌入单元。

一个或多个计算机将(i)音频数据的表示和(ii)话语的表示提供给分类器(308)。例如，连接模块208将100单位嵌入的每一个转换为包括一个或多个数字的语义上有意义的向量。连接模块208将转录表示生成器206的嵌入输出和来自声学特征生成器204的嵌入输出进行组合。例如，连接模块208将从转录表示生成器206输出的100单位向量和从声学特征生成器204输出的64单位向量进行组合，以创建164单位向量输出。

在一些实施方式中，连接模块208可以从转录表示生成器208生成数字向量的矩阵，并且从声学特征生成器204生成嵌入的矩阵。具体地，给定10个词的句子，其中每个词是与100单位嵌入相关联，连接模块208可以创建10x100矩阵，并将其与来自声学特征生成器204的矩阵连接。在同一示例中，来自声学特征生成器204的矩阵可以包括10个特征向量，每个特征向量包含64单位嵌入。连接模块208可以创建10x64矩阵，以与来自转录表示生成器206的10x100矩阵进行连接。由连接模块208创建的结果矩阵的大小可以为10x164。在一些实施方式中，连接模块208一次一个164单位地将连接的矩阵向量提供给神经网络209。

一个或多个计算机接收话语的受众是否可能指向自动辅助的指示(310)。例如，分类器服务器108包括神经网络209以处理连接的矩阵。具体地，神经网络209包括分类器210-A和另一个LSTM 210-B。分类器服务器108可以训练分类器210-A和LSTM 210-B以产生输出，该输出指示所获得的话语104的受众可能指向自动辅助服务器116。在一些实施方式中，使用先前由用户说出的查询示例以及未指向自动辅助服务器116的记录对话训练分类器210-A和B LSTM 210-B。

在一些实施方式中，分类器210-A和LSTM 210-B的输出可以包括所获得的话语的受众很可能指向自动辅助服务器116的指示。例如，该指示可以包括关于164单位向量的输出的受众有多大可能指向自动辅助服务器116的概率。在其他实施方式中，分类器210-A和LSTM 210B的输出共同地可以包括范围从0到100的得分。

一个或多个计算机基于与所接收的音频数据相对应的话语很可能指向自动辅助的指示来选择性地指示自动辅助(312)。例如，分类器服务器108在神经网络109的输出处包括西格玛211。西格玛211对由LSTM 210-B提供的每个输出求和。例如，对于通过神经网络209传播的每个话语，西格玛211接收每个164单位向量的输出概率或输出得分。西格玛211对神经网络209的每个输出概率或得分进行累加求和，直到西格玛211完整地处理所获得的话语104。

在一些实施方式中，西格玛211将最终输出概率或得分与预定阈值进行比较。如果西格玛211确定最终输出概率或得分超过预定阈值，则分类器服务器108指示所获得的话语104的受众很可能指向自动辅助服务器116的可能性。或者，如果最终的输出概率或得分低于预定阈值，则分类器服务器108指示所获得的话语104的受众很可能指向自动辅助服务器116的可能性。

在一些实施方式中，分类器服务器108可以从西格玛211的输出确定是否将所获得的话语104提供给自动辅助服务器116。例如，如果分类器服务器108确定最终输出概率或得分超过预定阈值，则分类器服务器108生成要提供给自动辅助服务器116的指令。该指令指示自动辅助服务器116处理所获得的话语104。分类器服务器108将所获得的话语104和所生成的指令封装为数据109，并将数据109发送到自动辅助服务器116进行处理。

可替代地，分类器服务器108可以确定最终输出概率或得分不超过预定阈值。作为响应，分类器服务器108可以从存储器中删除所获得的话语104，并继续等待直到下一个获得的话语。

图4示出了可用于实现本文描述的技术的计算设备400和移动计算设备450的示例。

计算设备400旨在代表各种形式的数字计算机，诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。移动计算设备450旨在代表各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能电话和其他类似的计算设备。此处显示的组件，它们的连接和关系以及它们的功能仅是示例，并不意味着限制。

计算设备400包括处理器402、存储器404、存储设备406、连接到存储器404的高速接口408和多个高速扩展端口410以及连接到低速扩展端口414和存储设备406的低速接口412。处理器402、存储器404、存储设备406、高速接口408、高速扩展端口410和低速接口412中的每一个，可以使用各种总线互连，并且可以安装在通用主板上，也可以通过其他合适的方式安装。处理器402可以处理用于在计算设备400内运行的指令，包括存储在存储器404中或存储在存储设备406上的指令，以在诸如与高速接口408耦合的显示器416的外部输入/输出设备上显示GUI的图形信息。在其他实施方式中，可以适当地使用多个处理器和/或多个总线，以及多个存储器和多种类型的存储器。而且，可以连接多个计算设备，每个设备提供必要操作的部分(例如，作为服务器库、一组刀片服务器或多处理器***)。

存储器404在计算设备400内存储信息。在一些实施方式中，存储器404是一个或多个易失性存储器单元。在一些实施方式中，存储器404是一个或多个非易失性存储器单元。存储器404还可以是另一种形式的计算机可读介质，诸如磁盘或光盘。

存储设备406能够为计算设备400提供大容量存储。在一些实施方式中，存储设备406可以是或包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备、磁带设备、闪存或其他类似的固态存储设备或设备阵列，包括存储区域网络中的设备或其他配置。指令可以被存储在信息载体中。在由一个或多个处理设备(例如，处理器402)运行时，该指令执行一种或多种方法，诸如上述方法。指令还可以由诸如计算机或机器可读介质的一个或多个存储设备(例如，存储器404、存储设备406或处理器402上的存储器)存储。

高速接口408管理计算设备400的带宽密集型操作，而低速接口412管理较低带宽密集型操作。这种功能分配仅是示例。在一些实施方式中，高速接口408耦合到存储器404、显示器416(例如，通过图形处理器或加速器)以及高速扩展端口410，其可以接受各种扩展卡(未示出)。在实施方式中，低速接口412耦合到存储设备406和低速扩展端口414。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口414可以例如通过网络适配器耦合到一个或多个输入/输出设备，诸如键盘、指点设备、扫描仪或诸如交换机或路由器的网络设备。

如图所示，可以以多种不同形式来实现计算设备400。例如，它可以被实现为标准服务器420，或者被实现为一组这样的服务器中的多倍。另外，它可以在诸如膝上型计算机422的个人计算机中实现。它也可以作为机架服务器***424的一部分实现。可替代地，来自计算设备400的组件可以与诸如移动计算设备450的移动设备中的其他组件(未显示)组合。每个这样的设备可以包含一个或多个计算设备400和移动计算设备450，并且整个***可以由彼此通信的多个计算设备组成。

除了其他组件之外，移动计算设备450包括处理器452、存储器464、诸如显示器454的输入/输出设备、通信接口466和收发器468。移动计算设备450还可以设置有存储设备，诸如微驱动或其他设备，以提供附加的存储。处理器452、存储器464、显示器454、通信接口466和收发器468中的每一个使用各种总线互连，并且一些组件可以安装在通用主板上或视情况以其他方式安装。

处理器452可以运行移动计算设备450内的指令，包括存储在存储器464中的指令。处理器452可以被实现为包括分离的以及多个模拟和数字处理器的芯片的芯片组。处理器452可以提供例如用于移动计算设备450的其他组件的协调，诸如对用户界面的控制、由移动计算设备450运行的应用以及由移动计算设备450进行的无线通信。

处理器452可以通过控制接口458和耦合到显示器454的显示接口456与用户进行通信。显示器454可以是例如TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器或其他合适的显示技术。显示接口456可以包括用于驱动显示器454以向用户呈现图形和其他信息的适当电路。控制接口458可以从用户接收命令并且将它们转换以提交给处理器452。此外，外部接口462可以提供与处理器452的通信，以便实现移动计算设备450与其他设备的近距离通信。外部接口462可以例如在一些实施方式中提供用于有线通信，或者在其他实施方式中提供用于无线通信，并且还可以使用多个接口。

存储器464将信息存储在移动计算设备450内。存储器464可以被实现为一个或多个计算机可读介质、一个或多个易失性存储单元、或一个或多个非易失性存储单元中的一个或多个。还可以提供扩展存储器474，并通过扩展接口472将其连接到移动计算设备450，扩展接口472可以包括例如SIMM(单列存储模块)卡接口。扩展存储器474可以为移动计算设备450提供额外的存储空间，或者还可以为移动计算设备450存储应用或其他信息。具体地，扩展存储器474可以包括用于执行或补充上述处理的指令，并且还可以包括安全信息。因此，例如，扩展存储器474可以被提供作为用于移动计算设备450的安全模块，并且可以用允许安全地使用移动计算设备450的指令来编程。此外，可以经由SIMM卡以及附加信息提供安全应用，诸如以不可破解的方式在SIMM卡上放置标识信息。

存储器可包括例如闪存和/或NVRAM存储器(非易失性随机存取存储器)，如下所述。在一些实施方式中，指令被存储在信息载体中，使得所述指令在由一个或多个处理设备(例如，处理器452)运行时执行一种或多种方法，诸如上述方法。指令还可以由一个或多个存储设备存储，诸如一个或多个计算机或机器可读介质(例如，存储器464、扩展存储器474或处理器452上的存储器)。在一些实施方式中，可以例如通过收发器468或外部接口462在传播的信号中接收指令。

移动计算设备450可以通过通信接口466进行无线通信，该通信接口在必要处可以包括数字信号处理电路。通信接口466可以提供各种模式或协议下的通信，诸如GSM语音呼叫(全球移动通信***)、SMS(短消息服务)、EMS(增强消息服务)或MMS消息(多媒体消息服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000或GPRS(通用分组无线业务)等等。例如，可以使用射频通过收发器468进行这种通信。另外，可以发生短距离通信，诸如使用蓝牙、WiFi或其他此类收发器(未示出)。另外，GPS(全球定位***)接收器模块470可以向移动计算设备450提供附加的导航和位置相关的无线数据，其可以适当地由运行在移动计算设备450上的应用程序使用。

移动计算设备450还可以使用音频编解码器460在听觉上进行通信，音频编解码器460可以从用户接收语音信息并将其转换为可用的数字信息。音频编解码器460同样可以诸如通过扬声器在移动计算设备450的听筒中为用户生成可听见的声音。这种声音可以包括来自语音电话呼叫的声音，可以包括记录的声音(例如，语音消息、音乐文件等)，并且还可以包括由在移动计算设备450上运行的应用程序生成的声音。

移动计算设备450可以以多种不同的形式实现，如图所示。例如，它可以被实现为蜂窝电话480。它也可以被实现为智能电话482、个人数字助理或其他类似移动设备的一部分。

这里描述的***和技术的各种实现可以在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现。这些各种实现方式可以包括在一个或多个计算机程序中的实现，该程序可以在包括至少一个可编程处理器的可编程***上运行和/或解释，该可编程处理器可以是专用的或通用的，其耦合以从存储***、至少一个输入设备和至少一个输出设备接收数据和指令以及向存储***、至少一个输入设备和至少一个输出设备发送数据和指令。

这些计算机程序(也称为程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令，并且可以以高级过程和/或面向对象的编程语言和/或以汇编/机器语言实现。如本文所使用的，术语机器可读介质和计算机可读介质是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如磁盘、光盘、存储器、可编程逻辑设备(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语机器可读信号是指用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，这里描述的***和技术可以在具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户可以提供对计算机的输入的键盘和指点设备(例如鼠标或轨迹球)的计算机上实现。其他种类的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈(例如，视觉反馈、听觉反馈或触觉反馈)；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。

这里描述的***和技术可以在包括后端组件(例如，作为数据服务器)，或者包括中间件组件(例如，应用服务器)，或者包括前端组件(例如，具有图形用户界面的客户端计算机或Web浏览器，用户可以通过该Web浏览器与本文描述的***和技术的实现进行交互)，或者此类后端、中间件或前端组件的任意组合的计算***中实现。***的组件可以通过数字数据通信的任何形式或介质(例如，通信网络)互连。通信网络的示例包括局域网(LAN)、广域网(WAN)和因特网。

计算***可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器之间的关系是通过在各自计算机上运行并彼此具有客户端-服务器关系的计算机程序生成的。

尽管上面已经详细描述了一些实施方式，然而其他修改也是可能的。例如，尽管客户端应用被描述为访问委托，然而在其他实施方式中，委托可以被由一个或多个处理器实现的其他应用所采用，诸如在一个或多个服务器上运行的应用。另外，附图中描绘的逻辑流程不需要所示的特定顺序或连续顺序来实现期望的结果。另外，可以从所描述的流程中提供其他动作，或者可以消除动作，并且可以向所描述的***添加其他组件或从所描述的***中删除其他组件。因此，其他实施方式在所附权利要求的范围内。

尽管本说明书包含许多特定的实施细节，然而这些不应被解释为对任何发明或所要求保护的范围的限制，而是对特定于特定发明的特定实施例的特征的描述。在单独的实施例的上下文中在本说明书中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征也可以分别在多个实施例中或以任何合适的子组合来实现。而且，尽管以上可以将特征描述为以某些组合起作用并且甚至最初是这样声称的，然而在某些情况下，可以从该组合中切除所要求保护的组合中的一个或多个特征，并且可以将所要求保护的组合用于子组合或子组合的变体。

类似地，尽管在附图中以特定顺序描绘了操作，然而这不应理解为要求以所示的特定顺序或以连续的顺序执行这样的操作，或者执行所有示出的操作以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中都需要这种分离，并且应当理解，所描述的程序组件和***通常可以被集成在单个软件产品或被封装成多个软件产品。

已经描述了本主题的特定实施例。其他实施例在所附权利要求的范围内。例如，权利要求中记载的动作可以以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或连续顺序来实现期望的结果。在某些实施方式中，多任务和并行处理可能是有利的。

Claims

1.一种计算机实现的方法，包括：

接收与话语相对应的音频数据；

获得话语的转录；

生成所述音频数据的表示；

生成所述话语的转录的表示；

向分类器提供(i)所述音频数据的表示和(ii)所述话语的转录的表示，所述分类器基于音频数据的给定表示和话语的转录的给定表示，被训练以输出关于与给定表示相关联的话语可能指向自动辅助还是可能不指向自动辅助的指示；

从所述分类器接收关于与所接收的音频数据相对应的话语可能指向自动辅助还是可能不指向自动辅助的指示；以及

至少基于关于与所接收的音频数据相对应的话语可能指向自动辅助还是可能不指向自动辅助的指示来选择性地指示自动辅助。

2.根据权利要求1所述的计算机实现的方法，其中，向所述分类器提供(i)所述音频数据的表示和(ii)所述话语的转录的表示，还包括：

生成(i)所述音频数据的表示与(ii)所述话语的表示之间的连接的输入表示；以及

将所述连接的输入表示提供给所述分类器。

3.根据权利要求2所述的计算机实现的方法，其中，生成(i)所述音频数据的表示与(ii)所述话语的转录的表示之间的连接的所述输入表示，还包括：

生成一个或多个数字向量，所述数字向量从在所述话语的转录的表示中识别出的一个或多个词转换而来；以及

生成包含所述一个或多个数字向量的数字向量矩阵，以提供给所述分类器。

4.根据前述权利要求中的任一项所述的计算机实现的方法，还包括：

在词嵌入模型处从语音识别器接收与所述话语相对应的可识别文本；

在所述词嵌入模型处从所述可识别的文本中生成所述话语的转录；以及

从所述词嵌入模型提供所述话语的转录到所述分类器。

5.根据权利要求4所述的计算机实现的方法，还包括：

由所述词嵌入模型的最大池化层提供包含嵌入单元的所述话语的转录；

由声学神经网络提供包含音频单元的所述音频数据的表示；

将所述嵌入单元和所述音频单元连接到表示单元输入；以及

提供所述表示单元输入作为对所述分类器的输入。

6.根据前述权利要求中的任一项所述的计算机实现的方法，其中，所述音频数据的表示包含声学梅尔频率倒谱系数MFCC值。

7.根据前述权利要求中的任一项所述的计算机实现的方法，其中，选择性地指示所述自动辅助，还包括：

当所述分类器提供关于与所接收的音频数据相对应的话语可能指向自动辅助的指示时，选择性地指示自动辅助处理话语；以及

当所述分类器提供关于与所接收的音频数据相对应的话语可能不指向自动辅助的指示时，选择性地指示自动辅助不处理话语。

8.根据权利要求7所述的计算机实现的方法，其中，当所述分类器提供关于与所接收的音频数据相对应的话语可能指向自动辅助的指示时，选择性地指示自动辅助处理话语，还包括：

从接收到可能指向自动辅助的音频数据开始，在预定的时间段内接收与附加话语相对应的附加音频数据。

9.根据前述权利要求中的任一项所述的计算机实现的方法，其中，所述分类器在通过网络与所述自动辅助进行通信的服务器上实现。

10.一种***，包括：

一个或多个计算机和存储指令的一个或多个存储设备，当所述指令由所述一个或多个计算机运行时，所述指令可操作使得所述一个或多个计算机执行包括以下的操作：

接收与话语相对应的音频数据；

获得所述话语的转录；

生成所述音频数据的表示；

生成所述话语的转录的表示；

向分类器提供(i)所述音频数据的表示和(ii)所述话语的转录的表示，所述分类器基于所述音频数据的给定表示和话语的转录的给定表示，被训练以输出关于与给定表示相关联的话语可能指向自动辅助还是可能不指向自动辅助的指示；

11.根据权利要求10所述的***，其中，向所述分类器提供(i)所述音频数据的表示和(ii)所述话语的转录的表示，还包括：

将所述连接的输入表示提供给所述分类器。

12.根据权利要求11所述的***，其中，生成(i)所述音频数据的表示与(ii)所述话语的转录的表示之间的连接的所述输入表示，还包括：

13.根据权利要求10至12中的任一项所述的***，还包括：

从所述词嵌入模型提供所述话语的转录到所述分类器。

14.根据权利要求13所述的***，还包括：

由声学神经网络提供包含音频单元的所述音频数据的表示；

将所述嵌入单元和所述音频单元连接到表示单元输入；以及

提供所述表示单元输入作为对所述分类器的输入。

15.根据权利要求10至14中的任一项所述的***，其中，所述音频数据的表示包含声学梅尔频率倒谱系数MFCC值。

16.根据权利要求10至15中的任一项所述的***，其中，选择性地指示所述自动辅助，还包括：

17.根据权利要求16所述的***，其中，当所述分类器提供关于与所接收的音频数据相对应的话语可能指向自动辅助的指示时，选择性地指示自动辅助处理话语，还包括：

18.根据权利要求10所述的***，其中，所述分类器在通过网络与所述自动辅助进行通信的服务器上实现。

19.一种存储软件的非暂时性计算机可读介质，所述软件包括可由一个或多个计算机运行的指令，所述指令在被运行时使得所述一个或多个计算机执行权利要求1至9中的任一项所述的方法。