CN105027194A

CN105027194A - 话语主题的识别

Info

Publication number: CN105027194A
Application number: CN201380067309.6A
Authority: CN
Inventors: 弗雷德·特勒克; 弗雷德里克·约翰·乔治·德拉马; 维克拉姆·库马尔·贡德蒂
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2012-12-20
Filing date: 2013-12-16
Publication date: 2015-11-04
Anticipated expiration: 2033-12-16
Also published as: WO2014099818A2; JP2016501391A; EP2936482B1; JP6272901B2; CN105027194B; US20150179175A1; US8977555B2; US20140180697A1; EP2936482A2; US9240187B2; WO2014099818A3; EP2936482A4

Abstract

公开了用于产生音频呈现的元素或其他部分的标记的特征，以使得语音处理***可确定用户话语提到音频呈现的哪个部分。例如，话语可包括没有明确的前述词的代词。标记可用于使话语与用于处理的相应内容部分相关联。标记可被提供到具有文本到语音(“TTS”)呈现的客户端设备。标记可接着连同由客户端设备采撷的用户话语一起被提供到语音处理***。可包括自动语音识别(“ASR”)模块和/或自然语言理解(“NLU”)模块的语音处理***可基于标记来产生提示。提示可被提供到ASR和/或NLU模块，以便帮助处理用户话语的含义或意图。

Description

话语主题的识别

背景

语音识别***包括用于从用户接收语音输入、确定用户说了什么并确定用户意思是什么的各种模块和部件。在一些实现中，语音处理***包括接收用户话语的音频输入并产生话语的一个或多个可能的录音的自动语音识别(“ASR”)模块。语音处理***也可包括接收输入例如用户话语的录音并以可按照行事的方式例如通过计算机应用来确定输入的含义的自然语言理解(“NLU”)模块。例如，移动电话的用户可以讲口头命令以发起电话呼叫。口头命令的音频可由ASR模块录音，且NLU模块可从录音确定用户的意图(例如用户想要发起电话呼叫特征)并发起电话呼叫。

文本到语音(“TTS”)***使用有时被称为语音合成的流程将文本转换成声音。在一般实现中，TTS***可接收输入，例如文本和/或语音合成标记语言(“SSM”)数据，并向用户提供输入的音频呈现。例如，TTS***可配置来向用户“读”文本，例如电子邮件的文本或提醒的列表。

一些***合并语音识别和TTS。例如，全球定位***(“GPS”)可接收关于特定地址的用户的口头输入，产生用于行进到该地址的指示，并将指示听觉地呈现给用户。在很多情况下，用户可接着继续与这样的***交互，同时接收指示。在GPS***提供下一指示或指示系列之后，用户可使用任何数量的预定命令中的一个(例如，“取消路线”、“下一转弯”)。此外，其他非口头用户交互可用于与听觉地呈现的内容交互。例如，可经由允许用户选择的触摸屏显示器、经由触摸屏或键盘、要绕过的特定路线来显示逐个转弯指示。

附图简述

现在将参考下面的附图描述各种创造性特征的实施方案。在全部附图中，参考数字可再次用于指示在所提及的元件之间的对应性。附图被提供以示出本文所述的示例性实施方案且并不旨在限制本公开的范围。

图1是示出在语音服务、客户端设备和用户之间的说明***互的说明性联网环境的方框图，其中语音服务可被实现。

图2A是示出在音频呈现和标识符的产生期间在各种模块和数据存储器之间的交互的说明性语音服务的方框图。

图2B是示出在用户话语的处理期间在各种模块之间的交互的说明性语音服务的方框图。

图3是用于管理音频呈现的产生和传输并用于处理与音频呈现的交互的说明性流程的流程图。

图4是用于呈现所产生的音频呈现并用于传输关于音频呈现的部分的用户话语的说明性流程的流程图。

图5是用于处理可应用于多个活动音频呈现中的一个的话语的说明性流程的流程图。

详细描述

介绍

大体上来讲，本公开涉及促进与音频内容的口头用户交互。语音处理***可从口头话语确定录音和用户意图。用户可发出口头命令，且语音处理***可使用自动语音识别(“ASR”)和自然语言处理(“NLU”)***来确定用户想要做什么并自动执行相应的行动。然而，语音处理***解决模棱两可或识别回指词(例如代词)主题而不向用户提醒额外的信息可能很难。这在用户发出不遵循预定格式的口头命令时特别正确，该预定格式具体地识别该命令适用的主题。

例如，任务的列表可通过文本到语音(“TTS”)***呈现给用户。TTS***可通过合成语音来以音频格式输出文本内容。TTS***可使用诸如单元选择(其中所记录的语音的单元连接在一起)的技术和参数技术(其中参数模型和/或隐马尔可夫模型被使用)来合成语音。当特定的任务可听得见地呈现给用户时或在其后不久，用户可能希望将该任务标记为完成。在一些语音处理***中，在发出口头命令以将特定的任务标记为完成之前，用户可能被要求等待，直到任务或整个列表被呈现为止。在其他***中，用户可暂停或中断列表的呈现以发出命令。在这些和其他情况下，用户可能被要求具体地指示将要标记为完成的特定的任务。例如，用户可以说“将第二任务标记为完成”或“将‘支付帐单’标记为完成”。在又一些其他***中，用户可经由键入的或触摸屏输入将任务标记为完成，例如任务列表(或任何其他TTS输出的视觉表示)在列表的音频呈现期间呈现在显示器上的情况。

本公开的方面涉及产生音频呈现例如TTS呈现的元素或其他部分的标识符或其他标记。也被称为语音服务的语音处理***可使用标记来在用户发出口头命令或在播放期间产生一些其他话语时确定用户正提到呈现的哪个部分。标记可传输到具有TTS呈现的客户端设备。当客户端设备的用户在TTS播放期间发出口头命令时，正被播放的TTS呈现的特定元素或部分的标记可连同用户话语一起被提供到语音服务。以这种方式，语音服务可更容易确定口头命令的主题或焦点而不向用户提醒额外的信息。例如，在提醒的列表的音频呈现期间，对“支付帐单”的提醒可被呈现给用户。用户可以说“那一个完成了”。如果语音设备不知道哪个特定的提醒在用户说“那一个完成了”时正被呈现给用户，则语音服务可能不能够确定命令适用于哪个提醒。在这样的情况下，很多语音服务提醒用户指定用户正提到哪个提醒，或完全重新以语音服务可理解的格式发出命令。然而，通过在用户发出口头命令时给语音服务提供正被呈现的提醒的标记(例如“reminderID＝0002”或“提醒：支付帐单”)，语音服务可处理口头命令而不要求额外的信息。

虽然在本公开中描述的实施方案聚焦于标记的使用以指示列表中的项目，但是实施方案仅仅是说明性的且并不旨在做出限制。标记的使用可应用于音频呈现的任何部分。例如，当音频呈现是来自书(例如音频书)的章节而不是列表时，标记可提供用于解释用户话语并解析回指词的上下文。语音处理***可使语音标记与在音频书中提到的人物名字或地点相关联。作为另一实例，当音频呈现是商业新闻时，语音标记可与公司名称或股票报价相关联。语音处理***的部件可识别出该部分是列表项目还是一些其他类型的部分。然而，在一些实施方案中，语音处理***可能不知道与标记相关联的一部分是否是列表项目。

本公开的额外方面涉及在用户设备上目前可以是活动的几个应用或音频呈现当中确定当用户发出口头命令时用户正提到哪个应用或音频呈现。一些用户设备例如移动电话或平板计算机可配置来同时呈现多个音频节目(例如播放歌曲和文本内容项目的单独TTS呈现)。在这样的情况下，在当前呈现的多个音频项目中确定当用户发出口头命令时用户正提到哪个项目可能是必要的。例如，用户可能正使用移动设备来听音乐并同时执行其他任务，例如与提醒的列表交互。移动电话可在降低的音量下继续音乐的播放，同时也播放关于提醒的信息的TTS呈现。用户可发出口头命令，例如“买那首歌”。除了用户话语“买那首歌”以外，移动设备还可将数据传输到关于正播放的当前歌曲以及还有当用户发出口头命令时正呈现的当前提醒的语音服务。语音服务可接着从话语和关于在说话时在电话上活动的两个音频呈现的数据来确定话语提到歌曲并包括买歌曲的命令。如果用户替代地说“那一个完成了”，则语音服务可确定用户正提到提醒而不是歌曲。以这种方式，用户可使用口头命令来以自然方式与用户设备交互，同时处理多重任务，而不明确通知设备关于口头命令适用于哪个音频节目。

虽然在本公开中描述的实施方案的方面为了说明的目的将聚焦于经由网络与单独的客户端设备交换TTS音频、话语音频和标识符数据的语音服务，但是本领域中的技术人员将认识到，本文公开的技术可应用于任何数量的软件流程或应用。例如，客户端设备可包括语音识别引擎并提供用于处理用户话语并确定用户正提到那些部分或呈现的在本文所述的特征。作为另一实例，标识符可与非TTS音频(例如直播或录制的音频而不是合成语音)相关联。现在将关于旨在说明而不是限制本公开的某些实例和实施方案描述本公开的各种方面。

参考说明性实例，用户可向客户端设备例如移动电话或平板计算机发出口头命令或以其他方式产生口头话语。客户端设备可将关于用户的话语的数据传输到网络可访问的语音服务，其使用ASR模块来处理话语并录音用户说的话。语音服务可使用NLU模块来基于来自ASR模块的录音确定用户想要做出什么行动和可选地基于以前的用户交互或其他数据确定一个或多个提示。此外，语音服务可使用TTS模块来产生用户可消费或用户可使用来交互的合成语音。

说明性地，用户可向移动电话或其他客户端设备发出口头命令，例如“给我读我的任务列表”。客户端设备可经由蜂窝电话网络、互联网或一些其他网络将用户话语传输到语音服务。语音服务的ASR模块可接收用户话语的音频输入并输出录音“给我读我的任务列表”。NLU模块可接收录音并确定用户希望接收用户的任务列表的音频呈现。应用(例如任务列表应用)可用来检索或产生用户的任务列表。可创建包含或提及用户的任务列表的提示用于在随后的用户话语的处理期间由语音服务的各种模块使用。例如，提示可包括用户的任务列表的全文、可用于从数据存储器检索任务列表的任务列表的标识符、在数据存储器中的任务列表的指针等。这样的提示可帮助ASR模块、NLU模块和其他部件处理随后的用户话语，因为随后的用户话语可能适用于所请求的内容(在这种情况下，用户的任务列表)。

TTS模块可接着准备用户的任务列表的音频呈现。此外，关于列表的每个元素的数据可嵌入音频呈现中或与音频呈现相关联，以使得用户设备和语音服务可轻易地确定任务列表的哪个元素在给定的时间正被呈现。例如，标记(例如，包含标识符连同上下文信息的标记)可***指示列表的元素1的开始的数据流中，而第二标记可被***以指示元素1的末尾或元素2的开始，依次类推。在一些实施方案中，标记可包括在音频数据流中或以一些其他方式与元素相关联。例如，可为标记创建单独的数据流，且两个流(例如，一个流用于音频而第二流用于标记)可同步或以其他方式被交叉引用，以使得对应于音频流的特定部分的标记可轻易地被确定。

数据流(包括音频和标记)可传输到向用户呈现音频的客户端设备。当列表元素或音频的一些其他部分被呈现时，相应的标记可传输回到语音服务，以使得语音服务可知道哪个部分已被呈现、它们何时被呈现的等。例如，用户设备可建立或维持到语音服务的上游连接。当对应的音频部分被呈现时，对应于音频的部分的标记(例如，音频中的项目或元素的标识符)可传输到语音服务。在一些实施方案中，每个元素的呈现的开始时间和结束时间可与标记一起传输或除了标记以外也被传输。当在用户的任务列表的呈现期间的用户话语被用户讲出时，它们也可传输到语音服务。因为语音服务已接收到标记，所以它可基于关于元素的话语可能在元素被呈现的同时或在其后不久被接收到的假设来确定话语可能适用于哪个或哪些元素。因此，语音服务可更新以前创建的提示以包括最后接收的标记或可能指示话语适用的元素的标记。在一些实施方案中，定时信息，例如在用户话语的开始和每个标记的接收之间的时间的量，可包括在提示中。现在包括整个列表和标记的提示可被提供到NLU模块，以使得NLU模块可更准确地确定用户的意图。

例如，任务列表的前两个项目的音频可呈现给用户(例如，“到杂货店购物”、“支付帐单”)。当每个项目的标识符或其他标记(例如，“项目1”、“项目2”)被遇到时或当对应的元素在音频的播放期间由客户端设备的呈现模块呈现时，它们可传输到语音服务。在任务“支付帐单”的音频被呈现之后不久，用户可以说“那一个完成了”。在一些情况下当用户正讲话时，用户的话语的音频可传输到语音服务。在语音服务时，可为语音服务所接收的最后一个标识符更新或创建提示，该语音服务对应于在用户话语(在本实例中，“支付帐单”)之前或期间呈现的项目。使用用户话语的录音和包含任务列表和标识符“项目2”的提示，NLU模块可确定来自话语的短语“那一个”正提到任务列表(“支付帐单”)的第二项。此外，NLU模块可确定词“完成”指示任务已完成。作为结果，应用(例如任务列表应用)可被执行或使用以将用户的任务列表的第二项目标记为完成。

在一些情况下，用户可以提到多于一个元素，例如“将它们都标记为完成”或“前两个完成了”。使用提示，NLU可确定用户正提到哪个项目以及用户想要以与上面描述的方式类似的方式执行什么行动。例如，因为NLU从所产生的初始提示访问整个任务列表，NLU可确定哪个元素对应于“前两个”以及短语“完成了”意味着用户想要将前两个元素中的每个标记为完成。

语音服务可使特定元素的提示基于前面的元素的标识符，而不是当用户发出口头命令时正呈现的元素。例如，用户可以不发出口头命令来将项目标记为完成直到项目的TTS音频已完成播放之后和，在一些情况下，随后的项目的TTS音频开始之后。当例如项目的TTS音频相当短(例如，“支付帐单”)且用户没有时间来决定在下一项目的音频被播放之前是否发出口头命令时，这样的情形可发生。在这样的情况下，自从新标识符被遇到以来过去的时间的量可由客户端设备或由语音服务跟踪。如果用户在新标识符被遇到之后的一段阈值时间段(例如100ms、500ms等)内开始话语，语音服务可基于前面的标识符而不是最近遇到的标识符来产生提示。

在一些实施方案中，客户端设备不在客户端设备处的TTS呈现的整个播放中建立或维持到语音服务的上游音频连接。替代地，客户端设备只在有要发送的用户话语时才将数据传输回到语音服务。在这样的情况下，客户端设备可跟踪哪些标识符已被遇到以及它们何时被遇到的。客户端设备可接着在用户产生话语时将最近遇到的标识符和定时信息发送到语音服务。语音服务可接着仍然产生并使用关于标识符的提示。

在一些实施方案中，用户可消费一种类型的音频内容，同时也听其他内容的TTS呈现。例如，用户可以正在听歌曲，同时也正在听用户的电子邮件消息的TTS呈现。除了识别TTS呈现的特定消息的数据以外，客户端设备还可向语音服务传输识别正播放的特定歌曲的数据。当用户发出口头命令时，语音服务可创建多个提示或单个复合提示，指示在话语被讲出的时间在用户设备上活动的该两个音频节目。当语音服务的NLU模块处理用户的话语(例如，“这首歌的名称是什么？”)时，活动音频呈现中的每个可被考虑。在本实例中，NLU可确定话语与正被播放的歌曲相关，特别是也被呈现的电子邮件消息是否与音乐无关。如果用户的话语是“下一消息”，则NLU可确定话语与电子邮件而不是音乐的呈现有关，且应用可被执行以在适当时执行一个或多个行动(例如，检索下一消息并促使消息的TTS呈现被发送到用户设备)。

在一些实施方案中，如上所述，语音服务可在没有NLU模块或提示的帮助下处理用户话语。更确切地，应用或一些其他模块可在处理话语时使话语的部分与标记相关联。例如，ASR模块可返回具有嵌入式标记的结果(1最佳、N最佳或点阵)，嵌入式标记已被发送到具有TTS呈现的客户端设备并接着在用户讲话时返回到语音处理***。在这样的情况下，应用可在没有NLU模块的帮助下确定用户话语适用于TTS呈现的哪些部分。

分布式ASR***环境

在详细描述用于产生并使用音频内容标识符的流程的实施方案之前，将描述几个说明***互和示例环境，其中流程可被实现。图1示出在语音服务100、客户端设备102和用户200之间的说明***互。语音服务100可以是经由通信网络，例如蜂窝电话网络或互联网，与客户端设备102通信的网络可访问的***。用户200可使用客户端设备来得到信息并以其他方式消费内容。例如，如上所述，200可访问客户端设备102以听用户200的任务列表。

语音服务100可在(A)产生用户200的任务列表的TTS呈现。除了对应于在任务列表中的每个元素的合成语音之外，传输到客户端设备102的数据流也可包括通常列表的每个元素的标识符等。如在图1中所看到的，数据流可包括在合成语音的每个部分之间的标识符。例如，“开始元素1”和“结束元素1”标识符可围绕任务列表的元素1的音频。在一些情况下，不是都有开始和结束标识符，可以只有表示元素的开始、元素的结束或从一个元素到另一元素的转变的一个标识符。

在一些实施方案中，标识符可在同一数据流内或在单独的数据流中从音频单独地被传输。例如，可包括音频数据和元数据，例如Matroska、移动图片专家组-4部分14(“MP4”)或Ogg文件格式，的容器文件格式可用于传输音频数据和还有标识符数据作为单个数据流的单独部分。在这样的情况下，标识符数据可通过指针的使用与音频数据的特定部分、标识符适用于的时间段等相关联。作为另一实例，音频呈现可作为任何适当地格式化的音频流被传输，而标识符可在单独的物理或逻辑数据流中(例如，与音频并行地或与音频内一起被***)被传输，以使得客户端设备102可使每个标识符与音频流的对应部分相关联。在这样的情况下，标识符数据可显式地(例如，通过规定在标识符适用于的音频呈现内的特定时间段)或隐式地(例如通过合成传输)与音频呈现的特定部分相关联。

在一些实施方案中，音频呈现的单独元件可作为分立的传输而不是单个连续数据流的部分被传输。例如，任务列表的第一元素可作为与第二元素分离的单独音频传输而被传输，依此类推。在这样的情况下，标识符可使用上面描述的任何技术与音频数据一起或一道被传输。

客户端设备102可在(B)播放音频呈现。除了播放音频呈现以外，客户端设备102还可保存当前正被呈现的部分或元素的标识符，以使得如果用户话语被接收到，标识符可被传输到语音服务100。例如，音频呈现可包括任何数量的单独元素或其他部分，例如列表(例如，提醒、任务、消息、搜索结果等)。当每个元素被呈现且标识符被遇到时，标识符可被存储，以使得如果用户200发出语音命令标识符可传输到语音服务100。

用户200可在(C)发出口头命令，例如“那一个完成了”—如果任务或提醒的列表被呈现，“删除那一个”—如果消息或其他项目的列表被呈现，或“转到那一个”—如果搜索结果的列表被呈现。当接收到话语时，客户端设备102可在(D)访问所存储的标识符并传输用户话语和标识符(或多个标识符，如果多个标识符用于指示元素)。如在图1中所看到的，从客户端设备102到语音服务100的传输可包括最初从语音服务100接收的相同标识符和关于当元素被呈现时用户200所讲的用户话语的音频或其他数据。

在一些情况中，可建立或维持到语音服务100的上游连接，且当音频的对应部分被呈现时或当标识符被遇到时每个标识符(或其子集)可被传输到语音服务100。例如最初从语音服务100接收的每个标识符可在对应元素的呈现之前或期间返回到语音服务100。使用在图1中从语音服务100接收的示例性数据流，在用户200的话语被传输之前，在播放期间返回到语音服务100的数据流可包括“开始列表”、“开始元素1”、“结束元素1”和“开始元素2”标识符。

在(E)，语言服务100可处理从客户端设备102接收的数据以确定用户200说了什么、用户200想要发起什么命令或其他行动以及用户200在说话时正提到哪个元素。如下面更详细描述的，语音服务100可使用从客户端设备102返回的一个或多个标识符来产生NLU模块的提示。NLU模块可使用该提示，且在一些情况下也可使用其他提示，以便确定用户的意图。

现在转到图2A和2B，示出了包括客户端设备102、网络120和语音服务100的说明性网络环境。语音服务100可包括任何数量的模块和部件，例如配器104、TTS模块106、ASR模块108、NLU模块110、数据存储器112和一个或多个应用114。

客户端设备102可对应于各种各样的电子设备。在一些实施方案中，客户端设备102可以是移动设备，其包括一个或多个处理器和可包含由处理器执行的软件应用的存储器。客户端设备102可包括扬声器或用于呈现音频内容或促进音频内容的呈现的其他音频输出部件。此外，客户端设备102可包含麦克风或用于接受语音输入的其他音频输入部件，在所述音频输入部件上执行语音识别。说明性地，客户端设备102可以是移动电话、个人数字助理(“PDA”)、移动游戏设备、媒体播放器、电子书阅读器、平板计算机、膝上型计算机等。客户端设备102的软件可包括用于通过无线通信网络或直接使用其他计算设备建立通信的部件。

语音服务100可以是配置来经由通信网络进行通信的任何计算***。例如，语音服务100可包括任何数量的服务器计算设备、桌上型计算设备、大型计算机等。在一些实施方案中，语音服务100可包括物理地或逻辑地集中在一起的几个设备，例如配置来对话语执行语音识别的应用服务器计算设备和配置来存储记录和语音识别模型的数据库服务器计算设备。

在一些实施方案中，语音服务100可包括在单个设备上组合的各种模块和部件、单个模块或部件的多个实例等。例如，语音服务100可包括单独的配器104服务器、配置有TTS模块106的服务器或一组服务器、配置有ASR 108、NLU 110和应用114模块的服务器或一组服务器、以及配置来用作数据存储器112的服务器或一组服务器。在多设备实现中，语音服务100的各种设备可经由内部通信网络，例如被配置为局域网(“LAN”)或广域网(“WAN”)的公司或大学网络，进行通信。在一些情况下，语音服务100的设备可通过外部网络，例如互联网或内部和外部网络的组合，进行通信。

在一些实施方案中，由语音服务100提供的特征和服务可被实现为经由通信网络120可消费的web服务。在另外的实施方案中，语音服务100由在托管式计算环境中实现的一个或多个虚拟机提供。托管式计算环境可包括一个或多个快速提供和释放的计算资源，所述计算资源可包括计算、联网和/或存储设备。托管式计算环境也可被称为云计算环境。

网络120可以是可能由各种不同的方操作的链接网络的公共可访问的网络，例如互联网。在其他实施方案中，网络120可包括专用网络、个人区域网(“PAN”)、LAN、WAN、有线网络、卫星网络等或其一些组合，每个具有到和/或来自互联网的访问。例如，语音服务100的设备可位于单个数据中心内，并可经由如上所述的专用网络进行通信。客户端设备102可经由互联网与语音服务100通信。客户端设备102可经由有线或WiFi连接或经由蜂窝电话网络(例如，长期演进或LTE网络)来访问互联网。

参考图2A，如上所述，客户端设备102可请求内容的呈现。该请求可以是经由网络120传输到语音服务100的用户话语。配器104可将该请求按规定路线发送到ASR模块108以被处理成录音。录音可接着被提供到NLU模块110以确定请求的细节并执行或以其他方式利用应用114来满足请求。在一些实施方案中，语音服务100可包括多个应用114，例如管理用户任务列表的应用、管理用户提醒的单独应用、管理产品的购物搜索的单独应用等。可基于由NLU模块110确定的用户意图来选择请求的适当应用114。例如，如果已请求用户来听用户的任务列表，则可执行任务列表应用114。

应用114或配器104可产生包括或提及所请求的内容的提示，以使得可参考在话语被产生的时间呈现的内容来处理未来的话语。应用114可从数据存储器112检索所请求的内容，并经由配器104利用TTS模块106来产生内容的音频呈现。TTS模块106、配器104或语音服务100的一些其他模块或部件也可产生或得到音频呈现的各种部分或元素的标识符，并准备到包括音频和标识符的客户端设备102的传输。

现在参考图2B，客户端设备102可向用户呈现内容。客户端设备102可建立或维持回到语音服务100的开放连接，以使得当用户产生话语时，话语可被立即传输到语音服务100，而没有通常与连接的建立相关联的延迟。在一些实施方式中，由客户端设备102采撷的数据的实质上实时的流可被传输到语音服务100，以使得客户端设备102不需要确定用户何时正发出口头命令或其他话语。除了音频以外，当标识符在从语音服务100接收的数据流中被遇到时或当音频的相应元素或部分被呈现给用户时，它们可被传输到语音服务100。

客户端设备102的用户可发出被传输到语音服务100的口头命令连同当话语被产生时在客户端设备102上呈现的元素或部分的标识符。语音服务100可从客户端设备102接收标识符和包含用户话语的音频。配器104可基于标识符中的一个或多个，例如在接收到包含用户话语的音频之前接收到的最近的标识符，来准备提示。例如，配器104可更新结合音频呈现的产生而准备的提示，如上所述。话语和提示可被提供到ASR模块108用于处理成录音。ASR模块108可使用提示来使它的搜索空间变窄，关于搜索空间的词可包括在话语中，因为该话语包括与在该话语产生时呈现给用户的内容类似或以其他方式相关的语言的可能性会增加。

由ASR产生的录音(或可能的录音的N最佳列表或ASR结果的点阵)可接着连同提示一起被提供到NLU模块110。话语的录音可包括代词和其他回指词而没有相应的前述词。NLU模块110确定正被提到的主题或对象可能很难。通过使用提示，NLU模块110可访问特定的内容项目和当用户产生话语时呈现给用户的具体元素或部分。因此，NLU模块110可以以极大的置信度确定话语的主题并相应地处理话语以确定用户的意图。基于如NLU模块110所确定的用户意图，适当的应用114可被执行或利用以产生对话语的响应或执行一些行动。

用于管理标识符的产生和使用的流程

现在参考图3，将描述用于管理标识符的产生和使用以便从话语确定用户意图的范例流程300。有利地，语音服务100可使用流程300来使标识符与音频内容的元素或其他部分相关联。语音服务100可接着使用那些标识符来确定当用户在音频内容的播放期间提交话语时用户正提到哪个元素或内容部分。

流程300在方框302开始。当语音识别会话发起时，流程300可自动开始。流程300可体现在存储在语音服务100，例如配器104，的计算***的计算机可读介质，例如一个或多个磁盘驱动器，上的一组可执行程序指令中。当流程300被发起时，可执行程序指令可被装入存储器，例如RAM，中，并由计算***的一个或多个处理器执行。

在方框304，语音服务100可从客户端设备102接收请求。如上所述，请求可以是用于播放内容，例如任务列表、消息收件箱等，的口头命令。在方框306，语音服务100可响应于请求和用于与该请求相关的进一步处理的提示来产生文本。例如，ASR模块108可产生口头命令的可能录音的N最佳列表，且NLU模块110可从可能的录音确定用户的意图。基于用户的意图，应用114可响应于请求(例如，项目的列表)和用于与该请求相关的进一步处理的提示来产生音频呈现的文本。提示可包括或提到所请求的内容。例如，如果请求是针对用户的提醒的列表，则可产生指示用户的提醒正被呈现的提示，且在一些情况下，提示可包括提醒列表或关于列表的数据。

在方框308，TTS模块106可从文本产生音频呈现用于在客户端设备102上播放。此外，TTS模块106或语音服务100的一些其他部件可产生对应于单独的元素、项目或响应的其他部分的标识符。在一些实施方案中，可从语音服务100分离的应用或其他模块或部件可产生在流程300中使用的标识符或其他标记。

在方框310，配器104可将TTS呈现和标识符传输到客户端设备102。标识符可嵌入在单个数据流中的TTS呈现的音频中(例如，以容器文件或流格式与音频包括在一起)或与响应的音频部分并行地传输。

在决策方框312，配器104可确定话语是否从客户端设备102被接收到。如果没有接收到，则流程300可继续进行到方框314，其中配器104等待接收来自客户端设备102的话语。在一些情况下，关于标识符的数据可被接收作为在客户端设备102上在播放期间被遇到或呈现的标识符或相应的响应部分。响应于接收到来自客户端设备102的话语，流程300可继续进行到方框316。

在方框316，配器104(或一些其他部件)可，例如通过包括与用户话语一起接收的标识符、紧接着在用户话语之前等，更新对当前请求的提示。例如，元素“2”的标识符可由配器104接收，后面是元素“3”的标识符，且其后不久(例如，250ms以后)是用户话语。如果在随后的标识符(元素“3”)和话语的接收之间的时间段在阈值内，配器104可产生并更新指示话语可能适用于元素“2”的提示。在这种情况下，如果阈值小于250ms，则配器104可产生指示元素“2”是话语最可能适用于的元素的提示。然而，如果阈值大于250ms，则配器104可产生指示话语最可能适用于元素“3”的提示。在一些情况下，提示可指示这两个元素和/或包括关于最后一个标识符或每个标识符被接收的时间的数据，以使得NLU模块110可选择最可能的元素。在一些情况下，提示可指示内容项目的所有元素，到现在为止这些元素的标识符已被接收到。在一些情况下，配器104或语音服务100的一些其他部件可能无法确定话语适用于的元素或内容部分。在这样的情况下，提醒可产生并传输给用户以请求澄清。

可经由计划性流程呼叫(例如，作为辩论)、经由在流程中传递的消息、经由存储在数据存储器112中并从数据存储器112检索的数据或用于在模块当中或在多设备实现中在设备当中传输数据的任何其他适当的手段将提示提供到语音服务100的各种模块。

在方框318，ASR模块108可得到话语音频并可使用提示来产生话语的录音或录音的N最佳列表。如上所述，提示的使用可帮助使ASR模块108的搜索空间变窄，允许它提供更快和/或更准确的录音。

在方框320，NLU模块110可使用提示来确定用户的话语的含义。例如，用户可已经发出口头命令以添加、编辑或删除列表元素，将任务或提醒标记为完成，购买在产品搜索中返回的项目等等。然而，话语可以不具体地指示命令适用于哪个元素。使用提示，NLU模块110可分析在用户发出口头命令时或刚好之前呈现的特定元素。如果命令在特定元素的上下文中有意义(例如，在产品被呈现时“购买那个”命令被发出)，则NLU模块110可基于特定的元素来确定用户的意图。

基于如NLU模块110所确定的用户意图，应用114可在方框322被执行或利用以产生响应或执行行动。如果用户意图在特定元素的上下文中没有意义(例如，NLU模块110确定用户意图是购买产品，但是“支付帐单”提醒被呈现)，则配器104或应用114可产生澄清的提醒或促使澄清的提醒产生并传输到客户端设备102。

如上所述，在一些情况下，话语可适用于音频呈现的多于一个元素或部分。例如，当被呈现有歌曲的播放列表时，用户可发出口头命令以“买前两个”或“买它们全部”。在这样的情况下，关于所呈现的最后一个项目的提示可以比在方框306中产生的关于作为整体的内容的提示更不重要。因为这两个提示都可被提供到NLU模块110，NLU模块110仍然可确定要采取的适当行动。例如，“都买它们全部”在关于单个歌曲标题的元素提示的上下文中将没有意义。在这样的情况下，NLU模块110可接着分析内容提示以确定命令是否是可行动的。在本实例中，如果内容提示指示歌曲标题的播放列表，则命令可能确实是可行动的，而不要求来自用户的额外信息。应用114可接着得到在播放列表中的每个歌曲标题，并开始购买在播放列表中的歌曲的流程。

用于传输话语和标识符的流程

现在转到图4，将描述用于呈现音频内容并处理用户与客户端设备102上的内容的交互的范例流程400。有利地，流程400可用于解析或以其他方式得到来自在客户端设备102接收的数据的标识符，并将适用于当前正呈现的内容的部分的标识符传输到语音服务100。当用户话语被接收到时，它可传输到语音服务100，以使得语音服务100可确定当用户话语被接收到时内容的哪个部分或元素被呈现。

流程400在方框402开始。流程400可在客户端设备102加电时或在用户发起流程400时，例如通过发出口头命令，来自动开始。流程400可体现在存储在客户端设备102的计算机可读介质，例如一个或多个磁盘驱动器，上的一组可执行程序指令中。当流程400被发起时，可执行程序指令可被装入存储器，例如RAM，中并由计算***的一个或多个处理器执行。

在方框404，客户端设备102可将从用户接收的话语传输到语音服务100。在一个实例中，话语可包括口头命令以得到内容的TTS呈现。在方框406，可接收所请求的音频内容。除了音频内容以外，也可接收关于内容的元素或其他部分的标识符。如上所述，标识符可与音频一起包括在单个数据流中，或它们可被单独地接收。在一些实施方案中，内容项目在没有用户的口头请求的情况下被接收。例如，用户可使用触摸屏或键入的输入来请求内容。作为另一实例，提醒可被自动传输到客户端设备而没有任何用户交互。

在方框408，客户端设备102可播放所接收的音频。在实质上相同的时间或不久之前或其后，客户端设备102可开始将音频流传输回到语音服务100。在音频呈现在客户端设备102上呈现的大约相同的时间回到语音服务100的音频流的发起可允许用户话语实质上实时地传输到语音服务100，而没有与打开连接或以其他方式发起音频到语音服务100的传送相关联的开销或延迟。

在决策方框410，客户端设备102可确定正播放的音频的元素或部分是否对应于标识符或与标识符相关联。如果是，则流程400可继续进行到方框412，其中客户端设备102将标识符传输到语音服务100。在一些情况下，客户端设备102不传输标识符，除非话语被接收到。在这样的情况下，标识符可被临时存储(例如，在应用可变或临时数据存储器中)，直到话语被接收到或另一标识符被遇到为止。

如果没有遇到标识符，则流程400继续进行到决策方框414。在决策方框414，客户端设备102可确定音频的播放是否完成。如果没有完成，则流程400可返回到方框408，其中播放继续。如果播放已完成，则流程400可终止。

用于识别话语适用于的音频的流程

图5示出用于在话语可适用于多个活动的音频呈现中的一个时处理从客户端设备102接收的用户话语的范例流程500。有利地，流程500可用于处理关于在客户端设备102上活动的多个音频呈现的数据并产生关于音频呈现的提示。NLU模块110或语音服务100的一些其他模块或部件可根据提示来处理话语，并当用户产生话语时确定用户打算使口头命令或其他口头交互适用于哪个音频呈现。

流程500在方框502开始。流程500可在语音识别会话通过客户端设备102发起时或在从客户端设备102接收到话语时自动开始。流程500可体现在存储在与语音服务100相关联的计算设备的计算机可读介质，例如一个或多个磁盘驱动器，上的一组可执行程序指令中。当流程500被发起时，可执行程序指令可装入存储器，例如RAM，中并由计算***的一个或多个处理器执行。

在方框504，语音服务100可从客户端设备102接收用户话语(或关于话语的数据)。此外，语音服务100可在话语被产生时接收关于在客户端设备102上活动的视频呈现的数据。例如，客户端设备102可正在播放音乐并且也可同时正在播放TTS呈现。用户话语可适用于任一个音频呈现。为了促进确定话语适用于哪个音频呈现，客户端设备102可将关于每个音频呈现的数据传输到SR服务器100。如上面更详细描述的，数据可包括与音频呈现中的一个或多个的部分或元素相关联的标识符。在这样的情况下，数据也可指示标识符适用于哪个呈现。可替代地，数据整体上可包括识别音频呈现的一般数据。

在一些实施方案中，SR服务器100可能知道哪些音频呈现当前在客户端设备102上是活动的，而不从客户端设备102接收数据。例如，如果用户通过向语音服务100发出口头命令来发起音频呈现(例如，音乐和TTS呈现)中的任一个或两个，则语音服务100可维持识别用户发起的音频呈现的数据。

在方框506，配器104或语音服务100的一些其他模块或部件可从关于活动呈现的数据产生一个或多个提示，类似于上面描述的提示的产生。在方框508，话语和提示可被提供到ASR模块106，其处理话语以产生录音或可能的录音的点阵或N最佳列表。

在方框510，NLU模块110可识别或以其他方式确定话语适用于的活动呈现。例如，录音可指示用户说“买那首歌”。如果在方框506产生或以其他方式提供到NLU模块110的提示指示在客户端设备102上活动的音频呈现包括歌曲的播放和TTS呈现(例如，任务列表)的播放，则NLU模块110可确定用户打算按照歌曲的音频呈现来行事。NLU模块110可接着进一步检查提示以当用户产生话语时得到关于哪首歌正被播放的标识符。然而，如果在方框506产生的提示替代地指示音频呈现包括歌曲的播放和关于从搜索返回的歌曲的列表的TTS呈现的播放，则NLU模块110可能要求额外的信息，以便完成话语的处理。在这样的情况下，语音服务100可向用户产生关于用户正提到哪个呈现或歌曲的提醒。

在方框510，应用114可基于提示和由NLU模块110进行的用户话语的处理来执行行动或产生响应。返回到歌曲实例，应用114可促使购买歌曲的行动的执行。

术语

根据实施方案，本文描述的任何流程或算法的某些行动、事件或功能可以按不同的顺序被执行，可一起被添加、合并或省略(例如，不是所有描述的操作或事件都对算法的实施是必要的)。而且，在某些实施方案中，操作或事件可被并行地执行，例如通过多线程处理、中断处理或多个处理器或处理器核心或在其他并行结构上而不是连续地。

关于本文公开的实施方案描述的各种说明性逻辑块、模块、例程和算法可被实现为电子硬件、计算机软件或这两者的组合。为了清楚地说明硬件和软件的这个可互换性，各种说明性部件、块、模块和步骤在上面通常从其功能方面被描述。这样的功能是被实现为硬件还是软件取决于在总***上强加的特定的应用和设计约束。可对每个特定的应用以各种方式来实现所描述的功能，但这样的实现决策不应被解释为促使从本公开的范围偏离。

关于本文公开的实施方案描述的方法、流程、例程或算法的步骤可直接体现在硬件中、在处理器所执行的软件模块中或在这两者的组合中。软件模块可存在于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM或非暂时性计算机可读存储介质的任何其他形式中。示例性存储介质可耦合到处理器，以使得处理器可从存储介质读取信息并将信息写到存储介质。可替代地，存储介质可与处理器成一整体。处理器和存储介质可存在于ASIC中。ASIC可存在于用户终端中。可替代地，处理器和存储介质可作为分立部件存在于用户终端中。

在本文使用的条件语言例如尤其是“can(可以)”、“could(可以)”、“might(可以)”、“may(可以)”、“例如”—除非另外特别规定或在如所使用的上下文内另外理解—通常旨在传达某些实施方案包括—虽然其他实施方案不包括—某些特征、元件和/或步骤。因此，这样的条件语言通常并不旨在暗示特征、元件和/或步骤无论如何是一个或多个实施方案所需的或一个或多个实施方式必须包括用于在有或没有作者输入或提醒的情况下决定这些特征、元素和/或步骤在任何特定的实施方案中是否被包括或将被执行的逻辑。术语“comprising(包括)”、“including(包括)”、“具有”等是同义的并可以包括端点地以开放的方式被使用，且不排除额外的元件、特征、行动、操作等。此外，术语“或”在其包括端点的意义上(而不是在其排除的意义上)被使用，以使得在被使用时例如连接元件的列表，术语“或”意味着列表中的一个、一些或所有元件。

条件语言例如短语“X、Y和Z中的至少一个”，除非另外特别规定，应以如通常使用的上下文被理解为传达项目、术语等可以是X、Y或Z或其组合。因此，这样的条件语言通常并不意欲暗示某些实施方案需要至少一个X、至少一个Y和至少一个Z每个都存在。

虽然上面详述的描述示出、描述并指出如应用于各种实施方案的新颖特征，可理解，在所示设备或算法的形式和细节中的各种省略、替换和改变可被做出而不偏离本公开的精神。如可认识到的，本文描述的发明的某些实施方案可体现在不提供如本文所阐述的所有特征和益处的形式内，因为一些特征可与其他特征分开地被使用或实施。本文公开的某些发明的范围由所附权利要求而不是由前述描述指示。出现在权利要求的等效形式的意义和范围内的所有变化应包括在其范围内。

条款：

1.一种***，其包括：

计算机可读存储器，其存储可执行指令：以及

与所述计算机可读存储器通信的一个或多个处理器，其中所述一个或多个处理器由所述可执行指令编程以至少：

产生将呈现给用户的文本，其中所述文本包括一序列项目；

使用所述文本产生音频呈现；

使多个标识符与所述序列项目相关联，其中所述序列项目中的每个项目与所述多个标识符中的至少一个标识符相关联；

向客户端设备传输所述音频呈现和所述多个标识符；

从所述客户端设备接收：

包括用户话语的音频数据；以及

所述多个标识符中的第一标识符；

对所述用户话语执行语音识别以得到语音识别结果；

至少部分地基于所述第一标识符和所述语音识别结果来识别所述序列项目中的第一项目；以及

至少部分地基于所述第一项目来执行行动。

2.如条款1所述的***，其中所述序列项目包括一序列提醒、在任务列表上的一序列项目或可用于购买的一序列项目。

3.如条款1所述的***，其中所述第一标识符和所述音频数据在单个数据传输中被接收到。

4.如条款1所述的***，其中所述一个或多个处理器进一步由所述可执行指令编程以：

使用所述序列项目产生提示；以及

使用所述提示识别所述第一项目。

5.如条款1所述的***，其中所述一个或多个处理器进一步由所述可执行指令编程以至少：

从所述客户端设备接收关于正在所述客户端设备上呈现的第二音频呈现的信息；以及

使用所述信息识别所述第一项目。

6.一种计算机实现的方法，其包括：

在配置有具体的计算机可执行指令的一个或多个计算设备的控制下，

向客户端设备传输：

包括第一部分和第二部分的音频呈现，其中所述第一部分对应于第一项目，而所述第二部分对应于第二项目；

对应于所述第一项目的第一标记；以及

对应于所述第二项目的第二标记；

从所述客户端设备接收：

包括用户话语的音频数据；以及

包括所述第一标记或所述第二标记的标记数据；以及

至少基于所述标记数据或所述音频数据来选择项目，其中所选择的项目包括所述第一项目或所述第二项目。

7.如条款6所述的计算机实现的方法，其中所述标记数据包括所述第二标记，所述计算机实现的方法还包括：

确定在所述第二部分的呈现被发起的第一时间和所述用户话语被发起的第二时间之间的时间的量。

8.如条款7所述的计算机实现的方法，其中所述时间的量小于预定阈值，且其中识别相关的部分包括至少部分地基于所述时间的量来识别所述第一部分。

9.如条款7所述的计算机实现的方法，其中所述时间的量超过预定阈值，且其中识别相关的部分包括至少部分地基于所述时间的量来识别所述第二部分。

10.如条款6所述的计算机实现的方法，其中所述标记数据还包括对应于所述音频呈现的第一呈现标识符和对应于当所述用户话语被发起时正在所述客户端设备上呈现的第二音频呈现的第二呈现标识符。

11.如条款10所述的计算机实现的方法，其还包括：

至少部分地基于所述标记数据和所述用户话语来确定所述用户话语与所述音频呈现相关。

12.如条款6所述的计算机实现的方法，其中所述音频呈现在第一数据流中被传输，且所述第一标记和第二标记在所述第一数据流或第二数据流中的一个中被传输。

13.如条款6所述的计算机实现的方法，其中所述第一部分和所述第二部分在单独的传输中被传输。

14.如条款6所述的计算机实现的方法，其中所述标记数据指示当所述话语被发起时所述音频呈现的哪个部分正呈现在所述客户端设备上。

15.如条款6所述的计算机实现的方法，其还包括：

至少部分地基于所选择的项目来执行行动。

16.一种包括可执行代码的非暂时性计算机可读介质，所述可执行代码在由处理器执行时促使计算设备执行包括下列各项的流程：

向客户端设备传输：

对应于所述第一项目的第一标记；以及

对应于所述第二项目的第二标记；

从所述客户端设备接收：

包括用户话语的音频数据；以及

包括所述第一标记或所述第二标记的标记数据；以及

17.如条款16所述的非暂时性计算机可读介质，其中所述标记数据和所述音频数据在单个数据流中被接收。

18.如条款16所述的非暂时性计算机可读介质，其中所述标记数据和所述音频数据在单独的数据传输中被接收。

19.如条款16所述的非暂时性计算机可读介质，所述流程还包括：

使用所述第一项目和所述第二项目产生提示；以及

使用所述提示选择可应用的项目。

20.如条款16所述的非暂时性计算机可读介质，所述流程还包括：

使用所述标记数据产生提示；以及

使用所述提示选择所述可应用的项目。

21.如条款16所述的非暂时性计算机可读介质，所述流程还包括：

从所述客户端设备接收关于正呈现在所述客户端设备上的第二音频呈现的信息；以及

使用所述信息选择所述可应用的项目。

22.如条款16所述的非暂时性计算机可读介质，其中所述音频呈现在第一数据流中被传输，且所述第一标记和第二标记在所述第一数据流或第二数据流中的一个中被传输。

23.如条款16所述的非暂时性计算机可读介质，其中所述标记数据指示当话语被发起时所述音频呈现的哪个部分正呈现在所述客户端设备上。

24.如条款16所述的非暂时性计算机可读介质，所述流程还包括：

至少部分地基于所选择的项目来执行行动。

25.一种包括可执行代码的非暂时性计算机可读介质，所述可执行代码在由处理器执行时促使计算设备执行包括下列各项的流程：

从语音处理***接收：

包括对应于第一项目的第一部分和对应于第二项目的第二部分的音频呈现；

对应于所述第一项目的第一标记；以及

对应于所述第二项目的第二标记；

呈现所述音频呈现；以及

向所述语音处理***传输：

经由所述计算设备的音频输入部件接收的音频数据；以及

包括所述第一标记或所述第二标记中的至少一个的标记数据。

26.如条款25所述的非暂时性计算机可读介质，其中所述音频呈现在第一数据流中被接收，且所述第一标记和第二标记在所述第一数据流或第二数据流中的一个中被接收。

27.如条款25所述的非暂时性计算机可读介质，其中所述标记数据和所述音频数据在单个数据流中被传输。

28.如条款25所述的非暂时性计算机可读介质，其中所述标记数据和所述音频数据在单独的数据传输中被传输。

29.如条款25所述的非暂时性计算机可读介质，所述流程还包括：

实质上与呈现所述音频呈现同时向所述音频处理***发起数据流，所述数据流包括所述音频数据。

30.如条款25所述的非暂时性计算机可读介质，其中所述标记数据包括所述第一标记，且其中所述标记数据实质上与所述第一项目的呈现同时被传输。

31.如条款25所述的非暂时性计算机可读介质，所述流程还包括：

实质上与所述音频呈现的呈现同时呈现第二音频呈现；以及

向所述语音处理***传输对应于所述音频呈现的第一呈现标识符和对应于第二音频呈现的第二呈现标识符。

32.如条款25所述的非暂时性计算机可读介质，其中所述第一标记包括第一标识符，而所述第二标记包括第二标识符。

Claims

1.一种***，其包括：

计算机可读存储器，其存储可执行指令：以及

产生将呈现给用户的文本，其中所述文本包括一序列项目；

使用所述文本产生音频呈现；

向客户端设备传输所述音频呈现和所述多个标识符；

从所述客户端设备接收：

包括用户话语的音频数据；以及

所述多个标识符中的第一标识符；

对所述用户话语执行语音识别以得到语音识别结果；

至少部分地基于所述第一项目来执行行动。

2.如权利要求1所述的***，其中所述序列项目包括一序列提醒、在任务列表上的一序列项目或可用于购买的一序列项目。

3.如权利要求1所述的***，其中所述一个或多个处理器进一步由所述可执行指令编程以：

使用所述序列项目产生提示；以及

使用所述提示识别所述第一项目。

4.如权利要求1所述的***，其中所述一个或多个处理器进一步由所述可执行指令编程以至少：

使用所述信息识别所述第一项目。

5.一种计算机实现的方法，其包括：

向客户端设备传输：

对应于所述第一项目的第一标记；以及

对应于所述第二项目的第二标记；

从所述客户端设备接收：

包括用户话语的音频数据；以及

包括所述第一标记或所述第二标记的标记数据；以及

6.如权利要求5所述的计算机实现的方法，其中所述标记数据包括所述第二标记，所述计算机实现的方法还包括：

7.如权利要求5所述的计算机实现的方法，其中所述标记数据还包括对应于所述音频呈现的第一呈现标识符和对应于当所述用户话语被发起时正在所述客户端设备上呈现的第二音频呈现的第二呈现标识符。

8.如权利要求6所述的计算机实现的方法，其还包括：

9.如权利要求5所述的计算机实现的方法，其中所述音频呈现在第一数据流中被传输，且所述第一标记和第二标记在所述第一数据流或第二数据流中的一个中被传输。

10.如权利要求5所述的计算机实现的方法，其中所述标记数据指示当所述话语被发起时所述音频呈现的哪个部分正呈现在所述客户端设备上。

11.一种包括非暂时性计算机可读介质的计算设备，所述非暂时性计算机可读介质包括可执行代码，所述可执行代码在由所述计算设备的处理器执行时促使所述计算设备执行包括下列各项的流程：

从语音处理***接收：

对应于所述第一项目的第一标记；以及

对应于所述第二项目的第二标记；

呈现所述音频呈现；以及

向所述语音处理***传输：

经由所述计算设备的音频输入部件接收的音频数据；以及

12.如权利要求11所述的计算设备，其中所述音频呈现在第一数据流中被接收，且所述第一标记和第二标记在所述第一数据流或第二数据流中的一个中被接收。

13.如权利要求11所述的计算设备，所述流程还包括：

实质上与呈现所述音频呈现同时向所述语音处理***发起数据流，所述数据流包括所述音频数据。

14.如权利要求11所述的计算设备，其中所述标记数据包括所述第一标记，且其中所述标记数据实质上与所述第一项目的呈现同时被传输。

15.如权利要求11所述的计算设备，所述流程还包括：

实质上与所述音频呈现的呈现同时呈现第二音频呈现；以及