CN111052230A - 用于语音捕获设备的语音激活的选择性存储器 - Google Patents

用于语音捕获设备的语音激活的选择性存储器 Download PDF

Info

Publication number
CN111052230A
CN111052230A CN201880057850.1A CN201880057850A CN111052230A CN 111052230 A CN111052230 A CN 111052230A CN 201880057850 A CN201880057850 A CN 201880057850A CN 111052230 A CN111052230 A CN 111052230A
Authority
CN
China
Prior art keywords
voice
input
service provider
speech input
provider environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880057850.1A
Other languages
English (en)
Other versions
CN111052230B (zh
Inventor
J·A·勒博朗
K·克鲁斯
周琪
G·钟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amazon Technologies Inc
Original Assignee
Amazon Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amazon Technologies Inc filed Critical Amazon Technologies Inc
Priority to CN202310868837.7A priority Critical patent/CN116682431A/zh
Publication of CN111052230A publication Critical patent/CN111052230A/zh
Application granted granted Critical
Publication of CN111052230B publication Critical patent/CN111052230B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/64Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
    • H04M1/642Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations storing speech in digital form

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

公开了用于语音捕获设备的语音激活的选择性存储器的方法、***和计算机可读介质。经由网络在包括一项或多项服务的服务提供商环境中接收来自语音捕获设备的第一语音输入。第一语音输入包括来自语音捕获设备的用户的一个或多个话语。存储第一语音输入的表示。在服务提供商环境处经由网络接收来自语音捕获设备的第二语音输入。第二语音输入表示忽略第一语音输入的命令。基于第二语音输入,删除第一语音输入的表示。

Description

用于语音捕获设备的语音激活的选择性存储器
背景技术
许多公司和其它组织操作互连许多计算***以支持它们操作的计算机网络,诸如计算***共处一地(例如,作为本地网络的一部分)或替代地位于多个不同的地理位置(例如,经由一个或多个私有或公共中间网络连接)。例如,容纳大量互连计算***的分布式***已经变得普遍。这样的分布式***可以向与客户端交互的服务器提供后端服务。这样的分布式***还可以包括由实体操作以向顾客提供计算资源的数据中心。一些数据中心运营商为各种顾客所拥有的硬件提供网络访问、电源和安全安装设施,而其它数据中心运营商提供“全服务”设施,所述设施还包括可以供它们的顾客使用的硬件资源。随着分布式***的规模和范围的增加,提供、施行和管理资源的任务变得越来越复杂。
分布式***可向远程客户端提供对各种服务的访问,所述服务主要在分布式***内实施并且可通过如因特网的网络访问。据说这类服务可驻留“在云中”。可访问基于云的服务的设备的类型继续增多且多样化,包括例如台式计算设备、移动设备(如智能手机和平板电脑)、语音捕获设备、家庭自动化设备以及作为“物联网(IoT)”的一部分的各种其它类型的支持网络的设备。通过访问基于云的服务,各种设备可获得在设备上本地不可用的附加功能或计算能力。
附图说明
图1A和图1B示出了根据一个实施例的用于语音捕获设备的语音激活的选择性存储器的示例***环境。
图2A与图2B示出了根据一个实施例的用于语音捕获设备的语音激活的选择性存储器的示例***环境的其他方面,包括应用基于标签的规则以删除语音输入的表示。
图3示出了根据一个实施例的用于语音捕获设备的语音激活的选择性存储器的示例***环境的另一方面,包括向服务提供商环境中的技能发送撤消请求。
图4示出了根据一个实施例的用于语音捕获设备的语音激活的选择性存储器的示例***环境的另一方面,包括向服务提供商环境外部的组件发送撤消请求。
图5是示出了根据一个实施例的用于实现用于语音捕获设备的语音激活的选择性存储器的方法的流程图。
图6是示出了根据一个实施例的用于实现用于语音捕获设备的语音激活的选择性存储器的方法的另一方面的流程图,该方法包括删除以私人模式输入的语音的表示。
图7示出了可以在一些实施例中使用的实例计算设备。
尽管本文通过举例的方式针对若干实施例和说明性附图描述了实施例,但是本领域技术人员将认识到,实施例不限于所描述的实施例或附图。应当理解的是,附图和对其的详细描述并不旨在将实施例限制于所公开的特定形式,而是相反,旨在覆盖落入由所附权利要求书限定的精神和范围内的所有修改、等同物和替换物。本文所用的标题仅用于组织目的,并不意味着用于限制说明书或权利要求书的范围。如贯穿本申请所使用的,词语“可以”以允许的意义(即,意味着“有可能”)而不是强制的意义(即,意味着“必须”)来使用。类似地,词语“包括”、“包括的”、以及“包括有”意味着“包括,但不限于此”。
具体实施方式
描述了用于语音捕获设备的语音激活的选择性存储器的方法、***和计算机可读介质的各种实施例。使用本文所述的技术,基于其他语音输入,可以删除从语音捕获设备输入的语音的表示,并且可能可撤消输入的效果。合适的语音捕获设备可以包括智能扬声器、个人电子设备(例如智能手机、平板电脑)、个人计算机以及其他家庭自动化和/或“物联网”设备。设备可以是可配置的,以访问由基于云的服务提供商环境提供的一种或多种服务,如分析和响应从设备流式传输的语音输入的一种或多种网络可访问的基于语音的服务。可以基于语音输入的分析调用服务提供商环境中的一项或多项服务,称为“技能”。来自用户的语音输入的表示可以例如作为音频数据和/或转录数据存储在服务提供商环境中并且可能存储在外部***中。通过附加语音输入,用户可以要求服务提供商环境忽略、忘记、删除或撤消其他语音输入。基于所述附加语音输入,服务提供商环境可以删除由用户指示的任何语音输入的表示。例如,如果用户说词语诸如“[唤醒词],忘记那个”,则服务提供商环境可以删除与最近话语相关联的数据。另外,在一些实施例中,服务提供商环境可以尝试撤消或还原基于现在删除的语音输入而调用的任何技能或其他服务的效果。例如,如果用户通过与餐厅的外部***交互的技能提供语音输入来点菜,则服务提供商环境可以尝试通过向外部***发送撤消命令来撤消该命令。整个服务提供商环境中语音输入的表示可以用标识信息标记,并且可以通过将规则应用于标签来删除这些表示。在一个实施例中,例如用户经由语音输入请求下,语音输入的表示可以在私人会话中被自动删除。通过将这些技术用于语音激活的选择性存储器,可以为用户授予简化对其在云中信息存储的控制。
图1A和图1B示出了根据一个实施例的用于语音捕获设备的语音激活的选择性存储器的示例***环境。如图1A所示,一组语音捕获设备例如设备150可以与服务提供商环境100的一个或多个组件进行交互,例如,以访问在设备上本地不可用而是(至少部分地)由服务提供商环境提供的附加功能或计算资源。服务提供者环境100可以向服务提供者环境之外的各种类型的设备(例如各种类型的电子设备、数字设备和/或计算设备)提供功能或计算资源。例如,设备150可以代表“物联网(IoT)”中的智能扬声器、智能电视或其他视听组件、家庭自动化设备和/或另一种类型的设备。设备在本文可以称为语音捕获设备或语音捕获端点,并且可以包括语音交互能力。在一个实施例中,设备可以包括语音输入捕获组件,例如一个或多个麦克风和/或其他合适的语音捕获或音频输入组件,可用于捕获包括语音的音频输入。在一个实施例中,设备可以包括音频输出组件,例如一个或多个扬声器和/或其他合适的音频输出组件,可用于回放包括计算机生成的语音的音频输出。诸如音频数据、音频数据的转录和其他人工产物之类的语音输入的表示可以存储在服务提供商环境100中并且可能存储在外部组件中。使用本文描述的技术,可以(至少部分地)基于来自设备的其他语音输入删除存储的来自设备的语音输入的表示。
设备可以是可授权的,以访问由基于云的服务提供商环境100提供的一种或多种资源和/或服务。服务提供商环境100可包括由称为服务提供商的一个或多个实体或组织拥有或管理的各种组件。在各种实施例中,服务提供商环境100的各方面可以被提供为相对于设备“在云中”的一个或多个公共可访问服务,或者替代地被提供为一个或多个私有可访问服务。服务提供商环境100的组件可位于一个或多个数据中心中和一个或多个地理位置中。服务提供商环境100可包括和/或提供多种服务,并且服务可执行各种功能或操作。在各种实施例中,服务中的一些可由设备访问,而服务中的其它服务可仅由其它服务访问而不是由设备直接访问。可根据面向服务的架构(SOA)来实施服务,其中服务交换请求和响应以执行复杂的操作。在各个实施例中,服务可以包括网络可访问的、语音启用的接口110;语音输入删除功能120;语音输入存储功能130;语音启用的技能140;和/或其他各种服务。
包括设备150的设备可以将语音输入流化或以其他方式发送到启用语音的接口110。启用语音的接口110可以是托管在云计算环境中的语音交互平台的一部分。使用语音输入分析组件111,启用语音的接口110可以分析来自设备之一的语音输入,并响应于语音输入采取一个或多个动作,例如代表始发设备发起一个或多个任务。使用音频输出生成组件112,启用语音的接口110可以生成音频输出(例如,合成或计算机生成的语音输出、预记录的音频、语音邮件、音乐等)并将其发送回始发设备以用于在设备上播放。动作和/或音频输出可基于特定设备可访问的服务提供商环境100的资源和/或服务(在本文中也称为技能140)而变化。在各种实施例中,由服务提供商环境100提供的技能140可包括例如安排电话会议;在电话会议期间识别发言人;充当日程安排助理;提供日历服务、对会议进行录制;访问日历、电话簿和/或电子邮件;创建、安排和/或修改任务;订购物品或食物;请求帮助,例如客房服务或出租车;发送短信;执行搜索引擎查询;播放音乐或其他音频流;等。在一个实施例中,设备可访问的特定技能可以变化,并且可以由管理员或其他具有适当配置特权的用户修改。在一些实施例中,设备150可以例如通过存储在服务提供商环境100中的配置数据链接到一个或多个其他语音捕获设备。例如,可以链接位于同一住宅、同一会议室或同一旅馆房间内不同位置的多个语音捕获设备,以使输入到其中一个设备的语音输入可能影响其他设备的使用。多个语音捕获设备可以链接到同一帐户或用户。
使用诸如一个或多个麦克风的语音输入捕获组件151,特定的语音捕获设备150可以被配置为捕获语音输入153,并且经由网络190将语音输入发送到服务提供商环境100。在一实施例中,语音输入153可以代表来自一个或多个用户199的语音输入。语音可以包括自然语言语音。语音输入153可以表示任何合适格式的数字音频。语音输入153可以被流传输或以其他方式从设备150发送到接口110。使用语音输入分析111,服务提供商环境100可以对语音输入153进行解码以确定音频中存在的一个或多个术语、短语或其他话语。在一个实施例中,一个或多个术语可以表示用于调用由服务提供商环境100提供的功能(例如,技能140)的命令。在一个实施例中,一个或多个术语可以表示由服务提供商环境100提供的功能(例如,技能140)可用的数据。在一个实施例中,相同的语音输入既可以包括对技能(或其他功能)的调用,也可以包括该技能或功能可用的自变量或其他数据。
在一个实施例中,可以通过检测与设备相关联的可听见的“唤醒词”来提示语音捕获设备150处的语音输入捕获151,例如,在设备已打开电源并已正确配置的同时使用语音输入捕获来监视设备附近的音频。在一个实施例中,可以通过按下按钮、手势或另一种合适的用户交互而不是唤醒词来提示语音输入捕获151。在一个实施例中,在检测到唤醒词或其他用户提供的提示之后,语音输入捕获器151可以继续记录(并且设备可以继续流式传输)音频输入,直到检测到适当持续时间的暂停为止;直到启用语音的接口110指示设备停止为止;直到捕获的音频达到特定的持续时间为止;或直到收到按钮按下、手势或其他合适的用户交互以结束语音捕获为止。
在一个实施例中,设备150可以包括或可以访问音频输出回放功能152,其包括扬声器和/或其他合适的(一个或多个)音频生成组件,可用于回放包括计算机生成的语音的音频输出。在各种实施例中,音频输出回放152可以位于设备150上或替代地位于另一设备中,例如遥控器。启用语音的接口110还可以包括用于音频输出生成112的组件(或多个组件)。使用音频输出生成112,服务提供商环境100可以生成表示计算机生成的语音的音频输出154。服务提供商环境100可以将音频输出154流式传输或以其他方式发送到设备150,并且该设备可以使用音频输出回放152来为用户199回放输出。在各个实施例中,音频输出154可以表示语音输入的某些方面的确认(例如,确认所请求的任务已成功执行)、对用户(一个或多个)199提出的问题或询问的响应、请求来自用户的更多信息、或任何其他合适的基于音频的交互。在一些实施例中,设备150可以被配置为生成其他形式的输出,例如显示器上的图形输出、触觉反馈、到附近设备的蓝牙信号等等。
启用语音的接口110可以使用语音输入日志记录功能113来存储设备与服务提供商环境100之间的交互日志。例如,由特定设备150发送并由语音输入分析111分析的每个话语可以与时间戳一起记录在与该设备相关联的日志中。可以使用日志功能113可访问的语音输入存储器130来实现日志。语音输入存储可以包括持久性存储资源,可能实现的多租户提供商网络的一项或多项存储服务。日志中存储的数据可以包括语音输入153的一种或多种类型的表示,例如音频数据、字母数字转录数据和其他伪像。如在图1A的实例中所示,表示131A至131N可以被存储用于语音输入153。例如,表示131A可以包括音频数据,并且表示131N可以包括该音频数据的转录(例如,如使用语音输入分析111所生成的)。音频数据可以表示由设备150捕获并发送给服务提供商环境100的全部或部分音频,而转录数据可以表示将语音到文本分析应用于原始音频数据的伪像或输出。在一些实施例中,音频输入(例如,音频或文本)的附加表示可以被存储在服务提供商环境100中的其他地方,例如,在与各种技能140相关联的存储中。例如,如果基于语音输入的分析调用特定技能,则该语音输入的表示(例如,使用语音到文本分析生成的文本)可以被提供给该技能并由该技能存储。类似地,音频输入的附加表示(例如,音频或文本)可以存储在服务提供商环境100外部的其他位置,例如,存储在与各种外部***例如搜索引擎提供商、合作伙伴数据库等关联的存储中。在一个实施例中,语音输入的表示131A-131N可以在用户特定的基础上在服务提供商环境100内被加密,并且加密密钥可以由相应的用户持有,使得服务提供商环境的管理员不能访问其语音输入的音频数据和转录的内容。如将在下面更详细地讨论的,语音输入删除功能120(例如,技能或其他服务)可以(至少部分地)基于来自用户199和/或设备150的附加语音输入发起任何表示131A-131N的选择性删除。
在一个实施例中,服务提供商环境100可以包括可用于确定或修改与设备相关联的设备配置的方面的设备管理服务或功能。例如,设备管理可以维持与设备150相对应的设备特定的配置。在一个实施例中,设备管理可以由针对企业、教育机构和/或住宅的设备管理的服务来提供。在一个实施例中,设备管理服务可以用于例如基于用户输入或通过应用程序编程接口(API)的输入来使设备可以访问特定技能。例如,对设备管理服务的用户输入可以标识特定设备或设备类别可以访问的一组技能,例如,如从服务提供商环境100提供的技能的预定列表中选择的。设备的设备配置可以包括设备标识符或与之相关联,例如设备的序列号。设备配置还可以包括其他参数及其相应的值。设备配置可以指示服务提供商环境100中的设备可访问的一组一个或多个技能140。在各种实施例中,设备配置的全部或部分可以远程存储在服务提供商环境100中和/或存储在设备本身可本地访问的存储中。例如,完整的配置文件可以由设备管理服务存储,而更有限的一组配置参数可以存储在设备的储存器中。
包括设备150的设备可以例如通过经由网络将基于网络的服务请求传送到服务提供商环境,而通过一个或多个网络190与接口110(或服务提供商环境100的其他组件)通信。在一个实施例中,网络190可包括一个或多个无线网络,如一个或多个Wi-Fi网络或其它类型的无线局域网(WLAN)。可使用任何合适的无线通信技术和联网组件(如一个或多个无线路由器)的任何合适配置来实施无线网络(一个或多个)。在一个实施例中,设备150可包括用于访问Wi-Fi和/或其它合适的无线网络的无线联网接口。在一实施例中,网络190可包括在诸如以太网的传输介质上经由一个或多个有线网络(诸如一个或多个有线网络)进行通信。在一个实施例中,设备150可以包括用于访问合适的有线网络的有线联网接口。在各种实施例中,网络(一个或多个)190可涵盖在设备150与服务提供商环境100之间建立基于网络的通信所必需的联网硬件和协议的任何合适组合。举例来说,网络(一个或多个)190通常可涵盖共同实施因特网的各种电信网络和服务提供商。网络(一个或多个)190还可包括如局域网(LAN)或广域网(WAN)的专用网络以及公共或专用无线网络。在一个实施例中,网络(一个或多个)190可包括在两个特定组件之间建立联网链路所必需的硬件(例如,调制解调器、路由器、交换机、负载平衡器、代理服务器等)和软件(例如,协议栈、会计软件、防火墙/安全软件等)。在一个实施例中,设备150可能够使用专用网络而不是公共因特网与服务提供商环境100通信。在一个实施例中,设备150可以表示卫星设备,该卫星设备通过局域网(有线或无线)或直接连接(有线或无线,例如蓝牙)连接到中央设备,例如以将语音输入流式传输到中央设备,然后中央设备可以将语音输入流式传输到服务提供商环境100。
在一实施例中,服务提供商环境100的各个组件的功能可以分布在不同的物理站点上。例如,服务提供商环境100的功能的第一部分可以在与设备150位于相同局域网或物理站点中的一个或多个组件中实现,而服务提供商环境100的功能的第二部分可以“在云中”实现,并且可以通过广域网访问第一部分。第一部分可以包括足够的计算资源来执行诸如语音输入分析111之类的任务以及更频繁访问的服务。设备配置的全部或部分可以存储在本地(在第一部分中)、云(第二部分)中或在两个部分中。使用服务的这种分布来本地化更多的处理,可以在本地站点(包括设备)与服务提供商环境100的基于云的部分之间最小化网络使用。如果设备150位于具有受限网络访问的远程区域中,则这种服务分配可能特别有益。
诸如设备150之类的任何语音捕获设备可以由图7所示的示例计算设备3000实现。服务提供商网络100可包括多个计算设备,所述计算设备中的任何计算设备可由图7所示的实例计算设备3000来实施。在各个实施例中,服务提供商环境100的所描述功能的一部分可以由同一计算装置或者由任何适合数量的不同计算装置来提供。如果使用不同的计算设备来实施服务提供商环境100的任何组件,那么然后这些组件及它们相应的计算设备可以通信地耦合(例如经由一个或多个网络)。所示组件中的每个组件可表示可用于其相应的功能的软件和硬件的任何组合。可设想的是,设备150、服务提供商网络100和联网基础设施190可包括未示出的附加组件、比所示组件少的组件或所示组件的不同组合、配置或数量。
图1B可以表示图1A所示实例的延续。语音输入删除功能120(例如,技能或其他服务)可以(至少部分地)基于来自用户199和/或设备150的附加语音输入155发起任何表示131A-131N的选择性删除。在图1A中提供和存储(作为一个或多个表示)的语音输入之后,设备150的用户199可以提供如图1B所示的附加语音输入155。附加语音输入155可以表示忽略先前语音输入的命令,如使用语音输入分析111所确定的。要忽略的先前语音输入可以包括一个话语(例如,最近的话语或在过去某个时间点接收到的另一个话语)、一组多个话语(例如,在最后一小时、一天、一周收到的话语等)、或与设备和/或用户相关联的所有话语,如附加语音输入所指示。可以基于试图忽略、忘记、回复或撤销一个或多个其他话语的附加语音输入来确定用户的忽略意图。在一个实施例中,合适的输入可以包括语音输入,例如“[唤醒词],忘了那个”、“[唤醒词],忘了最后一个小时”、“[唤醒词],忘了我说的一切”,等等。语音输入分析111可以检测合适的关键字(在唤醒词或其他用户提示之后),以确定应当忽略一个或多个话语,例如,反映意图忽略、忘记、还原或撤消的关键字。语音输入分析111还可例如基于指定的时间段或要忽略的话语的特定标识(在唤醒词或其他用户提示之后)检测合适的关键词以确定哪些话语应被忽略。
在一个实施例中,可以例如通过服务提供商环境100中的配置数据从与设备150相关联的不同语音捕获设备接收附加语音输入155。例如,可以链接位于同一住所或同一旅馆房间内不同位置的多个语音捕获设备。对于一组链接的设备,输入到其中一个设备的语音可以导致服务提供商环境100忽略来自另一个设备的语音输入。在一些实施例中,时间接近度可以用于确定输入到一个设备的语音输入是否可以删除或撤销来自另一设备的语音输入。例如,仅当在较早的语音输入之后的某个阈值时间段内接收到忽略较早的语音输入的附加语音输入时,才允许跨设备删除或撤消。在一些实施例中,空间接近度可以用于确定输入到一个设备的语音输入是否可以删除或撤销来自另一设备的语音输入。例如,仅当在与提供较早语音输入的设备相距某个阈值距离内从设备接收到忽略较早语音输入的附加语音输入时,才允许跨设备删除或撤消。
响应于确定附加语音输入155表示忽略其他语音输入的命令,启用语音的服务110可以例如通过发送适当的请求以及要删除的话语的一个或多个标识符或特征来调用语音输入删除功能120。在一个实施例中,如果服务提供商环境100确定附加语音输入155的某些方面是模棱两可的,则可以生成音频输出并将其发送到设备150以寻求来自用户199的歧义消除输入。例如,如果语音输入删除功能120不能确定应当删除哪些话语,则删除功能可以与音频输出生成交互以要求用户进行澄清。在图1B的实例中,附加语音输入155指示应当忽略先前的语音输入153。例如,如果附加语音输入叙述为“[唤醒词],忘了那个”,并且语音输入153是紧接在附加语音输入155之前的话语,则可以将较早的语音输入153识别为来自用户199的删除请求的目标。作为另一实例,如果附加语音输入叙述为“[唤醒词],忘记了最后一个小时”,并且在前一个小时内收到了语音输入153(并加了时间戳),则可以将较早的语音输入153识别为来自用户199的删除请求的一个目标。在这种情况下,例如,如果其他话语是在过去一小时内从设备150接收到,所述其他话语也可以被识别为删除请求的目标。语音输入删除功能120可以指示语音输入日志记录113(或任何其他合适的组件)删除语音输入的任何存储的表示,例如表示131A和131N。在各种实施例中,删除可以包括将一个或多个文件或其他存储元件标记为删除,改变目录结构以使得所述文件或存储元件不可访问,改变或去除加密密钥(例如,与用户199相关联的)以使所述文件或存储元素不可访问,依此类推。在一个实施例中,为了额外的安全性,还可以删除额外的语音输入155的一个或多个存储的表示。
在一个实施例中,语音输入153的一个或多个存储的表示可以从设备150本身删除,例如,从设备本地可访问的存储中删除。例如,设备150上存储的表示可以包括音频数据、转录数据、语音输入分析的伪像(诸如计时器和配置设置)等。在一个实施例中,响应于从服务提供商环境100发送的删除命令,可以从设备150删除存储的表示。在一个实施例中,可以基于对设备本身执行的附加语音输入155的分析,从设备150中删除所存储的表示。在一个实施例中,可以从设备150到服务提供商环境100以及在该设备与服务提供商环境之间的任何中间组件的任何地方做出删除所存储的较早语音输入的表示的决定。类似地,在一些实施例中,较早的语音输入的效果可以在设备150上恢复。例如,可以基于附加语音输入155来撤消在设备150上设置的计时器或配置设置。
图2A与图2B示出了根据一个实施例的用于语音捕获设备的语音激活的选择性存储器的示例***环境的其他方面,包括应用基于标签的规则以删除语音输入的表示。在一实施例中,诸如语音输入153之类的话语可以用元数据标记。语音输入153可以在设备150处被标记,或者如图2A所示,通过语音输入标记功能114在启用语音的接口110接收到语音输入之后标记。语音输入的表示可以与特定标签相关联。如在图2A的实例中所示,所存储的表示131A与标签132A相关联,并且所存储的表示131N也与相同标签132A相关联以指示它们在相同语音输入153中的共享起源。然而,所存储的差异语音输入的表示131X可以具有不同的标签132X。标签可以包括标识语音输入的特征、用于捕获语音输入的设备的特征、与语音输入相关联的用户的特征、会话标识符、时间戳和/或其他合适的元素的元数据。例如,标签可以包括指示用户或设备所属的组织的划分的标签。作为另一实例,标签可以包括国家或地区的标识符。在一个实施例中,标签可以代表服务提供商环境的背景内的全球唯一标识符(GUID)。在一个实施例中,标签可以表示关于话语是否适合删除或撤消的指示。在一个实施例中,与语音输入153相关联的标签132A可以被生成一次(例如,当输入在设备150处被捕获或者被服务提供商环境100接收时),然后与输入的其他表示一起传播,所述其他表示例如存储在服务提供商环境中的转录或传递给基于语音输入的分析111调用的技能的表示。通过以这种方式传播标签,可以在服务提供商环境100中并且还可能在外部***中追踪特定话语的路径,以便于删除话语记录。
在一个实施例中,可以通过(至少部分地)基于它们的关联标签的内容将一种或多种规则应用于表示来执行删除。在一个实施例中,语音输入删除功能120可以包括基于标签的规则引擎125,以实现基于标签的规则的应用。例如,如果标签指示与语音输入相关联的设备和时间戳,则特定规则可以删除与特定设备相关联并且在特定时间窗口内接收到的语音输入的表示。作为另一实例,特定规则可以删除具有与特定公司部门相关联的标签的语音输入的表示。作为又一个实例,特定规则可以删除具有与特定用户相关联的标签的语音输入的表示,但是不删除与其他用户相关联的语音输入的表示。在一个实施例中,可以通过在事件总线上作为事件发送删除命令(连同标识要删除的话语的数据或元数据,例如,使用标签)来启动删除操作,并且服务提供商环境100中的其他服务和技能可以收听所述事件总线以获取此类命令。例如,语音输入删除功能120可以生成事件,该事件指示诸如语音输入日志记录113的接收者删除具有标签132A的任何存储的表示。作为接收到该事件的结果,语音输入日志记录113可以发起删除表示131A和131N但不删除表示131X。
图3示出了根据一个实施例的用于语音捕获设备的语音激活的选择性存储器的示例***环境的另一方面,包括向服务提供商环境中的技能发送撤消请求。在一些实施例中,可能已经基于语音输入153的分析111调用了一项或多项技能140。例如,如果语音输入153表示执行搜索引擎查询的命令,则语音输入中的搜索词可能已经传递给搜索引擎技能(技能140中),然后可能从搜索引擎传递给服务提供商环境100外部的搜索引擎。作为另一个实例,如果语音输入153表示在餐馆下订单的命令,则语音输入中的搜索词可能已经传递给餐馆技能(在技能140中),然后可能从餐馆技能传递到服务提供商环境100外部的餐厅订购***。
如果为用户现在试图忽略的较早的语音输入调用了一项或多项技能140,则语音输入删除功能120可以向该技能发送撤消命令121。撤消命令121可以表示恢复响应于较早的语音输入153而采取的任何效果的请求。在一些实施例中,技能140可以包括语音输入撤销功能145,如果可能,该语音输入撤销功能可以尝试撤销响应于较早的语音输入而采取的任何动作。响应于接收到撤消命令121,技能140可以删除相关语音输入153的任何存储的表示,诸如表示131Y。语音输入撤销145所采取的其他动作可以基于响应于较早的语音输入而采取的动作的性质而变化;例如,可能无法保证撤消。在搜索查询的实例中,可能无法撤消查询,但是该技能可能能够删除在执行查询时生成和存储的任何数据。在餐厅订单的实例中,如果及时接收到撤消命令121,则撤消该订单是可能的。另外,餐厅技能可能能够删除下订单时生成和存储的任何数据。在一个实施例中,用于语音输入153的标签132A可能已经被传递给技能140,并且该技能可以(至少部分地)基于识别任何具有特定标签的表示来删除语音输入的任何表示。
图4示出了根据一个实施例的用于语音捕获设备的语音激活的选择性存储器的示例***环境的另一方面,包括向服务提供商环境外部的组件发送撤消请求。在一些实施例中,可能已经基于语音输入153的分析111调用了服务提供商环境100之外的一个或多个***或服务。例如,如果语音输入153表示执行搜索引擎查询的命令,则语音输入中的搜索词可能已经传递给搜索引擎技能(技能140中),然后可能从该搜索引擎传递给服务提供商环境100外部的搜索引擎***160。作为另一个实例,如果语音输入153表示在餐馆下订单的命令,则语音输入中的搜索词可能已经传递给餐馆技能(在技能140中),然后可能从餐馆技能传递到服务提供商环境100外部的餐厅订购***160。
如果与用户现在试图忽略的针对较早的语音输入所采取的动作相关联而联系到外部***160,则语音输入删除功能120可以向***160发送撤消命令121。在一个实施例中,如图4的实例中所示,撤消命令121可以由语音输入删除功能120发送给技能140,然后从技能发送给外部***160。如上讨论,撤消命令121可以表示恢复响应于较早的语音输入153而采取的任何效果的请求。在一些实施例中,外部***165可以包括语音输入撤消功能165,如果可能,该语音输入撤消功能可以尝试恢复响应于较早的语音输入而采取的任何动作。响应于接收到撤消命令121,外部***160可以删除相关语音输入153的任何存储的表示,诸如表示131Z。语音输入撤销165所采取的动作可以基于响应于较早的语音输入而采取的动作的性质而变化;例如,可能无法保证撤消。在搜索查询的实例中,可能无法撤消查询,但是外部搜索引擎可能能够删除在执行查询时生成和存储的任何数据。在餐厅订单的实例中,如果及时接收到撤消命令121,则撤消该订单是可能的。另外,外部餐厅***可能能够删除下订单时生成和存储的任何数据。在一个实施例中,用于语音输入153的标签132A可能已经被传递给外部***160,并且该外部***可以(至少部分地)基于识别任何具有特定标签的表示来删除语音输入的任何表示。
图5是示出了根据一个实施例的用于实现用于语音捕获设备的语音激活的选择性存储器的方法的流程图。如510中所示,可以从语音捕获设备接收第一语音输入。可以经由网络接收第一语音输入,并且第一语音输入可以由网络可访问的服务提供商环境的一项或多项服务分析,例如,如在云中实现的。第一语音输入可以包括来自设备的用户的一个或多个话语。在服务提供商环境中,用户可能对设备没有所有权特权。例如,用户可以是使用与雇主相关联并由雇主管理的语音捕获设备的雇员,或者用户可以是使用与旅馆相关联并由旅馆管理的语音捕获设备的旅馆客人。因此,用户可能无法访问允许使用移动设备或个人计算机上的图形用户界面删除特定话语的伴随应用程序。
如520中所示,第一语音输入的一个或多个表示可以被存储在例如与服务提供商环境相关联的存储中。表示可以包括音频数据、转录数据(例如,使用音频数据的语音到文本分析生成的)和/或语音输入的其他伪像。表示可以包括全部或部分话语。所述表示可以存储在与设备和/或用户相关联的语音输入的日志中、在语音输入上使用机器学习技术以改善未来的分析的语音输入分析服务中、在基于语音输入调用的服务提供商环境内的一个或多个技能中、在与技能交互的一个或多个外部***中和/或在其他合适的位置中。语音输入的表示可以与标签关联,并且标签可以包括标识语音输入的特征、用于捕获语音输入的设备、与语音输入相关联的用户、会话标识符等的元数据。例如,标签可以包括指示用户或设备所属的组织的划分的标签。作为另一实例,标签可以包括国家或地区的标识符。在一个实施例中,标签可以代表服务提供商环境的背景内的全球唯一标识符(GUID)。在一个实施例中,标签可以表示关于话语是否适合删除或撤消的指示。在一个实施例中,与语音输入相关联的标签可以被生成一次(例如,当输入在设备处被捕获或者被服务提供商环境接收时),然后与输入的其他表示一起传播,所述其他表示例如存储在服务提供商环境中的转录或传递给基于语音输入的分析调用的技能的表示。通过以这种方式传播标签,可以在服务提供商环境中并且还可能在外部***中追踪特定话语的路径,以便于删除话语记录。
如530中所示,可以从语音捕获设备或从关联的设备接收第二语音输入。第二语音输入也可以经由网络接收并且由服务提供商环境的一项或多项服务分析。第二语音输入可以包括来自设备的用户的一个或多个话语。在各种实施例中,该用户可以是与提供第一语音输入的用户相同或不同的用户。在一个实施例中,可以基于语音配置文件区分负责各种话语的用户。语音配置文件可以表示特定的命名的用户(例如,已经注册以“声明”服务提供商环境生成的语音配置文件的用户)或特定的未命名的用户。在一个实施例中,可以基于其他技术,诸如密码或语音捕获设备附近内的用户的移动设备的检测,区分负责各种话语的用户。
如540中所示,可以对第二语音输入执行语音输入分析。该分析可以确定第二语音输入代表忽略第一语音输入的命令。例如,分析可以应用语音转文本技术来检测短语(依照唤醒词或其他用户提示进行语音捕获),例如“忘记那个”、“忘记最后一个小时”、“删除最后一个东西”、“撤消该命令”等等。在一个实施例中,服务提供商环境可以识别提供第二语音输入的用户,并且可以确定该用户是否具有删除或撤消第一语音输入的特权。在一个实施例中,例如,仅当提供第二语音输入的用户与提供第一语音输入的用户相同时,服务提供商环境才可以采取动作删除或撤消第一语音输入。在一个实施例中,仅当提供第二语音输入的设备与提供第一语音输入的设备相同时,服务提供商环境才可以采取动作删除或撤消第一语音输入。如果用户具有足够的特权请求删除或撤消,则服务提供商环境可以调用服务提供商环境内的删除功能(例如技能或服务)。服务提供商环境可以将任何需要的数据(例如标签或要删除的话语的其他标识特征)传递到删除功能。
在一个实施例中,第二语音输入可以表示忽略(例如,删除和/或消除其影响)单个话语(例如来自设备的最新话语)的命令。在一个实施例中,第二语音输入可以表示例如在过去的一小时、一天、一周等等中忽略多个话语的命令。使用第二语音输入,用户可以(至少部分地)基于(一个或多个)话语的特定特性,与(一个或多个)话语相关联的时间或时间窗口等来识别任何一个或多个话语。
如550中所示,可以删除第一语音输入的一个或多个表示。在各种实施例中,删除可以包括将一个或多个文件或其他存储元件标记为删除,改变目录结构以使得所述文件或存储元件不可访问,改变或去除安全密钥(例如,与用户相关联的)以使所述文件或存储元素不可访问,依此类推。在一个实施例中,可以通过(至少部分地)基于它们的关联标签的内容将一种或多种规则应用于表示来执行删除。例如,如果标签指示与语音输入相关联的设备和时间戳,则特定规则可以删除与特定设备相关联并且在特定时间窗口内接收到的语音输入的表示。在一个实施例中,可以通过在事件总线上作为事件发送删除命令(连同标识要删除的话语的数据或元数据,例如,使用标签)来启动删除操作,并且服务提供商环境中的其他服务和技能可以收听所述事件总线以获取此类命令。在一个实施例中,为了额外安全性,还可以删除第二语音输入的一个或多个表示。
如560所示,可以确定是否为第一语音输入调用了一个或多个技能或外部***。例如,如果第一语音输入表示执行搜索引擎查询的命令,则第一语音输入中的搜索词可能已经传递给搜索引擎技能,然后从搜索引擎传递给服务提供商环境外部的搜索引擎。作为另一个实例,如果第一语音输入表示在餐馆下订单的命令,则第一语音输入中的搜索词可能已经传递给餐馆技能,然后从餐馆技能传递到服务提供商环境外部的餐厅订购***。
如果调用了一个或多个技能或外部***,则如570所示,删除功能可以向该技能和/或外部***发送撤消命令。撤消命令可以表示恢复响应于第一语音输入而采取的任何效果的请求。在搜索查询的实例中,可能无法撤消查询,但是技能和/或外部搜索引擎可能能够删除在执行查询时生成和存储的任何数据。在餐厅订单的实例中,如果及时接收到撤消命令,则撤消该订单是可能的。另外,餐厅技能和/或外部餐厅***可能能够删除下订单时生成和存储的任何数据。在一个实施例中,用于第一语音输入的标签可能已经被传递给技能和/或外部***,并且该技能和/或外部***可以(至少部分地)基于识别任何具有特定标签的表示并对其应用一个或多个规则来删除第一语音输入的任何表示。
图6是示出了根据一个实施例的用于实现用于语音捕获设备的语音激活的选择性存储器的方法的另一方面的流程图,该方法包括删除以私人模式输入的语音的表示。如610中所示,可以从语音捕获设备接收第一语音输入。可以经由网络接收第一语音输入,并且第一语音输入可以由服务提供商环境的一项或多项服务分析。第一语音输入可以包括来自设备的用户的一个或多个话语。如620中所示,可以对第一语音输入执行语音输入分析。该分析可以确定第一语音输入代表进入私人模式、安全模式、执行会话或需要增强安全性的会话的命令。例如,分析可以应用语音到文本技术来检测短语(依照唤醒词或其他用户提示进行语音捕获),例如“忘记下一小时的一切”、“参加执行会议”、“去记录”等等。(至少部分地)基于对第一语音输入的分析,可以确定私人会话的开始时间和/或持续时间。私人会话可以持续一段由用户标识的时间段,或者无限期地持续,例如,直到用户提供额外的输入以结束私人会话为止。基于对第一语音输入的分析,服务提供商环境可以为设备和/或用户启动私人会话。在一个实施例中,服务提供商环境可以不基于语音输入而是基于设备的用户的身份,基于在电话会议邀请中检测到的与安全有关的关键字,等等,发起私人会话。
在服务提供商环境中,用户可能对设备没有所有权特权。例如,用户可以是使用与雇主相关联并由雇主管理的语音捕获设备的雇员,或者用户可以是使用与旅馆相关联并由旅馆管理的语音捕获设备的旅馆客人。在一些实施例中,管理员可以在服务提供商环境内以足够的特权来为特定用户和/或设备启用或禁用启动私人会话的能力。在一个实施例中,服务提供商环境可以识别提供第一语音输入的用户,并且可以确定该用户是否具有进入私人会话的特权。
如630所示,在私人会话中,可以从语音捕获设备接收第二语音输入。可以经由网络接收第二语音输入,并且第一语音输入可以由服务提供商环境的一项或多项服务分析。第二语音输入可以包括来自设备的用户的一个或多个话语。基于对第二语音输入的分析,服务提供商环境可以调用一个或多个技能,并且该技能可以潜在地与一个或多个外部***交互以完成任何所请求的任务。
如640中所示,第二语音输入的一个或多个表示可以被存储在例如与服务提供商环境相关联的存储中。表示可以包括音频数据、转录数据(例如,使用音频数据的语音到文本分析生成的)和/或语音输入的其他伪像。表示可以包括全部或部分话语。所述表示可以存储在与设备和/或用户相关联的语音输入的日志中、在语音输入上使用机器学习技术以改善未来的分析的语音输入分析服务中、在基于语音输入调用的服务提供商环境内的一个或多个技能中、在与技能交互的一个或多个外部***中和/或在其他合适的位置中。第二语音输入的表示可以与标签关联,并且标签可以包括标识第二语音输入的特征、用于捕获第二语音输入的设备、与第二语音输入相关联的用户等的元数据。在一个实施例中,标签可以代表服务提供商环境的背景内的全球唯一标识符(GUID)。在一实施例中,第二语音输入的表示可以基于其在私人会话中的接收而被标记,以便删除。在一个实施例中,与第二语音输入相关联的标签可以被生成一次(例如,当输入在设备处被捕获或者被服务提供商环境接收时),然后与输入的其他表示一起传播,所述其他表示例如存储在服务提供商环境中的转录或传递给基于语音输入的分析调用的技能的表示。通过以这种方式传播标签,可以在服务提供商环境中并且还可能在外部***中追踪特定话语的路径,以便于删除话语记录。
如650中所示,可以删除第二语音输入的一个或多个表示。服务提供商环境可以自动调用服务提供商环境内的删除功能(例如技能或服务)以忘记在私人会话中生成和存储的任何数据。删除功能可以基于逐个话语或针对私人会话期间进行的所有发言被调用。删除功能可以在每次话语之后或在私人会话结束时调用。服务提供商环境可以将任何需要的数据(例如标签或要删除的话语的其他标识特征)传递到删除功能。删除功能可以尝试在任何调用的技能中(例如,通过发送删除命令)和/或所调用的技能与之交互的任何外部***中(例如,通过发送删除命令),在服务提供商环境内(例如,在语音输入日志中)删除第二语音输入的任何表示。在各种实施例中,删除可以包括将一个或多个文件或其他存储元件标记为删除,改变目录结构以使得所述文件或存储元件不可访问,改变或去除安全密钥(例如,与用户相关联的)以使所述文件或存储元素不可访问,依此类推。在一个实施例中,可以通过(至少部分地)基于它们的关联标签的内容将一种或多种规则应用于表示来执行删除。例如,如果标签指示与语音输入相关联的设备和时间戳,则特定规则可以删除与特定设备相关联并且在特定时间窗口内接收到的语音输入的表示。作为另一实例,如果标签指示应当删除话语,则特定规则可以删除与此类标签相关联的语音输入的表示。在一个实施例中,为了额外安全性,还可以删除第一语音输入的一个或多个表示。
说明性计算机***
在至少一些实施例中,实施在本文描述的一个或多个技术的一部分或全部的计算机***可以包括计算机***,所述计算机***包括或被配置为访问一个或多个计算机可读介质。图7示出这类计算设备3000。在所示的实施例中,计算设备3000包括通过输入/输出(I/O)接口3030联接到***存储器3020的一个或多个处理器3010。计算设备3000进一步包括联接到I/O接口3030的网络接口3040。
在各种实施例中,计算设备3000可以是包括一个处理器3010的单处理器***或包括若干个处理器3010(例如两个、四个、八个或另一合适数量)的多处理器***。处理器3010可包括能够执行指令的任何合适的处理器。举例来说,在各种实施例中,处理器3010可以是实施各种指令集架构(ISA)(如x86、PowerPC、SPARC,或MIPS ISA,或任何其它合适的ISA)中的任何指令集架构的处理器。在多处理器***中,处理器3010中的每一个处理器通常可,但并非必须实施同一ISA。
***存储器3020可被配置为存储可由处理器(一个或多个)3010访问的程序指令和数据。在各种实施例中,可使用任何合适的存储器技术(如静态随机存取存储器(SRAM)、同步动态RAM(SDRAM)、非易失性/闪存型存储器或任何其它类型的存储器)实施***存储器3020。在所示实施例中,实施一个或多个期望功能的程序指令和数据(如以上所描述的那些方法、技术和数据)被示出为作为代码(即程序指令)3025和数据3026存储在***存储器3020内。
在一个实施例中,I/O接口3030可被配置为协调处理器3010、***存储器3020与包括网络接口3040或其它***接口的设备中的任何***设备之间的I/O流量。在一些实施例中,I/O接口3030可执行任何必要的协议、定时或其它数据转换,以将来自一个组件(例如***存储器3020)的数据信号转换为适用于另一个组件(例如处理器3010)使用的格式。在一些实施例中,例如,I/O接口3030可包括对通过各种类型的***总线(如***组件互连(PCI)总线标准或通用串行总线(USB)标准的变体)所附接的设备的支持。在一些实施例中,例如,I/O接口3030的功能可分成如北桥和南桥的两个或更多个单独的组件。此外,在一些实施例中,I/O接口3030(如用于***存储器3020的接口)的一些或所有功能可直接并入到处理器3010中。
网络接口3040可被配置为允许数据在计算设备3000与附接到一个或多个网络3050的其它设备3060之间交换。在各种实施例中,例如,网络接口3040可支持通过任何合适的有线或无线通用数据网络(如以太网类型)进行的通信。另外,网络接口3040可支持通过电信/电话网络(如模拟语音网络或数字光纤通信网络)、通过存储区域网络(如光纤通道SAN)或通过任何其它合适类型的网络和/或协议进行的通信。
在一些实施例中,***存储器3020可以是计算机可读(即,计算机可访问)介质的一个实施例,所述计算机可读介质被配置为存储如以上所描述的用于实施对应的方法和装置的实施例的程序指令和数据。然而,在其它实施例中,程序指令和/或数据可在不同类型的计算机可读介质上接收、发送或存储。一般而言,计算机可读介质可包括通过I/O接口3030联接到计算设备3000的非暂态存储介质或存储器介质,如磁性或光学介质,例如,磁盘或DVD/CD。非暂态计算机可读存储介质还可包括在计算设备3000的一些实施例中可作为***存储器3020或另一种类型的存储器被包括的任何易失性或非易失性介质,如RAM(例如,SDRAM、DDR SDRAM、RDRAM、SRAM等)、ROM等。进一步地,计算机可读介质可包括传输介质或如电信号、电磁信号或数字信号的信号,所述传输介质或所述信号经由如网络和/或无线链路的通信介质进行传送,如可经由网络接口3040实施。可使用如图7所示的计算设备的多个计算设备中的部分或全部计算设备来实施各个实施例中的所描述功能;例如,在各种不同的设备和服务器上运行的软件组件可协作以提供功能。在一些实施例中,可以使用存储设备、网络设备或各种类型的计算机***来实施所描述的功能的一部分。如本文所使用的术语“计算设备”是指至少所有这些类型的设备,并且不限于这些类型的设备。
本公开的实施例还可根据以下条款进行描述:
1.一种***,其包括:
在服务提供商环境中实现一项或多项服务的一个或多个计算设备;和
一个或多个语音捕获设备,其中所述一个或多个语音捕获设备经由网络通信地
耦合到所述一项或多项服务;并且
其中所述一项或多项服务可由所述一个或多个计算设备执行以:
经由所述网络从所述一个或多个语音捕获设备接收第一语音输入,其中第一语音输入包括来自所述一个或多个语音捕获设备的用户的一个或多个话语;
在所述服务提供商环境中存储第一语音输入的表示,其中所述第一语音输入的表示与标签相关联;
经由所述网络从所述一个或多个语音捕获设备接收第二语音输入;
使用对第二语音输入的分析,确定第二语音输入表示忽略第一语音输入的命令;和
基于对第二语音输入的分析,删除所述第一语音输入的表示,其中通过基于所述标签的内容应用一个或多个规则来删除所述第一语音输入的表示。
2.根据条款1所述的***,其中所述一项或多项服务可由所述一个或多个计算设备进一步执行以:
基于对第一语音输入的分析,调用一个或多个动作,其中所述一个或多个动作由所述服务提供商环境中的所述一项或多项服务执行;和
基于对第二语音输入的分析,还原所述一个或多个动作的一个或多个效果。
3.根据条款1所述的***,其中所述一项或多项服务可由所述一个或多个计算设备进一步执行以:
基于对第一语音输入的分析,调用一个或多个动作,其中所述一个或多个动作由所述服务提供商环境外部的一个或多个***执行;和
基于对第二语音输入的分析,向所述服务提供商环境外部的所述一个或多个***发送撤消所述一个或多个动作的命令。
4.根据条款1所述的***,其中使用存储在所述服务提供商环境中的配置数据链接所述语音捕获设备。
5.一种由计算机实施的方法,其包括:
在包括一项或多项服务的服务提供商环境处,经由网络从所述一个或多个语音捕获设备接收第一语音输入,其中第一语音输入包括来自所述一个或多个语音捕获设备的用户的一个或多个话语;
存储第一语音输入的表示;
在所述服务提供商环境处,经由所述网络接收来自所述一个或多个语音捕获设备的第二语音输入,其中第二语音输入表示忽略第一语音输入的命令;和
基于第二语音输入,删除第一语音输入的表示。
6.根据条款5所述的方法,其进一步包括:
基于第一语音输入,调用一个或多个动作,其中所述一个或多个动作由所述服务提供商环境中的所述一项或多项服务执行;和
基于第二语音输入,还原所述一个或多个动作的一个或多个效果。
7.根据条款5所述的方法,其进一步包括:
基于第一语音输入调用一个或多个动作,其中所述一个或多个动作由所述服务提供商环境中的一个或多个启用语音的技能执行;和
基于第二语音输入,向所述一个或多个启用语音的技能发送命令以撤消所述一个或多个动作。
8.根据条款5所述的方法,其进一步包括:
基于第一语音输入,调用一个或多个动作,其中所述一个或多个动作由所述服务提供商环境外部的一个或多个***执行;和
基于第二语音输入,向所述服务提供商环境外部的所述一个或多个***发送撤消所述一个或多个动作的命令。
9.根据条款5所述的方法,其中存储在第一语音输入之前的多个话语的表示,其中第二语音输入表示忽略在第一语音输入之前的所述多个话语的命令,并且其中所述方法进一步包括:
基于第二语音输入,删除在第一语音输入之前的所述多个话语的表示。
10.根据条款5所述的方法,其中所述第一语音输入的表示包括音频数据。
11.根据条款5所述的方法,其中所述第一语音输入的表示包括转录。
12.根据条款5所述的方法,其中所述第一语音输入的表示与所述服务提供商环境中的标签相关联,并且其中通过基于所述标签的内容应用一个或多个规则来删除所述第一语音输入的表示。
13.根据条款12所述的方法,其中存储第一语音输入的附加表示,其中所述第一语音输入的附加表示与所述标签相关联,并且其中通过基于所述标签的内容应用所述一个或多个规则来删除所述第一语音输入的附加表示。
14.一种计算机可读存储媒体,其存储程序指令,所述程序指令是计算机可执行的以执行:
在包括一项或多项服务的服务提供商环境处,经由网络从语音捕获设备接收第一语音输入,其中第一语音输入包括来自所述语音捕获设备的用户的一个或多个话语;
在所述服务提供商环境中存储第一语音输入的表示;
在所述服务提供商环境处,经由所述网络接收来自所述语音捕获设备的第二语音输入,其中第二语音输入表示忽略第一语音输入的命令;
使用对第二语音输入的分析,确定第二语音输入表示忽略第一语音输入的命令;和
基于第二语音输入的分析,删除第一语音输入的表示。
15.根据条款14所述的计算机可读存储介质,其中所述程序指令还可以由计算机执行以进行:
基于第一语音输入,调用一个或多个动作,其中所述一个或多个动作由所述服务提供商环境中的所述一项或多项服务执行;和
基于对第二语音输入的分析,还原所述一个或多个动作的一个或多个效果。
16.根据条款14所述的计算机可读存储介质,其中所述程序指令还可以由计算机执行以进行:
基于第一语音输入,调用一个或多个动作,其中所述一个或多个动作由所述服务提供商环境外部的一个或多个***执行;和
基于第二语音输入的分析,向所述服务提供商环境外部的所述一个或多个***发送撤消所述一个或多个动作的命令。
17.根据条款14所述的计算机可读存储介质,其中所述第一语音输入的表示包括音频数据。
18.根据条款14所述的计算机可读存储介质,其中所述第一语音输入的表示包括所述第一语音输入的字母数字转录。
19.根据条款14所述的计算机可读存储介质,其中所述第二语音输入在第一语音输入之前接收,并且其中第二语音输入表示进入私人模式的命令。
20.根据条款14所述的计算机可读存储介质,其中所述用户在所述服务提供商环境中缺少所述语音捕获设备的所有权特权。
如附图中绘示并且在本文描述的各种方法表示了方法的实施例的实例。方法可以以软件、硬件或其组合的方式实施。在方法中的各种方法中,可改变步骤的顺序,并且可对各种元素进行添加、重新排序、组合、省略、修改等。可自动地(例如,在没有由用户输入直接提示的情况下)和/或以编程方式(例如,根据程序指令)执行步骤中的各个步骤。
本文中对本发明的描述中所使用的术语仅出于描述特定实施例的目的并且并不旨在对本发明进行限制。如在本发明的说明书和所附权利要求书中所用的,单数形式“一”、“一个”和“所述”旨在也包括复数形式,除非上下文另有明确说明。还应理解的是,本文所用的术语“和/或”是指并且涵盖一个或多个相关联的所列项目的任何和所有可以能的组合。应进一步理解的是,当在本说明书中使用时,术语“包括”、“包括的”、“包含”和/或“包含的”指定了声明的特征、整体、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其组合。
如本文所使用的,取决于上下文,术语“如果”可以被解释为意味“当……时”或“在……上”或“响应于确定”或“响应于检测”。类似地,取决于上下文,短语“如果是确定的”或“如果[陈述的条件或事件]被检测到”可以被解释为意味“在确定时”或“响应于确定”或“在检测到[所述条件或事件]时”或“响应于检测到[陈述的条件或事件]”。
应当理解的是,尽管本文可以使用术语第一、第二等来描述各种组件,但是这些元素不应受这些术语限制。这些术语仅用于将一个元素与另一元素区分开。例如,在不脱离本发明的范围的情况下,第一接触可以被称为第二接触,并且类似地,第二接触可以被称为第一接触。第一触点和第二触点两者都是触点,但是它们不是同一触点
本文阐述了许多特定的细节以提供对所要求保护的主题的透彻理解。然而,本领域技术人员将理解,所要求保护的主题可以在没有这些特定的细节的情况下实施。在其它实例中,将不详细描述本领域技术人员已知的方法、装置或***,使得不混淆所要求保护的主题。对于受益于这个公开内容的本领域技术人员来说显而易见的是,可以进行各种修改和改变。本发明旨在包含所有这些修改和变化,相应地,以上描述应被认为是说明性的而不是限制性的。

Claims (15)

1.一种***,其包括:
在服务提供商环境中实现一项或多项服务的一个或多个计算设备;和
一个或多个语音捕获设备,其中所述一个或多个语音捕获设备经由网络通信地耦合到所述一项或多项服务;并且
其中所述一项或多项服务可由所述一个或多个计算设备执行以:
经由所述网络从所述一个或多个语音捕获设备接收第一语音输入,其中第一语音输入包括来自所述一个或多个语音捕获设备的用户的一个或多个话语;
在所述服务提供商环境中存储第一语音输入的表示,其中所述第一语音输入的表示与标签相关联;
经由所述网络从所述一个或多个语音捕获设备接收第二语音输入;
使用对第二语音输入的分析,确定第二语音输入表示忽略第一语音输入的命令;和
基于对第二语音输入的分析,删除所述第一语音输入的表示,其中通过基于所述标签的内容应用一个或多个规则来删除所述第一语音输入的表示。
2.根据权利要求1所述的***,其中所述一项或多项服务可由所述一个或多个计算设备进一步执行以:
基于对第一语音输入的分析,调用一个或多个动作,其中所述一个或多个动作由所述服务提供商环境中的所述一项或多项服务执行;和
基于对第二语音输入的分析,还原所述一个或多个动作的一个或多个效果。
3.根据权利要求1所述的***,其中所述一项或多项服务可由所述一个或多个计算设备进一步执行以:
基于对第一语音输入的分析,调用一个或多个动作,其中所述一个或多个动作由所述服务提供商环境外部的一个或多个***执行;和
基于对第二语音输入的分析,向所述服务提供商环境外部的所述一个或多个***发送撤消所述一个或多个动作的命令。
4.一种计算机实施的方法,其包括:
在包括一项或多项服务的服务提供商环境处,经由网络从所述一个或多个语音捕获设备接收第一语音输入,其中第一语音输入包括来自所述一个或多个语音捕获设备的用户的一个或多个话语;
存储第一语音输入的表示;
在所述服务提供商环境处,经由所述网络接收来自所述一个或多个语音捕获设备的第二语音输入,其中第二语音输入表示忽略第一语音输入的命令;和
基于第二语音输入,删除第一语音输入的表示。
5.根据权利要求4所述的方法,其进一步包含:
基于第一语音输入,调用一个或多个动作,其中所述一个或多个动作由所述服务提供商环境中的所述一项或多项服务执行;和
基于第二语音输入,还原所述一个或多个动作的一个或多个效果。
6.根据权利要求4所述的方法,其进一步包含:
基于第一语音输入调用一个或多个动作,其中所述一个或多个动作由所述服务提供商环境中的一个或多个启用语音的技能执行;和
基于第二语音输入,向所述一个或多个启用语音的技能发送命令以撤消所述一个或多个动作。
7.根据权利要求4所述的方法,其进一步包含:
基于第一语音输入,调用一个或多个动作,其中所述一个或多个动作由所述服务提供商环境外部的一个或多个***执行;和
基于第二语音输入,向所述服务提供商环境外部的所述一个或多个***发送撤消所述一个或多个动作的命令。
8.根据权利要求4所述的方法,其中存储在第一语音输入之前的多个话语的表示,其中第二语音输入表示忽略在第一语音输入之前的所述多个话语的命令,并且其中所述方法进一步包括:
基于第二语音输入,删除在第一语音输入之前的所述多个话语的表示。
9.根据权利要求4所述的方法,其中所述第一语音输入的表示包括音频数据。
10.根据权利要求4所述的方法,其中所述第一语音输入的表示包括转录。
11.根据权利要求4所述的方法,其中所述第一语音输入的表示与所述服务提供商环境中的标签相关联,并且其中通过基于所述标签的内容应用一个或多个规则来删除所述第一语音输入的表示。
12.根据权利要求11所述的方法,其中存储第一语音输入的附加表示,其中所述第一语音输入的附加表示与所述标签相关联,并且其中通过基于所述标签的内容应用所述一个或多个规则来删除所述第一语音输入的附加表示。
13.一种计算机可读存储介质,所述计算机可读存储介质存储程序指令,所述程序指令能够由计算机执行,以执行:
在包括一项或多项服务的服务提供商环境处,经由网络从语音捕获设备接收第一语音输入,其中第一语音输入包括来自所述语音捕获设备的用户的一个或多个话语;
在所述服务提供商环境中存储第一语音输入的表示;
在所述服务提供商环境处,经由所述网络接收来自所述语音捕获设备的第二语音输入,其中第二语音输入表示忽略第一语音输入的命令;
使用对第二语音输入的分析,确定第二语音输入表示忽略第一语音输入的命令;和
基于第二语音输入的分析,删除第一语音输入的表示。
14.根据权利要求13所述的计算机可读存储介质,其中所述程序指令还可以由计算机执行以进行:
基于第一语音输入,调用一个或多个动作,其中所述一个或多个动作由所述服务提供商环境中的所述一项或多项服务执行;和
基于对第二语音输入的分析,还原所述一个或多个动作的一个或多个效果。
15.根据权利要求13所述的计算机可读存储介质,其中所述程序指令还可以由计算机执行以进行:
基于第一语音输入,调用一个或多个动作,其中所述一个或多个动作由所述服务提供商环境外部的一个或多个***执行;和
基于第二语音输入的分析,向所述服务提供商环境外部的所述一个或多个***发送撤消所述一个或多个动作的命令。
CN201880057850.1A 2017-09-06 2018-09-05 用于语音捕获设备的语音激活的选择性存储器 Active CN111052230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310868837.7A CN116682431A (zh) 2017-09-06 2018-09-05 用于语音捕获设备的语音激活的选择性存储器

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/697,345 US10796687B2 (en) 2017-09-06 2017-09-06 Voice-activated selective memory for voice-capturing devices
US15/697,345 2017-09-06
PCT/US2018/049525 WO2019050932A1 (en) 2017-09-06 2018-09-05 SELECTIVE VOICE-ACTIVATED MEMORY FOR VOICE CAPTURE DEVICES

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310868837.7A Division CN116682431A (zh) 2017-09-06 2018-09-05 用于语音捕获设备的语音激活的选择性存储器

Publications (2)

Publication Number Publication Date
CN111052230A true CN111052230A (zh) 2020-04-21
CN111052230B CN111052230B (zh) 2023-07-28

Family

ID=63708450

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201880057850.1A Active CN111052230B (zh) 2017-09-06 2018-09-05 用于语音捕获设备的语音激活的选择性存储器
CN202310868837.7A Pending CN116682431A (zh) 2017-09-06 2018-09-05 用于语音捕获设备的语音激活的选择性存储器

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202310868837.7A Pending CN116682431A (zh) 2017-09-06 2018-09-05 用于语音捕获设备的语音激活的选择性存储器

Country Status (5)

Country Link
US (2) US10796687B2 (zh)
EP (1) EP3669355B1 (zh)
JP (1) JP6980903B2 (zh)
CN (2) CN111052230B (zh)
WO (1) WO2019050932A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11580974B2 (en) * 2019-07-02 2023-02-14 Baidu Online Network Technology (Beijing) Co., Ltd. Method for exiting a voice skill, apparatus, device and storage medium

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10796687B2 (en) 2017-09-06 2020-10-06 Amazon Technologies, Inc. Voice-activated selective memory for voice-capturing devices
US10715604B1 (en) 2017-10-26 2020-07-14 Amazon Technologies, Inc. Remote system processing based on a previously identified user
US10567515B1 (en) * 2017-10-26 2020-02-18 Amazon Technologies, Inc. Speech processing performed with respect to first and second user profiles in a dialog session
US20190295540A1 (en) * 2018-03-23 2019-09-26 Cirrus Logic International Semiconductor Ltd. Voice trigger validator
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10747181B2 (en) * 2018-05-23 2020-08-18 Suzanne Stradley Electronic talking stick
US10938990B2 (en) * 2018-05-23 2021-03-02 Suzanne Stradley Electronic talking stick
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
WO2020004881A1 (en) * 2018-06-25 2020-01-02 Samsung Electronics Co., Ltd. Methods and systems for enabling a digital assistant to generate an ambient aware response
US10777196B2 (en) * 2018-06-27 2020-09-15 The Travelers Indemnity Company Systems and methods for cooperatively-overlapped and artificial intelligence managed interfaces
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
JP7330066B2 (ja) * 2019-03-27 2023-08-21 パナソニックホールディングス株式会社 音声認識装置、音声認識方法及びそのプログラム
US11308966B2 (en) * 2019-03-27 2022-04-19 Panasonic Intellectual Property Corporation Of America Speech input device, speech input method, and recording medium
US11657800B2 (en) * 2019-04-26 2023-05-23 Lg Electronics Inc. Electronic device with wakeup word determined multi-mode operation
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021142055A1 (en) * 2020-01-07 2021-07-15 Google Llc Preventing non-transient storage of assistant interaction data and/or wiping of stored assistant interaction data
US11410659B1 (en) * 2020-03-30 2022-08-09 Amazon Technologies, Inc. Dynamic skill endpoint
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11568135B1 (en) * 2020-09-23 2023-01-31 Amazon Technologies, Inc. Identifying chat correction pairs for training models to automatically correct chat inputs
US11947783B2 (en) * 2021-01-25 2024-04-02 Google Llc Undoing application operation(s) via user interaction(s) with an automated assistant

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010016815A1 (en) * 1997-06-06 2001-08-23 Hidetaka Takahashi Voice recognition apparatus and recording medium having voice recognition program recorded therein
US20060235699A1 (en) * 2005-04-18 2006-10-19 International Business Machines Corporation Automating input when testing voice-enabled applications
JP2009109585A (ja) * 2007-10-26 2009-05-21 Panasonic Electric Works Co Ltd 音声認識制御装置
US8219407B1 (en) * 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US8630851B1 (en) * 2011-06-29 2014-01-14 Amazon Technologies, Inc. Assisted shopping
US20150045003A1 (en) * 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
CN105009204A (zh) * 2012-12-11 2015-10-28 亚马逊技术有限公司 语音识别功率管理
WO2016003419A1 (en) * 2014-06-30 2016-01-07 Nuance Communications, Inc. Mobile device for speech input and text delivery
US20160042748A1 (en) * 2014-08-11 2016-02-11 Rawles Llc Voice application architecture
US20160239258A1 (en) * 2015-02-16 2016-08-18 International Business Machines Corporation Learning intended user actions
US9691378B1 (en) * 2015-11-05 2017-06-27 Amazon Technologies, Inc. Methods and devices for selectively ignoring captured audio data

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6141262A (ja) * 1984-07-31 1986-02-27 Omron Tateisi Electronics Co 音声記録可能なカ−ド
JPH07312647A (ja) 1994-05-17 1995-11-28 Ricoh Co Ltd テレビ会議通信装置
JP4765427B2 (ja) 2005-06-20 2011-09-07 船井電機株式会社 音声認識機能付きav機器
US8041573B2 (en) 2007-06-20 2011-10-18 International Business Machines Corporation Integrating a voice browser into a Web 2.0 environment
US8019608B2 (en) 2008-08-29 2011-09-13 Multimodal Technologies, Inc. Distributed speech recognition using one way communication
US9237384B2 (en) 2013-02-14 2016-01-12 Sonos, Inc. Automatic configuration of household playback devices
JP6229287B2 (ja) 2013-04-03 2017-11-15 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
US9390079B1 (en) 2013-05-10 2016-07-12 D.R. Systems, Inc. Voice commands for report editing
JP6302707B2 (ja) 2014-03-06 2018-03-28 クラリオン株式会社 対話履歴管理装置、対話装置および対話履歴管理方法
US10726831B2 (en) 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US10631123B2 (en) 2014-09-24 2020-04-21 James Thomas O'Keeffe System and method for user profile enabled smart building control
CN104714414B (zh) 2015-03-25 2018-11-02 小米科技有限责任公司 智能家居设备的控制方法及装置、电子设备
US10333904B2 (en) 2015-08-08 2019-06-25 Peter J. Tormey Voice access and control
KR102414122B1 (ko) * 2017-04-19 2022-06-29 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
US10796687B2 (en) 2017-09-06 2020-10-06 Amazon Technologies, Inc. Voice-activated selective memory for voice-capturing devices

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010016815A1 (en) * 1997-06-06 2001-08-23 Hidetaka Takahashi Voice recognition apparatus and recording medium having voice recognition program recorded therein
US20060235699A1 (en) * 2005-04-18 2006-10-19 International Business Machines Corporation Automating input when testing voice-enabled applications
JP2009109585A (ja) * 2007-10-26 2009-05-21 Panasonic Electric Works Co Ltd 音声認識制御装置
US8219407B1 (en) * 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US8630851B1 (en) * 2011-06-29 2014-01-14 Amazon Technologies, Inc. Assisted shopping
CN105009204A (zh) * 2012-12-11 2015-10-28 亚马逊技术有限公司 语音识别功率管理
US20150045003A1 (en) * 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
WO2016003419A1 (en) * 2014-06-30 2016-01-07 Nuance Communications, Inc. Mobile device for speech input and text delivery
US20160042748A1 (en) * 2014-08-11 2016-02-11 Rawles Llc Voice application architecture
US20160239258A1 (en) * 2015-02-16 2016-08-18 International Business Machines Corporation Learning intended user actions
US9691378B1 (en) * 2015-11-05 2017-06-27 Amazon Technologies, Inc. Methods and devices for selectively ignoring captured audio data

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PO-CHUAN LIN: "Personal speech calendar with timing keywords aware and schedule time prediction functions", 《TENCON 2010 - 2010 IEEE REGION 10 CONFERENCE》 *
刘盈: "大词表连续语音识别***的研究与实现", 《中国优秀硕士学位论文全文数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11580974B2 (en) * 2019-07-02 2023-02-14 Baidu Online Network Technology (Beijing) Co., Ltd. Method for exiting a voice skill, apparatus, device and storage medium

Also Published As

Publication number Publication date
CN116682431A (zh) 2023-09-01
CN111052230B (zh) 2023-07-28
EP3669355A1 (en) 2020-06-24
US20190073998A1 (en) 2019-03-07
US20210020163A1 (en) 2021-01-21
US11682382B2 (en) 2023-06-20
WO2019050932A1 (en) 2019-03-14
JP6980903B2 (ja) 2021-12-15
JP2020533628A (ja) 2020-11-19
US10796687B2 (en) 2020-10-06
EP3669355B1 (en) 2022-07-06

Similar Documents

Publication Publication Date Title
CN111052230B (zh) 用于语音捕获设备的语音激活的选择性存储器
US11706217B2 (en) Managing voice applications within a digital workspace
US20220270606A1 (en) Voice-based parameter assignment for voice-capturing devices
US11916913B2 (en) Secure audio transcription
CN105814535B (zh) 呼叫中的虚拟助理
US10757631B2 (en) Pausing functions of an assistant device during an active telephone call
JP6785774B2 (ja) 通話の多様な部分を切り離すためのスイッチコントローラ
CN110555321B (zh) 智能家居***中的数据处理方法、装置及存储介质
US11818282B2 (en) Non-verbal sensitive data authentication
US10079935B1 (en) Managing sensitive information transfer between parties in a telephone conversation
US20220239698A1 (en) Securing endpoints for virtual meetings
US10565191B2 (en) Cognitive program suite for a cognitive device and a mobile device
WO2016124008A1 (zh) 一种语音控制方法、装置及***
US10057418B1 (en) Managing telephone interactions of a user and an agent
US20230129467A1 (en) Systems and methods to analyze audio data to identify different speakers
US11722474B2 (en) Embedding content in audio content through a voice assistant
US10715343B1 (en) Device monitoring for conference reservation cancellation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant