CN105283836A - 利用相同的音频输入的设备唤醒和说话者验证 - Google Patents
利用相同的音频输入的设备唤醒和说话者验证 Download PDFInfo
- Publication number
- CN105283836A CN105283836A CN201380077357.3A CN201380077357A CN105283836A CN 105283836 A CN105283836 A CN 105283836A CN 201380077357 A CN201380077357 A CN 201380077357A CN 105283836 A CN105283836 A CN 105283836A
- Authority
- CN
- China
- Prior art keywords
- computing equipment
- phrase
- audio frequency
- user
- wake
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012795 verification Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 claims description 91
- 230000002618 waking effect Effects 0.000 claims description 48
- 238000013519 translation Methods 0.000 claims description 18
- 230000000712 assembly Effects 0.000 claims description 13
- 238000000429 assembly Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000036961 partial effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 22
- 230000007704 transition Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 34
- 230000006399 behavior Effects 0.000 description 22
- 238000004891 communication Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000005611 electricity Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
- G06F1/3231—Monitoring the presence, absence or movement of users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3287—Power saving characterised by the action undertaken by switching off individual functional units in the computer system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3293—Power saving characterised by the action undertaken by switching to a less power-consuming processor, e.g. sub-CPU
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Otolaryngology (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
- Power Sources (AREA)
Abstract
在本文中描述了允许用户唤醒在低功率状态中运行的计算设备,并且用于通过说出单个唤醒短语来验证用户的技术。由低功率引擎来执行唤醒短语识别。在一些实施例中,低功率引擎也可以执行说话者验证。在其他实施例中,在唤醒短语被识别后将移动设备唤醒,并且除了低功率引擎之外的组件对包含唤醒短语的音频输入的一部分执行语音验证。多于一个唤醒短语可以与特定的用户关联,并且分离的用户可以与不同的唤醒短语关联。不同的唤醒短语可以使得设备从低功率状态转换到各种活动状态。
Description
背景技术
大多数现代计算设备响应于各种事件(例如用户在一段时间内没有和设备进行交互)而进入低功率状态以保存电量。为了“唤醒”处于低功率状态中的设备,用户通常需要以某种方式与设备进行物理交互。例如,用户可能需要在键盘上点击Ctrl+Alt+Delete、按遥控器或智能电话上的按钮、或者解锁触摸屏。此外,用户通常需要例如在用户被允许操作设备之前,通过在触摸屏上输入密码而与设备进行第二次交互以作为授权或者验证过程的一部分。
附图说明
图1是利用相同的音频输入来识别唤醒短语并执行说话者验证的第一计算设备的方框图。
图2是利用相同的音频输入来识别唤醒短语并执行说话者验证的第二计算设备的方框图。
图3是利用相同的音频输入来唤醒计算设备并执行说话者验证的第一示例性方法的流程图。
图4是利用相同的音频输入来唤醒计算设备并执行说话者验证的第二示例性方法的流程图。
图5是利用相同的音频输入来唤醒计算设备并执行说话者验证的第三示例性方法的流程图。
图6是其中可以实现本文所描述的技术的示例性计算设备的方框图。
图7是可以执行计算机可执行指令以作为实现本文中所描述的技术的一部分的示例性处理器核心的方框图。
具体实施方式
在本文中公开的技术允许计算设备响应于用户说出单个唤醒短语而从低功率状态中唤醒,并且验证用户。因此,通过允许用户以更加免提和免视的方式与设备进行交互,可以使设备的用户界面更加自然。当设备处于低功率状态时,低功率引擎确定在设备处接收的音频输入是否包括人说出唤醒短语。如果检测到唤醒短语,则设备利用包含唤醒短语的音频的一部分来输入验证说话者。说话者验证可以由低功率引擎或由在检测到唤醒短语之后被唤醒的另一组件来执行。
如在本文中使用的,术语“唤醒”或“叫醒”是指计算设备或计算设备的组件从低功率状态到活动状态的转换。低功率状态(例如,半睡半醒、睡眠或休眠状态)是计算设备比在活动状态中运行时消耗更少的电量的状态。例如,低功率状态可以是设备组件被禁用、或是以降低的时钟频率或供给电压运行的状态。例如,在低功率状态中运行的设备可以使其输出显示器关闭或变暗,或者使其处理器中的一个或多个以按比例缩小的频率运行。相应地,活动状态是计算设备比当在低功率状态中运行时消耗更多的电量的状态。因此,唤醒设备可以包括启用已经关闭了的输出显示器或按比例增大处理器的运行频率。
现在参考附图,其中通篇使用的相同的标号是指相同的元件。在以下的描述中,为了说明的目的阐述了许多具体细节以便提供对本文的透彻的理解。然而,可以显而易见的是,可以在没有这些具体细节的情况下实践新颖的实施例。在其他实例中,以方框图形式示出了公知的结构和设备,以便于对这些结构和设备的描述。目的是为了覆盖权利要求的范围内的所有修改、等同物、以及替代物。
图1是利用相同的音频输入来识别唤醒短语并执行说话者验证的第一计算设备100的方框图。计算设备(设备)100包括麦克风104、音频编码解码器108、低功率引擎(LPE)112、LPE驱动器116、说话者验证代理120、操作***122和一个或多个应用程序124。计算设备100在麦克风104处接收音频输入,这生成被传递至音频编码解码器108的音频信号。音频编码解码器108进而将音频信号转换成被提供给LPE112的数字信号。
低功率引擎112管理设备100中的捕获音频管线的方面。当设备处于低功率状态时,LPE112运行。在一些实施例中,当设备处于活动状态时,LPE112的组件也可以运行。除了当设备处于低功率状态时被启用之外,LPE112还可以以相对于当设备处于活动状态时提供给其他组件的频率或供给电压而言降低的频率或供给电压而运行。在一些实施例中,LPE112是低功率DSP(数字信号处理器)。
LPE112包对由音频编码解码器108生成的数字音频信号进行编码的编码器128,以及对接收到的音频执行唤醒短语识别和说话者验证的话音(voice)触发器和说话者验证(VTSV)模块134。编码器128将音频编码成可以由VTSV模块134使用的格式,例如PCM(脉冲编码调制)。VTSV模块134包括话音活动检测模块138、唤醒短语识别模块142、说话者验证模块148以及可选地唤醒短语存储设备154。通常,当设备100进入低功率状态时,将VTSV模块134***到音频捕获管线中,并且当设备100唤醒时,将VTSV模块134从音频捕获管线中移除。在一些实施例中,在设备100转换到低功率状态时是否将VTSV模块***到音频捕获管线中是基于用户设定确定的。
VTSV模块134确定被编码的音频输入是否包括唤醒短语并且对包括唤醒短语的音频输入的部分执行说话者验证。可以将在麦克风104处接收到的音频输入126的全部或部分传送至VTSV模块134。例如,只有在来自先前阶段的输入满足某些特性时,例如音频信号的幅度高于阈值水平,才可以将麦克风104、音频编码解码器108和/或编码器128配置为以将输出提供给音频捕获管线中的下一阶段。在其他实施例中,当设备100处于低功率状态中时,VTSV模块134处理在麦克风104处接收到的所有音频输入。
话音活动检测模块138确定被编码的音频是否包括人类语音。如果包括,则将包括所述语音的音频输入的部分传送至唤醒短语识别模块142。唤醒短语识别模块142采用已知的语音识别技术以确定音频输入是否包括包含唤醒短语的语音。
唤醒短语是可以使得在低功率状态中运行的计算设备唤醒的单词或短语(例如,“嘿,电话”、“起来”、“你好”)。在图1中,在计算设备100唤醒之前,还验证说话者。在其他实施例中,如在下文中关于图2所描述的,在检测到唤醒短语之后设备醒来,并且接着执行说话者验证。
计算设备可以采用各种唤醒短语策略。例如,在一些实施例中,不同的用户可以使用相同的唤醒短语以唤醒计算设备。在其他实施例中,用户可以说出多个唤醒短语中的一个以唤醒设备。在其他实施例中,各种的唤醒短语可以和不同的用户关联。例如,一个或多个唤醒短语可以和第一用户关联,并且一个或多个第二唤醒短语可以和第二用户关联。而且,不同的唤醒短语可以使得计算设备从低功率状态转换到不同的活动状态,例如高性能、标准和低性能活动状态。例如,这些活动状态之间的不同可以是启用的设备组件或配件的数量,设备的组件运行的时钟频率、应用至设备的组件的供给电压等。在一些实施例中,唤醒短语可以是用户可编程的或被计算设备制造商配置的。
唤醒短语识别模块142将音频输入和可以被设备存取的唤醒短语进行比较,所述唤醒短语例如存储在唤醒短语存储设备154中的唤醒短语。唤醒短语存储设备154还可以包括与被存储的唤醒短语相关联的一个或多个用户的指示。如果唤醒短语识别模块142确定音频输入包括唤醒短语,则说话者验证模块148验证说出唤醒短语的用户是有权操作设备的用户。在一些实施例中,利用已知的生物计量分析技术执行说话者验证。例如,可以将对音频输入执行的生物计量分析的结果与生物计量标识符或与被授权以操作计算设备的用户相关联的其他生物计量相关的信息进行比较。
对包括唤醒短语的音频输入的部分执行说话者验证。因此,对相同的音频输入执行说话者验证和唤醒短语识别。例如,如果唤醒短语识别模块142确定音频输入包括唤醒短语“嘿,电话”,则对包含“嘿,电话”唤醒短语的音频输入的部分执行说话者验证。
在说话者已经被验证为是被允许访问设备100的用户之后,设备100要被唤醒的通知将被传送至LPE驱动器116。LPE驱动器116将该通知传送至说话者验证代理服务120。代理服务120提供向设备100的操作***122事件以解锁设备100。代理服务120可以向操作***122提供事件以获得额外的任务,例如指示操作***122从而针对待由一个或多个应用程序124执行或利用的命令或输入而开始监测音频输入126。在一些实施例中,在设备已经被唤醒之后,VTSV模块134在音频捕获管线中被跳过。
在已经验证了说话者之后唤醒设备100可以降低设备100的功率消耗。例如,如果设备100响应于用户说出唤醒短语而被唤醒,但是用户没有被验证,则电量可能被浪费。
图2是利用相同的音频输入识别来唤醒短语并执行说话者验证的第二计算设备200的方框图。设备200具有和图1中的设备100共同的组件,但是不同的是,说话者验证功能是由在低功率引擎112外部的说话者验证模块220执行的。在设备200中,当唤醒短语识别模块142在音频输入中检测出唤醒短语时,将设备200唤醒并且将包含唤醒短语的音频采样复制到由LPE驱动器116分配的短语缓冲器210。LPE驱动器116从LPE112中接收已经检测到唤醒短语的通知,并且将该通知传送至说话者验证模块220中。说话者验证模块220对存储在短语缓冲器210中的音频采样执行验证。如果验证成功,则验证模块220向操作***122提供事件以解锁设备200。验证模块220可以向操作***提供额外的事件以针对提供给应用程序124的用户命令或输入而开始监测音频输入126。在计算设备200的替代的实施例中,说话者验证可以由设备的除了低功率引擎112之外的任何组件执行。
在一些实施例中,可以分阶段唤醒设备。例如,如果低功率引擎在音频输入中检测到唤醒短语,则低功率引擎可以使得计算设备的一个或多个第二组件从低功率状态转换到活动状态以执行说话者验证。如果验证了说话者,则可以唤醒设备的一个或多个第三组件(例如,计算设备的剩余组件,或其子集)以将设备带入活动状态。
在一些实施例中,唤醒短语可以被翻译为待由设备执行的命令。这些唤醒短语的示例包括“显示电子邮件”、“发送消息”、以及“我需导向”。计算设备可以将这些唤醒短语翻译为命令,并且在被唤醒后分别启动电子邮件应用程序、消息传送应用程序和导航应用程序。
在一些实施例中,设备可以在用户说出唤醒短语后对由用户提供的语音命令执行说话者验证。例如,响应于用户说出短语“嘿,电话,发送消息”,设备可以响应于检测到唤醒短语“嘿,电话”而被唤醒。接着,设备可以对“发送消息”执行说话者验证,其在说话者被验证后也可以被翻译为用于启动消息传送应用程序的命令。在一些实施例中,低功率引擎可以针对语音命令而翻译音频输入。替代地,低功率引擎可以执行唤醒短语识别,并且将包含在唤醒短语后说出的单词或短语的音频输入的部分传送至主机操作***,以进行说话者验证和命令翻译。可以由语音命令翻译模块来执行针对语音命令的音频输入翻译。
在另外的实施例中,可以在识别出唤醒短语之后并且在还没有验证用户的情况下唤醒设备。还没有验证用户是由于低功率引擎没有执行基于接收到的音频输入的说话者验证,或是由于说话者验证失败。在被唤醒后,计算设备可以将接收到的音频输入翻译为待由计算设备执行的命令,并且如果该命令是用户不可知的命令,则执行该命令。在这样的实施例中,低功率引擎可以传送接收到的不包括唤醒短语的音频输入中的至少一部分。可以将音频输入的该部分提供给设备的已经被唤醒的一个或多个组件,例如命令翻译模块。
用户不可知的命令可以是不要求用户的识别信息或个人数据,例如账户信息(例如,电子邮件、社交媒体、金融机构和其他账户的用户ID、密码和联系人)、设备使用历史(例如,网络浏览器、网络跟踪软件(cookies))、日程安排和用户偏好(例如,与各种设备可执行的应用程序相关联的电影、餐厅偏好)的任何命令。用户不可知的命令的示例包括询问设备的当前位置处的天气、体育赛事的结果和股票价格的命令。不是用户不可知的命令的示例包括例如“读取我的电子邮件”、“给我回家的导向”以及“呼叫Victoria”的命令。
在一个实施例中,在低功率状态中运行的计算设备可以被唤醒并且执行如下的用户不可知的命令。当拜访他的朋友John时,Bob拿起John的智能电话并说出了短语“嘿,电话,天气怎么样”。由于John已经一段时间没有和电话交互而在低功率状态中运行的John的智能电话,识别出唤醒短语“嘿,电话”。由于智能电话基于音频输入没有将Bob识别为被授权以操作该电话的用户,因此智能电话验证Bob的尝试失败了。将智能电话唤醒并且将包括短语“天气怎么样”的音频输入提供给智能电话的命令翻译模块。命令翻译模块识别出该短语是用户不可知的命令,并且对基于计算设备的当前位置向Bob提供天气预报的基于云的服务进行访问。在一些实施例中,命令翻译模块可以向基于网络的服务提供音频输入,所述基于网络的服务确定包括在接收到的音频输入中的命令是否是用户不可知的命令。
如果Bob说出短语“嘿,电话,读取我的电子邮件”,则电话(或基于云的服务)可以确定“读取我的电子邮件”不是用户不可知的命令并且智能电话将不执行该命令(例如,执行电子邮件应用程序、执行网络浏览器以及导航到基于云的网络服务)。
应当理解的是,图1和图2示出了可以被包括在包含本文中描述的技术的计算设备中的模块和组件的示例性组。在其他实施例中,计算设备可以比那些在图1和图2中示出的计算设备具有更多或更少的模块或组件。此外,可以将分离的模块组合成单个模块,并且单个模块可以被分成多个模块,例如,可以将音频编码解码器108和编码器128组合成单个模块。同样可以将话音活动检测模块138和唤醒短语识别模块142合并成单个模块。
可以以软件、硬件、固件或其组合实现在图1和图2中示出的模块。被称为被编程以执行方法的计算设备可以被编程以经由软件、硬件、固件或其组合来执行该方法。
图3是利用相同的音频输入来唤醒计算设备并执行说话者验证的第一示例性方法300的流程图。方法300可以例如由图1中所示的在低功率状态中运行的计算设备执行。在处理行为310处,设备接收音频输入。音频输入可以在内置麦克风处被接收。在处理行为320处,对音频输入执行话音检测。在一些实施例中,在麦克风处接收到的音频输入可以经历模拟到数字转换并且在执行话音检测前被编码。话音检测可以由话音活动检测模块执行。如果在接收到的音频输入中检测到话音,则在处理行为330处识别出音频输入中存在的任何语音。在处理行为340处,确定被识别的语音是否包括唤醒短语。语音识别和唤醒短语识别可以由唤醒短语识别模块执行。
如果识别出唤醒短语,则在处理行为350处执行说话者验证,并且在处理行为360处确定说话者是否已经被验证。处理行为350和360可以由说话者验证模块执行。如果说话者已经被验证,则方法300继续到处理行为370,在这里设备被唤醒。也可以将说话者已经被验证的指示传送至一个或多个上层(例如,操作***层、应用程序层)。如果在320处没有检测到话音,在340处没有识别出唤醒短语、或者在处理行为360处没有验证说话者,则设备保持在低功率状态,并且方法300返回至处理行为310以接收进一步的音频输入。
图4是利用相同的音频输入来唤醒计算设备并执行说话者验证的第二示例性方法400的流程图。方法400可以由例如图2中示出的在低功率状态中运行的计算设备200来执行。已经在上文中关于图3描述了处理行为310、320、330、340、和360。如果已经在接收到的音频输入中检测到话音,并且已经在音频中识别出语音,则方法400到达处理行为410。在处理行为410处,将包括识别出的唤醒短语的音频输入的一部分转移到存储器(例如,音频缓冲器),其中所述存储器对当前被禁用或另外处于低功率状态的设备组件是可存取的。这可以通过LPE112执行直接存储器访问来完成。在处理行为420处,将设备唤醒,并且设备的上层组件,例如说话者验证模块,接收唤醒短语已经被识别的通知。
在处理行为430处,利用包括先前复制到存储器中的识别出的唤醒短语的音频输入的所述部分来验证说话者。说话者验证在设备已经被唤醒后被执行,并且由除了设备的用于执行话音检测和唤醒短语识别的低功率组件之外的组件来执行。说话者验证可以由诸如在主机处理器上运行的主机操作***的组件来执行。如果在过程360处已经验证了说话者,则在处理行为470处通知上层(例如,操作***的上层、一个或多个应用程序层)说话者已经被验证。如果在320处没有检测到话音,在340处没有识别出唤醒短语,或者在360处没有验证说话者,则设备保持在低功率状态,并且方法400返回到处理行为310处以接收进一步的音频输入。在一些实施例中,方法300或400可以比那些示出的方法具有更多或更少的处理行为。
图5是利用相同的音频输入来唤醒计算设备并执行说话者验证的第三示例性方法500的流程图。方法500可以由诸如处于睡眠状态中的智能电话来执行。在睡眠状态中,关闭智能电话的触摸屏并且禁用一个或多个处理器。智能电话的音频捕获管线保持运行并且包括对音频输入执行唤醒短语识别和说话者验证的低功率引擎。
在处理行为510处,当计算设备处于低功率状态时,计算设备从在计算设备处的用户中接收音频输入。在该示例中,用户对智能电话说出唤醒短语“嘿,电话”。在处理行为520处,当计算设备仍然处于低功率状态时,确定音频输入包括唤醒短语。在该示例中,智能电话的低功率引擎在接收到的音频输入中识别唤醒短语“嘿,电话”。
在处理行为530处,至少部分地上基于包括唤醒短语的音频输入的一部分来验证用户。在该示例中,基于包括“嘿,电话”的唤醒短语的一部分来验证用户。通过将包括唤醒短语的音频输入的一部分的生物计量分析的结果和与被授权以操作设备的用户相关联的生物计量标识符进行比较,智能电话验证用户是被授权以使用设备的。
在处理行为540处,计算设备从低功率状态转换到活动状态。在该示例中,在用户被验证为被授权以操作设备的用户之后,智能电话通过打开显示器并且启用一个或多个处理而从睡眠状态转换到活动状态。用户不是必须要提供任何额外的音频输入以获得对设备的访问。因此,在提供了“嘿,电话”唤醒短语之后,用户可以被带至主屏幕或者在智能电话进入睡眠状态之前执行的应用程序。
在本文中所描述的技术具有至少以下的示例性优点。通过对相同的音频输入执行唤醒短语识别和说话者验证,计算设备向用户呈现了更简化的自然的用户界面;用户可以解锁设备并且以免提和免视的方式被验证。因此,用户从必须说出唤醒短语并且接着必须提供额外的输入(例如,话音、触摸屏、或键盘输入)以进行说话者验证中解放出来。此外,在只有在说话者已经被验证之后才唤醒设备的实施例中,降低了设备功耗。
在本文中描述的科技、技术和实施例可以由各种计算设备中的任何一种执行,其中所述计算设备包括移动设备(例如,智能电话、手持计算机、平板计算机、膝上型计算机、媒体播放机、便携式游戏机、相机和录像机)、非移动设备(例如,台式计算机、服务器、台式游戏机、机顶盒、智能电视)以及嵌入式设备(例如,包含在车辆、家庭或工作地中的设备)。如在本文中所用的,术语“计算设备”包括计算***,并且包括包含多个分立的物理组件。
图6是其中可以实现在本文中所描述的技术的示例性计算设备的方框图。通常而言,图6中示出的组件可以与示出的其他组件进行通信,尽管为了便于说明而没有示出所有的连接。设备600是包括第一处理器602和第二处理器604的多处理器***,并且被示出为包括点对点(P-P)互连。例如,处理器602的点对点(P-P)接口606经由点对点互连605耦合至处理器604的点对点接口607。应当理解的是,图6中示出的点对点互连中的任意一个或全部可以替代地被实现为多点分支总线,并且图6中示出的总线的任意一个或全部可以被点对点互连代替。
如图6中所示,处理器602和604是多核心处理器。处理器602包括处理器核心608和609,并且处理器604包括处理器核心610和611。处理器核心608-611可以按照相似于在下文中结合图7所讨论的方式或按照其他方式执行计算机可执行指令。
处理器602和604还分别包括至少一个共享的高速缓存存储器612和614。共享的高速缓存612和614可以存储由处理器(例如,处理器核心608-609和610-611)的一个或多个组件使用的数据(例如,指令)。共享的高速缓存612和614可以是设备600的存储器层级结构的一部分。例如,共享的高速缓存612可以本地地存储数据,所述数据也存储在存储器616中以允许处理器602的组件对数据更快地存取。在一些实施例中,共享的高速缓存612和614可以包括多个高速缓存层,例如1级(L1)、2级(L2)、3级(L3)、4级(L4),和/或其他高速缓存或高速缓存层,例如末级高速缓存(LLC)。
尽管设备600示出了具有两个处理器,但是设备600可以包括任何数量的处理器。此外,处理器可以包括任何数量的处理器核心。处理器可以采用各种形式,例如中央处理单元、控制器、图形处理器、加速器(例如,图形加速器或数字信号处理器(DSP))或现场可编程门阵列(FPGA)。设备中的处理器可以和设备中的其他处理器相同或不同。在一些实施例中,设备600可以包括异构或非对称于第一处理器、加速器、FPGA、或任意其他处理器的一个或多个处理器。***中的处理元件之间可以在包括构架、微构架、热、功耗特性等的指标度量范围方面存在多种不同。这些区别可以有效地将自身表现为在***的处理器之中的非对称性和异构性。在一些实施例中,处理器602和604驻留于相同的管芯封装中。
处理器602和604还包括存储器控制器逻辑(MC)620和622。如图6中所示,MC620和622分别控制耦合至处理器602和604的存储器616和618。存储器616和618可以包括各种类型的存储器,例如,易失性存储器(例如,动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM))或非易失性存储器(例如,闪速存储器)。在可替代的实施例中,虽然MC620和622被示出为集成到处理器602和604中时,但是MC可以是处理器外部的逻辑,并且可以包括一层或多层的存储器层级结构。
将处理器602和604经由P-P互连632和634耦合至输入/输出(I/O)子***630。点对点互连632将处理器602的点对点接口636与I/O子***630的点对点接口638进行耦合,并且点对点互连634将处理器604的点对点接口640与I/O子***630的点对点接口642进行耦合。输入/输出子***630还包括用于将I/O子***630耦合至图形引擎652的接口650,其中图形引擎652可以是高性能图形引擎。I/O子***630和图形引擎652经由总线654进行耦合。或者,总线654可以是点对点互连。
输入/输出子***630还经由接口662耦合至第一总线660。第一总线660可以是***组件互连(PCI)总线、PCI快速总线、另一第三代I/O互连总线或任意其他类型的总线。
可以将各种I/O设备664耦合至第一总线660。总线桥670可以将第一总线660耦合至第二总线680。在一些实施例中,第二总线680可以是低管脚数(LPC)总线。可以将各种设备耦合至第二总线680,其中各种设备包括例如键盘/鼠标682、音频I/O设备688和存储设备690,例如,硬盘驱动器、固态驱动器或用于存储计算机可执行指令(代码)692的其他存储设备。代码692可以包括用于执行本文中所描述的技术的计算机可执行指令。可以被耦合至第二总线680的额外的组件包括通信设备684,所述通信设备684可以利用一个或多个通信标准(例如,IEEE802.11标准及其补充)经由一个或多个有线或无线通信链路(例如,导线、电缆、以太网连接、射频(RF)信道、红外信道、Wi-Fi信道),在设备600和一个或多个有线或无线网络686(例如,Wi-Fi、蜂窝或卫星网络)之间提供通信。此外,设备600可以包括可以检测设备600的运动的一个或多个传感器689,例如加速计或陀螺仪。
设备600可以包括可移除存储器,例如闪速存储器卡(例如,SD(安全数字)卡、存储器棒、用户身份识别模块(SIM)卡)。设备600中的存储器(包括高速缓存612和614、存储器616和618以及存储设备690)可以存储用于执行操作***694和应用程序696的数据和/或计算机可执行指令。示例数据包括网页、文本消息、图像、声音文件、视频数据、唤醒短语、与特定的唤醒短语关联的用户、以及用于说话者验证的与特定用户相关联的生物计量分析结果、或经由一个或多个有线或无线网络由设备600发送至和/或接收自一个或多个网络服务器或其他设备的或用于由设备600利用的其他数据组。设备600也可以具有对诸如外部硬盘驱动器或基于云的存储的外部存储器(未示出)的访问。
操作***694可以控制在图6中示出的组件的分配和使用,并且支持一个或多个应用程序696。操作***694可以包括验证说出唤醒短语的用户是否被授权以操作设备的语音验证模块697。操作***还可以包括将唤醒短语翻译成将待由设备600执行的命令的命令翻译模块。应用程序696可以包括普通移动计算设备应用程序(例如,电子邮件应用程序、日历、联系人管理器、网络浏览器、消息发送应用程序),以及其他计算应用程序。
设备600可以支持各种输入设备,例如触摸屏、麦克风、照相机、物理键盘、以及轨迹球,和一个或多个输出设备,例如扬声器和显示器。其他可能的输入和输出设备包括压电式和其他触觉I/O设备。任何输入或输出设备可以在设备600内部、外部或可移除地与设备600可附接。外部输入和输出设备可以经由有线或无线连接而与设备600进行通信。
此外,计算设备600可以提供一个或多个自然用户界面(NUI)。例如,操作***694或应用程序696可以包括允许用户经由话音命令而操作设备600的、作为话音用户界面的一部分的语音识别逻辑。此外,设备600可以包括允许用户经由身体、手或者面部手势而与设备600进行交互的输入设备和逻辑。例如,可以检测并翻译用户的手部手势以向游戏应用程序提供输入。
设备600还可以包括一个或多个通信组件684。组件684可以包括耦合至一个或多个天线以在***600和外部设备之间提供通信的无线通信组件。无线通信组件可以支持各种无线通信协议和技术,例如近场通信(NFC)、Wi-Fi、蓝牙、4G长期演进(LTE)、码分多址(CDMA)、通用移动通信***(UMTS)和全球移动通信***(GSM)。此外,无线状态可以支持与一个或多个蜂窝网络的通信以用于在单个蜂窝网络内、蜂窝网络之间、或移动计算设备和公共开关电话网络(PSTN)之间的数据和话音的通信。
设备600还可以包括至少一个输入/输出端口(其可以是,例如USB、IEEE1394(火线)、以太网和/或RS-232端口),其包括物理连接器、电源、接近传感器、指南针、和卫星导航***接收机,例如GPS接收机。可以将GPS接收机耦合至GPS天线。设备600还可以包括耦合至一个或多个额外的接收机、发射机和/或收发机的一个或多个额外的天线以使能额外的功能。
应当理解的是,图6示出了一个示例性计算设备构架。可以使用基于替代的构架的计算设备以实现本文中所描述的技术。例如,不同于处理器602和604、以及图形引擎652位于分立的集成电路上,计算设备可以包括SoC(片上***)集成电路,该SoC集成电路包括多个处理器、图形引擎和额外的组件。此外,计算设备可以经由不同于图6中所示的总线或点对点配置来连接元件。而且,由于图中所示的组件可以被移除并且可以在可替代的实施例中加入其它组件,因此在图6中示出的组件不是必需的或包括所有的。
图7是用于执行计算机可执行指令以作为实现本文中所描述的技术的一部分的示例性处理器核心700的方框图。处理器核心700可以是任何类型的处理器的核心,例如微处理器、嵌入式处理器、数字信号处理器(DSP)或网络处理器。处理器核心700可以是单线程核心或多线程核心,其中每个核心上可以包括超过一个硬件线程环境(或“逻辑处理器”)。
图7也示出了耦合至处理器700的存储器710。存储器710可以是本文中所描述的任意存储器,或是本领域技术人员已知的任意其他处理器。存储器710可以存储可以由处理器核心700执行的计算机可执行指令715(代码)。
处理器核心包括接收来自存储器710的指令的前端逻辑720。指令可以由一个或多个解码器730处理。解码器730可以生成作为其输出的微操作,例如按照预定格式的固定宽度的微操作,或生成反映原始代码指令的其他指令、微指令或控制信号。前端逻辑720还包括寄存器重命名逻辑735和调度逻辑740,其通常分配资源并且对应于将指令进行转换而用于执行的队列操作。
处理器核心700还包括执行逻辑750,其包括一个或多个执行单元(EU)765-1到765-N。一些处理器核心实施例可以包括专用于特定功能或功能组的若干执行单元。其他实施例可以只包括一个执行单元,或可以执行特定功能的一个执行单元。执行逻辑750执行由代码指令指定的操作。在完成了由代码指令指定的操作的执行之后,后端逻辑770利用退出逻辑775退出指令。在一些实施例中,处理器核心700允许指令的乱序执行但要求指令的顺序退出。如本领域技术人员所知,退出逻辑770可以采用多种形式(例如,重新排序缓冲器等)。
在指令执行的过程中,至少根据由解码器730、由寄存器重命名逻辑735使用的硬件寄存器和表格,以及由执行逻辑750修改的任何寄存器(未示出)生成的输出而使处理器核心700改变。尽管没有在图7中示出,但是处理器可以包括具有处理器核心700的集成芯片上的其他元件。例如,处理器可以包括诸如存储器控制逻辑、一个或多个图形引擎、I/O控制逻辑和/或一个或多个高速缓存的额外的元件。
参考回图6,网络686可以提供可以用于实现本文中所描述的技术的各种基于云的服务。例如,与个体用户相关联的唤醒短语和生物计量相关的信息可以由基于云的服务来提供。在一些实施例中,唤醒短语识别可以由低功率引擎在设备处本地地执行,并且在设备被唤醒后,包括唤醒短语的音频输入的一部分可以被发送至基于云的服务以用于说话者验证。即,说话者验证可以远程地执行。
可以将所公开的方法中的任何一个实现为计算机可执行的指令或计算机程序产品。这样的指令可以使得计算机执行任何公开的方法。通常,如在本文中所使用的,术语“计算机”指的是在本文中描述或提及的任意计算设备或***,或任意其他计算设备。因此,术语“计算机可执行指令”指的是可以哟在本文中描述或提及的任意计算设备或任意其他计算设备执行的指令。
计算机可执行指令或计算机程序产品以及在实现所公开的技术的过程中创建并使用的任意数据都可以被存储在一个或多个有形的计算机可读存储介质上,例如,光介质盘(例如,DVD、CD)、易失性存储器组件(例如,DRAM、SRAM)、或者非易失性存储器组件(例如,闪速存储器、磁盘驱动器)。计算机可读存储介质可以被包括在诸如固态驱动器、USB闪速驱动器、以及存储器模块的计算机可读存储设备中。或者,计算机可执行指令可以由包括用于执行所公开方法的全部或部分的硬接线逻辑的特定的硬件组件,或由计算机可读存储介质和硬件组件的任意组合来执行。
计算机可执行指令可以是诸如经由网络浏览器或其他软件应用程序(例如,远程计算应用程序)访问的专用软件应用程序或软件应用程序的一部分。可以例如利用一个或多个网络计算机在单个计算设备上或在网络环境中执行这样的软件。此外,应当理解的是,所公开的技术不限于任何特定的计算机语言或程序。例如,可以通过用C++、Java、Perl、JavaScript、AdobeFlash或任意其他合适的编程语言编写的软件来实现所公开的技术。同样地,所公开的技术不限于任何特定的计算机或硬件类型。合适的计算机和硬件的某些细节是公知的并且不需要在本公开中进行阐述。
此外,基于软件的实施例(包括例如用于使得计算机执行所公开的方法中的任意一个的计算机可执行指令)中的任何一个都可以通过合适的通信方式进行上传、下载或远程访问。这样合适的方式包括,例如,互联网、万维网、内联网、电缆(包括光缆)、磁通信、电磁通信(包括RF、微波和红外通信)、电子通信、或其他这样的通信方式。
如在本申请和权利要求中所使用的,由术语“和/或”连接的项的列表可以意味着列出的项的任意组合。例如,短语“A、B和/或C”可以意味着A、B、C;A和B;A和C;B和C;或者A、B和C。如在本申请和权利要求中所使用的,由术语“…中的至少一个”连接的项的列表可以意味着列出的术语的任意组合。例如,短语“A、B或C中的至少一个”可以意味着A、B、C;A和B;A和C;B和C;或者A、B和C。
所公开的方法、装置和***没有被解释为在任何方面是限制性的。相反,本公开指向各种公开的实施例(单独或是在彼此的各种组合或者子组合中)的所有新颖的和不显而易见的特征和方面。所公开的方法、装置和***不限于任何具体的方面或特征或其组合,同样,所公开的实施例不要求呈现任何具体的优点或解决问题。
为了更好地理解的目的,已经参照本公开的装置或方法而提供了在本文中呈现的操作的原理、科学原理或其他理论性描述,并且不旨在从任何方面进行限制。所附权利要求中的装置和方法不限于以由这些操作的原理所描述的方式而工作的那些装置和方法。
尽管为了方便呈现而按照特定的、序列顺序描述了所公开的方法中的一些的操作,但是应当理解的是,除非在本文中阐述的具体的语言要求特定的顺序,该描述的方式包含重新排列。例如,在某些情况下,按顺序描述的操作可以被重新排列或同时执行。此外,出于简洁的目的,附图可能没有示出可以结合其他方法而使用所公开的方法的各种方式。
以下的示例关于本文中所公开的技术的额外的实施例。
示例1。一种计算设备,包括:麦克风;以及低功率引擎,用于:当所述计算设备处于低功率状态时,识别由用户提供给所述麦克风的音频输入中的唤醒短语;当所述计算设备处于所述低功率状态时,至少部分地基于包含所述唤醒短语的所述音频输入的部分来验证所述用户;并且使得所述计算设备从所述低功率状态转换到活动状态。
示例2。示例1的计算设备,其中,所述低功率引擎用于在当所述计算设备处于低功率状态时识别出由用户提供给所述麦克风的所述音频输入中的唤醒短语之后,并且在当所述计算设备处于所述低功率状态时至少部分地基于包含所述唤醒短语的所述音频输入的部分来验证所述用户之后,使得所述计算设备从低功率状态转换到活动状态。
示例3。示例1的计算设备,其中,所述低功率引擎用于在当所述计算设备处于低功率状态时识别出由用户提供给所述麦克风的所述音频输入中的唤醒短语之后,并且在当所述计算设备处于所述低功率状态时至少部分地基于包含所述唤醒短语的所述音频输入的部分来验证所述用户失败之后,使得所述计算设备从低功率状态转换到活动状态;计算设备还包括命令翻译模块以将所述音频输入的第二部分翻译成待由所述计算设备执行的命令,并且如果所述命令是用户不可知的命令,则指示所述计算设备执行所述命令,所述音频输入的所述第二部分不包含所述唤醒短语。
示例4。一种计算设备,包括:麦克风;低功率引擎,用于:当所述计算设备处于低功率状态时,识别由用户提供给所述麦克风的音频输入中的唤醒短语;并且使得所述计算设备从所述低功率状态转换到活动状态;以及,说话者验证模块,其用于至少部分地基于包含所述唤醒短语的所述音频输入的部分来验证所述用户,其中,所述说话者验证模块是当所述计算设备处于所述活动状态时被启用的,并且是当所述计算设备处于所述低功率状态时被禁用的。
示例5。示例1或示例4的计算设备,还包括唤醒短语存储设备,所述唤醒短语存储设备包括与一个或多个用户相关联的多个唤醒短语。
示例6。示例1或示例4的计算设备,还包括命令翻译模块,所述命令翻译模块用于将包含所述唤醒短语的所述音频输入的所述部分翻译成待由所述计算设备执行的命令。
示例7。示例1或示例4的计算设备,所述激活状态活动状态至少部分地基于所述唤醒短语。
示例8。示例1或示例4的计算设备,其中,当所述计算设备处于所述低功率状态时,所述低功率引擎被包括在所述计算设备的音频捕获管线中包括所述低功率引擎,并且当所述计算设备处于所述激活状态活动状态时,所述低功率引擎被从所述音频捕获管线上中移除。
示例9。一种计算设备,包括:用于接收来自用户的音频输入的单元;用于当所述计算设备处于低功率状态时,确定所述音频输入包括包含唤醒短语的单元;用于至少部分地基于包括包含所述唤醒短语的部分的所述音频输入的部分来验证所述用户的单元;以及用于将所述计算设备从所述低功率状态转换到激活状态活动状态的单元。
示例10。图9的计算设备,其中,当所述计算设备处于低功率状态时,所述用于验证所述用户的所述单元对所述用户进行验证。
示例11。一种唤醒计算设备的方法,包括:当计算设备处于低功率状态时:在所述计算设备处接收来自用户的音频输入;确定所述音频输入包含唤醒短语;将所述计算设备从所述低功率状态转换到活动状态;并且至少部分地基于包含所述唤醒短语的所述音频输入的部分来验证所述用户。
示例12。示例11的方法,其中,当所述计算设备处于所述低功率状态时执行所述验证,并且如果所述音频输入包含唤醒短语并且已经至少部分地基于包含所述唤醒短语的所述音频输入的所述部分而验证了用户,则执行所述转换。
示例13。示例11的方法,其中,当所述计算设备处于所述低功率状态时执行所述验证,并且如果所述音频输入包含唤醒短语并且还没有至少部分地基于包含所述唤醒短语的音频输入的所述部分而验证用户,则执行所述转换;该方法还包括:将所述音频输入的第二部分翻译成待由所述计算设备执行的命令,所述音频输入的所述第二部分不包含所述唤醒短语;并且如果所述命令是用户不可知的命令,则在所述计算设备处执行所述命令。
示例14。示例11的方法,其中,将所述计算设备从所述低功率状态转换到所述活动状态先于至少部分地基于包含所述唤醒短语的所述音频输入的所述部分来验证所述用户而发生。
示例15。示例11的方法,其中,唤醒短语是可以用于验证用户的多个唤醒短语中的一个。
示例16。示例11的方法,其中,唤醒短语是可以用于验证多个用户的多个唤醒短语中的一个,多个唤醒短语包括可以用于验证第一用户的第一唤醒短语和可以用于验证第二用户的第二唤醒短语,第一唤醒短语和第二唤醒短语不同。
示例17。示例11的方法,其中,确定所述音频输入包含唤醒短语和验证所述用户是由所述计算设备的低功率引擎来执行的。
示例18。示例11的方法,其中,确定所述音频输入包含唤醒短语是由所述计算设备的低功率引擎执行的,并且验证所述用户是由所述计算设备的除了所述低功率引擎之外的一个或多个组件来执行的。
示例19。示例11的方法,其中:将所述计算设备从所述低功率状态转换到所述活动状态包括将所述计算设备的一个或多个第二组件转换到活动状态;验证所述用户是由所述一个或多个第二组件执行的;并且将所述计算设备从所述低功率状态转换到所述活动状态还包括将所述计算设备的一个或多个第三组件从低功率状态转换到活动状态。
示例20。示例11的方法,还包括:将包含所述唤醒短语的所述音频输入翻译成待由所述计算设备执行的命令。
示例21。示例11的方法,其中,所述转换包括至少部分地基于所述唤醒短语而转换至活动状态。
示例22。一种或多种存储有计算机可执行指令的计算机可读存储介质,所述指令用于使得计算设备执行示例11-21所述的方法中的任意一种。
示例23。一种装置,包括用于执行示例11-21所述的方法中的任意一种的单元。
Claims (23)
1.一种计算设备,包括:
麦克风;以及
低功率引擎,其用于:
当所述计算设备处于低功率状态时,识别由用户提供给所述麦克风的音频输入中的唤醒短语;
当所述计算设备处于所述低功率状态时,至少部分地基于包含所述唤醒短语的所述音频输入的部分来验证所述用户;并且
使得所述计算设备从所述低功率状态转换到活动状态。
2.根据权利要求1所述的计算设备,其中,所述低功率引擎用于在当所述计算设备处于低功率状态时识别出由用户提供给所述麦克风的所述音频输入中的唤醒短语之后,并且在当所述计算设备处于所述低功率状态时至少部分地基于包含所述唤醒短语的所述音频输入的部分来验证所述用户之后,使得所述计算设备从低功率状态转换到活动状态。
3.根据权利要求1所述的计算设备,其中,所述低功率引擎用于在当所述计算设备处于低功率状态时识别出由用户提供给所述麦克风的所述音频输入中的唤醒短语之后,并且在当所述计算设备处于所述低功率状态时至少部分地基于包含所述唤醒短语的所述音频输入的部分来验证所述用户失败之后,使得所述计算设备从低功率状态转换到活动状态;
所述计算设备还包括命令翻译模块以将所述音频输入的第二部分翻译成待由所述计算设备执行的命令,并且如果所述命令是用户不可知的命令,则指示所述计算设备执行所述命令,所述音频输入的所述第二部分不包含所述唤醒短语。
4.一种计算设备,包括:
麦克风;
低功率引擎,其用于:
当所述计算设备处于低功率状态时,识别由用户提供给所述麦克风的音频输入中的唤醒短语;并且
使得所述计算设备从所述低功率状态转换到活动状态;以及
说话者验证模块,其用于至少部分地基于包含所述唤醒短语的所述音频输入的部分来验证所述用户,其中,所述说话者验证模块是当所述计算设备处于所述活动状态时被启用的,并且是当所述计算设备处于所述低功率状态时被禁用的。
5.根据权利要求1或4所述的计算设备,还包括唤醒短语存储设备,所述唤醒短语存储设备包括与一个或多个用户相关联的多个唤醒短语。
6.根据权利要求1或4所述的计算设备,还包括命令翻译模块,所述命令翻译模块用于将包含所述唤醒短语的所述音频输入的所述部分翻译成待由所述计算设备执行的命令。
7.根据权利要求1或4所述的计算设备,其中,所述活动状态至少部分地基于所述唤醒短语。
8.根据权利要求1或4所述的计算设备,其中,当所述计算设备处于所述低功率状态时,所述低功率引擎被包括在所述计算设备的音频捕获管线中,并且当所述计算设备处于所述活动状态时,所述低功率引擎被从所述音频捕获管线中移除。
9.一种计算设备,包括:
用于接收来自用户的音频输入的单元;
用于当所述计算设备处于低功率状态时,确定所述音频输入包含唤醒短语的单元;
用于至少部分地基于包含所述唤醒短语的所述音频输入的部分来验证所述用户的单元;以及
用于将所述计算设备从所述低功率状态转换到活动状态的单元。
10.根据权利要求9所述的计算设备,其中,当所述计算设备处于低功率状态时,所述用于验证所述用户的单元对所述用户进行验证。
11.一种唤醒计算设备的方法,包括:
当所述计算设备处于低功率状态时:
在所述计算设备处接收来自用户的音频输入;并且
确定所述音频输入包含唤醒短语;
将所述计算设备从所述低功率状态转换到活动状态;并且
至少部分地基于包含所述唤醒短语的所述音频输入的部分来验证所述用户。
12.根据权利要求11所述的方法,其中,当所述计算设备处于所述低功率状态时执行所述验证,并且如果所述音频输入包含唤醒短语并且已经至少部分地基于包含所述唤醒短语的所述音频输入的所述部分而验证了用户,则执行所述转换。
13.根据权利要求11所述的方法,其中,当所述计算设备处于所述低功率状态时执行所述验证,并且如果所述音频输入包含唤醒短语并且还没有至少部分地基于包含所述唤醒短语的音频输入的所述部分而验证用户,则执行所述转换;
所述方法还包括:
将所述音频输入的第二部分翻译成待由所述计算设备执行的命令,所述音频输入的所述第二部分不包含所述唤醒短语;并且
如果所述命令是用户不可知的命令,则在所述计算设备处执行所述命令。
14.根据权利要求11所述的方法,其中,将所述计算设备从所述低功率状态转换到所述活动状态先于至少部分地基于包含所述唤醒短语的所述音频输入的所述部分来验证所述用户而发生。
15.根据权利要求11所述的方法,其中,所述唤醒短语是能够用于验证所述用户的多个唤醒短语中的一个。
16.根据权利要求11所述的方法,其中,所述唤醒短语是能够用于验证多个用户的多个唤醒短语中的一个,所述多个唤醒短语包括能够用于验证第一用户的第一唤醒短语,以及能够用于验证第二用户的第二唤醒短语,所述第一唤醒短语和所述第二唤醒短语不同。
17.根据权利要求11所述的方法,其中,确定所述音频输入包含唤醒短语和验证所述用户是由所述计算设备的低功率引擎来执行的。
18.根据权利要求11所述的方法,其中,确定所述音频输入包含唤醒短语是由所述计算设备的低功率引擎执行的,并且验证所述用户是由所述计算设备的除了所述低功率引擎之外的一个或多个组件来执行的。
19.根据权利要求11所述的方法,其中:
将所述计算设备从所述低功率状态转换到所述活动状态包括将所述计算设备的一个或多个第二组件转换到活动状态;
验证所述用户是由所述一个或多个第二组件执行的;并且
将所述计算设备从所述低功率状态转换到所述活动状态还包括将所述计算设备的一个或多个第三组件从低功率状态转换到活动状态。
20.根据权利要求11所述的方法,还包括:
将包含所述唤醒短语的所述音频输入翻译成待由所述计算设备执行的命令;并且
在所述计算设备处执行所述命令。
21.根据权利要求11所述的方法,其中,所述转换包括至少部分地基于所述唤醒短语而转换至活动状态。
22.一种或多种存储有计算机可执行指令的计算机可读存储介质,所述指令用于使得计算设备执行根据权利要求11-21所述的方法中的任意一种。
23.一种装置,其包括用于执行根据权利要求11-21所述的方法中的任意一种的单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910111033.6A CN110096253B (zh) | 2013-07-11 | 2013-07-11 | 利用相同的音频输入的设备唤醒和说话者验证 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2013/050144 WO2015005927A1 (en) | 2013-07-11 | 2013-07-11 | Device wake and speaker verification using the same audio input |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910111033.6A Division CN110096253B (zh) | 2013-07-11 | 2013-07-11 | 利用相同的音频输入的设备唤醒和说话者验证 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105283836A true CN105283836A (zh) | 2016-01-27 |
CN105283836B CN105283836B (zh) | 2019-06-04 |
Family
ID=52280427
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380077357.3A Active CN105283836B (zh) | 2013-07-11 | 2013-07-11 | 用于设备唤醒的设备、方法、装置及计算机可读存储介质 |
CN201910111033.6A Active CN110096253B (zh) | 2013-07-11 | 2013-07-11 | 利用相同的音频输入的设备唤醒和说话者验证 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910111033.6A Active CN110096253B (zh) | 2013-07-11 | 2013-07-11 | 利用相同的音频输入的设备唤醒和说话者验证 |
Country Status (3)
Country | Link |
---|---|
US (2) | US9445209B2 (zh) |
CN (2) | CN105283836B (zh) |
WO (1) | WO2015005927A1 (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105632486A (zh) * | 2015-12-23 | 2016-06-01 | 北京奇虎科技有限公司 | 一种智能硬件的语音唤醒方法和装置 |
CN108399915A (zh) * | 2017-02-08 | 2018-08-14 | 英特尔公司 | 低功率关键短语检测 |
CN108700926A (zh) * | 2016-04-11 | 2018-10-23 | 惠普发展公司,有限责任合伙企业 | 基于环境噪声唤醒计算设备 |
CN110400568A (zh) * | 2018-04-20 | 2019-11-01 | 比亚迪股份有限公司 | 智能语音***的唤醒方法、智能语音***及车辆 |
CN110832578A (zh) * | 2017-07-24 | 2020-02-21 | 美的集团股份有限公司 | 可定制唤醒语音命令 |
CN111357048A (zh) * | 2017-12-31 | 2020-06-30 | 美的集团股份有限公司 | 用于控制家庭助手装置的方法和*** |
CN111402871A (zh) * | 2019-01-03 | 2020-07-10 | 三星电子株式会社 | 电子装置及其控制方法 |
CN112272819A (zh) * | 2018-06-05 | 2021-01-26 | 三星电子株式会社 | 被动唤醒用户交互设备的方法和*** |
CN112382303A (zh) * | 2016-08-05 | 2021-02-19 | 搜诺思公司 | 回放设备、用于回放设备的方法和计算机可读介质 |
CN112513978A (zh) * | 2018-08-09 | 2021-03-16 | 谷歌有限责任公司 | 热词辨识和被动辅助 |
WO2021169711A1 (zh) * | 2020-02-27 | 2021-09-02 | Oppo广东移动通信有限公司 | 指令执行方法、装置、存储介质及电子设备 |
CN113709616A (zh) * | 2018-03-21 | 2021-11-26 | 思睿逻辑国际半导体有限公司 | 耳朵接近度检测 |
Families Citing this family (283)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
CN105283836B (zh) * | 2013-07-11 | 2019-06-04 | 英特尔公司 | 用于设备唤醒的设备、方法、装置及计算机可读存储介质 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
WO2015038105A1 (en) | 2013-09-11 | 2015-03-19 | Intel Corporation | Low power voice triggers for finding mobile devices |
US9769550B2 (en) | 2013-11-06 | 2017-09-19 | Nvidia Corporation | Efficient digital microphone receiver process and system |
US9454975B2 (en) * | 2013-11-07 | 2016-09-27 | Nvidia Corporation | Voice trigger |
US10079019B2 (en) * | 2013-11-12 | 2018-09-18 | Apple Inc. | Always-on audio control for mobile device |
US9443522B2 (en) * | 2013-11-18 | 2016-09-13 | Beijing Lenovo Software Ltd. | Voice recognition method, voice controlling method, information processing method, and electronic apparatus |
CN104143326B (zh) * | 2013-12-03 | 2016-11-02 | 腾讯科技(深圳)有限公司 | 一种语音命令识别方法和装置 |
US8719039B1 (en) * | 2013-12-05 | 2014-05-06 | Google Inc. | Promoting voice actions to hotwords |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
WO2015099802A1 (en) * | 2013-12-28 | 2015-07-02 | Intel Corporation | Techniques for increasing energy efficiency of sensor controllers |
EP3373176B1 (en) * | 2014-01-17 | 2020-01-01 | Cirrus Logic International Semiconductor Limited | Tamper-resistant element for use in speaker recognition |
US11132173B1 (en) * | 2014-02-20 | 2021-09-28 | Amazon Technologies, Inc. | Network scheduling of stimulus-based actions |
EP2942733A1 (en) * | 2014-05-09 | 2015-11-11 | Nxp B.V. | Architecture for platform security using a dedicated security device for user interaction |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
EP2958010A1 (en) * | 2014-06-20 | 2015-12-23 | Thomson Licensing | Apparatus and method for controlling the apparatus by a user |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
JP2016024212A (ja) * | 2014-07-16 | 2016-02-08 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
US20160055847A1 (en) * | 2014-08-19 | 2016-02-25 | Nuance Communications, Inc. | System and method for speech validation |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9653079B2 (en) * | 2015-02-12 | 2017-05-16 | Apple Inc. | Clock switching in always-on component |
KR102346302B1 (ko) * | 2015-02-16 | 2022-01-03 | 삼성전자 주식회사 | 전자 장치 및 음성 인식 기능 운용 방법 |
US10522140B2 (en) * | 2015-02-23 | 2019-12-31 | Sony Corporation | Information processing system and information processing method |
GB2535766B (en) | 2015-02-27 | 2019-06-12 | Imagination Tech Ltd | Low power detection of an activation phrase |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) * | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10192546B1 (en) * | 2015-03-30 | 2019-01-29 | Amazon Technologies, Inc. | Pre-wakeword speech processing |
JP6564058B2 (ja) | 2015-04-10 | 2019-08-21 | 華為技術有限公司Huawei Technologies Co.,Ltd. | 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10452339B2 (en) * | 2015-06-05 | 2019-10-22 | Apple Inc. | Mechanism for retrieval of previously captured audio |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10298736B2 (en) * | 2015-07-10 | 2019-05-21 | Electronics And Telecommunications Research Institute | Apparatus and method for processing voice signal and terminal |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
CN106601238A (zh) * | 2015-10-14 | 2017-04-26 | 阿里巴巴集团控股有限公司 | 一种应用操作的处理方法和装置 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
CN106815507A (zh) * | 2015-11-30 | 2017-06-09 | 中兴通讯股份有限公司 | 语音唤醒实现方法、装置及终端 |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
KR102392113B1 (ko) * | 2016-01-20 | 2022-04-29 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 명령 처리 방법 |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
KR20190016536A (ko) * | 2016-06-06 | 2019-02-18 | 시러스 로직 인터내셔널 세미컨덕터 리미티드 | 보이스 사용자 인터페이스 |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10650621B1 (en) | 2016-09-13 | 2020-05-12 | Iocurrents, Inc. | Interfacing with a vehicular controller area network |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10217453B2 (en) * | 2016-10-14 | 2019-02-26 | Soundhound, Inc. | Virtual assistant configured by selection of wake-up phrase |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10237268B2 (en) * | 2016-11-02 | 2019-03-19 | Google Llc | Secure passcode processing device |
KR102241970B1 (ko) * | 2016-11-07 | 2021-04-20 | 구글 엘엘씨 | 기록된 미디어 핫워드 트리거 억제 |
US11545146B2 (en) * | 2016-11-10 | 2023-01-03 | Cerence Operating Company | Techniques for language independent wake-up word detection |
WO2018100391A1 (en) * | 2016-12-02 | 2018-06-07 | Cirrus Logic International Semiconductor Limited | Speaker identification |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10373630B2 (en) * | 2017-03-31 | 2019-08-06 | Intel Corporation | Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US20180357040A1 (en) * | 2017-06-09 | 2018-12-13 | Mitsubishi Electric Automotive America, Inc. | In-vehicle infotainment with multi-modal interface |
GB2578386B (en) | 2017-06-27 | 2021-12-01 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
US11189273B2 (en) * | 2017-06-29 | 2021-11-30 | Amazon Technologies, Inc. | Hands free always on near field wakeword solution |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
GB2567503A (en) | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801661D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic International Uk Ltd | Detection of liveness |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
KR102543693B1 (ko) * | 2017-10-17 | 2023-06-16 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
CN107886957A (zh) * | 2017-11-17 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种结合声纹识别的语音唤醒方法及装置 |
US10482878B2 (en) * | 2017-11-29 | 2019-11-19 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
US10157611B1 (en) * | 2017-11-29 | 2018-12-18 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
WO2019125084A1 (en) * | 2017-12-21 | 2019-06-27 | Samsung Electronics Co., Ltd. | Systems and methods for biometric user authentication |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US11475899B2 (en) * | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
KR102513297B1 (ko) * | 2018-02-09 | 2023-03-24 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 기능 실행 방법 |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10978061B2 (en) | 2018-03-09 | 2021-04-13 | International Business Machines Corporation | Voice command processing without a wake word |
US10861462B2 (en) | 2018-03-12 | 2020-12-08 | Cypress Semiconductor Corporation | Dual pipeline architecture for wakeup phrase detection with speech onset detection |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10885910B1 (en) | 2018-03-14 | 2021-01-05 | Amazon Technologies, Inc. | Voice-forward graphical user interface mode management |
US10877637B1 (en) | 2018-03-14 | 2020-12-29 | Amazon Technologies, Inc. | Voice-based device operation mode management |
US11127405B1 (en) * | 2018-03-14 | 2021-09-21 | Amazon Technologies, Inc. | Selective requests for authentication for voice-based launching of applications |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
CN108509225B (zh) * | 2018-03-28 | 2021-07-16 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
CN109032554B (zh) * | 2018-06-29 | 2021-11-16 | 联想(北京)有限公司 | 一种音频处理方法和电子设备 |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) * | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US10971160B2 (en) * | 2018-11-13 | 2021-04-06 | Comcast Cable Communications, Llc | Methods and systems for determining a wake word |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US11637546B2 (en) * | 2018-12-14 | 2023-04-25 | Synaptics Incorporated | Pulse density modulation systems and methods |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
WO2020171809A1 (en) * | 2019-02-20 | 2020-08-27 | Google Llc | Utilizing pre-event and post-event input streams to engage an automated assistant |
GB201906367D0 (en) * | 2019-02-28 | 2019-06-19 | Cirrus Logic Int Semiconductor Ltd | Speaker verification |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
JP7462634B2 (ja) * | 2019-07-17 | 2024-04-05 | ホシデン株式会社 | マイクユニット |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US20210224649A1 (en) * | 2020-01-17 | 2021-07-22 | Syntiant | Systems and Methods for Neural Network Training via Local Target Signal Augmentation |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
CN111369999B (zh) * | 2020-03-12 | 2024-05-14 | 北京百度网讯科技有限公司 | 一种信号处理方法、装置以及电子设备 |
US11527245B2 (en) | 2020-04-29 | 2022-12-13 | Rovi Guides, Inc. | Systems and methods for avoiding inadvertently triggering a voice assistant |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
CN111724780B (zh) * | 2020-06-12 | 2023-06-30 | 北京小米松果电子有限公司 | 设备的唤醒方法及装置、电子设备、存储介质 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
CN112382285B (zh) * | 2020-11-03 | 2023-08-15 | 北京百度网讯科技有限公司 | 语音控制方法、装置、电子设备和存储介质 |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
EP4231286A4 (en) * | 2020-12-11 | 2024-03-27 | Samsung Electronics Co., Ltd. | ELECTRONIC DEVICE AND ASSOCIATED CONTROL METHOD |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
EP4300485A4 (en) * | 2021-03-15 | 2024-02-28 | Huawei Technologies Co., Ltd. | MEDIA PROCESSING APPARATUS AND METHOD |
US11887584B2 (en) | 2021-06-18 | 2024-01-30 | Stmicroelectronics S.R.L. | Vocal command recognition |
CN114512129A (zh) * | 2022-03-28 | 2022-05-17 | 北京小米移动软件有限公司 | 语音唤醒数据的处理方法、装置、电子设备及存储介质 |
US11797099B1 (en) * | 2022-09-19 | 2023-10-24 | Snap Inc. | Visual and audio wake commands |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10319991A (ja) * | 1997-05-20 | 1998-12-04 | Sony Corp | 電子機器の音声認識起動方法及び装置 |
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
US20060074658A1 (en) * | 2004-10-01 | 2006-04-06 | Siemens Information And Communication Mobile, Llc | Systems and methods for hands-free voice-activated devices |
US7418392B1 (en) * | 2003-09-25 | 2008-08-26 | Sensory, Inc. | System and method for controlling the operation of a device by voice commands |
CN102054481A (zh) * | 2009-10-30 | 2011-05-11 | 大陆汽车有限责任公司 | 用于激活和/或进行语音对话的装置、***和方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19615693C1 (de) * | 1996-04-19 | 1997-12-11 | Siemens Ag | Vorrichtung und Verfahren zur Aktionsermittlung |
US6829493B1 (en) * | 2000-04-24 | 2004-12-07 | Denso Corporation | Adaptive adjustment of sleep duration to increase standby time in wireless mobile stations |
WO2005114904A1 (en) * | 2004-05-21 | 2005-12-01 | Cablesedge Software Inc. | Remote access system and method and intelligent agent therefor |
KR100819928B1 (ko) | 2007-04-26 | 2008-04-08 | (주)부성큐 | 휴대 단말기의 음성 인식장치 및 그 방법 |
US20090210519A1 (en) * | 2008-02-18 | 2009-08-20 | Microsoft Corporation | Efficient and transparent remote wakeup |
US8171322B2 (en) * | 2008-06-06 | 2012-05-01 | Apple Inc. | Portable electronic devices with power management capabilities |
US8606227B2 (en) * | 2009-09-22 | 2013-12-10 | At&T Intellectual Property I, L.P. | Secure access to restricted resource |
US9262612B2 (en) * | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8818810B2 (en) * | 2011-12-29 | 2014-08-26 | Robert Bosch Gmbh | Speaker verification in a health monitoring system |
US10395651B2 (en) * | 2013-02-28 | 2019-08-27 | Sony Corporation | Device and method for activating with voice input |
US9361885B2 (en) * | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US20140365225A1 (en) * | 2013-06-05 | 2014-12-11 | DSP Group | Ultra-low-power adaptive, user independent, voice triggering schemes |
CN105283836B (zh) * | 2013-07-11 | 2019-06-04 | 英特尔公司 | 用于设备唤醒的设备、方法、装置及计算机可读存储介质 |
-
2013
- 2013-07-11 CN CN201380077357.3A patent/CN105283836B/zh active Active
- 2013-07-11 US US14/129,644 patent/US9445209B2/en active Active
- 2013-07-11 WO PCT/US2013/050144 patent/WO2015005927A1/en active Application Filing
- 2013-07-11 CN CN201910111033.6A patent/CN110096253B/zh active Active
-
2016
- 2016-07-29 US US15/223,967 patent/US9852731B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
JPH10319991A (ja) * | 1997-05-20 | 1998-12-04 | Sony Corp | 電子機器の音声認識起動方法及び装置 |
US7418392B1 (en) * | 2003-09-25 | 2008-08-26 | Sensory, Inc. | System and method for controlling the operation of a device by voice commands |
US20060074658A1 (en) * | 2004-10-01 | 2006-04-06 | Siemens Information And Communication Mobile, Llc | Systems and methods for hands-free voice-activated devices |
CN102054481A (zh) * | 2009-10-30 | 2011-05-11 | 大陆汽车有限责任公司 | 用于激活和/或进行语音对话的装置、***和方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105632486B (zh) * | 2015-12-23 | 2019-12-17 | 北京奇虎科技有限公司 | 一种智能硬件的语音唤醒方法和装置 |
CN105632486A (zh) * | 2015-12-23 | 2016-06-01 | 北京奇虎科技有限公司 | 一种智能硬件的语音唤醒方法和装置 |
CN108700926A (zh) * | 2016-04-11 | 2018-10-23 | 惠普发展公司,有限责任合伙企业 | 基于环境噪声唤醒计算设备 |
CN108700926B (zh) * | 2016-04-11 | 2021-08-31 | 惠普发展公司,有限责任合伙企业 | 基于环境噪声唤醒计算设备 |
CN112382303A (zh) * | 2016-08-05 | 2021-02-19 | 搜诺思公司 | 回放设备、用于回放设备的方法和计算机可读介质 |
CN108399915A (zh) * | 2017-02-08 | 2018-08-14 | 英特尔公司 | 低功率关键短语检测 |
CN108399915B (zh) * | 2017-02-08 | 2024-05-07 | 英特尔公司 | 低功率关键短语检测 |
CN110832578A (zh) * | 2017-07-24 | 2020-02-21 | 美的集团股份有限公司 | 可定制唤醒语音命令 |
CN110832578B (zh) * | 2017-07-24 | 2022-04-26 | 美的集团股份有限公司 | 可定制唤醒语音命令 |
CN111357048A (zh) * | 2017-12-31 | 2020-06-30 | 美的集团股份有限公司 | 用于控制家庭助手装置的方法和*** |
CN113709616A (zh) * | 2018-03-21 | 2021-11-26 | 思睿逻辑国际半导体有限公司 | 耳朵接近度检测 |
CN110400568A (zh) * | 2018-04-20 | 2019-11-01 | 比亚迪股份有限公司 | 智能语音***的唤醒方法、智能语音***及车辆 |
CN112272819A (zh) * | 2018-06-05 | 2021-01-26 | 三星电子株式会社 | 被动唤醒用户交互设备的方法和*** |
CN112272819B (zh) * | 2018-06-05 | 2024-04-26 | 三星电子株式会社 | 被动唤醒用户交互设备的方法和*** |
CN112513978A (zh) * | 2018-08-09 | 2021-03-16 | 谷歌有限责任公司 | 热词辨识和被动辅助 |
CN111402871A (zh) * | 2019-01-03 | 2020-07-10 | 三星电子株式会社 | 电子装置及其控制方法 |
WO2021169711A1 (zh) * | 2020-02-27 | 2021-09-02 | Oppo广东移动通信有限公司 | 指令执行方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN105283836B (zh) | 2019-06-04 |
CN110096253B (zh) | 2022-08-30 |
US20170032784A1 (en) | 2017-02-02 |
WO2015005927A1 (en) | 2015-01-15 |
US9445209B2 (en) | 2016-09-13 |
CN110096253A (zh) | 2019-08-06 |
US9852731B2 (en) | 2017-12-26 |
US20150245154A1 (en) | 2015-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105283836A (zh) | 利用相同的音频输入的设备唤醒和说话者验证 | |
US10643621B2 (en) | Speech recognition using electronic device and server | |
US10643613B2 (en) | Operating method for microphones and electronic device supporting the same | |
CN108121490B (zh) | 用于处理多模式输入的电子装置、方法和服务器 | |
KR102018152B1 (ko) | 항상-온-항상-청취 음성 인식 시스템을 위한 위치 인식 전력 관리 스킴 | |
EP2959474B1 (en) | Hybrid performance scaling for speech recognition | |
KR102346302B1 (ko) | 전자 장치 및 음성 인식 기능 운용 방법 | |
EP2816554A2 (en) | Method of executing voice recognition of electronic device and electronic device using the same | |
JP2019015952A (ja) | ウェイクアップ方法、デバイス及びシステム、クラウドサーバーと可読媒体 | |
US20200020334A1 (en) | Electronic device for processing user speech and operating method therefor | |
KR20180117485A (ko) | 사용자 발화를 처리하는 전자 장치 및 그 동작 방법 | |
KR20170044426A (ko) | 음성 신호 인식 방법 및 이를 제공하는 전자 장치 | |
US11048293B2 (en) | Electronic device and system for deciding duration of receiving voice input based on context information | |
KR20170034154A (ko) | 콘텐츠 제공 방법 및 이를 수행하는 전자 장치 | |
CN105612485A (zh) | 一种运行应用程序的方法及装置 | |
US10911910B2 (en) | Electronic device and method of executing function of electronic device | |
CN110164431A (zh) | 一种音频数据处理方法及装置、存储介质 | |
KR101993368B1 (ko) | 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버 | |
CN109358755B (zh) | 用于移动终端的手势检测方法、装置和移动终端 | |
EP3792912A1 (en) | Improved wake-word recognition in low-power devices | |
CN111383635A (zh) | 根据基于视觉的机制启用智能显示设备的语音命令的方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240627 Address after: Seoul, South Kerean Patentee after: Hyundai Motor Co.,Ltd. Country or region after: Republic of Korea Patentee after: Kia Co.,Ltd. Address before: California, USA Patentee before: INTEL Corp. Country or region before: U.S.A. |