CN106062868A - 提供预先计算的热词模型 - Google Patents
提供预先计算的热词模型 Download PDFInfo
- Publication number
- CN106062868A CN106062868A CN201580010535.XA CN201580010535A CN106062868A CN 106062868 A CN106062868 A CN 106062868A CN 201580010535 A CN201580010535 A CN 201580010535A CN 106062868 A CN106062868 A CN 106062868A
- Authority
- CN
- China
- Prior art keywords
- word
- sub
- hot
- hot word
- precalculated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000003860 storage Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 abstract description 10
- 230000000875 corresponding effect Effects 0.000 description 114
- 238000004891 communication Methods 0.000 description 15
- 230000008878 coupling Effects 0.000 description 14
- 238000010168 coupling process Methods 0.000 description 14
- 238000005859 coupling reaction Methods 0.000 description 14
- 230000004044 response Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 7
- 238000000429 assembly Methods 0.000 description 5
- 230000000712 assembly Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000000977 initiatory effect Effects 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 230000037007 arousal Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 101000746134 Homo sapiens DNA endonuclease RBBP8 Proteins 0.000 description 1
- 101000969031 Homo sapiens Nuclear protein 1 Proteins 0.000 description 1
- 102100021133 Nuclear protein 1 Human genes 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007474 system interaction Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
方法、***和设备,包括在计算机存储介质上编码的计算机程序,用于:对于多个词或子词中的每个词或子词,获得与讲出该词或子词的多个用户相对应的音频数据;对于多个词或子词中的每个词或子词,基于用于该词或子词的音频数据,训练用于该词或子词的预先计算的热词模型;从计算装置接收候选热词;识别与候选热词相对应的一个或多个预先计算的热词模型;以及将所识别的预先计算的热词模型提供给计算装置。
Description
技术领域
本公开一般涉及语音识别。
背景技术
语音功能化家庭或其他环境的现实——也就是用户只需要大声讲出查询或命令并且基于计算机的***将应答查询和回答查询和/或使得命令被执行的现实——取决于我们。语音功能化环境(例如家庭、工作场所、学校等等)可以使用相连麦克风装置的网络来实施,所述麦克风装置遍布环境的不同房间或区域分布。通过这种麦克风网络,用户几乎能够从环境中任何地方口头查询***,不需要在他/她面前或者甚至附近有计算机或其他装置。例如,在厨房里烹饪时,用户可以询问***“how many milliliters in three cups?(3杯有多少毫升?)”,并且作为响应,例如以合成发音输出的形式接收来自***的回答。或者,用户可能询问***诸如“when does my nearest gas station close(我最近的加油站什么时候关门?)”这样的问题,或者在准备离开房屋时询问“should I wear a coat today?(我今天应该穿外套吗?)”
此外,用户可以询问***的查询,和/或发出与用户的个人信息有关的命令。例如,用户可以询问***“when is my meeting with John?(我什么时候与John会面)”或者命令***“remind me to call John whenI get back home(当我回到家时提醒我打电话给John)”。
在语音功能化环境中,将用户与***交互的方式设计为主要通过发音输入的方式,如果不是专用方式的话。因此,有可能拾取环境中制造的所有话语包括那些并非指向***的话语的***必须具备一些方法来辨别例如相对于指向环境中存在的个体,任何给定的话语何时指向***。完成这个任务的一种方法是使用“热词”(又称为“关注词”或“发音动作启动命令”),热词通过协议被保留为讲出来唤起***注意的预定词项。
在一个示例环境中,用来唤起***注意的热词是词“Google”。因此,每次讲出词“Google”,它都被其中一个麦克风拾取,并传递给***,该***进行语音识别技术,以确定是否讲出热词,并且如果是,则等候后续命令或查询。因此,指向***的话语采用一般形式[HOTWORD][QUERY],其中,在本示例中“HOTWORD”是“Google”,而“QUERY”可以是任何问题、命令、宣告、或者可以通过***单独地或者通过网络与服务器结合来语音识别、解析和作用的其他请求。
发明内容
根据本说明书中所述的主题内容的一些创造性方案,***可将预先计算的热词模型提供给移动计算装置,使得该移动计算装置能够通过分析一部分话语的声学特征,检测与移动计算装置相关联的用户讲出的候选热词,而不需要将该部分转录或进行语义解释。热词模型可以基于从讲出包括组成候选热词的词或子词的多个词或子词的多个用户获得的音频数据来生成。
在一些示例中,用户希望令词“start computer(打开电脑)”成为热词,以发起移动计算装置诸如智能电话上的“wake up(唤醒)”过程。用户讲出词“start computer”,并且作为响应,***可以识别与词项“start computer”或者组成词“start”和“computer”相关联的预先计算的热词模型。***可将预先计算的热词模型提供给移动计算装置,使得移动计算装置能够检测进一步的话音是否与热词“startcomputer”相对应,并相应地唤醒移动计算装置。
本说明书中所述主题内容的创造性方案可以在如下方法中具体实施,该方法包括如下动作:对于多个词或子词中的每个词或子词,获得与讲出该词或子词的多个用户相对应的音频数据;对于多个词或子词中的每个词或子词,基于用于该词或子词的音频数据,训练用于该词或子词的预先计算的热词模型;从计算装置接收候选热词;识别与该候选热词相对应的一个或多个预先计算的热词模型;以及将所识别的预先计算的热词模型提供给计算装置。
这些方案的其他实施例包括对应的***、设备和计算机程序,它们被配置为进行计算机存储装置上编码的这些方法的动作。
这些和其他实施例可分别选择性地包括一个或多个以下特征。例如,识别所述一个或多个预先计算的热词模型包括:获得与候选热词相对应的两个或更多个子词;以及对于与候选热词相对应的两个或更多个子词中的每个子词,获得与子词相对应的预先计算的热词模型。在对于多个词或子词中的每个词或子词训练用于该词或子词的预先计算的热词模型之后,从计算装置接收候选热词。从计算装置接收候选热词包括接收与候选热词相对应的音频数据。从计算装置接收候选热词包括从计算装置接收包括两个或更多个词的候选热词。识别与候选热词的两个或更多个词的每个词相对应的一个或多个预先计算的热词模型;以及将所识别的与候选热词的两个或更多个词中的每个词相对应的预先计算的热词模型提供给计算装置。向计算装置提供指令,该指令限定所识别的与候选热词的两个或更多个词中的每个词相对应的预先计算的热词模型的处理例程。该指令包括依次处理所识别的与候选热词的两个或更多个词中的每个词相对应的预先计算的热词模型的指令。该指令包括依次处理所识别的与候选热词的两个或更多个词中的每个词相对应的预先计算的热词模型的处理顺序。
这些特征例如还包括:动态地创建与所述候选热词的两个或更多个词中的一个或多个词相对应的一个或多个热词模型;以及将动态地创建的与候选热词的两个或更多个词中的一个或多个词相对应的一个或多个热词模型提供给计算装置。在从计算装置接收候选热词之后,动态地创建与候选热词的两个或更多个词中的一个或多个词相对应的一个或多个热词模型。对于多个词或子词中的每个词或子词训练用于该词或子词的预先计算的热词模型进一步包括:对于多个词或子词中的每个词或子词:为多个用户中的每个用户获得讲出词或子词的用户的音频数据的转录;为多个用户中的每个用户将讲出词或子词的用户的音频数据与讲出词或子词的用户的音频数据的转录相关联;以及基于(i)与讲出词或子词的多个用户中的每个用户相对应的音频数据以及(ii)与对应于讲出词或子词的多个用户中的每个用户的音频数据相关联的转录,生成与词或子词相对应的特定的预先计算的热词模型。
在以下附图和描述中给出本说明书所述主题内容的一个或多个实施例的细节。根据描述、附图和权利要求书,主题内容的其他潜在特征、方案和优点将变得显而易见。
附图说明
图1描绘用于提供热词模型的示例***。
图2描绘用于识别用户提供的热词的示例图形用户界面。
图3描绘用于提供热词模型的示例流程图。
图4描绘可用于实施本文所述技术的计算机装置和移动计算机装置。
在附图中,相同的附图标记始终表示相同的元素。
具体实施方式
图1描绘用于提供预先计算的热词模型的***100。在一些示例中,***100包括移动计算装置102、104、106,语音识别引擎108,词汇数据库110,以及热词配置引擎112。在一些示例中,移动计算装置102、104、106中的任何一个都可以是便携式计算机、智能电话、平板计算装置、或者可穿戴计算装置。移动计算装置102、104、106中的每一个与相应用户114、116、118相关联。移动计算装置102、104、106可包括任何音频检测器件,例如麦克风,用于检测来自相应关联用户114、116、118的话语。移动计算装置102和104例如通过一个或多个网络与语音识别引擎108通信,而移动计算装置106例如通过一个或多个网络与热词配置引擎112通信。
在一些实施方式中,在操作(A)期间,语音识别引擎108对于多个词或子词中的每个词或子词获得与讲出该词或子词的多个用户相对应的音频数据。具体而言,语音识别引擎108例如通过一个或多个网络从移动计算装置102和104获得音频数据,该移动计算装置102和104各自对应于讲出词或子词的用户114和116。在一些示例中,用户114和116分别说出移动计算装置102和移动计算装置104各自检测的一个或多个词。在一些示例中,用户114和116各自在与移动计算装置102和104任何交互期间讲出词或子词,例如,提交对于发音命令的发音查询。在一些示例中,除了获得与讲出词或子词的用户114和116相关联的音频数据之外,语音识别引擎108还从移动计算装置102和104获得用户114和116的地点。该地点可包括用户讲出词或子词时的近似当前位置,或者与用户的简档相关联的位置。
例如,用户114说出“start my car(启动我的车)”的话语150,且用户116说出“where do I buy a computer?(我在哪买电脑)”的话语152。移动计算装置102检测“start my car”的话语150,以生成表示被检测的话语150的波形数据120;且移动计算装置104检测“where do Ibuy a computer?”的话语152,以生成表示被检测的话语152波形数据122。移动计算装置102和104例如通过一个或多个网络将波形120和122各自传输给语音识别引擎108。
在一些示例中,在操作(B)期间,语音识别引擎108对于多个词或子词中的每个词或子词,为多个用户中的每个用户获得讲出词或子词的用户的音频数据的转录。具体而言,语音识别引擎108处理所接收的音频数据,包括生成与音频数据相关联的词或子词的话语的转录。生成讲出词或子词的用户的音频数据的转录可包括将话语转录为文本或文本相关数据。换言之,语音识别引擎108可以按照与音频数据相关联的话语的书面形式提供自然语言的表示。例如,语音识别引擎108将如分别从移动计算装置102和104接收的波形120和122转录。也就是说,语音识别引擎108将波形120转录,生成“start my car”的转录124,且将波形122转录,生成“where do I buy a computer?”的转录126。
在一些示例中,在操作(C)期间,语音识别引擎108对于多个词或子词中的每个词或子词,为多个用户中的每个用户将讲出该词或子词的用户的音频数据与讲出该词或子词的用户的音频数据的转录相关联。例如,语音识别引擎108将波形160与转录124相关联,且将波形162与转录126相关联。在一些示例中,波形160实际上与波形120相同,且波形162实际上与波形122相同。在一些示例中,波形160是波形120经过处理的版本(例如通过语音识别引擎108),且波形162是波形122经过处理的版本(例如通过语音识别引擎108)。
在一些示例中,语音识别引擎108将波形160的一部分与转录124的对应部分相关联。也就是说,对于波形160的每个词或子词,语音识别引擎108将转录124的对应部分与词或子词相关联。例如,语音识别引擎108将波形160用于每个词“start”、“my”、“car”的部分与转录124的对应部分相关联。类似地,语音识别引擎108将波形162用于每个词“where”、“do”、“I”、“buy”、“a”、“computer”的部分与转录126的对应部分相关联。在一些示例中,语音识别引擎108将波形160用于每个词的每个子词例如音素或三音素等级)(例如词“start”的“st-ah-rt”)的部分与转录的对应部分相关联。类似地,在一些示例中,语音识别引擎108将波形162用于每个词的每个子词(例如音素或三音素等级)(例如词“computer”的“kom-pyu-ter”)的部分与转录的对应部分相关联。
在一些示例中,将讲出词或子词的用户的音频数据与讲出词或子词的用户的音频数据的转录相关联包括将关联存储在数据库或表中。具体而言,语音识别引擎108将转录124和波形160提供给词汇数据库110,使得词汇数据库110存***形160与转录124之间的关联。类似地,语音识别引擎108将转录126和波形162提供给词汇数据库110,使得词汇数据库110存***形162与转录126之间的关联。
在一些示例中,语音识别引擎108将与转录124的词或子词相关联的地点(例如用户114的地点)提供给词汇数据库110,使得词汇数据库110附加地存***形160、转录124与相应地点之间的关联。类似地,语音识别引擎108将与转录126的词或子词相关联的地点(例如用户116的地点)提供给词汇数据库110,使得词汇数据库110附加地存***形162、转录126与相应地点之间的关联。
在一些示例中,词汇数据库110指示波形160的一部分与转录124的对应部分之间的关联。也就是说,对于波形160的每个词或子词,词汇数据库110存***形160的一部分与具有该词或子词的转录124的对应部分的关联。例如,词汇数据库110存***形160用于每个词“start”、“my”、“car”的部分与转录124的对应部分的关联。类似地,词汇数据库110存***形162用于每个词“where”、“do”、“I”、“buy”、“a”、“computer”的部分与转录126的对应部分的关联。
在一些实施方式中,在操作(D)期间,热词配置引擎112对于多个词或子词的每个词或子词训练用于词或子词的预先计算的热词模型。具体而言,热词配置引擎112与词汇数据库110通信,并对于词汇数据库110存储的每个词或子词获得讲出该词或子词的多个用户的每个用户的音频数据以及音频数据的关联转录。例如,热词配置引擎112从词汇数据库110获得波形160和关联转录124,并且还获得波形162和关联的转录126。
在一些示例中,对于词汇数据库110存储的每个词或子词,热词配置引擎112生成与该词或子词相对应的预先计算的热词模型。具体而言,基于(i)与讲出该词或子词的多个用户中的每个用户相对应的音频数据;以及(ii)与对应于讲出该词或子词的多个用户中的每个用户的音频数据相关联的转录,热词配置引擎112生成用于每个词或子词的预先计算的热词模型。在一些示例中,预先计算的热词模型可以是分类器,诸如神经网络、或支持向量机(SVM)。
例如,热词配置引擎112生成与波形160和162的每个词或子词相对应的预先计算的热词模型。在一些示例中,对于波形160的词“start”,热词配置引擎112基于(i)与讲出词“start”的用户114相对应的音频数据(例如,波形160与讲出词“start”的用户114相对应的部分);以及(ii)与对应于讲出词“start”的用户114的音频数据相关联的转录,生成用于词的预先计算的热词模型。此外,热词配置引擎112可以对于波形160的剩余词“my”和“car”以及波形160的(每个词的)每个子词,例如,词“start”的“st-ah-rt”,生成预先计算的热词模型。
此外,在一些示例中,对于波形162的词“computer”,热词配置引擎112基于(i)与讲出词“computer”的用户116相对应的音频数据(例如,波形162与讲出词“computer”的用户116相对应的部分);以及(ii)与对应于讲出词“computer”的用户116的音频数据相关联的转录,生成用于词的预先计算的热词模型。此外,热词配置引擎112可以对于波形162的剩余词“where”、“do”、“I”、“buy”和“a”以及波形160的每个子词,例如,词“computer”的“kom-pyu-ter”,生成预先计算的热词模型。
在对于词汇数据库110存储的一个或多个词预先计算热词模型之后,热词配置引擎112将预先计算的热词模型128提供给词汇数据库110,使得词汇数据库110存储或者指示词或子词与对应的预先计算的热词模型128之间的关联。也就是说,对于波形160和162的每个词或子词,词汇数据库110存储(例如波形160和162的)每个词或子词与对应的预先计算的热词模型128之间的关联。在一些示例中,对于波形160和162的每个词或子词,词汇数据库110存储(i)波形与词或子词相对应的部分;(ii)波形这一部分的对应转录;以及(iii)对应的预先计算的热词模型之间的关联。例如,对于波形160的词“start”,词汇数据库110存储(i)波形160与词“start”相对应的部分;(ii)转录124与词“start”相对应的部分;以及(iii)对于词“start”的预先计算的热词模型的关联。
在一些实施方式中,在操作(E)期间,热词配置引擎112从移动计算装置106接收候选热词129。具体而言,热词配置引擎112例如通过一个或多个网络接收来自移动计算装置106的数据,该移动计算装置106与提供候选热词129的用户118相对应。在一些示例中,移动计算装置106向用户118提供图形用户界面180,该图形用户界面180提供文本182的显示,以提示用户118提供热词。例如,文本182包括“Please sayyour desired Hotword(请说出您期望的热词)”。作为响应,用户118说出移动计算装置106所检测的候选热词129,并传输给热词配置引擎112。例如,用户118说出与候选热词129相对应的“start computer(打开电脑)”的话语170。移动计算装置106检测“start computer”的话语170并生成表示所检测的话语170波形130。移动计算装置106例如通过一个或多个网络将波形130传输给热词配置引擎112。
在一些示例中,用户118例如经由对应于候选热词129的移动计算装置106的图形用户界面将基于文本的输入提供给移动计算装置106。例如,用户118经由虚拟或触觉的键盘输入“start computer”的文本。移动计算装置106例如通过一个或多个网络,将“start computer”的基于文本的候选热词129传输给热词配置引擎112。
在一些示例中,在对于多个词或子词中的每个词或子词训练用于该词或子词的预先计算的热词模型之后,热词配置引擎112从移动计算装置106接收候选热词。具体而言,在热词配置引擎112生成与词汇数据库110存储的每个词或子词相对应的预先计算的热词模型128之后,热词配置引擎112从移动计算装置106接收候选热词129。例如,在对于波形160和162的多个词或子词中的每个词或子词训练用于该词或子词的预先计算的热词模型128之后,热词配置引擎112从移动计算装置106接收“start computer”的候选热词129。
在一些示例中,热词配置引擎112从移动计算装置106接收包括两个或更多个词的候选热词129。例如,热词配置引擎112接收包括两个词(例如,“start”和“computer”)的“start computer”的候选热词129。在一些示例中,热词配置引擎112从移动计算装置106接收包括单个词的候选热词129。
在一些示例中,热词配置引擎112获得与候选热词129相对应的两个或更多个子词。也就是说,热词配置引擎112处理候选热词129,以识别候选热词129的子词。例如,对于“start computer”的候选热词129,热词配置引擎112可以获得用于候选热词129的词“start”的子词“st-ah-rt”,还可以获得用于候选热词129的词“computer”的子词“kom-pyu-ter”。
在一些实施方式中,在操作(F)中,热词配置引擎112识别与候选热词129相对应的一个或多个预先计算的热词模型。具体而言,热词配置引擎112访问词汇数据库110,以识别词汇数据库110存储的并且与候选热词129相对应的预先计算的热词模型128中的一个或多个。热词配置引擎112例如通过一个或多个网络从词汇数据库110检索预先计算的热词模型128。在一些示例中,热词配置引擎112识别与候选热词129的词或子词相关联的预先计算的热词模型128。热词配置引擎112可通过将候选热词129的词或子词与词汇数据库110存储的词或子词相匹配来识别预先计算的热词模型128。
在一些示例中,热词配置引擎112识别与用户118提供的候选热词129的话语170相对应的预先计算的热词模型128。也就是说,热词配置引擎112基于波形130来识别一个或多个预先计算的热词模型128,该波形130代表所检测的候选热词129的话语170。在示出的示例中,热词配置引擎112识别词汇数据库110存储的、与“start computer”的话语170相对应的一个或多个预先计算的热词模型128。
在一些示例中,当候选热词包括两个或更多个词时,热词配置引擎112识别与两个或更多个词中的每个词相对应的预先计算的热词模型。也就是说,候选热词129的两个或更多个词中的每个词对应于词汇数据库110存储的预先计算的热词模型128。例如,候选热词129包括两个词,例如“start”和“computer”。为此,热词配置引擎112识别词汇数据库110存储的、与词“start”相对应的第一预先计算的热词模型128,以及词汇数据库110存储的、与词“computer”相对应的第二预先计算的热词模型128。在一些示例中,热词配置引擎112识别词汇数据库110存储的、与两个词“start computer”相对应的预先计算的热词模型128。
在一些示例中,热词配置引擎112通过将波形130的至少一部分与词汇数据库110存储的波形的至少一部分相匹配,识别与候选热词129的话语170相对应的一个或多个预先计算的热词模型128。将波形130与词汇数据库110存储的波形相匹配可包括在波形130与词汇数据库110存储的波形之间进行基于音频的比较,以识别词汇数据库110存储的与波形130匹配的波形。在一些示例中,波形130与词汇数据库110存储的波形之间基于音频的比较可通过音频处理引擎来进行,该音频处理引擎例如通过一个或多个网络与热词配置引擎112通信。为此,在热词配置引擎112在识别词汇数据库110存储的与波形130匹配的波形时,热词配置引擎112识别与匹配波形相关联的预先计算的热词模型128。
在一些示例中,通过将词汇数据库110存储的预先计算的热词模型128中的一个或多个应用于话语170,热词配置引擎112识别与候选热词129的话语170相对应的一个或多个预先计算的热词模型128,从而识别相对于剩余预先计算的热词模型128与最高置信度得分相对应的预先计算的热词模型128。置信度得分指示所识别的预先计算的热词模型128与话语170相对应的可能性。
例如,热词配置引擎112可将波形130与词汇数据库110存储的波形160和162中的一个或多个的一部分相匹配。具体而言,热词配置引擎112可将波形130对应于词“start”的部分与词汇数据库110存储的波形160对应于词“start”的部分相匹配。基于这种匹配,热词配置引擎112可以识别与波形160用于词“start”的部分相关联的对应的预先计算的热词模型128。类似地,热词配置引擎112可将波形130对应于词“computer”的部分与词汇数据库110存储的波形162对应于词“computer”的部分相匹配。基于这种匹配,热词配置引擎112可以识别与波形162用于词“computer”的部分相关联的对应的预先计算的热词模型128。
在一些示例中,热词配置引擎112通过将波形130的转录的至少一部分与词汇数据库110存储的转录的至少一部分相匹配,识别与候选热词129的话语相对应的一个或多个预先计算的热词模型128。具体而言,热词配置引擎112可将波形130提供给语音识别引擎,例如语音识别引擎108,使得语音识别引擎108能够转录波形130。为此,将波形130的转录与词汇数据库110存储的转录相匹配可包括将波形130的转录与词汇数据库110存储的转录相比较,以识别词汇数据库110存储的与波形130匹配的转录。为此,在热词配置引擎112识别词汇数据库110存储的与波形130的转录匹配的转录时,热词配置引擎112识别与匹配的转录相关联的预先计算的热词模型128。
例如,热词配置引擎112可将波形130的转录与词汇数据库110存储的转录124和126中的一个或多个的一部分相匹配。具体而言,热词配置引擎112可将波形130的转录对应于词“start”的部分与词汇数据库110存储的转录124对应于词“start”的部分相匹配。基于这种匹配,热词配置引擎112可以识别与转录124用于词“start”的部分相关联的对应的预先计算的热词模型128。类似地,热词配置引擎112可将波形130的转录对应于词“computer”的部分与词汇数据库110存储的转录126对应于词“computer”的部分相匹配。基于这种匹配,热词配置引擎112可以识别与转录126用于词“computer”的部分相关联的对应的预先计算的热词模型128。
在一些示例中,将候选热词129的词或子词与词汇数据库110存储的词或子词相匹配可包括确定候选热词129的词或子词与词汇数据库110存储的词或子词之间的完全匹配。在一些示例中,将候选热词129的词或子词与词汇数据库110存储的词或子词相匹配可包括确定候选热词129的词或子词与词汇数据库110存储的词或子词之间的部分匹配。
在一些示例中,热词配置引擎112获得用于与候选热词129相对应的子词的预先计算的热词模型128。如上所述,对于“start computer”的候选热词129,热词配置引擎112识别用于候选热词129的词“start”的子词“st-ah-rt”,并且进而识别用于候选热词129的词“computer”的子词“kom-pyu-ter”。为此,热词配置引擎112访问词汇数据库110,以识别词汇数据库110存储的并且与候选热词129的子词相对应的预先计算的热词模型128。热词配置引擎112可通过将候选热词129的子词与词汇数据库110存储的并且关联于预先计算的热词模型128的子词相匹配来识别预先计算的热词模型128。例如,热词配置引擎112识别词汇数据库110存储的、与用于候选热词129的词“start”的每个子词“st-ah-rt”以及用于候选热词129的词“computer”的每个子词“kom-pyu-ter”相对应的一个或多个预先计算的热词模型128。
在一些实施方式中,在操作(G)中,热词配置引擎112将所识别的预先计算的热词模型提供给移动计算装置106。具体而言,热词配置引擎112例如通过一个或多个网络将对应于候选热词129的预先计算的热词模型134,例如预先计算的热词模型128的子集,提供给移动计算装置106。例如,热词配置引擎112可将对应于“start computer”的候选热词129的预先计算的热词模型134提供给移动计算装置106。
在一些示例中,热词配置引擎112将所识别的与候选热词129的两个或更多个词中的每个词相对应的预先计算的热词模型134提供给移动计算装置106。例如,候选热词129包括两个词,例如“start”和“computer”,并且热词配置引擎112提供与每个词相对应的预先计算的热词模型134。也就是说,热词配置引擎112将对应于词“start”的第一预先计算的热词模型134以及对应于词“computer”的第二预先计算的热词模型134提供给移动计算装置106。
在一些示例中,基于移动计算装置106的类型将所识别的预先计算的热词模型134提供给移动计算装置106。例如,低端或低处理能力的移动计算装置更适合于接收适当版本的预先计算的热词模型134(例如更小的神经网络),使得移动计算装置能够适当地处理预先计算的热词模型134。
在一些示例中,移动计算装置106可以响应于来自用户118的命令(或查询),接收两个或更多个预先计算的热词模型134。也就是说,用户118可以向移动计算装置106提供诸如“navigate to coffee house(导航到咖啡屋)”这样的命令。作为响应,移动计算装置106可以接收与接近用户118当前位置的咖啡屋的两个不同位置相对应的预先计算的热词模型134。例如,移动计算装置106可以接收用于“Palo Alto”的预先计算的热词模型135以及用于“Mountain View”的预先计算的热词模型134。移动计算装置106可将这两个位置选项都提供给用户118(例如经由声音或者移动计算装置106的图形用户界面)。用户118可以提供移动计算装置106可经由所接收的预先计算的热词模型134检测的位置中的一个的话语,如上所述。
在一些示例中,通过生成预先计算的热词模型128以及将其提供给词汇数据库110,该预先计算的热词模型例如通过移动计算装置106立即可用于(或者几乎立即可用于)根据话语识别热词。例如,移动计算装置106能够立即获得与词“start”和“computer”相对应的热词模型,使得移动计算装置106能够在临近检测话语170时适当地处理话语170。
在一些示例中,通过生成关于不可用于移动计算装置106的其他用户(例如用户114和116)的话语所训练的预先计算的热词模型128,移动计算装置106用来处理话语170的预先计算的热词模型128,与关于仅由用户118提供的话语所训练的热词模型128相比,可以更加强健。
在一些示例中,热词配置引擎112向移动计算装置106提供指令136,该指令136限定预先计算的热词模型134的处理例程。也就是说,指令136限定移动计算装置106怎样适当处理预先计算的热词模型134。在一些示例中,预先计算的热词模型134基于对输入话语(例如话语170)的基本声学特征(例如Mel频率倒谱系数)的分析来检测(例如话语的)热词。
在一些示例中,指令136包括依次处理热词模型134的指令,还包括热词模型134的处理顺序。例如,指令136可包括最初处理与词“start”相对应的预先计算的热词模型134,随后处理与词“computer”相对应的预先计算的热词模型134的指令。在一些示例中,指令136包括并行处理多个热词模型134的指令。例如,指令136可包括并行例如基本上同时处理与词“start”相对应的预先计算的热词模型134以及处理与词“computer”相对应的预先计算的热词模型134的指令。在一些示例中,指令136包括处理热词模型134,使得仅当第一热词模型134检测热词“start”时才处理与词“computer”相对应的第二热词模型134的指令。换言之,在通过第一热词模型134检测词“computer”时,移动计算装置106触发与词“computer”相对应的第二热词模型134的处理。
移动计算装置106例如通过一个或多个网络接收预先计算的热词模型134,并且在一些示例中,从热词配置引擎112接收指令136。移动计算装置106将预先计算的模型134存储在移动计算装置106的存储器中。因此,在以后通过用户118检测话语时(例如在接收预先计算的热词模型134之后),移动计算装置106可以根据预先计算的热词模型134适当地处理话语,以确定该话语是否与候选热词129相对应。
在一些其他实施方式中,热词配置引擎112动态地创建与候选热词129相对应的热词模型中的一个或多个。也就是说,响应于从移动计算装置106接收候选热词129,热词配置引擎112动态地创建与候选热词129的一个或多个词相对应的热词模型。在一些示例中,热词配置引擎112基于(i)波形130;以及(ii)例如从语音识别引擎108获得的波形130的转录,动态地创建用于候选热词129的热词模型。例如,对于波形130的词“start”,热词配置引擎112基于(i)波形130与讲出词“start”的用户118相对应的部分;以及(ii)与对应于讲出词“start”的用户118的波形130相关联的转录,动态地创建用于词的热词模型。
在一些示例中,如上所述,热词配置引擎112将波形130的至少一部分与词汇数据库110存储的波形的至少一部分相匹配。在匹配时,热词配置引擎112可以进一步识别与词汇数据库110存储的匹配波形相关联的对应转录的一部分。为此,热词配置引擎112基于(i)匹配波形;以及(ii)与匹配波形相关联的对应转录,动态地创建与候选热词129相对应的热词模型。例如,热词配置引擎112可以识别词汇数据库110存储的、波形160与词“start”相对应的部分,并且进而识别波形160包括词“start”的部分的对应转录124。热词配置引擎112可以基于(i)词汇数据库110存储的、波形160与词“start”相对应的部分;以及(ii)包括词“start”的对应转录124,动态地创建用于候选热词129的词“start”的热词模型。
在一些示例中,如上所述,热词配置引擎112将波形130的转录的至少一部分与词汇数据库110存储的转录的至少一部分相匹配。在匹配时,热词配置引擎112可以进一步识别与词汇数据库110存储的匹配转录相关联的对应波形。为此,热词配置引擎112基于(i)匹配转录;以及(ii)与匹配转录相关联的对应波形,动态地创建与候选热词129相对应的热词模型。例如,热词配置引擎112可以识别词汇数据库110存储的、转录124与词“start”相对应的部分,并且进而识别波形160包括词“start”的对应部分。热词配置引擎112可以基于(i)词汇数据库110存储的、转录124与词“start”相对应的部分;以及(ii)波形160包括词“start”的对应部分,动态地创建用于候选热词129的词“start”的热词模型。
在一些示例中,热词配置引擎112例如通过一个或多个网络将动态创建的热词模型提供给移动计算装置106。例如,热词配置引擎112可将与候选热词“start computer”的词“start”相对应的动态创建的热词模型134提供给移动计算装置106。在一些示例中,热词配置引擎112可将(i)与候选热词129“start computer”的词“start”相对应的动态创建的热词模型;以及(ii)与候选热词129“start computer”的词“computer”相对应的预先计算的热词模型134提供给移动计算装置106。
在一些示例中,热词配置引擎112在从移动计算装置106接收候选热词129之后,动态地生成与候选热词129相对应的热词模型。例如,热词配置引擎112在从移动计算装置106接收候选热词129之后,动态地生成与“start computer”的候选热词129相对应的热词模型。
图2图示出移动计算装置204的示例图形用户界面(GUI)202,用于识别用户提供的热词。移动计算装置204可以类似于图1的移动计算装置106。为此,移动计算装置204向关联于移动计算装置204的用户206提供第一GUI 202a,该第一GUI 202a提供用以将用户提供的热词识别为与动作相关联(例如,至少部分地通过移动计算装置204进行的过程)的过程的发起以显示。在一些示例中,第一GUI 202a包括向用户206指示提供热词的文本208。例如,文本208包括“What would you like yourHotword to be to initiate a web search?(您希望发起web搜索的热词是什么)”用户206提供移动计算装置204检测的话语210。例如,用户206说出用户206希望成为热词的“go gadget go”的话语210,以发起web搜索。
响应于检测话语210,移动计算装置204向用户206提供第二GUI202b,该第二GUI 202b提供所检测的话语210的被提议的转录以显示。在一些示例中,第二GUI 202b包括向用户206指示确认或拒绝话语210的转录的文本212。例如,文本212包括“我们认为您说了‘Go gadget go’。如果是,请按确认按钮。如果不是,请按拒绝按钮,并重新讲出热词。”为此,第二GUI 202b还包括可选择按钮214和216,用户206能够选择它们来指示是确认该转录正确,还是拒绝该转录。例如,在用户206选择可选择按钮214时,移动计算装置204接收“Go gadget go”的转录与话语210相对应的确认。此外,例如,在用户206选择可选择按钮216时,移动计算装置204接收与话语210相对应的转录(例如错误或不准确的转录)的拒绝。在一些示例中,所检测的话语210的被提议的转录并非经由第二GUI 202b提供给用户206。
响应于接收转录正确的确认,移动计算装置204向用户206提供第三GUI 202c,该第三GUI 202c提供所检测的话语210的转录的确认以显示。在一些示例中,第三GUI 202c包括向用户206指示用户206已经确认话语210的转录正确的文本218。例如,文本218包括“我们已经确认您的热词是‘Go gadget go’”。因此,词“Go gadget go”已经被确立为与热词相关联,并且进而与发起web搜索的动作相关联。
在通过用户206确立热词之后,例如在识别用户提供的热词之后,用户206例如可以经由话语或文本输入将热词220提供给移动计算装置206。例如,热词220可包括词“Go gadget go”。因此,响应于接收“Gogadget go”的热词220,移动计算装置206使得一个或多个动作进行,包括发起web搜索,并向用户206提供第四GUI 202d,该第四GUI 202d提供与接收热词220相关联的要采取的动作的描述以显示。在一些示例中,第四GUI 202d包括“开始搜索…”的文本222。
图3描绘用于提供热词模型的示例过程300的流程图。示例过程300可以使用一个或多个计算装置来执行。例如,可以使用移动计算装置102、104、106,语音识别引擎108,以及热词配置引擎112来执行示例过程500。
对于多个词或子词中的每个词或子词,获得与讲出该词或子词的多个用户相对应的音频数据(302)。例如,语音识别引擎208从移动计算装置102和104各自获得波形120和122,该移动计算装置102和104对应于讲出“start my car”的话语150的用户114和讲出“where do I buya computer”的话语152的用户116。对于多个词或子词中的每个词或子词,基于用于词或子词的音频训练用于该词或子词的预先计算的热词模型(304)。例如,热词配置引擎112基于波形120和122训练用于每个词或子词的预先计算的热词模型。从移动计算装置接收候选热词(306)。例如,热词配置引擎112从移动计算装置106接收“startcomputer”的候选热词129。识别与该候选热词相对应的一个或多个预先计算的热词模型(308)。例如,热词配置引擎112识别词汇数据库110存储的、与“start computer”的候选热词129相对应的预先计算的热词模型128。将所识别的预先计算的热词模型提供给移动计算装置(310)。例如,热词配置引擎112将预先计算的热词模型134提供给移动计算装置106。
图4示出一般计算机装置400和一般移动计算装置450的示例,可通过本文所述技术来使用它们。计算装置400意欲表示各种形式的数字计算机,诸如膝上型、桌上型、工作站、个人数字助理、服务器、刀片服务器、主机、以及其他适当的计算机。计算装置450意欲表示各种形式的移动装置,诸如个人数字助理、蜂窝电话、智能电话、以及其他类似的计算装置。本文所示的组件、它们的连接和关系、以及它们的功能只是作为示例,并非要限制本文献所述和/或所要求保护的发明的实施方式。
计算装置400包括处理器402、存储器404、存储装置406、连接存储器404和高速扩展端口410的高速接口408、以及连接低速总线414和存储装置406的低速接口412。组件402、404、406、408、410和412中的每个组件使用各种总线互连,并且可以安装在公共主板上,或者视情况以其他方式安装。处理器402可以处理在计算装置400中执行的指令,包括存储器404中或者存储装置406上存储的指令,从而在外部输入/输出装置诸如耦接到高速接口408的显示器416上显示用于GUI的图形信息。在其他实施方式中,可以视情况连同多个存储器和多种存储器一起使用多个处理器和/或多个总线。此外,可将多个计算装置400与提供必要操作部分的每个装置相连接(例如,作为服务器群、刀片服务器群、或者多处理器***)。
存储器404将信息存储在计算装置400中。在一个实施方式中,存储器404是易失性存储器单元或多个单元。在另一个实施方式中,存储器404是非易失性存储器单元或多个单元。存储器404也可以是其他形式的计算机可读介质,诸如磁盘或光盘。
存储装置406能够为计算装置400提供大容量存储。在一个实施方式中,存储装置406可以是计算机可读介质或包含计算机可读介质,诸如软盘装置、硬盘装置、光盘装置、或磁带装置、闪存或其他类似的固态存储器装置,或者装置的阵列,包括存储区域网络或其他配置中的装置。可以在信息载体中有形地具体实施计算机程序产品。计算机程序产品也可以包含指令,该指令在执行时进行诸如上述的一个或多个方法。信息载体是计算机可读介质或机器可读介质,诸如存储器404、存储装置406、或处理器402上的存储器。
高速控制器408管理用于计算装置400的带宽密集型操作,而低速控制器412管理较低的带宽密集型操作。这种功能分配只是示例性的。在一个实施方式中,高速控制器408耦接到存储器404、显示器416(例如通过图形处理器或加速器),并耦接到高速扩展端口410,该高速扩展端口410可接受各种扩展卡(未示出)。在该实施方式中,低速控制器412耦接到存储装置406和低速扩展端口414。可包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器耦接到一个或多个输入/输出装置,诸如键盘、点击装置、扫描仪、或网络装置,诸如交换机或路由器。
计算装置400可通过多种不同形式实施,如图所示。例如,可将其实施为标准服务器420,或者在这种服务器的群组中实施多次。也可将其实施为机架服务器***424的一部分。此外,可将其实施在个人计算机中,诸如膝上型计算机422。或者,可将来自计算装置400的组件与移动装置中的其他组件(未示出)组合,诸如装置450。这些装置中的每个装置都可包含计算装置400、450中的一个或多个,并且整个***可以由相互通信的多个计算装置400、450组成。
除了其他组件之外,计算装置450包括处理器452、存储器464、输入/输出装置诸如显示器454、通信接口466、以及收发器468。也可以向装置450提供存储装置,诸如微型驱动器或其他装置,以提供额外的存储。组件450、452、464、454、466和468中的每个组件使用各种总线互连,并且可将若干组件安装在公共主板上,或者视情况以其他方式安装。
处理器452可以执行计算装置640中的指令,包括存储器464中存储的指令。可将处理器实施为芯片的芯片组,包括独立的多个模拟处理器和数字处理器。例如,处理器可以提供装置450的其他组件的协调,诸如用户界面的控制、装置450运行的应用、以及装置450的无线通信。
处理器452可通过控制接口648以及耦接到显示器454的显示接口456与用户通信。显示器454例如可以是TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管)显示器,或其他适当的显示器技术。显示接口456可包括用于驱动显示器454的适当电路,以向用户呈现图形信息和其他信息。控制接口458可接收来自用户的命令并将它们转化,用于提交给处理器452。此外,可提供外部接口462与处理器452通信,从而实现装置450与其他装置的近区域通信。外部接口462例如在一些实施方式中提供有线通信,在其他实施方式中提供无线通信,并且还可以使用多个接口。
存储器464将信息存储在计算装置450中。可将存储器464实施为计算机可读介质或媒体、易失性存储器单元或多个单元、或者非易失性存储器单元或多个单元中的一个或多个。此外,可提供扩展存储器454并通过扩展接口452连接到装置450,该扩展接口452例如可包括SIMM(单列直插式内存模块)卡接口。这种扩展存储器454可以为装置450提供额外的存储空间,或者还可以存储用于装置450的应用或其他信息。具体而言,扩展存储器454可包括执行或补充上述过程的指令,并且还可包括安全信息。因此,例如,可以提供扩展存储器454作为用于装置450的安全模块,并且可通过允许安全使用装置450的指令编程。此外,可经由SIMM卡连同附加信息一起提供安全应用,诸如按照不可破解的方式将识别信息放入SIMM卡。
存储器例如可包括闪存和/或NVRAM存储器,如下所述。在一个实施方式中,在信息载体中有形地具体实施计算机程序产品。计算机程序产品包含指令,该指令在执行时进行如上所述的一个或多个方法。信息载体是计算机可读介质或机器可读介质,例如存储器464、扩展存储器454、处理器452上的存储器、或者例如可通过收发器468或外部接口462接收的传播信号。
装置450可通过通信接口466无线地通信,在必要时候通信接口466可包括数字信号处理电路。除了别的之外,通信接口466可以在各种模式或协议下提供通信,诸如GSM语音呼叫、SMS、EMS、或MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS。这种通信例如可通过射频收发器468发生。此外,短距通信诸如可使用蓝牙、WiFi、或其他这种收发器(未示出)发生。此外,GPS(全球定位***)接收器模块450可将附加的导航数据以及位置相关无线数据提供给装置450,它们可以视情况通过装置450上运行的应用来使用。
装置450也可使用音频编译码器460有声地通信,该音频编译码器460可以接收来自用户的说出的信息,并将其转化为可用的数字信息。同样,音频编译码器460可以为用户生成可听的声音,诸如通过扬声器,例如在装置450的耳机中。这种声音可包括来自话音电话呼叫的声音,可包括记录的声音(例如话音消息、音乐文件等等),还可包括通过装置450上操作的应用所生成的声音。
可通过多种不同形式来实施计算装置450,如图所示。例如,可将其实施为蜂窝电话480。也可将其实施为智能电话482、个人数字助理、或其他类似移动装置的一部分。
本文所述***和技术的各种实施方式可以在数字电子电路、集成电路、特别设计的ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些不同的实施方式可包括一个或多个计算机程序中的实施方式,该计算机程序在可编程***中可执行和/或可解释,该可编程***包括至少一个可编程处理器、至少一个输入装置、以及至少一个输出装置,该可编程处理器可以是专用处理器,也可以是通用处理器,其被耦接以从存储***接收数据和指令,以及向存储***传输数据和指令。
这些计算机程序(又称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且可以以高级程序语言和/或面向对象的编程语言和/或汇编/机器语言实施。如同本文使用的,术语“机器可读介质”、“计算机可读介质”表示用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备和/或装置(例如,磁盘、光盘、存储器、可编程逻辑器件(PLD)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”表示用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施本文所述***和技术,该计算机具有用于向用户显示信息的显示装置(例如CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户由其向计算机提供输入的键盘和点击装置(例如鼠标和轨迹球)。也可以使用其他类型的装置来提供与用户的交互;例如,向用户提供的反馈可以是任何形式的感觉反馈(例如,视觉反馈、听觉反馈、或触觉反馈);并且可以按照任何形式接收来自用户的输入,包括声学、语音、或触觉输入。
可以在计算***中实施本文所述***和技术,该计算***包括后端组件(例如作为数据服务器),或者包括中间件组件(例如应用服务器),或者包括前端组件(例如具有图形用户界面或web浏览器的客户端计算机,用户由其可与本文所述***和技术的实施方式交互),或者包括这些后端组件、中间件组件、或前端组件的任何组合。***的组件可通过任何形式或介质的数字数据通信(例如通信网络)来互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)及互联网。
计算***可包括客户端和服务器。客户端和服务器通常相互远离,且一般通过通信网络来交互。客户端与服务器的关系由于在相应计算机上运行并且相互具有客户端-服务器关系的计算机程序而出现。
虽然本公开包括一些特例,但是这些特例不应解释为对本公开的范围或者要求保护的范围的限制,而是作为对本公开的示例实施方式的特征的描述。在独立实施方式的背景下本公开所述的某些特征也可以在单个实施方式中组合提供。相反,在单个实施方式的背景下描述的不同特征也可以单独地或者按照任何合适的子组合在多个实施方式中提供。此外,虽然上面可将特征描述为在某些组合中起作用,甚至一开始就这样要求保护,但是在有些情况下可将来自所要求保护的组合的一个或多个特征从组合中删除,并且所要求保护的组合可以指向子组合或者子组合的变型。
类似地,虽然按照特定顺序在附图中描绘了操作,但是这不应理解为要求按照所示特定顺序或者按照依次顺序进行这些操作,或者要求进行全部所示的操作,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,在上述实施方式中各种***组件的分离不应理解为在所有实施方式中都要求这种分离,并且应当理解,所述程序组件和***通常可以集成在单个软件产品中或者封装在多个软件产品中。
因此,描述了本公开的特定实施方式。其他实施方式落入所附权利要求书的范围内。例如,权利要求中列举的动作可以按照不同的顺序进行,并且仍然实现期望的结果。描述了多个实施方式。但是应当理解,在不脱离本公开精神和范围的情况下可以进行各种修改。例如,可以使用上述流程的各种形式,将步骤重新排序,增加步骤,或去除步骤。因此,其他实施方式也落入所附权利要求书的范围内。
Claims (20)
1.一种计算机实施的方法,包括:
对于多个词或子词中的每个词或子词,获得与讲出所述词或子词的多个用户相对应的音频数据;
对于所述多个词或子词中的每个词或子词,基于用于所述词或子词的所述音频数据,训练用于所述词或子词的预先计算的热词模型;
从计算装置接收候选热词;
识别与所述候选热词相对应的一个或多个预先计算的热词模型;以及
将所识别的预先计算的热词模型提供给所述计算装置。
2.根据权利要求1所述的方法,其中,识别所述一个或多个预先计算的热词模型包括:
获得与所述候选热词相对应的两个或更多个子词;以及
对于与所述候选热词相对应的所述两个或更多个子词中的每个子词,获得与所述子词相对应的预先计算的热词模型。
3.根据权利要求1所述的方法,进一步包括:在对于所述多个词或子词中的每个词或子词训练用于所述词或子词的所述预先计算的热词模型之后,从所述计算装置接收所述候选热词。
4.根据权利要求1所述的方法,其中,从所述计算装置接收所述候选热词包括接收与所述候选热词相对应的音频数据。
5.根据权利要求1所述的方法,其中,从所述计算装置接收所述候选热词包括从所述计算装置接收包括两个或更多个词的所述候选热词。
6.根据权利要求5所述的方法,进一步包括:
识别与所述候选热词的所述两个或更多个词中的每个词相对应的一个或多个预先计算的热词模型;以及
将所识别的与所述候选热词的所述两个或更多个词中的每个词相对应的预先计算的热词模型提供给所述计算装置。
7.根据权利要求6所述的方法,进一步包括:
向所述计算装置提供指令,所述指令限定所识别的与所述候选热词的所述两个或更多个词中的每个词相对应的预先计算的热词模型的处理例程。
8.根据权利要求7所述的方法,其中,所述指令包括依次处理所识别的与所述候选热词的所述两个或更多个词中的每个词相对应的预先计算的热词模型的指令。
9.根据权利要求8所述的方法,其中,所述指令进一步包括依次处理所识别的与所述候选热词的所述两个或更多个词中的每个词相对应的预先计算的热词模型的处理顺序。
10.根据权利要求5所述的方法,进一步包括:
动态地创建与所述候选热词的所述两个或更多个词中的一个或多个词相对应的一个或多个热词模型;以及
将动态地创建的与所述候选热词的所述两个或更多个词中的一个或多个词相对应的一个或多个热词模型提供给所述计算装置。
11.根据权利要求10所述的方法,进一步包括:在从所述计算装置接收所述候选热词之后,动态地创建与所述候选热词中的所述两个或更多个词中的一个或多个词相对应的所述一个或多个热词模型。
12.根据权利要求1所述的方法,其中,对于所述多个词或子词中的每个词或子词,训练用于所述词或子词的所述预先计算的热词模型进一步包括:
对于所述多个词或子词中的每个词或子词:
为所述多个用户中的每个用户获得讲出所述词或子词的所述用户的所述音频数据的转录;
为所述多个用户中的每个用户将讲出所述词或子词的所述用户的所述音频数据与讲出所述词或子词的所述用户的所述音频数据的所述转录相关联;以及
基于(i)与讲出所述词或子词的所述多个用户中的每个用户相对应的所述音频数据以及(ii)与对应于讲出所述词或子词的所述多个用户中的每个用户的所述音频数据相关联的所述转录,生成与所述词或子词相对应的特定的预先计算的热词模型。
13.一种***,包括:
一个或多个计算机以及一个或多个存储装置,所述存储装置存储能操作的指令,所述指令在通过所述一个或多个计算机执行时使得所述一个或多个计算机执行操作,所述操作包括:
对于多个词或子词中的每个词或子词,获得与讲出所述词或子词的多个用户相对应的音频数据;
对于所述多个词或子词中的每个词或子词,基于用于所述词或子词的所述音频数据,训练用于所述词或子词的预先计算的热词模型;
从计算装置接收候选热词;
识别与所述候选热词相对应的一个或多个预先计算的热词模型;以及
将所识别的预先计算的热词模型提供给所述计算装置。
14.根据权利要求13所述的***,其中,识别所述一个或多个预先计算的热词模型包括:
获得与所述候选热词相对应的两个或更多个子词;以及
对于与所述候选热词相对应的所述两个或更多个子词中的每个子词,获得与所述子词相对应的预先计算的热词模型。
15.根据权利要求13所述的***,其中,从所述计算装置接收所述候选热词包括从所述计算装置接收包括两个或更多个词的所述候选热词。
16.根据权利要求15所述的***,所述操作进一步包括:
识别与所述候选热词的所述两个或更多个词中的每个词相对应的一个或多个预先计算的热词模型;以及
将所识别的与所述候选热词的所述两个或更多个词中的每个词相对应的预先计算的热词模型提供给所述计算装置。
17.根据权利要求15所述的***,所述操作进一步包括:
动态地创建与所述候选热词的所述两个或更多个词中的一个或多个词相对应的一个或多个热词模型;以及
将动态地创建的与所述候选热词的所述两个或更多个词中的一个或多个词相对应的一个或多个热词模型提供给所述计算装置。
18.根据权利要求17所述的***,所述操作进一步包括:在从所述计算装置接收所述候选热词之后,动态地创建与所述候选热词的所述两个或更多个词中的一个或多个词相对应的所述一个或多个热词模型。
19.根据权利要求13所述的***,其中,对于所述多个词或子词中的每个词或子词,训练用于所述词或子词的所述预先计算的热词模型进一步包括:
对于所述多个词或子词中的每个词或子词:
为所述多个用户中的每个用户获得讲出所述词或子词的所述用户的所述音频数据的转录;
为所述多个用户中的每个用户将讲出所述词或子词的所述用户的所述音频数据与讲出所述词或子词的所述用户的所述音频数据的转录相关联;以及
基于(i)与讲出所述词或子词的所述多个用户中的每个用户相对应的所述音频数据以及(ii)与对应于讲出所述词或子词的所述多个用户中的每个用户的所述音频数据相关联的所述转录,生成与所述词或子词相对应的特定的预先计算的热词模型。
20.一种存储软件的非短暂性计算机可读介质,所述软件包括能通过一个或多个计算机执行的指令,所述指令通过这样的执行使得所述一个或多个计算机执行操作,所述操作包括:
对于多个词或子词中的每个词或子词,获得与讲出所述词或子词的多个用户相对应的音频数据;
对于所述多个词或子词中的每个词或子词,基于用于所述词或子词的所述音频数据,训练用于所述词或子词的预先计算的热词模型;
从计算装置接收候选热词;
识别与所述候选热词相对应的一个或多个预先计算的热词模型;以及
将所识别的预先计算的热词模型提供给所述计算装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910962105.8A CN110825340B (zh) | 2014-07-25 | 2015-05-13 | 提供预先计算的热词模型 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/340,833 | 2014-07-25 | ||
US14/340,833 US9263042B1 (en) | 2014-07-25 | 2014-07-25 | Providing pre-computed hotword models |
PCT/US2015/030501 WO2016014142A1 (en) | 2014-07-25 | 2015-05-13 | Providing pre-computed hotword models |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910962105.8A Division CN110825340B (zh) | 2014-07-25 | 2015-05-13 | 提供预先计算的热词模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106062868A true CN106062868A (zh) | 2016-10-26 |
CN106062868B CN106062868B (zh) | 2019-10-29 |
Family
ID=53274829
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580010535.XA Active CN106062868B (zh) | 2014-07-25 | 2015-05-13 | 提供预先计算的热词模型 |
CN201910962105.8A Active CN110825340B (zh) | 2014-07-25 | 2015-05-13 | 提供预先计算的热词模型 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910962105.8A Active CN110825340B (zh) | 2014-07-25 | 2015-05-13 | 提供预先计算的热词模型 |
Country Status (4)
Country | Link |
---|---|
US (11) | US9263042B1 (zh) |
EP (5) | EP3783603A1 (zh) |
CN (2) | CN106062868B (zh) |
WO (1) | WO2016014142A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228699A (zh) * | 2016-12-22 | 2018-06-29 | 谷歌有限责任公司 | 协作性语音控制装置 |
CN108536668A (zh) * | 2018-02-26 | 2018-09-14 | 科大讯飞股份有限公司 | 唤醒词评估方法及装置、存储介质、电子设备 |
CN109213777A (zh) * | 2017-06-29 | 2019-01-15 | 杭州九阳小家电有限公司 | 一种基于语音的食谱处理方法及*** |
CN112349278A (zh) * | 2020-11-12 | 2021-02-09 | 苏州思必驰信息科技有限公司 | 本地热词训练和识别方法及装置 |
Families Citing this family (104)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9536528B2 (en) | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
US10643616B1 (en) * | 2014-03-11 | 2020-05-05 | Nvoq Incorporated | Apparatus and methods for dynamically changing a speech resource based on recognized text |
US9263042B1 (en) | 2014-07-25 | 2016-02-16 | Google Inc. | Providing pre-computed hotword models |
US20160133255A1 (en) * | 2014-11-12 | 2016-05-12 | Dsp Group Ltd. | Voice trigger sensor |
US10241754B1 (en) * | 2015-09-29 | 2019-03-26 | Amazon Technologies, Inc. | Systems and methods for providing supplemental information with a response to a command |
US9542941B1 (en) * | 2015-10-01 | 2017-01-10 | Lenovo (Singapore) Pte. Ltd. | Situationally suspending wakeup word to enable voice command input |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10510350B2 (en) * | 2016-03-30 | 2019-12-17 | Lenovo (Singapore) Pte. Ltd. | Increasing activation cue uniqueness |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10438583B2 (en) * | 2016-07-20 | 2019-10-08 | Lenovo (Singapore) Pte. Ltd. | Natural language voice assistant |
US10621992B2 (en) * | 2016-07-22 | 2020-04-14 | Lenovo (Singapore) Pte. Ltd. | Activating voice assistant based on at least one of user proximity and context |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
KR102623272B1 (ko) * | 2016-10-12 | 2024-01-11 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
CN106558305B (zh) * | 2016-11-16 | 2020-06-02 | 北京云知声信息技术有限公司 | 语音数据处理方法及装置 |
US10424297B1 (en) * | 2017-02-02 | 2019-09-24 | Mitel Networks, Inc. | Voice command processing for conferencing |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
KR102458805B1 (ko) | 2017-04-20 | 2022-10-25 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
US10664533B2 (en) | 2017-05-24 | 2020-05-26 | Lenovo (Singapore) Pte. Ltd. | Systems and methods to determine response cue for digital assistant based on context |
KR102371313B1 (ko) * | 2017-05-29 | 2022-03-08 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법 |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
KR20190019748A (ko) * | 2017-08-18 | 2019-02-27 | 삼성전자주식회사 | 자연어 생성 방법 및 장치 |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
CN109523991B (zh) * | 2017-09-15 | 2023-08-18 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置、设备 |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10102858B1 (en) * | 2017-11-29 | 2018-10-16 | International Business Machines Corporation | Dynamically changing audio keywords |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
JP2019106054A (ja) * | 2017-12-13 | 2019-06-27 | 株式会社東芝 | 対話システム |
US20190237069A1 (en) * | 2018-01-31 | 2019-08-01 | GM Global Technology Operations LLC | Multilingual voice assistance support |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
CN110689881B (zh) * | 2018-06-20 | 2022-07-12 | 深圳市北科瑞声科技股份有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US10896675B1 (en) | 2018-06-29 | 2021-01-19 | X Development Llc | Multi-tiered command processing |
KR102570301B1 (ko) * | 2018-08-02 | 2023-08-25 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
KR102523982B1 (ko) | 2018-08-21 | 2023-04-20 | 구글 엘엘씨 | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드 |
WO2020040745A1 (en) | 2018-08-21 | 2020-02-27 | Google Llc | Dynamic and/or context-specific hot words to invoke automated assistant |
KR20200023088A (ko) * | 2018-08-24 | 2020-03-04 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) * | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
CN109887505A (zh) * | 2019-03-11 | 2019-06-14 | 百度在线网络技术(北京)有限公司 | 用于唤醒设备的方法和装置 |
JP7266432B2 (ja) * | 2019-03-14 | 2023-04-28 | 本田技研工業株式会社 | エージェント装置、エージェント装置の制御方法、およびプログラム |
US10978069B1 (en) * | 2019-03-18 | 2021-04-13 | Amazon Technologies, Inc. | Word selection for natural language interface |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11132992B2 (en) * | 2019-05-05 | 2021-09-28 | Microsoft Technology Licensing, Llc | On-device custom wake word detection |
US11158305B2 (en) | 2019-05-05 | 2021-10-26 | Microsoft Technology Licensing, Llc | Online verification of custom wake word |
US11222622B2 (en) | 2019-05-05 | 2022-01-11 | Microsoft Technology Licensing, Llc | Wake word selection assistance architectures and methods |
CN110234032B (zh) * | 2019-05-07 | 2022-02-25 | 百度在线网络技术(北京)有限公司 | 一种语音技能创建方法及*** |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
WO2021011708A1 (en) * | 2019-07-15 | 2021-01-21 | Axon Enterprise, Inc. | Methods and systems for transcription of audio data |
KR20210009596A (ko) * | 2019-07-17 | 2021-01-27 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스 |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
CN110415705B (zh) * | 2019-08-01 | 2022-03-01 | 苏州奇梦者网络科技有限公司 | 一种热词识别方法、***、装置及存储介质 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
CN111079419B (zh) * | 2019-11-28 | 2024-03-22 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种基于大数据的国防科技热词发现方法及*** |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
CN111354342B (zh) * | 2020-02-28 | 2023-07-25 | 科大讯飞股份有限公司 | 一种个性化词库的更新方法、装置、设备及存储介质 |
US11482222B2 (en) * | 2020-03-12 | 2022-10-25 | Motorola Solutions, Inc. | Dynamically assigning wake words |
CN111462751B (zh) * | 2020-03-27 | 2023-11-03 | 京东科技控股股份有限公司 | 解码语音数据的方法、装置、计算机设备和存储介质 |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
CN112017647B (zh) * | 2020-09-04 | 2024-05-03 | 深圳海冰科技有限公司 | 一种结合语义的语音识别方法、装置和*** |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11984124B2 (en) * | 2020-11-13 | 2024-05-14 | Apple Inc. | Speculative task flow execution |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
CN115064160B (zh) * | 2022-08-16 | 2022-11-22 | 阿里巴巴(中国)有限公司 | 语音唤醒方法以及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1770263A (zh) * | 2004-11-01 | 2006-05-10 | 英业达股份有限公司 | 语音识别***以及方法 |
CN1941079A (zh) * | 2005-09-27 | 2007-04-04 | 通用汽车公司 | 语音识别方法和*** |
WO2008091947A2 (en) * | 2007-01-23 | 2008-07-31 | Infoture, Inc. | System and method for detection and analysis of speech |
CN101548285A (zh) * | 2007-10-04 | 2009-09-30 | 株式会社东芝 | 自动语音识别方法和设备 |
KR20090129739A (ko) * | 2008-06-13 | 2009-12-17 | 주식회사 케이티 | 발화 환경과 발화자에 따른 음성 인식 방법 및 장치 |
CN101609672B (zh) * | 2009-07-21 | 2011-09-07 | 北京邮电大学 | 一种语音识别语义置信特征提取的方法和装置 |
CN102341843A (zh) * | 2009-03-03 | 2012-02-01 | 三菱电机株式会社 | 语音识别装置 |
CN102760431A (zh) * | 2012-07-12 | 2012-10-31 | 上海语联信息技术有限公司 | 智能化的语音识别*** |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6026491A (en) * | 1997-09-30 | 2000-02-15 | Compaq Computer Corporation | Challenge/response security architecture with fuzzy recognition of long passwords |
US6233559B1 (en) * | 1998-04-01 | 2001-05-15 | Motorola, Inc. | Speech control of multiple applications using applets |
KR100812109B1 (ko) * | 1999-10-19 | 2008-03-12 | 소니 일렉트로닉스 인코포레이티드 | 자연어 인터페이스 제어 시스템 |
JP2002283259A (ja) * | 2001-03-27 | 2002-10-03 | Sony Corp | ロボット装置のための動作教示装置及び動作教示方法、並びに記憶媒体 |
US7668718B2 (en) * | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
AU2002950336A0 (en) * | 2002-07-24 | 2002-09-12 | Telstra New Wave Pty Ltd | System and process for developing a voice application |
WO2006126649A1 (ja) | 2005-05-27 | 2006-11-30 | Matsushita Electric Industrial Co., Ltd. | 音声編集装置、音声編集方法、および、音声編集プログラム |
US20080082338A1 (en) * | 2006-09-29 | 2008-04-03 | O'neil Michael P | Systems and methods for secure voice identification and medical device interface |
US8843376B2 (en) * | 2007-03-13 | 2014-09-23 | Nuance Communications, Inc. | Speech-enabled web content searching using a multimodal browser |
US8548812B2 (en) | 2008-12-22 | 2013-10-01 | Avaya Inc. | Method and system for detecting a relevant utterance in a voice session |
US8924219B1 (en) | 2011-09-30 | 2014-12-30 | Google Inc. | Multi hotword robust continuous voice command detection in mobile devices |
US9031847B2 (en) * | 2011-11-15 | 2015-05-12 | Microsoft Technology Licensing, Llc | Voice-controlled camera operations |
US9117449B2 (en) * | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
US9536528B2 (en) * | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
CN103680498A (zh) | 2012-09-26 | 2014-03-26 | 华为技术有限公司 | 一种语音识别方法和设备 |
CN103077714B (zh) * | 2013-01-29 | 2015-07-08 | 华为终端有限公司 | 信息的识别方法和装置 |
US8768712B1 (en) | 2013-12-04 | 2014-07-01 | Google Inc. | Initiating actions based on partial hotwords |
US8719039B1 (en) | 2013-12-05 | 2014-05-06 | Google Inc. | Promoting voice actions to hotwords |
US9263042B1 (en) | 2014-07-25 | 2016-02-16 | Google Inc. | Providing pre-computed hotword models |
-
2014
- 2014-07-25 US US14/340,833 patent/US9263042B1/en active Active
-
2015
- 2015-05-13 EP EP20201400.7A patent/EP3783603A1/en not_active Withdrawn
- 2015-05-13 EP EP16181747.3A patent/EP3113177B1/en active Active
- 2015-05-13 WO PCT/US2015/030501 patent/WO2016014142A1/en active Application Filing
- 2015-05-13 EP EP15725946.6A patent/EP3072128B1/en active Active
- 2015-05-13 CN CN201580010535.XA patent/CN106062868B/zh active Active
- 2015-05-13 CN CN201910962105.8A patent/CN110825340B/zh active Active
- 2015-05-13 EP EP19170707.4A patent/EP3537433B1/en active Active
- 2015-05-13 EP EP20201397.5A patent/EP3783602A1/en not_active Withdrawn
-
2016
- 2016-01-20 US US15/001,894 patent/US9520130B2/en active Active
- 2016-10-07 US US15/288,241 patent/US9646612B2/en active Active
-
2017
- 2017-03-20 US US15/463,786 patent/US9911419B2/en active Active
-
2018
- 2018-01-19 US US15/875,996 patent/US10186268B2/en active Active
- 2018-12-11 US US16/216,752 patent/US10446153B2/en active Active
-
2019
- 2019-08-01 US US16/529,300 patent/US10497373B1/en active Active
- 2019-10-30 US US16/669,503 patent/US10621987B2/en active Active
-
2020
- 2020-03-02 US US16/806,332 patent/US11062709B2/en active Active
-
2021
- 2021-06-21 US US17/304,459 patent/US11682396B2/en active Active
-
2023
- 2023-05-08 US US18/313,756 patent/US12002468B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1770263A (zh) * | 2004-11-01 | 2006-05-10 | 英业达股份有限公司 | 语音识别***以及方法 |
CN1941079A (zh) * | 2005-09-27 | 2007-04-04 | 通用汽车公司 | 语音识别方法和*** |
WO2008091947A2 (en) * | 2007-01-23 | 2008-07-31 | Infoture, Inc. | System and method for detection and analysis of speech |
CN101548285A (zh) * | 2007-10-04 | 2009-09-30 | 株式会社东芝 | 自动语音识别方法和设备 |
KR20090129739A (ko) * | 2008-06-13 | 2009-12-17 | 주식회사 케이티 | 발화 환경과 발화자에 따른 음성 인식 방법 및 장치 |
CN102341843A (zh) * | 2009-03-03 | 2012-02-01 | 三菱电机株式会社 | 语音识别装置 |
CN101609672B (zh) * | 2009-07-21 | 2011-09-07 | 北京邮电大学 | 一种语音识别语义置信特征提取的方法和装置 |
CN102760431A (zh) * | 2012-07-12 | 2012-10-31 | 上海语联信息技术有限公司 | 智能化的语音识别*** |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228699A (zh) * | 2016-12-22 | 2018-06-29 | 谷歌有限责任公司 | 协作性语音控制装置 |
US11521618B2 (en) | 2016-12-22 | 2022-12-06 | Google Llc | Collaborative voice controlled devices |
US11893995B2 (en) | 2016-12-22 | 2024-02-06 | Google Llc | Generating additional synthesized voice output based on prior utterance and synthesized voice output provided in response to the prior utterance |
CN109213777A (zh) * | 2017-06-29 | 2019-01-15 | 杭州九阳小家电有限公司 | 一种基于语音的食谱处理方法及*** |
CN108536668A (zh) * | 2018-02-26 | 2018-09-14 | 科大讯飞股份有限公司 | 唤醒词评估方法及装置、存储介质、电子设备 |
CN112349278A (zh) * | 2020-11-12 | 2021-02-09 | 苏州思必驰信息科技有限公司 | 本地热词训练和识别方法及装置 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106062868A (zh) | 提供预先计算的热词模型 | |
US11830499B2 (en) | Providing answers to voice queries using user feedback | |
US11475898B2 (en) | Low-latency multi-speaker speech recognition | |
US11670289B2 (en) | Multi-command single utterance input method | |
WO2019018061A1 (en) | AUTOMATIC INTEGRATION OF CAPTURE AND IMAGE RECOGNITION IN VOICE INTERROGATION TO UNDERSTAND INTENT | |
CN104969289A (zh) | 数字助理的语音触发器 | |
US20150127345A1 (en) | Name Based Initiation of Speech Recognition | |
EP3593346B1 (en) | Graphical data selection and presentation of digital content | |
CN107066494B (zh) | 语音查询的搜索结果预获取 | |
CN109994106A (zh) | 一种语音处理方法及设备 | |
CN110308886A (zh) | 提供与个性化任务相关联的声音命令服务的***和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |