CN104854654B - 用于使用搜索查询信息的言语识别处理的方法和*** - Google Patents
用于使用搜索查询信息的言语识别处理的方法和*** Download PDFInfo
- Publication number
- CN104854654B CN104854654B CN201380064902.5A CN201380064902A CN104854654B CN 104854654 B CN104854654 B CN 104854654B CN 201380064902 A CN201380064902 A CN 201380064902A CN 104854654 B CN104854654 B CN 104854654B
- Authority
- CN
- China
- Prior art keywords
- packet
- word
- search inquiry
- word sequence
- given
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000008569 process Effects 0.000 title description 15
- 238000013500 data storage Methods 0.000 claims description 16
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 23
- 241000282326 Felis catus Species 0.000 description 21
- 238000012546 transfer Methods 0.000 description 17
- 206010048669 Terminal state Diseases 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 238000012421 spiking Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005553 drilling Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 239000011295 pitch Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000002630 speech therapy Methods 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 1
- 240000003768 Solanum lycopersicum Species 0.000 description 1
- 244000061456 Solanum tuberosum Species 0.000 description 1
- 235000002595 Solanum tuberosum Nutrition 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 235000008429 bread Nutrition 0.000 description 1
- 239000007853 buffer solution Substances 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004851 dishwashing Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004899 motility Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24522—Translation of natural language queries to structured queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
描述了用于言语识别处理的方法和***。在示例中,计算装置可被配置为接收指示搜索查询向用于所述搜索查询的搜索引擎的提交频率的信息,所述搜索查询由词序列组成。基于搜索查询的提交频率超过阈值,计算装置可被配置为基于该搜索查询的一个或多个词出现于该搜索查询的词序列中的顺序来确定所述一个或多个词的分组。另外,计算装置可被配置为将指示所述分组的信息提供给言语识别***。
Description
相关申请的交叉引用
本申请要求2013年3月15日提交的并且题为“Methods And Systems For SpeechRecognition Processing Using Search Query Information”的美国专利申请序列号13/832,136的优先权,它是2012年10月18日提交的并且题为“Methods and Systems forSpeech Recognition Processing Using Search Query Information”的美国专利申请序列号61/715,365的非临时申请,所有这些专利申请在此通过引用并入本文,如同在本说明书中充分阐述一样。
背景技术
自动言语识别(ASR)技术可用于将音频话语映射至那些话语的文本表示。一些ASR***使用“训练”,其中个体说话人将文本段读入到言语识别***中。这些***分析人的特定语音并且使用该语音来精细调节对该人的言语的识别,从而得到更准确的转录。不使用训练的***可被称作“说话人无关”的***。使用训练的***可被称作“说话人有关”的***。
发明内容
本申请公开了用于言语识别处理的***和方法。在一个方面,描述了一种方法。该方法可包括在计算装置处接收指示搜索查询向搜索引擎的提交频率的信息。所述搜索查询可包括词序列。所述方法还可包括基于所述搜索查询的提交频率超过阈值,针对所述搜索查询的所述词序列基于所述搜索查询的一个或多个词出现于所述搜索查询的所述词序列中的顺序来确定所述一个或多个词的分组。所述方法还可包括将指示所述分组的信息提供给言语识别***以更新给定词序列的语料库。所述言语识别***可被配置为基于给定词序列的语料库将给定说出话语转换为给定词序列。
在另一方面,描述了一种其上存储有指令的计算机可读介质,所述指令在由计算装置执行时使得所述计算装置执行功能。所述功能可包括接收指示搜索查询向搜索引擎的提交频率的信息。所述搜索查询可包括词序列。所述功能还可包括基于所述搜索查询的提交频率超过阈值,针对所述搜索查询的所述词序列,基于所述搜索查询的一个或多个词出现于所述搜索查询的所述词序列中的顺序来确定所述一个或多个词的分组。所述功能还可包括将指示所述分组的信息提供给言语识别***以更新给定词序列的语料库。所述言语识别***可被配置为基于给定词序列的语料库将给定说出话语转换为给定词序列。
在另一方面,描述了一种装置。所述装置可包括至少一个处理器。所述装置还可包括数据存储装置以及该数据存储装置中的程序指令,所述程序指令在由所述至少一个处理器执行时使得所述装置接收指示搜索查询向搜索引擎的提交频率的信息。所述搜索查询可包括词序列。所述数据存储装置中的程序指令在由所述至少一个处理器执行时还使得所述装置基于所述搜索查询的提交频率超过阈值,针对所述搜索查询的所述词序列基于所述搜索查询的一个或多个词出现于所述搜索查询的所述词序列中的顺序来确定所述一个或多个词的分组。所述数据存储装置中的程序指令在由所述至少一个处理器执行时还使得所述装置将指示所述分组的信息提供给言语识别***以更新给定词序列的语料库。所述言语识别***可被配置为基于给定词序列的语料库将给定说出话语转换为给定词序列。所述言语识别***还可包括所述语料库的给定词序列的出现概率。
以上发明内容仅是例示性的,而非意在以任何方式限制。除了例示方面以外,上述实施例和特征,另外的方面、实施例和特征将通过参照附图以及以下具体实施方式而变得显而易见。
附图说明
图1图示出依据示例实施例的示例自动言语识别(ASR)***。
图2图示出依据实施例的示例声学模型的各方面。
图3图示出依据实施例的ASR***的示例搜索图。
图4是依据实施例的用于言语识别处理的示例方法的流程图。
图5A图示出依据实施例的示例搜索查询的示例自动机表示。
图5B图示出依据实施例的示例搜索查询的示例bi-gram语言模型。
图5C图示出依据实施例的示例搜索查询的示例因子图。
图6图示出依据示例实施的示例分布式计算架构。
图7A是依据示例实施例图示的示例计算装置的框图。
图7B示出依据示例实施例的基于云的服务器***。
图8是图示出根据本文所呈现的至少一些实施例布置的示例计算机程序产品的局部概念图的示意图,该计算机程序产品包括用于在计算装置上执行计算机处理的计算机程序。
具体实施方式
以下具体实施方式参照附图描述了所公开的***和方法的各种特征和功能。在附图中,除非上下文另外指示,否则相似的标号标识相似的组件。本文所描述的例示***和方法实施例并非意在限制。可容易地理解,所公开的***和方法的某些方面可按照各种各样的不同配置来布置和组合,其全部在本文中被预期。
随着计算能力不断增加,自动言语识别(ASR)***和装置可被部署在各种环境中以提供基于言语的用户接口。这些环境中的一些包括住宅、企业、车辆等。
例如,在住宅和企业中,ASR可对诸如大家电(例如,烤箱、冰箱、洗碗机、洗衣机和烘干机)、小家电(例如,烤面包机、恒温器、咖啡机、微波炉)和媒体装置(立体声、电视、数字视频记录器、数字视频播放器)的装置以及门、灯、窗帘等提供语音控制。在车辆中,ASR可提供通信技术(例如,蜂窝电话)、媒体装置(例如,收音机和视频播放器)、地图技术(例如,导航***)、环境控制(例如,供热装置和空调)等的免提使用。在示例中,ASR可用于将语音搜索查询转换为文本串,该文本串可被发送给搜索引擎以获得搜索结果。语音控制的潜在用途有许多,并且这些示例不应被视为限制。
在示例中,可在从说话人接收话语的装置处执行ASR。对于此基于装置的ASR,每个用户装置可配置有ASR模块。在另一示例中,可在远程网络服务器(例如,互联网上的服务器或者服务器集群)处执行言语识别。尽管在此示例中言语识别可能没有将ASR并入用户装置中,但是用户装置仍可被配置为具有与远程ASR***的通信路径(例如,通过互联网接入)。
在另一示例中,言语识别可通过使用本地ASR***来执行,该本地ASR***将ASR的至少一些方面的执行卸下给远程装置。本地ASR***可以是执行ASR的专用装置或者被配置为例如在通用计算平台上操作的软件。该本地ASR***可在物理上位于住宅、企业、车辆等中,并且即使用户装置没有互联网接入也可操作。
在一些示例中,用户装置可从说话人接收话语并且将话语的表示发送给本地ASR***。本地ASR***可将话语的表示转录为话语的文本表示,并且将该文本表示发送给用户装置。另选地,本地ASR***作为替代可基于话语的转录将命令发送给用户装置。此命令可基于话语的转录的文本表示,或者可从话语的表示更直接地导出。所述命令还可以是用户装置所支持的命令集或命令语言。在一个示例中,话语可表示语音搜索查询,并且本地ASR***可被配置为将语音搜索查询的转录发送给搜索引擎,以获得可通信给用户装置的相应的搜索结果。
图1图示出依据实施例的示例ASR***。在运行时,ASR***的输入可包括话语100,并且输出可包括一个或多个文本串以及可能关联的置信度101。ASR***的组件可包括可被配置为生成特征向量104的特征分析模块102、模式分类模块106、声学模型108、字典110和语言模型112。模式分类模块106可包含声学模型108、字典110和语言模型112的各种方面。
图1所描绘的示例ASR***仅用于例示。其它ASR***布置方式也是可能的,包括不同的组件、组件之间的不同关系和/或不同的处理。
特征分析模块102可被配置为接收话语100。话语100可包括人类言语的模拟或数字表示,并且可能也许还包含背景噪声。特征分析模块102可被配置为将话语100转换为一个或多个特征向量104的序列。特征向量104中的每个特征向量可包括话语100的至少一部分的声学特征的时间和/或频谱表示。例如,特征向量可包括此类部分的mel频率倒谱系数。
mel频率倒谱系数可表示话语100的一部分的短时功率谱。它们可基于例如频率的非线性mel尺度上的对数功率谱的线性余弦变换。(mel尺度可以是由听者主观感知的音高约相等地彼此远离的尺度,即使这些音高的实际频率并不相等地彼此远离)。
为了导出这些系数,特征分析模块102可被配置为采样并量化话语100,将话语100分割成15毫秒的交叠或不交叠的帧,并且对帧执行频谱分析以导出每个帧的频谱分量。特征分析模块102还可被配置为执行噪声去除,将标准频谱系数转换为mel频率倒谱系数,并且计算mel频率倒谱系数的一阶和二阶倒谱导数。
一阶倒谱系数导数可基于在两个或更多个连续帧的窗口上执行的线性回归的斜率来计算。二阶倒谱系数导数可基于在一阶倒谱系数导数的两个或更多个连续集合的窗口上执行的线性回归的斜率来计算。然而,可存在计算一阶和二阶倒谱系数导数的其它方式。
在一些示例中,话语100的一个或多个帧可通过mel频率倒谱系数、一阶倒谱系数导数和二阶倒谱系数导数的特征向量来表示。例如,特征向量可包含13个系数、13个一阶导数和13个二阶导数,因此长度为39。然而,在其它可能的示例中,特征向量可使用特征的不同组合。
模式分类模块106可被配置为从特征分析模块102接收特征向量104的序列,并且生成话语100的一个或多个文本串转录101作为输出。每个转录101可伴随有相应的置信度,该置信度指示转录正确的所估计的可能性(例如,80%置信度、90%置信度等)。
为了生成文本串转录101,模式分类模块106可被配置为包括或包含声学模型108、字典110和/或语言模型112的各方面。在一些示例中,模式分类模块106还可被配置为使用搜索图,该搜索图表示出现在说出话语中的词或子词声学特征的序列。
声学模型108可被配置为确定特征向量104可能已经从说出词和/或子词音的特定序列导出的概率。这可涉及将特征向量104的序列映射至一个或多个音素,并且然后将音素的序列映射至一个或多个词。
音素可被视为话语的最小片段,其涵盖与话语的其它片段的有意义对照。因此,词通常包括一个或多个音素。例如,音素可被认为是字母的发声;然而,一些音素可呈现多个字母。词“cat”的美式英语发音的示例音素拼法可为/k//ae//t/,包括音素/k/、/ae/和/t/。词“dog”的另一示例音素拼法可为/d//aw//g/,包括音素/d/、/aw/和/g/。
存在不同的音素字母表,这些字母表对于其中的各种音素可具有不同的文本表示。例如,字母“a”对于在“cat”中的音可由音素/ae/表示,对于在“ate”中的音可由音素/ey/表示,对于在“beta”中的音可由音素/ah/表示。其它音素表示也是可能的。
美式英语的常见音素字母表包含约40个不同的音素。这些音素中的每一个可与特征向量值的不同分布关联。声学模型108可被配置为通过将特征向量与40个音素中的每一个的分布进行比较并寻找最可能由特征向量表示的一个或多个音素来估计特征向量中的音素。
在一个示例中,声学模型108可包括隐式马尔可夫模型(HMM)。HMM可将***建模为具有未观测(即,隐式)状态的马尔可夫过程。每个HMM状态可被表示为表征状态的统计行为的多元高斯分布。另外,每个状态还可与一个或多个状态转移关联,该状态转移指定从当前状态转移至另一状态的概率。
当应用于ASR***时,每个状态的多元高斯分布和状态转移的组合可限定在一个或多个音素的持续时间中的特征向量的时间序列。另选地或另外地,HMM可对限定词的音素序列进行建模。因此,一些基于HMM的声学模型还可在将特征向量序列映射至一个或多个词时考虑音素语境。
图2图示出依据实施例的示例声学模型200的各方面。声学模型200限定组成词“cat”的音素序列。每个音素通过3-状态HMM表示,该3-状态HMM具有初始状态、中间状态和结尾状态,分别表示音素的开始处、音素的中间处以及音素的结尾处的统计特性。每个状态(例如,状态/k/1、状态/k/2等)可表示音素并且可包括一个或多个转移。
声学模型200可通过利用适当的转移将词中的每个音素相应的3-状态HMM级联在一起来表示词。这些级联可基于字典110中的信息来执行。在一些实现方式中,可在声学模型200中使用每音素更多或更少的状态。
可利用每个音素在众多语境(例如,各种词和句子)中的记录来训练声学模型200,以使得可获得每个音素的状态的表示。这些表示可涵盖上述多元高斯分布。
为了训练声学模型200,可能包含说出音素的大量的话语可各自与转录关联。这些话语可以是词、句子等,并且可从日常言语或者一些其它来源的记录获得。转录可以是话语的自动或手动(人为)文本串。
话语可根据它们相应的转录来分段。例如,声学模型200的训练可涉及将说出串分段成单位(例如,使用Baum–Welch和/或Viterbi对齐方法),并且然后使用所分段的话语来构建每个音素状态的统计分布。
因此,用于训练的数据(话语及其关联的转录)越多,可生成越准确的声学模型。然而,即使良好训练的声学模型在其未经训练的领域中用于ASR时也可能准确性有限。例如,如果通过来自多个美式英语的说话人的话语训练给定声学模型,则该声学模型在用于美式英语的ASR时可能表现良好,但是在用于例如英式英语的ASR时可能不太准确。
另外,如果利用来自多个说话人的话语训练声学模型200,则最终可能是将每个音素表示为该音素的发音对所有说话人的统计平均。因此,声学模型200在以这种方式训练时可表示假设的平均说话人(而非任何特定说话人)的发音和使用。
返回参照图1,字典110可限定音素与词之间预先建立的映射。例如,该映射可包括几万或几十万的音素-模式至词映射的列表。因此,在一些示例中,字典110可包括查找表,诸如下面所示的表1。表1示出字典110可如何针对ASR***尝试识别的对应词列出模式分类模块106可被配置以标识的音素序列。因此,字典110可在开发由声学模型200所示的词的音素状态表示时使用。
词 | 音素解释 |
cat | /k//ae//t/ |
and | /ay//n//d/ |
dog | /d//aw//g/ |
表1
语言模型112可被配置为基于音素或词的序列出现在输入到ASR***的话语中的可能性来向该音素或词的序列指派概率。因此,例如,如果有从话语转录的短语中的n-1个先前词的模式的值,语言模型112可定义wn的条件概率(对于该短语中的第n个词)。示例条件概率可被表达为:
P(wn|w1,w2,...,wn-1)
通常,语言模型可在n-gram上操作,该n-gram例如可以是在模式分类模块106中表示的n个音素或词的序列。n的值大于5的语言模型可需要较大内存或存储空间;因此,较小的n-gram(例如,3-gram,其也被称作tri-gram)可用于高效地产生可接受的结果。为了例示目的,本文中使用tri-gram。然而,本文中的示例可使用n的任何值。
可通过文本串或词的序列的语料库的分析来训练语言模型。该语料库可包含大量的词(例如,数百、数千、数百万或更多)。这些词可源自ASR***的用户说出的话语和/或书面文档。例如,可基于出现在人类言语、书面文本(例如,电子邮件、网页、报告、学术论文、字处理文档等)、搜索查询等中的词模式来确定或开发语言模型112。
从此类语料库,可基于它们在语料库中的相应的出现次数来估计tri-gram概率。换言之,如果C(w1,w2,w3)是词w1,w2,w3的序列在语料库中的出现次数,则所述词的序列的出现概率可被表达为:
因此,语言模型112可被表示为条件概率的表。表2示出此类表的示例,其可形成语言模型112的基础。具体地讲,表2包含tri-gram条件概率。
tri-gram条件概率 |
P(dog|cat,and)=0.50 |
P(mouse|cat,and)=0.35 |
P(bird|cat,and)=0.14 |
P(fiddle|cat,and)=0.01 |
表2
对于2-gram前缀“cat and”,表2指示基于在语料库中观测到的出现,50%次接下来的1-gram为“dog”。同样,35%次接下来的1-gram为“mouse”,14%次接下来的1-gram为“bird”,并且1%次接下来的1-gram为“fiddle”。在充分训练的ASR***中,语言模型112将包含更多条目,并且这些条目可不仅仅包括一个2-gram前缀。
一旦声学模型108和语言模型112被适当地训练,特征分析模型102和模式分类模块106可被配置为执行ASR。在提供输入话语100的情况下,ASR***可从语言模型112搜索有效词序列空间以寻找话语100中说出的可能性最大的词序列。然而,搜索空间的大小会非常大,并且减小搜索空间的方法可使得此类搜索在计算上更高效。例如,可使用启发式技术来降低搜索的复杂度(可能降低达数个数量级)。限制搜索空间的其它方法也是可能的。例如,搜索空间可被约束至给定时间段内的流行短语。
可使用有限状态转换机(FST)来紧凑地表示映射至单个词的多个音素模式。诸如“data”、“either”、“tomato“和”potato“的一些词具有多种发音。这些发音的音素序列可被表示在每一词的单个FST中。
可针对字典110中的每个词执行这种创建高效的音素级FST的处理,并且可利用语言模型112将所得词FST组合成句子FST。最终,可开发出音素、词和词的序列的状态网络并表示在紧凑搜索图中。
图3图示出依据实施例的ASR***的示例搜索图300。该示例搜索图300与ASR***中可能使用的搜索图相比较小并且不太复杂,并且用于例示。具体地讲,利用五个输入话语“catapult”、“cat and mouse”、“cat and dog”、“cat”和“cap”训练搜索图300。
搜索图300中的每个圆圈可表示与映射至音素的输入话语的处理关联的状态。为了简单,搜索图300中的每个音素利用单个状态,而非多个状态来表示。另外,搜索图300中省略了自转移以简化图3。
搜索图300中的状态基于输入话语的当前音素语境利用格式“x[y]z”来命名,以指示所考虑的当前音素y的左语境为音素x,右语境为音素z。换言之,状态“x[y]z”指示处理话语中的点,其中所考虑的当前音素为y,话语中先前考虑的音素为x,并且话语中接下来将考虑的音素为z。话语的开始和话语的结尾由“#”字符来表示,并且也可称作空音素。
终点状态可由加引号的识别的词或短语来表示。搜索图300包括表示识别出词或词的序列(即,短语)的五个终点状态,诸如“catapult”、“cat and mouse”、“cat and dog”、“cat”和“cap”。
从一个状态向另一状态的转移可表示在语料库中观测到的音素排序。例如,状态“#[k]ae”表示识别出“k”音素,其左语境为null音素,并且右语境为“ae”音素。存在从状态“#[k]ae”的两个转移——对于一个转移,接下来的音素(“ae”之后的音素)为“t”,并且对于另一转移,接下来的音素为“p”。
基于声学模型108、字典110和语言模型112,可向一个或多个状态和/或转移指派成本。例如,如果特定音素模式是罕见的,则向表示该音素模式的状态转移的成本可能高于向表示更常见的音素模式的状态转移。类似地,来自语言模型的条件概率(例如,参见表2)也可用于向状态和/或转移指派成本。例如,在表2中,假定具有词“cat and”的短语,该短语中接下来的词是“dog”的条件概率为0.5,而该短语中接下来的词是“mouse”的条件概率为0.35。因此,从状态“ae[n]d”向状态“n[d]m”转移的成本可高于从状态“ae[n]d”向状态“n[d]d”转移。
其中包括任何状态、状态之间的转移以及关联的成本的搜索图300可用于估计新输入的话语的文本串转录。例如,模式分类模块106可基于搜索图300确定与输入话语匹配的一个或多个词的序列。模式分类模块106可被配置为尝试寻找:
w*=argmaxwP(a|w)P(w)
其中,a是从输入话语导出的特征向量流,P(a|w)表示由词序列w生成的那些特征向量的概率,并且P(w)是由语言模型112指派给w的概率。例如,P(w)可基于如上所述的n-gram条件概率以及其它因子。函数argmaxw可返回使P(a|w)P(w)最大化的w值。
返回参照图1,为了寻找可与话语100匹配的文本串,模式分类模块106可被配置为尝试基于特征向量104寻找从搜索图300中的初始状态到搜索图300中的终点状态的路径。这一处理可涉及模式分类模块106对搜索图300执行广度优先搜索、A-star(A*)搜索、集束搜索或者一些其它类型的搜索。模式分类模块106可被配置为基于与状态关联的成本和/或与每个路径关联的转移向通过搜索图300的一个或多个路径指派总成本。这些成本中的一些可基于例如话语的特定片段映射至路径中的特定音素序列的置信度。
例如,话语100可包括短语“cat and dog”,并且模式分类模块106可被配置为逐个音素地逐步通过搜索图300以寻找开始于初始状态“#[k]ae”并且结束于终点状态“cat anddog”的路径。模式分类模块106还可被配置为寻找通过搜索图300的一个或多个附加路径。例如,模式分类模块106还可被配置为将话语100与初始状态为“#[k]ae”并结束于终点状态“cat and mouse”的路径以及初始状态为“#[k]ae”并结束于终点状态“catapult”的路径关联。然而,模式分类模块106可被配置为与其它路径相比向终点状态为“cat and dog”的路径指派较低成本(或者较高出现概率)。因此,终点状态为“cat and dog”的路径可被选择作为输入话语100的最可能转录。
ASR***可按照许多不同的方式来操作。上述示例是为了例示的目的而呈现,而不是ASR***操作的仅有方式。
如上所述,ASR***的言语识别数据库中的搜索空间会非常大。在一些示例中,为了创建言语识别数据库,ASR***可被配置为发掘诸如键入查询、新闻文章和其它材料的文档来源以生成统计语言模型。例如,语言模型可向每一个可能的词序列指派特定概率。在示例中,语言模型可允许没有出现在文档来源中的词序列,即,语言模型可允许出现或没有出现在文档来源中的短语的词的排列和组合。对没有出现在文档来源中的序列的一般化可称作平滑。
平滑会是有用的,因为用户可能讲出文档来源中可能不存在的独特或新的短语。然而,允许词的排列和组合可能生成无意义的词序列。例如,如果源短语为“show mefootball results”,则无意义的词序列可为“show results football me”。
搜索空间的减小可使得ASR***在计算上更高效。通常,ASR***的用户可生成具有高度重复性的话语。在一些示例中,话语的重复可能基于无限期的趋势(例如,赛季型运动的结果)。在其它示例中,话语的重复可基于可与话语关联的话题的流行度来预测(例如,与给定持续时间的当前事件(诸如,奥林匹克运动会)关联的话语)。在示例中,ASR***可被配置为利用此类可预测的重复来生成计算上高效的语言模型。
在示例中,为了使ASR***在计算上高效,ASR***可被配置为基于流行短语来生成词的序列。另外,代替允许假设流行短语的词的每一个单一序列而不管流行短语中的词的顺序的语言模型,ASR***可被配置为确定流行短语的词的一组分组或子序列,使得分组或子序列包括词,所述词以相同顺序出现在流行短语中。
作为用于例示的示例,流行短语可包括给定序列“词1词2词3词4词5”中的五个词。给定语言模型可允许子序列或分组“词2词3词5”;然而,更高效的语言模型可不是这样,因为该子序列不在源流行短语中。这样,ASR***的搜索空间可被限制或减小,从而允许更高的准确性和计算效率。
图4是依据实施例的用于高效言语识别的示例方法的流程图。
方法400可包括如一个或多个方框402-406所示的一个或多个操作、功能或动作。尽管按照依次顺序示出方框,这些方框在一些情况下可并行执行和/或按照与本文所述的那些顺序不同的顺序来执行。另外,基于期望的实现方式,各种方框可被组合成更少的方框、划分成附加方框、和/或被移除。
另外,对于方法400以及本文所公开的其它处理和方法,流程图示出了本示例的一个可能实现方式的功能和操作。在这方面,每个方框可表示模块、片段或程序代码的一部分,其包括可由处理器执行以用于实现处理中的特定逻辑功能或步骤的一个或多个指令。所述程序代码可被存储在任何类型的计算机可读介质或存储器上,例如,诸如包括盘或硬盘驱动器的存储装置。计算机可读介质可包括非瞬时性计算机可读介质或存储器,例如,诸如用于短期存储数据的计算机可读媒介,类似寄存器存储器、处理器高速缓存和随机存取存储器(RAM)。计算机可读介质还可包括非瞬时性媒介或存储器,诸如辅助或永久的长期存储装置,类似例如只读存储器(ROM)、光盘或磁盘、紧凑盘只读存储器(CD-ROM)。计算机可读媒介还可以是任何其它易失性或非易失性存储***。例如,计算机可读介质可被视为计算机可读存储介质、有形存储装置或其它制品。
另外,对于方法400以及本文所公开的其它处理和方法,图4中的每个方框可表示被连线以执行处理中的特定逻辑功能的电路。
在方框402,方法400包括在计算装置处接收指示搜索查询向搜索引擎的提交频率的信息,并且所述搜索查询可包括词的序列。计算装置可以是例如移动电话、个人数字助理(PDA)、膝上型计算机、笔记本、或上网本计算机、平板计算装置、可穿戴计算装置、基于云的计算***中的服务器等。
在示例中,搜索查询活动的突然增加(通常称作尖峰)可源自多个来源。尖峰可源自诸如假期或体育赛事的定期和流行发生,或者源自诸如高调新闻条目的不定期事件。在一个示例中,计算装置(例如,服务器)可被配置为接收与在给定时间段内搜索查询(或者多个搜索查询)向搜索引擎的提交频率的跟踪关联的信息,以标识流行或尖峰查询。例如,给定搜索查询可以是文本串(短语)或者给定装置(例如,移动电话)的用户所讲出的语音搜索查询。在示例中,可每天、每周或在任何其它时间单位内标识或提取流行或尖峰查询。
返回参照图4,在方框404处,方法400包括基于搜索查询的提交频率超过阈值,针对搜索查询的词序列基于该搜索查询的一个或多个词出现于该搜索查询的词序列中的顺序来确定所述一个或多个词的分组。在示例中,基于指示搜索查询向搜索引擎的提交频率的信息,计算装置可被配置为确定指示搜索查询的流行度的度量,并且标识在给定时间段内该搜索查询是否流行。例如,计算装置可被配置为基于搜索引擎的历史使用确定阈值,使得如果搜索查询的提交频率超过阈值,则该搜索查询可被指定为流行或尖峰搜索查询。
在示例中,计算装置可被配置为基于随时间推移的查询提交的时间序列分析来确定度量,并且将该度量与阈值进行比较以确定查询的流行度。所述度量可以例如与查询加速度或速度有关。例如,查询速度可被计算为即时查询请求与最近查询请求之间的时间差的倒数。所述时间差可被计算为:dt=(该查询实例的时间-上次见到查询的时间),查询速度可被确定为1/dt。给定查询的查询加速度可被确定为当前查询速度(或平均查询速度)与在先前时间确定的先前计算的查询速度(或先前计算的平均查询速度)之差乘以瞬时查询速度。所述度量可以是查询速度或查询加速度或者基于随时间推移的查询提交的时间序列分析而确定的其它参数的函数。其它参数或计算这些参数的方法是可能的。
作为用于示出方法400的示例,计算装置可被配置为基于两个查询向搜索引擎的相应的提交频率确定两个流行短语:“hello world I am here”和“world war two”。这两个搜索查询中的每一个包括给定顺序的词序列。例如,搜索查询“world war two”在该序列中包括三个词“world”、“war”和“two”。
计算装置可被配置为基于词出现在对应搜索查询中的顺序来确定词的分组。例如,对于搜索查询“world war two”,计算装置可被配置为确定词的以下分组:
world |
world war |
world war two |
war |
war two |
two |
这些分组也可被称作因子。对于较大的一组序列,分组可为给定搜索查询的大小的平方;因此,可禁止枚举词的所有分组。为了更高效地确定因子或分组,计算装置可被配置为确定或生成搜索查询的自动机表示和因子图。因子图可更紧凑地表示分组,并且可允许更高效的搜索。
图5A图示出依据实施例的示例搜索查询的示例自动机表示500。自动机表示500表示搜索查询“hello world I am here”和“world war two”二者。自动机表示500包括诸如初始状态502A、中间状态502B和终点状态502C的自动机状态。自动机表示500还包括诸如自动机弧504A和504B的自动机弧,并且每个自动机弧可对应于来自给定搜索查询的词序列的词。
图5B图示出依据实施例的示例搜索查询的示例bi-gram语言模型506。语言模型506允许搜索查询的所有词的可能的分组,而不管词在对应搜索查询中的顺序。如图5B所示,语言模型506是复杂的,并且可允许词的无意义的分组,诸如:“hello world here I”。
相比之下,可基于自动机表示500生成基于词在给定搜索查询中的顺序紧凑地表示搜索查询的词的可能的分组的因子图。图5C图示出依据实施例的示例搜索查询的示例因子图508。因子图508不如图5B中所描绘的语言模型506复杂,并且允许基于词在对应搜索查询中的顺序的词的分组。
例如,为了确定词的给定分组,计算装置可被配置为选择由连接到第一自动机状态(例如,初始状态512A)的自动机弧(例如,弧510A)表示的词;继续至与第一自动机状态相邻的第二自动机状态(例如,状态512B);并且选择由第二弧(例如,弧510B)表示的词以确定例如分组“I am”。可允许所述分组中的给定分组在因子图508中的任何给定状态处开始。因子图508可允许诸如“hello world I”的分组,但是不允许“hello I”;换言之,因子图508不允许跳过词或者偏离词在源搜索查询中的顺序。这样,因子图508可被视为基于词出现在给定搜索查询中的顺序来表示该给定搜索查询上的词的分组的紧凑和高效方式。
计算装置可被配置为频繁地(例如,每天)标识流行或尖峰查询(如上面在方框402处描述的)并且构建或生成诸如因子图508的因子图以用于查询。生成诸如因子图508的因子图可比构建诸如语言模型506的全语言模型更高效。另外,由于因子图508有效地允许子序列,所以因子图508可比仅对于允许逐字尖峰查询产生更多灵活性。例如,如果“AlbertEinstein Relativity”被标识为流行或尖峰查询,则对应因子图可允许分组“EinsteinRelativity”和“Albert Einstein”,这些分组在被提交给搜索引擎时可得到与流行查询“Albert Einstein Relativity”相似的搜索结果。
返回参照图4,在方框406处,方法400包括将指示所述分组的信息提供给言语识别***以更新给定词序列的语料库,并且言语识别***被配置为基于给定词序列的语料库将给定说出话语转换为给定词序列。计算装置(例如,服务器)可耦接到言语识别***(诸如,图1中所描绘的ASR***)或与其通信。在一个示例中,计算装置可包括言语识别***。
在示例中,言语识别***可包括言语识别数据库,该数据库包括可通过语言模型(诸如,图1中的语言模型112)生成的给定词序列的语料库。言语识别***可被配置为接收给定说出话语,并且将该给定说出话语与来自给定词序列的语料库的词序列匹配(例如,如图1-3中所述)。计算装置可被配置为生成描绘尖峰搜索查询的词的分组的因子图,并且将所述因子图和/或分组提供给言语识别***以将所述分组包括在(例如,增加)语料库中。
在一些示例中,在利用与流行搜索查询对应的分组更新语料库之后,计算装置可被配置为使得语料库中的搜索空间被约束。例如,搜索空间可被约束至至少由搜索图表示的分组。在另一示例中,言语识别***可被配置为在尝试使给定说出话语与语料库中的其它词序列匹配之前,尝试使该给定说出话语与所述分组中的一个匹配。
在另一示例中,言语识别***可被配置为生成与计算装置为流行查询生成的因子图对应的搜索图(诸如,搜索图300)。例如,与因子图对应的搜索图可被整合成更大的搜索图以用于其它词序列。为了寻找可匹配给定话语的文本串,言语识别***可被配置为尝试寻找从搜索图中的初始状态到搜索图中的终点状态的路径,并且可被配置为基于与状态关联的成本和/或与每个路径关联的转移来向通过搜索图的一个或多个路径指派总成本。例如,与其它路径相比,与因子图的词的分组对应的路径可被指派较小的成本(即,指派更高的概率)。
在示例中,言语识别***可接收不与流行或尖峰搜索查询的词的任何分组有关和匹配的说出话语。为了应对这种可能性,在一个示例中,言语识别***可被配置为将搜索空间约束至因子图,即,尝试追溯因子图的路径以标识高置信度匹配,并且如果这种尝试失败,则言语识别***可被配置为利用全语言模型或者语料库的其余部分来标识匹配。在另一示例中,言语识别***可被配置为并行地追溯因子图和全语言模型,并且当在因子图或全语言模型中标识出匹配时终止搜索。将搜索图和全语言模型组合的其它搜索策略也是可能的。
另外,如上面参照语言模型112所述,可向语料库中的给定词序列指派出现概率,所述出现概率可基于在语料库中的相应的出现次数来估计。因此,除了将分组提供给言语识别***以外,计算装置还可被配置为基于所述分组来更新出现概率。例如,计算装置可被配置为向分组指派比语料库中的其它词序列的给定出现概率高的相应的出现概率。所指派的相应的概率可以基于搜索查询有多流行,例如,基于指示搜索查询向搜索引擎的提交频率的信息。
在一些示例中,分组的出现概率可随时间变化。在一些情况下,给定搜索查询的流行度可随时间推移而减小。作为用于例示的示例,关于奥林匹克运动会结果的搜索查询在奥林匹克运动会期间并且可能在奥林匹克运动会之后的给定期间流行;然而,这种搜索查询的流行度可能随时间推移而减小。因此,在此示例中,计算装置可被配置为使得分组的出现概率衰减。在其它示例中,计算装置可被配置为不断评估搜索查询有多流行,并且基于更新的搜索查询的流行度变化来相应地更新或修改概率。
图6图示出依据示例实施例的示例分布式计算架构。图6示出被配置为经由网络606与可编程装置608a、608b和608c通信的服务器装置602和604。网络606可对应于LAN、广域网(WAN)、公司内联网、公共互联网或者被配置为在联网的计算装置之间提供通信路径的任何其它类型的网络。网络606还可对应于一个或多个LAN、WAN、公司内联网和/或公共互联网的组合。
尽管图6示出三个可编程装置,但是分布式应用架构可为数十、数百或数千的可编程装置服务。此外,可编程装置608a、608b和608c(或任何附加可编程装置)可以是任何种类的计算装置,诸如普通的膝上型计算机、台式计算机、网络终端、无线通信装置(例如,平板、蜂窝电话或智能电话、可穿戴计算装置等)等等。在一些示例中,可编程装置608a、608b和608c可专用于软件应用的设计和用途。在其它示例中,可编程装置608a、608b和608c可以是被配置为执行多个任务的通用计算机,并且可不专用于软件开发工具。
服务器装置602和604可被配置为执行可编程装置608a、608b和/或608c所请求的一个或多个服务。例如,服务器装置602和/或604可向可编程装置608a-608c提供内容。所述内容可包括(但不限于)网页、超文本、脚本、诸如编译的软件的二进制数据、图像、音频和/或视频。所述内容可包括压缩和/或未压缩的内容。所述内容可被加密和/或解密。其它类型的内容也是可能的。
作为另一示例,服务器装置602和/或604可向可编程装置608a-608c提供对用于数据库、搜索、计算、图形、音频(例如,言语识别)、视频、万维网/互联网利用、和/或其它功能的软件的访问。服务器装置的许多其它示例也是可能的。
服务器装置602和/或604可以是基于云的装置,其存储基于云的应用和/或服务的程序逻辑和/或数据。在一些示例中,服务器装置602和/或604可以是驻留于单个计算中心中的单个计算装置。在其它示例中,服务器装置602和/或604可包括单个计算中心中的多个计算装置或者位于不同地理位置的多个计算中心中的多个计算装置。例如,图6描绘了驻留于不同的物理位置的服务器装置602和604中的每一个。
在一些示例中,在服务器装置602和/或604处的数据和服务可被编码为存储在非瞬时性、有形计算机可读媒介(或计算机可读存储媒介)中并且可由可编程装置608a、608b和608c和/或其它计算装置访问的计算机可读信息。在一些示例中,在服务器装置602和/或604处的数据可被存储在单个盘驱动器或其它有形存储媒介上,或者可被实现于位于一个或多个不同的地理位置处的多个盘驱动器或其它有形存储媒介上。
图7A是依据示例实施例的计算装置(例如,***)的框图。具体地讲,图7A所示的计算装置700可被配置为执行服务器装置602、604、网络606、和/或一个或多个可编程装置608a、608b和608c的一个或多个功能。计算装置700可包括用户接口模块702、网络通信接口模块704、一个或多个处理器706以及数据存储装置708,所有这些均可经由***总线、网络或其它连接机制710链接在一起。
用户接口模块702可操作以向外部用户输入/输出装置发送数据和/或从其接收数据。例如,用户接口模块702可被配置为向诸如键盘、键区、触摸屏、计算机鼠标、轨迹球、操纵杆、相机、语音识别/合成模块和/或其它类似装置的用户输入装置发送数据和/或从其接收数据。用户接口模块702还可被配置为向诸如一个或多个阴极射线管(CRT)、液晶显示器(LCD)、发光二极管(LED)、使用数字光处理(DLP)技术的显示器、打印机、灯泡和/或现在已知或以后开发的其它类似装置的用户显示装置提供输出。用户接口模块702还可被配置为生成识别的言语或可听输出,并且可包括扬声器、扬声器插孔、音频输出端口、音频输出装置、耳机和/或其它类似装置。
网络通信接口模块704可包括一个或多个无线接口712和/或一个或多个有线接口714,其可被配置为经由诸如图6所示的网络606的网络来通信。无线接口712可包括一个或多个无线发射器、接收器和/或收发器,诸如蓝牙收发器、Zigbee收发器、Wi-Fi收发器、LTE收发器和/或可被配置为经由无线网络通信的其它类似类型的无线收发器。有线接口714可包括一个或多个有线发射器、接收器和/或收发器,诸如以太网收发器、通用串行总线(USB)收发器或者可被配置为经由双绞线、同轴电缆、光纤链路或者与有线网络的类似物理连接来通信的类似收发器。
在一些示例中,网络通信接口模块704可被配置为提供可靠、安全和/或经认证的通信。对于本文所述的每个通信,可提供用于确保可靠通信(即,有保证的消息递送)的信息,可能作为消息头和/或脚的一部分(例如,分组/消息定序信息、封装头和/或脚、大小/时间信息、以及诸如CRC和/或奇偶校验值传输验证信息)。可利用一个或多个密码协议和/或算法(诸如(但不限于)DES、AES、RSA、Diffie-Hellman和/或DSA)来使通信安全(例如,编码或加密)和/或解密/解码。除了本文所列那些以外也可使用其它密码协议和/或算法来对通信进行保护(然后解密/解码)。
处理器706可包括一个或多个通用处理器和/或一个或多个专用处理器(例如,数字信号处理器、专用集成电路等)。处理器706可被配置为执行包含在数据存储装置708中的计算机可读程序指令715和/或如本文所述的其它指令(例如,方法400)。
数据存储装置708可包括可由至少一个处理器706读取和/或访问的一个或多个计算机可读存储媒介。所述一个或多个计算机可读存储媒介可包括易失性和/或非易失性存储组件,诸如光学、磁、有机或其它存储器或盘存储装置,其可整个或部分地与至少一个处理器706集成。在一些示例中,数据存储装置708可利用单个物理装置(例如,一个光学、磁、有机或其它存储器或盘存储单元)来实现,而在其它示例中,数据存储装置708可利用两个或更多个物理装置来实现。
数据存储装置708可包括计算机可读程序指令715以及可能附加的数据,诸如(但不限于)由软件应用的一个或多个进程和/或线程使用的数据。在一些示例中,数据存储装置708可另外包括执行本文所述的方法(例如,方法400)和技术的至少部分和/或本文所述的装置和网络的功能的至少部分所需的存储装置。
图7B描绘了依据示例实施例的基于云的服务器***。在图7B中,服务器装置602和/或604的功能可分布在三个计算集群716a、716b和716c之间。计算集群716a可包括通过本地集群网络724a连接的一个或多个计算装置718a、集群存储阵列720a和集群路由器722a。类似地,计算集群716b可包括通过本地集群网络724b连接的一个或多个计算装置718b、集群存储阵列720b和集群路由器722b。同样,计算集群716c可包括通过本地集群网络724c连接的一个或多个计算装置718c、集群存储阵列720c和集群路由器722c。
在一些示例中,计算集群716a、716b和716c中的每一个可具有相等数量的计算装置、相等数量的集群存储阵列和相等数量的集群路由器。然而,在其它示例中,每个计算集群可具有不同数量的计算装置、不同数量的集群存储阵列和不同数量的集群路由器。每个计算集群中的计算装置、集群存储阵列和集群路由器的数量可取决于指派给每个计算集群的计算任务。
在计算集群716a中,例如,计算装置718a可被配置为执行服务器装置602的各种计算任务。在一个示例中,服务器装置602的各种功能可分布在计算装置718a、718b和718c中的一个或多个之间。计算集群716b和716c中的计算装置718b和718c可类似于计算集群716a中的计算装置718a来配置。另一方面,在一些示例中,计算装置718a、718b和718c可被配置为执行不同的功能。
在一些示例中,与服务器装置602和/或604关联的计算任务和存储的数据可至少部分地基于服务器装置602和/或604的处理要求,计算装置718a、718b和718c的处理能力,每个计算集群中的计算装置之间以及计算集群本身之间的网络链路的延迟,和/或可对整个***架构的成本、速度、容错、弹性、效率和/或其它设计目标作出贡献的其它因素,来分布于计算装置718a、718b和718c上。
计算集群716a、716b和716c的集群存储阵列720a、720b和720c可以是包括盘阵列控制器的数据存储阵列,所述盘阵列控制器被配置为管理对硬盘驱动器群组的读和写访问。盘阵列控制器(单独地或与其相应的计算装置结合)还可被配置为管理存储在集群存储阵列中的数据的备份或冗余拷贝,以针对妨碍一个或多个计算装置访问一个或多个集群存储阵列的盘驱动器或其它集群存储阵列故障和/或网络故障加以保护。
与服务器装置602和/或604的功能可分布于计算集群716a、716b和716c的计算装置718a、718b和718c上的方式类似,这些组件的各种活动部分和/或备份部分可分布于集群存储阵列720a、720b和720c上。例如,一些集群存储阵列可被配置为存储服务器装置602的数据,而其它集群存储阵列可存储服务器装置604的数据。另外,一些集群存储阵列可被配置为存储其它集群存储阵列中所存储的数据的备份版本。
计算集群716a、716b和716c中的集群路由器722a、722b和722c可包括被配置为向计算集群提供内部和外部通信的联网设备。例如,计算集群716a中的集群路由器722a可包括一个或多个互联网交换和路由装置,其被配置为提供:(i)计算装置718a与集群存储阵列720a之间经由本地集群网络724a的局域网通信;以及(ii)计算集群716a与计算集群716b和716c之间经由到网络606的广域网连接726a的广域网通信。集群路由器722b和722c可包括类似于集群路由器722a的网络设备,并且集群路由器722b和722c可为计算集群716b和716c执行与集群路由器722a为计算集群716a执行的类似的联网功能。
在一些示例中,集群路由器722a、722b和722c的配置可至少部分地基于计算装置和集群存储阵列的数据通信要求、集群路由器722a、722b和722c中的网络设备的数据通信能力、本地网络724a、724b、724c的延迟和吞吐量、广域网链路726a、726b和726c的延迟、吞吐量和成本、和/或可对缓冲***架构的成本、速度、容错、弹性、效率和/或其它设计目标作出贡献的其它因素。
在示例中,图6和图7A-7B所示的配置可用于参照方法400所描述的实现方式。例如,实现方法400的计算装置可以是基于云的装置(例如,服务器装置602和/或604)。在此示例中,计算装置可被配置为接收与由图6中的可编程装置608a-c或者图7B中的计算装置718a-c提交的搜索查询关联的信息,以确定尖峰查询并生成对应因子图。然后可将因子图提供给言语识别***,所述言语识别***也可被实现于诸如服务器装置602和/或604的基于云的装置中。
在一些示例中,所公开的方法(例如,方法400)可被实现为以机器可读格式编码在非瞬时性计算机可读存储媒介上或者其它非瞬时性媒介或制品上的计算机程序指令。图8是图示出根据本文所呈现的至少一些实施例布置的示例计算机程序产品的局部概念图的示意图,该计算机程序产品包括用于在计算装置上执行计算机处理的计算机程序。
在一个实施例中,提供利用信号承载介质801的示例计算机程序产品800。信号承载介质801可包括一个或多个编程指令802,这些编程指令在由一个或多个处理器执行时可提供上面参照图1-7描述的功能或部分功能。在一些示例中,信号承载介质801可涵盖计算机可读介质803,诸如(但不限于)硬盘驱动器、紧凑盘(CD)、数字视频盘(DVD)、数字带、存储器等。在一些实现方式中,信号承载介质801可涵盖计算机可记录介质804,诸如(但不限于)存储器、读/写(R/W)CD、R/W DVD等。在一些实现方式中,信号承载介质801可涵盖通信介质805,诸如(但不限于)数字和/或模拟通信介质(例如,光纤线缆、波导、有线通信链路、无线通信链路等)。因此,例如,信号承载介质801可由无线形式的通信介质805(例如,遵循IEEE802.11标准或其它传输协议的无线通信介质)来传达。
一个或多个编程指令802可以是例如计算机可执行指令和/或逻辑实现的指令。在一些示例中,诸如图6中的可编程装置608a-c或者图7B中的计算装置718a-c的计算装置可被配置为响应于由计算机可读介质803、计算机可记录介质804和/或通信介质805中的一个或多个传达给可编程装置608a-c或计算装置718a-c的编程指令802提供各种操作、功能或动作。
应该理解,本文所述的布置方式仅是用于示例目的。因此,本领域技术人员将理解,可替代使用其它布置方式和其它元件(例如,机器、接口、功能、顺序和功能分组等),并且可根据期望的结果完全省略一些元件。另外,所描述的许多元件是可被实现为分立或分布的组件或者以任何合适的组合和位置与其它组件结合的功能实体。
尽管本文中公开了各种方面和实施例,对于本领域技术人员而言其它方面和实施例将是显而易见的。本文所公开的各种方面和实施例是为了例示的目的,并非意在限制,真实范围由所附权利要求以及与授权的这些权利要求等同的完整范围指示。还将理解,本文所使用的术语仅是为了描述特定实施例,而非意在限制。
Claims (20)
1.一种用于言语识别处理的方法,所述方法包括:
在计算装置处接收指示搜索查询向搜索引擎的提交频率的信息,其中,所述搜索查询包括词序列;
基于所述搜索查询的所述提交频率超过阈值,针对所述搜索查询的所述词序列基于所述搜索查询的一个或多个词出现于所述搜索查询的所述词序列中的顺序来确定所述一个或多个词的分组;以及
将指示所述分组的信息提供给言语识别***以更新给定词序列的语料库,其中,所述言语识别***被配置为基于给定词序列的所述语料库将给定说出话语转换为给定词序列。
2.根据权利要求1所述的方法,其中,所述搜索查询包括文本串和语音搜索查询中的一个或多个。
3.根据权利要求1所述的方法,其中,所述言语识别***还包括所述语料库的所述给定词序列的出现概率,并且其中,将所述分组提供给所述言语识别***包括基于所述分组以及指示所述搜索查询向所述搜索引擎的提交频率的所述信息来更新所述出现概率。
4.根据权利要求3所述的方法,其中,将所述分组提供给所述言语识别***包括:
更新给定词序列的所述语料库以包括所述分组;以及
向所述分组指派相应的出现概率,所述出现概率高于所述语料库中的其它词序列的给定出现概率。
5.根据权利要求1所述的方法,所述方法还包括:
更新给定词序列的所述语料库以包括所述分组;以及
将所述语料库中的搜索空间约束至至少所述分组,以供所述言语识别***转录所述给定说出话语。
6.根据权利要求1所述的方法,所述方法还包括使得所述言语识别***在尝试使所述给定说出话语与所述语料库中的其它词序列匹配之前,尝试使所述给定说出话语与所述分组中的一个匹配。
7.根据权利要求1所述的方法,所述方法还包括基于指示所述搜索查询的所述提交频率的所述信息指派所述分组的相应的出现概率,并且其中,所述相应的出现概率随时间变化。
8.根据权利要求1所述的方法,所述方法还包括:
基于指示所述搜索查询的所述提交频率的所述信息向所述分组指派相应的出现概率;
不断接收所述搜索查询的所述提交频率的已更新的信息;以及
基于已更新的信息来更新所述相应的出现概率。
9.根据权利要求8所述的方法,其中,所述相应的出现概率基于已更新的信息而随时间推移衰减。
10.根据权利要求1所述的方法,其中,所述计算装置包括所述言语识别***。
11.一种用于言语识别处理的***,所述***包括:
用于接收指示搜索查询向搜索引擎的提交频率的信息的装置,其中,所述搜索查询包括词序列;
用于基于所述搜索查询的所述提交频率超过阈值,针对所述搜索查询的所述词序列基于所述搜索查询的一个或多个词出现于所述搜索查询的所述词序列中的顺序来确定所述一个或多个词的分组的装置;以及
用于将指示所述分组的信息提供给言语识别***以更新给定词序列的语料库的装置,其中,所述言语识别***被配置为基于给定词序列的所述语料库将给定说出话语转换为给定词序列。
12.根据权利要求11所述的***,其中,用于确定所述分组的装置包括用于生成因子图的装置,所述因子图包括自动机状态和自动机弧,所述自动机弧中的每一个对应于来自所述搜索查询的所述词序列的词。
13.根据权利要求12所述的***,其中,用于确定所述分组的装置包括:
用于选择由连接到第一自动机状态的第一自动机弧表示的第一词的装置;
用于继续至与所述第一自动机状态相邻的第二自动机状态的装置;以及
用于选择由连接到所述第二自动机状态的第二弧表示的第二词的装置,其中,在所述搜索查询的所述词序列中所述第二词与所述第一词相邻。
14.根据权利要求12所述的***,其中,所述分组中的给定分组被指示为在所述因子图中的任何给定自动机状态处开始。
15.一种用于言语识别处理的装置,所述装置包括:
至少一个处理器;
数据存储装置;以及
所述数据存储装置中的程序指令,所述程序指令在由所述至少一个处理器执行时使得所述装置:
接收指示在给定时间段内搜索查询向搜索引擎的提交频率的信息,其中,所述搜索查询包括词序列;
基于指示在所述给定时间段内所述搜索查询向所述搜索引擎的所述提交频率的所述信息,针对所述搜索查询的所述词序列基于所述搜索查询的一个或多个词出现于所述搜索查询的所述词序列中的顺序来确定所述一个或多个词的分组;以及
将指示所述分组的信息提供给言语识别***以更新给定词序列的语料库,其中,所述言语识别***被配置为基于给定词序列的所述语料库将给定口说说出话语转换为给定词序列。
16.根据权利要求15所述的装置,其中,所述程序指令在由所述至少一个处理器执行时还使得所述装置:
基于指示在所述给定时间段内所述搜索查询向所述搜索引擎的所述提交频率的所述信息来确定度量,其中,所述程序指令在由所述至少一个处理器执行时使得所述装置基于所述度量与阈值的比较来确定所述分组。
17.根据权利要求15所述的装置,其中,所述言语识别***包括所述语料库的所述给定词序列的出现概率,并且其中,为了将所述分组提供给所述言语识别***,所述数据存储装置中的所述程序指令在由所述至少一个处理器执行时使得所述装置基于所述分组以及指示所述搜索查询的所述提交频率的所述信息来更新所述出现概率。
18.根据权利要求15所述的装置,其中,所述言语识别***包括所述语料库的所述给定词序列的所述出现概率,并且其中,为了将所述分组提供给所述言语识别***,所述数据存储装置中的所述程序指令在由所述至少一个处理器执行时使得所述装置:
利用所述分组来增加给定词序列的所述语料库;以及
向所述分组指派相应的出现概率,所述出现概率高于所述语料库中的其它词序列的给定出现概率。
19.根据权利要求15所述的装置,其中,为了确定所述分组,所述数据存储装置中的所述程序指令在由所述至少一个处理器执行时使得所述装置生成因子图,所述因子图包括自动机状态和自动机弧,所述自动机弧中的每一个对应于来自所述搜索查询的所述词序列的词。
20.根据权利要求19所述的装置,其中,为了确定所述分组中的给定分组,所述数据存储装置中的所述程序指令在由所述至少一个处理器执行时使得所述装置:
选择由连接到第一自动机状态的第一自动机弧表示的第一词;
继续至与所述第一自动机状态相邻的第二自动机状态;以及
选择由连接到所述第二自动机状态的第二弧表示的第二词,其中,在所述搜索查询的所述词序列中所述第二词与所述第一词相邻,并且其中,所述给定分组被允许在所述因子图中的任何给定自动机状态处开始。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610978352.3A CN106847265B (zh) | 2012-10-18 | 2013-10-14 | 用于使用搜索查询信息的言语识别处理的方法和*** |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261715365P | 2012-10-18 | 2012-10-18 | |
US61/715,365 | 2012-10-18 | ||
US13/832,136 | 2013-03-15 | ||
US13/832,136 US8589164B1 (en) | 2012-10-18 | 2013-03-15 | Methods and systems for speech recognition processing using search query information |
PCT/US2013/064785 WO2014062545A1 (en) | 2012-10-18 | 2013-10-14 | Methods and systems for speech recognition processing using search query information |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610978352.3A Division CN106847265B (zh) | 2012-10-18 | 2013-10-14 | 用于使用搜索查询信息的言语识别处理的方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104854654A CN104854654A (zh) | 2015-08-19 |
CN104854654B true CN104854654B (zh) | 2016-12-21 |
Family
ID=49555853
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610978352.3A Active CN106847265B (zh) | 2012-10-18 | 2013-10-14 | 用于使用搜索查询信息的言语识别处理的方法和*** |
CN201380064902.5A Active CN104854654B (zh) | 2012-10-18 | 2013-10-14 | 用于使用搜索查询信息的言语识别处理的方法和*** |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610978352.3A Active CN106847265B (zh) | 2012-10-18 | 2013-10-14 | 用于使用搜索查询信息的言语识别处理的方法和*** |
Country Status (6)
Country | Link |
---|---|
US (2) | US8589164B1 (zh) |
EP (1) | EP2909832B1 (zh) |
JP (1) | JP6058807B2 (zh) |
KR (1) | KR101585185B1 (zh) |
CN (2) | CN106847265B (zh) |
WO (1) | WO2014062545A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847265A (zh) * | 2012-10-18 | 2017-06-13 | 谷歌公司 | 用于使用搜索查询信息的言语识别处理的方法和*** |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US9093061B1 (en) | 2011-04-14 | 2015-07-28 | Canyon IP Holdings, LLC. | Speech recognition with hierarchical networks |
US9123333B2 (en) * | 2012-09-12 | 2015-09-01 | Google Inc. | Minimum bayesian risk methods for automatic speech recognition |
US20140136210A1 (en) * | 2012-11-14 | 2014-05-15 | At&T Intellectual Property I, L.P. | System and method for robust personalization of speech recognition |
US9697827B1 (en) * | 2012-12-11 | 2017-07-04 | Amazon Technologies, Inc. | Error reduction in speech processing |
KR101614756B1 (ko) * | 2014-08-22 | 2016-04-27 | 현대자동차주식회사 | 음성 인식 장치, 그를 포함하는 차량, 및 그 차량의 제어 방법 |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US10176219B2 (en) | 2015-03-13 | 2019-01-08 | Microsoft Technology Licensing, Llc | Interactive reformulation of speech queries |
KR102437689B1 (ko) * | 2015-09-16 | 2022-08-30 | 삼성전자주식회사 | 음성 인식 서버 및 그 제어 방법 |
CN105654945B (zh) * | 2015-10-29 | 2020-03-06 | 乐融致新电子科技(天津)有限公司 | 一种语言模型的训练方法及装置、设备 |
CN105416208A (zh) * | 2015-12-08 | 2016-03-23 | 延锋伟世通电子科技(上海)有限公司 | 车载语音识别电子娱乐控制*** |
US10133821B2 (en) * | 2016-01-06 | 2018-11-20 | Google Llc | Search result prefetching of voice queries |
US20170229124A1 (en) * | 2016-02-05 | 2017-08-10 | Google Inc. | Re-recognizing speech with external data sources |
US9959885B2 (en) * | 2016-03-08 | 2018-05-01 | Samsung Eletrônica Da Amazônia Ltda | Method for user context recognition using sound signatures |
US10037360B2 (en) * | 2016-06-20 | 2018-07-31 | Rovi Guides, Inc. | Approximate template matching for natural language queries |
JP2018013590A (ja) | 2016-07-20 | 2018-01-25 | 株式会社東芝 | 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ |
CN106651517B (zh) * | 2016-12-20 | 2021-11-30 | 广东技术师范大学 | 一种基于隐半马尔可夫模型的药品推荐方法 |
US10522137B2 (en) * | 2017-04-20 | 2019-12-31 | Google Llc | Multi-user authentication on a device |
CN107856499A (zh) * | 2017-11-07 | 2018-03-30 | 龙泉市日日新科技咨询服务有限公司 | 一种可语音控制的汽车空调 |
US10943603B2 (en) | 2018-01-31 | 2021-03-09 | Wells Fargo Bank, N.A. | Systems and methods for a neighborhood voice assistant |
US11200484B2 (en) * | 2018-09-06 | 2021-12-14 | International Business Machines Corporation | Probability propagation over factor graphs |
CN109388404B (zh) * | 2018-10-10 | 2022-10-18 | 北京如布科技有限公司 | 一种路径解码方法、装置、计算机设备及存储介质 |
US12014740B2 (en) | 2019-01-08 | 2024-06-18 | Fidelity Information Services, Llc | Systems and methods for contactless authentication using voice recognition |
US12021864B2 (en) * | 2019-01-08 | 2024-06-25 | Fidelity Information Services, Llc. | Systems and methods for contactless authentication using voice recognition |
US11076219B2 (en) * | 2019-04-12 | 2021-07-27 | Bose Corporation | Automated control of noise reduction or noise masking |
CN112102817A (zh) * | 2019-06-18 | 2020-12-18 | 杭州中软安人网络通信股份有限公司 | 语音识别*** |
CN111326149A (zh) * | 2020-02-25 | 2020-06-23 | 青岛海尔空调器有限总公司 | 一种提高语音辨识率的优化方法及*** |
CN111459960A (zh) * | 2020-03-31 | 2020-07-28 | 九牧厨卫股份有限公司 | 一种离线智能设备语料修改方法 |
CN111503855B (zh) * | 2020-04-29 | 2021-06-29 | 四川虹美智能科技有限公司 | 多联机空调的控制***及控制方法 |
US11735180B2 (en) * | 2020-09-24 | 2023-08-22 | International Business Machines Corporation | Synchronizing a voice reply of a voice assistant with activities of a user |
US11967306B2 (en) | 2021-04-14 | 2024-04-23 | Honeywell International Inc. | Contextual speech recognition methods and systems |
US20240062752A1 (en) * | 2022-08-22 | 2024-02-22 | Snap Inc. | Grouping similar words in a language model |
CN116682420B (zh) * | 2022-12-30 | 2024-04-05 | 荣耀终端有限公司 | 语音识别方法、电子设备及可读介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645066A (zh) * | 2008-08-05 | 2010-02-10 | 北京大学 | 一种互联网新颖词监测方法 |
CN102467548A (zh) * | 2010-11-15 | 2012-05-23 | 腾讯科技(深圳)有限公司 | 一种新词的识别方法及*** |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06250687A (ja) * | 1993-02-25 | 1994-09-09 | Nippondenso Co Ltd | 不特定話者用音声認識装置 |
DE19837102A1 (de) | 1998-08-17 | 2000-02-24 | Philips Corp Intellectual Pty | Verfahren und Anordnung zum Durchführen einer Datenbankanfrage |
US6266637B1 (en) | 1998-09-11 | 2001-07-24 | International Business Machines Corporation | Phrase splicing and variable substitution using a trainable speech synthesizer |
JP2000258653A (ja) * | 1999-03-04 | 2000-09-22 | Fuji Xerox Co Ltd | 光バス |
JP2000259653A (ja) * | 1999-03-09 | 2000-09-22 | Mitsubishi Electric Corp | 音声認識装置及び音声認識方法 |
US7110945B2 (en) * | 1999-07-16 | 2006-09-19 | Dreamations Llc | Interactive book |
CN1201286C (zh) * | 1999-12-23 | 2005-05-11 | 英特尔公司 | 使用基于词汇树的n格拉姆语言模式的执行语音识别的方法 |
US20020087327A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented HTML pattern parsing method and system |
US7027987B1 (en) * | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
JP3683504B2 (ja) * | 2001-02-14 | 2005-08-17 | 日本電信電話株式会社 | 音声利用型情報検索装置および音声利用型情報検索プログラムと該プログラムを記録した記録媒体 |
US20020111810A1 (en) * | 2001-02-15 | 2002-08-15 | Khan M. Salahuddin | Spatially built word list for automatic speech recognition program and method for formation thereof |
JP4215418B2 (ja) * | 2001-08-24 | 2009-01-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム |
AU2003272871A1 (en) * | 2002-10-18 | 2004-05-04 | Beijing Kexin Technology Co., Ltd. | Portable digital mobile communication apparatus, method for controlling speech and system |
US20050004799A1 (en) * | 2002-12-31 | 2005-01-06 | Yevgenly Lyudovyk | System and method for a spoken language interface to a large database of changing records |
US7729913B1 (en) * | 2003-03-18 | 2010-06-01 | A9.Com, Inc. | Generation and selection of voice recognition grammars for conducting database searches |
US7424421B2 (en) * | 2004-03-03 | 2008-09-09 | Microsoft Corporation | Word collection method and system for use in word-breaking |
US7584098B2 (en) * | 2004-11-29 | 2009-09-01 | Microsoft Corporation | Vocabulary-independent search of spontaneous speech |
US20060190260A1 (en) * | 2005-02-24 | 2006-08-24 | Nokia Corporation | Selecting an order of elements for a speech synthesis |
JP4802522B2 (ja) * | 2005-03-10 | 2011-10-26 | 日産自動車株式会社 | 音声入力装置および音声入力方法 |
JP2007004281A (ja) * | 2005-06-21 | 2007-01-11 | Mitsubishi Electric Corp | 音声メール入力装置 |
CN1901041B (zh) * | 2005-07-22 | 2011-08-31 | 康佳集团股份有限公司 | 语音字典形成方法、语音识别***及其方法 |
US20070106685A1 (en) | 2005-11-09 | 2007-05-10 | Podzinger Corp. | Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same |
US7756708B2 (en) | 2006-04-03 | 2010-07-13 | Google Inc. | Automatic language model update |
CN101064105A (zh) * | 2006-04-25 | 2007-10-31 | 台达电子工业股份有限公司 | 字转音的使用者界面***及修改方法 |
US7778837B2 (en) * | 2006-05-01 | 2010-08-17 | Microsoft Corporation | Demographic based classification for local word wheeling/web search |
US20090313017A1 (en) * | 2006-07-07 | 2009-12-17 | Satoshi Nakazawa | Language model update device, language Model update method, and language model update program |
US8694318B2 (en) * | 2006-09-19 | 2014-04-08 | At&T Intellectual Property I, L. P. | Methods, systems, and products for indexing content |
CN101324806B (zh) * | 2007-06-14 | 2010-06-23 | 台达电子工业股份有限公司 | 用于移动搜寻的输入***及其方法 |
CN101093478B (zh) * | 2007-07-25 | 2010-06-02 | 中国科学院计算技术研究所 | 一种根据实体的汉语简称识别汉语全称的方法及*** |
WO2009042148A1 (en) * | 2007-09-24 | 2009-04-02 | Jingle Networks, Inc. | Ordering directory assistance search results by local popularity of search results |
US8364694B2 (en) * | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
JP4691117B2 (ja) * | 2008-01-22 | 2011-06-01 | 日本電信電話株式会社 | テキスト検索装置、テキスト検索方法、テキスト検索プログラムおよびそのプログラムを記録した記録媒体 |
US20090228280A1 (en) * | 2008-03-05 | 2009-09-10 | Microsoft Corporation | Text-based search query facilitated speech recognition |
US8037070B2 (en) * | 2008-06-25 | 2011-10-11 | Yahoo! Inc. | Background contextual conversational search |
US20090326947A1 (en) * | 2008-06-27 | 2009-12-31 | James Arnold | System and method for spoken topic or criterion recognition in digital media and contextual advertising |
US8131545B1 (en) | 2008-09-25 | 2012-03-06 | Google Inc. | Aligning a transcript to audio data |
JP5185807B2 (ja) * | 2008-12-16 | 2013-04-17 | ヤフー株式会社 | 音声検索装置、音声検索方法及び音声検索プログラム |
US8229743B2 (en) * | 2009-06-23 | 2012-07-24 | Autonomy Corporation Ltd. | Speech recognition system |
US8831944B2 (en) * | 2009-12-15 | 2014-09-09 | At&T Intellectual Property I, L.P. | System and method for tightly coupling automatic speech recognition and search |
US20120016671A1 (en) * | 2010-07-15 | 2012-01-19 | Pawan Jaggi | Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions |
EP2612261B1 (en) * | 2010-09-08 | 2018-11-07 | Nuance Communications, Inc. | Internet search related methods and apparatus |
JP5139499B2 (ja) * | 2010-10-26 | 2013-02-06 | ヤフー株式会社 | 抽出装置、抽出方法、プログラム、及びプログラムを配信する情報処理装置 |
US20120290293A1 (en) * | 2011-05-13 | 2012-11-15 | Microsoft Corporation | Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding |
CN102592595B (zh) * | 2012-03-19 | 2013-05-29 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及*** |
US8589164B1 (en) * | 2012-10-18 | 2013-11-19 | Google Inc. | Methods and systems for speech recognition processing using search query information |
-
2013
- 2013-03-15 US US13/832,136 patent/US8589164B1/en active Active
- 2013-09-24 US US14/035,083 patent/US8768698B2/en active Active
- 2013-10-14 CN CN201610978352.3A patent/CN106847265B/zh active Active
- 2013-10-14 KR KR1020157010022A patent/KR101585185B1/ko active IP Right Grant
- 2013-10-14 CN CN201380064902.5A patent/CN104854654B/zh active Active
- 2013-10-14 EP EP13782920.6A patent/EP2909832B1/en active Active
- 2013-10-14 JP JP2015537758A patent/JP6058807B2/ja active Active
- 2013-10-14 WO PCT/US2013/064785 patent/WO2014062545A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645066A (zh) * | 2008-08-05 | 2010-02-10 | 北京大学 | 一种互联网新颖词监测方法 |
CN102467548A (zh) * | 2010-11-15 | 2012-05-23 | 腾讯科技(深圳)有限公司 | 一种新词的识别方法及*** |
Non-Patent Citations (2)
Title |
---|
A general framework for building natural language understanding modules in voice search;Junlan Feng,;《Acoustics Speech and Signal Processing (ICASSP), 2010 IEEE International Conference》;20100319;5362-5365 * |
Leveraging multiple query logs to improve language models for spoken query recognition;Li et al.,;《Proceedings of the 2009 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP "09,》;20091231;3713-3716 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847265A (zh) * | 2012-10-18 | 2017-06-13 | 谷歌公司 | 用于使用搜索查询信息的言语识别处理的方法和*** |
Also Published As
Publication number | Publication date |
---|---|
JP2016500843A (ja) | 2016-01-14 |
KR20150048252A (ko) | 2015-05-06 |
US20140114661A1 (en) | 2014-04-24 |
US8768698B2 (en) | 2014-07-01 |
WO2014062545A1 (en) | 2014-04-24 |
CN106847265A (zh) | 2017-06-13 |
EP2909832B1 (en) | 2017-04-05 |
CN104854654A (zh) | 2015-08-19 |
KR101585185B1 (ko) | 2016-01-13 |
JP6058807B2 (ja) | 2017-01-11 |
CN106847265B (zh) | 2020-08-18 |
EP2909832A1 (en) | 2015-08-26 |
US8589164B1 (en) | 2013-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104854654B (zh) | 用于使用搜索查询信息的言语识别处理的方法和*** | |
US11676575B2 (en) | On-device learning in a hybrid speech processing system | |
JP6820058B2 (ja) | 音声認識方法、装置、デバイス、及び記憶媒体 | |
CN1667700B (zh) | 把字的语音或声学描述、发音添加到语音识别词典的方法 | |
KR101780760B1 (ko) | 가변길이 문맥을 이용한 음성인식 | |
US7035789B2 (en) | Supervised automatic text generation based on word classes for language modeling | |
Sainath et al. | No need for a lexicon? evaluating the value of the pronunciation lexica in end-to-end models | |
CN108573693A (zh) | 使用自动编码器的文本到语音合成 | |
Schatzmann et al. | Error simulation for training statistical dialogue systems | |
CN101305362A (zh) | 语音索引删减 | |
WO1992014237A1 (en) | Method for recognizing speech using linguistically-motivated hidden markov models | |
KR20060046538A (ko) | 지수적 모델의 적응 방법 | |
JP2006113570A (ja) | 音声分類および音声認識のための隠れ条件付確率場モデル | |
US11532301B1 (en) | Natural language processing | |
US11289075B1 (en) | Routing of natural language inputs to speech processing applications | |
CN110164416B (zh) | 一种语音识别方法及其装置、设备和存储介质 | |
US11756538B1 (en) | Lower latency speech processing | |
JP7096199B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US11626107B1 (en) | Natural language processing | |
CN114360510A (zh) | 一种语音识别方法和相关装置 | |
CN105632500A (zh) | 语音识别装置及其控制方法 | |
US8438029B1 (en) | Confidence tying for unsupervised synthetic speech adaptation | |
US9947311B2 (en) | Systems and methods for automatic phonetization of domain names | |
Potamianos et al. | Adaptive categorical understanding for spoken dialogue systems | |
KR101482148B1 (ko) | 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google limited liability company Address before: American California Patentee before: Google Inc. |
|
CP01 | Change in the name or title of a patent holder |