CN106816148B - 语音识别设备和方法 - Google Patents
语音识别设备和方法 Download PDFInfo
- Publication number
- CN106816148B CN106816148B CN201611078946.5A CN201611078946A CN106816148B CN 106816148 B CN106816148 B CN 106816148B CN 201611078946 A CN201611078946 A CN 201611078946A CN 106816148 B CN106816148 B CN 106816148B
- Authority
- CN
- China
- Prior art keywords
- speech
- word
- searched
- candidate
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000009826 distribution Methods 0.000 claims description 29
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 16
- 238000010801 machine learning Methods 0.000 claims description 15
- 230000000306 recurrent effect Effects 0.000 claims description 10
- 230000008520 organization Effects 0.000 claims description 7
- 230000015654 memory Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 239000013598 vector Substances 0.000 description 16
- 230000002068 genetic effect Effects 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 235000013372 meat Nutrition 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/274—Converting codes to words; Guess-ahead of partial word inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供一种语音识别设备和方法。一种语音识别设备,包括:预测器,被配置为基于已被之前搜索的单词序列预测跟随已被之前搜索的单词序列的单词的词类;解码器,被配置为搜索与语音信号对应的候选单词,使用已被搜索的候选单词扩展之前已被搜索的单词序列,并基于预测的词类调整扩展的单词序列的概率值。
Description
本申请要求于2015年11月30日提交到韩国知识产权局的第10-2015-0168967号韩国专利申请的优先权,该申请的全部公开出于所有目的通过引用全部包含于此。
技术领域
下面的描述涉及一种语音识别设备和方法。
背景技术
与过去的现有技术不同,最近的语音识别技术已引起广泛的关注。这是因为语音识别技术的实现允许互联网信息、电子商务和在使用语音的各种普遍存在的环境中的操作的使用更加方便,并且甚至在用户难以使用他们的双手时也能满足用户的各种需要,诸如,启用互联网访问、实施商业事务以及使用其他服务。
发明内容
提供发明内容从而以简化的形式介绍构思的选择,其将在下面的具体实施方式中将被进一步描述。发明内容不意在确定所要求保护主题的关键特征或必要特征,也不意在用作辅助确定所要求保护的主题的范围。
在一个总体方面中,一种语音识别设备,包括:预测器,被配置为基于之前已被搜索的单词序列预测跟随之前已被搜索的单词序列的单词的词类;解码器,被配置为搜索与语音信号对应的候选单词,使用已被搜索的候选单词扩展之前已被搜索的单词序列,并基于预测的词类调整扩展的单词序列的概率值。
词类可为实体名或词性;实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
预测器还可被配置为:使用词类预测模型预测跟随之前已被搜索的单词序列的单词的词类。
词类预测模型可基于词典和语法以规则集的形式被构造,或者可使用命名的实体识别方案和词性标注方案的任何一个或两者通过机器学习被构造。
词类预测模型可为基于递归神经网络(RNN)的模型。
解码器还可被配置为:使用以加权有限状态转换器(WFST)的形式在数据结构中构造的发音词典和语言模型来搜索候选单词。
解码器还可被配置为:从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。
解码器还可被配置为:在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。
解码器还可被配置为:在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。
预测器还可被配置为:预测跟随之前已被搜索的单词序列的单词的词类概率分布;解码器还可被配置为:通过用每一候选单词的概率值乘以该候选单词所从属的词类的预测的概率值,调整每一候选单词的概率值。
在另一总体方面中,一种语音识别方法,包括:基于之前已被搜索的单词序列预测跟随已被之前搜索的单词序列的单词的词类;搜索与语音信号对应的候选单词;使用已被搜索的候选单词扩展之前已被搜索的单词序列;基于预测的词类调整扩展的单词序列的概率值。
词类可为实体名或词性;实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
所述预测词类的步骤可包括:使用词类预测模型预测跟随之前已被搜索的单词序列的单词的词类。
词类预测模型可基于词典和语法以规则集的形式被构造,或者可使用命名的实体识别方案和词性标注方案的任何一个或两者通过机器学习被构造。
词类预测模型可为基于递归神经网络(RNN)的模型。
所述搜索候选单词的步骤可包括:使用以加权有限状态转换器(WFST)的形式在数据结构中构造的发音词典和语言模型搜索候选单词。
所述的语音识别方法,还可包括:从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。
所述调整扩展的单词序列的概率值的步骤可包括:在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。
所述调整扩展的单词序列的概率值的步骤可包括:在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。
所述预测词类的步骤可包括:预测跟随之前已被搜索的单词序列的单词的词类概率分布;所述调整扩展的单词序列的概率值的步骤可包括:通过将每一候选单词的概率值乘以该候选单词所属的词类的预测的概率值,来调整每一候选单词的概率值。
在另一总体方面,一种存储当由处理器执行时导致处理器执行上面描述的方法的指令的计算机可读存储介质。
在另一总体方面中,一种词类预测模型生成设备,包括:训练数据采集器,被配置为采集包括多个单词序列和多个与所述多个单词序列的每一单词序列对应的类序列的训练数据;模型生成器,被配置为基于采集的训练数据通过学习生成词类预测模型。
类序列的每一类可为实体名或词性;实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
模型生成器还可被配置为:基于采集的训练数据训练递归神经网络(RNN)以生成词类预测模型。
模型生成器还可被配置为:使用作为输入的单词和作为目标的跟随所述单词的单词的词类来训练RNN。
在另一总体方面中,一种词类预测模型生成方法,包括:采集包括多个单词序列和多个与所述多个单词序列中的每个单词序列对应的类序列的训练数据;基于采集的训练数据通过学习来生成词类预测模型。
所述多个类序列的每一类可为实体名或词性;实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
所述生成词类预测模型的步骤可包括:基于采集的训练数据训练递归神经网络(RNN)以生成词类预测模型。
所述训练RNN的步骤可包括:使用作为输入的单词和作为目标的跟随所述单词的单词的词类来训练RNN。
在另一总体方面中,一种语音识别设备,包括:预测器,被配置为基于之前已被搜索的单词序列预测跟随已被之前搜索的单词序列的单词的词类;解码器,被配置为基于预测的词类将单词添加到之前已被搜索的单词序列。
预测器还可被配置为:基于之前已被搜索的单词序列预测多个词类的各自的概率;解码器还可被配置为:基于所述多个词类的预测的概率将单词添加到之前已被搜索的单词序列。
解码器还可被配置为:将属于在所述多个词类之中具有最高概率的词类的单词添加到之前已被搜索的单词序列。
解码器还可被配置为:搜索与语音信号对应的多个候选单词,并基于所述多个候选单词的各自的概率和所述多个预测的词类的预测的概率确定是否将所述多个候选单词中的一个候选单词添加到之前已被搜索的单词序列。
解码器还可被配置为:搜索与语音信号对应的候选单词,并基于预测的词类确定是否将候选单词添加到之前已被搜索的单词序列。
其他特征和方面从下面的具体实施方式、附图和权利要求将是清楚的。
附图说明
图1是示出语音识别设备的示例的框图。
图2是示出预测跟随单词序列的单词的词类概率分布的处理的示例的示图。
图3是示出基于一词性调整候选单词序列的概率值的处理的示例的示图。
图4是示出通过应用个性化的信息调整候选单词序列的概率值的处理的示例的示图。
图5是示出基于预测的词类概率分布调整候选单词序列的概率值的处理的示例的示图。
图6是示出语音识别设备的另一示例的框图。
图7是示出词类预测模型生成设备的示例的框图。
图8是示出生成词类预测模型的方法的示例的示图。
图9是示出语音识别方法的示例的流程图。
图10是示出语音识别方法的另一示例的流程图。
图11是示出生成词类预测模型的方法的示例的流程图。
贯穿附图和具体实施方式,除非另外被描述,否则相同的附图标记将被理解为表示相同的元件、特征和结构。附图可不按比例,并且为了清楚、说明和便利,这些元件的相对大小、比例和描写可被夸大。
具体实施方式
下面的详细描述被提供以协助读者获得对在此描述的方法、设备和/或***的全面理解。然而,在对本申请的公开的理解后,在此描述的方法、设备和/或***的各种变化、修改和等同物将是明显的。例如,在此描述的操作的顺序仅是示例,操作的顺序不被局限于在此阐述的那些顺序,而是除了必需按特定顺序发生的操作之外可被改变,在对本申请的公开理解之后将是明显的。同样,为了更加清楚和简洁,对本领域中已知的特征的描述可以被省略。
在此描述的特征可以不同的形式被实现,并且不应被解释为被局限于在此描述的示例。相反,在此描述的示例仅被提供于示出实现在此描述的执行方法、设备和/或***的许多可能方式中的一些方式,这在对本申请的公开理解之后将是明显的。
图1是示出语音识别设备的示例的框图。语音识别设备100可以以硬件芯片的形式被制造,并可在电子装置上被安装。电子装置可为(例如)电视(TV)、导航***、车辆电子装置、智能电话、平板PC、桌面计算机、笔记本PC或者可穿戴装置(例如,智能手表、智能眼镜、智能耳麦或智能耳机),但不限于此。
参照图1,语音识别设备100可包括:预测器110和解码器120。
预测器110基于之前检测的候选单词序列预测跟随之前检测的候选单词序列的下一单词的词类。为了根据上下文确定单词是否能跟随之前检测的候选单词序列,来定义词类,并指示单词类型。例如,词类可为实体名或词性(例如,名称、动词、形容词或副词)。
实体名可为适当的名词或在句子中具有重要意义的未注册的单词(诸如,人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名)。实体名可为多个单词的短语(诸如,“纽约”或“美国专利及商标局”)。
在一个示例中,预测器110使用词类预测模型预测跟随之前已被搜索的候选单词序列的单词的词类。可基于单词序列将词类预测模型实现为预测作为跟随单词序列的下一单词的单词的词类或词类概率分布。例如,词类预测模型可基于词典和语法以规则集的形式被构造并被实现为预测词类,或者可通过使用(例如)命名的实体识别方案或词性标注方案的机器学习被构造并被实现为预测词类概率分布。也就是,预测器110可使用以规则集的形式构造的词类预测模型预测词类,或者使用通过机器学习构造的词类预测模型预测词类概率分布,并且随后基于预测的词类概率分布预测词类。
机器学习算法可为神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯过程回归、线性判别分析、k最近邻(k-NN)算法、感知机、径向基函数网络、支持向量机(SVM)或深度学习(例如,递归神经网络(RNN))。
解码器120搜索与语音信号对应的候选单词,并使用已被搜索的候选单词扩展之前已被搜索的候选单词序列。换句话说,解码器120基于语音信号添加高度可能作为跟随之前识别的候选单词序列的下一单词出现的单词,以跟随候选单词序列来逐步扩展候选单词序列。
在一个示例中,解码器120使用声学模型、发音词典和语言模型搜索与语音信号对应的候选单词。
声学模型是接收语音信号并输出音素(phone或subphone,音子或子音子)概率矢量的模型。可使用(例如)隐马尔科夫模型(HMM)、高斯混合模型(GMM)、递归神经网络(RNN)、深度神经网络(DNN)、双向长短期模型(BLSTM)或者长短期记忆(LSTM)来预先构造声学模型。
发音词典是用于语音识别的单词被定义并且单词的发音符号被记录的模型。可基于从语料库或词典采集的单词预先构造发音词典。
语言模型是单词与另一单词之间的规则(也就是,一种语法)被定义的模型。可使用(例如)n-gram模型、递归神经网络(RNN)、深度神经网络(DNN)、双向长短期模型(BLSTM)或者长短期记忆(LSTM)来预先构造语言模型,以通过参照组成单词序列的一列单词确定单词序列的概率。
在一个示例中,发音词典和语言模型以加权有限状态转换器(WFST)的形式的数据结构构造。加权有限状态转换器(WFST)的形式的数据结构可为包括音素序列的所有可能的单词序列的简短的数据结构。如果发音词典和语言模型以WFST的形式的数据结构来构造,则解码器120基于WFST形式的数据结构搜索与语音信号对应的可能的单词序列。
解码器120计算扩展的候选单词序列的概率值。例如,解码器120使用声学模型和语言模型计算已被搜索的候选单词的概率值,并基于候选单词的计算的概率值计算扩展的候选单词序列的概率值。
此外,解码器120基于由预测器110预测的词类调整扩展的候选单词序列的概率值。
在一个示例中,解码器120通过增加已被搜索的候选单词之中的属于由预测器110预测的词类的候选单词的概率值,来调整扩展的候选单词序列的概率值。例如,当预测器110将位置名预测为跟随之前已被搜索的候选单词序列的单词的词类,并且解码器120搜索与人名有关的“A”以及与位置名有关的“B”和“C”作为与语音信号对应的候选单词时,解码器120在已被搜索的候选单词“A”、“B”和“C”之中通过将大的权重应用于属于位置名的候选单词“B”和“C”,来增加候选单词“B”和“C”的概率值。应用权重的方案可为调整语言模型和/或声学模型的权重的方案,但是该方案不限于此,并且该权重可被应用于各种方案。
在另一示例中,解码器120通过增加已被搜索的候选单词之中的属于由预测器110预测的词类的并包括在个性化的语言模型中的候选单词的概率值,调整扩展的候选单词序列的概率值。例如,如果预测器110将位置名预测为跟随之前已被搜索的候选单词序列的单词的词类,则解码器120搜索与人名有关的“A”以及与位置名有关的“B”和“C”作为与语音信号对应的候选单词,并且位置名“C”连同位置名“D”和“E”也被包括在个性化的语言模型中,解码器120通过将大的权重应用于已被搜索的候选单词“A”、“B”和“C”之中的属于该位置名的并被包括在个性化的语言模型中的候选单词“C”,来增加候选单词“C”的概率值。
可基于个性化的语料库使用(例如)n-gram模型、递归神经网络(RNN)、深度神经网络(DNN)、双向长短期模型(BLSTM)或者长短期记忆(LSTM)来预先构造个性化的语言模型。
在另一示例中,解码器120通过在属于类的候选单词的概率值中反映各个预测的词类的概率值,来调整扩展的候选单词序列的概率值。例如,当预测器110预测位置名为0.6以及人名为0.4作为跟随之前已被搜索的候选单词序列的单词的类概率,并且解码器120搜索与人名有关的“A”以及与位置名有关的“B”和“C”作为与语音信号对应的候选单词时,解码器120通过用0.4乘以候选单词“A”的概率值并用0.6乘以候选单词“B”的概率值和“C”的概率值,来调整候选单词“A”、“B”和“C”的概率值。
解码器120可在已被搜索的候选单词之中通过删减不属于由预测器110预测的词类的单词来减少未来的搜索范围。换句话说,解码器120可在已被搜索的候选单词之中去除不属于由预测器110预测的词类的未来的搜索目标单词。
此外,解码器120基于候选单词序列的概率值的调整的结果选择具有最大概率值的候选单词序列,并输出选择的候选单词序列作为语音识别结果。
此外,当针对输入语音信号的语音识别没有完成时,解码器120可从扩展的/生成的候选单词序列选择预定数量的概率值大的候选单词序列,并从未来的搜索范围去除其他的候选单词序列。
图2是示出预测跟随单词序列的单词的词类概率分布的处理的示例的示图。在这个示例中,词类预测模型被假定为实现的基于RNN的模型以预测词类概率分布。
预测器110使用之前构造的词类预测模型预测跟随单词序列“How do I get to”的下一单词的词类概率分布。即,当预测器110在时间t5接收“to”时,预测器110使用之前构造的词类预测模型来预测跟随候选单词序列“How do I get to”的下一单词的词类概率分布。在示出的示例中,跟随“How do I get to”的下一单词的词类概率中,所有格为0.2、位置名为0.4,人名为0.3。在这个示例中,位置名0.4的概率为最高的概率。
图3是示出基于词性调整候选单词序列的概率值的处理的示例以及示出在语音识别处理中在特定时间点(t4)的快照的示例的视图。在这个示例中,如所示出的,假定解码器120已生成与从t1到t3的时间的语音信号对应的候选单词序列“I’m going to”。
在示出的示例中,因为根据上下文,动词高度可能作为跟随“I’m going to”的下一单词出现,所以预测器110基于候选单词序列“I’m going to”将动词预测为跟随“I’mgoing to”的单词的词类。预测器110可基于单词序列使用之前已被构造为预测跟随单词序列的单词的词类的词类预测模型。
解码器120基于声学模型、发音词典和语言模型搜索作为跟随候选单词序列“I’mgoing to”的下一单词出现的候选单词“meet”、“meat”和“minjung”,并在时间点t4扩展候选单词序列“I’m going to”以生成扩展的候选单词序列“I’m going to meet”、“I’mgoing to meat”和“I’m going to minjung”。
然后,解码器120在候选单词“meet”、“meat”和“minjung”之中增加属于动词词类的“meet”的概率值以增加“I’m going to meet”的概率值。
图4是示出通过应用个性化的信息调整候选单词序列的概率值的处理的示例并且示出在语音识别处理中在特定时间点(t5)的快照的示例的示图。在这个示例中,如所示出的,假定解码器120已生成与从t1到t4的时间上的语音信号对应的候选单词序列“I’mgoing to meet”。
在示出的示例中,因为根据上下文,人名高度可能作为“I’m going to meet”后的下一单词出现,所以预测器110基于候选单词序列“I’m going to meet”预测人名作为跟随“I’m going to meet”的单词的词类。预测器110可基于单词序列使用之前已被构造为预测跟随单词序列的单词的词类的词类预测模型。
解码器120基于声学模型、发音词典和语言模型搜索作为跟随候选单词序列“I’mgoing to meet”的下一单词出现的候选单词“heejong”、“heeja”、“minjung”和“heejung”,并在时间点t5扩展候选单词序列“I’m going to meet”以生成扩展的候选单词序列“I’mgoing to meet heejong”、“I’m going to meet heeja”、“I’m going to meet minjung”和“I’m going to meet heejung”。
然后,解码器120搜索与人名有关的个性化的语言模型(PLM),在候选单词“heejong”、“heeja”、“minjung”和“heejung”之中增加在个性化的语言模型(PLM)中发现的“heejung”的概率值,并增加“I’m going to meet heejung”的概率值。
图5是示出基于预测的词类概率分布调整候选单词序列的概率值的处理的示例以及示出在语音识别处理中在特定时间点(t9)的快照的示例的示图。在这个示例中,如在图5中所示,假定解码器120已生成与从t1到t8的时间中的语音信号对应的候选单词序列“Iwant to make a call to David’s”和“I want to make a call to David”。
预测器110基于候选单词序列“I want to make a call to David’s”预测跟随候选单词序列“I want to make a call to David’s”的单词的词类概率分布,并基于候选单词序列“I want to make a call to David”预测跟随候选单词序列“I want to make acall to David”的单词的词类概率分布。在示出的示例中,预测器110预测名词为0.8以及所有格为0.1,以作为作为跟随候选单词序列“I want to make a call to David’s”的下一单词的单词的词类概率,并预测动词为0.01、人名为0.5和所有格为0.3,以作为作为跟随候选单词序列“I want to make a call to David”的下一单词的单词的词类概率。
然后,解码器120基于声学模型、发音词典和语言模型在时间点t9搜索作为跟随候选单词序列“I want to make a call to David’s”的下一单词出现的候选单词“office”(概率值0.3)和作为跟随候选单词序列“I want to make a call to David”的下一单词出现的候选单词“is”(概率值0.6),并通过使用已被搜索的候选单词扩展各自的候选单词序列来生成扩展的候选单词序列“I want to make a call to David’s office”和“I wantto make a call to David is”。
然后,解码器120用名词类概率值0.8乘“office”的概率值0.3以将扩展的候选单词序列“I want to make a call to David’s office”的概率值调整为0.24,并用动词类概率值0.01乘以“is”的概率值0.6以调整扩展的候选单词序列“I want to make a callto David is”的概率值为0.006。
图6是示出语音识别设备的另一示例的框图。
参照图6,与在图1中的语音识别设备100相比,在图6中的语音识别设备600还包括:词类预测模型存储单元610、声学模型存储单元620、发音词典存储单元630、语言模型存储单元640、个性化的语言模型存储单元650、输入单元660、特征矢量提取器670和输出单元680。
词类预测模型存储单元610存储词类预测模型,声学模型存储单元620存储声学模型,发音词典存储单元630存储发音词典,语言模型存储单元640存储语言模型,个性化的语言模型存储单元650存储个性化的语言模型。
在一个示例中,词类预测模型存储单元610、声学模型存储单元620、发音词典存储单元630、语言模型存储单元640和个性化的语言模型存储单元650包括:闪存、硬盘、多媒体卡(MMC)、微型多媒体卡、存储器卡(例如,SD存储器卡或XD存储器卡)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘、光盘中的任何一个或者任何两个或更多个的任何组合作为存储器介质。
尽管存储单元610至650在示出的示例中被显示为分离的组件,但是存储单元610至650可被集成为一个存储单元。
输入单元660接收用户语音信号。为达到这个目的,输入单元660可包括(例如)麦克风。
特征矢量提取器670将输入语音信号划分为单元帧,并提取与划分的输入语音信号的部分对应的特征矢量。
在一个示例中,特征矢量提取器670通过声音活动检测(VAD)从输入语音信号检测语音部分,并在检测的语音部分中从语音信号提取语音的特征以获得适合于语音识别的信息。在一个示例中,特征矢量提取器670针对每一单元帧计算语音信号的频率特性以提取包括在语音信号中的特征矢量。为了达到这个目的,特征矢量提取器670可包括将模拟语音信号转换为数字语音信号的模数(A/D)转换器,并且可将数字语音信号划分为大约10ms的单元帧并处理该信号。
特征矢量提取器670可使用梅尔频率倒频谱系数(MFCC)特征提取方案提取特征矢量。在梅尔频率倒频谱系数(MFCC)特征提取方案中,可使用以一阶微分或二阶微分的组合的形式的梅尔倒频谱系数、对数能量和特征矢量。
此外,特征矢量提取器670可使用诸如线性预测编码(LPC)、LPC导出的倒频谱、感知线性预测(PLP)、音频模型特征提取或滤波器组的方法以提取单元帧区域中的语音信号的特征。
输出单元680输出语音识别结果。在一个示例中,输出单元680以可听的方式或可视的方式输出语音识别结果。为了达到这个目的,输出单元680可包括(例如):扬声器或显示器。显示器可包括(例如):液晶显示器、薄膜晶体管液晶显示器、有机发光二极管、柔性显示器、三维显示器(3D显示器)或者眼镜式显示器(例如,头戴式显示器(HMD)、面部安装的显示器(face-mounted display,FMD)、眼部安装的显示器(eye-mounted display,EMD)或眼镜显示器(EGD))。
图7是示出词类预测模型生成设备的示例的框图。
参照图7,词类预测模型生成设备700包括:训练数据采集器710和模型生成器720。
训练数据采集器710采集包括多个单词序列和多个与各自的单词序列对应的类序列的训练数据。
训练数据采集器710采集训练数据的方法没有特定的限制。也就是,训练数据采集器710能简单地从外部装置接收和采集多个单词序列和多个与每一单词序列对应的类序列,或者能从外部装置接收多个单词序列并使用词典或其他资源通过命名的实体识别方案或词性标记方案生成与每一单词序列对应的类序列。
模型生成器720基于采集的训练数据通过机器学习生成词类预测模型。机器学习算法可为神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯处理回归、线性判决分析、k最近邻(k-NN)算法、感知机、径向基函数网络、支持向量机(SVM)或深度学习(例如,递归神经网络(RNN))。
将参照图8详细描述生成词类预测模型的方法。
图8是示出生成词类预测模型的方法的示例的示图。在这个示例中,词类预测模型被假定为对序列模式学习有效的基于RNN的模型。模型生成器720在每一时间点使用作为RNN的输入或目标的下一单词的单词和词类训练RNN。在这个示例中,输入和目标可被表示为独热(one-hot)矢量。例如,输入被表示为具有单词的位置值为1且其他值为0的词典的大小的独热矢量,目标被表示为具有类的位置值为1且其他值为0的将被处理的类的大小的独热矢量。
参照图8,模型生成器720在时间点t1使用作为输入的指示单词序列的开始的单词“<s>”和作为目标的第一单词的词类“副词”来训练RNN。
然后,模型生成器720在时间点t2使用作为输入的第一单词“how”和作为目标的第二单词的词类“动词根”来训练RNN。
模型生成器720在时间点t3至时间点t5之间的每一时间点以这样的方式训练RNN,并在时间点t6使用作为输入的第五单词“to”和作为目标的第六单词的词类“位置名”来训练RNN。
模型生成器720以这样的方式学习多个训练数据项,并生成词类预测模型。
图9是示出语音识别方法的示例的流程图。
参照图1至图9,语音识别设备100基于之前已被搜索的候选单词序列预测跟随之前已被搜索的候选单词序列的单词的词类(910)。例如,语音识别设备100使用词类预测模型预测跟随之前已被搜索的候选单词序列的单词的词类。可基于单词序列实现词类预测模型,以预测跟随单词序列的单词的词类或词类概率分布。例如,词类预测模型可基于词典和语法以规则集的形式被构造并被实现为预测词类,或者可使用(例如)命名的实体识别方案或词性标记方案通过机器学习来构造并被实现为预测词类概率分布。也就是,语音识别设备100可使用以规则集的形式构造的词类预测模型来预测词类,或者可使用通过机器学习构造的词类预测模型来预测词类概率分布,然后基于预测的词类概率分布预测词类。
语音识别设备100搜索与语音信号对应的候选单词(920)。例如,语音识别设备100使用声学模型、发音词典和语言模型搜索与语音信号对应的候选单词。在这个示例中,发音词典和语言模型可以以加权有限状态转换器(WFST)的形式在数据结构中被构造。在这个示例中,语音识别设备100基于WFST搜索与语音信号对应的可能的单词序列。
语音识别设备100使用已被搜索的候选单词扩展之前已被搜索的候选单词序列(930)。例如,语音识别设备100添加高度可能作为跟随候选单词序列(也就是,已被搜索的候选单词)的下一单词出现的单词,以跟随候选单词序列来逐步扩展候选单词序列。
语音识别设备100基于预测的词类调整扩展的候选单词序列的概率值(940)。
在一个示例中,语音识别设备100在已被搜索的候选单词之中通过增加属于预测的词类的候选单词的概率值,调整扩展的候选单词序列的概率值。
在另一示例中,语音识别设备100在已被搜索的候选单词之中通过增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值,调整扩展的候选单词序列的概率值。
在另一示例中,语音识别设备100在属于该类的候选单词的概率值中反映每一预测的词类的概率值,以调整扩展的候选单词序列的概率值。
图10是示出语音识别方法的另一示例的流程图。
参照图1至图10,语音识别设备100接收语音信号(1010),并搜索与语音信号对应的候选单词(1020)。例如,语音识别设备100使用声学模型、发音词典和语言模型搜索与语音信号对应的候选单词。在这个示例中,发音词典和语言模型可以以加权有限状态转换器(WFST)的形式在数据结构中被构造。在这个示例中,语音识别设备100基于WFST搜索与语音信号对应的可能的单词序列。
语音识别设备100使用已被搜索的候选单词扩展之前已被搜索的候选单词序列(1030)。例如,语音识别设备100添加高度可能作为之前识别的候选单词序列的下一单词出现的单词,以跟随候选单词序列来逐步扩展候选单词序列。
语音识别设备100计算扩展的候选单词序列的概率值(1040)。例如,语音识别设备100使用声学模型和语言模型计算扩展的候选单词序列的概率值。
语音识别设备100基于之前已被搜索的候选单词序列,预测跟随之前已被搜索的候选单词序列的单词的词类(1050)。例如,语音识别设备100使用词类预测模型预测跟随之前已被搜索的候选单词序列的单词的词类。在这个示例中,词类预测模型可基于单词序列被实现以预测跟随单词序列的单词的词类或词类概率分布。例如,词类预测模型可基于词典和语法以规则集的形式被构造并被实现为预测词类,或者可使用(例如)命名的实体识别方案或词性标记方案通过机器学习被构造并被实现为预测词类概率分布。也就是,语音识别设备100可使用以规则集的形式构造的词类预测模型预测词类,或者可使用通过机器学习构造的词类预测模型预测词类概率分布,然后基于预测的词类概率分布预测词类。
语音识别设备100基于预测的词类调整扩展的候选单词序列的概率值(1060)。
在一个示例中,语音识别设备100在已被搜索的候选单词之中通过增加属于预测的词类的候选单词的概率值,调整扩展的候选单词序列的概率值。
在另一示例中,语音识别设备100在已被搜索的候选单词之中通过增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值,调整扩展的候选单词序列的概率值。
在另一示例中,语音识别设备100通过在属于类的候选单词的概率值中反映每一预测的词类的概率值,调整扩展的候选单词序列的概率值。
语音识别设备100确定语音识别是否被完成(1070),并且如果语音识别被完成,则输出具有最大概率值的候选单词作为语音识别结果(1080)。
如果语音识别结果没有被完成,则语音识别设备100选择预定数量的概率值大的候选单词序列,并从未来的搜索范围去除其他候选单词序列(1090)。
语音识别设备100可在已被搜索的候选单词之中通过删减不属于预测的词类的单词,减少未来的搜索范围。换句话说,语音识别设备100可在已被搜索的候选单词之中去除不属于预测的单词的未来的搜索目标单词。
图11是示出生成词类预测模型的方法的示例的流程图。
参照图7和图11,词类预测模型生成设备700采集包括多个单词序列和多个与各自的单词序列对应的类序列的训练数据(1110)。
词类预测模型生成设备700基于采集的训练数据通过机器学习生成词类预测模型(1120)。在这个示例中,机器学习算法可为神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯处理回归、线性判决分析、k最近邻(k-NN)算法、感知器、径向基函数网络、支持向量机(SVM)或深度学习(例如,递归神经网络(RNN))。因为词类预测模型生成设备700生成词类预测模型的特定方法与上面参照图8的描述的方法相同,所以它们的详细描述将参照图11被省略。
通过被配置为执行由硬件组件所执行的在本申请中描述的操作的硬件组件,实施执行在本申请中描述的操作的图1至图6中的预测器110、图1和图6中的解码器120、图6中的词类预测模型存储器单元610、声学模型存储器单元620、发音词典存储器单元630、语言模型存储器单元640、个性化的语言模型存储器单元650、输入单元660、特征矢量提取器670和输出单元680,以及图7中的训练数据采集器710和模型生成器720。可用于执行在本申请中的适当位置描述的操作的硬件组件的示例包括:控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和任何其他被配置为执行在本申请中描述的操作的电子组件。在其他示例中,一个或多个执行在本申请中描述的操作的硬件组件通过计算机硬件(例如,通过一个或多个处理器或计算机)实施。处理器或计算机可通过一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元)、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编辑门阵列、可编程逻辑阵列、微处理器或任何其他被配置为以定义的方式响应并执行指令去实现期望的结果的装置或装置的组合被实施。在一个示例中,处理器或计算机包括或被连接到,一个或多个存储有被处理器或计算机执行的指令或软件的存储器。被处理器和计算器实施的硬件组件可执行指令或软件(诸如操作***(OS)和运行在OS中的一个或多个软件应用)来执行在本申请中描述的操作。响应于指令或软件的执行,硬件组件还可访问、操纵、处理、生成和存储数据。为了简明,单数术语“处理器”或“计算机”可用于在本申请中描述的示例的描述中,但在其他示例中,多处理器或多计算机可被使用,或者一个处理器或计算机可包括多处理器元件或多种类型的处理器元件或者两者均有。例如,单个硬件组件或两个或更多个硬件组件可通过单个处理器或者两个或更多个处理器或者一个处理器和控制器实施。一个或多个硬件组件可通过一个或多个处理器,或者一个处理器和一个控制器实施,并且一个或多个其他硬件组件可通过一个或多个其他处理器,或者另一处理器和另一控制器实施。一个或多个处理器,或者一个处理器和一个控制器可实施单个硬件组件,或者两个或更多个硬件组件。硬件组件可具有任何一个或多个不同的处理配置,其示例包括:单处理器、独立的处理器、并行处理器、单指令单数据(SISD)多重处理、多指令单数据(MISD)多重处理、单指令多数据(SIMD)多重处理以及多指令多数据(MIMD)多重处理。
图9至图11中示出的执行在本申请中描述的操作的方法由如上描述的那样被实施为执行指令或软件以执行所述方法所执行的在本申请中描述的操作的计算机硬件(例如,一个或多个处理器或计算机)执行。例如,单个操作或者两个或更多个操作可通过单处理器或者两个或更多个处理器,或者处理器和控制器来执行。一个或多个操作可通过一个或多个处理器,或者处理器和控制器来执行,且一个或多个其他操作可通过一个或多个其他处理器,或者另一处理器和另一控制器来执行。一个或多个处理器,或者处理器和控制器,可执行单个操作,或者两个或更多个操作。
为了单独地或共同地指示或配置一个或多个处理器或计算机来作为机器或专用计算机执行被如上面所描述的硬件组件和方法所执行的操作,用于控制计算机硬件(例如,一个或多个处理器或计算机)以实施硬件组件并执行如上面所描述的方法的指令或软件可被写为计算机程序、代码段、指令或它们的任意组合。在一个示例中,指令或软件包括直接被一个或多个处理器或计算机执行的机器代码(诸如,被编译器产生的机器代码)。在另一示例中,指令或软件包括被一个或多个处理器或计算机使用解释器执行的高级代码。指令或软件可基于公开了用于执行被如上所述的硬件组件和方法执行的操作的算法的在附图中示出的框图和流程图和说明书的相应描述使用任意编程语言被编写。
用于控制计算机硬件(例如,一个或多个处理器或计算机)以实施硬件组件并执行如上所述的方法的指令或软件、以及任何相关的数据、数据文件以及数据结构可被记录、存储或安装在一个或多个非暂时计算机可读存储介质中或上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-Re、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、和被配置为以非暂时方式存储指令或软件、以及任何相关的数据、数据文件以及数据结构,并向一个或多个处理器或计算机提供指令或软件、以及任何相关的数据、数据文件以及数据结构以便所述一个或多个处理器和计算机能够执行指令的任何其他设备。在一个示例中,指令或软件、以及任何相关数据、数据文件以及数据结构分布在联网的计算机***上,以便指令和软件、以及任何相关的数据、数据文件以及数据结构被一个或多个处理器或计算机以分布式方式存储、访问和执行。
尽管本公开包括特定的示例,但是在不脱离权利要求和它们的等同物的精神和范围的情况下可在这些示例中做出形式和细节上各种改变,在对本申请的公开的理解后将是清楚的。在此描述的示例被认为仅是描述性的,而非为了限制的目的。在每一示例中的特征和方面的描述将被认为适用于其他示例中的相似特征和方面。如果描述的技术以不同的顺序被执行,和/或如果在描述的***、架构、装置、或电路中的组件以不同的方式组合,和/或被其他组件或者它们的等同物代替或增补,可实现合适的结果。因此,公开的范围不是通过具体实施方式所限定,而是由权利要求和它们的等同物限定,并且在权利要求和它们的等同物的范围内的所有变化将被解释为被包括在该公开之内。
Claims (26)
1.一种语音识别设备,包括:
预测器,被配置为基于之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类概率分布;
解码器,被配置为搜索与语音信号和跟随所述之前已被搜索的单词序列的单词对应的候选单词,并使用已被搜索的候选单词扩展所述之前已被搜索的单词序列,
其中,使用已被搜索的候选单词扩展所述之前已被搜索的单词序列的处理包括:
计算与跟随所述之前已被搜索的单词序列的单词对应的候选单词的概率值;
通过预测的词类概率分布和个性化的语言模型,调整候选单词的概率值;
输出扩展单词序列,扩展单词序列包括所述之前已被搜索的单词序列和具有调整的概率值之中的最高的调整的概率值的候选单词。
2.如权利要求1所述的语音识别设备,其中,词类为实体名或词性;
实体名为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
3.如权利要求1所述的语音识别设备,其中,预测器还被配置为:基于所述之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类,
解码器还被配置为:基于预测的词类调整扩展的单词序列的概率值。
4.如权利要求3所述的语音识别设备,其中,词类预测模型基于词典和语法以规则集的形式被构造,或者使用命名的实体识别方案和词性标注方案中的任何一个或两者通过机器学习被构造。
5.如权利要求3所述的语音识别设备,其中,词类预测模型为基于递归神经网络RNN的模型。
6.如权利要求1所述的语音识别设备,其中,解码器还被配置为:使用以加权有限状态转换器WFST的形式在数据结构中构造的发音词典和语言模型来搜索候选单词。
7.如权利要求3所述的语音识别设备,其中,解码器还被配置为:从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。
8.如权利要求3所述的语音识别设备,其中,解码器还被配置为:在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。
9.如权利要求3所述的语音识别设备,其中,解码器还被配置为:在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。
10.如权利要求3所述的语音识别设备,其中,预测器还被配置为:使用词类预测模型预测跟随所述之前已被搜索的单词序列的单词的词类;解码器还被配置为:通过用每一候选单词的概率值乘以该候选单词所属的词类的预测的概率值,调整每一候选单词的概率值。
11.一种语音识别方法,包括:
基于之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类概率分布;
搜索与语音信号和跟随所述之前已被搜索的单词序列的单词对应的候选单词;
使用已被搜索的候选单词扩展所述之前已被搜索的单词序列,
其中,使用已被搜索的候选单词扩展所述之前已被搜索的单词序列的步骤包括:
计算与跟随所述之前已被搜索的单词序列的单词对应的候选单词的概率值;
通过预测的词类概率分布和个性化的语言模型,调整候选单词的概率值;
输出扩展单词序列,扩展单词序列包括所述之前已被搜索的单词序列和具有调整的概率值之中的最高的调整的概率值的候选单词。
12.如权利要求11所述的语音识别方法,其中,词类为实体名或词性;
实体名为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
13.如权利要求11所述的语音识别方法,还包括:基于所述之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类;
基于预测的词类调整扩展的单词序列的概率值。
14.如权利要求13所述的语音识别方法,其中,词类预测模型基于词典和语法以规则集的形式被构造,或者使用命名的实体识别方案和词性标注方案的任何一个或两者通过机器学习被构造。
15.如权利要求13所述的语音识别方法,其中,词类预测模型为基于递归神经网络RNN的模型。
16.如权利要求11所述的语音识别方法,其中,所述搜索候选单词的步骤包括:使用以加权有限状态转换器WFST的形式在数据结构中构造的发音词典和语言模型搜索候选单词。
17.如权利要求13所述的语音识别方法,还包括:从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。
18.如权利要求13所述的语音识别方法,其中,所述调整扩展的单词序列的概率值的步骤包括:在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。
19.如权利要求13所述的语音识别方法,其中,所述调整扩展的单词序列的概率值的步骤包括:在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。
20.如权利要求13所述的语音识别方法,其中,所述预测词类的步骤包括:使用词类预测模型预测跟随所述之前已被搜索的单词序列的单词的词类;
所述调整扩展的单词序列的概率值的步骤包括:通过用每一候选单词的概率值乘以该候选单词所属的词类的预测的概率值,调整每一候选单词的概率值。
21.一种语音识别设备,包括:
预测器,被配置为基于之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类概率分布;
解码器,被配置为搜索与语音信号和跟随所述之前已被搜索的单词序列的单词对应的多个候选单词,并将候选单词添加到所述之前已被搜索的单词序列,
其中,将候选单词添加到所述之前已被搜索的单词序列的处理包括:
计算与跟随所述之前已被搜索的单词序列的单词对应的所述多个候选单词的概率值;
通过预测的词类概率分布和个性化的语言模型,调整所述多个候选单词的概率值;
将具有调整的概率值之中的最高的调整的概率值的候选单词添加到所述之前已被搜索的单词序列。
22.如权利要求21所述的语音识别设备,其中,预测器还被配置为:基于所述之前已被搜索的单词序列预测多个词类的各自的概率;
解码器还被配置为:基于所述多个词类的预测的概率将单词添加到所述之前已被搜索的单词序列。
23.如权利要求22所述的语音识别设备,其中,预测器还被配置为:基于所述之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类;
解码器还被配置为:将属于在所述多个词类之中具有最高概率的词类的单词添加到所述之前已被搜索的单词序列。
24.如权利要求22所述的语音识别设备,其中,预测器还被配置为:基于所述之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类;
解码器还被配置为:基于所述多个候选单词的各自的概率和所述多个词类的预测的概率确定是否将所述多个候选单词中的一个候选单词添加到所述之前已被搜索的单词序列。
25.如权利要求21所述的语音识别设备,其中,预测器还被配置为:基于所述之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类;
解码器还被配置为:基于预测的词类确定是否将候选单词添加到所述之前已被搜索的单词序列。
26.一种存储当由处理器执行时导致处理器执行权利要求11所述的语音识别方法的指令的计算机可读存储介质。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150168967A KR102450853B1 (ko) | 2015-11-30 | 2015-11-30 | 음성 인식 장치 및 방법 |
KR10-2015-0168967 | 2015-11-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106816148A CN106816148A (zh) | 2017-06-09 |
CN106816148B true CN106816148B (zh) | 2022-04-22 |
Family
ID=57421753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611078946.5A Active CN106816148B (zh) | 2015-11-30 | 2016-11-30 | 语音识别设备和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10606947B2 (zh) |
EP (1) | EP3174047B1 (zh) |
KR (1) | KR102450853B1 (zh) |
CN (1) | CN106816148B (zh) |
Families Citing this family (142)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
CN113744733B (zh) | 2013-02-07 | 2022-10-25 | 苹果公司 | 数字助理的语音触发器 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
AU2014278592B2 (en) | 2013-06-09 | 2017-09-07 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US9984683B2 (en) * | 2016-07-22 | 2018-05-29 | Google Llc | Automatic speech recognition using multi-dimensional models |
US11341413B2 (en) * | 2016-08-29 | 2022-05-24 | International Business Machines Corporation | Leveraging class information to initialize a neural network language model |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10593346B2 (en) * | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10529324B1 (en) * | 2016-12-27 | 2020-01-07 | Cognistic, LLC | Geographical based voice transcription |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10714080B2 (en) * | 2017-02-10 | 2020-07-14 | Samsung Electronics Co., Ltd. | WFST decoding system, speech recognition system including the same and method for storing WFST data |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN107293288B (zh) * | 2017-06-09 | 2020-04-21 | 清华大学 | 一种残差长短期记忆循环神经网络的声学模型建模方法 |
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
KR102369416B1 (ko) * | 2017-09-18 | 2022-03-03 | 삼성전자주식회사 | 복수의 사용자 각각에 대응하는 개인화 레이어를 이용하여 복수의 사용자 각각의 음성 신호를 인식하는 음성 신호 인식 시스템 |
US11755834B2 (en) | 2017-12-22 | 2023-09-12 | Google Llc | Selective text prediction for electronic messaging |
CN107993651B (zh) * | 2017-12-29 | 2021-01-19 | 深圳和而泰数据资源与云技术有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
CN108418744A (zh) * | 2018-02-06 | 2018-08-17 | 国网浙江省电力有限公司信息通信分公司 | 一种用于提升电力服务质量的电子坐席*** |
CN108305605A (zh) * | 2018-03-06 | 2018-07-20 | 吟飞科技(江苏)有限公司 | 基于计算机音视频的人机交互数字乐器*** |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
CN110389668A (zh) * | 2018-04-20 | 2019-10-29 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和用于输入的装置 |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11036926B2 (en) | 2018-05-21 | 2021-06-15 | Samsung Electronics Co., Ltd. | Generating annotated natural language phrases |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
CN110600032A (zh) * | 2018-05-23 | 2019-12-20 | 北京语智科技有限公司 | 一种语音识别方法及装置 |
CN108694939B (zh) * | 2018-05-23 | 2020-11-03 | 广州视源电子科技股份有限公司 | 语音搜索优化方法、装置和*** |
CN108682415B (zh) * | 2018-05-23 | 2020-09-29 | 广州视源电子科技股份有限公司 | 语音搜索方法、装置和*** |
EP3576019A1 (en) | 2018-05-29 | 2019-12-04 | Nokia Technologies Oy | Artificial neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
CN108922513B (zh) * | 2018-06-04 | 2023-03-17 | 平安科技(深圳)有限公司 | 语音区分方法、装置、计算机设备及存储介质 |
JP7066844B2 (ja) * | 2018-06-28 | 2022-05-13 | 株式会社Nttドコモ | エンティティ特定システム |
CN110764422A (zh) * | 2018-07-27 | 2020-02-07 | 珠海格力电器股份有限公司 | 电器的控制方法和装置 |
CN109274845A (zh) * | 2018-08-31 | 2019-01-25 | 平安科技(深圳)有限公司 | 智能语音自动回访方法、装置、计算机设备及存储介质 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
CN109472020B (zh) * | 2018-10-11 | 2022-07-01 | 重庆邮电大学 | 一种特征对齐中文分词方法 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
KR20200056001A (ko) * | 2018-11-14 | 2020-05-22 | 삼성전자주식회사 | 인공신경망에서의 디코딩 방법 및 그 장치 |
KR20200059703A (ko) | 2018-11-21 | 2020-05-29 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
KR102346026B1 (ko) * | 2019-02-11 | 2021-12-31 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN110069612B (zh) * | 2019-04-28 | 2022-02-01 | 河北省讯飞人工智能研究院 | 一种回复生成方法及装置 |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
CN110164020A (zh) * | 2019-05-24 | 2019-08-23 | 北京达佳互联信息技术有限公司 | 投票创建方法、装置、计算机设备及计算机可读存储介质 |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11074909B2 (en) | 2019-06-28 | 2021-07-27 | Samsung Electronics Co., Ltd. | Device for recognizing speech input from user and operating method thereof |
CN110322884B (zh) * | 2019-07-09 | 2021-12-07 | 科大讯飞股份有限公司 | 一种解码网络的插词方法、装置、设备及存储介质 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
KR20210044559A (ko) | 2019-10-15 | 2021-04-23 | 삼성전자주식회사 | 출력 토큰 결정 방법 및 장치 |
US11482214B1 (en) * | 2019-12-12 | 2022-10-25 | Amazon Technologies, Inc. | Hypothesis generation and selection for inverse text normalization for search |
CN111177403B (zh) * | 2019-12-16 | 2023-06-23 | 恩亿科(北京)数据科技有限公司 | 样本数据的处理方法和装置 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
CN111651599B (zh) * | 2020-05-29 | 2023-05-26 | 北京搜狗科技发展有限公司 | 一种语音识别候选结果的排序方法及装置 |
US11688394B1 (en) * | 2020-06-01 | 2023-06-27 | Amazon Technologies, Inc. | Entity language models for speech processing |
US11704460B2 (en) * | 2020-06-10 | 2023-07-18 | University Of Florida Research Foundation, Incorporated | System and method for fast and accurate netlist to RTL reverse engineering |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
KR102386627B1 (ko) * | 2020-08-25 | 2022-04-14 | 주식회사 카카오엔터프라이즈 | 음성 인식에 관한 빔 서치 방법 및 장치 |
US11829720B2 (en) | 2020-09-01 | 2023-11-28 | Apple Inc. | Analysis and validation of language models |
CN112287678A (zh) * | 2020-11-03 | 2021-01-29 | 沈阳雅译网络技术有限公司 | 一种基于预训练模型的古体诗自动生成方法 |
CN112530421B (zh) * | 2020-11-03 | 2023-04-07 | 科大讯飞股份有限公司 | 语音识别方法、电子设备及存储装置 |
CN112599128B (zh) * | 2020-12-31 | 2024-06-11 | 百果园技术(新加坡)有限公司 | 一种语音识别方法、装置、设备和存储介质 |
CN112927679B (zh) * | 2021-02-07 | 2023-08-15 | 虫洞创新平台(深圳)有限公司 | 一种语音识别中添加标点符号的方法及语音识别装置 |
US11232793B1 (en) * | 2021-03-30 | 2022-01-25 | Chief Chief Technologies Oy | Methods, systems and voice managing servers for voice recognition to perform action |
CN113096642A (zh) * | 2021-03-31 | 2021-07-09 | 南京地平线机器人技术有限公司 | 语音识别方法和装置、计算机可读存储介质、电子设备 |
CN113192501B (zh) * | 2021-04-12 | 2022-04-22 | 青岛信芯微电子科技股份有限公司 | 一种指令词识别方法及装置 |
US20220382973A1 (en) * | 2021-05-28 | 2022-12-01 | Microsoft Technology Licensing, Llc | Word Prediction Using Alternative N-gram Contexts |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2026328A1 (de) * | 2007-08-09 | 2009-02-18 | Volkswagen Aktiengesellschaft | Verfahren zur multimodalen Bedienung mindestens eines Gerätes in einem Kraftfahrzeug |
CN101604520A (zh) * | 2009-07-16 | 2009-12-16 | 北京森博克智能科技有限公司 | 基于统计模型和语法规则的口语语音识别方法 |
CN102682763A (zh) * | 2011-03-10 | 2012-09-19 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
CN103076893A (zh) * | 2012-12-31 | 2013-05-01 | 百度在线网络技术(北京)有限公司 | 一种用于实现语音输入的方法与设备 |
CN103187052A (zh) * | 2011-12-29 | 2013-07-03 | 北京百度网讯科技有限公司 | 一种建立用于语音识别的语言模型的方法及装置 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69914368T2 (de) * | 1998-11-25 | 2005-03-10 | Microsoft Corp., Redmond | Netzwerk- und sprachmodelle zur verwendung in einem spracherkennungssystem |
US7457750B2 (en) * | 2000-10-13 | 2008-11-25 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
KR100657267B1 (ko) * | 2003-10-30 | 2006-12-14 | 삼성전자주식회사 | 검색을 위한 메타 정보가 포함된 저장 매체, 재생 장치 및그 재생 방법 |
US7111248B2 (en) * | 2002-01-15 | 2006-09-19 | Openwave Systems Inc. | Alphanumeric information input method |
JP4171323B2 (ja) | 2003-02-27 | 2008-10-22 | 日本電信電話株式会社 | 認識誤り訂正方法、装置、およびプログラム |
GB2407657B (en) | 2003-10-30 | 2006-08-23 | Vox Generation Ltd | Automated grammar generator (AGG) |
US8676577B2 (en) * | 2008-03-31 | 2014-03-18 | Canyon IP Holdings, LLC | Use of metadata to post process speech recognition output |
CN102272754B (zh) * | 2008-11-05 | 2015-04-01 | 谷歌公司 | 定制语言模型 |
US8108214B2 (en) | 2008-11-19 | 2012-01-31 | Robert Bosch Gmbh | System and method for recognizing proper names in dialog systems |
KR101217524B1 (ko) * | 2008-12-22 | 2013-01-18 | 한국전자통신연구원 | 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치 |
JP2010154397A (ja) | 2008-12-26 | 2010-07-08 | Sony Corp | データ処理装置、データ処理方法、及び、プログラム |
US8589163B2 (en) | 2009-12-04 | 2013-11-19 | At&T Intellectual Property I, L.P. | Adapting language models with a bit mask for a subset of related words |
KR101394253B1 (ko) | 2012-05-16 | 2014-05-13 | 광주과학기술원 | 음성 인식 오류 보정 장치 |
JP2013250379A (ja) | 2012-05-31 | 2013-12-12 | Alpine Electronics Inc | 音声認識装置、音声認識方法およびプログラム |
CN108052489A (zh) * | 2012-08-31 | 2018-05-18 | 微软技术许可有限责任公司 | 用于输入法编辑器的个人语言模型 |
KR101892734B1 (ko) | 2013-01-04 | 2018-08-28 | 한국전자통신연구원 | 음성 인식 시스템에서의 오류 수정 방법 및 그 장치 |
US9305545B2 (en) | 2013-03-13 | 2016-04-05 | Samsung Electronics Co., Ltd. | Speech recognition vocabulary integration for classifying words to identify vocabulary application group |
US9558743B2 (en) * | 2013-03-15 | 2017-01-31 | Google Inc. | Integration of semantic context information |
US9613619B2 (en) * | 2013-10-30 | 2017-04-04 | Genesys Telecommunications Laboratories, Inc. | Predicting recognition quality of a phrase in automatic speech recognition systems |
JP2015102805A (ja) | 2013-11-27 | 2015-06-04 | アルパイン株式会社 | 音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラム |
KR102204395B1 (ko) | 2013-12-06 | 2021-01-19 | 주식회사 케이티 | 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템 |
US9971765B2 (en) * | 2014-05-13 | 2018-05-15 | Nuance Communications, Inc. | Revising language model scores based on semantic class hypotheses |
US20150370787A1 (en) * | 2014-06-18 | 2015-12-24 | Microsoft Corporation | Session Context Modeling For Conversational Understanding Systems |
CN104036010B (zh) * | 2014-06-25 | 2017-05-24 | 华东师范大学 | 一种基于半监督cbow的用户搜索词主题分类的方法 |
KR102380833B1 (ko) * | 2014-12-02 | 2022-03-31 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US9607616B2 (en) * | 2015-08-17 | 2017-03-28 | Mitsubishi Electric Research Laboratories, Inc. | Method for using a multi-scale recurrent neural network with pretraining for spoken language understanding tasks |
US10740384B2 (en) * | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10366158B2 (en) * | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US10896681B2 (en) * | 2015-12-29 | 2021-01-19 | Google Llc | Speech recognition with selective use of dynamic language models |
EP3770903B1 (en) * | 2016-06-08 | 2024-01-31 | Google LLC | Scalable dynamic class language modeling |
-
2015
- 2015-11-30 KR KR1020150168967A patent/KR102450853B1/ko active IP Right Grant
-
2016
- 2016-10-21 US US15/331,311 patent/US10606947B2/en active Active
- 2016-11-29 EP EP16201074.8A patent/EP3174047B1/en active Active
- 2016-11-30 CN CN201611078946.5A patent/CN106816148B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2026328A1 (de) * | 2007-08-09 | 2009-02-18 | Volkswagen Aktiengesellschaft | Verfahren zur multimodalen Bedienung mindestens eines Gerätes in einem Kraftfahrzeug |
CN101604520A (zh) * | 2009-07-16 | 2009-12-16 | 北京森博克智能科技有限公司 | 基于统计模型和语法规则的口语语音识别方法 |
CN102682763A (zh) * | 2011-03-10 | 2012-09-19 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
CN103187052A (zh) * | 2011-12-29 | 2013-07-03 | 北京百度网讯科技有限公司 | 一种建立用于语音识别的语言模型的方法及装置 |
CN103076893A (zh) * | 2012-12-31 | 2013-05-01 | 百度在线网络技术(北京)有限公司 | 一种用于实现语音输入的方法与设备 |
Non-Patent Citations (2)
Title |
---|
RNN language model with word clustering and;Yongzhe Shi,et al.;《EURASIP Journal on Audio, Speech, and Music Processing》;20130122(第22期);第1-7页 * |
互联网时代语音识别基本问题;柯登峰等;《中国科学:信息科学》;20131220;第43卷(第12期);第1578-1597页 * |
Also Published As
Publication number | Publication date |
---|---|
EP3174047A1 (en) | 2017-05-31 |
CN106816148A (zh) | 2017-06-09 |
US10606947B2 (en) | 2020-03-31 |
KR20170063037A (ko) | 2017-06-08 |
EP3174047B1 (en) | 2021-08-04 |
KR102450853B1 (ko) | 2022-10-04 |
US20170154033A1 (en) | 2017-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106816148B (zh) | 语音识别设备和方法 | |
CN111292728B (zh) | 语音识别方法和设备 | |
JP7234415B2 (ja) | 音声認識のためのコンテキストバイアス | |
CN107590135B (zh) | 自动翻译方法、设备和*** | |
US11798535B2 (en) | On-device custom wake word detection | |
EP3373293B1 (en) | Speech recognition method and apparatus | |
CN107195296B (zh) | 一种语音识别方法、装置、终端及*** | |
US9911409B2 (en) | Speech recognition apparatus and method | |
US9361084B1 (en) | Methods and systems for installing and executing applications | |
CN112420026B (zh) | 优化关键词检索*** | |
US11074909B2 (en) | Device for recognizing speech input from user and operating method thereof | |
CN110097870B (zh) | 语音处理方法、装置、设备和存储介质 | |
EP3826007B1 (en) | Method and apparatus with speech processing | |
US9972308B1 (en) | Splitting utterances for quick responses | |
US10607601B2 (en) | Speech recognition by selecting and refining hot words | |
Abed et al. | Diacritics effect on Arabic speech recognition | |
Moyal et al. | Phonetic search methods for large speech databases | |
Nasr et al. | End-to-end speech recognition for arabic dialects | |
US20230076073A1 (en) | Method and apparatus for speech recognition | |
US11328713B1 (en) | On-device contextual understanding | |
Chen et al. | Topic segmentation on spoken documents using self-validated acoustic cuts | |
Chen et al. | A Keyword-Aware Language Modeling Approach to Spoken Keyword Search | |
Ruan et al. | Mobile Phone‐Based Audio Announcement Detection and Recognition for People with Hearing Impairment | |
Gill et al. | Spectral Features Based Spoken Dialect Identification for Punjabi Language | |
Rangappa et al. | Analysis of a Hinglish ASR System’s Performance for Fraud Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |