CN106816148A - 语音识别设备和方法 - Google Patents

语音识别设备和方法 Download PDF

Info

Publication number
CN106816148A
CN106816148A CN201611078946.5A CN201611078946A CN106816148A CN 106816148 A CN106816148 A CN 106816148A CN 201611078946 A CN201611078946 A CN 201611078946A CN 106816148 A CN106816148 A CN 106816148A
Authority
CN
China
Prior art keywords
speech
word
name
sequence
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611078946.5A
Other languages
English (en)
Other versions
CN106816148B (zh
Inventor
李知炫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN106816148A publication Critical patent/CN106816148A/zh
Application granted granted Critical
Publication of CN106816148B publication Critical patent/CN106816148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供一种语音识别设备和方法。一种语音识别设备,包括:预测器,被配置为基于已被之前搜索的单词序列预测跟随已被之前搜索的单词序列的单词的词类;解码器,被配置为搜索与语音信号对应的候选单词,使用已被搜索的候选单词扩展之前已被搜索的单词序列,并基于预测的词类调整扩展的单词序列的概率值。

Description

语音识别设备和方法
本申请要求于2015年11月30日提交到韩国知识产权局的第10-2015-0168967号韩国专利申请的优先权,该申请的全部公开出于所有目的通过引用全部包含于此。
技术领域
下面的描述涉及一种语音识别设备和方法。
背景技术
与过去的现有技术不同,最近的语音识别技术已引起广泛的关注。这是因为语音识别技术的实现允许互联网信息、电子商务和在使用语音的各种普遍存在的环境中的操作的使用更加方便,并且甚至在用户难以使用他们的双手时也能满足用户的各种需要,诸如,启用互联网访问、实施商业事务以及使用其他服务。
发明内容
提供发明内容从而以简化的形式介绍构思的选择,其将在下面的具体实施方式中将被进一步描述。发明内容不意在确定所要求保护主题的关键特征或必要特征,也不意在用作辅助确定所要求保护的主题的范围。
在一个总体方面中,一种语音识别设备,包括:预测器,被配置为基于之前已被搜索的单词序列预测跟随之前已被搜索的单词序列的单词的词类;解码器,被配置为搜索与语音信号对应的候选单词,使用已被搜索的候选单词扩展之前已被搜索的单词序列,并基于预测的词类调整扩展的单词序列的概率值。
词类可为实体名或词性;实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
预测器还可被配置为:使用词类预测模型预测跟随之前已被搜索的单词序列的单词的词类。
词类预测模型可基于词典和语法以规则集的形式被构造,或者可使用命名的实体识别方案和词性标注方案的任何一个或两者通过机器学习被构造。
词类预测模型可为基于递归神经网络(RNN)的模型。
解码器还可被配置为:使用以加权有限状态转换器(WFST)的形式在数据结构中构造的发音词典和语言模型来搜索候选单词。
解码器还可被配置为:从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。
解码器还可被配置为:在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。
解码器还可被配置为:在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。
预测器还可被配置为:预测跟随之前已被搜索的单词序列的单词的词类概率分布;解码器还可被配置为:通过用每一候选单词的概率值乘以该候选单词所从属的词类的预测的概率值,调整每一候选单词的概率值。
在另一总体方面中,一种语音识别方法,包括:基于之前已被搜索的单词序列预测跟随已被之前搜索的单词序列的单词的词类;搜索与语音信号对应的候选单词;使用已被搜索的候选单词扩展之前已被搜索的单词序列;基于预测的词类调整扩展的单词序列的概率值。
词类可为实体名或词性;实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
所述预测词类的步骤可包括:使用词类预测模型预测跟随之前已被搜索的单词序列的单词的词类。
词类预测模型可基于词典和语法以规则集的形式被构造,或者可使用命名的实体识别方案和词性标注方案的任何一个或两者通过机器学习被构造。
词类预测模型可为基于递归神经网络(RNN)的模型。
所述搜索候选单词的步骤可包括:使用以加权有限状态转换器(WFST)的形式在数据结构中构造的发音词典和语言模型搜索候选单词。
所述的语音识别方法,还可包括:从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。
所述调整扩展的单词序列的概率值的步骤可包括:在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。
所述调整扩展的单词序列的概率值的步骤可包括:在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。
所述预测词类的步骤可包括:预测跟随之前已被搜索的单词序列的单词的词类概率分布;所述调整扩展的单词序列的概率值的步骤可包括:通过将每一候选单词的概率值乘以该候选单词所属的词类的预测的概率值,来调整每一候选单词的概率值。
在另一总体方面,一种存储当由处理器执行时导致处理器执行上面描述的方法的指令的计算机可读存储介质。
在另一总体方面中,一种词类预测模型生成设备,包括:训练数据采集器,被配置为采集包括多个单词序列和多个与所述多个单词序列的每一单词序列对应的类序列的训练数据;模型生成器,被配置为基于采集的训练数据通过学习生成词类预测模型。
类序列的每一类可为实体名或词性;实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
模型生成器还可被配置为:基于采集的训练数据训练递归神经网络(RNN)以生成词类预测模型。
模型生成器还可被配置为:使用作为输入的单词和作为目标的跟随所述单词的单词的词类来训练RNN。
在另一总体方面中,一种词类预测模型生成方法,包括:采集包括多个单词序列和多个与所述多个单词序列中的每个单词序列对应的类序列的训练数据;基于采集的训练数据通过学习来生成词类预测模型。
所述多个类序列的每一类可为实体名或词性;实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
所述生成词类预测模型的步骤可包括:基于采集的训练数据训练递归神经网络(RNN)以生成词类预测模型。
所述训练RNN的步骤可包括:使用作为输入的单词和作为目标的跟随所述单词的单词的词类来训练RNN。
在另一总体方面中,一种语音识别设备,包括:预测器,被配置为基于之前已被搜索的单词序列预测跟随已被之前搜索的单词序列的单词的词类;解码器,被配置为基于预测的词类将单词添加到之前已被搜索的单词序列。
预测器还可被配置为:基于之前已被搜索的单词序列预测多个词类的各自的概率;解码器还可被配置为:基于所述多个词类的预测的概率将单词添加到之前已被搜索的单词序列。
解码器还可被配置为:将属于在所述多个词类之中具有最高概率的词类的单词添加到之前已被搜索的单词序列。
解码器还可被配置为:搜索与语音信号对应的多个候选单词,并基于所述多个候选单词的各自的概率和所述多个预测的词类的预测的概率确定是否将所述多个候选单词中的一个候选单词添加到之前已被搜索的单词序列。
解码器还可被配置为:搜索与语音信号对应的候选单词,并基于预测的词类确定是否将候选单词添加到之前已被搜索的单词序列。
其他特征和方面从下面的具体实施方式、附图和权利要求将是清楚的。
附图说明
图1是示出语音识别设备的示例的框图。
图2是示出预测跟随单词序列的单词的词类概率分布的处理的示例的示图。
图3是示出基于一词性调整候选单词序列的概率值的处理的示例的示图。
图4是示出通过应用个性化的信息调整候选单词序列的概率值的处理的示例的示图。
图5是示出基于预测的词类概率分布调整候选单词序列的概率值的处理的示例的示图。
图6是示出语音识别设备的另一示例的框图。
图7是示出词类预测模型生成设备的示例的框图。
图8是示出生成词类预测模型的方法的示例的示图。
图9是示出语音识别方法的示例的流程图。
图10是示出语音识别方法的另一示例的流程图。
图11是示出生成词类预测模型的方法的示例的流程图。
贯穿附图和具体实施方式,除非另外被描述,否则相同的附图标记将被理解为表示相同的元件、特征和结构。附图可不按比例,并且为了清楚、说明和便利,这些元件的相对大小、比例和描写可被夸大。
具体实施方式
下面的详细描述被提供以协助读者获得对在此描述的方法、设备和/或***的全面理解。然而,在对本申请的公开的理解后,在此描述的方法、设备和/或***的各种变化、修改和等同物将是明显的。例如,在此描述的操作的顺序仅是示例,操作的顺序不被局限于在此阐述的那些顺序,而是除了必需按特定顺序发生的操作之外可被改变,在对本申请的公开理解之后将是明显的。同样,为了更加清楚和简洁,对本领域中已知的特征的描述可以被省略。
在此描述的特征可以不同的形式被实现,并且不应被解释为被局限于在此描述的示例。相反,在此描述的示例仅被提供于示出实现在此描述的执行方法、设备和/或***的许多可能方式中的一些方式,这在对本申请的公开理解之后将是明显的。
图1是示出语音识别设备的示例的框图。语音识别设备100可以以硬件芯片的形式被制造,并可在电子装置上被安装。电子装置可为(例如)电视(TV)、导航***、车辆电子装置、智能电话、平板PC、桌面计算机、笔记本PC或者可穿戴装置(例如,智能手表、智能眼镜、智能耳麦或智能耳机),但不限于此。
参照图1,语音识别设备100可包括:预测器110和解码器120。
预测器110基于之前检测的候选单词序列预测跟随之前检测的候选单词序列的下一单词的词类。为了根据上下文确定单词是否能跟随之前检测的候选单词序列,来定义词类,并指示单词类型。例如,词类可为实体名或词性(例如,名称、动词、形容词或副词)。
实体名可为适当的名词或在句子中具有重要意义的未注册的单词(诸如,人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名)。实体名可为多个单词的短语(诸如,“纽约”或“美国专利及商标局”)。
在一个示例中,预测器110使用词类预测模型预测跟随之前已被搜索的候选单词序列的单词的词类。可基于单词序列将词类预测模型实现为预测作为跟随单词序列的下一单词的单词的词类或词类概率分布。例如,词类预测模型可基于词典和语法以规则集的形式被构造并被实现为预测词类,或者可通过使用(例如)命名的实体识别方案或词性标注方案的机器学习被构造并被实现为预测词类概率分布。也就是,预测器110可使用以规则集的形式构造的词类预测模型预测词类,或者使用通过机器学习构造的词类预测模型预测词类概率分布,并且随后基于预测的词类概率分布预测词类。
机器学习算法可为神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯过程回归、线性判别分析、k最近邻(k-NN)算法、感知机、径向基函数网络、支持向量机(SVM)或深度学习(例如,递归神经网络(RNN))。
解码器120搜索与语音信号对应的候选单词,并使用已被搜索的候选单词扩展之前已被搜索的候选单词序列。换句话说,解码器120基于语音信号添加高度可能作为跟随之前识别的候选单词序列的下一单词出现的单词,以跟随候选单词序列来逐步扩展候选单词序列。
在一个示例中,解码器120使用声学模型、发音词典和语言模型搜索与语音信号对应的候选单词。
声学模型是接收语音信号并输出音素(phone或subphone,音子或子音子)概率矢量的模型。可使用(例如)隐马尔科夫模型(HMM)、高斯混合模型(GMM)、递归神经网络(RNN)、深度神经网络(DNN)、双向长短期模型(BLSTM)或者长短期记忆(LSTM)来预先构造声学模型。
发音词典是用于语音识别的单词被定义并且单词的发音符号被记录的模型。可基于从语料库或词典采集的单词预先构造发音词典。
语言模型是单词与另一单词之间的规则(也就是,一种语法)被定义的模型。可使用(例如)n-gram模型、递归神经网络(RNN)、深度神经网络(DNN)、双向长短期模型(BLSTM)或者长短期记忆(LSTM)来预先构造语言模型,以通过参照组成单词序列的一列单词确定单词序列的概率。
在一个示例中,发音词典和语言模型以加权有限状态转换器(WFST)的形式的数据结构构造。加权有限状态转换器(WFST)的形式的数据结构可为包括音素序列的所有可能的单词序列的简短的数据结构。如果发音词典和语言模型以WFST的形式的数据结构来构造,则解码器120基于WFST形式的数据结构搜索与语音信号对应的可能的单词序列。
解码器120计算扩展的候选单词序列的概率值。例如,解码器120使用声学模型和语言模型计算已被搜索的候选单词的概率值,并基于候选单词的计算的概率值计算扩展的候选单词序列的概率值。
此外,解码器120基于由预测器110预测的词类调整扩展的候选单词序列的概率值。
在一个示例中,解码器120通过增加已被搜索的候选单词之中的属于由预测器110预测的词类的候选单词的概率值,来调整扩展的候选单词序列的概率值。例如,当预测器110将位置名预测为跟随之前已被搜索的候选单词序列的单词的词类,并且解码器120搜索与人名有关的“A”以及与位置名有关的“B”和“C”作为与语音信号对应的候选单词时,解码器120在已被搜索的候选单词“A”、“B”和“C”之中通过将大的权重应用于属于位置名的候选单词“B”和“C”,来增加候选单词“B”和“C”的概率值。应用权重的方案可为调整语言模型和/或声学模型的权重的方案,但是该方案不限于此,并且该权重可被应用于各种方案。
在另一示例中,解码器120通过增加已被搜索的候选单词之中的属于由预测器110预测的词类的并包括在个性化的语言模型中的候选单词的概率值,调整扩展的候选单词序列的概率值。例如,如果预测器110将位置名预测为跟随之前已被搜索的候选单词序列的单词的词类,则解码器120搜索与人名有关的“A”以及与位置名有关的“B”和“C”作为与语音信号对应的候选单词,并且位置名“C”连同位置名“D”和“E”也被包括在个性化的语言模型中,解码器120通过将大的权重应用于已被搜索的候选单词“A”、“B”和“C”之中的属于该位置名的并被包括在个性化的语言模型中的候选单词“C”,来增加候选单词“C”的概率值。
可基于个性化的语料库使用(例如)n-gram模型、递归神经网络(RNN)、深度神经网络(DNN)、双向长短期模型(BLSTM)或者长短期记忆(LSTM)来预先构造个性化的语言模型。
在另一示例中,解码器120通过在属于类的候选单词的概率值中反映各个预测的词类的概率值,来调整扩展的候选单词序列的概率值。例如,当预测器110预测位置名为0.6以及人名为0.4作为跟随之前已被搜索的候选单词序列的单词的类概率,并且解码器120搜索与人名有关的“A”以及与位置名有关的“B”和“C”作为与语音信号对应的候选单词时,解码器120通过用0.4乘以候选单词“A”的概率值并用0.6乘以候选单词“B”的概率值和“C”的概率值,来调整候选单词“A”、“B”和“C”的概率值。
解码器120可在已被搜索的候选单词之中通过删减不属于由预测器110预测的词类的单词来减少未来的搜索范围。换句话说,解码器120可在已被搜索的候选单词之中去除不属于由预测器110预测的词类的未来的搜索目标单词。
此外,解码器120基于候选单词序列的概率值的调整的结果选择具有最大概率值的候选单词序列,并输出选择的候选单词序列作为语音识别结果。
此外,当针对输入语音信号的语音识别没有完成时,解码器120可从扩展的/生成的候选单词序列选择预定数量的概率值大的候选单词序列,并从未来的搜索范围去除其他的候选单词序列。
图2是示出预测跟随单词序列的单词的词类概率分布的处理的示例的示图。在这个示例中,词类预测模型被假定为实现的基于RNN的模型以预测词类概率分布。
预测器110使用之前构造的词类预测模型预测跟随单词序列“How do I get to”的下一单词的词类概率分布。即,当预测器110在时间t5接收“to”时,预测器110使用之前构造的词类预测模型来预测跟随候选单词序列“How do I get to”的下一单词的词类概率分布。在示出的示例中,跟随“How do I get to”的下一单词的词类概率中,所有格为0.2、位置名为0.4,人名为0.3。在这个示例中,位置名0.4的概率为最高的概率。
图3是示出基于词性调整候选单词序列的概率值的处理的示例以及示出在语音识别处理中在特定时间点(t4)的快照的示例的视图。在这个示例中,如所示出的,假定解码器120已生成与从t1到t3的时间的语音信号对应的候选单词序列“I’m going to”。
在示出的示例中,因为根据上下文,动词高度可能作为跟随“I’m going to”的下一单词出现,所以预测器110基于候选单词序列“I’m going to”将动词预测为跟随“I’mgoing to”的单词的词类。预测器110可基于单词序列使用之前已被构造为预测跟随单词序列的单词的词类的词类预测模型。
解码器120基于声学模型、发音词典和语言模型搜索作为跟随候选单词序列“I’mgoing to”的下一单词出现的候选单词“meet”、“meat”和“minjung”,并在时间点t4扩展候选单词序列“I’m going to”以生成扩展的候选单词序列“I’m going to meet”、“I’mgoing to meat”和“I’m going to minjung”。
然后,解码器120在候选单词“meet”、“meat”和“minjung”之中增加属于动词词类的“meet”的概率值以增加“I’m going to meet”的概率值。
图4是示出通过应用个性化的信息调整候选单词序列的概率值的处理的示例并且示出在语音识别处理中在特定时间点(t5)的快照的示例的示图。在这个示例中,如所示出的,假定解码器120已生成与从t1到t4的时间上的语音信号对应的候选单词序列“I’mgoing to meet”。
在示出的示例中,因为根据上下文,人名高度可能作为“I’m going to meet”后的下一单词出现,所以预测器110基于候选单词序列“I’m going to meet”预测人名作为跟随“I’m going to meet”的单词的词类。预测器110可基于单词序列使用之前已被构造为预测跟随单词序列的单词的词类的词类预测模型。
解码器120基于声学模型、发音词典和语言模型搜索作为跟随候选单词序列“I’mgoing to meet”的下一单词出现的候选单词“heejong”、“heeja”、“minjung”和“heejung”,并在时间点t5扩展候选单词序列“I’m going to meet”以生成扩展的候选单词序列“I’mgoing to meet heejong”、“I’m going to meet heeja”、“I’m going to meet minjung”和“I’m going to meet heejung”。
然后,解码器120搜索与人名有关的个性化的语言模型(PLM),在候选单词“heejong”、“heeja”、“minjung”和“heejung”之中增加在个性化的语言模型(PLM)中发现的“heejung”的概率值,并增加“I’m going to meet heejung”的概率值。
图5是示出基于预测的词类概率分布调整候选单词序列的概率值的处理的示例以及示出在语音识别处理中在特定时间点(t9)的快照的示例的示图。在这个示例中,如在图5中所示,假定解码器120已生成与从t1到t8的时间中的语音信号对应的候选单词序列“Iwant to make a call to David’s”和“I want to make a call to David”。
预测器110基于候选单词序列“I want to make a call to David’s”预测跟随候选单词序列“I want to make a call to David’s”的单词的词类概率分布,并基于候选单词序列“I want to make a call to David”预测跟随候选单词序列“I want to make acall to David”的单词的词类概率分布。在示出的示例中,预测器110预测名词为0.8以及所有格为0.1,以作为作为跟随候选单词序列“I want to make a call to David’s”的下一单词的单词的词类概率,并预测动词为0.01、人名为0.5和所有格为0.3,以作为作为跟随候选单词序列“I want to make a call to David”的下一单词的单词的词类概率。
然后,解码器120基于声学模型、发音词典和语言模型在时间点t9搜索作为跟随候选单词序列“I want to make a call to David’s”的下一单词出现的候选单词“office”(概率值0.3)和作为跟随候选单词序列“I want to make a call to David”的下一单词出现的候选单词“is”(概率值0.6),并通过使用已被搜索的候选单词扩展各自的候选单词序列来生成扩展的候选单词序列“I want to make a call to David’s office”和“I wantto make a call to David is”。
然后,解码器120用名词类概率值0.8乘“office”的概率值0.3以将扩展的候选单词序列“I want to make a call to David’s office”的概率值调整为0.24,并用动词类概率值0.01乘以“is”的概率值0.6以调整扩展的候选单词序列“I want to make a callto David is”的概率值为0.006。
图6是示出语音识别设备的另一示例的框图。
参照图6,与在图1中的语音识别设备100相比,在图6中的语音识别设备600还包括:词类预测模型存储单元610、声学模型存储单元620、发音词典存储单元630、语言模型存储单元640、个性化的语言模型存储单元650、输入单元660、特征矢量提取器670和输出单元680。
词类预测模型存储单元610存储词类预测模型,声学模型存储单元620存储声学模型,发音词典存储单元630存储发音词典,语言模型存储单元640存储语言模型,个性化的语言模型存储单元650存储个性化的语言模型。
在一个示例中,词类预测模型存储单元610、声学模型存储单元620、发音词典存储单元630、语言模型存储单元640和个性化的语言模型存储单元650包括:闪存、硬盘、多媒体卡(MMC)、微型多媒体卡、存储器卡(例如,SD存储器卡或XD存储器卡)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘、光盘中的任何一个或者任何两个或更多个的任何组合作为存储器介质。
尽管存储单元610至650在示出的示例中被显示为分离的组件,但是存储单元610至650可被集成为一个存储单元。
输入单元660接收用户语音信号。为达到这个目的,输入单元660可包括(例如)麦克风。
特征矢量提取器670将输入语音信号划分为单元帧,并提取与划分的输入语音信号的部分对应的特征矢量。
在一个示例中,特征矢量提取器670通过声音活动检测(VAD)从输入语音信号检测语音部分,并在检测的语音部分中从语音信号提取语音的特征以获得适合于语音识别的信息。在一个示例中,特征矢量提取器670针对每一单元帧计算语音信号的频率特性以提取包括在语音信号中的特征矢量。为了达到这个目的,特征矢量提取器670可包括将模拟语音信号转换为数字语音信号的模数(A/D)转换器,并且可将数字语音信号划分为大约10ms的单元帧并处理该信号。
特征矢量提取器670可使用梅尔频率倒频谱系数(MFCC)特征提取方案提取特征矢量。在梅尔频率倒频谱系数(MFCC)特征提取方案中,可使用以一阶微分或二阶微分的组合的形式的梅尔倒频谱系数、对数能量和特征矢量。
此外,特征矢量提取器670可使用诸如线性预测编码(LPC)、LPC导出的倒频谱、感知线性预测(PLP)、音频模型特征提取或滤波器组的方法以提取单元帧区域中的语音信号的特征。
输出单元680输出语音识别结果。在一个示例中,输出单元680以可听的方式或可视的方式输出语音识别结果。为了达到这个目的,输出单元680可包括(例如):扬声器或显示器。显示器可包括(例如):液晶显示器、薄膜晶体管液晶显示器、有机发光二极管、柔性显示器、三维显示器(3D显示器)或者眼镜式显示器(例如,头戴式显示器(HMD)、面部安装的显示器(face-mounted display,FMD)、眼部安装的显示器(eye-mounted display,EMD)或眼镜显示器(EGD))。
图7是示出词类预测模型生成设备的示例的框图。
参照图7,词类预测模型生成设备700包括:训练数据采集器710和模型生成器720。
训练数据采集器710采集包括多个单词序列和多个与各自的单词序列对应的类序列的训练数据。
训练数据采集器710采集训练数据的方法没有特定的限制。也就是,训练数据采集器710能简单地从外部装置接收和采集多个单词序列和多个与每一单词序列对应的类序列,或者能从外部装置接收多个单词序列并使用词典或其他资源通过命名的实体识别方案或词性标记方案生成与每一单词序列对应的类序列。
模型生成器720基于采集的训练数据通过机器学习生成词类预测模型。机器学习算法可为神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯处理回归、线性判决分析、k最近邻(k-NN)算法、感知机、径向基函数网络、支持向量机(SVM)或深度学习(例如,递归神经网络(RNN))。
将参照图8详细描述生成词类预测模型的方法。
图8是示出生成词类预测模型的方法的示例的示图。在这个示例中,词类预测模型被假定为对序列模式学习有效的基于RNN的模型。模型生成器720在每一时间点使用作为RNN的输入或目标的下一单词的单词和词类训练RNN。在这个示例中,输入和目标可被表示为独热(one-hot)矢量。例如,输入被表示为具有单词的位置值为1且其他值为0的词典的大小的独热矢量,目标被表示为具有类的位置值为1且其他值为0的将被处理的类的大小的独热矢量。
参照图8,模型生成器720在时间点t1使用作为输入的指示单词序列的开始的单词“<s>”和作为目标的第一单词的词类“副词”来训练RNN。
然后,模型生成器720在时间点t2使用作为输入的第一单词“how”和作为目标的第二单词的词类“动词根”来训练RNN。
模型生成器720在时间点t3至时间点t5之间的每一时间点以这样的方式训练RNN,并在时间点t6使用作为输入的第五单词“to”和作为目标的第六单词的词类“位置名”来训练RNN。
模型生成器720以这样的方式学习多个训练数据项,并生成词类预测模型。
图9是示出语音识别方法的示例的流程图。
参照图1至图9,语音识别设备100基于之前已被搜索的候选单词序列预测跟随之前已被搜索的候选单词序列的单词的词类(910)。例如,语音识别设备100使用词类预测模型预测跟随之前已被搜索的候选单词序列的单词的词类。可基于单词序列实现词类预测模型,以预测跟随单词序列的单词的词类或词类概率分布。例如,词类预测模型可基于词典和语法以规则集的形式被构造并被实现为预测词类,或者可使用(例如)命名的实体识别方案或词性标记方案通过机器学习来构造并被实现为预测词类概率分布。也就是,语音识别设备100可使用以规则集的形式构造的词类预测模型来预测词类,或者可使用通过机器学习构造的词类预测模型来预测词类概率分布,然后基于预测的词类概率分布预测词类。
语音识别设备100搜索与语音信号对应的候选单词(920)。例如,语音识别设备100使用声学模型、发音词典和语言模型搜索与语音信号对应的候选单词。在这个示例中,发音词典和语言模型可以以加权有限状态转换器(WFST)的形式在数据结构中被构造。在这个示例中,语音识别设备100基于WFST搜索与语音信号对应的可能的单词序列。
语音识别设备100使用已被搜索的候选单词扩展之前已被搜索的候选单词序列(930)。例如,语音识别设备100添加高度可能作为跟随候选单词序列(也就是,已被搜索的候选单词)的下一单词出现的单词,以跟随候选单词序列来逐步扩展候选单词序列。
语音识别设备100基于预测的词类调整扩展的候选单词序列的概率值(940)。
在一个示例中,语音识别设备100在已被搜索的候选单词之中通过增加属于预测的词类的候选单词的概率值,调整扩展的候选单词序列的概率值。
在另一示例中,语音识别设备100在已被搜索的候选单词之中通过增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值,调整扩展的候选单词序列的概率值。
在另一示例中,语音识别设备100在属于该类的候选单词的概率值中反映每一预测的词类的概率值,以调整扩展的候选单词序列的概率值。
图10是示出语音识别方法的另一示例的流程图。
参照图1至图10,语音识别设备100接收语音信号(1010),并搜索与语音信号对应的候选单词(1020)。例如,语音识别设备100使用声学模型、发音词典和语言模型搜索与语音信号对应的候选单词。在这个示例中,发音词典和语言模型可以以加权有限状态转换器(WFST)的形式在数据结构中被构造。在这个示例中,语音识别设备100基于WFST搜索与语音信号对应的可能的单词序列。
语音识别设备100使用已被搜索的候选单词扩展之前已被搜索的候选单词序列(1030)。例如,语音识别设备100添加高度可能作为之前识别的候选单词序列的下一单词出现的单词,以跟随候选单词序列来逐步扩展候选单词序列。
语音识别设备100计算扩展的候选单词序列的概率值(1040)。例如,语音识别设备100使用声学模型和语言模型计算扩展的候选单词序列的概率值。
语音识别设备100基于之前已被搜索的候选单词序列,预测跟随之前已被搜索的候选单词序列的单词的词类(1050)。例如,语音识别设备100使用词类预测模型预测跟随之前已被搜索的候选单词序列的单词的词类。在这个示例中,词类预测模型可基于单词序列被实现以预测跟随单词序列的单词的词类或词类概率分布。例如,词类预测模型可基于词典和语法以规则集的形式被构造并被实现为预测词类,或者可使用(例如)命名的实体识别方案或词性标记方案通过机器学习被构造并被实现为预测词类概率分布。也就是,语音识别设备100可使用以规则集的形式构造的词类预测模型预测词类,或者可使用通过机器学习构造的词类预测模型预测词类概率分布,然后基于预测的词类概率分布预测词类。
语音识别设备100基于预测的词类调整扩展的候选单词序列的概率值(1060)。
在一个示例中,语音识别设备100在已被搜索的候选单词之中通过增加属于预测的词类的候选单词的概率值,调整扩展的候选单词序列的概率值。
在另一示例中,语音识别设备100在已被搜索的候选单词之中通过增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值,调整扩展的候选单词序列的概率值。
在另一示例中,语音识别设备100通过在属于类的候选单词的概率值中反映每一预测的词类的概率值,调整扩展的候选单词序列的概率值。
语音识别设备100确定语音识别是否被完成(1070),并且如果语音识别被完成,则输出具有最大概率值的候选单词作为语音识别结果(1080)。
如果语音识别结果没有被完成,则语音识别设备100选择预定数量的概率值大的候选单词序列,并从未来的搜索范围去除其他候选单词序列(1090)。
语音识别设备100可在已被搜索的候选单词之中通过删减不属于预测的词类的单词,减少未来的搜索范围。换句话说,语音识别设备100可在已被搜索的候选单词之中去除不属于预测的单词的未来的搜索目标单词。
图11是示出生成词类预测模型的方法的示例的流程图。
参照图7和图11,词类预测模型生成设备700采集包括多个单词序列和多个与各自的单词序列对应的类序列的训练数据(1110)。
词类预测模型生成设备700基于采集的训练数据通过机器学习生成词类预测模型(1120)。在这个示例中,机器学习算法可为神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯处理回归、线性判决分析、k最近邻(k-NN)算法、感知器、径向基函数网络、支持向量机(SVM)或深度学习(例如,递归神经网络(RNN))。因为词类预测模型生成设备700生成词类预测模型的特定方法与上面参照图8的描述的方法相同,所以它们的详细描述将参照图11被省略。
通过被配置为执行由硬件组件所执行的在本申请中描述的操作的硬件组件,实施执行在本申请中描述的操作的图1至图6中的预测器110、图1和图6中的解码器120、图6中的词类预测模型存储器单元610、声学模型存储器单元620、发音词典存储器单元630、语言模型存储器单元640、个性化的语言模型存储器单元650、输入单元660、特征矢量提取器670和输出单元680,以及图7中的训练数据采集器710和模型生成器720。可用于执行在本申请中的适当位置描述的操作的硬件组件的示例包括:控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和任何其他被配置为执行在本申请中描述的操作的电子组件。在其他示例中,一个或多个执行在本申请中描述的操作的硬件组件通过计算机硬件(例如,通过一个或多个处理器或计算机)实施。处理器或计算机可通过一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元)、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编辑门阵列、可编程逻辑阵列、微处理器或任何其他被配置为以定义的方式响应并执行指令去实现期望的结果的装置或装置的组合被实施。在一个示例中,处理器或计算机包括或被连接到,一个或多个存储有被处理器或计算机执行的指令或软件的存储器。被处理器和计算器实施的硬件组件可执行指令或软件(诸如操作***(OS)和运行在OS中的一个或多个软件应用)来执行在本申请中描述的操作。响应于指令或软件的执行,硬件组件还可访问、操纵、处理、生成和存储数据。为了简明,单数术语“处理器”或“计算机”可用于在本申请中描述的示例的描述中,但在其他示例中,多处理器或多计算机可被使用,或者一个处理器或计算机可包括多处理器元件或多种类型的处理器元件或者两者均有。例如,单个硬件组件或两个或更多个硬件组件可通过单个处理器或者两个或更多个处理器或者一个处理器和控制器实施。一个或多个硬件组件可通过一个或多个处理器,或者一个处理器和一个控制器实施,并且一个或多个其他硬件组件可通过一个或多个其他处理器,或者另一处理器和另一控制器实施。一个或多个处理器,或者一个处理器和一个控制器可实施单个硬件组件,或者两个或更多个硬件组件。硬件组件可具有任何一个或多个不同的处理配置,其示例包括:单处理器、独立的处理器、并行处理器、单指令单数据(SISD)多重处理、多指令单数据(MISD)多重处理、单指令多数据(SIMD)多重处理以及多指令多数据(MIMD)多重处理。
图9至图11中示出的执行在本申请中描述的操作的方法由如上描述的那样被实施为执行指令或软件以执行所述方法所执行的在本申请中描述的操作的计算机硬件(例如,一个或多个处理器或计算机)执行。例如,单个操作或者两个或更多个操作可通过单处理器或者两个或更多个处理器,或者处理器和控制器来执行。一个或多个操作可通过一个或多个处理器,或者处理器和控制器来执行,且一个或多个其他操作可通过一个或多个其他处理器,或者另一处理器和另一控制器来执行。一个或多个处理器,或者处理器和控制器,可执行单个操作,或者两个或更多个操作。
为了单独地或共同地指示或配置一个或多个处理器或计算机来作为机器或专用计算机执行被如上面所描述的硬件组件和方法所执行的操作,用于控制计算机硬件(例如,一个或多个处理器或计算机)以实施硬件组件并执行如上面所描述的方法的指令或软件可被写为计算机程序、代码段、指令或它们的任意组合。在一个示例中,指令或软件包括直接被一个或多个处理器或计算机执行的机器代码(诸如,被编译器产生的机器代码)。在另一示例中,指令或软件包括被一个或多个处理器或计算机使用解释器执行的高级代码。指令或软件可基于公开了用于执行被如上所述的硬件组件和方法执行的操作的算法的在附图中示出的框图和流程图和说明书的相应描述使用任意编程语言被编写。
用于控制计算机硬件(例如,一个或多个处理器或计算机)以实施硬件组件并执行如上所述的方法的指令或软件、以及任何相关的数据、数据文件以及数据结构可被记录、存储或安装在一个或多个非暂时计算机可读存储介质中或上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-Re、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、和被配置为以非暂时方式存储指令或软件、以及任何相关的数据、数据文件以及数据结构,并向一个或多个处理器或计算机提供指令或软件、以及任何相关的数据、数据文件以及数据结构以便所述一个或多个处理器和计算机能够执行指令的任何其他设备。在一个示例中,指令或软件、以及任何相关数据、数据文件以及数据结构分布在联网的计算机***上,以便指令和软件、以及任何相关的数据、数据文件以及数据结构被一个或多个处理器或计算机以分布式方式存储、访问和执行。
尽管本公开包括特定的示例,但是在不脱离权利要求和它们的等同物的精神和范围的情况下可在这些示例中做出形式和细节上各种改变,在对本申请的公开的理解后将是清楚的。在此描述的示例被认为仅是描述性的,而非为了限制的目的。在每一示例中的特征和方面的描述将被认为适用于其他示例中的相似特征和方面。如果描述的技术以不同的顺序被执行,和/或如果在描述的***、架构、装置、或电路中的组件以不同的方式组合,和/或被其他组件或者它们的等同物代替或增补,可实现合适的结果。因此,公开的范围不是通过具体实施方式所限定,而是由权利要求和它们的等同物限定,并且在权利要求和它们的等同物的范围内的所有变化将被解释为被包括在该公开之内。

Claims (33)

1.一种语音识别设备,包括:
预测器,被配置为基于之前已被搜索的单词序列预测跟随之前已被搜索的单词序列的单词的词类;
解码器,被配置为搜索与语音信号对应的候选单词,使用已被搜索的候选单词扩展之前已被搜索的单词序列,并基于预测的词类调整扩展的单词序列的概率值。
2.如权利要求1所述的语音识别设备,其中,词类为实体名或词性;
实体名为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
3.如权利要求1所述的语音识别设备,其中,预测器还被配置为:使用词类预测模型预测跟随之前已被搜索的单词序列的单词的词类。
4.如权利要求3所述的语音识别设备,其中,词类预测模型基于词典和语法以规则集的形式被构造,或者使用命名的实体识别方案和词性标注方案中的任何一个或两者通过机器学习被构造。
5.如权利要求3所述的语音识别设备,其中,词类预测模型为基于递归神经网络(RNN)的模型。
6.如权利要求1所述的语音识别设备,其中,解码器还被配置为:使用以加权有限状态转换器(WFST)的形式在数据结构中构造的发音词典和语言模型来搜索候选单词。
7.如权利要求1所述的语音识别设备,其中,解码器还被配置为:从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。
8.如权利要求1所述的语音识别设备,其中,解码器还被配置为:在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。
9.如权利要求1所述的语音识别设备,其中,解码器还被配置为:在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。
10.如权利要求1所述的语音识别设备,其中,预测器还被配置为:预测跟随之前已被搜索的单词序列的单词的词类概率分布;
解码器还被配置为:通过用每一候选单词的概率值乘以该候选单词所属的词类的预测的概率值,调整每一候选单词的概率值。
11.一种语音识别方法,包括:
基于之前已被搜索的单词序列预测跟随之前已被搜索的单词序列的单词的词类;
搜索与语音信号对应的候选单词;
使用已被搜索的候选单词扩展之前已被搜索的单词序列;
基于预测的词类调整扩展的单词序列的概率值。
12.如权利要求11所述的语音识别方法,其中,词类为实体名或词性;
实体名为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
13.如权利要求11所述的语音识别方法,其中,所述预测词类的步骤包括:使用词类预测模型预测跟随之前已被搜索的单词序列的单词的词类。
14.如权利要求13所述的语音识别方法,其中,词类预测模型基于词典和语法以规则集的形式被构造,或者使用命名的实体识别方案和词性标注方案的任何一个或两者通过机器学习被构造。
15.如权利要求13所述的语音识别方法,其中,词类预测模型为基于递归神经网络(RNN)的模型。
16.如权利要求11所述的语音识别方法,其中,所述搜索候选单词的步骤包括:使用以加权有限状态转换器(WFST)的形式在数据结构中构造的发音词典和语言模型搜索候选单词。
17.如权利要求11所述的语音识别方法,还包括:从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。
18.如权利要求11所述的语音识别方法,其中,所述调整扩展的单词序列的概率值的步骤包括:在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。
19.如权利要求11所述的语音识别方法,其中,所述调整扩展的单词序列的概率值的步骤包括:在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。
20.如权利要求11所述的语音识别方法,其中,所述预测词类的步骤包括:预测跟随之前已被搜索的单词序列的单词的词类概率分布;
所述调整扩展的单词序列的概率值的步骤包括:通过用每一候选单词的概率值乘以该候选单词所属的词类的预测的概率值,调整每一候选单词的概率值。
21.一种词类预测模型生成设备,包括:
训练数据采集器,被配置为采集包括多个单词序列和与各个单词序列对应的类序列的训练数据;
模型生成器,被配置为通过基于采集的训练数据的学习生成词类预测模型。
22.如权利要求21所述的词类预测模型生成设备,其中,类序列的每一类为实体名或词性;
实体名为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
23.如权利要求21所述的词类预测模型生成设备,其中,模型生成器还被配置为:基于采集的训练数据训练递归神经网络(RNN)以生成词类预测模型。
24.如权利要求23所述的词类预测模型生成设备,其中,模型生成器还被配置为:使用作为输入的单词和作为目标的跟随所述单词的单词的词类来训练RNN。
25.一种词类预测模型生成方法,包括:
采集包括多个单词序列和与各个单词序列对应的类序列的训练数据;
通过基于采集的训练数据的学习生成词类预测模型。
26.如权利要求25所述的词类预测模型生成方法,其中,类序列的每个类为实体名或词性;
实体名为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
27.如权利要求25所述的词类预测模型生成方法,其中,所述生成词类预测模型的步骤包括:基于采集的训练数据训练递归神经网络(RNN)以生成词类预测模型。
28.如权利要求27所述的词类预测模型生成方法,其中,所述训练RNN的步骤包括:使用作为输入的单词和作为目标的跟随所述单词的单词的词类来训练RNN。
29.一种语音识别设备,包括:
预测器,被配置为基于之前已被搜索的单词序列预测跟随之前已被搜索的单词序列的单词的词类;
解码器,被配置为基于预测的词类将单词添加到之前已被搜索的单词序列。
30.如权利要求29所述的语音识别设备,其中,预测器还被配置为:基于之前已被搜索的单词序列预测多个词类的各自的概率;
解码器还被配置为:基于所述多个词类的预测的概率将单词添加到之前已被搜索的单词序列。
31.如权利要求30所述的语音识别设备,其中,解码器还被配置为:将属于在所述多个词类之中具有最高概率的词类的单词添加到之前已被搜索的单词序列。
32.如权利要求30所述的语音识别设备,其中,解码器还被配置为:搜索与语音信号对应的多个候选单词,并基于所述多个候选单词的各自的概率和所述多个词类的预测的概率确定是否将所述多个候选单词中的一个候选单词添加到之前已被搜索的单词序列。
33.如权利要求29所述的语音识别设备,其中,解码器还被配置为:搜索与语音信号对应的候选单词,并基于预测的词类确定是否将候选单词添加到之前已被搜索的单词序列。
CN201611078946.5A 2015-11-30 2016-11-30 语音识别设备和方法 Active CN106816148B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020150168967A KR102450853B1 (ko) 2015-11-30 2015-11-30 음성 인식 장치 및 방법
KR10-2015-0168967 2015-11-30

Publications (2)

Publication Number Publication Date
CN106816148A true CN106816148A (zh) 2017-06-09
CN106816148B CN106816148B (zh) 2022-04-22

Family

ID=57421753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611078946.5A Active CN106816148B (zh) 2015-11-30 2016-11-30 语音识别设备和方法

Country Status (4)

Country Link
US (1) US10606947B2 (zh)
EP (1) EP3174047B1 (zh)
KR (1) KR102450853B1 (zh)
CN (1) CN106816148B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN107993651A (zh) * 2017-12-29 2018-05-04 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN108305605A (zh) * 2018-03-06 2018-07-20 吟飞科技(江苏)有限公司 基于计算机音视频的人机交互数字乐器***
CN108418744A (zh) * 2018-02-06 2018-08-17 国网浙江省电力有限公司信息通信分公司 一种用于提升电力服务质量的电子坐席***
CN108682415A (zh) * 2018-05-23 2018-10-19 广州视源电子科技股份有限公司 语音搜索方法、装置和***
CN108694939A (zh) * 2018-05-23 2018-10-23 广州视源电子科技股份有限公司 语音搜索优化方法、装置和***
CN109274845A (zh) * 2018-08-31 2019-01-25 平安科技(深圳)有限公司 智能语音自动回访方法、装置、计算机设备及存储介质
CN110322884A (zh) * 2019-07-09 2019-10-11 科大讯飞股份有限公司 一种解码网络的插词方法、装置、设备及存储介质
CN110389668A (zh) * 2018-04-20 2019-10-29 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN110764422A (zh) * 2018-07-27 2020-02-07 珠海格力电器股份有限公司 电器的控制方法和装置
CN112530421A (zh) * 2020-11-03 2021-03-19 科大讯飞股份有限公司 语音识别方法、电子设备及存储装置
CN113096642A (zh) * 2021-03-31 2021-07-09 南京地平线机器人技术有限公司 语音识别方法和装置、计算机可读存储介质、电子设备

Families Citing this family (130)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US9984683B2 (en) * 2016-07-22 2018-05-29 Google Llc Automatic speech recognition using multi-dimensional models
US11341413B2 (en) * 2016-08-29 2022-05-24 International Business Machines Corporation Leveraging class information to initialize a neural network language model
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10593346B2 (en) * 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10529324B1 (en) * 2016-12-27 2020-01-07 Cognistic, LLC Geographical based voice transcription
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR20180092582A (ko) * 2017-02-10 2018-08-20 삼성전자주식회사 Wfst 디코딩 시스템, 이를 포함하는 음성 인식 시스템 및 wfst 데이터 저장 방법
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
CN107293288B (zh) * 2017-06-09 2020-04-21 清华大学 一种残差长短期记忆循环神经网络的声学模型建模方法
KR102369416B1 (ko) * 2017-09-18 2022-03-03 삼성전자주식회사 복수의 사용자 각각에 대응하는 개인화 레이어를 이용하여 복수의 사용자 각각의 음성 신호를 인식하는 음성 신호 인식 시스템
US11755834B2 (en) 2017-12-22 2023-09-12 Google Llc Selective text prediction for electronic messaging
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11036926B2 (en) 2018-05-21 2021-06-15 Samsung Electronics Co., Ltd. Generating annotated natural language phrases
CN110600032A (zh) * 2018-05-23 2019-12-20 北京语智科技有限公司 一种语音识别方法及装置
EP3576019A1 (en) 2018-05-29 2019-12-04 Nokia Technologies Oy Artificial neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
CN108922513B (zh) * 2018-06-04 2023-03-17 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
US20210142007A1 (en) * 2018-06-28 2021-05-13 Ntt Docomo, Inc. Entity identification system
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
CN109472020B (zh) * 2018-10-11 2022-07-01 重庆邮电大学 一种特征对齐中文分词方法
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
KR20200056001A (ko) * 2018-11-14 2020-05-22 삼성전자주식회사 인공신경망에서의 디코딩 방법 및 그 장치
KR20200059703A (ko) 2018-11-21 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
KR102346026B1 (ko) * 2019-02-11 2021-12-31 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN110069612B (zh) * 2019-04-28 2022-02-01 河北省讯飞人工智能研究院 一种回复生成方法及装置
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
CN110164020A (zh) * 2019-05-24 2019-08-23 北京达佳互联信息技术有限公司 投票创建方法、装置、计算机设备及计算机可读存储介质
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
EP3977446A4 (en) * 2019-06-28 2022-07-06 Samsung Electronics Co., Ltd. USER VOICE INPUT RECOGNITION DEVICE AND METHOD OF OPERATION THEREOF
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
KR20210044559A (ko) * 2019-10-15 2021-04-23 삼성전자주식회사 출력 토큰 결정 방법 및 장치
US11482214B1 (en) * 2019-12-12 2022-10-25 Amazon Technologies, Inc. Hypothesis generation and selection for inverse text normalization for search
CN111177403B (zh) * 2019-12-16 2023-06-23 恩亿科(北京)数据科技有限公司 样本数据的处理方法和装置
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111651599B (zh) * 2020-05-29 2023-05-26 北京搜狗科技发展有限公司 一种语音识别候选结果的排序方法及装置
US11688394B1 (en) * 2020-06-01 2023-06-27 Amazon Technologies, Inc. Entity language models for speech processing
US11704460B2 (en) * 2020-06-10 2023-07-18 University Of Florida Research Foundation, Incorporated System and method for fast and accurate netlist to RTL reverse engineering
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
KR102386627B1 (ko) * 2020-08-25 2022-04-14 주식회사 카카오엔터프라이즈 음성 인식에 관한 빔 서치 방법 및 장치
US11829720B2 (en) 2020-09-01 2023-11-28 Apple Inc. Analysis and validation of language models
CN112287678A (zh) * 2020-11-03 2021-01-29 沈阳雅译网络技术有限公司 一种基于预训练模型的古体诗自动生成方法
CN112599128B (zh) * 2020-12-31 2024-06-11 百果园技术(新加坡)有限公司 一种语音识别方法、装置、设备和存储介质
CN112927679B (zh) * 2021-02-07 2023-08-15 虫洞创新平台(深圳)有限公司 一种语音识别中添加标点符号的方法及语音识别装置
US11232793B1 (en) * 2021-03-30 2022-01-25 Chief Chief Technologies Oy Methods, systems and voice managing servers for voice recognition to perform action
CN113192501B (zh) * 2021-04-12 2022-04-22 青岛信芯微电子科技股份有限公司 一种指令词识别方法及装置
US20220382973A1 (en) * 2021-05-28 2022-12-01 Microsoft Technology Licensing, Llc Word Prediction Using Alternative N-gram Contexts

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2422768A1 (en) * 2000-10-13 2002-04-18 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US6668243B1 (en) * 1998-11-25 2003-12-23 Microsoft Corporation Network and language models for use in a speech recognition system
CN1875421A (zh) * 2003-10-30 2006-12-06 三星电子株式会社 包括用于搜索的元信息的存储介质以及播放该存储介质的装置和方法
EP2026328A1 (de) * 2007-08-09 2009-02-18 Volkswagen Aktiengesellschaft Verfahren zur multimodalen Bedienung mindestens eines Gerätes in einem Kraftfahrzeug
US20090248415A1 (en) * 2008-03-31 2009-10-01 Yap, Inc. Use of metadata to post process speech recognition output
CN101604520A (zh) * 2009-07-16 2009-12-16 北京森博克智能科技有限公司 基于统计模型和语法规则的口语语音识别方法
US20100161334A1 (en) * 2008-12-22 2010-06-24 Electronics And Telecommunications Research Institute Utterance verification method and apparatus for isolated word n-best recognition result
CN102682763A (zh) * 2011-03-10 2012-09-19 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
CN103076893A (zh) * 2012-12-31 2013-05-01 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
CN103187052A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置
CN104036010A (zh) * 2014-06-25 2014-09-10 华东师范大学 一种基于半监督cbow的用户搜索词主题分类的方法
US20150332673A1 (en) * 2014-05-13 2015-11-19 Nuance Communications, Inc. Revising language model scores based on semantic class hypotheses

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7111248B2 (en) * 2002-01-15 2006-09-19 Openwave Systems Inc. Alphanumeric information input method
JP4171323B2 (ja) 2003-02-27 2008-10-22 日本電信電話株式会社 認識誤り訂正方法、装置、およびプログラム
GB2407657B (en) 2003-10-30 2006-08-23 Vox Generation Ltd Automated grammar generator (AGG)
CN102272754B (zh) * 2008-11-05 2015-04-01 谷歌公司 定制语言模型
US8108214B2 (en) 2008-11-19 2012-01-31 Robert Bosch Gmbh System and method for recognizing proper names in dialog systems
JP2010154397A (ja) 2008-12-26 2010-07-08 Sony Corp データ処理装置、データ処理方法、及び、プログラム
US8589163B2 (en) 2009-12-04 2013-11-19 At&T Intellectual Property I, L.P. Adapting language models with a bit mask for a subset of related words
KR101394253B1 (ko) 2012-05-16 2014-05-13 광주과학기술원 음성 인식 오류 보정 장치
JP2013250379A (ja) 2012-05-31 2013-12-12 Alpine Electronics Inc 音声認識装置、音声認識方法およびプログラム
US9824085B2 (en) * 2012-08-31 2017-11-21 Microsoft Technology Licensing, Llc Personal language model for input method editor
KR101892734B1 (ko) 2013-01-04 2018-08-28 한국전자통신연구원 음성 인식 시스템에서의 오류 수정 방법 및 그 장치
US9305545B2 (en) 2013-03-13 2016-04-05 Samsung Electronics Co., Ltd. Speech recognition vocabulary integration for classifying words to identify vocabulary application group
US9558743B2 (en) * 2013-03-15 2017-01-31 Google Inc. Integration of semantic context information
US9613619B2 (en) * 2013-10-30 2017-04-04 Genesys Telecommunications Laboratories, Inc. Predicting recognition quality of a phrase in automatic speech recognition systems
JP2015102805A (ja) 2013-11-27 2015-06-04 アルパイン株式会社 音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラム
KR102204395B1 (ko) 2013-12-06 2021-01-19 주식회사 케이티 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템
US20150370787A1 (en) * 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US9607616B2 (en) * 2015-08-17 2017-03-28 Mitsubishi Electric Research Laboratories, Inc. Method for using a multi-scale recurrent neural network with pretraining for spoken language understanding tasks
US10740384B2 (en) * 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10366158B2 (en) * 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10896681B2 (en) * 2015-12-29 2021-01-19 Google Llc Speech recognition with selective use of dynamic language models
EP3770903B1 (en) * 2016-06-08 2024-01-31 Google LLC Scalable dynamic class language modeling

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6668243B1 (en) * 1998-11-25 2003-12-23 Microsoft Corporation Network and language models for use in a speech recognition system
CA2422768A1 (en) * 2000-10-13 2002-04-18 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
CN1875421A (zh) * 2003-10-30 2006-12-06 三星电子株式会社 包括用于搜索的元信息的存储介质以及播放该存储介质的装置和方法
EP2026328A1 (de) * 2007-08-09 2009-02-18 Volkswagen Aktiengesellschaft Verfahren zur multimodalen Bedienung mindestens eines Gerätes in einem Kraftfahrzeug
US20090248415A1 (en) * 2008-03-31 2009-10-01 Yap, Inc. Use of metadata to post process speech recognition output
US20100161334A1 (en) * 2008-12-22 2010-06-24 Electronics And Telecommunications Research Institute Utterance verification method and apparatus for isolated word n-best recognition result
CN101604520A (zh) * 2009-07-16 2009-12-16 北京森博克智能科技有限公司 基于统计模型和语法规则的口语语音识别方法
CN102682763A (zh) * 2011-03-10 2012-09-19 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
CN103187052A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置
CN103076893A (zh) * 2012-12-31 2013-05-01 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
US20150332673A1 (en) * 2014-05-13 2015-11-19 Nuance Communications, Inc. Revising language model scores based on semantic class hypotheses
CN104036010A (zh) * 2014-06-25 2014-09-10 华东师范大学 一种基于半监督cbow的用户搜索词主题分类的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
S. NAKAMURA,ET AL.: "Statistical multimodal integration for audio-visual speech processing", 《IEEE TRANSACTIONS ON NEURAL NETWORKS》 *
YONGZHE SHI,ET AL.: "RNN language model with word clustering and", 《EURASIP JOURNAL ON AUDIO, SPEECH, AND MUSIC PROCESSING》 *
柯登峰等: "互联网时代语音识别基本问题 ", 《中国科学:信息科学》 *
柯登峰等: "互联网时代语音识别基本问题", 《中国科学:信息科学》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN107993651A (zh) * 2017-12-29 2018-05-04 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN108418744A (zh) * 2018-02-06 2018-08-17 国网浙江省电力有限公司信息通信分公司 一种用于提升电力服务质量的电子坐席***
CN108305605A (zh) * 2018-03-06 2018-07-20 吟飞科技(江苏)有限公司 基于计算机音视频的人机交互数字乐器***
CN110389668A (zh) * 2018-04-20 2019-10-29 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN108682415A (zh) * 2018-05-23 2018-10-19 广州视源电子科技股份有限公司 语音搜索方法、装置和***
CN108694939A (zh) * 2018-05-23 2018-10-23 广州视源电子科技股份有限公司 语音搜索优化方法、装置和***
CN110764422A (zh) * 2018-07-27 2020-02-07 珠海格力电器股份有限公司 电器的控制方法和装置
CN109274845A (zh) * 2018-08-31 2019-01-25 平安科技(深圳)有限公司 智能语音自动回访方法、装置、计算机设备及存储介质
CN110322884A (zh) * 2019-07-09 2019-10-11 科大讯飞股份有限公司 一种解码网络的插词方法、装置、设备及存储介质
CN110322884B (zh) * 2019-07-09 2021-12-07 科大讯飞股份有限公司 一种解码网络的插词方法、装置、设备及存储介质
CN112530421A (zh) * 2020-11-03 2021-03-19 科大讯飞股份有限公司 语音识别方法、电子设备及存储装置
CN113096642A (zh) * 2021-03-31 2021-07-09 南京地平线机器人技术有限公司 语音识别方法和装置、计算机可读存储介质、电子设备

Also Published As

Publication number Publication date
CN106816148B (zh) 2022-04-22
KR20170063037A (ko) 2017-06-08
EP3174047B1 (en) 2021-08-04
EP3174047A1 (en) 2017-05-31
US20170154033A1 (en) 2017-06-01
KR102450853B1 (ko) 2022-10-04
US10606947B2 (en) 2020-03-31

Similar Documents

Publication Publication Date Title
CN106816148A (zh) 语音识别设备和方法
US20210350792A1 (en) Speech recognition method and appratus
US9911409B2 (en) Speech recognition apparatus and method
US12020701B2 (en) Detection of mission change in conversation
US10521691B2 (en) Saliency-based object counting and localization
CN106328127A (zh) 语音识别设备,语音识别方法和电子装置
US9361084B1 (en) Methods and systems for installing and executing applications
CN106560891A (zh) 使用声学建模的语音识别设备和方法
US20140257805A1 (en) Multilingual deep neural network
CN107729324A (zh) 基于并行处理的翻译方法和设备
CN107590135A (zh) 自动翻译方法、设备和***
CN106469552A (zh) 语音识别设备和方法
CN105679317A (zh) 用于训练语言模型并识别语音的方法和设备
EP3826007B1 (en) Method and apparatus with speech processing
CN109670147A (zh) 更新句子生成模型的方法以及句子生成设备
US20180107684A1 (en) Parallel prediction of multiple image aspects
US10930268B2 (en) Speech recognition method and apparatus
CN109858038A (zh) 一种文本标点确定方法及装置
Ribeiro et al. Learning word vector representations based on acoustic counts
Zhao et al. Knowledge enhancement for speech emotion recognition via multi-level acoustic feature
Qian et al. An Interactive Multi-task Learning Model for Aspect-Based Sentiment Analysis
Li et al. Improving Text-Independent Forced Alignment to Support Speech-Language Pathologists with Phonetic Transcription
Mukherjee et al. A recurrent neural network-based approach to automatic language identification from speech
Ruan et al. Mobile Phone‐Based Audio Announcement Detection and Recognition for People with Hearing Impairment
Deonise et al. Improved Speech Activity Detection Model Using Convolutional Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant