CN111192576A - 解码方法、语音识别设备和*** - Google Patents
解码方法、语音识别设备和*** Download PDFInfo
- Publication number
- CN111192576A CN111192576A CN201910846620.XA CN201910846620A CN111192576A CN 111192576 A CN111192576 A CN 111192576A CN 201910846620 A CN201910846620 A CN 201910846620A CN 111192576 A CN111192576 A CN 111192576A
- Authority
- CN
- China
- Prior art keywords
- lexical unit
- output
- neural network
- lexical
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000013528 artificial neural network Methods 0.000 claims description 305
- 230000015654 memory Effects 0.000 claims description 24
- 230000010354 integration Effects 0.000 description 25
- 238000012545 processing Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 241000282465 Canis Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/274—Converting codes to words; Guess-ahead of partial word inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
提供解码方法、语音识别设备和***。所述方法基于至少一个先前输入词法单元预测输出词法单元的候选的概率;基于预测的概率在候选中确定输出词法单元;并且通过基于确定的输出词法单元的概率选择输出词法单元和预定义的特殊词法单元中的一个来确定下一输入词法单元。
Description
本申请要求于2018年11月14日提交到韩国知识产权局的第10-2018-0139787号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。
技术领域
本申请涉及语音识别的方法和设备。
背景技术
当接收具有未定义长度的序列作为人工神经网络中的输入时,会生成未定义长度的输出。通常,为了处理这个问题,可实现作为一种序列到序列模型的编码器-解码器人工神经网络模型。例如,一种基于神经网络的先前输出作为输入,针对与构成一个序列的单元对应的每个词法单元连续输出后续的输出,以便使用人工神经网络计算具有未定义长度的输出的方法可被称为自回归解码。
发明内容
提供本发明内容,以简化的形式介绍下面在具体实施方式中进一步描述的构思的选择。本发明内容不意在确定要求权利的主题的关键特征或必要特征,也不意在用于帮助确定要求权利的主题的范围。
在一个总体方面,一种第一神经网络中的处理器实现的解码方法包括:基于至少一个先前输入词法单元预测输出词法单元的候选的概率;基于预测的概率在候选中确定输出词法单元;以及通过基于确定的输出词法单元的概率来选择输出词法单元和预定义的特殊词法单元中的一个来确定下一输入词法单元。
特殊词法单元可被确定为下一输入词法单元,基于特殊词法单元预测的下一输出词法单元的候选的可靠性高于基于输出词法单元预测的下一输出词法单元的候选的可靠性。
确定输出词法单元的步骤可包括:基于由与第一人工神经网络交互工作的一个或多个第二神经网络预测的候选的概率与由第一人工神经网络预测的候选的概率的组合,从候选选择输出词法单元。
神经网络的输入层可包括与每个候选对应的多个节点和与特殊词法单元对应的特殊节点。
所述至少一个先前输入词法单元可包括由神经网络先前预测的输出词法单元和特殊词法单元中的至少一个。
确定输出词法单元的步骤可包括选择候选中具有最高概率的词法单元。
所述方法可以是使用第一神经网络和所述一个或多个第二神经网络的识别方法。
确定下一输入词法单元的步骤可包括:将输出词法单元的概率与阈值概率进行比较;当输出词法单元的概率低于所述阈值概率时,选择特殊词法单元作为下一输入词法单元;当输出词法单元的概率高于或等于所述阈值概率时,选择输出词法单元作为下一输入词法单元。
预测输出词法单元的候选的概率的步骤可包括:基于所述至少一个先前输入词法单元与输出词法单元之间的关系来预测输出词法单元的候选的概率。
所述方法还可包括:基于所述至少一个先前输入词法单元和下一输入词法单元确定下一输出词法单元。
所述方法还可包括:屏蔽特殊词法单元以防止除了特殊词法单元以外的词法单元注意到特殊词法单元。
所述方法还可包括:当特殊词法单元被确定为下一输入词法单元时,将下一输出词法单元与特殊词法单元之间的关系设置为小于或等于预定值。
确定输出词法单元的步骤可包括:确定输出词法单元是否与特殊词法单元相似;以及当输出词法单元与特殊词法单元相似时,将候选中具有第二最高概率的词法单元确定为输出词法单元。
在一个总体方面,一种第一神经网络中的处理器实现的解码方法包括:基于至少一个先前输入词法单元,预测输出词法单元的候选的概率;基于由与第一神经网络交互工作的一个或多个第二神经网络预测的候选的概率与由第一神经网络预测的候选的概率的组合,从候选选择输出词法单元;将第一神经网络中的输出词法单元的概率与所述一个或多个第二神经网络中的具有最高的输出词法单元的概率的确定的神经网络中的输出词法单元的概率进行比较;以及通过基于比较的结果选择输出词法单元和预定义的特殊词法单元中的一个来确定第一神经网络中的下一输入词法单元。
确定下一输入词法单元的步骤可包括:当第一神经网络中的输出词法单元的概率与所述确定的神经网络中的输出词法单元的概率之间的差大于或等于阈值时,选择特殊词法单元作为第一神经网络的下一输入词法单元;当第一神经网络中的输出词法单元的概率与所述确定的神经网络中的输出词法单元的概率之间的差小于所述阈值时,选择输出词法单元作为第一神经网络的下一输入词法单元。
第一神经网络中的输出词法单元的概率与所述确定的神经网络中的输出词法单元的概率之间的差大于或等于所述阈值,基于特殊词法单元预测的下一输出词法单元的候选的可靠性高于通过输出词法单元预测的下一输出词法单元的候选的可靠性。
神经网络的输入层可包括与每个候选对应的多个节点和与特殊词法单元对应的特殊节点。
所述至少一个先前输入词法单元可包括由人工神经网络先前预测的输出词法单元和特殊词法单元中的至少一个。
预测输出词法单元的候选的概率的步骤可包括:基于所述至少一个先前输入词法单元与输出词法单元之间的关系来预测输出词法单元的候选的概率。
所述方法可包括:基于所述至少一个先前输入词法单元和下一输入词法单元确定下一输出词法单元。
所述方法可包括:屏蔽特殊词法单元以防止除了特殊词法单元以外的词法单元注意到特殊词法单元。
所述方法可包括:当特殊词法单元被确定为下一输入词法单元时,将下一输出词法单元与特殊词法单元之间的关系设置为小于或等于预定值。
确定输出词法单元的步骤可包括:确定输出词法单元是否与特殊词法单元相似;以及当输出词法单元与特殊词法单元相似时,将候选中具有第二最高概率的词法单元确定为输出词法单元。
在一个总体方面,一种语音识别设备包括:一个或多个处理器,被配置为:至少实现包括一个或多个处理器的第一神经网络,所述一个或多个处理器被配置为基于输入的至少一个先前输入词法单元预测输出词法单元的候选的概率;基于预测的概率在候选中确定输出词法单元;以及通过基于输出词法单元的确定的概率选择输出词法单元和预定义的特殊词法单元中的一个来确定下一输入词法单元。
当特殊词法单元被确定为下一输入词法单元时,基于特殊词法单元预测的下一输出词法单元的候选的可靠性可高于基于输出词法单元预测的下一输出词法单元的候选的可靠性。
神经网络的输入层可包括与多个候选中的每个对应的多个节点和与特殊词法单元对应的特殊节点。
所述至少一个先前输入词法单元可包括由神经网络先前预测的输出词法单元和特殊词法单元中的至少一个。
所述一个或多个处理器可被配置为:选择候选中具有最高概率的词法单元。
所述一个或多个处理器还可被配置为:实现一个或多个第二神经网络,其中,所述一个或多个处理器还被配置为:基于由与第一神经网络交互工作的第二神经网络预测的候选的概率与由第一神经网络预测的候选的概率的组合,从候选选择输出词法单元。
所述一个或多个处理器还可被配置为:将输出词法单元的概率与阈值概率进行比较;当输出词法单元的概率低于所述阈值概率时,选择特殊词法单元作为下一输入词法单元;当输出词法单元的概率高于或等于所述阈值概率时,选择输出词法单元作为下一输入词法单元。
所述一个或多个处理器还可被配置为:基于所述至少一个先前输入词法单元与输出词法单元之间的关系来预测输出词法单元的候选的概率。
所述一个或多个处理器还可被配置为:基于所述至少一个先前输入词法单元和下一输入词法单元确定下一输出词法单元。
所述一个或多个处理器还可被配置为:屏蔽特殊词法单元以防止除了特殊词法单元以外的词法单元注意到特殊词法单元。
所述一个或多个处理器还可被配置为:当特殊词法单元被确定为下一输入词法单元时,将下一输出词法单元与特殊词法单元之间的关系设置为小于或等于预定值。
所述一个或多个处理器还可被配置为:确定输出词法单元是否与特殊词法单元相似;以及当输出词法单元与特殊词法单元相似时,将候选中具有第二最高概率的词法单元确定为输出词法单元。
在一个总体方面,一种语音识别设备包括一个或多个处理器,所述一个或多个处理器被配置为至少实现包括处理器的第一神经网络,所述处理器被配置为:基于至少一个先前输入词法单元预测输出词法单元的候选的概率;基于由与第一神经网络交互工作的一个或多个第二神经网络预测的候选的概率与由第一神经网络预测的候选的概率的组合,从候选选择输出词法单元;将第一神经网络中的输出词法单元的概率与所述一个或多个第二神经网络中具有最高的输出词法单元的概率的确定的神经网络中的输出词法单元的概率进行比较;以及通过基于比较的结果选择输出词法单元和预定义的特殊词法单元中的一个来确定第一神经网络中的下一输入词法单元。
所述一个或多个处理器还可被配置为:当第一神经网络中的输出词法单元的概率与所述确定的神经网络中的输出词法单元的概率之间的差大于或等于阈值时,选择特殊词法单元作为第一神经网络的下一输入词法单元;当第一神经网络中的输出词法单元的概率与所述确定的神经网络中的输出词法单元的概率之间的差小于所述阈值时,选择输出词法单元作为第一神经网络的下一输入词法单元。
当第一神经网络中的输出词法单元的概率与所述确定的神经网络中的输出词法单元的概率之间的差大于或等于所述阈值时,基于特殊词法单元预测的下一输出词法单元的候选的可靠性高于通过输出词法单元预测的下一输出词法单元的候选的可靠性。
在一个总体方面,一种语音识别***包括:一个或多个处理器;存储指令的一个或多个存储器,当所述指令被所述一个或多个处理器执行时,配置所述一个或多个处理器执行以下处理:从输入语音信号提取语音特征并生成编码特征;基于编码特征和先前确定的识别结果来确定输出词法单元的候选概率;以及基于由语言模型神经网络生成的候选的确定的权重和由语音识别神经网络确定的候选的确定的权重,确定下一输出词法单元。
从以下具体实施方式、附图和权利要求,其它特征和方面将是清楚的。
附图说明
图1示出根据一个或多个实施例的人工神经网络中的自回归解码方法的示例。
图2示出根据一个或多个实施例的在应用了注意力机制(attention mechanism)的人工神经网络中屏蔽特殊词法单元的方法的示例。
图3示出根据一个或多个实施例的编码器-解码器结构人工神经网络***的示例。
图4示出根据一个或多个实施例的基于集成技术(ensemble technique)的编码器-解码器结构人工神经网络***的示例。
图5示出根据一个或多个实施例的在具有附加语言模型的语音识别人工神经网络中的应用的示例。
图6示出根据一个或多个实施例的具有附加语言模型人工神经网络的语音识别人工神经网络***的示例。
图7A示出根据一个或多个实施例的将集成技术应用到语言模型人工神经网络解码器和语音识别人工神经网络解码器的示例。
图7B示出根据一个或多个实施例的将集成技术应用到语音识别人工神经网络解码器和使用特殊词法单元的语言模型人工神经网络解码器的示例。
图8示出根据一个或多个实施例的人工神经网络中的解码方法的示例。
图9示出根据一个或多个实施例的在基于自回归序列生成的人工神经网络中处理具有低概率的词法单元的方法的示例。
图10示出在基于自回归序列生成的人工神经网络中处理具有低概率的词法单元的设备的示例。
在整个附图和具体实施方式中,除非另有描述或提供,否则相同的附图参考标号将被理解为表示相同的元件、特征和结构。附图可不按比例绘制,并且为了清楚、说明和方便起见,可夸大附图中元件的相对尺寸、比例和描绘。
具体实施方式
提供以下具体实施方式以帮助读者获得对在此描述的方法、设备和/或***的全面理解。然而,在理解本申请的公开后,在此描述的方法、设备和/或***的各种变换、修改及等同物将是清楚的。例如,在此描述的操作顺序仅仅是示例,并不局限于在此所阐述的顺序,而是除了必须以特定顺序发生的操作之外,可如在理解本申请的公开之后清楚地那样改变。此外,为了更加清楚和简明,可省略本领域中公知的特征的描述。
在此描述的特征可以以各种形式来实现,并且不应被解释为限于在此描述的示例。更确切地说,已提供在此描述的示例仅仅示出实现在此描述的方法、设备和/或***的许多可能的方式中的一些方式,所述许多可能的方式在理解本申请的公开之后将是清楚的。
虽然可在此使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分,但是这些构件、组件、区域、层或部分不被这些术语限制。更确切地说,这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分区分开。因此,在不脱离示例的教导的情况下,在此描述的示例中的被称为的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。
在整个说明书中,当诸如层、区域或基底的元件被描述为“在”另一元件“上”、“连接到”或“结合到”另一元件时,所述元件可直接“在”所述另一元件“上”、直接“连接到”或直接“结合到”所述另一元件,或者在它们之间可存在一个或多个其他元件。相反,当元件被描述为“直接在”另一元件“上”、“直接连接到”或“直接结合到”另一元件时,在它们之间可不存在其他元件。
在此使用的术语仅用于描述各种示例,并不用于限制本公开。除非上下文另外清楚地指示,否则单数形式也意图包括复数形式。术语“包含”、“包括”和“具有”说明存在阐述的特征、数量、操作、构件、元件和/或它们的组合,但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。
除非另外定义,否则在此使用的所有术语(包括技术术语和科学术语)具有与本公开所属领域的普通技术人员在理解本公开之后通常理解的含义相同的含义。除非在此明确地如此定义,否则术语(诸如在通用词典中定义的术语)将被解释为具有与它们在相关领域的上下文和本公开中的含义一致的含义,并且不被理想化或过于形式化地解释。
在下文中,将参照附图详细描述示例实施例。相同的标号始终表示相同的元件。
图1是示出人工神经网络中的自回归解码方法的示例的示图。
参照图1,解码器120接收编码特征110作为输入。例如,在实施例中,解码器120从例如人工神经网络中连接到解码器120的前端的示例编码器接收输入。
编码器和解码器120可以是由编码器-解码器神经网络实现的序列到序列编码器-解码器。作为非限制性示例,神经网络可以是深度神经网络(DNN)。在这样的示例中,DNN可包括全连接网络、深度卷积网络、递归神经网络(RNN)、递归深度神经网络(RDNN)和/或双向递归神经网络(BDRNN)中的一个或多个,其中,全连接网络、深度卷积网络、递归神经网络、递归深度神经网络和/或双向递归神经网络可分别包括具有这样的完全的、卷积的、递归的连接和/或双向递归的连接的不同的或重叠的神经网络部分。神经网络中的层的节点可非线性地彼此影响。此外,可通过学习(例如,通过基于损失的反向传播)来优化神经网络的参数(诸如,从多个节点中的每个节点输出的值、节点之间的连接关系等)。
作为非限制性示例,神经网络可以是处理器实现的神经网络模型,并且各种处理可以通过作为专用计算架构的神经网络模型来实现,其中,神经网络模型在大量训练之后可在输入模式和输出模式或输入模式的模式识别之间提供计算上直观的映射。生成这样的映射或执行这样的示例模式识别的训练能力可被称为神经网络的学习能力。这样的训练的能力还可使专用计算架构能够将这样的输入模式或输入模式的一部分分类为属于一个或多个预定组的成员。此外,由于专门的训练,这样的经过特殊训练的神经网络因此可具有针对例如神经网络可能尚未被训练的输入模式生成相对准确或可靠的输出的泛化能力。
在示例中,序列到序列编码器-解码器可具有集成编码器和解码器的网络结构,并且可从输入序列生成识别结果的序列。例如,由序列到序列结构实现的编码器和解码器120可从输入语音生成与输入语音对应的识别结果。示例性的集成的编码器和解码器120可被预训练以从输入序列生成识别结果的序列。
这里关于示例或实施例使用术语“可”(例如,关于示例或实施例可包括或实现什么)意味着存在包括或实现这样的特征的至少一个示例或实施例,而所有的示例和实施例不限于此。
编码器通过对输入序列进行编码来生成编码特征110。编码器通过从输入序列提取特征来生成编码信息。编码特征110被应用到解码器120。解码器120基于编码特征110生成识别结果。
参照图1,已经接收到编码特征110的解码器120基于与输入词法单元对应的开始词法单元115,将词法单元1 105确定为输出词法单元。已经将词法单元1 105确定为输出词法单元的解码器120将词法单元1 105确定为下一输入词法单元。
在编码器-解码器结构人工神经网络中,解码器120基于由编码器针对每个步骤计算的信息来获取输出词法单元。在这个示例中,解码器120根据直到前一步骤所选择的输入词法单元来获取输出词法单元。
例如,已经将词法单元1 105确定为输入词法单元的解码器120基于词法单元1105来预测输出词法单元的候选的概率。c1到cm表示输出词法单元的候选。p1到pm表示候选的概率。基于概率,从候选确定输出词法单元。例如,从候选选择具有最高概率的词法单元作为输出词法单元。
例如,在步骤i的词法单元ti的条件概率可表示为如下面的公式1中所示。
[公式1]
p(ti|t1,t2,...,ti-1,He)
在公式1中,He表示编码器的隐藏表示并且对应于编码特征110。t1到ti-1表示到目前为止选择的输入词法单元。为了便于描述,尽管图1示出编码特征110被应用于解码器120中的第一步骤的节点,但是编码特征110也可类似地被应用于此后的其他节点。
通常,在执行自回归解码的序列到序列模型中,被选择为输出词法单元的词法单元被确定为下一输入词法单元。因为输出词法单元根据直到前一步骤选择的输入词法单元来确定,所以当在序列到序列模型中下一输入词法单元被选择为输出词法单元时,由于选择的输出词法单元可导致预测下一词法单元的性能劣化。
例如,在输出词法单元的候选c1到cm中,具有较低概率的ci可被确定为输出词法单元。由于基于先前词法单元生成随后的输出的特性,当在这样的典型的自回归解码的处理中基于具有相对低概率的词法单元生成下一词法单元时,如果先前词法单元的概率相对低,则可能难以高效地生成随后的词法单元。例如,尽管ci具有最高概率,但是c1到cm的概率总体上可能较低。作为示例,在通过选择和使用在各种人工神经网络模型中生成的词法单元之一来执行模型集成自回归解码的环境中,可基于由另一人工神经网络生成的词法单元来生成下一词法单元作为集成结果。
因此,当输入词法单元ti-1的概率相对低时,人工神经网络可能无法基于关系p(ti|t1,t2,...,ti-1,he)准确地预测与输出词法单元对应的ti。
在示例中,如果通过排除与条件概率相关的公式1中的词法单元ti-1来计算概率,以便基于具有较低概率的输入词法单元ti-1来准确地预测输出词法单元ti,则可解决这样的问题。然而,由于可从学习数据来学习条件概率,所以如果独立于先前词法单元计算条件概率,则神经网络的原始目标不会被实现或精确地大幅下降。
在这里的解码方法的示例中,即使在输入词法单元ti-1的概率低时,也可以使用不影响条件概率的特殊词法单元tNC来准确地预测输出词法单元ti。
参照图1,将被确定为词法单元1 105的输出的输出词法单元ci的概率pi与阈值概率θnc进行比较。阈值概率θnc可以是预定值(例如,将获得期望的输出的输入词法单元概率的最小值)。例如,当输出词法单元ci的概率pi高于或等于阈值概率θnc时,可确定可获得期望的输出。在这个示例中,输出词法单元ci被确定为下一输入词法单元。
如果输出词法单元ci的概率pi低于阈值概率θnc,则当输出词法单元ci被确定为下一输入词法单元时,可确定不会获得期望的输出。因此,如果输出词法单元ci的概率pi低于阈值概率θnc,则输出词法单元ci不会被确定为或用作下一输入词法单元。在这个示例中,预定义的特殊词法单元NC而不是输出词法单元ci,被确定为或用作下一输入词法单元。
基于特殊词法单元预测的下一输出词法单元的候选的可靠性可高于基于具有低于阈值概率的概率的输出词法单元预测的下一输出词法单元的候选的可靠性。人工神经网络可被预先训练以满足这样的特性。稍后将详细描述训练人工神经网络的方法。当输出词法单元ci的概率pi低于阈值概率θnc时,基于特殊词法单元NC预测的下一输出词法单元的候选的可靠性可高于基于ci预测的下一输出词法单元的候选的可靠性。
可靠性可表示作为关于学习数据更接近正确答案词法单元的程度的词法单元的可靠性。当输出词法单元ci的概率pi低于阈值概率θnc时,与基于ci预测的下一输出词法单元的候选中具有最高概率的输出词法单元相比,基于特殊词法单元NC预测的下一输出词法单元的候选中具有最高概率的输出词法单元可更接近正确答案词法单元。
当人工神经网络通过选择输出词法单元和特殊词法单元中的一个来确定下一输入词法单元时,下一输出词法单元可基于至少一个输入词法单元和下一输入词法单元来确定。当特殊词法单元NC被确定为下一输入词法单元时,人工神经网络基于与输入词法单元对应的词法单元1 105和与下一输入词法单元对应的特殊词法单元NC来确定与下一输出词法单元对应的词法单元3125。此外,当特殊词法单元NC被确定为下一输入词法单元时,人工神经网络可将下一输出词法单元与特殊词法单元NC之间的关系设置为小于或等于预定值。
图2是示出在应用了注意力机制的人工神经网络中屏蔽特殊词法单元的方法的示例的示图。
参照图2,解码器220基于至少一个输入词法单元与输出词法单元之间的关系来预测输出词法单元的候选的概率。解码器220使用基于输入词法单元而选择性地变化的权重来预测输出词法单元的候选的概率。
例如,人工神经网络可以是应用了注意力机制的人工神经网络。人工神经网络被训练为基于注意力机制适当地表示最初预测的词法单元的关系。
解码器220屏蔽特殊词法单元以防止其他词法单元注意到特殊词法单元,使得特殊词法单元不影响其他词法单元。
例如,除了输入词法单元“Hi”、“this”和“is”之外,与输入词法单元“is”对应的输出词法单元可能注意到特殊词法单元NC。因为特殊词法单元不应该影响其他词法单元,所以特殊词法单元被屏蔽以防止与输入词法单元“is”对应的输出词法单元注意到特殊词法单元NC。
将参照图3至图5详细描述编码器-解码器结构人工神经网络***。
图3是示出编码器-解码器结构人工神经网络***的示例的框图。
参照图3,编码器-解码器结构人工神经网络***包括包含编码器320和解码器330的人工神经网络310。编码器-解码器结构人工神经网络***还可包括输入预处理器340、注意力屏蔽计算器350和词法单元校正器360。图3的解码器330可对应于参照图1描述的解码器120和参照图2描述的解码器220。
编码器-解码器结构人工神经网络***在单个人工神经网络310中处理具有相对低概率的词法单元。
序列到序列编码器-解码器是编码器320和解码器330被集成的网络结构,并从输入序列生成识别结果的序列。
输入预处理器340可对人工神经网络的输入执行预处理操作。例如,输入预处理器340可基于人工神经网络的训练从输入信号去除噪声或者可将输入信号处理成适合于输入到人工神经网络的形式(例如,以人工神经网络期望的形式)。
词法单元校正器360可通过用特殊词法单元替换在执行期间其概率被预测为小于阈值概率θNC的输出词法单元来执行校正操作,以便允许特殊词法单元被用于预测下一输入词法单元。
此外,词法单元校正器360确定输出词法单元是否与特殊词法单元相同。当输出词法单元与特殊词法单元相同时,具有第二最高概率的词法单元被确定为输出词法单元。通过这种方式,防止特殊词法单元作为输出出现。
注意力屏蔽计算器350屏蔽注意力权重以防止其他词法单元注意到特殊词法单元,使得其他词法单元不具有与特殊词法单元相关联的条件概率。注意力屏蔽计算器350可在学习或训练和执行期间以相同的方式进行操作。
图3仅解释本公开的示例,注意的是,附加组件意图包括在其他示例中(诸如,在重构的装置示例中)。然而,基于图3的描述,具有各种技术修改和变化的各种示例可被应用。例如,解码器330可以是包括注意力屏蔽计算器350和词法单元校正器360的广义概念。
图4是示出使用集成技术的编码器-解码器结构人工神经网络***的示例的框图。
参照图4,人工神经网络***包括多个人工神经网络410、420和430。人工神经网络410可包括编码器411和解码器412,人工神经网络420可包括编码器421和解码器422,人工神经网络430可包括编码器431和解码器432。
在使用集成技术的编码器-解码器结构人工神经网络***中,m个编码器可不必须对应于m个解码器。在示例中,特定的解码器可不具有相应的编码器的解码器。例如,人工神经网络420和人工神经网络430可包括各自的解码器422和解码器432,而可不包括各自的编码器421和编码器431。可选择地,人工神经网络***包括多个输入预处理器440、441和442。当人工神经网络420不包括编码器421时,可省略输入预处理器441,当人工神经网络430不包括编码器431时,可省略输入预处理器442。
根据集成技术,基于由多个解码器412、422和432使用多个人工神经网络410、420和430预测的输出词法单元的候选的概率的组合,可从输出词法单元的候选选择输出词法单元。
当使用集成技术时,解码器412、422和432可将不同的输出词法单元确定为具有最高概率的词法单元。例如,人工神经网络410的解码器412可将c1确定为具有最高概率的词法单元,人工神经网络420的解码器422可将c2确定为具有最高概率的词法单元,人工神经网络430的解码器432可将c3确定为具有最高概率的词法单元。
即使当解码器412、422和432中的每个将不同的输出词法单元确定为具有最高概率的词法单元时,也可针对所有的解码器确定一个输出词法单元。例如,可基于由多个解码器412、422和432预测的输出词法单元的候选的组合,从输出词法单元的候选选择输出词法单元。
当选择的输出词法单元作为所有解码器的下一输入词法单元被强制输入时,未被确定为具有最高概率的词法单元的输出词法单元可在一些解码器中作为下一输入词法单元被输入。
例如,可基于由多个解码器412、422和432预测的输出词法单元的候选c1、c2和c3的概率的组合来选择c1作为输出词法单元。在这个示例中,解码器422和解码器432可基于作为由解码器412生成的输出词法单元的候选的c1生成下一词法单元,而不是基于由解码器422和解码器432确定为具有最高概率的词法单元的候选c2和c3来生成下一输出词法单元。由于基于先前词法单元获得下一词法单元的自回归特性,使用具有相对较低概率的下一输入词法单元c1作为它们的解码器422和432中的输入的人工神经网络420和430可能无法准确地预测下一输出词法单元。
使用集成技术的编码器-解码器结构人工神经网络***可使用不影响条件概率的特殊词法单元,以便使用未被编码器-解码器结构人工神经网络***确定为具有最高概率的词法单元作为输入来正常地预测输出词法单元。
当实现若干个人工神经网络的集成时,将被确定为每个第j人工神经网络的输出词法单元的tmax的概率Pj(tmax)与已确定tmax具有最高概率的人工神经网络410的输出词法单元的概率进行比较。例如,在输出词法单元的候选c1、c2和c3中,可将在人工神经网络420中被确定为输出词法单元的c1的概率p2(c1)与在已确定c1具有最高概率的人工神经网络410中的c1的概率p1(c1)进行比较。
当已确定输出词法单元概率为最高的人工神经网络410与第j人工神经网络之间的输出词法单元概率差大于或等于阈值时,将特殊词法单元选择为第j人工神经网络的下一输入词法单元。例如,当p1(c1)与p2(c1)之间的差大于阈值θDIFF时,可将特殊词法单元而不是c1选择为人工神经网络420的下一输入词法单元。当已确定输出词法单元概率为最高的人工神经网络410与第j人工神经网络之间的输出词法单元概率差小于阈值时,可将确定的输出词法单元选择为第j人工神经网络的下一输入词法单元。
当已确定输出词法单元概率为最高的人工神经网络与第j人工神经网络之间的输出词法单元概率差大于或等于阈值时,基于特殊词法单元预测的下一输出词法单元的候选的可靠性高于基于输出词法单元预测的下一输出词法单元的候选的可靠性。
例如,在图2的示例中屏蔽特殊词法单元的方法的描述也可应用于使用图4的集成技术的编码器-解码器结构人工神经网络***。
词法单元校正器460通过用特殊词法单元替换在执行期间其概率被预测为小于阈值概率θNC的输出词法单元来执行校正,使得特殊词法单元可用于预测下一输入词法单元。
此外,词法单元校正器460确定输出词法单元是否与特殊词法单元相同。当输出词法单元与特殊词法单元相同时,具有第二最高概率的词法单元被确定为输出词法单元。因此,可防止特殊词法单元作为输出出现或作为输出被提供。
注意力屏蔽计算器450屏蔽注意力权重以防止其他词法单元注意到特殊词法单元,使得其他词法单元不具有与特殊词法单元相关联的条件概率。注意力屏蔽计算器450可在学习期间以及执行、推断或实现期间以相同的方式进行操作。
图5是示出在具有附加语言模型人工神经网络的语音识别人工神经网络的示例的框图。在示例中,语音识别人工神经网络可被实现为语音识别设备。语音识别设备可使用作为语音识别设备的组件的接收器或传感器(例如,麦克风)从用户收集声音或输入,或者可从接收器接收语音信号,其中,接收器与语音识别设备分离或者在语音识别设备外部。
语音识别设备可以是由各个用户使用的电子装置,并且可以是或包括例如智能电话、智能平板、可穿戴装置(诸如,智能手环)、个人数字助理(PDA)、膝上型计算机、它们的内部组件或连接到它们的独立设备。在另一示例中,语音识别设备是由多个用户共享的电子装置,并且包括例如语音识别扬声器和语音识别TV。
参照图5,包括语言模型人工神经网络的语音识别人工神经网络包括语音识别模型人工神经网络510和语言模型人工神经网络520。
在语音识别(即,机器语音识别)的示例中,解码器512可使用语音或语音信号作为编码器511的输入,输出与识别结果对应的单词序列。此外,语言模型人工神经网络520可包括确定一般句子中的单词序列的概率的解码器521。语言模型人工神经网络520可用于提高性能。
即使单词(或者字、词语)是新单词,基于在每个时间点的实际语音来预测或估计单词的语音识别模型人工神经网络也可通过收听语音并根据发音组合音素来产生单词。然而,在使用一般句子训练的语言模型人工神经网络的示例中,当单词是新单词(例如,新的位置、新创建的单词等)时,单词的输出概率可能非常低。当尝试使用具有如此低概率的单词作为输入来预测下一单词时,因为将从尚未学习的输入输出下一单词,所以语言模型人工神经网络可能无法做出正确的预测。
词法单元校正器560和注意力屏蔽计算器550可用于将参照图4描述的不影响条件概率的特殊词法单元引入到语言模型人工神经网络520。因此,语言模型人工神经网络520可使用未被语言模型人工神经网络520确定为具有最高概率的词法单元的词法单元作为输入来正常地预测输出词法单元。
输入到编码器511的语音信号可以指被捕获的或输入到语音识别设备的模拟波形(其中,所述模拟波形随后被转换成数字波形,并可包括上述的降噪,并且在一些示例中,所述模拟波形随后在被作用于或被应用于/被提供到语音识别模型510之前被转换成用于数字波形的特征数据),和/或可以指以示例语音序列格式被作用于或被应用/被提供到语音识别模型510的这样的特征数据。因此,为了易于描述而不是将示例限制于此,在下文中为了规范,语音信号术语将被讨论为对应于已经对捕获的音频执行的以最终生成示例特征数据的这样的后收集处理,其中,示例特征数据是为了应用于/提供到/输入到语音识别模型的示例语音序列形式(即,示例特征数据是期望这样的信息的应用/提供/输入的语音识别模型的形式)。如上所述,语音识别设备可执行捕获的语音的所有这样的后收集处理,并且其自身实现语音识别模型510,或者语音识别设备可不执行捕获的语音的后收集处理或者可执行捕获的语音的后收集处理的一些或所有,同时语音识别服务器(作为另一语音识别设备示例)随后可对捕获的语音执行任何剩余的后收集处理,以生成语音识别模型510所期望的形式的相应语音信息,并且例如通过语音识别设备来实现语音识别模型510。
将参照图6至图7B详细描述具有附加语言模型人工神经网络的语音识别人工神经网络中的示例。
图6是示出包括附加语言模型人工神经网络的语音识别人工神经网络***的示例的示图。
参照图6,包括附加语言模型人工神经网络的语音识别人工神经网络***包括编码器610、语音识别人工神经网络解码器620和语言模型(LM)人工神经网络解码器630。
包括附加语言模型人工神经网络的语音识别人工神经网络***可从输入语音提取语音特征640。输入语音是包括关于多个帧中的每个帧的信息的语音信号。语音特征640是以至少一帧为单位提取并由多维向量表示的信息的序列。在下文中,为了便于描述,将描述输入语音为“Hi MinChul this is”的示例。
包括附加语言模型人工神经网络的语音识别人工神经网络***可使用语言模型人工神经网络解码器630和语音识别人工神经网络解码器620的集成,从输入语音序列生成识别结果序列。“集成”可表示一起采用或考虑的单个神经网络模块,例如,语言模型人工神经网络解码器630和语音识别人工神经网络解码器620的组合。
语言模型人工神经网络解码器630和语音识别人工神经网络解码器620以词法单元为单位输出识别结果,并通过基于集成权重对识别结果进行集成来生成最终识别结果。
例如,语音识别人工神经网络解码器620基于输入语音和预先确定的识别结果来确定输出词法单元的候选。此外,语言模型人工神经网络解码器630基于预先确定的识别结果来确定输出词法单元的候选。在这个示例中,可基于集成权重来对输出词法单元中的每个输出词法单元的候选进行集成,从而生成最终识别结果。
编码器610和解码器620被预先训练以从与输入语音对应的正确答案文本对的序列生成识别结果序列。此外,语言模型人工神经网络解码器630被预先训练以从预定文本序列生成识别结果序列。
在示例中,编码器610对语音特征640进行编码以生成编码特征650。编码器610通过改变语音特征640的维度来生成编码信息。编码特征650被应用于语音识别人工神经网络解码器620。语音识别人工神经网络解码器620以词法单元为单位,基于编码特征650和先前确定的识别结果生成输出词法单元的候选。此外,语言模型人工神经网络解码器630以词法单元为单位,基于先前确定的识别结果来生成输出词法单元的候选。基于预定的集成权重对两个识别结果进行集成,从而生成最终识别结果。例如,语音识别人工神经网络解码器620的集成权重和语言模型人工神经网络解码器630的集成权重可以是1:0.2。
将参照图7A和图7B详细描述在语言模型人工神经网络解码器和语音识别人工神经网络解码器中应用集成技术的示例。
图7A是示出在语言模型人工神经网络解码器和语音识别人工神经网络解码器中应用集成技术的示例的示图。
参照图7A,作为非限制性示例,语音识别人工神经网络解码器710和语言模型人工神经网络解码器720可分别对应于图6的语音识别人工神经网络解码器620和语言模型人工神经网络解码器630。
语音识别人工神经网络解码器710和语言模型人工神经网络解码器720各自可以是自回归解码器,并基于输入词法单元“Hi”预测输出词法单元的候选的概率。例如,语音识别人工神经网络解码器710基于输入词法单元“Hi”和编码语音特征,输出“MinChul”和“Bixby”作为输出词法单元的候选,并预测候选的概率分别为0.7和0.1。此外,语言模型人工神经网络解码器720基于输入词法单元“Hi”输出“MinChul”和“Bixby”作为输出词法单元的候选,并预测候选的概率分别为0.001和0.8。
语音识别人工神经网络解码器710和语言模型人工神经网络解码器720基于集成权重在候选中确定输出词法单元。例如,“MinChul”具有最终权重0.7002(=0.7+0.2*0.001),“Bixby”具有最终权重0.26(=0.1+0.2*0.8)。在这个示例中,“MinChul”被确定为输出词法单元。
在自回归解码环境中,语言模型人工神经网络解码器720输入“MinChul”作为被确定为集成结果的下一输入词法单元,而不是输入被语言模型人工神经网络解码器720确定为具有最高概率的词法单元的“Bixby”。因为“MinChul”被语言模型人工神经网络解码器720确定为具有较低的概率,所以可能难以在语言模型人工神经网络解码器720中准确地预测下一输出词法单元。
例如,语言模型人工神经网络解码器720基于下一输入词法单元“MinChul”输出“this”和“dis”作为下一输出词法单元的候选,并且预测候选的概率分别为0.01和0.01。语音识别人工神经网络解码器710基于下一输入词法单元“MinChul”输出“this”和“dis”作为下一输出词法单元的候选,并且预测候选“this”和“dis”的概率分别为0.34和0.38。因为“this”和“dis”的发音相似,所以在语音识别人工神经网络解码器710中“this”和“dis”的概率可能相似。
语音识别人工神经网络解码器710和语言模型人工神经网络解码器720基于集成权重在候选中确定下一输出词法单元。例如,“this”具有最终权重0.342(=0.34+0.2*0.01),“dis”具有最终权重0.382(=0.38+0.2*0.01)。因此,“dis”被确定为下一输出词法单元。这样,语音识别人工神经网络解码器710和语言模型人工神经网络解码器720可输出与输入语音“this”不同的“dis”。
在前述示例中,在由语言模型人工神经网络解码器720预测的当前输出词法单元的候选中,由语音识别人工神经网络解码器710和语言模型人工神经网络解码器720的集成确定的“MinChul”的概率可低于阈值概率。由于“MinChul”的较低概率,语言模型人工神经网络解码器720可能无法准确区分“this”和“dis”作为下一输出词法单元。由于补充语音识别人工神经网络解码器710的性能的语言模型人工神经网络解码器720的性能劣化,所以可能获得不正确的结果(诸如,如上所述,输出与“this”不同的“dis”)。
将参照图7B进一步描述在使用特殊词法单元的语言模型人工神经网络解码器和语音识别人工神经网络解码器中应用集成技术的示例。
图7B是示出在基于实现特殊词法单元的语言模型人工神经网络解码器和语音识别人工神经网络解码器中应用集成技术的示例的示图。
参照图7B,语音识别人工神经网络解码器710和语言模型人工神经网络解码器720使用集成权重在候选中将“MinChul”确定为输出词法单元。
语言模型人工神经网络解码器720比较“MinChul”的概率和预先确定的阈值概率。例如,阈值概率是0.01。如图7B中所示,由语言模型人工神经网络解码器720预测的“MinChul”的概率是小于阈值概率0.01的0.001。因此,语言模型人工神经网络解码器720选择特殊词法单元NC而不是“MinChul”作为下一输入词法单元。
语言模型人工神经网络解码器720基于与下一输入词法单元对应的特殊词法单元NC输出“this”和“dis”作为下一输出词法单元的候选,并且预测候选“this”和“dis”的概率分别为0.4和0.1。语音识别人工神经网络解码器710基于与下一输入词法单元对应的“MinChul”输出“this”和“dis”作为下一输出词法单元的候选,并预测候选“this”和“dis”的概率分别为0.34和0.38。
语音识别人工神经网络解码器710和语言模型人工神经网络解码器720使用集成权重在候选中确定下一输出词法单元。例如,“this”具有最终权重0.42(=0.34+0.2*0.4),“dis”具有最终权重0.4(=0.38+0.2*0.1)。因此,“this”被确定为下一输出词法单元。
图8是示出人工神经网络中的解码方法的示例的流程图。可以以示出的顺序和方式执行图8中的操作,但是在不脱离所描述的说明性示例的精神和范围的情况下,可改变一些操作的顺序或省略一些操作。可以并行或同时执行图8中示出的许多操作。可由执行指定功能的基于专用硬件的计算机或专用硬件与计算机指令的组合来实现图8的一个或多个块或者块的组合。除了下面的图8的描述之外,图1至图7B的描述也适用于图8并通过引用包含于此。因此,这里可不重复以上描述。
参照图8,操作810至830可由图3的解码器330执行。解码器330可由一个或多个硬件组件或者包括硬件和软件两者的一个或多个组件来实现。
在操作810中,解码器330基于初始输入的至少一个输入词法单元预测输出词法单元的候选的概率。
在操作820中,解码器330基于确定的概率从候选确定输出词法单元。例如,解码器330可从候选选择具有最高概率的词法单元。此外,解码器330还可基于由与第一人工神经网络交互工作的第二人工神经网络预测的候选的概率和由第一人工神经网络预测的候选的概率的组合来选择输出词法单元。
在操作830中,解码器330通过基于确定的输出词法单元的概率选择输出词法单元和预定义的特殊词法单元中的一个来确定下一输入词法单元。
至少一个输入词法单元包括特殊词法单元和由人工神经网络先前预测的输出词法单元中的至少一个。
人工神经网络的输入层可包括与候选对应的多个节点和与特殊词法单元对应的特殊节点。
图9是示出在基于自回归序列生成的人工神经网络中处理具有低概率的词法单元的方法的示例的流程图。可以以示出的顺序和方式执行图9中的操作,但是在不脱离所描述的说明性示例的精神和范围的情况下,可改变一些操作的顺序或省略一些操作。可以并行或同时执行图9中示出的许多操作。可由执行指定功能的基于专用硬件的计算机或专用硬件与计算机指令的组合来实现图9的一个或多个块或者块的组合。除了下面的图9的描述之外,图1至图8的描述也适用于图9并通过引用包含于此。因此,这里可不重复以上描述。
参照图9,在操作901中,基于自回归序列生成的人工神经网络接收输入。例如,语音识别人工神经网络***可接收语音输入。
在操作902中,编码器从接收的输入生成编码特征。例如,编码器可通过改变语音特征的维度来生成编码信息。
在操作903中,解码器基于编码特征预测输出词法单元的候选的概率。解码器基于由编码器针对每个步骤计算的信息来获得输出词法单元。在这个示例中,解码器根据直到前一步骤选择的输入词法单元来获得输出词法单元。
在操作904中,解码器基于预测的概率从候选确定输出词法单元。例如,解码器将在第i步骤中具有最高概率的ti确定为输出词法单元。
在操作905中,解码器确定输出词法单元是否与特殊词法单元相同。
在操作906中,当输出词法单元与特殊词法单元相同时,解码器将候选中具有第二最高概率的词法单元确定为输出词法单元。通过这种方式,防止特殊词法单元被输出。
在操作907中,当输出词法单元与特殊词法单元不同时,解码器将输出词法单元的概率与阈值概率进行比较。
在操作908中,当输出词法单元的概率高于或等于阈值概率时,解码器选择输出词法单元作为下一输入词法单元。
在操作909中,当输出词法单元的概率小于阈值概率时,解码器选择特殊词法单元而不是输出词法单元作为下一输入词法单元。
在操作910中,解码器屏蔽特殊词法单元以防止其他词法单元注意到特殊词法单元,使得特殊词法单元不影响其他词法单元。
引入不影响条件概率的特殊词法单元tNC,使得即使在输入词法单元ti-1的概率低时,也适当地(例如,在预定的精度内)预测作为输出词法单元的ti。特殊词法单元被学习以具有如下面的公式2中所示的特性。
[公式2]
p(ti<T1>,tNC,<T2>,He)=p(ti<T1>,<T2>,He)对任何ti
在公式2中,<T1>、<T2>是任何词法单元序列并且包括空序列。当根据公式2学习tNC时,如果ti-1的概率小于阈值θNC,则用tNC替换ti-1以防止包括词法单元ti-1的条件概率被计算,使得下一词法单元被正确预测。通过以概率θReplace将预定概率的用于学习的正确答案句子的词法单元改变为tNC来训练人工神经网络。
当主要人工神经网络和辅助人工神经网络被区分开时,可通过在辅助人工神经网络的学习数据中以概率θReplace改变正确答案词法单元来执行训练。例如,在具有附加语言模型人工神经网络的语音识别人工神经网络***的情况下,语言模型人工神经网络可以是辅助人工神经网络。在这个示例中,通过在语言模型人工神经网络的学习数据中以概率θReplace改变正确答案词法单元来执行训练。
图10是示出用于在基于自回归序列生成的人工神经网络中处理具有低概率的词法单元的设备的框图。
参照图10,用于在基于自回归序列生成的人工神经网络中处理具有低概率的词法单元的设备1000包括一个或多个传感器1010、处理器1030和通信接口1070。设备1000还包括存储器1050和显示器1090。一个或多个传感器1010、处理器1030、存储器1050、通信接口1070和显示器1090可通过通信总线1005彼此通信。
例如,一个或多个传感器1010包括麦克风传感器和语音传感器,但不限于此。
处理器1030执行参照图1至图9描述的操作或方法的任何一种、任何组合或所有组合,或者执行与所述至少一种方法对应的算法。处理器1030执行程序并控制设备1000。由处理器1030执行的计算机指令或代码存储在存储器1050中。
例如,处理器1030包括中央处理器(CPU)或图形处理器(GPU)。
存储器1050存储由处理器1030处理的数据。例如,存储器1050存储程序。存储器1050可以是易失性存储器或非易失性存储器。
通信接口1070连接到传感器1010、处理器1030和存储器1050,以执行数据发送和接收。通信接口1070连接到外部装置以执行数据发送和接收。在下面的描述中,表述“发送和接收“A””指的是发送和接收表示“A”的数据或信息。
例如,通信接口1070被实现为设备1000中的电路。在一个示例中,通信接口1070可包括内部总线和外部总线。在另一示例中,通信接口1070可以是被配置为将设备1000连接到外部装置的元件。通信接口1070从外部装置接收数据并将数据发送给处理器1030和存储器1050。
显示器1090显示解码结果。例如,翻译结果和语音识别结果可显示在显示器1090上。
在此关于图1至图10描述的设备、输入预处理器340/440/441/442、注意力屏蔽计算器350/450/550、编码器320/411/421/431/511、解码器330/412/422/432/512/521、词法单元校正器360/460/560、语音预处理器540、传感器1010、存储器1050、处理器1030、显示器1090、通信接口1070、组件、装置和其他组件是硬件组件并且由硬件组件实现。可用于执行在本申请中描述的操作的硬件组件的示例适当地包括:控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器以及被配置为执行在本申请中描述的操作的任何其他电子组件。在其他示例中,通过计算硬件(例如,通过一个或多个处理器或计算机)来实现执行在本申请中描述的操作的硬件组件中的一个或多个硬件组件。可通过一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以实现期望的结果的任何其他装置或装置的组合)来实现处理器或计算机。在一个示例中,处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可执行用于执行在本申请中描述的操作的指令或软件(诸如,操作***(OS)和在OS上运行的一个或多个软件应用)。硬件组件还可响应于指令或软件的执行来访问、操控、处理、创建和存储数据。为了简单起见,单数术语“处理器”或“计算机”可用于本申请中描述的示例的描述,但是在其他的示例中,多个处理器或计算机可被使用,或者处理器或计算机可包括多个处理元件或多种类型的处理元件或二者。例如,单个硬件组件或者两个或更多个硬件组件可通过单个处理器、或者两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可通过一个或多个处理器、或者处理器和控制器来实现,一个或多个其他硬件组件可通过一个或多个其他处理器,或者另外的处理器和另外的控制器来实现。一个或多个处理器、或者处理器和控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任何一个或多个,其中,不同的处理配置的示例包括:单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。
执行在本申请中描述的操作的关于图1至图10示出和讨论的方法通过计算硬件(例如,通过一个或多个处理器或计算机)来执行,其中,计算硬件被如上所述实现为执行指令或软件,以执行在本申请中描述的通过该方法执行的操作。例如,单个操作或者两个或更多个操作可通过单个处理器或者两个或更多个处理器、或者处理器和控制器来执行。一个或多个操作可通过一个或多个处理器、或者处理器和控制器来执行,并且一个或多个其他操作可通过一个或多个其他处理器、或者另外的处理器和另外的控制器来执行。一个或多个处理器、或者处理器和控制器可执行单个操作或者两个或更多个操作。
用于控制计算硬件(例如,一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件可被编写为计算机程序、代码段、指令或它们的任何组合,以单独地或共同地指示或配置一个或多个处理器或者计算机作为机器或专用计算机进行操作,以执行由如上所述的硬件组件和方法执行的操作。在一个示例中,指令或软件包括由一个或多个处理器或者计算机直接执行的机器代码(诸如,由编译器产生的机器代码)。在另一示例中,指令或软件包括由一个或多个处理器或者计算机使用解释器执行的高级代码。可基于附图中所示的框图和流程图以及说明书中的对应描述,使用任何编程语言编写指令或软件,其中,附图中所示的框图和流程图以及说明书中的对应描述公开了用于执行由如上所述的硬件组件和方法执行的操作的算法。
用于控制计算硬件(例如,一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中,或者被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、作为非限制的蓝光或光盘存储装置示例、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如多媒体卡或微型卡(例如,安全数字(SD)或极速数字(XD))、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,其中,任何其他装置被配置为以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构并将所述指令或软件以及任何相关联的数据、数据文件和数据结构提供给一个或多个处理器或计算机使得一个或多个处理器或计算机能执行指令。在一个示例中,指令或软件以及任何相关联的数据、数据文件和数据结构分布在联网的计算机***上,使得指令和软件以及任何相关联的数据、数据文件和数据结构以分布式方式由一个或多个处理器或计算机存储、访问和执行。
虽然本公开包括具体的示例,但是将清楚的是,在理解本申请的公开之后,在不脱离权利要求及其等同物的精神和范围的情况下,可在这些示例中进行形式和细节上的各种改变。在此描述的示例仅被认为是描述性的,而不是出于限制的目的。每个示例中的特征或方面的描述将被认为可适用于其他示例中的类似特征或方面。如果描述的技术以不同的顺序被执行,和/或如果描述的***、架构、装置或电路中的组件以不同的方式被组合,和/或由其他组件或它们的等同物替换或补充,则可实现合适的结果。因此,本公开的范围不是由具体实施方式限定,而是由权利要求及其等同物限定,并且在权利要求及其等同物的范围内的所有变化应被解释为包括在本公开中。
Claims (40)
1.一种第一神经网络中的处理器实现的解码方法,所述解码方法包括:
基于至少一个先前输入词法单元,预测输出词法单元的候选的概率;
基于预测的概率在候选中确定输出词法单元;以及
通过基于确定的输出词法单元的概率选择输出词法单元和预定义的特殊词法单元中的一个来确定下一输入词法单元。
2.根据权利要求1所述的解码方法,其中,当特殊词法单元被确定为下一输入词法单元时,基于特殊词法单元预测的下一输出词法单元的候选的可靠性高于基于输出词法单元预测的下一输出词法单元的候选的可靠性。
3.根据权利要求2所述的解码方法,其中,确定输出词法单元的步骤包括:
基于由与第一神经网络交互工作的一个或多个第二神经网络预测的候选的概率与由第一神经网络预测的候选的概率的组合,从候选选择输出词法单元。
4.根据权利要求1所述的解码方法,其中,第一神经网络的输入层包括与每个候选对应的多个节点和与特殊词法单元对应的特殊节点。
5.根据权利要求1所述的解码方法,其中,所述至少一个先前输入词法单元包括由第一神经网络先前预测的输出词法单元和特殊词法单元中的至少一个。
6.根据权利要求1所述的解码方法,其中,确定输出词法单元的步骤包括:
选择候选中具有最高概率的词法单元。
7.根据权利要求3所述的解码方法,其中,所述方法是使用第一神经网络和所述一个或多个第二神经网络的识别方法。
8.根据权利要求1所述的解码方法,其中,确定下一输入词法单元的步骤包括:
将输出词法单元的概率与阈值概率进行比较;
当输出词法单元的概率低于所述阈值概率时,选择特殊词法单元作为下一输入词法单元;以及
当输出词法单元的概率高于或等于所述阈值概率时,选择输出词法单元作为下一输入词法单元。
9.根据权利要求1所述的解码方法,其中,预测输出词法单元的候选的概率的步骤包括:
基于所述至少一个先前输入词法单元与输出词法单元之间的关系来预测输出词法单元的候选的概率。
10.根据权利要求1所述的解码方法,还包括:
基于所述至少一个先前输入词法单元和下一输入词法单元确定下一输出词法单元。
11.根据权利要求2所述的解码方法,还包括:
屏蔽特殊词法单元以防止特殊词法单元以外的词法单元注意到特殊词法单元。
12.根据权利要求1所述的解码方法,还包括:
当特殊词法单元被确定为下一输入词法单元时,将下一输出词法单元与特殊词法单元之间的关系设置为小于或等于预定值。
13.根据权利要求1所述的解码方法,其中,确定输出词法单元的步骤包括:
确定输出词法单元是否与特殊词法单元相同;以及
当输出词法单元与特殊词法单元相同时,将候选中具有第二最高概率的词法单元确定为输出词法单元。
14.一种第一神经网络中的处理器实现的解码方法,所述解码方法包括:
基于至少一个先前输入词法单元,预测输出词法单元的候选的概率;
基于由与第一神经网络交互工作的一个或多个第二神经网络预测的候选的概率与由第一神经网络预测的候选的概率的组合,从候选选择输出词法单元;
将第一神经网络中的输出词法单元的概率与所述一个或多个第二神经网络中具有最高的输出词法单元的概率的确定的神经网络中的输出词法单元的概率进行比较;以及
通过基于比较的结果选择输出词法单元和预定义的特殊词法单元中的一个来确定第一神经网络中的下一输入词法单元。
15.根据权利要求14所述的解码方法,其中,确定下一输入词法单元的步骤包括:
当第一神经网络中的输出词法单元的概率与所述确定的神经网络中的输出词法单元的概率之间的差大于或等于阈值时,选择特殊词法单元作为第一神经网络的下一输入词法单元;以及
当第一神经网络中的输出词法单元的概率与所述确定的神经网络中的输出词法单元的概率之间的差小于所述阈值时,选择输出词法单元作为第一神经网络的下一输入词法单元。
16.根据权利要求15所述的解码方法,其中,当第一神经网络中的输出词法单元的概率与所述确定的神经网络中的输出词法单元的概率之间的差大于或等于所述阈值时,基于特殊词法单元预测的下一输出词法单元的候选的可靠性高于通过输出词法单元预测的下一输出词法单元的候选的可靠性。
17.根据权利要求14所述的解码方法,其中,第一神经网络的输入层包括与每个候选对应的多个节点和与特殊词法单元对应的特殊节点。
18.根据权利要求14所述的解码方法,其中,所述至少一个先前输入词法单元包括由所述人工神经网络先前预测的输出词法单元和特殊词法单元中的至少一个。
19.根据权利要求14所述的解码方法,其中,预测输出词法单元的候选的概率的步骤包括:
基于所述至少一个先前输入词法单元与输出词法单元之间的关系来预测输出词法单元的候选的概率。
20.根据权利要求14所述的解码方法,还包括:
基于所述至少一个先前输入词法单元和下一输入词法单元确定下一输出词法单元。
21.根据权利要求14所述的解码方法,还包括:
屏蔽特殊词法单元以防止特殊词法单元以外的词法单元注意到特殊词法单元。
22.根据权利要求14所述的解码方法,还包括:
当特殊词法单元被确定为下一输入词法单元时,将下一输出词法单元与特殊词法单元之间的关系设置为小于或等于预定值。
23.根据权利要求14所述的解码方法,其中,确定输出词法单元的步骤包括:
确定输出词法单元是否与特殊词法单元相同;以及
当输出词法单元与特殊词法单元相同时,将候选中具有第二最高概率的词法单元确定为输出词法单元。
24.一种存储指令的非暂时性计算机可读存储介质,其中,当所述指令由处理器执行时,使得处理器执行权利要求1所述的解码方法。
25.一种语音识别设备,包括:
一个或多个处理器,被配置为至少实现第一神经网络,所述一个或多个处理器被配置为:
基于至少一个先前输入词法单元预测输出词法单元的候选的概率;
基于预测的概率在候选中确定输出词法单元;
以及通过基于输出词法单元的确定的概率选择输出词法单元和预定义的特殊词法单元中的一个来确定下一输入词法单元。
26.根据权利要求25所述的语音识别设备,其中,当特殊词法单元被确定为下一输入词法单元时,基于特殊词法单元预测的下一输出词法单元的候选的可靠性高于基于输出词法单元预测的下一输出词法单元的候选的可靠性。
27.根据权利要求25所述的语音识别设备,其中,第一神经网络的输入层包括与每个候选对应的多个节点和与特殊词法单元对应的特殊节点。
28.根据权利要求25所述的语音识别设备,其中,所述至少一个先前输入词法单元包括由第一神经网络先前预测的输出词法单元和特殊词法单元中的至少一个。
29.根据权利要求25所述的语音识别设备,其中,所述一个或多个处理器被配置为选择候选中具有最高概率的词法单元。
30.根据权利要求25所述的语音识别设备,其中,所述一个或多个处理器还被配置为实现一个或多个第二神经网络,其中,所述一个或多个处理器还被配置为:基于由与第一神经网络交互工作的第二人工神经网络预测的候选的概率与由第一神经网络预测的候选的概率的组合,从候选选择输出词法单元。
31.根据权利要求25所述的语音识别设备,其中,所述一个或多个处理器还被配置为:
将输出词法单元的概率与阈值概率进行比较;
当输出词法单元的概率低于所述阈值概率时,选择特殊词法单元作为下一输入词法单元;以及
当输出词法单元的概率高于或等于所述阈值概率时,选择输出词法单元作为下一输入词法单元。
32.根据权利要求25所述的语音识别设备,其中,所述一个或多个处理器还被配置为:基于所述至少一个先前输入词法单元与输出词法单元之间的关系来预测输出词法单元的候选的概率。
33.根据权利要求25所述的语音识别设备,其中,所述一个或多个处理器还被配置为:基于所述至少一个先前输入词法单元和下一输入词法单元确定下一输出词法单元。
34.根据权利要求25所述的语音识别设备,其中,所述一个或多个处理器还被配置为:屏蔽特殊词法单元以防止特殊词法单元之外的词法单元注意到特殊词法单元。
35.根据权利要求25所述的语音识别设备,其中,所述一个或多个处理器还被配置为:当特殊词法单元被确定为下一输入词法单元时,将下一输出词法单元与特殊词法单元之间的关系设置为小于或等于预定值。
36.根据权利要求25所述的语音识别设备,其中,所述一个或多个处理器还被配置为:
确定输出词法单元是否与特殊词法单元相同;以及
当输出词法单元与特殊词法单元相同时,将候选中具有第二最高概率的词法单元确定为输出词法单元。
37.一种语音识别设备,所述语音识别设备包括:
一个或多个处理器,被配置为至少实现第一神经网络,所述一个或多个处理器被配置为:
基于至少一个先前输入词法单元,预测输出词法单元的候选的概率;
基于由与第一神经网络交互工作的一个或多个第二神经网络预测的候选的概率与由第一神经网络预测的候选的概率的组合,从候选选择输出词法单元;
将第一神经网络中的输出词法单元的概率与所述一个或多个第二神经网络中具有最高的输出词法单元的概率的确定的神经网络中的输出词法单元的概率进行比较;以及
通过基于比较的结果选择输出词法单元和预定义的特殊词法单元中的一个来确定第一神经网络中的下一输入词法单元。
38.根据权利要求37所述的语音识别设备,其中,所述一个或多个处理器还被配置为:
当第一神经网络中的输出词法单元的概率与所述确定的神经网络中的输出词法单元的概率之间的差大于或等于阈值时,选择特殊词法单元作为第一神经网络的下一输入词法单元;以及
当第一神经网络中的输出词法单元的概率与所述确定的神经网络中的输出词法单元的概率之间的差小于所述阈值时,选择输出词法单元作为第一神经网络的下一输入词法单元。
39.根据权利要求38所述的语音识别设备,其中,当第一神经网络中的输出词法单元的概率与所述确定的神经网络中的输出词法单元的概率之间的差大于或等于所述阈值时,基于特殊词法单元预测的下一输出词法单元的候选的可靠性高于通过输出词法单元预测的下一输出词法单元的候选的可靠性。
40.一种语音识别***,包括:
一个或多个处理器;
存储指令的一个或多个存储器,当所述指令被所述一个或多个处理器执行时,配置所述一个或多个处理器执行以下处理:
从输入语音信号提取语音特征并生成编码特征;
基于编码特征和先前确定的识别结果来确定输出词法单元的候选概率;以及
基于由语言模型神经网络生成的候选的确定的权重和由语音识别神经网络确定的候选的确定的权重,确定下一输出词法单元。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180139787A KR20200056001A (ko) | 2018-11-14 | 2018-11-14 | 인공신경망에서의 디코딩 방법 및 그 장치 |
KR10-2018-0139787 | 2018-11-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111192576A true CN111192576A (zh) | 2020-05-22 |
Family
ID=67988924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910846620.XA Pending CN111192576A (zh) | 2018-11-14 | 2019-09-09 | 解码方法、语音识别设备和*** |
Country Status (5)
Country | Link |
---|---|
US (1) | US11361757B2 (zh) |
EP (1) | EP3654328A1 (zh) |
JP (1) | JP2020086436A (zh) |
KR (1) | KR20200056001A (zh) |
CN (1) | CN111192576A (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11043214B1 (en) * | 2018-11-29 | 2021-06-22 | Amazon Technologies, Inc. | Speech recognition using dialog history |
US11158307B1 (en) * | 2019-03-25 | 2021-10-26 | Amazon Technologies, Inc. | Alternate utterance generation |
US11176321B2 (en) * | 2019-05-02 | 2021-11-16 | International Business Machines Corporation | Automated feedback in online language exercises |
US11790895B2 (en) * | 2019-06-26 | 2023-10-17 | Samsung Electronics Co., Ltd. | System and method for natural language understanding |
KR20210044559A (ko) | 2019-10-15 | 2021-04-23 | 삼성전자주식회사 | 출력 토큰 결정 방법 및 장치 |
KR20220093653A (ko) * | 2020-12-28 | 2022-07-05 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11830480B2 (en) * | 2021-02-17 | 2023-11-28 | Kwai Inc. | Systems and methods for accelerating automatic speech recognition based on compression and decompression |
US20230029196A1 (en) * | 2021-07-22 | 2023-01-26 | XRSpace CO., LTD. | Method and apparatus related to sentence generation |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106328127A (zh) * | 2015-06-30 | 2017-01-11 | 三星电子株式会社 | 语音识别设备,语音识别方法和电子装置 |
US20170154033A1 (en) * | 2015-11-30 | 2017-06-01 | Samsung Electronics Co., Ltd. | Speech recognition apparatus and method |
CN106933785A (zh) * | 2017-02-23 | 2017-07-07 | 中山大学 | 一种基于递归神经网络的摘要生成方法 |
US20170270100A1 (en) * | 2016-03-18 | 2017-09-21 | International Business Machines Corporation | External Word Embedding Neural Network Language Models |
US9799327B1 (en) * | 2016-02-26 | 2017-10-24 | Google Inc. | Speech recognition with attention-based recurrent neural networks |
US20180082171A1 (en) * | 2016-09-22 | 2018-03-22 | Salesforce.Com, Inc. | Pointer sentinel mixture architecture |
US20180182376A1 (en) * | 2016-12-22 | 2018-06-28 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2409750B (en) | 2004-01-05 | 2006-03-15 | Toshiba Res Europ Ltd | Speech recognition system and technique |
US10867597B2 (en) | 2013-09-02 | 2020-12-15 | Microsoft Technology Licensing, Llc | Assignment of semantic labels to a sequence of words using neural network architectures |
US9953171B2 (en) | 2014-09-22 | 2018-04-24 | Infosys Limited | System and method for tokenization of data for privacy |
US10115055B2 (en) | 2015-05-26 | 2018-10-30 | Booking.Com B.V. | Systems methods circuits and associated computer executable code for deep learning based natural language understanding |
US10409911B2 (en) | 2016-04-29 | 2019-09-10 | Cavium, Llc | Systems and methods for text analytics processor |
US9858265B1 (en) | 2016-06-08 | 2018-01-02 | Rovi Guides, Inc. | Systems and methods for determining context switching in conversation |
US20180150742A1 (en) | 2016-11-28 | 2018-05-31 | Microsoft Technology Licensing, Llc. | Source code bug prediction |
US11133011B2 (en) * | 2017-03-13 | 2021-09-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for multichannel end-to-end speech recognition |
US10593321B2 (en) * | 2017-12-15 | 2020-03-17 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for multi-lingual end-to-end speech recognition |
US11170158B2 (en) * | 2018-03-08 | 2021-11-09 | Adobe Inc. | Abstractive summarization of long documents using deep learning |
-
2018
- 2018-11-14 KR KR1020180139787A patent/KR20200056001A/ko active Search and Examination
-
2019
- 2019-04-19 US US16/388,930 patent/US11361757B2/en active Active
- 2019-09-09 CN CN201910846620.XA patent/CN111192576A/zh active Pending
- 2019-09-17 EP EP19197732.1A patent/EP3654328A1/en active Pending
- 2019-09-20 JP JP2019171730A patent/JP2020086436A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106328127A (zh) * | 2015-06-30 | 2017-01-11 | 三星电子株式会社 | 语音识别设备,语音识别方法和电子装置 |
US20170154033A1 (en) * | 2015-11-30 | 2017-06-01 | Samsung Electronics Co., Ltd. | Speech recognition apparatus and method |
US9799327B1 (en) * | 2016-02-26 | 2017-10-24 | Google Inc. | Speech recognition with attention-based recurrent neural networks |
US20170270100A1 (en) * | 2016-03-18 | 2017-09-21 | International Business Machines Corporation | External Word Embedding Neural Network Language Models |
US20180082171A1 (en) * | 2016-09-22 | 2018-03-22 | Salesforce.Com, Inc. | Pointer sentinel mixture architecture |
US20180182376A1 (en) * | 2016-12-22 | 2018-06-28 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
CN106933785A (zh) * | 2017-02-23 | 2017-07-07 | 中山大学 | 一种基于递归神经网络的摘要生成方法 |
Non-Patent Citations (4)
Title |
---|
ABIGAIL SEE等: "Get to the Point: Summarization with Pointer-Generator Networks", ARXIV, 25 April 2017 (2017-04-25), pages 1 - 20 * |
LIANG LU, XINGXING ZHANG, AND STEVE RENALS: "JOINT CTC-ATTENTION BASED END-TO-END SPEECH RECOGNITION USING MULTI-TASK LEARNING", 2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 19 June 2017 (2017-06-19), pages 4835 - 4839 * |
LU LIANG等: "On training the recurrent neural network encoder-decoder for large vocabulary end-to-end speech recognition", 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 19 May 2016 (2016-05-19), pages 5060 - 5064 * |
张剑;屈丹;李真;: "基于循环神经网络语言模型的N-best重打分算法", 数据采集与处理, no. 02, 15 March 2016 (2016-03-15), pages 347 - 354 * |
Also Published As
Publication number | Publication date |
---|---|
KR20200056001A (ko) | 2020-05-22 |
EP3654328A1 (en) | 2020-05-20 |
US20200152180A1 (en) | 2020-05-14 |
JP2020086436A (ja) | 2020-06-04 |
US11361757B2 (en) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111192576A (zh) | 解码方法、语音识别设备和*** | |
CN106469552B (zh) | 语音识别设备和方法 | |
CN106373561B (zh) | 声学得分计算和语音识别的设备和方法 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN108630198B (zh) | 用于训练声学模型的方法和设备 | |
US11694677B2 (en) | Decoding method and apparatus in artificial neural network for speech recognition | |
US12039277B2 (en) | Method and device with natural language processing | |
US11574190B2 (en) | Method and apparatus for determining output token | |
KR20220130565A (ko) | 키워드 검출 방법 및 장치 | |
US11830493B2 (en) | Method and apparatus with speech processing | |
CN110895928A (zh) | 语音识别方法和设备 | |
CN113674733A (zh) | 用于说话时间估计的方法和设备 | |
US12020136B2 (en) | Operating method and training method of neural network and neural network thereof | |
CN111816164A (zh) | 用于语音识别的方法及设备 | |
US20230076073A1 (en) | Method and apparatus for speech recognition | |
US11776529B2 (en) | Method and apparatus with speech processing | |
EP3905240B1 (en) | Speech recognition of overlapping segments | |
US20220222435A1 (en) | Task-Specific Text Generation Based On Multimodal Inputs | |
US20210020166A1 (en) | Streaming contextual unidirectional models | |
EP4356287A1 (en) | Correcting lip-reading predictions | |
WO2023007313A1 (en) | Correcting lip-reading predictions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |