CN112397058A - 解码方法、训练方法以及语音识别设备 - Google Patents
解码方法、训练方法以及语音识别设备 Download PDFInfo
- Publication number
- CN112397058A CN112397058A CN202010361194.3A CN202010361194A CN112397058A CN 112397058 A CN112397058 A CN 112397058A CN 202010361194 A CN202010361194 A CN 202010361194A CN 112397058 A CN112397058 A CN 112397058A
- Authority
- CN
- China
- Prior art keywords
- decoding
- layer
- lexical unit
- shared
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000013528 artificial neural network Methods 0.000 claims abstract description 90
- 239000013598 vector Substances 0.000 claims description 63
- 210000000225 synapse Anatomy 0.000 claims description 15
- 210000002569 neuron Anatomy 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 7
- 230000015654 memory Effects 0.000 description 38
- 238000004891 communication Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
提供了解码方法、训练方法以及语音识别设备。用于语音识别的人工神经网络中的解码方法包括:使用包括在所述人工神经网络中的共享解码层,来执行对包括语音信息的特征以及直到当前时间点为止识别的至少一个词法单元进行解码的第一解码任务;使用共享解码层,来执行对所述至少一个词法单元进行解码的第二解码任务;并且基于第一解码任务的结果和第二解码任务的结果,确定将在所述至少一个词法单元之后被识别的输出词法单元。
Description
本申请要求于2019年7月31日在韩国知识产权局提交的第10-2019-0093066号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。
技术领域
下面的描述涉及用于语音识别的人工神经网络中的解码方法及设备。
背景技术
语音识别表示用于通过使用计算装置分析声学语音信号(诸如,由人类发出的语音)来识别或理解声学语音信号的技术。传统上,已经主要使用隐马尔可夫模型(HMM)来执行语音识别,以基于从语音数据提取的频率特性识别语音。这种基于HMM的语音识别方法可通过从语音数据分析发音并基于分析的发音组合词或句子,来识别语音。
然而,随着基于深度学习的机器学习方法的发展,正在进行关于端到端语音识别技术的研究,端到端语音识别技术使用构造为人工神经网络的声学模型从语音数据直接识别文本(诸如,词和句子),而不从语音数据分析发音。
发明内容
提供本发明内容来以简化的形式介绍在以下具体实施方式中进一步描述的构思的选择。本发明内容不意在识别要求权利的主题的关键特征或必要特征,也不意在用于帮助确定要求权利的主题的范围。
在一个总体方面,一种用于语音识别的人工神经网络中的解码方法包括:使用包括在所述人工神经网络中的共享解码层,来执行对包括语音信息的特征以及直到当前时间点为止识别的至少一个词法单元进行解码的第一解码任务;使用共享解码层,来执行对所述至少一个词法单元进行解码的第二解码任务;并且基于第一解码任务的结果和第二解码任务的结果,确定将在所述至少一个词法单元之后被识别的输出词法单元。
执行第一解码任务的步骤可包括:将连接共享解码层和与所述特征对应的神经元的突触的权重调整为第一值。执行第二解码任务的步骤可包括:将所述突触的权重调整为第二值。
执行第一解码任务的步骤可包括:通过将所述特征和直到当前点为止识别的至少一个词法单元输入到共享解码层来执行第一解码任务。执行第二解码任务的步骤可包括:通过将直到当前点为止识别的至少一个词法单元输入到共享解码层来执行第二解码任务。
执行第一解码任务的步骤可包括:将所述特征和直到当前点为止识别的至少一个词法单元输入到第一预解码层;并且将第一预解码层的输出输入到共享解码层,以执行第一解码任务。执行第二解码任务的步骤可包括:将直到当前点为止识别的至少一个词法单元输入到第二预解码层;并且将第二预解码层的输出输入到共享解码层,以执行第二解码任务。
执行第一解码任务的步骤可包括:将所述特征和直到当前点为止识别的至少一个词法单元输入到共享解码层;并且将共享解码层的输出输入到第一后解码层,以执行第一解码任务。执行第二解码任务的步骤可包括:将直到当前点为止识别的至少一个词法单元输入到共享解码层;并且将共享解码层的输出输入到第二后解码层,以执行第二解码任务。
第一解码任务的结果可包括输出词法单元的候选的第一概率。第二解码任务的结果可包括输出词法单元的候选的第二概率。
确定输出词法单元的步骤可包括:计算第一概率和第二概率的加权和;并且将候选之中的与最大加权和对应的候选确定为输出词法单元。
所述解码方法还可包括:将输出词法单元确定为随后的输入词法单元。
可基于与语音信息的进程相关联的序列向量,使用注意力网络来确定所述特征。
所述解码方法还可包括:通过使用包括在所述人工神经网络中的编码层对语音信息进行编码,来生成所述特征。
在另一总体方面,一种用于语音识别的人工神经网络的训练方法包括:从包括第一训练集和第二训练集的批选择至少一个样本,第一训练集包括语音和与语音对应的文本的对,第二训练集包括文本;响应于从第一训练集选择样本,基于样本来训练包括在所述人工神经网络中的编码层和共享解码层;并且响应于从第二训练集选择样本,基于样本来训练共享解码层。
训练编码层和共享解码层的步骤可包括:使用编码层,从包括在样本中的语音提取特征;使用共享解码层,基于提取的特征和至少一个词法单元估计将在所述至少一个词法单元之后被识别的输出词法单元;并且基于估计的输出词法单元和包括在样本中的与语音对应的文本的至少一部分,来训练编码层和共享解码层。
训练共享解码层的步骤可包括:使用共享解码层,基于至少一个词法单元估计将在所述至少一个词法单元之后被识别的输出词法单元;并且基于估计的输出词法单元和包括在样本中的文本的至少一部分,来训练共享解码层。
从第一训练集选择样本的步骤可包括:使用编码层从包括在样本中的语音提取特征;使用共享解码层,基于提取的特征和至少一个词法单元估计将在所述至少一个词法单元之后被识别的输出词法单元的候选的第一概率;使用共享解码层,基于所述至少一个词法单元估计将在所述至少一个词法单元之后被识别的输出词法单元的候选的第二概率;基于第一概率与第二概率之间的权重,估计输出词法单元;并且基于包括在样本中的与语音对应的文本的至少一部分来学习所述权重。
在另一总体方面,一种语音识别设备包括:编码器,被配置为从语音信息生成特征;以及解码器,被配置为:使用共享解码层执行对所述特征以及直到当前时间点为止识别的至少一个词法单元进行解码的第一解码任务,执行对直到当前点为止识别的至少一个词法单元进行解码的第二解码任务,并且基于第一解码任务的结果和第二解码任务的结果,确定将在所述至少一个词法单元之后被识别的输出词法单元。
所述语音识别设备还可包括被配置为从语音信息提取语音特征向量的语音预处理器,并且编码器可基于语音特征向量生成所述特征。
解码器可通过将连接共享解码层和与所述特征对应的神经元的突触的权重调整为第一值,来执行第一解码任务;并且通过将所述突触的权重调整为第二值,来执行第二解码任务。
解码器可通过经由共享解码层接收所述特征和直到当前点为止识别的至少一个词法单元,来执行第一解码任务;并且通过经由共享解码层接收直到当前点为止识别的至少一个词法单元,来执行第二解码任务。
解码器可通过经由第一预解码层接收所述特征和直到当前点为止识别的至少一个词法单元并且经由共享解码层接收第一预解码层的输出,来执行第一解码任务。此外,解码器可通过经由第二预解码层接收直到当前点为止识别的至少一个词法单元并且经由共享解码层接收第二预解码层的输出,来执行第二解码任务。
解码器可通过经由共享解码层接收所述特征和直到当前点为止识别的至少一个词法单元并且经由第一后解码层接收共享解码层的输出,来执行第一解码任务。此外,解码器可通过经由共享解码层接收直到当前点为止识别的至少一个词法单元并且经由第二后解码层接收共享解码层的输出,来执行第二解码任务。
第一解码任务的结果可包括输出词法单元的候选的第一概率。第二解码任务的结果可包括输出词法单元的候选的第二概率。
解码器可计算第一概率和第二概率的加权和;并且将候选之中的与最大加权和对应的候选确定为输出词法单元。
解码器可将输出词法单元确定为随后的输入词法单元。
可基于与语音信息的进程相关联的序列向量,使用注意力网络来确定所述特征。
在另一总体的方面,一种语音识别设备包括:编码器,被配置为接收与语音信息对应的语音特征向量并输出上下文向量;和解码器,被配置为:接收上下文向量;使用包括在人工神经网络中的共享解码层对上下文向量和最近识别的词法单元进行解码,以输出第一结果;使用共享解码层仅对最近识别的词法单元进行解码以输出第二结果;并且基于第一结果和第二结果输出当前词法单元。
解码器可被配置为:使用共享解码层的语音识别任务对上下文向量和最近识别的词法单元进行解码。
解码器可被配置为:使用共享解码层的语言模型任务仅对最近识别的词法单元进行解码。
解码器可完全通过共享解码层来配置。
仅解码器的一部分可通过共享解码层来配置。
从下面的具体实施方式、附图和权利要求,其他特征和方面将是清楚的。
附图说明
图1示出操作用于语音识别的人工神经网络的示例。
图2A和图2B示出将语言模型(LM)人工神经网络与人工神经网络进行组合的示例。
图3示出语音识别设备的示例。
图4示出解码方法的示例的流程图。
图5示出语音识别方法的示例的流程图。
图6示出包括共享解码层的一部分的解码器的语音识别设备的示例。
图7和图8示出训练用于语音识别的人工神经网络的示例。
图9示出语音识别设备的示例。
贯穿附图和具体实施方式,除非另外描述或提供,否则相同的附图参考标号将被理解为表示相同的元件、特征和结构。附图可不按比例,并且为了清楚、说明和方便,附图中的元件的相对尺寸、比例和描绘可被夸大。
具体实施方式
提供下面的详细描述以帮助读者获得对在此描述的方法、设备和/或***的全面理解。然而,在理解本申请的公开之后,在此描述的方法、设备和/或***的各种改变、修改和等同物将是清楚的。例如,在此描述的操作的顺序仅是示例,并且不限于在此阐述的那些顺序,而是除了必须以特定的顺序发生的操作之外,可如在理解本申请的公开之后将是清楚地那样被改变。
在此描述的特征可以以不同的形式来实现,而不应被解释为限于在此描述的示例。相反,已提供在此描述的示例,仅用于示出实现在此描述的方法、设备和/或***的许多可行方式中的一些可行方式,所述许多可行方式在理解本申请的公开之后将是清楚的。
尽管在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或者部分,但是这些构件、组件、区域、层或者部分不应被这些术语所限制。相反,这些术语仅用于将一个构件、组件、区域、层或者部分与另一构件、组件、区域、层或者部分区分开。因此,在不脱离示例的教导的情况下,在此描述的示例中表示的第一构件、第一组件、第一区域、第一层或者第一部分也可被称为第二构件、第二组件、第二区域、第二层或者第二部分。
贯穿本说明书,当组件被描述为“连接到”或“结合到”另一组件时,该组件可直接“连接到”或“结合到”另一组件,或者可存在介于其间的一个或多个其他组件。相反,当元件被描述为“直接连接到”或“直接结合到”另一元件时,可不存在介于其间的其他元件。同样地,相似的表述(例如,“在……之间”与“直接在……之间”以及“相邻”与“直接相邻”)也将以相同的方式解释。
如在此使用的,术语“和/或”包括相关联的所列项的中任何一个以及任何两个或更多个的任何组合。
在此使用的术语仅为了描述各种示例,而不用于对本公开进行限制。除非上下文另有清楚地指示,否则单数形式也意在包括复数形式。术语“包括”、“包含”和“具有”表明存在陈述的特征、数量、操作、构件、元件和/或它们的组合,但不排除存在或增加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。
除非另外定义,否则在此使用的所有术语(包括技术术语和科学术语)具有与本公开所属领域的普通技术人员基于对本申请的公开的理解通常理解的含义相同的含义。除非在此明确地如此定义,否则术语(诸如通用词典中定义的术语)应被解释为具有与它们在相关领域和本申请的公开中的上下文中的含义一致的含义,并且不应被解释为理想化或过于形式化的含义。
此外,在示例的描述中,当认为在理解本申请的公开之后由此得知的结构或功能的详细描述将导致对示例的模糊解释时,将省略这样的描述。
在下文中,将参照附图详细描述示例,并且在附图中同样的参考标号始终表示同样的元件。
图1示出操作用于语音识别的人工神经网络的示例。
参照图1,用于语音识别的人工神经网络100可通过序列到序列模型来实现。序列到序列模型可输出与输入序列不同域的序列。例如,用于语音识别的以序列到序列结构实现的人工神经网络100可从输入语音直接生成与输入语音对应的文本,该文本是与输入语音对应的识别结果。人工神经网络100可被预先训练,以从输入序列生成识别结果的序列。例如,可使用包括语音和与语音对应的文本的训练数据,对人工神经网络100进行训练以增大语音与文本之间的相关性。
如图所示,序列到序列模型包括编码器110和解码器120。编码器110可不直接接收和处理语音信息111,而是接收通过转换为与语音信息111对应的向量形式而获得的语音特征向量112。编码器110可顺序地接收语音特征向量112,然后最后压缩所有语音信息的集合以形成被称为上下文向量113的单个向量。上下文向量113也可被称为包括语音信息的特征或编码特征。当基于时间的流逝的语音信息111被压缩为单个上下文向量113时,编码器110可将上下文向量113发送到解码器120。解码器120可接收上下文向量113,并且顺序地逐个输出识别的词。
编码器110和解码器120可通过神经网络(例如,递归神经网络(RNN))来实现。编码器110可以是被配置为接收序列(诸如,语音)作为输入的RNN。解码器120可以是被配置为输出序列(例如,作为识别语音的结果的文本)的RNN。除了RNN之外,编码器110和解码器120还可通过例如深度神经网络(DNN)、递归深度神经网络(RDNN)等来实现。
解码器120可执行自回归解码。自回归解码可以是如下的解码方法:基于直到前一步骤为止识别的词法单元来确定输出词法单元的解码方法,并且用于通过人工神经网络来计算未定义的长度的输出。
在图1的示例中,接收上下文向量113的解码器120接收指示句子的开始的开始词法单元或句子的开始(SOS)121作为初始输入。接收SOS 121的解码器120预测随后很可能出现的词法单元。在此使用的词法单元指示形成一个序列的单元,并且该单元可包括例如词、子词或字符。在下文中,为了便于描述,词法单元将被描述为词单元。在第一时间步骤中,解码器120预测随后出现的词“Hi”122。也就是说,解码器120将“Hi”122确定为输出词法单元,并且将该输出词法单元输出为语音识别结果。确定将作为输出词法单元的“Hi”122的解码器120输入“Hi”122作为随后时间步骤的输入。在第二时间步骤中,解码器120从输入词“Hi”122预测随后出现的词“Bixby”123。然后,解码器120输入“Bixby”作为随后时间步骤的输入。解码器120可如上所述地预测随后跟随的词,并且输入预测的词作为随后时间步骤的输入。解码器120可重复这样的操作,直到指示句子的结束的结束词法单元或句子的结束(EOS)被预测为随后的词为止。
解码器120可在每个步骤中基于从编码器110计算的信息来获得输出词法单元,输出词法单元可根据直到前一步骤选择的输入词法单元被获得。例如,接收词法单元1的解码器120可基于接收的词法单元1来预测输出词法单元的候选的概率,并且基于该概率来确定输出词法单元。在这个示例中,解码器120可从候选之中选择具有最大概率的候选作为输出词法单元。
在步骤i中的词法单元候选ti的条件概率可由等式1表示。
[等式1]
p(ti|t1,t2,...,ti-1,He)
在等式1中,He表示与上下文向量113对应的编码器110的隐藏表示(hiddenrepresentation),t1至ti-1指示直到当前时间点为止识别的词法单元。解码器120可基于上下文向量113和直到当前时间点为止识别的词法单元,来确定随后的输出词法单元。可基于与语音信息111的进程相关联的语音特征向量,使用注意力网络(attention network)来确定上下文向量113。由于当解码器120确定输出词法单元时针对每个词可能需要不同的信息,因此在每个时间步骤使用相同的上下文向量会使语音识别的性能劣化。
例如,使用注意力网络,当解码器120确定输出词法单元ti时,解码器120可通过编码器110的隐藏状态向量h1、h2、...、hn的组合来针对每个ti使用不同的上下文向量。在此,当解码器120确定输出词法单元ti时使用的编码器110的隐藏状态向量hj可被施加有注意权重aij,并且输出词法单元ti的上下文向量可被定义为∑aijhj。
除了被配置为接收语音信息111作为输入并输出上下文向量113的编码器110以及被配置为接收上下文向量113作为输入并输出作为识别结果的文本(例如,词序列)的解码器120之外,用于语音识别的人工神经网络100还可通过附加地使用被配置为预测词序列的概率的语言模型(LM)人工神经网络来提高语音识别的性能。
LM人工神经网络可预测整个句子的概率。此外,当先前的词被给出时,LM人工神经网络可预测在该词之后出现的词的概率。LM人工神经网络可仅通过解码器被配置,而没有编码器,并且仅使用文本执行训练或学习。
当存在发音相同或相似的词时,LM人工神经网络可实现对这样的词的更准确的识别。例如,当词“Minchul”和“feels”被给出时,LM人工神经网络可确定词“happy”随后出现的概率大于词“habit”随后出现的概率。为了区分由人工神经网络100的解码器120执行的操作和由LM人工神经网络执行的操作,在下文中将由用于语音识别的人工神经网络100的解码器120执行的解码操作将被称为语音识别任务或第一解码任务,在下文中将由LM人工神经网络执行的解码操作将被称为LM任务或第二解码任务。
语音识别任务可处理语音的信号特性与语言元素之间的关系,并且可以是例如估计语音信号的发音的任务。LM任务可以是估计词或句子的语法或语义正确性的水平的任务。
将LM人工神经网络与用于语音识别的现有的人工神经网络100进行组合或将LM人工神经网络添加到用于语音识别的现有的人工神经网络100可提高语音识别的性能。此外,用于语音识别的现有的人工神经网络100可需要用于训练或学习的语音和与语音对应的文本的对。然而,与容易获得的文本相比,语音和与语音对应的文本的对的数量可少得多。因此,通过附加地训练可仅利用文本被训练的LM人工神经网络,可以补充语音识别的性能。在下文中,将描述通过将LM人工神经网络与现有的人工神经网络100进行组合可在防止存储器带宽和功耗的增加的同时提高语音识别的性能的方法。
图2A和图2B示出将LM人工神经网络与人工神经网络进行组合的示例。在描述根据示例的共享解码器的方法之前,将参照图2A简要描述将外部的LM人工神经网络与人工神经网络进行组合的现有方法。
参照图2A,人工神经网络包括编码器210、解码器220和外部的LM人工神经网络230。编码器210和解码器220可类似于以上参照图1描述的编码器110和解码器120。
人工神经网络可基于解码器220和LM人工神经网络230的组合操作来执行语音识别。解码器220和LM人工神经网络230可输出各自的词法单元-单元识别结果,最终识别结果可通过基于权重组合识别结果被生成。例如,解码器220可基于上下文向量和直到当前时间点为止识别的至少一个词法单元来确定输出词法单元的候选,LM人工神经网络230可基于直到当前时间点为止识别的至少一个词法单元确定输出词法单元的候选。随后,可通过基于权重组合输出词法单元的候选来确定最终输出词法单元。
在日常生活中,语音识别可能需要适用于隐私保护,并且需要由用户手掌上的装置执行或在用户手掌上的装置中被执行,而与网络连接无关。例如,在代替大型服务器的装置端执行语音识别的装置上环境中,可在用户的装置中执行语音识别,因此可在没有数据泄漏到外部的情况下保护隐私。此外,在这样的装置上环境中,尽管未连接到网络,但是语音识别可被实时执行而没有延迟。在此使用的装置可包括包含存储器和微处理器并且具有计算能力的数字装置(例如,智能电话、智能电视(TV)、人工智能(AI)扬声器、导航***、数字电视(DTV)、可穿戴装置、电子***和机器人)。
使用外部的LM人工神经网络230可不适用于这样的装置上环境。当使用LM人工神经网络230时,可提高语音识别的性能。然而,由于添加了LM人工神经网络230,整个***的尺寸会增大,并且由于LM人工神经网络230的操作时间,用于语音识别的整个时间会增加。此外,将由人类确定以适当地将分开训练的两个模型合并为一个模型的参数的数量可能增加。
为了在装置端执行语音识别,可能需要将人工神经网络的参数加载到装置的存储器上。然而,添加LM人工神经网络230可增大用于读取和写入存储器中的参数的带宽,并且增大用于读取和写入存储器消耗的功率。此外,LM人工神经网络230可能需要与现有的人工神经网络分开训练。
参照图2B,根据示例的多任务人工神经网络包括编码器240和解码器250,语音识别任务和LM任务二者可在单个解码器250中被执行。多任务人工神经网络可通过被语音识别任务和LM任务共享的单个解码器250执行任务,而不使用外部的LM人工神经网络。
由于多任务人工神经网络被配置为通过共享单个解码器250来执行两种任务,因此LM人工神经网络的参数(例如,权重)可能不需要被存储,从而整个***的尺寸会减小。此外,通过将参数两次用于语音识别任务和LM任务,使用多任务人工神经网络可增大被加载一次以用于解码的解码器的参数的重用率。因为不局限于计算而局限于存储器读写,所以这有利于一般的序列生成模型。当在具有被加载一次的有限量和带宽的存储器的装置中执行语音识别时,这样的效果甚至会更好。在下文中,将参照图3至图6详细描述解码方法,并且将参照图7和图8详细描述训练方法。
图3示出语音识别设备的示例。
参照图3,语音识别装置包括人工神经网络310、语音预处理器340和文本处理器350。人工神经网络310包括编码器320和共享解码器330。人工神经网络310、编码器320和共享解码器330可以分别是以上参照图2B描述的多任务人工神经网络、编码器240和解码器250。
语音预处理器340可通过例如去除包括在语音信息中的噪声或将语音信息处理为适合于输入到人工神经网络310的形式,来对人工神经网络310的输入进行预处理。语音预处理器340可从语音信息提取语音特征向量。例如,语音预处理器340可通过以特定单位(例如,25毫秒(ms))划分语音并且在滑动以重叠一部分(例如,15ms)的同时配置一帧,来提取特征。随后,语音预处理器340可通过连接预设数量的特征帧(例如,三个特征帧),来生成将被输入到编码器320的语音特征向量。
文本处理器350可将直到当前时间点为止识别的至少一个词法单元输入到共享解码器330。例如,仅作为非限制性的示例,直到当前时间点为止识别的至少一个词法单元可以是最近识别的词法单元。然而,本发明不限于此,至少一个词法单元可以是直到当前时间点为止识别的词法单元中的任意一个或任意组合。
尽管以上参照图3描述了示例,但是各种技术修改和改变可以是适用的。例如,解码器330可以是包括文本处理器350的更广泛的构思。
图4示出解码方法的示例的流程图。
在下文中参照图4描述的操作410至430可由共享解码器(例如,以上参照图3描述的共享解码器330)执行。共享解码器330可通过一个或多个硬件模块或软件模块或者它们的各种组合来实现。
参照图4,在操作410中,共享解码器使用共享解码层,来执行对包括语音信息的特征或上下文向量以及直到当前时间点为止识别的至少一个词法单元进行解码的第一解码任务。共享解码器可通过包括多个层的神经网络来配置,在多个层之中,通常用于语音识别任务和LM任务两者的一个或多个层被称为共享解码层。共享解码器可完全通过共享解码层来配置,或者共享解码器的仅一部分可通过共享解码层来配置。
在操作420中,共享解码器使用共享解码层执行对直到当前时间点为止识别的至少一个词法单元进行解码的第二解码任务。共享解码器可使用执行第一解码任务的共享解码层以相同的参数来执行LM任务。
共享解码器可使用从编码器接收的上下文向量和直到当前时间点为止识别的至少一个词法单元作为输入来执行人工神经网络的解码器的现有功能以预测输出词法单元,并且同时仅使用直到当前时间点为止识别的至少一个词法单元作为输入而不考虑从语音信息计算的上下文向量来执行LM人工神经网络的功能以预测输出词法单元。
共享解码器可基于上下文向量和直到当前时间点为止识别的至少一个词法单元来确定输出词法单元的候选的第一概率,并基于直到当前时间点为止识别的至少一个词法单元确定输出词法单元的候选的第二概率。可如以上等式1所示确定第一概率。可如等式2所示确定第二概率。
[等式2]
p(ti|t1,t2,...,ti-1)
共享解码器可使用单个解码器,通过调整连接与上下文向量对应的神经元和共享解码层的突触的权重来执行多个任务(例如,第一解码任务和第二解码任务)。当执行第一解码任务时,共享解码器可将连接与上下文向量对应的神经元和共享解码层的突触的权重调整为第一值。当执行第二解码任务时,共享解码器可将连接与上下文向量对应的神经元和共享解码层的突触的权重调整为第二值。
由于在执行第一解码任务时,共享解码器通过考虑上下文向量来确定输出词法单元的候选的第一概率,因此共享解码器可将连接与上下文向量对应的神经元和共享解码层的突触的权重调整为大于或等于预设阈值的值。例如,共享解码器可调整连接与上下文向量对应的神经元和共享解码层的突触的权重(例如,为1),使得上下文向量被输入到解码器。
由于在执行第二解码任务时,共享解码器在不考虑上下文向量的情况下确定输出词法单元的候选的第二概率,因此共享解码器可将连接与上下文向量对应的神经元和共享解码层的突触的权重调整为小于预设阈值的值。例如,共享解码器可调整连接与上下文向量对应的神经元和共享解码层的突触的权重(例如,为0),使得上下文向量不影响解码器。
在操作430中,共享解码器基于第一解码任务的结果和第二解码任务的结果,确定将在至少一个词法单元之后被识别的输出词法单元。共享解码器可计算第一概率和第二概率的加权和,并且将输出词法单元的候选之中的与最大加权和对应的候选确定为输出词法单元。例如,作为第一解码任务的结果,作为输出词法单元的候选的“Bixby”和“Vixby”可分别具有第一概率0.79和0.81。此外,作为第二解码任务的结果,“Bixby”和“Vixby”可分别具有第二概率0.85和0.12。在这个示例中,第一概率与第二概率的权重可以是1:0.2。在这个示例中,“Bixby”和“Vixby”中的每个的第一概率和第二概率的加权和可分别为0.96和0.834。因此,在这个示例中,共享解码器可将与最大加权和对应的“Bixby”确定为输出词法单元。第一概率与第二概率的权重可以是预定值,或者可通过门(gate)来学习或训练。在下文中,将参照图7详细描述如何学习或训练权重。
图5示出语音识别方法的示例的流程图。
在下文中将参照图5描述的操作510至590可由以上参照图3描述的语音识别设备执行。
参照图5,在操作510中,语音识别设备接收语音作为输入。用户可发出语音,语音识别设备可接收由用户发出的语音作为输入。语音识别设备接收的语音也可被称为语音信息或语音信号。
在操作520中,语音识别设备对语音信息进行编码并生成上下文向量。
在操作530中,语音识别设备初始化时间步骤i,并在时间步骤i中将指示句子的开始的开始词法单元SOS设置为初始输入。
在操作540中,语音识别设备执行第一解码任务。语音识别设备对上下文向量和直到当前时间点为止识别的至少一个词法单元进行解码。
在操作550中,语音识别设备执行第二解码任务。语音识别设备对直到当前时间点为止识别的至少一个词法单元进行解码。
在操作560中,语音识别设备基于第一解码任务的结果和第二解码任务的结果,计算输出词法单元的候选的第一概率和第二概率的加权和。
在操作570中,语音识别设备在时间步骤i中确定输出词法单元。如上所述,语音识别设备将输出词法单元的候选之中的与最大加权和对应的候选确定为输出词法单元(例如,t_i)。
在操作580和590中,语音识别设备将时间步骤加1,并重复操作540至570,直到指示句子的结束的时间步骤i中的输出词法单元或结束词法单元EOS被预测为随后的词。
图6示出包括共享解码层的一部分的解码器的语音识别设备的示例。
参照图6,语音识别设备包括人工神经网络610、语音预处理器640和文本处理器650。人工神经网络610包括编码器620和解码器630。编码器620、语音预处理器640和文本处理器650可以是以上参照图3描述的编码器320、语音预处理器340和文本处理器350。
解码器630可将多个层中的仅一部分用作共享解码层633。例如,解码器630可在解码器630的被配置为从编码器620接收上下文向量的前面部分,或在解码器630的被配置为输出识别结果的后面部分中,分别具有用于语音识别任务的解码层和用于LM任务的解码层。
如图所示,解码器630通过将上下文向量和直到当前时间点为止识别的至少一个词法单元输入到用于语音识别任务的第一预解码层631并将第一预解码层631的输出输入到共享解码层633,来执行第一解码任务。此外,解码器630通过将直到当前时间点为止识别的至少一个词法单元输入到用于LM任务的第二预解码层632并将第二预解码层632的输出输入到共享解码层633,来执行第二解码任务。
可选地,解码器630通过将上下文向量和直到当前时间点为止识别的至少一个词法单元输入到共享解码层633并将共享解码层633的输出输入到用于语音识别任务的第一后解码层634,来执行第一解码任务。此外,解码器630通过将直到当前时间点为止识别的至少一个词法单元输入到共享解码层633并将共享解码层633的输出输入到用于LM任务的第二后解码层635,来执行第二解码任务。
可选地,解码器630通过将上下文向量和直到当前时间点为止识别的至少一个词法单元输入到用于语音识别任务的第一预解码层631,将第一预解码层631的输出输入到共享解码层633,并将共享解码层633的输出输入到第一后解码层634,来执行第一解码任务。此外,解码器630通过将直到当前时间点为止识别的至少一个词法单元输入到用于LM任务的第二预解码层632,将第二预解码层632的输出输入到共享解码层633,并将共享解码层633的输出输入到第二后解码层635,来执行第二解码任务。
当仅将多个层中的一部分用作共享解码层时,与共享解码层对应的部分或区域可减小。然而,可存在用于两种不同任务的各自的区域或部分,因此会以模型尺寸为代价来提高性能。
图7和图8示出训练用于语音识别的人工神经网络的示例。
在下文中将参照图7描述的操作710至730可由语音识别训练设备执行。
参照图7,在操作710中,训练设备从包括第一训练集和第二训练集的批(batch)选择至少一个样本,第一训练集包括语音和与语音对应的文本的对,第二训练集包括文本。批可包括预设的比率或比例的第一训练集和第二训练集。
样本可以是用于训练用于语音识别的人工神经网络的数据,并且在此可被称为训练样本。包括在第一训练集中的语音可以以各种形式(例如,语音信息或语音信号、通过对语音信息进行预处理而获得的数据、语音信息的特征或特征向量以及语音信息的每个帧中的音素或多元音素(senone))来实现。样本的类型可不限于特定的类型。基于设计意图,语音信息的样本可被定义或设计为各种形式或类型(例如,词、音素、语素、语音符号单元、短语、章节、段落、句子等)。
在操作720中,响应于从第一训练集选择样本,训练设备基于选择的样本来训练包括在人工神经网络中的编码层和共享解码层。例如,训练设备使用编码层从包括在样本中的语音提取特征。基于提取的特征和至少一个词法单元,训练设备使用共享解码层来估计将在至少一个词法单元之后被识别的输出词法单元。随后,基于估计的输出词法单元和与包括在样本中的语音对应的文本的至少一部分,训练设备训练编码层和共享解码层。例如,训练设备执行这样的训练以增大估计的输出词法单元和包括在样本中的与语音对应的文本的至少一部分之间的相关性。
在操作730中,响应于从第二训练集选择样本,训练设备基于选择的样本来训练共享解码层。例如,训练设备使用解码层基于至少一个词法单元来估计将在至少一个词法单元之后被识别的输出词法单元,并且基于估计的输出词法单元和包括在样本中的文本的至少一部分来训练共享解码层。
参照图8,当从仅包括文本的第二训练集选择样本时,训练设备通过防止梯度(gradient)流向编码器810,来仅训练包括在解码器820中的解码层。
当从第一训练集选择样本时,训练设备还可仅利用语音和与语音对应的文本的对中的文本通过防止梯度流向编码器810,再次仅训练解码层。
训练设备可包括确定梯度的流动的门,并训练该门。此外,训练设备可训练或学习注意力权重。
此外,训练设备可训练或学习第一概率与第二概率的权重。例如,训练设备从第一训练集选择样本,使用编码层从包括在样本中的语音提取特征,使用共享解码层基于提取的特征和至少一个词法单元估计将在至少一个词法单元之后被识别的输出词法单元的候选的第一概率,使用共享解码层基于至少一个词法单元估计将在至少一个词法单元之后被识别的输出词法单元的候选的第二概率,基于第一概率与第二概率的权重来估计输出词法单元,并且基于包括在样本中的与语音对应的文本的至少一部分来训练或学习权重。
图9示出语音识别设备的示例。
参照图9,语音识别设备900包括传感器910、处理器930和通信接口970。语音识别设备900还包括存储器950和显示器990。传感器910、处理器930、存储器950、通信接口970和显示器990可通过通信总线905彼此通信。
传感器910可包括例如微传感器和语音传感器。
处理器930可执行以上参照图1至图6描述的操作或方法中的一个或多个以及与该操作或方法对应的算法。处理器930可执行程序并控制语音识别设备900。将由处理器930执行的程序的代码可被存储在存储器950中。
处理器930可被配置为例如中央处理器(CPU)或图形处理器(GPU)。
处理器930可从语音信息生成特征,执行对特征和直到当前时间点为止识别的至少一个词法单元进行解码的第一解码任务,执行对直到当前时间点为止识别的至少一个词法单元进行解码的第二解码任务,并基于第一解码任务的结果和第二解码任务的结果,确定将在至少一个词法单元之后被识别的输出词法单元。
存储器950可存储由处理器930处理的数据。例如,存储器950可存储程序。将被存储的程序可以是将被编码为可由处理器930执行从而执行语音识别的语法集。存储器950可以是易失性存储器或非易失性存储器。
通信接口970可连接到传感器910、处理器930和存储器950,以发送和接收数据。通信接口970可连接到另一外部装置以发送和接收数据。在下文中,表述“发送和接收A”可指示发送和接收指示A的信息或数据。
通信接口970可通过语音识别设备900中的电路来实现。例如,通信接口970可包括内部总线和外部总线。作为另一示例,通信接口970可以是连接语音识别装置900和外部装置的元件。在这个示例中,通信接口970可从外部装置接收数据,并且将接收的数据发送到处理器930和存储器950。
显示器990可显示来自解码的结果,例如,语音识别结果。
尽管未示出,但是语音识别训练设备可包括传感器、处理器和通信接口。训练设备还可包括存储器和显示器。传感器、处理器、存储器、通信接口和显示器可通过通信总线彼此通信。
传感器可包括例如微传感器和语音传感器。
处理器可执行以上参照图7和图8描述的操作或方法中的一个或多个以及与该操作或方法对应的算法。处理器可执行程序并控制人工神经网络中的训练设备。将由处理器执行的程序的代码可被存储在存储器中。
处理器可被配置为例如CPU或GPU。
处理器可从包括第一训练集和第二训练集的批选择至少一个样本,第一训练集包括语音和与语音对应的文本的对,第二训练集包括文本。当从第一训练集选择样本时,处理器可基于选择的样本来训练包括在人工神经网络中的编码层和共享解码层。当从第二训练集选择样本时,处理器可基于选择的样本来训练共享解码层。
存储器可存储由处理器处理的数据。例如,存储器可存储程序。将被存储的程序可以是将被编码为可由处理器执行从而执行训练的语法集。存储器可以是易失性存储器或非易失性存储器。
通信接口可连接到传感器、处理器和存储器,以发送和接收数据。通信接口可连接到另一外部装置以发送和接收数据。
通信接口可通过训练设备中的电路来实现。例如,通信接口可包括内部总线和外部总线。又例如,通信接口可以是连接训练设备和外部装置的元件。在这个示例中,通信接口可从外部装置接收数据,并且将接收的数据发送到处理器和存储器。
在此针对图1、图2A至图2B、图3、图6、图8和图9描述的语音识别设备、语音识别训练设备和其他设备、单元、模块、装置和其他组件通过硬件组件来实现。可用于执行在本申请中描述的操作的硬件组件的示例适当地包括:控制器、传感器、产生器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和被配置为执行在本申请中描述的操作的任何其他电子组件。在其他示例中,执行在本申请中描述的操作的硬件组件中的一个或多个通过计算硬件(例如,通过一个或多个处理器或计算机)来实现。可通过一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以实现期望的结果的任何其他装置或装置的组合)来实现处理器或计算机。在一个示例中,处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可执行用于执行在本申请中描述的操作的指令或软件(诸如,操作***(OS)和在OS上运行的一个或多个软件应用)。硬件组件还可响应于指令或软件的执行来访问、操控、处理、创建和存储数据。为了简单起见,单数术语“处理器”或“计算机”可用在本申请中描述的示例的描述中,但是在其他示例中,多个处理器或计算机可被使用,或者处理器或计算机可包括多个处理元件或多种类型的处理元件或二者。例如,单个硬件组件或者两个或更多个硬件组件可通过单个处理器、或者两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可通过一个或多个处理器、或者处理器和控制器来实现,一个或多个其他硬件组件可通过一个或多个其他处理器,或者另外的处理器和另外的控制器来实现。一个或多个处理器、或者处理器和控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任何一个或多个,其中,不同的处理配置的示例包括:单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。
图4、图5和图7中示出的执行在本申请中描述的操作的方法通过计算硬件(例如,通过一个或多个处理器或计算机)来执行,计算硬件被实现为如上所述地执行指令或软件,以执行在本申请中描述的由所述方法执行的操作。例如,单个操作或者两个或更多个操作可通过单个处理器、或者两个或更多个处理器、或者处理器和控制器来执行。一个或多个操作可通过一个或多个处理器、或者处理器和控制器来执行,并且一个或多个其他操作可通过一个或多个其他处理器、或者另外的处理器和另外的控制器来执行。一个或多个处理器、或者处理器和控制器可执行单个操作或者两个或更多个操作。
用于控制处理器或计算机实现硬件组件并执行如上所述的方法的指令或软件被编写为计算机程序、代码段、指令或它们的任意组合,以单独地或共同地指示或配置处理器或计算机如机器或专用计算机那样进行操作,以执行由如上所述的硬件组件和方法执行的操作。在一个示例中,指令或软件包括由处理器或计算机直接执行的机器代码(诸如,由编译器产生的机器代码)。在另一示例中,指令或软件包括由处理器或计算机使用解释器执行的高级代码。本领域普通编程技术人员可基于附图中示出的框图和流程图以及说明书中的相应描述,容易地编写指令或软件,其中,附图中示出的框图和流程图以及说明书中的相应描述公开了用于执行由如上所述的硬件组件和方法执行的操作的算法。
用于控制处理器或计算机实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储、硬盘驱动器(HDD)、固态驱动器(SSD)、卡式存储器(诸如,多媒体卡或者微型卡(例如,安全数字(SD)或者极速数字(XD)))、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、以及任何其他装置,其中,所述任何其他装置被配置为以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构并将指令或软件以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机,使得处理器和计算机能够执行指令。
虽然本公开包括特定的示例,但是对于本领域普通技术人员来说将清楚,在不脱离权利要求和它们的等同物的精神和范围的情况下,可在这些示例中进行形式和细节上的各种改变。在此描述的示例应仅被认为是描述性的,而不是出于限制的目的。每个示例中的特征或方面的描述应被认为可适用于其他示例中的类似特征或方面。如果描述的技术以不同的顺序被执行,和/或如果描述的***、架构、装置或电路中的组件以不同的方式被组合,和/或由其他组件或它们的等同物替换或补充,则可实现合适的结果。
因此,公开的范围不是由具体实施方式限定,而是由权利要求及它们的等同物限定,并且在权利要求及它们的等同物的范围内的所有变化应被解释为包括在公开中。
Claims (30)
1.一种用于语音识别的人工神经网络中的解码方法,所述解码方法包括:
使用包括在所述人工神经网络中的共享解码层,来执行对包括语音信息的特征以及直到当前时间点为止识别的至少一个词法单元进行解码的第一解码任务;
使用共享解码层,来执行对所述至少一个词法单元进行解码的第二解码任务;并且
基于第一解码任务的结果和第二解码任务的结果,确定将在所述至少一个词法单元之后被识别的输出词法单元。
2.根据权利要求1所述的解码方法,其中,执行第一解码任务的步骤包括:将连接共享解码层和与所述特征对应的神经元的突触的权重调整为第一值,并且
执行第二解码任务的步骤包括:将所述突触的权重调整为第二值。
3.根据权利要求1所述的解码方法,其中,执行第一解码任务的步骤包括:通过将所述特征以及直到当前时间点为止识别的所述至少一个词法单元输入到共享解码层来执行第一解码任务,并且
执行第二解码任务的步骤包括:通过将直到当前时间点为止识别的所述至少一个词法单元输入到共享解码层来执行第二解码任务。
4.根据权利要求1所述的解码方法,其中,执行第一解码任务的步骤包括:将所述特征以及直到当前时间点为止识别的所述至少一个词法单元输入到第一预解码层;并且将第一预解码层的输出输入到共享解码层,以执行第一解码任务,并且
执行第二解码任务的步骤包括:将直到当前时间点为止识别的所述至少一个词法单元输入到第二预解码层;并且将第二预解码层的输出输入到共享解码层,以执行第二解码任务。
5.根据权利要求1所述的解码方法,其中,执行第一解码任务的步骤包括:将所述特征以及直到当前时间点为止识别的所述至少一个词法单元输入到共享解码层;并且将共享解码层的输出输入到第一后解码层,以执行第一解码任务,并且
执行第二解码任务的步骤包括:将直到当前时间点为止识别的所述至少一个词法单元输入到共享解码层;并且将共享解码层的输出输入到第二后解码层,以执行第二解码任务。
6.根据权利要求1所述的解码方法,其中,第一解码任务的结果包括输出词法单元的候选的第一概率,并且
第二解码任务的结果包括输出词法单元的候选的第二概率。
7.根据权利要求6所述的解码方法,其中,确定输出词法单元的步骤包括:
计算第一概率和第二概率的加权和;并且
将候选之中的与最大加权和对应的候选确定为输出词法单元。
8.根据权利要求1所述的解码方法,还包括:
将输出词法单元确定为随后的输入词法单元。
9.根据权利要求1所述的解码方法,其中,基于与语音信息的进程相关联的语音特征向量,使用注意力网络来确定所述特征。
10.根据权利要求1所述的解码方法,还包括:
通过使用包括在所述人工神经网络中的编码层对语音信息进行编码,来生成所述特征。
11.一种存储指令的非暂时性计算机可读存储介质,当所述指令被处理器执行时,使处理器执行权利要求1所述的解码方法。
12.一种用于语音识别的人工神经网络的训练方法,所述训练方法包括:
从包括第一训练集和第二训练集的批选择至少一个样本,第一训练集包括语音和与语音对应的文本的对,第二训练集包括文本;
响应于从第一训练集选择样本,基于样本来训练包括在所述人工神经网络中的编码层和共享解码层;并且
响应于从第二训练集选择样本,基于样本来训练共享解码层。
13.根据权利要求12所述的训练方法,其中,训练编码层和共享解码层的步骤包括:
使用编码层,从包括在样本中的语音提取特征,
使用共享解码层,基于提取的特征和至少一个词法单元估计将在所述至少一个词法单元之后被识别的输出词法单元;并且
基于估计的输出词法单元和包括在样本中的与语音对应的文本的至少一部分,来训练编码层和共享解码层。
14.根据权利要求12所述的训练方法,其中,训练共享解码层的步骤包括:
使用共享解码层,基于至少一个词法单元估计将在所述至少一个词法单元之后被识别的输出词法单元;并且
基于估计的输出词法单元和包括在样本中的文本的至少一部分,来训练共享解码层。
15.根据权利要求12所述的训练方法,基于样本来训练包括在所述人工神经网络中的编码层和共享解码层的步骤包括:
使用编码层从包括在样本中的语音提取特征;
使用共享解码层,基于提取的特征和至少一个词法单元估计将在所述至少一个词法单元之后被识别的输出词法单元的候选的第一概率;
使用共享解码层,基于所述至少一个词法单元估计将在所述至少一个词法单元之后被识别的输出词法单元的候选的第二概率;
基于第一概率与第二概率的权重,估计输出词法单元;并且
基于包括在样本中的与语音对应的文本的至少一部分来学习权重。
16.一种语音识别设备,包括:
编码器,被配置为从语音信息生成特征;以及
解码器,被配置为:使用共享解码层执行对所述特征以及直到当前时间点为止识别的至少一个词法单元进行解码的第一解码任务,执行对直到当前时间点为止识别的所述至少一个词法单元进行解码的第二解码任务,并且基于第一解码任务的结果和第二解码任务的结果,确定将在所述至少一个词法单元之后被识别的输出词法单元。
17.根据权利要求16所述的语音识别设备,还包括:
语音预处理器,被配置为从语音信息提取语音特征向量,
其中,编码器被配置为基于语音特征向量生成所述特征。
18.根据权利要求16所述的语音识别设备,其中,解码器被配置为:
通过将连接共享解码层和与所述特征对应的神经元的突触的权重调整为第一值,来执行第一解码任务;并且
通过将所述突触的权重调整为第二值,来执行第二解码任务。
19.根据权利要求16所述的语音识别设备,其中,解码器被配置为:
通过经由共享解码层接收所述特征以及直到当前时间点为止识别的所述至少一个词法单元,来执行第一解码任务;并且
通过经由共享解码层接收直到当前时间点为止识别的所述至少一个词法单元,来执行第二解码任务。
20.根据权利要求16所述的语音识别设备,其中,解码器被配置为:
通过经由第一预解码层接收所述特征和直到当前时间点为止识别的所述至少一个词法单元并且经由共享解码层接收第一预解码层的输出,来执行第一解码任务;并且
通过经由第二预解码层接收直到当前时间点为止识别的所述至少一个词法单元并且经由共享解码层接收第二预解码层的输出,来执行第二解码任务。
21.根据权利要求16所述的语音识别设备,其中,解码器被配置为:
通过经由共享解码层接收所述特征和直到当前时间点为止识别的所述至少一个词法单元并且经由第一后解码层接收共享解码层的输出,来执行第一解码任务;并且
通过经由共享解码层接收直到当前时间点为止识别的所述至少一个词法单元并且经由第二后解码层接收共享解码层的输出,来执行第二解码任务。
22.根据权利要求16所述的语音识别设备,其中,第一解码任务的结果包括输出词法单元的候选的第一概率,并且
第二解码任务的结果包括输出词法单元的候选的第二概率。
23.根据权利要求22所述的语音识别设备,其中,解码器被配置为:
计算第一概率和第二概率的加权和;并且
将候选之中的与最大加权和对应的候选确定为输出词法单元。
24.根据权利要求16所述的语音识别设备,其中,解码器被配置为:
将输出词法单元确定为随后的输入词法单元。
25.根据权利要求16所述的语音识别设备,其中,基于与语音信息的进程相关联的语音特征向量,使用注意力网络来确定所述特征。
26.一种语音识别设备,包括:
编码器,被配置为接收与语音信息对应的语音特征向量并输出上下文向量;和
解码器,被配置为:
接收上下文向量;
使用包括在人工神经网络中的共享解码层对上下文向量和最近识别的词法单元进行解码,以输出第一结果;
使用共享解码层仅对最近识别的词法单元进行解码以输出第二结果;并且
基于第一结果和第二结果输出当前词法单元。
27.根据权利要求26所述的语音识别设备,其中,解码器被配置为:使用共享解码层的语音识别任务对上下文向量和最近识别的词法单元进行解码。
28.根据权利要求27所述的语音识别设备,其中,解码器被配置为:使用共享解码层的语言模型任务仅对最近识别的词法单元进行解码。
29.根据权利要求26所述的语音识别设备,其中,解码器完全通过共享解码层来配置。
30.根据权利要求26所述的语音识别设备,其中,仅解码器的一部分通过共享解码层来配置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190093066A KR20210014949A (ko) | 2019-07-31 | 2019-07-31 | 음성 인식을 위한 인공신경망에서의 디코딩 방법 및 장치 |
KR10-2019-0093066 | 2019-07-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112397058A true CN112397058A (zh) | 2021-02-23 |
Family
ID=71143526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010361194.3A Pending CN112397058A (zh) | 2019-07-31 | 2020-04-30 | 解码方法、训练方法以及语音识别设备 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11694677B2 (zh) |
EP (1) | EP3772059B1 (zh) |
KR (1) | KR20210014949A (zh) |
CN (1) | CN112397058A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115273853A (zh) * | 2022-07-11 | 2022-11-01 | 北京理工大学 | 一种基于仿生神经网络的语音识别***与方法 |
WO2023273610A1 (zh) * | 2021-06-30 | 2023-01-05 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及电子设备 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648658B (zh) * | 2019-09-06 | 2022-04-08 | 北京达佳互联信息技术有限公司 | 一种语音识别模型的生成方法、装置及电子设备 |
US11556782B2 (en) * | 2019-09-19 | 2023-01-17 | International Business Machines Corporation | Structure-preserving attention mechanism in sequence-to-sequence neural models |
CN113659833B (zh) * | 2021-08-24 | 2022-05-17 | 哈尔滨工业大学 | 一种并联直流-直流变换器的寿命延长方法 |
CN114267337B (zh) * | 2022-03-02 | 2022-07-19 | 合肥讯飞数码科技有限公司 | 一种语音识别***及实现前向运算的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160163310A1 (en) * | 2014-12-08 | 2016-06-09 | Samsung Electronics Co., Ltd. | Method and apparatus for training language model and recognizing speech |
US9460711B1 (en) * | 2013-04-15 | 2016-10-04 | Google Inc. | Multilingual, acoustic deep neural networks |
US20180261225A1 (en) * | 2017-03-13 | 2018-09-13 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Multichannel End-to-End Speech Recognition |
CN108615525A (zh) * | 2016-12-09 | 2018-10-02 | ***通信有限公司研究院 | 一种语音识别方法及装置 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4838743B2 (ja) | 2007-02-27 | 2011-12-14 | 静岡県 | 類似文章検索プログラム |
KR20120048139A (ko) | 2010-11-05 | 2012-05-15 | 한국전자통신연구원 | 자동 번역 장치 및 그 방법 |
PT2639749T (pt) | 2012-03-15 | 2017-01-18 | Cortical Io Gmbh | Métodos, aparelhos e produtos para processamento semântico de texto |
US8484022B1 (en) * | 2012-07-27 | 2013-07-09 | Google Inc. | Adaptive auto-encoders |
US9396724B2 (en) | 2013-05-29 | 2016-07-19 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for building a language model |
US10832138B2 (en) * | 2014-11-27 | 2020-11-10 | Samsung Electronics Co., Ltd. | Method and apparatus for extending neural network |
US10540957B2 (en) | 2014-12-15 | 2020-01-21 | Baidu Usa Llc | Systems and methods for speech transcription |
KR20160133349A (ko) | 2015-05-12 | 2016-11-22 | 삼성전자주식회사 | 구 표 생성 방법 및 구 표를 이용한 기계 번역 방법 |
US9905224B2 (en) | 2015-06-11 | 2018-02-27 | Nice Ltd. | System and method for automatic language model generation |
KR102413693B1 (ko) | 2015-07-23 | 2022-06-27 | 삼성전자주식회사 | 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법 |
KR102386854B1 (ko) * | 2015-08-20 | 2022-04-13 | 삼성전자주식회사 | 통합 모델 기반의 음성 인식 장치 및 방법 |
US10332509B2 (en) * | 2015-11-25 | 2019-06-25 | Baidu USA, LLC | End-to-end speech recognition |
US9972310B2 (en) * | 2015-12-31 | 2018-05-15 | Interactive Intelligence Group, Inc. | System and method for neural network based feature extraction for acoustic model development |
US10482379B2 (en) | 2016-07-29 | 2019-11-19 | Google Llc | Systems and methods to perform machine learning with feedback consistency |
WO2018077244A1 (en) | 2016-10-27 | 2018-05-03 | The Chinese University Of Hong Kong | Acoustic-graphemic model and acoustic-graphemic-phonemic model for computer-aided pronunciation training and speech processing |
US10713593B2 (en) | 2016-11-04 | 2020-07-14 | Google Llc | Implicit bridging of machine learning tasks |
KR20180080446A (ko) * | 2017-01-04 | 2018-07-12 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US10867595B2 (en) | 2017-05-19 | 2020-12-15 | Baidu Usa Llc | Cold fusing sequence-to-sequence models with language models |
US10529319B2 (en) * | 2017-05-22 | 2020-01-07 | Samsung Electronics Co., Ltd. | User adaptive speech recognition method and apparatus |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
US10796686B2 (en) | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
US10629193B2 (en) * | 2018-03-09 | 2020-04-21 | Microsoft Technology Licensing, Llc | Advancing word-based speech recognition processing |
US10909157B2 (en) * | 2018-05-22 | 2021-02-02 | Salesforce.Com, Inc. | Abstraction of text summarization |
US10720151B2 (en) * | 2018-07-27 | 2020-07-21 | Deepgram, Inc. | End-to-end neural networks for speech recognition and classification |
US11556776B2 (en) * | 2018-10-18 | 2023-01-17 | Microsoft Technology Licensing, Llc | Minimization of computational demands in model agnostic cross-lingual transfer with neural task representations as weak supervision |
KR20200059703A (ko) * | 2018-11-21 | 2020-05-29 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US11210565B2 (en) * | 2018-11-30 | 2021-12-28 | Microsoft Technology Licensing, Llc | Machine learning model with depth processing units |
-
2019
- 2019-07-31 KR KR1020190093066A patent/KR20210014949A/ko not_active Application Discontinuation
-
2020
- 2020-04-09 US US16/844,401 patent/US11694677B2/en active Active
- 2020-04-30 CN CN202010361194.3A patent/CN112397058A/zh active Pending
- 2020-06-24 EP EP20181967.9A patent/EP3772059B1/en active Active
-
2023
- 2023-05-23 US US18/321,876 patent/US20230306961A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9460711B1 (en) * | 2013-04-15 | 2016-10-04 | Google Inc. | Multilingual, acoustic deep neural networks |
US20160163310A1 (en) * | 2014-12-08 | 2016-06-09 | Samsung Electronics Co., Ltd. | Method and apparatus for training language model and recognizing speech |
CN108615525A (zh) * | 2016-12-09 | 2018-10-02 | ***通信有限公司研究院 | 一种语音识别方法及装置 |
US20180261225A1 (en) * | 2017-03-13 | 2018-09-13 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Multichannel End-to-End Speech Recognition |
Non-Patent Citations (2)
Title |
---|
KANNAN ANJULI ET AL: ""An Analysis of Incorporating an External Language Model into a Sequence-to-Sequence Model"", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》, pages 1 - 5828 * |
TOSHNIWAL SHUBHAM ET AL: ""A Comparison of Techniques for Language Model Integration in Encoder-Decoder Speech Recognition"", 《2018 IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP (SLT)》, pages 369 - 375 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023273610A1 (zh) * | 2021-06-30 | 2023-01-05 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及电子设备 |
CN115273853A (zh) * | 2022-07-11 | 2022-11-01 | 北京理工大学 | 一种基于仿生神经网络的语音识别***与方法 |
Also Published As
Publication number | Publication date |
---|---|
US20210035562A1 (en) | 2021-02-04 |
EP3772059A1 (en) | 2021-02-03 |
KR20210014949A (ko) | 2021-02-10 |
US20230306961A1 (en) | 2023-09-28 |
EP3772059B1 (en) | 2024-01-24 |
US11694677B2 (en) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111292728B (zh) | 语音识别方法和设备 | |
CN112397058A (zh) | 解码方法、训练方法以及语音识别设备 | |
KR102339716B1 (ko) | 음성 인식 방법 및 그 장치 | |
CN106373561B (zh) | 声学得分计算和语音识别的设备和方法 | |
CN106469552B (zh) | 语音识别设备和方法 | |
US10714076B2 (en) | Initialization of CTC speech recognition with standard HMM | |
EP3076389A1 (en) | Statistical-acoustic-model adaptation method, acoustic-model learning method suitable for statistical-acoustic-model adaptation, storage medium in which parameters for building deep neural network are stored, and computer program for adapting statistical acoustic model | |
KR20160069329A (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 | |
CN111192576A (zh) | 解码方法、语音识别设备和*** | |
JP6884946B2 (ja) | 音響モデルの学習装置及びそのためのコンピュータプログラム | |
CN112331206A (zh) | 语音识别方法及设备 | |
CN110895928B (zh) | 语音识别方法和设备 | |
EP3809405A1 (en) | Method and apparatus for determining output token | |
CN112700778A (zh) | 语音识别方法和语音识别设备 | |
Zhang et al. | Deep recurrent convolutional neural network: Improving performance for speech recognition | |
KR20210042696A (ko) | 모델 학습 방법 및 장치 | |
CN113674733A (zh) | 用于说话时间估计的方法和设备 | |
CN110969239A (zh) | 神经网络及对象识别的方法 | |
CN111816164A (zh) | 用于语音识别的方法及设备 | |
CN112183062B (zh) | 一种基于交替解码的口语理解方法、电子设备和存储介质 | |
US20230076073A1 (en) | Method and apparatus for speech recognition | |
EP4060657A1 (en) | Method and apparatus with decoding in neural network for speech recognition | |
US20240078391A1 (en) | Electronic device for training speech recognition model and control method thereof | |
Dey et al. | A low footprint automatic speech recognition system for resource constrained edge devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |