CN107195299A - 训练神经网络声学模型的方法和装置及语音识别方法和装置 - Google Patents

训练神经网络声学模型的方法和装置及语音识别方法和装置 Download PDF

Info

Publication number
CN107195299A
CN107195299A CN201610142994.XA CN201610142994A CN107195299A CN 107195299 A CN107195299 A CN 107195299A CN 201610142994 A CN201610142994 A CN 201610142994A CN 107195299 A CN107195299 A CN 107195299A
Authority
CN
China
Prior art keywords
mentioned
phoneme state
training
acoustic model
neutral net
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610142994.XA
Other languages
English (en)
Inventor
朱会峰
邓妍
丁沛
雍坤
郝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CN201610142994.XA priority Critical patent/CN107195299A/zh
Priority to US15/262,552 priority patent/US10109272B2/en
Publication of CN107195299A publication Critical patent/CN107195299A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供训练神经网络声学模型的方法、训练神经网络声学模型的装置、语言识别方法以及语音识别装置。根据一个实施方式的训练神经网络声学模型的装置,包括:计算单元,其基于包括训练语音和标注的音素状态的训练数据,计算与上述标注的音素状态不同的音素状态的得分;聚集单元,其将得分大于预定阈值的音素状态和上述标注的音素状态聚集;分享单元,其使上述聚集的音素状态分享上述标注的音素状态的概率;和训练单元,其基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型。

Description

训练神经网络声学模型的方法和装置及语音识别方法和装置
技术领域
本发明涉及语音识别***,具体涉及训练神经网络声学模型的方法、训练神经网络声学模型的装置、语言识别方法以及语音识别装置。
背景技术
语音识别***一般包含声学模型(AM)和语言模型(LM)两个部分。声学模型是统计语音特征对音素单元概率分布的模型,语言模型是统计词序列(词汇上下文)出现概率的模型,语音识别过程是根据两个模型的概率得分的加权和得到得分最高的结果。
近几年,神经网络声学模型(NN AM)作为一种新方法被引入语音识别***,极大地提高了识别性能。
在神经网络声学模型的训练中,传统的技术是使用强制对齐的方法得到每个语音特征样本的输出目标并将其概率设置为1,然后基于交叉熵训练声学模型。
后来也有通过使用所有输出目标的概率分布作为目标输出,基于KL距离(Kullback-Leibler Divergence,又称为KL散度)训练声学模型,KL距离是和交叉熵等价的。
发明内容
本发明者们发现,在传统的神经网络声学模型的训练中,单一目标的训练和所有输出目标的训练都没有合理的使用训练目标之间的相似性,缺乏对训练目标的选择和筛选。
对于单一目标的训练,在给定训练样本的情况下,输出状态目标的概 率为1,其他输出状态目标为0,而这样的训练忽略了输出状态目标和其他状态目标的之间的相似性,破坏了输出状态目标的真实的概率分布。例如一些和输出状态目标非常相似的其他状态也应该有一个合理的概率分布值。
对于所有输出目标的训练,也没有合理的使用训练目标之间的相似性,缺乏对训练目标的选择和筛选。
另外,在传统的神经网络声学模型训练中,对于具有多个输出状态目标的神经网络声学模型训练来说,使用交叉熵作为训练准则进行训练不够灵活,不能够从多角度学习输出目标的真实的概率分布。
为了进一步改进神经网络声学模型的训练方法,提高语音识别的精度,本发明提出了使用聚集的音素状态来训练神经网络声学模型的方法和装置,并进一步提供了语音识别方法和语音识别装置。在本发明的一个实施方式中,将与标注的音素状态相似度高或距离近的音素状态聚集,聚集的音素状态和标注的音素状态一起分享输出概率。具体地,提供了以下技术方案。
[1]一种训练神经网络声学模型的方法,包括:
基于包括训练语音和标注的音素状态的训练数据,计算与上述标注的音素状态不同的音素状态的得分;
将得分大于预定阈值的音素状态和上述标注的音素状态聚集;
使上述聚集的音素状态分享上述标注的音素状态的概率;和
基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型。
通过上述方案[1]的训练神经网络声学模型的方法,将得分高的音素状态与标注的音素状态聚集,聚集的音素状态分享标注的音素状态的概率,能够真实平滑地训练神经网络声学模型。
[2]根据上述方案[1]所述的训练神经网络声学模型的方法,其中,
计算上述音素状态的得分的步骤包括:
基于上述音素状态与上述标注的音素状态之间的相似度和上述音素状态和上述标注的音素状态之间的距离中的至少一个,计算上述音素状态的 得分。
通过上述方案[2]的训练神经网络声学模型的方法,基于音素状态与标注的音素状态之间的相似度和音素状态和标注的音素状态之间的距离中的至少一个,计算音素状态的得分,能够将与标注的音素状态相似度高或距离近的音素状态聚集,进而分享标注的音素状态的概率,能够更加真实平滑地训练神经网络声学模型。
[3]根据上述方案[1]所述的训练神经网络声学模型的方法,其中,
计算上述音素状态的得分的步骤包括:
基于上述训练数据和训练好的神经网络声学模型,计算上述音素状态的得分。
[4]根据上述方案[3]所述的训练神经网络声学模型的方法,其中,
计算上述音素状态的得分的步骤包括:
通过向前传播,得到上述音素状态的得分。
通过上述方案[3]或[4]的训练神经网络声学模型的方法,基于训练数据和训练好的神经网络声学模型,计算音素状态的得分,能够基于训练好的的神经网络声学模型选择音素状态进行聚集,进而分享标注的音素状态的概率,能够更加真实平滑地训练神经网络声学模型。
[5]根据上述方案[1]至[4]的任一方案所述的训练神经网络声学模型的方法,其中,
将得分大于预定阈值的音素状态和上述标注的音素状态聚集的步骤包括:
利用上述音素状态的决策树,对上述音素状态进行过滤。
[6]根据上述方案[5]所述的训练神经网络声学模型的方法,其中,
将与上述标注的音素状态不在同一决策树上的音素状态过滤。
通过上述方案[5]或[6]的训练神经网络声学模型的方法,将与标注的音素状态不在同一决策树上的音素状态过滤,能够更加真实平滑地训练神经网络声学模型。
[7]根据上述方案[1]至[6]的任一方案所述的训练神经网络声学模型的 方法,其中,
使上述聚集的音素状态分享上述标注的音素状态的概率的步骤包括:
基于预定的分享比例和上述聚集的音素状态的得分,分享上述标注的音素状态的概率。
[8]根据上述方案[1]至[7]的任一方案所述的训练神经网络声学模型的方法,其中,
训练神经网络声学模型的步骤包括:
使用交叉熵训练准则,训练神经网络声学模型。
[9]根据上述方案[8]所述的训练神经网络声学模型的方法,其中,
上述交叉熵训练准则包括带权重的交叉熵训练准则。
[10]根据上述方案[9]所述的训练神经网络声学模型的方法,其中,
上述带权重的交叉熵训练准则为:
上述带权重的交叉熵训练准则为:
通过上述方案[10]的训练神经网络声学模型的方法,通过调节带权重的交叉熵训练准则的权重因子和距离因子,能够提高训练的灵活度,能够从多角度学习输出目标的真实的概率分布。
[11]一种语音识别方法,包括:
输入待识别的语音;
利用由上述方案[1]至[10]的任一方案所述的方法训练得到的神经网络声学模型和语言模型将上述语音识别为文本句。
通过上述方案[11]的语音识别方法,能够提高语音识别的精度。
[12]一种训练神经网络声学模型的装置,包括:
计算单元,其基于包括训练语音和标注的音素状态的训练数据,计算与上述标注的音素状态不同的音素状态的得分;
聚集单元,其将得分大于预定阈值的音素状态和上述标注的音素状态 聚集;
分享单元,其使上述聚集的音素状态分享上述标注的音素状态的概率;和
训练单元,其基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型。
通过上述方案[12]的训练神经网络声学模型的装置,将得分高的音素状态与标注的音素状态聚集,聚集的音素状态分享标注的音素状态的概率,能够真实平滑地训练神经网络声学模型。
[13]根据上述方案[12]所述的训练神经网络声学模型的装置,其中,
上述计算单元,基于上述音素状态与上述标注的音素状态之间的相似度和上述音素状态和上述标注的音素状态之间的距离中的至少一个,计算上述音素状态的得分。
通过上述方案[13]的训练神经网络声学模型的装置,基于音素状态与标注的音素状态之间的相似度和音素状态和标注的音素状态之间的距离中的至少一个,计算音素状态的得分,能够将与标注的音素状态相似度高或距离近的音素状态聚集,进而分享标注的音素状态的概率,能够更加真实平滑地训练神经网络声学模型。
[14]根据上述方案[12]所述的训练神经网络声学模型的装置,其中,
上述计算单元,基于上述训练数据和训练好的神经网络声学模型,计算上述音素状态的得分。
[15]根据上述方案[14]所述的训练神经网络声学模型的装置,其中,
上述计算单元,通过向前传播,得到上述音素状态的得分。
通过上述方案[14]或[15]的训练神经网络声学模型的装置,基于训练数据和训练好的神经网络声学模型,计算音素状态的得分,能够基于训练好的的神经网络声学模型选择音素状态进行聚集,进而分享标注的音素状态的概率,能够更加真实平滑地训练神经网络声学模型。
[16]根据上述方案[12]至[15]的任一方案所述的训练神经网络声学模型的装置,其中,
上述聚集单元,利用上述音素状态的决策树,对上述音素状态进行过滤。
[17]根据上述方案[16]所述的训练神经网络声学模型的装置,其中,
上述聚集单元,将与上述标注的音素状态不在同一决策树上的音素状态过滤。
通过上述方案[16]或[17]的训练神经网络声学模型的装置,将与标注的音素状态不在同一决策树上的音素状态过滤,能够更加真实平滑地训练神经网络声学模型。
[18]根据上述方案[12]至[17]的任一方案所述的训练神经网络声学模型的装置,其中,
上述分享单元,基于预定的分享比例和上述聚集的音素状态的得分,分享上述标注的音素状态的概率。
[19]根据上述方案[12]至[18]的任一方案所述的训练神经网络声学模型的装置,其中,
上述训练单元,使用交叉熵训练准则,训练神经网络声学模型。
[20]根据上述方案[19]所述的训练神经网络声学模型的装置,其中,
上述交叉熵训练准则包括带权重的交叉熵训练准则。
[21]根据上述方案[20]所述的训练神经网络声学模型的装置,其中,
上述带权重的交叉熵训练准则为:
其中是权重函数,(logti-logyi)n是距离函数,m,n分别是权重因子和距离因子。
通过上述方案[21]的训练神经网络声学模型的装置,通过调节带权重的交叉熵训练准则的权重因子和距离因子,能够提高训练的灵活度,能够从多角度学习输出目标的真实的概率分布。
[22]一种语音识别装置,包括:
输入单元,其输入待识别的语音;
语音识别单元,其利用由上述方案[12]至[21]的任一方案所述的装置训练得到的神经网络声学模型和语言模型将上述语音识别为文本句。
通过上述方案[22]的语音识别装置,能够提高语音识别的精度。
[23]根据上述方案[1]所述的训练神经网络声学模型的方法,其中,
在计算上述音素状态的得分的步骤之前还包括:
将与上述标注的音素状态不在同一决策树上的音素状态过滤。
通过上述方案[23]的训练神经网络声学模型的方法,在计算得分之前,将与标注的音素状态不在同一个决策树上的音素状态过滤,可以降低计算量,提高计算效率。
[24]根据上述方案[12]所述的训练神经网络声学模型的装置,还包括:
过滤单元,其在上述计算单元计算上述音素状态的得分之前,将与上述标注的音素状态不在同一决策树上的音素状态过滤。
通过上述方案[23]的训练神经网络声学模型的装置,在计算单元计算得分之前,将与标注的音素状态不在同一个决策树上的音素状态过滤,可以降低计算量,提高计算效率。
附图说明
通过以下结合附图对本发明具体实施方式的说明,能够更好地了解本发明上述的特点、优点和目的。
图1是根据本发明的一个实施方式的训练神经网络声学模型的方法的流程图。
图2是根据本发明的一个实施方式的训练神经网络声学模型的方法的一个实例的流程图。
图3是根据本发明的另一个实施方式的语音识别方法的流程图。
图4是根据本发明的另一实施方式的训练神经网络声学模型的装置的框图。
图5是根据本发明的另一实施方式的语音识别装置的框图。
具体实施方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
<训练神经网络声学模型的方法>
图1是根据本发明的一个实施方式的训练神经网络声学模型的方法的流程图。
如图1所示,首先,在步骤S101中,基于训练数据10,计算与标注的音素状态不同的音素状态的得分。训练数据10包括训练语音和标注的音素状态。
在本实施方式中,可以利用本领域知晓的或未来开发的任何给音素状态打分的模型或方法获得音素状态的得分,本发明对此没有任何限制。
在本实施方式中,优选,基于音素状态与标注的音素状态之间的相似度和音素状态和标注的音素状态之间的距离中的至少一个,计算音素状态的得分。相似度是表示音素状态和标注的音素状态之间的相似程度,可以利用本领域知晓的任何方法计算相似度,相似度越高,得分越高。距离是表示音素状态和标注的音素状态之间的相近程度,可以利用本领域知晓的任何方法计算距离,距离越近,得分越高。
另外,也可以基于训练数据10和训练好的神经网络声学模型,计算音素状态的得分。训练好的神经网络声学模型可以是利用本领域知晓的任何训练方法进行训练得到的神经网络声学模型。
对于给定的训练数据10,优选通过向前传播,可以得到各个音素状态的得分。
接着,在步骤105,将得分大于预定阈值的音素状态和上述标注的音素状态聚集。在本实施方式中,阈值可以基于实际需要进行设定,通过设定阈值来控制聚集的音素状态的数量。
另外,在本实施方式中,优选利用音素状态的决策树,对得分大于预定阈值的音素状态进行过滤。具体地,如果一些音素状态与标注的音素状态不在同一个决策树上,则将其过滤掉。
另外,也可以在计算得分之前,将与标注的音素状态不在同一个决策 树上的音素状态过滤掉,而只计算与标注的音素状态在同一个决策树上的音素状态的得分,这样可以降低计算得分的计算量,提高计算效率。
接着,在步骤S110,使上述聚集的音素状态分享上述标注的音素状态的概率。优选,基于预定的分享比例和上述聚集的音素状态的得分,分享上述标注的音素状态的概率。
最后,在步骤S115,基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型。
在本实施方式中,优选使用交叉熵训练准则,训练神经网络声学模型。通用的训练函数准则由以下的公式(1)表示:
其中i是聚集状态的索引,w(ti)是聚集状态的权重函数,d(ti,yi)是距离函数,用来度量聚集状态的输出和神经网络输出的距离。
在本实施方式中,优选上述交叉熵训练准则包括带权重的交叉熵训练准则。上述带权重的交叉熵训练准则由以下的公式(2)表示:
其中是权重函数,(logti-logyi)n是距离函数,m,n分别是权重因子和距离因子。在本实施方式中,可以通过调节权重因子和距离因子,即设定不同的m和n的值,可以灵活地训练神经网络声学模型。
下面,参考图2详细说明本实施方式的一个实例。图2是根据本发明的一个实施方式的训练神经网络声学模型的方法的一个实例的流程图。
如图2所示,首先,在步骤S201,基于训练数据10和训练好的神经网络声学模型20,例如通过向前传播,计算音素状态的得分,从而得到各音素状态的得分30,例如ing0和in1的得分分别为0.04和0.02。
接着,在步骤S205中,将得分大于预定阈值的音素状态与标注的音素状态10b聚集。例如通过设定阈值将设为ing0和in1这两个音素状态选出,与标注的音素状态ing1聚类,得到聚类的音素状态40。
接着,在步骤S210,基于分享比例和聚集的音素状态的得分,分享标注的音素状态ing1的概率。例如,将分享比例设为0.3,即将标注的音素状态ing1的概率的30%分享给聚类的音素状态中除了标注的音素状态的其他音素状态。对于其他音素状态的概率,可以根据得分比例0.04/0.02计算,得到音素状态ing0和in1的概率分别为0.2和0.1,而标注的音素状态的概率为0.7,最终得到聚类的音素状态ing0、in1和ing1的概率分别为0.2、0.1和0.7。
最后,基于训练数据10中的训练语音10a和聚类的音素状态40及其概率,训练神经网络声学模型50。具体的训练方法如上所述,例如可以利用由上述公式(2)表示的带权重的交叉熵训练准则进行训练。
本实施方式的上述训练神经网络声学模型的方法,将得分高的音素状态与标注的音素状态聚集,聚集的音素状态分享标注的音素状态的概率,能够真实平滑地训练神经网络声学模型。
进而,本实施方式的上述训练神经网络声学模型的方法,基于音素状态与标注的音素状态之间的相似度和音素状态和标注的音素状态之间的距离中的至少一个,计算音素状态的得分,能够将与标注的音素状态相似度高或距离近的音素状态聚集,进而分享标注的音素状态的概率,能够更加真实平滑地训练神经网络声学模型。
另外,本实施方式的上述训练神经网络声学模型的方法,基于训练数据和训练好的神经网络声学模型,计算音素状态的得分,能够基于训练好的的神经网络声学模型选择音素状态进行聚集,进而分享标注的音素状态的概率,能够更加真实平滑地训练神经网络声学模型。
进而,本实施方式的上述训练神经网络声学模型的方法,通过将与标注的音素状态不在同一决策树上的音素状态过滤,能够更加真实平滑地训练神经网络声学模型。
进而,本实施方式的上述训练神经网络声学模型的方法,通过调节带权重的交叉熵训练准则的权重因子和距离因子,能够提高训练的灵活度,能够从多角度学习输出目标的真实的概率分布。
<语音识别方法>
图3是在同一发明构思下的本发明的另一个实施方式的语音识别方法的流程图。下面就结合该图,对本实施方式进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图3所示,在步骤S301,输入待识别的语音。待识别的语音可以使任何语音,本发明对此没有任何限制。
接着,在步骤S305,利用由上述训练神经网络声学模型的方法训练得到的神经网络声学模型和语言模型将上述语音识别为文本句。
对语音进行识别的过程中,需要使用声学模型和语言模型。在本实施方式中,声学模型是使用上述训练神经网络声学模型的方法训练得到的神经网络声学模型,语言模型可以本领域知晓的任何语言模型,可以是神经网络语言模型,也可以是其他类型的语言模型。
在本实施方式中,利用神经网络声学模型和语言模型对待识别的语音进行识别的方法,是本领域知晓的任何方法,在此不再赘述。
通过上述语音识别方法,由于利用了使用聚集的音素状态来训练神经网络声学模型的方法得到的神经网络声学模型,由此能够提高语音识别的精度。
<训练神经网络声学模型的装置>
图4是在同一发明构思下的根据本发明的另一个实施方式的训练神经网络声学模型的装置的框图。下面就结合该图,对本实施方式进行描述。对于那些与前面实施方式相同的部分,适当省略其说明。
如图4所示,本实施方式的训练神经网络声学模型的装置400,包括:计算单元401,其基于包括训练语音和标注的音素状态的训练数据10,计算与上述标注的音素状态不同的音素状态的得分;聚集单元405,其将得分大于预定阈值的音素状态和上述标注的音素状态聚集;分享单元410,其使上述聚集的音素状态分享上述标注的音素状态的概率;和训练单元 415,其基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型
在本实施方式中,计算单元401,基于训练数据10,计算与标注的音素状态不同的音素状态的得分。训练数据10包括训练语音和标注的音素状态。
在本实施方式中,可以利用本领域知晓的或未来开发的任何给音素状态打分的模型或方法获得音素状态的得分,本发明对此没有任何限制。
在本实施方式中,优选,基于音素状态与标注的音素状态之间的相似度和音素状态和标注的音素状态之间的距离中的至少一个,计算音素状态的得分。相似度是表示音素状态和标注的音素状态之间的相似程度,可以利用本领域知晓的任何方法计算相似度,相似度越高,得分越高。距离是表示音素状态和标注的音素状态之间的相近程度,可以利用本领域知晓的任何方法计算距离,距离越近,得分越高。
另外,也可以基于训练数据10和训练好的神经网络声学模型,计算音素状态的得分。训练好的神经网络声学模型可以是利用本领域知晓的任何训练方法进行训练得到的神经网络声学模型。
对于给定的训练数据10,优选通过向前传播,可以得到各个音素状态的得分。
在本实施方式中,聚集单元405,将得分大于预定阈值的音素状态和上述标注的音素状态聚集。在本实施方式中,阈值可以基于实际需要进行设定,通过设定阈值来控制聚集的音素状态的数量。
另外,在本实施方式中,优选利用音素状态的决策树,对得分大于预定阈值的音素状态进行过滤。具体地,如果一些音素状态与标注的音素状态不在同一个决策树上,则将其过滤掉。
另外,也可以在计算得分之前,将与标注的音素状态不在同一个决策树上的音素状态过滤掉,而只计算与标注的音素状态在同一个决策树上的音素状态的得分,这样可以降低计算得分的计算量,提高计算效率。
在本实施方式中,分享单元410,使上述聚集的音素状态分享上述标注的音素状态的概率。优选,基于预定的分享比例和上述聚集的音素状态 的得分,分享上述标注的音素状态的概率。
在本实施方式中,训练单元415,基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型。
在本实施方式中,优选使用交叉熵训练准则,训练神经网络声学模型。通用的训练函数准则由以下的公式(1)表示:
其中i是聚集状态的索引,w(ti)是聚集状态的权重函数,d(ti,yi)是距离函数,用来度量聚集状态的输出和神经网络输出的距离。
在本实施方式中,优选上述交叉熵训练准则包括带权重的交叉熵训练准则。上述带权重的交叉熵训练准则由以下的公式(2)表示:
其中是权重函数,(logti-logyi)n是距离函数,m,n分别是权重因子和距离因子。在本实施方式中,可以通过调节权重因子和距离因子,即设定不同的m和n的值,可以灵活地训练神经网络声学模型。
下面,参考图2详细说明本实施方式的一个实例。图2是根据本发明的一个实施方式的训练神经网络声学模型的装置进行训练的一个实例。
如图2所示,计算单元401基于训练数据10和训练好的神经网络声学模型20,例如通过向前传播,计算音素状态的得分,从而得到各音素状态的得分30,例如ing0和in1的得分分别为0.04和0.02。
聚类单元405将得分大于预定阈值的音素状态与标注的音素状态10b聚集。例如通过设定阈值将设为ing0和in1这两个音素状态选出,与标注的音素状态ing1聚类,得到聚类的音素状态40。
分享单元410基于分享比例和聚集的音素状态的得分,分享标注的音素状态ing1的概率。例如,将分享比例设为0.3,即将标注的音素状态ing1的概率的30%分享给聚类的音素状态中除了标注的音素状态的其他音素状态。对于其他音素状态的概率,可以根据得分比例0.04/0.02计算,得到 音素状态ing0和in1的概率分别为0.2和0.1,而标注的音素状态的概率为0.7,最终得到聚类的音素状态ing0、in1和ing1的概率分别为0.2、0.1和0.7。
训练单元415基于训练数据10中的训练语音10a和聚类的音素状态40及其概率,训练神经网络声学模型50。具体的训练方法如上所述,例如可以利用由上述公式(2)表示的带权重的交叉熵训练准则进行训练。
本实施方式的上述训练神经网络声学模型的装置,将得分高的音素状态与标注的音素状态聚集,聚集的音素状态分享标注的音素状态的概率,能够真实平滑地训练神经网络声学模型。
进而,本实施方式的上述训练神经网络声学模型的装置,基于音素状态与标注的音素状态之间的相似度和音素状态和标注的音素状态之间的距离中的至少一个,计算音素状态的得分,能够将与标注的音素状态相似度高或距离近的音素状态聚集,进而分享标注的音素状态的概率,能够更加真实平滑地训练神经网络声学模型。
另外,本实施方式的上述训练神经网络声学模型的装置,基于训练数据和训练好的神经网络声学模型,计算音素状态的得分,能够基于训练好的的神经网络声学模型选择音素状态进行聚集,进而分享标注的音素状态的概率,能够更加真实平滑地训练神经网络声学模型。
进而,本实施方式的上述训练神经网络声学模型的装置,通过将与标注的音素状态不在同一决策树上的音素状态过滤,能够更加真实平滑地训练神经网络声学模型。
进而,本实施方式的上述训练神经网络声学模型的装置,通过调节带权重的交叉熵训练准则的权重因子和距离因子,能够提高训练的灵活度,能够从多角度学习输出目标的真实的概率分布。
<语音识别装置>
图5是在同一发明构思下的根据本发明的另一个实施方式的语音识别装置的框图。下面就结合该图,对本实施方式进行描述。对于那些与前面 实施方式相同的部分,适当省略其说明。
如图5所示,本实施方式的语音识别装置500包括:输入单元501,其输入待识别的语音60;语音识别单元505,其利用由上述训练神经网络声学模型的装置400训练得到的神经网络声学模型和语言模型将上述语音识别为文本句
在本实施方式中,输入单元501,输入待识别的语音。待识别的语音可以使任何语音,本发明对此没有任何限制。
语音识别单元505,利用由上述训练神经网络声学模型的装置400训练得到的神经网络声学模型和语言模型将上述语音识别为文本句。
对语音进行识别的过程中,需要使用声学模型和语言模型。在本实施方式中,声学模型是使用上述训练神经网络声学模型的装置400训练得到的神经网络声学模型,语言模型可以本领域知晓的任何语言模型,可以是神经网络语言模型,也可以是其他类型的语言模型。
在本实施方式中,利用神经网络声学模型和语言模型对待识别的语音进行识别的方法,是本领域知晓的任何方法,在此不再赘述。
通过上述语音识别装置500,由于利用了使用聚集的音素状态来训练神经网络声学模型的装置400得到的神经网络声学模型,由此能够提高语音识别的精度。
以上虽然通过一些示例性的实施方式详细地描述了本发明的训练神经网络声学模型的方法、训练神经网络声学模型的装置、语言识别方法以及语音识别装置,但是以上这些实施方式并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施方式,本发明的范围仅由所附权利要求为准。

Claims (10)

1.一种训练神经网络声学模型的装置,包括:
计算单元,其基于包括训练语音和标注的音素状态的训练数据,计算与上述标注的音素状态不同的音素状态的得分;
聚集单元,其将得分大于预定阈值的音素状态和上述标注的音素状态聚集;
分享单元,其使上述聚集的音素状态分享上述标注的音素状态的概率;和
训练单元,其基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型。
2.根据权利要求1所述的训练神经网络声学模型的装置,其中,
上述计算单元,基于上述音素状态与上述标注的音素状态之间的相似度和上述音素状态和上述标注的音素状态之间的距离中的至少一个,计算上述音素状态的得分。
3.根据权利要求1所述的训练神经网络声学模型的装置,其中,
上述计算单元,基于上述训练数据和训练好的神经网络声学模型,计算上述音素状态的得分。
4.根据权利要求1至3的任一项所述的训练神经网络声学模型的装置,其中,
上述聚集单元,将与上述标注的音素状态不在同一决策树上的音素状态过滤。
5.根据权利要求1至3的任一项所述的训练神经网络声学模型的装置,其中,
上述分享单元,基于预定的分享比例和上述聚集的音素状态的得分,分享上述标注的音素状态的概率。
6.根据权利要求1至3的任一项所述的训练神经网络声学模型的装 置,其中,
上述训练单元,使用交叉熵训练准则,训练神经网络声学模型。
7.根据权利要求6所述的训练神经网络声学模型的装置,其中,
上述交叉熵训练准则包括带权重的交叉熵训练准则,上述带权重的交叉熵训练准则为:
其中是权重函数,(logti-logyi)n是距离函数,m,n分别是权重因子和距离因子。
8.一种语音识别装置,包括:
输入单元,其输入待识别的语音;
语音识别单元,其利用由权利要求1至7的任一项所述的装置训练得到的神经网络声学模型和语言模型将上述语音识别为文本句。
9.一种训练神经网络声学模型的方法,包括:
基于包括训练语音和标注的音素状态的训练数据,计算与上述标注的音素状态不同的音素状态的得分;
将得分大于预定阈值的音素状态和上述标注的音素状态聚集;
使上述聚集的音素状态分享上述标注的音素状态的概率;和
基于上述训练语音和上述聚集的音素状态,训练神经网络声学模型。
10.一种语音识别方法,包括:
输入待识别的语音;
利用由权利要求9所述的方法训练得到的神经网络声学模型和语言模型将上述语音识别为文本句。
CN201610142994.XA 2016-03-14 2016-03-14 训练神经网络声学模型的方法和装置及语音识别方法和装置 Pending CN107195299A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610142994.XA CN107195299A (zh) 2016-03-14 2016-03-14 训练神经网络声学模型的方法和装置及语音识别方法和装置
US15/262,552 US10109272B2 (en) 2016-03-14 2016-09-12 Apparatus and method for training a neural network acoustic model, and speech recognition apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610142994.XA CN107195299A (zh) 2016-03-14 2016-03-14 训练神经网络声学模型的方法和装置及语音识别方法和装置

Publications (1)

Publication Number Publication Date
CN107195299A true CN107195299A (zh) 2017-09-22

Family

ID=59787039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610142994.XA Pending CN107195299A (zh) 2016-03-14 2016-03-14 训练神经网络声学模型的方法和装置及语音识别方法和装置

Country Status (2)

Country Link
US (1) US10109272B2 (zh)
CN (1) CN107195299A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108022587A (zh) * 2017-12-15 2018-05-11 深圳市声扬科技有限公司 语音识别方法、装置、计算机设备和存储介质
CN108417202A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语音识别方法及***
CN109065032A (zh) * 2018-07-16 2018-12-21 杭州电子科技大学 一种基于深度卷积神经网络的外部语料库语音识别方法
CN109754784A (zh) * 2017-11-02 2019-05-14 华为技术有限公司 训练滤波模型的方法和语音识别的方法
CN110070855A (zh) * 2018-01-23 2019-07-30 中国科学院声学研究所 一种基于迁移神经网络声学模型的语音识别***及方法
CN110490239A (zh) * 2019-08-06 2019-11-22 腾讯医疗健康(深圳)有限公司 图像质控网络的训练方法、质量分类方法、装置及设备
CN112509563A (zh) * 2020-12-17 2021-03-16 中国科学技术大学 模型训练方法、装置及电子设备
CN117077671A (zh) * 2023-10-17 2023-11-17 北京青牛技术股份有限公司 一种交互数据生成方法及***

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958673B (zh) * 2017-11-28 2021-05-11 北京先声教育科技有限公司 一种口语评分方法及装置
CN109597901B (zh) * 2018-11-15 2021-11-16 韶关学院 一种基于生物数据的数据分析方法
KR20210044559A (ko) 2019-10-15 2021-04-23 삼성전자주식회사 출력 토큰 결정 방법 및 장치
US11704772B2 (en) * 2020-11-19 2023-07-18 Raytheon Company Image classification system

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006186A (en) * 1997-10-16 1999-12-21 Sony Corporation Method and apparatus for a parameter sharing speech recognition system
CN101609672A (zh) * 2009-07-21 2009-12-23 北京邮电大学 一种语音识别语义置信特征提取的方法和装置
CN103971675A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 自动语音识别方法和***
US20140288928A1 (en) * 2013-03-25 2014-09-25 Gerald Bradley PENN System and method for applying a convolutional neural network to speech recognition
CN104143327A (zh) * 2013-07-10 2014-11-12 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
US20150127594A1 (en) * 2013-11-04 2015-05-07 Google Inc. Transfer learning for deep neural network based hotword detection
US20150127327A1 (en) * 2013-11-01 2015-05-07 Google Inc. Context-dependent state tying using a neural network
US20150161994A1 (en) * 2013-12-05 2015-06-11 Nuance Communications, Inc. Method and Apparatus for Speech Recognition Using Neural Networks with Speaker Adaptation
US9202464B1 (en) * 2012-10-18 2015-12-01 Google Inc. Curriculum learning for speech recognition

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9460711B1 (en) * 2013-04-15 2016-10-04 Google Inc. Multilingual, acoustic deep neural networks
US9508347B2 (en) 2013-07-10 2016-11-29 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
US9818409B2 (en) * 2015-06-19 2017-11-14 Google Inc. Context-dependent modeling of phonemes

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006186A (en) * 1997-10-16 1999-12-21 Sony Corporation Method and apparatus for a parameter sharing speech recognition system
CN101609672A (zh) * 2009-07-21 2009-12-23 北京邮电大学 一种语音识别语义置信特征提取的方法和装置
US9202464B1 (en) * 2012-10-18 2015-12-01 Google Inc. Curriculum learning for speech recognition
CN103971675A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 自动语音识别方法和***
US20140288928A1 (en) * 2013-03-25 2014-09-25 Gerald Bradley PENN System and method for applying a convolutional neural network to speech recognition
CN104143327A (zh) * 2013-07-10 2014-11-12 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
US20150127327A1 (en) * 2013-11-01 2015-05-07 Google Inc. Context-dependent state tying using a neural network
US20150127594A1 (en) * 2013-11-04 2015-05-07 Google Inc. Transfer learning for deep neural network based hotword detection
US20150161994A1 (en) * 2013-12-05 2015-06-11 Nuance Communications, Inc. Method and Apparatus for Speech Recognition Using Neural Networks with Speaker Adaptation

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754784B (zh) * 2017-11-02 2021-01-29 华为技术有限公司 训练滤波模型的方法和语音识别的方法
US11211052B2 (en) 2017-11-02 2021-12-28 Huawei Technologies Co., Ltd. Filtering model training method and speech recognition method
CN109754784A (zh) * 2017-11-02 2019-05-14 华为技术有限公司 训练滤波模型的方法和语音识别的方法
CN108022587A (zh) * 2017-12-15 2018-05-11 深圳市声扬科技有限公司 语音识别方法、装置、计算机设备和存储介质
CN108417202A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语音识别方法及***
CN110070855A (zh) * 2018-01-23 2019-07-30 中国科学院声学研究所 一种基于迁移神经网络声学模型的语音识别***及方法
CN110070855B (zh) * 2018-01-23 2021-07-23 中国科学院声学研究所 一种基于迁移神经网络声学模型的语音识别***及方法
CN109065032A (zh) * 2018-07-16 2018-12-21 杭州电子科技大学 一种基于深度卷积神经网络的外部语料库语音识别方法
CN110490239A (zh) * 2019-08-06 2019-11-22 腾讯医疗健康(深圳)有限公司 图像质控网络的训练方法、质量分类方法、装置及设备
CN110490239B (zh) * 2019-08-06 2024-02-27 腾讯医疗健康(深圳)有限公司 图像质控网络的训练方法、质量分类方法、装置及设备
CN112509563A (zh) * 2020-12-17 2021-03-16 中国科学技术大学 模型训练方法、装置及电子设备
CN112509563B (zh) * 2020-12-17 2024-05-17 中国科学技术大学 模型训练方法、装置及电子设备
CN117077671A (zh) * 2023-10-17 2023-11-17 北京青牛技术股份有限公司 一种交互数据生成方法及***
CN117077671B (zh) * 2023-10-17 2024-01-05 北京青牛技术股份有限公司 一种交互数据生成方法及***

Also Published As

Publication number Publication date
US10109272B2 (en) 2018-10-23
US20170263241A1 (en) 2017-09-14

Similar Documents

Publication Publication Date Title
CN107195299A (zh) 训练神经网络声学模型的方法和装置及语音识别方法和装置
CN108305643B (zh) 情感信息的确定方法和装置
US9558741B2 (en) Systems and methods for speech recognition
CN108711421A (zh) 一种语音识别声学模型建立方法及装置和电子设备
US20180068652A1 (en) Apparatus and method for training a neural network language model, speech recognition apparatus and method
CN105280181B (zh) 一种语种识别模型的训练方法及语种识别方法
CN103280224A (zh) 基于自适应算法的非对称语料库条件下的语音转换方法
CN103229233A (zh) 用于识别说话人的建模设备和方法、以及说话人识别***
CN105893414A (zh) 筛选发音词典有效词条的方法及装置
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN104751227A (zh) 深度神经网络的构建方法及***
CN109243466A (zh) 一种声纹鉴权训练方法及***
CN105304078A (zh) 目标声数据训练装置和目标声数据训练方法
CN111768761A (zh) 一种语音识别模型的训练方法和装置
CN105989839A (zh) 语音识别方法和装置
CN106611599A (zh) 基于人工神经网络的语音识别方法、装置及电子设备
US20110161084A1 (en) Apparatus, method and system for generating threshold for utterance verification
Soliman et al. Isolated word speech recognition using convolutional neural network
CN106776543A (zh) 新词发现方法、装置、终端及服务器
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN106887226A (zh) 一种基于人工智能识别的语音识别算法
KR20160015005A (ko) 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치
KR102218046B1 (ko) 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치 및 방법
WO2021051505A1 (zh) 基于样本量的声纹聚类方法、装置、设备及存储介质
CN113505804A (zh) 一种基于压缩深度神经网络的图像识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170922

WD01 Invention patent application deemed withdrawn after publication