CN111613209B - 声学模型训练方法、装置、电子设备及存储介质 - Google Patents

声学模型训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111613209B
CN111613209B CN202010291790.9A CN202010291790A CN111613209B CN 111613209 B CN111613209 B CN 111613209B CN 202010291790 A CN202010291790 A CN 202010291790A CN 111613209 B CN111613209 B CN 111613209B
Authority
CN
China
Prior art keywords
training data
word graph
training
graph information
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010291790.9A
Other languages
English (en)
Other versions
CN111613209A (zh
Inventor
丁科
向鸿雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202010291790.9A priority Critical patent/CN111613209B/zh
Publication of CN111613209A publication Critical patent/CN111613209A/zh
Application granted granted Critical
Publication of CN111613209B publication Critical patent/CN111613209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例提供了一种声学模型训练方法、装置、电子设备及存储介质,该方法包括:获取语音数据的语音特征帧,将语音特征帧作为训练数据,并获取语音数据对应的标注文本数据;将训练数据输入目标模型中,得到训练数据对应的目标发音组合,以及训练数据对应的词图信息;确定训练数据中满足预设条件的词图信息所对应的第一训练数据;将训练数据中除第一训练数据之外的训练数据确定为第二训练数据;利用第二训练数据对声学模型进行区分性训练,直至区分性训练后的目标模型对应的语音识别***的识别准确率大于预设准确率。可见,本发明实施例提供的技术方案,对训练数据进行筛选,可以提升声学模型的识别准确率,并可以降低数据处理计算量。

Description

声学模型训练方法、装置、电子设备及存储介质
技术领域
本申请涉及语音识别技术领域,特别是涉及声学模型训练方法、装置、电子设备及存储介质。
背景技术
随着人工智能技术的发展,语音识别技术取得了巨大的进步,并开始进入家电、通信、汽车、医疗等各个领域。语音识别是把人的语音通过机器进行信号处理和识别,转变为相应文本,再通过语义分析和理解,最终让机器像人一样听懂我们的声音。
相关技术中,语音识别***主要包括声学模型、语言模型和解码器三大模块。具体的,将带有标签的训练语音数据输入语音识别***后,经过特征提取,得到声学特征向量;声学特征向量经由声学模型,得到每一声学特征向量对应的各个发音单元,解码器根据各个发音单元和语言模型来得到最终的语音识别结果。
声学模型作为语音识别***的主要模块,声学模型的性能高低,直接决定了语音识别***的语音识别准确率的高低。相关技术中,由于训练语音数据标注错误等原因,导致声学模型的性能较低,语音识别***的语音识别准确率的较低。
发明内容
为解决相关技术中存在的因声学模型的性能较低,而导致语音识别***的语音识别准确率较低的技术问题,本发明实施例提供了声学模型训练方法、装置、电子设备及存储介质。
第一方面,本发明实施例提供了声学模型训练方法,所述方法包括:
获取语音数据的语音特征帧,将所述语音特征帧作为训练数据,并获取所述语音数据对应的标注文本数据;
将所述训练数据输入目标模型中,得到所述训练数据对应的目标发音组合以及所述训练数据对应的词图信息,其中,所述目标发音组合是基于所述标注文本数据生成的,所述词图信息包括所述训练数据所对应的所有发音组合;
确定所述训练数据中满足预设条件的词图信息所对应的第一训练数据,所述预设条件用于表征词图信息的所有发音组合不包括所述目标发音组合,和/或,词图信息的复杂度小于预设复杂度;
将所述训练数据中除所述第一训练数据之外的训练数据确定为第二训练数据;
利用所述第二训练数据对所述目标模型进行区分性训练,直至区分性训练后的目标模型对应的语音识别***的识别准确率大于预设准确率,并将所述区分性训练后的目标模型作为声学模型。
可选地,所述确定所述训练数据中满足预设条件的词图信息所对应的第一训练数据,包括:
在每一训练数据对应的词图信息中,按照所述训练数据包括的子训练数据的先后顺序,依次查找各个子训练数据对应的子发音;
将各个子训练数据依次对应的子发音所组成的发音组合,确定为所述训练数据对应的所有发音组合;
在所述训练数据对应的所有发音组合不包括目标发音组合时,将所述训练数据确定为第一训练数据。
可选地,所述词图信息的复杂度为所述词图信息所包括的所有发音组合的数量;
所述确定所述训练数据中满足预设条件的词图信息所对应的第一训练数据,包括:
在每一训练数据对应的词图信息中,按照所述训练数据包括的子训练数据的先后顺序,依次查找各个子训练数据对应的子发音;
将各个子训练数据依次对应的子发音所组成的发音组合,确定为所述训练数据对应的所有发音组合;
在所述所有发音组合的数量小于预设数量时,将所述训练数据确定为第一训练数据。
可选地,所述词图信息的复杂度为所述词图信息的词图结点密度;
所述确定所述训练数据中满足预设条件的词图信息所对应的第一训练数据,包括:
在每一训练数据对应的词图信息中,确定所述训练数据对应的词图信息中的词图结点数;
根据所述词图结点数和所述训练数据所包括的子训练数据的帧数,确定所述训练数据对应的词图信息的词图结点密度;
将词图结点密度小于预设词图结点密度对应的训练数据确定为第一训练数据。
可选地,所述将词图结点密度小于预设词图结点密度的训练数据确定为第一训练数据,包括:
按照词图结点密度从小到大的顺序,对所述训练数据进行排序;
将排序序号小于预设排序序号的训练数据确定为第一训练数据。
第二方面,本发明实施例提供了一种声学模型训练装置,所述装置包括:
训练数据获取模块,用于获取语音数据的语音特征帧,将所述语音特征帧作为训练数据,并获取所述语音数据对应的标注文本数据;
训练数据输入模块,用于将所述训练数据输入目标模型中,得到所述训练数据对应的目标发音组合,以及所述训练数据对应的词图信息,其中,所述目标发音组合是基于所述标注文本数据生成的,所述词图信息包括所述训练数据所对应的所有发音组合;
第一训练数据确定模块,用于确定所述训练数据中满足预设条件的词图信息所对应的第一训练数据,所述预设条件用于表征词图信息的所有发音组合不包括所述目标发音组合,和/或,词图信息的复杂度小于预设复杂度;
目标训练数据确定模块,用于将所述训练数据中除所述第一训练数据之外的训练数据,确定为第二训练数据;
区分性训练模块,用于利用所述第二训练数据对所述目标模型进行区分性训练,直至区分性训练后的目标模型对应的语音识别***的识别准确率大于预设准确率,并将所述区分性训练后的目标模型作为声学模型。
可选地,所述第一训练数据确定模块,具体用于:
在每一训练数据对应的词图信息中,按照所述训练数据包括的子训练数据的先后顺序,依次查找各个子训练数据对应的子发音;
将各个子训练数据依次对应的子发音所组成的发音组合,确定为所述训练数据对应的所有发音组合;
在所述训练数据对应的所有发音组合不包括目标发音组合时,将所述训练数据确定为第一训练数据。
可选地,所述词图信息的复杂度为所述词图信息所包括的所有发音组合的数量;
所述第一训练数据确定模块,具体用于:
在每一训练数据对应的词图信息中,按照所述训练数据包括的子训练数据的先后顺序,依次查找各个子训练数据对应的子发音;
将各个子训练数据依次对应的子发音所组成的发音组合,确定为所述训练数据对应的所有发音组合;
在所述所有发音组合的数量小于预设数量时,将所述训练数据确定为第一训练数据。
可选地,所述词图信息的复杂度为所述词图信息的词图结点密度;
所述第一训练数据确定模块,具体用于:
在每一训练数据对应的词图信息中,确定所述训练数据对应的词图信息中的词图结点数;
根据所述词图结点数和所述训练数据所包括的子训练数据的帧数,确定所述训练数据对应的词图信息的词图结点密度;
将词图结点密度小于预设词图结点密度对应的训练数据确定为第一训练数据。
可选地,所述第一训练数据确定模块,具体用于:
按照词图结点密度从小到大的顺序,对所述训练数据进行排序;
将排序序号小于预设排序序号的训练数据确定为第一训练数据。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的声学模型训练方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的声学模型训练方法的步骤。
第五方面,本发明实施例提供了一种声学模型,所述声学模型通过第一方面所述的声学模型训练方法获得。
通过本发明实施例提供的技术方案,在对目标模型进行区分性训练之前,可以对训练数据进行筛选,将不利于区分性训练的第一训练数据即标注错误或者语音质量差的语音数据对应的训练数据,和/或,目标模型已经能够较好识别的第一训练数据筛选掉,利用剩下较少的第二训练数据继续对目标模型进行进一步的区分性训练,可以大大提升区分性训练后的目标模型即声学模型的识别准确率。并且,在对目标模型进行进一步区分性训练的过程中,可以大大降低数据处理计算量,目标模型的收敛性也较高。
附图说明
图1是本发明实施例提供的一种声学模型训练的大致流程的示意图;
图2是本发明实施例提供的一种声学模型训练方法的流程图;
图3是本发明实施例提供的一种对语音特征帧进行对齐和生成词图的示意图;
图4是图2所示实施例的S230的一种实现方式的流程图;
图5是图2所示实施例的S230的另一种实现方式的流程图;
图6是图2所示实施例的S230的又一种实现方式的流程图;
图7是本发明实施例提供的一种声学模型训练装置的结构框图;
图8是本发明实施例提供的一种电子设备的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
为了解决相关技术中存在的因声学模型的性能较低,而导致语音识别***的语音识别准确率的较低的技术问题,本发明实施例提供了一种声学模型训练方法、装置、电子设备及存储介质。
为了方案描述清楚,在对本发明实施例所提供的声学模型训练方法进行介绍之前,第一方面,首先对声学模型训练的大致流程进行简单说明。
如图1所示,声学模型训练的大致流程可以分为:将训练数据(包括多个语音特征帧)输入到目标模型中,该目标模型可以为:基于CE(Cross Entropy,交叉熵)训练好的CE模型,CE模型对训练数据进行对齐,并生成训练数据对应的词图信息,其中,训练数据是带有标注的语音数据的语音特征帧,即语音数据具有对应的标注文本数据。对齐过程就是根据标注文本数据得到每一语音特征帧对应的具体发音,进而得到训练数据对应的目标发音组合。词图信息包括语音特征帧可能的所有发音组合。在得到目标发音组合和词图信息之后,可以根据目标发音组合和词图中包括的所有发音组合,对训练数据进行两次数据筛选。
具体地,图1中的第一次数据筛选可以是将所有发音组合不包括目标发音组合的词图信息对应的训练数据筛选掉。将这部分数据筛选掉的原因是:如果词图信息的所有发音组合均不包含目标发音组合,那么训练数据对应的语音数据有可能存在标注错误即语音数据所具有的标签是错误的,或者,训练数据对应的语音数据的语音质量较差,因此,要将将所有发音组合不包括目标发音组合的词图信息对应的训练数据筛选掉。
图1中的第二次数据筛选可以是复杂度小于预设复杂度的词图信息对应的训练数据筛选掉。具体的,词图信息的复杂度可以用词图信息中所有发音组合的数量来表示,还可以用词图信息中的词图结点密度(词图结点数除以训练数据包括的语音特征帧的数量)来表示,这都是合理的。
将复杂度小于预设复杂度的词图信息对应的训练数据筛选掉的原因是:由于词图信息的复杂度可以间接反映出了训练数据的解码难度。词图信息的复杂度越大,说明所有发音组合即候选识别结果越多,这样的训练数据容易识别错误。因此,需要对词图信息的复杂度较高的训练数据进行进一步的区分性训练,也可以获得更大的收益,即声音模型的识别准确率会有较高提升。而词图信息的复杂度越小(接近1),说明目标模型对这部分训练数据已经能够非常好的识别,对它们进行进一步的区分性训练,不会再有收益,即声音模型的识别准确率几乎不会再有提升。
通过图1所示的第一次数据筛选和第二次数据筛选,训练数据可以大大减少,由于将标注错误或者语音质量差的语音数据对应的训练数据,以及,当前声学模型已经较好识别的训练数据除去掉,利用剩下较少的训练数据继续对目标模型进行进一步的区分性训练,可以大大提升区分性训练后的目标模型即声学模型的识别准确率。并且,在对目标模型进行进一步区分性训练的过程中,可以大大降低数据处理计算量,目标模型的收敛性较高。
在对声学模型训练的大致流程进行简单说明之后,第二方面,将对本发明实施例提供的一种声学模型训练方法进行详细介绍。如图2所示,本发明实施例提供的一种声学模型训练方法可以包括如下步骤,分别为:
S210,获取语音数据的语音特征帧,并将语音特征帧作为训练数据,并获取语音数据对应的标注文本数据。
可以理解的是,在训练声学模型时,需要采集大量训练数据。具体的,可以采集大量语音数据,并提取语音数据的语音特征帧,并将所提取的语音特征帧作为训练数据,并且,可以获取语音数据对应的标注文本数据。
其中,每一带有标签的语音数据的语音特征帧可以是多个,这多个语音特征帧组成一条训练数据。每一语音特征帧可以是一个固定维度的音频特征向量(如13维的MFCC特征,40维的fbank特征)。举例而言,语音数据对应的标注文本数据为美团点评,提取的语音特征帧可以是4个,分别为“美”对应的语音特征帧,“团”对应的语音特征帧,“点”对应的语音特征帧,以及,“评”对应的语音特征帧。
S220,将训练数据输入目标模型中,得到训练数据对应的目标发音组合,以及训练数据对应的词图信息。
其中,目标发音组合是基于语音数据的标注文本数据生成的,词图信息包括训练数据所对应的所有发音组合。
具体的,在得到训练数据后,可以将训练数据输入到目标模型中,该目标模型可以为CE模型。CE模型对训练数据进行对齐,并生成训练数据对应的词图信息。其中,对齐过程就是根据标签文本得到训练数据中的每一语音特征帧对应的具体发音,进而得到训练数据对应的目标发音组合。词图信息包括语音特征帧可能的所有发音组合。
举例而言,如图3所示,假设语音内容为“美团点评”,经过特征提取,4个语音特征帧,将4个语音特征帧输入到CE模型中,对4个语音特征帧进行对齐就是要得到每一语音特征帧对应的具体发音,得到的目标发音组合为:美→团→点→评。生成的词图信息如图3所示,词图信息中包括所有发音组合,例如,可以是:美→团→点→评;美→端→点→评;美→端→电→评;没→团→点→评;没→端→点→评;没→团→电→评等。
S230,确定训练数据中满足预设条件的词图信息所对应的第一训练数据。
其中,预设条件用于表征词图信息的所有发音组合不包括目标发音组合,和/或,词图信息的复杂度小于预设复杂度。
具体的,在实际应用中,如果词图信息的所有发音组合均不包含目标发音组合,那么训练数据对应的语音数据有可能存在标注错误即语音数据所具有的标签是错误的,或者,训练数据对应的语音数据的语音质量较差,因此,可以将该部分词图信息对应的训练数据确定为第一训练数据,以便后续步骤中将该第一训练数据筛选掉。
并且,由于词图信息的复杂度可以间接反映出了训练数据的解码难度。词图信息的复杂度越大,说明所有发音组合即候选识别结果越多,这样的训练数据容易识别错误。而词图信息的复杂度越小(接近1),说明当前声学模型对这部分训练数据已经能够非常好的识别,不需要再利用词图信息复杂度较小的训练数据对声学模型进行训练,因此,可以将词图信息复杂度较低的训练数据也确定为第一训练数据,以便后续步骤中将该第一训练数据筛选掉。
S240,将训练数据中除第一训练数据之外的训练数据确定为第二训练数据。
具体的,由步骤S230描述可知,第一训练数据是需要被筛选掉的训练数据,这样,可以有利于提升声学模型的识别准确率,并有利于减少声学模型训练过程的数据处理计算量,因此,将训练数据中除的第一训练数据除掉,并将训练数据中除第一训练数据之外的训练数据确定为第二训练数据,以便后续步骤中利用第二训练数据对目标模型进行区分性训练。
S250,利用第二训练数据对目标模型进行区分性训练,直至区分性训练后的目标模型对应的语音识别***的识别准确率大于预设准确率,并将区分性训练后的目标模型作为声学模型。
具体的,由于将标注错误或者语音质量差的语音数据对应的第一训练数据,以及,当前声学模型已经较好识别的第一训练数据除去掉,利用剩下较少的第二训练数据继续对当前声学模型即目标模型进行进一步的区分性训练,可以大大提升目标模型的识别准确率,直至区分性训练后的目标模型对应的语音识别***的识别准确率大于预设准确率,该预设准确率可以是90%等,本发明实施例对此不做具体限定。并且,在对目标模型进行进一步区分性训练的过程中,可以大大降低数据处理计算量,声学模型的收敛性较高。
通过本发明实施例提供的技术方案,在对目标模型进行区分性训练之前,可以对训练数据进行筛选,将不利于区分性训练的第一训练数据即标注错误或者语音质量差的语音数据对应的训练数据,和/或,目标模型已经能够较好识别的第一训练数据筛选掉,利用剩下较少的第二训练数据继续对目标模型进行进一步的区分性训练,可以大大提升区分性训练后的目标模型即声学模型的识别准确率。并且,在对目标模型进行进一步区分性训练的过程中,可以大大降低数据处理计算量,目标模型的收敛性也较高。
在图2所示实施例的基础上,为了准确地确定第一训练数据,在一种实施方式中,S230,确定训练数据中满足预设条件的词图信息所对应的第一训练数据,如图4所示,可以包括如下步骤:
S410,在每一训练数据对应的词图信息中,按照训练数据包括的子训练数据的先后顺序,依次查找各个子训练数据对应的子发音。
具体的,训练数据为语音特征帧,训练数据通常包括多帧语音特征帧,每帧语音特征帧可以称为一个子训练数据,每个子训练数据对应一个子发音。
仍以图3为例,训练数据为4帧语音特征帧,每帧语音特征帧为一个子训练数据,第一个子训练数据对应的子发音为美或者没;第二个子训练数据对应的子发音为团或者端;第三个子训练数据对应的子发音为点或者电;第四个子训练数据对应的子发音为评或者拼。
S420,将各个子训练数据依次对应的子发音所组成的发音组合,确定为训练数据对应的所有发音组合。
具体的,在得到各个子训练数据对应的子发音之后,可以将各个子训练数据依次对应的子发音所组成的发音组合,确定为训练数据对应的所有发音组合。仍以图3为例,所有发音组合包括:美→团→点→评;美→端→点→评;美→端→电→评;没→团→点→评;没→端→点→评;没→团→电→评;美→团→点→拼等。
S430,在训练数据对应的所有发音组合不包括目标发音组合时,将训练数据确定为第一训练数据。
在得到词图信息中的所有发音组合后,可以判断所有发音组合是否包括目标发音组合。仍以图3为例,目标发音组合为美→团→点→评,可见,所有发音组合包括:美→团→点→评,即包括目标发音组合。如果所有发音组合不包括:美→团→点→评,则将该训练数据确定为第一训练数据。
这是由于如果词图信息的所有发音组合均不包含目标发音组合,那么训练数据对应的语音数据有可能存在标注错误即语音数据所具有的标签是错误的,或者,训练数据对应的语音数据的语音质量较差,因此,可以将该部分词图信息对应的训练数据确定为第一训练数据,以便后续步骤中将该第一训练数据筛选掉。
在图2所示实施例的基础上,为了准确地确定第一训练数据,在一种实施方式中,词图信息的复杂度为词图信息所包括的所有发音组合的数量;
此时,S230,确定训练数据中满足预设条件的词图信息所对应的第一训练数据,如图5所示,可以包括如下步骤:
S510,在每一训练数据对应的词图信息中,按照训练数据包括的子训练数据的先后顺序,依次查找各个子训练数据对应的子发音。
具体的,训练数据为语音特征帧,训练数据通常包括多帧语音特征帧,每帧语音特征帧可以称为一个子训练数据,每个子训练数据对应一个子发音。
仍以图3为例,训练数据为4帧语音特征帧,每帧语音特征帧为一个子训练数据,第一个子训练数据对应的子发音为美或者没;第二个子训练数据对应的子发音为团或者端;第三个子训练数据对应的子发音为点或者电;第四个子训练数据对应的子发音为评或者拼。
S520,将各个子训练数据依次对应的子发音所组成的发音组合,确定为训练数据对应的所有发音组合。
具体的,在得到各个子训练数据对应的子发音之后,可以将各个子训练数据依次对应的子发音所组成的发音组合,确定为训练数据对应的所有发音组合。仍以图3为例,所有发音组合包括:美→团→点→评;美→端→点→评;美→端→电→评;没→团→点→评;没→端→点→评;没→团→电→评;美→团→点→拼等。
S530,在所有发音组合的数量小于预设数量时,将训练数据确定为第一训练数据。
在确定了词图信息包括的所有发音组合之后,可以判断词图信息包括的所有发音组合的数量是否小于预设数量,如果发音组合数量小于预设数量,说明候选识别结果较少,说明当前声学模型对这部分训练数据已经能够非常好的识别,对它们进行进一步的区分性训练,不会再有收益,即声音模型的识别准确率几乎不会再有提升,因此,将这部分训练数据确定为第一训练数据。
可见,通过将当前声学模型已经能够非常好的识别的训练数据确定为第一训练数据,以便后续步骤中,将这部分第一训练数据筛选掉。
在图2所示实施例的基础上,为了准确地确定第一训练数据,词图信息的复杂度为词图信息的词图结点密度;
此时,S230,确定训练数据中满足预设条件的词图信息所对应的第一训练数据,如图6所示,可以包括如下步骤:
S610,在每一训练数据对应的词图信息中,确定训练数据对应的词图信息中的词图结点数。
具体的,词图结点数即为词图信息中包括的结点的数量。仍以图3为例,词图结点数为8个,分别为:标有“美”的结点;标有“没”的结点;标有“团”的结点;标有“端”的结点;标有“点”的结点;标有“电”的结点;标有“评”的结点,以及,标有“拼”的结点。
S620,根据词图结点数和训练数据所包括的子训练数据的帧数,确定训练数据对应的词图信息的词图结点密度。
具体的,将词图结点数除以子训练数据的帧数,得到词图结点密度。仍以图3为例,词图结点数为8,子训练数据的帧数为4,那么,词图结点密度为2。
S630,将词图结点密度小于预设词图结点密度对应的训练数据确定为第一训练数据。
具体的,词图节点密度越小,说明候选识别结果较少,当前声学模型对这部分训练数据已经能够非常好的识别,对它们进行进一步的区分性训练,不会再有收益,即声音模型的识别准确率几乎不会再有提升,因此,将这部分训练数据确定为第一训练数据。其中,预设词图结点密度可以根据实际情况进行确定,例如,可以为3,本发明实施例对此不做具体限定。
作为本发明实施例的一种实现方式,将词图结点密度小于预设词图结点密度的训练数据确定为第一训练数据,可以包括:
按照词图结点密度从小到大的顺序,对训练数据进行排序;
将排序序号小于预设排序序号的训练数据确定为第一训练数据。
在该实施方式中,可以将训练数据按照词图结点密度从小到大的顺序进行排序;将排序序号小于预设排序序号的训练数据确定为第一训练数据,从而将复杂度较低的词图信息对应的训练数据确定为第一训练数据。
可见,通过将当前声学模型已经能够非常好的识别的训练数据确定为第一训练数据,以便后续步骤中,将这部分第一训练数据筛选掉。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作并不一定是本申请所必须的。
本发明实施例还提供了一种声学模型训练装置,如图7所示,所述装置包括:
训练数据获取模块710,用于获取语音数据的语音特征帧,将所述语音特征帧作为训练数据,并获取所述语音数据对应的标注文本数据;
训练数据输入模块720,用于将所述训练数据输入目标模型中,得到所述训练数据对应的目标发音组合,以及所述训练数据对应的词图信息,其中,所述目标发音组合是基于所述标注文本数据生成的,所述词图信息包括所述训练数据所对应的所有发音组合;
第一训练数据确定模块730,用于确定所述训练数据中满足预设条件的词图信息所对应的第一训练数据,所述预设条件用于表征词图信息的所有发音组合不包括所述目标发音组合,和/或,词图信息的复杂度小于预设复杂度;
目标训练数据确定模块740,用于将所述训练数据中除所述第一训练数据之外的训练数据,确定为第二训练数据;
区分性训练模块750,用于利用所述第二训练数据对所述目标模型进行区分性训练,直至区分性训练后的目标模型对应的语音识别***的识别准确率大于预设准确率,并将所述区分性训练后的目标模型作为声学模型。
通过本发明实施例提供的技术方案,在对目标模型进行区分性训练之前,可以对训练数据进行筛选,将不利于区分性训练的第一训练数据即标注错误或者语音质量差的语音数据对应的训练数据,和/或,目标模型已经能够较好识别的第一训练数据筛选掉,利用剩下较少的第二训练数据继续对目标模型进行进一步的区分性训练,可以大大提升区分性训练后的目标模型即声学模型的识别准确率。并且,在对目标模型进行进一步区分性训练的过程中,可以大大降低数据处理计算量,目标模型的收敛性也较高。
可选地,所述第一训练数据确定模块,具体用于:
在每一训练数据对应的词图信息中,按照所述训练数据包括的子训练数据的先后顺序,依次查找各个子训练数据对应的子发音;
将各个子训练数据依次对应的子发音所组成的发音组合,确定为所述训练数据对应的所有发音组合;
在所述训练数据对应的所有发音组合不包括目标发音组合时,将所述训练数据确定为第一训练数据。
可选地,所述词图信息的复杂度为所述词图信息所包括的所有发音组合的数量;
所述第一训练数据确定模块,具体用于:
在每一训练数据对应的词图信息中,按照所述训练数据包括的子训练数据的先后顺序,依次查找各个子训练数据对应的子发音;
将各个子训练数据依次对应的子发音所组成的发音组合,确定为所述训练数据对应的所有发音组合;
在所述所有发音组合的数量小于预设数量时,将所述训练数据确定为第一训练数据。
可选地,所述词图信息的复杂度为所述词图信息的词图结点密度;
所述第一训练数据确定模块,具体用于:
在每一训练数据对应的词图信息中,确定所述训练数据对应的词图信息中的词图结点数;
根据所述词图结点数和所述训练数据所包括的子训练数据的帧数,确定所述训练数据对应的词图信息的词图结点密度;
将词图结点密度小于预设词图结点密度对应的训练数据确定为第一训练数据。
可选地,所述第一训练数据确定模块,具体用于:
按照词图结点密度从小到大的顺序,对所述训练数据进行排序;
将排序序号小于预设排序序号的训练数据确定为第一训练数据。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
第三方面,本发明实施例提供了一种电子设备,如图8所示,包括存储器810、处理器820及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的声学模型训练方法的步骤。
通过本发明实施例提供的技术方案,在对目标模型进行区分性训练之前,可以对训练数据进行筛选,将不利于区分性训练的第一训练数据即标注错误或者语音质量差的语音数据对应的训练数据,和/或,目标模型已经能够较好识别的第一训练数据筛选掉,利用剩下较少的第二训练数据继续对目标模型进行进一步的区分性训练,可以大大提升区分性训练后的目标模型即声学模型的识别准确率。并且,在对目标模型进行进一步区分性训练的过程中,可以大大降低数据处理计算量,目标模型的收敛性也较高。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的声学模型训练方法的步骤。
通过本发明实施例提供的技术方案,在对目标模型进行区分性训练之前,可以对训练数据进行筛选,将不利于区分性训练的第一训练数据即标注错误或者语音质量差的语音数据对应的训练数据,和/或,目标模型已经能够较好识别的第一训练数据筛选掉,利用剩下较少的第二训练数据继续对目标模型进行进一步的区分性训练,可以大大提升区分性训练后的目标模型即声学模型的识别准确率。并且,在对目标模型进行进一步区分性训练的过程中,可以大大降低数据处理计算量,目标模型的收敛性也较高。
第五方面,本发明实施例提供了一种声学模型,所述声学模型通过第一方面所述的声学模型训练方法获得。
通过本发明实施例提供的技术方案,在对目标模型进行区分性训练之前,可以对训练数据进行筛选,将不利于区分性训练的第一训练数据即标注错误或者语音质量差的语音数据对应的训练数据,和/或,目标模型已经能够较好识别的第一训练数据筛选掉,利用剩下较少的第二训练数据继续对目标模型进行进一步的区分性训练,可以大大提升区分性训练后的目标模型即声学模型的识别准确率。并且,在对目标模型进行进一步区分性训练的过程中,可以大大降低数据处理计算量,目标模型的收敛性也较高。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种声学模型训练方法和一种声学模型训练装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种声学模型训练方法,其特征在于,所述方法包括:
获取语音数据的语音特征帧,将所述语音特征帧作为训练数据,并获取所述语音数据对应的标注文本数据;
将所述训练数据输入目标模型中,得到所述训练数据对应的目标发音组合以及所述训练数据对应的词图信息,其中,所述目标发音组合是基于所述标注文本数据生成的,所述词图信息包括所述训练数据所对应的所有发音组合;
确定所述训练数据中满足预设条件的词图信息所对应的第一训练数据,所述预设条件用于表征词图信息的所有发音组合不包括所述目标发音组合,和/或,词图信息的复杂度小于预设复杂度,所述词图信息的复杂度为所述词图信息所包括的所有发音组合的数量,或者为所述词图信息的词图结点密度;
将所述训练数据中除所述第一训练数据之外的训练数据确定为第二训练数据;
利用所述第二训练数据对所述目标模型进行区分性训练,直至区分性训练后的目标模型对应的语音识别***的识别准确率大于预设准确率,并将所述区分性训练后的目标模型作为声学模型。
2.根据权利要求1所述的方法,其特征在于,所述确定所述训练数据中满足预设条件的词图信息所对应的第一训练数据,包括:
在每一训练数据对应的词图信息中,按照所述训练数据包括的子训练数据的先后顺序,依次查找各个子训练数据对应的子发音;
将各个子训练数据依次对应的子发音所组成的发音组合,确定为所述训练数据对应的所有发音组合;
在所述训练数据对应的所有发音组合不包括目标发音组合时,将所述训练数据确定为第一训练数据。
3.根据权利要求1所述的方法,其特征在于,所述词图信息的复杂度为所述词图信息所包括的所有发音组合的数量;
所述确定所述训练数据中满足预设条件的词图信息所对应的第一训练数据,包括:
在每一训练数据对应的词图信息中,按照所述训练数据包括的子训练数据的先后顺序,依次查找各个子训练数据对应的子发音;
将各个子训练数据依次对应的子发音所组成的发音组合,确定为所述训练数据对应的所有发音组合;
在所述所有发音组合的数量小于预设数量时,将所述训练数据确定为第一训练数据。
4.根据权利要求1所述的方法,其特征在于,所述词图信息的复杂度为所述词图信息的词图结点密度;
所述确定所述训练数据中满足预设条件的词图信息所对应的第一训练数据,包括:
在每一训练数据对应的词图信息中,确定所述训练数据对应的词图信息中的词图结点数;
根据所述词图结点数和所述训练数据所包括的子训练数据的帧数,确定所述训练数据对应的词图信息的词图结点密度;
将词图结点密度小于预设词图结点密度对应的训练数据确定为第一训练数据。
5.根据权利要求4所述的方法,其特征在于,所述将词图结点密度小于预设词图结点密度的训练数据确定为第一训练数据,包括:
按照词图结点密度从小到大的顺序,对所述训练数据进行排序;
将排序序号小于预设排序序号的训练数据确定为第一训练数据。
6.一种声学模型训练装置,其特征在于,所述装置包括:
训练数据获取模块,用于获取语音数据的语音特征帧,将所述语音特征帧作为训练数据,并获取所述语音数据对应的标注文本数据;
训练数据输入模块,用于将所述训练数据输入目标模型中,得到所述训练数据对应的目标发音组合,以及所述训练数据对应的词图信息,其中,所述目标发音组合是基于所述标注文本数据生成的,所述词图信息包括所述训练数据所对应的所有发音组合;
第一训练数据确定模块,用于确定所述训练数据中满足预设条件的词图信息所对应的第一训练数据,所述预设条件用于表征词图信息的所有发音组合不包括所述目标发音组合,和/或,词图信息的复杂度小于预设复杂度,所述词图信息的复杂度为所述词图信息所包括的所有发音组合的数量,或者为所述词图信息的词图结点密度;
目标训练数据确定模块,用于将所述训练数据中除所述第一训练数据之外的训练数据,确定为第二训练数据;
区分性训练模块,用于利用所述第二训练数据对所述目标模型进行区分性训练,直至区分性训练后的目标模型对应的语音识别***的识别准确率大于预设准确率,并将所述区分性训练后的目标模型作为声学模型。
7.根据权利要求6所述的装置,其特征在于,所述第一训练数据确定模块,具体用于:
在每一训练数据对应的词图信息中,按照所述训练数据包括的子训练数据的先后顺序,依次查找各个子训练数据对应的子发音;
将各个子训练数据依次对应的子发音所组成的发音组合,确定为所述训练数据对应的所有发音组合;
在所述训练数据对应的所有发音组合不包括目标发音组合时,将所述训练数据确定为第一训练数据。
8.根据权利要求6所述的装置,其特征在于,所述词图信息的复杂度为所述词图信息所包括的所有发音组合的数量;
所述第一训练数据确定模块,具体用于:
在每一训练数据对应的词图信息中,按照所述训练数据包括的子训练数据的先后顺序,依次查找各个子训练数据对应的子发音;
将各个子训练数据依次对应的子发音所组成的发音组合,确定为所述训练数据对应的所有发音组合;
在所述所有发音组合的数量小于预设数量时,将所述训练数据确定为第一训练数据。
9.根据权利要求6所述的装置,其特征在于,所述词图信息的复杂度为所述词图信息的词图结点密度;
所述第一训练数据确定模块,具体用于:
在每一训练数据对应的词图信息中,确定所述训练数据对应的词图信息中的词图结点数;
根据所述词图结点数和所述训练数据所包括的子训练数据的帧数,确定所述训练数据对应的词图信息的词图结点密度;
将词图结点密度小于预设词图结点密度对应的训练数据确定为第一训练数据。
10.根据权利要求9所述的装置,其特征在于,所述第一训练数据确定模块,具体用于:
按照词图结点密度从小到大的顺序,对所述训练数据进行排序;
将排序序号小于预设排序序号的训练数据确定为第一训练数据。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5中任一项所述的声学模型训练方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的声学模型训练方法的步骤。
13.一种声学模型,其特征在于,所述声学模型通过权利要求1至5中任一项所述的声学模型训练方法获得。
CN202010291790.9A 2020-04-14 2020-04-14 声学模型训练方法、装置、电子设备及存储介质 Active CN111613209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010291790.9A CN111613209B (zh) 2020-04-14 2020-04-14 声学模型训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010291790.9A CN111613209B (zh) 2020-04-14 2020-04-14 声学模型训练方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111613209A CN111613209A (zh) 2020-09-01
CN111613209B true CN111613209B (zh) 2023-05-26

Family

ID=72201980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010291790.9A Active CN111613209B (zh) 2020-04-14 2020-04-14 声学模型训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111613209B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669816B (zh) * 2020-12-24 2023-06-02 北京有竹居网络技术有限公司 模型的训练方法、语音识别方法、装置、介质及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108711421A (zh) * 2017-04-10 2018-10-26 北京猎户星空科技有限公司 一种语音识别声学模型建立方法及装置和电子设备
CN110827805A (zh) * 2019-12-09 2020-02-21 苏州思必驰信息科技有限公司 语音识别模型训练方法、语音识别方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976812B (zh) * 2016-04-28 2019-04-26 腾讯科技(深圳)有限公司 一种语音识别方法及其设备
US10825445B2 (en) * 2017-03-23 2020-11-03 Samsung Electronics Co., Ltd. Method and apparatus for training acoustic model
CN109243460A (zh) * 2018-08-15 2019-01-18 浙江讯飞智能科技有限公司 一种自动生成基于地方方言的讯或询问笔录的方法
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
CN110379415B (zh) * 2019-07-24 2022-02-18 出门问问(苏州)信息科技有限公司 领域自适应声学模型的训练方法
CN110930980B (zh) * 2019-12-12 2022-08-05 思必驰科技股份有限公司 一种中英文混合语音的声学识别方法及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108711421A (zh) * 2017-04-10 2018-10-26 北京猎户星空科技有限公司 一种语音识别声学模型建立方法及装置和电子设备
CN110827805A (zh) * 2019-12-09 2020-02-21 苏州思必驰信息科技有限公司 语音识别模型训练方法、语音识别方法和装置

Also Published As

Publication number Publication date
CN111613209A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN110728997B (zh) 一种基于情景感知的多模态抑郁症检测***
CN107291783B (zh) 一种语义匹配方法及智能设备
CN107844481B (zh) 识别文本检错方法及装置
CN108710704B (zh) 对话状态的确定方法、装置、电子设备及存储介质
CN110930993A (zh) 特定领域语言模型生成方法及语音数据标注***
CN111653274B (zh) 唤醒词识别的方法、装置及存储介质
CN101609672B (zh) 一种语音识别语义置信特征提取的方法和装置
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN111599339B (zh) 具有高自然度的语音拼接合成方法、***、设备及介质
CN111402865A (zh) 语音识别训练数据的生成方法、语音识别模型的训练方法
CN111613209B (zh) 声学模型训练方法、装置、电子设备及存储介质
CN113257230B (zh) 语音处理方法及装置、计算机可存储介质
CN115345177A (zh) 意图识别模型训练方法和对话方法及装置
CN113393841B (zh) 语音识别模型的训练方法、装置、设备及存储介质
CN110570838B (zh) 语音流处理方法和装置
CN113409768A (zh) 发音检测方法、装置及计算机可读介质
CN111831792A (zh) 一种电力知识库构建方法及***
CN111785256A (zh) 声学模型训练方法、装置、电子设备及存储介质
CN111554270A (zh) 训练样本筛选方法及电子设备
CN113763934A (zh) 音频识别模型的训练方法、装置和存储介质及电子设备
CN111599363B (zh) 一种语音识别的方法及其装置
CN109885827B (zh) 一种基于深度学习的命名实体的识别方法和***
CN112397053A (zh) 语音识别方法、装置、电子设备及可读存储介质
CN117611845B (zh) 多模态数据的关联识别方法、装置、设备及存储介质
CN113377915B (zh) 对话篇章解析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant