CN111063335A - 一种基于神经网络的端到端声调识别方法 - Google Patents

一种基于神经网络的端到端声调识别方法 Download PDF

Info

Publication number
CN111063335A
CN111063335A CN201911310349.4A CN201911310349A CN111063335A CN 111063335 A CN111063335 A CN 111063335A CN 201911310349 A CN201911310349 A CN 201911310349A CN 111063335 A CN111063335 A CN 111063335A
Authority
CN
China
Prior art keywords
tone
syllable
network
neural network
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911310349.4A
Other languages
English (en)
Other versions
CN111063335B (zh
Inventor
黄浩
王凯
胡英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang University
Original Assignee
Xinjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang University filed Critical Xinjiang University
Priority to CN201911310349.4A priority Critical patent/CN111063335B/zh
Publication of CN111063335A publication Critical patent/CN111063335A/zh
Application granted granted Critical
Publication of CN111063335B publication Critical patent/CN111063335B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于神经网络的端到端声调识别方法,包括:构建端到端声调识别模型,确定神经网络的层数、隐含层节点数等所需的各项超参数;在训练集上训练语音识别声学模型,利用强制对齐获得每个音节的开始和结束时间;将选取的训练语音数据以及每个音节的声调标签送入到端到端声调识别模型进行训练优化,获取优化的神经网络模型参数;不断调节神经网络模型参数,选取最优的网络模型参数;获得测试语音,在给定句子内容文本条件下,利用强制对齐获得每个音节的开始和结束时间;未给定时,使用自动语音识别获得每个音节的开始和结束时间;对选取的训练语音数据以及音节时间标记送入到端到端声调识别模型中进行识别,最终得到每个测试数据中每个音节的声调类型。

Description

一种基于神经网络的端到端声调识别方法
技术领域
本发明涉及中文普通话声调识别领域,尤其涉及一种基于神经网络的端到端声调识别方法。
背景技术
随着人工智能技术的快速发展,对于语音技术的研究也在不断深入,包含语音识别、语音合成、语音分离、语音转换及说话人识别等技术领域,在这些涉及领域内通过实验发现语音的音调对有调语言的实验结果有很大的影响,在中文普通话中,声调分为五种,分别为阴平,阳平,上声,去声以及没有调,汉语中所说为一声平(—)、二声扬(/)、三声拐弯(∨)、四声降(\)和无声调。在普通话中声调是非常重要的一部分,如果声调错误,就会发生歧义,使语音理解出现错误,对普通话的声调的研究很有必要。声调识别是语音领域的一个重要的研究方向,其主要目的是能较准确地得到有调语言语音的声调,提高语音识别、语音合成等任务的精确度。传统的声调识别采用经典的分类算法,即前端的特征提取和后端分类器。传统的声调分类则包含作为特征的基频特征的获取,和对声调分类独立的两个阶段。
针对基频特征的提取方法,可以采用时域分析法、频域分析法或者混合法,时域分析法包含自相关法、平均幅度差法等,频域分析法包括倒谱法等。这些方法均为人工设计的启发式的基频提取算法,算法的设置均为人工依靠实验语音学进行经验设定。针对后端的声调分类模型,在对声调进行分类时,主要采用传统模式识别中的分类器模型,比如支持向量机模型、高斯混合模型、决策树模型、高斯混合模型-隐马尔可夫模型、条件随机场模型、或者神经网络模型等等。
上述声调分类模型分为两类:基于帧特征的声调分类模型和基于段特征的声调分类模型。基于帧特征的声调分类模型包括高斯混合模型-隐马尔可夫模型、条件随机场模型;基于段特征的声调分类模型有支持向量机模型、高斯混合模型、决策树模型等。基于帧特征的声调分类模型可以对提取出的基频相关特征直接进行处理,以可变长序列的形式作为输入计算给定输入序列条件下的声调模型后验概率进行声调分类。基于段特征的方法只能处理固定维度的输入特征向量,因此需要先提出基频相关的特征序列,然后将基频特征序列利用人工方法转化成一个包含声调信息的固定维度观测向量,再送入基于段特征的分类器训练出声调模型,最后将要测试的声调数据根据声调模型进行分类,获得正确的识别结果,从而完成整个声调识别的流程。
目前现有声调分类技术存在以下两个主要问题:
一方面是传统基频提取方法还不够完善,提取出的基频值不够准确。这种基频提取的不准确性导致在后续进行声调分类时,得到的分类结果也不够准确;
另一方面,只使用传统基频提取方法得到的基频值在进行对声调分类时,只使用人工设计的基频特征不能完全包含有助于声调分类的信息,也将会使最后的声调分类结果不一定能够达到最优。传统声调识别的方法分为特征提取和分类器训练两个阶段,每一个阶段都需要大量的调参,以上都使得两阶段的声调识别不一定能够达到总体的最优结果。
发明内容
本发明提供了一种基于神经网络的端到端声调识别方法,将传统的先提取基频特征构架和在后的声调分类架构联合学习,进行端到端的声调识别,实现对声调的精确分类,详见下文描述:
一种基于神经网络的端到端声调识别方法,所述方法包括:
一、训练声调识别***模型:
构建端到端声调识别模型,确定神经网络的层数、隐含层节点数等所需的各项超参数;
在训练集上训练语音识别声学模型,利用强制对齐获得每个音节的开始和结束时间;
将选取的训练语音数据以及每个音节的声调标签送入到端到端声调识别模型进行训练优化,获取优化的神经网络模型参数;
不断调节神经网络模型参数,选取最优的网络模型参数;
二、声调识别:
获得测试语音,在给定句子内容文本条件下,利用强制对齐获得每个音节的开始和结束时间;未给定时,使用自动语音识别获得每个音节的开始和结束时间;
对选取的训练语音数据送入到端到端声调识别模型中进行识别,最终得到每个测试数据中每个音节的声调类型。
所述方法构建可训练的深度神经网络模型,再将基频提取神经网络与声调解码神经网络相结合,形成一个端到端的神经网络声调分类模型,这两部分网络参数在训练阶段同时训练调优。
其中,所述基频提取神经网络为基于循环神经网络的编码器-解码器,该网络分为基频编码器网络和基频解码器网络两个部分。
进一步地,所述基频编码器网络利用循环神经网络将语音进行编码,基频解码器网络从语音的最后一帧开始预测基频标签,根据预测出的基频标签,将其转换为可训练的基频嵌入向量,通过前一时刻的基频编码预测前一时刻的基频标签,直至第一帧的基频标签预测完毕为止;
预测完每帧的声调标签后,利用预先定义的标签与频率对应关系转换为整个语音的基频值序列。
其中,所述声调解码神经网络分为两个部分:声调表示网络以及标签相关的声调分类网络;
所述声调表示网络将预测出的基频序列按照每个音节映射成为固定维度的向量;
所述声调分类网络根据上一个音节预测出的标签和当前音节的固定维度向量来预测当前音节的声调类型。
进一步地,所述声调分类网络根据上一个音节预测出的标签和当前音节的固定维度向量来预测当前音节的声调类型具体为:
先根据第1个音节的固定维度表示与一个句子起始对应的固定维度相拼接送入声调分类网络预测第1个音节的声调类型;
根据预测出来的第1个音节的声调类型转换为相应的声调标签再与第2个音节的固定维度表示作为联合输入送入声调分类网络得到第2个音节的声调类型;
如此循环,直至最后一个音节的声调被预测出来为止。
本发明提供的技术方案的有益效果是:
1、与传统的独立两阶段(基频特征提取与声调分类)的声调识别方法相比,本发明通过端到端的联合方法,可以减少人工设计算法的不足,使声调分类结果能够获得更优的分类结果;
2、本发明提高了普通话声调识别的精确度,打破传统的声调识别分为两个阶段(基频特征提取与声调分类)的框架,构造了一种端到端的声调模型。端到端的模型能够把传统声调识别的两个阶段所使用两个网络:即特征提取网络和声调分类网络作为一个网络整体进行联合训练,这种方法可以绕过人工设计的环节,整个模型的网络参数可以进行联合优化,从而能够得到汉语普通话声调识别的精确度,适用于带调语言的声调问题处理;
3、针对特征提取网络,本发明使用了一种编码器-解码器的基频提取网络,这种基频提取网络使用一种循环神经网络的编码器将整个输入序列映射为一个固定维度的特征向量,并根据这个特征向量按时间倒序推断出每一帧所对应的基频标签;
4、针对声调识别网络采用了一种标签相关的声调解码网络,该解码网络预测当前声调标签时不仅使用当前音节的基频提取网络的特征,还使用了前一个声调预测出来的声调标签值,这使得声调识别时考虑了上下文的声调类型之间的影响,可以获得更好的声调识别结果。
附图说明
图1为端到端声调识别网络总体框架图;
图2为基频特征表示网络图;
图3为声调嵌入表示网络图;
图4为声调预测网络图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明从普通话的孤立或者连续语音流中识别出每个音节发音所代表的声调类别,提出一种基于循环神经网络的编码器-解码器(Encoder-Decoder)的基频特征提取网络与声调标签相关识别网络结合的端到端声调识别方法,将传统的先由基频(Pitch或F0)特征获取架构和在后进行声调分类架构形成一个统一的网络模型,实现了无需显式提取基频特征的端到端的声调识别。
声调识别的作用是能够识别出语音中的音调,获取语音中包含的音调信息,使获取的音调信息能够满足在语音识别、语音合成、语音转换等任务上的要求,使任务能够更准确的实现,同时对于一些学习第二种有调语言的非本母语的人来说,如外国人学习中文,声调识别将有助于纠正错误,提高学习的效率。
在基频特征提取网络中提出编码器-解码器的网络结构来考虑基频提取的准确性,在声调识别网络中采用声调标签相关的解码网络,最后将两个网络结合在一起作为一个整体网络,并且对参数进行联合优化。本方法能够使声调识别的结果更加精确,效率更高,在科学研究或是日常的应用都能够有很好的效果。
实施例1
为了解决上述问题,本发明采用一种基于神经网络的端到端的声调识别方法,该方法将传统的先提取基频相关特征然后再进行声调分类的两阶段分类问题转化为单一阶段的网络模型进行参数的联合调优,从而实现端到端的声调识别。
目前基于端到端的方法已经成为当前人工智能技术的研究热点,如端到端的语音识别、端到端的语音合成、端到端的语音转换等,端到端的技术可以减少实验超参数的人工设定并得到更优的性能。
本发明克服了传统两阶段声调识别方法基频提取阶段和声调分类阶段单独设计的不足。将传统基频提取方法的人工启发式算法替换成一个数据驱动的可训练的深度神经网络模型,再将基频提取神经网络与声调解码神经网络相结合,最终形成一个端到端的神经网络声调分类模型。
本发明将端到端的声调识别深度神经网络模型分为两个子网络:基频提取网络部分和声调解码网络部分。对于基频提取网络,提出一种基于循环神经网络的编码器-解码器的基频提取模型网络。该网络分为基频编码器网络和基频解码器网络两个部分。基频编码器网络是一个循环神经网络,在给定输入序列时,基频编码器网络将输入序列映射为相同长度的隐含状态的序列。基频解码器网络是一个前馈神经网络,为预测当前时刻的基频标签,需要将后一时刻的基频标签和当前时刻的编码器隐状态作为基频解码器的共同输入来决定当前时刻的基频标签。
获得整句语音的基频标签后,通过标签与基频值的映射关系转换为连续的基频值的序列。这种映射关系可以采用固定的基频标签与基频值的非线性映射关系,也可以采用称为基频嵌入的方法,采用可训练的基频池,将预测出的基频标签转换为实数表示的基频值,再将该基频预测网络输出的基频值送入声调解码器进行解码。
声调解码器可以采用传统的深度前馈神经网络、循环神经网络或者卷积神经网络等。声调解码器根据基频提取网络的输出来预测一句语音中每个音节的声调。本发明中提出一种基于声调标签相关的声调解码网络。该网络分为两个部分:声调表示网络以及标签相关的声调分类网络。声调表示网络将基频提取网络的每个音节对应的变长基频序列映射成为一个固定维度的向量。标签相关的声调分类网络根据当前音节的固定维度表示和前一个音节的标签类型来预测当前声调的类型。
具体实施过程为,每个声调分类网络依照各个音节的顺序依次预测每个音节的标签:先根据第1个音节的固定维度表示与一个BOS(句子起始)对应的固定维度相拼接送入声调分类网络预测第1个音节的声调类型;根据预测出来的第1个音节的声调类型转换为相应的声调标签再与第2个音节的固定维度表示作为联合输入送入声调分类网络得到第2个音节的声调类型,如此循环,直至最后一个音节的声调被预测出来为止。
本发明针对汉语普通话的声调识别,提高了从原始音频中自动对语音中各个音节进行声调分类的能力。
本发明的描述用来获取语音中包含的音调信息,使获取的音调信息能够满足在语音识别、语音合成、语音转换等任务上的要求,使任务能够更准确的实现。声调识别对于一些学习第二种有调语言的非本母语的人来说,如外国人学习中文,声调识别将有助于纠正发音错误,改进第二语言的学习效果。本方法能够使声调识别的结果较传统方法更精确,在科学研究或是日常的应用都能够有很好的效果。
本发明所述的技术克服了传统的两阶段声调分类方法的不足,采用一种数据驱动的神经网络替换传统的基频提取算法,再将基频提取网络与后端声调识别网络合并形成一个统一的声调识别网络,在训练数据上对整个网络进行参数的联合调优,从而获得更好的声调识别结果。对基频提取网络设计了基于编码器-解码器的提取网络,能够更好地提取基频特征。针对声调解码网络设计了上下文相关的声调预测网络,能够更好地进行声调识别。
实施例2
下面结合具体的实例对实施例1中的方案进行进一步地介绍,详见下文描述:
一、训练声调识别***模型:
步骤1:选取一定数量的普通话语音数据作为声调模型的训练数据(也称为样本);
步骤2:构建训练自动语音识别的声学模型,在给定句子内容文本条件下,利用强制对齐的方法获得每个音节的开始和结束时间;
步骤3:构建端到端声调识别模型,确定神经网络的层数、隐含层节点数等所需的各项超参数;
步骤4:根据端到端声调识别模型选定的输入对数据进行必要的预处理;
步骤5:将选取的训练语音数据送入到构建好的端到端声调识别模型进行训练优化,获取优化的神经网络模型参数,其中训练的速度取决于机器的配置和训练数据的规模;
步骤6:不断调节声调分类模型神经网络参数,并不断观察训练模型的结果,选取最优的网络模型参数,保存训练好的声调分类模型神经网络参数。
二、进行声调识别:
步骤1:获得测试语音,在给定句子内容文本条件下,利用强制对齐的方法获得每个音节的开始和结束时间;在未给定句子内容文本条件下,使用自动语音识别的方法获得每个音节的开始和结束时间;
步骤2:根据端到端声调识别模型选定的输入对数据进行必要的预处理;
步骤3:对选取的训练语音数据送入到训练好参数的端到端声调识别模型中进行识别,最终得到每个测试数据中每个音节的声调类型。
实施例3
下面结合具体的实例、计算公式对实施例1和2中的方案进行进一步地介绍,详见下文描述:
(1)训练语音识别声学模型
在进行音调模型任务之前,需要用语音数据来训练一个基于高斯混合模型-隐马尔可夫模型(GMM-HMM)或深度神经网络-隐马尔可夫模型(DNN-HMM)的语音识别声学模型。在训练数据上,此时给定了每句语音的发音标注,利用语音识别声学模型使用语音识别技术中的强制对齐的方法获得该语音输入对应的每个音节的起始和结束时间。在测试数据上,在未给定语句的标注内容文本时,使用语音识别解码的方法获得该语音输入对应的音节文本以及每个音节的起始与结束时间。由对齐的音素段可以得到音素段的音素边界信息,作为声调识别分类的边界依据。
(2)预处理网络
输入为语音的原始波形,基频特征提取网络可以采用原始波形采样,此时输入采用1024个语音样本。输入也可以归一化互相关函数计算出来的归一化互相关函数系数。
其计算方法为:在第f帧,从语音序列中截取一个窗口序列wf并进行窗口归一化,再从wf当中截取一个长度为n的子序列vf,l,其中l是时滞索引,表示vf,l在wf中的偏移量。根据不同的时滞索引l来计算不同的归一化互相关函数系数。
归一化互相关函数系数采用以下公式来计算:
Figure BDA0002324346050000071
其中,vf,0为时滞索引l=0的vf,l,A为人工经验设定的惩罚因子。
(3)训练基频特征提取网络
利用人工标记或传统基音频率提取算法提取基音频率,并利用基频值对应的N个基频状态作为基频特征提取网络的训练标签。给定从第1帧到第F帧基频网络的输入值,基频网络循环神经网络的编码器RNN进行前向计算,计算至F帧时得到的隐含层的输出(h1,h2,...,hF):
hf=σ(Wxf+Vhf-1+b) (2)
其中,σ为Sigmoid函数;W为对xf的变换矩阵;xf为循环神经网络当前第f帧的输入;V为对hf-1的变换矩阵;hf-1为第f-1帧隐含层的输出;b为偏置向量。
在解码阶段,基频提取网络中有一个模块称为基频嵌入池。该嵌入池将预测出的基频标签
Figure BDA0002324346050000081
映射为基频表示向量
Figure BDA0002324346050000082
基频提取网络根据f+1时刻预测出的基频标签
Figure BDA0002324346050000083
经过基频嵌入表示池转换为对应的基频嵌入
Figure BDA0002324346050000084
再与当前时刻循环网络隐含层输出hf进行拼接,再通过softmax层获得f帧的基频输出标签:
Figure BDA0002324346050000085
其中,Z(·)表示仿射变换。在第F帧,为了计算需要得到F+1时刻的基频嵌入表示,按照公式(3)需要F+1时的基频标签,而这超出了句子基频标签最大范围,针对该问题对F+1帧采用一个EOS(句子结束)的标签,该标签对应最大基频标签数目,取整个基频表示嵌入池中的最后一个。根据上述步骤预测得到第F帧的基频标签之后,根据基频嵌入表示池的查找表找到第F帧的嵌入表示,再将第F帧的预测标签的嵌入表示与F-1时刻的前向网络隐含层输出hF-1进行拼接,根据公式(3)再送入softmax层得到F-1时刻的基频标签,依次迭代直至回溯至F-2时刻,F-3时刻,…,f时刻,直到1时刻为止。
在训练上述基频提取网络时,采用教师强制(teacher forcing)方法训练收敛速度和训练效果。教师强制方法是指在训练时使用公式(4)来替换公式(3)利用实际标注的f+1帧的基音频率标签
Figure BDA0002324346050000086
转换为
Figure BDA0002324346050000087
以及f帧的隐含状态hf预测f时刻的基频标签
Figure BDA0002324346050000088
Figure BDA0002324346050000089
实施过程中采用直接训练和教师强制方法进行随机选择,随机系数根据经验设定,本例中设定为0.5。在训练阶段,在给定整句的波形输入,通过网络输出各个时刻f的基频标签的后验概率:
Figure BDA0002324346050000091
根据每一帧的基频标记利用互熵作为目标函数,并利用反向传播算法根据随机梯度下降法优化网络参数。
基于训练后的基频提取神经网络提取基频特征时,固定网络参数不变,输入音频波形原始或归一化互相关函数系数来预测每个时间帧的基频标签值,根据标签与基频对应关系得到实际基频预测值。
(4)声调解码识别网络
声调解码识别网络如图4表示,该网络是一个声调标签相关的前向解码网络。该网络包括两个部分:一个为音节声调嵌入表示网络,一个为上下文相关的声调解码网络。音节声调嵌入表示网络的特征在于:将基频提取网络输出的基频根据每个音节的边界信息,将每个音节的变长基频序列转变为一个固定维度的向量,具体实施方式为:将基频提取网络的输出按照每个音节的边界信息取出,然后按照前后9帧拼接,送入音节声调嵌入表示网络获得每个音节的固定维度的嵌入表示。
上下文相关的声调解码网络的特征在于利用传统基频提取特征或基频提取神经网络预测出的基频值预测该段语音中的每个音节的声调标签。声调嵌入表示池包括6个声调标签对应的向量表示,其中5个嵌入向量表示对应了5个汉语声调,另外一个嵌入向量表示句首声调。其中,声调嵌入池在反向传播算法中也进行优化训练。
在预测句首(第1个)音节的声调种类时,将句首声调嵌入向量
Figure BDA0002324346050000092
与当前音节的嵌入表示
Figure BDA0002324346050000093
拼接送入声调分类网络进行分类预测得到第1个音节的声调类型
Figure BDA0002324346050000094
将第1个声调类型对应的声调嵌入向量
Figure BDA0002324346050000095
再与第2个音节的嵌入
Figure BDA0002324346050000096
表示相连接送入声调预测网络得到第2个音节的声调标签
Figure BDA0002324346050000097
依次预测第3个,直至最后一个音节为止。
(5)端到端的声调识别神经网络模型
端到端的声调识别神经网络模型是将基频提取网络与声调分类网络连接在一起形成一个总的声调识别网络,网络参数同时进行优化。基频提取网络输出的当前帧的前后9帧的基频标签通过查找N个基频嵌入池转化为9帧的基频嵌入作为声调模型的输入。或者利用加权之后的基频值进行9帧拼接作为后端的方法,通过整体参数调优获得较部分参数调优更好的声调识别结果。
综上所述,本发明的优点提高了普通话声调识别的精确度,减少了计算的时间,打破了传统的声调识别分为两个阶段(基频特征提取与声调分类)的框架,构造了一种端到端的声调模型。端到端的模型能够把特征提取阶段和分类阶段作为一个网络整体进行联合优化从而能够得到汉语普通话声调识别的精确度,网络模型的鲁棒性较好,适用于带调语言的声调研究。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于神经网络的端到端声调识别方法,其特征在于,所述方法包括:
一、训练声调识别***模型:
构建端到端声调识别模型,确定神经网络的层数、隐含层节点数等所需的各项超参数;
在训练集上训练语音识别声学模型,利用强制对齐获得每个音节的开始和结束时间;
将选取的训练语音数据以及每个音节的声调标签送入到端到端声调识别模型进行训练优化,获取优化的神经网络模型参数;
不断调节神经网络模型参数,选取最优的网络模型参数;
二、声调识别:
获得测试语音,在给定句子内容文本条件下,利用强制对齐获得每个音节的开始和结束时间;未给定时,使用自动语音识别获得每个音节的开始和结束时间;
对选取的训练语音数据送入到端到端声调识别模型中进行识别,最终得到每个测试数据中每个音节的声调类型。
2.根据权利要求1所述的一种基于神经网络的端到端声调识别方法,其特征在于,所述方法构建可训练的深度神经网络模型,再将基频提取神经网络与声调解码神经网络相结合,形成一个端到端的神经网络声调分类模型,这两部分网络参数在训练阶段同时训练调优。
3.根据权利要求2所述的一种基于神经网络的端到端声调识别方法,其特征在于,所述基频提取神经网络为基于循环神经网络的编码器-解码器,该网络分为基频编码器网络和基频解码器网络两个部分。
4.根据权利要求3所述的一种基于神经网络的端到端声调识别方法,其特征在于,
所述基频编码器网络利用循环神经网络将语音进行编码,基频解码器网络从语音的最后一帧开始预测基频标签,根据预测出的基频标签,将其转换为可训练的基频嵌入向量,通过前一时刻的基频编码预测前一时刻的基频标签,直至第一帧的基频标签预测完毕为止;
预测完每帧的声调标签后,利用预先定义的标签与频率对应关系转换为整个语音的基频值序列。
5.根据权利要求4所述的一种基于神经网络的端到端声调识别方法,其特征在于,所述声调解码神经网络分为两个部分:声调表示网络以及标签相关的声调分类网络;
所述声调表示网络将预测出的基频序列按照每个音节映射成为固定维度的向量;
所述声调分类网络根据上一个音节预测出的标签和当前音节的固定维度向量来预测当前音节的声调类型。
6.根据权利要求5所述的一种基于神经网络的端到端声调识别方法,其特征在于,所述声调分类网络根据上一个音节预测出的标签和当前音节的固定维度向量来预测当前音节的声调类型,具体为:
先根据第1个音节的固定维度表示与一个句子起始对应的固定维度相拼接送入声调分类网络预测第1个音节的声调类型;
根据预测出来的第1个音节的声调类型转换为相应的声调标签再与第2个音节的固定维度表示作为联合输入送入声调分类网络得到第2个音节的声调类型;
如此循环,直至最后一个音节的声调被预测出来为止。
CN201911310349.4A 2019-12-18 2019-12-18 一种基于神经网络的端到端声调识别方法 Expired - Fee Related CN111063335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911310349.4A CN111063335B (zh) 2019-12-18 2019-12-18 一种基于神经网络的端到端声调识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911310349.4A CN111063335B (zh) 2019-12-18 2019-12-18 一种基于神经网络的端到端声调识别方法

Publications (2)

Publication Number Publication Date
CN111063335A true CN111063335A (zh) 2020-04-24
CN111063335B CN111063335B (zh) 2022-08-09

Family

ID=70302281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911310349.4A Expired - Fee Related CN111063335B (zh) 2019-12-18 2019-12-18 一种基于神经网络的端到端声调识别方法

Country Status (1)

Country Link
CN (1) CN111063335B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539268A (zh) * 2021-01-29 2021-10-22 南京迪港科技有限责任公司 一种端到端语音转文本罕见词优化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102938252A (zh) * 2012-11-23 2013-02-20 中国科学院自动化研究所 结合韵律和发音学特征的汉语声调识别***及方法
CN103489446A (zh) * 2013-10-10 2014-01-01 福州大学 复杂环境下基于自适应能量检测的鸟鸣识别方法
US20150073794A1 (en) * 2011-04-01 2015-03-12 Sony Computer Entertainment, Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
CN107492373A (zh) * 2017-10-11 2017-12-19 河南理工大学 基于特征融合的声调识别方法
US20190130896A1 (en) * 2017-10-26 2019-05-02 Salesforce.Com, Inc. Regularization Techniques for End-To-End Speech Recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150073794A1 (en) * 2011-04-01 2015-03-12 Sony Computer Entertainment, Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
CN102938252A (zh) * 2012-11-23 2013-02-20 中国科学院自动化研究所 结合韵律和发音学特征的汉语声调识别***及方法
CN103489446A (zh) * 2013-10-10 2014-01-01 福州大学 复杂环境下基于自适应能量检测的鸟鸣识别方法
CN107492373A (zh) * 2017-10-11 2017-12-19 河南理工大学 基于特征融合的声调识别方法
US20190130896A1 (en) * 2017-10-26 2019-05-02 Salesforce.Com, Inc. Regularization Techniques for End-To-End Speech Recognition

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAO HUANG: "MANDARIN TONE MODELING USING RECURRENT NEURAL NETWORKS", 《ARXIV》 *
KIM J: "A convolutional representation for pitch estimation", 《PROC. OF ICASSP》 *
张振国: "神经网络在语音音调识别中的应用研究", 《微电子学与计算机》 *
李仕强: "基于BP 网络的汉语普通话声调识别", 《南京信息工程大学学报 自然科学版》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539268A (zh) * 2021-01-29 2021-10-22 南京迪港科技有限责任公司 一种端到端语音转文本罕见词优化方法

Also Published As

Publication number Publication date
CN111063335B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN111739508B (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及***
CN113470662A (zh) 生成和使用用于关键词检出***的文本到语音数据和语音识别***中的说话者适配
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
CN112002308A (zh) 一种语音识别方法及装置
Zhu et al. Phone-to-audio alignment without text: A semi-supervised approach
CN106782603B (zh) 智能语音评测方法及***
CN112802448A (zh) 一种新音色生成的语音合成方法和***
CN109377981B (zh) 音素对齐的方法及装置
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
CN112349289B (zh) 一种语音识别方法、装置、设备以及存储介质
CN111883176B (zh) 端到端的智能语音朗读评测方法
CN112466316A (zh) 一种基于生成对抗网络的零样本语音转换***
CN113539268A (zh) 一种端到端语音转文本罕见词优化方法
CN112735404A (zh) 一种语音反讽检测方法、***、终端设备和存储介质
CN111915940A (zh) 一种口语发音评测和教学方法、***、终端及存储介质
CN116229932A (zh) 一种基于跨域一致性损失的语音克隆方法及***
CN111063335B (zh) 一种基于神经网络的端到端声调识别方法
CN112967720B (zh) 少量重口音数据下的端到端语音转文本模型优化方法
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
CN117079637A (zh) 一种基于条件生成对抗网络的蒙古语情感语音合成方法
Li et al. Improving mandarin tone mispronunciation detection for non-native learners with soft-target tone labels and blstm-based deep models
CN116306592A (zh) 一种基于阅读理解的老年痴呆量表纠错方法、***及介质
CN115240712A (zh) 一种基于多模态的情感分类方法、装置、设备及存储介质
CN113257221A (zh) 一种基于前端设计的语音模型训练方法及语音合成方法
Bhatia et al. Speech-to-text conversion using GRU and one hot vector encodings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220809

CF01 Termination of patent right due to non-payment of annual fee