CN115662435B

CN115662435B - 一种虚拟教师拟真化语音的生成方法及终端

Info

Publication number: CN115662435B
Application number: CN202211305253.0A
Authority: CN
Inventors: 刘德建; 方振华; 钟正; 徐建
Original assignee: Central China Normal University; Fujian Netdragon Websoft Co Ltd
Current assignee: Central China Normal University; Fujian Netdragon Websoft Co Ltd
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-04-28
Anticipated expiration: 2042-10-24
Also published as: US11727915B1; CN115662435A

Abstract

本发明公开了一种虚拟教师拟真化语音的生成方法及终端，采集教师的真实语音样本并转换成文本序列，根据文本序列构建文本情感极性训练集和文本声调训练集；基于文本序列中的词项构建词项情感模型，运用情感极性训练集训练词项情感模型，训练获得词向量、情感极性向量和权重参数；计算词向量和情感极性向量的相似度，根据相似度计算结果提取情感特征，从而根据语音风格和情感特征构建条件声码器，生成具有情感变化的新语音。提取新语音中语音韵律信息的特征向量，并生成语音风格特征及其编码状态；之后根据待合成文本和语音特征，生成新的语音序列。有助于教师等相关用户的语音特征、情感风格提取和合成，满足高质量虚拟教师的应用需求。

Description

一种虚拟教师拟真化语音的生成方法及终端

技术领域

本发明涉及教育元宇宙技术领域，特别涉及一种虚拟教师拟真化语音的生成方法及终端。

背景技术

借助三维建模、动作捕捉、实时渲染、人工智能等技术构建的数字虚拟人，可实现风格多样、亲和友好、声情并茂的播报、解说、陪伴等应用。虚拟教师作为数字虚拟人在教育教学中的典型应用，结合知识图谱、情感推演，能够强化师生的教学临场感体验。然而，受算力资源、训练模型、成本预算的限制，难以提供强大的自然语言处理能力的支持，现今的虚拟教师具有形象固定和音色单调的缺陷，不利于增强师生之间的情感交互，缺少真人教师的人文关怀。随着元宇宙的兴起及其在教育行业应用的逐步深入，虚拟教师作为真实教师在虚拟空间的代理实体，可实现其身体、知觉与意识的共同“在场”。重现真人教师语音风格的虚拟教师有利于减轻教学过程中学生的独孤感和分离感，在未来课堂教学、在线学习、非正式场所学习等应用场景中拥有广阔的应用前景。

当前拟真化虚拟教师的语音生成方面还存在诸多的问题：

(1)音色固定，现有虚拟教师***多用语音合成的方法，经过自然语言处理、训练获取某个真人的声音，由于步骤、成本较多，用户难以替换成其他教师的声音，令***的开放性不强。

(2)语音风格不明显，受学习、训练时间和计算成本的约束，现有虚拟教师***多采用亲和力的明星或偶像的语音作为样本，与学生日常接触到教师的语音关联度不高，不易唤醒学习的在场感。

(3)快速合成的能力不强，学生的科任老师人数较多，需要各个教师合成后的语音风格、情感特征与其真人具有一致性，应考虑云-边-端架构下，基于自然语言处理***实现语音的快速合成。

上述缺陷限制了虚拟教师在多种教育领域中的应用。

发明内容

本发明所要解决的技术问题是：提供一种虚拟教师拟真化语音的生成方法及终端，能够对虚拟教师的语音增加情感特征和语音风格，从而实现虚拟教师的语音拟真化。

为了解决上述技术问题，本发明采用的技术方案为：

一种虚拟教师拟真化语音的生成方法，包括步骤：

采集教师的真实语音样本，将所述真实语音样本转换成文本序列，根据所述文本序列构建文本情感极性训练集和文本声调训练集；

基于文本序列中的词项构建词项情感模型，并使用所述文本情感极性训练集训练所述词项情感模型，根据训练得到词向量、情感极性向量以及权重参数进行相似度计算，根据相似度计算结果提取情感特征，基于所述情感特征和所述真实语音样本的语音特征构建具有情感变化的语音；

根据所述语音得到语音韵律信息的特征向量，并生成语音风格特征，获取待合成文本，使用所述文本声调训练集提取所述待合成文本的声调特征，基于所述语音风格特征和所述声调特征生成所述待合成文本的拟真化语音。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种虚拟教师拟真化语音的生成终端，包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种虚拟教师拟真化语音的生成方法的各个步骤。

本发明的有益效果在于：采集教师的真实语音样本并转换成文本序列，从而根据文本序列构建文本情感极性训练集和文本声调训练集；基于文本序列中的词项构建词项情感模型，运用情感极性训练集训练词项情感模型，训练获得词向量、情感极性向量和权重参数；计算词向量和情感极性向量的相似度，根据相似度计算结果提取情感特征，从而根据语音风格和情感特征，构建条件声码器，生成具有情感变化的新语音。提取新语音中语音韵律信息的特征向量，并生成语音风格特征及其编码状态；之后根据待合成文本和语音特征，生成、输出新的语音序列。随着虚拟教师在课堂教学、在线教学、校园活动等教学场景的广泛应用，有助于教学管理者、广大教师等相关用户的语音特征、情感风格提取和合成，满足高质量虚拟教师的应用需求。

附图说明

图1为本发明实施例的一种虚拟教师拟真化语音的生成方法的流程图；

图2为本发明实施例的一种虚拟教师拟真化语音的生成终端的示意图；

图3是本发明实施例的一种虚拟教师拟真化语音的生成方法的具体步骤流程图；

图4是本发明实施例的声音序列预处理效果图；

图5是本发明实施例的情感极性训练集构建的流程图；

图6是本发明实施例的词项情感模型构建的流程图；

图7是本发明实施例的语音特征提取的示意图；

图8是本发明实施例的语音情感生成构建的流程图；

图9是本发明实施例的语音风格编码向量获取的流程图；

图10是本发明实施例的声调预测模型构建的流程图。

标号说明：

1、一种虚拟教师拟真化语音的生成终端；2、存储器；3、处理器。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

请参照图1，本发明实施例提供了一种虚拟教师拟真化语音的生成方法，包括步骤：

从上述描述可知，本发明的有益效果在于：采集教师的真实语音样本并转换成文本序列，从而根据文本序列构建文本情感极性训练集和文本声调训练集；基于文本序列中的词项构建词项情感模型，运用情感极性训练集训练词项情感模型，训练获得词向量、情感极性向量和权重参数；计算词向量和情感极性向量的相似度，根据相似度计算结果提取情感特征，从而根据语音风格和情感特征，构建条件声码器，生成具有情感变化的新语音。提取新语音中语音韵律信息的特征向量，并生成语音风格特征及其编码状态；之后根据待合成文本和语音特征，生成、输出新的语音序列。随着虚拟教师在课堂教学、在线教学、校园活动等教学场景的广泛应用，有助于教学管理者、广大教师等相关用户的语音特征、情感风格提取和合成，满足高质量虚拟教师的应用需求。

进一步地，将所述真实语音样本转换成文本序列包括：

将所述真实语音样本进行去噪和编辑后保存为WAV文件；

将所述WAV文件中的声音信号进行加重和分帧，并通过加窗对所述声音信号进行平滑处理；

采用语音转换算法获取所述声音信号对应的文本序列，过滤所述文本序列中的词项，并使用分段算法将过滤后的所述文本序列划分为不同段落。

由上述描述可知，将真实语音样本进行去噪、编辑、分段等预处理操作，能够便于后续基于预处理得到的文本生成文本训练集。

进一步地，根据所述文本序列构建文本情感极性训练集包括：

去除所述文本序列中词项序列的停用词、标点符号和低频率词项，纠正所述文本序列的语法错误和拼写错误，并标注词项的词性；

获取情感词表和语音的情感规律，结合词项及其上下文词项的类别，标注所述词项的情感极性；

根据词项及其上下文词项的情感极性，构造文本情感极性训练集。

由上述描述可知，使用文本序列中的词项及其上下文词项的类别进行情感极性的标注，能够以词项及其上下文词项的情感极性为样本构造文本情感极性训练集。

进一步地，根据所述文本序列构建文本声调训练集包括：

纠正已划分为不同段落的所述文本序列的标点符号，并为纠正后的文本序列配置对应的声调；

根据文本序列的声调，为所述文本序列进行拼音标注；

根据不同段落的文本序列的声调拼音，构建文本声调训练集。

由上述描述可知，对文本序列进行声调标记后进行文本序列的拼音标注，从而能够以不同段落的文本序列的声调拼音，构建文本声调训练集。

进一步地，基于文本序列中的词项构建词项情感模型，并使用所述文本情感极性训练集训练所述词项情感模型包括：

从文本序列中提取包含情感极性的词项，基于提取出的词项及其词频构建词项与词频的映射关系；

基于神经网络和所述词项与词频的映射关系构建词项情感模型，并根据所述词项情感模型计算词向量；

使用所述文本情感极性训练集训练所述词项情感模型，得到情感极性向量和权重参数。

由上述描述可知，根据包含情感极性的词项及其词频能够得到词项词频的映射关系，从而基于神经网络和该映射关系建立词项情感模型，并计算出词向量；使用文本情感极性训练集训练词项情感模型，能够得到情感极性向量和权重参数，便于后续基于权重参数计算上述两个向量的相似度。

进一步地，根据训练得到词向量、情感极性向量以及权重参数进行相似度计算，根据相似度计算结果提取情感特征包括：

计算词向量与情感极性向量的相似度：

其中cov为协方差，σ为标准差，e_j表示词向量，q_j表示情感极性向量；

根据所述词向量和所述情感极性向量的相似度确定相似度类别，并根据所述相似度类别进行所述词向量和所述情感极性向量的融合；

根据词向量和情感极性向量的相似度，采用对应运算方法获取情感向量，将词项序列转换为情感极性向量序列，运用循环神经网络层提取向量序列的特征，使用两个全连接层非线性变换向量序列特征，压缩生成情感特征。

由上述描述可知，计算词向量与情感极性向量的相似度，并根据相似度类别进行词向量和情感极性向量的融合，并通过神经网络压缩生成情感特征，便于后续得到具有情感变化的语音。

进一步地，基于所述情感特征和所述真实语音样本的语音特征构建具有情感变化的语音包括：

使用快速傅里叶变换、非线性变换和滤波器组提取所述真实语音样本的语音特征；

将所述情感特征和所述语音特征作为神经网络声码器的前提条件和输入变量，构建声码器的条件模型，使用所述声码器生成具有情感变化的语音。

由上述描述可知，提取真实语音样本的语音特征后，将情感特征和语音特征作为神经网络声码器的前提条件和输入变量，构建声码器的条件模型，以此方式能够通过声码器生成具有情感变化的语音。

进一步地，根据所述语音得到语音韵律信息的特征向量，并生成语音风格特征包括：

使用二维卷积神经网络、批标准化、修正线性单元和单层循环神经网络层，将所述语音的韵律信息转化为韵律特征向量；

使用一对多循环神经网络层挖掘所述语音中多韵律特征，运用注意力机制赋予风格特征权重，获取风格编码向量；

根据所述风格编码向量，生成语音风格特征及其编码状态。

进一步地，所述获取待合成文本，使用所述文本声调训练集提取所述待合成文本的声调特征，基于所述语音风格特征和所述声调特征生成所述待合成文本的拟真化语音包括：

构建声调预测模型，使用所述文本声调训练集训练所述声调预测模型，并采用误差反向传播算法更新所述声调预测模型中的权重参数，将拼音子标注映射为隐含声调特征的向量；

采用空洞卷积捕捉声调波动变化，使用全连接层转换为固定维度的声调特征编码状态；

采用双层循环神经网络层挖掘文本特征信息，经过全连接层和修正线性单元输出待合成文本特征向量；

使用注意力机制为语音风格特征和声调特征的编码状态赋予权重，经过加和运算处理融合编码状态，并根据待合成文本和拟真化语音特征，生成具有语音风格和情感特征的语音序列。

由上述描述可知，使用组合方式，提取语音韵律信息的特征向量，运用注意力机制赋予风格特征权重，提取风格编码向量，生成语音风格特征及其编码状态；采用空洞卷积捕捉声调波动变化，获取声调特征编码状态，经过加和运算处理语音和声调融合编码状态；根据待合成文本和真人教师的语音特征，生成、输出新的语音序列，能够对虚拟教师的语音增加情感特征和语音风格。

请参照图2，本发明另一实施例提供了一种虚拟教师拟真化语音的生成终端，包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的一种虚拟教师拟真化语音的生成方法的各个步骤。

本发明上述的一种虚拟教师拟真化语音的生成方法及终端，适用于教育元宇宙中具有真人教师语音情感和风格特征的生成和应用，以下通过具体的实施方式进行说明：

实施例一

请参照图1和图3，一种虚拟教师拟真化语音的生成方法，包括步骤：

S1、采集教师的真实语音样本，将所述真实语音样本转换成文本序列，根据所述文本序列构建文本情感极性训练集和文本声调训练集。

S11、采集教师的真实语音样本，将所述真实语音样本进行去噪和编辑后保存为WAV文件。

具体的，按照设定的采样率，在无干扰的录音条件下，采集教师的预设时长的真实声音样本，采用去噪算法消除真实声音样本中的噪声，使用音频编辑软件的标记、删除、***和移动功能来编辑或者处理该真实声音样本，并将编辑或者处理结果保存为.WAV格式的波形声音文件。

S12、将所述WAV文件中的声音信号进行加重和分帧，并通过加窗对所述声音信号进行平滑处理。

具体的，请参照图4，图中201为采集的数字化音频波形图，202为预加重处理后的波形图，203为分帧处理后的波形图，204为加窗处理后的波形图；加载WAV文件中的声音信号，获取数字化的声音序列，使用加重操作解决声音序列中由声门脉冲引起的高端频度与幅度波动的冲突，将帧长设定为固定值，并采用分帧操作处理声音序列，运用加窗操作平滑帧与帧之间的过渡。

S13、采用语音转换算法获取所述声音信号对应的文本序列，过滤所述文本序列中的词项，并使用分段算法将过滤后的所述文本序列划分为不同段落。

使用语音转换算法将声音序列自动转换为文本序列，譬如：采集、识别和转换教师的真实声音样本的文本：“同学们都不西欢榴莲吗？老师非常喜爱榴莲！因为它可以做很多有价值的产品”。

根据语音识别文本的转换规则，运用分段算法将文本序列划分为不同段落，采用<p>标识标记每个段落，标记结果为“<p>同学们都不西欢榴莲吗？老师非常喜爱榴莲！因为它可以做很多有价值的产品。</p>”。

使用正则表达式识别无效和重复词项，并将词项替换成自然语言处理中的常用标识符<UNK>，将结果保存为.txt文本格式。

S14、构建文本情感极性数据集。

S141、去除所述文本序列中词项序列的停用词、标点符号和低频率词项，纠正所述文本序列的语法错误和拼写错误，并标注词项的词性。

在本实施例中，具体步骤如下：

S1411、纠正段落文本语法和拼写错误，将“西欢”修改成“喜欢”。

S1412、使用分词算法将段落分割成词项序列，本实施例中使用“/”进行分割，得到“同学们/都/不/喜欢/榴莲/吗/？/老师/非常/喜爱/榴莲/！/因为/它/可以/做/很多/有/价值/的/产品/。”。

S1413、根据停用词词典和词频统计阈值，去除词项序列中的停用词、标点符号和低频率词项，得到“同学们/都/不/喜欢/榴莲/老师/非常/喜爱/榴莲/做/很多有/价值/产品”。

S1414、运用词性标注算法标注词项词性，例如：“同学们(名词)都(副词)不(否定词)喜欢(动词)榴莲(名词)老师(名词)非常(副词)喜爱(动词)榴莲(名词)做(动词)很多(数词)有(动词)价值(名词)产品(名词)”。

S1415、保留与情感极性相关的形容词、动词、副词和否定词性的词项，剔除其它词性的词项，处理后的序列为“都(副词)不(否定词)喜欢(动词)非常(副词)喜爱(动词)做(动词)有(动词)”。

S1416、使用形容词和动词“喜欢”、“喜爱”、“做”和“有”作为情感词，采用副词和否定词“都”、“非常”和“不”作为情感词程度和极性的修正。

S142、获取情感词表和语音的情感规律，结合词项及其上下文词项的类别，标注所述词项的情感极性。

具体的，加载情感词表，综合判断词项所属的词表，标注各个词项的情感极性，若词项属于多个词表，依据教学场景中语音的情感规律，综合判定所属词表，并结合词项和上下文的词性类别，将其标注为高积极、低积极、高消极、低消极和中性五种情感极性类别。

在本实施例中，情感词情感极性标注步骤如下：

S1421、判断情感词，“喜欢”和“喜爱”在积极词表中，属于积极情感词；“有”和“做”不在积极词表和消极词表中，将它归为中性情感词。

S1422、情感极性赋值，分别将积极词、中性词、消极词、否定词赋值为1、0、﹣1、﹣1，S_喜欢＝1、S_喜爱＝1、S_有＝0、S_做＝0和S_不＝﹣1；程度副词则依据修饰程度等级，赋不同的数值倍数，如S_都＝2、S_非常＝3。

S143、复合处理。若情感词为积极词或消极词，则搜索与前一情感词之间的非情感词词项，若结果为空，则不作复合处理；若搜索结果不为空，则分别处理：若为否定词，则S＝S*S_否定词；若为程度副词，则S＝S*S_程度副词。

例如：情感词“喜欢”前有程度副词“都”和否定词“不”，则S_喜欢＝S_喜欢*S_不*S_都＝1*(﹣1)*2＝﹣2；“喜爱”前面只有一个程度副词，则S_喜爱＝S_喜爱*S_非常＝1*3＝3；

S1424、根据情感极性值S的范围，标注情感词的情感极性：

上述情感序列中“喜欢”前有“都不”，因此将它标注为强消极情感极性；“喜爱”前有“非常”，因此标注为强积极情感极性。

S143、根据词项及其上下文词项的情感极性，构造文本情感极性训练集。

具体的，依据词项情感极性依赖上下文信息的特点，构造监督学习训练样本，将训练样本划分为上文和下文两个部分，导入已标注情感极性的情感词作为训练集的下文，待获取情感极性的情感词作为训练集的上文，根据学习效果，逐步扩充训练样本集。

在本实施例中，请参照图5，情感极性训练集构建具体步骤为：

S1431、加载情感词词项序列{w₁,w₂,…,w_n}以及标注的情感极性{t₁,t₂,…,t_n}；

S1432、使用情感词及其情感极性构造训练样本，情感词项序列中待预测情感词作为分割点，将词项序列划分为上文和下文两个部分；

S1433、配置卷积核大小为3，步长为1，分别从上文和下文按词项序列顺序获取3个情感词作为卷积处理序列，按照步长为1滑动窗口，获取下一个卷积处理序列，当卷积处理序列长度不够3个时，用当前待预测情感词作为补充。

S15、生成文本声调数据集。

S151、纠正已划分为不同段落的所述文本序列的标点符号，并为纠正后的文本序列配置对应的声调。

具体的，依据标点符号的使用规范，纠错分段文本中不规范的标点符号，设置问号、感叹号、顿号和着重号为预定义标点符号集合，依据集合中各个标点符号所对应的升调、降调和声调变化，将不属于预定义中标点符号替换成逗号。

S152、根据文本序列的声调，为所述文本序列进行拼音标注。

具体的，研制汉字声调自动标注工具，按照分段标识，依次标注汉字拼音。根据汉语拼音的标注规范，研制一套汉字声调自动标注工具，按照分段标识，标注每段文本的汉字拼音，一、二、三、四声调放在拼音的后面，轻声用空格表示，使用&符号分隔拼音标注以及标点符号，例如“同(tong2)学(xue2)们(men)都(dou1)不(bu4)喜(xi3)欢(huan1)榴(liu1)莲(lian2)吗(ma)&？”。

将声调拼音标注结果保存为.txt文件格式。

S153、根据不同段落的文本序列的声调拼音，构建文本声调训练集。

具体的，依据标点符号划分训练样本及其标签，为含有多音字的样本添加特殊标注。加载声调拼音标注序列，剔除分隔符号，将带有声调拼音标注序列划分为多个子序列训练样本，并将子序列结尾的标点符号作为训练样本的标签，生成声调训练集，提取训练样本中多音字及其对应的声调，标注其为含有多音字的样本。

S2、基于文本序列中的词项构建词项情感模型，并使用所述文本情感极性训练集训练所述词项情感模型，根据训练得到词向量、情感极性向量以及权重参数进行相似度计算，根据相似度计算结果提取情感特征，基于所述情感特征和所述真实语音样本的语音特征构建具有情感变化的语音。

S21、从文本序列中提取包含情感极性的词项，基于提取出的词项及其词频构建词项与词频的映射关系。

在本实施例中，依据词频统计结果，剔除小于阈值的词项，剩余词项按照从大到小的词频顺序，构建映射关系。

具体的，运用数据向量化算法筛选出包含情感极性信息的词项，使用词频统计算法统计所采集语音中的情感词项出现的次数，设定词频统计阈值，剔除词频小于阈值的词项，剩余词项按照从大到小的词频顺序，构建情感词项与整数索引的映射。

S22、基于神经网络和所述词项与词频的映射关系构建词项情感模型，并根据所述词项情感模型计算词向量。

具体的，依据前后网络层输出和输入规范，结合序列化建模顺序，顺序堆叠词嵌入层、一维卷积神经网络、循环神经网络层、全连接层以及归一化指数函数，构建词项情感模型，将情感极性训练样本作为模型输入变量，词项的情感极性为输出结果。

在本实施例中，请参照图6，词项情感模型构造具体步骤如下：

S2121、加载情感词词项序列{w₁,w₂,…,w_n}，使用已标注为t_i情感极性的待预测情感词w_i，分别得到训练样本的上文{w₁,w₂,w₃}{w₂,w₃,w₄}…{w_i-3,w_i-2,w_i-1}和下文{w_i+1,w_i+2,w_i+3}{w_i+2,w_i+3,w_i+4}…{w_n-2,w_n-1,w_n}，训练样本的标签为t_i；

S2122、依据情感词项与整数索引的映射关系，将训练样本的上文和下文中的情感词项分别映射为上文{num₁,num₂,num₃}{num₂,num₃,num₄}…{num_i-3,num_i-2,num_i-1和下文{num_i+1,num_i+2,num_i+3}{num_i+2,num_i+3,num_i+4}…{num_n-2,num_n-1,num_n}两个整数序列；

S2123、将词嵌入层的权重矩阵表示为n组行向量e₁,e₂,…,e_i,…,e_n，其中e_i为w_i的词向量，使用one-hot编码将整数序列中的整数值表示为只有一项为1，其余全为0的n维向量，如将num_i表示为第i个位置为1的n维向量(0,0,…,1,…,0)，并计算w_i的词向量：

S2124、根据训练样本的上文和下文的整数索引，分别将上文和下文中的情感词词项转换为包含情感信息的词向量，得到{e₁,e₂,e₃}{e₂,e₃,e₄}…{e_i-3,e_i-2,e_i-1}和{e_i+1,e_i+2,e_i+3}{e_i+2,e_i+3,e_i+4}…{e_n-2,e_n-1,e_n}；

S2125、使用两个一维卷积神经网络分别挖掘上下文中的情感信息，将处理结果拼接，并使用循环神经网络捕捉上下文中隐含的w_i情感极性信息，经过全连接层以及归一化指数函数，输出为模型预测情感词w_i的情感极性概率分布向量

S213、运用情感极性训练集训练词项情感模型，获得训练结果和权重参数。

使用初始化算法赋值词项情感模型中的权重和阈值参数，基于情感极性训练集，采用梯度下降算法迭代更新权重参数，设定模型预测准确率阈值，当词项情感模型的准确率达到阈值，停止模型训练，将模型以及学习的权重参数保存到.ckpt文件。梯度下降算法更新权重和阈值参数的具体步骤：

S2131、把神经元定义为神经网络中计算的基本单位，采用Xavier参数初始化算法对权重和阈值进行初始化：

bias_初始化～N[mean＝0,std＝1]；

其中n_in和n_out分别为输入和输出神经元的个数。

S2132、使用one-hot编码将五种情感极性类别表示为只有一项为1，其余全为0的五维向量，当前待预测情感词为w_i，情感极性向量t_i＝(t_i1,t_i2,t_i3,t_i4,t_i5)；

S2133、训练词项情感模型时，输入待预测情感词w_i的上文和下文，输出为模型预测w_i情感极性的概率分布向量

S2134、使用交叉熵损失函数计算t_i和

之间的距离，

S2135、采用梯度下降算法对weight_初始化和bias_初始化参数迭代更新，搜索令交叉熵损失函数值最小的参数值，第一次梯度下降算法更新公式：

其中weight’和bias’为更新后的参数，η为学习率，

和

为交叉熵损失函数对权重和阈值参数的梯度；

S2136、设置准确率阈值为95％，使用梯度下降算法更新迭代参数，直到所有训练样本的交叉熵损失函数值之和为5％，得到参数weight和bias，完成词项情感模型的训练。

S22、获取词向量和情感极性向量，计算两者的相似度，融合词项情感极性。

S221、基于词项情感模型及其权重参数，获取词向量和情感极性向量。加载词项情感模型及其权重参数，依据情感词项与整数索引和权重参数的映射关系，获取具有情感信息的词向量，导入词项情感模型，跟据模型中表示情感极性向量的函数关系，计算并输出情感极性向量。

S222、运用相似度算法计算词向量和情感极性向量的相似度，按照相似程度划分为强相关、弱相关和不相关。加载词项的词向量和情感极性向量，使用相似度算法计算向量间的相似程度，确定词向量和情感极性向量的相似度类别，依据计算结果的正负和大小，将相似度设定为强相关、弱相关和负相关三种类别。相似度计算步骤如下所示：

S2221、获取情感词w_j的词向量e_j和情感极性向量q_j；

S2222、使用皮尔逊相关系数计算词向量与情感极性向量的相似度：

其中cov为协方差，σ为标准差。

S2223、根据两个向量皮尔逊相关系数的计算结果，划分相关程度：

S223、根据相似度类别，分别使用算术平均、加权平均或加和方法实现两个向量的融合。

根据两个向量的相似度，若为强相关，则使用算术平均方法计算情感极性信息；若为弱相关，运用加权平均方法处理情感极性信息；若为不相关，将词向量和情感极性向量相加，得到词项的情感极性信息。

以情感词w_j的词向量e_j和情感极性向量q_j为例，加权平均方法：

式中，||为向量模长。

S23、构建条件声码器，输出具有情感变化的语音。

S231、使用快速傅里叶变换、非线性变换和滤波器组提取教师的语音特征。

具体的，请参照图7，使用快速傅里叶变换逐帧处理教师的声音序列，沿着纵向维度堆叠声音序列的各帧，获取教师语音的幅度和相位，运用非线性变换处理声谱图，使用滤波器组捕捉教师在教学活动中语调、音高、音色和节奏变化特征，提取梅尔语谱图中间特征。

S232、运用循环神经网络层提取向量序列的特征，将词项转换为情感特征。根据词向量和情感极性向量的相似度，采用对应运算方法获取情感向量，将词项序列转换为情感极性向量序列，运用循环神经网络层提取向量序列的特征，使用两个全连接层非线性变换向量序列特征，再压缩、生成情感特征。

本实施例中，情感特征获取的具体步骤如下所示：

S2321、加载情感词词项序列{w₁,w₂,…,w_n}；

S2322、获取词项序列中每个情感词的词向量和情感极性向量，计算相似度，根据计算结果，采用对应的融合方式，得到情感向量序列；

S2323、使用循环神经网络提取情感向量序列的特征，并经过两个全连接层非线性变换，压缩后输出情感特征向量h＝{h₁,h₂,…,h_j}。

S233、基于教师的情感和语音特征，构建条件声码器，生成具有情感变化的新语音。

具体的，分别将情感特征和梅尔语谱图语音特征作为神经网络声码器的前提条件和输入变量，构建声码器的条件模型，使用声码器融合情感变化和音调与音色特征，生成具有情感变化的新语音，用于后续语音合成。

在本实施例中，请参照图8，语音情感的生成具体步骤如下：

S2331、将情感特征向量h＝{h₁,h₂,…,h_j}和梅尔语谱图语音特征x＝{x₁,x₂,…,x_T}分别作为声码器的前提条件和输入；

S2332、声码器的条件模型公式：

式中，x_t为t时刻的梅尔语谱图语音特征；

S2333、融合情感特征h与梅尔语谱图语音特征x的计算公式：

式中，tanh为正切函数，σ为sigmoid函数，⊙为Khatri-Rao积，V₁、V₂、W₁、W₂为权重参数。

S3、根据所述语音得到语音韵律信息的特征向量，并生成语音风格特征和编码状态，获取待合成文本，根据所述待合成文本和所述语音风格特征生成所述待合成文本的拟真化语音。

S31、生成融合文本情感信息的语音风格特征，使用一对多循环神经网络层挖掘语音中多韵律特征，获取语音风格编码状态。

S311、使用二维卷积神经网络、批标准化、修正线性单元和单层循环神经网络层，将韵律信息转化为韵律特征向量。

具体的，使用二维卷积神经网络提取教师的语音特征，获取语调、时域分布、重音以及情感的韵律信息，运用批标准化算法处理语音中多韵律信息，使用单层循环神经网络层提取韵律信息，将其转化为固定维度的韵律特征向量。

S312、使用一对多循环神经网络层挖掘语音中多韵律特征，运用注意力机制赋予风格特征权重，获取风格编码向量。

具体的，设定需要捕捉语音风格特征的数量，使用一对多循环神经网络层挖掘韵律特征向量，获取真人教师的语调、音高、音色、节奏以及情感语音风格特征，运用注意力机制，赋予语音风格突出特征较高的权重，加和运算风格特征，生成风格编码向量。

本实施例中，请参照图9，语音风格编码向量获取的具体步骤：

S3121、获取包含语调、时域分布、重音和情感信息的韵律特征向量pr＝{pr₁,pr₂,…,pr_k}；

S3122、基于语调、音高、音色、节奏以及情感，构建5维度特征的语音风格，将韵律特征向量作为一对多循环神经网络的输入变量，输出语音风格的特征向量{s₁,s₂,s₃,s₄,s₅}；

S3123、针对教师语音风格特点，运用注意力机制为5种语音风格特征赋予不同的权重，语音风格特征权重的计算公式：

[α₁,α₂,α₃,α₄,α₅]＝softmax([score(s₁,q),score(s₂,q),score(s₃,q),score(s₄,q),score(s₅,q)])

式中，score为打分函数，q为查询向量。

S3124、将语音风格特征的5维度变量与对应权重相乘，运算结果加和，输出风格编码向量style＝{style₁,style₂,…,style_i}。

S313、提取风格编码向量，生成语音风格特征及其编码状态。

具体的，设置提取模块的数量，将全连接层、批标准化和修正线性单元作为一组提取模块，设定输出编码状态的维度，使用提取模块对风格编码向量非线性变换和压缩处理操作，生成包含语音风格特征且维度固定的编码状态。

S32、按照建模顺序，构建声调预测模型，捕捉声调波动变化并转换成声调特征编码状态。

S321、依据序列化建模设计规范，按照建模顺序，构建声调预测模型。依据序列化建模设计规范，按照建模顺序堆叠词嵌入层、双层循环神经网络层、全连接层以及归一化指数函数，构建声调预测模型，声调训练样本为模型输入变量，模型输出隐含升调、降调和声调变化标点符号的概率分布。

在本实施例中，请参照图10，声调预测模型构建具体步骤：

S3211、加载带有声调的拼音标注子序列p＝{p₁,p₂,…,p_n}；

S3212、使用词嵌入层将子序列转换为隐含声调变化的向量序列e＝{e₁,e₂,…,e_n}；

S3213、采用双层循环神经网络层捕捉向量序列中声调的高低和波动变化特征；

S3214、运用全连接层非线性变换和压缩捕捉的特征，经过归一化指数函数处理，得到子序列对应标点符号的概率分布向量pun＝{pun₁,pun₂,……,pun_k}。

S322、运用反向传播算法更新模型中的权重参数，将拼音子标注映射为隐含声调特征的向量。

使用文本声调训练集训练声调预测模型，采用误差反向传播算法更新模型中的权重参数，设定预测准确率阈值，当声调预测模型的准确率达到阈值，停止训练模型，依据词嵌入层中权重参数隐含拼音子序列的声调变化，使用权重参数将子序列映射为包含声调变化的特征向量。

本实施例中，误差反向传播算法具体步骤：

S3221、声调预测模型中第i层输入和第i+1层的输出分别为x_i和x_i+1，两层的权重参数分别是w_i和w_i+1；

S3222、将真实输出结果定义为z，计算模型预测结果与真实输出结果的误差：

δ＝z-x_i+1；

S3223、将误差通过链式法则从第i+1层传递到第i层，分别计算第i层和第i+1层的误差：

δ_i+1＝w_i+1δ；δ_i＝w_iδ_i+1；

S3224、分别计算更新后的第i层和第i+1层的权重参数：

w_i＝w_i+ηδ_ifx_i；

w_i+1＝w_i+1+ηδ_i+1fx_i+1；

其中，η为学习率，f为激活函数的导数。

S323、采用空洞卷积捕捉声调波动变化，使用全连接层转换为固定维度的声调特征编码状态。

具体的，使用空洞因果卷积神经网络捕捉声调特征向量中波动变化规律，按照时间步的顺序依次拼接处理声调的波动变化，采用全连接层非线性变换拼接结果，并将处理结果压缩成固定维度的声调特征编码状态。

S33、拟真化语音特征生成。使用注意力机制为语音和声调编码状态赋予权重，经过加和运算处理融合编码状态；根据待合成文本和拟真化语音特征，生成、输出具有真人教师语音风格和情感特征的语音序列。

S331、采用双层循环神经网络层挖掘文本特征信息，经过全连接层和修正线性单元输出待合成文本特征向量。

使用神经网络语言模型将待合成文本转换为文本向量，采用双层循环神经网络层挖掘文本向量中的特征信息，获取最后一个时间步的输出结果，经过全连接层和修正线性单元函数处理，获取待合成文本特征向量。

在本实施例，待合成文本特征获取具体步骤：

S3311、获取待合成文本{w₁,w₂,…,w_n}；

S3312、使用神经网络语音模型将待合成文本转换为文本向量text＝{text₁,text₂,…,text_n}；

S3313、采用双层循环神经网络提取文本向量特征，获取文本结构和语义特征；

S3314、运用全连接层和修正线性单元函数处理文本特征，得到待合成文本特征向量f＝{f₁,f₂,…,f_k}。

S332、多编码状态融合。获取语音风格和声调特征编码状态，根据真人教师语音中突出语音风格和声调起伏变化的程度，运用注意力机制赋予各部分编码状态的权重，采用加和运算计算上述两种特征编码状态及其对应权重，获取拟真化语音特征。

语音风格和声调特征的编码状态分别为s_state和p_state，注意力机制为两种编码状态赋予的权重分别为weight_s和weight_p，则加和运算为：

feature＝weight_s*s_state+weight_p*p_state。

S333、真人教师风格语音生成。使用待合成文本和拟真化语音特征作为输入变量，结合语音合成器中的多编码状态融合结果，获取声音序列的风格韵律特征，依据教师的情感极性，生成并输出具有真人教师语音风格和情感特征的语音序列。

实施例二

请参照图2，一种虚拟教师拟真化语音的生成终端1，包括存储器2、处理器3以及存储在所述存储器2上并可在处理器3上运行的计算机程序，所述处理器3执行所述计算机程序时实现实施例一的一种虚拟教师拟真化语音的生成方法的各个步骤。

综上所述，本发明提供的一种虚拟教师拟真化语音的生成方法及终端，采集真人教师的语音样本，经预处理操作，保存为.WAV文件，采用语音转换算法得到声音文本；纠正文本的语法和拼写错误，去掉停用词、标点符号和低频率词项，标注词项词性；依据情感规律，标注词项的情感极性；预定义带有声调变化的标点符号集合，研制汉字声调自动标注工具，标注汉字拼音。依据词频统计结果，按照从大到小的词频顺序，构建映射关系，构建词项情感模型，运用情感极性训练集训练词项情感模型，获得训练结果和权重参数；计算词向量和情感极性向量的相似度，根据相似度类别，实现两者的融合；提取真人教师的语音风格和情感特征，构建条件声码器，生成具有情感变化的新语音。使用组合方式，提取语音韵律信息的特征向量，运用注意力机制赋予风格特征权重，提取风格编码向量，生成语音风格特征及其编码状态；采用空洞卷积捕捉声调波动变化，获取声调特征编码状态，经过加和运算处理语音和声调融合编码状态；根据待合成文本和真人教师的语音特征，生成、输出新的语音序列。随着虚拟教师在课堂教学、在线教学、校园活动等教学场景的广泛应用，提供拟真化的语音合成服务的需求日益迫切。本发明有助于教学管理者、广大教师等相关用户的语音特征、情感风格提取和合成，满足高质量虚拟教师的应用需求。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种虚拟教师拟真化语音的生成方法，其特征在于，包括步骤：

基于文本序列中的词项构建词项情感模型，并使用所述文本情感极性训练集训练所述词项情感模型，根据训练得到词向量以及情感极性向量进行相似度计算，根据相似度计算结果提取情感特征，基于所述情感特征和所述真实语音样本的语音特征构建具有情感变化的语音；

根据所述语音得到语音韵律信息的特征向量，并生成语音风格特征，获取待合成文本，使用所述文本声调训练集提取所述待合成文本的声调特征，基于所述语音风格特征和所述声调特征生成所述待合成文本的拟真化语音；

根据所述语音得到语音韵律信息的特征向量，并生成语音风格特征和编码状态包括：

根据所述风格编码向量，生成语音风格特征及其编码状态。

2.根据权利要求1所述的一种虚拟教师拟真化语音的生成方法，其特征在于，将所述真实语音样本转换成文本序列包括：

将所述真实语音样本进行去噪和编辑后保存为WAV文件；

3.根据权利要求1所述的一种虚拟教师拟真化语音的生成方法，其特征在于，根据所述文本序列构建文本情感极性训练集包括：

4.根据权利要求2所述的一种虚拟教师拟真化语音的生成方法，其特征在于，根据所述文本序列构建文本声调训练集包括：

根据文本序列的声调，为所述文本序列进行拼音标注；

5.根据权利要求1所述的一种虚拟教师拟真化语音的生成方法，其特征在于，所述基于文本序列中的词项构建词项情感模型，并使用所述文本情感极性训练集训练所述词项情感模型包括：

6.根据权利要求1所述的一种虚拟教师拟真化语音的生成方法，其特征在于，所述根据训练得到词向量以及情感极性向量进行相似度计算，根据相似度计算结果提取情感特征包括：

计算词向量与情感极性向量的相似度：

7.根据权利要求1所述的一种虚拟教师拟真化语音的生成方法，其特征在于，基于所述情感特征和所述真实语音样本的语音特征构建具有情感变化的语音包括：

8.根据权利要求1所述的一种虚拟教师拟真化语音的生成方法，其特征在于，所述获取待合成文本，使用所述文本声调训练集提取所述待合成文本的声调特征，基于所述语音风格特征和所述声调特征生成所述待合成文本的拟真化语音包括：

9.一种虚拟教师拟真化语音的生成终端，包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1-8任一项所述的一种虚拟教师拟真化语音的生成方法。