CN115662435B - 一种虚拟教师拟真化语音的生成方法及终端 - Google Patents
一种虚拟教师拟真化语音的生成方法及终端 Download PDFInfo
- Publication number
- CN115662435B CN115662435B CN202211305253.0A CN202211305253A CN115662435B CN 115662435 B CN115662435 B CN 115662435B CN 202211305253 A CN202211305253 A CN 202211305253A CN 115662435 B CN115662435 B CN 115662435B
- Authority
- CN
- China
- Prior art keywords
- emotion
- text
- voice
- vector
- tone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004088 simulation Methods 0.000 title description 7
- 230000008451 emotion Effects 0.000 claims abstract description 283
- 239000013598 vector Substances 0.000 claims abstract description 169
- 238000012549 training Methods 0.000 claims abstract description 104
- 230000008859 change Effects 0.000 claims abstract description 30
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 239000010410 layer Substances 0.000 claims description 60
- 238000013528 artificial neural network Methods 0.000 claims description 36
- 238000004422 calculation algorithm Methods 0.000 claims description 29
- 125000004122 cyclic group Chemical group 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 12
- 230000005236 sound signal Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 239000002356 single layer Substances 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 8
- 230000033764 rhythmic process Effects 0.000 abstract description 8
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 16
- 235000006025 Durio zibethinus Nutrition 0.000 description 9
- 240000000716 Durio zibethinus Species 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 230000004927 fusion Effects 0.000 description 8
- 238000011068 loading method Methods 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 238000005065 mining Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000013329 compounding Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种虚拟教师拟真化语音的生成方法及终端,采集教师的真实语音样本并转换成文本序列,根据文本序列构建文本情感极性训练集和文本声调训练集;基于文本序列中的词项构建词项情感模型,运用情感极性训练集训练词项情感模型,训练获得词向量、情感极性向量和权重参数;计算词向量和情感极性向量的相似度,根据相似度计算结果提取情感特征,从而根据语音风格和情感特征构建条件声码器,生成具有情感变化的新语音。提取新语音中语音韵律信息的特征向量,并生成语音风格特征及其编码状态;之后根据待合成文本和语音特征,生成新的语音序列。有助于教师等相关用户的语音特征、情感风格提取和合成,满足高质量虚拟教师的应用需求。
Description
技术领域
本发明涉及教育元宇宙技术领域,特别涉及一种虚拟教师拟真化语音的生成方法及终端。
背景技术
借助三维建模、动作捕捉、实时渲染、人工智能等技术构建的数字虚拟人,可实现风格多样、亲和友好、声情并茂的播报、解说、陪伴等应用。虚拟教师作为数字虚拟人在教育教学中的典型应用,结合知识图谱、情感推演,能够强化师生的教学临场感体验。然而,受算力资源、训练模型、成本预算的限制,难以提供强大的自然语言处理能力的支持,现今的虚拟教师具有形象固定和音色单调的缺陷,不利于增强师生之间的情感交互,缺少真人教师的人文关怀。随着元宇宙的兴起及其在教育行业应用的逐步深入,虚拟教师作为真实教师在虚拟空间的代理实体,可实现其身体、知觉与意识的共同“在场”。重现真人教师语音风格的虚拟教师有利于减轻教学过程中学生的独孤感和分离感,在未来课堂教学、在线学习、非正式场所学习等应用场景中拥有广阔的应用前景。
当前拟真化虚拟教师的语音生成方面还存在诸多的问题:
(1)音色固定,现有虚拟教师***多用语音合成的方法,经过自然语言处理、训练获取某个真人的声音,由于步骤、成本较多,用户难以替换成其他教师的声音,令***的开放性不强。
(2)语音风格不明显,受学习、训练时间和计算成本的约束,现有虚拟教师***多采用亲和力的明星或偶像的语音作为样本,与学生日常接触到教师的语音关联度不高,不易唤醒学习的在场感。
(3)快速合成的能力不强,学生的科任老师人数较多,需要各个教师合成后的语音风格、情感特征与其真人具有一致性,应考虑云-边-端架构下,基于自然语言处理***实现语音的快速合成。
上述缺陷限制了虚拟教师在多种教育领域中的应用。
发明内容
本发明所要解决的技术问题是:提供一种虚拟教师拟真化语音的生成方法及终端,能够对虚拟教师的语音增加情感特征和语音风格,从而实现虚拟教师的语音拟真化。
为了解决上述技术问题,本发明采用的技术方案为:
一种虚拟教师拟真化语音的生成方法,包括步骤:
采集教师的真实语音样本,将所述真实语音样本转换成文本序列,根据所述文本序列构建文本情感极性训练集和文本声调训练集;
基于文本序列中的词项构建词项情感模型,并使用所述文本情感极性训练集训练所述词项情感模型,根据训练得到词向量、情感极性向量以及权重参数进行相似度计算,根据相似度计算结果提取情感特征,基于所述情感特征和所述真实语音样本的语音特征构建具有情感变化的语音;
根据所述语音得到语音韵律信息的特征向量,并生成语音风格特征,获取待合成文本,使用所述文本声调训练集提取所述待合成文本的声调特征,基于所述语音风格特征和所述声调特征生成所述待合成文本的拟真化语音。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种虚拟教师拟真化语音的生成终端,包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种虚拟教师拟真化语音的生成方法的各个步骤。
本发明的有益效果在于:采集教师的真实语音样本并转换成文本序列,从而根据文本序列构建文本情感极性训练集和文本声调训练集;基于文本序列中的词项构建词项情感模型,运用情感极性训练集训练词项情感模型,训练获得词向量、情感极性向量和权重参数;计算词向量和情感极性向量的相似度,根据相似度计算结果提取情感特征,从而根据语音风格和情感特征,构建条件声码器,生成具有情感变化的新语音。提取新语音中语音韵律信息的特征向量,并生成语音风格特征及其编码状态;之后根据待合成文本和语音特征,生成、输出新的语音序列。随着虚拟教师在课堂教学、在线教学、校园活动等教学场景的广泛应用,有助于教学管理者、广大教师等相关用户的语音特征、情感风格提取和合成,满足高质量虚拟教师的应用需求。
附图说明
图1为本发明实施例的一种虚拟教师拟真化语音的生成方法的流程图;
图2为本发明实施例的一种虚拟教师拟真化语音的生成终端的示意图;
图3是本发明实施例的一种虚拟教师拟真化语音的生成方法的具体步骤流程图;
图4是本发明实施例的声音序列预处理效果图;
图5是本发明实施例的情感极性训练集构建的流程图;
图6是本发明实施例的词项情感模型构建的流程图;
图7是本发明实施例的语音特征提取的示意图;
图8是本发明实施例的语音情感生成构建的流程图;
图9是本发明实施例的语音风格编码向量获取的流程图;
图10是本发明实施例的声调预测模型构建的流程图。
标号说明:
1、一种虚拟教师拟真化语音的生成终端;2、存储器;3、处理器。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1,本发明实施例提供了一种虚拟教师拟真化语音的生成方法,包括步骤:
采集教师的真实语音样本,将所述真实语音样本转换成文本序列,根据所述文本序列构建文本情感极性训练集和文本声调训练集;
基于文本序列中的词项构建词项情感模型,并使用所述文本情感极性训练集训练所述词项情感模型,根据训练得到词向量、情感极性向量以及权重参数进行相似度计算,根据相似度计算结果提取情感特征,基于所述情感特征和所述真实语音样本的语音特征构建具有情感变化的语音;
根据所述语音得到语音韵律信息的特征向量,并生成语音风格特征,获取待合成文本,使用所述文本声调训练集提取所述待合成文本的声调特征,基于所述语音风格特征和所述声调特征生成所述待合成文本的拟真化语音。
从上述描述可知,本发明的有益效果在于:采集教师的真实语音样本并转换成文本序列,从而根据文本序列构建文本情感极性训练集和文本声调训练集;基于文本序列中的词项构建词项情感模型,运用情感极性训练集训练词项情感模型,训练获得词向量、情感极性向量和权重参数;计算词向量和情感极性向量的相似度,根据相似度计算结果提取情感特征,从而根据语音风格和情感特征,构建条件声码器,生成具有情感变化的新语音。提取新语音中语音韵律信息的特征向量,并生成语音风格特征及其编码状态;之后根据待合成文本和语音特征,生成、输出新的语音序列。随着虚拟教师在课堂教学、在线教学、校园活动等教学场景的广泛应用,有助于教学管理者、广大教师等相关用户的语音特征、情感风格提取和合成,满足高质量虚拟教师的应用需求。
进一步地,将所述真实语音样本转换成文本序列包括:
将所述真实语音样本进行去噪和编辑后保存为WAV文件;
将所述WAV文件中的声音信号进行加重和分帧,并通过加窗对所述声音信号进行平滑处理;
采用语音转换算法获取所述声音信号对应的文本序列,过滤所述文本序列中的词项,并使用分段算法将过滤后的所述文本序列划分为不同段落。
由上述描述可知,将真实语音样本进行去噪、编辑、分段等预处理操作,能够便于后续基于预处理得到的文本生成文本训练集。
进一步地,根据所述文本序列构建文本情感极性训练集包括:
去除所述文本序列中词项序列的停用词、标点符号和低频率词项,纠正所述文本序列的语法错误和拼写错误,并标注词项的词性;
获取情感词表和语音的情感规律,结合词项及其上下文词项的类别,标注所述词项的情感极性;
根据词项及其上下文词项的情感极性,构造文本情感极性训练集。
由上述描述可知,使用文本序列中的词项及其上下文词项的类别进行情感极性的标注,能够以词项及其上下文词项的情感极性为样本构造文本情感极性训练集。
进一步地,根据所述文本序列构建文本声调训练集包括:
纠正已划分为不同段落的所述文本序列的标点符号,并为纠正后的文本序列配置对应的声调;
根据文本序列的声调,为所述文本序列进行拼音标注;
根据不同段落的文本序列的声调拼音,构建文本声调训练集。
由上述描述可知,对文本序列进行声调标记后进行文本序列的拼音标注,从而能够以不同段落的文本序列的声调拼音,构建文本声调训练集。
进一步地,基于文本序列中的词项构建词项情感模型,并使用所述文本情感极性训练集训练所述词项情感模型包括:
从文本序列中提取包含情感极性的词项,基于提取出的词项及其词频构建词项与词频的映射关系;
基于神经网络和所述词项与词频的映射关系构建词项情感模型,并根据所述词项情感模型计算词向量;
使用所述文本情感极性训练集训练所述词项情感模型,得到情感极性向量和权重参数。
由上述描述可知,根据包含情感极性的词项及其词频能够得到词项词频的映射关系,从而基于神经网络和该映射关系建立词项情感模型,并计算出词向量;使用文本情感极性训练集训练词项情感模型,能够得到情感极性向量和权重参数,便于后续基于权重参数计算上述两个向量的相似度。
进一步地,根据训练得到词向量、情感极性向量以及权重参数进行相似度计算,根据相似度计算结果提取情感特征包括:
计算词向量与情感极性向量的相似度:
其中cov为协方差,σ为标准差,ej表示词向量,qj表示情感极性向量;
根据所述词向量和所述情感极性向量的相似度确定相似度类别,并根据所述相似度类别进行所述词向量和所述情感极性向量的融合;
根据词向量和情感极性向量的相似度,采用对应运算方法获取情感向量,将词项序列转换为情感极性向量序列,运用循环神经网络层提取向量序列的特征,使用两个全连接层非线性变换向量序列特征,压缩生成情感特征。
由上述描述可知,计算词向量与情感极性向量的相似度,并根据相似度类别进行词向量和情感极性向量的融合,并通过神经网络压缩生成情感特征,便于后续得到具有情感变化的语音。
进一步地,基于所述情感特征和所述真实语音样本的语音特征构建具有情感变化的语音包括:
使用快速傅里叶变换、非线性变换和滤波器组提取所述真实语音样本的语音特征;
将所述情感特征和所述语音特征作为神经网络声码器的前提条件和输入变量,构建声码器的条件模型,使用所述声码器生成具有情感变化的语音。
由上述描述可知,提取真实语音样本的语音特征后,将情感特征和语音特征作为神经网络声码器的前提条件和输入变量,构建声码器的条件模型,以此方式能够通过声码器生成具有情感变化的语音。
进一步地,根据所述语音得到语音韵律信息的特征向量,并生成语音风格特征包括:
使用二维卷积神经网络、批标准化、修正线性单元和单层循环神经网络层,将所述语音的韵律信息转化为韵律特征向量;
使用一对多循环神经网络层挖掘所述语音中多韵律特征,运用注意力机制赋予风格特征权重,获取风格编码向量;
根据所述风格编码向量,生成语音风格特征及其编码状态。
进一步地,所述获取待合成文本,使用所述文本声调训练集提取所述待合成文本的声调特征,基于所述语音风格特征和所述声调特征生成所述待合成文本的拟真化语音包括:
构建声调预测模型,使用所述文本声调训练集训练所述声调预测模型,并采用误差反向传播算法更新所述声调预测模型中的权重参数,将拼音子标注映射为隐含声调特征的向量;
采用空洞卷积捕捉声调波动变化,使用全连接层转换为固定维度的声调特征编码状态;
采用双层循环神经网络层挖掘文本特征信息,经过全连接层和修正线性单元输出待合成文本特征向量;
使用注意力机制为语音风格特征和声调特征的编码状态赋予权重,经过加和运算处理融合编码状态,并根据待合成文本和拟真化语音特征,生成具有语音风格和情感特征的语音序列。
由上述描述可知,使用组合方式,提取语音韵律信息的特征向量,运用注意力机制赋予风格特征权重,提取风格编码向量,生成语音风格特征及其编码状态;采用空洞卷积捕捉声调波动变化,获取声调特征编码状态,经过加和运算处理语音和声调融合编码状态;根据待合成文本和真人教师的语音特征,生成、输出新的语音序列,能够对虚拟教师的语音增加情感特征和语音风格。
请参照图2,本发明另一实施例提供了一种虚拟教师拟真化语音的生成终端,包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种虚拟教师拟真化语音的生成方法的各个步骤。
本发明上述的一种虚拟教师拟真化语音的生成方法及终端,适用于教育元宇宙中具有真人教师语音情感和风格特征的生成和应用,以下通过具体的实施方式进行说明:
实施例一
请参照图1和图3,一种虚拟教师拟真化语音的生成方法,包括步骤:
S1、采集教师的真实语音样本,将所述真实语音样本转换成文本序列,根据所述文本序列构建文本情感极性训练集和文本声调训练集。
S11、采集教师的真实语音样本,将所述真实语音样本进行去噪和编辑后保存为WAV文件。
具体的,按照设定的采样率,在无干扰的录音条件下,采集教师的预设时长的真实声音样本,采用去噪算法消除真实声音样本中的噪声,使用音频编辑软件的标记、删除、***和移动功能来编辑或者处理该真实声音样本,并将编辑或者处理结果保存为.WAV格式的波形声音文件。
S12、将所述WAV文件中的声音信号进行加重和分帧,并通过加窗对所述声音信号进行平滑处理。
具体的,请参照图4,图中201为采集的数字化音频波形图,202为预加重处理后的波形图,203为分帧处理后的波形图,204为加窗处理后的波形图;加载WAV文件中的声音信号,获取数字化的声音序列,使用加重操作解决声音序列中由声门脉冲引起的高端频度与幅度波动的冲突,将帧长设定为固定值,并采用分帧操作处理声音序列,运用加窗操作平滑帧与帧之间的过渡。
S13、采用语音转换算法获取所述声音信号对应的文本序列,过滤所述文本序列中的词项,并使用分段算法将过滤后的所述文本序列划分为不同段落。
使用语音转换算法将声音序列自动转换为文本序列,譬如:采集、识别和转换教师的真实声音样本的文本:“同学们都不西欢榴莲吗?老师非常喜爱榴莲!因为它可以做很多有价值的产品”。
根据语音识别文本的转换规则,运用分段算法将文本序列划分为不同段落,采用<p>标识标记每个段落,标记结果为“<p>同学们都不西欢榴莲吗?老师非常喜爱榴莲!因为它可以做很多有价值的产品。</p>”。
使用正则表达式识别无效和重复词项,并将词项替换成自然语言处理中的常用标识符<UNK>,将结果保存为.txt文本格式。
S14、构建文本情感极性数据集。
S141、去除所述文本序列中词项序列的停用词、标点符号和低频率词项,纠正所述文本序列的语法错误和拼写错误,并标注词项的词性。
在本实施例中,具体步骤如下:
S1411、纠正段落文本语法和拼写错误,将“西欢”修改成“喜欢”。
S1412、使用分词算法将段落分割成词项序列,本实施例中使用“/”进行分割,得到“同学们/都/不/喜欢/榴莲/吗/?/老师/非常/喜爱/榴莲/!/因为/它/可以/做/很多/有/价值/的/产品/。”。
S1413、根据停用词词典和词频统计阈值,去除词项序列中的停用词、标点符号和低频率词项,得到“同学们/都/不/喜欢/榴莲/老师/非常/喜爱/榴莲/做/很多有/价值/产品”。
S1414、运用词性标注算法标注词项词性,例如:“同学们(名词)都(副词)不(否定词)喜欢(动词)榴莲(名词)老师(名词)非常(副词)喜爱(动词)榴莲(名词)做(动词)很多(数词)有(动词)价值(名词)产品(名词)”。
S1415、保留与情感极性相关的形容词、动词、副词和否定词性的词项,剔除其它词性的词项,处理后的序列为“都(副词)不(否定词)喜欢(动词)非常(副词)喜爱(动词)做(动词)有(动词)”。
S1416、使用形容词和动词“喜欢”、“喜爱”、“做”和“有”作为情感词,采用副词和否定词“都”、“非常”和“不”作为情感词程度和极性的修正。
S142、获取情感词表和语音的情感规律,结合词项及其上下文词项的类别,标注所述词项的情感极性。
具体的,加载情感词表,综合判断词项所属的词表,标注各个词项的情感极性,若词项属于多个词表,依据教学场景中语音的情感规律,综合判定所属词表,并结合词项和上下文的词性类别,将其标注为高积极、低积极、高消极、低消极和中性五种情感极性类别。
在本实施例中,情感词情感极性标注步骤如下:
S1421、判断情感词,“喜欢”和“喜爱”在积极词表中,属于积极情感词;“有”和“做”不在积极词表和消极词表中,将它归为中性情感词。
S1422、情感极性赋值,分别将积极词、中性词、消极词、否定词赋值为1、0、﹣1、﹣1,S喜欢=1、S喜爱=1、S有=0、S做=0和S不=﹣1;程度副词则依据修饰程度等级,赋不同的数值倍数,如S都=2、S非常=3。
S143、复合处理。若情感词为积极词或消极词,则搜索与前一情感词之间的非情感词词项,若结果为空,则不作复合处理;若搜索结果不为空,则分别处理:若为否定词,则S=S*S否定词;若为程度副词,则S=S*S程度副词。
例如:情感词“喜欢”前有程度副词“都”和否定词“不”,则S喜欢=S喜欢*S不*S都=1*(﹣1)*2=﹣2;“喜爱”前面只有一个程度副词,则S喜爱=S喜爱*S非常=1*3=3;
S1424、根据情感极性值S的范围,标注情感词的情感极性:
上述情感序列中“喜欢”前有“都不”,因此将它标注为强消极情感极性;“喜爱”前有“非常”,因此标注为强积极情感极性。
S143、根据词项及其上下文词项的情感极性,构造文本情感极性训练集。
具体的,依据词项情感极性依赖上下文信息的特点,构造监督学习训练样本,将训练样本划分为上文和下文两个部分,导入已标注情感极性的情感词作为训练集的下文,待获取情感极性的情感词作为训练集的上文,根据学习效果,逐步扩充训练样本集。
在本实施例中,请参照图5,情感极性训练集构建具体步骤为:
S1431、加载情感词词项序列{w1,w2,…,wn}以及标注的情感极性{t1,t2,…,tn};
S1432、使用情感词及其情感极性构造训练样本,情感词项序列中待预测情感词作为分割点,将词项序列划分为上文和下文两个部分;
S1433、配置卷积核大小为3,步长为1,分别从上文和下文按词项序列顺序获取3个情感词作为卷积处理序列,按照步长为1滑动窗口,获取下一个卷积处理序列,当卷积处理序列长度不够3个时,用当前待预测情感词作为补充。
S15、生成文本声调数据集。
S151、纠正已划分为不同段落的所述文本序列的标点符号,并为纠正后的文本序列配置对应的声调。
具体的,依据标点符号的使用规范,纠错分段文本中不规范的标点符号,设置问号、感叹号、顿号和着重号为预定义标点符号集合,依据集合中各个标点符号所对应的升调、降调和声调变化,将不属于预定义中标点符号替换成逗号。
S152、根据文本序列的声调,为所述文本序列进行拼音标注。
具体的,研制汉字声调自动标注工具,按照分段标识,依次标注汉字拼音。根据汉语拼音的标注规范,研制一套汉字声调自动标注工具,按照分段标识,标注每段文本的汉字拼音,一、二、三、四声调放在拼音的后面,轻声用空格表示,使用&符号分隔拼音标注以及标点符号,例如“同(tong2)学(xue2)们(men)都(dou1)不(bu4)喜(xi3)欢(huan1)榴(liu1)莲(lian2)吗(ma)&?”。
将声调拼音标注结果保存为.txt文件格式。
S153、根据不同段落的文本序列的声调拼音,构建文本声调训练集。
具体的,依据标点符号划分训练样本及其标签,为含有多音字的样本添加特殊标注。加载声调拼音标注序列,剔除分隔符号,将带有声调拼音标注序列划分为多个子序列训练样本,并将子序列结尾的标点符号作为训练样本的标签,生成声调训练集,提取训练样本中多音字及其对应的声调,标注其为含有多音字的样本。
S2、基于文本序列中的词项构建词项情感模型,并使用所述文本情感极性训练集训练所述词项情感模型,根据训练得到词向量、情感极性向量以及权重参数进行相似度计算,根据相似度计算结果提取情感特征,基于所述情感特征和所述真实语音样本的语音特征构建具有情感变化的语音。
S21、从文本序列中提取包含情感极性的词项,基于提取出的词项及其词频构建词项与词频的映射关系。
在本实施例中,依据词频统计结果,剔除小于阈值的词项,剩余词项按照从大到小的词频顺序,构建映射关系。
具体的,运用数据向量化算法筛选出包含情感极性信息的词项,使用词频统计算法统计所采集语音中的情感词项出现的次数,设定词频统计阈值,剔除词频小于阈值的词项,剩余词项按照从大到小的词频顺序,构建情感词项与整数索引的映射。
S22、基于神经网络和所述词项与词频的映射关系构建词项情感模型,并根据所述词项情感模型计算词向量。
具体的,依据前后网络层输出和输入规范,结合序列化建模顺序,顺序堆叠词嵌入层、一维卷积神经网络、循环神经网络层、全连接层以及归一化指数函数,构建词项情感模型,将情感极性训练样本作为模型输入变量,词项的情感极性为输出结果。
在本实施例中,请参照图6,词项情感模型构造具体步骤如下:
S2121、加载情感词词项序列{w1,w2,…,wn},使用已标注为ti情感极性的待预测情感词wi,分别得到训练样本的上文{w1,w2,w3}{w2,w3,w4}…{wi-3,wi-2,wi-1}和下文{wi+1,wi+2,wi+3}{wi+2,wi+3,wi+4}…{wn-2,wn-1,wn},训练样本的标签为ti;
S2122、依据情感词项与整数索引的映射关系,将训练样本的上文和下文中的情感词项分别映射为上文{num1,num2,num3}{num2,num3,num4}…{numi-3,numi-2,numi-1和下文{numi+1,numi+2,numi+3}{numi+2,numi+3,numi+4}…{numn-2,numn-1,numn}两个整数序列;
S2123、将词嵌入层的权重矩阵表示为n组行向量e1,e2,…,ei,…,en,其中ei为wi的词向量,使用one-hot编码将整数序列中的整数值表示为只有一项为1,其余全为0的n维向量,如将numi表示为第i个位置为1的n维向量(0,0,…,1,…,0),并计算wi的词向量:
S2124、根据训练样本的上文和下文的整数索引,分别将上文和下文中的情感词词项转换为包含情感信息的词向量,得到{e1,e2,e3}{e2,e3,e4}…{ei-3,ei-2,ei-1}和{ei+1,ei+2,ei+3}{ei+2,ei+3,ei+4}…{en-2,en-1,en};
S2125、使用两个一维卷积神经网络分别挖掘上下文中的情感信息,将处理结果拼接,并使用循环神经网络捕捉上下文中隐含的wi情感极性信息,经过全连接层以及归一化指数函数,输出为模型预测情感词wi的情感极性概率分布向量
S213、运用情感极性训练集训练词项情感模型,获得训练结果和权重参数。
使用初始化算法赋值词项情感模型中的权重和阈值参数,基于情感极性训练集,采用梯度下降算法迭代更新权重参数,设定模型预测准确率阈值,当词项情感模型的准确率达到阈值,停止模型训练,将模型以及学习的权重参数保存到.ckpt文件。梯度下降算法更新权重和阈值参数的具体步骤:
S2131、把神经元定义为神经网络中计算的基本单位,采用Xavier参数初始化算法对权重和阈值进行初始化:
bias初始化~N[mean=0,std=1];
其中nin和nout分别为输入和输出神经元的个数。
S2132、使用one-hot编码将五种情感极性类别表示为只有一项为1,其余全为0的五维向量,当前待预测情感词为wi,情感极性向量ti=(ti1,ti2,ti3,ti4,ti5);
S2135、采用梯度下降算法对weight初始化和bias初始化参数迭代更新,搜索令交叉熵损失函数值最小的参数值,第一次梯度下降算法更新公式:
S2136、设置准确率阈值为95%,使用梯度下降算法更新迭代参数,直到所有训练样本的交叉熵损失函数值之和为5%,得到参数weight和bias,完成词项情感模型的训练。
S22、获取词向量和情感极性向量,计算两者的相似度,融合词项情感极性。
S221、基于词项情感模型及其权重参数,获取词向量和情感极性向量。加载词项情感模型及其权重参数,依据情感词项与整数索引和权重参数的映射关系,获取具有情感信息的词向量,导入词项情感模型,跟据模型中表示情感极性向量的函数关系,计算并输出情感极性向量。
S222、运用相似度算法计算词向量和情感极性向量的相似度,按照相似程度划分为强相关、弱相关和不相关。加载词项的词向量和情感极性向量,使用相似度算法计算向量间的相似程度,确定词向量和情感极性向量的相似度类别,依据计算结果的正负和大小,将相似度设定为强相关、弱相关和负相关三种类别。相似度计算步骤如下所示:
S2221、获取情感词wj的词向量ej和情感极性向量qj;
S2222、使用皮尔逊相关系数计算词向量与情感极性向量的相似度:
其中cov为协方差,σ为标准差。
S2223、根据两个向量皮尔逊相关系数的计算结果,划分相关程度:
S223、根据相似度类别,分别使用算术平均、加权平均或加和方法实现两个向量的融合。
根据两个向量的相似度,若为强相关,则使用算术平均方法计算情感极性信息;若为弱相关,运用加权平均方法处理情感极性信息;若为不相关,将词向量和情感极性向量相加,得到词项的情感极性信息。
以情感词wj的词向量ej和情感极性向量qj为例,加权平均方法:
式中,||为向量模长。
S23、构建条件声码器,输出具有情感变化的语音。
S231、使用快速傅里叶变换、非线性变换和滤波器组提取教师的语音特征。
具体的,请参照图7,使用快速傅里叶变换逐帧处理教师的声音序列,沿着纵向维度堆叠声音序列的各帧,获取教师语音的幅度和相位,运用非线性变换处理声谱图,使用滤波器组捕捉教师在教学活动中语调、音高、音色和节奏变化特征,提取梅尔语谱图中间特征。
S232、运用循环神经网络层提取向量序列的特征,将词项转换为情感特征。根据词向量和情感极性向量的相似度,采用对应运算方法获取情感向量,将词项序列转换为情感极性向量序列,运用循环神经网络层提取向量序列的特征,使用两个全连接层非线性变换向量序列特征,再压缩、生成情感特征。
本实施例中,情感特征获取的具体步骤如下所示:
S2321、加载情感词词项序列{w1,w2,…,wn};
S2322、获取词项序列中每个情感词的词向量和情感极性向量,计算相似度,根据计算结果,采用对应的融合方式,得到情感向量序列;
S2323、使用循环神经网络提取情感向量序列的特征,并经过两个全连接层非线性变换,压缩后输出情感特征向量h={h1,h2,…,hj}。
S233、基于教师的情感和语音特征,构建条件声码器,生成具有情感变化的新语音。
具体的,分别将情感特征和梅尔语谱图语音特征作为神经网络声码器的前提条件和输入变量,构建声码器的条件模型,使用声码器融合情感变化和音调与音色特征,生成具有情感变化的新语音,用于后续语音合成。
在本实施例中,请参照图8,语音情感的生成具体步骤如下:
S2331、将情感特征向量h={h1,h2,…,hj}和梅尔语谱图语音特征x={x1,x2,…,xT}分别作为声码器的前提条件和输入;
S2332、声码器的条件模型公式:
式中,xt为t时刻的梅尔语谱图语音特征;
S2333、融合情感特征h与梅尔语谱图语音特征x的计算公式:
式中,tanh为正切函数,σ为sigmoid函数,⊙为Khatri-Rao积,V1、V2、W1、W2为权重参数。
S3、根据所述语音得到语音韵律信息的特征向量,并生成语音风格特征和编码状态,获取待合成文本,根据所述待合成文本和所述语音风格特征生成所述待合成文本的拟真化语音。
S31、生成融合文本情感信息的语音风格特征,使用一对多循环神经网络层挖掘语音中多韵律特征,获取语音风格编码状态。
S311、使用二维卷积神经网络、批标准化、修正线性单元和单层循环神经网络层,将韵律信息转化为韵律特征向量。
具体的,使用二维卷积神经网络提取教师的语音特征,获取语调、时域分布、重音以及情感的韵律信息,运用批标准化算法处理语音中多韵律信息,使用单层循环神经网络层提取韵律信息,将其转化为固定维度的韵律特征向量。
S312、使用一对多循环神经网络层挖掘语音中多韵律特征,运用注意力机制赋予风格特征权重,获取风格编码向量。
具体的,设定需要捕捉语音风格特征的数量,使用一对多循环神经网络层挖掘韵律特征向量,获取真人教师的语调、音高、音色、节奏以及情感语音风格特征,运用注意力机制,赋予语音风格突出特征较高的权重,加和运算风格特征,生成风格编码向量。
本实施例中,请参照图9,语音风格编码向量获取的具体步骤:
S3121、获取包含语调、时域分布、重音和情感信息的韵律特征向量pr={pr1,pr2,…,prk};
S3122、基于语调、音高、音色、节奏以及情感,构建5维度特征的语音风格,将韵律特征向量作为一对多循环神经网络的输入变量,输出语音风格的特征向量{s1,s2,s3,s4,s5};
S3123、针对教师语音风格特点,运用注意力机制为5种语音风格特征赋予不同的权重,语音风格特征权重的计算公式:
[α1,α2,α3,α4,α5]=softmax([score(s1,q),score(s2,q),score(s3,q),score(s4,q),score(s5,q)])
式中,score为打分函数,q为查询向量。
S3124、将语音风格特征的5维度变量与对应权重相乘,运算结果加和,输出风格编码向量style={style1,style2,…,stylei}。
S313、提取风格编码向量,生成语音风格特征及其编码状态。
具体的,设置提取模块的数量,将全连接层、批标准化和修正线性单元作为一组提取模块,设定输出编码状态的维度,使用提取模块对风格编码向量非线性变换和压缩处理操作,生成包含语音风格特征且维度固定的编码状态。
S32、按照建模顺序,构建声调预测模型,捕捉声调波动变化并转换成声调特征编码状态。
S321、依据序列化建模设计规范,按照建模顺序,构建声调预测模型。依据序列化建模设计规范,按照建模顺序堆叠词嵌入层、双层循环神经网络层、全连接层以及归一化指数函数,构建声调预测模型,声调训练样本为模型输入变量,模型输出隐含升调、降调和声调变化标点符号的概率分布。
在本实施例中,请参照图10,声调预测模型构建具体步骤:
S3211、加载带有声调的拼音标注子序列p={p1,p2,…,pn};
S3212、使用词嵌入层将子序列转换为隐含声调变化的向量序列e={e1,e2,…,en};
S3213、采用双层循环神经网络层捕捉向量序列中声调的高低和波动变化特征;
S3214、运用全连接层非线性变换和压缩捕捉的特征,经过归一化指数函数处理,得到子序列对应标点符号的概率分布向量pun={pun1,pun2,……,punk}。
S322、运用反向传播算法更新模型中的权重参数,将拼音子标注映射为隐含声调特征的向量。
使用文本声调训练集训练声调预测模型,采用误差反向传播算法更新模型中的权重参数,设定预测准确率阈值,当声调预测模型的准确率达到阈值,停止训练模型,依据词嵌入层中权重参数隐含拼音子序列的声调变化,使用权重参数将子序列映射为包含声调变化的特征向量。
本实施例中,误差反向传播算法具体步骤:
S3221、声调预测模型中第i层输入和第i+1层的输出分别为xi和xi+1,两层的权重参数分别是wi和wi+1;
S3222、将真实输出结果定义为z,计算模型预测结果与真实输出结果的误差:
δ=z-xi+1;
S3223、将误差通过链式法则从第i+1层传递到第i层,分别计算第i层和第i+1层的误差:
δi+1=wi+1δ;δi=wiδi+1;
S3224、分别计算更新后的第i层和第i+1层的权重参数:
wi=wi+ηδifxi;
wi+1=wi+1+ηδi+1fxi+1;
其中,η为学习率,f为激活函数的导数。
S323、采用空洞卷积捕捉声调波动变化,使用全连接层转换为固定维度的声调特征编码状态。
具体的,使用空洞因果卷积神经网络捕捉声调特征向量中波动变化规律,按照时间步的顺序依次拼接处理声调的波动变化,采用全连接层非线性变换拼接结果,并将处理结果压缩成固定维度的声调特征编码状态。
S33、拟真化语音特征生成。使用注意力机制为语音和声调编码状态赋予权重,经过加和运算处理融合编码状态;根据待合成文本和拟真化语音特征,生成、输出具有真人教师语音风格和情感特征的语音序列。
S331、采用双层循环神经网络层挖掘文本特征信息,经过全连接层和修正线性单元输出待合成文本特征向量。
使用神经网络语言模型将待合成文本转换为文本向量,采用双层循环神经网络层挖掘文本向量中的特征信息,获取最后一个时间步的输出结果,经过全连接层和修正线性单元函数处理,获取待合成文本特征向量。
在本实施例,待合成文本特征获取具体步骤:
S3311、获取待合成文本{w1,w2,…,wn};
S3312、使用神经网络语音模型将待合成文本转换为文本向量text={text1,text2,…,textn};
S3313、采用双层循环神经网络提取文本向量特征,获取文本结构和语义特征;
S3314、运用全连接层和修正线性单元函数处理文本特征,得到待合成文本特征向量f={f1,f2,…,fk}。
S332、多编码状态融合。获取语音风格和声调特征编码状态,根据真人教师语音中突出语音风格和声调起伏变化的程度,运用注意力机制赋予各部分编码状态的权重,采用加和运算计算上述两种特征编码状态及其对应权重,获取拟真化语音特征。
语音风格和声调特征的编码状态分别为sstate和pstate,注意力机制为两种编码状态赋予的权重分别为weights和weightp,则加和运算为:
feature=weights*sstate+weightp*pstate。
S333、真人教师风格语音生成。使用待合成文本和拟真化语音特征作为输入变量,结合语音合成器中的多编码状态融合结果,获取声音序列的风格韵律特征,依据教师的情感极性,生成并输出具有真人教师语音风格和情感特征的语音序列。
实施例二
请参照图2,一种虚拟教师拟真化语音的生成终端1,包括存储器2、处理器3以及存储在所述存储器2上并可在处理器3上运行的计算机程序,所述处理器3执行所述计算机程序时实现实施例一的一种虚拟教师拟真化语音的生成方法的各个步骤。
综上所述,本发明提供的一种虚拟教师拟真化语音的生成方法及终端,采集真人教师的语音样本,经预处理操作,保存为.WAV文件,采用语音转换算法得到声音文本;纠正文本的语法和拼写错误,去掉停用词、标点符号和低频率词项,标注词项词性;依据情感规律,标注词项的情感极性;预定义带有声调变化的标点符号集合,研制汉字声调自动标注工具,标注汉字拼音。依据词频统计结果,按照从大到小的词频顺序,构建映射关系,构建词项情感模型,运用情感极性训练集训练词项情感模型,获得训练结果和权重参数;计算词向量和情感极性向量的相似度,根据相似度类别,实现两者的融合;提取真人教师的语音风格和情感特征,构建条件声码器,生成具有情感变化的新语音。使用组合方式,提取语音韵律信息的特征向量,运用注意力机制赋予风格特征权重,提取风格编码向量,生成语音风格特征及其编码状态;采用空洞卷积捕捉声调波动变化,获取声调特征编码状态,经过加和运算处理语音和声调融合编码状态;根据待合成文本和真人教师的语音特征,生成、输出新的语音序列。随着虚拟教师在课堂教学、在线教学、校园活动等教学场景的广泛应用,提供拟真化的语音合成服务的需求日益迫切。本发明有助于教学管理者、广大教师等相关用户的语音特征、情感风格提取和合成,满足高质量虚拟教师的应用需求。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种虚拟教师拟真化语音的生成方法,其特征在于,包括步骤:
采集教师的真实语音样本,将所述真实语音样本转换成文本序列,根据所述文本序列构建文本情感极性训练集和文本声调训练集;
基于文本序列中的词项构建词项情感模型,并使用所述文本情感极性训练集训练所述词项情感模型,根据训练得到词向量以及情感极性向量进行相似度计算,根据相似度计算结果提取情感特征,基于所述情感特征和所述真实语音样本的语音特征构建具有情感变化的语音;
根据所述语音得到语音韵律信息的特征向量,并生成语音风格特征,获取待合成文本,使用所述文本声调训练集提取所述待合成文本的声调特征,基于所述语音风格特征和所述声调特征生成所述待合成文本的拟真化语音;
根据所述语音得到语音韵律信息的特征向量,并生成语音风格特征和编码状态包括:
使用二维卷积神经网络、批标准化、修正线性单元和单层循环神经网络层,将所述语音的韵律信息转化为韵律特征向量;
使用一对多循环神经网络层挖掘所述语音中多韵律特征,运用注意力机制赋予风格特征权重,获取风格编码向量;
根据所述风格编码向量,生成语音风格特征及其编码状态。
2.根据权利要求1所述的一种虚拟教师拟真化语音的生成方法,其特征在于,将所述真实语音样本转换成文本序列包括:
将所述真实语音样本进行去噪和编辑后保存为WAV文件;
将所述WAV文件中的声音信号进行加重和分帧,并通过加窗对所述声音信号进行平滑处理;
采用语音转换算法获取所述声音信号对应的文本序列,过滤所述文本序列中的词项,并使用分段算法将过滤后的所述文本序列划分为不同段落。
3.根据权利要求1所述的一种虚拟教师拟真化语音的生成方法,其特征在于,根据所述文本序列构建文本情感极性训练集包括:
去除所述文本序列中词项序列的停用词、标点符号和低频率词项,纠正所述文本序列的语法错误和拼写错误,并标注词项的词性;
获取情感词表和语音的情感规律,结合词项及其上下文词项的类别,标注所述词项的情感极性;
根据词项及其上下文词项的情感极性,构造文本情感极性训练集。
4.根据权利要求2所述的一种虚拟教师拟真化语音的生成方法,其特征在于,根据所述文本序列构建文本声调训练集包括:
纠正已划分为不同段落的所述文本序列的标点符号,并为纠正后的文本序列配置对应的声调;
根据文本序列的声调,为所述文本序列进行拼音标注;
根据不同段落的文本序列的声调拼音,构建文本声调训练集。
5.根据权利要求1所述的一种虚拟教师拟真化语音的生成方法,其特征在于,所述基于文本序列中的词项构建词项情感模型,并使用所述文本情感极性训练集训练所述词项情感模型包括:
从文本序列中提取包含情感极性的词项,基于提取出的词项及其词频构建词项与词频的映射关系;
基于神经网络和所述词项与词频的映射关系构建词项情感模型,并根据所述词项情感模型计算词向量;
使用所述文本情感极性训练集训练所述词项情感模型,得到情感极性向量和权重参数。
7.根据权利要求1所述的一种虚拟教师拟真化语音的生成方法,其特征在于,基于所述情感特征和所述真实语音样本的语音特征构建具有情感变化的语音包括:
使用快速傅里叶变换、非线性变换和滤波器组提取所述真实语音样本的语音特征;
将所述情感特征和所述语音特征作为神经网络声码器的前提条件和输入变量,构建声码器的条件模型,使用所述声码器生成具有情感变化的语音。
8.根据权利要求1所述的一种虚拟教师拟真化语音的生成方法,其特征在于,所述获取待合成文本,使用所述文本声调训练集提取所述待合成文本的声调特征,基于所述语音风格特征和所述声调特征生成所述待合成文本的拟真化语音包括:
构建声调预测模型,使用所述文本声调训练集训练所述声调预测模型,并采用误差反向传播算法更新所述声调预测模型中的权重参数,将拼音子标注映射为隐含声调特征的向量;
采用空洞卷积捕捉声调波动变化,使用全连接层转换为固定维度的声调特征编码状态;
采用双层循环神经网络层挖掘文本特征信息,经过全连接层和修正线性单元输出待合成文本特征向量;
使用注意力机制为语音风格特征和声调特征的编码状态赋予权重,经过加和运算处理融合编码状态,并根据待合成文本和拟真化语音特征,生成具有语音风格和情感特征的语音序列。
9.一种虚拟教师拟真化语音的生成终端,包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-8任一项所述的一种虚拟教师拟真化语音的生成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211305253.0A CN115662435B (zh) | 2022-10-24 | 2022-10-24 | 一种虚拟教师拟真化语音的生成方法及终端 |
US18/156,007 US11727915B1 (en) | 2022-10-24 | 2023-01-18 | Method and terminal for generating simulated voice of virtual teacher |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211305253.0A CN115662435B (zh) | 2022-10-24 | 2022-10-24 | 一种虚拟教师拟真化语音的生成方法及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115662435A CN115662435A (zh) | 2023-01-31 |
CN115662435B true CN115662435B (zh) | 2023-04-28 |
Family
ID=84990623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211305253.0A Active CN115662435B (zh) | 2022-10-24 | 2022-10-24 | 一种虚拟教师拟真化语音的生成方法及终端 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11727915B1 (zh) |
CN (1) | CN115662435B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117316143A (zh) * | 2023-11-30 | 2023-12-29 | 深圳市金大智能创新科技有限公司 | 一种基于虚拟人进行人机交互的方法 |
CN117409780B (zh) * | 2023-12-14 | 2024-02-27 | 浙江宇宙奇点科技有限公司 | 一种应用于ai数字人语音交互方法及*** |
CN117635785B (zh) * | 2024-01-24 | 2024-05-28 | 卓世科技(海南)有限公司 | 一种护工数字人生成方法及*** |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038492A (zh) * | 2017-11-23 | 2018-05-15 | 西安理工大学 | 一种基于深度学习的感性词向量及情感分类方法 |
CN108899049A (zh) * | 2018-05-31 | 2018-11-27 | 中国地质大学(武汉) | 一种基于卷积神经网络的语音情感识别方法及*** |
CN110910898B (zh) * | 2018-09-15 | 2022-12-30 | 华为技术有限公司 | 一种语音信息处理的方法和装置 |
CN111048062B (zh) * | 2018-10-10 | 2022-10-04 | 华为技术有限公司 | 语音合成方法及设备 |
CN110245229B (zh) * | 2019-04-30 | 2023-03-28 | 中山大学 | 一种基于数据增强的深度学习主题情感分类方法 |
CN110264991B (zh) * | 2019-05-20 | 2023-12-22 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质 |
CN110427616B (zh) * | 2019-07-19 | 2023-06-09 | 山东科技大学 | 一种基于深度学习的文本情感分析方法 |
CN111563379B (zh) * | 2020-05-12 | 2022-12-02 | 厦门市美亚柏科信息股份有限公司 | 基于中文词向量模型的文本识别方法、装置及存储介质 |
CN112489620B (zh) * | 2020-11-20 | 2022-09-09 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN112541078A (zh) * | 2020-12-10 | 2021-03-23 | 平安科技(深圳)有限公司 | 新闻智能播报方法、装置、设备及存储介质 |
CN112820269B (zh) * | 2020-12-31 | 2024-05-28 | 平安科技(深圳)有限公司 | 文本转语音方法、装置、电子设备及存储介质 |
CN113129862B (zh) * | 2021-04-22 | 2024-03-12 | 合肥工业大学 | 一种基于world-tacotron的语音合成方法、***及服务器 |
US11711469B2 (en) * | 2021-05-10 | 2023-07-25 | International Business Machines Corporation | Contextualized speech to text conversion |
AU2022203161A1 (en) * | 2021-05-11 | 2022-12-01 | Axon Enterprise, Inc. | Equipment Detection Using A Wearable Device |
WO2022260432A1 (ko) * | 2021-06-08 | 2022-12-15 | 네오사피엔스 주식회사 | 자연어로 표현된 스타일 태그를 이용한 합성 음성 생성 방법 및 시스템 |
KR102402884B1 (ko) * | 2021-07-20 | 2022-05-30 | (주)아몬드미디어 | 자동번역 기반 글로벌 온라인 커뮤니티 서비스 제공 시스템 |
CN113658577B (zh) * | 2021-08-16 | 2024-06-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种语音合成模型训练方法、音频生成方法、设备及介质 |
CN113889074A (zh) * | 2021-09-27 | 2022-01-04 | 平安科技(深圳)有限公司 | 语音生成方法、装置、设备及介质 |
CN114757182A (zh) * | 2022-04-06 | 2022-07-15 | 西安电子科技大学 | 一种改进训练方式的bert短文本情感分析方法 |
CN115098633A (zh) * | 2022-06-27 | 2022-09-23 | 中国银行股份有限公司 | 一种智能客服情感分析方法和***、电子设备、存储介质 |
CN115662473A (zh) * | 2022-10-12 | 2023-01-31 | 上海暖禾脑科学技术有限公司 | 一种基于语音数据的情感识别方法、装置及电子设备 |
CN115631772A (zh) * | 2022-10-27 | 2023-01-20 | 四川大学华西医院 | 自伤***危险性评估方法、装置、电子设备及存储介质 |
-
2022
- 2022-10-24 CN CN202211305253.0A patent/CN115662435B/zh active Active
-
2023
- 2023-01-18 US US18/156,007 patent/US11727915B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11727915B1 (en) | 2023-08-15 |
CN115662435A (zh) | 2023-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Oord et al. | Parallel wavenet: Fast high-fidelity speech synthesis | |
Choi et al. | A tutorial on deep learning for music information retrieval | |
CN115662435B (zh) | 一种虚拟教师拟真化语音的生成方法及终端 | |
CN110210032B (zh) | 文本处理方法及装置 | |
KR20180125905A (ko) | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 | |
Kheddar et al. | Deep transfer learning for automatic speech recognition: Towards better generalization | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
CN115641543B (zh) | 一种多模态抑郁情绪识别方法及装置 | |
Guha et al. | Hybrid feature selection method based on harmony search and naked mole-rat algorithms for spoken language identification from audio signals | |
CN113837299B (zh) | 基于人工智能的网络训练方法及装置、电子设备 | |
CN112837669B (zh) | 语音合成方法、装置及服务器 | |
Das et al. | Best of both worlds: Robust accented speech recognition with adversarial transfer learning | |
CN111241820A (zh) | 不良用语识别方法、装置、电子装置及存储介质 | |
CN116665669A (zh) | 一种基于人工智能的语音交互方法及*** | |
CN114339450A (zh) | 视频评论生成方法、***、设备及存储介质 | |
CN112349294A (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN112183106A (zh) | 一种基于音素联想及深度学习的语义理解方法及装置 | |
Akbal et al. | Development of novel automated language classification model using pyramid pattern technique with speech signals | |
CN113780418A (zh) | 一种数据的筛选方法、***、设备和存储介质 | |
CN117094383A (zh) | 一种语言模型的联合训练方法、***、设备及存储介质 | |
Yang et al. | Speech emotion analysis of netizens based on bidirectional lstm and pgcdbn | |
CN116257616A (zh) | 面向音乐领域的实体关系抽取方法及*** | |
Yang | [Retracted] Design of Service Robot Based on User Emotion Recognition and Environmental Monitoring | |
CN114170997A (zh) | 发音技巧检测方法、装置、存储介质及电子设备 | |
CN115169472A (zh) | 针对多媒体数据的音乐匹配方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |