CN111145719B - 将中英混合及语气标签化的数据标注方法及装置 - Google Patents

将中英混合及语气标签化的数据标注方法及装置 Download PDF

Info

Publication number
CN111145719B
CN111145719B CN201911404092.9A CN201911404092A CN111145719B CN 111145719 B CN111145719 B CN 111145719B CN 201911404092 A CN201911404092 A CN 201911404092A CN 111145719 B CN111145719 B CN 111145719B
Authority
CN
China
Prior art keywords
training
text
audio file
characters
english
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911404092.9A
Other languages
English (en)
Other versions
CN111145719A (zh
Inventor
戴健
周伟东
刘华
刘凯
喻凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Taiji Huabao Technology Co ltd
Original Assignee
Beijing Taiji Huabao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Taiji Huabao Technology Co ltd filed Critical Beijing Taiji Huabao Technology Co ltd
Priority to CN201911404092.9A priority Critical patent/CN111145719B/zh
Publication of CN111145719A publication Critical patent/CN111145719A/zh
Application granted granted Critical
Publication of CN111145719B publication Critical patent/CN111145719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请实施例公开了一种应用在深度学习语音合成算法中的,将中英混合及语气标签化的数据标注方法及装置,所述方法包括:从数据源中抓取训练文本,所述训练文本涵盖有中英文字符;为所抓取的所述训练文本添加情感标签,记录发音人根据情感标签标注后的训练文本的朗读音频文件,作为训练用音频文件;核检训练用音频文件与对应的训练文本的情感标签是否一致,不一致的部分对音频文件进行修订;将训练文本映射为文本向量,将文本向量及发音人的朗读音频文件,提交给神经网络的深度学习引擎进行训练,通过深度学习训练,学习中文、英文、情感标签的各种组合搭配下的文本的发音特点。

Description

将中英混合及语气标签化的数据标注方法及装置
技术领域
本申请实施例涉及一种将中英混合及语气标签化的数据标注方法及装置。
背景技术
目前的语音合成技术,极大改进了语音合成质量,能够直接从文本直接生成逼真的语音,从而可以应用于语音导航、自动播报、自动排队叫号服务等领域。但是,目前的基于文本的语音输出技术中,语音输出过程中往往音调被拉平,虽然听起来流畅,但感情色彩不足,给人的体验非常不好。同时传统的语音输出技术中,不能同时适用中英混合的情况。涉及到中、英文混合发音,往往要调用两个模型进行处理,导致处理效率低下,语音输出效果较差。这是因为,传统的文本标注技术,采取的是直接把文字转拼音,再把拼音转成向量,作为神经网络的输入。在这种标注数据下,由于数据准备的单一性,基本无法训练出抑扬顿挫的语音。
发明内容
为解决上述技术问题,本申请实施例期望提供一种将中英混合及语气标签化的数据标注方法及装置。
本发明的技术方案是这样实现的:
本申请实施例提供一种将中英混合及语气标签化的数据标注方法,包括:
从数据源中抓取训练文本,所述训练文本涵盖有中英文字符;
为所抓取的所述训练文本添加情感标签,所述情感标签包括短时停顿、平调、惊喜、疑问、拖音、反问、强调中的至少一种;
记录发音人根据情感标签标注后的训练文本的朗读音频文件,作为训练用音频文件;
核检训练用音频文件与对应的训练文本的情感标签是否一致,不一致的部分对音频文件进行修订;
将训练文本映射为文本向量,将文本向量及发音人的朗读音频文件,提交给神经网络的深度学习引擎进行训练,通过深度学习训练,学习中文、英文、情感标签的各种组合搭配下的文本的发音特点。
作为一种实现方式,所述将训练文本映射为文本向量,包括:
对所述训练文本中的文字、数字及英文字符进行读音标注,将标注后的读音中的字母按字母与标定数字之间的对应关系,将句子标注的语音转换为数字串,将文字对应的声调转换为对应的数字,将句子的情感标签转换为对应的数字标识;音素之间以设定标识符标识,将该设定标识符转换为数字;
将转换为数字串的文本映射成向量。
作为一种实现方式,所述方法还包括:
对训练文本中的文字进行儿化音进行标注,文字的轻声不进行标注;
在将标注后的文本映射成向量之前,将文字对应的声调中的儿化音转换为对应的数字。
作为一种实现方式,对音频文件进行修订后,所述方法还包括:
音频文件修订后无法达到需求时,将音频文件删除或基于音频文件对应的训练文本重新进行朗读而重新生成音频文件。
一种将中英混合及语气标签化的数据标注装置,包括:
抓取单元,用于从数据源中抓取训练文本;所述训练文本涵盖有中英文字符;
添加单元,用于为所抓取的所述训练文本添加情感标签,所述情感标签包括短时停顿、平调、惊喜、疑问、拖音、反问、强调中的至少一种;
记录单元,用于记录发音人根据情感标签标注后的训练文本的朗读音频文件,作为训练用音频文件;
核检单元,用于核检训练用音频文件与对应的训练文本的情感标签是否一致,不一致时触发修订单元;
修订单元,用于对训练用音频文件的与对应的训练文本不一致的部分进行修订;
映射单元,用于将训练文本映射为文本向量;
训练单元,用于将文本向量及发音人的朗读音频文件,提交给神经网络的深度学习引擎进行训练,通过深度学习训练,学习中文、英文、情感标签的各种组合搭配下的文本的发音特点。
作为一种实现方式,所述映射单元,还用于对所述训练文本中的文字、数字及英文字符进行读音标注,将标注后的读音中的字母按字母与标定数字之间的对应关系,将句子标注的语音转换为数字串,将文字对应的声调转换为对应的数字,将句子的情感标签转换为对应的数字标识;音素之间以设定标识符标识,将该设定标识符转换为数字;
将转换为数字串的文本映射成向量。
作为一种实现方式,所述映射单元,还用于对训练文本中的文字进行儿化音进行标注,文字的轻声不进行标注;
在将标注后的文本映射成向量之前,将文字对应的声调中的儿化音转换为对应的数字。
作为一种实现方式,所述修订单元,还用于:
对音频文件进行修订后,确定音频文件修订后无法达到需求时,将音频文件删除或基于音频文件对应的训练文本重新进行朗读而重新生成音频文件。
本申请实施例的技术方案与现有技术相比具有如下优点:
本申请实施例通过可以解决传统端到端的深度学***淡以及中英文不能混读的问题,通过对文本进行数据标注算法,可以训练出一个更好的语音模型,合成出抑扬顿挫的语音效果,在一个模型中即可支持中英文混读,从而使输出语音与人的直觉一致,也不增加神经网络复杂度,方便网络学习。本申请实施例提供的符合直觉的用于端到端的语音合成模型的数据标注方法,既可以满足基本语调定义的需要,又不增加额外的复杂度。
附图说明
图1为本申请实施例的将中英混合及语气标签化的数据标注方法的流程示意图;
图2为本申请实施例的将中英混合及语气标签化的数据标注装置的组成结构示意图。
具体实施方式
在不冲突的情况下,本发明所记载的实施例之间的技术方案能够合并。
下面将结合附图对本发明的技术方案做具体地描述。
图1为本申请实施例的将中英混合及语气标签化的数据标注方法的流程示意图,如图1所示,本申请实施例的将中英混合及语气标签化的数据标注方法包括以下步骤:
步骤101,从数据源中抓取训练文本,所述训练文本涵盖有中英文字符。
本申请实施例中,可以从数据训练库中获取训练文本。数据源可以是网络中的各种网页,如百度百科中的文本等,数据源也可以是教科书或杂志文本等。本申请实施例从数据源中抓取含有中英文字符的训练文本。
步骤102,为所抓取的所述训练文本添加情感标签,所述情感标签包括短时停顿、平调、惊喜、疑问、拖音、反问、强调中的至少一种。
本申请实施例中,需要为训练文本添加情感标签,如短时停顿、平调、惊喜、疑问、拖音、反问、强调等。本申请实施例中,由于通过标点符号确定句子的语气太过粗糙,很多时候语气与上下文的语义还有很大的关联关系,如同样一句话,在不同的应用场景下其语气有很大区别,如以语气热烈、平淡、反讽来读一句话时,其语气的差别非常明显,因此,本申请实施例基于上下文语义分析、标点符号、文字及文字在句子中的位置而确定句子语气,以更准确地为训练文本添加感情标签。
步骤103,记录发音人根据情感标签标注后的训练文本的朗读音频文件,作为训练用音频文件。
本申请实施例中,当抓取完所述训练文本后,由发音人根据情感标签标注后的训练文本的朗读音频文件,记录该朗读音频文件并存储,作为训练用音频文件。
步骤104,核检训练用音频文件与对应的训练文本的情感标签是否一致,不一致的部分对音频文件进行修订。
本申请实施例中,需要对所朗读生成的音频文件进行核检,达不到需求时对音频文件不达标的部分进行修订;若音频文件修订后无法达到需求时,将音频文件删除或基于音频文件对应的训练文本重新进行朗读而重新生成音频文件。
步骤105,将训练文本映射为文本向量,将文本向量及发音人的朗读音频文件,提交给神经网络的深度学习引擎进行训练,通过深度学习训练,学习中文、英文、情感标签的各种组合搭配下的文本的发音特点。
以下详细说明如何将训练文本映射为文本向量。
本申请实施例中,首先对训练文本中的各个文字及词语、数字、英文字符等进行读音标注。其中,汉字直接转换为对应汉字的拼音。带有音调符号,其中轻音不标记,1-4声依次在拼音后置数字1-4。如“小数点”,转成的拼音是:“xiao3 shu4 dian3 er”。如“点积”转成的拼音为:“dian3 ji1”。
英文标签使用国际音标标记。采用CMU体系标记,具体如下
Figure BDA0002348151980000051
Figure BDA0002348151980000061
对于用CMU音标标记的发音,用“{}”括起来,英文字母Q,应转为:{K Y UW}。
句子“您的京Q3HM21”的丰田汽车是您或您的家人在开吗?”
应转为:
“nin2 de jing1{K Y UW}san1{HH AH M}er4 yi1 de feng1 tian2 qi4 che1shi4 nin2 huo4 nin2 de jia1 ren2 zai4 kai1 ma?”。
本申请实施例中,情感标签包括:
1、儿音:如:“小数点”,转成的拼音是:xiao3 shu4 dian3 er。
2、短时停顿:“,”。表示朗读时短暂停顿。
3、平调读:“。”。表示正常语气朗读。
4、惊喜读:“!”,表示此句话应读出惊喜的感觉。
5、疑问读:“?”,表示此句应用疑问的语气读。
6、拖音读:“~”,表示此字应拖长音。如“请问您是~”,中,最后一个“是”应该拖长音。
7、反问读:“^”,表示此句应以反问的语气读。一般来讲应是用第三调加重来读。如讽刺意味的“我很好^”。
8、强调读:”*”,加重读。如“你确认您同意*张三*先生代替您签字吗?”,转为:”ni3que4 ren4 nin2 tong2 yi4 zhang1*san1*xian1 sheng1 dai4 ti4 nin2 qian1 zi4ma”。其中“张三”,在读时,应逐字强调。
本申请实施例中,将标注后的文本数据进行数字转化,转化的规则如下:
1)拼音按英文字母与数字,一一映射一个数字;
2)每个音标标签单独映射一个数字;
3)每个语气标签单独映射一个数字;
4)忽略其它所有符号;
5)每个音素用空格连接,空格单独映射一个数字。
按上述规则,整理出标签与数字的映射规则如下:
Figure BDA0002348151980000071
Figure BDA0002348151980000081
Figure BDA0002348151980000091
Figure BDA0002348151980000101
Figure BDA0002348151980000111
Figure BDA0002348151980000121
按此映射表,把文本转成的标签,映射成向量,即可提交给神经网络进行模型学习。
将转换为数字串的文本映射成向量,并将向量输入端到端的神经网络进行模型训练,记录训练结果。
本申请实施例中,可以基于神经网络训练后的训练结果,对新输入的文本进行语气标注参考和修正。
作为一种实现方式,本申请实施例的将中英混合及语气标签化的数据标注方法还包括:
对训练文本中的文字进行儿化音进行标注,文字的轻声不进行标注;
在将标注后的文本映射成向量之前,将文字对应的声调中的儿化音转换为对应的数字。
本申请实施例通过可以解决传统端到端的深度学***淡以及中英文不能混读的问题,通过对文本进行数据标注算法,可以训练出一个更好的语音模型,合成出抑扬顿挫的语音效果,在一个模型中即可支持中英文混读,从而使输出语音与人的直觉一致,也不增加神经网络复杂度,方便网络学习。本申请实施例提供的符合直觉的用于端到端的语音合成模型的数据标注方法,既可以满足基本语调定义的需要,又不增加额外的复杂度。
图2为本申请实施例的将中英混合及语气标签化的数据标注装置的组成结构示意图,如图2所示,本申请实施例的将中英混合及语气标签化的数据标注装置包括:
抓取单元20,用于从数据源中抓取训练文本;所述训练文本涵盖有中英文字符;
添加单元21,用于为所抓取的所述训练文本添加情感标签,所述情感标签包括短时停顿、平调、惊喜、疑问、拖音、反问、强调中的至少一种;
记录单元22,用于记录发音人根据情感标签标注后的训练文本的朗读音频文件,作为训练用音频文件;
核检单元23,用于核检训练用音频文件与对应的训练文本的情感标签是否一致,不一致时触发修订单元;
修订单元24,用于对训练用音频文件的与对应的训练文本不一致的部分进行修订;
映射单元25,用于将训练文本映射为文本向量;
训练单元26,用于将文本向量及发音人的朗读音频文件,提交给神经网络的深度学习引擎进行训练,通过深度学习训练,学习中文、英文、情感标签的各种组合搭配下的文本的发音特点。
本申请实施例中,所述映射单元25,还用于对所述训练文本中的文字、数字及英文字符进行读音标注,将标注后的读音中的字母按字母与标定数字之间的对应关系,将句子标注的语音转换为数字串,将文字对应的声调转换为对应的数字,将句子的情感标签转换为对应的数字标识;音素之间以设定标识符标识,将该设定标识符转换为数字;
将转换为数字串的文本映射成向量。
本申请实施例中,所述映射单元25,还用于对训练文本中的文字进行儿化音进行标注,文字的轻声不进行标注;
在将标注后的文本映射成向量之前,将文字对应的声调中的儿化音转换为对应的数字。
本申请实施例中,所述修订单元24,还用于:
对音频文件进行修订后,确定音频文件修订后无法达到需求时,将音频文件删除或基于音频文件对应的训练文本重新进行朗读而重新生成音频文件。
本领域技术人员应当理解,本发明实施例的将中英混合及语气标签化的数据标注装置中各处理单元的功能,可参照前述的将中英混合及语气标签化的数据标注方法的相关描述而理解,本发明实施例的将中英混合及语气标签化的数据标注装置中各处理单元,可通过实现本发明实施例所述的功能的模拟电路而实现,也可以通过执行本发明实施例所述的功能的软件在智能设备上的运行而实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请实施例通过构建高效的数据中心智能运维管理***,有效地提高了信息资源的运行管理水平,保障了服务器的稳定运行,提高了机房的使用效率,实时监测服务器的稳定性并通过实时告警而提高了故障的处理效率,保障了***的稳定有效。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。

Claims (8)

1.一种将中英混合及语气标签化的数据标注方法,其特征在于,所述方法包括:
从数据源中抓取训练文本,所述训练文本涵盖有中英文字符;
为所抓取的所述训练文本添加情感标签;
记录发音人根据情感标签标注后的训练文本的朗读音频文件,作为训练用音频文件;
核检训练用音频文件与对应的训练文本的情感标签是否一致,不一致的部分对音频文件进行修订;
将训练文本映射为文本向量,将文本向量及发音人的朗读音频文件,提交给神经网络的深度学习引擎进行训练,通过深度学习训练,学习中文、英文、情感标签的各种组合搭配下的文本的发音特点。
2.根据权利要求1所述的标注方法,其特征在于,所述将训练文本映射为文本向量,包括:
对所述训练文本中的文字、数字及英文字符进行读音标注,将标注后的读音中的字母按字母与标定数字之间的对应关系,将句子标注的语音转换为数字串,将文字对应的声调转换为对应的数字,将句子的情感标签转换为对应的数字标识;音素之间以设定标识符标识,将该设定标识符转换为数字;
将转换为数字串的文本映射成向量。
3.根据权利要求2所述的标注方法,其特征在于,所述方法还包括:
对训练文本中的文字进行儿化音进行标注,文字的轻声不进行标注;
在将标注后的文本映射成向量之前,将文字对应的声调中的儿化音转换为对应的数字。
4.根据权利要求1所述的标注方法,其特征在于,对音频文件进行修订后,所述方法还包括:
音频文件修订后无法达到需求时,将音频文件删除或基于音频文件对应的训练文本重新进行朗读而重新生成音频文件。
5.一种将中英混合及语气标签化的数据标注装置,其特征在于,所述装置包括:
抓取单元,用于从数据源中抓取训练文本;所述训练文本涵盖有中英文字符;
添加单元,用于为所抓取的所述训练文本添加情感标签;
记录单元,用于记录发音人根据情感标签标注后的训练文本的朗读音频文件,作为训练用音频文件;
核检单元,用于核检训练用音频文件与对应的训练文本的情感标签是否一致,不一致时触发修订单元;
修订单元,用于对训练用音频文件的与对应的训练文本不一致的部分进行修订;
映射单元,用于将训练文本映射为文本向量;
训练单元,用于将文本向量及发音人的朗读音频文件,提交给神经网络的深度学习引擎进行训练,通过深度学习训练,学习中文、英文、情感标签的各种组合搭配下的文本的发音特点。
6.根据权利要求5所述的标注装置,其特征在于,所述映射单元,还用于对所述训练文本中的文字、数字及英文字符进行读音标注,将标注后的读音中的字母按字母与标定数字之间的对应关系,将句子标注的语音转换为数字串,将文字对应的声调转换为对应的数字,将句子的情感标签转换为对应的数字标识;音素之间以设定标识符标识,将该设定标识符转换为数字;
将转换为数字串的文本映射成向量。
7.根据权利要求6所述的标注装置,其特征在于,所述映射单元,还用于对训练文本中的文字进行儿化音进行标注,文字的轻声不进行标注;
在将标注后的文本映射成向量之前,将文字对应的声调中的儿化音转换为对应的数字。
8.根据权利要求5所述的标注装置,其特征在于,所述修订单元,还用于:
对音频文件进行修订后,确定音频文件修订后无法达到需求时,将音频文件删除或基于音频文件对应的训练文本重新进行朗读而重新生成音频文件。
CN201911404092.9A 2019-12-31 2019-12-31 将中英混合及语气标签化的数据标注方法及装置 Active CN111145719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911404092.9A CN111145719B (zh) 2019-12-31 2019-12-31 将中英混合及语气标签化的数据标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911404092.9A CN111145719B (zh) 2019-12-31 2019-12-31 将中英混合及语气标签化的数据标注方法及装置

Publications (2)

Publication Number Publication Date
CN111145719A CN111145719A (zh) 2020-05-12
CN111145719B true CN111145719B (zh) 2022-04-05

Family

ID=70522293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911404092.9A Active CN111145719B (zh) 2019-12-31 2019-12-31 将中英混合及语气标签化的数据标注方法及装置

Country Status (1)

Country Link
CN (1) CN111145719B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675854B (zh) * 2019-08-22 2022-10-28 厦门快商通科技股份有限公司 一种中英文混合语音识别方法及装置
CN111785249A (zh) * 2020-07-10 2020-10-16 恒信东方文化股份有限公司 语音合成的输入音素的训练方法、装置及获得方法
CN112634865B (zh) * 2020-12-23 2022-10-28 爱驰汽车有限公司 语音合成方法、装置、计算机设备和存储介质
CN113838448B (zh) * 2021-06-16 2024-03-15 腾讯科技(深圳)有限公司 一种语音合成方法、装置、设备及计算机可读存储介质
CN113611286B (zh) * 2021-10-08 2022-01-18 之江实验室 一种基于共性特征提取的跨语种语音情感识别方法和***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385858A (zh) * 2010-08-31 2012-03-21 国际商业机器公司 情感语音合成方法和***
CN107103900A (zh) * 2017-06-06 2017-08-29 西北师范大学 一种跨语言情感语音合成方法及***
CN109147760A (zh) * 2017-06-28 2019-01-04 阿里巴巴集团控股有限公司 合成语音的方法、装置、***及设备
CN109817198A (zh) * 2019-03-06 2019-05-28 广州多益网络股份有限公司 用于语音合成的多发音训练方法、语音合成方法与装置
CN112151005A (zh) * 2020-09-28 2020-12-29 四川长虹电器股份有限公司 一种中英文混合的语音合成方法及装置
CN113012680A (zh) * 2021-03-03 2021-06-22 北京太极华保科技股份有限公司 一种语音机器人用话术合成方法及装置
CN113380221A (zh) * 2021-06-21 2021-09-10 携程科技(上海)有限公司 中英文混合的语音合成方法、装置、电子设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385858A (zh) * 2010-08-31 2012-03-21 国际商业机器公司 情感语音合成方法和***
CN107103900A (zh) * 2017-06-06 2017-08-29 西北师范大学 一种跨语言情感语音合成方法及***
CN109147760A (zh) * 2017-06-28 2019-01-04 阿里巴巴集团控股有限公司 合成语音的方法、装置、***及设备
CN109817198A (zh) * 2019-03-06 2019-05-28 广州多益网络股份有限公司 用于语音合成的多发音训练方法、语音合成方法与装置
CN112151005A (zh) * 2020-09-28 2020-12-29 四川长虹电器股份有限公司 一种中英文混合的语音合成方法及装置
CN113012680A (zh) * 2021-03-03 2021-06-22 北京太极华保科技股份有限公司 一种语音机器人用话术合成方法及装置
CN113380221A (zh) * 2021-06-21 2021-09-10 携程科技(上海)有限公司 中英文混合的语音合成方法、装置、电子设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"A HMM-based fuzzy affective model for motional speech synthesis";Yuqiang Qin 等;《2010 2nd International Conference on Signal Processing System》;20100707;全文 *
"情感语音识别与合成的研究";孙颖;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20121015;全文 *
"面向情感语音合成的语言情感建模研究";高莹莹;《中国博士学位论文全文数据库(信息科技辑)》;20161215;全文 *

Also Published As

Publication number Publication date
CN111145719A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN111145719B (zh) 将中英混合及语气标签化的数据标注方法及装置
CN109389968B (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
Eyben et al. Unsupervised clustering of emotion and voice styles for expressive TTS
CN111667812A (zh) 一种语音合成方法、装置、设备及存储介质
CN109241330A (zh) 用于识别音频中的关键短语的方法、装置、设备和介质
CN110600002B (zh) 语音合成方法、装置及电子设备
JP4634889B2 (ja) 音声対話シナリオ作成方法、装置、音声対話シナリオ作成プログラム、記録媒体
CN112365878A (zh) 语音合成方法、装置、设备及计算机可读存储介质
CN112818089B (zh) 文本注音方法、电子设备及存储介质
CN114242033A (zh) 语音合成方法、装置、设备、存储介质及程序产品
CN116092472A (zh) 一种语音合成方法和合成***
CN112231015A (zh) 一种基于浏览器的操作指导方法、sdk插件及后台管理***
CN116320607A (zh) 智能视频生成方法、装置、设备及介质
CN109492126B (zh) 一种智能交互方法及装置
WO2021169825A1 (zh) 语音合成方法、装置、设备和存储介质
JP2006236037A (ja) 音声対話コンテンツ作成方法、装置、プログラム、記録媒体
CN116129868A (zh) 一种结构化画本的生成方法和生成***
CN114118068B (zh) 训练文本数据的扩增方法、装置及电子设备
CN115762471A (zh) 一种语音合成方法、装置、设备及存储介质
Jones Macsen: A voice assistant for speakers of a lesser resourced language
CN113990286A (zh) 语音合成方法、装置、设备及存储介质
CN114267325A (zh) 语音合成模型的训练方法、***、电子设备和存储介质
CN113515586A (zh) 数据处理方法及装置
Meron et al. Improving the authoring of foreign language interactive lessons in the tactical language training system.
CN114005079B (zh) 多媒体流处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Dai Jian

Inventor after: Zhou Weidong

Inventor after: Liu Hua

Inventor after: Liu Kai

Inventor after: Yu Ling

Inventor before: Dai Jian

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant