CN103065620B - 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法 - Google Patents

在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法 Download PDF

Info

Publication number
CN103065620B
CN103065620B CN201210578662.8A CN201210578662A CN103065620B CN 103065620 B CN103065620 B CN 103065620B CN 201210578662 A CN201210578662 A CN 201210578662A CN 103065620 B CN103065620 B CN 103065620B
Authority
CN
China
Prior art keywords
text
speech
data
voice
personalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210578662.8A
Other languages
English (en)
Other versions
CN103065620A (zh
Inventor
徐鹤林
江源
张磊
江涛
聂小林
胡国平
胡郁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201210578662.8A priority Critical patent/CN103065620B/zh
Publication of CN103065620A publication Critical patent/CN103065620A/zh
Application granted granted Critical
Publication of CN103065620B publication Critical patent/CN103065620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法,涉及语音合成及个性化语音合成技术领域,该方法包括:在手机或网页上输入文字;将文字合成为具有特殊音色特征的个性化声音;用户将个性化的声音设为彩铃或手机铃音,其中在个性化合成***中采用的远离类中心单元的聚类方法这一新算法。利用本发明,可以实现用户制作个性化彩铃或个性化手机铃音的需求。

Description

在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
技术领域
本发明涉及语音合成及个性化语音合成技术领域,公开了一种在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法和***。
背景技术
现有“由文本生成个性化语音的方法”的解决方案跟本发明要解决的问题有些相似,它主要包括:对输入的文本进行分析,通过标准TTS数据库得出可以表征将要合成的语音的特征的标准语音参数;使用通过训练获得的参数个性化模型将所述标准语音参数变换为个性化的语音参数;以及基于所述个性化语音参数合成对应于所述输入文本的语音。
传统HMM-based合成***中,针对上下文信息构建基于maximum likelihood准则的自上而下的决策分类树,而无监督构建的音库中存在读音错误、发音缺陷、标注错误等问题,很难将问题单元正确分类,而且这些错误将影响聚类过程中***问题的选择,形成并非最优的决策树结构,因此我们采用了远离类中心单元的聚类方法。本发明方法包括:接收用户在手机上或网页上输入的文字;将文字合成为具有蜡笔小新、马三立等音色特征的个性化声音;用户将个性化的声音设置为彩铃。利用本发明,可以实现用户制作个性化彩铃或个性化手机铃音的需求。采用C/S结构,轻量便捷,降低了用户使用门槛,提升了用户交互体验。
发明内容
本发明提案要解决的技术问题为:现有技术合成的普通话、方言等音色,特征不够丰富,不能满足用户合成制作个性化音色特征的需求。
本发明采用的技术方案为:一种在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法,包括:
步骤1)、音库准备:从网络上下载马三立、蜡笔小新、康辉、李瑞英和林志玲的音视频数据,然后从视频中提取出音频数据;
步骤2)、音段切分:需要语音分析下的自动分句结果和语音/非语音判断;
步骤3)、声纹识别:需要做目标发音人判断;
步骤4)、语音识别:使用普适行的语音识别模型,不做声学模型和语音模型的自适应,并利用识别结果输出切分信息、音素置信度和韵律词文本;
步骤5)、文本分析:直接对识别文本做前端自动文本分析,分析文本得到拼音串和分词、L3/L4预测;
步骤6)、***搭建:结合音素置信度在统计建模和单元挑选阶段改进效果;
步骤7)、人工调整:在人工调整的情况下改善合成句效果,保证重要的用例句子的效果,并判定音库的完备性,即在最理想情况下能达到的合成效果上限,预留***进化能力;
步骤8)、个性化声音转化:利用步骤1)至7)形成个性化声音合成***,将文字合成为具有特殊音色特征的个性化声音;在个性化合成***搭建过程中采用了远离类中心单元的聚类方法,没有采用传统HMM-based合成***中针对上下文信息构建基于maximumlikelihood准则的自上而下的决策分类树方法;
本发明与现有技术相比技术优点为:
1、本发明在普通话、方言等语音合成的基础上,增加了蜡笔小新、马三立等音色特征的个性化语音合成。
2、本发明用户可以通过在手机上输入文本便捷地制作个性化的彩铃或个性化的手机铃音。
附图说明
图1为针对海量个性化发音人数据***构建流程框图示意图;
图2为声纹识别正确率分布;
图3为声纹识别错误率分布。
具体实施方式
下面结合附图以及具体实施方法进一步说明本发明。
1、针对海量个性化发音人数据的合成***搭建方法(如图1所示):
1)、音库准备:从网络上下载马三立、蜡笔小新、康辉、李瑞英和林志玲的音视频数据,然后从视频中提取出音频数据。
2)、音段切分:需要语音分析下的自动分句结果和语音/非语音判断。
3)、声纹识别:需要做目标发音人判断。
4)、语音识别:使用普适行的语音识别模型,不做声学模型和语音模型的自适应,并利用识别结果输出切分信息、音素置信度和韵律词文本。
5)、文本分析:直接对识别文本做前端自动文本分析,分析文本得到拼音串和分词、L3/L4预测。
6)、***搭建:结合音素置信度在统计建模和单元挑选阶段改进效果。
7)、人工调整:在人工调整的情况下改善合成句效果,保证重要的用例句子的效果,并判定音库的完备性,即在最理想情况下能达到的合成效果上限,预留***进化能力。
8)、个性化声音转化:利用步骤1)至7)形成个性化声音合成***,将文字合成为具有特殊音色特征的个性化声音;
在个性化合成***搭建过程中采用了远离类中心单元的聚类方法,没有采用传统HMM-based合成***中针对上下文信息构建基于maximum likelihood准则的自上而下的决策分类树方法。
传统HMM-based合成***中,针对上下文信息构建基于maximum likelihood准则的自上而下的决策分类树,而无监督构建的音库中存在读音错误、发音缺陷、标注错误等问题,很难将问题单元正确分类,而且这些错误将影响聚类过程中***问题的选择,形成并非最优的决策树结构,因此我们采用了远离类中心单元的聚类方法。
原先模型的聚类方法是:初始时把所有样本当做一类作为根节点,然后遍历问题集中的问题,从中选择一个最优的问题对原有节点进行***,通过计算***前后似然值增长的大小来判定问题是否最优,最终挑选似然值增长最大的问题用来对节点进行***,当所有节点的似然值增长都不满足似然值增长的最低门限时,停止***。具体的似然值计算和似然值门限确定方法在这里我们不做详细讨论。由于样本中存在部分标注错误数据,在进行似然值增长计算时这些数据可能会产生不好的影响,因此在进行似然值计算之前我们对参与似然值计算的数据再进行一次聚类,挑选出其中离类中心近的单元参与似然值增长计算,我们认为离类中心远的数据就是标注错误数据。具体的挑选多少单元用于似然值计算要结合识别正确率确定。具体的算法流程如下:首先根据公式1.1和1.2计算出类中心和方差。
u = Σ m = 1 M Σ t = 1 T γ t ( m ) * o m , t Σ m = 1 M Σ t = 1 T γ t ( m ) - - - ( 1.1 )
Σ = Σ m = 1 M Σ t = 1 T γ t ( m ) ( o t - u ) ( o t - u ) T Σ m = 1 M Σ t = 1 T γ t ( m ) - - - ( 1.2 )
式中,M表示样本单元数目,T表示样本的时长,γt(m)表示样本m在t时刻的出现概率,Om,t表示样本m在t时刻的观测值。然后根据公式1.3和1.4计算出各个样本离类中心的距离。
u m = Σ t = 1 T γ t ( m ) * o m , t Σ t = 1 T γ t ( m ) - - - ( 1 . 3 )
Dist m = Σ k = 1 K ( u m , k - u k ) 2 Σ k - - - ( 1.4 )
式1.4中的K表示观测向量的维数。计算出各个样本离中心的距离后,确定参与似然值计算的距离门限,距离小于距离门限的样本参与似然值增长计算。
2、***关键模块说明
1)音段切分
马三立和蜡笔小新的数据都是大段数据,而且大部分都是他们单人数据,因此可以不做声纹识别,但是需要先将这些数据切分成短句才能进行后续的语音识别操作。这里我们使用语音分析组提供的分句工具进行分句。马三立的数据分句后得到6248句语句、共682M数据。蜡笔小新的数据经过分句后得到1800句语句,共128M数据。
2)声纹识别
声纹识别(说话人识别)是海量无监督数据处理的关键步骤,能否提取较为纯净的单一发音人数据,直接影响能否形成合成音库以及***构建效果。
由于我们要提取的是目标发音人已确定,故这里的声纹处理不是做说话人聚类而是说话人判断。需要目标发音人的种子数据。根据声纹识别结果从大段的数据中切出林志玲的数据,共得到3341句语句,共204M数据。我们从切出的林志玲语句中抽出559句进行声纹识别准确率统计,统计结果如表1所示。
表1.林志玲声纹识别正确率统计
语句总数 判定为林志玲语句数目 纯净林志玲语句数目
559 364(65.12%) 285(50.98%)
由于音频数据是从电视剧中直接提取的,因此声纹识别结果切分而得的句子中有部分语句是带有杂音的(关门,翻书)。表1中判定为林志玲的语句中包含了带杂音和纯净语音数据,由表1可以看到,林志玲纯净数据的识别率只有51%。接着我们又结合声纹识别给出的置信度信息对声纹识别结果做了更进一步的分析。我们统计了各个置信区间内的识别正确率和错误率,统计结果如图2和图3所示。
由图2和图3我们可以看出纯净的林志玲数据在置信度高的时候识别正确率也高,而识别错误率则正好相反,因此可以通过设立置信度门限来提高数据的声纹识别正确率。由于林志玲的数据量较少(3341句,204M),因此对于林志玲数据我们没有进行这样的处理。
3)语音识别
语音识别流程与康辉数据处理略有不同,这里使用的声学模型和处理康辉数据使用的声学模型一样,用的都是识别组提供的1560h数据训练的声学模型,语言模型使用的是识别组提供的通用的语言模型。我们使用这一流程对马三立,蜡笔小新和林志玲的数据进行识别转出文本,经过fa后得到分词和自动切分。由于存在部分不能识别句子,并且识别结果的部分语句中包含英文字母及特殊符号,这些语句在进行文本分析前就要进行丢弃处理,最终这三个发音人的音库的数据量如表2所示。
表2.个性化发音人数据语音识别语句数目统计
个性化发音人 识别前语句数 识别处理后语句数
马三立 6248 5815
蜡笔小新 1800 1798
林志玲 3341 3249
由表2可以看出在识别过程中还是有部分数据损失的,接着我们从这些发音人的语句中挑选出一部分进行人工标注,然后将人工标注的结果和识别的结果进行比对,统计识别正确率。由于林志玲的数据在声纹识别时就存在误判,因此我们挑出用于人工标注的林志玲语句是经过确认的纯净的林志玲语句。识别正确率统计使用的是识别组提供的统计工具,各发音人识别正确率统计结果如表3所示。
表3.个性化发音人数据语音识别正确率统计
发音人 语句数 整句正确率 单字正确率
马三立 104 10.58% 60.69%
蜡笔小新 248 4.85% 29.82%
林志玲 197 3.55% 57.52%
由表3可以看出,蜡笔小新数据的识别正确率比较低,我们试听了部分蜡笔小新语句,发现有些语句中噪声比较大,马三立和和林志玲的数据相对比较纯净,为了验证噪声对识别正确率的影响,我们对蜡笔小新和马三立数据都进行LSA去噪,去噪后的语句在听感上比去噪之前效果要好,接着我们对这部分去噪后的语句进行语音识别,使用的声学模型和语言模型与之前的相同,然后统计识别后的识别正确率,识别正确率统计结果如表4所示。
表4.个性化发音人数据去噪后语音识别正确率统计
发音人 语句数 整句正确率 单字正确率
马三立 100 7% 51.23%
蜡笔小新 248 3.23% 23.05%
表4中的语句都是去噪后的语句,由表4看出,去噪后识别正确率有所下降。此外在进行数据处理时发现蜡笔小新的数据比马三立的数据截幅现象严重,这也可能是导致蜡笔小新数据识别正确率低的因素。由于去噪会影响识别正确率,因此我们决定在识别之前不去噪,但是在进行***搭建之前要对带噪声的训练数据去噪。
4)文本分析
文本分析同样采用对纯文本结果的前端自动文本分析,生成韵律文本作为各单元上下文信息。
5)***搭建
对马三立和林志玲数据分别搭建基于HMM的单元拼接合成***和参数合成***,蜡笔小新数据量较少只能用于搭建基于HMM的参数合成***。初始时数据没有原始切分,我们使用康辉的单音模型做切分。
本发明未详细阐述的部分属于本领域公知技术。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法,其特征在于:
步骤1)、音库准备:
从网络上下载马三立、蜡笔小新、康辉、李瑞英和林志玲的音视频数据,然后从视频中提取出音频数据;
步骤2)、音段切分:
按需要进行语音分析下的自动分句结果和语音/非语音判断;
步骤3)、声纹识别:
按需要做目标发音人判断;
步骤4)、语音识别:
使用普适行的语音识别模型,不做声学模型和语音模型的自适应,并利用识别结果输出切分信息、音素置信度和韵律词文本;
步骤5)、文本分析:
直接对识别文本做前端自动文本分析,分析文本得到拼音串和分词、L3/L4预测;
步骤6)、***搭建:
结合音素置信度在统计建模和单元挑选阶段改进效果;
步骤7)、人工调整:
在人工调整的情况下改善合成句效果,保证重要的用例句子的效果,并判定音库的完备性,即在最理想情况下能达到的合成效果上限,预留***进化能力;
步骤8)、个性化声音转化:
利用步骤1)至7)形成个性化声音合成***,将文字合成为具有特殊音色特征的个性化声音;
在个性化合成***搭建过程中采用了远离类中心单元的聚类方法,没有采用传统HMM-based合成***中针对上下文信息构建基于maximum likelihood准则的自上而下的决策分类树方法。
CN201210578662.8A 2012-12-27 2012-12-27 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法 Active CN103065620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210578662.8A CN103065620B (zh) 2012-12-27 2012-12-27 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210578662.8A CN103065620B (zh) 2012-12-27 2012-12-27 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法

Publications (2)

Publication Number Publication Date
CN103065620A CN103065620A (zh) 2013-04-24
CN103065620B true CN103065620B (zh) 2015-01-14

Family

ID=48108220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210578662.8A Active CN103065620B (zh) 2012-12-27 2012-12-27 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法

Country Status (1)

Country Link
CN (1) CN103065620B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3061086B1 (en) * 2013-10-24 2019-10-23 Bayerische Motoren Werke Aktiengesellschaft Text-to-speech performance evaluation
US10176796B2 (en) 2013-12-12 2019-01-08 Intel Corporation Voice personalization for machine reading
CN103810996B (zh) * 2014-02-21 2016-08-31 北京凌声芯语音科技有限公司 待测试语音的处理方法、装置及***
CN104361891A (zh) * 2014-11-17 2015-02-18 科大讯飞股份有限公司 特定人群的个性化彩铃自动审核方法及***
CN105721292A (zh) * 2016-03-31 2016-06-29 宇龙计算机通信科技(深圳)有限公司 一种信息读取方法、装置及终端
CN106373577A (zh) * 2016-08-18 2017-02-01 胡伟 一种个人语音***
CN106389129A (zh) * 2016-11-24 2017-02-15 深圳市人人壮科技有限公司 一种智能药盒控制***
CN107644637B (zh) * 2017-03-13 2018-09-25 平安科技(深圳)有限公司 语音合成方法和装置
CN107172449A (zh) * 2017-06-19 2017-09-15 微鲸科技有限公司 多媒体播放方法、装置及多媒体存储方法
CN107396177B (zh) * 2017-08-28 2020-06-02 北京小米移动软件有限公司 视频播放方法、装置及存储介质
CN107770380B (zh) * 2017-10-25 2020-12-08 百度在线网络技术(北京)有限公司 信息处理方法和装置
CN110264992B (zh) * 2019-06-11 2021-03-16 百度在线网络技术(北京)有限公司 语音合成处理方法、装置、设备和存储介质
CN110289010B (zh) * 2019-06-17 2020-10-30 百度在线网络技术(北京)有限公司 一种声音采集的方法、装置、设备和计算机存储介质
CN112151042A (zh) * 2019-06-27 2020-12-29 中国电信股份有限公司 声纹识别方法、装置和***、计算机可读存储介质
CN110534089B (zh) * 2019-07-10 2022-04-22 西安交通大学 一种基于音素和韵律结构的中文语音合成方法
CN110600045A (zh) * 2019-08-14 2019-12-20 科大讯飞股份有限公司 声音转换方法及相关产品
CN113314096A (zh) * 2020-02-25 2021-08-27 阿里巴巴集团控股有限公司 语音合成方法、装置、设备和存储介质
CN111899719A (zh) * 2020-07-30 2020-11-06 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN111930900B (zh) * 2020-09-28 2021-09-21 北京世纪好未来教育科技有限公司 标准发音生成方法及相关装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865365B2 (en) * 2004-08-05 2011-01-04 Nuance Communications, Inc. Personalized voice playback for screen reader
CN101064104B (zh) * 2006-04-24 2011-02-02 中国科学院自动化研究所 基于语音转换的情感语音生成方法
JP2009265279A (ja) * 2008-04-23 2009-11-12 Sony Ericsson Mobilecommunications Japan Inc 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム
CN101308652B (zh) * 2008-07-17 2011-06-29 安徽科大讯飞信息科技股份有限公司 一种个性化歌唱语音的合成方法

Also Published As

Publication number Publication date
CN103065620A (zh) 2013-04-24

Similar Documents

Publication Publication Date Title
CN103065620B (zh) 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
CN101178896B (zh) 基于声学统计模型的单元挑选语音合成方法
JP5768093B2 (ja) 音声処理システム
CN104021784B (zh) 基于大语料库的语音合成方法和装置
CN105654939B (zh) 一种基于音向量文本特征的语音合成方法
CN111433847B (zh) 语音转换的方法及训练方法、智能装置和存储介质
CN106935239A (zh) 一种发音词典的构建方法及装置
CN101777347B (zh) 一种模型互补的汉语重音识别方法及***
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN111247584A (zh) 语音转换方法、***、装置及存储介质
CN103778912A (zh) 引导式说话人自适应语音合成的***与方法及程序产品
CN102810311B (zh) 说话人估计方法和说话人估计设备
CN109300339A (zh) 一种英语口语的练习方法及***
KR20160059265A (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN112634866A (zh) 语音合成模型训练和语音合成方法、装置、设备及介质
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
TWI503813B (zh) 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
Stanek et al. Algorithms for vowel recognition in fluent speech based on formant positions
CN112216270B (zh) 语音音素的识别方法及***、电子设备及存储介质
Martinčić-Ipšić et al. Croatian large vocabulary automatic speech recognition
Barman et al. State of the art review of speech recognition using genetic algorithm
CN111933121B (zh) 一种声学模型训练方法及装置
Toman et al. Structural KLD for cross-variety speaker adaptation in HMM-based speech synthesis
CN102752239B (zh) 一种提供音库混合训练模型的方法和***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP03 Change of name, title or address

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee after: Iflytek Co., Ltd.

Address before: 230088 Mount Huangshan Road, hi tech Development Zone, Anhui, Hefei 616

Patentee before: Anhui USTC iFLYTEK Co., Ltd.