CN109215629B - 语音处理方法、装置及终端 - Google Patents
语音处理方法、装置及终端 Download PDFInfo
- Publication number
- CN109215629B CN109215629B CN201811400103.1A CN201811400103A CN109215629B CN 109215629 B CN109215629 B CN 109215629B CN 201811400103 A CN201811400103 A CN 201811400103A CN 109215629 B CN109215629 B CN 109215629B
- Authority
- CN
- China
- Prior art keywords
- voice
- output
- characteristic information
- speech processing
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 238000013135 deep learning Methods 0.000 claims description 11
- 230000002452 interceptive effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种语音处理方法、装置及终端,该语音处理方法包括:获取待输出语音的文字内容;根据文字内容以及预先存储的语音表达特征信息和待输出语音的预设发声者的声音特征信息,生成待输出语音;输出待输出语音。本发明的语音处理方法、装置及终端,可实现语音交互***语音提示输出的定制,提升用户体验。
Description
技术领域
本发明涉及语音技术领域,尤其涉及一种语音处理方法、装置及终端。
背景技术
随着语音识别技术的不断普及,现在很多电子设备都配备有语音助手等智能语音交互***。
相关技术中,语音交互***的语音提示输出通常只能为预设的几种声音,不能根据用户的喜好进行定制,用户体验差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种语音处理方法,根据待输出语音的文字内容以及预先存储的语音表达特征信息和待输出语音的预设发声者的声音特征信息,生成并输出待输出语音,可实现语音交互***语音提示输出的定制,提升用户体验。
本发明的第二个目的在于提出一种语音处理装置。
本发明的第三个目的在于提出一种终端。
本发明的第四个目的在于提出一种电子设备。
本发明的第五个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种语音处理方法,包括:
获取待输出语音的文字内容;
根据所述文字内容以及预先存储的语音表达特征信息和所述待输出语音的预设发声者的声音特征信息,生成所述待输出语音;
输出所述待输出语音。
根据本发明实施例提出的语音处理方法,首先,获取待输出语音的文字内容,然后,根据文字内容以及预先存储的语音表达特征信息和待输出语音的预设发声者的声音特征信息,生成待输出语音,最后,输出待输出语音,可实现语音交互***语音提示输出的定制,提升用户体验。
根据本发明的一个实施例,该语音处理方法还包括:获取所述预设发声者的原声语音;对所述原声语音进行特征提取,得到所述预设发声者的所述声音特征信息。
根据本发明的一个实施例,该语音处理方法还包括:获取语音样本;基于深度学习算法对所述语音样本进行学习,得到所述语音表达特征信息。
根据本发明的一个实施例,该语音处理方法还包括:获取用户输入的交互语音;根据所述交互语音获取对应的所述待输出语音的所述文字内容。
根据本发明的一个实施例,所述语音表达特征信息包括以下信息中的任意一种或多种的组合:语调、停顿、语速和语气;和/或,所述声音特征信息包括以下信息中的任意一种或多种的组合:音色和音调。
为达上述目的,本发明第二方面实施例提出了一种语音处理装置,包括:
获取模块,用于获取待输出语音的文字内容;
生成模块,用于根据所述文字内容以及预先存储的语音表达特征信息和所述待输出语音的预设发声者的声音特征信息,生成所述待输出语音;
输出模块,用于输出所述待输出语音。
根据本发明实施例提出的语音处理装置,首先,获取待输出语音的文字内容,然后,根据文字内容以及预先存储的语音表达特征信息和待输出语音的预设发声者的声音特征信息,生成待输出语音,最后,输出待输出语音,可实现语音交互***语音提示输出的定制,提升用户体验。
根据本发明的一个实施例,所述生成模块还用于:获取所述预设发声者的原声语音;对所述原声语音进行特征提取,得到所述预设发声者的所述声音特征信息;和/或,获取语音样本;基于深度学习算法对所述语音样本进行学习,得到所述语音表达特征信息。
为达上述目的,本发明第三方面实施例提出了一种终端,包括:如本发明第二方面实施例所述的语音处理装置。
为达上述目的,本发明第四方面实施例提出了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本发明第一方面实施例所述的语音处理方法。
为达上述目的,本发明第五方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如本发明第一方面实施例所述的语音处理方法。
附图说明
图1是根据本发明一个实施例的语音处理方法的流程图;
图2是根据本发明另一个实施例的语音处理方法的流程图;
图3是根据本发明另一个实施例的语音处理方法的流程图;
图4是根据本发明另一个实施例的语音处理方法的流程图;
图5是根据本发明一个实施例的语音处理装置的结构图;
图6是根据本发明一个实施例的终端的结构图;
图7是根据本发明一个实施例的电子设备的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面结合附图来描述本发明实施例的语音处理方法、装置及终端。
图1是根据本发明一个实施例的语音处理方法的流程图,如图1所示,该语音处理方法包括:
S101,获取待输出语音的文字内容。
本发明实施例中,待输出语音即用户期望的语音交互***(例如终端中的语音助手等)输出的语音。例如待输出语音为用户期望语音交互***输出某个明星的声音,且该明星说的文字是“你可以听听音乐”,则语音交互***获取待输出语音的文字内容“你可以听听音乐”。
S102,根据文字内容以及预先存储的语音表达特征信息和待输出语音的预设发声者的声音特征信息,生成待输出语音。
本发明实施例中,待输出语音的预设发声者即用户期望语音交互***输出谁的声音,例如上述例子中的某个明星即为待输出语音的预设发声者。可预先存储语音表达特征信息和待输出语音的预设发声者的声音特征信息,在S101步骤获取到待输出语音的文字内容后,根据文字内容、预先存储语音表达特征信息和待输出语音的预设发声者的声音特征信息生成待输出语音。作为一种可行的实施方式,语音表达特征信息具体可包括但不限于以下信息中的任意一种或多种的组合:语调、停顿、语速和语气等;声音特征信息具体可包括但不限于以下信息中的任意一种或多种的组合:音色和音调等。其中,语调即句调,是指在句子中用来表达思想感情的抑扬顿挫的语音旋律;音调即声音频率的高低。
S103,输出待输出语音。
本发明实施例中,在S102步骤生成待输出语音后,输出待输出语音。例如当本方法应用于终端时,可通过终端的扬声器或者耳机输出待输出语音。
根据本发明实施例提出的语音处理方法,首先,获取待输出语音的文字内容,然后,根据文字内容以及预先存储的语音表达特征信息和待输出语音的预设发声者的声音特征信息,生成待输出语音,最后,输出待输出语音,可实现语音交互***语音提示输出的定制,提升用户体验。
进一步的,如图2所示,图2是根据本发明另一个实施例的语音处理方法的流程图,图1所示实施例S102步骤中“待输出语音的预设发声者的声音特征信息”获取方法可包括:
S201,获取预设发声者的原声语音。
本发明实施例中,预设发声者的原声语音即预设发声者真实的语音。可通过麦克风等语音采集装置获取预设发声者的原声语音。
S202,对原声语音进行特征提取,得到预设发声者的声音特征信息。
本发明实施例中,可通过特征提取算法对S201步骤获取的原生语音进行特征提取,得到预设发声者的声音特征信息。作为一种可行的实施方式,声音特征信息具体可包括但不限于以下信息中的任意一种或多种的组合:音色和音调等。
根据本发明实施例提出的语音处理方法,首先,获取预设发声者的原声语音,然后,对原声语音进行特征提取,得到预设发声者的声音特征信息。可有效、准确的获取预设发声者的声音特征信息。
进一步的,如图3所示,图3是根据本发明另一个实施例的语音处理方法的流程图,图1所示实施例S102步骤中“语音表达特征信息”获取方法可包括:
S301,获取语音样本。
本发明实施例中,获取大量、不同人的真实的语音,作为语音样本。
S302,基于深度学习算法对语音样本进行学习,得到语音表达特征信息。
本发明实施例中,基于深度学习算法对语音样本进行学习,得到语音表达特征信息。深度学习算法是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。同机器学习方法一样,深度学习算法也有监督学习与无监督学习之分,不同的学习框架下建立的学习模型很是不同。例如,卷积神经网络(Convolutional neural networks,简称CNNs)就是一种深度的监督学习下的机器学习模型,而深度置信网(Deep Belief Nets,简称DBNs)就是一种深度的无监督学习下的机器学习模型。本发明实施例对深度学习算法的具体类型不做限定。作为一种可行的实施方式,语音表达特征信息具体可包括但不限于以下信息中的任意一种或多种的组合:语调、停顿、语速和语气等。
根据本发明实施例提出的语音处理方法,首先,获取语音样本,然后,基于深度学习算法对语音样本进行学习,得到语音表达特征信息。可有效、准确的获取语音表达特征信息。
进一步的,如图4所示,图4是根据本发明另一个实施例的语音处理方法的流程图,图1所示实施例S101步骤中“待输出语音的文字内容”获取方法可包括:
S401,获取用户输入的交互语音。
本发明实施例中,可通过麦克风等语音采集装置获取用户输入的交互语音。例如用户输入的交互语音为“我很无聊”。
S402,根据交互语音获取对应的待输出语音的文字内容。
本发明实施例中,可根据S401获取的用户输入的交互语音,例如“我很无聊”,获取对应的待输出语音的文字内容,例如“你可以听听音乐”。
根据本发明实施例提出的语音处理方法,首先,获取用户输入的交互语音,然后,根据交互语音获取对应的待输出语音的文字内容,可实现待输出语音文字内容的获取。
图5是根据本发明一个实施例的语音处理装置的结构图,如图5所示,该语音处理装置包括:
获取模块21,用于获取待输出语音的文字内容;
生成模块22,用于根据文字内容以及预先存储的语音表达特征信息和待输出语音的预设发声者的声音特征信息,生成待输出语音;
输出模块23,用于输出待输出语音。
需要说明的是,前述对语音处理方法实施例的解释说明也适用于该实施例的语音处理装置,此处不再赘述。
根据本发明实施例提出的语音处理装置,首先,获取待输出语音的文字内容,然后,根据文字内容以及预先存储的语音表达特征信息和待输出语音的预设发声者的声音特征信息,生成待输出语音,最后,输出待输出语音,可实现语音交互***语音提示输出的定制,提升用户体验。
进一步的,在本发明实施例一种可能的实现方式中,生成模块22还用于:获取预设发声者的原声语音;对原声语音进行特征提取,得到预设发声者的声音特征信息;和/或,获取语音样本;基于深度学习算法对语音样本进行学习,得到语音表达特征信息。
需要说明的是,前述对语音处理方法实施例的解释说明也适用于该实施例的语音处理装置,此处不再赘述。
根据本发明实施例提出的语音处理装置,首先,获取待输出语音的文字内容,然后,根据文字内容以及预先存储的语音表达特征信息和待输出语音的预设发声者的声音特征信息,生成待输出语音,最后,输出待输出语音,可实现语音交互***语音提示输出的定制,提升用户体验。
为了实现上述实施例,本发明实施例还提出一种终端10,包括:如上述实施例所示的语音处理装置11。
为了实现上述实施例,本发明实施例还提出一种电子设备30,如图6所示,该电子设备包括存储器31和处理器32。存储器31上存储有可在处理器32上运行的计算机程序,处理器32执行程序,实现如上述实施例所示的语音处理方法。
为了实现上述实施例,本发明实施例还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如上述实施例所述的语音处理方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种语音处理方法,其特征在于,包括:
获取不同人的真实的语音,作为语音样本,基于深度学习算法对所述语音样本进行学习,得到语音表达特征信息,所述语音表达特征信息包括语调、停顿、语速和语气;
获取待输出语音的文字内容;
根据所述文字内容以及预先存储的语音表达特征信息和所述待输出语音的预设发声者的声音特征信息,生成所述待输出语音,所述声音特征信息包括音色和音调;
输出所述待输出语音。
2.根据权利要求1所述的语音处理方法,其特征在于,还包括:
获取所述预设发声者的原声语音;
对所述原声语音进行特征提取,得到所述预设发声者的所述声音特征信息。
3.根据权利要求1所述的语音处理方法,其特征在于,还包括:
获取用户输入的交互语音;
根据所述交互语音获取对应的所述待输出语音的所述文字内容。
4.一种语音处理装置,其特征在于,包括:
获取模块,用于获取待输出语音的文字内容;
生成模块,用于获取不同人的真实的语音,作为语音样本,基于深度学习算法对所述语音样本进行学习,得到语音表达特征信息,所述语音表达特征信息包括语调、停顿、语速和语气,所述生成模块还用于根据所述文字内容以及预先存储的语音表达特征信息和所述待输出语音的预设发声者的声音特征信息,生成所述待输出语音,所述声音特征信息包括音色和音调;
输出模块,用于输出所述待输出语音。
5.根据权利要求4所述的语音处理装置,其特征在于,所述生成模块还用于:
获取所述预设发声者的原声语音;对所述原声语音进行特征提取,得到所述预设发声者的所述声音特征信息。
6.一种终端,其特征在于,包括:如权利要求4或5所述的语音处理装置。
7.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-3中任一项所述的语音处理方法。
8.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现如权利要求1-3中任一项所述的语音处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811400103.1A CN109215629B (zh) | 2018-11-22 | 2018-11-22 | 语音处理方法、装置及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811400103.1A CN109215629B (zh) | 2018-11-22 | 2018-11-22 | 语音处理方法、装置及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109215629A CN109215629A (zh) | 2019-01-15 |
CN109215629B true CN109215629B (zh) | 2021-01-01 |
Family
ID=64994230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811400103.1A Active CN109215629B (zh) | 2018-11-22 | 2018-11-22 | 语音处理方法、装置及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109215629B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110288975B (zh) * | 2019-05-17 | 2022-04-22 | 北京达佳互联信息技术有限公司 | 语音风格迁移方法、装置、电子设备及存储介质 |
CN111696518A (zh) * | 2020-06-05 | 2020-09-22 | 四川纵横六合科技股份有限公司 | 一种基于文本的自动化语音合成方法 |
CN112002301A (zh) * | 2020-06-05 | 2020-11-27 | 四川纵横六合科技股份有限公司 | 一种基于文本的自动化视频生成方法 |
CN111883098B (zh) * | 2020-07-15 | 2023-10-24 | 青岛海尔科技有限公司 | 语音处理方法及装置、计算机可读的存储介质、电子装置 |
CN112634864A (zh) * | 2020-12-23 | 2021-04-09 | 复旦大学附属眼耳鼻喉科医院 | 一种面向失声音人员的辅助发声交流的语音*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106205602A (zh) * | 2015-05-06 | 2016-12-07 | 上海汽车集团股份有限公司 | 语音播放方法和*** |
CN106652995A (zh) * | 2016-12-31 | 2017-05-10 | 深圳市优必选科技有限公司 | 文本语音播报方法及*** |
CN107093421A (zh) * | 2017-04-20 | 2017-08-25 | 深圳易方数码科技股份有限公司 | 一种语音模拟方法和装置 |
CN107340991A (zh) * | 2017-07-18 | 2017-11-10 | 百度在线网络技术(北京)有限公司 | 语音角色的切换方法、装置、设备以及存储介质 |
CN108156317A (zh) * | 2017-12-21 | 2018-06-12 | 广东欧珀移动通信有限公司 | 通话语音控制方法、装置及存储介质和移动终端 |
CN108806699A (zh) * | 2018-05-30 | 2018-11-13 | Oppo广东移动通信有限公司 | 语音反馈方法、装置、存储介质及电子设备 |
-
2018
- 2018-11-22 CN CN201811400103.1A patent/CN109215629B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106205602A (zh) * | 2015-05-06 | 2016-12-07 | 上海汽车集团股份有限公司 | 语音播放方法和*** |
CN106652995A (zh) * | 2016-12-31 | 2017-05-10 | 深圳市优必选科技有限公司 | 文本语音播报方法及*** |
CN107093421A (zh) * | 2017-04-20 | 2017-08-25 | 深圳易方数码科技股份有限公司 | 一种语音模拟方法和装置 |
CN107340991A (zh) * | 2017-07-18 | 2017-11-10 | 百度在线网络技术(北京)有限公司 | 语音角色的切换方法、装置、设备以及存储介质 |
CN108156317A (zh) * | 2017-12-21 | 2018-06-12 | 广东欧珀移动通信有限公司 | 通话语音控制方法、装置及存储介质和移动终端 |
CN108806699A (zh) * | 2018-05-30 | 2018-11-13 | Oppo广东移动通信有限公司 | 语音反馈方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109215629A (zh) | 2019-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109215629B (zh) | 语音处理方法、装置及终端 | |
Delić et al. | Speech technology progress based on new machine learning paradigm | |
US11222620B2 (en) | Speech recognition using unspoken text and speech synthesis | |
KR102677459B1 (ko) | 2-레벨 스피치 운율 전송 | |
CN111048062B (zh) | 语音合成方法及设备 | |
CN106486121B (zh) | 应用于智能机器人的语音优化方法及装置 | |
CN110223705A (zh) | 语音转换方法、装置、设备及可读存储介质 | |
CN106688034A (zh) | 具有情感内容的文字至语音转换 | |
KR20210086974A (ko) | 교차 언어 음성 변환 시스템 및 방법 | |
KR20230133362A (ko) | 다양하고 자연스러운 텍스트 스피치 변환 샘플들 생성 | |
CN116798405B (zh) | 语音合成方法、装置、存储介质和电子设备 | |
Ifeanyi et al. | Text–To–Speech Synthesis (TTS) | |
CN116168678A (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
KR20240035548A (ko) | 합성 트레이닝 데이터를 사용하는 2-레벨 텍스트-스피치 변환 시스템 | |
JP6289950B2 (ja) | 読み上げ装置、読み上げ方法及びプログラム | |
KR102116014B1 (ko) | 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템 | |
US11783813B1 (en) | Methods and systems for improving word discrimination with phonologically-trained machine learning models | |
CN116863909B (zh) | 基于因子图的语音合成方法、装置及*** | |
Agarwal et al. | Emotion recognition and conversion based on segmentation of speech in Hindi language | |
EP4300494A1 (en) | Devices for real-time speech output with improved intelligibility | |
KR20240080690A (ko) | 인공지능 음성 변조를 이용한 외국어 학습 장치 및 방법 | |
Yoon et al. | Enhancing Multilingual TTS with Voice Conversion Based Data Augmentation and Posterior Embedding | |
CN116168682A (zh) | 一种语音合成方法及装置、存储介质 | |
CN116403563A (zh) | 口语化声学特征的生成方法、装置、电子设备和存储介质 | |
CN114678004A (zh) | 一种语音合成方法、***及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |