CN110517662A - 一种智能语音播报的方法及*** - Google Patents
一种智能语音播报的方法及*** Download PDFInfo
- Publication number
- CN110517662A CN110517662A CN201910630232.8A CN201910630232A CN110517662A CN 110517662 A CN110517662 A CN 110517662A CN 201910630232 A CN201910630232 A CN 201910630232A CN 110517662 A CN110517662 A CN 110517662A
- Authority
- CN
- China
- Prior art keywords
- voice
- recording
- true man
- text
- synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 57
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 57
- 230000000694 effects Effects 0.000 claims abstract description 18
- 230000033764 rhythmic process Effects 0.000 claims abstract description 12
- 238000005266 casting Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000011946 reduction process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000006854 communication Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种智能语音播报的方法及***,所述智能语音播报的方法执行以下步骤:步骤1:获取生成语音,包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音;步骤2:采用从真人录音与合成语音中提取的特征参数,对生成语音的特征参数进行调整,以提升合成语音与真人录音的一致性;步骤3:对生成语音的整句合成文本做文本分析,以保留上下文韵律信息,提升拼接处的韵律连贯性;步骤4:对真人录音做音效处理,并对真人录音与合成语音进行能量规整,以使真人录音与合成语音之间的能量变化趋于一致水平。此方法分别对合成语音和真人录音进行处理,提升合成语音与真人录音的相似度,以及拼接后的语音的整体一致性。
Description
技术领域
本发明涉及智能语音技术领域,特别涉及一种智能语音播报的方法及***。
背景技术
在智能外呼等应用场景中,需要接近真人发音的高质量播报音频。目前常用的做法是对播报文本中的固定句式部分采用真人录音,对于文本中需要经常变化的部分(通常称为槽位,例如人名、个人信息等)采用合成语音,然后将真人录音与合成语音做实时拼接。
现有技术方案由于合成***效果的限制,在音质、音色等方面,合成语音与真人录音差异性较大,从而导致拼接后的语音在听感上很不自然,而且在拼接处存在明显的跳变感,影响产品体验。
发明内容
本发明提供一种智能语音播报的方法及***,用以提升合成语音与真人录音的相似度,以及拼接后的语音的整体一致性。
本发明提供了一种智能语音播报的方法,所述方法执行以下步骤:
步骤1:获取生成语音,所述生成语音包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音;
步骤2:采用从所述真人录音与所述合成语音中提取的特征参数,对所述生成语音的特征参数进行调整,以提升所述合成语音与所述真人录音的一致性;
步骤3:对所述生成语音的整句合成文本做文本分析,以保留上下文韵律信息,提升拼接处的韵律连贯性;
步骤4:对所述真人录音做音效处理,并对所述真人录音与所述合成语音进行能量规整,以使所述真人录音与所述合成语音之间的能量变化趋于一致水平。
进一步地,在所述步骤1之前,所述方法还包括采用所述真人录音对所述生成语音的时长模型和声学模型做调整的步骤。
进一步地,在所述步骤2和所述步骤3之间,还包括步骤5:对所述槽位部分的文本进行优化,使得优化的槽位部分的文本包含整个韵律短语信息。
进一步地,在所述步骤3和所述步骤4之间,所述方法还包括步骤6:去除所述真人录音与所述合成语音的拼接处的静音段,以提升拼接处的连贯性。
进一步地,在所述步骤4之后,所述方法还包括步骤7:针对不同类型的槽位文本,动态调整所述槽位部分的合成参数。
进一步地,在所述步骤4之后,所述方法还包括步骤8:针对不同应用场景,在播报语音中添加相应场景的背景音。
本发明实施例提供的一种智能语音播报的方法,具有以下有益效果:分别对合成语音和真人录音进行处理,提升合成语音与真人录音的相似度,以及拼接后的语音的整体一致性。
本发明还提供一种智能语音播报的***,包括:
获取模块,用于获取生成语音,所述生成语音包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音;
调整模块,用于采用所述真人录音与合成语音的特征参数,对所述生成语音的特征参数进行调整,以提升所述生成语音的一致性;
文本分析模块,用于对所述生成语音的整句合成文本做文本分析,以保留上下文韵律信息,提升拼接处的韵律连贯性;
音效处理模块,用于对所述真人录音进行音效处理,并将所述真人录音与所述合成语音的能量规整到一致水平。
优选地,所述智能语音播报的***还包括去除静音模块,用于去除所述真人录音与所述合成语音的拼接处的静音段,以提升拼接处的连贯性。
优选地,所述智能语音播报的***还包括参数调整模块,用于针对不同类型的槽位文本,动态调整所述槽位部分的合成参数。
优选地,所述智能语音播报的***还包括背景音添加模块,用于针对不同应用场景,在播报语音中添加相应场景的背景音。
本发明实施例提供的一种智能语音播报的***,具有以下有益效果:调整模块和音效处理模块分别对生成语音和真人录音进行处理,文本分析模块对生成语音的整句合成文本做文本分析,提升合成语音与真人录音的相似度,以及拼接后的语音的整体一致性
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种智能语音播报的方法的方法流程示意图;
图2为本发明实施例中一种智能语音播报的***的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种智能语音播报的方法,如图1所示,所述方法执行以下步骤:
步骤1:获取生成语音,所述生成语音包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音;
步骤2:采用从所述真人录音与所述合成语音中提取的特征参数,对所述生成语音的特征参数进行调整,以提升所述合成语音与所述真人录音的一致性;
步骤3:对所述生成语音的整句合成文本做文本分析,以保留上下文韵律信息,提升拼接处的韵律连贯性;
步骤4:对所述真人录音做音效处理,并对所述真人录音与所述合成语音进行能量规整,以使所述真人录音与所述合成语音之间的能量变化趋于一致水平。
具体地,在所述步骤2中,采用已有的真人录音与合成语音的声学特征参数对TTS(Text To Speech,从文本到语音)***模型做自适应调整,从而对生成语音的特征参数做相应调整。文本转语音技术能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。其中,声学特征包括语调、语速、音质、基频,频谱等声学参数。
在所述步骤3中,由TTS***中的前端模块完成,具体地,将整句合成文本输入TTS***的前端模块,前端模块对待转换文本信息进行分析处理,将原始输入的待转换文本信息转换为不同的中间状态信息,用于指导文本进行发声。
在所述步骤4中,所述音效处理包括降噪处理和/或混响处理。
上述技术方案的工作原理为:采用真人录音和合成语音的特征参数对生成语音的特征参数进行调整;对生成语音的整句合成文本做文本分析;对真人录音做音效处理,并将真人录音与合成语音的能量规整到一致水平。
上述技术方案的有益效果为:分别对合成语音和真人录音进行处理,提升合成语音与真人录音的相似度,以及拼接后的语音的整体一致性。
在一个实施例中,在所述步骤1之前,所述方法还包括采用所述真人录音对所述生成语音的时长模型和声学模型做调整的步骤。
上述技术方案的工作原理为:时长模型可以是卷积的神经网络,或者也可以是其他具有机器学习能力的模型。声学模型可以是隐马可夫模型,或者也可以是卷积神经网络模型,或者也可以是其他具有机器学习能力的模型。
上述技术方案的有益效果为:采用真人录音对生成语音的时长模型和声学模型做调整后,使得生成语音与真人录音更匹配。
在一个实施例中,在所述步骤2和所述步骤3之间,还包括步骤5:对所述槽位部分的文本进行优化,使得优化的槽位部分的文本包含整个韵律短语信息。
上述技术方案的工作原理为:在所述步骤5中,优化的槽位部分的文本包含的整个韵律短语信息指的是韵律词、韵律短语的位置信息等。
上述技术方案的有益效果为:进一步提升合成语音与真人录音的相似度,以及拼接后的语音的整体一致性。
进一步地,在所述步骤3和所述步骤4之间,所述方法还包括步骤6:去除所述真人录音与所述合成语音的拼接处的静音段,以提升拼接处的连贯性。
上述技术方案的工作原理为:真人录音和合成语音两者是通过大语料库拼接算法进行拼接的,此外,在去除静音段后,所述步骤6还包括对所述真人录音与所述合成语音的拼接处进行平滑处理的步骤。
上述技术方案的有益效果为:提升真人录音与合成语音拼接处的连贯性。
在一个实施例中,在所述步骤4之后,所述方法还包括步骤7:针对不同类型的槽位文本,动态调整所述槽位部分的合成参数。
其中,所述合成参数包括语速和韵律等。
上述技术方案的工作原理为:通过动态调整槽位部分的合成参数,以强调文本中的重要信息。
上述技术方案的有益效果为:使得智能语音播报更加符合真人发音方式。
在一个实施例中,在所述步骤4之后,具体地,在所述步骤6之后,所述方法还包括步骤8:针对不同应用场景,在播报语音中添加相应场景的背景音。
上述技术方案的工作原理为:在播报语音中添加的背景音能够更加贴近真实的呼出场景。
上述技术方案的有益效果为:使得智能语音播报的通话过程更为真实。
本发明实施例还提供了一种智能语音播报的***,如图2所示,包括:
获取模块201,用于获取生成语音,所述生成语音包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音;
调整模块202,用于采用所述真人录音与合成语音的特征参数,对所述生成语音的特征参数进行调整,以提升所述生成语音的一致性;
文本分析模块203,用于对所述生成语音的整句合成文本做文本分析,以保留上下文韵律信息,提升拼接处的韵律连贯性;
音效处理模块204,用于对所述真人录音进行音效处理,并将所述真人录音与所述合成语音的能量规整到一致水平。
所述音效处理模块204包括降噪处理模块和混响处理模块。所述降噪处理模块用于对所述真人录音进行降噪处理,所述混响处理模块用于对所述真人录音进行混响处理。
上述技术方案的工作原理为:调整模块202采用真人录音与合成语音的特征参数,对生成语音的特征参数进行调整;文本分析模块203对生成语音的整句合成文本做文本分析;音效处理模块204对真人录音进行音效处理,并将真人录音与合成语音的能量规整到一致水平。
上述技术方案的有益效果为:调整模块和音效处理模块分别对生成成语音和真人录音进行处理,文本分析模块对生成语音的整句合成文本做文本分析,提升合成语音与真人录音的相似度,以及拼接后的语音的整体一致性。
在一个实施例中,所述智能语音播报的***还包括槽位文本优化模块205,用于对所述槽位部分的文本进行优化,使得优化的槽位部分的文本包含整个韵律短语信息。
上述技术方案的工作原理为:优化的槽位部分的文本包含的整个韵律短语信息指的是韵律词、韵律短语的位置信息等。
上述技术方案的有益效果为:进一步提升合成语音与真人录音的相似度,以及拼接后的语音的整体一致性。
在一个实施例中,所述智能语音播报的***还包括去除静音模块206,用于去除所述真人录音与所述合成语音的拼接处的静音段,以提升拼接处的连贯性。
上述技术方案的工作原理为:所述去除静音模块206包括平滑处理模块,用于对所述真人录音与所述合成语音的拼接处进行平滑处理。
上述技术方案的有益效果为:可以提升真人录音与合成语音拼接处的连贯性。
在一个实施例中,所述智能语音播报的***还包括参数调整模块207,用于针对不同类型的槽位文本,动态调整所述槽位部分的合成参数。
其中,所述合成参数包括语速和韵律等。
上述技术方案的工作原理为:通过动态调整槽位部分的合成参数,以强调文本中的重要信息。
上述技术方案的有益效果为:使得智能语音播报更加符合真人发音方式。
在一个实施例中,所述智能语音播报的***还包括背景音添加模块208,用于针对不同应用场景,在播报语音中添加相应场景的背景音。
上述技术方案的工作原理为:在播报语音中添加的背景音能够更加贴近真实的呼出场景。
上述技术方案的有益效果为:使得智能语音播报的通话过程更为真实。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种智能语音播报的方法,其特征在于,所述方法执行以下步骤:
步骤1:获取生成语音,所述生成语音包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音;
步骤2:采用从所述真人录音与所述合成语音中提取的特征参数,对所述生成语音的特征参数进行调整,以提升所述合成语音与所述真人录音的一致性;
步骤3:对所述生成语音的整句合成文本做文本分析,以保留上下文韵律信息,提升拼接处的韵律连贯性;
步骤4:对所述真人录音做音效处理,并对所述真人录音与所述合成语音进行能量规整,以使所述真人录音与所述合成语音之间的能量变化趋于一致水平。
2.如权利要求1所述的智能语音播报的方法,其特征在于,在所述步骤1之前,所述方法还包括采用所述真人录音对所述生成语音的时长模型和声学模型做调整的步骤。
3.如权利要求1所述的智能语音播报的方法,其特征在于,在所述步骤2和所述步骤3之间,还包括步骤5:对所述槽位部分的文本进行优化,使得优化的槽位部分的文本包含整个韵律短语信息。
4.如权利要求2所述的智能语音播报的方法,其特征在于,在所述步骤3和所述步骤4之间,所述方法还包括步骤6:去除所述真人录音与所述合成语音的拼接处的静音段,以提升拼接处的连贯性。
5.如权利要求1所述的智能语音播报的方法,其特征在于,在所述步骤4之后,所述方法还包括步骤7:针对不同类型的槽位文本,动态调整所述槽位部分的合成参数。
6.如权利要求1所述的智能语音播报的方法,其特征在于,在所述步骤4之后,所述方法还包括步骤8:针对不同应用场景,在播报语音中添加相应场景的背景音。
7.一种智能语音播报的***,其特征在于,包括:
获取模块,用于获取生成语音,所述生成语音包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音;
调整模块,用于采用所述真人录音与合成语音的特征参数,对所述生成语音的特征参数进行调整,以提升所述生成语音的一致性;
文本分析模块,用于对所述生成语音的整句合成文本做文本分析,以保留上下文韵律信息,提升拼接处的韵律连贯性;
音效处理模块,用于对所述真人录音进行音效处理,并将所述真人录音与所述合成语音的能量规整到一致水平。
8.如权利要求7所述的智能语音播报的***,其特征在于,所述智能语音播报的***还包括去除静音模块,用于去除所述真人录音与所述合成语音的拼接处的静音段,以提升拼接处的连贯性。
9.如权利要求7所述的智能语音播报的***,其特征在于,所述智能语音播报的***还包括参数调整模块,用于针对不同类型的槽位文本,动态调整所述槽位部分的合成参数。
10.如权利要求7所述的智能语音播报的***,其特征在于,所述智能语音播报的***还包括背景音添加模块,用于针对不同应用场景,在播报语音中添加相应场景的背景音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910630232.8A CN110517662A (zh) | 2019-07-12 | 2019-07-12 | 一种智能语音播报的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910630232.8A CN110517662A (zh) | 2019-07-12 | 2019-07-12 | 一种智能语音播报的方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110517662A true CN110517662A (zh) | 2019-11-29 |
Family
ID=68623049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910630232.8A Pending CN110517662A (zh) | 2019-07-12 | 2019-07-12 | 一种智能语音播报的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110517662A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111564153A (zh) * | 2020-04-02 | 2020-08-21 | 湖南声广信息科技有限公司 | 广播电台智能主播音乐节目*** |
CN112289298A (zh) * | 2020-09-30 | 2021-01-29 | 北京大米科技有限公司 | 合成语音的处理方法、装置、存储介质以及电子设备 |
CN113744716A (zh) * | 2021-10-19 | 2021-12-03 | 北京房江湖科技有限公司 | 用于合成语音的方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1584979A (zh) * | 2004-06-01 | 2005-02-23 | 安徽中科大讯飞信息科技有限公司 | 在语音合***中将背景音与文本语音混合输出的方法 |
CN1584980A (zh) * | 2004-06-01 | 2005-02-23 | 安徽中科大讯飞信息科技有限公司 | 在语音合成***中将提示音与文本语音合成输出的方法 |
CN1811913A (zh) * | 2005-01-28 | 2006-08-02 | 凌阳科技股份有限公司 | 混合参数模式的语音合成***及方法 |
CN1945691A (zh) * | 2006-10-16 | 2007-04-11 | 安徽中科大讯飞信息科技有限公司 | 一种在语音合成***中提升模板句合成效果的方法 |
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
CN101685633A (zh) * | 2008-09-28 | 2010-03-31 | 富士通株式会社 | 基于韵律参照的语音合成装置和方法 |
CN108182936A (zh) * | 2018-03-14 | 2018-06-19 | 百度在线网络技术(北京)有限公司 | 语音信号生成方法和装置 |
-
2019
- 2019-07-12 CN CN201910630232.8A patent/CN110517662A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1584979A (zh) * | 2004-06-01 | 2005-02-23 | 安徽中科大讯飞信息科技有限公司 | 在语音合***中将背景音与文本语音混合输出的方法 |
CN1584980A (zh) * | 2004-06-01 | 2005-02-23 | 安徽中科大讯飞信息科技有限公司 | 在语音合成***中将提示音与文本语音合成输出的方法 |
CN1811913A (zh) * | 2005-01-28 | 2006-08-02 | 凌阳科技股份有限公司 | 混合参数模式的语音合成***及方法 |
CN1945691A (zh) * | 2006-10-16 | 2007-04-11 | 安徽中科大讯飞信息科技有限公司 | 一种在语音合成***中提升模板句合成效果的方法 |
CN101000765A (zh) * | 2007-01-09 | 2007-07-18 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
CN101685633A (zh) * | 2008-09-28 | 2010-03-31 | 富士通株式会社 | 基于韵律参照的语音合成装置和方法 |
CN108182936A (zh) * | 2018-03-14 | 2018-06-19 | 百度在线网络技术(北京)有限公司 | 语音信号生成方法和装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111564153A (zh) * | 2020-04-02 | 2020-08-21 | 湖南声广信息科技有限公司 | 广播电台智能主播音乐节目*** |
CN111564153B (zh) * | 2020-04-02 | 2021-10-01 | 湖南声广科技有限公司 | 广播电台智能主播音乐节目*** |
CN112289298A (zh) * | 2020-09-30 | 2021-01-29 | 北京大米科技有限公司 | 合成语音的处理方法、装置、存储介质以及电子设备 |
CN113744716A (zh) * | 2021-10-19 | 2021-12-03 | 北京房江湖科技有限公司 | 用于合成语音的方法和装置 |
CN113744716B (zh) * | 2021-10-19 | 2023-08-29 | 北京房江湖科技有限公司 | 用于合成语音的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12033611B2 (en) | Generating expressive speech audio from text data | |
JP2885372B2 (ja) | 音声符号化方法 | |
US7739113B2 (en) | Voice synthesizer, voice synthesizing method, and computer program | |
JP2021110943A (ja) | クロスリンガル音声変換システムおよび方法 | |
CN110517662A (zh) | 一种智能语音播报的方法及*** | |
CN108766413A (zh) | 语音合成方法及*** | |
JP2020507819A (ja) | スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置 | |
CN112735454A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
CN106548785A (zh) | 一种语音处理方法及装置、终端设备 | |
US20090177473A1 (en) | Applying vocal characteristics from a target speaker to a source speaker for synthetic speech | |
Hu et al. | Whispered and Lombard neural speech synthesis | |
CN116798405B (zh) | 语音合成方法、装置、存储介质和电子设备 | |
CN112530400A (zh) | 基于深度学习的文本生成语音的方法、***、装置及介质 | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
KR102072627B1 (ko) | 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법 | |
JP2005070430A (ja) | 音声出力装置および方法 | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
WO2023116243A1 (zh) | 数据转换方法及计算机存储介质 | |
JP7179216B1 (ja) | 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体 | |
US11908447B2 (en) | Method and apparatus for synthesizing multi-speaker speech using artificial neural network | |
CN114005428A (zh) | 语音合成方法、装置、电子设备、存储介质和程序产品 | |
Chandra et al. | Towards the development of accent conversion model for (l1) bengali speaker using cycle consistent adversarial network (cyclegan) | |
Tanaka et al. | A vibration control method of an electrolarynx based on statistical f 0 pattern prediction | |
KR101095867B1 (ko) | 음성합성장치 및 방법 | |
Hinterleitner et al. | Speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191129 |