CN110517662A - 一种智能语音播报的方法及*** - Google Patents

一种智能语音播报的方法及*** Download PDF

Info

Publication number
CN110517662A
CN110517662A CN201910630232.8A CN201910630232A CN110517662A CN 110517662 A CN110517662 A CN 110517662A CN 201910630232 A CN201910630232 A CN 201910630232A CN 110517662 A CN110517662 A CN 110517662A
Authority
CN
China
Prior art keywords
voice
recording
true man
text
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910630232.8A
Other languages
English (en)
Inventor
贺来朋
刘露婕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201910630232.8A priority Critical patent/CN110517662A/zh
Publication of CN110517662A publication Critical patent/CN110517662A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种智能语音播报的方法及***,所述智能语音播报的方法执行以下步骤:步骤1:获取生成语音,包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音;步骤2:采用从真人录音与合成语音中提取的特征参数,对生成语音的特征参数进行调整,以提升合成语音与真人录音的一致性;步骤3:对生成语音的整句合成文本做文本分析,以保留上下文韵律信息,提升拼接处的韵律连贯性;步骤4:对真人录音做音效处理,并对真人录音与合成语音进行能量规整,以使真人录音与合成语音之间的能量变化趋于一致水平。此方法分别对合成语音和真人录音进行处理,提升合成语音与真人录音的相似度,以及拼接后的语音的整体一致性。

Description

一种智能语音播报的方法及***
技术领域
本发明涉及智能语音技术领域,特别涉及一种智能语音播报的方法及***。
背景技术
在智能外呼等应用场景中,需要接近真人发音的高质量播报音频。目前常用的做法是对播报文本中的固定句式部分采用真人录音,对于文本中需要经常变化的部分(通常称为槽位,例如人名、个人信息等)采用合成语音,然后将真人录音与合成语音做实时拼接。
现有技术方案由于合成***效果的限制,在音质、音色等方面,合成语音与真人录音差异性较大,从而导致拼接后的语音在听感上很不自然,而且在拼接处存在明显的跳变感,影响产品体验。
发明内容
本发明提供一种智能语音播报的方法及***,用以提升合成语音与真人录音的相似度,以及拼接后的语音的整体一致性。
本发明提供了一种智能语音播报的方法,所述方法执行以下步骤:
步骤1:获取生成语音,所述生成语音包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音;
步骤2:采用从所述真人录音与所述合成语音中提取的特征参数,对所述生成语音的特征参数进行调整,以提升所述合成语音与所述真人录音的一致性;
步骤3:对所述生成语音的整句合成文本做文本分析,以保留上下文韵律信息,提升拼接处的韵律连贯性;
步骤4:对所述真人录音做音效处理,并对所述真人录音与所述合成语音进行能量规整,以使所述真人录音与所述合成语音之间的能量变化趋于一致水平。
进一步地,在所述步骤1之前,所述方法还包括采用所述真人录音对所述生成语音的时长模型和声学模型做调整的步骤。
进一步地,在所述步骤2和所述步骤3之间,还包括步骤5:对所述槽位部分的文本进行优化,使得优化的槽位部分的文本包含整个韵律短语信息。
进一步地,在所述步骤3和所述步骤4之间,所述方法还包括步骤6:去除所述真人录音与所述合成语音的拼接处的静音段,以提升拼接处的连贯性。
进一步地,在所述步骤4之后,所述方法还包括步骤7:针对不同类型的槽位文本,动态调整所述槽位部分的合成参数。
进一步地,在所述步骤4之后,所述方法还包括步骤8:针对不同应用场景,在播报语音中添加相应场景的背景音。
本发明实施例提供的一种智能语音播报的方法,具有以下有益效果:分别对合成语音和真人录音进行处理,提升合成语音与真人录音的相似度,以及拼接后的语音的整体一致性。
本发明还提供一种智能语音播报的***,包括:
获取模块,用于获取生成语音,所述生成语音包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音;
调整模块,用于采用所述真人录音与合成语音的特征参数,对所述生成语音的特征参数进行调整,以提升所述生成语音的一致性;
文本分析模块,用于对所述生成语音的整句合成文本做文本分析,以保留上下文韵律信息,提升拼接处的韵律连贯性;
音效处理模块,用于对所述真人录音进行音效处理,并将所述真人录音与所述合成语音的能量规整到一致水平。
优选地,所述智能语音播报的***还包括去除静音模块,用于去除所述真人录音与所述合成语音的拼接处的静音段,以提升拼接处的连贯性。
优选地,所述智能语音播报的***还包括参数调整模块,用于针对不同类型的槽位文本,动态调整所述槽位部分的合成参数。
优选地,所述智能语音播报的***还包括背景音添加模块,用于针对不同应用场景,在播报语音中添加相应场景的背景音。
本发明实施例提供的一种智能语音播报的***,具有以下有益效果:调整模块和音效处理模块分别对生成语音和真人录音进行处理,文本分析模块对生成语音的整句合成文本做文本分析,提升合成语音与真人录音的相似度,以及拼接后的语音的整体一致性
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种智能语音播报的方法的方法流程示意图;
图2为本发明实施例中一种智能语音播报的***的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种智能语音播报的方法,如图1所示,所述方法执行以下步骤:
步骤1:获取生成语音,所述生成语音包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音;
步骤2:采用从所述真人录音与所述合成语音中提取的特征参数,对所述生成语音的特征参数进行调整,以提升所述合成语音与所述真人录音的一致性;
步骤3:对所述生成语音的整句合成文本做文本分析,以保留上下文韵律信息,提升拼接处的韵律连贯性;
步骤4:对所述真人录音做音效处理,并对所述真人录音与所述合成语音进行能量规整,以使所述真人录音与所述合成语音之间的能量变化趋于一致水平。
具体地,在所述步骤2中,采用已有的真人录音与合成语音的声学特征参数对TTS(Text To Speech,从文本到语音)***模型做自适应调整,从而对生成语音的特征参数做相应调整。文本转语音技术能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。其中,声学特征包括语调、语速、音质、基频,频谱等声学参数。
在所述步骤3中,由TTS***中的前端模块完成,具体地,将整句合成文本输入TTS***的前端模块,前端模块对待转换文本信息进行分析处理,将原始输入的待转换文本信息转换为不同的中间状态信息,用于指导文本进行发声。
在所述步骤4中,所述音效处理包括降噪处理和/或混响处理。
上述技术方案的工作原理为:采用真人录音和合成语音的特征参数对生成语音的特征参数进行调整;对生成语音的整句合成文本做文本分析;对真人录音做音效处理,并将真人录音与合成语音的能量规整到一致水平。
上述技术方案的有益效果为:分别对合成语音和真人录音进行处理,提升合成语音与真人录音的相似度,以及拼接后的语音的整体一致性。
在一个实施例中,在所述步骤1之前,所述方法还包括采用所述真人录音对所述生成语音的时长模型和声学模型做调整的步骤。
上述技术方案的工作原理为:时长模型可以是卷积的神经网络,或者也可以是其他具有机器学习能力的模型。声学模型可以是隐马可夫模型,或者也可以是卷积神经网络模型,或者也可以是其他具有机器学习能力的模型。
上述技术方案的有益效果为:采用真人录音对生成语音的时长模型和声学模型做调整后,使得生成语音与真人录音更匹配。
在一个实施例中,在所述步骤2和所述步骤3之间,还包括步骤5:对所述槽位部分的文本进行优化,使得优化的槽位部分的文本包含整个韵律短语信息。
上述技术方案的工作原理为:在所述步骤5中,优化的槽位部分的文本包含的整个韵律短语信息指的是韵律词、韵律短语的位置信息等。
上述技术方案的有益效果为:进一步提升合成语音与真人录音的相似度,以及拼接后的语音的整体一致性。
进一步地,在所述步骤3和所述步骤4之间,所述方法还包括步骤6:去除所述真人录音与所述合成语音的拼接处的静音段,以提升拼接处的连贯性。
上述技术方案的工作原理为:真人录音和合成语音两者是通过大语料库拼接算法进行拼接的,此外,在去除静音段后,所述步骤6还包括对所述真人录音与所述合成语音的拼接处进行平滑处理的步骤。
上述技术方案的有益效果为:提升真人录音与合成语音拼接处的连贯性。
在一个实施例中,在所述步骤4之后,所述方法还包括步骤7:针对不同类型的槽位文本,动态调整所述槽位部分的合成参数。
其中,所述合成参数包括语速和韵律等。
上述技术方案的工作原理为:通过动态调整槽位部分的合成参数,以强调文本中的重要信息。
上述技术方案的有益效果为:使得智能语音播报更加符合真人发音方式。
在一个实施例中,在所述步骤4之后,具体地,在所述步骤6之后,所述方法还包括步骤8:针对不同应用场景,在播报语音中添加相应场景的背景音。
上述技术方案的工作原理为:在播报语音中添加的背景音能够更加贴近真实的呼出场景。
上述技术方案的有益效果为:使得智能语音播报的通话过程更为真实。
本发明实施例还提供了一种智能语音播报的***,如图2所示,包括:
获取模块201,用于获取生成语音,所述生成语音包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音;
调整模块202,用于采用所述真人录音与合成语音的特征参数,对所述生成语音的特征参数进行调整,以提升所述生成语音的一致性;
文本分析模块203,用于对所述生成语音的整句合成文本做文本分析,以保留上下文韵律信息,提升拼接处的韵律连贯性;
音效处理模块204,用于对所述真人录音进行音效处理,并将所述真人录音与所述合成语音的能量规整到一致水平。
所述音效处理模块204包括降噪处理模块和混响处理模块。所述降噪处理模块用于对所述真人录音进行降噪处理,所述混响处理模块用于对所述真人录音进行混响处理。
上述技术方案的工作原理为:调整模块202采用真人录音与合成语音的特征参数,对生成语音的特征参数进行调整;文本分析模块203对生成语音的整句合成文本做文本分析;音效处理模块204对真人录音进行音效处理,并将真人录音与合成语音的能量规整到一致水平。
上述技术方案的有益效果为:调整模块和音效处理模块分别对生成成语音和真人录音进行处理,文本分析模块对生成语音的整句合成文本做文本分析,提升合成语音与真人录音的相似度,以及拼接后的语音的整体一致性。
在一个实施例中,所述智能语音播报的***还包括槽位文本优化模块205,用于对所述槽位部分的文本进行优化,使得优化的槽位部分的文本包含整个韵律短语信息。
上述技术方案的工作原理为:优化的槽位部分的文本包含的整个韵律短语信息指的是韵律词、韵律短语的位置信息等。
上述技术方案的有益效果为:进一步提升合成语音与真人录音的相似度,以及拼接后的语音的整体一致性。
在一个实施例中,所述智能语音播报的***还包括去除静音模块206,用于去除所述真人录音与所述合成语音的拼接处的静音段,以提升拼接处的连贯性。
上述技术方案的工作原理为:所述去除静音模块206包括平滑处理模块,用于对所述真人录音与所述合成语音的拼接处进行平滑处理。
上述技术方案的有益效果为:可以提升真人录音与合成语音拼接处的连贯性。
在一个实施例中,所述智能语音播报的***还包括参数调整模块207,用于针对不同类型的槽位文本,动态调整所述槽位部分的合成参数。
其中,所述合成参数包括语速和韵律等。
上述技术方案的工作原理为:通过动态调整槽位部分的合成参数,以强调文本中的重要信息。
上述技术方案的有益效果为:使得智能语音播报更加符合真人发音方式。
在一个实施例中,所述智能语音播报的***还包括背景音添加模块208,用于针对不同应用场景,在播报语音中添加相应场景的背景音。
上述技术方案的工作原理为:在播报语音中添加的背景音能够更加贴近真实的呼出场景。
上述技术方案的有益效果为:使得智能语音播报的通话过程更为真实。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种智能语音播报的方法,其特征在于,所述方法执行以下步骤:
步骤1:获取生成语音,所述生成语音包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音;
步骤2:采用从所述真人录音与所述合成语音中提取的特征参数,对所述生成语音的特征参数进行调整,以提升所述合成语音与所述真人录音的一致性;
步骤3:对所述生成语音的整句合成文本做文本分析,以保留上下文韵律信息,提升拼接处的韵律连贯性;
步骤4:对所述真人录音做音效处理,并对所述真人录音与所述合成语音进行能量规整,以使所述真人录音与所述合成语音之间的能量变化趋于一致水平。
2.如权利要求1所述的智能语音播报的方法,其特征在于,在所述步骤1之前,所述方法还包括采用所述真人录音对所述生成语音的时长模型和声学模型做调整的步骤。
3.如权利要求1所述的智能语音播报的方法,其特征在于,在所述步骤2和所述步骤3之间,还包括步骤5:对所述槽位部分的文本进行优化,使得优化的槽位部分的文本包含整个韵律短语信息。
4.如权利要求2所述的智能语音播报的方法,其特征在于,在所述步骤3和所述步骤4之间,所述方法还包括步骤6:去除所述真人录音与所述合成语音的拼接处的静音段,以提升拼接处的连贯性。
5.如权利要求1所述的智能语音播报的方法,其特征在于,在所述步骤4之后,所述方法还包括步骤7:针对不同类型的槽位文本,动态调整所述槽位部分的合成参数。
6.如权利要求1所述的智能语音播报的方法,其特征在于,在所述步骤4之后,所述方法还包括步骤8:针对不同应用场景,在播报语音中添加相应场景的背景音。
7.一种智能语音播报的***,其特征在于,包括:
获取模块,用于获取生成语音,所述生成语音包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音;
调整模块,用于采用所述真人录音与合成语音的特征参数,对所述生成语音的特征参数进行调整,以提升所述生成语音的一致性;
文本分析模块,用于对所述生成语音的整句合成文本做文本分析,以保留上下文韵律信息,提升拼接处的韵律连贯性;
音效处理模块,用于对所述真人录音进行音效处理,并将所述真人录音与所述合成语音的能量规整到一致水平。
8.如权利要求7所述的智能语音播报的***,其特征在于,所述智能语音播报的***还包括去除静音模块,用于去除所述真人录音与所述合成语音的拼接处的静音段,以提升拼接处的连贯性。
9.如权利要求7所述的智能语音播报的***,其特征在于,所述智能语音播报的***还包括参数调整模块,用于针对不同类型的槽位文本,动态调整所述槽位部分的合成参数。
10.如权利要求7所述的智能语音播报的***,其特征在于,所述智能语音播报的***还包括背景音添加模块,用于针对不同应用场景,在播报语音中添加相应场景的背景音。
CN201910630232.8A 2019-07-12 2019-07-12 一种智能语音播报的方法及*** Pending CN110517662A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910630232.8A CN110517662A (zh) 2019-07-12 2019-07-12 一种智能语音播报的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910630232.8A CN110517662A (zh) 2019-07-12 2019-07-12 一种智能语音播报的方法及***

Publications (1)

Publication Number Publication Date
CN110517662A true CN110517662A (zh) 2019-11-29

Family

ID=68623049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910630232.8A Pending CN110517662A (zh) 2019-07-12 2019-07-12 一种智能语音播报的方法及***

Country Status (1)

Country Link
CN (1) CN110517662A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111564153A (zh) * 2020-04-02 2020-08-21 湖南声广信息科技有限公司 广播电台智能主播音乐节目***
CN112289298A (zh) * 2020-09-30 2021-01-29 北京大米科技有限公司 合成语音的处理方法、装置、存储介质以及电子设备
CN113744716A (zh) * 2021-10-19 2021-12-03 北京房江湖科技有限公司 用于合成语音的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1584979A (zh) * 2004-06-01 2005-02-23 安徽中科大讯飞信息科技有限公司 在语音合***中将背景音与文本语音混合输出的方法
CN1584980A (zh) * 2004-06-01 2005-02-23 安徽中科大讯飞信息科技有限公司 在语音合成***中将提示音与文本语音合成输出的方法
CN1811913A (zh) * 2005-01-28 2006-08-02 凌阳科技股份有限公司 混合参数模式的语音合成***及方法
CN1945691A (zh) * 2006-10-16 2007-04-11 安徽中科大讯飞信息科技有限公司 一种在语音合成***中提升模板句合成效果的方法
CN101000765A (zh) * 2007-01-09 2007-07-18 黑龙江大学 基于韵律特征的语音合成方法
CN101685633A (zh) * 2008-09-28 2010-03-31 富士通株式会社 基于韵律参照的语音合成装置和方法
CN108182936A (zh) * 2018-03-14 2018-06-19 百度在线网络技术(北京)有限公司 语音信号生成方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1584979A (zh) * 2004-06-01 2005-02-23 安徽中科大讯飞信息科技有限公司 在语音合***中将背景音与文本语音混合输出的方法
CN1584980A (zh) * 2004-06-01 2005-02-23 安徽中科大讯飞信息科技有限公司 在语音合成***中将提示音与文本语音合成输出的方法
CN1811913A (zh) * 2005-01-28 2006-08-02 凌阳科技股份有限公司 混合参数模式的语音合成***及方法
CN1945691A (zh) * 2006-10-16 2007-04-11 安徽中科大讯飞信息科技有限公司 一种在语音合成***中提升模板句合成效果的方法
CN101000765A (zh) * 2007-01-09 2007-07-18 黑龙江大学 基于韵律特征的语音合成方法
CN101685633A (zh) * 2008-09-28 2010-03-31 富士通株式会社 基于韵律参照的语音合成装置和方法
CN108182936A (zh) * 2018-03-14 2018-06-19 百度在线网络技术(北京)有限公司 语音信号生成方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111564153A (zh) * 2020-04-02 2020-08-21 湖南声广信息科技有限公司 广播电台智能主播音乐节目***
CN111564153B (zh) * 2020-04-02 2021-10-01 湖南声广科技有限公司 广播电台智能主播音乐节目***
CN112289298A (zh) * 2020-09-30 2021-01-29 北京大米科技有限公司 合成语音的处理方法、装置、存储介质以及电子设备
CN113744716A (zh) * 2021-10-19 2021-12-03 北京房江湖科技有限公司 用于合成语音的方法和装置
CN113744716B (zh) * 2021-10-19 2023-08-29 北京房江湖科技有限公司 用于合成语音的方法和装置

Similar Documents

Publication Publication Date Title
US12033611B2 (en) Generating expressive speech audio from text data
JP2885372B2 (ja) 音声符号化方法
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
JP2021110943A (ja) クロスリンガル音声変換システムおよび方法
CN110517662A (zh) 一种智能语音播报的方法及***
CN108766413A (zh) 语音合成方法及***
JP2020507819A (ja) スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置
CN112735454A (zh) 音频处理方法、装置、电子设备和可读存储介质
CN106548785A (zh) 一种语音处理方法及装置、终端设备
US20090177473A1 (en) Applying vocal characteristics from a target speaker to a source speaker for synthetic speech
Hu et al. Whispered and Lombard neural speech synthesis
CN116798405B (zh) 语音合成方法、装置、存储介质和电子设备
CN112530400A (zh) 基于深度学习的文本生成语音的方法、***、装置及介质
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
KR102072627B1 (ko) 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
JP2005070430A (ja) 音声出力装置および方法
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
WO2023116243A1 (zh) 数据转换方法及计算机存储介质
JP7179216B1 (ja) 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体
US11908447B2 (en) Method and apparatus for synthesizing multi-speaker speech using artificial neural network
CN114005428A (zh) 语音合成方法、装置、电子设备、存储介质和程序产品
Chandra et al. Towards the development of accent conversion model for (l1) bengali speaker using cycle consistent adversarial network (cyclegan)
Tanaka et al. A vibration control method of an electrolarynx based on statistical f 0 pattern prediction
KR101095867B1 (ko) 음성합성장치 및 방법
Hinterleitner et al. Speech synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191129