CN112530404A

CN112530404A - 一种语音合成方法、语音合成装置及智能设备

Info

Publication number: CN112530404A
Application number: CN202011380178.5A
Authority: CN
Inventors: 钱程浩
Original assignee: Shenzhen Ubtech Technology Co ltd
Current assignee: Shenzhen Ubtech Technology Co ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-19

Abstract

本申请公开了一种语音合成方法、装置、智能设备及计算机可读存储介质。其中，该方法包括：基于预设的分词算法对输入文本进行分词处理，获得中文词语列表及英文单词列表；确定中文词语列表中的每个中文词语所分别对应的拼音；基于预设的单词前缀词典查找英文单词列表中的每个英文单词所分别对应的音素；若存在目标英文单词，则将目标英文单词输入至字素到音素模型，得到字素到音素模型输出的目标英文单词所对应的音素；根据各个中文词语的拼音及各个英文单词的音素，进行输入文本的语音合成。通过本申请方案，可提升智能设备在面对中英文混合文本时的语音合成效果。

Description

一种语音合成方法、语音合成装置及智能设备

技术领域

本申请属于人工智能技术领域，尤其涉及一种语音合成方法、语音合成装置及智能设备。

背景技术

在进行语音合成时，智能设备搭载的语音合成***会先对所要进行语音合成的文本进行分析，其分析的目的是使计算机能从这些文本中认识文字，进而知道要发什么音及怎么发音，并将发音的方式告诉智能设备；除此之外，语音合成***还会让智能设备知道文本中哪些是词，哪些是短语或句子，使得智能设备可获知在发音时应该进行怎样的停顿，以获得更流畅的语音表达。然而，当前的语音合成***仅能基于单一语种的文本进行语音合成，在基于中英文混合文本的语音合成方面表现较差。

发明内容

本申请提供了一种语音合成方法、语音合成装置、智能设备及计算机可读存储介质，可提升智能设备在面对中英文混合文本时的语音合成效果。

第一方面，本申请提供了一种语音合成方法，包括：

基于预设的分词算法，对输入文本进行分词处理，获得中文词语列表及英文单词列表，其中，上述中文词语列表包括组成上述输入文本的各个中文词语，上述英文单词列表包括组成上述输入文本的各个英文单词；

确定上述中文词语列表中的每个中文词语所分别对应的拼音；

基于预设的单词前缀词典查找上述英文单词列表中的每个英文单词所分别对应的音素，其中，上述单词前缀词典配置有至少一个英文单词及对应的音素；

若存在目标英文单词，则将上述目标英文单词输入至字素到音素模型，得到上述字素到音素模型输出的上述目标英文单词所对应的音素；

根据上述中文词语列表中的每个中文词语所分别对应的拼音，以及上述英文单词列表中的每个英文单词所分别对应的音素，进行上述输入文本的语音合成。

第二方面，本申请提供了一种语音合成装置，包括：

文本分词单元，用于基于预设的分词算法，对输入文本进行分词处理，获得中文词语列表及英文单词列表，其中，上述中文词语列表包括组成上述输入文本的各个中文词语，上述英文单词列表包括组成上述输入文本的各个英文单词；

拼音确定单元，用于确定上述中文词语列表中的每个中文词语所分别对应的拼音；

第一音素确定单元，用于基于预设的单词前缀词典查找上述英文单词列表中的每个英文单词所分别对应的音素，其中，上述单词前缀词典配置有至少一个英文单词及对应的音素；

第二音素确定单元，用于若存在目标英文单词，则将上述目标英文单词输入至字素到音素模型，得到上述字素到音素模型输出的上述目标英文单词所对应的音素；

语音合成单元，用于根据上述中文词语列表中的每个中文词语所分别对应的拼音，以及上述英文单词列表中的每个英文单词所分别对应的音素，进行上述输入文本的语音合成。

第三方面，本申请提供了一种智能设备，上述智能设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。

第五方面，本申请提供了一种计算机程序产品，上述计算机程序产品包括计算机程序，上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。

本申请与现有技术相比存在的有益效果是：在面对中英文混合的输入文本时，先对输入文本进行分词，得到中文词语列表及英文单词列表，其中，上述中文词语列表包括组成上述输入文本的各个中文词语，上述英文单词列表包括组成上述输入文本的各个英文单词，然后对中文词语列表及英文单词列表分开进行处理，具体为：对于中文词语列表来说，直接确定其中每个中文词语所分别对应的拼音；对于英文单词列表来说，可通过单词前缀词典查找每个英文单词所分别对应的音素，还可将目标英文单词输入至字素到音素模型，得到该字素到音素模型输出的该目标英文单词所对应的音素，最后可根据输入文本中各个中文词语的拼音及各个英文单词的音素，进行语音合成。由上述过程可知，本方案针对输入文本中的属于英文的词及属于中文的词分开进行处理；并且，本方案还通过字素到音素模型来进一步保障英文单词的语音合成，可大大提升智能设备在面对中英文混合文本时的语音合成效果。可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音合成方法的实现流程示意图；

图2是本申请实施例提供的语音合成方法中，有向无环图的示例图；

图3是本申请实施例提供的语音合成装置的结构框图；

图4是本申请实施例提供的智能设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

为了说明本申请所提出的技术方案，下面通过具体实施例来进行说明。

下面对本申请实施例提供的一种语音合成方法进行描述。请参阅图1，该语音合成方法包括：

步骤101，基于预设的分词算法，对输入文本进行分词处理，获得中文词语列表及英文单词列表。

在本申请实施例中，在输入文本中存在英文及中文的场景下，可对输入文本进行分词处理，得到中文词语列表及英文单词列表，其中，中文词语列表包括组成输入文本的各个中文词语，英文单词列表包括组成输入文本的各个英文单词。也即，对于中英文混合文本来说，会以词语来作为划分中文文本的最小单元，以单词来作为划分英文文本的最小单元。具体地，可通过jieba分词来对存在英文及中文的输入文本进行分词，其工作原理简述如下：

jieba分词可先对中英文混合的输入文本进行初步分析，将该输入文本中的各个英文单词分割出来，以完成对英文的分词；然后，对剔除了英文单词的输入文本切分，也即基于标点符号将语句从输入文本中剥离出来，组成各个语句所对应的语句数组；接着，再以语句为单位进行进一步处理，也即对各个语句数组进行进一步处理。具体地，针对每个语句数组，其进一步处理的过程包括：基于该语句数组构造有向无环图，然后进行最大概率路径计算，并基于该最大概率路径所对应的切分方式获得该语句数组所对应的切分结果；最终，可得到组成各个语句的若干个中文词语，以完成对中文的分词。

举例来说，输入文本为“编程的第一课是学习hello world”；jieba分词在处理该输入文本时，首先分割出该输入文本的英文单词，也即“hello”及“world”；然后，由于该输入文本仅包含一句话，因而不需要进行语句切分，该剔除了英文单词的内容“编程的第一课是学习”即可构成一语句数组；继续对该语句数组进行处理，构造该语句数组的有向无环图，如图2所示；再对每个路径，从语句数组的最末位开始计算每个词语的成词概率；最终，可基于成词概率之和最大的路径所对应的切分位置获得切分结果，则语句数组“编程的第一课是学习”的切分结果为：编程、的、第一课、是及学习。基于上述过程，可得到英文单词列表为[hello，world]，中文词语列表为[编程，的，第一课，是，学习]。

当然，也可以采用其它分词工具对输入文本进行分词，例如SnowNLP，pkuseg，THULAC及pyhanlp等，此处不作限定。

步骤102，确定上述中文词语列表中的每个中文词语所分别对应的拼音。

在本申请实施例中，考虑到中文采用拼音进行发音，因而对于中文词语列表来说，可基于预设的拼音转换工具，例如pypinyin来确定中文词语列表中的每个中文词语所分别对应的拼音。

在一些实施例中，可在得到中文词语列表后，基于输入文本对该中文词语列表中的每个中文词语进行词性标注，获得每个中文词语的词性；相应地，拼音转换工具可基于各个中文词语的词性来进行拼音转换；也即，基于该拼音转换工具及该中文词语列表中的每个中文词语的词性，来确定每个中文词语所分别对应的拼音。通过这种方式，可在输入文本中有多音字出现时，通过各个中文词语的词性来确定其准确的拼音，使得输入文本中的中文词语的语音合成更加准确。

举例来说，在前文示例中，对于中文词语列表[编程，的，第一课，是，学习]来说，通过拼音转换工具可得：

“编程”对应的拼音为“biān chéng”

“的”对应的拼音为“de”

“第一课”对应的拼音为“dì yī kè”

“是”对应的拼音为“shì”

“学习”对应的拼音为“xué xí”

步骤103，基于预设的单词前缀词典查找上述英文单词列表中的每个英文单词所分别对应的音素。

在本申请实施例中，考虑到英文采用音素进行发音，因而对于英文单词列表来说，可基于预设的单词前缀词典CMU dict查找英文单词列表中的每个英文单词所分别对应的音素，其中，该单词前缀词典配置有至少一个英文单词及对应的音素。下面给出该单词前缀词典的一个示例：

单词	音素
		HELLO	HH AH L OW
WORLD	W ER L D
		……	……

举例来说，在前文示例中，对于英文单词列表[hello，world]来说，通过单词前缀词典可得：

“hello”对应的音素为“HH AH L OW”

“world”对应的音素为“W ER L D”

步骤104，若存在目标英文单词，则将上述目标英文单词输入至字素到音素模型，得到上述字素到音素模型输出的上述目标英文单词所对应的音素。

在本申请实施例中，考虑到单词前缀词典中所存储的英文单词数量有限，可能有一些较为生僻的英文单词无法在单词前缀词典中找到对应的音素，将这些英文单词记为目标英文单词。也即，目标英文单词指的是：英文单词列表中无法通过单词前缀词典查找到对应的音素的英文单词。对于每个目标英文单词来说，该目标英文单词可被输入至字素到音素(Grapheme-to-Phoneme，G2P)模型；智能设备随即可将该字素到音素模型所输出的音素确定为该目标英文单词所对应的音素。下面对本申请实施例所采用的字素到音素模型进行简单介绍：

字素到音素转换可以视为机器翻译，需要将源字素转换为目标音素。首先需要构建对齐模型，然后是构建翻译模型，该翻译模型基于ngram模型而实现。基于ngram的翻译模型通常实现为加权有限状态传感器(Weighted Finite State Transducer，WFST)。可以将字素到音素的转换视作一分类问题，并采用最大熵分类器来解决该问题；或者，也可以将字素到音素的转换视作一序列标记问题，并采用统计序列标记技术，例如条件随机场(Conditional Random Field，CRF)及感知器(Highway Maxout Networks，HMN)来解决该问题。具体地，本申请实施例中使用的是基于长短期记忆人工神经网络(Long Short-TermMemory，LSTM)的字素到音素模型，其中，LSTM的输入层的长度和字素的个数一样，输出层的长度和音素的个数一样；考虑到英文中的字素有27个，音素有40个，因此，该输入层为长度为27的独热(one-hot)编码层，该输出层为长度为40的独热编码层。

步骤105，根据上述中文词语列表中的每个中文词语所分别对应的拼音，以及上述英文单词列表中的每个英文单词所分别对应的音素，进行上述输入文本的语音合成。

在本申请实施例中，语音合成***在获取到各个中文词语的拼音及各个英文单词的音素后，即可确认该输入文本中的每个词该如何发音，以此来实现输入文本的语音合成。具体地，智能设备可先根据中文词语列表中的每个中文词语所分别对应的拼音，以及英文单词列表中的每个英文单词所分别对应的音素，生成输入文本的发音列表，并将该发音列表输入至语音合成***，以指示该语音合成***基于该发音列表对输入文本进行语音合成。

举例来说，对于输入文本“编程的第一课是学习hello world”来说，所生成的发音列表可以为：

词	发音标识
		编程	biān chéng
的	de
		第一课	dì yī kè
是	shì
		学习	xué xí
hello	HH AH L OW
		world	W ER L D

在一些实施例中，考虑到字素到音素模型虽然可以将较为生僻的英文单词转换为对应音素，但仍然无法达到百分百的转换准确率；基于此，在上述步骤105之后，上述语音合成方法还可包括：

若接收到用户基于上述目标英文单词所输入的用户语音，则将上述用户语音转换为音素；

将上述目标英文单词所对应的音素更新为上述用户语音转换所得的音素。

其中，在步骤105进行了语音合成后，可将语音合成的结果输出，同时在智能设备的屏幕上标注出输入文本所存在的目标英文单词。用户在听到语音输出后，可对发音不够准确的目标英文单词作出调整，例如，在屏幕上输入选择指令，选择需要进行发音调整的目标英文单词；智能设备随后可开启麦克风来接收用户语音；若接收到用户基于该目标英文单词所输入的用户语音，则可将用户语音转换为音素，并将该目标英文单词所对应的音素更新为该用户语音转换所得的音素。通过上述过程，可对发音有误或不够标准的生僻的英文单词进行纠正，提升后续语音合成的准确率。除此之外，还可将该目标英文单词以及更新后的该目标英文单词所对应的音素添加到上述单词前缀词典中，以实现上述单词前缀词典的更新。这样一来，若后续其它输入文本中再次出现同一英文单词，就可直接通过单词前缀词典获知其音素，能够一定程度上提升音素的获取效率。

在一些实施例中，考虑到本申请实施例主要是针对中英文混合文本进行语音合成，而在实际应用中，中英文混合文本并不是主流文本；也即，仍有大批量的文本是单语种文本。基于此，在上述步骤101之前，上述语音合成方法还包括：

检测上述输入文本是否同时存在中文及英文；

若上述输入文本同时存在中文及英文，则加载上述单词前缀词典及上述字素到音素模型。

其中，智能设备在接收到需要进行语音合成的输入文本，也即待发音的输入文本后，可先对该输入文本中所存在的语种进行检测，以确定该输入文本中是否同时存在中文及英文。其中，智能设备可以是接收用户输入的文字的方式，以获得输入文本；或者，智能设备也可以是导入并解析用户所指定的文件，以获得输入文本，此处不对输入文本的获取方式作出限定。示例性地，可以采用langid算法或langdetect算法等来检测输入文本中所存在的语种。只有在输入文本同时存在中文及英文的情况下，才使用本申请实施例所提出的方法进行语音合成，此时，可先加载拼音转换工具、单词前缀词典及字素到音素模型，为后续确定中文词语的拼音及确定英文单词的音素作准备。

由上可见，通过本申请实施例，针对输入文本中的属于英文的词语及属于中文的词语分开进行处理；并且，考虑到单词前缀词典所存储的单词有限，可能导致目标英文单词的出现，本申请实施例还提供了补救措施，通过字素到音素模型来进一步保障生僻的英文单词的语音合成，可大大提升智能设备在面对中英文混合文本时的语音合成效果。

对应于前文所提出的语音合成方法，本申请实施例提供了一种语音合成装置，上述语音合成装置集成于智能设备。请参阅图3，本申请实施例中的语音合成装置300包括：

文本分词单元301，用于基于预设的分词算法，对输入文本进行分词处理，获得中文词语列表及英文单词列表，其中，上述中文词语列表包括组成上述输入文本的各个中文词语，上述英文单词列表包括组成上述输入文本的各个英文单词；

拼音确定单元302，用于确定上述中文词语列表中的每个中文词语所分别对应的拼音；

第一音素确定单元303，用于基于预设的单词前缀词典查找上述英文单词列表中的每个英文单词所分别对应的音素，其中，上述单词前缀词典配置有至少一个英文单词及对应的音素；

第二音素确定单元304，用于若存在目标英文单词，则将上述目标英文单词输入至字素到音素模型，得到上述字素到音素模型输出的上述目标英文单词所对应的音素；

语音合成单元305，用于根据上述中文词语列表中的每个中文词语所分别对应的拼音，以及上述英文单词列表中的每个英文单词所分别对应的音素，进行上述输入文本的语音合成。

可选地，上述语音合成装置300还包括：

语音转换单元，用于在上述语音合成单元根据上述中文词语列表中的每个中文词语所分别对应的拼音，以及上述英文单词列表中的每个英文单词所分别对应的音素，进行上述输入文本的语音合成之后，若接收到用户基于上述目标英文单词所输入的用户语音，则将上述用户语音转换为音素；

音素更新单元，用于将上述目标英文单词所对应的音素更新为上述用户语音转换所得的音素。

可选地，上述语音合成装置300还包括：

词典更新单元，用于在上述音素更新单元将上述目标英文单词所对应的音素更新为上述用户语音转换所得的音素之后，将上述目标英文单词以及更新后的上述目标英文单词所对应的音素添加到上述单词前缀词典中，以实现上述单词前缀词典的更新。

可选地，上述语音合成装置300还包括：

词性标注单元，用于在上述文本分词单元301基于预设的分词算法，对输入文本进行分词处理，获得中文词语列表及英文单词列表之后，基于上述输入文本对上述中文词语列表中的每个中文词语进行词性标注，获得每个中文词语的词性；

相应地，上述拼音确定单元302，具体用于基于上述中文词语列表中的每个中文词语的词性，确定每个中文词语所分别对应的拼音。

可选地，上述语音合成装置300还包括：

文本检测单元，用于在上述文本分词单元301基于预设的分词算法，对输入文本进行分词处理，获得中文词语列表及英文单词列表之前，检测上述输入文本是否同时存在中文及英文；

加载单元，用于若上述输入文本同时存在中文及英文，则加载上述单词前缀词典及上述字素到音素模型。

可选地，上述语音合成单元305，包括：

发音列表生成子单元，用于根据上述中文词语列表中的每个中文词语所分别对应的拼音，以及上述英文单词列表中的每个英文单词所分别对应的音素，生成上述输入文本的发音列表；

发音列表输入子单元，用于将上述发音列表输入至预设的语音合成***，以指示上述语音合成***基于上述发音列表对上述输入文本进行语音合成。

由上可见，通过本申请实施例，针对输入文本中的属于英文的词及属于中文的词分开进行处理；并且，考虑到单词前缀词典所存储的单词有限，可能导致目标英文单词的出现，本申请实施例还提供了补救措施，通过字素到音素模型来进一步保障生僻的英文单词的语音合成，可大大提升智能设备在面对中英文混合文本时的语音合成效果。

本申请实施例还提供了一种智能设备，请参阅图4，本申请实施例中的智能设备4包括：存储器401，一个或多个处理器402(图4中仅示出一个)及存储在存储器401上并可在处理器上运行的计算机程序。其中：存储器401用于存储软件程序以及单元，处理器402通过运行存储在存储器401的软件程序以及单元，从而执行各种功能应用以及数据处理，以获取上述预设事件对应的资源。具体地，处理器402通过运行存储在存储器401的上述计算机程序时实现以下步骤：

假设上述为第一种可能的实施方式，则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中，在上述根据上述中文词语列表中的每个中文词语所分别对应的拼音，以及上述英文单词列表中的每个英文单词所分别对应的音素，进行上述输入文本的语音合成之后，处理器402通过运行存储在存储器401的上述计算机程序时还实现以下步骤：

在上述第二种可能的实施方式作为基础而提供的第三种可能的实施方式中，在上述将上述目标英文单词所对应的音素更新为上述用户语音转换所得的音素之后，处理器402通过运行存储在存储器401的上述计算机程序时还实现以下步骤：

将上述目标英文单词以及更新后的上述目标英文单词所对应的音素添加到上述单词前缀词典中，以实现上述单词前缀词典的更新。

在上述第一种可能的实施方式作为基础而提供的第四种可能的实施方式中，在上述基于预设的分词算法，对输入文本进行分词处理，获得中文词语列表及英文单词列表之后，处理器402通过运行存储在存储器401的上述计算机程序时还实现以下步骤：

基于上述输入文本对上述中文词语列表中的每个中文词语进行词性标注，获得每个中文词语的词性；

相应地，上述确定上述中文词语列表中的每个中文词语所分别对应的拼音，包括：

基于上述中文词语列表中的每个中文词语的词性，确定每个中文词语所分别对应的拼音。

在上述第一种可能的实施方式作为基础而提供的第五种可能的实施方式中，在上述基于预设的分词算法，对输入文本进行分词处理，获得中文词语列表及英文单词列表之前，处理器402通过运行存储在存储器401的上述计算机程序时实现以下步骤：

检测上述输入文本是否同时存在中文及英文；

在上述第一种可能的实施方式作为基础，或者上述第二种可能的实施方式作为基础，或者上述第三种可能的实施方式作为基础，或者上述第四种可能的实施方式作为基础，或者上述第五种可能的实施方式作为基础而提供的第六种可能的实施方式中，上述根据上述中文词语列表中的每个中文词语所分别对应的拼音，以及上述英文单词列表中的每个英文单词所分别对应的音素，进行上述输入文本的语音合成，包括：

根据上述中文词语列表中的每个中文词语所分别对应的拼音，以及上述英文单词列表中的每个英文单词所分别对应的音素，生成上述输入文本的发音列表；

将上述发音列表输入至预设的语音合成***，以指示上述语音合成***基于上述发音列表对上述输入文本进行语音合成。

应当理解，在本申请实施例中，所称处理器402可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器401可以包括只读存储器和随机存取存储器，并向处理器402提供指令和数据。存储器401的一部分或全部还可以包括非易失性随机存取存储器。例如，存储器401还可以存储设备类别的信息。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者外部设备软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的***实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关联的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读存储介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机可读存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括是电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，包括：

基于预设的分词算法，对输入文本进行分词处理，获得中文词语列表及英文单词列表，其中，所述中文词语列表包括组成所述输入文本的各个中文词语，所述英文单词列表包括组成所述输入文本的各个英文单词；

确定所述中文词语列表中的每个中文词语所分别对应的拼音；

基于预设的单词前缀词典查找所述英文单词列表中的每个英文单词所分别对应的音素，其中，所述单词前缀词典配置有至少一个英文单词及对应的音素；

若存在目标英文单词，则将所述目标英文单词输入至字素到音素模型，得到所述字素到音素模型输出的所述目标英文单词所对应的音素；

根据所述中文词语列表中的每个中文词语所分别对应的拼音，以及所述英文单词列表中的每个英文单词所分别对应的音素，进行所述输入文本的语音合成。

2.如权利要求1所述的语音合成方法，其特征在于，在所述根据所述中文词语列表中的每个中文词语所分别对应的拼音，以及所述英文单词列表中的每个英文单词所分别对应的音素，进行所述输入文本的语音合成之后，所述语音合成方法还包括：

若接收到用户基于所述目标英文单词所输入的用户语音，则将所述用户语音转换为音素；

将所述目标英文单词所对应的音素更新为所述用户语音转换所得的音素。

3.如权利要求2所述的语音合成方法，其特征在于，在所述将所述目标英文单词所对应的音素更新为所述用户语音转换所得的音素之后，所述语音合成方法还包括：

将所述目标英文单词以及更新后的所述目标英文单词所对应的音素添加到所述单词前缀词典中，以实现所述单词前缀词典的更新。

4.如权利要求1所述的语音合成方法，其特征在于，在所述基于预设的分词算法，对输入文本进行分词处理，获得中文词语列表及英文单词列表之后，所述语音合成方法还包括：

基于所述输入文本对所述中文词语列表中的每个中文词语进行词性标注，获得每个中文词语的词性；

相应地，所述确定所述中文词语列表中的每个中文词语所分别对应的拼音，包括：

基于所述中文词语列表中的每个中文词语的词性，确定每个中文词语所分别对应的拼音。

5.如权利要求1所述的语音合成方法，其特征在于，在所述基于预设的分词算法，对输入文本进行分词处理，获得中文词语列表及英文单词列表之前，所述语音合成方法还包括：

检测所述输入文本是否同时存在中文及英文；

若所述输入文本同时存在中文及英文，则加载所述单词前缀词典及所述字素到音素模型。

6.如权利要求1至5任一项所述的语音合成方法，其特征在于，所述根据所述中文词语列表中的每个中文词语所分别对应的拼音，以及所述英文单词列表中的每个英文单词所分别对应的音素，进行所述输入文本的语音合成，包括：

根据所述中文词语列表中的每个中文词语所分别对应的拼音，以及所述英文单词列表中的每个英文单词所分别对应的音素，生成所述输入文本的发音列表；

将所述发音列表输入至预设的语音合成***，以指示所述语音合成***基于所述发音列表对所述输入文本进行语音合成。

7.一种语音合成装置，其特征在于，包括：

文本分词单元，用于基于预设的分词算法，对输入文本进行分词处理，获得中文词语列表及英文单词列表，其中，所述中文词语列表包括组成所述输入文本的各个中文词语，所述英文单词列表包括组成所述输入文本的各个英文单词；

拼音确定单元，用于确定所述中文词语列表中的每个中文词语所分别对应的拼音；

第一音素确定单元，用于基于预设的单词前缀词典查找所述英文单词列表中的每个英文单词所分别对应的音素，其中，所述单词前缀词典配置有至少一个英文单词及对应的音素；

第二音素确定单元，用于若存在目标英文单词，则将所述目标英文单词输入至字素到音素模型，得到所述字素到音素模型输出的所述目标英文单词所对应的音素；

语音合成单元，用于根据所述中文词语列表中的每个中文词语所分别对应的拼音，以及所述英文单词列表中的每个英文单词所分别对应的音素，进行所述输入文本的语音合成。

8.如权利要求7所述的语音合成装置，其特征在于，所述语音合成装置还包括：

语音转换单元，用于在所述语音合成单元根据所述中文词语列表中的每个中文词语所分别对应的拼音，以及所述英文单词列表中的每个英文单词所分别对应的音素，进行所述输入文本的语音合成之后，若接收到用户基于所述目标英文单词所输入的用户语音，则将所述用户语音转换为音素；

音素更新单元，用于将所述目标英文单词所对应的音素更新为所述用户语音转换所得的音素。

9.一种智能设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。