CN113345408B

CN113345408B - 中英文语音混合合成方法、装置、电子设备和存储介质

Info

Publication number: CN113345408B
Application number: CN202110628882.6A
Authority: CN
Inventors: 孙见青; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2022-12-27
Anticipated expiration: 2041-06-02
Also published as: CN113345408A

Abstract

本发明涉及一种中英文语音混合合成方法、装置、电子设备和存储介质，该方法包括：获取待合成文本；判断待合成文本中中文文字的数量大于还是小于英文单词数量；若中文文字的数量大于所述英文单词数量，对人名和/或地名以及中文文本按照中文方式合成语音；若中文文字的数量小于英文单词数量，对人名和/或地名以及英文文本按照英文方式合成语音。本申请实施例中实现了将中文英文混合的文本合成语音，如将报纸上的中文英文混合的文本合成语音，即通过语音朗读出来，本申请实施例中通过比较中文文字的数量和英文单词数量多少，对人名和/或地名、中文文本和英文文本采取不同的语音合成方式，与现有技术中合成的语音相比更地道。

Description

中英文语音混合合成方法、装置、电子设备和存储介质

技术领域

本发明涉及语音处理技术领域，具体涉及一种中英文语音混合合成方法、装置、电子设备和存储介质。

背景技术

目前，合成中英文语音时，对合成文本进行解析，合成方法有两大类：用中文数据和英文数据分别构建中文合成模型和英文合成模型，中文部分用中文合成模型合成，英文部分用英文合成模型合成；用中文数据和英文数据构建模型，该模型同时支持中文合成和英文合成，中文部分和英文部分使用同一套模型合成。

但是，上述方法对于中英文混读合成中的人名和地名，如果按照现有方案进行合成，其发音不符合地道发音人的发音习惯，听起来不够地道。

发明内容

本发明提供一种中英文语音混合合成方法、装置、电子设备和存储介质，能够解决合成的中英文语音混合不地道的技术问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明实施例提供了一种中英文语音混合合成方法，包括：

获取待合成文本；

判断待合成文本中中文文字的数量大于还是小于英文单词数量；

若中文文字的数量大于所述英文单词数量，对人名和/或地名以及中文文本按照中文方式合成语音；

若中文文字的数量小于所述英文单词数量，对人名和/或地名以及英文文本按照英文方式合成语音。

在一些实施例中，按照中文方式合成语音，包括：

判断英文文本中是否包括人名和/或地名；

若判断结果为英文文本中包括所述人名和/或地名；

将人名和/或地名以及中文文本转换成国际音标输入到中文合成模型合成语音；以及将英文文本转换成国际音标输入到英文合成模型合成语音。

在一些实施例中，按照英文方式合成语音，包括：

判断中文文本中是否包括人名和/或地名；

若判断结果为中文文本中包括所述人名和/或地名；

将人名和/或地名以及英文文本转换成国际音标输入到英文合成模型合成语音；以及将中文文本转换成国际音标输入到中文合成模型合成语音。

在一些实施例中，中文合成模型的训练步骤如下：

获取多个中文文本国际音标以及语音对；

将多个中文文本国际音标作为输入，对应的语音作为输出进行训练得到中文合成模型。

在一些实施例中，英文合成模型的训练步骤如下：

获取多个英文文本国际音标以及语音对；

将多个英文文本国际音标作为输入，对应的语音作为输出进行训练得到英文合成模型。

在一些实施例中，判断中文文本中是否包括人名和/或地名是通过命名实体识别模型判断的。

在一些实施例中，判断英文文本中是否包括人名和/或地名是通过命名实体识别模型判断的。

第二方面，本发明实施例还提供了一种中英文语音混合合成装置，包括：

获取模块：用于获取待合成文本；

判断模块：用于判断待合成文本中中文文字的数量大于还是小于英文单词数量；

合成模块：用于若中文文字的数量大于所述英文单词数量，对人名和/或地名以及中文文本按照中文方式合成语音；若中文文字的数量小于所述英文单词数量，对人名和/或地名以及英文文本按照英文方式合成语音。

第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如上所述任一项所述中英文语音混合合成方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如上所述任一项所述中英文语音混合合成方法。

本发明的有益效果是：本发明涉及一种中英文语音混合合成方法、装置、电子设备和存储介质，该方法包括：获取待合成文本；判断待合成文本中中文文字的数量大于还是小于英文单词数量；若中文文字的数量大于所述英文单词数量，对人名和/或地名以及中文文本按照中文方式合成语音；若中文文字的数量小于英文单词数量，对人名和/或地名以及英文文本按照英文方式合成语音。本申请实施例中实现了将中文英文混合的文本合成语音，如将报纸上的中文英文混合的文本合成语音，即通过语音朗读出来，本申请实施例中通过比较中文文字的数量和英文单词数量多少，对人名和/或地名、中文文本和英文文本采取不同的语音合成方式，与现有技术中合成的语音相比更地道。

附图说明

图1为本发明实施例提供的一种中英文语音混合合成方法图之一；

图2为本发明实施例提供的一种中英文语音混合合成方法图之二；

图3为本发明实施例提供的一种中英文语音混合合成方法图之三；

图4为本发明实施例提供的一种中英文语音混合合成方法图之四；

图5为本发明实施例提供的一种中英文语音混合合成方法图之五；

图6为本发明实施例提供的一种中英文语音混合合成装置图；

图7为本发明实施例提供的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本申请的限定。基于所描述的本申请的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

图1为本发明实施例提供的中英文语音混合合成方法图之一。

第一方面，如图1所示，本发明实施例提供了一种中英文语音混合合成方法，包括如下S101、S102和S103三个步骤：

S101：获取待合成文本。

具体的，本申请实施例中的待合成文本可以是杂志、报纸上的中英文文本，即文本中不仅包括中文文本而且包括英文文本。示例性的，Chinese是中国的语言文学、Beijing是中国的首都和Lucy是美国人等。

S102：判断待合成文本中中文文字的数量大于还是小于英文单词数量。

具体的，本申请实施例中，待合成文本中不仅包括中文文本而且包括英文文本，应理解，通过比较待合成文本中中文文字的数量和英文单词的数量，来确定采取哪种方式对待合成的文本进行合成。

示例性的，“Chinese是中国的语言文学”，中文文字的数量为8个，英文单词的数量为1个；“Beijing是中国的首都”，中文文字的数量为6个，英文单词的数量为1个；“Lucy是美国人”，中文文字的数量为4个，英文单词的数量为1个；“李小龙，Nice to meet you”,中文文字的数量为3个，英文单词的数量为4个等等。

S103：若中文文字的数量大于英文单词数量，对人名和/或地名以及中文文本按照中文方式合成语音；若中文文字的数量小于所述英文单词数量，对人名和/或地名以及英文文本按照英文方式合成语音。

具体的，如“Beijing是中国的首都”，中文文字的数量为6个，英文单词的数量为1个，中文文字的数量大于英文单词数量，对“Beijing是中国的首都”均按照中文方式合成语音。

具体的，如“李小龙，Nice to meet you”,中文文字的数量为3个，英文单词的数量为4个,中文文字的数量小于英文单词数量,对“李小龙，Nice to meet you”均按照英文方式合成语音。

应理解，本申请实施例中实现了将中文英文混合的文本合成语音，如将报纸上的中文英文混合的文本合成语音，即通过语音朗读出来，本申请实施例中通过比较中文文字的数量和英文单词数量多少，对人名和/或地名、中文文本和英文文本采取不同的语音合成方式，与现有技术中合成的语音相比更地道。

图2为本发明实施例提供的中英文语音混合合成方法图之二。

在一些实施例中，如图2所示，按照中文方式合成语音，包括S201、S202和S203三个步骤：

S201：判断英文文本中是否包括人名和/或地名。

示例性的，“李小龙，Nice to meet you”,英文文本“Nice to meet you”中包括包不包括人名。

具体的，判断英文文本中是否包括人名和/或地名是通过命名实体识别模型判断的，命名实体识别模型用于识别出中文或英文中的人名和/或地名。

S202：若判断结果为英文文本中包括所述人名和/或地名。

示例性的，“李小龙，Nice to meet you”中判断结果为英文文本中不包括人名。

S203：将人名和/或地名以及中文文本转换成国际音标输入到英文合成模型合成语音；以及将英文文本转换成国际音标输入到英文合成模型合成语音。

示例性的，将中文文本“李小龙”转换成国际音标输入到英文合成模型合成语音；以及将“Nice to meet you”转换成国际音标输入到英文合成模型合成语音。

图3为本发明实施例提供的中英文语音混合合成方法图之三。

在一些实施例中，如图3所示，按照英文方式合成语音，包括：

S301：判断中文文本中是否包括人名和/或地名；

具体的，判断中文文本中是否包括人名和/或地名是通过命名实体识别模型判断的；命名实体识别模型用于识别出中文或英文中的人名和/或地名。

示例性的，“Lucy是美国人”，命名实体识别模型判断中文文本中包不包括人名。

S302：若判断结果为中文文本中包括所述人名和/或地名。

S303：将人名和/或地名、英文文本转换成国际音标输入到英文合成模型合成语音；以及将中文文本转换成国际音标输入到中文合成模型合成语音。

具体的，将英文文本“Lucy”输入到中文合成模型合成语音；以及将中文文本“是美国人”转换成国际音标输入到中文合成模型合成语音。

图4为本发明实施例提供的中英文语音混合合成方法图之四。

在一些实施例中，如图4所示，中文合成模型的训练步骤如下：

S401：获取多个中文文本国际音标以及语音对。

具体的，本申请实施例中有包含中文和英文数据的音库，从音库中获取多个中文文本国际音标以及语音对。

S402：将多个中文文本国际音标作为输入，对应的语音作为输出进行训练得到中文合成模型。

具体的，本申请实施例中使用中文文本对应的IPA(International PhoneticAlphabet，国际音标)作为输入、语音作为输出，训练得到中文合成模型。

图5为本发明实施例提供的中英文语音混合合成方法图之五。

在一些实施例中，英文合成模型的训练步骤如下：

S501：获取多个英文文本国际音标以及语音对。

具体的，本申请实施例中有包含中文和英文数据的音库，从音库中获取多个英文文本国际音标以及语音对。

S502：将多个英文文本国际音标作为输入，对应的语音作为输出进行训练得到英文合成模型。

具体的，本申请实施例中使用英文文本对应的IPA作为输入、语音作为输出，训练得到英文合成模型。

图6为本发明实施例提供的一种中英文语音混合合成装置图。

第二方面，如图6所示，本发明实施例还提供了一种中英文语音混合合成装置，包括：

获取模块601：用于获取待合成文本。

具体的，本申请实施例中获取模块601获取的待合成文本可以是杂志、报纸上的中英文文本，即文本中不仅包括中文文本而且包括英文文本。示例性的，“Chinese是中国的语言文学”、“Beijing是中国的首都”和“Lucy是美国人”等。

判断模块602：用于判断待合成文本中中文文字的数量大于还是小于英文单词数量。

具体的，本申请实施例中，待合成文本中不仅包括中文文本而且包括英文文本，应理解，通过判断模块602比较待合成文本中中文文字的数量和英文单词的数量，来确定采取哪种方式对待合成的文本进行合成。

示例性的，“Chinese是中国的语言文学”，中文文字的数量为8个，英文单词的数量为1个。“Beijing是中国的首都”，中文文字的数量为6个，英文单词的数量为1个。“Lucy是美国人”，中文文字的数量为4个，英文单词的数量为1个等等，“李小龙，Nice to meet you”,中文文字的数量为3个，英文单词的数量为4个等等。

合成模块603：用于若中文文字的数量大于所述英文单词数量，对人名和/或地名，中文文本按照中文方式合成语音；若中文文字的数量小于所述英文单词数量，对人名和/或地名，英文文本按照英文方式通过合成模块603合成语音。

具体的，如“Beijing是中国的首都”，中文文字的数量为6个，英文单词的数量为1个，中文文字的数量大于英文单词数量，对Beijing是中国的首都均按照中文方式通过合成模块603合成语音。

具体的，如“李小龙，Nice to meet you”,中文文字的数量为3个，英文单词的数量为4个,中文文字的数量小于英文单词数量,对李小龙，Nice to meet you均按照英文方式合成语音。

图7是本公开实施例提供的一种电子设备的示意性框图。

如图7所示，电子设备包括：至少一个处理器701、至少一个存储器702和至少一个通信接口703。电子设备中的各个组件通过总线***704耦合在一起。通信接口703，用于与外部设备之间的信息传输。可理解，总线***704用于实现这些组件之间的连接通信。总线***704除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图7中将各种总线都标为总线***704。

可以理解，本实施例中的存储器702可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器702存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作***和应用程序。

其中，操作***，包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例提供的中英文语音混合合成方法中任一方法的程序可以包含在应用程序中。

在本申请实施例中，处理器701通过调用存储器702存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器701用于执行本申请实施例提供的中英文语音混合合成各实施例的步骤。

获取待合成文本；

若中文文字的数量大于所述英文单词数量，对人名和/或地名，中文文本按照中文方式合成语音；

若中文文字的数量小于所述英文单词数量，对人名和/或地名，英文文本按照英文方式合成语音。

本申请实施例提供的中英文语音混合合成方法中任一方法可以应用于处理器701中，或者由处理器701实现。处理器701可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器701可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的中英文语音混合合成方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702，处理器701读取存储器702中的信息，结合其硬件完成中英文语音混合合成方法的步骤。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种中英文语音混合合成方法，其特征在于，包括：获取待合成文本；判断所述待合成文本中中文文字的数量大于还是小于英文单词数量；若所述中文文字的数量大于所述英文单词数量，对人名和/或地名以及中文文本按照中文方式合成语音；若所述中文文字的数量小于所述英文单词数量，对人名和/或地名以及英文文本按照英文方式合成语音。

2.根据权利要求1所述的中英文语音混合合成方法，其特征在于，所述按照中文方式合成语音，包括：判断英文文本中是否包括人名和/或地名；若判断结果为所述英文文本中包括所述人名和/或地名；将所述人名和/或地名以及中文文本转换成国际音标输入到中文合成模型合成语音；以及将所述英文文本转换成国际音标输入到英文合成模型合成语音。

3.根据权利要求1所述的中英文语音混合合成方法，其特征在于，所述按照英文方式合成语音，包括：判断中文文本中是否包括人名和/或地名；若判断结果为所述中文文本中包括所述人名和/或地名；将所述人名和/或地名以及英文文本转换成国际音标输入到英文合成模型合成语音；以及将所述中文文本转换成国际音标输入到中文合成模型合成语音。

4.根据权利要求2或3所述的中英文语音混合合成方法，其特征在于，所述中文合成模型的训练步骤如下：获取多个中文文本国际音标以及语音对；将所述多个中文文本国际音标作为输入，对应的语音作为输出进行训练得到中文合成模型。

5.根据权利要求2或3所述的中英文语音混合合成方法，其特征在于，所述英文合成模型的训练步骤如下：获取多个英文文本国际音标以及语音对；将所述多个英文文本国际音标作为输入，对应的语音作为输出进行训练得到英文合成模型。

6.根据权利要求2所述的中英文语音混合合成方法，其特征在于，所述判断英文文本中是否包括人名和/或地名是通过命名实体识别模型判断的。

7.根据权利要求3所述的中英文语音混合合成方法，其特征在于，所述判断中文文本中是否包括人名和/或地名是通过命名实体识别模型判断的。

8.一种中英文语音混合合成装置，其特征在于，包括：获取模块：用于获取待合成文本；判断模块：用于判断所述待合成文本中中文文字的数量大于还是小于英文单词数量；合成模块：用于若所述中文文字的数量大于所述英文单词数量，对人名和/或地名以及中文文本按照中文方式合成语音；若所述中文文字的数量小于所述英文单词数量，对人名和/或地名以及英文文本按照英文方式合成语音。

9.一种电子设备，其特征在于，包括：处理器和存储器；所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至7任一项所述一种中英文语音混合合成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至7任一项所述一种中英文语音混合合成方法。