CN106856091A

CN106856091A - 一种多语言文本的自动播报方法及***

Info

Publication number: CN106856091A
Application number: CN201611195723.7A
Authority: CN
Inventors: 原树旗; 雷宇
Original assignee: Beijing Intelligent Housekeeper Technology Co Ltd
Current assignee: Beijing Intelligent Housekeeper Technology Co Ltd
Priority date: 2016-12-21
Filing date: 2016-12-21
Publication date: 2017-06-16

Abstract

本发明公开了一种多语言文本的自动播报方法及***，该方法对待播报的多语言文本进行语种识别，分别获取多个语种对应的文字段；对各文字段的起始及结束点分别进行标识，得到所述语种标记；以及，根据所述语种标记分别对应调取各语种各自对应的声音播报模型，依次对各文字段进行播报。该***设有文字标识模块及语音播报模块。本发明智能且灵活，实现了对多语言文本的快速且准确的自动识别与播报，避免了识别多语言文本时可能遗漏的语种信息。

Description

一种多语言文本的自动播报方法及***

技术领域

本发明涉及语音转换技术领域，具体涉及一种多语言文本的自动播报方法及***。

背景技术

目前很多设备都会有TTS(Text to Speech，将文字转成声音进行播放)功能，文字转换成语音，一般都会用到专业的语音引擎，语音引擎会选择一个音色和特定的语音进行声音的训练，训练完成后，可以合成对应语言的音频。所以，一般特定的声音播报模型都对应特定的语言，如果合成的语言和声音播报模型不对应，可能会发声异常，或者无法发声。

鉴于此种情况，如果一段文字中既有中文又有英文，如果采用同一个声音播报模型，就会出现上述问题，所以必须来根据文字内容的不同，选择不同的声音播报模型。

而目前为了解决此问题，一般采用音频拼接的方法；首先采用中文声音播报模型将中文音频合成，再用英文声音播报模型合成英文的音频，最后拼接成一个音频。例如文字：“下一站是望京soho，请注意下车”。首先采用中文声音播报模型进行合成：“下一站是望京”，用英文声音播报模型进行合成：“soho”，用户中文声音播报模型进行合成：“请注意下车”，最后三个音频拼接成一个，但这种方法很不灵活，如果文字较多，则会造成工作量过大且拼接准确率低的缺陷。

发明内容

针对现有技术中的缺陷，本发明提供一种多语言文本的自动播报方法及***，该方法及***智能且灵活，实现了对多语言文本的快速且准确的自动识别与播报，避免了识别多语言文本时可能遗漏的语种信息。

为解决上述技术问题，本发明提供以下技术方案：

一方面，本发明提供了一种多语言文本的自动播报方法，包括：

对待播报的多语言文本进行语种识别，分别获取多个语种对应的文字段；

对各文字段的起始及结束点分别进行标识，得到所述语种标记；

以及，根据所述语种标记分别对应调取各语种各自对应的声音播报模型，依次对各文字段进行播报；

其中，所述语种标记包括当前文字段对应的语种及播报序号。

进一步的，所述分别获取多个语种对应的文字段时，包括：

利用预设识别策略对所述多语言文本进行语种识别，将所述多语言文本按语种划分为多个不同语种的文字段；

对各文字段的起始及结束点进行标识，且各标识均包括当前文字段对应的语种及播报序号。

进一步的，所述利用预设识别策略对所述多语言文本进行语种识别时，包括：

以所述多语言文本中的首字符为起点，依次过滤各字符，并在查找到与前一字符的字符规则不同的当前字符时，将当前字符确认为与前一字符不同的语种，并根据语言规则获取当前字符对应的语种；

在当前字符与前一字符之间标注前一字符的结束标识及当前字符的起始标识。

进一步的，所述根据语言规则获取当前字符对应的语种，包括：

在根据语言规则确定当前字符对应的语种为西文字符时，若根据拼音区别规则判断获知当前西文字符为汉语拼音，则将所述语种更新为汉语拼音字符；

其中，所述语言规则包括预设的各语种的编码规则，所述拼音区别规则包括拼音中的声母、韵母或二者的排列组合。

进一步的，所述根据所述语种标记分别对应调取各语种各自对应的声音播报模型时，包括：

根据所述多语言文本中对应的全部语种，分别调取所述全部语种各自对应的声音播报模型，

根据所述多语言文本中对应的语种标记所述声音播报模型分别输出各文字段各自对应的播报语音；

将所述播报语音分别按各语种标记中的播报序号依序进行合成，得到所述多语言文本对应的语音信息；

以及，将所述语音信息发送至播放中心进行播报。

进一步的，所述将所述播报语音按各标识中的播报序号依序进行合成，包括：

将所述各文字段对应的播报语音分别按语种各自存入对应的各映射表中；

将各所述映射表中对应的播报语音分别按所述播报序号依序进行合成，得到所述多语言文本对应的语音信息。

进一步的，所述方法还包括：

获取待播报的文字信息；

读取所述文字信息，并判断所述文字信息中的语种是否多于一种；

若是，则确定所述文字信息为多语言文本；

否则，直接调取所述文字信息对应的声音播报模型对所述文字信息进行播报。

另一方面，本发明还提供了一种多语言文本的自动播报***，包括：

文字标识模块，用于对待播报的多语言文本进行语种识别，分别获取多个不同语种对应的文字段，并对各文字段的起始及结束点分别进行标识，得到所述语种标记；

语音播报模块，用于根据所述语种标记分别对应调取各语种各自对应的声音播报模型，依次对各文字段进行播报；

其中，所述标识包括当前文字段对应的语种及播报序号。

进一步的，所述文字标识模块包括：

文字段划分单元，用于利用预设识别策略对所述多语言文本进行语种识别，将所述多语言文本按语种划分为多个不同语种的文字段；

文字段标识单元，用于对各文字段的起始及结束点进行标识，且各标识均包括当前文字段对应的语种及播报序号。

进一步的，所述语音播报模块包括：

文字段语音输出单元，用于根据所述多语言文本中对应的全部语种，分别调取所述全部语种各自对应的声音播报模型，根据所述多语言文本中对应语种标记所述声音播报模型分别输出各文字段各自对应的播报语音；

语音信息合成单元，用于将所述播报语音分别按各语种标记中的播报序号依序进行合成，得到所述多语言文本对应的语音信息；

语音信息发送单元，用于将所述语音信息发送至播放中心进行播报。

由上述技术方案可知，本发明所述的一种多语言文本的自动播报方法及***，该方法对待播报的多语言文本进行语种识别，分别获取多个语种对应的文字段；对各文字段的起始及结束点分别进行标识，得到所述语种标记；以及，根据所述语种标记分别对应调取各语种各自对应的声音播报模型，依次对各文字段进行播报；实现了对多语言文本的快速且准确的识别与播报，对多语言文本进行语种识别及标识的过程可靠且准确，避免了识别多语言文本时可能遗漏的语种的信息；实现了对多语言文本的自动播报，且各声音播报模型的应用灵活，并减少了人工的工作量，节约了时间成本；保证了合成过程的有序性及对单语言文本及多语言文本的区分，使得该方法更加智能且灵活。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一中的一种多语言文本的自动播报方法的一种具体实施方式的流程示意图；

图2是本发明实施例二中的自动播报方法中步骤100的一种具体实施例的流程示意图；

图3是本发明实施例三中的自动播报方法中步骤300的一种具体实施例的流程示意图；

图4是本发明实施例四中的自动播报方法中步骤303的一种具体实施例的流程示意图；

图5是本发明实施例五中的包括步骤A01至A04的自动播报方法的一种具体实施例的流程示意图；

图6是本发明实施例六中的一种多语言文本的自动播报***的一种具体实施方式的结构示意图；

图7是本发明实施例七中的自动播报***的文字标识模块10的一种具体实施方式的结构示意图；

图8是本发明实施例八中的自动播报***的语音播报模块20的一种具体实施方式的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例一提供了一种多语言文本的自动播报方法的一种具体实施方式。参见图1，该自动播报方法具体包括如下内容：

步骤100：对待播报的多语言文本进行语种识别，分别获取多个语种对应的文字段。

在步骤100中，在接收到待播报的文本为多语言文本时，若采用音频拼接的方法进行播报，则会有播放工作量过大且拼接准确率低的缺陷，因此，需要利用本发明的技术方案，首先获取该多语言文本中涉及的语种的种类，并根据多语言文本中的内容涉及到的语种，以每次出现语种的种类变换时的文本为分界点，将多语言文本划分为多个文字段，也就是说，相邻的文字段的语种不同。

步骤200：对各文字段的起始及结束点分别进行标识，得到所述语种标记。

在步骤200中，在划分得到的各文字段的起始及结束点进行标识，得到所述语种标记，且所述语种标记中至少包括当前文字段对应的语种及播报序号，还可以包括当前文字段所在章节或关键字等信息，以备在播报序号丢失或出现标号错误时，便于快速查找到其所在位置。

步骤300：根据所述语种标记分别对应调取各语种各自对应的声音播报模型，依次对各文字段进行播报。

在步骤300中，根据所述语种标记分别对应调取各语种对应的声音播报模型，其中的声音播报模型可以为专业的语音引擎，语音引擎会选择一个音色和特定的语音进行声音的训练，训练完成后，可以合成对应语言的音频；再使得声音播报模型按所述语种标记中的播报序号依次对各文字段进行播报。

从上述描述可知，本发明的实施例实现了根据文本信息的内容，自动选择及声音播报模型，实现了对多语言文本的快速且准确的识别与播报。

本发明实施例二提供了上述自动播报方法中步骤100的一种具体实施方式。参见图2，该步骤100具体包括如下内容：

步骤101：利用预设识别策略对所述多语言文本进行语种识别，将所述多语言文本按语种划分为多个不同语种的文字段。

在本步骤中，以所述多语言文本中的首字符为起点依次过滤各字符，并在查找到与前一字符的字符规则不同的当前字符时，将当前字符确认为与前一字符不同的语种并根据语言规则获取语种，并在当前字符与前一字符之间标注前一字符的结束标识及当前字符的起始标识，且其中的根据语言规则获取语种，包括：在根据语言规则确定当前字符语种为西文字符时，若根据拼音区别规则判断获知当前西文字符为汉语拼音，则将该西文字符的语种更新为汉语拼音字符；其中，所述语言规则包括预设的各类型语言的编码规则，所述拼音区别规则包括拼音中的声母、韵母或二者的排列组合。

步骤102：对各文字段的起始及结束点进行标识，且各标识均包括当前文字段对应的语种及播报序号。

在本步骤中，对各文字段的起始及结束点进行标识的方式可以为根据预设规则，利用计算机程序直接标识各文字段的起始及结束点，且所述预设规则可以为对同一语种的文字段依次进行编号或对全部语种的文字段均依次进行编号，得到所述语种标记，举例说明：若文字段的类型包括英文、中文及德文，且各文字段一次包括：“英文段1、中文段2、中文段3、中文段4、英文段5、德文段6、英文段7、德文段8、中文段9”；则这段文字段的语种标记可以为“E1、C1、C2、C3、E2、G1、E3、G2、C4”；也可以为“E1、C2、C3、C4、E5、G6、E7、G8、C9”，其中，E代表英文，C为中文，G为德文。从上述描述可知，本发明的实施例给出了对多语言文本进行语种识别及标识的具体过程，且该过程可靠且准确，避免了识别多语言文本时可能遗漏的语种的信息。

本发明实施例三提供了上述自动播报方法中步骤300的一种具体实施方式。参见图3，该步骤300具体包括如下内容：

步骤301：根据所述多语言文本中对应的全部语种，分别调取所述全部语种各自对应的声音播报模型。

在本步骤中，多个声音播报模型可由TTS合成引擎，例如，声音播报模型LILI支持中文，声音播报模型Allision支持英文；且TTS中比较有代表性为TTSUU(Text-to-SpeechUniversal Utility)的国产文本朗读软件，这个软件具有20级音调变声和20级语速调节能力，在朗读时能根据文本中的标点符号自动判断朗读停顿，也允许用户在文本的任意位置设置任意长的停顿时间，TTSUU软件能把文本导出成Wav和MP3文件，同时能导出相应的LRC以及SMI同步歌词字幕文件，还能录音并输出Wav和MP3文件。TTSUU软件能够通过切换语音引擎、重复朗读、放慢或者加快朗读速度、调高或者调低朗读音调等功能帮助学生学习外语，提供包括中、英、日、韩、德、法、西、葡、俄等近30个语音引擎。

步骤302：根据所述多语言文本中对应的语种标记所述声音播报模型分别输出各文字段各自对应的播报语音。

步骤303：将所述播报语音分别按各语种标记中的播报序号依序进行合成，得到所述多语言文本对应的语音信息。

步骤304：将所述语音信息发送至播放中心进行播报。

从上述描述可知，本发明的实施例通过各语种对应的声音播报模型，实现了对多语言文本的自动播报，且各声音播报模型的应用灵活，并减少了人工的工作量，节约了时间成本。

本发明实施例四提供了上述自动播报方法中步骤303的一种具体实施方式。参见图4，该步骤303具体包括如下内容：

步骤303a：将所述各文字段对应的播报语音分别按语种各自存入对应的各映射表中。

步骤303b：将各所述映射表中对应的播报语音分别按所述播报序号依序进行合成，得到所述多语言文本对应的语音信息。

从上述描述可知，本发明的实施例给出了将所述播报语音按各标识中的播报序号依序合成得到所述多语言文本的语音信息的具体过程，保证了合成过程的有序性。

本发明实施例五提供了上述自动播报方法中步骤100之前的步骤A01至A04的一种具体实施方式。参见图5，该步骤A01至A04具体包括如下内容：

步骤A01：获取待播报的文字信息。

步骤A02：读取所述文字信息，并判断该文字信息中的语种是否多于一种；若是，则进入步骤A03，否则进入步骤A04。

步骤A03：确定当前的文字信息为多语言文本。

步骤A04：直接调取所述文字信息对应的声音播报模型，使得该声音播报模型对所述文字信息进行播报。

从上述描述可知，本发明的实施例实现了对多语言文本的判断，保证了对单语言文本信息及多语言文本的区分，使得该方法更加智能且灵活。

为更进一步的说明本方案，本发明还提供一种多语言文本的自动播报方法的一种应用实例。该多语言文本的自动播报方法具体包括如下内容：

根据文字的内容，自动切换声音播报模型。如果一段话中既有中文又有英文，会根据文字内容，选择合适的声音播报模型，以实现正常的发声，具体包括：

1、过滤文本中的语言种类，通过正则等方式和文字的编码方式找出文本中所有类型的语言文字。

2、找出所有语言文字的开始位置和结束位置。

3、根据语言种类从发声库中获取到对应的声音播报模型列表。

4、根据每个语言的开始位置和结束位置，分离成多个文字段。

5、开始逐个播放文字段，每个文字段用对应的文字声音播报模型进行合成播放。

详细过程如下：

1、过滤文本中的语言种类，找出文本中所有类型的语言文字。一段文字中既有中文又有英文，还有拼音，筛选语言种类时，拼音虽然是英文字母，但是需要按照中文来处理，TTS的合成引擎会自动把拼音转换成中文文字来读。

例如以下文字：你好，我是机器人达萌dog，你可以叫我da meng。使用中文声音播报模型的片段有：你好，我是机器人达萌，你可以叫我da meng，使用英文声音播报模型的片段有：dog。

分离文本中的语言方法如下：中文，由于中文是利用Unicode编码(CJK统一汉字的编码区间：0x4e00–0x9fbb)，所以可以正则来做判断，根据编码区间，来判断这个字符是否是中文，英文，直接字母区间在A-Z或者a-z即可。

筛选英文完毕后，需要判断此英文是否是拼音，判断方法如下：由于拼音分为声母和韵母，部分韵母可以单独存在，有些韵母需要和声母配合到一起，认为是一个完整的拼音。所有把这些排列组合存入数据库，将筛选完毕的英文从数据库中匹配，如果匹配到，则认为是一个拼音，按照中文来处理。至此，语言种类筛选工作完毕。

2、查找各个语言的开始位置和结束位置。从第一个字符开始，逐个进行筛选，具体筛选规则按照第一步，如果本个字符规则和上一个不一致，则认为一个语言种类结束，记录此语言种类的开始位置和结束位置，不断按照此逻辑进行，直到最后一个字符。

依照此逻辑，可以找到所有语言片段的开始位置和结束位置，根据起始和结束位置，可以截取出每个语言的语言片段。

3、根据语言片段选择声音播报模型。TTS合成引擎，可以有多个类型的语音库，每个语音库对应的人声不同，可以支持的TTS语言也不一致，当***引入TTS合成引擎后，把当前引擎支持的所有语种和对应的TTS合成器对应关系进行映射，存储到映射表中。映射表是个本地存储文件，存储了各个TTS和对应的支持语言列表。例如，声音播报模型LILI支持中文，声音播报模型Allision支持英文，映射表的存储格式如下：

中文—>LILI

英文—>Allision

按照第二步，将一段文字拆分成多个片段，综合第一步和第二步，知道每个片段对应的是哪种类型的语言，然后从映射表中找到对应的合成器，进行合成，这样会合成多个语音的片段。

4、播放语音片段。播放中心负责播放合成的语音片段，按照步骤3，将所有的语言片段根据声音播报模型合成语音片段，送入播放中心，逐个播放，这样听起来就是一段完整的语音。

5、举例说明，例如机器人有一段自我介绍的文字说明如下：你好，我叫达萌，我有好多本领，也懂很多英文，早上好的英语发音是：Good morning。我是不是很厉害啊。

本实现方法中，可以直接把这段文字输入，当接到这一串文字后，会根据第一步，过滤文字中所有的语言种类，本例中拿中文和英文来说明，所有的中文汉字，计算机中统一采用Unicode编码(CJK统一汉字的编码区间：0x4e00–0x9fbb)，从第一个汉字开始过滤，看是否在这个编码的区间，如果在，则说明是中文，所有的英文，采用ASSIC编码方式，如果不在中文区间，则判断是否在英文的编码区间。

这样可以过滤出单个字符是中文还是英文字符。你好，我叫达萌，我有好多本领，也懂很多英文，早上好的英语发音是：Good morning。这句话，一直按照此规则，判断到“英语的发音是：”这里，都是中文的编码，当判断到G时，这个字符的编码不在汉字编码区间0x4e00–0x9fbb中，则冲ASSIC编码中寻找，可以找到，则认为是一个英文字符，继续寻找，一直寻找到d字符，发现d字符后面有空格，则说明一个英文区间结束，这个英文区间可能是一串拼音，也可能是一个英文单词，如果不是一个拼音，则按照英文单词来处理。拼音的规则可以按照声母和韵母的组合来判断，一个拼音组成为声母+韵母或者韵母，如果在这个组合之内，说明是拼音，否则认为是英文单词。如果是adfgc之类的，既不属于拼音，也不属于英文单词，可以按照英文单词来了处理，英文引擎会直接读成字母。通过第一步，可以确定出这句话中一共有两种语言，中文和英文。

确定完毕输入中的语言种类后，需要按照第二步，确认各个语言的起始位置和结束位置。根据第一步的规则，可以确认每个字符的对应的语言种类。“你好，我叫达萌，我有好多本领，也懂很多英文，早上好的英语发音是：Good morning。”从起始位置开始判断，“你”为中文，一直到“是”都是中文，下一个字符是“G”，不在中文编码库里，则可以截取出第一个片段是：“你好，我叫达萌，我有好多本领，也懂很多英文，早上好的英语发音是”，按照同样的方法，可以截取出英文的片段为“Good morning。”，第三个中文片段是：“我是不是很厉害啊。”

第二步确认出输入中一共有两种语种，从映射表中获取每个语种对应的声音播报模型，中文是LILI,英文是ALLISION，采用LILI合成音频“你好，我叫达萌，我有好多本领，也懂很多英文，早上好的英语发音是”，利用ALLISION合成音频“Good morning。”，利用LILI合成音频“我是不是很厉害啊。”

播放中心可以顺序播放各个音频片段，在第三步中合成了多个语音片段，将所有的语音片段顺序送入播放中心，最后听起来是一个音频效果：你好，我叫达萌，我有好多本领，也懂很多英文，早上好的英文发音是Good morning，我是不是很厉害啊。在用户听起来，前面中文是LILI发声，到英文时，自动切为ALLISION发声，最后一句中文由LILI发声。

从上述描述可知，本发明的应用例实现了对多语言文本的快速且准确的识别与播报，对多语言文本进行语种识别及标识的过程可靠且准确，避免了识别多语言文本时可能遗漏的语种的信息；实现了对多语言文本的自动播报，且各声音播报模型的应用灵活，并减少了人工的工作量，节约了时间成本；保证了合成过程的有序性及对单语言文本信息及多语言文本的区分，使得该方法更加智能且灵活。

本发明实施例六提供了一种多语言文本的自动播报***的一种具体实施方式。参见图6，该自动播报***具体包括如下内容：

文字标识模块10，用于对待播报文本信息进行语种识别，获取多个不同语种的文字段，并对各文字段的起始及结束点进行标识。

语音播报模块20，用于调取各语种对应的声音播报模型，使得所述声音播报模型根据所述多语言文本信息中对应的标识，依次对各文字段进行播报，其中，所述标识包括当前文字段对应的语种及播报序号。

本发明实施例七提供了上述自动播报***中的文字标识模块10的一种具体实施方式。参见图7，该文字标识模块10具体包括如下内容：

文字段划分单元11，用于利用预设识别策略对所述多语言文本信息进行语种识别，将所述多语言文本信息按语种划分为多个不同语种的文字段。

文字段标识单元12，用于对各文字段的起始及结束点进行标识，且各标识均包括当前文字段对应的语种及播报序号。

从上述描述可知，本发明的实施例给出了对多语言文本进行语种识别及标识的具体过程，且该过程可靠且准确，避免了识别多语言文本时可能遗漏的语种的信息。

本发明实施例八提供了上述自动播报***中的语音播报模块20的一种具体实施方式。参见图8，该语音播报模块20具体包括如下内容：

文字段语音输出单元21，用于根据当前多语言文字信息中对应的全部语种，调取所述全部语种对应的声音播报模型，使得所述声音播报模型根据所述多语言文本信息中对应的标识输出各文字段的播报语音。

语音信息合成单元22，用于将所述播报语音按各标识中的播报序号依序合成得到所述多语言文本信息的语音信息。

语音信息发送单元23，用于将所述多语言文本信息的语音信息发送至播放中心，使得所述播放中心对所述语音信息进行播报。

以上实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多语言文本的自动播报方法，其特征在于，包括：

2.根据权利要求1所述的播报方法，其特征在于，所述分别获取多个语种对应的文字段时，包括：

3.根据权利要求2所述的播报方法，其特征在于，所述利用预设识别策略对所述多语言文本进行语种识别时，包括：

4.根据权利要求3所述的播报方法，其特征在于，所述根据语言规则获取当前字符对应的语种，包括：

5.根据权利要求1所述的播报方法，其特征在于，所述根据所述语种标记分别对应调取各语种各自对应的声音播报模型时，包括：

以及，将所述语音信息发送至播放中心进行播报。

6.根据权利要求5所述的播报方法，其特征在于，所述将所述播报语音按各标识中的播报序号依序进行合成，包括：

7.根据权利要求1所述的播报方法，其特征在于，所述方法还包括：

获取待播报的文字信息；

若是，则确定所述文字信息为多语言文本；

8.一种多语言文本的自动播报***，其特征在于，包括：

其中，所述标识包括当前文字段对应的语种及播报序号。

9.根据权利要求8所述的播报***，其特征在于，所述文字标识模块包括：

10.根据权利要求8所述的播报***，其特征在于，所述语音播报模块包括：