CN104882139A

CN104882139A - 语音合成的方法和装置

Info

Publication number: CN104882139A
Application number: CN201510282063.5A
Authority: CN
Inventors: 李秀林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-05-28
Filing date: 2015-05-28
Publication date: 2015-09-02
Anticipated expiration: 2035-05-28
Also published as: CN104882139B

Abstract

本发明公开了一种语音合成的方法和装置，其中，语音合成的方法包括：S1、获取输入文本，并获取输入文本对应的输入类型；S2、根据输入类型确定纠错模型，并根据纠错模型对输入文本进行纠错处理；以及S3、将纠错后的输入文本合成为语音。本发明实施例的语音合成的方法和装置，通过获取输入文本，并获取输入文本对应的输入类型，根据输入类型确定纠错模型，并根据纠错模型对输入文本进行纠错处理，以及将纠错后的输入文本合成为语音，可利用纠错模型对输入文本进行纠错，提升了文本输入时的准确性，进而在语音合成时，生成的语音信息更加自然流畅，易于理解，符合语言习惯，最终提升用户使用体验。

Description

语音合成的方法和装置

技术领域

本发明涉及文语转换技术领域，尤其涉及一种语音合成的方法和装置。

背景技术

语音合成，又称文语转换技术，是一种能够将文字信息转化为语音并进行朗读的技术。随着科技的不断进步，语音合成的应用越来越广泛，如新闻与信息的播报、有声小说等。在日常生活中，也可通过语音合成，将短信、邮件等信息合成为语音，为用户多提供一种获取信息的方式。

目前，语音合成主要是将人工输入或OCR扫描获得的文字信息转换为语音。

但是，在获得文字信息时，可能会出现文字信息输入错误的情况。例如：文字录入人员在使用拼音输入法输入文字信息时，可能会产生拼写错误，也可能因为相同的拼音对应多个不同的汉字，造成文字信息选择错误。再例如：通过OCR扫描获得文字信息，由于汉字相似字过多，对文字进行识别时具有一定的误差，可能使获取的文字信息错误。进一步地，在语音合成时，对错误的文字信息直接进行转换，会导致输出的语音信息与应该输入的文字信息不一致，不易于理解，从而降低了语音信息接收用户的使用体验。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种语音合成的方法，该方法能够对输入文本进行纠错，进而在根据输入文本进行语音合成时，更加准确，使生成的语音信息自然流畅，易于理解。

本发明的第二个目的在于提出一种语音合成的装置。

为了实现上述目的，本发明第一方面实施例提出了一种语音合成的方法，包括：S1、获取输入文本，并获取所述输入文本对应的输入类型；S2、根据所述输入类型确定纠错模型，并根据所述纠错模型对所述输入文本进行纠错处理；以及S3、将纠错后的所述输入文本合成为语音。

本发明实施例的语音合成的方法，通过获取输入文本，并获取输入文本对应的输入类型，根据输入类型确定纠错模型，并根据纠错模型对输入文本进行纠错处理，以及将纠错后的输入文本合成为语音，可利用纠错模型对输入文本进行纠错，提升了文本输入时的准确性，进而在语音合成时，生成的语音信息更加自然流畅，易于理解，符合语言习惯，最终提升用户使用体验。

本发明第二方面实施例提出了一种语音合成的装置，包括：获取模块，用于获取输入文本，并获取所述输入文本对应的输入类型；纠错模块，用于根据所述输入类型确定纠错模型，并根据所述纠错模型对所述输入文本进行纠错处理；以及合成模块，用于将纠错后的所述输入文本合成为语音。

本发明实施例的语音合成的装置，通过获取输入文本，并获取输入文本对应的输入类型，根据输入类型确定纠错模型，并根据纠错模型对输入文本进行纠错处理，以及将纠错后的输入文本合成为语音，可利用纠错模型对输入文本进行纠错，提升了文本输入时的准确性，进而在语音合成时，生成的语音信息更加自然流畅，易于理解，符合语言习惯，最终提升用户使用体验。

附图说明

图1是根据本发明一个实施例的语音合成的方法的流程图。

图2是根据本发明一个具体实施例的语音合成的方法的流程图。

图3是根据本发明一个实施例的语音合成的装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的语音合成的方法和装置。

图1是根据本发明一个实施例的语音合成的方法的流程图。

如图1所示，语音合成的方法可包括：

S101，获取输入文本，并获取输入文本对应的输入类型。

其中，输入类型可包括拼音输入、五笔输入、OCR输入等。

举例来说，输入文本为“2015年3月全国平斤气温是5.8℃。”，对应的输入类型为拼音输入。

S102，根据输入类型确定纠错模型，并根据纠错模型对输入文本进行纠错处理。

在本发明的实施例中，可根据输入类型确定纠错模型。当输入类型为拼音输入时，可根据第一纠错模型对输入文本进行纠错处理，第一纠错模型是基于拼音序列数据训练得到的模型。当输入类型为五笔输入或OCR输入时，可根据第二纠错模型对输入文本进行纠错处理，第二纠错模型是基于字根序列数据训练得到的模型。其中，以上纠错模型可包括N-GRAM模型、HMM模型、CRF模型、深度神经网络模型中的一种。

具体地，当输入类型为拼音输入时，可将输入文本转换为拼音序列，然后对输入文本转换而成的拼音序列进行分词，生成多个拼音词组，再根据第一纠错模型获得与拼音词组对应的汉字词组及汉字词组的得分，最后对得分小于第一预设阈值的汉字词组进行纠错。更具体地，可获取得分小于第一预设阈值的汉字词组中每个汉字对应的声母，然后根据声母获得对应的多个待选汉字词组，再根据第一纠错模型获取得分最高的待选汉字词组，并将得分小于第一预设阈值的汉字词组替换为得分最高的待选汉字词组，从而完成对得分小于第一预设阈值的汉字词组的纠错。

举例来说，当输入类型为拼音输入时，可将输入文本为“2015年3月全国平斤气温是5.8℃。”转换为拼音序列“er ling yi wu nian san yue quan guo ping jin qi wen shi wu dian bashe shi du”，然后对该拼音序列进行分词，生成拼音词组“er ling yi wu nian”、“san yue”、“quan guo”、“ping”、“jin”、“qi wen”、“shi”、“wu dian ba”、“she shi du”。由于同一拼音可对应多个汉字，同一拼音词组可对应多个汉字词组，因此可获得以上拼音词组对应的汉字词组及汉字词组的得分。其中，汉字词组的得分可为拼音词组转换为汉字词组的概率值。“er ling yi wu nian”对应“二零一五年”且得分为0.95分，“san yue”对应“三月”且得分为0.9分，“quan guo”对应“全国”且得分为0.99，“ping”对应“平”且得分为0.3分，“jin”对应“斤”且得分为0.15分，“qi wen”对应“气温”且得分为0.88分，“shi”对应“是”且得分为0.75分，“wu dian ba”对应“五点八”且得分为0.67分，“she shi du”对应“摄氏度”且得分为0.99分。其中，“平”和“斤”的得分均小于第一预设阈值0.5分，因此需要对“平”和“斤”进行纠错。具体地，“平”的声母为“p”，“斤”的声母为“j”，根据“p”和“j”这两个声母，可获得多个待选汉字词组如“平均”、“评价”、“啤酒”等，此时可获取得分最高的“平均”这一汉字词组，替换掉“平”和“斤”。最后，获得纠错后的输入文本“二零一五年三月全国平均气温是五点八摄氏度。”。应当理解的是，分词步骤和转换成拼音序列的步骤没有严格的先后顺序，可根据实际应用进行设置，此处不做限定。

当输入类型为五笔输入或OCR输入时，可将输入文本转换为字根序列，然后将字根序列分为多个字根，并根据第二纠错模型获得与字根对应的得分，再对得分小于第二预设阈值的字根进行纠错。更具体地，可根据第二纠错模型获得与得分小于第二预设阈值的字根相似的待选字根以及待选字根的得分，再将得分最高的待选字根替换掉得分小于第二预设阈值的字根，从而完成对得分小于第二预设阈值的字根的纠错。

举例来说，当输入文本为OCR扫描获得时，原始文本“幼儿园”被误识别为“幻儿园”，故此时的输入文本为“幻儿园”。可将输入文本为“幻儿园”转换为字根序列，然后将字根序列分为“xnn”、“qtn”、“lfqv”三个字根，并获得“xnn”对应的得分为0.1分，“qtn”对应的得分为0.3分，“lfqv”对应的得分为0.55分。其中，“xnn”的得分小于第二预设阈值0.2分，则需要对字根“xnn”进行纠错，即对“幻”进行纠错。具体地，可获取多个与字根“xnn”相似的待选字根以及待选字根的得分，可获取得分最高的字根“xln”，即汉字“幼”。从而可将字根“xnn”替换为字根“xln”，即将汉字“幻”替换为汉字“幼”，最后获得纠错后的输入文本为“幼儿园”。

此外，在根据第一纠错模型对输入文本进行纠错处理和根据第二纠错模型对输入文本进行纠错处理之后，还可获得根据第一纠错模型纠错后的第一输入文本及其得分，以及获得根据第二纠错模型纠错后的第二输入文本及其得分，然后将第一输入文本和第二输入文本中得分高者，作为纠错后的输入文本。

本步骤的目的在于，在无法确认输入文本对应的输入类型时，可采用上述两种方式对输入文本分别进行纠错，然后获取其中得分高者，作为最终纠错后的输入文本，更加智能化。

S103，将纠错后的输入文本合成为语音。

具体地，可对纠错后的输入文本进行注音，生成拼音序列，然后对拼音序列进行结构分析，生成韵律层级信息，再根据声学模型将生成的韵律层级信息转换为如基频、谱等声学参数，最后将声学参数合成语音或者从语音库中获取对应的声学片段拼接为语音。

如图2所示，语音合成的方法可包括：

S201，对输入文本进行预处理，生成预处理结果。

具体地，输入文本为“2015年3月全国平斤气温是5.8℃”，对其进行预处理，获得的预处理结果为“二零一五年三月全国平斤气温是五点八摄氏度”。

S202，对预处理结果进行分词操作，生成多个词组。

对预处理结果“二零一五年三月全国平斤气温是五点八摄氏度”进行分词，获得词组“二零一五年”、“三月”、“全国”、“平”、“斤”、“气温”、“是”、“五点八”、“摄氏度”。

S203，对多个词组进行注音标注，生成多个拼音词组。

对上述词组进行注音标注，分别生成拼音词组“er ling yi wu nian”、“san yue”、“quan guo”、“ping”、“jin”、“qi wen”、“shi”、“wu dian ba”、“she shi du”。

S204，根据纠错模型获取拼音词组对应的汉字词组及其得分。

由于同一拼音词组可能对应多个汉字词组，因此可根据N-GRAM模型、HMM模型、CRF模型、深度神经网络模型等纠错模型，获得以上拼音词组对应的得分最高的汉字词组及该汉字词组的得分。其中，汉字词组的得分为拼音词组转换为该汉字词组的概率值。“erling yi wu nian”对应“二零一五年”且得分为0.95分，“san yue”对应“三月”且得分为0.9分，“quan guo”对应“全国”且得分为0.99，“ping”对应“平”且得分为0.3分，“jin”对应“斤”且得分为0.15分，“qi wen”对应“气温”且得分为0.88分，“shi”对应“是”且得分为0.75分，“wu dian ba”对应“五点八”且得分为0.67分，“she shidu”对应“摄氏度”且得分为0.99分。

S205，对得分低于预设阈值的汉字词组进行纠错。

其中，“平”和“斤”的得分均小于预设阈值0.5分，因此需要对“平”和“斤”进行纠错。具体地，“平”的声母为“p”，“斤”的声母为“j”，根据“p”和“j”这两个声母，可获得多个待选汉字词组如“平均”、“评价”、“啤酒”等，此时可根据N-GRAM模型、HMM模型、CRF模型、深度神经网络模型等纠错模型，获取得分最高的“平均”这一汉字词组，替换掉“平”和“斤”。

S206，生成纠错后的输入文本。

替换掉“平”和“斤”后，可生成纠错后的输入文本“二零一五年三月全国平均气温是五点八摄氏度。”。

S207，将纠错后的输入文本合成为语音。

具体地，可对纠错后的输入文本进行注音，生成拼音序列，然后对拼音序列进行结构分析，再根据声学模型将生成的韵律层级信息转换为如基频、谱等声学参数，最后将声学参数合成语音或者从语音库中获取对应的声学片段拼接为语音。

为实现上述目的，本发明还提出一种语音合成的装置。

如图3所示，该语音合成的装置可包括：获取模块110、纠错模块120以及合成模块130。其中，纠错模块120可包括第一纠错单元121和第二纠错单元122。

获取模块110用于获取输入文本，并获取输入文本对应的输入类型。

其中，输入类型可包括拼音输入、五笔输入、OCR输入等。

纠错模块120用于根据输入类型确定纠错模型，并根据纠错模型对输入文本进行纠错处理。具体地，纠错模块120可包括第一纠错单元121和第二纠错单元122。

当输入类型为拼音输入时，第一纠错单元121可根据第一纠错模型对输入文本进行纠错处理，第一纠错模型是基于拼音序列数据训练得到的模型。具体地，第一纠错单元121可将输入文本转换为拼音序列，然后对输入文本转换而成的拼音序列进行分词，生成多个拼音词组，再根据第一纠错模型获得与拼音词组对应的汉字词组及汉字词组的得分，最后对得分小于第一预设阈值的汉字词组进行纠错。更具体地，可获取得分小于第一预设阈值的汉字词组中每个汉字对应的声母，然后根据声母获得对应的多个待选汉字词组，再根据第一纠错模型获取得分最高的待选汉字词组，并将得分小于第一预设阈值的汉字词组替换为得分最高的待选汉字词组，从而完成对得分小于第一预设阈值的汉字词组的纠错。

当输入类型为五笔输入或OCR输入时，第二纠错单元122可根据第二纠错模型对输入文本进行纠错处理，第二纠错模型是基于字根序列数据训练得到的模型。具体地，第二纠错单元122可将输入文本转换为字根序列，然后将字根序列分为多个字根，并根据第二纠错模型获得与字根对应的得分，再对得分小于第二预设阈值的字根进行纠错。更具体地，可根据第二纠错模型获得与得分小于第二预设阈值的字根相似的待选字根以及待选字根的得分，再将得分最高的待选字根替换掉得分小于第二预设阈值的字根，从而完成对得分小于第二预设阈值的字根的纠错。

应当理解的是，以上纠错模型可包括N-GRAM模型、HMM模型、CRF模型、深度神经网络模型中的一种。

此外，本发明实施例的语音合成的装置的纠错模块120还可包括第三纠错单元123。

在第一纠错单元121根据第一纠错模型对输入文本进行纠错处理和第二纠错单元122根据第二纠错模型对输入文本进行纠错处理之后，第三纠错单元123可获得根据第一纠错模型纠错后的第一输入文本及其得分，以及获得根据第二纠错模型纠错后的第二输入文本及其得分，然后将第一输入文本和第二输入文本中得分高者，作为纠错后的输入文本。

第三纠错单元123的作用在于，在无法确认输入文本对应的输入类型时，可同时采用两种方式对输入文本分别进行纠错，然后获取其中得分高者，作为最终纠错后的输入文本，更加智能化。

合成模块130用于将纠错后的输入文本合成为语音。

具体地，合成模块130可对纠错后的输入文本进行注音，生成拼音序列，然后对拼音序列进行结构分析，生成韵律层级信息，再根据声学模型将生成的韵律层级信息转换为如基频、谱等声学参数，最后将声学参数合成语音或者从语音库中获取对应的声学片段拼接为语音。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音合成的方法，其特征在于，包括以下步骤：

S1、获取输入文本，并获取所述输入文本对应的输入类型；

S2、根据所述输入类型确定纠错模型，并根据所述纠错模型对所述输入文本进行纠错处理；以及

S3、将纠错后的所述输入文本合成为语音。

2.如权利要求1所述的方法，其特征在于，所述输入类型包括拼音输入、五笔输入以及OCR输入中的一种。

3.如权利要求1或2所述的方法，其特征在于，所述步骤S2，包括：

当所述输入类型为所述拼音输入时，根据第一纠错模型对所述输入文本进行纠错处理；或者

当所述输入类型为所述五笔输入或所述OCR输入时，根据第二纠错模型对所述输入文本进行纠错处理。

4.如权利要求3所述的方法，其特征在于，所述根据第一纠错模型对所述输入文本进行纠错处理，包括：

将所述输入文本转换为拼音序列，对所述拼音序列进行分词，以生成多个拼音词组，并根据所述第一纠错模型获得与所述拼音词组对应的汉字词组及所述汉字词组的得分，以及对所述得分小于第一预设阈值的所述汉字词组进行纠错。

5.如权利要求4所述的方法，其特征在于，所述对所述得分小于第一预设阈值的所述汉字词组进行纠错，具体包括：

获取得分小于第一预设阈值的所述汉字词组中每个汉字对应的声母，并根据所述声母获得对应的多个待选汉字词组，以及根据所述第一纠错模型获取得分最高的所述待选汉字词组，并将所述得分小于第一预设阈值的所述汉字词组替换为得分最高的所述待选汉字词组。

6.如权利要求3所述的方法，其特征在于，所述根据第二纠错模型对所述输入文本进行纠错处理，包括：

将所述输入文本转换为字根序列，将所述字根序列分为多个字根，并根据所述第二纠错模型获得与所述字根对应的得分，以及对所述得分小于第二预设阈值的所述字根进行纠错。

7.如权利要求3所述的方法，其特征在于，在所述根据第一纠错模型对所述输入文本进行纠错处理和所述根据第二纠错模型对所述输入文本进行纠错处理之后，还包括：

获得根据所述第一纠错模型纠错后的第一输入文本及其得分；

获得根据所述第二纠错模型纠错后的第二输入文本及其得分；

将所述第一输入文本和所述第二输入文本中得分高者，作为纠错后的所述输入文本。

8.如权利要求1-7所述的方法，其特征在于，所述纠错模型包括N-GRAM模型、HMM模型、CRF模型、深度神经网络模型中的一种。

9.一种语音合成的装置，其特征在于，包括：

获取模块，用于获取输入文本，并获取所述输入文本对应的输入类型；

纠错模块，用于根据所述输入类型确定纠错模型，并根据所述纠错模型对所述输入文本进行纠错处理；以及

合成模块，用于将纠错后的所述输入文本合成为语音。

10.如权利要求9所述的装置，其特征在于，所述输入类型包括拼音输入、五笔输入以及OCR输入中的一种。

11.如权利要求9或10所述的装置，其特征在于，所述纠错模块，具体包括：

第一纠错单元，用于当所述输入类型为所述拼音输入时，根据第一纠错模型对所述输入文本进行纠错处理；

第二纠错单元，用于当所述输入类型为所述五笔输入或所述OCR输入时，根据第二纠错模型对所述输入文本进行纠错处理。

12.如权利要求11所述的装置，其特征在于，所述第一纠错单元，具体用于：

13.如权利要求12所述的装置，其特征在于，所述第一纠错单元，具体用于：

获取得分小于第一预设阈值的所述汉字词组中每个汉字对应的声母，并根据所述声母获得对应的多个待选汉字词组，以及根据所述纠错模型获取得分最高的所述待选汉字词组，并将所述得分小于第一预设阈值的所述汉字词组替换为得分最高的所述待选汉字词组。

14.如权利要求11所述的装置，其特征在于，所述第二纠错单元，具体用于：

15.如权利要求11所述的装置，其特征在于，所述纠错模块，还包括：

第三纠错单元，用于在所述根据第一纠错模型对所述输入文本进行纠错处理和所述根据第二纠错模型对所述输入文本进行纠错处理之后，获得根据所述第一纠错模型纠错后的第一输入文本及其得分，并获得根据所述第二纠错模型纠错后的第二输入文本及其得分，以及将所述第一输入文本和所述第二输入文本中得分高者，作为纠错后的所述输入文本。

16.如权利要求9-15所述的装置，其特征在于，所述纠错模型包括N-GRAM模型、HMM模型、CRF模型、深度神经网络模型中的一种。