CN104882139A - 语音合成的方法和装置 - Google Patents

语音合成的方法和装置 Download PDF

Info

Publication number
CN104882139A
CN104882139A CN201510282063.5A CN201510282063A CN104882139A CN 104882139 A CN104882139 A CN 104882139A CN 201510282063 A CN201510282063 A CN 201510282063A CN 104882139 A CN104882139 A CN 104882139A
Authority
CN
China
Prior art keywords
input text
score
error correcting
input
correcting model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510282063.5A
Other languages
English (en)
Other versions
CN104882139B (zh
Inventor
李秀林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510282063.5A priority Critical patent/CN104882139B/zh
Publication of CN104882139A publication Critical patent/CN104882139A/zh
Application granted granted Critical
Publication of CN104882139B publication Critical patent/CN104882139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种语音合成的方法和装置,其中,语音合成的方法包括:S1、获取输入文本,并获取输入文本对应的输入类型;S2、根据输入类型确定纠错模型,并根据纠错模型对输入文本进行纠错处理;以及S3、将纠错后的输入文本合成为语音。本发明实施例的语音合成的方法和装置,通过获取输入文本,并获取输入文本对应的输入类型,根据输入类型确定纠错模型,并根据纠错模型对输入文本进行纠错处理,以及将纠错后的输入文本合成为语音,可利用纠错模型对输入文本进行纠错,提升了文本输入时的准确性,进而在语音合成时,生成的语音信息更加自然流畅,易于理解,符合语言习惯,最终提升用户使用体验。

Description

语音合成的方法和装置
技术领域
本发明涉及文语转换技术领域,尤其涉及一种语音合成的方法和装置。
背景技术
语音合成,又称文语转换技术,是一种能够将文字信息转化为语音并进行朗读的技术。随着科技的不断进步,语音合成的应用越来越广泛,如新闻与信息的播报、有声小说等。在日常生活中,也可通过语音合成,将短信、邮件等信息合成为语音,为用户多提供一种获取信息的方式。
目前,语音合成主要是将人工输入或OCR扫描获得的文字信息转换为语音。
但是,在获得文字信息时,可能会出现文字信息输入错误的情况。例如:文字录入人员在使用拼音输入法输入文字信息时,可能会产生拼写错误,也可能因为相同的拼音对应多个不同的汉字,造成文字信息选择错误。再例如:通过OCR扫描获得文字信息,由于汉字相似字过多,对文字进行识别时具有一定的误差,可能使获取的文字信息错误。进一步地,在语音合成时,对错误的文字信息直接进行转换,会导致输出的语音信息与应该输入的文字信息不一致,不易于理解,从而降低了语音信息接收用户的使用体验。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种语音合成的方法,该方法能够对输入文本进行纠错,进而在根据输入文本进行语音合成时,更加准确,使生成的语音信息自然流畅,易于理解。
本发明的第二个目的在于提出一种语音合成的装置。
为了实现上述目的,本发明第一方面实施例提出了一种语音合成的方法,包括:S1、获取输入文本,并获取所述输入文本对应的输入类型;S2、根据所述输入类型确定纠错模型,并根据所述纠错模型对所述输入文本进行纠错处理;以及S3、将纠错后的所述输入文本合成为语音。
本发明实施例的语音合成的方法,通过获取输入文本,并获取输入文本对应的输入类型,根据输入类型确定纠错模型,并根据纠错模型对输入文本进行纠错处理,以及将纠错后的输入文本合成为语音,可利用纠错模型对输入文本进行纠错,提升了文本输入时的准确性,进而在语音合成时,生成的语音信息更加自然流畅,易于理解,符合语言习惯,最终提升用户使用体验。
本发明第二方面实施例提出了一种语音合成的装置,包括:获取模块,用于获取输入文本,并获取所述输入文本对应的输入类型;纠错模块,用于根据所述输入类型确定纠错模型,并根据所述纠错模型对所述输入文本进行纠错处理;以及合成模块,用于将纠错后的所述输入文本合成为语音。
本发明实施例的语音合成的装置,通过获取输入文本,并获取输入文本对应的输入类型,根据输入类型确定纠错模型,并根据纠错模型对输入文本进行纠错处理,以及将纠错后的输入文本合成为语音,可利用纠错模型对输入文本进行纠错,提升了文本输入时的准确性,进而在语音合成时,生成的语音信息更加自然流畅,易于理解,符合语言习惯,最终提升用户使用体验。
附图说明
图1是根据本发明一个实施例的语音合成的方法的流程图。
图2是根据本发明一个具体实施例的语音合成的方法的流程图。
图3是根据本发明一个实施例的语音合成的装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的语音合成的方法和装置。
图1是根据本发明一个实施例的语音合成的方法的流程图。
如图1所示,语音合成的方法可包括:
S101,获取输入文本,并获取输入文本对应的输入类型。
其中,输入类型可包括拼音输入、五笔输入、OCR输入等。
举例来说,输入文本为“2015年3月全国平斤气温是5.8℃。”,对应的输入类型为拼音输入。
S102,根据输入类型确定纠错模型,并根据纠错模型对输入文本进行纠错处理。
在本发明的实施例中,可根据输入类型确定纠错模型。当输入类型为拼音输入时,可根据第一纠错模型对输入文本进行纠错处理,第一纠错模型是基于拼音序列数据训练得到的模型。当输入类型为五笔输入或OCR输入时,可根据第二纠错模型对输入文本进行纠错处理,第二纠错模型是基于字根序列数据训练得到的模型。其中,以上纠错模型可包括N-GRAM模型、HMM模型、CRF模型、深度神经网络模型中的一种。
具体地,当输入类型为拼音输入时,可将输入文本转换为拼音序列,然后对输入文本转换而成的拼音序列进行分词,生成多个拼音词组,再根据第一纠错模型获得与拼音词组对应的汉字词组及汉字词组的得分,最后对得分小于第一预设阈值的汉字词组进行纠错。更具体地,可获取得分小于第一预设阈值的汉字词组中每个汉字对应的声母,然后根据声母获得对应的多个待选汉字词组,再根据第一纠错模型获取得分最高的待选汉字词组,并将得分小于第一预设阈值的汉字词组替换为得分最高的待选汉字词组,从而完成对得分小于第一预设阈值的汉字词组的纠错。
举例来说,当输入类型为拼音输入时,可将输入文本为“2015年3月全国平斤气温是5.8℃。”转换为拼音序列“er ling yi wu nian san yue quan guo ping jin qi wen shi wu dian bashe shi du”,然后对该拼音序列进行分词,生成拼音词组“er ling yi wu nian”、“san yue”、“quan guo”、“ping”、“jin”、“qi wen”、“shi”、“wu dian ba”、“she shi du”。由于同一拼音可对应多个汉字,同一拼音词组可对应多个汉字词组,因此可获得以上拼音词组对应的汉字词组及汉字词组的得分。其中,汉字词组的得分可为拼音词组转换为汉字词组的概率值。“er ling yi wu nian”对应“二零一五年”且得分为0.95分,“san yue”对应“三月”且得分为0.9分,“quan guo”对应“全国”且得分为0.99,“ping”对应“平”且得分为0.3分,“jin”对应“斤”且得分为0.15分,“qi wen”对应“气温”且得分为0.88分,“shi”对应“是”且得分为0.75分,“wu dian ba”对应“五点八”且得分为0.67分,“she shi du”对应“摄氏度”且得分为0.99分。其中,“平”和“斤”的得分均小于第一预设阈值0.5分,因此需要对“平”和“斤”进行纠错。具体地,“平”的声母为“p”,“斤”的声母为“j”,根据“p”和“j”这两个声母,可获得多个待选汉字词组如“平均”、“评价”、“啤酒”等,此时可获取得分最高的“平均”这一汉字词组,替换掉“平”和“斤”。最后,获得纠错后的输入文本“二零一五年三月全国平均气温是五点八摄氏度。”。应当理解的是,分词步骤和转换成拼音序列的步骤没有严格的先后顺序,可根据实际应用进行设置,此处不做限定。
当输入类型为五笔输入或OCR输入时,可将输入文本转换为字根序列,然后将字根序列分为多个字根,并根据第二纠错模型获得与字根对应的得分,再对得分小于第二预设阈值的字根进行纠错。更具体地,可根据第二纠错模型获得与得分小于第二预设阈值的字根相似的待选字根以及待选字根的得分,再将得分最高的待选字根替换掉得分小于第二预设阈值的字根,从而完成对得分小于第二预设阈值的字根的纠错。
举例来说,当输入文本为OCR扫描获得时,原始文本“幼儿园”被误识别为“幻儿园”,故此时的输入文本为“幻儿园”。可将输入文本为“幻儿园”转换为字根序列,然后将字根序列分为“xnn”、“qtn”、“lfqv”三个字根,并获得“xnn”对应的得分为0.1分,“qtn”对应的得分为0.3分,“lfqv”对应的得分为0.55分。其中,“xnn”的得分小于第二预设阈值0.2分,则需要对字根“xnn”进行纠错,即对“幻”进行纠错。具体地,可获取多个与字根“xnn”相似的待选字根以及待选字根的得分,可获取得分最高的字根“xln”,即汉字“幼”。从而可将字根“xnn”替换为字根“xln”,即将汉字“幻”替换为汉字“幼”,最后获得纠错后的输入文本为“幼儿园”。
此外,在根据第一纠错模型对输入文本进行纠错处理和根据第二纠错模型对输入文本进行纠错处理之后,还可获得根据第一纠错模型纠错后的第一输入文本及其得分,以及获得根据第二纠错模型纠错后的第二输入文本及其得分,然后将第一输入文本和第二输入文本中得分高者,作为纠错后的输入文本。
本步骤的目的在于,在无法确认输入文本对应的输入类型时,可采用上述两种方式对输入文本分别进行纠错,然后获取其中得分高者,作为最终纠错后的输入文本,更加智能化。
S103,将纠错后的输入文本合成为语音。
具体地,可对纠错后的输入文本进行注音,生成拼音序列,然后对拼音序列进行结构分析,生成韵律层级信息,再根据声学模型将生成的韵律层级信息转换为如基频、谱等声学参数,最后将声学参数合成语音或者从语音库中获取对应的声学片段拼接为语音。
本发明实施例的语音合成的方法,通过获取输入文本,并获取输入文本对应的输入类型,根据输入类型确定纠错模型,并根据纠错模型对输入文本进行纠错处理,以及将纠错后的输入文本合成为语音,可利用纠错模型对输入文本进行纠错,提升了文本输入时的准确性,进而在语音合成时,生成的语音信息更加自然流畅,易于理解,符合语言习惯,最终提升用户使用体验。
图2是根据本发明一个具体实施例的语音合成的方法的流程图。
如图2所示,语音合成的方法可包括:
S201,对输入文本进行预处理,生成预处理结果。
具体地,输入文本为“2015年3月全国平斤气温是5.8℃”,对其进行预处理,获得的预处理结果为“二零一五年三月全国平斤气温是五点八摄氏度”。
S202,对预处理结果进行分词操作,生成多个词组。
对预处理结果“二零一五年三月全国平斤气温是五点八摄氏度”进行分词,获得词组“二零一五年”、“三月”、“全国”、“平”、“斤”、“气温”、“是”、“五点八”、“摄氏度”。
S203,对多个词组进行注音标注,生成多个拼音词组。
对上述词组进行注音标注,分别生成拼音词组“er ling yi wu nian”、“san yue”、“quan guo”、“ping”、“jin”、“qi wen”、“shi”、“wu dian ba”、“she shi du”。
S204,根据纠错模型获取拼音词组对应的汉字词组及其得分。
由于同一拼音词组可能对应多个汉字词组,因此可根据N-GRAM模型、HMM模型、CRF模型、深度神经网络模型等纠错模型,获得以上拼音词组对应的得分最高的汉字词组及该汉字词组的得分。其中,汉字词组的得分为拼音词组转换为该汉字词组的概率值。“erling yi wu nian”对应“二零一五年”且得分为0.95分,“san yue”对应“三月”且得分为0.9分,“quan guo”对应“全国”且得分为0.99,“ping”对应“平”且得分为0.3分,“jin”对应“斤”且得分为0.15分,“qi wen”对应“气温”且得分为0.88分,“shi”对应“是”且得分为0.75分,“wu dian ba”对应“五点八”且得分为0.67分,“she shidu”对应“摄氏度”且得分为0.99分。
S205,对得分低于预设阈值的汉字词组进行纠错。
其中,“平”和“斤”的得分均小于预设阈值0.5分,因此需要对“平”和“斤”进行纠错。具体地,“平”的声母为“p”,“斤”的声母为“j”,根据“p”和“j”这两个声母,可获得多个待选汉字词组如“平均”、“评价”、“啤酒”等,此时可根据N-GRAM模型、HMM模型、CRF模型、深度神经网络模型等纠错模型,获取得分最高的“平均”这一汉字词组,替换掉“平”和“斤”。
S206,生成纠错后的输入文本。
替换掉“平”和“斤”后,可生成纠错后的输入文本“二零一五年三月全国平均气温是五点八摄氏度。”。
S207,将纠错后的输入文本合成为语音。
具体地,可对纠错后的输入文本进行注音,生成拼音序列,然后对拼音序列进行结构分析,再根据声学模型将生成的韵律层级信息转换为如基频、谱等声学参数,最后将声学参数合成语音或者从语音库中获取对应的声学片段拼接为语音。
本发明实施例的语音合成的方法,通过获取输入文本,并获取输入文本对应的输入类型,根据输入类型确定纠错模型,并根据纠错模型对输入文本进行纠错处理,以及将纠错后的输入文本合成为语音,可利用纠错模型对输入文本进行纠错,提升了文本输入时的准确性,进而在语音合成时,生成的语音信息更加自然流畅,易于理解,符合语言习惯,最终提升用户使用体验。
为实现上述目的,本发明还提出一种语音合成的装置。
图3是根据本发明一个实施例的语音合成的装置的结构示意图。
如图3所示,该语音合成的装置可包括:获取模块110、纠错模块120以及合成模块130。其中,纠错模块120可包括第一纠错单元121和第二纠错单元122。
获取模块110用于获取输入文本,并获取输入文本对应的输入类型。
其中,输入类型可包括拼音输入、五笔输入、OCR输入等。
举例来说,输入文本为“2015年3月全国平斤气温是5.8℃。”,对应的输入类型为拼音输入。
纠错模块120用于根据输入类型确定纠错模型,并根据纠错模型对输入文本进行纠错处理。具体地,纠错模块120可包括第一纠错单元121和第二纠错单元122。
当输入类型为拼音输入时,第一纠错单元121可根据第一纠错模型对输入文本进行纠错处理,第一纠错模型是基于拼音序列数据训练得到的模型。具体地,第一纠错单元121可将输入文本转换为拼音序列,然后对输入文本转换而成的拼音序列进行分词,生成多个拼音词组,再根据第一纠错模型获得与拼音词组对应的汉字词组及汉字词组的得分,最后对得分小于第一预设阈值的汉字词组进行纠错。更具体地,可获取得分小于第一预设阈值的汉字词组中每个汉字对应的声母,然后根据声母获得对应的多个待选汉字词组,再根据第一纠错模型获取得分最高的待选汉字词组,并将得分小于第一预设阈值的汉字词组替换为得分最高的待选汉字词组,从而完成对得分小于第一预设阈值的汉字词组的纠错。
举例来说,当输入类型为拼音输入时,可将输入文本为“2015年3月全国平斤气温是5.8℃。”转换为拼音序列“er ling yi wu nian san yue quan guo ping jin qi wen shi wu dian bashe shi du”,然后对该拼音序列进行分词,生成拼音词组“er ling yi wu nian”、“san yue”、“quan guo”、“ping”、“jin”、“qi wen”、“shi”、“wu dian ba”、“she shi du”。由于同一拼音可对应多个汉字,同一拼音词组可对应多个汉字词组,因此可获得以上拼音词组对应的汉字词组及汉字词组的得分。其中,汉字词组的得分可为拼音词组转换为汉字词组的概率值。“er ling yi wu nian”对应“二零一五年”且得分为0.95分,“san yue”对应“三月”且得分为0.9分,“quan guo”对应“全国”且得分为0.99,“ping”对应“平”且得分为0.3分,“jin”对应“斤”且得分为0.15分,“qi wen”对应“气温”且得分为0.88分,“shi”对应“是”且得分为0.75分,“wu dian ba”对应“五点八”且得分为0.67分,“she shi du”对应“摄氏度”且得分为0.99分。其中,“平”和“斤”的得分均小于第一预设阈值0.5分,因此需要对“平”和“斤”进行纠错。具体地,“平”的声母为“p”,“斤”的声母为“j”,根据“p”和“j”这两个声母,可获得多个待选汉字词组如“平均”、“评价”、“啤酒”等,此时可获取得分最高的“平均”这一汉字词组,替换掉“平”和“斤”。最后,获得纠错后的输入文本“二零一五年三月全国平均气温是五点八摄氏度。”。应当理解的是,分词步骤和转换成拼音序列的步骤没有严格的先后顺序,可根据实际应用进行设置,此处不做限定。
当输入类型为五笔输入或OCR输入时,第二纠错单元122可根据第二纠错模型对输入文本进行纠错处理,第二纠错模型是基于字根序列数据训练得到的模型。具体地,第二纠错单元122可将输入文本转换为字根序列,然后将字根序列分为多个字根,并根据第二纠错模型获得与字根对应的得分,再对得分小于第二预设阈值的字根进行纠错。更具体地,可根据第二纠错模型获得与得分小于第二预设阈值的字根相似的待选字根以及待选字根的得分,再将得分最高的待选字根替换掉得分小于第二预设阈值的字根,从而完成对得分小于第二预设阈值的字根的纠错。
举例来说,当输入文本为OCR扫描获得时,原始文本“幼儿园”被误识别为“幻儿园”,故此时的输入文本为“幻儿园”。可将输入文本为“幻儿园”转换为字根序列,然后将字根序列分为“xnn”、“qtn”、“lfqv”三个字根,并获得“xnn”对应的得分为0.1分,“qtn”对应的得分为0.3分,“lfqv”对应的得分为0.55分。其中,“xnn”的得分小于第二预设阈值0.2分,则需要对字根“xnn”进行纠错,即对“幻”进行纠错。具体地,可获取多个与字根“xnn”相似的待选字根以及待选字根的得分,可获取得分最高的字根“xln”,即汉字“幼”。从而可将字根“xnn”替换为字根“xln”,即将汉字“幻”替换为汉字“幼”,最后获得纠错后的输入文本为“幼儿园”。
应当理解的是,以上纠错模型可包括N-GRAM模型、HMM模型、CRF模型、深度神经网络模型中的一种。
此外,本发明实施例的语音合成的装置的纠错模块120还可包括第三纠错单元123。
在第一纠错单元121根据第一纠错模型对输入文本进行纠错处理和第二纠错单元122根据第二纠错模型对输入文本进行纠错处理之后,第三纠错单元123可获得根据第一纠错模型纠错后的第一输入文本及其得分,以及获得根据第二纠错模型纠错后的第二输入文本及其得分,然后将第一输入文本和第二输入文本中得分高者,作为纠错后的输入文本。
第三纠错单元123的作用在于,在无法确认输入文本对应的输入类型时,可同时采用两种方式对输入文本分别进行纠错,然后获取其中得分高者,作为最终纠错后的输入文本,更加智能化。
合成模块130用于将纠错后的输入文本合成为语音。
具体地,合成模块130可对纠错后的输入文本进行注音,生成拼音序列,然后对拼音序列进行结构分析,生成韵律层级信息,再根据声学模型将生成的韵律层级信息转换为如基频、谱等声学参数,最后将声学参数合成语音或者从语音库中获取对应的声学片段拼接为语音。
本发明实施例的语音合成的装置,通过获取输入文本,并获取输入文本对应的输入类型,根据输入类型确定纠错模型,并根据纠错模型对输入文本进行纠错处理,以及将纠错后的输入文本合成为语音,可利用纠错模型对输入文本进行纠错,提升了文本输入时的准确性,进而在语音合成时,生成的语音信息更加自然流畅,易于理解,符合语言习惯,最终提升用户使用体验。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种语音合成的方法,其特征在于,包括以下步骤:
S1、获取输入文本,并获取所述输入文本对应的输入类型;
S2、根据所述输入类型确定纠错模型,并根据所述纠错模型对所述输入文本进行纠错处理;以及
S3、将纠错后的所述输入文本合成为语音。
2.如权利要求1所述的方法,其特征在于,所述输入类型包括拼音输入、五笔输入以及OCR输入中的一种。
3.如权利要求1或2所述的方法,其特征在于,所述步骤S2,包括:
当所述输入类型为所述拼音输入时,根据第一纠错模型对所述输入文本进行纠错处理;或者
当所述输入类型为所述五笔输入或所述OCR输入时,根据第二纠错模型对所述输入文本进行纠错处理。
4.如权利要求3所述的方法,其特征在于,所述根据第一纠错模型对所述输入文本进行纠错处理,包括:
将所述输入文本转换为拼音序列,对所述拼音序列进行分词,以生成多个拼音词组,并根据所述第一纠错模型获得与所述拼音词组对应的汉字词组及所述汉字词组的得分,以及对所述得分小于第一预设阈值的所述汉字词组进行纠错。
5.如权利要求4所述的方法,其特征在于,所述对所述得分小于第一预设阈值的所述汉字词组进行纠错,具体包括:
获取得分小于第一预设阈值的所述汉字词组中每个汉字对应的声母,并根据所述声母获得对应的多个待选汉字词组,以及根据所述第一纠错模型获取得分最高的所述待选汉字词组,并将所述得分小于第一预设阈值的所述汉字词组替换为得分最高的所述待选汉字词组。
6.如权利要求3所述的方法,其特征在于,所述根据第二纠错模型对所述输入文本进行纠错处理,包括:
将所述输入文本转换为字根序列,将所述字根序列分为多个字根,并根据所述第二纠错模型获得与所述字根对应的得分,以及对所述得分小于第二预设阈值的所述字根进行纠错。
7.如权利要求3所述的方法,其特征在于,在所述根据第一纠错模型对所述输入文本进行纠错处理和所述根据第二纠错模型对所述输入文本进行纠错处理之后,还包括:
获得根据所述第一纠错模型纠错后的第一输入文本及其得分;
获得根据所述第二纠错模型纠错后的第二输入文本及其得分;
将所述第一输入文本和所述第二输入文本中得分高者,作为纠错后的所述输入文本。
8.如权利要求1-7所述的方法,其特征在于,所述纠错模型包括N-GRAM模型、HMM模型、CRF模型、深度神经网络模型中的一种。
9.一种语音合成的装置,其特征在于,包括:
获取模块,用于获取输入文本,并获取所述输入文本对应的输入类型;
纠错模块,用于根据所述输入类型确定纠错模型,并根据所述纠错模型对所述输入文本进行纠错处理;以及
合成模块,用于将纠错后的所述输入文本合成为语音。
10.如权利要求9所述的装置,其特征在于,所述输入类型包括拼音输入、五笔输入以及OCR输入中的一种。
11.如权利要求9或10所述的装置,其特征在于,所述纠错模块,具体包括:
第一纠错单元,用于当所述输入类型为所述拼音输入时,根据第一纠错模型对所述输入文本进行纠错处理;
第二纠错单元,用于当所述输入类型为所述五笔输入或所述OCR输入时,根据第二纠错模型对所述输入文本进行纠错处理。
12.如权利要求11所述的装置,其特征在于,所述第一纠错单元,具体用于:
将所述输入文本转换为拼音序列,对所述拼音序列进行分词,以生成多个拼音词组,并根据所述第一纠错模型获得与所述拼音词组对应的汉字词组及所述汉字词组的得分,以及对所述得分小于第一预设阈值的所述汉字词组进行纠错。
13.如权利要求12所述的装置,其特征在于,所述第一纠错单元,具体用于:
获取得分小于第一预设阈值的所述汉字词组中每个汉字对应的声母,并根据所述声母获得对应的多个待选汉字词组,以及根据所述纠错模型获取得分最高的所述待选汉字词组,并将所述得分小于第一预设阈值的所述汉字词组替换为得分最高的所述待选汉字词组。
14.如权利要求11所述的装置,其特征在于,所述第二纠错单元,具体用于:
将所述输入文本转换为字根序列,将所述字根序列分为多个字根,并根据所述第二纠错模型获得与所述字根对应的得分,以及对所述得分小于第二预设阈值的所述字根进行纠错。
15.如权利要求11所述的装置,其特征在于,所述纠错模块,还包括:
第三纠错单元,用于在所述根据第一纠错模型对所述输入文本进行纠错处理和所述根据第二纠错模型对所述输入文本进行纠错处理之后,获得根据所述第一纠错模型纠错后的第一输入文本及其得分,并获得根据所述第二纠错模型纠错后的第二输入文本及其得分,以及将所述第一输入文本和所述第二输入文本中得分高者,作为纠错后的所述输入文本。
16.如权利要求9-15所述的装置,其特征在于,所述纠错模型包括N-GRAM模型、HMM模型、CRF模型、深度神经网络模型中的一种。
CN201510282063.5A 2015-05-28 2015-05-28 语音合成的方法和装置 Active CN104882139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510282063.5A CN104882139B (zh) 2015-05-28 2015-05-28 语音合成的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510282063.5A CN104882139B (zh) 2015-05-28 2015-05-28 语音合成的方法和装置

Publications (2)

Publication Number Publication Date
CN104882139A true CN104882139A (zh) 2015-09-02
CN104882139B CN104882139B (zh) 2017-03-15

Family

ID=53949607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510282063.5A Active CN104882139B (zh) 2015-05-28 2015-05-28 语音合成的方法和装置

Country Status (1)

Country Link
CN (1) CN104882139B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610930A (zh) * 2015-10-22 2017-05-03 科大讯飞股份有限公司 外语写作自动纠错方法及***
CN106776501A (zh) * 2016-12-13 2017-05-31 深圳爱拼信息科技有限公司 一种文本错别字自动更正方法和服务器
CN106777073A (zh) * 2016-12-13 2017-05-31 深圳爱拼信息科技有限公司 一种搜索引擎中错别字自动更正方法和服务器
CN107086040A (zh) * 2017-06-23 2017-08-22 歌尔股份有限公司 语音识别能力测试方法和装置
WO2017161899A1 (zh) * 2016-03-24 2017-09-28 华为技术有限公司 一种文本处理方法、装置及计算设备
CN107221328A (zh) * 2017-05-25 2017-09-29 百度在线网络技术(北京)有限公司 修改源的定位方法及装置、计算机设备及可读介质
CN107680580A (zh) * 2017-09-28 2018-02-09 百度在线网络技术(北京)有限公司 文本转换模型训练方法和装置、文本转换方法和装置
CN107705784A (zh) * 2017-09-28 2018-02-16 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置
CN107909993A (zh) * 2017-11-27 2018-04-13 安徽经邦软件技术有限公司 一种智能语音报告生成***
CN108091328A (zh) * 2017-11-20 2018-05-29 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及可读介质
CN108121455A (zh) * 2016-11-29 2018-06-05 渡鸦科技(北京)有限责任公司 识别纠正方法及装置
CN109255106A (zh) * 2017-07-13 2019-01-22 Tcl集团股份有限公司 一种文本处理方法及终端
CN109992765A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 文本纠错方法及装置、存储介质和电子设备
CN110600002A (zh) * 2019-09-18 2019-12-20 北京声智科技有限公司 语音合成方法、装置及电子设备
CN111199724A (zh) * 2019-12-31 2020-05-26 出门问问信息科技有限公司 一种信息处理方法、设备及计算机可读存储介质
CN111831818A (zh) * 2019-04-15 2020-10-27 北京京东尚科信息技术有限公司 文本信息识别方法、装置及存储介质
CN112530405A (zh) * 2019-09-18 2021-03-19 北京声智科技有限公司 一种端到端语音合成纠错方法、***及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639830A (zh) * 2009-09-08 2010-02-03 西安交通大学 一种输入过程中的中文术语自动纠错方法
CN102298582A (zh) * 2010-06-23 2011-12-28 商业对象软件有限公司 数据搜索和匹配方法和***
CN103605642A (zh) * 2013-11-12 2014-02-26 清华大学 一种面向文本输入的自动纠错方法与***
WO2014117549A1 (en) * 2013-01-29 2014-08-07 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639830A (zh) * 2009-09-08 2010-02-03 西安交通大学 一种输入过程中的中文术语自动纠错方法
CN102298582A (zh) * 2010-06-23 2011-12-28 商业对象软件有限公司 数据搜索和匹配方法和***
WO2014117549A1 (en) * 2013-01-29 2014-08-07 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction
CN103605642A (zh) * 2013-11-12 2014-02-26 清华大学 一种面向文本输入的自动纠错方法与***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张仰森,俞士汶: "文本自动校对技术研究综述", 《计算机应用研究》 *
王永景: "面向文本识别流的自动校对算法研究", 《上海交通大学硕士学位论文》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610930B (zh) * 2015-10-22 2019-09-03 科大讯飞股份有限公司 外语写作自动纠错方法及***
CN106610930A (zh) * 2015-10-22 2017-05-03 科大讯飞股份有限公司 外语写作自动纠错方法及***
WO2017161899A1 (zh) * 2016-03-24 2017-09-28 华为技术有限公司 一种文本处理方法、装置及计算设备
CN107229627A (zh) * 2016-03-24 2017-10-03 华为技术有限公司 一种文本处理方法、装置及计算设备
CN108121455B (zh) * 2016-11-29 2021-10-26 百度在线网络技术(北京)有限公司 识别纠正方法及装置
CN108121455A (zh) * 2016-11-29 2018-06-05 渡鸦科技(北京)有限责任公司 识别纠正方法及装置
CN106777073A (zh) * 2016-12-13 2017-05-31 深圳爱拼信息科技有限公司 一种搜索引擎中错别字自动更正方法和服务器
CN106776501A (zh) * 2016-12-13 2017-05-31 深圳爱拼信息科技有限公司 一种文本错别字自动更正方法和服务器
CN107221328A (zh) * 2017-05-25 2017-09-29 百度在线网络技术(北京)有限公司 修改源的定位方法及装置、计算机设备及可读介质
CN107086040A (zh) * 2017-06-23 2017-08-22 歌尔股份有限公司 语音识别能力测试方法和装置
CN109255106A (zh) * 2017-07-13 2019-01-22 Tcl集团股份有限公司 一种文本处理方法及终端
CN107680580A (zh) * 2017-09-28 2018-02-09 百度在线网络技术(北京)有限公司 文本转换模型训练方法和装置、文本转换方法和装置
CN107705784A (zh) * 2017-09-28 2018-02-16 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置
CN107680580B (zh) * 2017-09-28 2020-08-18 百度在线网络技术(北京)有限公司 文本转换模型训练方法和装置、文本转换方法和装置
CN107705784B (zh) * 2017-09-28 2020-09-29 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置
CN108091328A (zh) * 2017-11-20 2018-05-29 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及可读介质
CN108091328B (zh) * 2017-11-20 2021-04-16 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及可读介质
CN107909993A (zh) * 2017-11-27 2018-04-13 安徽经邦软件技术有限公司 一种智能语音报告生成***
CN109992765A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 文本纠错方法及装置、存储介质和电子设备
CN111831818A (zh) * 2019-04-15 2020-10-27 北京京东尚科信息技术有限公司 文本信息识别方法、装置及存储介质
CN110600002A (zh) * 2019-09-18 2019-12-20 北京声智科技有限公司 语音合成方法、装置及电子设备
CN112530405A (zh) * 2019-09-18 2021-03-19 北京声智科技有限公司 一种端到端语音合成纠错方法、***及装置
CN111199724A (zh) * 2019-12-31 2020-05-26 出门问问信息科技有限公司 一种信息处理方法、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN104882139B (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN104882139A (zh) 语音合成的方法和装置
EP3937165A1 (en) Speech synthesis method and apparatus, and computer-readable storage medium
CN102682763B (zh) 修正语音输入文本中命名实体词汇的方法、装置及终端
Beaufort et al. A hybrid rule/model-based finite-state framework for normalizing SMS messages
CN110675855B (zh) 一种语音识别方法、电子设备及计算机可读存储介质
JP4769223B2 (ja) テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置
CN104021784B (zh) 基于大语料库的语音合成方法和装置
US9170994B2 (en) Machine translation apparatus, method and computer readable medium
US20160300573A1 (en) Mapping input to form fields
CN103578464A (zh) 语言模型的建立方法、语音辨识方法及电子装置
CN101051458B (zh) 基于组块分析的韵律短语预测方法
CN105225657A (zh) 多音字标注模板生成方法和装置
CN107767858B (zh) 发音词典生成方法及装置、存储介质、电子设备
CN103578467A (zh) 声学模型的建立方法、语音辨识方法及其电子装置
US11417322B2 (en) Transliteration for speech recognition training and scoring
CN105404621A (zh) 一种用于盲人读取汉字的方法及***
CN102193646B (zh) 人名候选词的生成方法及装置
RU2009131086A (ru) Способ синтеза речи
CN111292740A (zh) 语音辨识***及其方法、与电脑程序产品
CN102214238B (zh) 一种汉语词语相近性匹配装置及方法
CN104867491A (zh) 用于语音合成的韵律模型训练方法和装置
CN110021293A (zh) 语音识别方法及装置、可读存储介质
KR101621154B1 (ko) 소셜 텍스트를 위한 철자 오류 교정 방법 및 장치
TW201919040A (zh) 聲控方法及系統
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant