CN106710585B

CN106710585B - 语音交互过程中的多音字播报方法及***

Info

Publication number: CN106710585B
Application number: CN201611199610.4A
Authority: CN
Inventors: 王鸣
Original assignee: Unisound Shanghai Intelligent Technology Co Ltd
Current assignee: Unisound Shanghai Intelligent Technology Co Ltd
Priority date: 2016-12-22
Filing date: 2016-12-22
Publication date: 2019-11-08
Anticipated expiration: 2036-12-22
Also published as: CN106710585A

Abstract

本发明提供了一种语音交互过程中的多音字播报方法及***，所述播报方法包括：获取语音信息，识别所述语音信息；形成反馈信息；对所述反馈信息进行注音；播报所述反馈信息；释放先验信息。本发明通过将获取的语音信息通过识别存储为文本信息和音素信息，利用所述音素信息对反馈信息进行注音再进行播报，能有效提高专有名词中的多音字播报准确率，改善多音字播报效果。

Description

语音交互过程中的多音字播报方法及***

技术领域

本发明涉及语音交互技术领域，具体来说涉及语音交互过程中的多音字播报方法及***。

背景技术

语音合成，又称文语转换(Text To Speech)技术，是一种能够将文字信息转化为语音并进行朗读的技术，其涉及声学、语言学、数字信号处理、计算机科学等多个学科基础，是中文信息处理领域的一项前沿技术，解决的主要问题是如何将文字信息转化为可听的声音信息。

在语音合成***中，将文本信息转换为声音信息的过程为：首先需要对输入的文本进行处理，包括预处理、分词、词性标注、多音字预测、韵律层级预测等，然后再通过声学模型，预测各个单元对应的声学特征，最后利用声学参数直接通过声码器合成声音，或者从录音词库中挑选单元进行拼接，以生成与文本对应的声音信息。

其中多音字预测是整个语音合成***的基础之一，多音字朗读的正确与否，极大地影响了听者对合成声音语义的理解情况，如果多音字预测准确率高，可以大大改善用户体验，使合成出来的语音易于理解，听起来也更佳自然流畅。

现有的多音字发音策略多采用如下方法：

若多音字可以和上下文组成词语，则按照固定搭配中的多音字来进行播报，例如重点、重新；若多音字以单字形式出现，则基于大量数据训练模型的方法来决定发音，例如为人民服务、结果为零。在语音合成技术中，常用的大量训练数据模型的方法包括但不限于：CRF(条件随机场)方法，HMM(隐马尔科夫模型)方法，决策树方法等等。这些方法的特点是需要大量多音字的标注信息来进行训练。优点是可以仅凭文本信息来预测多音字的发音，且对于出现在常见上下文语境中的多音字预测准确率较高；缺点是对于训练数据中不包含的多音字或者是上下文语境中没有包含过的多音字的处理能力很差。

但上述方法对于专有名词比如人名、地名、公司名称中的多音字播报效果较差。这是由于在语音交互过程中，用户的提问或指令信息中通常包含有多音字的发音，特别是对于人名、地名和公司名称的发音，但是在语音交互***中，却将语音识别和语音合成分离开来，即语音识别中获得的对应文本信息的音素信息未被语音合成模块利用，而语音合成信息在播报该专有名词中的多音字时，根据自身事先设定的策略进行发音的选择。

发明内容

鉴于上述情况，本发明提供一种语音交互过程中的多音字播报方法及***，解决了现有的多音字发音策略对专有名词(人名、地名、公司名称)中的多音字播报效果较差的技术问题，提高了专有名词中的多音字播报准确率。

为实现上述目的，本发明采取的技术方案是：

一种语音交互过程中的多音字播报方法，包括如下步骤：

a.获取语音信息；

b.识别所述语音信息，通过语音识别得出所述语音信息对应的文本信息和音素信息；

c.执行所述文本信息的指令并形成相应的反馈信息；

d.对反馈信息进行注音：首先查找所述反馈信息中是否包括多音字，若查找到多音字，首先将反馈信息与所述文本信息进行比对，若比对成功，从所述音素信息中获取发音并对反馈信息中的多音字进行注音；若比对不成功，则依据大量数据训练模型的方法来对反馈信息中的多音字进行注音；

e.对所述反馈信息进行播报。

本发明的进一步改进在于，在所述步骤b中，还包括将所述文本信息和音素信息作为先验信息进行存储。

本发明的进一步改进在于，所述反馈信息播报结束后，释放预先存储的先验信息。

本发明的进一步改进在于，在所述步骤c中，所述反馈信息为文本形式的信息。

本发明的进一步改进在于，在所述步骤d中，还包括对所述反馈信息中的单音字进行注音。

本发明的更进一步改进在于，在所述步骤d中，若在所述反馈信息中未查找到多音字，则直接对反馈信息进行注音。

此外，本发明还提供一种用于实施以上所述多音字播报方法的播报***，所述***包括录音模块、语音识别模块、处理及控制模块、语音合成模块以及语音播报模块：

所述录音模块，与所述语音识别模块以及所述处理及控制模块连接，用于获取语音信息并将所述语音信息传送给所述语音识别模块；

语音识别模块，与所述处理及控制模块连接，用于识别所述语音信息并得出与所述语音信息对应的文本信息和音素信息，将所述文本信息和音素信息传送给所述处理及控制模块；

所述处理及控制模块，与所述语音合成模块及语音播报模块连接，用于执行所述文本信息的指令并形成相应的反馈信息，将所述反馈信息传送给所述语音合成模块；

所述语音合成模块，与所述语音播报模块连接，用于查找所述反馈信息中是否包含多音字并对所述反馈信息进行注音，并将已注音的反馈信息传送给所述语音播报模块；

所述语音播报模块，用于播报所述已注音的反馈信息。

所述***的更进一步改进在于，所述反馈信息是文本形式的信息；所述***还包括临时存储模块，所述临时存储模块与所述处理及控制模块连接，所述语音识别模块通过所述处理及控制模块将所述文本信息和音素信息作为先验信息存储到所述临时存储模块中；所述处理及控制模块将所述先验信息从所述临时存储模块中释放。

本发明的有益效果在于，本发明通过将获取的语音信息通过识别存储为文本信息和音素信息，利用所述音素信息对反馈信息进行注音再进行播报，能有效提高专有名词中的多音字播报准确率，改善多音字播报效果。

附图说明

图1是本发明语音交互过程中的多音字播报方法的示意性流程图。

图2是本发明语音交互过程中的多音字播报***的结构示意图。

附图标记与部件的对应关系如下：

S1-语音信息，S2-先验信息，S21-文本信息，S22-音素信息，S3-反馈信息，S4-已注音的反馈信息。

具体实施方式

为利于对本发明的了解，以下结合附图及实施例进行说明。

请参阅图1，本发明提供一种语音交互过程中的多音字播报方法，以提高专有名词中的多音字播报准确率，可广泛适用于车载、导航、电话、短信等场景，还可以适用于智能设备中的语音助手、智能机器人等任何语音交互的场景。所述多音字播报方法包括如下步骤：

a.获取语音信息；

b.识别所述语音信息，通过识别得出所述语音信息对应的文本信息和音素信息，并将所述文本信息和音素信息作为先验信息予以存储；

c.执行所述文本信息的指令并形成相应的反馈信息；

d.对反馈信息进行注音：首先查找所述反馈信息中是否包括多音字，若查找到多音字，首先将反馈信息与所述先验信息进行比对，若比对成功，从所述音素信息中获取发音并对反馈信息中的多音字进行注音；若比对不成功，则依据大量数据训练模型的方法来对反馈信息中的多音字进行注音；

e.对所述反馈信息进行播报；

在上述步骤中，所述反馈信息为文本形式的信息，即TTS文本；在步骤d中，若未查找到多音字，则直接对反馈信息进行注音；步骤d中在所述反馈信息中的多音字进行注音的同时还包括对单音字的注音。反馈信息的播报结束后，则释放预先存储的先验信息。

此外，请参阅图2，本发明还提供一种用于实施上述多音字播报方法的***，所述***包括录音模块、语音识别模块、处理及控制模块、语音合成模块以及语音播报模块：

所述录音模块，与所述语音识别模块以及所述处理及控制模块连接，用于获取语音信息S1并将所述语音信息S1传送给所述语音识别模块；

语音识别模块，与所述处理及控制模块连接，用于识别所述语音信息S1并得出与所述语音信息对应的文本信息S21和音素信息S22，将所述文本信息S21和音素信息S22传送给所述处理及控制模块；

所述处理及控制模块，与所述语音合成模块及语音播报模块连接，用于执行所述文本信息S21的指令并形成相应的反馈信息S3，将所述反馈信息S3传送给所述语音合成模块；

所述语音合成模块，与所述语音播报模块连接，用于查找所述反馈信息S3中是否包含多音字并对所述反馈信息S3进行注音，并将已注音的反馈信息S4传送给所述语音播报模块；

所述语音播报模块，用于播报所述已注音的反馈信息S4。

所述***还包括临时存储模块，所述临时存储模块与所述处理及控制模块连接，所述语音识别模块还用于在识别所述语音信息时，通过所述处理及控制模块将所述文本信息S21和音素信息S22作为先验信息S2存储到所述临时存储模块中；在播报结束后，所述处理及控制模块将所述先验信息S2从所述临时存储模块中释放。

以下实施例选取本发明在导航交互场景中的应用来详细说明：

开启导航后，用户说“导航到莘松新村”，录音模块将该信息获取为语音信息S1；

语音识别模块将录音模块获取的语音信息S1进行识别得出对应的文本信息S21和音素信息S22，并将所述文本信息S21和音素信息S22存储为先验信息S2；

处理及控制模块执行所述文本信息S21的指令并形成反馈信息S3“好的，为您导航到莘松新村”，即执行导航的动作；

语音合成模块将该反馈信息S3作为TTS文本并进行注音：首先查找反馈信息S3“好的，为您导航到莘松新村”中是否包含多音字，查找到包含两个多音字“为”和“莘”，然后语音合成模块读取预先存储的先验信息S2中的文本信息S21与该文本形式的反馈信息S3进行比对，语音合成模块读取到反馈信息S3中的“莘”与先验信息S2“导航到莘松新村”中的“莘”相匹配，则从先验信息S2的音素信息S22中获取“XIN(一声)”对“莘”进行注音；语音合成模块没有读取到先验信息S2中与“为”匹配的读音，则依据大量训练模型的方法对“为”注音成“WEI(四声)”；同时语音合成模块对该反馈信息S3中的单音字进行注音。

语音播报模块对上述已注音的反馈信息S4进行播报；

处理及控制模块释放预先存储的先验信息S2。

于本实施例中，“莘”是一个多音字，由于是专有名词，无法使用现有的方法做很好的消歧处理，用户在发出指令的时候包含该专有名词的词组，因此在该场景下多音字“莘”的发音是可以确定的。本发明通过语音识别模块获取的音素信息来辅助判断反馈信息中多音字的发音，提高了多音字播报的准确率，改善了多音字播报效果。

以上结合附图及实施例对本发明进行了详细说明，本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而，实施例中的某些细节不应构成对本发明的限定，本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims

1.一种语音交互过程中的多音字播报方法，包括步骤a.获取语音信息；其特征在于，还包括如下步骤：

b.识别所述语音信息，通过识别得出所述语音信息对应的文本信息和音素信息；

c.执行所述文本信息的指令并形成相应的反馈信息；

d.对所述反馈信息进行注音：查找所述反馈信息中是否包括多音字，若查找到多音字，将反馈信息与所述文本信息进行比对，若比对成功，从所述音素信息中获取发音并对反馈信息中的多音字进行注音；若比对不成功，则依据大量数据训练模型的方法来对反馈信息中的多音字进行注音；

e.对所述反馈信息进行播报。

2.根据权利要求1所述的语音交互过程中的多音字播报方法，其特征在于：在所述步骤b中，还包括将所述文本信息和音素信息作为先验信息进行存储。

3.根据权利要求2所述的语音交互过程中的多音字播报方法，其特征在于：所述反馈信息播报结束后，释放预先存储的先验信息。

4.根据权利要求1所述的语音交互过程中的多音字播报方法，其特征在于：在所述步骤c中，所述反馈信息是文本形式的信息。

5.根据权利要求1所述的语音交互过程中的多音字播报方法，其特征在于：在所述步骤d中，还包括对所述反馈信息中的单音字进行注音。

6.根据权利要求1所述的语音交互过程中的多音字播报方法，其特征在于：在所述步骤d中，若在所述反馈信息中未查找到多音字，则直接对反馈信息进行注音。

7.一种实施如权利要求1至6中任一项所述的语音交互过程中的多音字播报方法的***，其特征在于，所述***包括录音模块、语音识别模块、处理及控制模块、语音合成模块以及语音播报模块：

所述语音识别模块，与所述处理及控制模块连接，用于识别所述语音信息并得出与所述语音信息对应的文本信息和音素信息，将所述文本信息和音素信息传送给所述处理及控制模块；

所述语音播报模块，用于播报所述已注音的反馈信息。

8.根据权利要求7所述的语音交互过程中的多音字播报***，其特征在于，所述反馈信息是文本形式的信息。

9.根据权利要求7所述的语音交互过程中的多音字播报***，其特征在于，所述***还包括临时存储模块，所述临时存储模块与所述处理及控制模块连接，所述语音识别模块通过所述处理及控制模块将所述文本信息和音素信息作为先验信息存储到所述临时存储模块中。

10.根据权利要求9所述的语音交互过程中的多音字播报***，其特征在于，所述处理及控制模块将所述先验信息从所述临时存储模块中释放。