CN110310620B

CN110310620B - 基于原生发音强化学习的语音融合方法

Info

Publication number: CN110310620B
Application number: CN201910667563.9A
Authority: CN
Inventors: 徐梦婷; 李华康; 孔令军; 孙国梓; 王永超
Original assignee: Suzhou Paiweisi Information Technology Co ltd
Current assignee: Suzhou Paiweisi Information Technology Co ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2021-07-13
Anticipated expiration: 2039-07-23
Also published as: CN110310620A

Abstract

本发明公开了一种基于原生发音强化学习的语音融合方法。本发明一种基于原生发音强化学习的语音融合方法，包括：步骤1)对某声优的海量阅读内容进行完整句子切片，得到声音句集，之后对所有的声音句子集标定句子文本内容。步骤2)按照每个句子的文本分词对声音句子进行切片，可以得到每个文本单词的不同发音样本。步骤3)当语音对话引擎得到用户的语音文本，并通过问答***生成文本回答内容。本发明的有益效果：利用强化学习，更好的形成相似声音句子，提高声音的润滑度，智能且用户友好。

Description

基于原生发音强化学习的语音融合方法

技术领域

本发明涉及语音融合领域，具体涉及一种基于原生发音强化学习的语音融合方法。

背景技术

人工智能的发展以及其在语音方面的应用，促进了语音合成技术、自然语言处理技术和语音识别技术的发展。而其中，语音合成是把计算机中任意出现的文字转换成自然流畅的语音输出。在语音对话问答中，语音合成的效果决定了用户体验的优劣。

传统技术存在以下技术问题：

目前市场的语音问答产品中，主要有两种语音交互方式。其一是采用播放录音的方式，这种方式对话固定僵硬，用户交流体验感差；其二是采用语音合成的方式，这种方式可以灵活的对话，但是仍然会存在合成的语音生硬的问题，使得用户聆听感差的问题。

发明内容

本发明要解决的技术问题是提供一种基于原生发音强化学习的语音融合方法，该方法结合了播放录音及语音合成的方法，融合出一个更优的语音合成效果，从而提高用户体验感。

为了解决上述技术问题，本发明提供了一种基于原生发音强化学习的语音融合方法，包括：

步骤1)对某声优的海量阅读内容进行完整句子切片，得到声音句集，之后对所有的声音句子集标定句子文本内容。

步骤2)按照每个句子的文本分词对声音句子进行切片，可以得到每个文本单词的不同发音样本。

步骤3)当语音对话引擎得到用户的语音文本，并通过问答***生成文本回答内容。

步骤4)计算文本回答内容与步骤一得到的文本集中句子相似度，获得最高相似度候选集；

步骤5)当候选集中某个句子的文本相似度高于阈值，则直接调用当前句子相应声音信号进行输出播放；

步骤6)否则调用基于序列的对话生成算法逐个替换候选句中的单词，并计算生成声音的润滑度，当生成的句子的文本相似度大于回答阈值，且润滑相似度高于用户接受度的时候，采用生成的声音信号进行输出播放；

步骤7)如果遍历完后任然未找到符合步骤五和步骤六的结果，则直接对回答文本进行分词，并采用词所对应的声音进行拼接形成语音信号并进行输出播放。

一种基于原生发音强化学习的语音融合***，包括：

模块1)数据预处理模块。包括对声优的海量阅读数据的获取存储，并且对得到的数据进行切片以及标记处理；

模块2)数据再处理模块。将模块1)形成的句子声音和其相应的文本标记存入数据库，并在此基础上进行再处理，包括对句子的分词，句子声音的再次切片以及对切片后的单词声音进行文本标记；

模块3)声音融合模块。根据模块(4)生成的回答文本，通过文本相似度算法匹配模块(2)中的文本数据集，从而生成候选集，再通过融合替换算法以及语音拼接形成输出的语音信号。

模块4)自动问答模块。该模块根据用户输入的语音问题，经由问答***，自动生成回答文本。

在其中一个实施例中，数据预处理具体包括：

步骤11)语音内容切片：根据人们说话的习惯，以及声音频谱的特点，进行句子识别，以及切片。若是未找到符合的切片要求，若不足预设时间，则不切片。据此得到声音句集{Sentence_voice}。

步骤12)文本标记句子：对于步骤11)切片获得的语音数据进行语音转文本操作，从而得到文本集{Sentence_text}。我们使声音句集和文本集一一对应，并将结果存入到非结构化数据库中，如MongoDB，从而获得句子声音-句子文本的数据库。

在其中一个实施例中，所述预设时间是5s。

在其中一个实施例中，所述再处理模块，涉及的步骤具体包括：

步骤21)文本句子分词：对于上述步骤12)获得的句子文本进行分词，从而得到词语集{W_s1，W_s2，...，W_sw}。

步骤22)语音句子切片：对于上述步骤11)获得的句子声音，根据每个句子的文本分词，再次切片，从而得到每个单词的发音样本{W_v1，W_v2，...，W_vw}。

步骤23)文本标记单词：将词语集和句子集一一对应的存储起来，从而得到词语声音-词语文本的数据库。

在其中一个实施例中，所述自动问答模块，涉及的步骤具体包括：

步骤41)语音转文本：将语音库中的数据经过首尾端的静音切除、声音分帧等的预处理，通过特征提取训练形成声学模型。将文本库中的数据经过训练形成语言模型。将用户输入的语音信号，利用声学模型、字典以及语言模型，通过语音解码和搜索算法形成文本输出。

步骤42)问答***：将有步骤41)得到的文本输入问答***中，通过文本相似度、知识库匹配等算法，获得最为接近的问题的答案或者获得知识对应的答案，将答案作为输出进入下一步。

步骤43)回答文本：这里指的是由步骤42)输出的结果，将该结果作为模块3的输入，记为Text_answer。

在其中一个实施例中，所述声音融合模块，涉及的步骤具体包括：

步骤31)候选集生成：基于步骤43)输入的回答文本，计算Text_answer在Sentence_text中的最高相似度候选集，从而得到{Sentence₁，Sentence₂，...，Sentence_s}。当候选集中某个Sentence的文本相似度高于阈值时，直接调用当前文本相应的声音Sentence_voice进行输出播放。否则，进行步骤32)。

步骤32)融合替换：调用基于序列的对话生成算法逐个替换候选Sentence中的单词，并计算生成句子的声音NSentence_voice的润滑度。当生成的句子的文本相似度大于回答阈值，并且其声音润滑相似度高于用户可接受度的时候，采用生成的NSentence_voice进行输出播放。否则，进行步骤33)。

步骤33)拼接语音信号：若遍历完后仍然未找到符合步骤31)以及32)的结果，则直接对Text_answer进行分词，并采用词word所对应的声音voice进行语音信号的拼接，并将拼接结果进行输出播放。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

利用强化学习，更好的形成相似声音句子，提高声音的润滑度，智能且用户友好。

附图说明

图1是本发明基于原生发音强化学习的语音融合的模块示意图。

图2是本发明基于原生发音强化学习的语音融合方法的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

图1为基于原生发音强化学习的语音融合方法的模块及流程示意图。概括来讲，该方法主要包括：

上述方法中，在模块1)中，数据预处理具体包括：

步骤11)语音内容切片：根据人们说话的习惯，以及声音频谱的特点，进行句子识别，以及切片。若是未找到符合的切片要求，由于人们说一句话的时间大约是5秒，我们据此将语音内容按照5s的时长进行切片，若不足5秒则不切片。据此得到声音句集{Sentence_voice}。

步骤12)文本标记句子：对于步骤11)切片获得的语音数据进行语音转文本操作，从而得到文本集{Sentence_text}。。我们使声音句集和文本集一一对应，并将结果存入到非结构化数据库中，如MongoDB，从而获得句子声音-句子文本的数据库。

上述方法中，所述模块2)再处理模块，涉及的步骤具体包括：

上述方法中，所述模块4)自动问答模块，涉及的步骤具体包括：

上述方法中，所述模块3)声音融合模块，涉及的步骤具体包括：

参阅图2，基于原生发音强化学习的语音融合方法，所述方法包括：

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于原生发音强化学习的语音融合方法，其特征在于，包括：

步骤1)对某声优的海量阅读内容进行完整句子切片，得到声音句集，之后对所有的声音句子集标定句子文本内容；

步骤2)按照每个句子的文本分词对声音句子进行切片，可以得到每个文本单词的不同发音样本；

步骤3)当语音对话引擎得到用户的语音文本，并通过问答***生成文本回答内容；

2.一种基于原生发音强化学习的语音融合***，其特征在于，包括：

模块1)数据预处理模块，所述数据预处理模块包括对声优的海量阅读数据的获取存储，并且对得到的数据进行切片以及标记处理；

模块2)数据再处理模块；所述数据再处理模块将模块1)形成的句子声音和其相应的文本标记存入数据库，并在此基础上进行再处理，包括对句子的分词，句子声音的再次切片以及对切片后的单词声音进行文本标记；

模块3)声音融合模块；所述声音融合模块根据模块(4)生成的回答文本，通过文本相似度算法匹配模块(2)中的文本数据集，从而生成候选集，再通过融合替换算法以及语音拼接形成输出的语音信号；

模块4)自动问答模块；所述自动问答模块该模块根据用户输入的语音问题，经由问答***，自动生成回答文本；

所述数据预处理模块，涉及的步骤具体包括：

步骤11)语音内容切片：根据人们说话的习惯，以及声音频谱的特点，进行句子识别，以及切片；若是未找到符合的切片要求，若不足预设时间，则不切片；据此得到声音句集{Sentence_voice}；

步骤12)文本标记句子：对于步骤11)切片获得的语音数据进行语音转文本操作，从而得到文本集{Sentence_text}，使声音句集和文本集一一对应，并将结果存入到非结构化数据库中，从而获得句子声音-句子文本的数据库；

所述数据再处理模块，涉及的步骤具体包括：

步骤21)文本句子分词：对于上述步骤12)获得的句子文本进行分词，从而得到词语集{W_s1，W_s2，...，W_sw}；

步骤22)语音句子切片：对于上述步骤11)获得的句子声音，根据每个句子的文本分词，再次切片，从而得到每个单词的发音样本{W_v1，W_v2，...，W_vw}；

步骤23)文本标记单词：将词语集和句子集一一对应的存储起来，从而得到词语声音-词语文本的数据库；

所述自动问答模块，涉及的步骤具体包括：

步骤41)语音转文本：将语音库中的数据经过首尾端的静音切除和声音分帧预处理，通过特征提取训练形成声学模型；将文本库中的数据经过训练形成语言模型；将用户输入的语音信号，利用声学模型、字典以及语言模型，通过语音解码和搜索算法形成文本输出；

步骤42)问答***：将有步骤41)得到的文本输入问答***中，通过文本相似度和知识库匹配算法，获得最为接近的问题的答案或者获得知识对应的答案，将答案作为输出进入下一步；

步骤43)回答文本：这里指的是由步骤42)输出的结果，将该结果作为模块3的输入，记为Text_answer；

所述声音融合模块，涉及的步骤具体包括：

步骤31)候选集生成：基于步骤43)输入的回答文本，计算Text_answer在Sentence_text中的最高相似度候选集，从而得到{Sentence₁，Sentence₂，...，Sentence_s}；当候选集中某个Sentence的文本相似度高于阈值时，直接调用当前文本相应的声音Sentence_voice进行输出播放；否则，进行步骤32)；

步骤32)融合替换：调用基于序列的对话生成算法逐个替换候选Sentence中的单词，并计算生成句子的声音NSentence_voice的润滑度；当生成的句子的文本相似度大于回答阈值，并且其声音润滑相似度高于用户可接受度的时候，采用生成的NSentence_voice进行输出播放；否则，进行步骤33)；

3.如权利要求2所述的基于原生发音强化学习的语音融合***，其特征在于，所述预设时间是5s。

4.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1所述方法的步骤。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1所述方法的步骤。

6.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1所述的方法。