CN111326141A

CN111326141A - 一种处理获取人声数据的方法

Info

Publication number: CN111326141A
Application number: CN201811523837.9A
Authority: CN
Inventors: 司马华鹏; 胡红燕; 陆放; 茅玥琪; 司马德一
Original assignee: Nanjing Guiji Intelligent Technology Co ltd
Current assignee: Nanjing Guiji Intelligent Technology Co ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2020-06-23

Abstract

本发明公开了一种处理获取人声数据的方法，包括以下步骤，获取移动终端的收集器采集的声音信号；从基于语音的装置收集取样数据的语音数据；将通用声学模型和所述取样数据的个人声学模型存储在第二存储器中，第二储存器连接有音色转换单元，将取样数据的音色转换成其他需要的音色，该音色选取数据库，数据库储存在第二储存器中；当从所述取样数据接收到语音识别请求时，从所述取样数据的语音数据提取特征向量；基于所述取样数据的语音数据的累积量来选择所述通用声学模型和所述取样数据的个人声学模型中的任一个；以及使用所提取的特征向量和所选择的声学模型识别语音命令。本发明设计巧妙，方法合理，可以合理处理人声，适合推广使用。

Description

一种处理获取人声数据的方法

技术领域

本发明涉及处理获取人声数据的方法技术领域，尤其涉及一种处理获取人声数据的方法。

背景技术

根据传统的语音识别方法，使用已预先存储在语音识别装置中的声学模型来执行语音识别。声学模型被用于表示说话者的语音的属性。例如，音素、双音素、三音素、五音素、音节以及字被用作声学模型的基本单位。如果将音素用作声学模型的基本模型，由于声学模型的数量减少，所以诸如双音素、三音素或五音素的上下文相关的声学模型被广泛使用以便反映相邻音素之间的变化所引起的协同发音(coarticulation)现象。需要大量数据来学习上下文相关的声学模型。

通常，将在消声室被录音的或通过服务器收集的各个说话者的声音存储作为语音数据，并且通过学习语音数据来生成声学模型。然而，在这种方法中，因为实际上使用语音识别功能的说话者的音调常常不同于与所收集的语音数据相对应的音调，故难以收集大量的语音数据并且保证语音识别性能。因此，由于通常通过学习成年男性的语音数据来生成声学模型，故难以识别具有不同的声音音调的成年女性、年长者或孩子的语音命令，而识别后的声音不能被重新利用起来，更不能对识别后的声音进行智能的人机对话，为此，本发明提出一种处理获取人声数据的方法。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种处理获取人声数据的方法。

为了实现上述目的，本发明采用了如下技术方案：

一种处理获取人声数据的方法，包括以下步骤，

S1，获取移动终端的收集器采集的声音信号；声音信号进行预处理器的带通滤波处理，得到预定频率范围内的取样数据；

S2，从基于语音的装置收集取样数据的语音数据；

S3，将所述取样数据的语音数据累积在第一存储器中；

S4，学习所累积的所述取样数据的语音数据；

S5，基于所学习的语音数据生成所述取样数据的个人声学模型；

S6，将通用声学模型和所述取样数据的个人声学模型存储在第二存储器中，第二储存器连接有音色转换单元，将取样数据的音色转换成其他需要的音色，该音色选取数据库，数据库储存在第二储存器中；

S7，当从所述取样数据接收到语音识别请求时，从所述取样数据的语音数据提取特征向量；

S8，基于所述取样数据的语音数据的累积量来选择所述通用声学模型和所述取样数据的个人声学模型中的任一个；以及使用所提取的特征向量和所选择的声学模型识别语音命令。

优选的，所述数据库内储存有影视作品、大自然、动物和名人的音色，并对各种音色做好分类。

优选的，所述收集器，从基于语音的装置收集取样数据的语音数据；第一存储器，累积所述取样数据的语音数据；学习器，学习累积在所述第一存储器中的所述取样数据的语音数据并且所述学习器基于所学习的语音数据生成所述取样数据的个人声学模型；第二存储器，存储通用声学模型和所述取样数据的个人声学模型；特征向量提取器，当从所述取样数据接收到语音识别请求时，所述特征向量提取器从所述取样数据的语音数据提取特征向量；以及语音识别器，基于所述取样数据的语音数据的累积量来选择所述通用声学模型和所述取样数据的个人声学模型中的任一个并且所述语音识别器使用所提取的特征向量和所选择的声学模型识别语音命令。

优选的，所述语音识别器声音进行识别，对输出的语音数据结果确定所述语音数据是否为人机交互语音数据；如果是，则对语音识别结果进行语义理解，根据语义理解结果生成交互结果，交互结果包括响应文本，并将响应文本朗读出来。

优选的，所述收集器采用声音传感器，可以收集附近的声音信息。

与现有技术相比，本发明的有益效果是：将通用声学模型和所述取样数据的个人声学模型存储在第二存储器中，第二储存器连接有音色转换单元，将取样数据的音色转换成其他需要的音色，该音色选取数据库，数据库储存在第二储存器中，语音识别器声音进行识别，对输出的语音数据结果确定所述语音数据是否为人机交互语音数据；如果是，则对语音识别结果进行语义理解，根据语义理解结果生成交互结果，交互结果包括响应文本，并将响应文本朗读出来，可以对识别的人声数据进行语音识别，然后将识别的人声数据可以进行音色转换，应用在不同的场景中，可以伪装其他音色，并且可以实现人机对话，本发明设计巧妙，方法合理，可以合理处理人声，适合推广使用。

附图说明

图1为本发明提出的一种处理获取人声数据的方法的原理框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1，一种处理获取人声数据的方法，包括以下步骤，

S2，从基于语音的装置收集取样数据的语音数据；

S3，将所述取样数据的语音数据累积在第一存储器中；

S4，学习所累积的所述取样数据的语音数据；

本发明中，所述数据库内储存有影视作品、大自然、动物和名人的音色，并对各种音色做好分类。

本发明中，所述收集器，从基于语音的装置收集取样数据的语音数据；第一存储器，累积所述取样数据的语音数据；学习器，学习累积在所述第一存储器中的所述取样数据的语音数据并且所述学习器基于所学习的语音数据生成所述取样数据的个人声学模型；第二存储器，存储通用声学模型和所述取样数据的个人声学模型；特征向量提取器，当从所述取样数据接收到语音识别请求时，所述特征向量提取器从所述取样数据的语音数据提取特征向量；以及语音识别器，基于所述取样数据的语音数据的累积量来选择所述通用声学模型和所述取样数据的个人声学模型中的任一个并且所述语音识别器使用所提取的特征向量和所选择的声学模型识别语音命令。

本发明中，所述语音识别器声音进行识别，对输出的语音数据结果确定所述语音数据是否为人机交互语音数据；如果是，则对语音识别结果进行语义理解，根据语义理解结果生成交互结果，交互结果包括响应文本，并将响应文本朗读出来。

本发明中，所述收集器采用声音传感器，可以收集附近的声音信息。

本发明在使用时，将通用声学模型和所述取样数据的个人声学模型存储在第二存储器中，第二储存器连接有音色转换单元，将取样数据的音色转换成其他需要的音色，该音色选取数据库，数据库储存在第二储存器中，语音识别器声音进行识别，对输出的语音数据结果确定所述语音数据是否为人机交互语音数据；如果是，则对语音识别结果进行语义理解，根据语义理解结果生成交互结果，交互结果包括响应文本，并将响应文本朗读出来，可以对识别的人声数据进行语音识别，然后将识别的人声数据可以进行音色转换，应用在不同的场景中，可以伪装其他音色，并且可以实现人机对话，本发明设计巧妙，方法合理，可以合理处理人声，适合推广使用。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种处理获取人声数据的方法，其特征在于，包括以下步骤，

S2，从基于语音的装置收集取样数据的语音数据；

S3，将所述取样数据的语音数据累积在第一存储器中；

S4，学习所累积的所述取样数据的语音数据；

2.根据权利要求1所述的一种处理获取人声数据的方法，其特征在于，所述数据库内储存有影视作品、大自然、动物和名人的音色，并对各种音色做好分类。

3.根据权利要求1所述的一种处理获取人声数据的方法，其特征在于，所述收集器，从基于语音的装置收集取样数据的语音数据；第一存储器，累积所述取样数据的语音数据；学习器，学习累积在所述第一存储器中的所述取样数据的语音数据并且所述学习器基于所学习的语音数据生成所述取样数据的个人声学模型；第二存储器，存储通用声学模型和所述取样数据的个人声学模型；特征向量提取器，当从所述取样数据接收到语音识别请求时，所述特征向量提取器从所述取样数据的语音数据提取特征向量；以及语音识别器，基于所述取样数据的语音数据的累积量来选择所述通用声学模型和所述取样数据的个人声学模型中的任一个并且所述语音识别器使用所提取的特征向量和所选择的声学模型识别语音命令。

4.根据权利要求1所述的一种处理获取人声数据的方法，其特征在于，所述语音识别器声音进行识别，对输出的语音数据结果确定所述语音数据是否为人机交互语音数据；如果是，则对语音识别结果进行语义理解，根据语义理解结果生成交互结果，交互结果包括响应文本，并将响应文本朗读出来。

5.根据权利要求1所述的一种处理获取人声数据的方法，其特征在于，所述收集器采用声音传感器，可以收集附近的声音信息。