CN105448303B

CN105448303B - 语音信号的处理方法和装置

Info

Publication number: CN105448303B
Application number: CN201510866175.5A
Authority: CN
Inventors: 时雪煜; 李先刚; 邹赛赛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-11-27
Filing date: 2015-11-27
Publication date: 2020-02-04
Anticipated expiration: 2035-11-27
Also published as: CN105448303A

Abstract

本发明提出一种语音信号的处理方法和装置，其中所述方法包括以下步骤：采集噪声样本信号；根据噪声样本信号对预存的纯净语音样本信号进行处理，得到具有噪声的噪声语音样本信号；根据噪声语音样本信号和纯净语音样本信号训练语音模型。本发明实施例的语音信号的处理方法，通过该语音模型可以大大提高在噪声环境下的语音识别的准确性，提升语音识别服务的鲁棒性和语音识别服务的体验。

Description

语音信号的处理方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音信号的处理方法以及一种语音信号的处理装置。

背景技术

语音识别是指通过机器将人的语音自动转换为相应的文本。近年来，语音识别技术发展较为迅速，特别是深度神经网络被应用到语音识别之后，识别***的性能得到了大幅度提高。

相关技术中，语音识别过程通过对大量纯净语音样本进行训练，得到声学模型和语言模型。训练样本越大，精确度越高，得到的声学模型效果越好，语音识别的准确率也就越高。

但随着移动互联网的发展，语音输入方式越来越普遍，语音使用人群也越来越广泛，而且每个用户使用的环境有很大差异，特别是在噪声环境下，比如汽车行驶过程中的车载噪声，在餐厅或者其他人群密集的地方产生的人群噪声等。而现有语音识别的训练缺乏噪声语音样本，同时噪声语音样本与纯净语音样本的声学特征差异很大，因此相关技术中的声学模型在安静环境下的语音识别的准确率很高，而在噪声环境下的语音识别的准确率将大大降低。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种语音信号的处理方法，该方法大大提高了在噪声环境下的语音识别的准确性，提升语音识别服务的鲁棒性和语音识别服务的体验。

本发明的第二个目的在于提出一种语音信号的处理装置。

为达上述目的，本发明第一方面实施例提出了一种语音信号的处理方法，包括以下步骤：采集噪声样本信号；根据所述噪声样本信号对预存的纯净语音样本信号进行处理，得到具有噪声的噪声语音样本信号；根据所述噪声语音样本信号和所述纯净语音样本信号训练语音模型。

本发明实施例的语音信号的处理方法，根据不同场景的噪声样本和纯净语音样本生成噪声语音样本，并根据噪声语音样本和纯净语音样本训练语音模型，从而能够通过该语音模型将各种噪声环境下的语音信号转换成安静环境下的语音信号，从而大大提高了在噪声环境下的语音识别的准确性，提升语音识别服务的鲁棒性和语音识别服务的体验。

为达上述目的，本发明第二方面实施例提出了一种语音信号的处理装置，包括：第一采集模块，用于采集噪声样本信号；第一处理模块，用于根据所述噪声样本信号对预存的纯净语音样本信号进行处理，得到具有噪声的噪声语音样本信号；第一训练模块，用于根据所述噪声语音样本信号和所述纯净语音样本信号训练语音模型。

本发明实施例的语音信号的处理装置，根据不同场景的噪声样本和纯净语音样本生成噪声语音样本，并根据噪声语音样本和纯净语音样本训练语音模型，从而能够通过该语音模型将各种噪声环境下的语音信号转换成安静环境下的语音信号，从而大大提高了在噪声环境下的语音识别的准确性，提升语音识别服务的鲁棒性和语音识别服务的体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的语音信号的处理方法的流程图；

图2是本发明一个具体实施例的语音信号的处理方法的流程图；

图3是本发明另一个具体实施例的语音信号的处理方法的流程图；

图4是本发明一个实施例的语音信号的处理装置的结构示意图；

图5是本发明一个具体实施例的语音信号的处理装置的结构示意图；

图6是本发明另一个实施例的语音信号的处理装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

下面参考附图描述根据本发明实施例的语音信号的处理方法和装置。

一种语音信号的处理方法，包括以下步骤：a、采集噪声样本信号；b、根据噪声样本信号对预存的纯净语音样本信号进行处理，得到具有噪声的噪声语音样本信号；c、根据噪声语音样本信号和纯净语音样本信号训练语音模型。

图1是本发明一个实施例的语音信号的处理方法的流程图。

如图1所示，语音信号的处理方法包括以下步骤：

S101，采集噪声样本信号。

具体地，采集在语音识别过程中可能出现的场景噪声以作为噪声样本信号，其中，场景噪声可以是在多个不同场景下采集得到，例如，采集汽车行驶过程中的车载噪声、采集在餐厅产生的人群噪声、或者采集其他人群密集的地方产生的人群噪声等作为噪声样本信号。进而，采集的噪声样本信号越多，在不同环境下对采集的语音信号进行处理的精确度就越高，语音识别的准确率就越高。

S102，根据噪声样本信号对预存的纯净语音样本信号进行处理，得到具有噪声的噪声语音样本信号。

其中，纯净语音样本信号为安静环境下的语音样本信号，即不包含噪声信号的语音信号。也就是说，通过采集的噪声样本信号对安静环境下的语音样本信号进行加噪处理，以得到噪声环境下的语音样本信号，即噪声语音样本信号。

应当理解的是，对纯净语音样本信号进行加噪处理可以采用现有的处理方法，为了避免冗余，此处不再复赘。

S103，根据噪声语音样本信号和纯净语音样本信号训练语音模型。

在本发明的一个实施例中，根据噪声语音样本信号和纯净语音信号训练语音模型还包括：提取噪声语音样本信号和纯净语音样本信号的声学特征，并建立噪声语音样本信号的声学特征与纯净语音样本信号的声学特征的映射关系。

具体地，可以通过提取噪声语音样本信号和纯净语音样本信号的声学特征，并通过回归神经网络建立噪声语音样本信号的声学特征到纯净语音样本信号的声学特征的映射，以得到语音模型。

在语音识别过程中，由于语音模型是基于噪声语音样本信号获得，因此能够将噪声环境下的语音信号映射成安静环境下的语音信号，从而准确识别出噪声环境下的语音信号，提高了语音识别的准确率。同时，由于回归神经网络具有较强的鲁棒性，对于未加入训练的场景噪声，同样能够很好的建立起噪声环境下的语音信号至安静环境下的语音信号的映射，从而准确识别出未加入训练的场景噪声下的语音信号，提高了语音识别的准确率。

图2是本发明一个具体实施例的语音信号的处理方法的流程图。

如图2所示，语音信号的处理方法包括以下步骤：

S201，采集噪声样本信号。

S202，根据噪声样本信号对预存的纯净语音样本信号进行处理，得到具有噪声的噪声语音样本信号。

S203，根据噪声语音样本信号和纯净语音样本信号训练语音模型。

S204，采集用户录入的语音信号。

具体地，可以通过语音输入设备如麦克风等采集用户的语音信号，然后将采集的语音信号发送至服务端进行语音识别。其中，可以将训练的语音模型存储到语音识别云端，将采集的语音信号发送至云端进行语音识别。

S205，判断语音信号是否包含噪声。

具体地，服务端在接收到用户录入的语音信号后，对用户录入的语音信号进行信噪比估计，以对用户录入的语音信号进行分类。例如，当用户录入的语音信号的信噪比小于一定值时，则判断语音信号包含噪声；当用户录入的语音信号的信噪比大于一定值时，则判断语音信号未包含噪声。

S206，如果语音信号包含噪声，则根据语音模型对语音信号进行去噪处理。

具体地，如果判断语音信号包含噪声，则可以确定语音信号是在噪声环境下录入，此时需要根据预先存储在服务端中的语音模型对语音信号进行去噪处理，即通过回归神经网络将用户录入的语音信号转换成安静环境下的语音信号。

在本发明的一个实施例中，根据语音模型中保存的该噪声环境中噪声语音样本和纯净语音样本的映射关系，将采集的包含噪声的语音信号转换为不包含噪声的语音信号。

S207，根据声学模型对去噪处理后的语音信号进行语音识别。

具体地，在对用户输入的语音信号进行去噪处理后，通过服务端的解码器进行语音识别，即解码器根据服务端预存的声学模型对去噪处理后的语音信号进行解码，将语音信号转换为文本信息，然后将识别结果反馈给用户。其中，声学模型是通过对大量纯净语音样本训练获得的。

S208，如果语音信号未包含噪声，则根据声学模型对语音信号进行语音识别。

具体地，如果判断语音信号未包含噪声，则可以确定语音信号是在安静环境下录入，此时无需通过语音模型对语音信号进行去噪处理，而是直接通过服务端的解码器根据声学模型对语音信号进行解码，将语音信号转换为文本信息，然后将识别结果反馈给用户。

本发明实施例的语音信号的处理方法，在语音识别过程中，对噪声环境下录入的语音信号进行预处理，将语音信号转换为安静环境下的语音信号再进行语音识别，而对安静坏境下录入的语音信号直接进行语音识别，由此，不仅能够保证安静环境下语音识别的准确率，而且能够大大提高噪音环境下语音识别的准确率，从而提高语音识别服务的准确率和鲁棒性和服务体验。

图3是本发明另一个具体实施例的语音信号的处理方法的流程图。

如图3所示，语音信号的处理方法包括以下步骤：

S301，采集噪声样本信号。

S302，根据噪声样本信号对预存的纯净语音样本信号进行处理，得到具有噪声的噪声语音样本信号。

S303，根据噪声语音样本信号和纯净语音样本信号训练语音模型。

S304，获取语音训练样本信号。

具体地，在语音识别过程中，即使对噪声环境下采集的语音信号进行预处理，即根据语音模型对语音信号进行去噪处理，但是预处理后的语音信号也还有可能会包括噪声信号，因此，本实施例中根据回归神经网络对用于语音识别的声学模型进行再训练，由此可以使得再训练后的声学模型与预处理后的语音信号更加匹配，进一步提高语音识别的准确性。

其中，语音训练样本信号是用于对声学模型进行再训练时的语音训练数据，语音训练样本信号是噪声环境下的语音信号，既噪声语音训练数据。

S305，根据语音模型对语音训练样本信号进行去噪处理，并根据去噪处理后的语音训练样本信号训练声学模型。

具体地，首先提取语音训练样本的声学特征，然后通过回归神经网络根据语言模型对语音训练样本的声学特征进行映射，将处理后的声学特征对已有的声学模型进行再训练，从而训练出与语音模型处理后的声学特征更加匹配的声学模型。

S306，采集用户录入的语音信号。

S307，判断语音信号是否包含噪声。

S308，如果语音信号包含噪声，则根据语音模型对语音信号进行去噪处理。

S309，根据声学模型对去噪处理后的语音信号进行语音识别。

本发明实施例的语音信号的处理方法，通过语音训练样本对已有的声学模型进行再训练，从而使得再训练后的声学模型与预处理后的语音信号更加匹配，进一步提高语音识别的准确性，提高了语音识别服务的体验。

为了实现上述实施例，本发明还提出一种语音信号的处理装置。

图4是本发明一个实施例的语音信号的处理装置的结构示意图。

如图4所示，语音信号的处理装置包括：第一采集模块10、第一处理模块20和第一训练模块30。

其中，第一采集模块10用于采集噪声样本信号。具体地，第一采集模块10采集在语音识别过程中可能出现的场景噪声以作为噪声样本信号，其中，场景噪声可以是在多个不同场景下采集得到，例如，采集汽车行驶过程中的车载噪声、采集在餐厅产生的人群噪声、或者采集其他人群密集的地方产生的人群噪声等作为噪声样本信号。进而，第一采集模块10采集的噪声样本信号越多，在不同环境下对采集的语音信号进行处理的精确度就越高，语音识别的准确率就越高。

第一处理模块20用于根据噪声样本信号对预存的纯净语音样本信号进行处理，得到具有噪声的噪声语音样本信号。其中，纯净语音样本信号为安静环境下的语音样本信号，即不包含噪声信号的语音信号。也就是说，第一处理模块20通过采集的噪声样本信号对安静环境下的语音样本信号进行加噪处理，以得到噪声环境下的语音样本信号，即噪声语音样本信号。

第一训练模块30用于根据噪声语音样本信号和纯净语音样本信号训练语音模型。其中，第一训练模块30提取噪声语音样本信号和纯净语音样本信号的声学特征，并建立噪声语音样本信号的声学特征与纯净语音样本信号的声学特征的映射关系。具体地，第一训练模块30可以通过提取噪声语音样本信号和纯净语音样本信号的声学特征，并通过回归神经网络建立噪声语音样本信号的声学特征到纯净语音样本信号的声学特征的映射，以得到语音模型。

图5是本发明一个具体实施例的语音信号的处理装置的结构示意图。

如图5所示，语音信号的处理装置包括：第一采集模块10、第一处理模块20、第一训练模块30、第二采集模块40、第二处理模块50和语音识别模块60。

其中，第二采集模块40用于采集用户录入的语音信号。具体地，第二采集模块40可以通过语音输入设备如麦克风等采集用户的语音信号，然后将采集的语音信号发送至服务端进行语音识别。其中，第一训练模块30可以将训练的语音模型存储到语音识别云端，第二采集模块40将采集的语音信号发送至云端进行语音识别。

第二处理模块50用于当语音信号包含噪声时，根据语音模型对语音信号进行去噪处理。具体地，第二处理模块50在接收到第二采集模块40采集的语音信号后，对用户录入的语音信号进行信噪比估计，以对用户录入的语音信号进行分类。例如，当用户录入的语音信号的信噪比小于一定值时，则判断语音信号包含噪声；当用户录入的语音信号的信噪比大于一定值时，则判断语音信号未包含噪声。如果判断语音信号包含噪声，则第二处理模块50可以确定语音信号是在噪声环境下录入，此时需要根据预先存储在服务端中的语音模型对语音信号进行去噪处理，即通过回归神经网络将用户录入的语音信号转换成安静环境下的语音信号。

语音识别模块60用于根据声学模型对去噪处理后的语音信号进行语音识别。其中，语音识别模块60还用于当语音信号未包含噪声时，根据声学模型对语音信号进行语音识别。具体地，在第二处理模块50对语音信号进行去噪处理后，语音识别模块60通过服务端的解码器进行语音识别，即解码器根据服务端预存的声学模型对去噪处理后的语音信号进行解码，将语音信号转换为文本信息，然后将识别结果反馈给用户。其中，声学模型是通过对大量纯净语音样本训练获得的。

具体地，如果判断语音信号未包含噪声，则第二处理模块50可以确定语音信号是在安静环境下录入，此时无需第二处理模块50通过语音模型对语音信号进行去噪处理，而是语音识别模块60直接通过服务端的解码器根据声学模型对语音信号进行解码，将语音信号转换为文本信息，然后将识别结果反馈给用户。

本发明实施例的语音信号的处理装置，在语音识别过程中，对噪声环境下录入的语音信号进行预处理，将语音信号转换为安静环境下的语音信号再进行语音识别，而对安静坏境下录入的语音信号直接进行语音识别，由此，不仅能够保证安静环境下语音识别的准确率，而且能够大大提高噪音环境下语音识别的准确率，从而提高语音识别服务的准确率和鲁棒性和服务体验。

图6是本发明另一个具体实施例的语音信号的处理装置的结构示意图。

如图6所示，语音信号的处理装置包括：第一采集模块10、第一处理模块20、第一训练模块30、第二采集模块40、第二处理模块50、语音识别模块60、获取模块70、第三处理模块80和第二训练模块90。

其中，获取模块70用于获取语音训练样本信号。其中，语音训练样本信号是用于对声学模型进行再训练时的语音训练数据，语音训练样本信号是噪声环境下的语音信号，既噪声语音训练数据。

第三处理模块80用于根据语音模型对语音训练样本信号进行去噪处理。第二训练模块90用于根据去噪处理后的语音训练样本信号训练声学模型。具体地，首先第三处理模块80提取语音训练样本的声学特征，然后通过回归神经网络根据语言模型对语音训练样本的声学特征进行映射，第二训练模块90将处理后的声学特征对已有的声学模型进行再训练，从而训练出与语音模型处理后的声学特征更加匹配的声学模型。

本发明实施例的语音信号的处理装置，通过语音训练样本对已有的声学模型进行再训练，从而使得再训练后的声学模型与预处理后的语音信号更加匹配，进一步提高语音识别的准确性，提高了语音识别服务的体验。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音信号的处理方法，其特征在于，包括以下步骤：

采集噪声样本信号，其中所述噪声样本信号包括不同的场景噪声；

根据所述噪声样本信号对预存的纯净语音样本信号进行处理，得到具有噪声的噪声语音样本信号；

根据所述噪声语音样本信号和所述纯净语音样本信号训练语音模型，所述语音模型包括通过回归神经网络建立的所述噪声语音样本信号的声学特征与所述纯净语音样本信号的声学特征的映射关系；

采集用户录入的语音信号；

当所述语音信号包含噪声时，根据所述语音模型对所述语音信号进行去噪处理；

根据声学模型对去噪处理后的语音信号进行语音识别，所述声学模型是通过纯净语音样本训练获得的。

2.如权利要求1所述的语音信号的处理方法，其特征在于，根据所述噪声语音样本信号和所述纯净语音样本信号训练语音模型还包括：

提取所述噪声语音样本信号和所述纯净语音样本信号的声学特征，并建立所述噪声语音样本信号的声学特征与所述纯净语音样本信号的声学特征的映射关系。

3.如权利要求1所述的语音信号的处理方法，其特征在于，还包括：

当所述语音信号未包含噪声时，根据所述声学模型对所述语音信号进行语音识别。

4.如权利要求3所述的语音信号的处理方法，其特征在于，还包括：

获取语音训练样本信号；

根据所述语音模型对所述语音训练样本信号进行去噪处理，并根据去噪处理后的所述语音训练样本信号训练所述声学模型。

5.一种语音信号的处理装置，其特征在于，包括：

第一采集模块，用于采集噪声样本信号，其中所述噪声样本信号包括不同的场景噪声；

第一处理模块，用于根据所述噪声样本信号对预存的纯净语音样本信号进行处理，得到具有噪声的噪声语音样本信号；

第一训练模块，用于根据所述噪声语音样本信号和所述纯净语音样本信号训练语音模型，所述语音模型包括通过回归神经网络建立的所述噪声语音样本信号的声学特征与所述纯净语音样本信号的声学特征的映射关系；

第二采集模块，用于采集用户录入的语音信号；

第二处理模块，用于当所述语音信号包含噪声时，根据所述语音模型对所述语音信号进行去噪处理；

语音识别模块，用于根据声学模型对去噪处理后的语音信号进行语音识别，所述声学模型是通过纯净语音样本训练获得的。

6.如权利要求5所述的语音信号的处理装置，其特征在于，所述第一训练模块还用于：

7.如权利要求5所述的语音信号的处理装置，其特征在于，所述语音识别模块还用于当所述语音信号未包含噪声时，根据所述声学模型对所述语音信号进行语音识别。

8.如权利要求7所述的语音信号的处理装置，其特征在于，还包括：

获取模块，用于获取语音训练样本信号；

第三处理模块，用于根据所述语音模型对所述语音训练样本信号进行去噪处理；

第二训练模块，用于根据去噪处理后的所述语音训练样本信号训练所述声学模型。