CN114360517B

CN114360517B - 一种复杂环境下的音频处理方法、装置及存储介质

Info

Publication number: CN114360517B
Application number: CN202111551933.6A
Authority: CN
Inventors: 王伟
Original assignee: iMusic Culture and Technology Co Ltd
Current assignee: iMusic Culture and Technology Co Ltd
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2023-04-18
Anticipated expiration: 2041-12-17
Also published as: CN114360517A

Abstract

本发明公开了一种复杂环境下的音频处理方法、装置及存储介质，本发明通过获取音频训练数据，通过所述音频训练数据以及词库语句库对神经网络模型进行训练，所述神经网络模型为时滞递归神经网络结合隐马尔可夫模型的深层神经网络声学模型，结合包含对话场景下的常用的词汇或者语句的所述词库语句库进行训练，能够提高噪声环境下语音识别的性能以及提升抗鲁棒性；将待接收者的音频数据输入至训练后的神经网络模型，得到输出内容并将所述输出内容通过语音向待接收者播放，使得输出内容更加准确地向待接收者播放，改善和提高了与待接收者交流的准确性，减少错误，本发明可广泛应用于音频处理技术领域。

Description

一种复杂环境下的音频处理方法、装置及存储介质

技术领域

本发明涉及音频处理领域，尤其是一种复杂环境下的音频处理方法、装置及存储介质。

背景技术

当前，随着人工智能的快速发展，在各行各业的应用也越来越广泛，先进的人工智能技术应用在各个场景，尤其是在服务行业，如奶茶店、餐饮店、搞点店和服装店等，这些场合人员比较多环境嘈杂，服务员与顾客对话往往受背景噪声影响，现有识别方法，对安静场景下往往能取得不错的识别效果，但是由于噪声带来的干扰不能很好的解决高噪音下的服务对话识别问题，常规的语音识别模型不能适应、鲁棒性差。

发明内容

有鉴于此，为了解决上述技术问题的至少之一，本发明的目的是提供一种复杂环境下的音频处理方法、装置及存储介质。

本发明实施例采用的技术方案是：

一种复杂环境下的音频处理方法，包括：

获取音频训练数据；

通过所述音频训练数据以及词库语句库对神经网络模型进行训练；所述神经网络模型为时滞递归神经网络结合隐马尔可夫模型的深层神经网络声学模型，所述词库语句库包括对话场景下的常用的词汇或者语句；

将待接收者的音频数据输入至训练后的神经网络模型，得到输出内容并将所述输出内容通过语音向待接收者播放。

进一步，所述词库语句库通过以下步骤确定：

获取对话场景下的对话语料；

根据所述对话语料进行智能模板提取识别，得到所述词库语句库。

进一步，所述通过所述音频训练数据以及词库语句库对神经网络模型进行训练，包括：

根据三音素对所述音频训练数据进行状态聚类，得到状态的后验；

根据所述神经网络模型对所述音频训练数据进行处理；

根据处理结果、状态的后验以及所述词库语句库进行训练。

进一步，所述根据三音素对所述音频训练数据进行状态聚类，得到状态的后验，包括：

根据词典、音素表以及关键词配置文件对所述音频训练数据进行状态聚类，得到状态的后验；所述关键词配置文件包括不同领域的词汇术语，所述音素表包括不同地区发音标准。

进一步，所述音频训练数据包括真实标签，所述根据处理结果、所述状态的后验以及所述词库语句库进行训练，包括：

根据所述处理结果以及所述状态的后验确定关键词；

根据所述关键词与所述词库语句库进行匹配，确定匹配结果；

根据所述匹配结果以及所述真实标签对所述神经网络模型进行训练。

进一步，所述根据所述匹配结果以及真实标签对所述神经网络模型进行训练，包括：

在训练过程中反向传播迭代更新所述神经网络模型的参数；

当迭代更新次数达到预设次数，或者根据所述真实标签以及所述匹配结果计算的损失值小于预设损失阈值，根据迭代更新后的参数得到训练后的所述神经网络模型。

进一步，所述将所述输出内容通过语音向待接收者播放，包括：

将所述输出内容进行音频转换为语音并向待接收者播放。

本发明实施例还提供一种复杂环境下的音频处理装置，包括：

获取模块，用于获取音频训练数据；

训练模块，用于通过所述音频训练数据以及词库语句库对神经网络模型进行训练；所述神经网络模型为时滞递归神经网络结合隐马尔可夫模型的深层神经网络声学模型，所述词库语句库包括对话场景下的常用的词汇或者语句；

播放模块，用于将待接收者的音频数据输入至训练后的神经网络模型，得到输出内容并将所述输出内容通过语音向待接收者播放。

本发明实施例还提供一种复杂环境下的音频处理装置，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现所述方法。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现所述方法。

本发明的有益效果是：获取音频训练数据，通过所述音频训练数据以及词库语句库对神经网络模型进行训练，所述神经网络模型为时滞递归神经网络结合隐马尔可夫模型的深层神经网络声学模型，结合包含对话场景下的常用的词汇或者语句的所述词库语句库进行训练，能够提高噪声环境下语音识别的性能以及提升抗鲁棒性；将待接收者的音频数据输入至训练后的神经网络模型，得到输出内容并将所述输出内容通过语音向待接收者播放，使得输出内容更加准确地向待接收者播放，改善和提高了与待接收者交流的准确性，减少错误。

附图说明

图1为本发明复杂环境下的音频处理方法的步骤流程示意图；

图2为本发明具体实施例TDNN与RNN的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

如图1所示，本发明实施例提供一种复杂环境下的音频处理方法，包括步骤S100-S300：

S100、获取音频训练数据。

可选地，复杂环境指的是在交流过程中具有噪声干扰的环境，例如本发明实施例中以顾客与服务员交流的场景为例。需要说明的是，此时顾客为待接收者，音频训练数据为顾客与服务员交流的场景下实现采集的音频，顾客的每一提问服务员具有对应的回答，该服务员的回答作为真实标签。

S200、通过音频训练数据以及词库语句库对神经网络模型进行训练。

本发明实施例中，神经网络模型为时滞递归神经网络结合隐马尔可夫模型的深层神经网络声学模型，词库语句库包括对话场景下的常用的词汇或者语句。

可选地，步骤S200中的词库语句库的建立包括步骤S211-S212：

S211、获取对话场景下的对话语料。

可选地，对话场景以顾客与服务员交流的场景为例，为服务员制定标准的语言规范，使服务员以标准的语言规范进行交流，然后采集顾客与服务员交流过程中的内容，得到对话语料。

S212、根据对话语料进行智能模板提取识别，得到词库语句库。

本发明实施例中，智能模板结合有语音识别技术，根据对话语料提取规范的常用的词汇或者语句，然后利用该些常用的词汇或者语句建立词库语句库。

可选地，步骤S200包括步骤S221-S223：

S221、根据三音素对音频训练数据进行状态聚类，得到状态的后验。

可选地，根据单音素和/或三音素构建GMM-HMM声学模型，初始化新的HMM，根据词典、音素表以及关键词配置文件对音频训练数据进行状态聚类得到状态的后验。需要说明的是，关键词配置文件包括不同领域的词汇术语，音素表包括不同地区发音标准；HMM为隐马尔可夫模型、GMM为高斯混合模型。

S222、根据神经网络模型对音频训练数据进行处理。

具体地，通过GMM-HMM初始化模型求解音频训练数据对应哪个隐马尔科夫模型状态，将得到的音频训练数据标记为align-raw，在音频训练数据上利用维特比算法强制对齐状态，然后将音频训练数据的语音帧对应的特征向量，作为神经网络模型的输入，供神经网络模型对音频训练数据进行处理，确定处理结果。可选地，处理结果为词语或者句子，处理过程中利用前向传播，通过softmax层，得到音频训练数据的特征向量对应的pdf概率预测值，每一词语或者句子对应一个pdf概率预测值。

如图2所示，可选地，在对神经网络模型进行建模时，由于上下文信息主要通过分层的体系结构进行建模，每一层都以不同的时间分辨率进行音频帧的拼接，但是在TDNN的整体输入上下文是有限的，因此为了突出TDNN(时延神经网络)在训练结构中的变化,在此体系结构中,结合TDNN的中间添加另一个RNN层(时延神经网络)，混合后的RNN与TDNN得到时滞递归神经网络，能够更好的利用上下文的音频帧来进一步提高识别准确性。其中，t、t-n、t+n(n＝1,2……6)等内容对应的是不同时间分辨率进行音频帧的拼接。

S223、根据处理结果、状态的后验以及词库语句库进行训练。

可选地，步骤S223包括步骤S2231-S2233：

S2231、根据处理结果以及状态的后验确定关键词。

可选地，根据处理结果以及状态的后验进行关键词匹配，确定关键词。

S2232、根据关键词与词库语句库进行匹配，确定匹配结果。

可选地，根据关键词从词库语句库中寻找对应的解答，提取关键有效字词语句，得到匹配结果。

本发明实施例，结合处理结果、词典、音素表以及关键词配置文件，并与词库语句库进行匹配，进行音频数据增强，提高了噪声环境下语音识别的性能，并且对比了数据增强前后神经网络模型的输出，抗鲁棒性明显有所提升。而提出时滞递归神经网络结合隐马尔可夫模型的深层神经网络声学模型，并结合关键词匹配，确定匹配结果，解决各个行业关键词精准匹配的问题，改善和提高了服务员和顾客信息交流的准确性，减少错误，有利于提高服务质量。

S2233、根据匹配结果以及真实标签对神经网络模型进行训练。

可选地，步骤S2233包括步骤S22331-S22332：

S22331、在训练过程中反向传播迭代更新神经网络模型的参数。

具体地，在训练过程中反向传播，不断迭代更新更新神经网络模型的参数，以更新神经网络模型，提升神经网络模型的处理效果。

S22332、当迭代更新次数达到预设次数，或者根据真实标签以及匹配结果计算的损失值小于预设损失阈值，根据迭代更新后的参数得到训练后的神经网络模型。

可选地，当迭代更新次数达到预设次数结束迭代，将最后一次迭代更新后的参数作为最终的模型参数，得到训练后的神经网络模型；或者，根据真实标签以及匹配结果通过损失函数计算损失值，当损失值小于预设损失阈值，结束迭代，将最后一次迭代更新后的参数作为最终的模型参数，得到训练后的神经网络模型。需要说明的是，预设次数以及预设损失阈值可以根据需要进行调整。需要说明的是，当损失值不变化或者降低不明显时，结束训练，否则继续更新。

本发明实施例利用基于时滞递归神经网络结合隐马尔可夫模型的深层神经网络声学模型(即神经网络模型)，在训练过程中，根据所提取的初级结果、词典、音素表、关键词表配置文件，并与词库语句库进行比对匹配，从而提取关键有效字词语句，经过优化对比匹配，提高提取关键有效字词语句的准确性，使得训练后的神经网络模型的输出用于语音播放时不含有噪声(或者噪声低)、更加清晰。

S300、将待接收者的音频数据输入至训练后的神经网络模型，得到输出内容并将输出内容通过语音向待接收者播放。

具体地，将神经网络模型的输出内容进行音频转换为语音，然后并向待接收者播放。需要说明的是，待接收者为顾客，从而在噪声大的复杂环境下顾客也可以得到所需要的答案，避免了服务员听不清楚顾客的说话内容而影响交流。

可选地，在训练后的神经网络模型对待接收者的音频数据提取识别时，根据分词工具进行分词，检索新分出的词是否包含在原有的词库语句库，并将分出的词加入词，；对于未包含的词分两种情况，首先，该词切分后无法由原有词库语句库的词组组成，重新处理或者设置用户默认回复的内容输出；另外，如果出现多个生僻字，将所有的生僻词切分为更短的词组，对原有的词库语句库包含的长词组，根据词组序列，对其字符排列组合得到具体词汇。

获取模块，用于获取音频训练数据；

训练模块，用于通过音频训练数据以及词库语句库对神经网络模型进行训练；神经网络模型为时滞递归神经网络结合隐马尔可夫模型的深层神经网络声学模型，词库语句库包括对话场景下的常用的词汇或者语句；

播放模块，用于将待接收者的音频数据输入至训练后的神经网络模型，得到输出内容并将输出内容通过语音向待接收者播放。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种复杂环境下的音频处理装置，装置包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述实施例的复杂环境下的音频处理方法。可选地，装置包括但不限于手机、平板电脑、电脑等任意智能终端。

本发明实施例还提供一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述实施例的复杂环境下的音频处理方法。

本发明实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述实施例的复杂环境下的音频处理方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种复杂环境下的音频处理方法，其特征在于，包括：

获取音频训练数据；

将待接收者的音频数据输入至训练后的神经网络模型，得到输出内容并将所述输出内容通过语音向待接收者播放；

其中，所述词库语句库通过以下步骤确定：

获取对话场景下的对话语料；

根据所述对话语料进行智能模板提取识别，得到所述词库语句库；

所述通过所述音频训练数据以及词库语句库对神经网络模型进行训练，包括：

根据所述神经网络模型对所述音频训练数据进行处理；

根据处理结果、状态的后验以及所述词库语句库进行训练；

所述音频训练数据包括真实标签，所述根据处理结果、所述状态的后验以及所述词库语句库进行训练，包括：

根据所述处理结果以及所述状态的后验确定关键词；

2.根据权利要求1所述复杂环境下的音频处理方法，其特征在于：所述根据三音素对所述音频训练数据进行状态聚类，得到状态的后验，包括：

3.根据权利要求1所述复杂环境下的音频处理方法，其特征在于：所述根据所述匹配结果以及所述真实标签对所述神经网络模型进行训练，包括：

在训练过程中反向传播迭代更新所述神经网络模型的参数；

4.根据权利要求1-3任一项所述复杂环境下的音频处理方法，其特征在于：所述将所述输出内容通过语音向待接收者播放，包括：

将所述输出内容进行音频转换为语音并向待接收者播放。

5.一种复杂环境下的音频处理装置，其特征在于，包括：

获取模块，用于获取音频训练数据；

训练模块，用于通过所述音频训练数据以及词库语句库对神经网络模型进行训练；所述神经网络模型为时滞递归神经网络结合隐马尔可夫模型的深层神经网络声学模型，所述词库语句库包括对话场景下的常用的词汇或者语句；其中，所述词库语句库通过以下步骤确定：获取对话场景下的对话语料；根据所述对话语料进行智能模板提取识别，得到所述词库语句库；所述通过所述音频训练数据以及词库语句库对神经网络模型进行训练，包括：根据三音素对所述音频训练数据进行状态聚类，得到状态的后验；根据所述神经网络模型对所述音频训练数据进行处理；根据处理结果、状态的后验以及所述词库语句库进行训练；所述音频训练数据包括真实标签，所述根据处理结果、所述状态的后验以及所述词库语句库进行训练，包括：根据所述处理结果以及所述状态的后验确定关键词；根据所述关键词与所述词库语句库进行匹配，确定匹配结果；根据所述匹配结果以及所述真实标签对所述神经网络模型进行训练；

6.一种复杂环境下的音频处理装置，其特征在于，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-4中任一项所述方法。

7.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-4中任一项所述方法。