CN104575509A

CN104575509A - 语音增强处理方法及装置

Info

Publication number: CN104575509A
Application number: CN201410834628.1A
Authority: CN
Inventors: 赵恒艺
Original assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd
Current assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority date: 2014-12-29
Filing date: 2014-12-29
Publication date: 2015-04-29

Abstract

本发明提供一种语音增强处理方法及装置，所述方法包括：获取来自终端设备的语音信息，所述语音信息中携带有语音增强辅助信息；若根据所述终端设备的设备标识判断获知所述语音信息需要进行语音增强处理，则根据所述语音增强辅助信息在本地的多个语音增强算法中，获取对应的语音增强算法；根据获取的所述语音增强算法对所述语音信息进行语音增强处理。通过本发明的技术方案，可以使得语音增强处理过程更具针对性，在确保语音增强质量的情况下降低了服务器不必要的计算负担。

Description

语音增强处理方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种语音增强处理方法及装置。

背景技术

随着智能硬件的声学环境越来越复杂，对于智能硬件的语音识别也愈发有挑战性，当用户说话时离麦克风比较远时，智能硬件有可能识别不出用户的语音输入，因此需要对输入的语音进行降噪和语音增强处理。现有技术通过在智能硬件中设置语音增强芯片或者通过智能硬件的中央处理器(CPU)对输入的语音进行语音增强，如果采用语音增强芯片对输入的语音进行语音增强处理，当对语音增强质量要求高时，需要选取能够适用计算复杂度高的语音增强芯片以提升语音增强质量，从而会提高终端设备的硬件成本，如果采用CPU对输入的语音进行语音增强，则会占用和消耗终端设备本地大量的计算资源。

发明内容

有鉴于此，本发明提供一种语音增强处理处理方法及装置，进一步节约终端设备的硬件成本以及计算资源。

根据本方法实施例的第一方面，提供一种语音增强处理方法，应用在服务器上，包括：

获取来自终端设备的语音信息，所述语音信息中携带有语音增强辅助信息；

若根据所述终端设备的设备标识判断获知所述语音信息需要进行语音增强处理，则根据所述语音增强辅助信息在本地的多个语音增强算法中，获取对应的语音增强算法；

根据获取的所述语音增强算法对所述语音信息进行语音增强处理。

根据本方法实施例的第二方面，提供一种语音增强处理装置，应用在服务器上，包括：

第一获取模块，用于获取来自终端设备的语音信息，所述语音信息中携带有语音增强辅助信息；

第二获取模块，用于若根据所述终端设备的设备标识判断获知所述第一获取模块获取的所述语音信息需要进行语音增强处理，则根据所述语音增强辅助信息在本地的多个语音增强算法中，获取对应的语音增强算法；

语音增强模块，用于根据所述第二获取模块获取的所述语音增强算法对所述语音信息进行语音增强处理。

由以上技术方案可见，本发明对根据终端设备的设备标识判断获知语音信息需要进行语音增强处理，根据语音增强辅助信息在本地的多个语音增强算法中，获取对应的语音增强算法，由于可以适用在服务器上，因此避免了在终端设备上进行语音增强，从而减轻了终端设备的计算负担；由于可以对终端设备的语音信息采用对应的语音增强算法，避免了不必要的语音增强算法对语音信息进行增强处理，使对语音信息进行语音增强更具针对性，从而能够最大化地降低服务器在进行语音增强时的计算复杂度，提高语音增强的质量，进而使后续的语音识别更准确。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明实施例。

附图说明

图1是本发明一种实施方式中语音增强处理方法的流程图；

图2是本发明另一种实施方式中语音增强处理方法的流程图；

图3是本发明再一种实施例方式中语音增强处理方法的流程图；

图4是本发明一种实施方式中语音增强服务器的结构图；

图5是本发明一种实施方式中语音增强处理的***结构图；

图6是本发明一种实施方式中语音增强处理装置的逻辑结构图；

图7是本发明另一种实施方式中语音增强处理装置的逻辑结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请通过服务器根据语音增强辅助信息对获取到的终端设备的语音信息确定语音增强的语音增强算法，并通过对应的语音增强算法对语音信息进行语音增强处理，因此避免了在终端设备上进行语音增强，从而减轻了终端设备的计算负担；由于可以对终端设备的语音信息采用对应的语音增强算法，从而可以采用更具针对性的语音增强算法对终端设备的语音信息进行语音增强处理，避免服务器采用计算复杂度高的语音增强算法对终端设备的语音信息进行不必要的语音增强处理，最大化地降低服务器在进行语音增强处理时计算复杂度，提高语音增强的质量，进而使后续的语音识别更准确。为对本申请进行进一步说明，提供下列实施例。

请参考图1，图1是本发明一种实施方式中语音增强处理方法的流程图，可以应用在服务器上，本发明实施例中的终端设备可以包括：车载电视、智能遥控器、智能手机、平板电脑等各种具有语音输入功能的设备，包括如下步骤：

步骤101，获取来自终端设备的语音信息，其中，语音信息中携带有语音增强辅助信息。

在一实施例中，可以通过终端设备的麦克风捕获到模拟语音，终端设备对模拟语音进行模数转换以及语音压缩后，形成本发明实施例中所述的语音信息。

步骤102，若根据终端设备的设备标识判断获知语音信息需要进行语音增强处理，则根据语音增强辅助信息在本地的多个语音增强算法中，获取对应的语音增强算法。

由于语音增强不仅涉及到语音信号数字处理，还涉及到人的听觉感知和语音学范畴；再加上终端设备所处环境的不同，噪声来源也会不同，因而语音增强算法与终端设备所处的环境相关；此外，由于终端设备当前的工作状态的不同，终端设备通过麦克风捕获到的模拟语音也会不同，例如，终端设备处于免提模式以及地图模式时，麦克风能够较容易捕获到外界的噪声，因此本发明实施例可以将工作状态信息以及环境参数信息以语音增强辅助信息的方式发送给服务器，服务器通过语音增强辅助信息确定在本地的多个语音增强算法中获取对应的语音增强算法，从而可以获取到更具针对性的语音增强算法从而对语音信息进行语音增强。

步骤103，根据获取的语音增强算法对语音信息进行语音增强处理。

在一实施例中，例如，终端设备处于免提模式或者地图模式，对处于免提模式与地图模式的终端设备的语音信息而言，可以采用计算复杂度更高的语音增强算法进行语音增强，而对于正常模式下的终端设备，可以采用计算复杂度较低的语音增强算法进行语音增强，由此使得语音增强实现过程更具针对性，在确保语音增强质量的情况下可以降低服务器不必要的计算负担。在另一实施例中，终端设备处于商场中(噪声来源以人的吵杂声为主)，或者，终端设备处于马路上(噪声来源以车辆的鸣笛声为主)，或者，终端设备处于教室(基本上无噪声)，在该种情形下，若终端设备处于商场中，可以采用以消除人的吵杂声(可以通过频率来识别)的语音增强算法对终端设备的语音信息进行语音增强，若终端设备位于马路上，可以采用以消除车辆的鸣笛声的语音增强算法对终端设备的语音信息进行语音增强，若终端设备处于教室，可以采用较简单的普通的语音增强算法对终端设备的语音信息进行语音增强，由此使得语音增强处理采用更具针对性的语音增强算法。

从步骤101-步骤103可以看出，本发明根据终端设备的设备标识判断获知语音信息需要进行语音增强处理，根据语音增强辅助信息在本地的多个语音增强算法中，获取对应的语音增强算法，由于可以适用在服务器上，因此避免了在终端设备上进行语音增强，从而减轻了终端设备的计算负担；由于可以对终端设备的语音信息采用对应的语音增强算法，避免了不必要的语音增强算法对终端设备的语音信息进行增强处理，从而能够最大化地降低服务器在进行语音增强时的计算复杂度，提高语音增强的质量，进而使后续的语音识别更准确。

请参见图2，图2是本发明另一种实施方式中语音增强处理方法的流程图，本实施例可以应用于服务器上，本实施例以语音增强辅助信息为终端设备的工作状态信息为例进行示例性说明，包括如下步骤：

步骤201，获取来自终端设备的语音信息，语音信息中携带有终端设备的工作状态信息。

步骤202，若根据终端设备的设备标识判断获知语音信息需要进行语音增强处理，则根据工作状态信息确定终端设备当前的工作状态，工作状态包括正常工作状态、免提模式工作状态和地图模式工作状态。

步骤203，在本地的多个语音增强算法中，获取与终端设备当前工作状态对应的语音增强算法。

步骤204，根据获取的语音增强算法对语音信息进行语音增强处理。

上述步骤201的详细描述可以参考上述步骤101，在此不再详述。

在上述步骤202中，例如，在已有的各种类型能有获取到语音信息的终端设备中，智能遥控器与车载电视接收到的语音信息不需要进行语音增强处理，智能电视与平板电脑的语音信息需要进行语音增强处理，因此可以通过终端设备的设备标识来识别终端设备属于需要进行语音增强的终端设备还是需要进行语音增强的终端设备。

在一实施例中，终端设备的工作状态包括：免提模式工作状态、地图模式工作状态、正常模式工作状态。例如，在免提模式工作状态下，由于终端设备上的麦克风可以接收到通信对端的语音，因此通信对端的语音对终端设备的麦克风的语音输入会形成噪声干扰，在地图模式工作状态下，由于地图的导航***中的语音提示，也会给麦克风的语音输入形成噪声干扰，而在正常模式工作状态下，终端设备的用户通过近距离靠近麦克风发出声音，而外界的噪声对麦克风的语音输入不会形成太大的噪声干扰。

在步骤203中，在一实施例中，本地的多个语音增强算法可以包括：基于谱相减的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强算法、基于听觉掩蔽效应的语音增强算法、基于独立分量分析的语音增强算法、基于神经网络的语音增强算法、基于深度神经网络(Deep Neural Networks，DNN)的语音增强算法等等。相应地，可以对上述语音增强算法依据复杂度进行等级划分，例如，将基DNN的语音增强算法划分为第一计算复杂度的语音增强算法，将基于听觉掩蔽效应的语音增强算法、基于独立分量分析的语音增强算法、基于神经网络的语音增强算法划分为第二计算复杂度的语音增强算法，将基于谱相减的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法划分为第三计算复杂度的语音增强算法。本领域技术人员可以理解的是，可以依据计算复杂度对不同的语音增强算法进行更多个的等级划分，上述第一计算复杂度、第二计算复杂度、第三计算复杂度仅为本发明实施例的示例性说明，其并不能形成对本发明实施例的限制，通过上述例举的语音增强算法可以看出，本发明实施例通过在服务器上执行计算复杂度很高的DNN语音增强算法，还可以实现在服务器上进行大量的训练，从而得到更好的语音增强模型。

在步骤204中，例如，若终端设备处于地图模式工作状态或者免提模式工作状态，可以采用计算复杂度更高的第一计算复杂度的语音增强算法进行语音增强，若终端设备处于正常模式工作状态，可以采用计算复杂度较低的第二计算复杂度以及第三计算复杂度的语音增强算法进行语音增强，由此使得终端设备的语音增强处理过程可以采用更具针对性的语音增强算法，在确保语音增强质量的情况下降低了服务器不必要的计算负担。

从步骤201-步骤204可以看出，本实施例中，通过终端设备当前的工作状态对语音信息采用不同的计算复杂度的语音增强算法进行语音增强，由此使得语音增强可以采用更具针对性的语音增强算法，在确保语音增强质量的情况下降低了服务器不必要的计算负担。

请参见图3，图3是本发明再一种实施例方式中语音增强处理方法的流程图，本实施例可以应用于服务器上，本实施例以语音增强辅助信息为终端设备所处环境的环境参数信息为例进行示例性说明，包括如下步骤：

步骤301，获取来自终端设备的语音信息，所述语音信息中携带有终端设备所处环境的环境参数信息。

步骤302，若根据终端设备的设备标识判断获知语音信息需要进行语音增强处理，则根据环境参数信息确定噪声类型。

步骤303，在本地的多个语音增强算法中，获取与噪声类型对应的语音增强算法。

步骤304，根据获取的语音增强算法对语音信息进行语音增强处理。

步骤301的详细描述可以参考上述步骤101的详细描述，在此不再详述。

在步骤302中，在一实施例中，由于噪声受环境的影响比较大，因此可以通过终端设备所处环境进行分类，从而可以实现对不同的噪声采用相对应的语音增强算法，从而使得对终端设备的语音进行更具针对性的降噪增强处理。若终端设备处于商场中(噪声来源以人的吵杂声为主)，可以采用以消除人的声音(可以通过频率来识别)的语音增强算法进行语音增强，如终端设备处于马路(噪声来源以车辆的鸣笛声为主)上，可以采用以消除车辆声音的语音增强算法进行语音增强，若终端设备处于教室，可以采用较简单的普通的语音增强算法进行语音增强即可，由此使得语音增强处理采用更具针对性的语音增强算法。

在步骤303中，与上述步骤302的描述相对应，如果从语音信息中检测到的环境参数信息表示终端设备处于马路上，则可以针对车辆鸣笛的噪声进行语音增强处理的语音增强算法，如果从语音信息中检测到的环境参数信息表示终端设备处于商场，则可以针对人的超噪声进行语音增强处理的语音增强算法，如果从语音信息中检测到的环境参数信息表示终端设备处于教室，则可以采用计算复杂度较低的语音增强算法，由于此时对终端设备的语音信息进行更具针对性的语音增强处理。

从步骤301-步骤304可以看出，本实施例通过对噪声来源进行分类，从而可以对终端设备的语音信息采用更具针对性的语音增强算法，从而可以对终端设备的语音进行针对性的语音增强处理，避免对噪声较小的语音进行复杂度高的语音增强算法，从而可以降低语音增强的计算复杂度，还可以避免对噪声较大的语音由于进行了复杂度较低的语音增强算法导致语音增强效果不佳的情形，从而确保后期语音识别的正常进行。

对应于上述的语音增强处理方法，本申请还提出了图4所示的语音增强服务器的结构图。请参考图4，在硬件层面，该语音增强服务器包括处理器、外部接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成语音增强处理装置。当然，除了软件实现方式之外，本申请并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

为了更清楚地理解本发明实施例的技术方案，请参见图5，图5是本发明一种实施方式中语音增强处理的***结构图，终端设备50通过语音输入模块51处理后将用户通过麦克风输入的模拟语音转换为数字信号，经过主CPU52中的语音压缩模块56进行语音压缩后，发送至语音增强服务器53，语音增强服务器53采用本发明实施例所述的语音增强处理方法后，将增强后的语音信发送给语音识别服务器54，以供语音识别服务器54进行语音识别、语义理解、语音合成等处理，在语音识别服务器54对用户的语音信息进行识别后，向语音识别服务器54向终端设备50返回与用户进行交互的语音，例如，语音识别服务器54根据用户的语音进行识别后，做出相应的回复，并通过语音交互模块55与用户进行语音交互。其中，语音交互模块55可以通过语音应用程序(app)的方式设置在终端设备50上，用户可以通过app的设置选项确定终端设备当前的环境参数信息，从而可以确定于当前所处环境相对应的语音增强算法。通过该***结构图可以看出，本发明实施例通过语音增强服务器54可以采用复杂度更高的语音增强算法对终端设备50的语音进行语音增强，节省了终端设备50对语音进行语音增强的计算资源；此外，通过上述实施例可以获知，可以直接在语音增强服务器54对语音增强算法进行更新，避免了在终端设备50对语音增强算法进行升级，从而提高用户进行语音增强时的体验。

请参考图6，图6是本发明一种实施方式中语音增强处理装置的逻辑结构图，可以应用在服务器上，该语音增强处理装置可以包括：

第一获取模块61，用于获取来自终端设备的语音信息，语音信息中携带有语音增强辅助信息；

第二获取模块62，用于若根据终端设备的设备标识判断获知第一获取模块61获取的语音信息需要进行语音增强处理，则根据语音增强辅助信息在本地的多个语音增强算法中，获取对应的语音增强算法；

语音增强模块63，用于根据第二获取模块62获取的语音增强算法对语音信息进行语音增强处理。

本发明通过第二获取模块62对第一获取模块61获取到的终端设备的语音信息确定语音增强的语音增强算法，语音增强模块63通过对应的语音增强算法对语音信息进行语音增强处理，因此避免了在终端设备上进行语音增强，从而减轻了终端设备的计算负担；由于语音增强模块63可以对终端设备的语音信息采用对应的语音增强算法，从而可以采用更具针对性的语音增强算法对终端设备的语音信息进行语音增强处理，避免服务器采用计算复杂度高的语音增强算法对终端设备的语音信息进行不必要的语音增强处理，最大化地降低服务器在进行语音增强处理时计算复杂度，提高语音增强的质量，进而使后续的语音识别更准确。

请参考图7，图7是本发明另一种实施方式中语音增强处理装置的逻辑结构图，本实施例在上述图6实施例的基础上进行说明。

在一实施例中，语音增强辅助信息可以为终端设备的工作状态信息，第二获取模块62可包括：

第一确定单元621，用于根据工作状态信息确定终端设备当前的工作状态，工作状态包括正常工作状态、免提模式工作状态和地图模式工作状态；

第一获取单元622，用于在本地的多个语音增强算法中，获取与第一确定单元621确定的终端设备当前工作状态对应的语音增强算法。

第一获取单元622通过终端设备当前的工作状态获取对语音信息所采用的语音增强算法，由此使得语音增强可以采用更具针对性的语音增强算法，在确保语音增强质量的情况下降低了服务器不必要的计算负担。

在另一实施例中，语音增强辅助信息为终端设备所处环境的环境参数信息，第二获取模块62可包括：

第二确定单元623，用于根据环境参数信息确定噪声类型；

第二获取单元624，用于在本地的多个语音增强算法中，获取与第二确定单元623确定的噪声类型对应的语音增强算法。

第二获取单元624通过终端设备当前的环境参数信息获取对语音信息所采用的语音增强算法，由此使得语音增强可以采用更具针对性的语音增强算法，在确保语音增强质量的情况下降低了服务器不必要的计算负担。

通过以上描述可以看出，本发明提供的语音增强处理方法及装置，根据语音增强辅助信息在本地的多个语音增强算法中，获取对应的语音增强算法，由于适用在服务器上，因此避免了在终端设备上进行语音增强，从而减轻了终端设备的计算负担；由于可以对终端设备的语音信息采用对应的语音增强算法，避免了不必要的语音增强算法对语音信息进行增强处理，使对语音信息进行语音增强更具针对性，从而能够最大化地降低服务器在进行语音增强处理时计算复杂度，提高语音增强的质量，进而使后续的语音识别更准确。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音增强处理方法，应用在服务器上，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语音增强辅助信息为所述终端设备的工作状态信息。

3.根据权利要求2所述的方法，其特征在于，所述根据所述语音增强辅助信息在本地的多个语音增强算法中，获取对应的语音增强算法，包括：

根据所述工作状态信息确定所述终端设备当前的工作状态，所述工作状态包括正常工作状态、免提模式工作状态和地图模式工作状态；

在本地的多个语音增强算法中，获取与所述终端设备当前工作状态对应的语音增强算法。

4.根据权利要求1所述的方法，其特征在于，所述语音增强辅助信息为所述终端设备所处环境的环境参数信息。

5.根据权利要求4所述的方法，其特征在于，所述根据所述语音增强辅助信息在本地的多个语音增强算法中，获取对应的语音增强算法，包括：

根据所述环境参数信息确定噪声类型；

在本地的多个语音增强算法中，获取与所述噪声类型对应的语音增强算法。

6.一种语音增强处理装置，应用在服务器上，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述语音增强辅助信息为所述终端设备的工作状态信息。

8.根据权利要求7所述的装置，其特征在于，所述第二获取模块包括：

第一确定单元，用于根据所述工作状态信息确定所述终端设备当前的工作状态，所述工作状态包括正常工作状态、免提模式工作状态和地图模式工作状态；

第一获取单元，用于在本地的多个语音增强算法中，获取与所述第一确定单元确定的所述终端设备当前工作状态对应的语音增强算法。

9.根据权利要求6所述的装置，其特征在于，所述语音增强辅助信息为所述终端设备所处环境的环境参数信息。

10.根据权利要求9所述的装置，其特征在于，所述第二获取模块包括：

第二确定单元，用于根据所述环境参数信息确定噪声类型；

第二获取单元，用于在本地的多个语音增强算法中，获取与所述第二确定单元确定的所述噪声类型对应的语音增强算法。