CN112669861B

CN112669861B - 音频数据处理方法、装置、设备和存储介质

Info

Publication number: CN112669861B
Application number: CN202011461369.4A
Authority: CN
Inventors: 袁俊; 陈昌滨; 王俊超; 聂志朋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2023-04-07
Anticipated expiration: 2040-12-09
Also published as: CN112669861A

Abstract

本申请公开了音频数据处理方法、装置、设备和存储介质，涉及语音技术、深度学习等人工智能技术领域。具体实现方案为：获取待处理音频数据的原始特征张量；根据原始特征张量与可学习的权值张量，获取待处理特征张量和关键特征张量；分别对待处理特征张量和关键特征张量中的目标维度进行维度变换，获取待压缩特征张量和候选关键特征张量；根据待压缩特征张量和候选关键特征张量，获取权重矩阵；根据权重矩阵和候选关键特征张量，获取目标特征张量，对目标特征张量进行处理，获取压缩特征张量；将压缩特征张量输入神经网络进行处理，获取待处理音频数据的处理结果。由此，在保证信息压缩质量的同时提高信息压缩效率，提高后续语音处理效果。

Description

音频数据处理方法、装置、设备和存储介质

技术领域

本申请涉及数据处理技术领域中的语音技术、深度学习等人工智能技术领域，尤其涉及一种音频数据处理方法、装置、设备和存储介质。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几个大方向。

通常，在人工神经网络中，需要通过信息瓶颈(Inform ation Bottleneck)结构来压缩特征维度，以保留主要特征，去除不必要的信息。举例而言，在音色转换(VoiceConversion)神经网络中常常设计有信息瓶颈，通常通过压缩通道维在保留原始语言内容和风格的同时挤除原始音色，以实现较好的音色转换效果。

相关技术中，通过池化层采取过于极端的方式去压缩维度，比如最大池化处理只取最大值而忽略一些信息细节，再比如平均池化处理又过于平均而弱化主要信息，因此，压缩效率和效果都比较差。

发明内容

本公开提供了一种用于音频数据处理的方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种音频数据处理方法，包括：

获取待处理音频数据的原始特征张量，并根据所述原始特征张量与可学习的权值张量，获取待处理特征张量和关键特征张量；

分别对所述待处理特征张量和所述关键特征张量进行维度变换，获取待压缩特征张量和候选关键特征张量；

获取权重矩阵，并根据所述权重矩阵和所述候选关键特征张量，获取目标特征张量；

对所述目标特征张量进行处理，获取压缩特征张量输入神经网络进行处理，获取所述待处理音频数据的处理结果。

根据本公开的另一方面，提供了一种音频数据处理装置，包括：

第一获取模块，用于获取待处理音频数据的原始特征张量；

第二获取模块，用于根据所述原始特征张量与可学习的权值张量，获取待处理特征张量和关键特征张量；

第三获取模块，用于分别对所述待处理特征张量和所述关键特征张量中的目标维度进行维度变换，获取待压缩特征张量和候选关键特征张量；

第四获取模块，用于获取权重矩阵；

第五获取模块，用于根据所述权重矩阵和所述候选关键特征张量，获取目标特征张量；

处理模块，用于对所述目标特征张量进行处理，获取压缩特征张量，将所述压缩特征张量输入神经网络进行处理，获取所述待处理音频数据的处理结果。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例描述的音频数据处理方法。

根据第四方面，提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述实施例描述的音频数据处理方法。

根据第五方面，提出了一种计算机程序产品，包括计算机程序，当所述计算机程序产品中的指令由处理器执行时，使得服务器能够执行上述实施例所述的音频数据处理方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的音频数据处理方法的流程图；

图2是根据本申请第二实施例的音频数据处理方法的流程图；

图3是根据本申请第三实施例的音频数据处理装置的结构示意图；

图4是用来实现本申请实施例的音频数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在实际应用中，比如音色转换，通过压缩通道维在保留原始语言内容和风格的同时挤除原始音色，以实现较好的音色转换效果，相关压缩技术中，不能够很好调节主、次信息的比例，压缩效果和效率都比较差。

针对上述问题，本申请提出一种音频数据处理方法，既可以显式地利用音频特征的内在关联从而更有效地压缩信息，又可以实现主、次信息突出程度可调节。

更具体地，获取待处理音频数据的原始特征张量；根据原始特征张量与可学习的权值张量，获取待处理特征张量和关键特征张量；分别对待处理特征张量和关键特征张量中的目标维度进行维度变换，获取待压缩特征张量和候选关键特征张量；获取权重矩阵，并根据权重矩阵和候选关键特征张量，获取目标特征张量，对目标特征张量进行处理，获取压缩特征张量；将压缩特征张量输入神经网络进行处理，获取待处理音频数据的处理结果。由此，在保证信息压缩质量的同时提高信息压缩效率，提高后续语音处理效果。

具体地，图1是根据本申请第一实施例的音频数据处理方法的流程图，音频数据处理方法用于电子设备中，其中，电子设备可以为任一具有计算能力的设备，例如可以为个人电脑(Personal Computer，简称PC)、移动终端等，移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作***、触摸屏和/或显示屏的硬件设备比如智能电视、智能冰箱等。

如图1所示，该方法包括：

步骤101，获取待处理音频数据的原始特征张量，并根据原始特征张量与可学习的权值张量，获取待处理特征张量和关键特征张量。

在本申请实施例中，待处理音频数据可以是通过电子设备的麦克风阵列采集的音频数据也可以是接收其他电子设备发送的音频数据，具体根据应用场景选择设置。

在本申请实施例中，获取待处理音频数据的原始特征张量的方式有很多种，可以根据应用场景选择设置，举例说明如下.

第一种示例，通过卷积神经网络等提取待处理音频数据的声学特征、词法特征、韵律信息、通道信息、短时能量、短时过零率等音频特征，根据音频特征生成N维度的原始特征张量，其中，N为正整数，一般选择三维或者大于三维的原始特征张量。

第二种示例，对待处理音频数据进行采样，通过不同层的神经网络对采样获取的音频数据进行提取一个或者多个音频特征提取获取原始特征张量。

在本申请实施例中，可学习的权值张量可以理解为可以更新的权值张量，比如神经网络里面的全连接层，Y＝WX+B，权值张量W和B都是可更新的，即可以从给定训练数据，根据设定的损失函数用误差反传算法进行更新。

在本申请实施例中，原始特征张量可以理解为需要压缩的特征张量，进一步地，根据原始特征张量与可学习的权值张量，获取待处理特征张量和关键特征张量的方式有很多种，举例说明如下。

作为一种可能实现方式，将原始特征张量与可学习的第一权值张量进行矩阵相乘，获取待处理特征张量，将原始特征张量与可学习的第二权值张量进行矩阵相乘，获取关键特征张量。

作为另一种可能实现方式，获取可学习的第一权值张量，根据可学习的第一权值张量进行转置等处理获取第二权值张量，将原始特征张量分别与第一权值张量和第二权值张量进行矩阵相乘，获取关键特征张量。

在本申请实施例中，待处理特征张量可以理解为对原始特征张量的预压缩，是子注意力机制中的查询张量，用来索引全量信息中的主要信息；关键特征张量可以理解为是注意力机制中的关键值和属性值的一一对应关系。

步骤102，分别对待处理特征张量和关键特征张量中的目标维度进行维度变换，获取待压缩特征张量和候选关键特征张量。

在本申请实施例中，分别对待处理特征张量和关键特征张量中的目标维度进行维度变换，获取待压缩特征张量和候选关键特征张量的方式有很多种，可以根据应用场景需要进行选择设置，举例说明如下。

第一种示例，在待处理特征张量的目标维度前***目标维度矩阵，获取待压缩特征张量，将关键特征张量的目标维度进行拆分，获取候选关键特征张量。

第二种示例，在待处理特征张量的目标维度前***目标维度矩阵，获取待压缩特征张量，在关键特征张量的目标维度前***目标维度矩阵，获取候选关键特征张量。

需要说明的是，目标维度可以根据应用场景需要进行选择设置，通常为了提高计算效率，目标维度设置在最后一维度，如果需要压缩维度不在目标维度可以将压缩维度调转到目标维度进行后续处理。

步骤103，获取权重矩阵，并根据权重矩阵和候选关键特征张量，获取目标特征张量。

步骤104，对目标特征张量进行处理，获取压缩特征张量输入神经网络进行处理，获取待处理音频数据的处理结果。

在本申请实施例中，获取权重矩阵的方式有很多种，可以根据应用场景选择设置，举例说明如下。

第一种示例，根据待压缩特征张量和候选关键特征张量，获取权重矩阵。

其中，根据待压缩特征张量和候选关键特征张量，获取权重矩阵的方式也有很多种，比如将待压缩特征张量和候选关键特征张量的目标维度进行矩阵相乘，对进行矩阵相乘获取的特征张量中目标维度对应的数据进行处理，获取权重矩阵；再比如直接将待压缩特征张量和候选关键特征张量进行矩阵相乘，对进行矩阵相乘获取的特征张量中每一维度对应的数据进行处理，获取权重矩阵。

第二种示例，根据多个历史压缩过程中的权重矩阵进行分析，确定合适权重矩阵。

在本申请实施例中，根据权重矩阵和候选关键特征张量，获取目标特征张量的方式有很多种，可以根据应用场景选择设置，举例说明如下。

第一种示例，对候选关键特征张量的目标维度进行转置处理，获取转置关键特征张量，将权重矩阵和转置关键特征张量进行矩阵相乘，获取目标特征张量。

第二种示例，直接对候选关键特征张量进行转置处理，获取转置关键特征张量，将权重矩阵和转置关键特征张量进行矩阵相乘，获取目标特征张量。

进一步地，对目标特征张量进行处理，获取压缩特征张量，比如对目标特征张量进行维度变换后去掉特定维度，获取压缩特征张量。

最后，将压缩特征张量输入神经网络进行处理，获取待处理音频数据的处理结果，比如输入已训练的音色转换神经网络进行处理，获取音色转换结果。

本申请实施例的音频数据处理方法，通过获取待处理音频数据的原始特征张量，并根据原始特征张量与可学习的权值张量，获取待处理特征张量和关键特征张量，分别对待处理特征张量和关键特征张量中的目标维度进行维度变换，获取待压缩特征张量和候选关键特征张量，获取权重矩阵，并根据权重矩阵和候选关键特征张量，获取目标特征张量，对目标特征张量进行处理，获取压缩特征张量输入神经网络进行处理，获取待处理音频数据的处理结果。由此，通过可学习的权值张量来实现主次信息权重的调节，在保证信息压缩质量的同时提高信息压缩效率，提高后续语音处理效果。

基于上述实施例，可以根据应用场景选择不同的方式来进行信息压缩，下面结合图2并以具体例子进行详细说明。

图2是根据本申请第二实施例的音频数据处理方法的流程图。

如图2所示，该方法包括：

步骤201，获取待处理音频数据的原始特征张量，将原始特征张量与可学习的第一权值张量进行矩阵相乘，获取待处理特征张量，将原始特征张量与可学习的第二权值张量进行矩阵相乘，获取关键特征张量。

举例而言，输入特征张量X，比如为(维度N*T*C_i)，获取的维度压缩特征张量Y(维度N*T*C_o)，且C_i＝nC_o，n为正整数并且n≥1，用来控制信息瓶颈宽度，即压缩比。

具体地，将X分别与第一权值张量W_q(维度C_i*C_o)和第二权值张量W_k(维度C_i*C_j)做矩阵乘法即Q＝XW_q和K＝XW_k，得到待处理特征张量Q(维度N*T*C_o)和关键特征张量K(维度N*T*C_j)，其中，第一权值张量和第二权值张量可以根据应用需要选择设置。

其中，待处理特征张量Q即为对输入特征张量X的预压缩，是自注意力机制中的“查询”张量，用来索引全量信息中的主要信息；关键特征张量K是自注意力机制中的关键值和属性值。

步骤202，在待处理特征张量的目标维度前***目标维度矩阵，获取待压缩特征张量，将关键特征张量的目标维度进行拆分，获取候选关键特征张量。

步骤203，将待压缩特征张量和候选关键特征张量的目标维度进行矩阵相乘，对进行矩阵相乘获取的特征张量中目标维度对应的数据进行处理，获取权重矩阵。

步骤204，对候选关键特征张量的目标维度进行转置处理，获取转置关键特征张量，将权重矩阵和转置关键特征张量进行矩阵相乘，获取目标特征张量。

继续以上述例子为例，对待处理特征张量Q(维度N*T*C_o)和关键特征张量K(维度N*T*C_j)分别做维度变换，在待处理特征张量Q最后一维前***一维，得到待压缩特征张量Q'(维度N*T*1*C₀)，将关键特征张量K最后一维C_j拆分成两维得到候选关键特征张量K'维度N*T*C₀*n)，候选关键特征张量K'中包含n种不同的压缩信息。

将待压缩特征张量Q'和候选关键特征张量K'最后两维做矩阵乘法，并沿最后一维做归一化处理操作，得到权重矩阵A(维度N*T*1*n)，即A＝softmax(Q'K'/t)；其中，softmax()为归一化函数。

其中，超参数t是大于0的实数，可用来连续调节主、次信息的突出程度，当t取值越大，主、次信息之间的权重越均衡；当t取值越小，越突出主要信息，忽略细节。

具体地，待压缩特征张量Q'和候选关键特征张量K'的矩阵乘，可以视为X的主要信息和n种不同压缩信息的相关操作，得到信息间的关联，关联越强则A中对应权值越大，关联越弱则A中对应权值越小。

进一步地，在最后两维上，对权重矩阵A和候选关键特征张量K'做矩阵乘法，得到目标特征张量O(维度N*T*1*C₀)，即O＝A K'^T。

其中，上标T表示对候选关键特征张量K'最后两维做矩阵转置，目标特征张量O是主、次信息的融合，融合的权值蕴含在权重矩阵A中，通过权值张量W_q和W_k来实现主、次信息权重自学习和自适应，通过超参数t可以人工调节主、次信息的突出程度。

进一步地，对目标特征张量O做维度变换，比如去掉第3维，即可得到压缩特征张量Y维度(N*T*C₀)。

步骤205，将压缩特征张量输入神经网络进行处理，获取待处理音频数据的处理结果。

最后，将压缩特征张量输入神经网络进行处理，获取待处理音频数据的处理结果，比如输入音色转换神经网络进行处理，获取音色转换结果。由此，实现高效的信息压缩，既可以显式地利用特征的内在关联从而更有效地压缩信息，又可以实现主、次信息间的权重可调节。

本申请实施例的音频数据处理方法，通过获取待处理音频数据的原始特征张量，将原始特征张量与可学习的第一权值张量进行矩阵相乘，获取待处理特征张量，将原始特征张量与可学习的第二权值张量进行矩阵相乘，获取关键特征张量，在待处理特征张量的目标维度前***目标维度矩阵，获取待压缩特征张量，将关键特征张量的目标维度进行拆分，获取候选关键特征张量，将待压缩特征张量和候选关键特征张量的目标维度进行矩阵相乘，对进行矩阵相乘获取的特征张量中目标维度对应的数据进行处理，获取权重矩阵，对候选关键特征张量的目标维度进行转置处理，获取转置关键特征张量，将权重矩阵和转置关键特征张量进行矩阵相乘，获取目标特征张量，将压缩特征张量输入神经网络进行处理，获取待处理音频数据的处理结果。由此，通过可学习的权值张量来实现主次信息权重的调节，在保证信息压缩质量的同时提高信息压缩效率，提高后续语音处理效果。

为了实现上述实施例，本申请还提出了一种音频数据处理装置。图3是根据本申请第三实施例的音频数据处理装置的结构示意图，如图3所示，该音频数据处理装置包括：第一获取模块301、第二获取模块302、第三获取模块303、第四获取模块304和处理模块305。

其中，第一获取模块301，用于获取待处理音频数据的原始特征张量。

第二获取模块302，用于根据原始特征张量与可学习的权值张量，获取待处理特征张量和关键特征张量。

第三获取模块303，用于分别对待处理特征张量和关键特征张量中的目标维度进行维度变换，获取待压缩特征张量和候选关键特征张量。

第四获取模块304，用于获取权重矩阵；

第五获取模块305，用于根据权重矩阵和候选关键特征张量，获取目标特征张量。

处理模块306，用于对目标特征张量进行处理，获取压缩特征张量，将压缩特征张量输入神经网络进行处理，获取待处理音频数据的处理结果。

在本申请的一个实施例中，第二获取模块302，具体用于：将原始特征张量与可学习的第一权值张量进行矩阵相乘，获取待处理特征张量；将原始特征张量与可学习的第二权值张量进行矩阵相乘，获取关键特征张量。

在本申请的一个实施例中，第四获取模块304，具体用于：根据所述待压缩特征张量和所述候选关键特征张量，获取权重矩阵。

在本申请的一个实施例中，第三获取模块303，具体用于：在待处理特征张量的目标维度前***目标维度矩阵，获取待压缩特征张量；将关键特征张量的目标维度进行拆分，获取候选关键特征张量。

在本申请的一个实施例中，第四获取模块304，具体用于：将待压缩特征张量和候选关键特征张量的目标维度进行矩阵相乘；对进行矩阵相乘获取的特征张量中目标维度对应的数据进行处理，获取权重矩阵。

在本申请的一个实施例中，第五获取模块305，具体用于：对候选关键特征张量的目标维度进行转置处理，获取转置关键特征张量；将权重矩阵和转置关键特征张量进行矩阵相乘，获取目标特征张量。

需要说明的是，前述对音频数据处理方法的解释说明，也适用于本发明实施例的音频数据处理装置，其实现原理类似，在此不再赘述。

本申请实施例的音频数据处理装置，通过获取待处理音频数据的原始特征张量，并根据原始特征张量与可学习的权值张量，获取待处理特征张量和关键特征张量，分别对待处理特征张量和关键特征张量中的目标维度进行维度变换，获取待压缩特征张量和候选关键特征张量，获取权重矩阵，并根据权重矩阵和候选关键特征张量，获取目标特征张量，对目标特征张量进行处理，获取压缩特征张量输入神经网络进行处理，获取待处理音频数据的处理结果。由此，通过可学习的权值张量来实现主次信息权重的调节，在保证信息压缩质量的同时提高信息压缩效率，提高后续语音处理效果。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图4所示，是根据本申请实施例的音频数据处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，该电子设备包括：一个或多个处理器401、存储器402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图4中以一个处理器401为例。

存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的音频数据处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供音频数据处理方法。

存储器402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的音频数据处理方法对应的程序指令/模块(例如，附图3所示的第一获取模块301、第二获取模块302、第三获取模块303、第四获取模块304和处理模块305)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的音频数据处理方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据音频数据处理的电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至音频数据处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

音频数据处理方法的电子设备还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息，以及产生与音频数据处理的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端－服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(＂VirtualPrivate Server＂，或简称＂VPS＂)中，存在的管理难度大，业务扩展性弱的缺陷，服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

本申请还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述所述的音频数据处理方法的步骤。

根据本申请实施例的技术方案，通过获取待处理音频数据的原始特征张量，并根据原始特征张量与可学习的权值张量，获取待处理特征张量和关键特征张量，分别对待处理特征张量和关键特征张量中的目标维度进行维度变换，获取待压缩特征张量和候选关键特征张量，根据待压缩特征张量和候选关键特征张量，获取权重矩阵，根据权重矩阵和候选关键特征张量，获取目标特征张量，并对目标特征张量进行处理，获取压缩特征张量，将压缩特征张量输入神经网络进行处理，获取待处理音频数据的处理结果。由此，通过可学习的权值张量来实现主次信息权重的调节，在保证信息压缩质量的同时提高信息压缩效率，提高后续语音处理效果。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种音频数据处理方法，包括：

分别对所述待处理特征张量和所述关键特征张量中的目标维度进行维度变换，获取待压缩特征张量和候选关键特征张量；

2.如权利要求1所述的音频数据处理方法，其中，所述根据所述原始特征张量与可学习的权值张量，获取待处理特征张量和关键特征张量，包括：

将所述原始特征张量与可学习的第一权值张量进行矩阵相乘，获取所述待处理特征张量；

将所述原始特征张量与可学习的第二权值张量进行矩阵相乘，获取所述关键特征张量。

3.如权利要求1所述的音频数据处理方法，其中，所述获取权重矩阵，包括：

根据所述待压缩特征张量和所述候选关键特征张量，获取权重矩阵。

4.如权利要求1所述的音频数据处理方法，其中，所述分别对所述待处理特征张量和所述关键特征张量中的目标维度进行维度变换，获取待压缩特征张量和候选关键特征张量，包括：

在所述待处理特征张量的目标维度前***目标维度矩阵，获取所述待压缩特征张量；

将所述关键特征张量的目标维度进行拆分，获取所述候选关键特征张量。

5.如权利要求3所述的音频数据处理方法，其中，所述根据所述待压缩特征张量和所述候选关键特征张量，获取权重矩阵，包括：

将所述待压缩特征张量和所述候选关键特征张量的目标维度进行矩阵相乘；

对进行矩阵相乘获取的特征张量中所述目标维度对应的数据进行处理，获取所述权重矩阵。

6.如权利要求1所述的音频数据处理方法，其中，所述根据所述权重矩阵和所述候选关键特征张量，获取目标特征张量，包括：

对所述候选关键特征张量的目标维度进行转置处理，获取转置关键特征张量；

将所述权重矩阵和所述转置关键特征张量进行矩阵相乘，获取所述目标特征张量。

7.一种音频数据处理装置，包括：

第一获取模块，用于获取待处理音频数据的原始特征张量；

第四获取模块，用于获取权重矩阵；

处理模块，用于对所述目标特征张量进行处理，获取压缩特征张量输入神经网络进行处理，获取所述待处理音频数据的处理结果。

8.如权利要求7所述的音频数据处理装置，其中，所述第二获取模块，具体用于：

9.如权利要求7所述的音频数据处理装置，其中，所述第四获取模块，具体用于：

10.如权利要求7所述的音频数据处理装置，其中，所述第三获取模块，具体用于：

11.如权利要求9所述的音频数据处理装置，其中，所述第四获取模块，具体用于：

12.如权利要求7所述的音频数据处理装置，其中，所述第五获取模块，具体用于：

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1－6中任一项所述的音频数据处理方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1－6中任一项所述的音频数据处理方法。