CN116172580A

CN116172580A - 一种适用于多声源场景的听觉注意对象解码方法

Info

Publication number: CN116172580A
Application number: CN202310424631.5A
Authority: CN
Inventors: 李佳; 卢雅雯
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-05-30
Anticipated expiration: 2043-04-20
Also published as: CN116172580B

Abstract

本发明公开了一种适用于多声源场景的听觉注意对象解码方法，采集脑电信号，得到脑电图；对所述脑电图进行预处理并使用移动时间窗口切割得到脑电信号时间切片；将所述时间切片输出至训练好的深度学习模型，得到听觉注意对象；所述深度学习模型的训练数据的获取步骤包括：建立具有多声源的视听觉环境，获取所述视听觉环境下受试者听觉注意时的脑电信号训练数据；本发明融合视觉建立了多声源场景，获取更加现实的听觉注意过程中的脑电信号，进而实现高精确地听觉注意解码。

Description

一种适用于多声源场景的听觉注意对象解码方法

技术领域

本发明涉及神经科学技术领域，更具体的说是涉及一种适用于多声源场景的听觉注意对象解码方法。

背景技术

目前，听觉注意检测研究使用的脑电数据主要采集方法是：受试者的两个耳朵分别佩戴两个播放不同音频的耳机来模拟两个不同方位的声源，并要求受试者注意其中一个声源并采集此时的脑电信号。上述方法所模拟的显然是十分理想的场景，但在现实复杂声源场景中，多种声源通常来自不同且不确定的方位，并且在听觉注意时脑电信号通常会伴随着视觉注意的影响，进而导致声源判断的准确性不高。

此外，目前的听觉注意解码模型在当脑电信号决策窗口尺寸的减小时，由于短的决策窗口中包含的脑电信息减少了，模型解码精度将迅速下降(特别是对于小于1秒的决策窗口)，但在实际应用中，过长的决策窗口可能会导致过度的延迟，这将不利于类脑助听器的体验和发展。

虽然自注意力机制解码方法可以取得不错的效果，不幸的是，自注意机制存在二次复杂度，使得其在实际应用中需要较大的计算资源。

因此，如何提高听觉注意对象解码的精确度或计算效率的是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种适用于多声源场景的听觉注意对象解码方法，融合视觉建立了多声源场景，获取训练数据，并提出一种轻量化且高效的深度学习模型，提高了特征的丰富度，进而提高了精确度。

为了实现上述目的，本发明采用如下技术方案：

一种适用于多声源场景的听觉注意对象解码方法，包括以下步骤：

采集脑电信号，得到脑电图；

对所述脑电图进行预处理并使用移动时间窗口切割得到脑电信号时间切片；

将所述时间切片输出至训练好的深度学习模型，得到听觉注意对象；

所述深度学习模型的训练数据的获取步骤包括：建立具有多声源的视听觉环境，获取所述视听觉环境下听觉注意时的脑电信号训练数据。

进一步的，所述预处理步骤包括：

定位所述脑电图中各个所述脑电信号对应通道的空间位置；

将各空间位置对应脑电信号的平均值作为基准进行重参考；

使用带通滤波将脑电信号的频率段范围限制在1Hz~50Hz之间；

将脑电信号的数据采样率降低到128Hz。

进一步的，所述深度学习模型包括多个并行的特征处理模块、多尺度特征交互模块和分类器；

多个并行的所述特征处理模块用于分别提取不同感受野下的空间特征，并进行维度处理，得到同维度特征；

所述多尺度特征交互模块对所述同维度特征进行特征交互，并将交互结果特征和所述同维度特征进行拼接，得到共享特征；

所述分类器接收所述共享特征，输出听觉注意对象分类结果。

进一步的，所述特征处理模块包括特征提取子模块和维度处理子模块；

所述特征提取子模块包括空间卷积单元、特征切割单元和单尺度特征交互单元；所述空间卷积单元用于提取空间特征；所述特征切割单元用于对所述空间特征等分为m份，得到特征图集合F={F₁、F₂、F₃.....F_m}；所述单尺度特征交互单元用于对各份分割结果进行特征交互，输出单尺度交互特征；

所述维度处理子模块用于将所述单尺度交互特征处理成特定维度。

进一步的，所述空间卷积单元为一维大核卷积层，用于在大的感受野下为不同的脑区分配不同的权重。

进一步的，所述维度处理子模块包括最大池化层和/或卷积层。

进一步的，所述特征交互为高阶递归特征交互。

进一步的，所述高阶递归特征交互，具体步骤包括：

获取样本量为m的待交互特征图集合F={F₁、F₂、F₃.....F_m}；

第一阶递归交互：

获取待交互特征图F₁和F₂；

对待交互特征图F₁和F₂进行点乘计算，并输出归一化后的结果，得到第一阶交互特征图；

第n阶递归交互，n>1：

获待交互特征图F_n+1与第n-1阶交互特征图；

将待交互特征图F_n+1与第n-1阶交互特征图进行点乘后输出归一化结果，输出第n-1阶交互特征图；

直至完成第m-1阶递归交互，输出最终交互结果。

进一步的，步骤还包括：

将所述听觉注意对象反馈给立体声音发出装置，并增强所述听觉注意对象的声音和/或减弱除所述听觉注意对象之外的其他声源声音。

本发明的有益效果：

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种适用于多声源场景的听觉注意对象解码方法，融合视觉建立了多声源场景，获取训练数据，提高了特征的丰富度，进而提高了精确度；提出了一种更加高效、轻量级、高准确的多尺度递归特征交互的解码方法，采用的深度学习模型通过多尺度的并行解码和特征交互的设计，可以增加模型的鲁棒性，以防发生陷入局部最优解和过拟合现象；为基于EEG脑电信号的听觉注意解码提供了一种新思路，并为类脑助听器的未来研究提供了一个更加先进的途径。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种适用于多声源场景的听觉注意对象解码方法示意图；

图2为本发明中深度学习模型网络结构示意图；

图3为本发明中特征提取子模块的网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1，本发明实施例公开了一种适用于多声源场景的听觉注意对象解码方法，包括以下步骤：

S1：采集脑电信号，得到脑电图；其中，脑电信号来自多个脑区，各个脑区通道对应的脑电信号，构成脑电图；

S2：对所述脑电图进行预处理并使用移动时间窗口切割得到脑电信号时间切片；

S3：将时间切片输出至训练好的深度学习模型，得到听觉注意对象；

其中，S3中深度学习模型的训练数据的获取步骤包括：建立具有多声源的视听觉环境，获取受试者在所述多声源的视听觉环境下听觉注意时的脑电信号训练数据。

在一种实施例中，多声源视听觉环境的建立可通过VR技术实现。具体的，可由虚拟画面呈现模块和立体声音呈现模块共同实现，虚拟画面呈现模块主要为VR眼镜，用于模拟和显示多人说话等复杂声源场景画面，所述立体声音呈现模块主要为立体音响，用于模拟来自不同方位的说话人声音。

在本实施例中，将脑电信号采集模块佩戴在用户的头部，用于在听觉注意时脑电信号的采集，用于训练预先构建的深度学习模型。

如图2和图3，在一种实施例中，深度学习模型301包括多个并行的特征处理模块、多尺度特征交互模块305和分类器；多个并行的特征处理模块用于分别提取相应尺度的特征，并进行维度处理，得到同维度特征；多尺度特征交互模块对同维度特征进行特征交互，并将交互结果特征和同维度特征进行拼接，得到共享特征；分类器接收共享特征，输出听觉注意对象分类结果。

在本种实施例中，特征处理模块包括特征提取子模块302和维度处理子模块；特征提取子模块包括空间卷积单元401、特征切割单元402和单尺度特征交互单元403；空间卷积单元401用于提取空间特征；特征切割单元402用于对空间特征进行多份数等分，生成多份的分割结果；单尺度特征交互单元403用于对各份分割结果进行特征交互，输出单尺度交互特征；维度处理子模块用于将单尺度交互特征处理成特定维度，其中，特点维度指的是预设的统一维度的维度值，并行的三个分支中，维度处理子模块最终输出的均为该特定维度。

在特征处理模块中，时间切片E分别输入三个支路的特征提取子模块进行特征提取，三个支路的感受野依次为k₁、k₂和k₃；三个支路完成特征提取后，分别由三个支路对应的维度处理子模块进行维度处理，其中，三个支路对应的维度处理子模块都包括最大池化层303，对提取的特征进行了最大池化，之后，第一和第二支路通过卷积304，将最大池化后的特征图与第三支路中最大池化后的特征图进行维度统一。

在多尺度特征交互模块305中，先将第一和第二支路输出的同维度特征图进行点乘，然后将点乘结果与第三支路输出的最大池化的结果，即第三支路的同维度特征图进行点乘，将最终点乘结果进行归一化，实现递归特征交互，并将特征交互结果与三条支路维度统一后的结果进行特征拼接306，得到共享特征。

在一种实施例中，高阶递归特征交互，具体步骤包括：

获取样本量为m的待交互特征图集合F={F₁、F₂、F₃.....F_m}；

第一阶递归交互：

获取待交互特征图F₁和F₂；

第n阶递归交互，n>1：

获待交互特征图F_n+1与第n-1阶交互特征图；

直至完成第m-1阶递归交互，输出最终交互结果。

如图3，在特征处理子模块的处理过程中：在当前分支进行某一尺度的特征提取，首先，通过空间卷积提取空间特征，通过特征切割单元将空间特征切割成四等份，即生成待交互特征图F₁、F₂、F₃和F₄；之后对待交互特征图进行递归特征交互，第一步，对特征图F₁和F₂点乘后进行归一化，得到第一交互特征图；第二步，将第一交互特征图与F₃点乘后进行归一化，得到第二交互特征图，第三步，将第二交互特征图与F₄点乘后进行归一化，得到第三交互特征图。

在另一实施例中，空间卷积单元401为一维大核卷积层，能够在大的感受野下为不同的脑区分配不同的权重，高效提取大范围脑区空间特征。

在另一实施例中，步骤还包括：

将听觉注意对象反馈给立体声音发出装置，并增强听觉注意对象的声音和/或减弱除听觉注意对象之外的其他声源声音。其中，立体声音发出装置，如助听器，其可以进行声音采集和声源定位，根据解码出的注意对象，锁定声源并进行加强，或减弱其他声源声音，从而模仿类脑听觉的过程。

在另一实施例中，预处理的具体步骤包括：

定位所述脑电图中各个所述脑电信号对应通道的空间位置；

计算各空间位置对应脑电信号的平均值，并作为基准进行重参考；

使用带通滤波将脑电信号的频率范围限制在1Hz~50Hz之间，对脑电信号进行降采样，采样频率由原来的8192Hz降低至128Hz，实现降噪，得到预处理后的脑电信号。

本发明公开提供了一种适用于多声源场景的听觉注意对象解码方法，融合视觉建立了多声源场景，获取训练数据，提高了特征的丰富度，进而提高了精确度；提出了一种更加高效、轻量级、高准确的多尺度递归特征交互的解码方法，采用的深度学习模型通过多尺度的并行解码和特征交互的设计，可以增加模型的鲁棒性，以防发生陷入局部最优解和过拟合现象；为基于EEG脑电信号的听觉注意解码提供了一种新思路，并为类脑助听器的未来研究提供了一个更加先进的途径。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种适用于多声源场景的听觉注意对象解码方法，其特征在于，包括以下步骤：

采集脑电信号，得到脑电图；

2.根据权利要求1所述的一种适用于多声源场景的听觉注意对象解码方法，其特征在于，所述预处理步骤包括：

定位所述脑电图中各个所述脑电信号对应通道的空间位置；

将各空间位置对应脑电信号的平均值作为基准进行重参考；

使用带通滤波将脑电信号的频率段范围限制在1Hz~50Hz之间；

降低脑电信号的数据采样频率。

3.根据权利要求1所述的一种适用于多声源场景的听觉注意对象解码方法，其特征在于，所述深度学习模型包括多个并行的特征处理模块、多尺度特征交互模块和分类器；

4.根据权利要求3所述的一种适用于多声源场景的听觉注意对象解码方法，其特征在于，所述特征处理模块包括特征提取子模块和维度处理子模块；

5.根据权利要求4所述的一种适用于多声源场景的听觉注意对象解码方法，其特征在于，所述空间卷积单元为一维大核卷积层。

6.根据权利要求4所述的一种适用于多声源场景的听觉注意对象解码方法，其特征在于，所述维度处理子模块包括最大池化层和/或卷积层。

7.根据权利要求4所述的一种适用于多声源场景的听觉注意对象解码方法，其特征在于，所述特征交互为高阶递归特征交互。

8.根据权利要求7所述的一种适用于多声源场景的听觉注意对象解码方法，其特征在于，所述高阶递归特征交互，具体步骤包括：

获取样本量为m的待交互特征图集合F={F₁、F₂、F₃.....F_m}；

第一阶递归交互：

获取待交互特征图F₁和F₂；

第n阶递归交互，n>1：

获待交互特征图F_n+1与第n-1阶交互特征图；

直至完成第m-1阶递归交互，输出最终交互结果。

9.根据权利要求1所述的一种适用于多声源场景的听觉注意对象解码方法，其特征在于，步骤还包括：