CN115565540A

CN115565540A - 一种侵入式脑机接口汉语发音解码方法

Info

Publication number: CN115565540A
Application number: CN202211545924.0A
Authority: CN
Inventors: 祁玉; 谭显瀚; 王跃明; 张建民; 朱君明
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-01-03
Anticipated expiration: 2042-12-05
Also published as: CN115565540B

Abstract

本发明公开了一种侵入式脑机接口汉语发音解码方法，包括：从脑电数据中筛选有效的神经元并去除高度相似的神经元，标准化后利用同步音频数据对脑电数据进行标注；根据汉语发音脑电数据的特点，将脑电数据投影到双曲空间中；构建有效的双曲神经网络和双曲多元逻辑回归分类器对脑电数据进行汉语音素分类；训练过程中，从训练数据中抽取一定数量的三元组，并基于网络的输出特征对这些三元组计算层次聚类的损失，以一定权重加入到需要优化的总体损失函数中；利用训练好的双曲神经网络和双曲多元逻辑回归分类器进行解码。本方法通过引入双曲空间和双曲解码方法，更好地利用了汉语发音脑电数据的结构特点，有效提高了汉语发音脑电数据的分类解码性能。

Description

一种侵入式脑机接口汉语发音解码方法

技术领域

本发明涉及脑电数据解码领域，尤其是涉及一种侵入式脑机接口汉语发音解码方法。

背景技术

侵入式脑机接口利用侵入式电极记录的高分辨率皮质内脑电信号，来识别大脑的状态和意图，进而帮助临床患者执行各种不同的任务。近年来，侵入式脑机接口在语音上的应用和研究飞速发展。先进的语音脑机接口已经实现了直接语音合成，或从脑电信号中解码语音音素、单词和句子，这意味着侵入式语音脑机接口对于恢复失语症患者的沟通能力具有巨大潜力。

通常情况下，语音脑机接口将发音视为一个运动过程，通过解码作为中间环节的口腔发音运动学，将神经信号解码成语音。一种方式是将从运动皮层记录下来的脑电信号转化为说话过程中的口腔发音动作，然后将相应的口腔发音动作转化为语音。在深度网络等机器学习方法的帮助下，一些语音脑机接口倾向于以端到端方式学习解码器，从脑电信号直接生成语音波形。

如公开号为CN111681636A的中国专利文献公开了基于脑机接口技术语音生成方法，包括采集反映大脑活动信息的脑电信号、外界的音频信号和视频图像信号，经过特征提取后，通过多个神经网络的非线性计算和学习，加上外界的上下文语境信息和反馈输入，从大脑信号中直接解码出大脑所表达的意图和语言内容，最后通过对抗神经网络完成语音生成，实现脑机接口技术的语音生成。

然而，直接从神经信号解码语音面临词表有限的问题。因为在构建语音脑机接口之前，被试需要重复说出词汇表中的单词进行解码器训练，这是非常耗时的。另一方面，音素是发音中的基本声音单位。通常情况下，音素的数量远远少于单词的数量。通过对音素的准确识别，再进行组合之后有望实现对单词的自由解码。但是从神经信号中准确解码语音音素是很难实现的。从运动过程的角度来看，与说话相关的运动学是口面运动的组合，包括嘴唇、舌头、下巴和其他关节。因此，运动学相似的音素往往混淆，难以区分，降低了音素的整体分类性能。如何从神经信号中精确解码语音音素仍然是一个具有挑战性的问题。

更重要的是，此前还没有针对汉语发音的脑机接口应用和研究，如何针对汉语的发声特点设计算法，实现良好的分类解码性能，进而构建高效的语音脑机接口，在当下还处于空白状态。

发明内容

本发明提供了一种侵入式脑机接口汉语发音解码方法，可以有效提高汉语发音脑电数据的分类解码性能。

一种侵入式脑机接口汉语发音解码方法，包括：

（1）采集汉语发音的脑电数据以及同步音频数据，从脑电数据中筛选有效的神经元并去除高度相似的神经元，并对脑电数据进行标准化；利用同步音频数据对脑电数据标注发声的时间节点，截取出固定窗口长度的数据段，每个数据段均与汉语音素对应；

（2）将步骤（1）处理后的脑电数据投影到双曲空间中，将双曲空间中的脑电数据和对应的汉语音素构成训练数据；

（3）构建双曲神经网络和双曲多元逻辑回归分类器；其中，双曲神经网络用于提取双曲空间中脑电数据的特征，双曲多元逻辑回归分类器用于对脑电数据的特征进行汉语音素分类；

（4）对双曲神经网络和双曲多元逻辑回归分类器进行训练；

训练过程中，从训练数据中抽取一定数量的三元组，并基于双曲神经网络的输出特征对这些三元组计算层次聚类的损失，以一定权重加入到需要优化的总体损失函数中；

（5）将待解码的脑电数据投影到双曲空间后依次输入训练好的双曲神经网络和双曲多元逻辑回归分类器，得到解码后的汉语音素分类。

本发明针对汉语发音中音素本身的层次分类结构，以及汉语发音脑电信号中关于发声位置和发声方式的层次性，构建双曲神经网络来更好的学习汉语发音脑电信号的特征，通过双曲多元逻辑回归分类器得到logit向量。同时对logit向量执行层次聚类约束，鼓励模型能更好的挖掘数据本身的层次结构，从而学习到更好的表征，有效提高了汉语发音脑电数据的分类解码性能。

作为优选，步骤（1）中，使用离线筛选的方式筛选神经元。从脑电数据中筛选有效的神经元并去除高度相似的神经元具体为：

先进行锋电位分类，提取出脑电信号中所有神经元的发放，并绘制波形；目视审查每一个神经元的发放波形，保留存在明显波形同时总发放次数大于100的神经元；对不同神经元的发放计算余弦相似度，当多个神经元相似程度大于 0.7 时，只保留其中一个神经元，以减轻串扰对数据质量的影响。

对数据进行标准化时，将原值减去均值后除以标准差，使得得到的数据满足均值为 0，标准差为1的正态分布。

作为优选，利用同步的音频数据标注发声的时间节点，以发声的时间节点为中心，截取以 [-500ms, +1500ms] 为窗口的数据段用于后续的训练和验证。

步骤（2）中，采用庞加莱圆盘模型

来投影脑电数据到双曲空间中：

其中，

表示曲率为c，维度为d的双曲空间；

表示数据点，

表示维度为d的欧式实数空间，

表示

的绝对值，

和

分别表示欧式度量和双曲度量，

表示这两种度量的共形因子。

步骤（3）中，双曲神经网络表示为：

其中，

和

分别表示双曲神经网络函数和欧式神经网络函数，

和

分别表示在原点的指数变换和对数变换，c表示双曲空间的曲率，

表示数据点，

表示

的绝对值。

步骤（3）中，双曲多元逻辑回归分类器进行汉语音素分类时，给定z个类别，不同类别的概率计算公式为：

其中，

和

为双曲多元逻辑回归的参数，

表示类别 z 的分类边界的共形因子，

表示反双曲正弦函数，

表示以自然常数e为底的指数函数，

表示

的绝对值；

表示莫比乌斯加法运算；c代表的是双曲空间的曲率；

表示内积运算。

步骤（4）中，所述总体损失函数的公式为：

其中，

代表分类损失，

代表层次聚类损失；

和

是平衡损失函数两部分的系数。

所述分类损失的计算方式如下：

其中，

是

的类别标签，

是经过softmax之后

的对数概率，

表示mini-batch的数据量。

所述层次聚类损失的计算方式如下：

其中，

表示归一化softmax函数；

表示从训练数据中抽取的三元组；

表示三元组中

的最小公共祖先节点，

表示三元组中

的最小公共祖先节点，

表示三元组中

的最小公共祖先节点；

表示到双曲空间中心的双曲距离；

表示三元组中

之间的双曲相似度，

表示三元组中

之间的双曲相似度，

表示三元组中

之间的双曲相似度；

表示矩阵转置。

进行双曲相似度计算时，使用随机采样方法采样一定数量的三元组

，计算彼此之间的双曲距离

，分别除以三者之和

进行归一化后得到

，其相似度表示为

。

进行层次聚类损失计算时，选择在双曲多元逻辑回归分类器的logit层进行三元组抽样以及层次聚类。

与现有技术相比，本发明具有以下有益效果：

本发明将双曲神经网络应用于汉语发音脑电信号的分类解码中，在双曲空间中对汉语发音的神经表示进行分类，同时考虑到汉语发音本身以及信号表征存在的层次特性，利用层次聚类损失约束音素的神经表示的层次结构。结果证明，该模型从脑电信号中学习可解释的层次音素嵌入，显著提高了音素解码性能。

附图说明

图1为本发明实施例中数据集实验范式时序图。

图2为本发明实施例中数据集不同汉语声母按发声位置分组后的spike发放可视化图。

图3为利用本发明方法处理与未利用发明方法处理的分类准确率比较图。

图4为利用本发明方法和未利用发明方法学习到的二维多元逻辑回归分类边界可视化后得到的分布比较图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

在数据采集阶段，本实施例从一名瘫痪患者的左侧主运动皮层植入两个96通道犹他皮质内微电极阵列(Blackrock Microsystems, Salt Lake City, UT, USA)，收集神经信号，以记录神经信号。使用带有两个96通道Utah皮质内微电极阵列的Neuroport***(NSP, Blackrock Microsystems)在30 kHz下对神经信号进行采样。在实验过程中，音频信号同时被放置在患者面前的麦克风记录下来。音频信号由NeuroPort***通过模拟输入端口以30khz进行数字化处理。本实施例针对汉语发音设计了三种任务：21个不同的声母发音任务，24个不同的韵母发音任务和20个不同的汉字发音任务。数据采集的实验范式如图1所示。具体来说，在每次试验中，被试者被要求观看在他前面一米远的电脑屏幕上的红色音素提示，并听到该音素的声音提示。一秒钟后，屏幕上的音素变成绿色，表明“start”阶段的开始，被试随后说出提示音素。为了保证被试有足够的反应时间来完成试验，“start”阶段持续了3秒。结束“start”阶段之后，一个trial的记录完成，随后开始记录下一个trial。

本发明提出的一种侵入式脑机接口汉语发音解码方法，具体实现如下步骤：

步骤1，脑电数据预处理。

设计汉语发音的实验范式，采集汉语发音的脑电数据以及同步音频数据；从脑电数据中筛选有效的神经元并去除高度相似的神经元，对数据进行标准化，利用同步音频数据对脑电数据进行标注后截取出合适窗口长度的数据段，得到预处理后的脑电数据。

具体来说，先进行锋电位分类（spike sorting），提取出脑电信号中所有神经元的发放，并绘制波形。目视审查每一个神经元的发放波形，保留存在明显波形同时总发放次数大于 100 的神经元。对不同神经元的发放计算余弦相似度，当多个神经元相似程度大于0.7 时，只保留其中一个神经元。

然后利用同步的音频数据标注发声的时间节点，以发声的时间节点为中心，截取以 [-500ms, +1500ms] 为窗口的数据段用于后续的训练和验证。

步骤2，将脑电数据投影到双曲空间中。

双曲空间是一种处处负曲率的非欧空间。在双曲空间中，离空间中心越远，曲率越大，空间弯曲的程度越大。这意味着双曲空间十分适合用于建模具有树状结构或者层次结构的数据：树的节点数随着树的深度呈指数增长。对汉语发音脑电信号进行可视化分析后，如图2所示，可以发现汉语发音脑电信号具有一定的层次结构，这种层次结构与发声方式和发声位置有关。这意味着可以用双曲空间来建模汉语发声脑电信号。

本实例使用目前最常用且效果最好的双曲空间模型：庞加莱圆盘模型

来投影脑电数据到双曲空间中：

其中，c代表的是双曲空间的曲率，d代表的是双曲空间的维度，

分别表示的是欧式度量和双曲度量，

表示的是这两种度量的共形因子。

步骤3，构建双曲神经网络来提取特征，使用双曲多元逻辑回归分类器对汉语发音进行分类。

根据汉语发音脑电数据量小，维度大的特点构建合理的网络结构；双曲神经网络是欧氏空间神经网络向量、矩阵计算操作在双曲空间中执行的版本。由于向量、矩阵计算操作在非欧空间中执行过于复杂，需要使用双曲空间的切空间来近似操作。双曲空间的切空间具有欧式空间的性质，因此只需要将数据投影到切空间上，在切空间执行完向量、矩阵的计算操作后，再投影回欧氏空间即可。这里需要使用陀螺矢量空间中的指数变换和对数变换来完成切空间和原始空间的转换。通过这种方式，可以得到双曲神经网络的表示：

其中，

和

分别表示双曲神经网络函数和欧式神经网络函数，

和

分别表示在原点的指数变换和对数变换，c 表示双曲空间的曲率。

考虑到汉语发音脑电信号数据量较少，在实际构建中，选择了2层的双曲神经网络结构，神经元数目分别为：256，128。

与双曲神经网络类似，双曲多元逻辑回归同样是欧式多元逻辑回归在双曲空间执行操作的版本。

具体来说，给定

个不同类别，样本对于不同类别的logit概率是由双曲多元逻辑回归方法得到的，具体计算方式如下：

其中，

和

为双曲多元逻辑回归的参数，

表示类别 z 的分类边界的共形因子，

表示反双曲正弦函数，

表示以自然常数e为底的指数函数，

表示

的绝对值；

表示莫比乌斯加法运算；c代表的是双曲空间的曲率；

表示内积运算。

莫比乌斯加法运算是陀螺矢量空间的运算方法，本质上也是通过指数变换和对数变换推导得到的，具体计算方法如下：

步骤4，对双曲神经网络和双曲多元逻辑回归分类器进行训练。

优化过程中，使用双曲RSGD方法进行参数优化和更新。考虑到脑电信号数据量少，使用留一法对模型进行训练与测试。每次只使用一个数据作为测试集，剩下的全部作为训练集。训练过程中，在双曲神经网络中加入基于三元组相似度的层次聚类约束的特征表示学习方法。

（4-1）选择合适的相似度计算方法：考虑到使用双曲模型来提取特征，可以直接采用双曲距离来计算相似度。

给定处于庞加莱圆盘上的两个点

，两点之间的双曲距离的计算公式如下：

其中，

表示向量的欧几里得范数。

使用随机采样方法采样数量为 20-50 的三元组

，计算彼此之间的双曲距离

，分别除以三者之和

进行归一化后得到

，其相似度可以表示为

。

（4-2）选择合适的聚类位置：直接对logit向量计算层次聚类损失，将之以一定权重加入到需要优化的总体损失中，同时优化分类和聚类目标，将会得到如下的总体损失函数

其中，

代表分类损失，

代表层次聚类损失。

和

是平衡损失函数两部分的系数。

对于多类别分类任务，给定

个样本

属于

个类别，并且对应的标签

，其中

。分类损失

可以表示为下式

其中，

是

的类别标签，而

是经过softmax之后

的对数概率。

对于层次聚类损失，具体来说，从数据中随机采样一定数量的三元组，基于三元组来计算层次聚类损失，这个损失的目标是让层次聚类树中，相似度更高的节点更早的合并，具体的计算如下式：

其中

表示归一化softmax函数，

表示从数据中抽取的三元组，

表示三元组中

的最小公共祖先节点，

表示到双曲空间中心的双曲距离，

表示三元组中

之间的双曲相似度。

为了同时优化聚类和分类，选择在logit层进行三元组抽样以及层次聚类。

步骤5，对双曲神经网络和双曲多元逻辑回归分类器进行测试和应用。

训练完成后，测试这个数据的分类结果是否正确。全部测试完成后，将总测试正确数除以总数据量得到留一分类准确率。

为了对比说明本发明提出的特征学习框架在双曲空间效果最佳，在相同数据集上用相同的网络结构用三种不同的空间度量进行实验，得到的比较结果图3，其中三张子图分别表示21个汉语声母发音、24个汉语韵母发音和20个汉字发音的分类结果，可以看出框架在双曲空间中时，性能要明显优于欧氏空间和球面空间。

为了说明本学习框架可以挖掘数据潜在的层次性，学习出更具语音特性的特征，将网络学习到的多元逻辑回归分类边界进行可视化分析，如图4，其中左子图为加入了层次聚类优化后的分类边界，右子图表示没有层次聚类优化的分类边界，不同颜色代表不同类别的汉语声母，可以看出，加入层次聚类优化后，学习到的分类边界更加分散，而且相同发声位置的声母的分类边界体现出聚集现象。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。