CN115565540A - 一种侵入式脑机接口汉语发音解码方法 - Google Patents

一种侵入式脑机接口汉语发音解码方法 Download PDF

Info

Publication number
CN115565540A
CN115565540A CN202211545924.0A CN202211545924A CN115565540A CN 115565540 A CN115565540 A CN 115565540A CN 202211545924 A CN202211545924 A CN 202211545924A CN 115565540 A CN115565540 A CN 115565540A
Authority
CN
China
Prior art keywords
hyperbolic
data
representing
chinese pronunciation
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211545924.0A
Other languages
English (en)
Other versions
CN115565540B (zh
Inventor
祁玉
谭显瀚
王跃明
张建民
朱君明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202211545924.0A priority Critical patent/CN115565540B/zh
Publication of CN115565540A publication Critical patent/CN115565540A/zh
Application granted granted Critical
Publication of CN115565540B publication Critical patent/CN115565540B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种侵入式脑机接口汉语发音解码方法,包括:从脑电数据中筛选有效的神经元并去除高度相似的神经元,标准化后利用同步音频数据对脑电数据进行标注;根据汉语发音脑电数据的特点,将脑电数据投影到双曲空间中;构建有效的双曲神经网络和双曲多元逻辑回归分类器对脑电数据进行汉语音素分类;训练过程中,从训练数据中抽取一定数量的三元组,并基于网络的输出特征对这些三元组计算层次聚类的损失,以一定权重加入到需要优化的总体损失函数中;利用训练好的双曲神经网络和双曲多元逻辑回归分类器进行解码。本方法通过引入双曲空间和双曲解码方法,更好地利用了汉语发音脑电数据的结构特点,有效提高了汉语发音脑电数据的分类解码性能。

Description

一种侵入式脑机接口汉语发音解码方法
技术领域
本发明涉及脑电数据解码领域,尤其是涉及一种侵入式脑机接口汉语发音解码方法。
背景技术
侵入式脑机接口利用侵入式电极记录的高分辨率皮质内脑电信号,来识别大脑的状态和意图,进而帮助临床患者执行各种不同的任务。近年来,侵入式脑机接口在语音上的应用和研究飞速发展。先进的语音脑机接口已经实现了直接语音合成,或从脑电信号中解码语音音素、单词和句子,这意味着侵入式语音脑机接口对于恢复失语症患者的沟通能力具有巨大潜力。
通常情况下,语音脑机接口将发音视为一个运动过程,通过解码作为中间环节的口腔发音运动学,将神经信号解码成语音。一种方式是将从运动皮层记录下来的脑电信号转化为说话过程中的口腔发音动作,然后将相应的口腔发音动作转化为语音。在深度网络等机器学习方法的帮助下,一些语音脑机接口倾向于以端到端方式学习解码器,从脑电信号直接生成语音波形。
如公开号为CN111681636A的中国专利文献公开了基于脑机接口技术语音生成方法,包括采集反映大脑活动信息的脑电信号、外界的音频信号和视频图像信号,经过特征提取后,通过多个神经网络的非线性计算和学习,加上外界的上下文语境信息和反馈输入,从大脑信号中直接解码出大脑所表达的意图和语言内容,最后通过对抗神经网络完成语音生成,实现脑机接口技术的语音生成。
然而,直接从神经信号解码语音面临词表有限的问题。因为在构建语音脑机接口之前,被试需要重复说出词汇表中的单词进行解码器训练,这是非常耗时的。另一方面,音素是发音中的基本声音单位。通常情况下,音素的数量远远少于单词的数量。通过对音素的准确识别,再进行组合之后有望实现对单词的自由解码。但是从神经信号中准确解码语音音素是很难实现的。从运动过程的角度来看,与说话相关的运动学是口面运动的组合,包括嘴唇、舌头、下巴和其他关节。因此,运动学相似的音素往往混淆,难以区分,降低了音素的整体分类性能。如何从神经信号中精确解码语音音素仍然是一个具有挑战性的问题。
更重要的是,此前还没有针对汉语发音的脑机接口应用和研究,如何针对汉语的发声特点设计算法,实现良好的分类解码性能,进而构建高效的语音脑机接口,在当下还处于空白状态。
发明内容
本发明提供了一种侵入式脑机接口汉语发音解码方法,可以有效提高汉语发音脑电数据的分类解码性能。
一种侵入式脑机接口汉语发音解码方法,包括:
(1)采集汉语发音的脑电数据以及同步音频数据,从脑电数据中筛选有效的神经元并去除高度相似的神经元,并对脑电数据进行标准化;利用同步音频数据对脑电数据标注发声的时间节点,截取出固定窗口长度的数据段,每个数据段均与汉语音素对应;
(2)将步骤(1)处理后的脑电数据投影到双曲空间中,将双曲空间中的脑电数据和对应的汉语音素构成训练数据;
(3)构建双曲神经网络和双曲多元逻辑回归分类器;其中,双曲神经网络用于提取双曲空间中脑电数据的特征,双曲多元逻辑回归分类器用于对脑电数据的特征进行汉语音素分类;
(4)对双曲神经网络和双曲多元逻辑回归分类器进行训练;
训练过程中,从训练数据中抽取一定数量的三元组,并基于双曲神经网络的输出特征对这些三元组计算层次聚类的损失,以一定权重加入到需要优化的总体损失函数中;
(5)将待解码的脑电数据投影到双曲空间后依次输入训练好的双曲神经网络和双曲多元逻辑回归分类器,得到解码后的汉语音素分类。
本发明针对汉语发音中音素本身的层次分类结构,以及汉语发音脑电信号中关于发声位置和发声方式的层次性,构建双曲神经网络来更好的学习汉语发音脑电信号的特征,通过双曲多元逻辑回归分类器得到logit向量。同时对logit向量执行层次聚类约束,鼓励模型能更好的挖掘数据本身的层次结构,从而学习到更好的表征,有效提高了汉语发音脑电数据的分类解码性能。
作为优选,步骤(1)中,使用离线筛选的方式筛选神经元。从脑电数据中筛选有效的神经元并去除高度相似的神经元具体为:
先进行锋电位分类,提取出脑电信号中所有神经元的发放,并绘制波形;目视审查每一个神经元的发放波形,保留存在明显波形同时总发放次数大于100的神经元;对不同神经元的发放计算余弦相似度,当多个神经元相似程度大于 0.7 时,只保留其中一个神经元,以减轻串扰对数据质量的影响。
对数据进行标准化时,将原值减去均值后除以标准差,使得得到的数据满足均值为 0,标准差为1的正态分布。
作为优选,利用同步的音频数据标注发声的时间节点,以发声的时间节点为中心,截取以 [-500ms, +1500ms] 为窗口的数据段用于后续的训练和验证。
步骤(2)中,采用庞加莱圆盘模型
Figure DEST_PATH_IMAGE001
来投影脑电数据到双曲空间中:
Figure 399548DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
Figure 745079DEST_PATH_IMAGE004
其中,
Figure DEST_PATH_IMAGE005
表示曲率为c,维度为d的双曲空间;
Figure 833120DEST_PATH_IMAGE006
表示数据点,
Figure 896891DEST_PATH_IMAGE007
表示维度为d的欧式实数空间,
Figure 830212DEST_PATH_IMAGE008
表示
Figure 295829DEST_PATH_IMAGE006
的绝对值,
Figure 23613DEST_PATH_IMAGE009
Figure 574680DEST_PATH_IMAGE010
分别表示欧式度量和双曲度量,
Figure 46113DEST_PATH_IMAGE011
表示这两种度量的共形因子。
步骤(3)中,双曲神经网络表示为:
Figure 366236DEST_PATH_IMAGE012
Figure 530501DEST_PATH_IMAGE013
Figure 568864DEST_PATH_IMAGE014
其中,
Figure 375146DEST_PATH_IMAGE015
Figure 753038DEST_PATH_IMAGE016
分别表示双曲神经网络函数和欧式神经网络函数,
Figure 884942DEST_PATH_IMAGE017
Figure 145022DEST_PATH_IMAGE018
分别表示在原点的指数变换和对数变换,c表示双曲空间的曲率,
Figure 958257DEST_PATH_IMAGE006
表示数据点,
Figure 252972DEST_PATH_IMAGE008
表示
Figure 759040DEST_PATH_IMAGE006
的绝对值。
步骤(3)中,双曲多元逻辑回归分类器进行汉语音素分类时,给定z个类别,不同类别的概率计算公式为:
Figure 506416DEST_PATH_IMAGE019
其中,
Figure 123342DEST_PATH_IMAGE020
Figure 272564DEST_PATH_IMAGE021
为双曲多元逻辑回归的参数,
Figure 949533DEST_PATH_IMAGE022
表示类别 z 的分类边界的共形因子,
Figure 184205DEST_PATH_IMAGE023
表示反双曲正弦函数,
Figure 339243DEST_PATH_IMAGE024
表示以自然常数e为底的指数函数,
Figure 342971DEST_PATH_IMAGE025
表示
Figure 987579DEST_PATH_IMAGE021
的绝对值;
Figure 912809DEST_PATH_IMAGE026
表示莫比乌斯加法运算;c代表的是双曲空间的曲率;
Figure 933855DEST_PATH_IMAGE027
表示内积运算。
步骤(4)中,所述总体损失函数的公式为:
Figure 526510DEST_PATH_IMAGE028
其中,
Figure 342020DEST_PATH_IMAGE029
代表分类损失,
Figure 488967DEST_PATH_IMAGE030
代表层次聚类损失;
Figure 313704DEST_PATH_IMAGE031
Figure 229707DEST_PATH_IMAGE032
是平衡损失函数两部分的系数。
所述分类损失的计算方式如下:
Figure 216118DEST_PATH_IMAGE033
其中,
Figure 850361DEST_PATH_IMAGE034
Figure 213210DEST_PATH_IMAGE035
的类别标签,
Figure 249299DEST_PATH_IMAGE036
是经过softmax之后
Figure 406611DEST_PATH_IMAGE035
的对数概率,
Figure DEST_PATH_IMAGE037
表示mini-batch的数据量。
所述层次聚类损失的计算方式如下:
Figure 324888DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
其中,
Figure 960269DEST_PATH_IMAGE040
表示归一化softmax函数;
Figure DEST_PATH_IMAGE041
表示从训练数据中抽取的三元组;
Figure 382023DEST_PATH_IMAGE042
表示三元组中
Figure DEST_PATH_IMAGE043
的最小公共祖先节点,
Figure 710236DEST_PATH_IMAGE044
表示三元组中
Figure DEST_PATH_IMAGE045
的最小公共祖先节点,
Figure 381389DEST_PATH_IMAGE046
表示三元组中
Figure DEST_PATH_IMAGE047
的最小公共祖先节点;
Figure 617198DEST_PATH_IMAGE048
表示到双曲空间中心的双曲距离;
Figure DEST_PATH_IMAGE049
表示三元组中
Figure 159038DEST_PATH_IMAGE043
之间的双曲相似度,
Figure 923731DEST_PATH_IMAGE050
表示三元组中
Figure 754284DEST_PATH_IMAGE045
之间的双曲相似度,
Figure DEST_PATH_IMAGE051
表示三元组中
Figure 997047DEST_PATH_IMAGE047
之间的双曲相似度;
Figure 658972DEST_PATH_IMAGE052
表示矩阵转置。
进行双曲相似度计算时,使用随机采样方法采样一定数量的三元组
Figure DEST_PATH_IMAGE053
,计算彼此之间的双曲距离
Figure 63409DEST_PATH_IMAGE054
,分别除以三者之和
Figure DEST_PATH_IMAGE055
进行归一化后得到
Figure 177995DEST_PATH_IMAGE056
,其相似度表示为
Figure DEST_PATH_IMAGE057
进行层次聚类损失计算时,选择在双曲多元逻辑回归分类器的logit层进行三元组抽样以及层次聚类。
与现有技术相比,本发明具有以下有益效果:
本发明将双曲神经网络应用于汉语发音脑电信号的分类解码中,在双曲空间中对汉语发音的神经表示进行分类,同时考虑到汉语发音本身以及信号表征存在的层次特性,利用层次聚类损失约束音素的神经表示的层次结构。结果证明,该模型从脑电信号中学习可解释的层次音素嵌入,显著提高了音素解码性能。
附图说明
图1为本发明实施例中数据集实验范式时序图。
图2为本发明实施例中数据集不同汉语声母按发声位置分组后的spike发放可视化图。
图3为利用本发明方法处理与未利用发明方法处理的分类准确率比较图。
图4为利用本发明方法和未利用发明方法学习到的二维多元逻辑回归分类边界可视化后得到的分布比较图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
在数据采集阶段,本实施例从一名瘫痪患者的左侧主运动皮层植入两个96通道犹他皮质内微电极阵列(Blackrock Microsystems, Salt Lake City, UT, USA),收集神经信号,以记录神经信号。使用带有两个96通道Utah皮质内微电极阵列的Neuroport***(NSP, Blackrock Microsystems)在30 kHz下对神经信号进行采样。在实验过程中,音频信号同时被放置在患者面前的麦克风记录下来。音频信号由NeuroPort***通过模拟输入端口以30khz进行数字化处理。本实施例针对汉语发音设计了三种任务:21个不同的声母发音任务,24个不同的韵母发音任务和20个不同的汉字发音任务。数据采集的实验范式如图1所示。具体来说,在每次试验中,被试者被要求观看在他前面一米远的电脑屏幕上的红色音素提示,并听到该音素的声音提示。一秒钟后,屏幕上的音素变成绿色,表明“start”阶段的开始,被试随后说出提示音素。为了保证被试有足够的反应时间来完成试验,“start”阶段持续了3秒。结束“start”阶段之后,一个trial的记录完成,随后开始记录下一个trial。
本发明提出的一种侵入式脑机接口汉语发音解码方法,具体实现如下步骤:
步骤1,脑电数据预处理。
设计汉语发音的实验范式,采集汉语发音的脑电数据以及同步音频数据;从脑电数据中筛选有效的神经元并去除高度相似的神经元,对数据进行标准化,利用同步音频数据对脑电数据进行标注后截取出合适窗口长度的数据段,得到预处理后的脑电数据。
具体来说,先进行锋电位分类(spike sorting),提取出脑电信号中所有神经元的发放,并绘制波形。目视审查每一个神经元的发放波形,保留存在明显波形同时总发放次数大于 100 的神经元。对不同神经元的发放计算余弦相似度,当多个神经元相似程度大于0.7 时,只保留其中一个神经元。
对数据进行标准化时,将原值减去均值后除以标准差,使得得到的数据满足均值为 0,标准差为1的正态分布。
然后利用同步的音频数据标注发声的时间节点,以发声的时间节点为中心,截取以 [-500ms, +1500ms] 为窗口的数据段用于后续的训练和验证。
步骤2,将脑电数据投影到双曲空间中。
双曲空间是一种处处负曲率的非欧空间。在双曲空间中,离空间中心越远,曲率越大,空间弯曲的程度越大。这意味着双曲空间十分适合用于建模具有树状结构或者层次结构的数据:树的节点数随着树的深度呈指数增长。对汉语发音脑电信号进行可视化分析后,如图2所示,可以发现汉语发音脑电信号具有一定的层次结构,这种层次结构与发声方式和发声位置有关。这意味着可以用双曲空间来建模汉语发声脑电信号。
本实例使用目前最常用且效果最好的双曲空间模型:庞加莱圆盘模型
Figure 958869DEST_PATH_IMAGE058
来投影脑电数据到双曲空间中:
Figure DEST_PATH_IMAGE059
Figure 475301DEST_PATH_IMAGE060
Figure 581798DEST_PATH_IMAGE004
其中,c代表的是双曲空间的曲率,d代表的是双曲空间的维度,
Figure DEST_PATH_IMAGE061
分别表示的是欧式度量和双曲度量,
Figure 918101DEST_PATH_IMAGE011
表示的是这两种度量的共形因子。
步骤3,构建双曲神经网络来提取特征,使用双曲多元逻辑回归分类器对汉语发音进行分类。
根据汉语发音脑电数据量小,维度大的特点构建合理的网络结构;双曲神经网络是欧氏空间神经网络向量、矩阵计算操作在双曲空间中执行的版本。由于向量、矩阵计算操作在非欧空间中执行过于复杂,需要使用双曲空间的切空间来近似操作。双曲空间的切空间具有欧式空间的性质,因此只需要将数据投影到切空间上,在切空间执行完向量、矩阵的计算操作后,再投影回欧氏空间即可。这里需要使用陀螺矢量空间中的指数变换和对数变换来完成切空间和原始空间的转换。通过这种方式,可以得到双曲神经网络的表示:
Figure 768245DEST_PATH_IMAGE012
Figure 342446DEST_PATH_IMAGE062
Figure 619844DEST_PATH_IMAGE063
其中,
Figure 646706DEST_PATH_IMAGE064
Figure 300541DEST_PATH_IMAGE016
分别表示双曲神经网络函数和欧式神经网络函数,
Figure 729248DEST_PATH_IMAGE017
Figure 177547DEST_PATH_IMAGE018
分别表示在原点的指数变换和对数变换,c 表示双曲空间的曲率。
考虑到汉语发音脑电信号数据量较少,在实际构建中,选择了2层的双曲神经网络结构,神经元数目分别为:256,128。
与双曲神经网络类似,双曲多元逻辑回归同样是欧式多元逻辑回归在双曲空间执行操作的版本。
具体来说,给定
Figure 957284DEST_PATH_IMAGE065
个不同类别,样本对于不同类别的logit概率是由双曲多元逻辑回归方法得到的,具体计算方式如下:
Figure 149231DEST_PATH_IMAGE019
其中,
Figure 432445DEST_PATH_IMAGE020
Figure 328943DEST_PATH_IMAGE021
为双曲多元逻辑回归的参数,
Figure 330397DEST_PATH_IMAGE022
表示类别 z 的分类边界的共形因子,
Figure 326035DEST_PATH_IMAGE066
表示反双曲正弦函数,
Figure 463755DEST_PATH_IMAGE024
表示以自然常数e为底的指数函数,
Figure 519436DEST_PATH_IMAGE025
表示
Figure 804924DEST_PATH_IMAGE021
的绝对值;
Figure 276356DEST_PATH_IMAGE067
表示莫比乌斯加法运算;c代表的是双曲空间的曲率;
Figure 596479DEST_PATH_IMAGE027
表示内积运算。
莫比乌斯加法运算是陀螺矢量空间的运算方法,本质上也是通过指数变换和对数变换推导得到的,具体计算方法如下:
Figure 760744DEST_PATH_IMAGE068
步骤4,对双曲神经网络和双曲多元逻辑回归分类器进行训练。
优化过程中,使用双曲RSGD方法进行参数优化和更新。考虑到脑电信号数据量少,使用留一法对模型进行训练与测试。每次只使用一个数据作为测试集,剩下的全部作为训练集。训练过程中,在双曲神经网络中加入基于三元组相似度的层次聚类约束的特征表示学习方法。
(4-1)选择合适的相似度计算方法:考虑到使用双曲模型来提取特征,可以直接采用双曲距离来计算相似度。
给定处于庞加莱圆盘上的两个点
Figure 267949DEST_PATH_IMAGE069
,两点之间的双曲距离的计算公式如下:
Figure 605390DEST_PATH_IMAGE070
其中,
Figure 780019DEST_PATH_IMAGE071
表示向量的欧几里得范数。
使用随机采样方法采样数量为 20-50 的三元组
Figure 849606DEST_PATH_IMAGE041
,计算彼此之间的双曲距离
Figure 375265DEST_PATH_IMAGE054
,分别除以三者之和
Figure 188501DEST_PATH_IMAGE055
进行归一化后得到
Figure 483216DEST_PATH_IMAGE072
,其相似度可以表示为
Figure DEST_PATH_IMAGE073
(4-2)选择合适的聚类位置:直接对logit向量计算层次聚类损失,将之以一定权重加入到需要优化的总体损失中,同时优化分类和聚类目标,将会得到如下的总体损失函数
Figure 520442DEST_PATH_IMAGE028
其中,
Figure 267818DEST_PATH_IMAGE029
代表分类损失,
Figure 884744DEST_PATH_IMAGE030
代表层次聚类损失。
Figure 33966DEST_PATH_IMAGE031
Figure 710935DEST_PATH_IMAGE032
是平衡损失函数两部分的系数。
对于多类别分类任务,给定
Figure 945607DEST_PATH_IMAGE074
个样本
Figure DEST_PATH_IMAGE075
属于
Figure 897382DEST_PATH_IMAGE076
个类别,并且对应的标签
Figure DEST_PATH_IMAGE077
,其中
Figure 901111DEST_PATH_IMAGE078
。分类损失
Figure 483402DEST_PATH_IMAGE029
可以表示为下式
Figure 205370DEST_PATH_IMAGE033
其中,
Figure 164099DEST_PATH_IMAGE034
Figure 287913DEST_PATH_IMAGE035
的类别标签,而
Figure 306684DEST_PATH_IMAGE036
是经过softmax之后
Figure 515949DEST_PATH_IMAGE035
的对数概率。
对于层次聚类损失,具体来说,从数据中随机采样一定数量的三元组,基于三元组来计算层次聚类损失,这个损失的目标是让层次聚类树中,相似度更高的节点更早的合并,具体的计算如下式:
Figure 12789DEST_PATH_IMAGE038
Figure 991109DEST_PATH_IMAGE039
其中
Figure 180782DEST_PATH_IMAGE040
表示归一化softmax函数,
Figure 877343DEST_PATH_IMAGE041
表示从数据中抽取的三元组,
Figure 177874DEST_PATH_IMAGE042
表示三元组中
Figure 10701DEST_PATH_IMAGE043
的最小公共祖先节点,
Figure 371275DEST_PATH_IMAGE048
表示到双曲空间中心的双曲距离,
Figure 555132DEST_PATH_IMAGE049
表示三元组中
Figure 393775DEST_PATH_IMAGE043
之间的双曲相似度。
为了同时优化聚类和分类,选择在logit层进行三元组抽样以及层次聚类。
步骤5,对双曲神经网络和双曲多元逻辑回归分类器进行测试和应用。
训练完成后,测试这个数据的分类结果是否正确。全部测试完成后,将总测试正确数除以总数据量得到留一分类准确率。
为了对比说明本发明提出的特征学习框架在双曲空间效果最佳,在相同数据集上用相同的网络结构用三种不同的空间度量进行实验,得到的比较结果图3,其中三张子图分别表示21个汉语声母发音、24个汉语韵母发音和20个汉字发音的分类结果,可以看出框架在双曲空间中时,性能要明显优于欧氏空间和球面空间。
为了说明本学习框架可以挖掘数据潜在的层次性,学习出更具语音特性的特征,将网络学习到的多元逻辑回归分类边界进行可视化分析,如图4,其中左子图为加入了层次聚类优化后的分类边界,右子图表示没有层次聚类优化的分类边界,不同颜色代表不同类别的汉语声母,可以看出,加入层次聚类优化后,学习到的分类边界更加分散,而且相同发声位置的声母的分类边界体现出聚集现象。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。

Claims (10)

1.一种侵入式脑机接口汉语发音解码方法,其特征在于,包括:
步骤1,采集汉语发音的脑电数据以及同步音频数据,从脑电数据中筛选有效的神经元并去除高度相似的神经元,并对脑电数据进行标准化;利用同步音频数据对脑电数据标注发声的时间节点,截取出固定窗口长度的数据段,每个数据段均与汉语音素对应;
步骤2,将步骤1处理后的脑电数据投影到双曲空间中,将双曲空间中的脑电数据和对应的汉语音素构成训练数据;
步骤3,构建双曲神经网络和双曲多元逻辑回归分类器;其中,双曲神经网络用于提取双曲空间中脑电数据的特征,双曲多元逻辑回归分类器用于对脑电数据的特征进行汉语音素分类;
步骤4,对双曲神经网络和双曲多元逻辑回归分类器进行训练;
训练过程中,从训练数据中抽取一定数量的三元组,并基于双曲神经网络的输出特征对这些三元组计算层次聚类的损失,以一定权重加入到需要优化的总体损失函数中;
步骤5,将待解码的脑电数据投影到双曲空间后依次输入训练好的双曲神经网络和双曲多元逻辑回归分类器,得到解码后的汉语音素分类。
2.根据权利要求1所述的侵入式脑机接口汉语发音解码方法,其特征在于,步骤1中,从脑电数据中筛选有效的神经元并去除高度相似的神经元具体为:
先进行锋电位分类,提取出脑电信号中所有神经元的发放,并绘制波形;目视审查每一个神经元的发放波形,保留存在明显波形同时总发放次数大于100的神经元;
对不同神经元的发放计算余弦相似度,当多个神经元相似程度大于 0.7 时,只保留其中一个神经元,以减轻串扰对数据质量的影响。
3.根据权利要求1所述的侵入式脑机接口汉语发音解码方法,其特征在于,步骤2中,采用庞加莱圆盘模型
Figure 60925DEST_PATH_IMAGE001
来投影脑电数据到双曲空间中:
Figure 460289DEST_PATH_IMAGE002
Figure 177709DEST_PATH_IMAGE003
Figure 104077DEST_PATH_IMAGE004
其中,
Figure 262657DEST_PATH_IMAGE005
表示曲率为c,维度为d的双曲空间;
Figure 350698DEST_PATH_IMAGE006
表示数据点,
Figure 24256DEST_PATH_IMAGE007
表示维度为d的欧式实数空间,
Figure 754315DEST_PATH_IMAGE008
表示x的绝对值,
Figure 826789DEST_PATH_IMAGE009
Figure 351311DEST_PATH_IMAGE010
分别表示欧式度量和双曲度量,
Figure 512165DEST_PATH_IMAGE011
表示这两种度量的共形因子。
4.根据权利要求1所述的侵入式脑机接口汉语发音解码方法,其特征在于,步骤3中,双曲神经网络表示为:
Figure 452439DEST_PATH_IMAGE012
Figure 506983DEST_PATH_IMAGE013
Figure 343352DEST_PATH_IMAGE014
其中,
Figure 116136DEST_PATH_IMAGE015
Figure 797784DEST_PATH_IMAGE016
分别表示双曲神经网络函数和欧式神经网络函数,
Figure 706834DEST_PATH_IMAGE017
Figure 245263DEST_PATH_IMAGE018
分别表示在原点的指数变换和对数变换,c表示双曲空间的曲率,
Figure 380709DEST_PATH_IMAGE006
表示数据点,
Figure 990682DEST_PATH_IMAGE008
表示
Figure 895184DEST_PATH_IMAGE006
的绝对值。
5.根据权利要求1所述的侵入式脑机接口汉语发音解码方法,其特征在于,步骤3中,双曲多元逻辑回归分类器进行汉语音素分类时,给定z个类别,不同类别的概率计算公式为:
Figure 197989DEST_PATH_IMAGE019
其中,
Figure 489906DEST_PATH_IMAGE020
Figure 903570DEST_PATH_IMAGE021
为双曲多元逻辑回归的参数,
Figure 662578DEST_PATH_IMAGE022
表示类别 z 的分类边界的共形因子,
Figure 870706DEST_PATH_IMAGE023
表示反双曲正弦函数,
Figure 715165DEST_PATH_IMAGE024
表示以自然常数e为底的指数函数,
Figure 666940DEST_PATH_IMAGE025
表示
Figure 546035DEST_PATH_IMAGE021
的绝对值;
Figure 190643DEST_PATH_IMAGE026
表示莫比乌斯加法运算;c代表的是双曲空间的曲率;
Figure 319136DEST_PATH_IMAGE027
表示内积运算。
6.根据权利要求1所述的侵入式脑机接口汉语发音解码方法,其特征在于,步骤4中,所述总体损失函数的公式为:
Figure 277864DEST_PATH_IMAGE028
其中,
Figure 618323DEST_PATH_IMAGE029
代表分类损失,
Figure 433832DEST_PATH_IMAGE030
代表层次聚类损失;
Figure 252883DEST_PATH_IMAGE031
Figure 812041DEST_PATH_IMAGE032
是平衡损失函数两部分的系数。
7.根据权利要求6所述的侵入式脑机接口汉语发音解码方法,其特征在于,所述分类损失的计算方式如下:
Figure 400148DEST_PATH_IMAGE033
其中,
Figure 120979DEST_PATH_IMAGE034
Figure 224064DEST_PATH_IMAGE035
的类别标签,
Figure 196700DEST_PATH_IMAGE036
是经过softmax之后
Figure 763947DEST_PATH_IMAGE035
的对数概率,
Figure 531046DEST_PATH_IMAGE037
表示mini-batch的数据量。
8.根据权利要求6所述的侵入式脑机接口汉语发音解码方法,其特征在于,所述层次聚类损失的计算方式如下:
Figure 449323DEST_PATH_IMAGE038
Figure 225650DEST_PATH_IMAGE039
其中,
Figure 319508DEST_PATH_IMAGE040
表示归一化softmax函数;
Figure 647721DEST_PATH_IMAGE041
表示从训练数据中抽取的三元组;
Figure 990977DEST_PATH_IMAGE042
表示三元组中
Figure 364802DEST_PATH_IMAGE043
的最小公共祖先节点,
Figure 782008DEST_PATH_IMAGE045
表示三元组中
Figure 15544DEST_PATH_IMAGE046
的最小公共祖先节点,
Figure 518200DEST_PATH_IMAGE047
表示三元组中
Figure 760963DEST_PATH_IMAGE048
的最小公共祖先节点;
Figure 32675DEST_PATH_IMAGE049
表示到双曲空间中心的双曲距离;
Figure 702691DEST_PATH_IMAGE050
表示三元组中
Figure 489381DEST_PATH_IMAGE043
之间的双曲相似度,
Figure 880043DEST_PATH_IMAGE051
表示三元组中
Figure 396475DEST_PATH_IMAGE046
之间的双曲相似度,
Figure 112758DEST_PATH_IMAGE052
表示三元组中
Figure 714640DEST_PATH_IMAGE048
之间的双曲相似度;
Figure 174572DEST_PATH_IMAGE053
表示矩阵转置。
9.根据权利要求8所述的侵入式脑机接口汉语发音解码方法,其特征在于,进行双曲相似度计算时,使用随机采样方法采样一定数量的三元组
Figure 545510DEST_PATH_IMAGE041
,计算彼此之间的双曲距离
Figure 429765DEST_PATH_IMAGE054
,分别除以三者之和
Figure 253365DEST_PATH_IMAGE055
进行归一化后得到
Figure 516987DEST_PATH_IMAGE056
,其相似度表示为
Figure 742432DEST_PATH_IMAGE057
10.根据权利要求8所述的侵入式脑机接口汉语发音解码方法,其特征在于,进行层次聚类损失计算时,选择在双曲多元逻辑回归分类器的logit层进行三元组抽样以及层次聚类。
CN202211545924.0A 2022-12-05 2022-12-05 一种侵入式脑机接口汉语发音解码方法 Active CN115565540B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211545924.0A CN115565540B (zh) 2022-12-05 2022-12-05 一种侵入式脑机接口汉语发音解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211545924.0A CN115565540B (zh) 2022-12-05 2022-12-05 一种侵入式脑机接口汉语发音解码方法

Publications (2)

Publication Number Publication Date
CN115565540A true CN115565540A (zh) 2023-01-03
CN115565540B CN115565540B (zh) 2023-04-07

Family

ID=84770115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211545924.0A Active CN115565540B (zh) 2022-12-05 2022-12-05 一种侵入式脑机接口汉语发音解码方法

Country Status (1)

Country Link
CN (1) CN115565540B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117851769A (zh) * 2023-11-30 2024-04-09 浙江大学 一种面向侵入式脑机接口的汉字书写解码方法
CN117958765A (zh) * 2024-04-01 2024-05-03 华南理工大学 基于双曲空间对齐的多模态语音脏腑器官识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0993135A (ja) * 1995-09-26 1997-04-04 Victor Co Of Japan Ltd 発声音データの符号化装置及び復号化装置
CN102789594A (zh) * 2012-06-28 2012-11-21 南京邮电大学 一种基于diva神经网络模型的语音生成方法
CN111681636A (zh) * 2020-06-16 2020-09-18 深圳市华创技术有限公司 基于脑机接口技术语音生成方法及医疗***和终端
CN113031766A (zh) * 2021-03-15 2021-06-25 哈尔滨工业大学 一种通过脑电解码汉语发音的方法
CN113589937A (zh) * 2021-08-04 2021-11-02 浙江大学 一种基于孪生网络核回归的侵入式脑机接口解码方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0993135A (ja) * 1995-09-26 1997-04-04 Victor Co Of Japan Ltd 発声音データの符号化装置及び復号化装置
CN102789594A (zh) * 2012-06-28 2012-11-21 南京邮电大学 一种基于diva神经网络模型的语音生成方法
CN111681636A (zh) * 2020-06-16 2020-09-18 深圳市华创技术有限公司 基于脑机接口技术语音生成方法及医疗***和终端
CN113031766A (zh) * 2021-03-15 2021-06-25 哈尔滨工业大学 一种通过脑电解码汉语发音的方法
CN113589937A (zh) * 2021-08-04 2021-11-02 浙江大学 一种基于孪生网络核回归的侵入式脑机接口解码方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
郑宇新等: "《脑机接口在神经修复中的应用》", 《国际神经病学神经外科学杂志》 *
郝冬梅等: "演化级联神经网络对脑电信号分类的研究", 《生物医学工程学杂志》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117851769A (zh) * 2023-11-30 2024-04-09 浙江大学 一种面向侵入式脑机接口的汉字书写解码方法
CN117958765A (zh) * 2024-04-01 2024-05-03 华南理工大学 基于双曲空间对齐的多模态语音脏腑器官识别方法
CN117958765B (zh) * 2024-04-01 2024-06-21 华南理工大学 基于双曲空间对齐的多模态语音脏腑器官识别方法

Also Published As

Publication number Publication date
CN115565540B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110556129B (zh) 双模态情感识别模型训练方法及双模态情感识别方法
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
CN110516696B (zh) 一种基于语音和表情的自适应权重双模态融合情感识别方法
Jahangir et al. Deep learning approaches for speech emotion recognition: State of the art and research challenges
CN115565540B (zh) 一种侵入式脑机接口汉语发音解码方法
CN107221320A (zh) 训练声学特征提取模型的方法、装置、设备和计算机存储介质
CN103996155A (zh) 智能交互及心理慰藉机器人服务***
JP2020038343A (ja) 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム
CN117251057A (zh) 一种基于aigc构建ai数智人的方法及***
Sahu et al. Modeling feature representations for affective speech using generative adversarial networks
Ling An acoustic model for English speech recognition based on deep learning
Wu et al. Speech synthesis with face embeddings
Anjos et al. Detection of voicing and place of articulation of fricatives with deep learning in a virtual speech and language therapy tutor
CN110348482A (zh) 一种基于深度模型集成架构的语音情感识别***
CN112466284B (zh) 一种口罩语音鉴别方法
Akinpelu et al. Lightweight deep learning framework for speech emotion recognition
CN111462762B (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
Adiban et al. Statistical feature embedding for heart sound classification
Shome et al. Speaker Recognition through Deep Learning Techniques: A Comprehensive Review and Research Challenges
CN115145402A (zh) 具有网络交互功能的智能玩具***及控制方法
CN114882888A (zh) 基于变分自编码和对抗生成网络的声纹识别方法及***
Yousfi et al. Isolated Iqlab checking rules based on speech recognition system
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
Hair et al. Assessing Posterior-Based Mispronunciation Detection on Field-Collected Recordings from Child Speech Therapy Sessions.
Abdullah Arabic Alphabets Learning Application for Children Early Childhood based on Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant