CN115565540A - 一种侵入式脑机接口汉语发音解码方法 - Google Patents
一种侵入式脑机接口汉语发音解码方法 Download PDFInfo
- Publication number
- CN115565540A CN115565540A CN202211545924.0A CN202211545924A CN115565540A CN 115565540 A CN115565540 A CN 115565540A CN 202211545924 A CN202211545924 A CN 202211545924A CN 115565540 A CN115565540 A CN 115565540A
- Authority
- CN
- China
- Prior art keywords
- hyperbolic
- data
- representing
- chinese pronunciation
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 claims abstract description 33
- 210000002569 neuron Anatomy 0.000 claims abstract description 32
- 238000007477 logistic regression Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 20
- 230000001360 synchronised effect Effects 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 7
- 238000012216 screening Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 24
- 239000000126 substance Substances 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 210000004556 brain Anatomy 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 238000010304 firing Methods 0.000 claims description 6
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 abstract 1
- 230000001537 neural effect Effects 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 238000005457 optimization Methods 0.000 description 5
- 238000007792 addition Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000000337 motor cortex Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 206010033799 Paralysis Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 201000007201 aphasia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007177 brain activity Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000035484 reaction time Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种侵入式脑机接口汉语发音解码方法,包括:从脑电数据中筛选有效的神经元并去除高度相似的神经元,标准化后利用同步音频数据对脑电数据进行标注;根据汉语发音脑电数据的特点,将脑电数据投影到双曲空间中;构建有效的双曲神经网络和双曲多元逻辑回归分类器对脑电数据进行汉语音素分类;训练过程中,从训练数据中抽取一定数量的三元组,并基于网络的输出特征对这些三元组计算层次聚类的损失,以一定权重加入到需要优化的总体损失函数中;利用训练好的双曲神经网络和双曲多元逻辑回归分类器进行解码。本方法通过引入双曲空间和双曲解码方法,更好地利用了汉语发音脑电数据的结构特点,有效提高了汉语发音脑电数据的分类解码性能。
Description
技术领域
本发明涉及脑电数据解码领域,尤其是涉及一种侵入式脑机接口汉语发音解码方法。
背景技术
侵入式脑机接口利用侵入式电极记录的高分辨率皮质内脑电信号,来识别大脑的状态和意图,进而帮助临床患者执行各种不同的任务。近年来,侵入式脑机接口在语音上的应用和研究飞速发展。先进的语音脑机接口已经实现了直接语音合成,或从脑电信号中解码语音音素、单词和句子,这意味着侵入式语音脑机接口对于恢复失语症患者的沟通能力具有巨大潜力。
通常情况下,语音脑机接口将发音视为一个运动过程,通过解码作为中间环节的口腔发音运动学,将神经信号解码成语音。一种方式是将从运动皮层记录下来的脑电信号转化为说话过程中的口腔发音动作,然后将相应的口腔发音动作转化为语音。在深度网络等机器学习方法的帮助下,一些语音脑机接口倾向于以端到端方式学习解码器,从脑电信号直接生成语音波形。
如公开号为CN111681636A的中国专利文献公开了基于脑机接口技术语音生成方法,包括采集反映大脑活动信息的脑电信号、外界的音频信号和视频图像信号,经过特征提取后,通过多个神经网络的非线性计算和学习,加上外界的上下文语境信息和反馈输入,从大脑信号中直接解码出大脑所表达的意图和语言内容,最后通过对抗神经网络完成语音生成,实现脑机接口技术的语音生成。
然而,直接从神经信号解码语音面临词表有限的问题。因为在构建语音脑机接口之前,被试需要重复说出词汇表中的单词进行解码器训练,这是非常耗时的。另一方面,音素是发音中的基本声音单位。通常情况下,音素的数量远远少于单词的数量。通过对音素的准确识别,再进行组合之后有望实现对单词的自由解码。但是从神经信号中准确解码语音音素是很难实现的。从运动过程的角度来看,与说话相关的运动学是口面运动的组合,包括嘴唇、舌头、下巴和其他关节。因此,运动学相似的音素往往混淆,难以区分,降低了音素的整体分类性能。如何从神经信号中精确解码语音音素仍然是一个具有挑战性的问题。
更重要的是,此前还没有针对汉语发音的脑机接口应用和研究,如何针对汉语的发声特点设计算法,实现良好的分类解码性能,进而构建高效的语音脑机接口,在当下还处于空白状态。
发明内容
本发明提供了一种侵入式脑机接口汉语发音解码方法,可以有效提高汉语发音脑电数据的分类解码性能。
一种侵入式脑机接口汉语发音解码方法,包括:
(1)采集汉语发音的脑电数据以及同步音频数据,从脑电数据中筛选有效的神经元并去除高度相似的神经元,并对脑电数据进行标准化;利用同步音频数据对脑电数据标注发声的时间节点,截取出固定窗口长度的数据段,每个数据段均与汉语音素对应;
(2)将步骤(1)处理后的脑电数据投影到双曲空间中,将双曲空间中的脑电数据和对应的汉语音素构成训练数据;
(3)构建双曲神经网络和双曲多元逻辑回归分类器;其中,双曲神经网络用于提取双曲空间中脑电数据的特征,双曲多元逻辑回归分类器用于对脑电数据的特征进行汉语音素分类;
(4)对双曲神经网络和双曲多元逻辑回归分类器进行训练;
训练过程中,从训练数据中抽取一定数量的三元组,并基于双曲神经网络的输出特征对这些三元组计算层次聚类的损失,以一定权重加入到需要优化的总体损失函数中;
(5)将待解码的脑电数据投影到双曲空间后依次输入训练好的双曲神经网络和双曲多元逻辑回归分类器,得到解码后的汉语音素分类。
本发明针对汉语发音中音素本身的层次分类结构,以及汉语发音脑电信号中关于发声位置和发声方式的层次性,构建双曲神经网络来更好的学习汉语发音脑电信号的特征,通过双曲多元逻辑回归分类器得到logit向量。同时对logit向量执行层次聚类约束,鼓励模型能更好的挖掘数据本身的层次结构,从而学习到更好的表征,有效提高了汉语发音脑电数据的分类解码性能。
作为优选,步骤(1)中,使用离线筛选的方式筛选神经元。从脑电数据中筛选有效的神经元并去除高度相似的神经元具体为:
先进行锋电位分类,提取出脑电信号中所有神经元的发放,并绘制波形;目视审查每一个神经元的发放波形,保留存在明显波形同时总发放次数大于100的神经元;对不同神经元的发放计算余弦相似度,当多个神经元相似程度大于 0.7 时,只保留其中一个神经元,以减轻串扰对数据质量的影响。
对数据进行标准化时,将原值减去均值后除以标准差,使得得到的数据满足均值为 0,标准差为1的正态分布。
作为优选,利用同步的音频数据标注发声的时间节点,以发声的时间节点为中心,截取以 [-500ms, +1500ms] 为窗口的数据段用于后续的训练和验证。
步骤(3)中,双曲神经网络表示为:
步骤(3)中,双曲多元逻辑回归分类器进行汉语音素分类时,给定z个类别,不同类别的概率计算公式为:
其中,和为双曲多元逻辑回归的参数, 表示类别 z 的分类边界的共形因子, 表示反双曲正弦函数, 表示以自然常数e为底的指数函数, 表示的绝对值;表示莫比乌斯加法运算;c代表的是双曲空间的曲率; 表示内积运算。
步骤(4)中,所述总体损失函数的公式为:
所述分类损失的计算方式如下:
所述层次聚类损失的计算方式如下:
其中,表示归一化softmax函数;表示从训练数据中抽取的三元组;表示三元组中 的最小公共祖先节点,表示三元组中 的最小公共祖先节点, 表示三元组中 的最小公共祖先节点;表示到双曲空间中心的双曲距离;表示三元组中之间的双曲相似度,表示三元组中之间的双曲相似度, 表示三元组中之间的双曲相似度;表示矩阵转置。
进行层次聚类损失计算时,选择在双曲多元逻辑回归分类器的logit层进行三元组抽样以及层次聚类。
与现有技术相比,本发明具有以下有益效果:
本发明将双曲神经网络应用于汉语发音脑电信号的分类解码中,在双曲空间中对汉语发音的神经表示进行分类,同时考虑到汉语发音本身以及信号表征存在的层次特性,利用层次聚类损失约束音素的神经表示的层次结构。结果证明,该模型从脑电信号中学习可解释的层次音素嵌入,显著提高了音素解码性能。
附图说明
图1为本发明实施例中数据集实验范式时序图。
图2为本发明实施例中数据集不同汉语声母按发声位置分组后的spike发放可视化图。
图3为利用本发明方法处理与未利用发明方法处理的分类准确率比较图。
图4为利用本发明方法和未利用发明方法学习到的二维多元逻辑回归分类边界可视化后得到的分布比较图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
在数据采集阶段,本实施例从一名瘫痪患者的左侧主运动皮层植入两个96通道犹他皮质内微电极阵列(Blackrock Microsystems, Salt Lake City, UT, USA),收集神经信号,以记录神经信号。使用带有两个96通道Utah皮质内微电极阵列的Neuroport***(NSP, Blackrock Microsystems)在30 kHz下对神经信号进行采样。在实验过程中,音频信号同时被放置在患者面前的麦克风记录下来。音频信号由NeuroPort***通过模拟输入端口以30khz进行数字化处理。本实施例针对汉语发音设计了三种任务:21个不同的声母发音任务,24个不同的韵母发音任务和20个不同的汉字发音任务。数据采集的实验范式如图1所示。具体来说,在每次试验中,被试者被要求观看在他前面一米远的电脑屏幕上的红色音素提示,并听到该音素的声音提示。一秒钟后,屏幕上的音素变成绿色,表明“start”阶段的开始,被试随后说出提示音素。为了保证被试有足够的反应时间来完成试验,“start”阶段持续了3秒。结束“start”阶段之后,一个trial的记录完成,随后开始记录下一个trial。
本发明提出的一种侵入式脑机接口汉语发音解码方法,具体实现如下步骤:
步骤1,脑电数据预处理。
设计汉语发音的实验范式,采集汉语发音的脑电数据以及同步音频数据;从脑电数据中筛选有效的神经元并去除高度相似的神经元,对数据进行标准化,利用同步音频数据对脑电数据进行标注后截取出合适窗口长度的数据段,得到预处理后的脑电数据。
具体来说,先进行锋电位分类(spike sorting),提取出脑电信号中所有神经元的发放,并绘制波形。目视审查每一个神经元的发放波形,保留存在明显波形同时总发放次数大于 100 的神经元。对不同神经元的发放计算余弦相似度,当多个神经元相似程度大于0.7 时,只保留其中一个神经元。
对数据进行标准化时,将原值减去均值后除以标准差,使得得到的数据满足均值为 0,标准差为1的正态分布。
然后利用同步的音频数据标注发声的时间节点,以发声的时间节点为中心,截取以 [-500ms, +1500ms] 为窗口的数据段用于后续的训练和验证。
步骤2,将脑电数据投影到双曲空间中。
双曲空间是一种处处负曲率的非欧空间。在双曲空间中,离空间中心越远,曲率越大,空间弯曲的程度越大。这意味着双曲空间十分适合用于建模具有树状结构或者层次结构的数据:树的节点数随着树的深度呈指数增长。对汉语发音脑电信号进行可视化分析后,如图2所示,可以发现汉语发音脑电信号具有一定的层次结构,这种层次结构与发声方式和发声位置有关。这意味着可以用双曲空间来建模汉语发声脑电信号。
步骤3,构建双曲神经网络来提取特征,使用双曲多元逻辑回归分类器对汉语发音进行分类。
根据汉语发音脑电数据量小,维度大的特点构建合理的网络结构;双曲神经网络是欧氏空间神经网络向量、矩阵计算操作在双曲空间中执行的版本。由于向量、矩阵计算操作在非欧空间中执行过于复杂,需要使用双曲空间的切空间来近似操作。双曲空间的切空间具有欧式空间的性质,因此只需要将数据投影到切空间上,在切空间执行完向量、矩阵的计算操作后,再投影回欧氏空间即可。这里需要使用陀螺矢量空间中的指数变换和对数变换来完成切空间和原始空间的转换。通过这种方式,可以得到双曲神经网络的表示:
考虑到汉语发音脑电信号数据量较少,在实际构建中,选择了2层的双曲神经网络结构,神经元数目分别为:256,128。
与双曲神经网络类似,双曲多元逻辑回归同样是欧式多元逻辑回归在双曲空间执行操作的版本。
其中,和为双曲多元逻辑回归的参数, 表示类别 z 的分类边界的共形因子, 表示反双曲正弦函数, 表示以自然常数e为底的指数函数, 表示的绝对值; 表示莫比乌斯加法运算;c代表的是双曲空间的曲率;表示内积运算。
莫比乌斯加法运算是陀螺矢量空间的运算方法,本质上也是通过指数变换和对数变换推导得到的,具体计算方法如下:
步骤4,对双曲神经网络和双曲多元逻辑回归分类器进行训练。
优化过程中,使用双曲RSGD方法进行参数优化和更新。考虑到脑电信号数据量少,使用留一法对模型进行训练与测试。每次只使用一个数据作为测试集,剩下的全部作为训练集。训练过程中,在双曲神经网络中加入基于三元组相似度的层次聚类约束的特征表示学习方法。
(4-1)选择合适的相似度计算方法:考虑到使用双曲模型来提取特征,可以直接采用双曲距离来计算相似度。
(4-2)选择合适的聚类位置:直接对logit向量计算层次聚类损失,将之以一定权重加入到需要优化的总体损失中,同时优化分类和聚类目标,将会得到如下的总体损失函数
对于层次聚类损失,具体来说,从数据中随机采样一定数量的三元组,基于三元组来计算层次聚类损失,这个损失的目标是让层次聚类树中,相似度更高的节点更早的合并,具体的计算如下式:
为了同时优化聚类和分类,选择在logit层进行三元组抽样以及层次聚类。
步骤5,对双曲神经网络和双曲多元逻辑回归分类器进行测试和应用。
训练完成后,测试这个数据的分类结果是否正确。全部测试完成后,将总测试正确数除以总数据量得到留一分类准确率。
为了对比说明本发明提出的特征学习框架在双曲空间效果最佳,在相同数据集上用相同的网络结构用三种不同的空间度量进行实验,得到的比较结果图3,其中三张子图分别表示21个汉语声母发音、24个汉语韵母发音和20个汉字发音的分类结果,可以看出框架在双曲空间中时,性能要明显优于欧氏空间和球面空间。
为了说明本学习框架可以挖掘数据潜在的层次性,学习出更具语音特性的特征,将网络学习到的多元逻辑回归分类边界进行可视化分析,如图4,其中左子图为加入了层次聚类优化后的分类边界,右子图表示没有层次聚类优化的分类边界,不同颜色代表不同类别的汉语声母,可以看出,加入层次聚类优化后,学习到的分类边界更加分散,而且相同发声位置的声母的分类边界体现出聚集现象。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
Claims (10)
1.一种侵入式脑机接口汉语发音解码方法,其特征在于,包括:
步骤1,采集汉语发音的脑电数据以及同步音频数据,从脑电数据中筛选有效的神经元并去除高度相似的神经元,并对脑电数据进行标准化;利用同步音频数据对脑电数据标注发声的时间节点,截取出固定窗口长度的数据段,每个数据段均与汉语音素对应;
步骤2,将步骤1处理后的脑电数据投影到双曲空间中,将双曲空间中的脑电数据和对应的汉语音素构成训练数据;
步骤3,构建双曲神经网络和双曲多元逻辑回归分类器;其中,双曲神经网络用于提取双曲空间中脑电数据的特征,双曲多元逻辑回归分类器用于对脑电数据的特征进行汉语音素分类;
步骤4,对双曲神经网络和双曲多元逻辑回归分类器进行训练;
训练过程中,从训练数据中抽取一定数量的三元组,并基于双曲神经网络的输出特征对这些三元组计算层次聚类的损失,以一定权重加入到需要优化的总体损失函数中;
步骤5,将待解码的脑电数据投影到双曲空间后依次输入训练好的双曲神经网络和双曲多元逻辑回归分类器,得到解码后的汉语音素分类。
2.根据权利要求1所述的侵入式脑机接口汉语发音解码方法,其特征在于,步骤1中,从脑电数据中筛选有效的神经元并去除高度相似的神经元具体为:
先进行锋电位分类,提取出脑电信号中所有神经元的发放,并绘制波形;目视审查每一个神经元的发放波形,保留存在明显波形同时总发放次数大于100的神经元;
对不同神经元的发放计算余弦相似度,当多个神经元相似程度大于 0.7 时,只保留其中一个神经元,以减轻串扰对数据质量的影响。
10.根据权利要求8所述的侵入式脑机接口汉语发音解码方法,其特征在于,进行层次聚类损失计算时,选择在双曲多元逻辑回归分类器的logit层进行三元组抽样以及层次聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211545924.0A CN115565540B (zh) | 2022-12-05 | 2022-12-05 | 一种侵入式脑机接口汉语发音解码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211545924.0A CN115565540B (zh) | 2022-12-05 | 2022-12-05 | 一种侵入式脑机接口汉语发音解码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115565540A true CN115565540A (zh) | 2023-01-03 |
CN115565540B CN115565540B (zh) | 2023-04-07 |
Family
ID=84770115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211545924.0A Active CN115565540B (zh) | 2022-12-05 | 2022-12-05 | 一种侵入式脑机接口汉语发音解码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115565540B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117851769A (zh) * | 2023-11-30 | 2024-04-09 | 浙江大学 | 一种面向侵入式脑机接口的汉字书写解码方法 |
CN117958765A (zh) * | 2024-04-01 | 2024-05-03 | 华南理工大学 | 基于双曲空间对齐的多模态语音脏腑器官识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0993135A (ja) * | 1995-09-26 | 1997-04-04 | Victor Co Of Japan Ltd | 発声音データの符号化装置及び復号化装置 |
CN102789594A (zh) * | 2012-06-28 | 2012-11-21 | 南京邮电大学 | 一种基于diva神经网络模型的语音生成方法 |
CN111681636A (zh) * | 2020-06-16 | 2020-09-18 | 深圳市华创技术有限公司 | 基于脑机接口技术语音生成方法及医疗***和终端 |
CN113031766A (zh) * | 2021-03-15 | 2021-06-25 | 哈尔滨工业大学 | 一种通过脑电解码汉语发音的方法 |
CN113589937A (zh) * | 2021-08-04 | 2021-11-02 | 浙江大学 | 一种基于孪生网络核回归的侵入式脑机接口解码方法 |
-
2022
- 2022-12-05 CN CN202211545924.0A patent/CN115565540B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0993135A (ja) * | 1995-09-26 | 1997-04-04 | Victor Co Of Japan Ltd | 発声音データの符号化装置及び復号化装置 |
CN102789594A (zh) * | 2012-06-28 | 2012-11-21 | 南京邮电大学 | 一种基于diva神经网络模型的语音生成方法 |
CN111681636A (zh) * | 2020-06-16 | 2020-09-18 | 深圳市华创技术有限公司 | 基于脑机接口技术语音生成方法及医疗***和终端 |
CN113031766A (zh) * | 2021-03-15 | 2021-06-25 | 哈尔滨工业大学 | 一种通过脑电解码汉语发音的方法 |
CN113589937A (zh) * | 2021-08-04 | 2021-11-02 | 浙江大学 | 一种基于孪生网络核回归的侵入式脑机接口解码方法 |
Non-Patent Citations (2)
Title |
---|
郑宇新等: "《脑机接口在神经修复中的应用》", 《国际神经病学神经外科学杂志》 * |
郝冬梅等: "演化级联神经网络对脑电信号分类的研究", 《生物医学工程学杂志》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117851769A (zh) * | 2023-11-30 | 2024-04-09 | 浙江大学 | 一种面向侵入式脑机接口的汉字书写解码方法 |
CN117958765A (zh) * | 2024-04-01 | 2024-05-03 | 华南理工大学 | 基于双曲空间对齐的多模态语音脏腑器官识别方法 |
CN117958765B (zh) * | 2024-04-01 | 2024-06-21 | 华南理工大学 | 基于双曲空间对齐的多模态语音脏腑器官识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115565540B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110556129B (zh) | 双模态情感识别模型训练方法及双模态情感识别方法 | |
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
CN110516696B (zh) | 一种基于语音和表情的自适应权重双模态融合情感识别方法 | |
Jahangir et al. | Deep learning approaches for speech emotion recognition: State of the art and research challenges | |
CN115565540B (zh) | 一种侵入式脑机接口汉语发音解码方法 | |
CN107221320A (zh) | 训练声学特征提取模型的方法、装置、设备和计算机存储介质 | |
CN103996155A (zh) | 智能交互及心理慰藉机器人服务*** | |
JP2020038343A (ja) | 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム | |
CN117251057A (zh) | 一种基于aigc构建ai数智人的方法及*** | |
Sahu et al. | Modeling feature representations for affective speech using generative adversarial networks | |
Ling | An acoustic model for English speech recognition based on deep learning | |
Wu et al. | Speech synthesis with face embeddings | |
Anjos et al. | Detection of voicing and place of articulation of fricatives with deep learning in a virtual speech and language therapy tutor | |
CN110348482A (zh) | 一种基于深度模型集成架构的语音情感识别*** | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
Akinpelu et al. | Lightweight deep learning framework for speech emotion recognition | |
CN111462762B (zh) | 一种说话人向量正则化方法、装置、电子设备和存储介质 | |
Adiban et al. | Statistical feature embedding for heart sound classification | |
Shome et al. | Speaker Recognition through Deep Learning Techniques: A Comprehensive Review and Research Challenges | |
CN115145402A (zh) | 具有网络交互功能的智能玩具***及控制方法 | |
CN114882888A (zh) | 基于变分自编码和对抗生成网络的声纹识别方法及*** | |
Yousfi et al. | Isolated Iqlab checking rules based on speech recognition system | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
Hair et al. | Assessing Posterior-Based Mispronunciation Detection on Field-Collected Recordings from Child Speech Therapy Sessions. | |
Abdullah | Arabic Alphabets Learning Application for Children Early Childhood based on Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |