CN113317763B - 基于多模态的帕金森病检测装置及计算机可读存储介质 - Google Patents
基于多模态的帕金森病检测装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113317763B CN113317763B CN202110735163.4A CN202110735163A CN113317763B CN 113317763 B CN113317763 B CN 113317763B CN 202110735163 A CN202110735163 A CN 202110735163A CN 113317763 B CN113317763 B CN 113317763B
- Authority
- CN
- China
- Prior art keywords
- fusion
- feature
- features
- module
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 27
- 208000027089 Parkinsonian disease Diseases 0.000 title abstract description 32
- 206010034010 Parkinsonism Diseases 0.000 title abstract description 32
- 230000004927 fusion Effects 0.000 claims abstract description 143
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 208000018737 Parkinson disease Diseases 0.000 claims description 48
- 230000005021 gait Effects 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000007499 fusion processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 1
- 238000003745 diagnosis Methods 0.000 abstract description 15
- 230000000694 effects Effects 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000000034 method Methods 0.000 description 18
- 238000012549 training Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 210000001260 vocal cord Anatomy 0.000 description 6
- 230000001133 acceleration Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000036541 health Effects 0.000 description 4
- 231100000915 pathological change Toxicity 0.000 description 4
- 230000036285 pathological change Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 210000003423 ankle Anatomy 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004195 computer-aided diagnosis Methods 0.000 description 2
- 210000002683 foot Anatomy 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 208000011293 voice disease Diseases 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 208000012639 Balance disease Diseases 0.000 description 1
- 206010013952 Dysphonia Diseases 0.000 description 1
- 208000010473 Hoarseness Diseases 0.000 description 1
- 208000006083 Hypokinesia Diseases 0.000 description 1
- 206010061533 Myotonia Diseases 0.000 description 1
- 206010071390 Resting tremor Diseases 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 210000004394 hip joint Anatomy 0.000 description 1
- 230000003483 hypokinetic effect Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 210000000629 knee joint Anatomy 0.000 description 1
- 210000003141 lower extremity Anatomy 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000015122 neurodegenerative disease Diseases 0.000 description 1
- 230000000926 neurological effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 208000027765 speech disease Diseases 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 210000001364 upper extremity Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/40—Detecting, measuring or recording for evaluating the nervous system
- A61B5/4076—Diagnosing or monitoring particular conditions of the nervous system
- A61B5/4082—Diagnosing or monitoring movement diseases, e.g. Parkinson, Huntington or Tourette
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/103—Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
- A61B5/11—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
- A61B5/112—Gait analysis
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Neurology (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Veterinary Medicine (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Physiology (AREA)
- Surgery (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Neurosurgery (AREA)
- Dentistry (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Developmental Disabilities (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请实施例属于人工智能技术,可应用于数字医疗领域,涉及一种基于多模态的帕金森病检测装置,包括采集模块、特征提取模块、特征融合模块以及预测模块,通过该装置采集测试对象的多种模态信息,分别从多种模态信息中提取出每个模态对应的模态特征,对模态特征进行特征融合得到中间融合特征,并根据中间融合特征得到目标融合特征,并对目标融合特征进行分类,得到分类结果,并根据分类结果进行帕金森病的预测。本申请还提供一种计算机可读存储介质。此外,本申请还涉及区块链技术,多种模态信息可存储于区块链中。本申请提高帕金森病的识别率,从而为医生的诊断提供了有效的辅助作用。
Description
技术领域
本申请涉及人工智能技术领域以及数字医疗技术领域,尤其涉及一种基于多模态的帕金森病检测装置及计算机可读存储介质。
背景技术
帕金森病(Paekinson’s disease,PD)又名震颤麻痹,是仅次于阿尔兹海默症的世界第二大神经***变性疾病。临床上以运动迟缓、肌强直、静止性震颤和姿势平衡障碍非对称运动症状、声音障碍等为主要表现。目前,帕金森的诊断仍主要依据其临床核心症状,然而这些核心症状也并非帕金森病所有,仅根据病史及临床表现很难确诊。
随着人工智能的发展,基于计算机辅助诊断(computeraided diagnosis,CAD)的方法给帕金森症诊断带来了巨大帮助,其让神经影像信息的识别能力最大化,能够从影像数据中提取潜在的有效信息。但是,大多数的辅助诊断***是基于单模态进行诊断的,然而,由于各个模态所表征的信息不同,不同模态提取的有效信息都不是全面的,因此,单一模态分析在帕金森病检测中识别率低、鲁棒性差。
发明内容
本申请实施例的目的在于提出一种基于多模态的帕金森病检测装置及计算机可读存储介质,以解决在帕金森病检测中通过单模态进行分析,识别率低,造成诊断结果准确度低的问题。
为了解决上述技术问题,本申请实施例提供一种基于多模态的帕金森病检测装置,采用了如下所述的技术方案:
采集模块,用于采集测试对象的多种模态信息;
特征提取模块,用于分别从所述多种模态信息中提取出每个模态对应的模态特征;
特征融合模块,用于对所述模态特征进行特征融合得到中间融合特征,并根据所述中间融合特征得到目标融合特征;
预测模块,用于根据所述目标融合特征进行分类,得到分类结果,并根据所述分类结果进行帕金森病的预测。
进一步的,所述多模态信息包括声纹信息、手绘图像信息以及步态信息,所述特征提取模块包括:
声纹特征提取子模块,用于从所述声纹信息中提取出音频特征;
手绘图像特征提取子模块,用于从所述手绘图像信息中提取出手绘特征;
步态特征提取子模块,用于从所述步态信息中提取出步态特征。
进一步的,所述特征融合模块包括:
第一特征融合子模块,用于对所述音频特征与所述手绘特征进行特征融合,得到中间融合特征;
第二特征融合子模块,用于将所述步态特征与所述中间融合特征进行特征融合,得到目标融合特征。
进一步的,所述第一特征融合子模块包括:
拼接单元,用于拼接所述音频特征和所述手绘特征,得到拼接特征向量;
第一融合单元,用于对所述拼接特征向量进行特征融合处理,以获得所述音频特征和所述手绘特征之间的交互特征作为中间融合特征。
进一步的,所述第二特征融合子模块包括:
注意力单元,用于将所述步态特征与所述中间融合特征相乘,得到特征矩阵,并根据所述特征矩阵获取注意力特征;
第二融合单元,用于将所述注意力特征与所述中间融合特征进行融合操作,获得所述目标融合特征。
进一步的,所述注意力单元还用于:
计算所述特征矩阵的注意力分布,并根据所述注意力分布和所述步态特征相乘,得到所述注意力特征。
进一步的,所述第二融合单元还用于:
通过卷积操作将所述注意力特征与所述中间融合特征进行特征融合,得到注意力融合特征;
采用自注意力机制对所述注意力融合特征进行筛选,得到所述目标融合特征。
进一步的,所述预测模块包括:
分类子模块,用于对所述目标融合特征进行分类,得到分类结果;
预测子模块,用于根据所述分类结果进行帕金森病预测,输出预测结果。
进一步的,所述预测子模块还用于:
根据所述分类结果输出概率预测向量;
基于所述概率预测向量得到预测结果。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的基于多模态的帕金森病检测装置中的各单元和/或模块的功能。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请提供了一种基于多模态的帕金森病检测装置,该装置包括采集模块、特征提取模块、特征融合模块以及预测模块,通过该装置采集测试对象的多种模态信息,分别从多种模态信息中提取出每个模态对应的模态特征,对模态特征进行特征融合得到中间融合特征,并根据中间融合特征得到目标融合特征,并对目标融合特征进行分类,得到分类结果,并根据分类结果进行帕金森病的预测;本申请通过将采集的多种模态信息进行特征融合,得到融合特征,可以实现将帕金森患者不同模态的特征信息融合在一起,丰富了特征信息,最大化的利用了测试对象的信息,提高帕金森病的识别率,从而为医生的诊断提供了有效的辅助作用,以便更好地区分帕金森患者和正常人。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性***架构图;
图2是根据本申请的基于多模态的帕金森病检测装置的一个实施例的结构示意图;
图3根据本申请的基于多模态的帕金森病检测方法的一个实施例的流程图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
为了解决在帕金森病检测中通过单模态进行分析,识别率低,造成诊断结果准确度低的问题,本申请提供了一种基于多模态的帕金森病检测装置,涉及人工智能以及数字医疗,可以应用于如图1所示的***架构100中,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于多模态的帕金森病检测装置一般设置于终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的基于多模态的帕金森病检测装置的结构示意图,包括:采集模块201、特征提取模块202、特征融合模块203以及预测模块204。
采集模块201用于采集测试对象的多种模态信息。
在本实施例中,测试对象包括帕金森病人和正常人,多种模态信息包括但不限于声纹信息、手绘图像信息以及步态信息。
声纹信息即为语音信息,帕金森病人发音时通常会出现音量响度不高、气息声增多、音调单一、声音嘶哑等问题,因此,通过语音信息可以用于帕金森病诊断。采集的语音需要简短,同时能够在一定程度上反映出病人的语音障碍,考虑到需要不同的人之间存在语种不同、有无方言、有无口音以及需要避免发音不清等多种因素,可以采用持续发音法,此方法比较普遍,且效果好、可操作性强。
在患有帕金森病之后,病人会在早期就呈现出书写能力明显下降的趋势,因此,手绘图像可用于帕金森病的诊断。手绘图像信息可以通过提供迷宫线或者螺旋线模板,测试对象沿着迷宫线或者螺旋线描绘轨迹来获得。
步态为帕金森病人特有的步行姿态,表现为步行启动困难、双支撑相时间延长、下肢摆动幅度减小、髋膝关节轻度屈曲、重心前移、步频加快以保持平衡呈现慌张状态,上肢摆动很小。因此,根据步态信息可以诊断是否为帕金森病。通过对测试对象的足底压力、脚腕处加速度或者小腿的肌电信号等进行检测以得到步态信息。
需要强调的是,为进一步保证多种模态信息的私密和安全性,上述多种模态信息还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
特征提取模块202用于分别从多种模态信息中提取出每个模态对应的模态特征。
在本实施例中,特征提取模块分别单独提取每个模态信息中的模态特征。
在一些可选的实现方式中,特征提取模块202包括声纹特征提取子模块、手绘图像特征提取子模块和步态特征提取子模块。将采集到的声纹信息、手绘图像信息和步态信息输入对应的声纹特征提取子模块、手绘图像特征提取子模块和步态特征提取子模块,进行特征提取,分别提取出音频特征、手绘特征和步态特征。
声纹特征提取子模块所有的音频特征,包括基频特征Pitch、基频扰动Jitter、振幅扰动Shimmer、信噪比特征、非线性特征。
基频为基音的频率,即为声带每秒振动的次数,可以采用最为常见的自相关法来进行基频的提取,自相关法其计算比较简单,就是利用自相关函数进行基频的估计。
基频扰动Jitter用来表示基频的扰动,即基音周期偏离周期的程度大小,由于音频采用的是持续发音法,且发长元音,可以排除元辅音交替的基频扰动,所以Jitter在一定程度上反映了测试对象对声带振动的控制能力。
振幅扰动Shimmer,语音的振幅的扰动,即振幅偏离平均振幅的程度,帕金森病人在说话的时候,声音会越来越小,所以帕金森病人对语音幅度的控制不如正常人,而Shimmer可以很好的体现这一点。
信噪比特征,谐波信噪比HNR(Harmonic to Noise Ratio)和谐波噪信比NHR(Noise toHarmonic Ratio)常用来衡量声带器官发生病理性改变而产生的噪声。帕金森病人的谐波信噪比相比于健康人士,往往呈现出较小的数值,因此可以根据这一依据判断测试对象是否存在言语障碍,其生理依据是由于帕金森病人的声带器官发生病理性改变,导致患者在发音时呈现出更多的气流,使得其噪声成分比较大。
非线性特征,人的发音***是一个非线性动力***,由于帕金森病人的声带发生病理性改变,这使得整个发音***发生了改变。根据非线性动力***理论,可以通过非线性语音信号处理算法来评估语音障碍,衡量声带的病变。因此,使用非线性特征更能区分帕金森病人的声音和健康人的声音。
在本实施例中,通过手绘图像特征提取子模块提取出手绘图像信息中的手绘特征,可以采用图像分割法提取出螺旋图或迷宫图的手绘轨迹。
在本实施例中,可以采集测试对象的脚踝处的加速度数据和足底压力数据,步态特征提取子模块提取出步态信息中的步态特征,包括足底压力数据特征提取和加速度数据特征提取,其中,计算所有足底压力数据片段的特征,包括足底压力均值、左脚总足底压力等于零的次数和右脚总足底压力等于零的次数;计算所有加速度数据片段的特征,构建加速度特征矩阵。
特征融合模块203,用于对模态特征进行特征融合得到中间融合特征,并根据中间融合特征得到目标融合特征。
在本实施例中,特征融合模块203包括第一特征融合子模块和第二特征融合子模块,通过第一特征融合子模块对音频特征与手绘特征进行特征融合,得到中间融合特征;通过第二特征融合子模块将步态特征与中间融合特征进行特征融合,得到目标融合特征。
具体地,第一特征融合子模块包括拼接单元和第一融合单元,使用拼接单元将音频特征和手绘特征进行维度拼接,并通过第一融合单元对拼接特征向量进行特征融合处理,以获得音频特征和手绘特征之间的交互特征作为中间融合特征。
在一种具体的实现方式中,第一融合单元包括全连接层,通过全连接层捕捉模态间的交互特征,即声纹信息和手绘图像信息之间的交互特征,可以采用具体的公式如下:
其中,是向量拼接操作,Xv为音频特征,Xw为手绘特征,W和b分别为激活函数ReLU的权重和偏置。
具体地,第二特征融合子模块包括注意力单元和第二融合单元,通过注意力单元将步态特征与中间融合特征相乘,得到特征矩阵,并根据特征矩阵获取注意力特征;通过第二融合单元将注意力特征与中间融合特征进行融合操作,获得目标融合特征。
将第三个模态特征步态特征与另外两模态特征音频特征和手绘特征融合得到的中间融合特征相乘,得到跨模态的特征矩阵,使用softmax函数计算特征矩阵的注意力分布P,具体计算公式如下:
P=(row)softmax(Xg×Xvw)
其中,Xg为步态特征,Xvw为中间融合特征。
在特征融合过程中,会有部分特征信息损失,需要进行特征信息补充,通过计算交互的注意力特征来强化强相关特征的交互,弱化弱相关特征的交互,注意力特征采用的计算公式如下:
T=P×Xg
使用第二融合单元通过卷积操作将注意力特征与中间融合特征进行特征融合,得到注意力融合特征。
具体地,通过Count Sketch函数进行卷积操作,将注意力特征T和中间融合特征Xvw进行融合,得到三模态融合的注意力融合特征Atnvwg,计算公式如下:
其中,Ψ是CountSketch函数,*是卷积操作,h∈{1,2,……,d}n,s∈{-1,1}n是两个初始化向量,对于每个索引s包含1或-1,h是将输入向量中的每个索引映射到输出中的索引,并且s,h是从均匀分布中随机初始化,在Count Sketch函数的调用中是保持不变的。
CountSketch函数通过映射的方法降低了特征维度,但是得到的注意力融合特征Atnvwg模型空间复杂度还是比较高,因此采用自注意力机制对注意力融合特征进行筛选,以获得目标融合特征,公式如下:
α=softmax(UTtanh(Wi·Atnvwg T+b
A=α·Atnvwg
其中,A为目标融合特征,Wi和U是随机初始化权重参数,b为偏置。
预测模块204,用于根据目标融合特征进行分类,得到分类结果,并根据分类结果进行帕金森病的预测。
具体地,将目标融合特征输入到预测模块中,预测模块包括分类子模块和预测子模块,通过分类子模块对目标融合特征进行分类,得到分类结果;通过预测子模块根据分类结果进行帕金森病预测,输出预测结果。
在本实施例中,预测模块具体可以为softmax分类器,将目标融合特征输入到分类器中进行分类,根据分类结果进行帕金森病诊断,分类的公式如下:
其中,A为目标融合特征,Ws和bs是softmax分类器的可训练权重和偏置,表示预测类别的概率分布。
通过预测子模块根据分类结果输出概率预测向量,并基于概率预测向量得到预测结果。
具体地,输出概率预测向量P={p1,p2,...,pf,...,pη},其中,pf表示输出特征属于第f类的概率,η为预测类别。在本实施例中,预测类别包括帕金森病和健康,根据输出的概率预测向量,将概率值最大的一类作为帕金森病的预测的最终预测结果。
应当理解,在采集模块采集测试对象的多种模态信息之前,还需要对基于多模态的帕金森病检测装置进行训练,多模态的帕金森病检测装置相当于多模态的帕金森病检测模型,具体步骤如下:
从数据库中采集样本对象的多种模态信息,多种模态信息包括声纹信息、手绘图像信息以及步态信息;将声纹信息、手绘图像信息以及步态信息输入多模态的帕金森病检测模型中进行特征提取,分别提取出对应的声纹特征、手绘特征和步态特征;将声纹特征和手绘特征进行特征融合得到中间融合特征,再将中间融合特征与步态特征进行特征融合,获得目标融合特征;将目标融合特征输入到模型的分类层进行分类训练,计算分类层的损失函数,根据损失函数调整分类层以及整个模型的参数,直至损失函数的值落入预设范围,则模型训练完成。
本实施例的数据库为公开数据库,例如,声纹信息采集使用的数据集来自伊斯坦布尔大学医学院,总共提供了188例帕金森患者病例,其中男107例,女81例,年龄从33岁到87岁(平均65.1±10.9岁)。此外,该数据集还提供了64例对照组,其中男23例,女41例,年龄从41岁到82岁(平均61.1±8.9岁)。在语音信号收集过程中,麦克风的频率设置为44.1kHz。在医生检查后,搜集每个患者三次重复持续发出元音/a/的信号。此外,在该数据集中,已经基于多种语音信号处理算法提供了752组特征数据,其中包括时频特征、MFCC(MelFrequency Cepstrum Coefficient,Mel频率倒谱系数)和声带特征等,以提供帕金森病临床诊断的有用信息。
手绘图像信息采集使用公开的手绘图片数据集,本数据集总共包含92名采集对象的手绘图片数据,采集对象则由74名帕金森患者和18名健康人士组成。其中帕金森患者包含47名男性患者和15名女性患者;健康人士包含6名男性和12名女性,并且帕金森患者的平均年龄为58.75±7.51周岁;健康人士的平均年龄为44.22±16.5周岁。在数据采集期间,采集对象首先根据指示完成手绘螺旋线图和迷宫线图等任务,然后由研究人员开始采集数据。
同理,步态信息的采集也使用对应的公开数据集,Physionet公共数据集,包括93名帕金森病患者和72名健康对照组的步态记录。
由于本申请的目的是获得更好的分类结果,因此,分类层的训练效果至关重要,分类层训练过程中的损失函数计算公式如下:
其中,ym,c表示第m个训练样本的状态标签(帕金森病/健康),采用one-hot编码,第m个训练样本的帕金森病类别标签为c,则ym,c=1,否则,ym,c=0;表示分类层将第m个训练样本预测为c类别的概率。
为了评价分类层的性能,还可以使用准确率(accuracy)、灵敏性(sensitivity)、特异性(specificity)三个指标对分类层进行评估。
准确率的计算公式为:
灵敏性的计算公式如下:
特异性的计算公式如下:
其中,TP为真阳性的数量,即帕金森病分类为帕金森病的数量;TN为真阴性的数量,即健康分类为健康的数量;FP为假阳性的数量,即健康分类为帕金森病的数量;FN为假阴性的数量,即帕金森病分类为健康的数量。
本申请通过提供基于多模态的帕金森病检测装置,该装置将采集的多种模态信息进行特征融合,得到融合特征,可以实现将帕金森患者不同模态的特征信息融合在一起,丰富了特征信息,最大化的利用了测试对象的信息,提高帕金森病的识别率,从而为医生的诊断提供了有效的辅助作用,以便更好地区分帕金森患者和正常人。
进一步参考图3,本申请提供了一种基于多模态的帕金森病检测方法的一个实施例,该方法实施例与图2所示的装置实施例相对应,该方法具体可以应用于各种计算机设备以及计算机可读存储介质中。基于多模态的帕金森病检测方法的具体步骤如下:
采集测试对象的多种模态信息,多种模态信息包括声纹信息、手绘图像信息以及步态信息;
将声纹信息、手绘图像信息以及步态信息分别进行特征提取,提取出与每个模态对应的模态特征,包括音频特征Xv、手绘特征Xw和步态特征Xg;
将音频特征Xv和手绘特征Xw进行维度拼接,并通过全连接层捕捉模态间交互特征,得到中间融合特征Xvw;
将中间融合特征Xvw和步态特征Xg相乘,得到特征矩阵C;
使用softmax函数计算特征矩阵C的注意力分布P,并将注意力分布P和步态特征Xg相乘得到注意力特征T;
通过Count Sketch函数将注意力特征T和中间融合特征Xvw进行融合,得到注意力融合特征;
采用自注意力机制对注意力融合特征进行筛选,得到目标融合特征;
将目标融合特征输入到分类层进行分类,得到分类结果,并根据分类结果进行帕金森病的预测。
在本实施例中,分类层由全连接层和softmax层组成,全连接层一般用于连接上一层的每个节点,将上层学习到的特征进行再处理,从而映射到样本标记空间,起到分类器的作用,但是由于全连接层的输出通常是实数,且取值范围属于R,然而任何事件发生的概率都在0到1之间,因此常需要最后添加一个softmax层,将输出变成一个概率分布,进行多分类。
本申请通过将采集的多种模态信息进行特征融合,得到融合特征,可以实现将帕金森患者不同模态的特征信息融合在一起,丰富了特征信息,最大化的利用了测试对象的信息,提高帕金森病的识别率,从而为医生的诊断提供了有效的辅助作用,以便更好地区分帕金森患者和正常人。
本申请可用于众多通用或专用的计算机***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过***总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作***和各类应用软件,例如基于多模态的帕金森病检测方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述基于多模态的帕金森病检测方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例基于多模态的帕金森病检测装置中的各单元和/或模块的功能,通过将采集的多种模态信息进行特征融合,得到融合特征,可以实现将帕金森患者不同模态的特征信息融合在一起,丰富了特征信息,最大化的利用了测试对象的信息,提高帕金森病的识别率,从而为医生的诊断提供了有效的辅助作用,以便更好地区分帕金森患者和正常人。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于多模态的帕金森病检测装置中的各单元和/或模块的功能,通过将采集的多种模态信息进行特征融合,得到融合特征,可以实现将帕金森患者不同模态的特征信息融合在一起,丰富了特征信息,最大化的利用了测试对象的信息,提高帕金森病的识别率,从而为医生的诊断提供了有效的辅助作用,以便更好地区分帕金森患者和正常人。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (5)
1.一种基于多模态的帕金森病检测装置,其特征在于,包括:
采集模块,用于采集测试对象的多种模态信息;
特征提取模块,用于分别从所述多种模态信息中提取出每个模态对应的模态特征;
特征融合模块,用于对所述模态特征进行特征融合得到中间融合特征,并根据所述中间融合特征得到目标融合特征;
预测模块,用于根据所述目标融合特征进行分类,得到分类结果,并根据所述分类结果进行帕金森病的预测;
所述特征提取模块包括:
声纹特征提取子模块,用于从所述声纹信息中提取出音频特征;
手绘图像特征提取子模块,用于从所述手绘图像信息中提取出手绘特征;
步态特征提取子模块,用于从所述步态信息中提取出步态特征;
所述特征融合模块包括:
第一特征融合子模块,用于对所述音频特征与所述手绘特征进行特征融合,得到中间融合特征;
第二特征融合子模块,用于将所述步态特征与所述中间融合特征进行特征融合,得到目标融合特征;
所述第一特征融合子模块包括:
拼接单元,用于拼接所述音频特征和所述手绘特征,得到拼接特征向量;
第一融合单元,用于对所述拼接特征向量进行特征融合处理,以获得所述音频特征和所述手绘特征之间的交互特征作为中间融合特征,所述中间融合特征采用的计算公式为,其中,⊕是向量拼接操作,Xv为音频特征,Xw为手绘特征,W和b分别为激活函数ReLU的权重和偏置;
所述第二特征融合子模块包括:
注意力单元,用于将所述步态特征与所述中间融合特征相乘,得到跨模态的特征矩阵,并根据所述特征矩阵获取注意力特征,注意力特征采用的计算公式如下:,其中,P为特征矩阵的注意力分布,/>为步态特征;
第二融合单元,用于将所述注意力特征与所述中间融合特征进行融合操作,获得所述目标融合特征。
2.根据权利要求1所述的基于多模态的帕金森病检测装置,其特征在于,所述第二融合单元还用于:
通过卷积操作将所述注意力特征与所述中间融合特征进行特征融合,得到注意力融合特征;
采用自注意力机制对所述注意力融合特征进行筛选,得到所述目标融合特征。
3.根据权利要求2所述的基于多模态的帕金森病检测装置,其特征在于,所述预测模块包括:
分类子模块,用于对所述目标融合特征进行分类,得到分类结果;
预测子模块,用于根据所述分类结果进行帕金森病预测,输出预测结果。
4.根据权利要求3所述的基于多模态的帕金森病检测装置,其特征在于,所述预测子模块还用于:
根据所述分类结果输出概率预测向量;
基于所述概率预测向量得到预测结果。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的基于多模态的帕金森病检测装置中的各单元和/或模块的功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110735163.4A CN113317763B (zh) | 2021-06-30 | 2021-06-30 | 基于多模态的帕金森病检测装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110735163.4A CN113317763B (zh) | 2021-06-30 | 2021-06-30 | 基于多模态的帕金森病检测装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113317763A CN113317763A (zh) | 2021-08-31 |
CN113317763B true CN113317763B (zh) | 2024-03-19 |
Family
ID=77423479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110735163.4A Active CN113317763B (zh) | 2021-06-30 | 2021-06-30 | 基于多模态的帕金森病检测装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113317763B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113855570B (zh) * | 2021-09-30 | 2023-07-14 | 平安科技(深圳)有限公司 | 帕金森病服药提醒方法、***、电子设备及存储介质 |
CN114628034A (zh) * | 2022-03-16 | 2022-06-14 | 平安科技(深圳)有限公司 | 阿尔兹海默症评估方法、***、设备及存储介质 |
CN114788687B (zh) * | 2022-06-23 | 2022-09-27 | 中国科学院自动化研究所 | 一种帕金森肌强直症状量化评估方法和装置 |
CN116473514B (zh) * | 2023-03-29 | 2024-02-23 | 西安电子科技大学广州研究院 | 基于足底压力的自适应有向时空图神经网络的帕金森疾病检测方法 |
CN117137442B (zh) * | 2023-09-04 | 2024-03-29 | 佳木斯大学 | 基于生物学特征帕金森症辅助检测***、机器可读介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273677A (zh) * | 2017-06-08 | 2017-10-20 | 中国科学院软件研究所 | 一种多通道神经功能定量评价*** |
CN108229066A (zh) * | 2018-02-07 | 2018-06-29 | 北京航空航天大学 | 一种基于多模态超连接脑网络建模的帕金森自动识别方法 |
WO2018120936A1 (en) * | 2016-12-27 | 2018-07-05 | Zhejiang Dahua Technology Co., Ltd. | Systems and methods for fusing infrared image and visible light image |
CN108734208A (zh) * | 2018-05-15 | 2018-11-02 | 重庆大学 | 基于多模态深度迁移学习机制的多源异构数据融合*** |
CN108961215A (zh) * | 2018-06-05 | 2018-12-07 | 上海大学 | 基于多模态医学影像的帕金森病辅助诊断***和方法 |
CN110428008A (zh) * | 2019-08-02 | 2019-11-08 | 深圳市唯特视科技有限公司 | 一种基于多融合传感器的目标探测与识别装置和方法 |
CN110544252A (zh) * | 2019-09-05 | 2019-12-06 | 重庆邮电大学 | 基于多模态磁共振脑影像的帕金森病辅助诊断*** |
CN112651445A (zh) * | 2020-12-29 | 2021-04-13 | 广州中医药大学(广州中医药研究院) | 基于深度网络多模态信息融合的生物信息识别方法和装置 |
CN112750468A (zh) * | 2020-12-28 | 2021-05-04 | 厦门嘉艾医疗科技有限公司 | 一种帕金森病筛查方法、装置、设备及存储介质 |
-
2021
- 2021-06-30 CN CN202110735163.4A patent/CN113317763B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018120936A1 (en) * | 2016-12-27 | 2018-07-05 | Zhejiang Dahua Technology Co., Ltd. | Systems and methods for fusing infrared image and visible light image |
CN107273677A (zh) * | 2017-06-08 | 2017-10-20 | 中国科学院软件研究所 | 一种多通道神经功能定量评价*** |
CN108229066A (zh) * | 2018-02-07 | 2018-06-29 | 北京航空航天大学 | 一种基于多模态超连接脑网络建模的帕金森自动识别方法 |
CN108734208A (zh) * | 2018-05-15 | 2018-11-02 | 重庆大学 | 基于多模态深度迁移学习机制的多源异构数据融合*** |
CN108961215A (zh) * | 2018-06-05 | 2018-12-07 | 上海大学 | 基于多模态医学影像的帕金森病辅助诊断***和方法 |
CN110428008A (zh) * | 2019-08-02 | 2019-11-08 | 深圳市唯特视科技有限公司 | 一种基于多融合传感器的目标探测与识别装置和方法 |
CN110544252A (zh) * | 2019-09-05 | 2019-12-06 | 重庆邮电大学 | 基于多模态磁共振脑影像的帕金森病辅助诊断*** |
CN112750468A (zh) * | 2020-12-28 | 2021-05-04 | 厦门嘉艾医疗科技有限公司 | 一种帕金森病筛查方法、装置、设备及存储介质 |
CN112651445A (zh) * | 2020-12-29 | 2021-04-13 | 广州中医药大学(广州中医药研究院) | 基于深度网络多模态信息融合的生物信息识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113317763A (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113317763B (zh) | 基于多模态的帕金森病检测装置及计算机可读存储介质 | |
Mouawad et al. | Robust detection of COVID-19 in cough sounds: using recurrence dynamics and variable Markov model | |
Hassan et al. | COVID-19 detection system using recurrent neural networks | |
Abdul et al. | Mel frequency cepstral coefficient and its applications: A review | |
Cummins et al. | Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning | |
Lu et al. | Unobtrusive gait verification for mobile phones | |
Zhang et al. | Pdvocal: Towards privacy-preserving parkinson's disease detection using non-speech body sounds | |
Gil-Martín et al. | Improving physical activity recognition using a new deep learning architecture and post-processing techniques | |
Bandini et al. | Kinematic features of jaw and lips distinguish symptomatic from presymptomatic stages of bulbar decline in amyotrophic lateral sclerosis | |
Tsai et al. | Embedding stacked bottleneck vocal features in a LSTM architecture for automatic pain level classification during emergency triage | |
Fan et al. | Transformer-based multimodal feature enhancement networks for multimodal depression detection integrating video, audio and remote photoplethysmograph signals | |
Ravikiran et al. | Analyzing Human Speech Using Gait Recognition Technology by MFCC Technique | |
Ariyanti et al. | Ensemble and multimodal learning for pathological voice classification | |
Tartarisco et al. | Artificial intelligence for dysarthria assessment in children with ataxia: A hierarchical approach | |
Turaev et al. | Review and analysis of patients’ body language from an artificial intelligence perspective | |
Pham et al. | Personalized breath-based biometric authentication with wearable multimodality | |
Aly et al. | A new model to detect COVID-19 coughing and breathing sound symptoms classification from CQT and Mel spectrogram image representation using deep learning | |
Lin et al. | Automatic detection of self-adaptors for psychological distress | |
Kim et al. | Non-invasive way to diagnose dysphagia by training deep learning model with voice spectrograms | |
Tran et al. | Person Identification Using Bronchial Breath Sounds Recorded by Mobile Devices | |
Jing et al. | Different performances of speech and natural gait in identifying anxiety and depression | |
Nguyen et al. | Computational lung sound classification: a review | |
Ihsan et al. | MediSign: An Attention-based CNN-BiLSTM Approach of Classifying Word Level Signs for Patient-Doctor Interaction in Deaf Community | |
CN111783507A (zh) | 目标搜索方法、装置及计算机可读存储介质 | |
Kapetanidis et al. | Respiratory Diseases Diagnosis Using Audio Analysis and Artificial Intelligence: A Systematic Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |