CN116259407A

CN116259407A - 基于多模态数据的疾病诊断方法、装置、设备及介质

Info

Publication number: CN116259407A
Application number: CN202310550630.5A
Authority: CN
Inventors: 李祯其; 谢雄敦; 胡尧; 温志庆
Original assignee: Ji Hua Laboratory
Current assignee: Ji Hua Laboratory
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-06-13
Anticipated expiration: 2043-05-16
Also published as: CN116259407B

Abstract

本发明涉及医学诊疗技术领域，具体公开了一种基于多模态数据的疾病诊断方法、装置、设备及介质，其中，方法包括以下步骤：分别提取问题文本特征、病症文本特征、音频特征和图像特征；将病症文本特征、音频特征和图像特征映射至同一维度下，并进行特征对齐处理；融合特征对齐后的病症文本特征、音频特征和图像特征获取融合特征向量；拼接问题文本特征和融合特征向量获取拼接向量；将拼接向量置入预先训练好的语言模型生成诊断结果；该方法能充分挖掘不同模态数据之间的关联性和差异性，解决了多模态数据因为数据之间的差异性而难以捕捉其关系的问题，以将各类特征进行有效融合，能有效缓解医生疲劳，并提高疾病诊断准确率。

Description

基于多模态数据的疾病诊断方法、装置、设备及介质

技术领域

本申请涉及医学诊疗技术领域，具体而言，涉及一种基于多模态数据的疾病诊断方法、装置、设备及介质。

背景技术

医学作为一门经验学科，需要门诊医生在疾病预测、病情分析、药方存储等方面具有丰富的经验。而深度学习技术的引入，可以很好的在这方面提供支持，辅助医师进行疾病诊断，减少主观因素的影响，提高诊断的准确性。

现有的利用深度学习技术进行疾病诊断的方法或***一般采用特定类型的模态数据（如文字、图片）作为输入数据来进行疾病诊断，现有的采用单一模态数据进行分析的模型无法准确对疾病做出判定；同时由于不同类型模态数据之间存在差异性，现有的采用多类模态数据进行分析的模型难以捕捉不同模态数据的差异性而存在诊断准确率低的问题。

针对上述问题，目前尚未有有效的技术解决方案。

发明内容

本申请的目的在于提供一种基于多模态数据的疾病诊断方法、装置、设备及介质，以实现多模态数据的有效融合来提高关于模型的疾病诊断准确率。

第一方面，本申请提供了一种基于多模态数据的疾病诊断方法，用于根据多模态数据进行疾病诊断，所述多模态数据包括问题文本信息、病症文本信息、音频信息和图像信息，所述方法包括以下步骤：

分别根据问题文本信息、病症文本信息、音频信息和图像信息提取问题文本特征、病症文本特征、音频特征和图像特征；

将病症文本特征、音频特征和图像特征映射至同一维度下，并进行特征对齐处理；

融合特征对齐后的病症文本特征、音频特征和图像特征获取融合特征向量；

拼接所述问题文本特征和所述融合特征向量获取拼接向量；

将拼接向量置入预先训练好的语言模型生成诊断结果。

本申请的基于多模态数据的疾病诊断方法能充分挖掘不同模态数据之间的关联性和差异性，解决了多模态数据因为数据之间的差异性而难以捕捉其关系的问题，以将各类特征进行有效融合，并解决基于模态数据训练导致的模型容易引起误判、漏诊的问题。

所述的基于多模态数据的疾病诊断方法，其中，所述特征对齐处理包括：

基于三元排序损失函数将映射至同一维度下的病症文本特征和音频特征分别与图像特征对齐。

所述的基于多模态数据的疾病诊断方法，其中，所述三元排序损失函数为基于折页的三元排序损失函数，其表达式：

，

其中，L_matching为所述基于折页的三元排序损失函数，α、β为边缘参数，I、V和T分别为映射至同一维度下的图像特征、音频特征和病症文本特征，

和/>

分别为特征对（I、V）之间相似度最低的局部音频特征和局部图像特征，/>

和/>

分别为特征对（I、T）之间相似度最低的局部文本特征和局部图像特征，S（,）为相似性函数，[x]₊=max（x,0），表示取填入数据x与0中的最大值。

该基于折页的三元排序损失函数能使三种模态数据的特征以图像特征为对齐基准实现特征对齐，以充分明确不同模态数据的特征之间的特征关系，使得本申请的方法能在精准捕捉不同模态数据之间的差异性和相似性的前提下进行特征对齐，以为后续特征融合搭建桥梁。

所述的基于多模态数据的疾病诊断方法，其中，所述拼接所述问题文本特征和所述融合特征向量获取拼接向量的步骤包括：

以所述问题文本特征作为令牌与所述融合特征向量拼接获取所述拼接向量[T_m,Z],其中，T_m为所述问题文本特征，Z为所述融合特征向量。

所述的基于多模态数据的疾病诊断方法，其中，所述图像特征包括多个显著的图像区域特征。

所述的基于多模态数据的疾病诊断方法，其中，所述问题文本信息和所述病症文本信息基于同一文本编码器进行特征提取以获取所述问题文本特征和病症文本特征。

所述的基于多模态数据的疾病诊断方法，其中，所述融合特征对齐后的病症文本特征、音频特征和图像特征获取融合特征向量的步骤包括：

基于门控专家神经网络获取分别对应于病症文本特征、音频特征和图像特征的文本特征融合权值、音频特征融合权值和图像特征融合权值；

根据所述文本特征融合权值、所述音频特征融合权值和所述图像特征融合权值融合特征对齐后的病症文本特征、音频特征和图像特征生成所述融合特征向量。

第二方面，本申请还提供了一种基于多模态数据的疾病诊断装置，用于根据多模态数据进行疾病诊断，所述多模态数据包括问题文本信息、病症文本信息、音频信息和图像信息，所述装置包括：

特征提取模块，用于分别根据问题文本信息、病症文本信息、音频信息和图像信息提取问题文本特征、病症文本特征、音频特征和图像特征；

特征映射模块，用于将病症文本特征、音频特征和图像特征映射至同一维度下，并进行特征对齐处理；

特征融合模块，用于融合特征对齐后的病症文本特征、音频特征和图像特征获取融合特征向量；

拼接模块，用于拼接所述问题文本特征和所述融合特征向量获取拼接向量；

诊断模块，用于将拼接向量置入预先训练好的语言模型生成诊断结果。

本申请的基于多模态数据的疾病诊断装置能充分挖掘不同模态数据之间的关联性和差异性，解决了多模态数据因为数据之间的差异性而难以捕捉其关系的问题，以将各类特征进行有效融合，并解决基于模态数据训练导致的模型容易引起误判、漏诊的问题。

第三方面，本申请还提供了一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

由上可知，本申请提供了一种基于多模态数据的疾病诊断方法、装置、设备及介质，其中，基于多模态数据的疾病诊断方法，在根据多模态数据提取对应的特征后，基于映射、特征对齐、融合处理获取了能置入语言模型中使用的融合特征向量，并结合作为令牌的问题文本特征构成拼接向量以置入语言模型中生成诊断结果；该疾病诊断方法能充分挖掘不同模态数据之间的关联性和差异性，解决了多模态数据因为数据之间的差异性而难以捕捉其关系的问题，以将各类特征进行有效融合，并解决基于模态数据训练导致的模型容易引起误判、漏诊的问题，其生成的诊断结果能为医生提供更准确的诊断依据，能有效缓解医生疲劳，并提高疾病诊断准确率。

附图说明

图1为本申请实施例提供的基于多模态数据的疾病诊断方法的流程图。

图2为本申请实施例提供的基于多模态数据的疾病诊断装置的结构示意图。

图3为本申请实施例提供的电子设备的结构示意图。

附图标记：201、特征提取模块；202、特征映射模块；203、特征融合模块；204、拼接模块；205、诊断模块；301、处理器；302、存储器；303、通信总线。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

第一方面，请参照图1，本申请一些实施例提供了一种基于多模态数据的疾病诊断方法，用于根据多模态数据进行疾病诊断，多模态数据包括问题文本信息、病症文本信息、音频信息和图像信息，方法包括以下步骤：

S1、分别根据问题文本信息、病症文本信息、音频信息和图像信息提取问题文本特征、病症文本特征、音频特征和图像特征；

S2、将病症文本特征、音频特征和图像特征映射至同一维度下，并进行特征对齐处理；

S3、融合特征对齐后的病症文本特征、音频特征和图像特征获取融合特征向量；

S4、拼接问题文本特征和融合特征向量获取拼接向量；

S5、将拼接向量置入预先训练好的语言模型生成诊断结果。

具体地，上述多模态数据均为关于问诊对象身体状态相关的数据信息；其中，问题文本信息为疾病相关的问题模板，如“是否患有特定疾病、疾病是否转移、是否存在药物过敏”等相关问题的文字内容；病症文本信息为问诊对象对于自身疾病的描述内容，可以是包括对应于问题文本信息的描述内容，还可以是还包括问诊对象对身体状态的描述内容等；音频信息为关于问诊对象的病症音频数据，包括基于医疗器械获取的关于问诊对象身体状况的音频数据，如包括心跳音频数据、脉诊音频数据、骨骼声响数据等；图像信息为关于问诊对象的病症图像数据，如包括彩超数据、B超数据、疾病部位的普通照片数据等。

更具体地，步骤S1中利用预先训练好的编码器便能根据对应类型的模态数据提取出对应的模态特征，如利用文本编码器根据问题文本信息便能提取出问题文本特征。

更具体地，为了解决不同模态数据因特征之间的差异性而无法有效捕捉不同特征间的关系而难以综合利用的问题，本申请实施例的方法通过映射处理的方式将不同模态数据的特征统一到统一特征空间中并进行特征对齐处理，使得步骤S3能将同一特征空间中对齐的多种模态数据的特征进行有效融合。

更具体地，特征对齐后的三类特征可基于现有的特征融合模型进行融合，并生成一个特征向量作为语言模型的输入数据，语言模型为文字信息输出模型，如GPT4、n-gram、Glove等；在该实施方式中，在映射、特征对齐、融合处理下，多模态数据的特征实现了有效融合，使得语言模型能综合多模态数据的特点进行训练和分析，从而能根据不同模态数据各自和关联的病症特点进行疾病诊断，有效提高疾病诊断的准确率。

更具体地，语言模型输入的拼接向量还包含了问题文本特征，作为令牌使用过的问题文本特征能作为语言模型输入的访问权限验证的手段，防止非合规问题影响语言模型的诊断分析结果或非法使用该语言模型，同时还能引导疾病分析方向，使得语言模型能根据令牌进行访问验证和问诊引导，有效提高疾病诊断的安全性、准确性。

本申请实施例的基于多模态数据的疾病诊断方法，在根据多模态数据提取对应的特征后，基于映射、特征对齐、融合处理获取了能置入语言模型中使用的融合特征向量，并结合作为令牌的问题文本特征构成拼接向量以置入语言模型中生成诊断结果；该疾病诊断方法能充分挖掘不同模态数据之间的关联性和差异性，解决了多模态数据因为数据之间的差异性而难以捕捉其关系的问题，以将各类特征进行有效融合，并解决基于模态数据训练导致的模型容易引起误判、漏诊的问题，其生成的诊断结果能为医生提供更准确的诊断依据，能有效缓解医生疲劳，并提高疾病诊断准确率。

在一些优选的实施方式中，步骤S1包括：

利用文本编码器根据问题文本信息获取问题文本特征，利用文本编码器根据病症文本信息获取病症文本特征，利用音频编码器根据音频信息获取音频特征，利用图像编码器根据图像信息获取图像特征。

其中，问题文本信息和病症文本信息可以采用相同或不同的文本编码器来提取对应的特征；在本申请实施例中，由于问题文本信息与病症文本信息对应相关，且均属于文字内容，故问题文本信息和病症文本信息优选为基于同一文本编码器进行特征提取以获取问题文本特征和病症文本特征，能节省数据分析资源，并保证步骤S1获取的问题文本特征和病症文本特征保留了相关性。

更具体地，编码器的类型可以按照输入数据的特征特点进行选用；在本申请实施例中，文本编码器优选为采用doc2vec模型，doc2vec模型能从不定长的文本中学习得到固定长度的特征表示，即能根据不同信息量的问题文本信息或病症文本信息生成特定长度的问题文本特征或病症文本特征，以利用单一长度的特征向量表征特定文档内容；其中，该doc2vec模型的网络参数记为W_T，问题文本信息记为X_Pr，病症文本信息记为X_T，问题文本特征记为T_m，病症文本特征记为T。

更具体地，在本申请实施例中，音频编码器优选为采用transformer模型，transformer模型利用自注意力机制捕捉序列中的长距离依赖关系，缓解了音频信息中声音事件可能相隔较远的问题；此外，transformer模型包含多个编码器和解码器层，可以在不同层次上学习音频数据的特征表示，有助于捕捉不同时间尺度和复杂度的音频结构，以根据音频信息获取能准确表征病症特点的音频特征；其中，该transformer模型的网络参数记为W_V，音频信息记为X_V，音频特征记为V。

更具体地，在本申请实施例中，图像编码器优选为yolov5模型，yolov5模型基于预测实例类以及属性类而非图像中的对象类来进行特征提取，因此可以学习到包含更丰富语音数据的特征表示，其中，该yolov5模型的网络参数记为W_I，图像信息记为X_I，图像特征记为I。

更具体地，实例类包括难以识别的对象和突出的东西，如“毛玻璃状”之类的属性以及诸如“肺部”、“心脏”之类的物体，一个图像信息可能存在多个特征区域，如“毛玻璃状”之类的属性以及诸如“肺部”、“心脏”之类的物体；因此，本申请实施例的方法以预设的交并比阈值（可根据使用需求设定,如0.7）作为非最大压缩作用于yolov5模型的最终输出上，并设置目标检测置信度阈值（可根据使用需求设定,如0.3），以使得yolov5模型能根据图像信息筛选出具有高类别检测置信度的N个图像重点区域（N可根据使用需求设定，N为正整数），其中，I_i为图像特征中第i个图像重点区域的图像区域特征。

因此，在本申请实施例中，图像特征包括多个显著的图像区域特征，故记I={I₁，…，I_i，…，I_N}，即I利用了所有图像重点区域的图像区域特征来标识整张图片，不同图像区域特征能表征图像信息中不同对象（如对应于不同人体脏器）的病症。

在一些优选的实施方式中，将病症文本特征、音频特征和图像特征映射至同一维度下的步骤为分别基于对应的映射网络将病症文本特征、音频特征和图像特征映射至同一维度下；其中，病症文本特征基于文本映射网络进行映射，音频特征基于音频映射网络进行映射，图像特征基于图像映射网络进行映射。

具体地，不同映射网络的参数可以是设定所得，还可以是训练获取，病症文本特征、音频特征和图像特征各自对应的映射网络的网络参数分别记为θ_T、θ_V、θ_I，设置上述三种映射网络的目的是将三种模态数据的特征映射到同一维度中，即将三种模态数据的特征映射到同一特征空间中，以便于后续处理步骤充分挖掘不同模态数据的特征之间的关系；其中，该维度记为R^D，由于图像特征中包含多个显著的图像区域特征，故映射处理后的图像特征的维度可以记为R^N×D。

更具体地，映射处理后的病症文本特征、音频特征和图像特征只改变了维度而不改变特征特点，故本申请实施例的方法依然采用T、V、I分别代表映射处理后的病症文本特征、音频特征和图像特征（后续处理步骤中的病症文本特征、音频特征和图像特征均指映射处理后的病症文本特征、音频特征和图像特征）。

为了更准确的挖掘出不同模态数据的特征之间的关系，本申请实施例的方法还需要将映射处理后的三种特征进行对齐，其中，特征对齐处理过程可以是以第四方参考特征作为基准来对齐，或以三种特征中的一种作为基准来对齐；由于图像信息包含着最为广泛的与疾病相关的语义信息，因此，在一些优选的实施方式中，特征对齐处理包括：

在一些优选的实施方式中，本申请实施例的方法在现有的三元排序损失函数的基础上，设计了一种基于折页的三元排序损失函数，其表达式：

（1）

其中，L_matching为基于折页的三元排序损失函数，α、β为边缘参数，I、V和T分别为映射至同一维度下的图像特征、音频特征和病症文本特征，

和/>

分别为特征对（I、T）之间相似度最低的局部文本特征和局部图像特征，S（,）为相似性函数，[x]₊=max（x,0），表示取x与0中的最大值。

需要说明的是，相似度为元素相似性的度量值，在本申请实施例中，相似度越低表明元素相似性越高。

具体地，基于折页的三元排序损失函数能够同时对三种模态数据的特征进行特征对齐处理，通过优化相似度最低的特征对（即两类特征）来促进所有特征之间的对齐，从而实现不同模态数据的特征对齐处理；其中，基于式（1）可知，该特征对齐包括两部分：第一部分是以图像特征和音频特征作为训练查询，实现图像特征和音频特征的对齐，第二部分是以图像特征和病症文本特征作为训练查询，实现图像特征和病症文本特征的对齐。

更具体地，基于式（1）可知，α、β分别为控制图像特征与音频特征对齐以及控制图像特征与病症文本特征对齐的边缘参数，两者均为大于0的超参数，可根据使用需求进行设定，使得上述基于折页的三元排序损失函数在调整过程中能遵循整体能够取得最小的原则；在本申请实施例中，α、β均优选为0.2，能使上述基于折页的三元排序损失函数稳定优化，以实现三种模态数据的特征对齐。

更具体地，相似性函数S（,）为用于测量其内两种元素之间相似性的函数，可根据使用需求进行选用，在本申请实施例中，该相似性函数优选采用基于cosine similarity（余弦相似度）作为相似性度量的函数（其输出值越小表征两种元素越相似）。

更具体地，

、/>

和/>

分别满足：

（2）

（3）

（4）/>

（5）

其中，argmin为目标最小化函数，故式（2）中的j为遍历V中找到的第j个局部音频特征；式（3）中的d为遍历I中找到的第d个局部图像特征；式（4）中的r为遍历T中找到的第r个局部文本特征；式（5）中的e为遍历I中找到的第e个局部图像特征；基于式（2）-（5），j、d、r、e为基于argmin函数遍历相应的局部特征而确定。

更具体地，最小化L_matching能确定最优的

、/>

和/>

使得音频特征和图像特征能根据/>

和/>

的对齐而实现特征对齐，同时使得病症文本特征和图像特征能根据/>

和/>

的对齐而实现特征对齐，从而使得三种模态数据的特征以图像特征为对齐基准实现特征对齐，以充分明确不同模态数据的特征之间的特征关系，使得本申请实施例的方法能在精准捕捉不同模态数据之间的差异性和相似性的前提下进行特征对齐，以为后续特征融合搭建桥梁。

在明确了不同模态数据的特征之间的关系后，可利用现有的特征融合手段将已经映射至同一维度中的多模态数据的特征进行融合；由于不同类型的模态数据所能反映的疾病特点具有一定差异性，对应于不同的诊断结果具有不同的约束性和影响性，故本申请实施例的方法优选为采用门控专家神经网络对多模态数据的特征进行融合处理，以获取不同模态数据的特征与任务（疾病诊断）的影响关系来确定不同模态数据的特征的融合权值来进行特征融合；因此，在一些优选的实施方式中，融合特征对齐后的病症文本特征、音频特征和图像特征获取融合特征向量的步骤包括：

根据文本特征融合权值、音频特征融合权值和图像特征融合权值融合特征对齐后的病症文本特征、音频特征和图像特征生成融合特征向量。

具体地，门控专家神经网络为一个多层感知机网络，其作用为根据不同模态数据的特征与任务之间的相关性分配对应大小的融合权值给不同模态数据的特征，从而将不同模态数据的特征进行有效融合；其中，在本申请实施例中，文本特征融合权值记为g_T，音频特征融合权值记为g_V，图像特征融合权值记为g_I，满足g_T+g_V+g_I=1，三个融合权值基于下式确定：

g_V,g_I,g_T=softmax（W_g·[V,I,T]+b_g）（6）

其中，softmax为归一化函数，W_g为门控专家神经网络的网络参数，b_g的门控专家神经网络的偏置值，[,,]表示拼接向量操作符；基于式（6）确定g_V，g_I和g_T后，可将特征对齐后的三种模态特征进行融合，其融合后获取的融合特征向量表示为Z，满足：

Z=g_T·T+g_V·V+g_I·I，Z∈R^D （7）

基于上述融合处理获取的融合特征向量Z综合了病症文本信息、音频信息和视频信息的模态特征，并充分考虑了不同模态特征对于疾病诊断的关联性进行权值分配，能有效提高后续生成的诊断结果的准确性。

在一些优选的实施方式中，拼接问题文本特征和融合特征向量获取拼接向量的步骤包括：

以问题文本特征作为令牌与融合特征向量拼接获取拼接向量[T_m,Z],其中，T_m为问题文本特征，Z为融合特征向量。

具体地，作为令牌（token）使用的问题文本特征能作为语言模型的访问请求，语言模型在分析到拼接向量中存在符合验证需要的令牌后才能进行分析，提高模型分析的安全性、稳定性；在别的实施方式中，本申请实施例的方法提供多种问题文本信息，语言模型能根据拼接向量中基于不同类型的问题文本信息获取的问题文本特征进行识别分类，再进行疾病分析，即基于作为令牌的问题文本特征作为疾病类型初筛手段，从而进一步提高疾病诊断的准确率。

在一些优选的实施方式中，语言模型为输出语言形式（如文字、语音）的诊断结论的学习模型，该语言模型的网络参数记为θ_lan。

具体地，语言模型、编码器、映射网络及门控专家神经网络均为预先训练好的模型，可以是在正式使用前各自单独训练确定，也可以是在正式使用前共同学习训练确定，在本申请实施例中，优选为后者；其中，将语言模型、编码器、映射网络及门控专家神经网络组成的整体的损伤函数定义为L_ce，则有：

（8）

其中，Y_T为训练标签，即为实际采集到的真实诊断文本，如医生针对问诊对象的病症确定的疾病描述；利用梯度下降法更新L_ce中的网络参数即可完成语言模型、编码器、映射网络及门控专家神经网络的训练。

更具体地，由于编码器的网络参数调整会影响不同模态数据的特征的输出结果，会影响特征对齐处理效果，因此，在本申请实施例中，训练语言模型、编码器、映射网络及门控专家神经网络的过程，引入L_matching来进行训练，故定义整体损失函数L，其满足：

L=γ·L_ce+δ·L_matching （9）

其中，γ和δ分别为控制L_ce和L_matching影响的超参数，可根据实际需要进行设定，在本申请实施例中，优选为γ=δ=0.5。

更具体地，基于前述内容可知，L_matching为遍历特征确定的损失值，故其无需进行训练，而是根据编码器提取的调整维度后的特征自适应调节结果，因此，该整体损失函数训练的网络参数与L_ce一致，训练方法也采用梯度下降法来进行，其整体网络参数表示为θ=(θ_lan,θ_T,θ_V,θ_I,W_T,W_V,W_I,W_g,b_g),使得模型训练过程中充分考虑了特征对齐关系，以确保不同模态特征能准确映射到同一特征空间中，并在对齐后进行综合分析，有效提高语言模型分析的准确性，以提高疾病诊断的准确率。

第二方面，请参照图2，本申请一些实施例还提供了一种基于多模态数据的疾病诊断装置，用于根据多模态数据进行疾病诊断，多模态数据包括问题文本信息、病症文本信息、音频信息和图像信息，装置包括：

特征提取模块201，用于分别根据问题文本信息、病症文本信息、音频信息和图像信息提取问题文本特征、病症文本特征、音频特征和图像特征；

特征映射模块202，用于将病症文本特征、音频特征和图像特征映射至同一维度下，并进行特征对齐处理；

特征融合模块203，用于融合特征对齐后的病症文本特征、音频特征和图像特征获取融合特征向量；

拼接模块204，用于拼接问题文本特征和融合特征向量获取拼接向量；

诊断模块205，用于将拼接向量置入预先训练好的语言模型生成诊断结果。

本申请实施例的基于多模态数据的疾病诊断装置，在根据多模态数据提取对应的特征后，基于映射、特征对齐、融合处理获取了能置入语言模型中使用的融合特征向量，并结合作为令牌的问题文本特征构成拼接向量以置入语言模型中生成诊断结果；该疾病诊断装置能充分挖掘不同模态数据之间的关联性和差异性，解决了多模态数据因为数据之间的差异性而难以捕捉其关系的问题，以将各类特征进行有效融合，并解决基于模态数据训练导致的模型容易引起误判、漏诊的问题，其生成的诊断结果能为医生提供更准确的诊断依据，能有效缓解医生疲劳，并提高疾病诊断准确率。

在一些优选的实施方式中，本申请实施例的基于多模态数据的疾病诊断装置用于执行上述第一方面提供的基于多模态数据的疾病诊断方法。

第三方面，请参照图3，本申请一些实施例还提供了一种电子设备的结构示意图，本申请提供一种电子设备，包括：处理器301和存储器302，处理器301和存储器302通过通信总线303和/或其他形式的连接机构（未标出）互连并相互通讯，存储器302存储有处理器301可执行的计算机可读取指令，当电子设备运行时，处理器301执行该计算机可读取指令，以执行时执行上述实施例的任一可选的实现方式中的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，执行上述实施例的任一可选的实现方式中的方法。其中，计算机可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random Access Memory, 简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory, 简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory, 简称EPROM），可编程只读存储器（Programmable Red-Only Memory, 简称PROM），只读存储器（Read-OnlyMemory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于多模态数据的疾病诊断方法，用于根据多模态数据进行疾病诊断，其特征在于，所述多模态数据包括问题文本信息、病症文本信息、音频信息和图像信息，所述方法包括以下步骤：

拼接所述问题文本特征和所述融合特征向量获取拼接向量；

将拼接向量置入预先训练好的语言模型生成诊断结果。

2.根据权利要求1所述的基于多模态数据的疾病诊断方法，其特征在于，所述特征对齐处理包括：

3.根据权利要求2所述的基于多模态数据的疾病诊断方法，其特征在于，所述三元排序损失函数为基于折页的三元排序损失函数，其表达式：

，

和/>

4.根据权利要求1所述的基于多模态数据的疾病诊断方法，其特征在于，所述拼接所述问题文本特征和所述融合特征向量获取拼接向量的步骤包括：

5.根据权利要求1所述的基于多模态数据的疾病诊断方法，其特征在于，所述图像特征包括多个显著的图像区域特征。

6.根据权利要求1所述的基于多模态数据的疾病诊断方法，其特征在于，所述问题文本信息和所述病症文本信息基于同一文本编码器进行特征提取以获取所述问题文本特征和病症文本特征。

7.根据权利要求1所述的基于多模态数据的疾病诊断方法，其特征在于，所述融合特征对齐后的病症文本特征、音频特征和图像特征获取融合特征向量的步骤包括：

8.一种基于多模态数据的疾病诊断装置，用于根据多模态数据进行疾病诊断，其特征在于，所述多模态数据包括问题文本信息、病症文本信息、音频信息和图像信息，所述装置包括：

9.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-7任一项所述方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-7任一项所述方法中的步骤。