CN113851219A

CN113851219A - 一种基于多模态知识图谱的智能导诊方法

Info

Publication number: CN113851219A
Application number: CN202111427220.9A
Authority: CN
Inventors: 张莹莹; 黄强; 李广路; 莫深; 田佳禾; 张欣胜
Original assignee: Shandong Jiaotong University
Current assignee: Shandong Jiaotong University
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2021-12-28

Abstract

本发明提供了一种基于多模态知识图谱的智能导诊方法，通过构建知识图谱、获取患者输入的主诉文本、报告单图片、主诉音频，根据多元信息识别得到的患者症状制作实体列表，使用权重融合算法计算得出带权科室结果。本发明涉及人工智能中的知识图谱领域，利用多模态知识图谱进行医疗导诊，包括对自然语言、图像、音频的信息识别，还根据多维信息进行智能导诊处理，相较于传统知识图谱，获取的信息更全面完善，得到的结果更加精确。

Description

一种基于多模态知识图谱的智能导诊方法

技术领域

本发明涉及人工智能中的知识图谱领域，更具体涉及基于多模态知识图谱的医疗智能导诊。

背景技术

由于三甲、大型、中型医院患者激增，人工导诊工作量大，不能做到一对一服务，导致患者无法迅速准确的找到检查、治疗的病房科室，另外由于对排队信息缺乏及时了解，造成大量患者排队扎堆或“门可罗雀”的现象屡见不鲜，这就对医院的导诊工作带来巨大的挑战。医院想要提高服务质量，促进医患关系和谐稳定，就需要将大量重复的导诊工作交给手机和网络来完成，让更多的人力投入到更重要的工作上去，让有限的医疗资源得到合理分配和充分利用，有效提高医院的医疗服务质量和管理水平，同时也能减少患者抱怨，促进医患关系更加和谐。

智能导诊是根据用户输入的信息、检查单和语音进行推荐挂号诊室，国内外提出来一些智能导诊***，多采用传统软件技术，如张琨等人申请了“一种多轮对话导诊***及方法”，提供一种多轮对话导诊***及方法，构建了症状与科室的联系，相比其他导诊方法，更加快速且更加准确。祝莎莎等人申请了“智能导诊处理方法、装置、电子设备及存储介质”，随着人工智能的发展，基于深度学习网络的导诊***蓬勃发展，如张后今等人申请了“一种语义分诊方法及***”，根据所述历史问诊数据对长短期记忆网络模型进行训练，得到所述科室分类模型。

然而，上述方案中多使用了单源的传统知识图谱，主要集中研究文本和数据的实体和关系，很难将症状、疾病、科室很好地关联在一起。

发明内容

本发明目的是基于目前的单源知识图谱的预诊***，将医疗技术、语音识别技术和视频识别技术相耦合，基于构建多模态知识图谱，提供一种高效、智能的导诊方法。

本发明为实现上述目的，通过以下技术方案实现：

一种基于多模态知识图谱的智能导诊方法，包括以下步骤：

(a)获取医疗数据构建知识图谱；

(b)将知识图谱储存到图数据库中形成知识图谱数据库；

(c)获取患者输入的主诉文本，进行中文实体识别并进行归一化，即根据识别到的实体结果从图谱节点中召回规范化实体；

(d)获取患者上传的报告单图片，将图像数据转换为文字信息，召回规范化检查指标名称；

(e)获取患者输入的主诉音频，进行语音识别，将音频数据转换为文字数据；

(f)根据上述多元信息识别得到的患者症状制作实体列表，遍历病状图谱获得症状-疾病关系及其权重，使用权重融合算法计算得出带权科室结果。

进一步的，医疗数据构建的知识图谱包括医疗文本知识构建的病状知识图谱和医疗检查单知识图谱，病状知识图谱包括症状、疾病、科室的相关关系，医疗检查单知识图谱包括检查报告与疾病的对应关系。

进一步的，医疗检查单知识图谱还包括单个症状与疾病之间的概率关系。

进一步的，步骤b包括知识合并和知识存储，所述知识合并是将医疗文本知识与医疗检查单知识融合，通过相似度计算将匹配到的实体进行知识合并，并存储到图数据库形成知识图谱数据库。

进一步的，步骤c包括：

(c1)对主诉文本进行去噪处理；

(c2)将患者输入的主诉文本识别为症状、疾病、部位三种实体；

(c3)根据识别得到的实体结果从图谱节点中召回规范化实体。

进一步的，实体识别的方法包括步骤：

利用知识图谱中症状、部位节点构造两棵字典树，从主诉文本中查找字典树中所包含的节点数据，得到实体识别结果。

进一步的，召回规范化实体的方法包括步骤：

利用部位词典，对症状实体以及召回的对象进行抽取，筛选部位一致的实体。

进一步的，召回规范化实体的方法还包括步骤：

对识别得到的相似词语进行相似度比较和替换。

进一步的，步骤f为：

根据多元信息识别得到的患者症状实体列表,遍历病状图谱获得症状-疾病关系及其权重，使用权重融合算法计算出患者患某种疾病的权重，根据多元信息识别得到的患者疾病实体列表、报告单异常指标、主诉音频，再次更新疾病权重，依据疾病-科室关系融合权重，得到带权科室结果，最终推荐权重较高的科室给用户。

本发明的优点在于：

传统知识图谱主要集中研究文本和数据库的实体和关系，而多模态知识图谱则在传统知识图谱的基础上，构建了多种模态下的实体，以及多种模态实体间的多模态语义关系。

本发明根据不同模态的信息进行医疗文本知识和医疗检查单知识的融合构建知识图谱数据库，医疗文本知识更偏重于患者使用的口语化信息，而医疗检查单知识更偏重于医生所使用的书面化、专业化文字，更好地利用了多模态实体所包含的信息，得到更准确的知识图谱。

本发明采用了图数据库进行知识图谱的存储，可以使用图结构的自然伸展特性设计免索引邻近节点遍历的查询算法，即图的遍历算法设计，可以快速和方便地找出它的邻近节点，加快识别速度。

本发明在实体归一化的过程中采用了相似实体替换的操作，使一些理解上并无差异、但由于其书写的区别会影响文字相似度算法准确性的词语不再产生干扰，大大提高了实体链接的准确率。

本发明利用多模态知识图谱进行医疗导诊，包括对自然语言、图像、音频的信息识别，还根据多维信息进行智能导诊处理，相较于传统知识图谱，获取的信息更全面完善，得到的结果更加精确。

本发明通过两次权重计算，先将症状-疾病的关系进行权重计算，再用多元信息识别到的预判疾病、报告单异常指标、患者的语音输入进行辅助，再次更新疾病权重，一方面，在患者没有提交医疗报告单数据或者语音输入不明确的情况下依然可以进行科室的判别，另一方面，两次计算能得到更权威的科室推荐结果，出现误判的概率更小。

附图说明

图1为本发明实施例1的知识融合和知识合并的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本实施例中，提出一种基于多模态知识图谱的智能导诊方法，包括步骤：

S1. 采用现有的医疗文本数据构建病状知识图谱：爬取权威医药网站的医疗数据，筛选后的图谱中应当包含疾病和症状信息，还包含症状-疾病的相关关系、疾病-科室的相关关系。

S2. 采用医疗检查单知识构建医疗检查单知识图谱：爬取常规检查项目异常值所所对应的疾病，得到检查报告与疾病的对应关系，以及计算得到单个症状与疾病之间的概率关系。

S3. 上述两个知识图谱进行知识融合，主要是实体匹配与知识合并，对于同一个症状，医疗文本数据对应的实体偏向口语化，但检查单对应的实体偏书面化、专业化，所以要将两个预处理后的知识图谱使用相似度计算的实体匹配方法进行实体匹配。具体步骤可以参见图1，知识图谱1即病状知识图谱、知识图谱2即医疗检查单知识图谱的数据预处理后进行数据存储，将两个知识图谱进行预处理，即对数据中的缺失值，重复值和异常值做处理，全部重复值采用删除处理，缺失值采用上一个有效值进行填充，异常值使用箱线法进行判断，使用95分位法盖帽法处理异常值。为了实现数据的可扩展性，采用分块的机制进行存取，把数据分成不同的块存储到不同的计算机中，每个块的数据都有两份备份数据，当机器由于网络等原因宕机时，可以从备份块中获取到数据。得到数据后通过词义相似度算法-基于WordNet的同义词比较算法进行属性相似度计算、通过实体的属性相似度和得到一个实体的相似度两方面的相似度计算链接到知识库中实体操作，最后把来自不同知识库的同一实体进行匹配，实现知识合并。

S4. 将融合后的知识图谱存储到图数据库中，例如选用Neo4J图数据库存储知识图谱。Neo4j是一个原生的图数据库引擎，它存储了原生的图数据，因此可以使用图结构的自然伸展特性来设计免索引邻近节点遍历的查询算法，即图的遍历算法设计。图的遍历是图数据结构所具有的独特算法，即从一个节点开始，根据其连接的关系，可以快速和方便地找出它的邻近节点。

S5. 获取患者输入的主诉文本，进行中文实体识别并进行归一化，即需要识别到症状、疾病、部位三种实体，但由于患者对疾病描述有所不同，所以还需要进行实体归一化，根据识别到的实体结果从知识图谱节点中召回一个规范化实体。在实体识别的过程中，患者主诉可能包含过多无关信息从而影响实体识别结果，因此需要先进行滤噪再进行识别。为了弥补模型在短句识别时实体正确率低的问题，使用图谱中的症状、部位节点构造两棵AC树（Aho-Corasick automaton），从原句中查找字典树中所包含的节点数据，字典树与模型结果经去重后，得到最终的实体识别结果。

S6. 获取医疗报告单数据，识别患者上传报告单中的数据，将其转换为文字，分析其中的异常数据。另外由于各医院检查指标的名称可能略有不同，所以此处还需要类似于实体归一化的操作，召回一个规范化检查指标名称。

S7. 获取患者的语音输入数据，例如问答模式下的音频回答，将患者的音频数据转换为文字数据，再进行自然语言处理的相关操作，例如可以使用vosk库进行语音识别。

S8. 权重融合：根据多元信息识别得到的患者症状实体列表,遍历病状图谱获得症状-疾病关系及其权重，使用合理的权重融合算法，计算出患者患某种疾病的权重；根据多元信息识别得到的患者预判断疾病、报告单异常指标、问答模式中患者的回答，再次更新疾病权重，依据疾病-科室关系融合权重，得到带权科室结果，最终推荐权重较高的科室或将带权的科室结果展示给用户。

在另一实施例中，医疗文本数据的获取采用了开源技术“OpenKG”构建病状知识图谱，数据源采用爬虫技术是从权威医药网站上爬取的医疗数据，其科学性及准确性有一定程度上的保障经筛选过后，图谱中包含8764种疾病，5998个症状，54710条症状-疾病的相关关系，以及8806条疾病-科室相关关系。

医疗检查单知识图谱采用CCKS2019中文命名实体识别任务，识别出检查报告与疾病对应关系，另外还需补充单个症状与疾病之间的概率关系，以搜索引擎中症状—疾病对出现的频次计算相关程度在搜索引擎中对“症状-疾病”进行联合搜索，获取其在互联网上的出现次数作为分子，分母为该疾病所有症状联合搜索结果的加和。从搜索引擎的相关数据中，爬取常规检查项目异常值所对应的疾病，写入到JSON文件中。

在另一实施例中，在中文实体归一化中使用基于LSTM-CRF预滤噪的Bert-LSTM-CRF中文实体识别模型，它主要由三部分构成：LSTM-CRF实体识别模型，滤噪算法，Bert-LSTM-CRF实体识别模型。患者的主诉原句首先输入到LSTM-CRF模型中，得到原句的BIO标注列表，根据标注列表找出原句中的三类（症状、疾病、部位）实体，组成实体列表。将实体列表及患者主诉原句输入到滤噪算法中，滤噪算法会根据原句中实体的位置及实体种类，过滤掉不含实体，或者部位、症状实体之间的语句，得到滤噪原句。滤噪原句输入到Bert-LSTM-CRF实体识别模型中，得到滤噪原句的BIO标注列表，从而得到滤噪原句的实体列表。

例如，“医生您好，最近一段时间，胸口常常隐隐作痛，所以想在这咨询一下医生，胸部常常疼痛，需要吃些什么药，如何才能缓解这种症状。我是不是有心脏病”经滤噪后变为“胸口痛，胸部疼痛，我是不是有心脏病。”最终的中文实体识别结果为：“胸口”“痛”“胸部”“疼痛”“心脏病”。

在另一实施例中，针对中文实体归一化做了特别处理。将实体识别出来的症状和疾病实体集通过字符串相似度算法Textdistance归一化到知识图谱中。在归一化过程中，利用部位词典，对实体以及召回的对象进行抽取，筛选部位一致的实体。例如上个案例在归一化过程中，虽然“疼”“痛”“疼痛”在中文理解中上并无差异，均为描述胸部部位的痛感，但由于其用词不同会影响文字相似度算法的准确性，所以在归一化中，对于包含这种词语的实体进行了替换词的操作，比如使用BM25、Textdistance字符串相似度比较算法。BM25 是一种用来评价搜索词和文档之间相关性的算法，它是一种基于概率检索模型提出的算法。Textdistance为python的第三方库，其使用了莱文斯坦距离，又称Levenshtein距离，是编辑距离的一种。指两个字串之间，由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符，***一个字符，删除一个字符。最终，“胸口”“痛”“胸部”“疼痛”“心脏病”可以全部替换合并为：部位-“胸部”，症状-“疼痛”，患者预判断疾病-“心脏病”。

在另一实施例中，因为对于自然场景图像，首先要定位图像中的文字位置，然后才能进行识别，因此医疗报告单数据的识别被分解为文字检测和文字识别两个步骤。文字检测采用CTPN算法，结合CNN和LSTM深度网络，将横向分布的文字进行解耦，利用规则将水平的小片组合为文本行。文字识别采用CRNN OCR和attention OCR两大基于深度学习的端到端OCR技术，对检测到的横向不定长的文本序列进行识别，提取出检查单中的项目名称、检查结果、正常值范围。再使用BM25模型召回规范化的项目名称，根据项目名称对比结果值，找出异常项目。

在另一实施例中，本发明可以依托于手机小程序或智能终端等进行导诊。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态知识图谱的智能导诊方法，其特征在于，包括以下步骤：

(a)获取医疗数据构建知识图谱；

(b)将知识图谱储存到图数据库中形成知识图谱数据库；

2.根据权利要求1所述的基于多模态知识图谱的智能导诊方法，其特征在于，步骤a所述医疗数据构建的知识图谱包括医疗文本知识构建的病状知识图谱和医疗检查单知识图谱，所述病状知识图谱包括症状、疾病、科室的相关关系，所述医疗检查单知识图谱包括检查报告与疾病的对应关系。

3.根据权利要求2所述的基于多模态知识图谱的智能导诊方法，其特征在于，所述医疗检查单知识图谱还包括单个症状与疾病之间的概率关系。

4.根据权利要求2所述的基于多模态知识图谱的智能导诊方法，其特征在于，步骤b包括知识合并和知识存储，所述知识合并是将医疗文本知识与医疗检查单知识融合，通过相似度计算将匹配到的实体进行知识合并，并存储到图数据库形成知识图谱数据库。

5.根据权利要求1所述的基于多模态知识图谱的智能导诊方法，其特征在于，步骤c包括：

(c1)对主诉文本进行去噪处理；

(c3)根据识别得到的实体结果从图谱节点中召回规范化实体。

6.根据权利要求5所述的基于多模态知识图谱的智能导诊方法，其特征在于，步骤c2所述实体识别的方法包括步骤：

7.根据权利要求5所述的基于多模态知识图谱的智能导诊方法，其特征在于，步骤c3所述召回规范化实体的方法包括步骤：

8.根据权利要求7所述的基于多模态知识图谱的智能导诊方法，其特征在于，步骤c3所述召回规范化实体的方法还包括步骤：

对识别得到的相似词语进行相似度比较和替换。

9.根据权利要求1所述的基于多模态知识图谱的智能导诊方法，其特征在于，步骤f为：

根据多元信息识别得到的患者症状实体列表,遍历病状图谱获得症状-疾病关系及其权重，使用权重融合算法计算出患者患某种疾病的权重，根据多元信息识别得到的患者疾病实体列表、报告单异常指标、主诉音频，再次更新疾病权重，依据疾病-科室关系融合权重，得到带权科室结果并推荐给用户。