CN113360671B

CN113360671B - 一种基于知识图谱的医保医疗单据审核方法及其***

Info

Publication number: CN113360671B
Application number: CN202110663612.9A
Authority: CN
Inventors: 俞山青; 张建林; 甘燃; 童天航; 傅晨波; 宣琦
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2022-04-19
Anticipated expiration: 2041-06-16
Also published as: CN113360671A

Abstract

一种基于知识图谱的医保医疗单据审核方法，包括：1)设计医保审核知识图谱本体图；2)预训练医保政策文本的字向量；3)使用医保政策文本构造句法依存网络；4)将句法依存网络输入到图卷积层获取依存关系维度的词嵌入特征；5)聚合词向量与字向量的特征，输入到序列标注层获取实体；6)使用关系抽取算法连接实体并设置关系的时空属性，构建知识四元组；7)医保政策动态更新。本发明还包括一种基于知识图谱的医保医疗单据审核***。本发明能够对就医行为进行智能审核，有效降低审核规则库更新维护的成本，降低审核过程对专业人员的依赖，提高医保审核效率，推进智能化医保审核***的建设。

Description

一种基于知识图谱的医保医疗单据审核方法及其***

技术领域

本发明涉及一种医保医疗单据审核方法及其***。

背景技术

医保审核是通过审核规则对定点医疗机构医保费用单据进行支付政策性、诊疗合理性、临床规范性和医疗行为异常审核，规范医疗机构医疗行为，提升医疗服务质量，促进医疗机构自我管理，有效控制医疗费用增长。现阶段医保审核的工作，一般采用较为粗放的人工审核方法。医保审核的工作量巨大，一天的医保报销单据就多达数十万张，审核一张单据就需要很长时间，一般地级市医保中心也只有20-30人的人员配置，这显然是无法满足大量单据的审核需求，因此现阶段一般采用抽查的方式进行单据审核，无法对每一张单据进行及时、正确的审核。此外，一些地区开始借助信息化的力量，构建医保智能审核***，但是其核心功能还是集中在基于规则的审核上，智能化水平依然较低，具体存在以下问题：

1.医保数据分散，无法通过大数据发现异常就医行为。

2.医保审核规则单一，更新成本高、频率低，审核过程依然需要较多的全人工操作，且对操作的人员的专业素养要求较高，人力不足，效率较低，报销支付周期漫长。

发明内容

本发明要解决现有技术中存在的上述技术问题，提出了一种基于知识图谱的医保医疗单据审核方法及其***。

本发明能够利用知识图谱技术自动抽取医保政策中的医保知识与医疗文本中的医疗知识，对就医行为进行智能审核，有效降低审核规则库更新维护的成本，降低审核过程对专业人员的依赖，提高医保审核效率，推进智能化医保审核***的建设。

本发明的一种基于知识图谱的医保医疗单据审核方法，包括如下步骤：

1)设计医保审核知识图谱本体图。针对不同医保政策之间的差异性，采用知识图谱本体进行抽象概括，例如参保对象、医保类型、医院等级、地点等。此外，医保政策限定的内容过于宽泛，如杭州市基本医疗保障办法规定其医保支付的范围仅限于浙江省社会保险行政部门规定的基本医疗保险药品目录、医疗服务项目范围和大病保险特殊药品目录，但并未说明药品目录详情。因此医保知识图谱还包括了医疗知识数据，即抽象了“检查方式”，“疾病”，“药物”，“症状”等本体，为患者在治疗过程中的超量用药、重复用药、违规使用无适应症的药品等异常就医行为提供审核依据。

2)构建医保政策句法依存网络。对于医保政策和医疗知识图谱文本中的句子，首先对其进行句法依存分析，并将其转化为对应的网络

其中，

表示第i个医疗文本序列对应的图网络，V表示网络的词汇节点，E表示图网络词汇节点之间的依存关系，如定中、主谓、动宾等。

3)获取依存关系为度的词嵌入特征。基于图网络结构，构建对应的邻接矩阵

通过以下公式来聚合不同词汇节点之间的特征:

其中

表示第i个文本序列句法依存网络中所有实体的词汇级嵌入特征矩阵，W,b表示网络的训练参数，D表示矩阵

的度值矩阵，

I为单位矩阵，

为输入到模型第l层的词汇的初始特征矩阵，σ为非线性激活函数。

4)聚合词向量与字向量的特征，输入到序列标注层获取实体。把文本预训练好的字向量e_c和该字符所在分词的所有一阶词向量e_w聚合起来，具体的聚合方式如下：

其中S是句法依存网络中字向量e_c所在分词的一阶词向量的集合，其中

是集合S中的元素，n是一阶词向量的数量，λ是平衡两种向量权重的超参，λ∈[0,1]。

将聚合后的特征e输入到双向神经网络中，提取文本上下文之间的依赖关系。最终，模型的输出为

其中

表示正向神经网络模型的输出，

表示逆向神经网络的输出。

对h_i进行序列标注来抽取实体，即给定一组输入序列条件下另一组输出序列的概率，具体公式如下：

y＝(y₁,y₂,…y_T) (4)

其中，y表示模型预测的标签。P表示模型输出的分数矩阵,形状为T×k,T表示输入文本序列的长度，k表示预测的标签数量,P_ij表示第i个汉字预测的第j个标签的得分。A表示转移分数矩阵,A_ij表示第i个标签到第j个标签的转移分数。

最后经softmax层得到所有可能的标签序列的概率，在训练中需要最大化正确标签序列的对数概率，具体公式如下：

log (p(y∣X))＝s(X,y)-log add(s(X,y)) (5)

其中，p(y∣X)表示所有可能的标签序列概率，log add表示对数求和。最终经过序列标注层得到输入文本的序列标签，然后将其组合得到文本中的实体。

5)使用关系抽取算法连接实体并设置关系的时空属性，构建知识四元组，采用的知识图谱建模方式是：得到实体后使用关系抽取方法创建实体之间的关系，并且将知识图谱图谱存储于neo4j图数据库中。对于每份医保政策文件，在抽取出的RDF三元组中额外加入一个知识的时空信息字段形成一个知识四元组，具体格式为行政区号_政策生效的时间戳，即(头实体，关系，尾实体，行政区号_政策生效的时间戳)。该知识图谱建模方式可以高效的定位和更新医保政策知识，并可以在neo4j中使用关系属性来实现存储。

6)医保政策动态更新。对于新发布了新的医保政策，可以将医保政策文件添加到医保审核知识图谱中进行动态实时更新。首先根据当前地点的行政区号快速定位到医保政策知识的四元组，如果新抽取的四元组的时间戳大于图数据库中的时间戳则进行覆盖，使得医保知识图谱中实时保留最新的医疗规则。

7)医疗单据审核。对于医疗单据，需要将单据中的信息识别出来形成结构化数据，即用户的基本信息网络以及就医过程网络。该网络主要包含患者就医过程中的症状、检查方式、疾病、药物、药物天数、医生六种类型实体组成，不同实体之间存在对应的关系。然后根据当地医院的审核流程定义审核规则，审核过程中需要连接医保政策知识图谱实时查询最新的医保政策进行审核。

首先，判断患者身份与医保类型是否对应；然后根据患者就诊医院信息在医保知识图谱中搜索医院地点以及医院等级信息，判断当前地点是否在医保报销范围内，进一步的，根据医院等级得出此次就医行为的报销比例，依据是否由社区医院转诊确定此次医保的起付标准；进一步的，根据患者症状与检查方式之间的对应关系以及检查方式自身的性别、年龄等限制条件判断检查方式是否合规，然后根据检查结果、症状综合判断此次确诊疾病是否合规；进一步的，根据疾病与药物之间的对应关系以及药物自身的限制条件判断用药是否合规；最后根据报销比例和起付标准判断此次的报销金额是否合规，审核过程结束。

参照图1所示，本实施例还提供了一种医疗单据审核装置，具体包括：依次连接的医保审核知识图谱的数据收集模块、医保知识图谱构建模块、医保规则动态更新模块以及审核模块；

所述数据收集模块，用于收集爬取网络中的医保政策文件和医疗知识文本，并设计医保审核知识图谱本体图。

所述医保知识图谱构建模块用于将文本转换为句法依存网络并输入到图卷积层中获取词嵌入特征；然后与文本预训练好的字向量进行聚合，输入到序列标注层获取实体。将实体使用关系抽取算法进行连接并设置关系的时空属性，构建知识四元组。

所述医保规则动态更新模块用于动态更新所述知识图谱构建模块中所储存的知识。

所述审核模块用于医疗单据的审核。具体为：将医疗单据转换为就医过程网络，然后根据当地医院的审核流程定义审核规则实时查询医保审核知识图谱进行审核。

本发明针对医保政策和医疗知识文本，提出了一种知识图谱实体抽取方法，能够使用文本的句法依存信息来提高实体抽取的精度。将医保政策文件和医疗知识进行自动抽取形成医保知识图谱，并通过医保审核知识图谱审核医疗单据，发现异常就医行为。同时设计了一种新的知识图谱数据组织形式，使得知识图谱中的三元组动态扩展了时间特性和空间特性，实现了知识图谱的高效检索和动态更新。

本发明的优点是:能够对就医行为进行智能审核，有效降低审核规则库更新维护的成本，降低审核过程对专业人员的依赖，提高医保审核效率，推进智能化医保审核***的建设。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的***结构示意图；

图2为本发明的医保知识图谱构建流程。

图3为本发明的医保知识图谱的本体图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明要克服现有技术的上述缺点，提供一种医保知识图谱构建方法以及医疗单据审核***。

其中，

通过以下公式来聚合不同词汇节点之间的特征:

其中

的度值矩阵，

I为单位矩阵，

其中

表示正向神经网络模型的输出，

表示逆向神经网络的输出。

y＝(y₁,y₂,…y_T) (4)

log (p(y∣X))＝s(X,y)-log add(s(X,y)) (5)

5)使用关系抽取算法连接实体并设置关系的时空属性，构建知识四元组，采用的知识图谱建模方式是：得到实体后使用关系抽取方法创建实体之间的关系，并且将知识图谱图谱存储于neo4j图数据库中。对于每份医保政策文件，在抽取出的RDF三元组中额外加入一个知识的时空信息字段形成一个知识四元组，具体格式为行政区号_政策生效的时间戳，即(头实体，关系，尾实体，行政区号_政策生效的时间戳)，如(市区少年儿童，筹资标准，650元，0571_1577116800)。该知识图谱建模方式可以高效的定位和更新医保政策知识，并可以在neo4j中使用关系属性来实现存储。

6)医保政策动态更新。使用新医保政策文件对医保审核知识图谱进行动态实时更新；首先根据当前地点的行政区号快速定位到医保政策知识的四元组，如果新抽取的四元组的时间戳大于图数据库中的时间戳则进行覆盖，使得医保知识图谱中实时保留最新的医疗规则；

所述数据收集模块，用于收集爬取网络中的医保政策文件和医疗知识文本，并设计医保审核知识图谱本体图，具体包括：针对不同医保政策之间的差异性，采用知识图谱本体进行抽象概括，包括参保对象、医保类型、医院等级、地点。医保知识图谱还包括了药品目录详情的医疗知识数据，抽象了“检查方式”，“疾病”，“药物”，“症状”的本体，为患者在治疗过程中的超量用药、重复用药、违规使用无适应症的药品的异常就医行为提供审核依据。

所述医保知识图谱构建模块用于将文本转换为句法依存网络并输入到图卷积层中获取词嵌入特征；然后与文本预训练好的字向量进行聚合，输入到序列标注层获取实体。将实体使用关系抽取算法进行连接并设置关系的时空属性，构建知识四元组。包括：

医保政策句法依存网络构建子模块，具体包括：对于医保政策和医疗知识图谱文本中的句子，首先对其进行句法依存分析，并将其转化为对应的网络

其中，

表示第i个医疗文本序列对应的图网络，V表示网络的词汇节点，E表示图网络词汇节点之间的依存关系。

词嵌入特征获取子模块，具体包括：基于图网络结构，构建对应的邻接矩阵

通过以下公式来聚合不同词汇节点之间的特征:

其中

的度值矩阵，

I为单位矩阵，

实体获取子模块，具体包括：把文本预训练好的字向量e_c和该字符所在分词的所有一阶词向量e_w聚合起来，具体的聚合方式如下：

其中

表示正向神经网络模型的输出，

表示逆向神经网络的输出。

y＝(y₁,y₂,…y_T) (4)

log (p(y∣X))＝s(X,y)-log add(s(X,y)) (5)

知识四元组构建子模块，具体包括：得到实体后使用关系抽取方法创建实体之间的关系，并且将知识图谱图谱存储于neo4j图数据库中。对于每份医保政策文件，在抽取出的RDF三元组中额外加入一个知识的时空信息字段形成一个知识四元组，具体格式为行政区号_政策生效的时间戳，即头实体，关系，尾实体，行政区号_政策生效的时间戳。该知识图谱建模方式能定位和更新医保政策知识，并能在neo4j中使用关系属性来实现存储。

所述医保规则动态更新模块用于动态更新所述知识图谱构建模块中所储存的知识。首先根据当前地点的行政区号快速定位到医保政策知识的四元组，如果新抽取的四元组的时间戳大于图数据库中的时间戳则进行覆盖，使得医保知识图谱中实时保留最新的医疗规则。

所述审核模块审核医疗单据，将医疗单据转换为就医过程网络，然后根据当地医院的审核流程定义审核规则实时查询医保审核知识图谱进行审核。对于医疗单据，需要将单据中的信息识别出来形成结构化数据，即用户的基本信息网络以及就医过程网络。该网络包含患者就医过程中的症状、检查方式、疾病、药物、药物天数、医生六种类型实体组成，不同实体之间存在对应的关系。然后根据当地医院的审核流程定义审核规则，审核过程中需要连接医保政策知识图谱实时查询最新的医保政策进行审核。

本发明所述***将医疗领域的医保政策和医疗知识关联起来形成知识图谱，便于知识存储以及查询。并提出了一种句法依存网络构建方法提高了医疗领域的医保政策和医疗知识实体抽取的精度。此外，在构建知识图谱时，该***对每个三元组中关系实体都动态维护时间特性和空间特性，实现了医保政策知识的快速定位和动态更新。该***能够对就医行为进行智能审核，有效降低审核规则库更新维护的成本，降低审核过程对专业人员的依赖，提高医保审核效率，推进智能化医保审核***的建设。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于知识图谱的医保医疗单据审核方法，包括如下步骤：

1)设计医保审核知识图谱本体图；针对不同医保政策之间的差异性，采用知识图谱本体进行抽象概括，包括参保对象、医保类型、医院等级、地点；医保知识图谱还包括了药品目录详情的医疗知识数据，抽象了“检查方式”，“疾病”，“药物”，“症状”的本体，为患者在治疗过程中的超量用药、重复用药、违规使用无适应症的药品的异常就医行为提供审核依据；

2)构建医保政策句法依存网络；对于医保政策和医疗知识图谱文本中的句子，首先对其进行句法依存分析，并将其转化为对应的网络

其中，

表示第i个医疗文本序列对应的图网络，V表示网络的词汇节点，E表示图网络词汇节点之间的依存关系；

3)获取依存关系为度的词嵌入特征；基于图网络结构，构建对应的邻接矩阵

通过以下公式来聚合不同词汇节点之间的特征：

其中

表示第i个文本序列句法依存网络中所有实体的词汇级嵌入特征矩阵，W，b表示网络的训练参数，D表示矩阵

的度值矩阵，

I为单位矩阵，

为输入到模型第l层的词汇的初始特征矩阵，σ为非线性激活函数；

4)聚合词向量与字向量的特征，输入到序列标注层获取实体；把文本预训练好的字向量e_c和该字符所在分词的所有一阶词向量e_w聚合起来，具体的聚合方式如下：

是集合S中的元素，n是一阶词向量的数量，λ是平衡两种向量权重的超参，λ∈[0，1]；

将聚合后的特征e输入到双向神经网络中，提取文本上下文之间的依赖关系；最终，模型的输出为

其中

表示正向神经网络模型的输出，

表示逆向神经网络的输出；

y＝(y₁，y₂，...y_T) (4)

其中，y表示模型预测的标签；P表示模型输出的分数矩阵，形状为T×k，T表示输入文本序列的长度，k表示预测的标签数量，P_ij表示第i个汉字预测的第j个标签的得分；A表示转移分数矩阵，A_ij表示第i个标签到第j个标签的转移分数；

log(p(y|X))＝s(X，y)-log add(s(X，y)) (5)

其中，p(y|X)表示所有可能的标签序列概率，log add表示对数求和；最终经过序列标注层得到输入文本的序列标签，然后将其组合得到文本中的实体；

5)使用关系抽取算法连接实体并设置关系的时空属性，构建知识四元组，采用的知识图谱建模方式是：得到实体后使用关系抽取方法创建实体之间的关系，并且将知识图谱图谱存储于neo4j图数据库中；对于每份医保政策文件，在抽取出的RDF三元组中额外加入一个知识的时空信息字段形成一个知识四元组，具体格式为行政区号_政策生效的时间戳，即头实体，关系，尾实体，行政区号_政策生效的时间戳，能定位和更新医保政策知识，并能在neo4j中使用关系属性来实现存储；

6)医保政策动态更新；使用新医保政策文件对医保审核知识图谱进行动态实时更新；首先根据当前地点的行政区号快速定位到医保政策知识的四元组，如果新抽取的四元组的时间戳大于图数据库中的时间戳则进行覆盖，使得医保知识图谱中实时保留最新的医疗规则；

7)医疗单据审核；对于医疗单据，需要将单据中的信息识别出来形成结构化数据，即用户的基本信息网络以及就医过程网络；该网络包含患者就医过程中的症状、检查方式、疾病、药物、药物天数、医生六种类型实体组成，不同实体之间存在对应的关系；然后根据当地医院的审核流程定义审核规则，审核过程中需要连接医保政策知识图谱实时查询最新的医保政策进行审核。

2.如权利要求1所述的一种基于知识图谱的医保医疗单据审核方法，其特征在于：步骤2)所述的图网络词汇节点之间的依存关系，包括定中、主谓、动宾。

3.如权利要求1所述的一种基于知识图谱的医保医疗单据审核方法，其特征在于：步骤7)具体包括：首先，判断患者身份与医保类型是否对应；然后根据患者就诊医院信息在医保知识图谱中搜索医院地点以及医院等级信息，判断当前地点是否在医保报销范围内，进一步的，根据医院等级得出此次就医行为的报销比例，依据是否由社区医院转诊确定此次医保的起付标准；进一步的，根据患者症状与检查方式之间的对应关系以及检查方式自身的性别、年龄等限制条件判断检查方式是否合规，然后根据检查结果、症状综合判断此次确诊疾病是否合规；进一步的，根据疾病与药物之间的对应关系以及药物自身的限制条件判断用药是否合规；最后根据报销比例和起付标准判断此次的报销金额是否合规，审核过程结束。

4.实施如权利要求1所述的一种基于知识图谱的医保医疗单据审核方法的***，其特征在于：包括依次连接的医保审核知识图谱的数据收集模块、医保知识图谱构建模块、医保规则动态更新模块以及审核模块；

所述数据收集模块，用于收集爬取网络中的医保政策文件和医疗知识文本，并设计医保审核知识图谱本体图，具体包括：针对不同医保政策之间的差异性，采用知识图谱本体进行抽象概括，包括参保对象、医保类型、医院等级、地点；医保知识图谱还包括了药品目录详情的医疗知识数据，抽象了“检查方式”，“疾病”，“药物”，“症状”的本体，为患者在治疗过程中的超量用药、重复用药、违规使用无适应症的药品的异常就医行为提供审核依据；

所述医保知识图谱构建模块用于将文本转换为句法依存网络并输入到图卷积层中获取词嵌入特征；然后与文本预训练好的字向量进行聚合，输入到序列标注层获取实体；将实体使用关系抽取算法进行连接并设置关系的时空属性，构建知识四元组；包括：

其中，

通过以下公式来聚合不同词汇节点之间的特征：

其中

的度值矩阵，

I为单位矩阵，

其中

表示正向神经网络模型的输出，

表示逆向神经网络的输出；

y＝(y₁，y₂，...y_T) (4)

log(p(y|X))＝s(X，y)-log add(s(X，y)) (5)

知识四元组构建子模块，具体包括：得到实体后使用关系抽取方法创建实体之间的关系，并且将知识图谱图谱存储于neo4j图数据库中；对于每份医保政策文件，在抽取出的RDF三元组中额外加入一个知识的时空信息字段形成一个知识四元组，具体格式为行政区号_政策生效的时间戳，即头实体，关系，尾实体，行政区号_政策生效的时间戳；该知识图谱建模方式能定位和更新医保政策知识，并能在neo4j中使用关系属性来实现存储；

所述医保规则动态更新模块动态更新所述知识图谱构建模块中所储存的知识；首先根据当前地点的行政区号快速定位到医保政策知识的四元组，如果新抽取的四元组的时间戳大于图数据库中的时间戳则进行覆盖，使得医保知识图谱中实时保留最新的医疗规则；

所述审核模块审核医疗单据，将医疗单据转换为就医过程网络，然后根据当地医院的审核流程定义审核规则实时查询医保审核知识图谱进行审核；对于医疗单据，需要将单据中的信息识别出来形成结构化数据，即用户的基本信息网络以及就医过程网络；该网络包含患者就医过程中的症状、检查方式、疾病、药物、药物天数、医生六种类型实体组成，不同实体之间存在对应的关系；然后根据当地医院的审核流程定义审核规则，审核过程中需要连接医保政策知识图谱实时查询最新的医保政策进行审核。