CN110119991A

CN110119991A - 基于机器学习的医疗赔付审核方法、装置及存储介质

Info

Publication number: CN110119991A
Application number: CN201910294783.1A
Authority: CN
Inventors: 贺健
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2019-08-13

Abstract

本发明涉及人工智能技术领域，公开了一种基于机器学习的医疗赔付审核方法，该方法包括：从医学文献数据库和医生开具的各种疾病的医学诊断信息文本中提取不同病症的用药标准，将所述用药标准作为训练数据，通过机器学习的方法，训练医疗赔付审核模型，生成所述医疗赔付审核模型，以利用所述医疗赔付审核模型对人伤理赔的报销单据进行审核，从而自动判断所述报销单据是否存在欺诈行为。本发明还提出一种基于机器学习的医疗赔付审核装置以及一种计算机可读存储介质。本发明能够对医疗事故的理赔进行自动审核，以判断是否存在用药过度反欺诈。

Description

基于机器学习的医疗赔付审核方法、装置及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于机器学习的医疗赔付审核方法、装置及计算机可读存储介质。

背景技术

用药是根据患者个人的基因、病情、体质、家族遗传病史和药物的成份等做全面情况的检测，准确的选择药物、真正做到“对症下药”，同时以适当的方法、适当的剂量、适当的时间准确用药。注意该药物的禁忌、不良反应、相互作用等。这样就可以做到安全、合理、有效、经济地用药了，但在实际操作中，由于医疗人员的失误或经验不足往往会发生用药过度行为，过于严重甚至导致患者死亡，发生医疗事故，因用药过度发生的医疗事故因目前没有很好的赔偿方案，导致保险公司和受害家庭的利益通常不能得到合理保障。

针对用药过度导致的医疗事故在进行理赔时，保险公司因无专业人员导致理赔过程耗时长、成本高，过度依赖外部等不足，同时当前市场并未有针对此不足的相关用药过度反欺诈方案。

发明内容

本发明提供一种基于机器学习的医疗赔付审核方法、装置及计算机可读存储介质，其主要目的在于提供一种能够对医疗事故的理赔进行自动审核，以判断是否存在用药过度反欺诈。

为实现上述目的，本发明提供的一种基于机器学习的医疗赔付审核方法，包括：

从医学文献数据库中搜索各医学科的医学文献，建立医学文献集数据库，通过使用自然语言处理技术对所述医学文献进行文本挖掘，提取不同病症的用药标准，并将所述用药标准存储在医学诊疗方案库中；

从医院***中获取医生开具的各种疾病的医学诊断信息文本，通过光学字符识别及自然语言处理技术，对所述医学诊断信息文本进行识别及文本处理，抓取诊断信息文本的用药情况，添加到所述医学诊疗方案库；

建立医疗赔付审核模型，利用所述医学诊疗方案库中的数据作为训练数据，通过机器学习的方法，训练所述医疗赔付审核模型的各参数，生成所述医疗赔付审核模型；及

当有人伤理赔案件发生时，将所述人伤理赔的报销单据通过光学字符识别技术进行识别后，输入到所述医疗赔付审核模型中，判断所述人伤理赔案件是都存在欺诈行为。

可选地，所述通过使用自然语言处理技术对所述医学文献进行文本挖掘，提取不同病症的用药标准，包括：

根据药品知识构建药品语料库；

利用自然语言处理技术，基于所述药品语料库，对所述医学文献进行词法分析、依存句法分析、观点抽取，提取不同病症的用药标准。

可选地，所述词法分析包括对医学文献进行分词、词性标注以及命名实体识别操作；其中，所述分词包括：

(1)从医学文献的文本中按照从左到右的顺序，从一个字符串的开始位置选择一个最大长度的词长片段与所述药品语料库进行匹配，判断所述词长片段是否在所述药品语料库中，如果在，则算为一个分词，如果不在，则从右边开始减少一个字符，然后再判断少了一个字符的片段是否在药品语料库中，依次循环，直至剩下单字；

(2)从所述医学文献的文本的剩余的部分序列再次按照上述的步骤(1)所述方法进行分词，直到整个文本完成分词。

可选地，所述建立医疗赔付审核模型，利用所述医学诊疗方案库中的数据作为训练数据，通过机器学习的方法，训练所述医疗赔付审核模型的各参数，生成所述医疗赔付审核模型，包括：

将所述医学诊疗方案库的用药标准作为训练数据，输入建立的医疗赔付审核模型中，通过数据反复迭代计算，训练医疗赔付审核模型中的各参数，并通过不断调整参数，得到所述医疗赔付审核模型。

可选地，所述医疗赔付审核模型为支持向量机或者随机森林模型。

此外，为实现上述目的，本发明还提供一种基于机器学习的医疗赔付审核装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的医疗赔付审核程序，所述医疗赔付审核程序被所述处理器执行时实现如下步骤：

根据药品知识构建药品语料库；

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有医疗赔付审核程序，所述医疗赔付审核程序可被一个或者多个处理器执行，以实现如上所述的基于机器学习的医疗赔付审核方法的步骤。

本发明提出的基于机器学习的医疗赔付审核方法、装置及计算机可读存储介质从医学文献数据库和医生开具的各种疾病的医学诊断信息文本中提取不同病症的用药标准，将所述用药标准作为训练数据，通过机器学习的方法，训练医疗赔付审核模型的各参数，生成所述医疗赔付审核模型，以对人伤理赔的报销单据进行审核，从而自动判断所述报销单据是否存在欺诈行为。

附图说明

图1为本发明一实施例提供的基于机器学习的医疗赔付审核方法的流程示意图；

图2为本发明一实施例提供的基于机器学习的医疗赔付审核装置的内部结构示意图；

图3为本发明一实施例提供的基于机器学习的医疗赔付审核装置中医疗赔付审核程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于机器学习的医疗赔付审核方法。参照图1所示，为本发明一实施例提供的基于机器学习的医疗赔付审核方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，所述基于机器学习的医疗赔付审核方法包括：

S10、从医学文献数据库中搜索各医学科的医学文献，建立医学文献集数据库，通过使用自然语言处理技术对所述医学文献进行文本挖掘，提取不同病症的用药标准，并将所述用药标准存储在医学诊疗方案库中。

本发明首先从全世界范围内按医学科类，从各个医学文献数据库中收集历史医学文献，建立医学文献集数据库，再通过使用自然语言处理技术对医学文献进行文本挖掘，提取不同病症的用药标准，构建医学诊疗方案库存储这些标准，作为后续智能审核医疗赔付的数据支撑。

所述自然语言处理(Natural Language Processing，NPL)技术是计算机科学，人工智能，语言学关注计算机和人类(自然)语言之间的相互作用的领域。在自然语言处理时最核心的是自然语言理解，即计算机源于人为或自然语言输入的意思，和其他涉及到自然语言生成。

本发明较佳实施例首先根据药品知识构建药品语料库，再利用所述自然语言处理技术，基于所述药品语料库，对所述医学文献进行词法分析、依存句法分析、观点抽取等步骤，完成医学文献中的用药标准抽取，从而构建所述医学诊疗方案库。

词法分析用于对医学文献进行分词、词性标注、命名实体识别等操作。

所述分词是基于所述基于语料库，将连续的自然语言文本，切分成具有语义合理性和完整性的词汇序列的过程，包括步骤：

(1.1)从医学文献的文本中按照从左到右的顺序，从一个字符串的开始位置选择一个最大长度的词长片段与药品语料库进行匹配，判断所述词长片段是否在所述药品语料库中，如果在，则算为一个分词，如果不是，则从右边开始减少一个字符，然后再判断少了一个字符的片段是否在药品语料库中，依次循环，直至剩下单字。

(1.2)从文本的剩余的部分序列再次按照上述的步骤(1)所述方法进行分词，直到整个文本完成分词。

所述词性标注(Part-of-Speech tagging或POS tagging)是指为自然语言文本中的每个词汇赋予一个词性的过程。本发明所述词性标注可以采用特定的词性标注算法实现，如隐马尔可夫模型(Hidden Markov Model,HMM)、条件随机场(Conditional randomfields,CRFs)等。

命名实体识别(Named Entity Recognition简称NER)，即"专名识别"，是指识别自然语言文本中具有特定意义的实体，主要包括人名、地名、机构名、产品的名字、药物名称、时间日期等等。

所述依存句法分析是利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系)，并用树状结构来表示整句的的结构(如主谓宾、定状补等)。

所述观点抽取功能是自动分析文本中的药品品名、剂量、服用方式等，并对这些特征贴标签，贴好标签后的特征即存储到医学诊疗方案库中。此步骤主要使用的是单条观点抽取方法，一般情况下，医生会根据病人实际病情，即具体主要病症进行诊断并开出处方，因此选择了较为适宜的单条观点抽取方法。

S20、从医院***中获取医生开具的各种疾病的医学诊断信息文本，通过OCR及自然语言处理技术，对所述医学诊断信息文本进行识别及文本处理，抓取诊断信息文本的用药情况，添加到所述医学诊疗方案库中。

为了实现训练数据库的灵活动态性和实际可用性，本发明将现实医学诊疗单的医学诊断信息加入医学诊疗方案库，扩充方案库，使得训练数据更具有动态更新性、信息完备性和现实可用性。

因医生开具的各种疾病的医学诊断信息通常为手写版和电子版，对于手写版，本发明首先用光学字符识别(Optical Character Recognition，OCR)技术对其进行识别，然后用自然语言处理技术提取其中的用药特征数据；针对电子版，直接用自然语言处理技术提取其中的用药特征数据。

所述OCR技术通过扫描等光学输入方式将手写版的医学诊断信息中的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。

所述用自然语言处理技术提取其中的用药特征数据的方法可以参照上述步骤S20中的描述。

S30、建立医疗赔付审核模型，利用所述医学诊疗方案库中的数据作为训练数据，通过机器学习的方法，训练所述医疗赔付审核模型的各参数，生成所述医疗赔付审核模型。

在上述两步骤建立好的医学诊疗方案库的基础上，本发明通过机器学习的方法将医学诊疗方案库的用药标准等特征数据作为训练数据，输入建立的医疗赔付审核模型中，通过上万次的数据反复迭代计算，训练医疗赔付审核模型中的各参数，通过不断调整参数，得到最佳的效果，最终输出实用性更高效率更优质量更优的医疗赔付审核模型。

本发明所述医疗赔付审核模型可以是一个支持向量机(Support VectorMachine,SVM)或者随机森林等。

S40、当有人伤理赔案件发生时，将所述人伤理赔的报销单据通过OCR技术进行识别后，输入到所述医疗赔付审核模型中，判断所述人伤理赔案件是都存在用药欺诈行为。

为了进一步验证所述医疗赔付审核模型的现实可用性，本发明将现实中发生的人伤理赔案件的报销单和真实诊疗单作为试验数据输入已经训练建立好的医疗赔付审核模型中，通过模型的计算输出，得到该起案件用药欺诈行为结果，并安排保险人员进行实际调查，生成调查说明书，将模型的判断结果与人工调查说明书进行比对，从而最终判定该起案件是否存在欺诈行为，最终证明模型的可用性和高效性。

本发明还提供一种基于机器学习的医疗赔付审核装置。参照图2所示，为本发明一实施例提供的基于机器学习的医疗赔付审核装置的内部结构示意图。

在本实施例中，基于机器学***板电脑、便携计算机等终端设备。该基于机器学习的医疗赔付审核装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是基于机器学习的医疗赔付审核装置1的内部存储单元，例如该基于机器学习的医疗赔付审核装置1的硬盘。存储器11在另一些实施例中也可以是基于机器学习的医疗赔付审核装置1的外部存储设备，例如基于机器学习的医疗赔付审核装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括基于机器学习的医疗赔付审核装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于基于机器学习的医疗赔付审核装置1的应用软件及各类数据，例如医疗赔付审核程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行医疗赔付审核程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在基于机器学习的医疗赔付审核装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及医疗赔付审核程序01的基于机器学习的医疗赔付审核装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对基于机器学习的医疗赔付审核装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有医疗赔付审核程序01；处理器12执行存储器11中存储的医疗赔付审核程序01时实现如下步骤：

步骤一、从医学文献数据库中搜索各医学科的医学文献，建立医学文献集数据库，通过使用自然语言处理技术对所述医学文献进行文本挖掘，提取不同病症的用药标准，并将所述用药标准存储在医学诊疗方案库中。

本发明首先从全世界范围内按医学科类，从各个医学文献数据库中收集历史医学文献，建立医学文献集数据库，通过使用自然语言处理技术对医学文献进行文本挖掘，提取不同病症的用药标准，构建医学诊疗方案库存储这些标准，作为后续智能审核医疗赔付的数据支撑。

(1.1)从医学文献的文本中按照从左到右的顺序，从一个字符串的开始位置选择一个最大长度的词长片段与药品语料库进行匹配，判断所述词长片段是否在所述药品语料库中，如果在，则算为一个分词，如果不在，则从右边开始减少一个字符，然后再判断少了一个字符的片段是否在药品语料库中，依次循环，直至剩下单字。

步骤二、从医院***中获取医生开具的各种疾病的医学诊断信息文本，通过OCR及自然语言处理技术，对所述医学诊断信息文本进行识别及文本处理，抓取诊断信息文本的用药情况，添加到所述医学诊疗方案库中。

所述用自然语言处理技术提取其中的用药特征数据的方法可以参照上述步骤二中的描述。

步骤三、建立医疗赔付审核模型，利用所述医学诊疗方案库中的数据作为训练数据，通过机器学习的方法，训练所述医疗赔付审核模型的各参数，生成所述医疗赔付审核模型。

本发明所述医疗赔付审核模型可以是一个支持向量机(Support VectorMachine,SVM)或者随机森林模型等。

步骤四、当有人伤理赔案件发生时，将所述人伤理赔的报销单据通过OCR技术进行识别后，输入到所述医疗赔付审核模型中，判断所述人伤理赔案件是都存在欺诈行为。

可选地，在其他实施例中，所述医疗赔付审核程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述所述医疗赔付审核程序在基于机器学习的医疗赔付审核装置1中的执行过程。

例如，参照图3所示，为本发明基于机器学习的医疗赔付审核装置一实施例中的医疗赔付审核程序01的程序模块示意图，该实施例中，医疗赔付审核程序01可以被分割为数据库建立模块10、模型生成模块20及审核模块30，示例性地：

所述数据库建立模块10用于：从医学文献数据库中搜索各医学科的医学文献，建立医学文献集数据库，通过使用自然语言处理技术对所述医学文献进行文本挖掘，提取不同病症的用药标准，并将所述用药标准存储在医学诊疗方案库中。

所述数据库建立模块10还用于：从医院***中获取医生开具的各种疾病的医学诊断信息文本，通过光学字符识别及自然语言处理技术，对所述医学诊断信息文本进行识别及文本处理，抓取诊断信息文本的用药情况，添加到所述医学诊疗方案库。

所述模型生成模块20用于：建立医疗赔付审核模型，利用所述医学诊疗方案库中的数据作为训练数据，通过机器学习的方法，训练所述医疗赔付审核模型的各参数，生成所述医疗赔付审核模型。

所述审核模块30用于：当有人伤理赔案件发生时，将所述人伤理赔的报销单据通过光学字符识别技术进行识别后，输入到所述医疗赔付审核模型中，判断所述人伤理赔案件是都存在欺诈行为。

上述数据库建立模块10、模型生成模块20及审核模块30等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有医疗赔付审核程序，所述医疗赔付审核程序可被一个或多个处理器执行，以实现如下操作：

从医学文献数据库中搜索各医学科的医学文献，建立医学文献集数据库，通过使用自然语言处理技术对所述医学文献进行文本挖掘，提取不同病症的用药标准，并将所述用药标准存储在医学诊疗方案库中。

从医院***中获取医生开具的各种疾病的医学诊断信息文本，通过光学字符识别及自然语言处理技术，对所述医学诊断信息文本进行识别及文本处理，抓取诊断信息文本的用药情况，添加到所述医学诊疗方案库。

建立医疗赔付审核模型，利用所述医学诊疗方案库中的数据作为训练数据，通过机器学习的方法，训练所述医疗赔付审核模型的各参数，生成所述医疗赔付审核模型。

本发明计算机可读存储介质具体实施方式与上述基于机器学习的医疗赔付审核装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于机器学习的医疗赔付审核方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于机器学习的医疗赔付审核方法，其特征在于，所述通过使用自然语言处理技术对所述医学文献进行文本挖掘，提取不同病症的用药标准，包括：

根据药品知识构建药品语料库；

3.如权利要求2所述的基于机器学习的医疗赔付审核方法，其特征在于，所述词法分析包括对医学文献进行分词、词性标注以及命名实体识别操作；其中，所述分词包括：

4.如权利要求1至3中任意一项所述的基于机器学习的医疗赔付审核方法，其特征在于，所述建立医疗赔付审核模型，利用所述医学诊疗方案库中的数据作为训练数据，通过机器学习的方法，训练所述医疗赔付审核模型的各参数，生成所述医疗赔付审核模型，包括：

5.如权利要求4所述的基于机器学习的医疗赔付审核方法，其特征在于，所述医疗赔付审核模型为支持向量机或者随机森林模型。

6.一种基于机器学习的医疗赔付审核装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的基于机器学习的医疗赔付审核程序，所述基于机器学习的医疗赔付审核程序被所述处理器执行时实现如下步骤：

7.如权利要求6所述的基于机器学习的医疗赔付审核装置，其特征在于，所述通过使用自然语言处理技术对所述医学文献进行文本挖掘，提取不同病症的用药标准，包括：

根据药品知识构建药品语料库；

8.如权利要求7所述的基于机器学习的医疗赔付审核装置，其特征在于，所述词法分析包括对医学文献进行分词、词性标注以及命名实体识别操作；其中，所述分词包括：

9.如权利要求6至8中任意一项所述的基于机器学习的医疗赔付审核装置，其特征在于，所述建立医疗赔付审核模型，利用所述医学诊疗方案库中的数据作为训练数据，通过机器学习的方法，训练所述医疗赔付审核模型的各参数，生成所述医疗赔付审核模型，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于机器学习的医疗赔付审核程序，所述基于机器学习的医疗赔付审核程序可被一个或者多个处理器执行，以实现如权利要求1至5中任一项所述的基于机器学习的医疗赔付审核方法的步骤。