CN110119991A - 基于机器学习的医疗赔付审核方法、装置及存储介质 - Google Patents
基于机器学习的医疗赔付审核方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110119991A CN110119991A CN201910294783.1A CN201910294783A CN110119991A CN 110119991 A CN110119991 A CN 110119991A CN 201910294783 A CN201910294783 A CN 201910294783A CN 110119991 A CN110119991 A CN 110119991A
- Authority
- CN
- China
- Prior art keywords
- medical
- medical treatment
- compensated
- machine learning
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 120
- 238000010801 machine learning Methods 0.000 title claims abstract description 54
- 239000003814 drug Substances 0.000 claims abstract description 110
- 238000012550 audit Methods 0.000 claims abstract description 96
- 229940079593 drug Drugs 0.000 claims abstract description 95
- 238000012549 training Methods 0.000 claims abstract description 40
- 208000011580 syndromic disease Diseases 0.000 claims abstract description 17
- 201000010099 disease Diseases 0.000 claims abstract description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 12
- 238000003058 natural language processing Methods 0.000 claims description 35
- 239000000284 extract Substances 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 18
- 238000012552 review Methods 0.000 claims description 18
- 238000005516 engineering process Methods 0.000 claims description 16
- 238000012015 optical character recognition Methods 0.000 claims description 16
- 238000005065 mining Methods 0.000 claims description 14
- 230000000877 morphologic effect Effects 0.000 claims description 12
- 230000003287 optical effect Effects 0.000 claims description 8
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010067484 Adverse reaction Diseases 0.000 description 1
- 230000006838 adverse reaction Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/20—ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Medicinal Chemistry (AREA)
- Economics (AREA)
- Chemical & Material Sciences (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Multimedia (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及人工智能技术领域,公开了一种基于机器学习的医疗赔付审核方法,该方法包括:从医学文献数据库和医生开具的各种疾病的医学诊断信息文本中提取不同病症的用药标准,将所述用药标准作为训练数据,通过机器学习的方法,训练医疗赔付审核模型,生成所述医疗赔付审核模型,以利用所述医疗赔付审核模型对人伤理赔的报销单据进行审核,从而自动判断所述报销单据是否存在欺诈行为。本发明还提出一种基于机器学习的医疗赔付审核装置以及一种计算机可读存储介质。本发明能够对医疗事故的理赔进行自动审核,以判断是否存在用药过度反欺诈。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于机器学习的医疗赔付审核方法、装置及计算机可读存储介质。
背景技术
用药是根据患者个人的基因、病情、体质、家族遗传病史和药物的成份等做全面情况的检测,准确的选择药物、真正做到“对症下药”,同时以适当的方法、适当的剂量、适当的时间准确用药。注意该药物的禁忌、不良反应、相互作用等。这样就可以做到安全、合理、有效、经济地用药了,但在实际操作中,由于医疗人员的失误或经验不足往往会发生用药过度行为,过于严重甚至导致患者死亡,发生医疗事故,因用药过度发生的医疗事故因目前没有很好的赔偿方案,导致保险公司和受害家庭的利益通常不能得到合理保障。
针对用药过度导致的医疗事故在进行理赔时,保险公司因无专业人员导致理赔过程耗时长、成本高,过度依赖外部等不足,同时当前市场并未有针对此不足的相关用药过度反欺诈方案。
发明内容
本发明提供一种基于机器学习的医疗赔付审核方法、装置及计算机可读存储介质,其主要目的在于提供一种能够对医疗事故的理赔进行自动审核,以判断是否存在用药过度反欺诈。
为实现上述目的,本发明提供的一种基于机器学习的医疗赔付审核方法,包括:
从医学文献数据库中搜索各医学科的医学文献,建立医学文献集数据库,通过使用自然语言处理技术对所述医学文献进行文本挖掘,提取不同病症的用药标准,并将所述用药标准存储在医学诊疗方案库中;
从医院***中获取医生开具的各种疾病的医学诊断信息文本,通过光学字符识别及自然语言处理技术,对所述医学诊断信息文本进行识别及文本处理,抓取诊断信息文本的用药情况,添加到所述医学诊疗方案库;
建立医疗赔付审核模型,利用所述医学诊疗方案库中的数据作为训练数据,通过机器学习的方法,训练所述医疗赔付审核模型的各参数,生成所述医疗赔付审核模型;及
当有人伤理赔案件发生时,将所述人伤理赔的报销单据通过光学字符识别技术进行识别后,输入到所述医疗赔付审核模型中,判断所述人伤理赔案件是都存在欺诈行为。
可选地,所述通过使用自然语言处理技术对所述医学文献进行文本挖掘,提取不同病症的用药标准,包括:
根据药品知识构建药品语料库;
利用自然语言处理技术,基于所述药品语料库,对所述医学文献进行词法分析、依存句法分析、观点抽取,提取不同病症的用药标准。
可选地,所述词法分析包括对医学文献进行分词、词性标注以及命名实体识别操作;其中,所述分词包括:
(1)从医学文献的文本中按照从左到右的顺序,从一个字符串的开始位置选择一个最大长度的词长片段与所述药品语料库进行匹配,判断所述词长片段是否在所述药品语料库中,如果在,则算为一个分词,如果不在,则从右边开始减少一个字符,然后再判断少了一个字符的片段是否在药品语料库中,依次循环,直至剩下单字;
(2)从所述医学文献的文本的剩余的部分序列再次按照上述的步骤(1)所述方法进行分词,直到整个文本完成分词。
可选地,所述建立医疗赔付审核模型,利用所述医学诊疗方案库中的数据作为训练数据,通过机器学习的方法,训练所述医疗赔付审核模型的各参数,生成所述医疗赔付审核模型,包括:
将所述医学诊疗方案库的用药标准作为训练数据,输入建立的医疗赔付审核模型中,通过数据反复迭代计算,训练医疗赔付审核模型中的各参数,并通过不断调整参数,得到所述医疗赔付审核模型。
可选地,所述医疗赔付审核模型为支持向量机或者随机森林模型。
此外,为实现上述目的,本发明还提供一种基于机器学习的医疗赔付审核装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的医疗赔付审核程序,所述医疗赔付审核程序被所述处理器执行时实现如下步骤:
从医学文献数据库中搜索各医学科的医学文献,建立医学文献集数据库,通过使用自然语言处理技术对所述医学文献进行文本挖掘,提取不同病症的用药标准,并将所述用药标准存储在医学诊疗方案库中;
从医院***中获取医生开具的各种疾病的医学诊断信息文本,通过光学字符识别及自然语言处理技术,对所述医学诊断信息文本进行识别及文本处理,抓取诊断信息文本的用药情况,添加到所述医学诊疗方案库;
建立医疗赔付审核模型,利用所述医学诊疗方案库中的数据作为训练数据,通过机器学习的方法,训练所述医疗赔付审核模型的各参数,生成所述医疗赔付审核模型;及
当有人伤理赔案件发生时,将所述人伤理赔的报销单据通过光学字符识别技术进行识别后,输入到所述医疗赔付审核模型中,判断所述人伤理赔案件是都存在欺诈行为。
可选地,所述通过使用自然语言处理技术对所述医学文献进行文本挖掘,提取不同病症的用药标准,包括:
根据药品知识构建药品语料库;
利用自然语言处理技术,基于所述药品语料库,对所述医学文献进行词法分析、依存句法分析、观点抽取,提取不同病症的用药标准。
可选地,所述词法分析包括对医学文献进行分词、词性标注以及命名实体识别操作;其中,所述分词包括:
(1)从医学文献的文本中按照从左到右的顺序,从一个字符串的开始位置选择一个最大长度的词长片段与所述药品语料库进行匹配,判断所述词长片段是否在所述药品语料库中,如果在,则算为一个分词,如果不在,则从右边开始减少一个字符,然后再判断少了一个字符的片段是否在药品语料库中,依次循环,直至剩下单字;
(2)从所述医学文献的文本的剩余的部分序列再次按照上述的步骤(1)所述方法进行分词,直到整个文本完成分词。
可选地,所述建立医疗赔付审核模型,利用所述医学诊疗方案库中的数据作为训练数据,通过机器学习的方法,训练所述医疗赔付审核模型的各参数,生成所述医疗赔付审核模型,包括:
将所述医学诊疗方案库的用药标准作为训练数据,输入建立的医疗赔付审核模型中,通过数据反复迭代计算,训练医疗赔付审核模型中的各参数,并通过不断调整参数,得到所述医疗赔付审核模型。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有医疗赔付审核程序,所述医疗赔付审核程序可被一个或者多个处理器执行,以实现如上所述的基于机器学习的医疗赔付审核方法的步骤。
本发明提出的基于机器学习的医疗赔付审核方法、装置及计算机可读存储介质从医学文献数据库和医生开具的各种疾病的医学诊断信息文本中提取不同病症的用药标准,将所述用药标准作为训练数据,通过机器学习的方法,训练医疗赔付审核模型的各参数,生成所述医疗赔付审核模型,以对人伤理赔的报销单据进行审核,从而自动判断所述报销单据是否存在欺诈行为。
附图说明
图1为本发明一实施例提供的基于机器学习的医疗赔付审核方法的流程示意图;
图2为本发明一实施例提供的基于机器学习的医疗赔付审核装置的内部结构示意图;
图3为本发明一实施例提供的基于机器学习的医疗赔付审核装置中医疗赔付审核程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于机器学习的医疗赔付审核方法。参照图1所示,为本发明一实施例提供的基于机器学习的医疗赔付审核方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,所述基于机器学习的医疗赔付审核方法包括:
S10、从医学文献数据库中搜索各医学科的医学文献,建立医学文献集数据库,通过使用自然语言处理技术对所述医学文献进行文本挖掘,提取不同病症的用药标准,并将所述用药标准存储在医学诊疗方案库中。
本发明首先从全世界范围内按医学科类,从各个医学文献数据库中收集历史医学文献,建立医学文献集数据库,再通过使用自然语言处理技术对医学文献进行文本挖掘,提取不同病症的用药标准,构建医学诊疗方案库存储这些标准,作为后续智能审核医疗赔付的数据支撑。
所述自然语言处理(Natural Language Processing,NPL)技术是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。在自然语言处理时最核心的是自然语言理解,即计算机源于人为或自然语言输入的意思,和其他涉及到自然语言生成。
本发明较佳实施例首先根据药品知识构建药品语料库,再利用所述自然语言处理技术,基于所述药品语料库,对所述医学文献进行词法分析、依存句法分析、观点抽取等步骤,完成医学文献中的用药标准抽取,从而构建所述医学诊疗方案库。
词法分析用于对医学文献进行分词、词性标注、命名实体识别等操作。
所述分词是基于所述基于语料库,将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列的过程,包括步骤:
(1.1)从医学文献的文本中按照从左到右的顺序,从一个字符串的开始位置选择一个最大长度的词长片段与药品语料库进行匹配,判断所述词长片段是否在所述药品语料库中,如果在,则算为一个分词,如果不是,则从右边开始减少一个字符,然后再判断少了一个字符的片段是否在药品语料库中,依次循环,直至剩下单字。
(1.2)从文本的剩余的部分序列再次按照上述的步骤(1)所述方法进行分词,直到整个文本完成分词。
所述词性标注(Part-of-Speech tagging或POS tagging)是指为自然语言文本中的每个词汇赋予一个词性的过程。本发明所述词性标注可以采用特定的词性标注算法实现,如隐马尔可夫模型(Hidden Markov Model,HMM)、条件随机场(Conditional randomfields,CRFs)等。
命名实体识别(Named Entity Recognition简称NER),即"专名识别",是指识别自然语言文本中具有特定意义的实体,主要包括人名、地名、机构名、产品的名字、药物名称、时间日期等等。
所述依存句法分析是利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系),并用树状结构来表示整句的的结构(如主谓宾、定状补等)。
所述观点抽取功能是自动分析文本中的药品品名、剂量、服用方式等,并对这些特征贴标签,贴好标签后的特征即存储到医学诊疗方案库中。此步骤主要使用的是单条观点抽取方法,一般情况下,医生会根据病人实际病情,即具体主要病症进行诊断并开出处方,因此选择了较为适宜的单条观点抽取方法。
S20、从医院***中获取医生开具的各种疾病的医学诊断信息文本,通过OCR及自然语言处理技术,对所述医学诊断信息文本进行识别及文本处理,抓取诊断信息文本的用药情况,添加到所述医学诊疗方案库中。
为了实现训练数据库的灵活动态性和实际可用性,本发明将现实医学诊疗单的医学诊断信息加入医学诊疗方案库,扩充方案库,使得训练数据更具有动态更新性、信息完备性和现实可用性。
因医生开具的各种疾病的医学诊断信息通常为手写版和电子版,对于手写版,本发明首先用光学字符识别(Optical Character Recognition,OCR)技术对其进行识别,然后用自然语言处理技术提取其中的用药特征数据;针对电子版,直接用自然语言处理技术提取其中的用药特征数据。
所述OCR技术通过扫描等光学输入方式将手写版的医学诊断信息中的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。
所述用自然语言处理技术提取其中的用药特征数据的方法可以参照上述步骤S20中的描述。
S30、建立医疗赔付审核模型,利用所述医学诊疗方案库中的数据作为训练数据,通过机器学习的方法,训练所述医疗赔付审核模型的各参数,生成所述医疗赔付审核模型。
在上述两步骤建立好的医学诊疗方案库的基础上,本发明通过机器学习的方法将医学诊疗方案库的用药标准等特征数据作为训练数据,输入建立的医疗赔付审核模型中,通过上万次的数据反复迭代计算,训练医疗赔付审核模型中的各参数,通过不断调整参数,得到最佳的效果,最终输出实用性更高效率更优质量更优的医疗赔付审核模型。
本发明所述医疗赔付审核模型可以是一个支持向量机(Support VectorMachine,SVM)或者随机森林等。
S40、当有人伤理赔案件发生时,将所述人伤理赔的报销单据通过OCR技术进行识别后,输入到所述医疗赔付审核模型中,判断所述人伤理赔案件是都存在用药欺诈行为。
为了进一步验证所述医疗赔付审核模型的现实可用性,本发明将现实中发生的人伤理赔案件的报销单和真实诊疗单作为试验数据输入已经训练建立好的医疗赔付审核模型中,通过模型的计算输出,得到该起案件用药欺诈行为结果,并安排保险人员进行实际调查,生成调查说明书,将模型的判断结果与人工调查说明书进行比对,从而最终判定该起案件是否存在欺诈行为,最终证明模型的可用性和高效性。
本发明还提供一种基于机器学习的医疗赔付审核装置。参照图2所示,为本发明一实施例提供的基于机器学习的医疗赔付审核装置的内部结构示意图。
在本实施例中,基于机器学***板电脑、便携计算机等终端设备。该基于机器学习的医疗赔付审核装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是基于机器学习的医疗赔付审核装置1的内部存储单元,例如该基于机器学习的医疗赔付审核装置1的硬盘。存储器11在另一些实施例中也可以是基于机器学习的医疗赔付审核装置1的外部存储设备,例如基于机器学习的医疗赔付审核装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括基于机器学习的医疗赔付审核装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于基于机器学习的医疗赔付审核装置1的应用软件及各类数据,例如医疗赔付审核程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行医疗赔付审核程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在基于机器学习的医疗赔付审核装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及医疗赔付审核程序01的基于机器学习的医疗赔付审核装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对基于机器学习的医疗赔付审核装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有医疗赔付审核程序01;处理器12执行存储器11中存储的医疗赔付审核程序01时实现如下步骤:
步骤一、从医学文献数据库中搜索各医学科的医学文献,建立医学文献集数据库,通过使用自然语言处理技术对所述医学文献进行文本挖掘,提取不同病症的用药标准,并将所述用药标准存储在医学诊疗方案库中。
本发明首先从全世界范围内按医学科类,从各个医学文献数据库中收集历史医学文献,建立医学文献集数据库,通过使用自然语言处理技术对医学文献进行文本挖掘,提取不同病症的用药标准,构建医学诊疗方案库存储这些标准,作为后续智能审核医疗赔付的数据支撑。
所述自然语言处理(Natural Language Processing,NPL)技术是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。在自然语言处理时最核心的是自然语言理解,即计算机源于人为或自然语言输入的意思,和其他涉及到自然语言生成。
本发明较佳实施例首先根据药品知识构建药品语料库,再利用所述自然语言处理技术,基于所述药品语料库,对所述医学文献进行词法分析、依存句法分析、观点抽取等步骤,完成医学文献中的用药标准抽取,从而构建所述医学诊疗方案库。
词法分析用于对医学文献进行分词、词性标注、命名实体识别等操作。
所述分词是基于所述基于语料库,将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列的过程,包括步骤:
(1.1)从医学文献的文本中按照从左到右的顺序,从一个字符串的开始位置选择一个最大长度的词长片段与药品语料库进行匹配,判断所述词长片段是否在所述药品语料库中,如果在,则算为一个分词,如果不在,则从右边开始减少一个字符,然后再判断少了一个字符的片段是否在药品语料库中,依次循环,直至剩下单字。
(1.2)从文本的剩余的部分序列再次按照上述的步骤(1)所述方法进行分词,直到整个文本完成分词。
所述词性标注(Part-of-Speech tagging或POS tagging)是指为自然语言文本中的每个词汇赋予一个词性的过程。本发明所述词性标注可以采用特定的词性标注算法实现,如隐马尔可夫模型(Hidden Markov Model,HMM)、条件随机场(Conditional randomfields,CRFs)等。
命名实体识别(Named Entity Recognition简称NER),即"专名识别",是指识别自然语言文本中具有特定意义的实体,主要包括人名、地名、机构名、产品的名字、药物名称、时间日期等等。
所述依存句法分析是利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系),并用树状结构来表示整句的的结构(如主谓宾、定状补等)。
所述观点抽取功能是自动分析文本中的药品品名、剂量、服用方式等,并对这些特征贴标签,贴好标签后的特征即存储到医学诊疗方案库中。此步骤主要使用的是单条观点抽取方法,一般情况下,医生会根据病人实际病情,即具体主要病症进行诊断并开出处方,因此选择了较为适宜的单条观点抽取方法。
步骤二、从医院***中获取医生开具的各种疾病的医学诊断信息文本,通过OCR及自然语言处理技术,对所述医学诊断信息文本进行识别及文本处理,抓取诊断信息文本的用药情况,添加到所述医学诊疗方案库中。
为了实现训练数据库的灵活动态性和实际可用性,本发明将现实医学诊疗单的医学诊断信息加入医学诊疗方案库,扩充方案库,使得训练数据更具有动态更新性、信息完备性和现实可用性。
因医生开具的各种疾病的医学诊断信息通常为手写版和电子版,对于手写版,本发明首先用光学字符识别(Optical Character Recognition,OCR)技术对其进行识别,然后用自然语言处理技术提取其中的用药特征数据;针对电子版,直接用自然语言处理技术提取其中的用药特征数据。
所述OCR技术通过扫描等光学输入方式将手写版的医学诊断信息中的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。
所述用自然语言处理技术提取其中的用药特征数据的方法可以参照上述步骤二中的描述。
步骤三、建立医疗赔付审核模型,利用所述医学诊疗方案库中的数据作为训练数据,通过机器学习的方法,训练所述医疗赔付审核模型的各参数,生成所述医疗赔付审核模型。
在上述两步骤建立好的医学诊疗方案库的基础上,本发明通过机器学习的方法将医学诊疗方案库的用药标准等特征数据作为训练数据,输入建立的医疗赔付审核模型中,通过上万次的数据反复迭代计算,训练医疗赔付审核模型中的各参数,通过不断调整参数,得到最佳的效果,最终输出实用性更高效率更优质量更优的医疗赔付审核模型。
本发明所述医疗赔付审核模型可以是一个支持向量机(Support VectorMachine,SVM)或者随机森林模型等。
步骤四、当有人伤理赔案件发生时,将所述人伤理赔的报销单据通过OCR技术进行识别后,输入到所述医疗赔付审核模型中,判断所述人伤理赔案件是都存在欺诈行为。
为了进一步验证所述医疗赔付审核模型的现实可用性,本发明将现实中发生的人伤理赔案件的报销单和真实诊疗单作为试验数据输入已经训练建立好的医疗赔付审核模型中,通过模型的计算输出,得到该起案件用药欺诈行为结果,并安排保险人员进行实际调查,生成调查说明书,将模型的判断结果与人工调查说明书进行比对,从而最终判定该起案件是否存在欺诈行为,最终证明模型的可用性和高效性。
可选地,在其他实施例中,所述医疗赔付审核程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述所述医疗赔付审核程序在基于机器学习的医疗赔付审核装置1中的执行过程。
例如,参照图3所示,为本发明基于机器学习的医疗赔付审核装置一实施例中的医疗赔付审核程序01的程序模块示意图,该实施例中,医疗赔付审核程序01可以被分割为数据库建立模块10、模型生成模块20及审核模块30,示例性地:
所述数据库建立模块10用于:从医学文献数据库中搜索各医学科的医学文献,建立医学文献集数据库,通过使用自然语言处理技术对所述医学文献进行文本挖掘,提取不同病症的用药标准,并将所述用药标准存储在医学诊疗方案库中。
所述数据库建立模块10还用于:从医院***中获取医生开具的各种疾病的医学诊断信息文本,通过光学字符识别及自然语言处理技术,对所述医学诊断信息文本进行识别及文本处理,抓取诊断信息文本的用药情况,添加到所述医学诊疗方案库。
所述模型生成模块20用于:建立医疗赔付审核模型,利用所述医学诊疗方案库中的数据作为训练数据,通过机器学习的方法,训练所述医疗赔付审核模型的各参数,生成所述医疗赔付审核模型。
所述审核模块30用于:当有人伤理赔案件发生时,将所述人伤理赔的报销单据通过光学字符识别技术进行识别后,输入到所述医疗赔付审核模型中,判断所述人伤理赔案件是都存在欺诈行为。
上述数据库建立模块10、模型生成模块20及审核模块30等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有医疗赔付审核程序,所述医疗赔付审核程序可被一个或多个处理器执行,以实现如下操作:
从医学文献数据库中搜索各医学科的医学文献,建立医学文献集数据库,通过使用自然语言处理技术对所述医学文献进行文本挖掘,提取不同病症的用药标准,并将所述用药标准存储在医学诊疗方案库中。
从医院***中获取医生开具的各种疾病的医学诊断信息文本,通过光学字符识别及自然语言处理技术,对所述医学诊断信息文本进行识别及文本处理,抓取诊断信息文本的用药情况,添加到所述医学诊疗方案库。
建立医疗赔付审核模型,利用所述医学诊疗方案库中的数据作为训练数据,通过机器学习的方法,训练所述医疗赔付审核模型的各参数,生成所述医疗赔付审核模型。
当有人伤理赔案件发生时,将所述人伤理赔的报销单据通过光学字符识别技术进行识别后,输入到所述医疗赔付审核模型中,判断所述人伤理赔案件是都存在欺诈行为。
本发明计算机可读存储介质具体实施方式与上述基于机器学习的医疗赔付审核装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于机器学习的医疗赔付审核方法,其特征在于,所述方法包括:
从医学文献数据库中搜索各医学科的医学文献,建立医学文献集数据库,通过使用自然语言处理技术对所述医学文献进行文本挖掘,提取不同病症的用药标准,并将所述用药标准存储在医学诊疗方案库中;
从医院***中获取医生开具的各种疾病的医学诊断信息文本,通过光学字符识别及自然语言处理技术,对所述医学诊断信息文本进行识别及文本处理,抓取诊断信息文本的用药情况,添加到所述医学诊疗方案库;
建立医疗赔付审核模型,利用所述医学诊疗方案库中的数据作为训练数据,通过机器学习的方法,训练所述医疗赔付审核模型的各参数,生成所述医疗赔付审核模型;及
当有人伤理赔案件发生时,将所述人伤理赔的报销单据通过光学字符识别技术进行识别后,输入到所述医疗赔付审核模型中,判断所述人伤理赔案件是都存在欺诈行为。
2.如权利要求1所述的基于机器学习的医疗赔付审核方法,其特征在于,所述通过使用自然语言处理技术对所述医学文献进行文本挖掘,提取不同病症的用药标准,包括:
根据药品知识构建药品语料库;
利用自然语言处理技术,基于所述药品语料库,对所述医学文献进行词法分析、依存句法分析、观点抽取,提取不同病症的用药标准。
3.如权利要求2所述的基于机器学习的医疗赔付审核方法,其特征在于,所述词法分析包括对医学文献进行分词、词性标注以及命名实体识别操作;其中,所述分词包括:
(1)从医学文献的文本中按照从左到右的顺序,从一个字符串的开始位置选择一个最大长度的词长片段与所述药品语料库进行匹配,判断所述词长片段是否在所述药品语料库中,如果在,则算为一个分词,如果不在,则从右边开始减少一个字符,然后再判断少了一个字符的片段是否在药品语料库中,依次循环,直至剩下单字;
(2)从所述医学文献的文本的剩余的部分序列再次按照上述的步骤(1)所述方法进行分词,直到整个文本完成分词。
4.如权利要求1至3中任意一项所述的基于机器学习的医疗赔付审核方法,其特征在于,所述建立医疗赔付审核模型,利用所述医学诊疗方案库中的数据作为训练数据,通过机器学习的方法,训练所述医疗赔付审核模型的各参数,生成所述医疗赔付审核模型,包括:
将所述医学诊疗方案库的用药标准作为训练数据,输入建立的医疗赔付审核模型中,通过数据反复迭代计算,训练医疗赔付审核模型中的各参数,并通过不断调整参数,得到所述医疗赔付审核模型。
5.如权利要求4所述的基于机器学习的医疗赔付审核方法,其特征在于,所述医疗赔付审核模型为支持向量机或者随机森林模型。
6.一种基于机器学习的医疗赔付审核装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的基于机器学习的医疗赔付审核程序,所述基于机器学习的医疗赔付审核程序被所述处理器执行时实现如下步骤:
从医学文献数据库中搜索各医学科的医学文献,建立医学文献集数据库,通过使用自然语言处理技术对所述医学文献进行文本挖掘,提取不同病症的用药标准,并将所述用药标准存储在医学诊疗方案库中;
从医院***中获取医生开具的各种疾病的医学诊断信息文本,通过光学字符识别及自然语言处理技术,对所述医学诊断信息文本进行识别及文本处理,抓取诊断信息文本的用药情况,添加到所述医学诊疗方案库;
建立医疗赔付审核模型,利用所述医学诊疗方案库中的数据作为训练数据,通过机器学习的方法,训练所述医疗赔付审核模型的各参数,生成所述医疗赔付审核模型;及
当有人伤理赔案件发生时,将所述人伤理赔的报销单据通过光学字符识别技术进行识别后,输入到所述医疗赔付审核模型中,判断所述人伤理赔案件是都存在欺诈行为。
7.如权利要求6所述的基于机器学习的医疗赔付审核装置,其特征在于,所述通过使用自然语言处理技术对所述医学文献进行文本挖掘,提取不同病症的用药标准,包括:
根据药品知识构建药品语料库;
利用自然语言处理技术,基于所述药品语料库,对所述医学文献进行词法分析、依存句法分析、观点抽取,提取不同病症的用药标准。
8.如权利要求7所述的基于机器学习的医疗赔付审核装置,其特征在于,所述词法分析包括对医学文献进行分词、词性标注以及命名实体识别操作;其中,所述分词包括:
(1)从医学文献的文本中按照从左到右的顺序,从一个字符串的开始位置选择一个最大长度的词长片段与所述药品语料库进行匹配,判断所述词长片段是否在所述药品语料库中,如果在,则算为一个分词,如果不在,则从右边开始减少一个字符,然后再判断少了一个字符的片段是否在药品语料库中,依次循环,直至剩下单字;
(2)从所述医学文献的文本的剩余的部分序列再次按照上述的步骤(1)所述方法进行分词,直到整个文本完成分词。
9.如权利要求6至8中任意一项所述的基于机器学习的医疗赔付审核装置,其特征在于,所述建立医疗赔付审核模型,利用所述医学诊疗方案库中的数据作为训练数据,通过机器学习的方法,训练所述医疗赔付审核模型的各参数,生成所述医疗赔付审核模型,包括:
将所述医学诊疗方案库的用药标准作为训练数据,输入建立的医疗赔付审核模型中,通过数据反复迭代计算,训练医疗赔付审核模型中的各参数,并通过不断调整参数,得到所述医疗赔付审核模型。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于机器学习的医疗赔付审核程序,所述基于机器学习的医疗赔付审核程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的基于机器学习的医疗赔付审核方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910294783.1A CN110119991A (zh) | 2019-04-12 | 2019-04-12 | 基于机器学习的医疗赔付审核方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910294783.1A CN110119991A (zh) | 2019-04-12 | 2019-04-12 | 基于机器学习的医疗赔付审核方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110119991A true CN110119991A (zh) | 2019-08-13 |
Family
ID=67521019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910294783.1A Pending CN110119991A (zh) | 2019-04-12 | 2019-04-12 | 基于机器学习的医疗赔付审核方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110119991A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866836A (zh) * | 2019-11-14 | 2020-03-06 | 支付宝(杭州)信息技术有限公司 | 计算机执行的医疗保险立案审核方法和装置 |
CN111382279A (zh) * | 2020-03-06 | 2020-07-07 | 中国建设银行股份有限公司 | 审单方法和装置 |
CN111914095A (zh) * | 2020-06-20 | 2020-11-10 | 武汉海云健康科技股份有限公司 | 一种药品相互作用关系抽取方法及*** |
CN112507141A (zh) * | 2020-12-01 | 2021-03-16 | 平安医疗健康管理股份有限公司 | 调查任务生成方法、装置、计算机设备及存储介质 |
CN112528887A (zh) * | 2020-12-16 | 2021-03-19 | 支付宝(杭州)信息技术有限公司 | 审核方法及装置 |
CN112632995A (zh) * | 2020-12-02 | 2021-04-09 | 北京健康之家科技有限公司 | 用户服务请求处理方法及装置、服务器、存储介质 |
CN112712436A (zh) * | 2020-12-31 | 2021-04-27 | 天津幸福生命科技有限公司 | 医疗数据处理方法、装置、介质及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7263492B1 (en) * | 2002-02-15 | 2007-08-28 | Fair Isaac Corporation | Sequencing models of healthcare related states |
US20160267484A1 (en) * | 2014-03-25 | 2016-09-15 | Medicfp LLC | Medical data collection and fraud prediction system and method |
CN107871285A (zh) * | 2017-12-06 | 2018-04-03 | 和金在线(北京)科技有限公司 | 一种健康保险赔欺诈及滥用的侦测方法和*** |
CN107895168A (zh) * | 2017-10-13 | 2018-04-10 | 平安科技(深圳)有限公司 | 数据处理的方法、数据处理的装置及计算机可读存储介质 |
CN107909299A (zh) * | 2017-12-11 | 2018-04-13 | 凯泰铭科技(北京)有限公司 | 人伤理赔数据风险检测方法和*** |
CN108305175A (zh) * | 2017-12-30 | 2018-07-20 | 上海栈略数据技术有限公司 | 基于智能医学知识图谱的保险理赔风控辅助审核*** |
CN109165849A (zh) * | 2018-08-27 | 2019-01-08 | 众安信息技术服务有限公司 | 风险评估方法和装置 |
CN109359669A (zh) * | 2018-09-10 | 2019-02-19 | 平安科技(深圳)有限公司 | 医保报销异常检测方法、装置、计算机设备和存储介质 |
-
2019
- 2019-04-12 CN CN201910294783.1A patent/CN110119991A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7263492B1 (en) * | 2002-02-15 | 2007-08-28 | Fair Isaac Corporation | Sequencing models of healthcare related states |
US20160267484A1 (en) * | 2014-03-25 | 2016-09-15 | Medicfp LLC | Medical data collection and fraud prediction system and method |
CN107895168A (zh) * | 2017-10-13 | 2018-04-10 | 平安科技(深圳)有限公司 | 数据处理的方法、数据处理的装置及计算机可读存储介质 |
CN107871285A (zh) * | 2017-12-06 | 2018-04-03 | 和金在线(北京)科技有限公司 | 一种健康保险赔欺诈及滥用的侦测方法和*** |
CN107909299A (zh) * | 2017-12-11 | 2018-04-13 | 凯泰铭科技(北京)有限公司 | 人伤理赔数据风险检测方法和*** |
CN108305175A (zh) * | 2017-12-30 | 2018-07-20 | 上海栈略数据技术有限公司 | 基于智能医学知识图谱的保险理赔风控辅助审核*** |
CN109165849A (zh) * | 2018-08-27 | 2019-01-08 | 众安信息技术服务有限公司 | 风险评估方法和装置 |
CN109359669A (zh) * | 2018-09-10 | 2019-02-19 | 平安科技(深圳)有限公司 | 医保报销异常检测方法、装置、计算机设备和存储介质 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866836A (zh) * | 2019-11-14 | 2020-03-06 | 支付宝(杭州)信息技术有限公司 | 计算机执行的医疗保险立案审核方法和装置 |
CN110866836B (zh) * | 2019-11-14 | 2022-12-06 | 支付宝(杭州)信息技术有限公司 | 计算机执行的医疗保险立案审核方法和装置 |
CN111382279A (zh) * | 2020-03-06 | 2020-07-07 | 中国建设银行股份有限公司 | 审单方法和装置 |
CN111914095A (zh) * | 2020-06-20 | 2020-11-10 | 武汉海云健康科技股份有限公司 | 一种药品相互作用关系抽取方法及*** |
CN111914095B (zh) * | 2020-06-20 | 2024-04-19 | 武汉海云健康科技股份有限公司 | 一种药品相互作用关系抽取方法及*** |
CN112507141A (zh) * | 2020-12-01 | 2021-03-16 | 平安医疗健康管理股份有限公司 | 调查任务生成方法、装置、计算机设备及存储介质 |
CN112632995A (zh) * | 2020-12-02 | 2021-04-09 | 北京健康之家科技有限公司 | 用户服务请求处理方法及装置、服务器、存储介质 |
CN112528887A (zh) * | 2020-12-16 | 2021-03-19 | 支付宝(杭州)信息技术有限公司 | 审核方法及装置 |
CN112528887B (zh) * | 2020-12-16 | 2022-10-28 | 蚂蚁胜信(上海)信息技术有限公司 | 审核方法及装置 |
CN112712436A (zh) * | 2020-12-31 | 2021-04-27 | 天津幸福生命科技有限公司 | 医疗数据处理方法、装置、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119991A (zh) | 基于机器学习的医疗赔付审核方法、装置及存储介质 | |
US20220020495A1 (en) | Methods and apparatus for providing guidance to medical professionals | |
CN109299472B (zh) | 文本数据处理方法、装置、电子设备及计算机可读介质 | |
Ross et al. | The HMO research network virtual data warehouse: a public data model to support collaboration | |
JP2022526242A (ja) | テキストドキュメントのアノテーションのための方法、装置、およびシステム | |
Meystre et al. | Automatic trial eligibility surveillance based on unstructured clinical data | |
US20140365239A1 (en) | Methods and apparatus for facilitating guideline compliance | |
US20200387635A1 (en) | Anonymization of heterogenous clinical reports | |
Dias et al. | Evidence synthesis for decision making 6: embedding evidence synthesis in probabilistic cost-effectiveness analysis | |
WO2022035018A1 (ko) | 클리닉 매니저 서비스 플랫폼 및 이를 제공하는 시스템 | |
CN105765588B (zh) | 用于临床历史片断的迭代构建的***和方法 | |
US20200074300A1 (en) | Artificial-intelligence-augmented classification system and method for tender search and analysis | |
WO2014197669A1 (en) | Methods and apparatus for providing guidance to medical professionals | |
US20190272907A1 (en) | Automated identification of potential drug safety events | |
US20140350965A1 (en) | Systems and methods for extracting specified data from narrative text | |
CN111753089A (zh) | 话题聚类方法、装置、电子设备及存储介质 | |
Noor et al. | Deployment of a free-text analytics platform at a UK national health service research hospital: Cogstack at University College London Hospitals | |
CN113627797A (zh) | 入职员工画像生成方法、装置、计算机设备及存储介质 | |
Ozonoff et al. | Electronic surveillance of patient safety events using natural language processing | |
CN114003704A (zh) | 指定标签客群的创建方法、装置、电子设备及存储介质 | |
CN107910066A (zh) | 病历评估方法、装置、电子设备及存储介质 | |
Kanagasabai et al. | A workflow for mutation extraction and structure annotation | |
Chirila et al. | Improving the prescription process information support with structured medical prospectuses using neural networks | |
CN114676307A (zh) | 基于用户检索的排序模型训练方法、装置、设备及介质 | |
Magoc et al. | Generalizability and portability of natural language processing system to extract individual social risk factors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190813 |