CN112016302B - 分解住院行为的识别方法、装置、电子设备及存储介质 - Google Patents
分解住院行为的识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112016302B CN112016302B CN202010768490.5A CN202010768490A CN112016302B CN 112016302 B CN112016302 B CN 112016302B CN 202010768490 A CN202010768490 A CN 202010768490A CN 112016302 B CN112016302 B CN 112016302B
- Authority
- CN
- China
- Prior art keywords
- hospitalization
- behavior
- information
- item information
- charging item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 274
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 149
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 61
- 238000001914 filtration Methods 0.000 claims description 24
- 230000000694 effects Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 5
- 239000003814 drug Substances 0.000 description 18
- 239000000243 solution Substances 0.000 description 17
- 229940079593 drug Drugs 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 8
- 201000010099 disease Diseases 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- 238000001990 intravenous administration Methods 0.000 description 7
- 238000001802 infusion Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 230000000474 nursing effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- MQTOSJVFKKJCRP-BICOPXKESA-N azithromycin Chemical compound O([C@@H]1[C@@H](C)C(=O)O[C@@H]([C@@]([C@H](O)[C@@H](C)N(C)C[C@H](C)C[C@@](C)(O)[C@H](O[C@H]2[C@@H]([C@H](C[C@@H](C)O2)N(C)C)O)[C@H]1C)(C)O)CC)[C@H]1C[C@@](C)(OC)[C@@H](O)[C@H](C)O1 MQTOSJVFKKJCRP-BICOPXKESA-N 0.000 description 4
- 229960004099 azithromycin Drugs 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000001356 surgical procedure Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 229930182555 Penicillin Natural products 0.000 description 2
- JGSARLDLIJGVTE-MBNYWOFBSA-N Penicillin G Chemical compound N([C@H]1[C@H]2SC([C@@H](N2C1=O)C(O)=O)(C)C)C(=O)CC1=CC=CC=C1 JGSARLDLIJGVTE-MBNYWOFBSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004159 blood analysis Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000003978 infusion fluid Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 229940049954 penicillin Drugs 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Accounting & Taxation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- Economics (AREA)
- Computer Security & Cryptography (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明实施例提供一种分解住院行为的识别方法、装置、电子设备及存储介质;方法包括:获取目标患者的第一次住院行为与第二次住院行为的信息;根据第一次住院行为的费用信息得到第一次住院行为的费用特征向量,根据第二次住院行为的费用信息得到第二次住院行为的费用特征向量;根据所述第一次住院行为的费用特征向量以及所述第二次住院行为的费用特征向量,判断所述第一次住院行为与第二次住院行为是否为疑似分解住院行为。本发明实施例实现了分解住院行为的自动识别,较传统的人工方法不仅执行效率高,而且识别准确率也更高。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种分解住院行为的识别方法、装置、电子设备及存储介质。
背景技术
“分解住院”是指医院在参保人尚未痊愈的前提下,为病人办理多次出院、住院手续以获取更多报销费用的一种医保基金欺诈行为。
现有技术中对分解住院行为的识别主要依靠民间线索举报和简单的规则筛查,这两种方式都是提供了一个覆盖度较小,且准确度较低的可疑线索,且由此带来的专家审查工作量较大且最终确认的打击面较小,使得医保基金管理部门查找和打击此类病例工作效率低、准确度低且成本高。
发明内容
针对现有技术存在的问题,本发明实施例提供一种分解住院行为的识别方法、装置、电子设备及存储介质。
本发明实施例提供一种分解住院行为的识别方法,包括:
获取目标患者的第一次住院行为与第二次住院行为的信息;其中,所述第一次住院行为与第二次住院行为是目标患者的两次时间相邻的住院行为,且所述第一次住院行为的发生时间在所述第二次住院行为的发生时间之前;所述信息包括费用信息;
根据第一次住院行为的费用信息得到第一次住院行为的费用特征向量,根据第二次住院行为的费用信息得到第二次住院行为的费用特征向量;
根据所述第一次住院行为的费用特征向量以及所述第二次住院行为的费用特征向量,判断所述第一次住院行为与第二次住院行为是否为疑似分解住院行为。
上述技术方案中,所述信息包括时间信息;
相应的,在获取目标患者的第一次住院行为与第二次住院行为的信息的步骤之后,方法还包括:
根据所述第一次住院行为与第二次住院行为的时间信息,滤除不属于分解住院行为的所述第一次住院行为与第二次住院行为。
上述技术方案中,所述根据所述第一次住院行为与第二次住院行为的时间信息,滤除不属于分解住院行为的所述第一次住院行为与第二次住院行为,包括:
计算所述第一次住院行为与所述第二次住院行为的时间间隔,当所述时间间隔大于或等于预设的时间间隔阈值时,所述第一次住院行为与所述第二次住院行为不属于分解住院行为,滤除所述第一次住院行为与所述第二次住院行为;
和/或,
根据所述第一次住院行为与第二次住院行为的时间信息,判断所述第一次住院行为与所述第二次住院行为在时间上存在交叉现象,则所述第一次住院行为与所述第二次住院行为不属于分解住院行为,滤除所述第一次住院行为与所述第二次住院行为。
上述技术方案中,所述信息包括医疗机构信息;
相应的,在获取目标患者的第一次住院行为与第二次住院行为的信息的步骤之后,方法还包括:
根据所述第一次住院行为与第二次住院行为的医疗机构信息,滤除不属于分解住院行为的所述第一次住院行为与第二次住院行为。
上述技术方案中,根据所述第一次住院行为与第二次住院行为的医疗机构信息,滤除不属于分解住院行为的所述第一次住院行为与第二次住院行为,包括:
根据所述第一次住院行为与第二次住院行为的医疗机构信息,判断所述第一次住院行为与所述第二次住院行为发生在不同的医疗机构,则所述第一次住院行为与所述第二次住院行为不属于分解住院行为,滤除所述第一次住院行为与所述第二次住院行为。
上述技术方案中,所述根据第一次住院行为的费用信息得到第一次住院行为的费用特征向量,根据第二次住院行为的费用信息得到第二次住院行为的费用特征向量,包括:
将所述第一次住院行为的费用信息中的所有收费项目信息按照收费项目的类别进行划分,得到经过分类的多个第一收费项目信息集合;
为所述多个第一收费项目信息集合中的各个收费项目信息进行特征向量化,得到与所述多个第一收费项目信息集合所对应的多个第一费用特征子向量,所述多个第一费用特征子向量组成所述第一次住院行为的费用特征向量;
以及,将所述第二次住院行为的费用信息中的所有收费项目信息按照收费项目的类别进行划分,得到经过分类的多个第二收费项目信息集合;
为所述多个第二收费项目信息集合中的各个收费项目信息进行特征向量化,得到与所述多个第二收费项目信息集合所对应的多个第二费用特征子向量,所述多个第二费用特征子向量组成所述第二次住院行为的费用特征向量。
上述技术方案中,所述为所述多个第一收费项目信息集合中的各个收费项目信息进行特征向量化,包括:
为所述多个第一收费项目信息集合中的各个收费项目信息计算TF-IDF值;
将计算得到的TF-IDF值作为对应收费项目信息的特征值;
以及,所述为所述多个第二收费项目信息集合中的各个收费项目信息进行特征向量化,包括:
为所述多个第二收费项目信息集合中的各个收费项目信息计算TF-IDF值;
将计算得到的TF-IDF值作为对应收费项目信息的特征值。
上述技术方案中,所述为所述多个第一收费项目信息集合中的各个收费项目信息进行特征向量化,包括:
将任意一个第一收费项目信息集合中的各个收费项目信息按照时间顺序排序;
在经过排序的所述任意一个第一收费项目信息集合中,删除集合内重复的收费项目信息;
将经过排序且删除重复收费项目信息的所述任意一个第一收费项目信息集合以句子的形式输入预先训练的BERT模型,所述BERT模型输出与所述任意一个第一收费项目信息集合相对应的第一费用特征子向量;
以及,所述为所述多个第二收费项目信息集合中的各个收费项目信息进行特征向量化,包括:
将任意一个第二收费项目信息集合中的各个收费项目信息按照时间顺序排序;
在经过排序的所述任意一个第二收费项目信息集合中,删除集合内重复的收费项目信息;
将经过排序且删除重复收费项目信息的所述任意一个第二收费项目信息集合以句子的形式输入预先训练的BERT模型,所述BERT模型输出与所述任意一个第二收费项目信息集合相对应的第二费用特征子向量。
上述技术方案中,所述根据所述第一次住院行为的费用特征向量以及所述第二次住院行为的费用特征向量,判断所述第一次住院行为与第二次住院行为是否为疑似分解住院行为,包括:
为所述第一次住院行为的费用特征向量中的任意一个第一费用特征子向量,按照所述收费项目的类别从所述第二次住院行为的费用特征向量中选取对应的第二费用特征子向量,计算所述任意一个第一费用特征子向量与所选取的对应第二费用特征子向量之间的相似度;
根据计算得到的相似度,判断所述第一次住院行为与第二次住院行为是否为疑似分解住院行为。
本发明第二方面实施例提供一种分解住院行为的识别装置,包括:
信息获取模块,用于获取目标患者的第一次住院行为与第二次住院行为的信息;其中,所述第一次住院行为与第二次住院行为是目标患者的两次时间相邻的住院行为,且所述第一次住院行为的发生时间在所述第二次住院行为的发生时间之前;所述信息包括费用信息;
费用特征向量生成模块,用于根据第一次住院行为的费用信息得到第一次住院行为的费用特征向量,根据第二次住院行为的费用信息得到第二次住院行为的费用特征向量;
判断模块,用于根据所述第一次住院行为的费用特征向量以及所述第二次住院行为的费用特征向量,判断所述第一次住院行为与第二次住院行为是否为疑似分解住院行为。
本发明第三方面实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明第一方面实施例所述分解住院行为的识别方法的步骤。
本发明第四方面实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面实施例所述分解住院行为的识别方法的步骤。
本发明实施例提供的分解住院行为的识别方法、装置、电子设备及存储介质,为两次住院行为的费用信息提取特征向量,计算两次住院行为的特征向量之间的相似度,通过特征向量之间的相似度判断两次住院行为是否属于疑似分解住院行为;实现了分解住院行为的自动识别,较传统的人工方法不仅执行效率高,而且识别准确率也更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的分解住院行为的识别方法的流程图;
图2为本发明另一实施例提供的分解住院行为的识别装置的示意图;
图3为本发明实施例所涉及的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的分解住院行为的识别方法的流程图,如图1所示,本发明实施例提供的分解住院行为的识别方法包括:
步骤101、获取目标患者的第一次住院行为与第二次住院行为的信息。
在本发明实施例中,所述第一次住院行为与第二次住院行为是目标患者的两次时间相邻的住院行为,且所述第一次住院行为的发生时间在所述第二次住院行为的发生时间之前。
患者住院行为的信息至少包括患者住院行为的费用信息。
患者住院行为的费用是指患者在住院期间发生的与医疗有关的费用,例如:患者在住院期间所服用药物的费用,患者在住院期间的床位费,患者在住院期间的医疗服务费,患者在住院期间所使用的耗材的费用等。
患者住院行为的费用信息是与费用有关的信息。具体的说,费用信息包括收费项目以及收费项目的金额。例如,静脉输液的医疗服务费50元,该费用信息中静脉输液的医疗服务费是收费项目,50元是收费项目的金额。
患者住院行为的费用信息可从社保机构或医疗机构的数据库中获取。
步骤102、根据第一次住院行为的费用信息得到第一次住院行为的费用特征向量,根据第二次住院行为的费用信息得到第二次住院行为的费用特征向量。
患者住院行为的费用是指患者在住院期间发生的与医疗有关的费用。本领域技术人员很容易理解,患者在住院期间发生的收费项目会有多个,如静脉输液时的服务费用,静脉输液时所采用的药品的费用,住院期间的床位费,住院期间的手术费用等。这些收费项目种类繁多,为了便于处理,在本发明实施例中,需要对患者住院行为的费用信息中的收费项目进行分类。然后为分类后的收费项目分别计算对应的特征向量。
具体的说,本步骤进一步包括:
将所述第一次住院行为的费用信息中的所有收费项目信息按照收费项目的类别进行划分,得到经过分类的多个第一收费项目信息集合;
为所述多个第一收费项目信息集合中的各个收费项目信息进行特征向量化,得到与所述多个第一收费项目信息集合所对应的多个第一费用特征子向量,所述多个第一费用特征子向量组成所述第一次住院行为的费用特征向量;
以及,将所述第二次住院行为的费用信息中的所有收费项目信息按照收费项目的类别进行划分,得到经过分类的多个第二收费项目信息集合;
为所述多个第二收费项目信息集合中的各个收费项目信息进行特征向量化,得到与所述多个第二收费项目信息集合所对应的多个第二费用特征子向量,所述多个第二费用特征子向量组成所述第二次住院行为的费用特征向量。
例如,在一个实施例中,可将收费项目分成8大类,分别是:检查、药品、检验、治疗、手术、护理、耗材以及其他。
然后根据预先设置的8大类,将一次患者住院行为的费用信息中的各个收费项目按照类别进行映射,得到相应的收费项目信息集合。例如,患者一次住院行为的费用信息包括以下收费项目:静脉输液的服务费、床位费、护工的护理费、药品阿奇霉素的费用、CT检查的费用、血液检验的费用。可将CT检查的费用映射到检查类的费用中,将药品阿奇霉素的费用映射到药品类的费用中,将血液检验的费用映射到检验类的费用中,将静脉输液的服务费、护工的护理费映射到护理类的费用中,将床位费映射到其他类的费用中。对于该次患者住院行为,治疗类费用、手术类以及耗材类费用都没有对应的收费项目。
本领域技术人员很容易理解,在患者的一次住院行为中,某些收费项目不止发生一次,如患者在住院期间可能每天都要做静脉输液,则静脉输液的服务费会发生多次。在将收费项目按照类别进行映射时,需要将多次发生的同类型收费项目都映射到对应的类别中。
在将患者住院行为的费用信息中的收费项目按照类别映射,得到多个收费项目信息集合后,可为各个收费项目信息集合结合提取对应的特征向量。例如,患者某一次住院行为所发生的费用覆盖了前述的8个类别,按照前述映射操作将该次住院行为所发生费用中的收费项目映射到对应类别后,为一个类别下的所有收费项目(即一个收费项目信息集合)做一次提取特征向量的操作,最终根据该次住院行为的费用信息可得到8个类别各自对应的费用特征子向量。8个类别各自对应的费用特征子向量的集合也就是该次住院行为的费用信息所对应的费用特征向量。
费用特征向量包括了各个收费项目的特征值,收费项目的特征值反映了一次住院治疗各个治疗项目在该次治疗中包含的信息量大小也即重要程度的大小。
作为一种可选的实现方式,费用特征向量或费用特征子向量的表现形式为:费用特征向量或费用特征子向量包括有多个特征项,每个特征项代表了一种理论上可能的收费项目。例如,假设患者在住院期间可使用的药品共有3000种,则对于药品类的费用信息,其对应的费用特征子向量的特征项有3000个。特征项的特征值取决于患者在住院期间所发生的费用,如患者在住院期间使用了阿奇霉素,那么对应阿奇霉素的特征项的特征值不为0,反之,患者在住院期间未使用青霉素,那么对应青霉素的特征项的特征值为0。
对于特征值非0的特征项,其特征值的具体取值决定于所采用的特征向量提取方法。在本发明实施例中,可采用文本特征提取方法来确定费用信息的特征向量或特征子向量中的特征项的特征值大小。例如,可采用TF-IDF文本向量化方法,也可采用语言模型Bert(Bidirectional Encoder Representations from Transformers)进行文本特征向量化工作。在本发明实施例中,不对文本特征提取方法的具体实现方式进行限定。
步骤103、根据所述第一次住院行为的费用特征向量以及所述第二次住院行为的费用特征向量,判断所述第一次住院行为与第二次住院行为是否为疑似分解住院行为。
在之前的步骤中,已经为第一次住院行为与第二次住院行为分别得到了对应的费用特征向量。在本步骤中,根据费用特征向量,判断所述第一次住院行为与第二次住院行为是否为疑似分解住院行为。
具体的说,为所述第一次住院行为的费用特征向量中的任意一个第一费用特征子向量,按照所述收费项目的类别从所述第二次住院行为的费用特征向量中选取对应的第二费用特征子向量,计算所述任意一个第一费用特征子向量与所选取的对应第二费用特征子向量之间的相似度;
根据计算得到的相似度,判断所述第一次住院行为与第二次住院行为是否为疑似分解住院行为。
疑似分解住院行为是指所比较的住院行为属于分解住院行为的可能较大。后续可结合专家的判断来确定疑似分解住院行为是否是真正的分解住院行为。由专家对疑似分解住院行为的进一步判断并不属于本发明实施例的范畴,因此不在此处做进一步描述。
根据之前的描述,第一次住院行为的费用特征向量包括多个第一费用特征子向量,第二次住院行为的费用特征向量包括多个第二费用特征子向量。在本发明实施例中,可将两次住院行为的对应类别的特征子向量之间进行比较。例如,将第一次住院行为的药品类别的特征子向量与第二次住院行为的药品类别的特征子向量进行比较。显然,不同住院行为的同类别的特征子向量进行比较,有助于提高比较结果的准确率。
在计算特征子向量间的相似度时,可采用多种计算方法,如余弦相似度法、曼哈顿距离法、欧式距离法等,还可采用现有技术中的其他计算方法。
以余弦相似度法为例。余弦相似度即直接计算两个向量的夹角余弦值,值越小,两个向量越相似。
其计算公式如下:
;
similarity值越大,表明两个向量夹角越小,两个向量在向量空间中距离越近,也即两次住院行为越相近。
计算得到的similarity值可视为患者的两次住院行为在相应类别上的相似度。
为两次住院行为的费用信息在各个类别上的特征子向量分别进行比较后,可以得到在各个类别上的相似度。这些相似度的集合就是两次住院行为之间的相似度。
根据两次住院行为之间的相似度,可以判断这两次住院行为是否是疑似分解住院行为。
在具体判断时,一种实现方式是将所比较的两次住院行为在各个类别上的相似度与预设的对应类别上的相似度阈值分别进行比较,根据比较结果判断所比较的两次住院行为是否是疑似分解住院行为。
例如,第一次住院行为与第二次住院行为在药品类别上的相似度计算结果为0.6,在药品类别上预设的相似度阈值是0.55,那么第一次住院行为与第二次住院行为在药品类别上是相似的。其中,在药品类别上预设的相似度阈值是根据历史数据得到的。类似的,可以分别得到第一次住院行为与第二次住院行为在检查类别上是否相似的判断结果、第一次住院行为与第二次住院行为在检验类别上是否相似的判断结果、第一次住院行为与第二次住院行为在治疗类别上是否相似的判断结果、第一次住院行为与第二次住院行为在手术类别上是否相似的判断结果、第一次住院行为与第二次住院行为在护理类别上是否相似的判断结果、第一次住院行为与第二次住院行为在耗材类别上是否相似的判断结果以及第一次住院行为与第二次住院行为在其他类别上是否相似的判断结果。
需要说明的是,各个类别上的相似度阈值是根据历史数据得到的。不同类别上的相似度阈值的大小可以不同。
在得到各个类别上的判断结果以后,综合这些判断结果,可以得到两次住院行为是否为疑似分解住院行为的结论。如在一个实施例中,按照预设规则,两次住院行为需要在所有类别上都判断为相似,才能得到两次住院行为是疑似分解住院行为的结论。在另一个实施例中,按照预设规则,两次住院行为在一半或一半以上的类别被判断为相似,即可得到两次住院行为是疑似分解住院行为的结论。
根据两次住院行为之间的相似度,判断这两次住院行为是否是疑似分解住院行为的另一种实现方式是:根据所比较的两次住院行为在各个类别上的相似度,得到一个综合相似度,将所述综合相似度与预设的综合相似度阈值进行比较,根据比较结果判断所比较的两次住院行为是否是疑似分解住院行为。
具体的说,在得到两次住院行为在各个类别上的相似度之后,可以根据这些相似度计算出一个综合相似度。例如,将各个类别上的相似度相加,从而得到综合相似度。又例如,为了体现不同类别在相似度比较时重要程度的差异,为各个类别设置对应的权重系数;然后将各个类别的相似度与类别自身的权重系数相乘,将相乘结果各自相加,得到最后的综合相似度。
在计算出综合相似度以后,将综合相似度与预设的综合相似度阈值进行比较,如果综合相似度大于或等于预设的综合相似度阈值,那么所比较的两次住院行为就是疑似分解住院行为;如果综合相似度小于预设的综合相似度阈值,那么所比较的两次住院行为就不是疑似分解住院行为。其中,综合相似度阈值可以根据历史数据预先设置。
判断两次住院行为是否是分解住院行为的又一种实现方式是:根据所述第一次住院行为的费用特征向量以及所述第二次住院行为的费用特征向量,不分类别地为两次住院行为的收费项目计算相似度。将计算得到的两次住院行为的总的相似度值与预先设定的阈值进行比较,根据比较结果确定两次住院行为是否是疑似分解住院行为。
在之前的两种实现方式中,在计算两次住院行为的相似度时,首先计算两次住院行为中同类别的特征子向量之间的相似度。例如,将第一次住院行为的药品类别的特征子向量与第二次住院行为的药品类别的特征子向量进行比较,计算它们的相似度。在当前的实现方式中,不再区分具体的类别,而是计算两次住院行为中的所有收费项目之间的相似度。通过计算可以得到一个总的相似度值,将总的相似度值与预先设定的阈值进行比较,根据比较结果确定两次住院行为是否是疑似分解住院行为。其中,所述预先设定的阈值是通过历史数据计算得到的。
本发明实施例提供的分解住院行为的识别方法为两次住院行为的费用信息提取特征向量,计算两次住院行为的特征向量之间的相似度,通过特征向量之间的相似度判断两次住院行为是否属于疑似分解住院行为;实现了分解住院行为的自动识别,较传统的人工方法不仅执行效率高,而且识别准确率也更高。
基于上述任一实施例,在本发明实施例中,所述信息还包括时间信息;
相应的,在获取目标患者的第一次住院行为与第二次住院行为的信息的步骤之后,方法还包括:
根据所述第一次住院行为与第二次住院行为的时间信息,滤除不属于分解住院行为的所述第一次住院行为与第二次住院行为。
具体的说,滤除不属于分解住院行为的所述第一次住院行为与第二次住院行为进一步包括:
计算所述第一次住院行为与所述第二次住院行为的时间间隔,当所述时间间隔大于或等于预设的时间间隔阈值时,所述第一次住院行为与所述第二次住院行为不属于分解住院行为,滤除所述第一次住院行为与所述第二次住院行为;
和/或,
根据所述第一次住院行为与第二次住院行为的时间信息,判断所述第一次住院行为与所述第二次住院行为在时间上存在交叉现象,则所述第一次住院行为与所述第二次住院行为不属于分解住院行为,滤除所述第一次住院行为与所述第二次住院行为。
本领域技术人员都知道,分解住院行为发生的前提是前后两次住院行为在时间上间隔较近。如果间隔较远,则不存在分解住院行为的可能。因此将第一次住院行为与第二次住院行为判定为非分解住院行为,从而滤除第一次住院行为与所述第二次住院行为的一种情形是第一次住院行为与所述第二次住院行为的时间间隔大于或等于预设的时间间隔阈值。
若第一次住院行为与所述第二次住院行为小于预设的时间间隔阈值,则继续对第一次住院行为与所述第二次住院行为进行求取费用特征向量,根据费用特征向量计算相似度的操作。
第一次住院行为与第二次住院行为之间的时间间隔可通过患者住院行为的时间信息得到。所述时间信息至少包括患者入院的时间信息、患者出院的时间信息,还可包括患者在住院期间各类检查、用药、手术等治疗行为的发生时间信息。
例如,判断患者第一次住院行为的出院时间与第二次住院行为的入院时间的时间间隔是否小于24小时,如果小于24小时,对两次住院行为的信息执行后续的步骤,如果大于或等于24小时,则滤除所述第一次住院行为与所述第二次住院行为。
本领域技术人员还知道,患者只有出院以后才有可能再次入院,也就是说,患者不可能在同一时刻同时存在两个住院行为。如果第一次住院行为与第二次住院行为在时间上存在交叉现象,即第二次住院行为的入院时间早于第一次住院行为的出院时间,那么这一现象显然是不符合逻辑的。对应的第一次住院行为与所述第二次住院行为的信息属于错误信息,因此也需要滤除所述第一次住院行为与所述第二次住院行为。
本发明实施例提供的分解住院行为的识别方法通过对患者住院行为信息的过滤,能够预先滤除明显不可能是分解住院行为的信息,有助于减少后续不必要的操作,从而提高分解住院行为的识别效率。
基于上述任一实施例,在本发明实施例中,所述信息还包括医疗机构信息;
相应的,在获取目标患者的第一次住院行为与第二次住院行为的信息的步骤之后,方法还包括:
根据所述第一次住院行为与第二次住院行为的医疗机构信息,滤除不属于分解住院行为的所述第一次住院行为与第二次住院行为。
具体的说,根据所述第一次住院行为与第二次住院行为的医疗机构信息,滤除不属于分解住院行为的所述第一次住院行为与第二次住院行为,包括:
根据所述第一次住院行为与第二次住院行为的医疗机构信息,判断所述第一次住院行为与所述第二次住院行为发生在不同的医疗机构,则所述第一次住院行为与所述第二次住院行为不属于分解住院行为,滤除所述第一次住院行为与所述第二次住院行为。
在日常的诊疗过程中存在转院治疗的现象,即因为病情的需要,患者从一家医院转入另一家医院。转院治疗时,第一次住院行为的出院时间与第二次住院行为的入院时间一般在时间间隔上较短,通常小于预设的时间间隔阈值。应当进行是否属于分解住院行为的识别。但转院治疗明显具有合理性,不应当属于分解住院。因此可滤除所述第一次住院行为与所述第二次住院行为。
本发明实施例提供的分解住院行为的识别方法通过对患者住院行为信息的过滤,能够预先滤除明显不可能是分解住院行为的信息,有助于减少后续不必要的操作,从而提高分解住院行为的识别效率。
基于上述任一实施例,在本发明实施例中,所述为所述多个第一收费项目信息集合中的各个收费项目信息进行特征向量化,包括:
为所述多个第一收费项目信息集合中的各个收费项目信息计算TF-IDF值;
将计算得到的TF-IDF值作为对应收费项目信息的特征值;
以及,所述为所述多个第二收费项目信息集合中的各个收费项目信息进行特征向量化,包括:
为所述多个第二收费项目信息集合中的各个收费项目信息计算TF-IDF值;
将计算得到的TF-IDF值作为对应收费项目信息的特征值。
TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来提取文章主要信息和进行文章分类。
TF-IDF的计算公式为:
;
其中,TF指的是某一个给定的词语在该文件中出现的频率,计算公式:
。
IDF为"逆文档频率"(Inverse Document Frequency,缩写为IDF),代表总文档数目除以包含该词语的文档的数目,再将得到的商取对数。
计算公式为:
。
其中,分母加1是为了防止出现因语料库缺失词导致分母为零无法计算进行的平滑处理。
从TF-IDF的计算公式可以看出,某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。
将TF-IDF应用于本发明实施例中时,将一个具体的收费项目视为一个单词,将一次住院行为视为一篇文档,即可得到一次住院行为中的某一收费项目的特征化向量;计算TF值即为一次住院行为中,某一个收费项目进行的次数除以该次住院行为所发生的所有收费项目次数,每一个收费项目的IDF值可由历史数据训练得到,也可在每次执行识别分解住院行为时通过实时训练得到;向量空间为所有的收费项目。
通过上述操作所得到的费用特征向量中的各个特征项的特征值是对应收费项目的TF-IDF值。
本发明实施例提供的分解住院行为的识别方法通过为收费项目计算TF-IDF值来设置收费项目的特征值,TF-IDF计算简单且快速,容易实现,而且容易理解,可解释性强,在实际的应用中,可以借由相关领域的专家对提取的特征进行人工校正和检验,因此在实践领域的工业界应用较广。
基于上述任一实施例,在本发明实施例中,所述为所述多个第一收费项目信息集合中的各个收费项目信息进行特征向量化,包括:
将任意一个第一收费项目信息集合中的各个收费项目信息按照时间顺序排序;
在经过排序的所述任意一个第一收费项目信息集合中,删除集合内重复的收费项目信息;
将经过排序且删除重复收费项目信息的所述任意一个第一收费项目信息集合以句子的形式输入预先训练的BERT模型,所述BERT模型输出与所述任意一个第一收费项目信息集合相对应的第一费用特征子向量;
以及,所述为所述多个第二收费项目信息集合中的各个收费项目信息进行特征向量化,包括:
将任意一个第二收费项目信息集合中的各个收费项目信息按照时间顺序排序;
在经过排序的所述任意一个第二收费项目信息集合中,删除集合内重复的收费项目信息;
将经过排序且删除重复收费项目信息的所述任意一个第二收费项目信息集合以句子的形式输入预先训练的BERT模型,所述BERT模型输出与所述任意一个第二收费项目信息集合相对应的第二费用特征子向量。
本发明实施例中,所述收费项目信息是以标准码的形式予以表示。关于收费项目的标准码可参照现有的相关标准制定,如:ICD(International Classification ofDiseases,国际疾病分类)-10、ICD-9-CM-3(International Classification of DiseasesClinical Modification of 9th Revision Operations and Procedures,国际疾病分类第九版临床修订本手术与操作)、《国家医疗保障DRG分组与付费技术规范》、《医疗服务项目分类与代码(医保版)》、《医保药品分类与代码(医保版)》、《医保医用耗材分类与代码(医保版)》。
BERT(Bidirectional Encoder Representations from Transformers,基于Transformer模型的双向编码器表征)模型是由谷歌公司(Google)于2018年末开发并发布的一种新型语言模型。
BERT本质上是一个两段式的NLP(自然语言处理)模型,第一个阶段叫做:Pre-training(预训练),跟Word Embedding类似,可以利用无标记的语料库训练语言模型得到句子的特征化向量。第二个阶段使用Fine-Tuning模式解决下游任务,比如文本分类等。在本发明实施例中,主要涉及到BERT中的第一个阶段。
在本发明实施例中,利用BERT模型来对每个句子求特征向量,也即将一次住院行为中一个类别的所有收费项目信息经过排序与去重后,形成一个句子,将句子输入到预先训练的BERT模型中,BERT模型的transformer层输出的句子向量也就是与该类别的收费项目信息所对应的费用特征子向量。对第一次住院行为的各个类别的收费项目信息都按照上述操作进行处理,也就能够得到多个第一费用特征子向量。所述多个第一费用特征子向量组成了第一次住院行为的特征向量。类似的,对第二次住院行为的各个类别的收费项目信息都按照上述操作进行处理,也就能够得到多个第二费用特征子向量。所述多个第二费用特征子向量组成了第二次住院行为的特征向量。
本发明实施例中的BERT模型是利用已有的历史收费项目信息进行无监督训练得到的。在本发明实施例中,所述BERT模型是预训练得到的。结合本发明实施例对收费项目信息的处理流程以及本领域技术人员的公知常识,本领域技术人员无需创造性劳动即可实现利用历史收费项目信息对BERT模型的训练,因此不在本发明实施例中做重复描述。
本发明实施例提供的分解住院行为的识别方法以BERT模型为基础,利用大量数据、构造复杂深层的网络结构,能够训练出高质量的收费项目特征向量,可以进一步提高对不同的收费项目的区分度能力,相较于TF-IDF在后期会获得更好的效果,提高疑似分解住院行为识别的查准率和查全率。
基于上述任一实施例,在本发明实施例中,在获取目标患者的第一次住院行为与第二次住院行为的信息的步骤之后,方法还包括:
将所述第一次住院行为的费用信息以及第二次住院行为的费用信息映射为标准码。
在计算机存储时,收费项目一般以编码的方式予以表示,例如,静脉输液这一收费项目用“f12040000607”表示。目前由于各个地方、各个公司都有各自的编码体系,因此从数据库中获取的目标患者的费用信息中,关于收费项目的表示方式千差万别,为了实现统一的处理,首先需要将关于收费项目的原始码映射为标准码。
在本发明实施例中,关于收费项目的标准码可参照现有的相关标准制定,如:ICD(International Classification of Diseases,国际疾病分类)-10、ICD-9-CM-3(International Classification of Diseases Clinical Modification of 9thRevision Operations and Procedures,国际疾病分类第九版临床修订本手术与操作)、《国家医疗保障DRG分组与付费技术规范》、《医疗服务项目分类与代码(医保版)》、《医保药品分类与代码(医保版)》、《医保医用耗材分类与代码(医保版)》。
在将收费项目从原始码映射为标准码的过程中,核心问题在于实现原始码与标准码的对应。一种实现方式是将原始码对应的中文名称与标准码对应的中文名称进行匹配,进而实现原始码与标准码的对应。
在一个具体的实施例中,如下面的表1所示:
不同的静脉输液项目在映射之后得到统一的标准的收费项目名称和编码——静脉输液(120400006):
表1
本发明实施例提供的分解住院行为的识别方法通过将收费项目从原始码映射为标准码,为后续的分解住院行为识别提供了基础。
基于上述任一实施例,图2为本发明另一实施例提供的分解住院行为的识别装置的示意图,如图2所示,本发明另一实施例提供的分解住院行为的识别装置包括:
信息获取模块201,用于获取目标患者的第一次住院行为与第二次住院行为的信息;其中,所述第一次住院行为与第二次住院行为是目标患者的两次时间相邻的住院行为,且所述第一次住院行为的发生时间在所述第二次住院行为的发生时间之前;所述信息包括费用信息;
费用特征向量生成模块202,用于根据第一次住院行为的费用信息得到第一次住院行为的费用特征向量,根据第二次住院行为的费用信息得到第二次住院行为的费用特征向量;
判断模块203,用于根据所述第一次住院行为的费用特征向量以及所述第二次住院行为的费用特征向量,判断所述第一次住院行为与第二次住院行为是否为疑似分解住院行为。
本发明实施例提供的分解住院行为的识别装置为两次住院行为的费用信息提取特征向量,计算两次住院行为的特征向量之间的相似度,通过特征向量之间的相似度判断两次住院行为是否属于疑似分解住院行为;实现了分解住院行为的自动识别,较传统的人工方法不仅执行效率高,而且识别准确率也更高。
图3为本发明实施例所涉及的电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行如下方法:获取目标患者的第一次住院行为与第二次住院行为的信息;其中,所述第一次住院行为与第二次住院行为是目标患者的两次时间相邻的住院行为,且所述第一次住院行为的发生时间在所述第二次住院行为的发生时间之前;所述信息包括费用信息;根据第一次住院行为的费用信息得到第一次住院行为的费用特征向量,根据第二次住院行为的费用信息得到第二次住院行为的费用特征向量;根据所述第一次住院行为的费用特征向量以及所述第二次住院行为的费用特征向量,判断所述第一次住院行为与第二次住院行为是否为疑似分解住院行为。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:获取目标患者的第一次住院行为与第二次住院行为的信息;其中,所述第一次住院行为与第二次住院行为是目标患者的两次时间相邻的住院行为,且所述第一次住院行为的发生时间在所述第二次住院行为的发生时间之前;所述信息包括费用信息;根据第一次住院行为的费用信息得到第一次住院行为的费用特征向量,根据第二次住院行为的费用信息得到第二次住院行为的费用特征向量;根据所述第一次住院行为的费用特征向量以及所述第二次住院行为的费用特征向量,判断所述第一次住院行为与第二次住院行为是否为疑似分解住院行为。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (11)
1.一种分解住院行为的识别方法,其特征在于,包括:
获取目标患者的第一次住院行为与第二次住院行为的信息;其中,所述第一次住院行为与第二次住院行为是目标患者的两次时间相邻的住院行为,且所述第一次住院行为的发生时间在所述第二次住院行为的发生时间之前;所述信息包括费用信息;
根据第一次住院行为的费用信息得到第一次住院行为的费用特征向量,根据第二次住院行为的费用信息得到第二次住院行为的费用特征向量;
为所述第一次住院行为的费用特征向量中的任意一个第一费用特征子向量,按照收费项目的类别从所述第二次住院行为的费用特征向量中选取对应的第二费用特征子向量,计算所述任意一个第一费用特征子向量与所选取的对应第二费用特征子向量之间的相似度;
根据计算得到的相似度,判断所述第一次住院行为与第二次住院行为是否为疑似分解住院行为。
2.根据权利要求1所述的分解住院行为的识别方法,其特征在于,所述信息包括时间信息;
相应的,在获取目标患者的第一次住院行为与第二次住院行为的信息的步骤之后,方法还包括:
根据所述第一次住院行为与第二次住院行为的时间信息,滤除不属于分解住院行为的所述第一次住院行为与第二次住院行为。
3.根据权利要求2所述的分解住院行为的识别方法,其特征在于,所述根据所述第一次住院行为与第二次住院行为的时间信息,滤除不属于分解住院行为的所述第一次住院行为与第二次住院行为,包括:
计算所述第一次住院行为与所述第二次住院行为的时间间隔,当所述时间间隔大于或等于预设的时间间隔阈值时,所述第一次住院行为与所述第二次住院行为不属于分解住院行为,滤除所述第一次住院行为与所述第二次住院行为;
和/或,
根据所述第一次住院行为与第二次住院行为的时间信息,判断所述第一次住院行为与所述第二次住院行为在时间上存在交叉现象,则所述第一次住院行为与所述第二次住院行为不属于分解住院行为,滤除所述第一次住院行为与所述第二次住院行为。
4.根据权利要求1所述的分解住院行为的识别方法,其特征在于,所述信息包括医疗机构信息;
相应的,在获取目标患者的第一次住院行为与第二次住院行为的信息的步骤之后,方法还包括:
根据所述第一次住院行为与第二次住院行为的医疗机构信息,滤除不属于分解住院行为的所述第一次住院行为与第二次住院行为。
5.根据权利要求4所述的分解住院行为的识别方法,其特征在于,根据所述第一次住院行为与第二次住院行为的医疗机构信息,滤除不属于分解住院行为的所述第一次住院行为与第二次住院行为,包括:
根据所述第一次住院行为与第二次住院行为的医疗机构信息,判断所述第一次住院行为与所述第二次住院行为发生在不同的医疗机构,则所述第一次住院行为与所述第二次住院行为不属于分解住院行为,滤除所述第一次住院行为与所述第二次住院行为。
6.根据权利要求1至5任一项所述的分解住院行为的识别方法,其特征在于,所述根据第一次住院行为的费用信息得到第一次住院行为的费用特征向量,根据第二次住院行为的费用信息得到第二次住院行为的费用特征向量,包括:
将所述第一次住院行为的费用信息中的所有收费项目信息按照收费项目的类别进行划分,得到经过分类的多个第一收费项目信息集合;
为所述多个第一收费项目信息集合中的各个收费项目信息进行特征向量化,得到与所述多个第一收费项目信息集合所对应的多个第一费用特征子向量,所述多个第一费用特征子向量组成所述第一次住院行为的费用特征向量;
以及,将所述第二次住院行为的费用信息中的所有收费项目信息按照收费项目的类别进行划分,得到经过分类的多个第二收费项目信息集合;
为所述多个第二收费项目信息集合中的各个收费项目信息进行特征向量化,得到与所述多个第二收费项目信息集合所对应的多个第二费用特征子向量,所述多个第二费用特征子向量组成所述第二次住院行为的费用特征向量。
7.根据权利要求6所述的分解住院行为的识别方法,其特征在于,所述为所述多个第一收费项目信息集合中的各个收费项目信息进行特征向量化,包括:
为所述多个第一收费项目信息集合中的各个收费项目信息计算TF-IDF值;
将计算得到的TF-IDF值作为对应收费项目信息的特征值;
以及,所述为所述多个第二收费项目信息集合中的各个收费项目信息进行特征向量化,包括:
为所述多个第二收费项目信息集合中的各个收费项目信息计算TF-IDF值;
将计算得到的TF-IDF值作为对应收费项目信息的特征值。
8.根据权利要求6所述的分解住院行为的识别方法,其特征在于,所述为所述多个第一收费项目信息集合中的各个收费项目信息进行特征向量化,包括:
将任意一个第一收费项目信息集合中的各个收费项目信息按照时间顺序排序;
在经过排序的所述任意一个第一收费项目信息集合中,删除集合内重复的收费项目信息;
将经过排序且删除重复收费项目信息的所述任意一个第一收费项目信息集合以句子的形式输入预先训练的BERT模型,所述BERT模型输出与所述任意一个第一收费项目信息集合相对应的第一费用特征子向量;
以及,所述为所述多个第二收费项目信息集合中的各个收费项目信息进行特征向量化,包括:
将任意一个第二收费项目信息集合中的各个收费项目信息按照时间顺序排序;
在经过排序的所述任意一个第二收费项目信息集合中,删除集合内重复的收费项目信息;
将经过排序且删除重复收费项目信息的所述任意一个第二收费项目信息集合以句子的形式输入预先训练的BERT模型,所述BERT模型输出与所述任意一个第二收费项目信息集合相对应的第二费用特征子向量。
9.一种分解住院行为的识别装置,其特征在于,包括:
信息获取模块,用于获取目标患者的第一次住院行为与第二次住院行为的信息;其中,所述第一次住院行为与第二次住院行为是目标患者的两次时间相邻的住院行为,且所述第一次住院行为的发生时间在所述第二次住院行为的发生时间之前;所述信息包括费用信息;
费用特征向量生成模块,用于根据第一次住院行为的费用信息得到第一次住院行为的费用特征向量,根据第二次住院行为的费用信息得到第二次住院行为的费用特征向量;
判断模块,用于为所述第一次住院行为的费用特征向量中的任意一个第一费用特征子向量,按照收费项目的类别从所述第二次住院行为的费用特征向量中选取对应的第二费用特征子向量,计算所述任意一个第一费用特征子向量与所选取的对应第二费用特征子向量之间的相似度;根据计算得到的相似度,判断所述第一次住院行为与第二次住院行为是否为疑似分解住院行为。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述分解住院行为的识别方法的步骤。
11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至8任一项所述分解住院行为的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010768490.5A CN112016302B (zh) | 2020-08-03 | 2020-08-03 | 分解住院行为的识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010768490.5A CN112016302B (zh) | 2020-08-03 | 2020-08-03 | 分解住院行为的识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112016302A CN112016302A (zh) | 2020-12-01 |
CN112016302B true CN112016302B (zh) | 2024-04-30 |
Family
ID=73499182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010768490.5A Active CN112016302B (zh) | 2020-08-03 | 2020-08-03 | 分解住院行为的识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112016302B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182824A (zh) * | 2014-08-08 | 2014-12-03 | 平安养老保险股份有限公司 | 一种识别医保报销违规行为的规则校验***及校验方法 |
KR20180003345A (ko) * | 2016-06-30 | 2018-01-09 | 삼성에스디에스 주식회사 | 환자의 재원 일수 및 의료 비용 정보 제공 장치 및 방법 |
CN107609980A (zh) * | 2017-09-07 | 2018-01-19 | 平安医疗健康管理股份有限公司 | 医疗数据处理方法、装置、计算机设备及存储介质 |
CN109118376A (zh) * | 2018-08-14 | 2019-01-01 | 平安医疗健康管理股份有限公司 | 医疗保险保费定价方法、装置、计算机设备和存储介质 |
CN109492803A (zh) * | 2018-10-30 | 2019-03-19 | 平安科技(深圳)有限公司 | 基于人工智能的慢性病住院费用异常检测方法及相关装置 |
CN109545317A (zh) * | 2018-10-30 | 2019-03-29 | 平安科技(深圳)有限公司 | 基于住院预测模型判定住院行为的方法及相关产品 |
CN109935287A (zh) * | 2019-02-28 | 2019-06-25 | 生活空间(沈阳)数据技术服务有限公司 | 一种病历信息的相似度分析方法、装置及设备 |
CN109934723A (zh) * | 2019-02-27 | 2019-06-25 | 生活空间(沈阳)数据技术服务有限公司 | 一种医保欺诈行为识别方法、装置及设备 |
CN110334843A (zh) * | 2019-04-22 | 2019-10-15 | 山东大学 | 一种时变注意力改进Bi-LSTM的住院就医行为预测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100076785A1 (en) * | 2008-09-25 | 2010-03-25 | Air Products And Chemicals, Inc. | Predicting rare events using principal component analysis and partial least squares |
-
2020
- 2020-08-03 CN CN202010768490.5A patent/CN112016302B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182824A (zh) * | 2014-08-08 | 2014-12-03 | 平安养老保险股份有限公司 | 一种识别医保报销违规行为的规则校验***及校验方法 |
KR20180003345A (ko) * | 2016-06-30 | 2018-01-09 | 삼성에스디에스 주식회사 | 환자의 재원 일수 및 의료 비용 정보 제공 장치 및 방법 |
CN107609980A (zh) * | 2017-09-07 | 2018-01-19 | 平安医疗健康管理股份有限公司 | 医疗数据处理方法、装置、计算机设备及存储介质 |
CN109118376A (zh) * | 2018-08-14 | 2019-01-01 | 平安医疗健康管理股份有限公司 | 医疗保险保费定价方法、装置、计算机设备和存储介质 |
CN109492803A (zh) * | 2018-10-30 | 2019-03-19 | 平安科技(深圳)有限公司 | 基于人工智能的慢性病住院费用异常检测方法及相关装置 |
CN109545317A (zh) * | 2018-10-30 | 2019-03-29 | 平安科技(深圳)有限公司 | 基于住院预测模型判定住院行为的方法及相关产品 |
CN109934723A (zh) * | 2019-02-27 | 2019-06-25 | 生活空间(沈阳)数据技术服务有限公司 | 一种医保欺诈行为识别方法、装置及设备 |
CN109935287A (zh) * | 2019-02-28 | 2019-06-25 | 生活空间(沈阳)数据技术服务有限公司 | 一种病历信息的相似度分析方法、装置及设备 |
CN110334843A (zh) * | 2019-04-22 | 2019-10-15 | 山东大学 | 一种时变注意力改进Bi-LSTM的住院就医行为预测方法及装置 |
Non-Patent Citations (6)
Title |
---|
An Anomaly Detection Method for Medicare Fraud Detection;Weijia Zhang;IEEE;第309-314页 * |
医疗保险大数据中的欺诈检测关键问题研究;高永昌;中国优秀硕士论文电子期刊网;第1-164页 * |
基于平衡计分卡的医院成本控制指标体系的构建;高婵;;医学与社会(03);第65-67页 * |
层次分析法在建立医保定点医疗机构监控指标权重系数中的应用研究;吴奎;中国医疗保险;第36-39页 * |
新型农村合作医疗保险欺诈风险管理研究;林源;中国博士学位论文电子期刊网;20160815;J161-7 * |
某三甲医院医保患者住院费用分析;吴婧;姚新宝;***;;新疆医学(03);第12-16页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112016302A (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414393B (zh) | 一种基于医学知识图谱的语义相似病例检索方法及设备 | |
CN107656952B (zh) | 平行智能病例推荐模型的建模方法 | |
Fang et al. | Feature Selection Method Based on Class Discriminative Degree for Intelligent Medical Diagnosis. | |
US20200303072A1 (en) | Method and system for supporting medical decision making | |
CN107193919A (zh) | 一种电子病历的检索方法及*** | |
WO2020220635A1 (zh) | 药品分类方法、装置、计算机设备及存储介质 | |
AU2011247830B2 (en) | Method and system for generating text | |
CN110069779B (zh) | 医疗文本的症状实体识别方法及相关装置 | |
CN109378066A (zh) | 一种基于特征向量实现疾病预测的控制方法及控制装置 | |
CN109783479B (zh) | 一种数据标准化处理方法、装置及存储介质 | |
CN113345577B (zh) | 诊疗辅助信息的生成方法、模型训练方法、装置、设备以及存储介质 | |
CN112885478B (zh) | 医疗文献的检索方法、装置、电子设备及存储介质 | |
CN109698016A (zh) | 疾病自动编码方法及装置 | |
CN110427486B (zh) | 身体病况文本的分类方法、装置及设备 | |
CN109994216A (zh) | 一种基于机器学习的icd智能诊断编码方法 | |
CN110490750B (zh) | 数据识别的方法、***、电子设备及计算机存储介质 | |
Wang et al. | Multiple valued logic approach for matching patient records in multiple databases | |
CN112016302B (zh) | 分解住院行为的识别方法、装置、电子设备及存储介质 | |
CN110287270B (zh) | 实体关系挖掘方法及设备 | |
CN109522331B (zh) | 以个人为中心的区域化多维度健康数据处理方法及介质 | |
CN116884612A (zh) | 疾病风险等级的智能分析方法、装置、设备及存储介质 | |
Xu et al. | [Retracted] Using Artificial Intelligence Technology to Solve the Electronic Health Service by Processing the Online Case Information | |
CN115631823A (zh) | 相似病例推荐方法及*** | |
CN110010231A (zh) | 一种数据处理***及计算机可读存储介质 | |
CN114627993A (zh) | 信息预测方法、装置、存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |