CN111402973B - 信息匹配分析方法、装置、计算机***及可读存储介质 - Google Patents

信息匹配分析方法、装置、计算机***及可读存储介质 Download PDF

Info

Publication number
CN111402973B
CN111402973B CN202010135952.XA CN202010135952A CN111402973B CN 111402973 B CN111402973 B CN 111402973B CN 202010135952 A CN202010135952 A CN 202010135952A CN 111402973 B CN111402973 B CN 111402973B
Authority
CN
China
Prior art keywords
information
case
score
search condition
unstructured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010135952.XA
Other languages
English (en)
Other versions
CN111402973A (zh
Inventor
赵婷婷
孙行智
赵惟
廖希洋
徐卓扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010135952.XA priority Critical patent/CN111402973B/zh
Publication of CN111402973A publication Critical patent/CN111402973A/zh
Priority to PCT/CN2020/112379 priority patent/WO2021174788A1/zh
Application granted granted Critical
Publication of CN111402973B publication Critical patent/CN111402973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了信息匹配分析方法、装置、计算机***及可读存储介质,涉及大数据技术领域,包括:创建储存有病理信息和病例数据的数据库;接收用户端输出的检索条件,根据检索条件从数据库中提取病例信息;比对检索条件与病例信息的结构化信息的匹配度,获得结构化评分;比对检索条件与病例信息的非结构化信息的匹配度,获得非结构化评分;根据结构化评分和非结构化评分,获得表达检索条件与病例信息之间匹配度的关联评分;检索条件与病例信息之间的关联评分,排列关联评分获得评分集;根据评分集中关联评分的排序向用户端输出病例信息。本发明提供的使医生可以根据需求调节检索条件中各信息的重要程度,提高了查询精度。

Description

信息匹配分析方法、装置、计算机***及可读存储介质
技术领域
本发明涉及通信技术领域,尤其涉及信息匹配分析方法、装置、计算机***及可读存储介质。
背景技术
医生通常使用搜索引擎从互联网上获取病例数据进行学***;当前的获取病例数据的方法通常是首先通过搜索引擎互联网中发现、搜集网页信息,然后提取该信息并将其储存至预设的索引库中;医生通过索引库获取病例数据通常是通过检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户;
然而,当前的搜索引擎和检索器是通过关键字匹配的方式进行数据查询或信息检索,因此无法满足医生基于主诉信息、诊断信息、用药信息产生的不同的信息查询需求,并且无法对主诉信息、诊断信息、用药信息以及年龄、性别对病例信息与查询条件之间的关联程度进行判断,因此导致查询精度差,使得医生需要进行大量信息检索并对检索到的信息进行阅读分析,才可获得需要的数据或信息,提高了医生的疲劳强度,降低了学习交流以及获取诊断参考的效率。
发明内容
本发明的目的是提供一种信息匹配分析方法、装置、计算机***及可读存储介质,用于解决当前的搜索引擎和检索器是因通过关键字匹配的方式进行数据查询或信息检索,所导致的查询精度差、无法满足医生信息查询需求的问题。
为实现上述目的,本发明提供一种信息匹配分析方法,包括:
创建储存有病理信息和病例数据的数据库;
接收用户端输出的检索条件,根据所述检索条件从所述数据库中提取病例信息;
比对所述检索条件与所述病例信息的结构化信息的匹配度,获得结构化评分;比对所述检索条件与所述病例信息的非结构化信息的匹配度,获得非结构化评分;根据所述结构化评分和非结构化评分,获得表达所述检索条件与病例信息之间匹配度的关联评分;
所述检索条件与病例信息之间的关联评分,排列所述关联评分获得评分集;根据所述评分集中关联评分的排序向所述用户端输出病例信息。
上述方案中,所述检索条件的结构化信息至少包括检索个人信息,所述检索个人信息至少包括检索性别信息和检索年龄信息;
所述病例信息的结构化信息至少包括病例个人信息,所述病例个人信息至少包括病例性别信息和病例年龄信息;
所述检索条件的非结构化信息至少包括检索主诉信息、检索诊断信息和检索用药信息;
所述病例信息的非结构化信息至少包括病例主诉信息、病例诊断信息和病例用药信息。
上述方案中,比对所述检索条件与所述病例信息的结构化信息的匹配度,获得结构化评分包括:
比对所述检索条件与病例信息的文本结构化信息是否一致;若一致,则生成高分值的文本结构化评分;若不一致,则生成低分值的文本结构化评分;
计算所述检索条件与病例信息的数字结构化信息的数字差,并将所述数字差与至少一个预设的且具有评价分值的评价区间进行比对,将与所述数字差匹配的评价区间的评价分值设为数字结构化评分;
将所述文本结构化评分与数字结构化评分加权求和获得结构化评分。
上述方案中,所述比对所述检索条件与所述病例信息的非结构化信息的匹配度,获得非结构化评分包括:
将所述检索条件的字词依次与所述病例信息的非结构化信息进行比对,若所述字词在所述非结构化信息中出现,则将该字词设为目标字词;
根据所述目标字词的数量获得所述检索条件与病例信息之间的匹配值;
判断所述匹配值是否大于或等于预设阈值;若是,则生成高分值的非结构化评分;若否,则生成低分值的非结构化评分。
上述方案中,所述根据所述结构化评分和非结构化评分,获得表达所述检索条件与病例信息之间匹配度的关联评分包括:
对所述结构化评分和非结构化评分进行加权求和获得关联评分;或
将所述结构化评分与非结构化评分相乘获得关联评分;或
计算所述结构化评分与非结构化评分的平方和获得关联评分。
上述方案中,根据所述评分集中关联评分的排序向所述用户端输出病例信息包括:
预设关联度阈值;
消除所述评分集中小于所述关联度阈值的关联评分获得优化评分集;
从所述数据库中提取与所述优化评分集中关联评分所对应的病例信息,并按照所述关联评分的排序将所述病例信息输出至用户端。
上述方案中,所述根据所述评分集中关联评分的排序向所述用户端输出病例信息之后还可包括:
接收所述用户端根据所述病例信息输出的提取信号;
根据所述提取信号从所述数据库中获得与所述病例信息关联的病例数据;
将所述病例数据输出至所述用户端。
为实现上述目的,本发明还提供一种信息匹配分析装置,包括:
数据创建模块,用于创建储存有病理信息和病例数据的数据库;
信息提取模块,接收用户端输出的检索条件,根据所述检索条件从所述数据库中提取病例信息;
匹配分析模块,比对所述检索条件与所述病例信息的结构化信息的匹配度,获得结构化评分;比对所述检索条件与所述病例信息的非结构化信息的匹配度,获得非结构化评分;根据所述结构化评分和非结构化评分,获得表达所述检索条件与病例信息之间匹配度的关联评分;
排序输出模块,所述检索条件与病例信息之间的关联评分,排列所述关联评分获得评分集;根据所述评分集中关联评分的排序向所述用户端输出病例信息。
为实现上述目的,本发明还提供一种计算机***,其包括多个计算机设备,各计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述多个计算机设备的处理器执行所述计算机程序时共同实现上述信息匹配分析方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,其包括多个存储介质,各存储介质上存储有计算机程序,所述多个存储介质存储的所述计算机程序被处理器执行时共同实现上述信息匹配分析方法的步骤。
本发明提供的信息匹配分析方法、装置、计算机***及可读存储介质,通过检索条件提取病例信息,并计算所述检索条件与病例信息之间的关联评分,排列所述关联评分获得评分集;使医生可以根据需求调节检索条件中各信息的重要程度,以满足医生不同的信息查询需求;又由于关联评分实现了对检索条件和病例信息之间匹配度的评价,因此,提高了查询精度以及学习交流以及获取诊断参考的效率;通过所述评分集中关联评分的排序向所述用户端输出病例信息,以便于医生能够快速获得关联程度较高的病例信息,提高了用户获得病例信息的效率,降低了用户疲劳强度。
附图说明
图1示意性示出了根据本申请实施例一的信息匹配分析方法的环境应用示意图;
图2为本发明信息匹配分析方法实施例一的流程图;
图3为本发明信息匹配分析方法实施例一中S3的获得结构化评分的流程图;
图4为本发明信息匹配分析方法实施例一中S3的获得非结构化评分的流程图;
图5为本发明信息匹配分析方法实施例一中S4中根据所述评分集中关联评分的排序向所述用户端输出病例信息的流程图;
图6为本发明信息匹配分析方法实施例一中所述S4中向所述用户端输出病例信息之后的流程图;
图7为本发明信息匹配分析装置实施例二的程序模块示意图;
图8为本发明计算机***实施例三中计算机设备的硬件结构示意图。
附图标记:
1、信息匹配分析装置 2、服务端 3、网络 4、用户端
5、计算机设备 11、数据创建模块 12、信息提取模块
13、匹配分析模块 14、排序输出模块 51、存储器 52、处理器
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的信息匹配分析方法、装置、计算机***及可读存储介质,适用于通信领域,为提供一种基于信息提取模块、匹配分析模块和排序输出模块的信息匹配分析方法。本发明通过信息提取模块接收用户端输出的检索条件并提取病例信息;通过匹配分析模块计算所述检索条件与病例信息之间的,用于描述所述检索条件与病例信息之间匹配度的关联评分,再通过匹配分析模块排列所述关联评分获得评分集;通过排序输出模块根据所述评分集中关联评分的排序向所述用户端输出病例信息。
图1示意性示出了根据本申请实施例一的信息匹配分析方法的环境应用示意图。
在示例性的实施例中,信息匹配分析方法所在的服务端2通过网络3连接多个用户端4;用户通过用户端2输入检索条件,并通过网络将检索条件输出至服务端2,服务端2根据检索条件提取病例信息,并计算所述检索条件与病例信息之间的关联评分,排列所述关联评分获得评分集;服务端2根据所述评分集中关联评分的排序向所述用户端4输出病例信息。
服务端2可以通过一个或多个网络3提供服务,网络3可以包括各种网络设备,例如路由器,交换机,多路复用器,集线器,调制解调器,网桥,中继器,防火墙,代理设备和/或等等。网络3可以包括物理链路,例如同轴电缆链路,双绞线电缆链路,光纤链路,它们的组合和/或类似物。网络3可以包括无线链路,例如蜂窝链路,卫星链路,Wi-Fi链路和/或类似物。
服务端2可以由单个或多个计算机设备(如,服务器)组成。该单个或多个计算设备可以包括虚拟化计算实例。虚拟化计算实例可以包括虚拟机,诸如计算机***的仿真,操作***,服务器等。计算设备可以基于定义用于仿真的特定软件(例如,操作***,专用应用程序,服务器)的虚拟映像和/或其他数据来加载虚拟机。随着对不同类型的处理服务的需求改变,可以在一个或多个计算设备上加载和/或终止不同的虚拟机。可以实现管理程序以管理同一计算设备上的不同虚拟机的使用。
实施例一
请参阅图2,本实施例的一种信息匹配分析方法,利用信息匹配分析装置1,包括:
S1:创建储存有病理信息和病例数据的数据库;
S2:接收用户端输出的检索条件,根据所述检索条件从所述数据库中提取病例信息;
S3:比对所述检索条件与所述病例信息的结构化信息的匹配度,获得结构化评分;比对所述检索条件与所述病例信息的非结构化信息的匹配度,获得非结构化评分;根据所述结构化评分和非结构化评分,获得表达所述检索条件与病例信息之间匹配度的关联评分;
S4:所述检索条件与病例信息之间的关联评分,排列所述关联评分获得评分集;根据所述评分集中关联评分的排序向所述用户端输出病例信息。
本实施例通过接收用户端输出的检索条件并提取病例信息,通过计算所述检索条件与病例信息之间的关联评分,用于确定所述检索条件与病例信息之间的匹配度,排列所述关联评分获得评分集,例如,可通过依次评价检索条件中的信息与病例信息中的信息之间的匹配度,再通过加权求和的方式获得用于综合评价检索条件与病例信息之间的匹配度;使医生可以根据需求调节检索条件中各信息的重要程度,以满足医生不同的信息查询需求;又由于关联评分实现了对检索条件和病例信息之间匹配度的评价,因此,提高了查询精度以及学习交流以及获取诊断参考的效率;需要说明的是,所述匹配度用于表达所述检索条件和病例信息之间的关联程度。通过所述评分集中关联评分的排序向所述用户端输出病例信息,以便于医生能够快速获得关联程度较高的病例信息,提高了用户获得病例信息的效率,降低了用户疲劳强度。
本实施例提供的信息匹配分析方法由服务端计算机设备(如服务器)执行。
于本实施例中,在所述S1中创建储存有病理信息和病例数据的数据库包括:
S101:创建数据库;
S102:通过网络爬虫从互联网获得病例数据;
S103:提取所述病例数据中的病例个人信息、病例主诉信息、病例诊断信息和病例用药信息,并将其汇总形成病例信息;
S104:将所述病例信息和病例数据储存至所述数据库。
其中,所述病例个人信息、病例主诉信息、病例诊断信息和病例用药信息为结构化文本信息,所述病例数据中还具有医生总结、病例原文件等非结构化文本信息。
需要说明的是,所述网络爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。病例数据是储存在互联网或医疗局域网中,用于描述病人基本信息及其治疗过程的数据,其至少包括病例个人信息、病例主诉信息、病例诊断信息和病例用药信息。
在可选的实施例中,在所述S1中创建储存有病理信息和病例数据的数据库还可包括:
S111:创建数据库;
S112:接收用户端输出的病例数据并将其录入所述数据库;
S113:从所述数据库中提取病例数据中的病例个人信息、病例主诉信息、病例诊断信息和病例用药信息,并将其汇总形成病例信息;
S114:将所述病例信息和病例数据关联并储存至所述数据库。
于本实施例中,所述S2中根据所述检索条件从所述数据库中提取病例信息包括:
S201:接收用户端输出的检索条件;
S202:根据所述检索条件从所述数据库中提取与其关联的病例信息。
本步骤中,所述所述检索条件中至少包括:检索个人信息、检索主诉信息、检索诊断信息和检索用药信息,若所述病例信息的病例个人信息、病例主诉信息、病例诊断信息和病例用药信息,至少一个信息与所述检索条件中的信息匹配,则判定所述病例信息与检索条件关联;通过这种方式实现了最大范围的获得与检索条件匹配的病例信息,保证了病例信息的提取的全面性,避免了遗漏病例信息的情况出现。
在一个优选的实施例中,所述S3中检索条件的结构化信息至少包括检索个人信息,所述检索个人信息至少包括检索性别信息和检索年龄信息;
所述病例信息的结构化信息至少包括病例个人信息,所述病例个人信息至少包括病例性别信息和病例年龄信息;
所述检索条件的非结构化信息至少包括检索主诉信息、检索诊断信息和检索用药信息;
所述病例信息的非结构化信息至少包括病例主诉信息、病例诊断信息和病例用药信息。
在一个优选的实施例中,请参阅图3,所述S3中比对所述检索条件与所述病例信息的结构化信息的匹配度,获得结构化评分包括:
S301:比对所述检索条件与病例信息的文本结构化信息是否一致;若一致,则生成高分值的文本结构化评分;若不一致,则生成低分值的文本结构化评分。
在示例性的实施例中,提取所述检索个人信息中的检索性别信息和所述病例个人信息中的病例性别信息;
比对所述检索性别信息和病例性别信息是否一致,若是则生成为高性别值的性别评分,若否则生成为低性别值的性别评分。
S302:计算所述检索条件与病例信息的数字结构化信息的数字差,并将所述数字差与至少一个预设的且具有评价分值的评价区间进行比对,将与所述数字差匹配的评价区间的评价分值设为数字结构化评分。
在示例性的实施例中,提取所述检索条件中的检索年龄信息和所述病例个人信息中的病例年龄信息;将所述检索年龄信息与病例年龄信息相减获得年龄差,将所述年龄差依次与预设的评价区间集中的评价区间进行比对,所述评价区间所对应的分值设为年龄评分;其中,所述评价区间集中至少具有一个评价区间,所述评价区间具有对应的分值;将所述性别评分与年龄评分汇总获得个人比对结果。
例如:若检索性别信息和病例性别信息一致,则生成分值为100分的性别评分,若检索性别信息和病例性别信息不一致,则生成分值为0分的性别评分。
评价区间集包括若干个评价区间,所述评价区间的年龄跨度为10岁,则获得0,(0,10),【10,20),【20,30),【30,40),【40,50),【50,60),【60,70),【70,80),【80,90),【90,+∞)的评价区间;所述评价区间0为表示检索年龄信息与病例年龄信息相同,因此该评价区间所对应的分值为100分,所述评价区间(0,10)对应的分值为90分,所述评价区间【10,20)对应的分值为80分,依次类推直至评价区间【90,+∞)对应分值为0分。
S303:将所述文本结构化评分与数字结构化评分加权求和获得结构化评分。
在示例性的实施例中,将预设的性别权重与所述个人比对结果中的性别评分相乘获得性别权值;将预设的年龄权重与所述个人比对结果中的年龄评分相乘获得年龄权值;将所述性别权值和年龄权值相加获得个人子评分。
在一个优选的实施例中,请参阅图4,所述S3中比对所述检索条件与所述病例信息的非结构化信息的匹配度,获得非结构化评分包括:
S311:将所述检索条件的字词依次与所述病例信息的非结构化信息进行比对,若所述字词在所述非结构化信息中出现,则将该字词设为目标字词;
S312:根据所述目标字词的数量获得所述检索条件与病例信息之间的匹配值;
S313:判断所述匹配值是否大于或等于预设阈值;若是,则生成高分值的非结构化评分;若否,则生成低分值的非结构化评分。
在示例性的实施例中,初始化预设的主诉匹配值,使所述主诉匹配值为0;提取所述检索主诉信息中的一个字词并将其与所述病例主诉信息进行比对,若所述病例主诉信息中具有所述字词,则将该字词设为目标字词并在主诉匹配值上增加一个主诉固定值;按照这种方式依次将所述检索主诉信息中的字词与所述病例主诉信息进行比对,并最终获得主诉匹配值;判断所述主诉匹配值是否大于或等于预设的主诉阈值,若是则生成为高主诉值的主诉子评分,若否则生成为低主诉值的主诉子评分。
本步骤中,所述高主诉值为100,低主诉值为0。
例如:检索主诉信息包括:头疼、眼花、腰部酸痛、咳嗽;主诉阈值为k,在本实施例中,主诉阈值为2;病例主诉信息包括:“不明原因持续头疼2周,夜间咳嗽,胸闷10天”,因此,比对出病例主诉信息中具有“头疼,咳嗽”共2个检索主诉信息的字词,故主诉匹配值P=2;由于主诉匹配值P>=主诉阈值k,因此生成为高主诉值的主诉子评分,即主诉子评分为100。
又例如:检索主诉信息包括:鼻塞、发热;主诉阈值为k,在本实施例中,主诉阈值为2;病例主诉信息包括:“左侧鼻腔反复、间断出血3天,伴有面部肌肉酸痛”,因此,比对出病例主诉信息中具有0个检索主诉信息的字词,故主诉匹配值P=0;由于主诉匹配值P<主诉阈值k,因此生成为低主诉值的主诉子评分,即主诉子评分为0。
进一步地,初始化预设的诊断匹配值,使所述诊断匹配值为0;提取所述检索诊断信息中的一个字词并将其与所述病例诊断信息进行比对,若所述病例诊断信息中具有所述字词,则将该字词设为目标字词并在诊断匹配值上增加一个诊断固定值;按照这种方式依次将所述检索诊断信息中的字词与所述病例诊断信息进行比对,并最终获得诊断匹配值;
判断所述诊断匹配值是否大于或等于预设的诊断阈值,若是则生成为高诊断值的诊断子评分,若否则生成为低诊断值的诊断子评分。
本步骤中,所述高诊断值为100,低诊断值为0。
例如:检索诊断信息包括:白血病、化疗、腰部酸痛、咳嗽;诊断阈值为k,在本实施例中,诊断阈值为2;病例诊断信息包括:“急性白血病、难治性,肺部感染,患者已行DAE、VP+MAC两次化疗,复查骨髓未缓解,现行第三次化疗及输血对症支持,特此说明”,因此,比对出病例诊断信息中具有“白血病、化疗”共2个检索诊断信息的字词,故诊断匹配值P=2;由于诊断匹配值P>=诊断阈值k,因此生成为高诊断值的诊断子评分,即诊断子评分为100。
又例如:检索诊断信息包括:鼻塞、发热;诊断阈值为k,在本实施例中,诊断阈值为2;病例诊断信息包括:“急性白血病、难治性,肺部感染,患者已行DAE、VP+MAC两次化疗,复查骨髓未缓解,现行第三次化疗及输血对症支持,特此说明”,因此,比对出病例诊断信息中具有0个检索诊断信息的字词,故诊断匹配值P=0;由于诊断匹配值P<诊断阈值k,因此生成为低诊断值的诊断子评分,即诊断子评分为0。
进一步地,初始化预设的用药匹配值,使所述用药匹配值为0;提取所述检索用药信息中的一个字词并将其与所述病例用药信息进行比对,若所述病例用药信息中具有所述字词,则将该字词设为目标字词并在用药匹配值上增加一个用药固定值;按照这种方式依次将所述检索用药信息中的字词与所述病例用药信息进行比对,并最终获得用药匹配值;
判断所述用药匹配值是否大于或等于预设的用药阈值,若是则生成为高用药值的用药子评分,若否则生成为低用药值的用药子评分。
本步骤中,所述高用药值为100,低用药值为0。
例如:检索用药信息包括:维C银翘片、新帕尔克、普洛必达、银黄颗粒;用药阈值为k,在本实施例中,用药阈值为2;病例用药信息包括:“维C银翘片、普洛必达、新秀”,因此,比对出病例用药信息中具有“维C银翘片、普洛必达、”共2个检索用药信息的字词,故用药匹配值P=2;由于用药匹配值P>=用药阈值k,因此生成为高用药值的用药子评分,即用药子评分为100。
又例如:检索用药信息包括:维C银翘片、新帕尔克、普洛必达、银黄颗粒;用药阈值为k,在本实施例中,用药阈值为2;病例用药信息包括:“新秀、板蓝根颗粒、可泰舒”,因此,比对出病例用药信息中具有0个检索用药信息的字词,故用药匹配值P=0;由于用药匹配值P<用药阈值k,因此生成为低用药值的用药子评分,即用药子评分为0。
在一个优选的实施例中,所述S3中根据所述结构化评分和非结构化评分,获得表达所述检索条件与病例信息之间匹配度的关联评分包括:
对所述结构化评分和非结构化评分进行加权求和获得关联评分;或
将所述结构化评分与非结构化评分相乘获得关联评分;或
计算所述结构化评分与非结构化评分的平方和获得关联评分。
示例性地,本申请以对所述结构化评分和非结构化评分进行加权求和获得关联评分进行举例:
将所述个人子评分、主诉子评分、诊断子评分和用药子评分加权求和获得关联评分包括:将预设的个人权重与个人子评分相乘获得个人关联值;将预设的主诉权重与主诉子评分相乘获得主诉关联值;将预设的诊断权重与主诉子评分相乘获得诊断关联值;将预设的用药权重与主诉子评分相乘获得用药关联值;将所述个人关联值、主诉关联值、诊断关联值和用药关联值求和获得关联评分。
本步骤中,个人权重A、主诉权重B、诊断权重C和用药权重D可根据需要设置;进一步地,所述个人权重A、主诉权重B、诊断权重C和用药权重D相加之和为1。
因此所述关联评分可根据以下公式计算获得:
E=A×m+B×n+C×p+D×q
其中,E为关联评分,m为个人关联值,n为主诉关联值,p为诊断关联值,q为用药关联值,A为个人权重,B为主诉权重,C为诊断权重,D为用药权重。
于本实施例中,所述S4中的排列所述关联评分获得评分集包括:
S411:获得所述检索条件与所有病例信息之间的关联评分;
S412:按照降序排列的方式排列所述关联评分并汇总获得评分集。
本步骤中,通过按照降序排列方式排列关联评分,使得评分最高的病例信息能够排列在评分集前侧,以便于用户及时快速的获得其需求的病例信息,提高了用户的使用效率。
在一个优选的实施例中,请参阅图5,所述S4中根据所述评分集中关联评分的排序向所述用户端输出病例信息包括:
S411:预设关联度阈值;
S412:消除所述评分集中小于所述关联度阈值的关联评分获得优化评分集;
S413:从所述数据库中提取与所述优化评分集中关联评分所对应的病例信息,并按照所述关联评分的排序将所述病例信息输出至用户端。
本步骤中,通过消除评分集中小于关联度阈值的评分,使其只需提取大于关联度评分的病例信息,降低了本申请的信息匹配分析方法所在的设备的运算负担,并且提高了其运算效率,保证了信息匹配分析方法能够平稳进行。
在一个优选的实施例中,请参阅图6,所述S4中根据所述评分集中关联评分的排序向所述用户端输出病例信息之后还可包括:
S421:接收所述用户端根据所述病例信息输出的提取信号;
S422:根据所述提取信号从所述数据库中获得与所述病例信息关联的病例数据;
S423:将所述病例数据输出至所述用户端。
需要说明的是,所述提取信号具有get函数,根据所述get函数从所述数据库中获取与所述病例信息关联的病例数据;因病例信息的数据量较低,因此,通过仅向用户端输出病例信息,降低了本申请的信息匹配分析方法所在的设备的运行负担;而通过从用户端根据病例信息输出的提取信号,从数据库中提取病例数据并将其输出至用户端,满足了用户端对于全面数据的获取需求,在保证设备运行效率的同时,还保证了用户端获取数据的全面性。
实施例二
请参阅图7,本实施例的一种信息匹配分析装置1,包括:
数据创建模块11,用于创建储存有病理信息和病例数据的数据库;
信息提取模块12,接收用户端输出的检索条件,根据所述检索条件从所述数据库中提取病例信息;
匹配分析模块13,比对所述检索条件与所述病例信息的结构化信息的匹配度,获得结构化评分;比对所述检索条件与所述病例信息的非结构化信息的匹配度,获得非结构化评分;根据所述结构化评分和非结构化评分,获得表达所述检索条件与病例信息之间匹配度的关联评分;
排序输出模块14,所述检索条件与病例信息之间的关联评分,排列所述关联评分获得评分集;根据所述评分集中关联评分的排序向所述用户端输出病例信息。
本技术方案涉及大数据领域的数据采集技术,通过通用网络爬虫从互联网获得病例数据,以实现数据爬取的技术效果。
实施例三:
为实现上述目的,本发明还提供一种计算机***,该计算机***包括多个计算机设备5,实施例二的信息匹配分析装置1的组成部分可分散于不同的计算机设备中,计算机设备可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过***总线相互通信连接的存储器51、处理器52,如图8所示。需要指出的是,图8仅示出了具有组件-的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器51可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,存储器51也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器51还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器51通常用于存储安装于计算机设备的操作***和各类应用软件,例如实施例一的信息匹配分析装置的程序代码等。此外,存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器52在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备的总体操作。本实施例中,处理器52用于运行存储器51中存储的程序代码或者处理数据,例如运行信息匹配分析装置,以实现实施例一的信息匹配分析方法。
实施例四:
为实现上述目的,本发明还提供一种计算机可读存储***,其包括多个存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器52执行时实现相应功能。本实施例的计算机可读存储介质用于存储信息匹配分析装置,被处理器52执行时实现实施例一的信息匹配分析方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种信息匹配分析方法,其特征在于,包括:
创建数据库;
通过网络爬虫从互联网获得病例数据,提取所述病例数据中的病例个人信息、病例主诉信息、病例诊断信息和病例用药信息,并将其汇总形成病例信息;和/或
接收用户端输出的病例数据并将其录入所述数据库;从所述数据库中提取病例数据中的病例个人信息、病例主诉信息、病例诊断信息和病例用药信息,并将其汇总形成病例信息;
将所述病例信息和病例数据储存至所述数据库;
接收用户端输出的检索条件,根据所述检索条件从所述数据库中提取病例信息;
比对所述检索条件与病例信息的文本结构化信息是否一致;若一致,则生成高分值的文本结构化评分;若不一致,则生成低分值的文本结构化评分;
计算所述检索条件与病例信息的数字结构化信息的数字差,并将所述数字差与至少一个预设的且具有评价分值的评价区间进行比对,将与所述数字差匹配的评价区间的评价分值设为数字结构化评分;
将所述文本结构化评分与数字结构化评分加权求和获得结构化评分;
将所述检索条件的字词依次与所述病例信息的非结构化信息进行比对,若所述字词在所述非结构化信息中出现,则将该字词设为目标字词;
根据所述目标字词的数量获得所述检索条件与病例信息之间的匹配值;
判断所述匹配值是否大于或等于预设阈值;若是,则生成高分值的非结构化评分;若否,则生成低分值的非结构化评分;
根据所述结构化评分和非结构化评分,获得表达所述检索条件与病例信息之间匹配度的关联评分;
所述检索条件与病例信息之间的关联评分,排列所述关联评分获得评分集;根据所述评分集中关联评分的排序向所述用户端输出病例信息。
2.根据权利要求1所述的信息匹配分析方法,其特征在于,所述检索条件的结构化信息至少包括检索个人信息,所述检索个人信息至少包括检索性别信息和检索年龄信息;
所述病例信息的结构化信息至少包括病例个人信息,所述病例个人信息至少包括病例性别信息和病例年龄信息;
所述检索条件的非结构化信息至少包括检索主诉信息、检索诊断信息和检索用药信息;
所述病例信息的非结构化信息至少包括病例主诉信息、病例诊断信息和病例用药信息。
3.根据权利要求1所述的信息匹配分析方法,其特征在于,所述根据所述结构化评分和非结构化评分,获得表达所述检索条件与病例信息之间匹配度的关联评分包括:
对所述结构化评分和非结构化评分进行加权求和获得关联评分;或
将所述结构化评分与非结构化评分相乘获得关联评分;或
计算所述结构化评分与非结构化评分的平方和获得关联评分。
4.根据权利要求1所述的信息匹配分析方法,其特征在于,所述根据所述评分集中关联评分的排序向所述用户端输出病例信息包括:
预设关联度阈值;
消除所述评分集中小于所述关联度阈值的关联评分获得优化评分集;
从所述数据库中提取与所述优化评分集中关联评分所对应的病例信息,并按照所述关联评分的排序将所述病例信息输出至用户端。
5.根据权利要求1所述的信息匹配分析方法,其特征在于,所述根据所述评分集中关联评分的排序向所述用户端输出病例信息之后还可包括:
接收所述用户端根据所述病例信息输出的提取信号;
根据所述提取信号从所述数据库中获得与所述病例信息关联的病例数据;
将所述病例数据输出至所述用户端。
6.一种信息匹配分析装置,其特征在于,包括:
数据创建模块,用于通过网络爬虫从互联网获得病例数据,提取所述病例数据中的病例个人信息、病例主诉信息、病例诊断信息和病例用药信息,并将其汇总形成病例信息,将所述病例信息和病例数据储存至数据库;
信息提取模块,接收用户端输出的检索条件,根据所述检索条件从所述数据库中提取病例信息;
匹配分析模块,用于比对所述检索条件与病例信息的文本结构化信息是否一致;若一致,则生成高分值的文本结构化评分;若不一致,则生成低分值的文本结构化评分;计算所述检索条件与病例信息的数字结构化信息的数字差,并将所述数字差与至少一个预设的且具有评价分值的评价区间进行比对,将与所述数字差匹配的评价区间的评价分值设为数字结构化评分;将所述文本结构化评分与数字结构化评分加权求和获得结构化评分;将所述检索条件的字词依次与所述病例信息的非结构化信息进行比对,若所述字词在所述非结构化信息中出现,则将该字词设为目标字词;根据所述目标字词的数量获得所述检索条件与病例信息之间的匹配值;判断所述匹配值是否大于或等于预设阈值;若是,则生成高分值的非结构化评分;若否,则生成低分值的非结构化评分;根据所述结构化评分和非结构化评分,获得表达所述检索条件与病例信息之间匹配度的关联评分;
排序输出模块,所述检索条件与病例信息之间的关联评分,排列所述关联评分获得评分集;根据所述评分集中关联评分的排序向所述用户端输出病例信息。
7.一种计算机***,其包括多个计算机设备,各计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述多个计算机设备的处理器执行所述计算机程序时共同实现权利要求1至5任一项所述信息匹配分析方法的步骤。
8.一种计算机可读存储介质,其包括多个存储介质,各存储介质上存储有计算机程序,其特征在于,所述多个存储介质存储的所述计算机程序被处理器执行时共同实现权利要求1至5任一项所述信息匹配分析方法的步骤。
CN202010135952.XA 2020-03-02 2020-03-02 信息匹配分析方法、装置、计算机***及可读存储介质 Active CN111402973B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010135952.XA CN111402973B (zh) 2020-03-02 2020-03-02 信息匹配分析方法、装置、计算机***及可读存储介质
PCT/CN2020/112379 WO2021174788A1 (zh) 2020-03-02 2020-08-31 信息匹配分析方法、装置、计算机***及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010135952.XA CN111402973B (zh) 2020-03-02 2020-03-02 信息匹配分析方法、装置、计算机***及可读存储介质

Publications (2)

Publication Number Publication Date
CN111402973A CN111402973A (zh) 2020-07-10
CN111402973B true CN111402973B (zh) 2023-07-07

Family

ID=71430499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010135952.XA Active CN111402973B (zh) 2020-03-02 2020-03-02 信息匹配分析方法、装置、计算机***及可读存储介质

Country Status (2)

Country Link
CN (1) CN111402973B (zh)
WO (1) WO2021174788A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402973B (zh) * 2020-03-02 2023-07-07 平安科技(深圳)有限公司 信息匹配分析方法、装置、计算机***及可读存储介质
CN112635072A (zh) * 2020-12-31 2021-04-09 大连东软教育科技集团有限公司 基于相似度计算的icu相似病例检索方法、***及存储介质
CN113674869B (zh) * 2021-10-21 2021-12-24 南通剑烽机械有限公司 一种基于人工智能医疗大数据数据共享方法及***
CN114496140B (zh) * 2021-12-31 2022-12-30 医渡云(北京)技术有限公司 查询条件的数据匹配方法、装置、设备及介质
CN115966292B (zh) * 2023-01-05 2023-09-15 江苏拜仁控股集团有限公司 一种基于智慧医院的数据自动化管理***及方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012104949A1 (ja) * 2011-01-31 2012-08-09 パナソニック株式会社 症例検索装置および症例検索方法
CN104915561B (zh) * 2015-06-11 2018-10-16 万达信息股份有限公司 疾病特征智能匹配方法
CN107958007B (zh) * 2016-10-18 2022-03-29 浙江格林蓝德信息技术有限公司 病例信息检索方法及装置
CN106503468A (zh) * 2016-11-05 2017-03-15 深圳市前海安测信息技术有限公司 医疗信息化基于匹配关键字的电子病历分析***及方法
CN107688595B (zh) * 2017-05-10 2019-03-15 平安科技(深圳)有限公司 信息检索准确性评估方法、装置及计算机可读存储介质
CN108766561B (zh) * 2018-05-31 2023-12-08 平安医疗科技有限公司 病症信息处理方法、装置、计算机设备和存储介质
CN109378064B (zh) * 2018-10-29 2021-02-02 南京医基云医疗数据研究院有限公司 医疗数据处理方法、装置电子设备及计算机可读介质
CN111402973B (zh) * 2020-03-02 2023-07-07 平安科技(深圳)有限公司 信息匹配分析方法、装置、计算机***及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈明."大数据技术概论".《大数据技术概论》.中国铁道出版社,2019,第73-74页. *

Also Published As

Publication number Publication date
CN111402973A (zh) 2020-07-10
WO2021174788A1 (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN111402973B (zh) 信息匹配分析方法、装置、计算机***及可读存储介质
CN110837550B (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
CN108492887B (zh) 医疗知识图谱构建方法及装置
CN112199375A (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN112037912A (zh) 基于医疗知识图谱的分诊模型训练方法、装置及设备
CN111695593A (zh) 基于XGBoost的数据分类方法、装置、计算机设备及存储介质
CN113204621B (zh) 文档入库、文档检索方法,装置,设备以及存储介质
CN111899865B (zh) 医疗信息的推荐方法、装置、介质及电子设备
CN111104242A (zh) 基于深度学习的操作***的异常日志的处理方法及装置
CN112885478A (zh) 医疗文献的检索方法、装置、电子设备及存储介质
CN111696661A (zh) 患者分群模型构建方法、患者分群方法及相关设备
CN116109732A (zh) 图像标注方法、装置、处理设备及存储介质
CN113782195A (zh) 一种体检套餐定制方法和装置
CN113239290A (zh) 用于舆情监测的数据分析方法、装置和电子装置
CN110502620B (zh) 导诊相似问题对生成方法、***及计算机设备
CN111783830A (zh) 基于oct的视网膜分类方法、装置、计算机设备及存储介质
CN111415760A (zh) 医生推荐方法、***、计算机设备及存储介质
JP5720536B2 (ja) 秘匿化データの検索のための情報処理方法及び装置
CN114334065A (zh) 病历处理方法、计算机可读存储介质及计算机设备
CN110162769B (zh) 文本主题输出方法和装置、存储介质及电子装置
CN111368552B (zh) 一种面向特定领域的网络用户群组划分方法及装置
CN111403011B (zh) 挂号科室推送方法、装置、***、电子设备及存储介质
CN117292783A (zh) 医学影像报告生成***
CN112329461A (zh) 相似病历确定方法、计算机设备及计算机存储介质
US11817216B2 (en) Search method and information processing system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant