CN112800213B - 医学文本信息显示方法、装置及电子设备 - Google Patents

医学文本信息显示方法、装置及电子设备 Download PDF

Info

Publication number
CN112800213B
CN112800213B CN202110106860.3A CN202110106860A CN112800213B CN 112800213 B CN112800213 B CN 112800213B CN 202110106860 A CN202110106860 A CN 202110106860A CN 112800213 B CN112800213 B CN 112800213B
Authority
CN
China
Prior art keywords
medical
rules
feature
feature words
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110106860.3A
Other languages
English (en)
Other versions
CN112800213A (zh
Inventor
杨郑彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yiyong Technology Co ltd
Original Assignee
Beijing Yiyong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yiyong Technology Co ltd filed Critical Beijing Yiyong Technology Co ltd
Priority to CN202110106860.3A priority Critical patent/CN112800213B/zh
Publication of CN112800213A publication Critical patent/CN112800213A/zh
Application granted granted Critical
Publication of CN112800213B publication Critical patent/CN112800213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种医学文本信息显示方法、装置及电子设备,其中方法包括:根据医学术语标准名称和医学术语标准名称对应的所有特征词建立规则库,将所获取的医学文本信息拆分为多个关键词,根据规则库中与关键词相同的特征词所属的规则生成第一候选规则集,如果医学文本信息与第一候选规则集中的规则包含的所有特征词及预设的特征约束相匹配,则根据规则生成第二候选规则集,将第二候选规则集中的规则按照评分标准进行评分,显示评分最高的规则对应的医学术语标准名称;本发明将同一语义的医学术语的不同表达形态以标准名称显示并进行编码,从而实现医学概念标准化,解决医疗文本中的概念变体现象,具有生产简易、可解释性高的特点。

Description

医学文本信息显示方法、装置及电子设备
技术领域
本发明涉及医学信息处理领域,具体涉及一种医学文本信息显示方法、装置及电子设备。
背景技术
医学术语贯穿于临床诊疗过程中所产生的诊疗记录、文书中,存在专业性强、信息密度大、简称俗称多等多样性语言现象的特点。
针对医学术语简称俗称多、名称不统一导致信息沟通不便的现象,相关技术主要使用文本分类的正则表达式或文本分类的方法,将同一语义术语的不同表达形态,标准化为统一的术语并进行编码。然而,这种方式存在短文本浅层信号较少、编码类别数量大、类别间语义差距不显著、分布不均衡、标注成本高、表达式方法在生产和应用上过于低效等问题。
发明内容
本发明的主要目的在于提供一种医学文本信息显示方法及装置,以实现医学文本统一标准显示,解决医学文本中出现概念变体的问题。
为了实现上述目的,本发明的第一方面提供了一种医学文本信息显示方法,包括:
根据医学术语标准名称和所述医学术语标准名称对应的所有特征词建立规则库;
将所获取的医学文本信息拆分为多个关键词,根据所述规则库中与所述关键词相同的特征词所属的规则生成第一候选规则集,其中,所述第一候选规则集为规则库的子集,包含所述关键词与医学术语标准名称的对应关系;
如果所述医学文本信息与第一候选规则集中的规则包含的所有特征词及预设的特征约束相匹配,则根据所述规则生成第二候选规则集,其中,所述第二候选规则集为第一候选规则集的子集;
将所述第二候选规则集中的规则按照评分标准进行评分,显示评分最高的规则对应的医学术语标准名称。
可选地,所述根据医学术语标准名称和所述医学术语标准名称对应的所有特征词建立规则库,包括:
所述规则库由多条规则构成,所述规则的形式包括字典;
以医学术语标准名称对应的规则编码标识为字典的键、以所述医学术语标准名称和所述医学术语标准名称对应的所有特征词和特征约束为字典的值,建立规则。
可选地,所述将所获取的医学文本信息拆分为多个关键词,根据所述规则库中与所述关键词相同的特征词所属的规则生成第一候选规则集,包括:
利用分词器将所获取的医学文本信息拆分为多个关键词;
通过倒排索引查找所述规则库中与所述关键词相同的特征词所属的规则;
将所述规则作为第一候选规则集中的元素。
可选地,所述如果所述医学文本信息与第一候选规则集中的规则包含的所有特征词及预设的特征约束相匹配,则根据所述规则生成第二候选规则集,包括:
对于所述第一候选规则集中的规则,判断所述医学文本信息是否包含所述规则中的所有特征词;
如果包含,则判断所述医学文本信息是否满足所述规则中的所有特征约束;
如果满足,则将所述规则作为第二候选规则集中的元素。
可选地,所述特征词包含多组;
组间包括不同语义的特征词,组内包括相同语义的特征词,各组特征词之间的关系为逻辑与,组内特征词之间的关系为逻辑或;
所述所有特征词包括每组中的一个特征词。
可选地,所述特征约束为所述特征词的约束条件;
所述特征约束包括特征词的排除约束、否定词约束、起始约束、分隔约束、计数约束和/或顺序约束。
可选地,所述将所述第二候选规则集中的规则按照评分标准进行评分包括:
计算所述第二候选规则集中各规则所包含特征词的个数;
计算各规则对应的医学术语标准名称在文本上所包含其他医学术语标准名称的个数;
将所包含特征词的个数和其他医学术语标准名称的个数相加,得到所述规则的评分。
本发明的第二方面提供了一种医学文本信息显示装置,包括:
建立单元,用于根据医学术语标准名称和所述医学术语标准名称对应的所有特征词建立规则库;
第一生成单元,用于将所获取的医学文本信息拆分为多个关键词,根据所述规则库中与所述关键词相同的特征词所属的规则生成第一候选规则集,其中,所述第一候选规则集为规则库的子集,包含所述关键词与医学术语标准名称的对应关系;
第二生成单元,用于如果所述医学文本信息与第一候选规则集中的规则包含的所有特征词及预设的特征约束相匹配,则根据所述规则生成第二候选规则集,其中,所述第二候选规则集为第一候选规则集的子集;
显示单元,用于将所述第二候选规则集中的规则按照评分标准进行评分,显示评分最高的规则对应的医学术语标准名称。
本发明的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行第一方面任意一项提供的医学文本信息显示方法。
本发明的第四方面提供了一种电子设备,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行第一方面任意一项提供的医学文本信息显示方法。
在本发明实施例提供的医学文本信息显示方法中,首先根据医学术语标准名称和所述医学术语标准名称对应的所有特征词建立规则库,然后将所获取的医学文本信息拆分为多个关键词,根据所述规则库中与所述关键词相同的特征词所属的规则生成第一候选规则集,其中,所述第一候选规则集为规则库的子集,包含所述关键词与医学术语标准名称的对应关系,如果所述医学文本信息与第一候选规则集中的规则包含的所有特征词及预设的特征约束相匹配,则根据所述规则生成第二候选规则集,其中,所述第二候选规则集为第一候选规则集的子集,最后将所述第二候选规则集中的规则按照评分标准进行评分,显示评分最高的规则对应的医学术语标准名称;本发明实施例提供的技术方案将同一语义的术语的不同表达形态,标准化为统一的术语并进行编码,从而实现医学概念标准化,解决医疗文本中的概念变体现象,将复杂的医学专业术语抽象成计算机可阅读的基于语义的规则,对规则进行模式识别,与现有文本分类方法相比,具有生产简易、可推广性好、推理性能高、可解释性高的特点。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的医学文本信息显示方法流程示意图;
图2为本发明实施例提供的医学文本信息显示装置框图;
图3为本发明实施例提供的电子设备框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本发明中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本发明中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
针对医学术语简称俗称多、名称不统一导致信息沟通不便的现象,相关技术主要使用文本分类的正则表达式或文本分类的方法,将同一语义术语的不同表达形态,标准化为统一的术语并进行编码。然而,这种方式存在短文本浅层信号较少、编码类别数量大、类别间语义差距不显著、分布不均衡、标注成本高、表达式方法在生产和应用上过于低效等问题。
为了解决上述问题,本发明实施例提供了一种医学文本信息显示方法,如图1所示,该方法包括如下的步骤S101至步骤S104:
步骤S101:根据医学术语标准名称和所述医学术语标准名称对应的所有特征词建立规则库;将同一语义医学术语的不同表达形态统一为医学术语标准名称,并拆分出多个特征词,根据该医学术语标准名称和拆分出的所有特征词建立规则库,该规则库用于存储医学术语标准名称和拆分出的所有特征词的对应关系;
例如,将表示同一语义医学术语的“左肺上叶肺癌”和“左上肺肺癌”这两种表达形态统一为医学术语标准名称“左肺上叶肺癌”。通过将同一语义的医学术语的不同表达形态,标准化为统一的术语,实现了医学概念标准化,解决了医疗文本中的概念变体现象。
本发明实施例提供的医学文本信息显示方法中的三张主要表包括概念表、规则表和关系表,各个表的表结构如下所示:
表1医疗标准术语概念表(std_term_concept)
表2医疗标准术语规则表(std_term_rule)
YY_TERM_CODE BIGINT COMMENT'YY术语编码',
YY_TERM_NAME VARchar(32)COMMENT'术语标准名',
YY_RULE_CODE BIGINT NOT NULL AUTO_INCREMENT COMMENT'YY规则编码',
TERM_STATE char(1)COMMENT'词条状态',
Feature1 VARchar(32)COMMENT'特征1',
Feature2 VARchar(32)COMMENT'特征2',
Feature3 VARchar(32)COMMENT'特征3',
Feature4 VARchar(32)COMMENT'特征4',
Feature5 VARchar(32)COMMENT'特征5',
Feature6 VARchar(32)COMMENT'特征6',
VERSION VARchar(32)COMMENT'版本',
CREATE_TIME DATETIME COMMENT'创建时间',
LAST_UPDATE_TIME DATETIME COMMENT'最新修改时间',
PRIMARY KEY(YY_RULE_CODE)
表3医疗标准术语关系表(std_term_relationship)
YY_REL_CODE BIGINT NOT NULL AUTO_INCREMENT COMMENT'YY关系编码',
SOURCE_TERM_CODE BIGINT COMMENT'起点术语编码',
TARGET_TERM_CODE BIGINT COMMENT'终点术语编码',
REL_TYPE VARchar(32)COMMENT'关系类型',
PRIMARY KEY(YY_REL_CODE)
具体的,步骤S101包括:
所述规则库由多条规则构成,所述规则的形式包括字典;在计算机中,将上述表2所示医疗标准术语规则表(std_term_rule)写入内存,以便于访问,存储形式为字典;
以医学术语标准名称对应的规则编码标识为字典的键、以所述医学术语标准名称和所述医学术语标准名称对应的所有特征词和特征约束为字典的值,建立规则。其中,字典的键设计为规则编码,即上述表2所示医疗标准术语规则表(std_term_rule)中的YY_RULE_CODE,字典的值设计为json格式。
步骤S102:将所获取的医学文本信息拆分为多个关键词,根据所述规则库中与所述关键词相同的特征词所属的规则生成第一候选规则集,其中,所述第一候选规则集为规则库的子集,包含所述关键词与医学术语标准名称的对应关系;
在事实库中存储临床诊疗过程所产生的诊疗记录、文书、主诉、药品等原始文本数据,从事实库中获取医学文本信息,将医学文本信息拆分为多个关键词,对于每个关键词,从规则库中查找与该关键词相同的特征词所属于的规则,查找完成后,每个关键词都对应一条或多条规则,该医学文本信息拆分出的所有关键词对应的所有规则构成第一候选规则集;通过关键词将查找出的对应规则生成第一候选规则集,在确定医学文本信息对应的医学术语标准名称时,与建立的规则库相比,缩小了规则的查找范围,不必对规则库中的全部规则一一遍历,加快了整体过程。
具体的,步骤S102包括:
利用分词器将所获取的医学文本信息拆分为多个关键词;通过倒排索引查找所述规则库中与所述关键词相同的特征词所属的规则;将所述规则作为第一候选规则集中的元素。
使用分词器,可以将待统一的医学文本信息分词,得到多个关键词,然后使用倒排索引机制,根据每一个关键词,从规则库中查找与该关键词相同的特征词所属于的或者所对应的规则,每个关键词对应一条或多条规则,所有关键词对应的规则组成第一候选规则集,与规则库相比,缩小了候选规则集的查找范围,不必对规则库中的全部规则一一遍历,大大加速了整体过程。
步骤S103:如果所述医学文本信息与第一候选规则集中的规则包含的所有特征词及预设的特征约束相匹配,则根据所述规则生成第二候选规则集,其中,所述第二候选规则集为第一候选规则集的子集;筛选出第一候选规则集后,对于其中的每一条规则,判断该医学文本信息与该规则包含的所有特征词及预设的特征约束是否相匹配,如果该医学文本信息与所有特征词和特征约束都匹配,则将匹配的规则组成第二候选规则集,容易看出,该第二候选规则集是第一候选规则集的子集。将特征词匹配和特征约束匹配这种复用程度高的操作抽象为专用算子,有利于业务解耦和减少硬编码;并且,经过特征约束匹配,能够更有表达力地描述逻辑运算,约束限制特征词的使用,增强了规则的表达力。
具体的,步骤S103包括:
对于所述第一候选规则集中的规则,判断所述医学文本信息是否包含所述规则中的所有特征词;如果包含,则判断所述医学文本信息是否满足所述规则中的所有特征约束;如果满足,则将所述规则作为第二候选规则集中的元素。
对于第一候选规则集中的每一条规则,首先判断医学文本信息是否包含该规则中的所有特征词,如果包含,然后判断医学文本信息是否满足所述规则中的所有特征约束,如果满足,则将该规则作为第二候选规则集中的元素,所有元素构成第二候选规则集。经过特征约束匹配,能够更有表达力地描述逻辑运算,约束限制特征词的使用,增强了规则的表达力。
其中,所述特征词包含多组,最多包含6组特征词,即上述表2所示医疗标准术语规则表(std_term_rule)中的Feature1、Feature2、Feature3、Feature4、Feature5和Feature6;组间包括不同语义的特征词,组内包括相同语义的特征词,各组特征词之间的关系为逻辑与,组内特征词之间的关系为逻辑或;所述所有特征词包括每组中的一个特征词。对于医学术语标准名称的特征词,通过结合组内特征词的逻辑或,以及组间特征词的逻辑与,将同一语义的医学术语的不同表达形态,统一为医学术语标准名称,实现医学概念标准化,解决医疗文本中的概念变体现象,不同变体统一表达形态后,更方便从文本中查找出某一医学术语标准名称出现的所有的位置,不会由于同一语义的医学术语因表达形态不同而造成遗漏,也更利于文本的上下文理解,不会产生歧义。
例如,对于医学术语标准名称“原发性支气管肺癌”而言,其包含4组特征词,分别为[‘原发’,‘特发’]、[‘支气管’]、[‘肺’]和[‘癌’],由于各组特征词之间的关系为逻辑与,组内特征词之间的关系为逻辑或,因此,该医学术语标准名称可匹配医学文本信息“原发性支气管肺癌”和“特发性支气管肺癌”,达到了将同一语义的医学术语的不同表达形态,统一为医学术语标准名称的目的。
并且,所述特征约束为所述特征词的约束条件;所述特征约束包括特征词的排除约束、否定词约束、起始约束、分隔约束、计数约束和/或顺序约束。规则库中的一条规则可以包含一个或多个特征约束,对于多个特征约束,判断医学文本信息是否满足所述规则中的所有特征约束。
具体而言,排除约束,即文中不能出现指定关键词,例如,约定事实库中的医学文本信息不能出现“急”字;
否定词约束,即指定特征词前须出现否定词,例如,约定出现否定词“非”、“无”、“未”等;
起始约束,即指定特征词须出现在原文起始位置,例如,约定医学术语标准名称中一个特征词为“急性”,则匹配事实库中以“急性”开头的医学文本信息;
分隔约束,即指定特征词之间须出现字符将两者分隔开,例如,指定特征词“乳腺”和“癌”之间有分隔约束,则无法匹配事实库中内容为“乳腺癌”的医学文本信息,可匹配“乳腺原位癌”的医学文本信息;
计数约束,即指定特征词须出现指定次数,例如,指定特征词“肌”出现2次,则无法匹配事实库中内容为“子宫肌瘤”的医学文本信息,可匹配内容为“平滑肌肌瘤”的医学文本信息;
顺序约束,即文中出现的指定特征词须按先后顺序出现,例如,指定两个特征词“急性”和“肺炎”存在先后顺序约束,则无法匹配事实库中内容为“肺炎,急性肝炎”的医学文本信息,可匹配内容为“急性肺炎”的医学文本信息。
步骤S104:将所述第二候选规则集中的规则按照评分标准进行评分,显示评分最高的规则对应的医学术语标准名称。将规则评分这种复用程度高的操作抽象为专用算子,有利于业务解耦和减少硬编码。
具体的,步骤S104包括:
计算所述第二候选规则集中各规则所包含特征词的个数;计算各规则对应的医学术语标准名称在文本上所包含其他医学术语标准名称的个数;将所包含特征词的个数和其他医学术语标准名称的个数相加,得到所述规则的评分。
例如,当第二候选规则集中包含三条规则,各规则对应的医学术语标准名称分别为“肺癌”、“小细胞肺癌”和“非小细胞肺癌”时,首先计算所述第二候选规则集中各规则所包含特征词的个数:“肺癌”包含“肺”和“癌”2个特征词,“小细胞肺癌”包含“小细胞”、“肺”和“癌”3个特征词,“非小细胞肺癌”包含“小细胞”、“肺”和“癌”3个特征词;
然后计算各规则对应的医学术语标准名称在文本上所包含其他医学术语标准名称的个数:“肺癌”不包含其他医学术语标准名称,“小细胞肺癌”包含“肺癌”1个其他医学术语标准名称,“非小细胞肺癌”包含“小细胞肺癌”和“肺癌”2个其他医学术语标准名称;
最后,将所包含特征词的个数和其他医学术语标准名称的个数相加,可得:“肺癌”2分,“小细胞肺癌”4分,“非小细胞肺癌”5分,评分最高为5分,最终显示的医学术语标准名称为“非小细胞肺癌”。
从以上的描述中,可以看出,本发明实现了如下技术效果:
1.本发明实施例提供的技术方案将同一语义的术语的不同表达形态,标准化为统一的术语并进行编码,从而实现医学概念标准化,解决医疗文本中的概念变体现象;不同变体统一表达形态后,更方便从文本中查找出某一医学术语标准名称出现的所有的位置,不会由于同一语义的医学术语因表达形态不同而造成遗漏,也更利于文本的上下文理解,不会产生歧义。
2.将复杂的医学专业术语抽象成计算机可阅读的基于语义的规则,对规则进行模式识别,与现有文本分类方法相比,具有生产简易、可推广性好、推理性能高、可解释性高的特点,规避了文本分类方法的局限和基于表达式方法的局限。
3.将特征词匹配、特征约束匹配和规则评分这类复用程度高的操作抽象为专用算子,有利于业务解耦和减少硬编码;并且,经过特征约束匹配,能够更有表达力地描述逻辑运算,约束限制特征词的使用,增强了规则的表达力。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明实施例还提供了一种用于实施上述医学文本信息显示方法的医学文本信息显示装置,如图2所示,该装置包括:
建立单元21,用于根据医学术语标准名称和所述医学术语标准名称对应的所有特征词建立规则库;
第一生成单元22,用于将所获取的医学文本信息拆分为多个关键词,根据所述规则库中与所述关键词相同的特征词所属的规则生成第一候选规则集,其中,所述第一候选规则集为规则库的子集,包含所述关键词与医学术语标准名称的对应关系;
第二生成单元23,用于如果所述医学文本信息与第一候选规则集中的规则包含的所有特征词及预设的特征约束相匹配,则根据所述规则生成第二候选规则集,其中,所述第二候选规则集为第一候选规则集的子集;
显示单元24,用于将所述第二候选规则集中的规则按照评分标准进行评分,显示评分最高的规则对应的医学术语标准名称。
本发明实施例还提供了一种电子设备,如图3所示,该电子设备包括一个或多个处理器31以及存储器32,图3中以一个处理器31为例。
该控制器还可以包括:输入装置33和输出装置34。
处理器31、存储器32、输入装置33和输出装置34可以通过总线或者其他方式连接,图3中以通过总线连接为例。
处理器31可以为中央处理器(CentralProcessingUnit,简称为CPU),处理器31还可以为其他通用处理器、数字信号处理器(DigitalSignalProcessor,简称为DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称为FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合,通用处理器可以是微处理器或者任何常规的处理器。
存储器32作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的控制方法对应的程序指令/模块。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的医学文本信息显示方法。
存储器32可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置33可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置34可包括显示屏等显示设备。
一个或者多个模块存储在存储器32中,当被一个或者多个处理器31执行时,执行如图1所示的方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各电机控制方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,简称为ROM)、随机存储记忆体(RandomAccessMemory,简称为RAM)、快闪存储器(FlashMemory,简称为FM)、硬盘(HardDiskDrive,简称为HDD)或固态硬盘(Solid-StateDrive,简称为SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (6)

1.一种医学文本信息显示方法,其特征在于,包括:
根据医学术语标准名称和所述医学术语标准名称对应的所有特征词建立规则库;
将所获取的医学文本信息拆分为多个关键词,根据所述规则库中与所述关键词相同的特征词所属的规则生成第一候选规则集,其中,所述第一候选规则集为规则库的子集,包含所述关键词与医学术语标准名称的对应关系;
如果所述医学文本信息与第一候选规则集中的规则包含的所有特征词及预设的特征约束相匹配,则根据所述规则生成第二候选规则集,其中,所述第二候选规则集为第一候选规则集的子集;
将所述第二候选规则集中的规则按照评分标准进行评分,显示评分最高的规则对应的医学术语标准名称;
其中,所述特征词包含多组;组间包括不同语义的特征词,组内包括相同语义的特征词,各组特征词之间的关系为逻辑与,组内特征词之间的关系为逻辑或;所述所有特征词包括每组中的一个特征词;
其中,所述特征约束为所述特征词的约束条件;所述特征约束包括特征词的排除约束、否定词约束、起始约束、分隔约束、计数约束和/或顺序约束;一条规则包含至少一个特征约束;
其中,所述如果所述医学文本信息与第一候选规则集中的规则包含的所有特征词及预设的特征约束相匹配,则根据所述规则生成第二候选规则集,包括:
对于所述第一候选规则集中的规则,判断所述医学文本信息是否包含所述规则中的所有特征词;
如果包含,则判断所述医学文本信息是否满足所述规则中的所有特征约束;
如果满足,则将所述规则作为第二候选规则集中的元素;
其中,所述将所述第二候选规则集中的规则按照评分标准进行评分包括:
计算所述第二候选规则集中各规则所包含特征词的个数;
计算各规则对应的医学术语标准名称在文本上所包含其他医学术语标准名称的个数;
将所包含特征词的个数和其他医学术语标准名称的个数相加,得到所述规则的评分。
2.根据权利要求1所述的方法,其特征在于,所述根据医学术语标准名称和所述医学术语标准名称对应的所有特征词建立规则库,包括:
所述规则库由多条规则构成,所述规则的形式包括字典;
以医学术语标准名称对应的规则编码标识为字典的键、以所述医学术语标准名称和所述医学术语标准名称对应的所有特征词和特征约束为字典的值,建立规则。
3.根据权利要求1所述的方法,其特征在于,所述将所获取的医学文本信息拆分为多个关键词,根据所述规则库中与所述关键词相同的特征词所属的规则生成第一候选规则集,包括:
利用分词器将所获取的医学文本信息拆分为多个关键词;
通过倒排索引查找所述规则库中与所述关键词相同的特征词所属的规则;
将所述规则作为第一候选规则集中的元素。
4.一种医学文本信息显示装置,其特征在于,包括:
建立单元,用于根据医学术语标准名称和所述医学术语标准名称对应的所有特征词建立规则库;
第一生成单元,用于将所获取的医学文本信息拆分为多个关键词,根据所述规则库中与所述关键词相同的特征词所属的规则生成第一候选规则集,其中,所述第一候选规则集为规则库的子集,包含所述关键词与医学术语标准名称的对应关系;
第二生成单元,用于如果所述医学文本信息与第一候选规则集中的规则包含的所有特征词及预设的特征约束相匹配,则根据所述规则生成第二候选规则集,其中,所述第二候选规则集为第一候选规则集的子集;
显示单元,用于将所述第二候选规则集中的规则按照评分标准进行评分,显示评分最高的规则对应的医学术语标准名称;
其中,所述特征词包含多组;组间包括不同语义的特征词,组内包括相同语义的特征词,各组特征词之间的关系为逻辑与,组内特征词之间的关系为逻辑或;所述所有特征词包括每组中的一个特征词;
其中,所述特征约束为所述特征词的约束条件;所述特征约束包括特征词的排除约束、否定词约束、起始约束、分隔约束、计数约束和/或顺序约束;一条规则包含至少一个特征约束;
其中,所述第二生成单元用于:
对于所述第一候选规则集中的规则,判断所述医学文本信息是否包含所述规则中的所有特征词;
如果包含,则判断所述医学文本信息是否满足所述规则中的所有特征约束;
如果满足,则将所述规则作为第二候选规则集中的元素;
其中,所述显示单元用于:
计算所述第二候选规则集中各规则所包含特征词的个数;
计算各规则对应的医学术语标准名称在文本上所包含其他医学术语标准名称的个数;
将所包含特征词的个数和其他医学术语标准名称的个数相加,得到所述规则的评分。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-3任意一项所述的医学文本信息显示方法。
6.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-3任意一项所述的医学文本信息显示方法。
CN202110106860.3A 2021-01-26 2021-01-26 医学文本信息显示方法、装置及电子设备 Active CN112800213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110106860.3A CN112800213B (zh) 2021-01-26 2021-01-26 医学文本信息显示方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110106860.3A CN112800213B (zh) 2021-01-26 2021-01-26 医学文本信息显示方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112800213A CN112800213A (zh) 2021-05-14
CN112800213B true CN112800213B (zh) 2024-06-07

Family

ID=75811888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110106860.3A Active CN112800213B (zh) 2021-01-26 2021-01-26 医学文本信息显示方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112800213B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113764086A (zh) * 2021-08-17 2021-12-07 卫宁健康科技集团股份有限公司 基于jhnebp模型的护理信息处理***、方法
CN113808758B (zh) * 2021-08-31 2024-06-07 联仁健康医疗大数据科技股份有限公司 一种检验数据标准化的方法、装置、电子设备和存储介质
CN115017326B (zh) * 2022-05-12 2023-08-18 青岛普瑞盛医药科技有限公司 医学编码方法及装置
CN114708603A (zh) * 2022-05-25 2022-07-05 杭州咏柳科技有限公司 对医疗票据中关键信息的识别方法、***、设备和介质
CN115881315B (zh) * 2022-12-22 2023-09-08 北京壹永科技有限公司 交互式医学可视化***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033080A (zh) * 2018-07-12 2018-12-18 上海金仕达卫宁软件科技有限公司 基于概率转移矩阵的医疗术语标准化方法及***
CN109522551A (zh) * 2018-11-09 2019-03-26 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
CN111581976A (zh) * 2020-03-27 2020-08-25 平安医疗健康管理股份有限公司 医学术语的标准化方法、装置、计算机设备及存储介质
KR20230012751A (ko) * 2021-07-16 2023-01-26 한양대학교 산학협력단 의학용어를 포함한 자연어의 지식 증류기법 기반의 의료 표준용어 생성기

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10133847B2 (en) * 2014-06-10 2018-11-20 International Business Machines Corporation Automated medical problem list generation from electronic medical record

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033080A (zh) * 2018-07-12 2018-12-18 上海金仕达卫宁软件科技有限公司 基于概率转移矩阵的医疗术语标准化方法及***
CN109522551A (zh) * 2018-11-09 2019-03-26 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
CN111581976A (zh) * 2020-03-27 2020-08-25 平安医疗健康管理股份有限公司 医学术语的标准化方法、装置、计算机设备及存储介质
KR20230012751A (ko) * 2021-07-16 2023-01-26 한양대학교 산학협력단 의학용어를 포함한 자연어의 지식 증류기법 기반의 의료 표준용어 생성기

Also Published As

Publication number Publication date
CN112800213A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112800213B (zh) 医学文本信息显示方法、装置及电子设备
CN111753099B (zh) 一种基于知识图谱增强档案实体关联度的方法及***
US20210034919A1 (en) Method and apparatus for establishing image set for image recognition, network device, and storage medium
CN110457672B (zh) 关键词确定方法、装置、电子设备及存储介质
CN111414393A (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
CN110162768B (zh) 实体关系的获取方法、装置、计算机可读介质及电子设备
CN111078837A (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN110209809B (zh) 文本聚类方法和装置、存储介质及电子装置
CN112395395A (zh) 文本关键词提取方法、装置、设备及存储介质
CN112559709A (zh) 基于知识图谱的问答方法、装置、终端以及存储介质
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及***
WO2022222942A1 (zh) 问答记录生成方法、装置、电子设备及存储介质
CN115563313A (zh) 基于知识图谱的文献书籍语义检索***
CN113190687A (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN117112590A (zh) 一种生成结构性查询语言的方法和数据查询设备
CN114330335A (zh) 关键词抽取方法、装置、设备及存储介质
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN110727769A (zh) 语料库生成方法及装置、人机交互处理方法及装置
CN115114420A (zh) 一种知识图谱问答方法、终端设备及存储介质
CN116049376B (zh) 一种信创知识检索回复的方法、装置和***
CN112199958A (zh) 概念词序列生成方法、装置、计算机设备及存储介质
CN117076636A (zh) 一种智能客服的信息查询方法、***和设备
CN114391142A (zh) 使用结构化和非结构化数据的解析查询

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant