CN114613515B - 医学实体的关系提取方法及装置、存储介质、电子设备 - Google Patents

医学实体的关系提取方法及装置、存储介质、电子设备 Download PDF

Info

Publication number
CN114613515B
CN114613515B CN202210315705.7A CN202210315705A CN114613515B CN 114613515 B CN114613515 B CN 114613515B CN 202210315705 A CN202210315705 A CN 202210315705A CN 114613515 B CN114613515 B CN 114613515B
Authority
CN
China
Prior art keywords
medical
text
entity
word segmentation
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210315705.7A
Other languages
English (en)
Other versions
CN114613515A (zh
Inventor
郝东林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yidu Cloud Beijing Technology Co Ltd
Original Assignee
Yidu Cloud Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yidu Cloud Beijing Technology Co Ltd filed Critical Yidu Cloud Beijing Technology Co Ltd
Priority to CN202210315705.7A priority Critical patent/CN114613515B/zh
Publication of CN114613515A publication Critical patent/CN114613515A/zh
Application granted granted Critical
Publication of CN114613515B publication Critical patent/CN114613515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本公开属于自然语言处理技术领域,涉及一种医学实体的关系提取方法及装置、存储介质、电子设备。该方法包括:获取标准医学实体间的位置逻辑关系,并按照位置逻辑关系配置有限状态机;获取待识别文本,并对待识别文本进行分词处理得到文本分词;根据标准医学实体确定文本分词对应的分词标签,并根据分词标签和有限状态机识别待识别文本的医学关系。本公开无需进行人工标注,节省了人力成本和时间成本,也更加便于升级和迭代,便于对文本分词和医学关系进行逻辑追查,满足了对文本分词和医学关系的溯源需求,提升了医学关系识别的智能化程度、自动化程度和识别准确率,满足了各种医学文本的提取需求,丰富了医学实体的关系提取的应用场景。

Description

医学实体的关系提取方法及装置、存储介质、电子设备
技术领域
本公开涉及自然语言处理技术领域,尤其涉及一种医学实体的关系提取方法与医学实体的关系提取装置、计算机可读存储介质及电子设备。
背景技术
医疗数据是以患者为中心,在医生对患者诊疗和治疗过程中产生的数据。医疗数据的应用价值存在于医学研究、公共卫生、个人健康、远程会诊以及医学诊断等多个方面。从医疗数据里自动挖掘对应知识就是要自动识别电子病历文本中与患者健康密切相关的各类命名实体以及实体间的关系。
目前,医学文献的实体识别和关系识别主要依靠人工标注,或者是采用预训练模型等深度学习技术进行实体和关系的识别。但是,医疗数据通常由非结构化或半结构化文本组成。非结构化和半结构化文本难以直接使用,因此,面对海量的医学文本数据,显然无法全部依赖人工进行处理。而采用预训练模型等深度学习技术也需要大量人工进行数据标注,成本高昂,并且预训练模型的模型可解释性不好,因此无法及时有效的解决未识别到的实体以及实体关系。
鉴于此,本领域亟需开发一种新的医学实体的关系提取方法及装置。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种医学实体的关系提取方法、医学实体的关系提取装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制而导致的识别成本高和准确度不足的技术问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种医学实体的关系提取方法,所述方法包括:获取标准医学实体间的位置逻辑关系,并按照所述位置逻辑关系配置有限状态机;
获取待识别文本,并对所述待识别文本进行分词处理得到文本分词;
根据所述标准医学实体确定所述文本分词对应的分词标签,并根据所述分词标签和所述有限状态机识别所述待识别文本的医学关系。
在本公开的一种示例性实施例中,所述位置逻辑关系包括属性逻辑关系和实体逻辑关系,
所述获取标准医学实体间的位置逻辑关系,包括:
获取医学词表,并对所述医学词表进行分词处理得到标准医学实体;
获取所述标准医学实体的属性,并统计所述属性的所述属性逻辑关系;
统计所述标准医学实体的所述实体逻辑关系。
在本公开的一种示例性实施例中,所述获取医学词表,包括:
利用统计学模型获取医学词表。
在本公开的一种示例性实施例中,所述根据所述标准医学实体确定所述文本分词对应的分词标签,包括:
获取与所述标准医学实体对应的实体标签,并对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度;
获取与所述语义相似度对应的相似度阈值,并对所述语义相似度和所述相似度阈值进行比较得到比较结果;
若所述比较结果为所述语义相似度大于所述相似度阈值,确定所述实体标签为所述文本分词对应的分词标签。
在本公开的一种示例性实施例中,所述对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度,包括:
利用语言表征模型对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度。
在本公开的一种示例性实施例中,所述有限状态机包括实体有限状态机和关系有限状态机,
所述按照所述位置逻辑关系配置有限状态机,包括:
根据所述属性逻辑关系配置所述实体有限状态机;
根据所述实体逻辑关系配置所述关系有限状态机。
在本公开的一种示例性实施例中,所述根据所述分词标签和所述有限状态机识别所述待识别文本的医学关系,包括:
根据所述分词标签和所述实体有限状态机识别所述待识别文本中的文本医学实体;
根据所述文本医学实体和所述关系有限状态机识别所述待识别文本的医学关系。
在本公开的一种示例性实施例中,所述根据所述分词标签和所述有限状态机识别所述待识别文本的医学关系,包括:
根据所述分词标签和所述实体有限状态机识别所述待识别文本中的文本医学实体和非医学实体;
根据所述文本医学实体、所述非医学实体和所述关系有限状态机识别所述待识别文本的医学关系。
根据本公开的一个方面,提供一种医学实体的关系提取装置,所述装置包括:关系配置模块,被配置为获取标准医学实体间的位置逻辑关系,并按照所述位置逻辑关系配置有限状态机;
文本分词模块,被配置为获取待识别文本,并对所述待识别文本进行分词处理得到文本分词;
关系识别模块,被配置为根据所述标准医学实体确定所述文本分词对应的分词标签,并根据所述分词标签和所述有限状态机识别所述待识别文本的医学关系。
在本公开的一种示例性实施例中,所述位置逻辑关系包括属性逻辑关系和实体逻辑关系,
所述获取标准医学实体间的位置逻辑关系,包括:
获取医学词表,并对所述医学词表进行分词处理得到标准医学实体;
获取所述标准医学实体的属性,并统计所述属性的所述属性逻辑关系;
统计所述标准医学实体的所述实体逻辑关系。
在本公开的一种示例性实施例中,所述获取医学词表,包括:
利用统计学模型获取医学词表。
在本公开的一种示例性实施例中,所述根据所述标准医学实体确定所述文本分词对应的分词标签,包括:
获取与所述标准医学实体对应的实体标签,并对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度;
获取与所述语义相似度对应的相似度阈值,并对所述语义相似度和所述相似度阈值进行比较得到比较结果;
若所述比较结果为所述语义相似度大于所述相似度阈值,确定所述实体标签为所述文本分词对应的分词标签。
在本公开的一种示例性实施例中,所述对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度,包括:
利用语言表征模型对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度。
在本公开的一种示例性实施例中,所述有限状态机包括实体有限状态机和关系有限状态机,
所述按照所述位置逻辑关系配置有限状态机,包括:
根据所述属性逻辑关系配置所述实体有限状态机;
根据所述实体逻辑关系配置所述关系有限状态机。
在本公开的一种示例性实施例中,所述根据所述分词标签和所述有限状态机识别所述待识别文本的医学关系,包括:
根据所述分词标签和所述实体有限状态机识别所述待识别文本中的文本医学实体;
根据所述文本医学实体和所述关系有限状态机识别所述待识别文本的医学关系。
在本公开的一种示例性实施例中,所述根据所述分词标签和所述有限状态机识别所述待识别文本的医学关系,包括:
根据所述分词标签和所述实体有限状态机识别所述待识别文本中的文本医学实体和非医学实体;
根据所述文本医学实体、所述非医学实体和所述关系有限状态机识别所述待识别文本的医学关系。
根据本公开的一个方面,提供一种电子设备,包括:处理器和存储器;其中,存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例的医学实体的关系提取方法。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意示例性实施例中的医学实体的关系提取方法。
由上述技术方案可知,本公开示例性实施例中的医学实体的关系提取方法、医学实体的关系提取装置、计算机存储介质及电子设备至少具备以下优点和积极效果:
在本公开的示例性实施例提供的方法及装置中,通过有限状态机管理位置逻辑关系,提升了位置逻辑关系的可维护性,无需进行人工标注,节省了人力成本和时间成本,也更加便于升级和迭代,并且,根据标准医学实体能够确定文本分词的分词标签,便于对文本分词和医学关系进行逻辑追查,满足了对文本分词和医学关系的溯源需求。更进一步的,提供了一种快速有效的识别医学关系的方法,提升了医学关系识别的智能化程度、自动化程度和识别准确率,满足了各种医学文献等医学文本的提取需求,丰富了医学实体的关系提取的应用场景。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开示例性实施例中一种医学实体的关系提取方法的流程示意图;
图2示意性示出本公开示例性实施例中获取位置逻辑关系的方法的流程示意图;
图3示意性示出本公开示例性实施例中配置有限状态机的方法的流程示意图;
图4示意性示出本公开示例性实施例中确定文本分词的分词标签的方法的流程示意图;
图5示意性示出本公开示例性实施例中一种确定待识别文本的医学关系的方法的流程示意图;
图6示意性示出本公开示例性实施例中另一种确定待识别文本的医学关系的方法的流程示意图;
图7示意性示出本公开示例性实施例中一种医学实体的关系提取装置的结构示意图;
图8示意性示出本公开示例性实施例中一种用于实现医学实体的关系提取方法的电子设备;
图9示意性示出本公开示例性实施例中一种用于实现医学实体的关系提取方法的计算机可读存储介质。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”和“第二”等仅作为标记使用,不是对其对象的数量限制。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
医疗数据是以患者为中心,在医生对患者诊疗和治疗过程中产生的数据。医疗数据可以包括患者的基本数据、电子病历数据、诊疗数据、医学影像数据、医学管理数据、经济数据、医疗设备和仪器数据等多种数据。医疗数据的应用价值也存在于医学研究、公共卫生、个人健康、远程会诊以及医学诊断等多个方面。
例如,在某个患者的电子病历中,“头CT(Computed Tomography,电子计算机断层扫描)检查显示腔隙性脑梗死”的该句病历中,“头CT”是检查手段,“腔隙性脑梗死”是疾病。这二者在电子病历信息抽取研究中被称为命名实体。这两个实体间的关系是“头CT”证实了“腔隙性脑梗死”的发生,或者是说“腔隙性脑梗死”可以通过“头CT”这种检查手段得到确认。
从医疗数据里自动挖掘这些知识就是要自动识别电子病历文本中与患者健康密切相关的各类命名实体以及实体间的关系。
但是,医疗数据通常由非结构化或半结构化文本组成。非结构化和半结构化文本难以直接使用,而面对海量的医学文本数据,显然无法全部依赖人工进行处理。
虽然现在也开始尝试使用预训练模型等深度学习技术进行实体和关系的识别,但是,预训练模型同样需要大量的人工进行数据标注,成本高昂。
其中,预训练(pre-training)是一种通过使用大型数据集对神经网络模型进行训练,使神经网络模型学习到数据集中的通用特征的过程。预训练的目的是为后续神经网络模型在特定数据集上训练提供优质的模型参数。
除此之外,预训练模型是基于大量文本学习出各个词语之间相对的位置关系,该位置关系是通过概率转移参数表征的。这种概率转移参数对于人是不能理解的,因此,预训练模型的可解释性也不好。
那么,当出现实体或者关系未被识别出的情况(badcase),亦即在出现错误案例的时候,人也是无法手动变更预训练模型的模型参数。因此,预训练模型无法快速有效的解决识别错误的情况。
因此,如何自动从海量文本中发现知识,使得人们可以低成本地理解和使用医疗数据就显得尤为重要。
针对相关技术中存在的问题,本公开提出了一种医学实体的关系提取方法。图1示出了医学实体的关系提取方法的流程图,如图1所示,医学实体的关系提取方法至少包括以下步骤:
步骤S110.获取标准医学实体间的位置逻辑关系,并按照位置逻辑关系配置有限状态机。
步骤S120.获取待识别文本,并对待识别文本进行分词处理得到文本分词。
步骤S130.根据标准医学实体确定文本分词对应的分词标签,并根据分词标签和有限状态机识别待识别文本的医学关系。
在本公开的示例性实施例中,通过有限状态机管理位置逻辑关系,提升了位置逻辑关系的可维护性,无需进行人工标注,节省了人力成本和时间成本,也更加便于升级和迭代,并且,根据标准医学实体能够确定文本分词的分词标签,便于对文本分词和医学关系进行逻辑追查,满足了对文本分词和医学关系的溯源需求。更进一步的,提供了一种快速有效的识别医学关系的方法,提升了医学关系识别的智能化程度、自动化程度和识别准确率,满足了各种医学文献等医学文本的提取需求,丰富了医学实体的关系提取的应用场景。
下面对医学实体的关系提取方法的各个步骤进行详细说明。
在步骤S110中,获取标准医学实体间的位置逻辑关系,并按照位置逻辑关系配置有限状态机。
在本公开的示例性实施例中,标准医学实体可以是根据医学词表得到的,以进一步获取标准医学实体之间的位置逻辑关系。
在可选的实施例中,位置逻辑关系包括属性逻辑关系和实体逻辑关系,图2示出了获取位置逻辑关系的方法的流程示意图,如图2所示,该方法至少包括以下步骤:在步骤S210中,获取医学词表,并对所述医学词表进行分词处理得到标准医学实体。
医学词表可以是通过人工对医学文献,或者医学文献摘要,或者其他行业标准的医学文本进行分类和整理的方式得到的,本示例性实施例对此不做特殊限定。
除此之外,还可以通过多种统计学模型获取到医学词表。
在可选的实施例中,利用统计学模型获取医学词表。
举例而言,该统计学模型可以是SVM(Support Vector Machines,支持向量机)模型,也可以是BERT(Bidirectional Encoder Representation from Transformers,即双向Transformer(变换器)的Encoder(编码器))模型。
其中,SVM最早是由Vladimir N.Vapnik和Alexey Ya.Chervon enkis在1963年提出,目前的版本(soft margin)是由Corinna Cortes和Vapnik在1993年提出,并在1995年发表。深度学习(2012)出现之前,SVM被认为机器学习中近十几年来最成功,表现最好的算法。
支持向量机是一种二分类模型,它将实例的特征向量映射为空间中的一些点,例如实心点和空心点,它们属于不同的两类。SVM的目的就是想要画出一条线,以“最好地”区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类。SVM适合中小型数据样本、非线性、高维的分类问题。
SVM是一种判别方法,在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。利用该SVM算法及训练数据对初始树形分类器中各个子分类器进行训练,能够得到该各个子分类器的节点参数。
使用前沿水平的BERT预训练模型来获取通用语义表示,实现从自然语言到机器语言的转化。
BERT是2018年10月由Google AI(Artificial Intelligence,人工智能)研究院提出的一种以无监督的方式利用海量无标注文本训练而成的语言代表模型。BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩,全部两个衡量指标上全面超越人类,并且,在11种不同NLP(Natural Language Processing,自然语言处理)测试中创出SOTA(state-of-the-art,若某个模型能够称为SOTA,就表明该模型的性能在当前是最优的)表现,包括将GLUE(一个用于评估通用NLP模型的基准,其排行榜可以在一定程度上反映NLP模型性能的高低)基准推高至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7%(绝对改进5.6%),成为NLP发展史上的里程碑式的模型成就。
BERT预训练模型是一个迁移能力很强的通用语义表示模型,以Transformer为网络基本组件,以Masked Bi-Language Model(一种掩码语言模型)和Next SentencePrediction(下一句预测)为训练目标,通过预训练得到通用语义表示。
与传统的Word2Vec(word to vector,用来产生词向量的相关模型)、GloVe(Global Vectors for Word Representation,一个基于全局词频统计(count-based&overall statistics)的词表征(word representation)工具)等嵌入词向量相比,BERT满足了近年来十分盛行的语境词表征(contextual word representation)的概念,即考虑上下文的内容,同个词语在不同语境中有不同的表示方式。直觉上理解,这个也满足人类自然语言的真实情况,即同一个词汇的含义在不同情景中是很有可能不相同的。
具体的,由于BERT模型采用了多层Transformer对文本进行双向学习,且Transformer采用一次性读取方式对文本进行读取,因此可以更准确地学习到文本中词之间的上下文关系,对语境的理解更加深刻,即双向训练的语言模型对语境的理解会比单向的语言模型更深刻,从而能够准确地对文本进行特征抽取,因此,BERT模型相较于处理自然语言处理任务的其他模型而言,具有更好的任务处理效果。
在通过SVM模型等机器学习的分类算法获得相应的医学词表,或者在通过BERT语义向量获取对应的医学词表时,由于都是基于统计学的模型,因此可以采用统计概率实现医学词表的获得。
举例而言,当出现“词汇A词汇B阿司匹林词汇D词汇E”的词汇,且出现“词汇A词汇B词汇C词汇D词汇E”时,通过阿司匹林与词汇A、词汇B、词汇D、词汇E之间的相对位置关系,可以知道当一个词的前后按顺序出现词汇A、词汇B、词汇D、词汇E,该词汇与阿司匹林等价,因此词汇C被认为是与阿司匹林一样的词。
因此,医学词表中可以包括“手术入路状态:腹腔镜腹腔镜下腹腔镜辅助腹腔镜辅助下”、“手术描述状态:广泛性广泛”、“解剖部位状态:子宫附件盆腔***”、“核心词状态:切除术切除清扫术”、“方位词:单双上下左右”等。
具体的,在手术入路状态中,“腹腔镜”、“腹腔镜下”、“腹腔镜辅助”和“腹腔镜辅助下”可以被认为是一样的词;在手术描述状态中,“广泛性”和“广泛”可以被认为是一样的词;在解剖部位状态中,“子宫”、“附件”和“盆腔***”可以被认为是一样的词;在核心词状态中,“切除术”、“切除”和“清扫术”可以被认为是一样的词;在方位词中,“单”、“双”、“上”、“下”、“左”和“右”可以被认为是等价的词,都是表征方位含义。
在本示例性实施例中,通过多种统计学模型能够获取到医学词表,获取方式更加快速准确,提供了一种智能化和自动化的医学词表获取方式,节省了人力成本和时间成本。并且,在确定到未识别的医学词语时,能够通过添加到医学词表的方式快速解决召回的问题,为对医学实体的关系提取方法的升级和迭代提供了数据基础。
在获取到医学词表之后,可以对医学词表进行分词处理得到对应的标准医学实体。
对该医学词表进行分词处理的方式包括基于规则分词和基于统计分词。
其中,基于规则分词是通过预先构建词典按照匹配方式进行分词切分。该词典可以是多元文法N-gram(汉语语言模型)词典,并按照分词策略将医学词表与预先构建的多元文法N-gram词典进行匹配得到每个词汇的可能切分结果,然后采用基于多元文法N-gram词典的最短路径方法计算出最终的标准医学实体。
其中,N-gram是大词汇连续语音识别中常用的一种语言模型实现的是音素到词的转化。词可以是中文词,也可以是英文。通常声学模型给出音素序列的概率,语言模型通过统计词之间的概率,在音素序列上使用语言模型概率进行scale(缩放),使得更符合语言习惯的词序列得以输出。
基于统计分词是利用经过标注的语料训练构建的分类器来进行分词处理。分类器可以是利用机器学习或深度学习算法进行训练构建的。这类算法通过可以采用隐含马尔柯夫模型(Hidden Markov Model,简称HMM)、条件随机场算法(conditional random fieldalgorithm,简称CRF)和深度学习等。
除此之外,也可以直接通过调用多种不同的分词工具作为分词模型,分别调用类型不同的分词工具对医学词表进行分词处理得到标准医学实体。该医学词表也可以称为粗分语料。调用类型不同的分词工具对医学词表进行初步分词处理得到与不同的分词工具对应的多个初始分词,将多个初始分词合并成初始分词集合。此时,初始分词集合所包含的初始分词数据较多,可以通过对每个初始分词进行投票缩减初始分词的数量。其中,投票过程可以是按照分词工具统计得到的。举例而言,对于某个初始分词,三种分词工具均可以从原始文本中切分得到该初始分词,此时该初始分词作为分词字符串。如果三种分词工具对于该初始分词的分词结果不一致,直接丢弃该初始分词;如果两种分词工具对该初始分词的分词结果一致,另一种分词工具的分词结果不一致,可以确定该初始分词为标准医学实体。
当使用多种分词工具进行分词时,通过投票方式可以初步缩小初始分词集合中初始分词的数量,保证分词字符串的有效性。
其中,分词工具可以采用开源中文分词工具,例如结巴中文分词、Hanlp分词器、哈工大语言技术平台(Language Technology Platform,简称LTP)、由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包(THU Lexial Analyzer forChinese,简称THULAC)、斯坦福分词器、自然语言处理与信息检索共享平台NLPIR等。这些分词工具分别具备各自的分词特点。举例而言,调用的多种分词工具分别可以是LTP、THULAV和NLPIR三种分词工具对医学词表进行分词处理。
LTP的分词模块基于CRF模型进行训练和解码,它在观测序列的基础上对目标序列进行建模,采用的数据来源是1998年1-6月***中的数据。通过获取文件路径分词接口进行初始化,调用分词接口对医学词表进行分词处理得到至少两个标准医学实体。
THULAC工具包自带模型训练原始语料,但是需要授权。THULAC工具包的中文分词和词性标注功能具有能力强、准确率高的特点。它可以通过配置接口参数,调用分词语句来对医学词表进行分词处理得到至少两个标准医学实体。
NLPIR工具是一个全链条的分析工具,可以对医学词表进行分词。在具体分词过程中,需要导入预先构建的词典,通过调用词典来进行初次切分得到切分结果。进一步的,再使用概率统计方法和简单规则消除歧义词语,并利用词频信息识别未登录词语,经过消除歧义和识别未登录词后得到至少两个标准医学实体。
举例而言,标准医学实体可以包括药品实体、疾病实体等,本示例性实施例对此不做特殊限定。
在步骤S220中,获取标准医学实体的属性,并统计属性的属性逻辑关系。
在通过分词处理得到标准医学实体之后,可以获取该标准医学实体的属性。
其中,当标准医学实体为疾病医学实体时,标准医学实体的属性可以包括核心词和描述词。除此之外,标准医学实体的属性还可以包括方位词,以及其他属性词,本示例性实施例对此不做特殊限定。
举例而言,当疾病实体为中青年型糖尿病时,其中的“中青年型”为描述词,“糖尿病”为核心词。
并且,由于描述词在核心词之前,因此,描述词和核心词的属性逻辑关系可以是疾病实体的描述词在核心词之前。
对属性逻辑关系的统计可以是通过人工总结规律得到的,也可以是基于统计学N-gram等方法获取到的属性与属性之间的相对位置关系得到的,本示例性实施例对此不做特殊限定。
在步骤S230中,统计标准医学实体的实体逻辑关系。
除了能够统计到属性逻辑关系之外,对于标准医学实体,也可以统计得到对应的实体逻辑关系。
当在同一分句中涉及药品实体和疾病实体时,药品实体在疾病实体之前,因此,药品实体和疾病实体的实体逻辑关系即为药品实体在疾病实体之前。
并且,对实体逻辑关系的统计也可以是通过人工总结规律得到的,或者是基于统计学N-gram等方法获取到的标准医学实体与标准医学实体之间的相对位置关系得到的,本示例性实施例对此不做特殊限定。
在本示例性实施例中,通过对标准医学实体及其属性的统计能够得到属性逻辑关系和实体逻辑关系,获取方式简单准确,并且符合医学领域的使用规范,与应用场景紧密贴合。
在统计得到属性逻辑关系和实体逻辑关系的两种位置逻辑关系之后,还可以进一步按照该位置逻辑关系配置有限状态机。
有限状态机(Finite-state machine,FSM),又称有限状态自动机,简称状态机,是表示有限个状态以及在这些状态之间的转移和动作等行为的数学模型。
有限状态机是一种用来进行对象行为建模的工具,其作用主要是描述对象在它的生命周期内所经历的状态序列,以及如何响应来自外界的各种事件。
在计算机科学中,有限状态机被广泛用于建模应用行为、硬件电路***设计、软件工程,编译器、网络协议、和计算与语言的研究。
状态机可归纳为4个要素,即现态、条件、动作、次态。“现态”和“条件”是因,“动作”和“次态”是果。
其中,现态是指当前所处的状态。
条件,又称为“事件”。当一个条件被满足,将会触发一个动作,或者执行一次状态的迁移。
动作是条件满足后执行的动作。动作执行完毕后,可以迁移到新的状态,也可以仍旧保持原状态。动作不是必需的,当条件满足后,也可以不执行任何动作,直接迁移到新状态。
次态是条件满足后要迁往的新状态。“次态”是相对于“现态”而言的,“次态”一旦被激活,就转变成新的“现态”了。
值得说明的是,有限状态机的写法逻辑清晰、表达力强,有利于封装事件。因此,一个对象的状态越多、发生的事件越多,就越适合采用有限状态机的写法。
有限状态机的程序设计思路大致如下:使用状态转换图描述FSM;状态转换图中的结点对应不同的状态对象;每个状态对象通过一个输入字符转换到另一个状态上,或者保持原状态不变。
通过输入字符从一个状态切换到另一个状态的过程,可以称之为一个映射。在计算机程序设计中,可以有两种表示映射的方法,分别是通过算法表示,即“可执行代码(Executable Code)”方式,或者是通过一张映射表,即“被动数据(Passive Data)”方式。
其中,通过可执行代码的方式实现映射的FSM主要是通过条件分支来处理不同的字符,例如if或者switch语句块;通过被动数据的方式实现映射的FSM使用类型大致相同,因此,可以考虑将相似的信息保存到一张表中,这样就可以在程序中避免很多函数调用。
在每个状态中都使用一张转换表来表示映射关系,转换表的索引使用输入字符来表示。此外,由于通过转换表就可以描述不同状态之间的变化,那么就没有必要将每种状态定义为一个类了,即不需要多余的继承和虚函数了,仅使用一个State即可。如此,使用了转换表代替了虚函数,简化了程序的设计。
如果类FSM可以表示任意类型的FSM,那么就更符合程序设计的要求。在构造函数中执行的具体配置应该被泛化为一种机制,通过这种机制来建立任意的FSM。
在FSM的构造函数中,应该将转换表作为一个参数传入,而非包含具体的转换表,如此,则不需要将转换表的大小编码到FSM中了。因此,在构造函数中必须动态地创建这个存放转换表的内存空间。
当然,也可以将提到的程序中的转换表不放在主程序中,而是由一个派生自FSM的子类SpecificFsm提供,在SpecificFsm中设置具体的转换表,然后通过SpecificFsm的初始化列表传到基类FSM中,这样在主程序中就可以使用SpecificFsm来进行操作了。
在可选的实施例中,有限状态机包括实体有限状态机和关系有限状态机,图3示出了配置有限状态机的方法的流程示意图,如图3所示,该方法至少包括以下步骤:在步骤S310中,根据属性逻辑关系配置实体有限状态机。
由于描述词和核心词的属性逻辑关系可以是疾病实体的描述词在核心词之前,因此在配置实体有限状态机时,可以配置包含““中青年型”、“糖尿病””、““老年型”、“糖尿病””等规则的实体有限状态机。
除此之外,实体有限状态机中还可以包括“手术入路状态→手术描述状态”的规则、“手术描述状态→方位词状态→解剖部位状态”的规则、“解剖部位状态→核心词状态”的规则和“核心词状态→解剖部位状态”的规则等,本示例性实施例对此不做特殊限定。
在步骤S320中,根据实体逻辑关系配置关系有限状态机。
由于药品实体和疾病实体的实体逻辑关系即为药品实体在疾病实体之前,因此,在配置关系有限状态机时,可以配置包含““二甲双胍”、“老年型糖尿病””等规则的关系有限状态机。
在本示例性实施例中,按照位置逻辑关系能够配置两种有限状态机,能够利用有限状态机管理属性逻辑关系和实体逻辑关系。并且,对于未覆盖的位置逻辑关系能够通过增加优先状态机的规则的方式快速解决,为迭代和升级医学实体的关系提取方法提供了数据支持和理论基础。
在步骤S120中,获取待识别文本,并对待识别文本进行分词处理得到文本分词。
在本公开的示例性实施例中,该待识别文本可以是从待识别的文献中获取到的,也可以是从其他待识别的医学文本中得到的,本示例性实施例对此不做特殊限定。
举例而言,该待识别文本可以是“研究二甲双胍、三甲双胍治疗老年型糖尿病的疗效和不良反应”。
进一步的,对该待识别文本进行分词处理。
对该待识别文本进行分词处理的方式也可以包括基于规则分词和基于统计分词。
其中,基于规则分词是通过预先构建词典按照匹配方式进行分词切分。该词典可以是多元文法N-gram词典,并按照分词策略将医学词表与预先构建的多元文法N-gram词典进行匹配得到每个词汇的可能切分结果,然后采用基于多元文法N-gram词典的最短路径方法计算出最终的分词文本。
基于统计分词是利用经过标注的语料训练构建的分类器来进行分词处理。分类器可以是利用机器学习或深度学习算法进行训练构建的。这类算法通过可以采用隐含马尔柯夫模型、条件随机场算法和深度学习等。
除此之外,也可以直接通过调用多种不同的分词工具作为分词模型,分别调用类型不同的分词工具对待识别文本进行分词处理得到分词。该待识别文本也可以称为粗分语料。调用类型不同的分词工具对待识别文本进行初步分词处理得到与不同的分词工具对应的多个初始分词,将多个初始分词合并成初始分词集合。此时,初始分词集合所包含的初始分词数据较多,可以通过对每个初始分词进行投票缩减初始分词的数量。其中,投票过程可以是按照分词工具统计得到的。
举例而言,对于某个初始分词,三种分词工具均可以从待识别文本中切分得到该初始分词,此时该初始分词作为分词字符串。如果三种分词工具对于该初始分词的分词结果不一致,直接丢弃该初始分词;如果两种分词工具对该初始分词的分词结果一致,另一种分词工具的分词结果不一致,可以确定该初始分词为文本分词。
当使用多种分词工具进行分词时,通过投票方式可以初步缩小初始分词集合中初始分词的数量,保证分词字符串的有效性。
其中,分词工具可以采用开源中文分词工具,例如结巴中文分词、Hanlp分词器、哈工大语言技术平台、由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包、斯坦福分词器、自然语言处理与信息检索共享平台NLPIR等。这些分词工具分别具备各自的分词特点。举例而言,调用的多种分词工具分别可以是LTP、THULAV和NLPIR三种分词工具对待识别文本进行分词处理。
LTP的分词模块基于CRF模型进行训练和解码,它在观测序列的基础上对目标序列进行建模,采用的数据来源是1998年1-6月***中的数据。通过获取文件路径分词接口进行初始化,调用分词接口对医学词表进行分词处理得到至少两个文本分词。
THULAC工具包自带模型训练原始语料,但是需要授权。THULAC工具包的中文分词和词性标注功能具有能力强、准确率高的特点。它可以通过配置接口参数,调用分词语句来对医学词表进行分词处理得到至少两个文本分词。
NLPIR工具是一个全链条的分析工具,可以对待识别文本进行分词。在具体分词过程中,需要导入预先构建的词典,通过调用词典来进行初次切分得到切分结果。进一步的,再使用概率统计方法和简单规则消除歧义词语,并利用词频信息识别未登录词语,经过消除歧义和识别未登录词后得到至少两个分词文本。
在步骤S130中,根据标准医学实体确定文本分词对应的分词标签,并根据分词标签和有限状态机识别待识别文本的医学关系。
在本公开的示例性实施例中,获取到标准医学实体和文本分词之后,可以依据标准医学实体确定文本分词的分词标签。
在可选的实施例中,图4示出了确定文本分词的分词标签的方法的流程示意图,如图4所示,该方法至少包括以下步骤:在步骤S410中,获取与标准医学实体对应的实体标签,并对标准医学实体和文本分词进行相似度计算得到语义相似度。
由于在获取到标准医学实体之后,人工标注了一部分或者全部的标准医学实体的实体标签,因此可以以该实体标签为基准,对应的确定文本分词的分词标签。
在可选的实施例中,利用语言表征模型对标准医学实体和文本分词进行相似度计算得到语义相似度。
为确定标准医学实体与文本分词之间的语义相似度,可以利用语言表征模型进行相似度计算。
其中,语言表征模型可以是BERT模型,也可以是其他模型,本示例性实施例对此不做特殊限定。
BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩,全部两个衡量指标上全面超越人类,并且,在11种不同NLP测试中创出SOTA表现,包括将GLUE基准推高至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7%(绝对改进5.6%),成为NLP发展史上的里程碑式的模型成就。
BERT预训练模型是一个迁移能力很强的通用语义表示模型,以Transformer为网络基本组件,以Masked Bi-Language Model和Next Sentence Prediction为训练目标,通过预训练得到通用语义表示。
与传统的Word2Vec、GloVe等嵌入词向量相比,BERT满足了近年来十分盛行的语境词表征的概念,即考虑上下文的内容,同个词语在不同语境中有不同的表示方式。直觉上理解,这个也满足人类自然语言的真实情况,即同一个词汇的含义在不同情景中是很有可能不相同的。
具体的,由于BERT模型采用了多层Transformer对文本进行双向学习,且Transformer采用一次性读取方式对文本进行读取,因此可以更准确地学习到文本中词之间的上下文关系,对语境的理解更加深刻,即双向训练的语言模型对语境的理解会比单向的语言模型更深刻,从而能够准确地对文本进行特征抽取,因此,BERT模型相较于处理自然语言处理任务的其他模型而言,具有更好的任务处理效果。
在步骤S420中,获取与语义相似度对应的相似度阈值,并对语义相似度和相似度阈值进行比较得到比较结果。
在计算出标准医学实体和文本分词之间的语义相似度之后,可以获取与该语义相似度对应的相似度阈值。该相似度阈值可以根据实际需求和情况进行设置,本示例性实施例对此不做特殊限定。
进一步的,将语义相似度与相似度阈值进行比较,以得到对应的比较结果。
在步骤S430中,若比较结果为语义相似度大于相似度阈值,确定实体标签为文本分词对应的分词标签。
当比较结果为语义相似度大于相似度阈值时,可以确定文本分词与该标准医学实体相似,因此,可以确定与该标准医学实体对应的实体标签即为文本分词对应的分词标签。
其中,分词标签可以包括描述词和核心词等标签,也可以包括药品实体和疾病实体等标签,还可以包括实验组和对照组等非医学实体的标签,或者包括其他相关标签,本示例性实施例对此不做特殊限定。
当待识别文本为“研究二甲双胍、三甲双胍治疗老年型糖尿病的疗效和不良反应”时,可以通过分词处理和语义相似度计算得到文本分词和对应的分词标签。例如,(二甲双胍,药品)(三甲双胍,药品)(治疗,干预方式)(老年型,医学描述词)(糖尿病,疾病核心词)。
值得说明的是,由于腹腔镜标有“入路”的分词标签,广泛性标有“描述词”的标签,全标有“方位词”的分词标签,子宫标有“解剖”的分词标签,切除术标有“核心词”的分词标签,盆腔***标有“解剖”的分词标签,清扫术标有“核心词”的分词标签,因此对于每个文本医学实体和医学关系的识别原因都可以进行逻辑追查。
在本示例性实施例中,以标准医学实体的实体标签作为依据,能够确定出文本分词的分词标签,确定方式简单准确,实用性极强。并且,通过标注文本分词的分词标签能够在后续实现实体和医学关系进行逻辑追查的效果,为相关人员的溯源需求提供了解决办法。
在确定文本分词的分词标签之后,可以根据分词标签和有限状态机确定待识别文本的医学关系。
在可选的实施例中,图5示出了一种确定待识别文本的医学关系的方法的流程示意图,如图5所示,该方法至少包括以下步骤:在步骤S510中,根据分词标签和实体有限状态机识别待识别文本中的文本医学实体。
由于实体有限状态机中配置了包含““中青年型”、“糖尿病””、““老年型”、“糖尿病””等疾病实体的描述词在核心词之前的规则,因此,利用在实体有限状态机中包含的规则能够判断出,当一个分词标签为描述词的文本分词在一个分词标签为核心词的文本分词之前,这两个文本分词构成一个疾病实体,亦即文本医学是实体。
因此,当“青年型”这一文本分词的分词标签为描述词,但是后面的文本分词“学生”的分词标签不为核心词时,是不会识别到““青年型”“学生””为一个文本医学实体的。
除此之外,还可以将腹腔镜广泛性全子宫切除术和盆腔***清扫术识别为手术实体。因此,除了疾病实体和药品识别之外,还可以包括医疗手段的实体,例如手术实体等,本示例性实施例对此不做特殊限定。
而当待识别文本为“研究二甲双胍、三甲双胍治疗老年型糖尿病的疗效和不良反应”,文本分词和对应的分词标签为(二甲双胍,药品)(三甲双胍,药品)(治疗,干预方式)(老年型,医学描述词)(糖尿病,疾病核心词)时,利用实体有限状态机中的“医学描述词→疾病核心词→疾病”规则能够识别出(老年型糖尿病,疾病)的疾病实体。
在步骤S520中,根据文本医学实体和关系有限状态机识别待识别文本的医学关系。
在识别到文本医学实体之后,可以进一步利用关系有限状态机识别出待识别文本对应的医学关系。
由于关系有限状态机中配置有包含““二甲双胍”、“老年型糖尿病””等药品实体在疾病实体之前的规则,因此,利用关系有限状态机包含的规则能够判断出,当一个分词标签为药品实体的文本分词在一个分词标签为疾病实体的文本分词之前,这两个文本分词构成治疗关系,亦即一种医学关系。
其中,医学关系还可以包括非药品治疗实体,例如手术、放疗等与疾病实体之间的治疗关系,以及实验组和药品之间的代指关系,还有对照组、药品之间的代指关系等,本示例性实施例对此不做特殊限定。
举例而言,当待识别文本为“研究二甲双胍、三甲双胍治疗老年型糖尿病的疗效和不良反应”,文本分词和对应的分词标签为(二甲双胍,药品)(三甲双胍,药品)(治疗,干预方式)(老年型,医学描述词)(糖尿病,疾病核心词)时,利用实体有限状态机中的“医学描述词→疾病核心词→疾病”规则能够识别出(老年型糖尿病,疾病)的疾病实体之后,由于已知二甲双胍和三甲双胍为药品实体,治疗为干预方式的实体时,因此通过关系有限状态机中的“药品→药品→干预方式→疾病”识别治疗关系这一医学关系,并能够比较二甲双胍和三甲双胍两种药品对于老年型糖尿病的治疗和干预效果。
在本示例性实施例中,通过实体有限状态机和关系有限状态机能够逐步识别出待识别文本的医学关系,无需人工标注,节省了人力成本和时间成本。
在可选的实施例中,图6示出了另一种确定待识别文本的医学关系的方法的流程示意图,如图6所示,该方法至少包括以下步骤:在步骤S610中,根据分词标签和实体有限状态机识别待识别文本中的文本医学实体和非医学实体。
由于实体有限状态机中配置了包含““中青年型”、“糖尿病””、““老年型”、“糖尿病””等疾病实体的描述词在核心词之前的规则,因此,利用在实体有限状态机中包含的规则能够判断出,当一个分词标签为描述词的文本分词在一个分词标签为核心词的文本分词之前,这两个文本分词构成一个疾病实体,亦即文本医学实体。
因此,当“青年型”这一文本分词的分词标签为描述词,但是后面的文本分词“学生”的分词标签不为核心词时,是不会识别到““青年型”“学生””为一个文本医学实体的。
除此之外,由于分词标签还可以包括实验组和对照组等非医学实体标签,因此在识别文本医学实体的过程中,如果某个文本分词包含非医学实体标签时,还可以额外确定与该医学文本实体相关的非医学实体。
在步骤S620中,根据文本医学实体、非医学实体和关系有限状态机识别待识别文本的医学关系。
在识别到文本医学实体和非医学实体之后,可以进一步利用关系有限状态机识别出待识别文本对应的医学关系。
由于关系有限状态机中配置有包含““二甲双胍”、“老年型糖尿病””等药品实体在疾病实体之前的规则,因此,利用关系有限状态机包含的规则能够判断出,当一个分词标签为药品实体的文本分词在一个分词标签为疾病实体的文本分词之前,这两个文本分词构成治疗关系,亦即一种医学关系。
但是,可能由于“二甲双胍”对应有实验组的分词标签,关联的“三甲双胍”对应有对照组的分词标签,因此可以确定医学关系为“实验组的二甲双胍治疗老年型糖尿病的效果……”,以及“对照组的三甲双胍治疗老年型糖尿病的效果……”。
由于在医疗领域中,普遍会采用实验组或者对照组代指所用药物的描述,因此可以确定医学关系是“实验组治疗老年型糖尿病的效果……”,以及“对照组治疗老年型糖尿病的效果……”。
在本示例性实施例中,通过实体有限状态机和关系有限状态机能够逐步识别出待识别文本的医学关系,无需人工标注,节省了人力成本和时间成本。并且,通过识别到的有用的非医学实体能够丰富医学关系的表达方式和多样性。
在识别出待识别文本的文本医学实体和医学关系之后,还能够为文献等医学文本的语义搜索提供文本支持。并且,也便于研究人员统计分析疾病的相关治疗方法,对这些治疗方法进行横向比较确定优劣。除此之外,也能够统计分析药品的疗效,以及可能会出现的不良反应等。
因此,识别出的待识别文本的文本医学实体和医学关系更加便于理解和使用,能够为临床治疗和医学研究提供更加便捷的数据获取方式,提升了临床治疗和医学研究的处理效率。
在本公开的示例性实施例中,通过有限状态机管理位置逻辑关系,提升了位置逻辑关系的可维护性,无需进行人工标注,节省了人力成本和时间成本,也更加便于升级和迭代,并且,根据标准医学实体能够确定文本分词的分词标签,便于对文本分词和医学关系进行逻辑追查,满足了对文本分词和医学关系的溯源需求。更进一步的,提供了一种快速有效的识别医学关系的方法,提升了医学关系识别的智能化程度、自动化程度和识别准确率,满足了各种医学文献等医学文本的提取需求,丰富了医学实体的关系提取的应用场景。
此外,在本公开的示例性实施例中,还提供一种医学实体的关系提取装置。图7示出了医学实体的关系提取装置的结构示意图,如图7所示,医学实体的关系提取装置700可以包括:关系配置模块710、文本分词模块720和关系识别模块730。其中:
关系配置模块710,被配置为获取标准医学实体间的位置逻辑关系,并按照所述位置逻辑关系配置有限状态机;
文本分词模块720,被配置为获取待识别文本,并对所述待识别文本进行分词处理得到文本分词;
关系识别模块730,被配置为根据所述标准医学实体确定所述文本分词对应的分词标签,并根据所述分词标签和所述有限状态机识别所述待识别文本的医学关系。
在本公开的一种示例性实施例中,所述位置逻辑关系包括属性逻辑关系和实体逻辑关系,
所述获取标准医学实体间的位置逻辑关系,包括:
获取医学词表,并对所述医学词表进行分词处理得到标准医学实体;
获取所述标准医学实体的属性,并统计所述属性的所述属性逻辑关系;
统计所述标准医学实体的所述实体逻辑关系。
在本公开的一种示例性实施例中,所述获取医学词表,包括:
利用统计学模型获取医学词表。
在本公开的一种示例性实施例中,所述根据所述标准医学实体确定所述文本分词对应的分词标签,包括:
获取与所述标准医学实体对应的实体标签,并对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度;
获取与所述语义相似度对应的相似度阈值,并对所述语义相似度和所述相似度阈值进行比较得到比较结果;
若所述比较结果为所述语义相似度大于所述相似度阈值,确定所述实体标签为所述文本分词对应的分词标签。
在本公开的一种示例性实施例中,所述对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度,包括:
利用语言表征模型对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度。
在本公开的一种示例性实施例中,所述有限状态机包括实体有限状态机和关系有限状态机,
所述按照所述位置逻辑关系配置有限状态机,包括:
根据所述属性逻辑关系配置所述实体有限状态机;
根据所述实体逻辑关系配置所述关系有限状态机。
在本公开的一种示例性实施例中,所述根据所述分词标签和所述有限状态机识别所述待识别文本的医学关系,包括:
根据所述分词标签和所述实体有限状态机识别所述待识别文本中的文本医学实体;
根据所述文本医学实体和所述关系有限状态机识别所述待识别文本的医学关系。
在本公开的一种示例性实施例中,所述根据所述分词标签和所述有限状态机识别所述待识别文本的医学关系,包括:
根据所述分词标签和所述实体有限状态机识别所述待识别文本中的文本医学实体和非医学实体;
根据所述文本医学实体、所述非医学实体和所述关系有限状态机识别所述待识别文本的医学关系。
上述医学实体的关系提取装置700的具体细节已经在对应的医学实体的关系提取方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了医学实体的关系提取装置700的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
下面参照图8来描述根据本发明的这种实施例的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同***组件(包括存储单元820和处理单元810)的总线830、显示单元840。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤,例如:
在本公开的一种示例性实施例中,所述位置逻辑关系包括属性逻辑关系和实体逻辑关系,
所述获取标准医学实体间的位置逻辑关系,包括:
获取医学词表,并对所述医学词表进行分词处理得到标准医学实体;
获取所述标准医学实体的属性,并统计所述属性的所述属性逻辑关系;
统计所述标准医学实体的所述实体逻辑关系。
在本公开的一种示例性实施例中,所述获取医学词表,包括:
利用统计学模型获取医学词表。
在本公开的一种示例性实施例中,所述根据所述标准医学实体确定所述文本分词对应的分词标签,包括:
获取与所述标准医学实体对应的实体标签,并对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度;
获取与所述语义相似度对应的相似度阈值,并对所述语义相似度和所述相似度阈值进行比较得到比较结果;
若所述比较结果为所述语义相似度大于所述相似度阈值,确定所述实体标签为所述文本分词对应的分词标签。
在本公开的一种示例性实施例中,所述对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度,包括:
利用语言表征模型对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度。
在本公开的一种示例性实施例中,所述有限状态机包括实体有限状态机和关系有限状态机,
所述按照所述位置逻辑关系配置有限状态机,包括:
根据所述属性逻辑关系配置所述实体有限状态机;
根据所述实体逻辑关系配置所述关系有限状态机。
在本公开的一种示例性实施例中,所述根据所述分词标签和所述有限状态机识别所述待识别文本的医学关系,包括:
根据所述分词标签和所述实体有限状态机识别所述待识别文本中的文本医学实体;
根据所述文本医学实体和所述关系有限状态机识别所述待识别文本的医学关系。
在本公开的一种示例性实施例中,所述根据所述分词标签和所述有限状态机识别所述待识别文本的医学关系,包括:
根据所述分词标签和所述实体有限状态机识别所述待识别文本中的文本医学实体和非医学实体;
根据所述文本医学实体、所述非医学实体和所述关系有限状态机识别所述待识别文本的医学关系。
通过上述方式,通过有限状态机管理位置逻辑关系,提升了位置逻辑关系的可维护性,无需进行人工标注,节省了人力成本和时间成本,也更加便于升级和迭代,并且,根据标准医学实体能够确定文本分词的分词标签,便于对文本分词和医学关系进行逻辑追查,满足了对文本分词和医学关系的溯源需求。更进一步的,提供了一种快速有效的识别医学关系的方法,提升了医学关系识别的智能化程度、自动化程度和识别准确率,满足了各种医学文献等医学文本的提取需求,丰富了医学实体的关系提取的应用场景。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)821和/或高速缓存存储单元822,还可以进一步包括只读存储单元(ROM)823。
存储单元820还可以包括具有一组(至少一个)程序模块825的程序/实用工具824,这样的程序模块825包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器840通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤,例如:
在本公开的一种示例性实施例中,所述位置逻辑关系包括属性逻辑关系和实体逻辑关系,
所述获取标准医学实体间的位置逻辑关系,包括:
获取医学词表,并对所述医学词表进行分词处理得到标准医学实体;
获取所述标准医学实体的属性,并统计所述属性的所述属性逻辑关系;
统计所述标准医学实体的所述实体逻辑关系。
在本公开的一种示例性实施例中,所述获取医学词表,包括:
利用统计学模型获取医学词表。
在本公开的一种示例性实施例中,所述根据所述标准医学实体确定所述文本分词对应的分词标签,包括:
获取与所述标准医学实体对应的实体标签,并对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度;
获取与所述语义相似度对应的相似度阈值,并对所述语义相似度和所述相似度阈值进行比较得到比较结果;
若所述比较结果为所述语义相似度大于所述相似度阈值,确定所述实体标签为所述文本分词对应的分词标签。
在本公开的一种示例性实施例中,所述对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度,包括:
利用语言表征模型对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度。
在本公开的一种示例性实施例中,所述有限状态机包括实体有限状态机和关系有限状态机,
所述按照所述位置逻辑关系配置有限状态机,包括:
根据所述属性逻辑关系配置所述实体有限状态机;
根据所述实体逻辑关系配置所述关系有限状态机。
在本公开的一种示例性实施例中,所述根据所述分词标签和所述有限状态机识别所述待识别文本的医学关系,包括:
根据所述分词标签和所述实体有限状态机识别所述待识别文本中的文本医学实体;
根据所述文本医学实体和所述关系有限状态机识别所述待识别文本的医学关系。
在本公开的一种示例性实施例中,所述根据所述分词标签和所述有限状态机识别所述待识别文本的医学关系,包括:
根据所述分词标签和所述实体有限状态机识别所述待识别文本中的文本医学实体和非医学实体;
根据所述文本医学实体、所述非医学实体和所述关系有限状态机识别所述待识别文本的医学关系。
通过上述方式,通过有限状态机管理位置逻辑关系,提升了位置逻辑关系的可维护性,无需进行人工标注,节省了人力成本和时间成本,也更加便于升级和迭代,并且,根据标准医学实体能够确定文本分词的分词标签,便于对文本分词和医学关系进行逻辑追查,满足了对文本分词和医学关系的溯源需求。更进一步的,提供了一种快速有效的识别医学关系的方法,提升了医学关系识别的智能化程度、自动化程度和识别准确率,满足了各种医学文献等医学文本的提取需求,丰富了医学实体的关系提取的应用场景。
参考图9所示,描述了根据本发明的实施例的用于实现上述方法的程序产品900,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (8)

1.一种医学实体的关系提取方法,其特征在于,所述方法包括:
获取标准医学实体间的位置逻辑关系,并按照所述位置逻辑关系配置有限状态机;其中,所述位置逻辑关系包括属性逻辑关系和实体逻辑关系,所述有限状态机包括实体有限状态机和关系有限状态机;
获取标准医学实体间的位置逻辑关系,包括:获取医学词表,并对所述医学词表进行分词处理得到标准医学实体;获取所述标准医学实体的属性,并统计所述属性的属性逻辑关系;统计所述标准医学实体的所述实体逻辑关系;
获取待识别文本,并对所述待识别文本进行分词处理得到文本分词;
根据所述标准医学实体对应的实体标签,以及所述标准医学实体和所述文本分词之间的相似度,确定是否将所述实体标签作为所述文本分词对应的分词标签,并根据所述分词标签和所述有限状态机识别所述待识别文本的医学关系;
其中,根据所述分词标签和所述有限状态机识别所述待识别文本的医学关系,包括:
根据所述分词标签和所述实体有限状态机识别所述待识别文本中的文本医学实体;根据所述文本医学实体和所述关系有限状态机识别所述待识别文本的医学关系;或,
根据所述分词标签和所述实体有限状态机识别所述待识别文本中的文本医学实体和非医学实体;根据所述文本医学实体、所述非医学实体和所述关系有限状态机识别所述待识别文本的医学关系。
2.根据权利要求1所述的医学实体的关系提取方法,其特征在于,所述获取医学词表,包括:
利用统计学模型获取医学词表。
3.根据权利要求1所述的医学实体的关系提取方法,其特征在于,所述根据所述标准医学实体对应的实体标签,以及所述标准医学实体和所述文本分词之间的相似度,确定是否将所述实体标签为所述文本分词对应的分词标签,包括:
获取与所述标准医学实体对应的实体标签,并对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度;
获取与所述语义相似度对应的相似度阈值,并对所述语义相似度和所述相似度阈值进行比较得到比较结果;
若所述比较结果为所述语义相似度大于所述相似度阈值,确定所述实体标签为所述文本分词对应的分词标签。
4.根据权利要求3所述的医学实体的关系提取方法,其特征在于,所述对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度,包括:
利用语言表征模型对所述标准医学实体和所述文本分词进行相似度计算得到语义相似度。
5.根据权利要求1所述的医学实体的关系提取方法,其特征在于,
所述按照所述位置逻辑关系配置有限状态机,包括:
根据所述属性逻辑关系配置所述实体有限状态机;
根据所述实体逻辑关系配置所述关系有限状态机。
6.一种医学实体的关系提取装置,其特征在于,包括:
关系配置模块,被配置为获取标准医学实体间的位置逻辑关系,并按照所述位置逻辑关系配置有限状态机;其中,所述位置逻辑关系包括属性逻辑关系和实体逻辑关系,所述有限状态机包括实体有限状态机和关系有限状态机;所述获取标准医学实体间的位置逻辑关系,包括:获取医学词表,并对所述医学词表进行分词处理得到标准医学实体;获取所述标准医学实体的属性,并统计所述属性的属性逻辑关系;统计所述标准医学实体的所述实体逻辑关系;
文本分词模块,被配置为获取待识别文本,并对所述待识别文本进行分词处理得到文本分词;
关系识别模块,被配置为根据所述标准医学实体对应的实体标签,以及所述标准医学实体和所述文本分词之间的相似度,确定是否将所述实体标签作为所述文本分词对应的分词标签,并根据所述分词标签和所述有限状态机识别所述待识别文本的医学关系;
其中,所述根据所述分词标签和所述有限状态机识别所述待识别文本的医学关系,包括:
根据所述分词标签和所述实体有限状态机识别所述待识别文本中的文本医学实体;根据所述文本医学实体和所述关系有限状态机识别所述待识别文本的医学关系;或,
根据所述分词标签和所述实体有限状态机识别所述待识别文本中的文本医学实体和非医学实体;根据所述文本医学实体、所述非医学实体和所述关系有限状态机识别所述待识别文本的医学关系。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被发送器执行时实现权利要求1-5中任意一项所述的医学实体的关系提取方法。
8.一种电子设备,其特征在于,包括:
发送器;
存储器,用于存储所述发送器的可执行指令;
其中,所述发送器被配置为经由执行所述可执行指令来执行权利要求1-5中任意一项所述的医学实体的关系提取方法。
CN202210315705.7A 2022-03-28 2022-03-28 医学实体的关系提取方法及装置、存储介质、电子设备 Active CN114613515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210315705.7A CN114613515B (zh) 2022-03-28 2022-03-28 医学实体的关系提取方法及装置、存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210315705.7A CN114613515B (zh) 2022-03-28 2022-03-28 医学实体的关系提取方法及装置、存储介质、电子设备

Publications (2)

Publication Number Publication Date
CN114613515A CN114613515A (zh) 2022-06-10
CN114613515B true CN114613515B (zh) 2023-02-07

Family

ID=81867354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210315705.7A Active CN114613515B (zh) 2022-03-28 2022-03-28 医学实体的关系提取方法及装置、存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN114613515B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109509556A (zh) * 2018-11-09 2019-03-22 天津开心生活科技有限公司 知识图谱生成方法、装置、电子设备及计算机可读介质
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和***
CN110569366A (zh) * 2019-09-09 2019-12-13 腾讯科技(深圳)有限公司 文本的实体关系抽取方法、装置及存储介质
CN110705301A (zh) * 2019-09-30 2020-01-17 京东城市(北京)数字科技有限公司 实体关系抽取方法及装置、存储介质、电子设备
CN111753029A (zh) * 2020-07-09 2020-10-09 腾讯科技(深圳)有限公司 实体关系抽取方法、装置
CN112214966A (zh) * 2020-09-04 2021-01-12 拓尔思信息技术股份有限公司 基于深度神经网络的实体及关系联合抽取方法
CN113627186A (zh) * 2021-08-12 2021-11-09 平安科技(深圳)有限公司 基于人工智能的实体关系检测方法及相关设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8370128B2 (en) * 2008-09-30 2013-02-05 Xerox Corporation Semantically-driven extraction of relations between named entities
CN111160012B (zh) * 2019-12-26 2024-02-06 上海金仕达卫宁软件科技有限公司 医学术语识别方法、装置和电子设备
CN111581976B (zh) * 2020-03-27 2023-07-21 深圳平安医疗健康科技服务有限公司 医学术语的标准化方法、装置、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和***
CN109509556A (zh) * 2018-11-09 2019-03-22 天津开心生活科技有限公司 知识图谱生成方法、装置、电子设备及计算机可读介质
CN110569366A (zh) * 2019-09-09 2019-12-13 腾讯科技(深圳)有限公司 文本的实体关系抽取方法、装置及存储介质
CN110705301A (zh) * 2019-09-30 2020-01-17 京东城市(北京)数字科技有限公司 实体关系抽取方法及装置、存储介质、电子设备
CN111753029A (zh) * 2020-07-09 2020-10-09 腾讯科技(深圳)有限公司 实体关系抽取方法、装置
CN112214966A (zh) * 2020-09-04 2021-01-12 拓尔思信息技术股份有限公司 基于深度神经网络的实体及关系联合抽取方法
CN113627186A (zh) * 2021-08-12 2021-11-09 平安科技(深圳)有限公司 基于人工智能的实体关系检测方法及相关设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
命名实体关系抽取算法的改进;李妩可 等;《计算机工程》;20101231;第36卷(第24期);第289-292页 *
机械产品专利技术方案信息抽取方法;王朝霞 等;《机械工程学报》;20091031;第45卷(第10期);第198-206页 *

Also Published As

Publication number Publication date
CN114613515A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
Fan et al. Adverse drug event detection and extraction from open data: A deep learning approach
CN107977361B (zh) 基于深度语义信息表示的中文临床医疗实体识别方法
US10740561B1 (en) Identifying entities in electronic medical records
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
US8935155B2 (en) Method for processing medical reports
CN112214995A (zh) 用于同义词预测的分层多任务术语嵌入学习
CN109299472A (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
CN111951805A (zh) 一种文本数据处理方法及装置
CN110517767B (zh) 辅助诊断方法、装置、电子设备及存储介质
WO2018188981A1 (en) Drawing conclusions from free form texts with deep reinforcement learning
CN108804423A (zh) 医疗文本特征提取与自动匹配方法和***
CN111401058B (zh) 一种基于命名实体识别工具的属性值抽取方法及装置
Na Conditional random fields for Korean morpheme segmentation and POS tagging
CN112599213B (zh) 一种分类编码确定方法、装置、设备及存储介质
CN110223134B (zh) 基于语音识别的产品推荐方法及相关设备
CN112614559A (zh) 病历文本处理方法、装置、计算机设备和存储介质
CN114298050A (zh) 模型的训练方法、实体关系抽取方法、装置、介质、设备
US20240029714A1 (en) Speech signal processing and summarization using artificial intelligence
Dinesh et al. Chat and voice bot implementation for cardio and ent queries using nlp
US12008341B2 (en) Systems and methods for generating natural language using language models trained on computer code
CN117422074A (zh) 一种临床信息文本标准化的方法、装置、设备及介质
WO2023116572A1 (zh) 一种词句生成方法及相关设备
CN116757195A (zh) 一种基于提示学习的隐性情感识别方法
CN114613515B (zh) 医学实体的关系提取方法及装置、存储介质、电子设备
CN116258136A (zh) 检错模型训练方法、医学影像报告检测方法、***及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant