CN111160012A - 医学术语识别方法、装置和电子设备 - Google Patents

医学术语识别方法、装置和电子设备 Download PDF

Info

Publication number
CN111160012A
CN111160012A CN201911364148.2A CN201911364148A CN111160012A CN 111160012 A CN111160012 A CN 111160012A CN 201911364148 A CN201911364148 A CN 201911364148A CN 111160012 A CN111160012 A CN 111160012A
Authority
CN
China
Prior art keywords
word
words
recognized
medical
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911364148.2A
Other languages
English (en)
Other versions
CN111160012B (zh
Inventor
赵蒙海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jinshida Weining Software Technology Co ltd
Original Assignee
Shanghai Jinshida Weining Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jinshida Weining Software Technology Co ltd filed Critical Shanghai Jinshida Weining Software Technology Co ltd
Priority to CN201911364148.2A priority Critical patent/CN111160012B/zh
Publication of CN111160012A publication Critical patent/CN111160012A/zh
Application granted granted Critical
Publication of CN111160012B publication Critical patent/CN111160012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种医学术语识别方法、装置和电子设备,该方法包括:对待识别词语进行分词,得到特征词;对特征词进行词语识别,得到待识别词语的字符特征;对特征词进行语义识别,得到待识别词语的语义特征,语义特征用于表征待识别词语在对应的目标医学领域中的特征;基于字符特征和语义特征,确定待识别词语对应的标准词。本实施例的方法,对待识别词语进行分词,得到特征词,对该特征词分别进行词语识别和语义识别,得到待识别词语的字符特征和语义特征,根据字符特征和语义特征,确定待识别词语对应的标准词,能够尽可能将医学术语集中的近义词、常用缩写词匹配到与该近义词、缩写词对应的标准词,提高匹配的准确率。

Description

医学术语识别方法、装置和电子设备
技术领域
本发明涉及医疗保险技术领域,尤其涉及一种医学术语识别方法、装置和电子设备。
背景技术
临床医学术语的标准化是医疗信息共享的基础,更是医保实现全国统筹的重中之重。各类医学术语来源众多,书写各异,同一个词在不同的时间和场合下有着不同的含义,同一个概念在不同的体系中有着不同的表述方式。而且,当前国内医疗领域内的术语编码体系较为繁杂,同一类医学术语往往存在多个版本的编码体系,如疾病编码有五个版本:国家卫健委统计信息中心发布的“国标版”,医政医管局发布的“临床版”,以及北京、上海、广东发布的三个地方版。这些因素给医学信息的共享以及医疗领域的交流与合作带来了障碍。因此,医学术语的标准化建设显得尤为重要。
为了促进医疗信息的共享,医疗领域的交流与合作,以及实现医保的全国统筹,国家医保局大力推进医学术语标准化建设工作,统一国内医疗领域的术语编码体系。统一医学术语编码体系的重点在于如何准确而高效地将各版本的医学术语转换为全国统一的医学术语。由医学专业人员进行人工转换能确保准确性,但需要耗费大量的人力成本,而且效率低下。
为了解决上述问题,目前主流的方法是通过词语相似度方法能够对各版本的医学术语进行自动匹配,虽然人力成本低、效率高,但匹配结果不准确。
因此,需要一种合适的方式对各版本的医学术语进行识别处理。
发明内容
本发明实施例提供一种医学术语识别方法、装置和电子设备,以解决现在技术可以对各版本的医学术语进行自动匹配,但匹配结果不准确的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,提供了一种医学术语识别方法,该方法包括:
对待识别词语进行分词,得到特征词;
对所述特征词进行词语识别,得到所述待识别词语的字符特征;
对所述特征词进行语义识别,得到所述待识别词语的语义特征,所述语义特征用于表征所述待识别词语在对应的目标医学领域中的特征;
基于所述字符特征和所述语义特征,确定所述待识别词语对应的标准词。
第二方面,提供了一种医学术语识别装置,该装置包括:
分词模块,用于对待识别词语进行分词,得到特征词;
词语识别模块,用于对所述特征词进行词语识别,得到所述待识别词语的字符特征;
语义识别模块,用于对所述特征词进行语义识别,得到所述待识别词语的语义特征,所述语义特征用于表征所述待识别词语在对应的目标医学领域中的特征;
第一确定模块,用于基于所述字符特征和所述语义特征,确定所述待识别词语对应的标准词。
第三方面,提供一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法的步骤。
在本发明实施例中,通过对待识别词语进行分词,得到特征词,分别对该特征词进行词语识别和语义识别,得到待识别词语的字符特征和语义特征,根据字符特征和语义特征,确定待识别词语对应的标准词,基于字符特征和语义特征的结合,能够尽可能将医学术语集中的近义词、常用缩写词匹配到与该近义词、缩写词对应的标准词,提高匹配结果的准确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明的一个实施例的医学术语识别方法的流程示意图;
图2是本发明的另一个实施例的训练词模型的流程示意图;
图3是本发明的再一个实施例的训练语义模型的流程示意图;
图4是本发明的一个实施例的医学术语识别装置的结构示意图;
图5是本发明的另一个实施例的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明的一个实施例的医学术语识别方法的流程示意图,图1所示的方法可以由医学术语识别装置执行,如图1所示,该方法包括:
步骤S102,对待识别词语进行分词,得到特征词。
应理解,待识别词语可以是各版本的医学术语集中的任意一个医学术语,其中,各版本的医学术语集表示各个地区的医学术语集。
在步骤S102中,比如待识别词语为感染性鼻炎,对感染性鼻炎对进行分词处理,得到感染性、鼻炎。或待识别词语为传染性鼻炎,对传染性鼻炎进行分词处理,得到传染性、鼻炎。或待识别词语为脑中风,对脑中风进行分词处理,得到脑、中风。
步骤S104,对特征词进行词语识别,得到待识别词语的字符特征。
应理解,待识别词语的字符特征为待识别词语的高维向量。
在步骤S104中,比如特征词为感染性、鼻炎,对感染性、鼻炎进行词语识别,得到感染性鼻炎的高维向量。或特征词为传染性、鼻炎,对传染性、鼻炎进行词语识别,得到传染性鼻炎的高维向量。或特征词为脑、中风,对脑、中风进行词语识别,得到脑中风的高维向量。
步骤S106,对特征词进行语义识别,得到待识别词语的语义特征,语义特征用于表征待识别词语在对应的目标医学领域中的特征。
应理解,待识别词语的语义特征为待识别词语的低维向量。
在步骤S106中,比如特征词为感染性、鼻炎,对感染性、鼻炎进行语义识别,得到感染性鼻炎的低维向量。或特征词为传染性、鼻炎,对传染性、鼻炎进行语义识别,得到传染性鼻炎的低维向量。或特征词为脑、中风,对脑、中风进行词语识别,得到脑中风的低维向量。
步骤S108,基于字符特征和语义特征,确定待识别词语对应的标准词。
在步骤S108中,比如待识别词为感染性鼻炎,根据感染性鼻炎的高维向量和低维向量,确定感染性鼻炎对应的标准词为感染性鼻炎。或待识别词为传染性鼻炎,根据传染性鼻炎的高维向量和低维向量,确定传染性鼻炎对应的标准词为感染性鼻炎。或待识别词为脑中风,根据脑中风的高维向量和低维向量,确定脑中风对应的标准词为脑卒中。或待识别词为甲亢,根据甲亢的高维向量和低维向量,确定甲亢对应的标准词为甲状腺功能亢进。
在本发明实施例中,通过对待识别词语进行分词,得到特征词,分别对该特征词进行词语识别和语义识别,得到待识别词语的字符特征和语义特征,根据字符特征和语义特征,确定待识别词语对应的标准词,基于字符特征和语义特征的结合,能够尽可能将医学术语集中的近义词、常用缩写词匹配到与该近义词、缩写词对应的标准词,提高匹配结果的准确率。
可选地,在一些实施例中,步骤S108中基于字符特征和语义特征,确定待识别词语对应的标准词,可包括:
采用预学习的词模型,对字符特征进行匹配,得到表征待识别词语与目标词语之间相似度的第一匹配结果;
采用预学习的语义模型,对语义特征进行匹配,得到表征待识别词语与目标词语在目标医学领域中的相似度的第二匹配结果;
基于第一匹配结果和第二匹配结果,得到待识别词语与目标词语之间的综合匹配结果;
在综合匹配结果符合阈值的情况下,确定目标词语为标准词。
应理解,第一匹配结果是待识别词语与目标词语之间相似度的值,第二匹配结果是待识别词语与目标词语在目标医学领域中的相似度的值,综合匹配结果符合阈值可以为综合匹配结果大于或等于阈值。
以待识别词语为感染性鼻炎为例,将感染性鼻炎输入预学习的词模型,词模型对感染性鼻炎的高维向量进行匹配,输出第一匹配结果为百分之九十;将感染性鼻炎输入预学习的语义模型,语义模型对感染性鼻炎的低维向量进行匹配,输出第二匹配结果为百分之九十八,基于第一匹配结果和第二匹配结果,得到综合匹配结果,若综合匹配结果为百分之九十四,阈值为百分九十二,综合匹配结果大于阈值,则确定目标词语为标准词,反之,若综合匹配结果小于阈值,则说明目标词语可能不是标准词,并由医学专业人工对感染性鼻炎进行匹配。
具体地,基于第一匹配结果和第二匹配结果,得到待识别词语与目标词语之间的综合匹配结果,可包括:
根据第一匹配结果、第二匹配结果和权重值,得到综合匹配结果,权重值为第一匹配结果占综合匹配结果的权重或第二匹配结果占综合匹配结果的权重。
可以理解的是,权重值为基于历史积累的对码数据进行二次调优,选取最佳参数。
根据第一匹配结果、第二匹配结果和权重值,得到综合匹配结果,可以通过如下述公式1表示。
S=a*S1+(1-a)*S2 公式1
其中,S表示综合匹配结果,a权重值表示第一匹配结果占综合匹配结果的权重,S1表示第一匹配结果,S2表示第二匹配结果(1-a)表示第二匹配结果占综合匹配结果的权重。
可选地,在一些实施例中,图1所示的方法还包括:
获取第一训练数据,第一训练数据包括多个地区的医学术语;
基于第一训练数据,得到词模型。
应理解,第一训练数据包括多个地区的医学术语,比如《疾病分类与代码(修订版)》全国1.3版、《疾病分类与代码(修订版)》全国2011版、2013上海卫生局_病案首页_疾病分类与代码_ICD-10_更新版、北京市住院病案首页疾病诊断名称与代码标准V6.01版等版本。通过对第一训练数据进行训练,得到词模型。
具体地,基于第一训练数据,得到词模型,可包括:
对第一训练数据的医学术语进行分词,确定医学术语的字符特征;
基于医学数据的字符特征,确定词模型。
在一些实施例中,如图2所示,词模型的具体训练过程如下:
步骤S202,获取第一训练数据,并对第一训练数据中的医学术语进行分词,得到至少一个字词。如中文分词可首选jieba分词,并结合领域内医学术语词库实现中文医学术语的准确分词。
步骤S204,对至少一个字词进行频率计算,确定至少一个字词的词频和逆向对数频率,并根据至少一个字词的词频和逆向对数频率的乘积,得到词频-逆向文本频率矩阵。
步骤S206,将至少一个字词转换为高维向量,并乘以词频-逆向文本频率矩阵得到词频-逆向文本频率向量。
步骤S208,采用向量相似度计算方法,根据综合分析和实验,得到词频-逆向文本频率向量之间的余弦相似度,该余弦相似度表示第一训练数据中的医学术语之间的字符加权相似度,字符加权相似度可以用S1表示。
步骤S210,根据词频-逆向文本频率向量之间的余弦相似度,确定词模型。
可选地,在一些实施例中,图1所示的方法还包括:
获取第二训练数据,第二训练数据包括医学资料,医学资料包括在医学领域的医学术语;
基于医学资料,识别医学资料的医学术语的上下文内容,上下文内容用于确定医学资料的医学术语的医学领域;
基于医学资料的医学术语和对应的上下文内容,确定语义模型。
可以理解的是,医学资料包括在医学领域的医学术语,主要是疾病,手术,药品,诊疗项目,耗材。
在一些实施例中,如图3所示,语义模型的具体训练过程如下:
步骤S302,获取第二训练数据,并将第二训练数据输入预训练模型。
步骤S304,通过学习第二训练数据中医学术语的语义信息,语义信息即医学术语和对应的上下文内容,预训练模型将医学术语嵌入到低维、连续的Hilbert空间H中,得到至少一个低维向量。
步骤S306,基于至少一个低维向量之间的夹角余弦值,得到语义模型,该语义模型可用一个函数表示,该函数表示为f(x,θ)(x为文本输入的热点表示,θ为预训练语言模型的参数)。
此外,通过实验表明,医学术语之间的语义越相似,映射到Hilbert空间H中向量之间的夹角越小,夹角余弦值越接近1。因此,医学术语之间的语义相似性可以用Hilbert空间H中向量的夹角余弦值来度量,即如下述公式2所示。
S2=cos<f(x1,θ),f(x2,θ)> 公式2
语义相似度对于字面差异大,语义相近的词语匹配提供了极大优势:比如“甲亢”与“甲状腺功能亢进”为缩写语与全称关系,“脑中风”与“脑卒中”互为近义词,由于两者在语义模型中,经常出现在相似的语境中,语义模型可以学习得到两者的相似度较大。
图4是本发明的一个实施例的医学术语识别装置的结构示意图,如图4所示,该装置40包括:
分词模块41,用于对待识别词语进行分词,得到特征词;
词语识别模块44,用于对特征词进行词语识别,得到待识别词语的字符特征;
语义识别模块43,用于对特征词进行语义识别,得到待识别词语的语义特征,语义特征用于表征待识别词语在对应的目标医学领域中的特征;
第一确定模块44,用于基于字符特征和语义特征,确定待识别词语对应的标准词。
在本发明实施例中,通过对待识别词语进行分词,得到特征词,分别对该特征词进行词语识别和语义识别,得到待识别词语的字符特征和语义特征,根据字符特征和语义特征,确定待识别词语对应的标准词,基于字符特征和语义特征的结合,能够尽可能将医学术语集中的近义词、常用缩写词匹配到与该近义词、缩写词对应的标准词,提高匹配结果的准确率。
可选地,作为一个实施例,第一确定模块44,包括:
字符匹配子模型,用于采用预学习的词模型,对字符特征进行匹配,得到表征待识别词语与目标词语之间相似度的第一匹配结果;
语义匹配子模型,用于采用预学习的语义模型,对语义特征进行匹配,得到表征待识别词语与目标词语在目标医学领域中的相似度的第二匹配结果;
得到子模型,用于基于第一匹配结果和第二匹配结果,得到待识别词语与目标词语之间的综合匹配结果;
第一确定子模块,用于在综合匹配结果符合阈值的情况下,确定目标词语为标准词。
可选地,作为一个实施例,得到子模型用于:
根据第一匹配结果、第二匹配结果和权重值,得到综合匹配结果,权重值为第一匹配结果占综合匹配结果的权重或第二匹配结果占综合匹配结果的权重。
可选地,作为一个实施例,装置还包括:
第一获取模块,用于获取第一训练数据,第一训练数据包括多个地区的医学术语;
第一得到模块,用于基于第一训练数据,得到词模型。
可选地,作为一个实施例,第一得到模块,包括:
分词子模块,用于对第一训练数据的医学术语进行分词,确定医学术语的字符特征;
第二确定子模块,用于基于医学数据的字符特征,确定词模型。
可选地,作为一个实施例,装置还包括:
第二获取模块,用于获取第二训练数据,第二训练数据包括医学资料,医学资料包括在医学领域的医学术语;
识别模块,用于基于医学资料,识别医学资料的医学术语的上下文内容,上下文内容用于确定医学资料的医学术语的医学领域;
第二确定模块,用于基于医学资料的医学术语和对应的上下文内容,确定语义模型。
本发明实施例提供的移动终端能够实现图1的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
下面将结合图5详细描述根据本申请一个实施例的电子设备。参考图5,在硬件层面,电子设备包括处理器,可选地,包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成医学术语识别装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
对待识别词语进行分词,得到特征词;
对特征词进行词语识别,得到待识别词语的字符特征;
对特征词进行语义识别,得到待识别词语的语义特征,语义特征用于表征待识别词语在对应的目标医学领域中的特征;
基于字符特征和语义特征,确定待识别词语对应的标准词。
在本发明实施例中,通过对待识别词语进行分词,得到特征词,分别对该特征词进行词语识别和语义识别,得到待识别词语的字符特征和语义特征,根据字符特征和语义特征,确定待识别词语对应的标准词,基于字符特征和语义特征的结合,能够尽可能将医学术语集中的近义词、常用缩写词匹配到与该近义词、缩写词对应的标准词,提高匹配结果的准确率。
上述如本申请图1所示实施例揭示的医学术语识别装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本发明实施例提供一种计算机可读存储介质,对待识别词语进行分词,得到特征词;对特征词进行词语识别,得到待识别词语的字符特征;对特征词进行语义识别,得到待识别词语的语义特征,语义特征用于表征待识别词语在对应的目标医学领域中的特征;基于字符特征和语义特征,确定待识别词语对应的标准词。
在本发明实施例中,通过对待识别词语进行分词,得到特征词,分别对该特征词进行词语识别和语义识别,得到待识别词语的字符特征和语义特征,根据字符特征和语义特征,确定待识别词语对应的标准词,基于字符特征和语义特征的结合,能够尽可能将医学术语集中的近义词、常用缩写词匹配到与该近义词、缩写词对应的标准词,提高匹配结果的准确率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的定界,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、***或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (9)

1.一种医学术语识别方法,其特征在于,所述方法包括:
对待识别词语进行分词,得到特征词;
对所述特征词进行词语识别,得到所述待识别词语的字符特征;
对所述特征词进行语义识别,得到所述待识别词语的语义特征,所述语义特征用于表征所述待识别词语在对应的目标医学领域中的特征;
基于所述字符特征和所述语义特征,确定所述待识别词语对应的标准词。
2.如权利要求1所述的方法,其特征在于,所述基于所述字符特征和所述语义特征,确定所述待识别词语对应的标准词,包括:
采用预学习的词模型,对所述字符特征进行匹配,得到表征所述待识别词语与目标词语之间相似度的第一匹配结果;
采用预学习的语义模型,对所述语义特征进行匹配,得到表征所述待识别词语与所述目标词语在所述目标医学领域中的相似度的第二匹配结果;
基于所述第一匹配结果和所述第二匹配结果,得到所述待识别词语与所述目标词语之间的综合匹配结果;
在所述综合匹配结果符合阈值的情况下,确定所述目标词语为所述标准词。
3.如权利要求2所述的方法,其特征在于,所述基于所述第一匹配结果和所述第二匹配结果,得到所述待识别词语与所述目标词语之间的综合匹配结果,包括:
根据所述第一匹配结果、所述第二匹配结果和权重值,得到所述综合匹配结果,所述权重值为所述第一匹配结果占所述综合匹配结果的权重或所述第二匹配结果占所述综合匹配结果的权重。
4.如权利要求2所述的方法,其特征在于,所述方法还包括:
获取第一训练数据,所述第一训练数据包括多个地区的医学术语;
基于所述第一训练数据,得到所述词模型。
5.如权利要求4所述的方法,其特征在于,所述基于所述第一训练数据,得到所述词模型,包括:
对所述第一训练数据的医学术语进行分词,确定医学术语的字符特征;
基于所述医学数据的字符特征,确定所述词模型。
6.如权利要求2所述的方法,其特征在于,所述方法还包括:
获取第二训练数据,所述第二训练数据包括医学资料,所述医学资料包括在医学领域的医学术语;
基于所述医学资料,识别所述医学资料的医学术语的上下文内容,所述上下文内容用于确定所述医学资料的医学术语的医学领域;
基于所述医学资料的医学术语和对应的上下文内容,确定所述语义模型。
7.一种医学术语识别装置,其特征在于,所述装置包括:
分词模块,用于对待识别词语进行分词,得到特征词;
词语识别模块,用于对所述特征词进行词语识别,得到所述待识别词语的字符特征;
语义识别模块,用于对所述特征词进行语义识别,得到所述待识别词语的语义特征,所述语义特征用于表征所述待识别词语在对应的目标医学领域中的特征;
第一确定模块,用于基于所述字符特征和所述语义特征,确定所述待识别词语对应的标准词。
8.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。
CN201911364148.2A 2019-12-26 2019-12-26 医学术语识别方法、装置和电子设备 Active CN111160012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911364148.2A CN111160012B (zh) 2019-12-26 2019-12-26 医学术语识别方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911364148.2A CN111160012B (zh) 2019-12-26 2019-12-26 医学术语识别方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111160012A true CN111160012A (zh) 2020-05-15
CN111160012B CN111160012B (zh) 2024-02-06

Family

ID=70556662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911364148.2A Active CN111160012B (zh) 2019-12-26 2019-12-26 医学术语识别方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111160012B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652299A (zh) * 2020-05-26 2020-09-11 泰康保险集团股份有限公司 一种业务数据自动匹配的方法及设备
CN112101021A (zh) * 2020-09-03 2020-12-18 沈阳东软智能医疗科技研究院有限公司 一种实现标准词映射的方法、装置及设备
CN112257446A (zh) * 2020-10-20 2021-01-22 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及可读存储介质
CN112541056A (zh) * 2020-12-18 2021-03-23 卫宁健康科技集团股份有限公司 医学术语标准化方法、装置、电子设备及存储介质
CN113657086A (zh) * 2021-08-09 2021-11-16 腾讯科技(深圳)有限公司 词语处理方法、装置、设备及存储介质
CN113793668A (zh) * 2021-09-17 2021-12-14 平安科技(深圳)有限公司 基于人工智能的症状标准化方法、装置、电子设备及介质
CN113822051A (zh) * 2020-06-19 2021-12-21 北京彩智科技有限公司 一种数据处理的方法、装置及电子设备
CN114613515A (zh) * 2022-03-28 2022-06-10 医渡云(北京)技术有限公司 医学实体的关系提取方法及装置、存储介质、电子设备
CN115658891A (zh) * 2022-10-18 2023-01-31 支付宝(杭州)信息技术有限公司 一种意图识别的方法、装置、存储介质及电子设备
WO2024066903A1 (zh) * 2022-09-30 2024-04-04 上海寰通商务科技有限公司 识别待识别医药行业目标对象的方法、设备和介质
CN118035504A (zh) * 2024-04-15 2024-05-14 上海森亿医疗科技有限公司 医学核心词知识库构建方法、装置、介质及终端

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150227505A1 (en) * 2012-08-27 2015-08-13 Hitachi, Ltd. Word meaning relationship extraction device
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取***及方法
CN106933806A (zh) * 2017-03-15 2017-07-07 北京大数医达科技有限公司 医疗同义词的确定方法和装置
US20170351971A1 (en) * 2016-06-07 2017-12-07 International Business Machines Corporation Method and apparatus for informative training repository building in sentiment analysis model learning and customaization
CN108804423A (zh) * 2018-05-30 2018-11-13 平安医疗健康管理股份有限公司 医疗文本特征提取与自动匹配方法和***
CN108829894A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置
US20190005019A1 (en) * 2017-06-29 2019-01-03 Accenture Global Solutions Limited Contextual pharmacovigilance system
CN109256216A (zh) * 2018-08-14 2019-01-22 平安医疗健康管理股份有限公司 医学数据处理方法、装置、计算机设备和存储介质
CN109522551A (zh) * 2018-11-09 2019-03-26 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
WO2019071661A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法、***及存储介质
CN109829156A (zh) * 2019-01-18 2019-05-31 北京惠每云科技有限公司 医学文本识别方法及装置
CN109920536A (zh) * 2019-02-28 2019-06-21 生活空间(沈阳)数据技术服务有限公司 一种识别单病种的装置及存储介质
CN110287337A (zh) * 2019-06-19 2019-09-27 上海交通大学 基于深度学习和知识图谱获取医学同义词的***及方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150227505A1 (en) * 2012-08-27 2015-08-13 Hitachi, Ltd. Word meaning relationship extraction device
CN105894088A (zh) * 2016-03-25 2016-08-24 苏州赫博特医疗信息科技有限公司 基于深度学习及分布式语义特征医学信息抽取***及方法
US20170351971A1 (en) * 2016-06-07 2017-12-07 International Business Machines Corporation Method and apparatus for informative training repository building in sentiment analysis model learning and customaization
CN106933806A (zh) * 2017-03-15 2017-07-07 北京大数医达科技有限公司 医疗同义词的确定方法和装置
US20190005019A1 (en) * 2017-06-29 2019-01-03 Accenture Global Solutions Limited Contextual pharmacovigilance system
WO2019071661A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法、***及存储介质
CN108804423A (zh) * 2018-05-30 2018-11-13 平安医疗健康管理股份有限公司 医疗文本特征提取与自动匹配方法和***
CN108829894A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置
CN109256216A (zh) * 2018-08-14 2019-01-22 平安医疗健康管理股份有限公司 医学数据处理方法、装置、计算机设备和存储介质
CN109522551A (zh) * 2018-11-09 2019-03-26 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
CN109829156A (zh) * 2019-01-18 2019-05-31 北京惠每云科技有限公司 医学文本识别方法及装置
CN109920536A (zh) * 2019-02-28 2019-06-21 生活空间(沈阳)数据技术服务有限公司 一种识别单病种的装置及存储介质
CN110287337A (zh) * 2019-06-19 2019-09-27 上海交通大学 基于深度学习和知识图谱获取医学同义词的***及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
侯庆霖;: "基于词向量及术语关系抽取方法的文本分类方法", no. 07 *
冯艳红;于红;孙庚;赵禹锦;: "基于词向量和条件随机场的领域术语识别方法", no. 11 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652299A (zh) * 2020-05-26 2020-09-11 泰康保险集团股份有限公司 一种业务数据自动匹配的方法及设备
CN113822051A (zh) * 2020-06-19 2021-12-21 北京彩智科技有限公司 一种数据处理的方法、装置及电子设备
CN113822051B (zh) * 2020-06-19 2024-01-30 北京彩智科技有限公司 一种数据处理的方法、装置及电子设备
CN112101021A (zh) * 2020-09-03 2020-12-18 沈阳东软智能医疗科技研究院有限公司 一种实现标准词映射的方法、装置及设备
CN112257446A (zh) * 2020-10-20 2021-01-22 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及可读存储介质
CN112541056A (zh) * 2020-12-18 2021-03-23 卫宁健康科技集团股份有限公司 医学术语标准化方法、装置、电子设备及存储介质
CN112541056B (zh) * 2020-12-18 2024-05-31 卫宁健康科技集团股份有限公司 医学术语标准化方法、装置、电子设备及存储介质
CN113657086B (zh) * 2021-08-09 2023-08-15 腾讯科技(深圳)有限公司 词语处理方法、装置、设备及存储介质
CN113657086A (zh) * 2021-08-09 2021-11-16 腾讯科技(深圳)有限公司 词语处理方法、装置、设备及存储介质
CN113793668A (zh) * 2021-09-17 2021-12-14 平安科技(深圳)有限公司 基于人工智能的症状标准化方法、装置、电子设备及介质
CN114613515A (zh) * 2022-03-28 2022-06-10 医渡云(北京)技术有限公司 医学实体的关系提取方法及装置、存储介质、电子设备
WO2024066903A1 (zh) * 2022-09-30 2024-04-04 上海寰通商务科技有限公司 识别待识别医药行业目标对象的方法、设备和介质
CN115658891A (zh) * 2022-10-18 2023-01-31 支付宝(杭州)信息技术有限公司 一种意图识别的方法、装置、存储介质及电子设备
CN115658891B (zh) * 2022-10-18 2023-07-25 支付宝(杭州)信息技术有限公司 一种意图识别的方法、装置、存储介质及电子设备
CN118035504A (zh) * 2024-04-15 2024-05-14 上海森亿医疗科技有限公司 医学核心词知识库构建方法、装置、介质及终端

Also Published As

Publication number Publication date
CN111160012B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN111160012B (zh) 医学术语识别方法、装置和电子设备
CN110705214B (zh) 一种自动编码方法及装置
US11609748B2 (en) Semantic code search based on augmented programming language corpus
CN110737689B (zh) 数据标准符合性检测方法、装置、***及存储介质
CN107622080B (zh) 一种数据处理方法及设备
CN109190007A (zh) 数据分析方法及装置
CN114625732A (zh) 基于结构化查询语言sql的查询方法和***
CN110765750B (zh) 报表数据录入方法及终端设备
CN116629227B (zh) 一种将文本转换为sql语句的方法及设备
CN113535817B (zh) 特征宽表生成及业务处理模型的训练方法和装置
CN108255891B (zh) 一种判别网页类型的方法及装置
CN112069267A (zh) 一种数据处理方法和装置
CN109993190B (zh) 一种本体匹配方法、装置和计算机存储介质
CN110647568B (zh) 一种图数据库数据转化为编程语言数据方法及装置
CN114611513A (zh) 样本生成方法、模型训练方法、实体识别方法及相关装置
CN110750625B (zh) 司法问答方法及相关设备
CN111488737B (zh) 文本识别方法、装置及设备
CN110018844B (zh) 决策触发方案的管理方法、装置和电子设备
CN114282586A (zh) 一种数据标注方法、***和电子设备
CN110909538A (zh) 问答内容的识别方法、装置、终端设备及介质
CN110309313B (zh) 生成事件转移图谱的方法及装置
CN111967767A (zh) 一种业务风险识别方法、装置、设备及介质
CN111046909A (zh) 一种负荷预测的方法及装置
CN113496124A (zh) 医疗文书的语义分析方法、装置、电子设备及存储介质
CN110674495B (zh) 一种数组越界访问的检测方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant