CN113948217A - 一种基于局部特征整合的医学嵌套命名实体识别方法 - Google Patents
一种基于局部特征整合的医学嵌套命名实体识别方法 Download PDFInfo
- Publication number
- CN113948217A CN113948217A CN202111392829.7A CN202111392829A CN113948217A CN 113948217 A CN113948217 A CN 113948217A CN 202111392829 A CN202111392829 A CN 202111392829A CN 113948217 A CN113948217 A CN 113948217A
- Authority
- CN
- China
- Prior art keywords
- information
- entity
- matrix
- medical
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000010354 integration Effects 0.000 title claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims abstract description 72
- 230000008569 process Effects 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 51
- 238000012549 training Methods 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000002372 labelling Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013439 planning Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 abstract description 12
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000002457 bidirectional effect Effects 0.000 abstract 2
- 230000006870 function Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明属于自然语言处理的命名实体识别领域,具体涉及一种基于局部特征整合的医学嵌套命名实体识别方法,该方法包括:该方法包括:对文本实体进行打标;通过双向长短期记忆网络来捕捉正向文本特征和反向文本特征;使用卷积神经网络提取局部特征,并采用匹配度评分矩阵为双向特征进行打分;重复上述过程,直到设定的最大实体长度,得到所有的预测实体;本发明采用了BiLSTM采集文本关键信息,将正向信息与反向信息剥离开,对他们进行分开操作;采用局部特征整合,将实体所处在的前后语义背景信息与实体内部的信息链接相区分,保证实体的产生是具有语义环境,并使得内部紧密有序。
Description
技术领域
本发明属于自然语言处理的命名实体识别领域,具体涉及一种基于局部特征整合的医学嵌套命名实体识别方法。
背景技术
随着信息时代的飞速发展,人们对信息的提取不再限制在人工或纸质渠道,而是期望有一个模型能识别诊断记录或者医学文献中的命名实体,实现文本的结构化,为患者建档立卡,个性化决策,或者将医学文献的新实体抽取出来,为数据化管理提供了更多的可能性。
对于一般的命名实体识别,通常采用序列标注的方法,但这样只能选出平面命名实体,不能解决嵌套命名实体的问题。解决嵌套命名实体识别目前有三种主流思路,一是通过遍历头尾指针,找出表现较好的跨度表示预测出的实体,但这种方法没有考虑实体内部的联系,也没考虑实体后文对实体边界的影响,同时耗费时间长。第二种方法是采用阅读理解的方式,找出数据中符合问题的实体,可以理解为将一个嵌套命名实体识别拆分为n个平面命名实体,n代表实体类别个数,但这是基于同类别实体种不存在嵌套的情况,是一种较为理想的状态。第三种是固定长度,每次找对应长度的实体。为了预测多种长度的实体,采用了多个LSTM,使得训练的时长大大增加,并且没有考虑实体外的文本对实体边界的影响。
综上所述,传统的序列标注不能解决嵌套命名实体识别,而目前存在的解决嵌套命名实体识别方法普遍存在网络结构深,且耗费时间长的问题。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种基于局部特征整合的医学嵌套命名实体识别方法,该方法包括:获取待识别的医学嵌套命名实体,将该命名实体输入到医学文本嵌套命名实体识别模型中,得到识别结果;
对医学文本嵌套命名实体识别模型进行训练的过程包括:
S1:获取原始医学文本数据和标签数据,根据文本数据的实体长度采用标签数据对医学文本数据进行标注;将标注的数据集划分为训练集和测试集;
S2:将训练集中的文本数据转化为对应的词向量,将词向量输入到基于注意力机制的BiLSTM模型中,得到一组包含前向信息和后向信息的向量;将该向量划分为正向文本信息和反向文本信息;
S3:将正向文本信息和反向文本信息分别输入到局部特征匹配模型中,提取文本的局部信息,并对正向信息和反向信息的匹配度进行评分;
S4:根据文本的局部信息、正向信息匹配度评分以及反向信息匹配度评分对实体长度进行预测;
S5:根据预测的实体长度计算模型的损失函数;
S6:将测试集中的数据输入到模型中,不断重复步骤S3~步骤S5,直到得到最大的实体长度,完成模型的训练。
优选的,采用标签数据对医学文本数据进行标注的过程包括:
步骤1:对原始医学文本数据进行整理,得到医学文本数据的实体,每个实体由三元组表示;
步骤2:对二维标注矩阵进行初始化;
步骤3:根据每个实体的长度和在文本的起始位置在二维标注矩阵中获取对应的位置,并打算类别标签;
步骤4:将所有的文本进行信息标注。
优选的,采用基于自注意力机制的BiLSTM模型对词向量进行处理的过程包括:
步骤1:将文本放入word2vec和fasttext进行训练,得到对应的词向量,将对应的词向量与Bert预训练的词向量进行结合,得到融合后的词向量,该向量为[word2vec;fasttext;Bert];
步骤2:将得到的融合词向量输入到BiLSTM模型中,并将最后一层的输出拆分为正向信息与反向信息;
步骤3:分别对正向信息和反向信息做自注意力机制,对正向信息和反向信息做自注意力机制的过程包括:正向信息和反向信息均为三维向量为v,将v的二三维交换得到v′,并将v与v′相乘,得到经过自注意力机制后的向量。
优选的,采用局部特征匹配模型对文本信息进行处理的过程包括:
步骤1:确定当前实体的长度item_len;
步骤2:采用卷积核大小为item_len的CNN分别对正向信息和反向信息进行局部整合,得到局部特征;
步骤3:对正向和反向信息的匹配度进行评分,得到头尾指针匹配度矩阵;
步骤4:根据头尾指针匹配度矩阵将基于注意力机制的BiLSTM模型输出的特征与局部特征进行融合,将融合后的特征进行分类,得到预测的实体长度;
步骤5:根据预测的实体长度和真实实体长度计算模型的损失值,并保留当前的损失值;
步骤6:将当前实体长度item_len,并返回步骤2,直到item_len大于最大的实体长度时,得到最长的实体。
进一步的,采用CNN分别对正向信息和反向信息进行局部整合的过程包括:
步骤21:对正向信息Vfor和反向信息Vrev进行零向量拼接操作,得到拼接后的正向信息Vfor1和拼接后的反向信息Vrev1;
步骤22:将拼接后的正向信息Vfor1和拼接后的反向信息Vrev1的二三维对调,得到变形后的正向信息Vfor2和反向信息Vrev2;
步骤23:使用Conv1d分别处理变形后的Vfor2和Vrev2,得到V′for和V′rev;
步骤24:将经过Conv1d处理后的V′for和V′rev调换第二维和第三维,得到局部特征。
进一步的,对正向和反向信息的匹配度进行评分的过程包括:设定可学习参数α,β,match_score_matrix;其中,α和β参数分别为区分正反向量的重要程度;match_score_matrix为每个头尾指针的匹配度评分,采用头尾指针匹配度矩阵计算公式对每个头尾指针的匹配度评分进行计算,得到头尾指针匹配度矩阵output。
进一步的,头尾指针匹配度矩阵计算公式为:
output=α*V′for+V′rev+match_score_matrix
其中,α表示正向向量的重要程度,β表示反向向量的重要程度,match_score_matrix表示每个头尾指针的匹配度评分,V′for表示正向信息的局部特征,V′rev表示反向信息的局部特征。
进一步的,预测的实体长度的过程包括:
步骤41:将头尾匹配度矩阵output与BiLSTM模型的输出特征相结合;
步骤42:将结合后的特征输入到soft Linear层,使得输入的两个语义特征融合;
步骤43:将融合后的特征输入到到classify Linear层,输出维度为标签类别数N的矩阵predict_matrix;
步骤44:根据矩阵predict_matrix得到实体长度。
进一步的,根据矩阵predict_matrix得到实体长度包括:矩阵predict_matrix的每个位置predict_matrixij都代表当前字是否为实体开头,若predict_matrixij=0,则不为实体,若predict_matrixij=k,则ij位置为第k个类别的实体开头,并且长度为当该模块设定的长度item_len。
优选的,模型的损失函数为:
其中,M表示总样本数,N表示类别数,yic表示样本i对于类别c的期望输出,pic表示样本i对于类别c的实际输出。
本发明采用了BiLSTM网络采集文本关键信息,将正向信息与反向信息剥离开,对他们进行分开操作;采用局部特征整合,将实体所处在的前后语义背景信息与实体内部的信息链接相区分,保证实体的产生是具有语义环境,且内部紧密有序;同时采用match_score_matrix对头尾字符进行优化匹配,让头尾信息在具有重要性区分度的同时,能匹配到对的实体分解边界;除此之外使用了一种新的打标方式,对比普通标注方式更简单,更使用于嵌套命名实体识别。
附图说明
图1为本发明的基于局部特征整合的医学嵌套命名实体识别方法的流程图;
图2为本发明的医学文本嵌套命名实体识别模型结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于局部特征整合的医学嵌套命名实体识别方法,如图1所示,该方法包括:将收集到的医疗文本信息送入多个预训练模型,得到对应的词向量;通过BiLSTM来捕捉正向文本特征和反向文本特征;使用CNN将固定长度区域的语义信息赋给头字符和尾字符,采用匹配度评分矩阵,为头尾信息的匹配度打分,得到预测实体长度等于卷积步长的实体;重复上一步骤,一直到设定的最大实体长度,得到所有的预测实体。
一种基于局部特征整合的医学嵌套命名实体识别方法,该方法包括:获取待识别的医学嵌套命名实体,将该命名实体输入到医学文本嵌套命名实体识别模型中,得到识别结果。
如图2所示,对医学文本嵌套命名实体识别模型进行训练的过程包括:
S1:获取原始医学文本数据和标签数据,根据文本数据的实体长度采用标签数据对医学文本数据进行标注;将标注的数据集划分为训练集和测试集;
S2:将训练集中的文本数据转化为对应的词向量,将词向量输入到基于注意力机制的BiLSTM模型中,得到一组包含前向信息和后向信息的向量;将该向量划分为正向文本信息和反向文本信息;
S3:将正向文本信息和反向文本信息分别输入到局部特征匹配模型中,提取文本的局部信息,并对正向信息和反向信息的匹配度进行评分;该局部特征匹配模型为CNN模型,该CNN模型用于将局部区域信息赋给头字符或尾字符;
S4:根据文本的局部信息、正向信息匹配度评分以及反向信息匹配度评分对实体长度进行预测;具体的,创建可学习参数,将CNN输出的局部特征与可学习参数进行加权,对头尾字符的匹配度进行评分,预测长度等于卷积步长的实体;
S5:根据预测的实体长度计算模型的损失函数;
S6:将测试集中的数据输入到模型中,不断重复步骤S3~步骤S5,直到得到最大的实体长度,完成模型的训练。
采用标签数据对医学文本数据进行标注的过程包括:
步骤1:对原始医学文本数据进行整理,得到医学文本数据的实体,每个实体由三元组表示;其中三元组表示为:(实体在文本的起始位置,实体类别,实体长度)。
步骤2:对二维标注矩阵进行初始化;即初始化一个MAX_LABEL_LEN*MAX_LEN的二维标注矩阵label_matrix,初始化值为0,MAX_LABEL_LEN是所有实体的最大实体长度,MAX_LEN是模型允许输入的固定文本长度。
步骤3:根据每个实体的长度和在文本的起始位置在二维标注矩阵中获取对应的位置,并打算类别标签;
具体的,按照每个实体的长度和它在文本的起始位置,在label_matrix找到对应位置,并按照它的类别打上标。例如长度为x,起始位置为y的实体,它的类别是2,在label_matrix的标注为:label_matrix[x][y]=2。
步骤4:将所有的文本进行信息标注,即按顺序处理每条文本的标注信息,一直到所有实体都处理完,假设有n条文本,那么一共有n个二维标注矩阵。
用LSTM提取文本数据的双向文本信息:
步骤1:将文本放入word2vec和fasttext进行训练,得到对应的词向量,并将与Bert预训练的词向量结合在一起,得到的向量为[word2vec;fasttext;Bert];
步骤2:将得到的向量放入BiLSTM,并将最后一层的输出拆分为正向信息与反向信息;
步骤3:分别对正向信息和反向信息做自注意力机制,自注意力机制的过程如下,存在一个三维向量为v,将v的二三维交换得到v′,并将v与v′相乘,得到经过自注意力机制后的向量。
采用局部特征匹配模型对文本信息进行处理的过程包括:
步骤1:当前模块需要预测的实体长度为item_len,初始化为1;
步骤2:对BiLSTM的正向信息和反向信息分别采用CNN做局部整合,CNN的卷积核大小为item_len,并对正反向信息的匹配度进行评分;
步骤3:将BiLSTM的原始输出和整合后的输出拼接在一起,对其进行N分类,N代表实体类别总数,得到实体长度等于item_len的实体;
步骤4:将预测的实体和相同长度的真实实体一起计算损失值,保留当前损失值;
步骤5:item_len加一,重复该模块,一直到item_len大于MAX_LABEL_LEN,停止遍历。
按正向信息和反向信息的特征进行局部整合与匹配的过程包括:
步骤1:为了保证经过局部特征提取后的向量大小不发生变化,对BiLSTM的输出做padding,将0向量拼接在Vfor和Vrev最后,得到Vfor1和Vrev1;
步骤2:将Vfor1和Vrev1的二三维对调,得到Vfor2和Vrev2;
步骤3:使用Conv1d分别处理变形后的Vfor2和Vrev2,Conv1d将指定跨度的特征提取整合在跨度的头指针位置,跨度会随着模型的需求做不断的改变;
步骤4:经过Conv1d处理后的V′for和V′rev,再调换第二维和第三维。
步骤5:设定可学习参数α,β,match_score_matrix,α和β参数为了区分正反向量的重要程度,match_score_matrix为每个头尾指针的匹配度评分,得到头尾指针匹配度矩阵output:
output=α*V′for+β*V′rev+match_score_matrix
其中,α表示正向向量的重要程度,β表示反向向量的重要程度,match_score_matrix表示每个头尾指针的匹配度评分,V′for表示正向信息的局部特征,V′rev表示反向信息的局部特征。
预测的实体长度的过程包括:
步骤1:将头尾匹配度矩阵output与BiLSTM的输出结合起来,保证原始语义不丢失;
步骤2:经过一层soft Linear层,soft Linear层输入与输出的维度相同,让两个语义能做到平缓的融合;
步骤3:经过classify Linear层,输出维度为标签类别数N。该输出矩阵predict_matrix的每个位置predict_matrixij都代表当前字是否为实体开头,若predict_matrixij=0,则不为实体,如predict_matrixij=k,则ij位置为第k个类别的实体开头,并且长度为当前模块设定的长度item_len。
计算模型的损失函数为:
步骤1:将predict_matrix处理为[-1,N]的形状,计算predict_matrix和label_matrix的交叉熵损失函数,其中i是样本;
pic=predict_matrix[i][c]
其中,M表示总样本数,N表示类别数,yic表示样本i对于类别c的期望输出,pic表示样本i对于类别c的实际输出,predict_matrix表示输出矩阵,c表示当前类别,label_matrix表示实际标签矩阵,[i]表示第i个样本,[c]表示样本在类别为c时概率值。
步骤2:将当前长度的样本数量与总样本数量的比值与损失值相乘,因为实体长度越长,标签分布越稀疏,loss值越容易走偏,给较短的实体以较高的权重,保证模型学习效果。
发明采用CNN和匹配度评分矩阵解决了预测医学嵌套命名实体的困难,首先利用BiLSTM将实体的前后文信息利用起来,用来确定实体边界;其次是用卷积神经网络CNN将对应长度区域的信息赋给头字符和尾字符,方便后面对头尾字符的匹配,同时也结合了区域内部的信息;最后是采用了匹配度评分矩阵,将头尾字符的信息进行打分;该模型在考虑实体内部关联度的前提下,还利用实体的前后文划分实体边界;本发明只采用用了一个BiLSTM模型,减小了训练耗时。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,包括:获取待识别的医学嵌套命名实体,将该命名实体输入到医学文本嵌套命名实体识别模型中,得到识别结果;
对医学文本嵌套命名实体识别模型进行训练的过程包括:
S1:获取原始医学文本数据和标签数据,根据文本数据的实体长度采用标签数据对医学文本数据进行标注;将标注的数据集划分为训练集和测试集;
S2:将训练集中的文本数据转化为对应的词向量,将词向量输入到基于注意力机制的BiLSTM模型中,得到一组包含前向信息和后向信息的向量;将该向量划分为正向文本信息和反向文本信息;
S3:将正向文本信息和反向文本信息分别输入到局部特征匹配模型中,提取文本的局部信息,并对正向信息和反向信息的匹配度进行评分;
S4:根据文本的局部信息、正向信息匹配度评分以及反向信息匹配度评分对实体长度进行预测;
S5:根据预测的实体长度计算模型的损失函数;
S6:将测试集中的数据输入到模型中,不断重复步骤S3~步骤S5,直到得到最大的实体长度,完成模型的训练。
2.根据权利要求1所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,采用标签数据对医学文本数据进行标注的过程包括:
步骤1:对原始医学文本数据进行整理,得到医学文本数据的实体,每个实体由三元组表示;
步骤2:对二维标注矩阵进行初始化;
步骤3:根据每个实体的长度和在文本的起始位置在二维标注矩阵中获取对应的位置,并打算类别标签;
步骤4:将所有的文本进行信息标注。
3.根据权利要求1所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,采用基于自注意力机制的BiLSTM模型对词向量进行处理的过程包括:
步骤1:将文本放入word2vec和fasttext进行训练,得到对应的词向量,将对应的词向量与Bert预训练的词向量进行结合,得到融合后的词向量,该向量为[word2vec;fasttext;Bert];
步骤2:将得到的融合词向量输入到BiLSTM模型中,并将最后一层的输出拆分为正向信息与反向信息;
步骤3:分别对正向信息和反向信息做自注意力机制,对正向信息和反向信息做自注意力机制的过程包括:正向信息和反向信息均为三维向量为v,将v的二三维交换得到v′,并将v与v′相乘,得到经过自注意力机制后的向量。
4.根据权利要求1所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,采用局部特征匹配模型对文本信息进行处理的过程包括:
步骤1:确定当前实体的长度item_len;
步骤2:采用卷积核大小为item_len的CNN分别对正向信息和反向信息进行局部整合,得到局部特征;
步骤3:对正向和反向信息的匹配度进行评分,得到头尾指针匹配度矩阵;
步骤4:根据头尾指针匹配度矩阵将基于注意力机制的BiLSTM模型输出的特征与局部特征进行融合,将融合后的特征进行分类,得到预测的实体长度;
步骤5:根据预测的实体长度和真实实体长度计算模型的损失值,并保留当前的损失值;
步骤6:将当前实体长度item_len,并返回步骤2,直到item_len大于最大的实体长度时,得到最长的实体。
5.根据权利要求4所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,采用CNN分别对正向信息和反向信息进行局部整合的过程包括:
步骤21:对正向信息Vfor和反向信息Vrev进行零向量拼接操作,得到拼接后的正向信息Vfor1和拼接后的反向信息Vrev1;
步骤22:将拼接后的正向信息Vfor1和拼接后的反向信息Vrev1的二三维对调,得到变形后的正向信息Vfor2和反向信息Vrev2;
步骤23:使用Conv1d分别处理变形后的Vfor2和Vrev2,得到V′for和V′rev;
步骤24:将经过Conv1d处理后的V′for和V′rev调换第二维和第三维,得到局部特征。
6.根据权利要求4所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,对正向和反向信息的匹配度进行评分的过程包括:设定可学习参数α,β,match_score_matrix;其中,α和β参数分别为区分正反向量的重要程度;match_score_matrix为每个头尾指针的匹配度评分,采用头尾指针匹配度矩阵计算公式对每个头尾指针的匹配度评分进行计算,得到头尾指针匹配度矩阵output。
7.根据权利要求6所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,头尾指针匹配度矩阵计算公式为:
output=α*V′for+β*V′rev+match_score_matrix
其中,α表示正向向量的重要程度,β表示反向向量的重要程度,match_score_matrix表示每个头尾指针的匹配度评分,V′for表示正向信息的局部特征,V′rev表示反向信息的局部特征。
8.根据权利要求4所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,预测的实体长度的过程包括:
步骤41:将头尾匹配度矩阵output与BiLSTM模型的输出特征相结合;
步骤42:将结合后的特征输入到soft Linear层,使得输入的两个语义特征融合;
步骤43:将融合后的特征输入到到classify Linear层,输出维度为标签类别数N的矩阵predict_matrix;
步骤44:根据矩阵predict_matrix得到实体长度。
9.根据权利要求8所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,根据矩阵predict_matrix得到实体长度包括:矩阵predict_matrix的每个位置predict_matrixij都代表当前字是否为实体开头,若predict_matrixij=0,则不为实体,若predict_matrixij=k,则ij位置为第k个类别的实体开头,并且长度为当该模块设定的长度item_len。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111392829.7A CN113948217B (zh) | 2021-11-23 | 2021-11-23 | 一种基于局部特征整合的医学嵌套命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111392829.7A CN113948217B (zh) | 2021-11-23 | 2021-11-23 | 一种基于局部特征整合的医学嵌套命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113948217A true CN113948217A (zh) | 2022-01-18 |
CN113948217B CN113948217B (zh) | 2024-06-18 |
Family
ID=79338557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111392829.7A Active CN113948217B (zh) | 2021-11-23 | 2021-11-23 | 一种基于局部特征整合的医学嵌套命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113948217B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114692636A (zh) * | 2022-03-09 | 2022-07-01 | 南京海泰医疗信息***有限公司 | 一种基于关系分类与序列标注的嵌套命名实体识别方法 |
CN114912456A (zh) * | 2022-07-19 | 2022-08-16 | 北京惠每云科技有限公司 | 一种医学实体关系的识别方法、装置及存储介质 |
CN115935994A (zh) * | 2022-12-12 | 2023-04-07 | 重庆邮电大学 | 一种智能识别电商标题方法 |
CN116151355A (zh) * | 2023-04-19 | 2023-05-23 | 之江实验室 | 一种模型训练和业务执行的方法、装置、介质及设备 |
CN116804998A (zh) * | 2023-08-22 | 2023-09-26 | 神州医疗科技股份有限公司 | 基于医学语义理解的医学术语检索方法和*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN107977361A (zh) * | 2017-12-06 | 2018-05-01 | 哈尔滨工业大学深圳研究生院 | 基于深度语义信息表示的中文临床医疗实体识别方法 |
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
CN109522546A (zh) * | 2018-10-12 | 2019-03-26 | 浙江大学 | 基于上下文相关的医学命名实体识别方法 |
-
2021
- 2021-11-23 CN CN202111392829.7A patent/CN113948217B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN107977361A (zh) * | 2017-12-06 | 2018-05-01 | 哈尔滨工业大学深圳研究生院 | 基于深度语义信息表示的中文临床医疗实体识别方法 |
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
CN109522546A (zh) * | 2018-10-12 | 2019-03-26 | 浙江大学 | 基于上下文相关的医学命名实体识别方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114692636A (zh) * | 2022-03-09 | 2022-07-01 | 南京海泰医疗信息***有限公司 | 一种基于关系分类与序列标注的嵌套命名实体识别方法 |
CN114692636B (zh) * | 2022-03-09 | 2023-11-03 | 南京海泰医疗信息***有限公司 | 一种基于关系分类与序列标注的嵌套命名实体识别方法 |
CN114912456A (zh) * | 2022-07-19 | 2022-08-16 | 北京惠每云科技有限公司 | 一种医学实体关系的识别方法、装置及存储介质 |
CN114912456B (zh) * | 2022-07-19 | 2022-09-23 | 北京惠每云科技有限公司 | 一种医学实体关系的识别方法、装置及存储介质 |
CN115935994A (zh) * | 2022-12-12 | 2023-04-07 | 重庆邮电大学 | 一种智能识别电商标题方法 |
CN115935994B (zh) * | 2022-12-12 | 2024-03-08 | 芽米科技(广州)有限公司 | 一种智能识别电商标题方法 |
CN116151355A (zh) * | 2023-04-19 | 2023-05-23 | 之江实验室 | 一种模型训练和业务执行的方法、装置、介质及设备 |
CN116151355B (zh) * | 2023-04-19 | 2023-07-11 | 之江实验室 | 一种模型训练和业务执行的方法、装置、介质及设备 |
CN116804998A (zh) * | 2023-08-22 | 2023-09-26 | 神州医疗科技股份有限公司 | 基于医学语义理解的医学术语检索方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN113948217B (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN113761936B (zh) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 | |
CN113948217A (zh) | 一种基于局部特征整合的医学嵌套命名实体识别方法 | |
CN111382565B (zh) | 基于多标签的情绪-原因对抽取方法及*** | |
CN111985369A (zh) | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 | |
CN112231447B (zh) | 一种中文文档事件抽取的方法和*** | |
CN112015859A (zh) | 文本的知识层次抽取方法及装置、计算机设备及可读介质 | |
CN114239585B (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN111046179A (zh) | 一种面向特定领域开放网络问句的文本分类方法 | |
CN112732916A (zh) | 一种基于bert的多特征融合模糊文本分类模型 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN114881043B (zh) | 基于深度学习模型的法律文书语义相似度评估方法及*** | |
CN112100212A (zh) | 一种基于机器学习和规则匹配的案件情节抽取方法 | |
CN114528835A (zh) | 基于区间判别的半监督专业术语抽取方法、介质及设备 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及*** | |
CN115374786A (zh) | 实体和关系联合抽取方法及装置、存储介质和终端 | |
CN117150436B (zh) | 多模态自适应融合的主题识别方法及*** | |
CN114239584A (zh) | 一种基于自监督学习的命名实体识别方法 | |
US20220156489A1 (en) | Machine learning techniques for identifying logical sections in unstructured data | |
CN113901813A (zh) | 一种基于主题特征和隐式句子结构的事件抽取方法 | |
CN111723572B (zh) | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 | |
CN116822513A (zh) | 一种融合实体类型与关键词特征的命名实体识别方法 | |
CN116775880A (zh) | 一种基于标签语义和迁移学习的多标签文本分类方法及*** | |
CN114881038B (zh) | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240109 Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province Applicant after: Yami Technology (Guangzhou) Co.,Ltd. Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant |