CN114036950A - 一种医疗文本命名实体识别方法及*** - Google Patents
一种医疗文本命名实体识别方法及*** Download PDFInfo
- Publication number
- CN114036950A CN114036950A CN202111327160.3A CN202111327160A CN114036950A CN 114036950 A CN114036950 A CN 114036950A CN 202111327160 A CN202111327160 A CN 202111327160A CN 114036950 A CN114036950 A CN 114036950A
- Authority
- CN
- China
- Prior art keywords
- entity
- medical text
- named entity
- character
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 59
- 238000002372 labelling Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 73
- 108091026890 Coding region Proteins 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 2
- 230000004927 fusion Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 206010044565 Tremor Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种医疗文本命名实体识别方法及***,所述方法包括以下步骤:获取待识别医疗文本;基于预训练的命名实体识别模型,对所述待识别医疗文本进行命名实体识别;其中,所述命名实体识别模型训练方法包括:获取已进行实体标注的医疗文本训练数据集,对每个训练数据均进行字符级编码、实***置编码和实体类别编码;根据选定中文预训练模型,根据所述字符级编码及相应的实***置编码和实体类别编码,训练得到所述命名实体识别模型。本发明通过改进实***置编码和实体类别编码方法,能够快速高效的进行命名实体预测。
Description
技术领域
本发明属于医学文本处理技术领域,尤其涉及一种医疗文本命名实体识别方法及***。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
命名实体识别任务主要为识别文本中的实体,目前所采用的主流模型包括softmax逻辑回归模型、条件随机场(ConditionalRandom Field,CRF)、span等几种模式。其中,softmax与CRF的数据输入格式一致,一般采用BIO、BIEO等格式对文本输出进行编码。softmax将标签预测当作传统分类问题,将归一化后概率最高的输出对应的类别作为分类器输出。CRF则加入相邻字符之间的类别转移概率,与softmax相比准确率更高,但是因其不能并行,故效率较softmax低。前两者往往擅长处理实体较短的文本,因其对实体的正确判断需要依赖于实体中每个字符均判断正确,当实体较长时,其正确率显著下降。
基于span模式的命名实体识别,主要是通过模型预测实体的起止位置。这种模式下模型预测一个实体只需要预测起始和结束位置,而不是组成实体的每一个字符,所以其设计模式对于长文本非常友好。目前业界也有较多种实现方式,如枚举文本种所有可能的字符组合,判断该组合是否为实体及其可能的实体类别。或者为对文本中每一个字符进行多个二分类,判断是否为某一类别的起止位置。第一种方法会产生大量实体组合,对于长文本复杂度较高。而第二种方式会导致标签空间稀疏,同时收敛速度较慢。
发明内容
为克服上述现有技术的不足,本发明提供了一种医疗文本命名实体识别方法及***,通过对实***置编码和实体类别进行编码,采用中文预训练模型学习原始文本字符编码与位置编码、类别编码之间的关联,能够快速高效的进行命名实体预测。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
一种医疗文本命名实体识别方法,包括以下步骤:
获取待识别医疗文本;
基于预训练的命名实体识别模型,对所述待识别医疗文本进行命名实体识别;其中,所述命名实体识别模型训练方法包括:
获取已进行实体标注的医疗文本训练数据集,对每个训练数据均进行字符级编码、实***置编码和实体类别编码;
根据选定中文预训练模型,根据所述字符级编码及相应的实***置编码和实体类别编码,训练得到所述命名实体识别模型。
进一步地,对训练数据进行字符级别编码包括:对每个字符进行编码,得到相应编码ID;基于预设最大长度,对每个编码ID进行截断或补全操作,得到所述训练数据的字符编码序列。
进一步地,对训练数据进行实***置编码包括:对于每个实体,均获取该实体的起始字符所在位置和长度,将所述起始字符编码为该实体的长度,其他字符均编码为0,得到所述训练数据的位置编码序列。
进一步地,对训练数据进行体类别编码包括:对于每个实体,均获取该实体的起始字符所在位置,并根据预设的实体类别映射关系获取该实体相应的类别编码,将所述起始字符编码为该实体的类别编码,其他字符均编码为0,得到所述训练数据的类别编码序列。
进一步地,所述中文预训练模型为RoBERTa模型,训练过程包括:
以字符编码序列为输入,取模型最后一层输出的隐藏状态矩阵,将所述隐藏状态矩阵与其转置矩阵融合得到实体起止位置概率矩阵;
对所述实体起止位置概率矩阵,根据标注实体的长度进行相对位置掩码,得到实***置预测矩阵;
对所述实体起止位置概率矩阵进行线性变换,并与所述隐藏状态矩阵进行融合,得到实体类别预测矩阵;
基于交叉熵损失函数计算实***置预测矩阵与位置编码序列之间的损失,以及实体类别预测矩阵与类别编码序列之间的损失,以两个损失之和最小化为目标对模型进行训练直至收敛。
进一步地,对所述待识别医疗文本进行命名实体识别包括:
将所述待识别医疗文本输入命名实体识别模型,得到实***置预测矩阵和实体类别预测矩阵,分别按行取概率最大位置的索引,得到每个实体的起始位置、长度及类别。
一个或多个实施例提供了一种医疗文本命名实体识别***,包括:
数据获取模块,用于获取待识别医疗文本;
命名实体识别模块,用于基于预训练的命名实体识别模型,对所述待识别医疗文本进行命名实体识别;其中,所述命名实体识别模型训练方法包括:
获取已进行实体标注的医疗文本训练数据集,对每个训练数据均进行字符级编码、实***置编码和实体类别编码;
根据选定中文预训练模型,根据所述字符级编码及相应的实***置编码和实体类别编码,训练得到所述命名实体识别模型。
一个或多个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述医疗文本命名实体识别方法。
一个或多个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述医疗文本命名实体识别方法。
以上一个或多个技术方案存在以下有益效果:
通过对实***置编码和实体类别进行编码,采用中文预训练模型学习原始文本字符编码与位置编码、类别编码之间的关联,能够快速高效的进行命名实体预测。
提供了一种位置编码和类别编码方法,将实体开始的字符编码为该实体的长度和类别,其他字符均编码为0,数据结构简单,提高了后续运算效率,并且,基于此种编码方法根据模型得到的预测结果,通过求最大值即可快速得到字符位置和类别。
在中文预训练模型中,参考注意力矩阵,通过将输出矩阵与其转置矩阵融合,将序列特征输出矩阵转化为方阵,因方阵中行列维度相等,所以矩阵中横轴和纵轴坐标可以代表对应的实体的起止位置,即每一行代表文本中每一个字符,该行对应的每一列代表以该字符起始的实体的结束位置,具有更强的感知位置的能力。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明一个或多个实施例中医疗文本命名实体识别方法流程图;
图2为本发明一个或多个实施例中医疗文本命名实体识别模型训练方法流程图;
图3为本发明一个或多个实施例中医疗文本命名实体识别模型解码层的数据处理示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例公开了一种基于span模式的医疗文本命名实体识别方法,如图1所示,包括以下步骤:
步骤1:获取待识别医疗文本;
步骤2:基于预训练的命名实体识别模型,对所述医疗文本进行命名实体识别。
其中,所述命名实体识别模型包括编码层和解码层。
本实施例中,所述命名实体识别模型采用RoBERTa模型训练得到。如图2所示,训练过程具体包括:
(1)获取经标注的医疗文本样本作为训练集;
本实施例中,所述医疗文本从电子病历获取,包括入院记录、首程、出院记录在内的多种医疗文本,将医疗文本按照特定标注规范进行标注,例如标注躯体部位、临床表现等。
获取经标注的医疗文本后,还对医疗文本进行预处理:将医疗文本按照段落进行拆分,拆分后每条数据为一个样本。将标注样本划分为训练集、验证集、测试集,取训练集数据进行训练。
通过编码层获取医疗文本样本的位置编码序列、类别编码序列和字符编码序列。包括以下步骤(2)-(3)。
(2)对所述医疗文本样本进行实体起止位置和实体类别的判断,并对其进行位置编码和类别编码,得到位置编码序列和类别编码序列。
位置编码规则为:如文本中字符为实体的起始位置,获取该实体的长度,将该起始位置编码为该实体长度,如非实体的起始位置,则编码为0。
类别编码规则为:获取该实体类别,并将该实体的起始位置按照实体类别进行编码,其他位置编码为0。具体地,预先设置实体类别映射关系。举例如下:
文本样本示例:[‘左侧肢体不自主震颤5年,加重伴右侧肢体震颤1个月。’]
位置编码序列:[2,0,2,0,3,0,0,2,0,2,0,0,0,0,0,2,0,2,0,2,0,3,0,0,0]
类别编码序列:[1,0,2,0,4,0,0,3,0,5,0,0,0,0,0,1,0,2,0,3,0,5,0,0,0]
其中类别编码字典为:
[‘o’,’pos’,’bod’,’sym’,’pro’,’dur’]
对应位置含义:‘o’:该位置非实体的起始位置;’pos’:方位;’bod’:躯体部位;’sym’:临床表现;’pro’:性质;’dur’:持续时间。
(3)根据预设字典,对所述医疗文本样本进行字符级别编码,得到字符编码序列。
对所述医疗文本样本进行字符级别编码(本实施例中采用WordPiece编码),得到字符对应的编码ID。对编码ID执行以下操作:设置输入最大长度为maxLen,对超过maxLen长度的输入进行截断处理,对未达到maxLen长度的输入添加’[PAD]’补全;对出现的英文单词进行小写转换;并将未出现在字典中的字符替换为’[UNK]’,在文本起始处添加’[CLS]’。
根据字符编码序列的长度,将步骤(2)中生成的位置编码序列和类别编码序列起始处及结尾处填充0,以与字符编码序列的长度相对应,即,每个字在位置编码序列、类别编码序列和字符编码序列中对应的字符相同。
通过解码层对实***置和实体类别进行解码,并结合步骤(1)和(2)得到的实际实***置编码和实体类别编码计算损失函数。如图3所示,包括以下步骤(4)-(6)。
(4)将字符编码序列输入到经过预训练的RoBERTa模型,获取模型最后一层输出的隐藏状态为矩阵H,H∈RS×E,其中S为输入的最大长度,E为隐藏层的维度。
(5)将模型输出矩阵与其转置矩阵进行融合,并经过Performer层,得到实体起止位置概率矩阵HXY。
融合后矩阵可以融合行和列两个维度的信息,即实体起始和可能结尾的信息,融合的方式是对输出矩阵和其转置矩阵进行矩阵相乘,具体公式为:
HXY=Softmax(Performer(H*HT))
其中,T为转置操作,HXY∈RS×S。
参考标注实体的长度,设置截断长度n,对融合矩阵HXY进行相对位置掩码,掩码矩阵为M,具体公式为:
其中Mi,j表示输入的掩码矩阵中第i个字符和第j维度。取M中值为1的部分得到特征向量HE∈RS×N,其中S为输入的最大长度,n为设置的截断长度。矩阵HEs,n中表示输入的第s个字符以及以第s个字符为起始的长度为n的实体存在的可能性。
以交叉熵为损失函数,计算HE与第(2)步得到的真实位置编码entity_label的损失,得到entity_loss。公式为:
entity_loss=Cross_entropy(HE,entity_labell)
(6)将第(5)步得到的融合矩阵HXY经过线性层进行线性变换,并与矩阵H融合,防止HXY与编码层输出距离过远损失信息,得到矩阵HT,具体公式为:
HT=MLP(H+MLP(HXY))=f(WT(H+f(HXYWXY+b))+b)
HXY∈RS×S,其中S为输入的最大长度;WXY∈RS×E,为权重矩阵;WT∈RE×T,T为类别编码的数量;b为偏置项;HT∈RS×T,f为激活函数tanh或者relu。
以交叉熵为损失函数,计算HT与真实类别编码type_label之间的损失,得到type_loss。公式为:
type_loss=Cross_entropy(HT,type_labell)
将步骤(5)和步骤(6)中的loss按照任务难度加权求和得到模型总loss,通过使验证集loss最小化对模型进行训练直到模型收敛。
loss=γ*entity_loss+(1-γ)*type_loss
γ∈(0,1),为模型超参,loss为模型总损失。
所述步骤2具体包括:将医疗文本输入训练后模型进行预测,得到位置预测矩阵HE和类别预测矩阵HT,分别按行取概率最大位置的索引,得到每个实体的起始位置、长度及类别。
具体地,对矩阵HE按行进行argmax取最大值,最大值对应的非0索引即为该实体的长度;对矩阵HT按行进行argmax取最大值,最大值索引对应的值即为实体类别。
本实施例参考注意力矩阵,将序列特征输出矩阵转化为方阵,因方阵中行列维度相等,所以矩阵中横轴和纵轴坐标可以代表对应的实体的起止位置,即每一行代表文本中每一个字符,该行对应的每一列代表以该字符起始的实体的结束位置。假设矩阵为M,Mi,j(i<j)中代表i位置起始字符与j位置结束字符之间的关系,而Mj,i可以代表从结束字符到起始字符之间的关系,故对该矩阵进行转置后融合,可使其得到更多的感知位置的能力。由于融合矩阵为方阵,当设置输入文本较长时,也对应着有较多结束位置的类别,类别的增多,会导致模型精度降低。而实际情况中,结束位置只能在起始位置或起止位置之后有限的长度内,因此本实施例对结束位置进行一定限制。并且通过对融合矩阵进行相对位置编码,将预测实体结束字符的绝对位置改为预测结束字符到起始字符的相对距离。对于特定的实体,其相对位置是固定的,而绝对位置则随着该实体在文中出现的位置的变化而变化,将绝对位置改为相对位置后,可有效降低标签类别,降低复杂度,提高模型精度。
实施例二
本实施例的目的是提供一种医疗文本命名实体识别***,所述***包括:
数据获取模块,用于获取待识别医疗文本;
命名实体识别模块,用于基于预训练的命名实体识别模型,对所述待识别医疗文本进行命名实体识别;其中,所述命名实体识别模型训练方法包括:
获取已进行实体标注的医疗文本训练数据集,对每个训练数据均进行字符级编码、实***置编码和实体类别编码;
根据选定中文预训练模型,根据所述字符级编码及相应的实***置编码和实体类别编码,训练得到所述命名实体识别模型。
实施例三
本实施例的目的是提供一种电子设备。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如实施例一种所述医疗文本命名实体识别方法。
实施例四
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如实施例一种所述医疗文本命名实体识别方法。
以上实施例二至四中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
以上一个或多个实施例具有以下技术效果:
通过对实***置编码和实体类别进行编码,采用中文预训练模型学习原始文本字符编码与位置编码、类别编码之间的关联,能够快速高效的进行命名实体预测。并且模型中,参考注意力矩阵,通过将输出矩阵与其转置矩阵融合,将序列特征输出矩阵转化为方阵,具有更强的感知位置的能力,提高了位置预测精度。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种医疗文本命名实体识别方法,其特征在于,包括以下步骤:
获取待识别医疗文本;
基于预训练的命名实体识别模型,对所述待识别医疗文本进行命名实体识别;其中,所述命名实体识别模型训练方法包括:
获取已进行实体标注的医疗文本训练数据集,对每个训练数据均进行字符级编码、实***置编码和实体类别编码;
根据选定中文预训练模型,根据所述字符级编码及相应的实***置编码和实体类别编码,训练得到所述命名实体识别模型。
2.如权利要求1所述的一种医疗文本命名实体识别方法,其特征在于,对训练数据进行字符级别编码包括:对每个字符进行编码,得到相应编码ID;基于预设最大长度,对每个编码ID进行截断或补全操作,得到所述训练数据的字符编码序列。
3.如权利要求1所述的一种医疗文本命名实体识别方法,其特征在于,对训练数据进行实***置编码包括:对于每个实体,均获取该实体的起始字符所在位置和长度,将所述起始字符编码为该实体的长度,其他字符均编码为0,得到所述训练数据的位置编码序列。
4.如权利要求3所述的一种医疗文本命名实体识别方法,其特征在于,对训练数据进行进行实体类别编码包括:对于每个实体,均获取该实体的起始字符所在位置,并根据预设的实体类别映射关系获取该实体相应的类别编码,将所述起始字符编码为该实体的类别编码,其他字符均编码为0,得到所述训练数据的类别编码序列。
5.如权利要求3或4所述的一种医疗文本命名实体识别方法,其特征在于,得到位置编码序列和类别编码序列后,对位置编码序列和类别编码序列中每个字符对应的编码长度通过填补0进行扩充,使得长度与字符编码序列一致。
6.如权利要求1所述的一种医疗文本命名实体识别方法,其特征在于,所述中文预训练模型为RoBERTa模型,训练过程包括:
以字符编码序列为输入,取模型最后一层输出的隐藏状态矩阵,将所述隐藏状态矩阵与其转置矩阵融合得到实体起止位置概率矩阵;
对所述实体起止位置概率矩阵,根据标注实体的长度进行相对位置掩码,得到实***置预测矩阵;
对所述实体起止位置概率矩阵进行线性变换,并与所述隐藏状态矩阵进行融合,得到实体类别预测矩阵;
基于交叉熵损失函数计算实***置预测矩阵与位置编码序列之间的损失,以及实体类别预测矩阵与类别编码序列之间的损失,以两个损失之和最小化为目标对模型进行训练直至收敛。
7.如权利要求4所述的一种医疗文本命名实体识别方法,其特征在于,对所述待识别医疗文本进行命名实体识别包括:
将所述待识别医疗文本输入命名实体识别模型,得到实***置预测矩阵和实体类别预测矩阵,分别按行取概率最大位置的索引,得到每个实体的起始位置、长度及类别。
8.一种医疗文本命名实体识别***,其特征在于,包括:
数据获取模块,用于获取待识别医疗文本;
命名实体识别模块,用于基于预训练的命名实体识别模型,对所述待识别医疗文本进行命名实体识别;其中,所述命名实体识别模型训练方法包括:
获取已进行实体标注的医疗文本训练数据集,对每个训练数据均进行字符级编码、实***置编码和实体类别编码;
根据选定中文预训练模型,根据所述字符级编码及相应的实***置编码和实体类别编码,训练得到所述命名实体识别模型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述医疗文本命名实体识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述医疗文本命名实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111327160.3A CN114036950B (zh) | 2021-11-10 | 2021-11-10 | 一种医疗文本命名实体识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111327160.3A CN114036950B (zh) | 2021-11-10 | 2021-11-10 | 一种医疗文本命名实体识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114036950A true CN114036950A (zh) | 2022-02-11 |
CN114036950B CN114036950B (zh) | 2024-05-10 |
Family
ID=80137098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111327160.3A Active CN114036950B (zh) | 2021-11-10 | 2021-11-10 | 一种医疗文本命名实体识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114036950B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114238644A (zh) * | 2022-02-22 | 2022-03-25 | 北京澜舟科技有限公司 | 一种降低语义识别计算量的方法、***及存储介质 |
CN115859984A (zh) * | 2022-12-22 | 2023-03-28 | 北京壹永科技有限公司 | 医疗命名实体识别模型训练方法、装置、设备及介质 |
CN116226114A (zh) * | 2023-05-09 | 2023-06-06 | 荣耀终端有限公司 | 一种数据处理方法、***及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019071661A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法、***及存储介质 |
CN111626056A (zh) * | 2020-04-11 | 2020-09-04 | 中国人民解放军战略支援部队信息工程大学 | 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置 |
CN112800766A (zh) * | 2021-01-27 | 2021-05-14 | 华南理工大学 | 基于主动学习的中文医疗实体识别标注方法及*** |
CN112883732A (zh) * | 2020-11-26 | 2021-06-01 | 中国电子科技网络信息安全有限公司 | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 |
CN112989834A (zh) * | 2021-04-15 | 2021-06-18 | 杭州一知智能科技有限公司 | 一种基于平格增强线性转换器的命名实体识别方法和*** |
CN113255294A (zh) * | 2021-07-14 | 2021-08-13 | 北京邮电大学 | 命名实体识别模型训练方法、识别方法及装置 |
CN113609859A (zh) * | 2021-08-04 | 2021-11-05 | 浙江工业大学 | 一种基于预训练模型的特种设备中文命名实体识别方法 |
-
2021
- 2021-11-10 CN CN202111327160.3A patent/CN114036950B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019071661A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法、***及存储介质 |
CN111626056A (zh) * | 2020-04-11 | 2020-09-04 | 中国人民解放军战略支援部队信息工程大学 | 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置 |
CN112883732A (zh) * | 2020-11-26 | 2021-06-01 | 中国电子科技网络信息安全有限公司 | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 |
CN112800766A (zh) * | 2021-01-27 | 2021-05-14 | 华南理工大学 | 基于主动学习的中文医疗实体识别标注方法及*** |
CN112989834A (zh) * | 2021-04-15 | 2021-06-18 | 杭州一知智能科技有限公司 | 一种基于平格增强线性转换器的命名实体识别方法和*** |
CN113255294A (zh) * | 2021-07-14 | 2021-08-13 | 北京邮电大学 | 命名实体识别模型训练方法、识别方法及装置 |
CN113609859A (zh) * | 2021-08-04 | 2021-11-05 | 浙江工业大学 | 一种基于预训练模型的特种设备中文命名实体识别方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114238644A (zh) * | 2022-02-22 | 2022-03-25 | 北京澜舟科技有限公司 | 一种降低语义识别计算量的方法、***及存储介质 |
CN115859984A (zh) * | 2022-12-22 | 2023-03-28 | 北京壹永科技有限公司 | 医疗命名实体识别模型训练方法、装置、设备及介质 |
CN115859984B (zh) * | 2022-12-22 | 2024-01-23 | 北京壹永科技有限公司 | 医疗命名实体识别模型训练方法、装置、设备及介质 |
CN116226114A (zh) * | 2023-05-09 | 2023-06-06 | 荣耀终端有限公司 | 一种数据处理方法、***及存储介质 |
CN116226114B (zh) * | 2023-05-09 | 2023-10-20 | 荣耀终端有限公司 | 一种数据处理方法、***及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114036950B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110196894B (zh) | 语言模型的训练方法和预测方法 | |
Kang et al. | Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN114036950B (zh) | 一种医疗文本命名实体识别方法及*** | |
CN109960728B (zh) | 一种开放域会议信息命名实体识别方法及*** | |
US20210374347A1 (en) | Few-shot named-entity recognition | |
CN110569332B (zh) | 一种语句特征的提取处理方法及装置 | |
CN110765785A (zh) | 基于神经网络的中英翻译方法、及其相关设备 | |
CN111599340A (zh) | 一种多音字读音预测方法、装置及计算机可读存储介质 | |
CN111401058B (zh) | 一种基于命名实体识别工具的属性值抽取方法及装置 | |
CN110597961A (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN111310441A (zh) | 基于bert的语音识别后文本修正方法、装置、终端及介质 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其*** | |
CN111739520A (zh) | 一种语音识别模型训练方法、语音识别方法、装置 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN110287483B (zh) | 一种利用五笔字根深度学习的未登录词识别方法及*** | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、***及存储介质 | |
CN114626378B (zh) | 命名实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN114548049A (zh) | 一种数字正则化方法、装置、设备及存储介质 | |
CN117371447A (zh) | 命名实体识别模型的训练方法、装置及存储介质 | |
CN114372467A (zh) | 命名实体抽取方法及装置、电子设备、存储介质 | |
CN114298047A (zh) | 基于笔画卷积和词向量的中文命名实体识别方法及*** | |
CN112966510A (zh) | 一种基于albert的武器装备实体抽取方法、***及存储介质 | |
CN113536790A (zh) | 基于自然语言处理的模型训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |