CN117034942B - 一种命名实体识别方法、装置、设备及可读存储介质 - Google Patents
一种命名实体识别方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN117034942B CN117034942B CN202311286040.2A CN202311286040A CN117034942B CN 117034942 B CN117034942 B CN 117034942B CN 202311286040 A CN202311286040 A CN 202311286040A CN 117034942 B CN117034942 B CN 117034942B
- Authority
- CN
- China
- Prior art keywords
- character
- text
- recognized
- named entity
- feature vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000003860 storage Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 245
- 238000000605 extraction Methods 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims description 101
- 230000006870 function Effects 0.000 claims description 49
- 239000011159 matrix material Substances 0.000 claims description 43
- 239000012634 fragment Substances 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 description 17
- 238000013528 artificial neural network Methods 0.000 description 14
- 230000011218 segmentation Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000007781 pre-processing Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 125000004122 cyclic group Chemical group 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Character Discrimination (AREA)
Abstract
本说明书公开了一种命名实体识别方法、装置、设备及可读存储介质,将待识别文本输入预先训练的命名实体识别模型,通过字符特征提取模块确定待识别文本中各字符的字符特征向量,通过字符片段特征提取模块得到待识别文本中各字符片段的字符片段特征向量,根据所述待识别文本中各字符片段分别对应的字符片段特征向量,以及所述命名实体识别模型中二维条件随机场实体标签预测模块,确定所述待识别文本对应于各预设实体类别组合的条件概率,从而确定所述待识别文本包含的命名实体信息。可见,上述方案中,通过命名实体识别模型中二维条件随机场实体标签预测模块,能够有效识别待识别文本中的嵌套实体,从而提高实体识别的准确性。
Description
技术领域
本说明书涉及自然语言处理技术领域,尤其涉及一种命名实体识别方法、装置、设备及可读存储介质。
背景技术
命名实体识别(Named Entity Recognition,NER)是一种自然语言处理技术,其目标是从文本中识别出具有特定意义的实体,主要包括人名、地名、组织机构名、时间、日期、专有名词等。命名实体识别技术是自然语言处理***中重要基础工具,它通过识别出文本中的实体,并将这些实体分类标注,从而提升后续信息提取、问答***、句法分析、机器翻译、元数据标注等应用的准确性和效率。
目前,常见的命名实体识别方法包括基于规则的方法、基于机器学习的方法、基于深度学习的方法等。其中,基于深度学习的方法在最近几年得到了广泛的应用,通过使用神经网络模型进行实体识别,相比于基于规则和基于机器学习的方法,它可以大幅提高命名实体识别的准确率。
但是,在实际应用中,待识别文本中的命名实体有可能不是孤立的出现的,会出现实体嵌套的现象。实体嵌套在命名实体识别中指的是在一个实体中包含另一个实体的情况。这种情况通常出现在实体之间存在层级或包含关系的情况。目前,上述方法仍然无法有效识别出待识别文本中的嵌套实体,一旦待识别文本中出现嵌套实体,则会出现识别错误和未识别的情况,导致上述命名实体识别方法在部分特定场景中的命名实体识别效果较差。
基于此,本说明书提供一种命名实体识别方法。
发明内容
本说明书提供一种命名实体识别方法、装置、设备及可读存储介质,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种命名实体识别方法,包括:
获取待识别文本;
将所述待识别文本输入预先训练的命名实体识别模型,通过所述命名实体识别模型的字符特征提取模块,确定所述待识别文本包含的各字符分别对应的字符特征向量;
将所述待识别文本包含的各字符分别对应的字符特征向量作为输入,输入到所述命名实体识别模型的字符片段特征提取模块,得到所述待识别文本中各字符片段分别对应的字符片段特征向量;
根据所述待识别文本中各字符片段分别对应的字符片段特征向量,以及所述命名实体识别模型中二维条件随机场实体标签预测模块,确定所述待识别文本对应于各预设实体类别组合的条件概率;
根据所述待识别文本对应于各预设实体类别组合的条件概率,确定所述待识别文本包含的命名实体信息。
可选地,所述命名实体识别模型的字符特征提取模块包括嵌入层和编码器;
所述将所述待识别文本输入预先训练的命名实体识别模型中,通过所述命名实体识别模型的字符特征提取模块,确定所述待识别文本包含的各字符分别对应的字符特征向量,具体包括:
将所述待识别文本输入预先训练的命名实体识别模型中,通过所述嵌入层,得到所述待识别文本中各字符的嵌入向量;
将所述各字符的嵌入向量输入所述编码器,得到所述各字符的字符特征向量。
可选地,所述命名实体识别模型的字符片段特征提取模块包括第一全连接层、第二全连接层和第三全连接层;
所述将所述待识别文本包含的各字符分别对应的字符特征向量作为输入,输入到所述命名实体识别模型的字符片段特征提取模块,得到所述待识别文本中各字符片段分别对应的字符片段特征向量,具体包括:
将所述待识别文本包含的各字符分别对应的字符特征向量作为输入,输入到所述命名实体识别模型的字符片段特征提取模块,通过所述第一全连接层得到所述各字符分别对应的第一特征向量,所述第一特征向量为所述各字符作为待识别文本中字符片段的首字符的特征向量;
根据所述待识别文本包含的各字符分别对应的字符特征向量,通过所述第二全连接层得到所述各字符分别对应的第二特征向量,所述第二特征向量为所述各字符作为待识别文本中字符片段的尾字符的特征向量;
将所述待识别文本分割为多个字符片段;
针对每个字符片段,将该字符片段中首字符的第一特征向量和该字符片段中尾字符的第二特征向量作为输入,输入到所述第三全连接层,得到该字符片段的字符片段特征向量。
可选地,根据所述待识别文本中各字符片段分别对应的字符片段特征向量,以及所述命名实体识别模型中二维条件随机场实体标签预测模块,确定所述待识别文本对应于各预设实体类别组合的条件概率,具体包括:
以所述待识别文本中各字符片段为节点,以所述待识别文本中各字符片段之间的关系为边,构建目标二维网格,并以所述待识别文本中各字符片段的实体类别分别为所述目标二维网格中各节点的状态;其中,所述目标二维网格中每行的各字符片段的首字符相同,每列的各字符片段的尾字符相同;
将所述待识别文本中各字符片段的字符片段特征向量,按照所述目标二维网格中各节点分别对应的字符片段进行排列,得到字符片段特征向量矩阵;
将所述目标二维网格以及所述字符片段特征向量矩阵作为输入,输入到所述命名实体识别模型中二维条件随机场实体标签预测模块,得到所述待识别文本对应于各预设实体类别组合的条件概率。
可选地,将所述目标二维网格和所述目标二维网格中各节点的字符片段特征向量作为输入,输入所述命名实体识别模型中二维条件随机场实体标签预测模块,确定所述待识别文本对应于各预设实体类别组合的条件概率,具体包括:
通过所述二维条件随机场实体标签预测模块针对所述目标二维网格中每一行节点,根据该行节点之间的边、该行节点与该行节点的上一行节点之间的边、该行节点的状态、该行节点的上一行节点的状态,以及所述字符片段特征向量矩阵,确定用于表征该行节点之间的关联关系,以及该行节点与该行节点的上一行节点之间的关联关系的第一特征函数;
根据该行节点的状态、该行节点,以及所述字符片段特征向量矩阵,确定用于表征该行节点的状态的第二特征函数;
根据所述第一特征函数和所述第二特征函数,确定该行节点对应的矩阵随机变量;
根据所述目标二维网格中各行节点的矩阵随机变量,得到所述待识别文本对应于各实体类别组合的条件概率。
可选地,根据所述待识别文本对应于各预设实体类别组合的条件概率,确定所述待识别文本包含的命名实体信息,具体包括:
根据所述待识别文本对应于各预设实体类别组合的条件概率中,条件概率最大的预设实体类别组合,确定所述待识别文本包含的命名实体信息。
可选地,预先训练命名实体识别模型,具体包括:
预先获取参考文本作为训练样本,并获取所述参考文本包含的各字符片段的实体类别标签作为所述训练样本的标注;
将所述训练样本输入待训练的命名实体识别模型,通过所述命名实体识别模型的字符特征提取模块,确定所述训练样本包含的各字符分别对应的字符特征向量;
将所述训练样本包含的各字符分别对应的字符特征向量作为输入,输入到所述命名实体识别模型的字符片段特征提取模块,得到所述训练样本中各字符片段分别对应的字符片段特征向量;
根据所述训练样本中各字符片段分别对应的字符片段特征向量,以及所述命名实体识别模型中二维条件随机场实体标签预测模块,确定所述训练样本对应于各实体类别组合的条件概率;
根据所述训练样本中对应于各实体类别组合的条件概率和所述训练样本的标注之间的差异确定损失;
以所述损失最小化为训练目标,训练所述命名实体识别模型。
本说明书提供了一种命名实体识别装置,包括:
获取模块,用于获取待识别文本;
字符特征向量确定模块,用于将所述待识别文本输入预先训练的命名实体识别模型,通过所述命名实体识别模型的字符特征提取模块,确定所述待识别文本包含的各字符分别对应的字符特征向量;
字符片段特征向量确定模块,用于将所述待识别文本包含的各字符分别对应的字符特征向量作为输入,输入到所述命名实体识别模型的字符片段特征提取模块,得到所述待识别文本中各字符片段分别对应的字符片段特征向量;
条件概率确定模块,用于根据所述待识别文本中各字符片段分别对应的字符片段特征向量,以及所述命名实体识别模型中二维条件随机场实体标签预测模块,确定所述待识别文本对应于各预设实体类别组合的条件概率;
命名实体确定模块,用于根据所述待识别文本对应于各预设实体类别组合的条件概率确定所述待识别文本包含的命名实体信息。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述命名实体识别方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述命名实体识别方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
本说明书提供的命名实体识别方法中,将待识别文本输入预先训练的命名实体识别模型,通过字符特征提取模块确定待识别文本中各字符的字符特征向量,通过字符片段特征提取模块得到待识别文本中各字符片段的字符片段特征向量,根据所述待识别文本中各字符片段分别对应的字符片段特征向量,以及所述命名实体识别模型中二维条件随机场实体标签预测模块,确定所述待识别文本对应于各预设实体类别组合的条件概率,从而确定所述待识别文本包含的命名实体信息。可见,上述方案中,通过命名实体识别模型中二维条件随机场实体标签预测模块,能够有效识别待识别文本中的嵌套实体,从而提高实体识别的准确性。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中一种命名实体识别方法的流程示意图;
图2为本说明书中一种命名实体识别方法的流程示意图;
图3为本说明书中一种命名实体识别方法的流程示意图;
图4为本说明书中一种命名实体识别方法的流程示意图;
图5为本说明书中一种字符片段二维网格的示意图;
图6为本说明书提供的一种命名实体识别装置的示意图;
图7为本说明书提供的对应于图1的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
另外,需要说明的是,本说明书中所有获取信号、信息或数据的动作都是在遵照所在地相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书提供的一种命名实体识别方法的流程示意图。
S100:获取待识别文本。
本说明书实施例中提供的一种命名实体识别方法,该方法的执行过程可由用于对待识别文本进行命名实体识别的服务器等电子设备执行。另外,在该方法的执行过程中所涉及到的命名实体识别模型,执行该命名实体识别模型的训练过程的电子设备和执行命名实体识别的电子设备可以相同也可以不同,本说明书对此不做限定。
在实际应用中,可以对包含大量字符的待识别文本进行命名实体识别,命名实体通常指特定类型的实体,如人名、地名、组织机构名等。通过识别和提取文本中的命名实体,从海量文本中抽取出关键信息。这些信息可以用于各种应用,例如搜索引擎的结果展示、知识图谱的构建等,还可以帮助计算机理解文本中的语义。通过识别命名实体,可以推断出文本中不同实体之间的关系,从而更好地理解上下文和语境。这对于机器翻译、问答***、智能对话等任务非常重要。
由此可见,命名实体识别广泛应用于自然语言处理领域的不同任务中。
在此步骤中,待识别文本可以来源于不同的自然语言处理领域的任务,如机器翻译、智能对话等。待识别文本包含有多个字符,字符的类型可以是中文汉字、字母、数据、特殊字符或者英文单词、英文单词子词等。本说明书对待识别文本中包含的字符的数量和类型,以及待识别文本的来源均不做限定。
进一步地,获得待识别文本后,需要对待识别文本进行统一的预处理来得到具有统一格式、且符合后续命名实体识别模型输入格式的文本,具体的预处理步骤包括:繁简转换、大小写处理、去除特殊字符、Unicode文本标准化等,当然还可以包含其它现有的预处理步骤,本说明书对此不做限定。
进一步地,对待识别文本进行预处理后,对其进行分词。
具体地,对待识别文本进行分词的步骤具体如下:给定待识别文本X,使用分词器对其进行分词,将其划分为一个个字符,得到一个字符序列,不妨记为X=(x1,x2……,xn),其中xi是待识别文本X中第i个字符,n是该待识别文本的字符序列长度。
在中文场景下的字符主要是指中文汉字,此外还包括字母、数据、特殊字符或者一些英文单词、英文单词子词(subword)、以及一些字符片段。此处分词器可以采用开源的分词器,如预训练语言模型自带的分词器、HanLP、LTP等,本说明书对此不做限定。
一般的,服务器会响应于命名实体识别请求,对命名实体识别请求中携带的待识别文本进行命名体识别。
而在实际的命名实体识别过程中,待识别文本中由一个或多个字符构成的命名实体可能并非孤立地出现,而是会存在实体嵌套的现象。实体嵌套(Nested Entities)是指在文本中存在嵌套的实体结构,其中一个实体包含另一个实体。这种情况下,一个实体作为另一个实体的上下文或修饰性信息。为此,在本说明书采用的命名实体识别模型中,通过引入二维条件随机场建模二维条件随机场实体标签预测模块,对不同字符片段之间的关联关系进行立体维度的建模,且并不局限于链式结构或者线性结构,从而提升对待识别文本中可能存在的实体嵌套现象的识别准确性。
S102:将所述待识别文本输入预先训练的命名实体识别模型,通过所述命名实体识别模型的字符特征提取模块,确定所述待识别文本包含的各字符分别对应的字符特征向量。
具体的,字符特征提取模块用于提取待识别文本中各个字符的字符特征向量,具体实现时可以使用基于深度学习的方法、采用神经网络进行构建,可以使用卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、门控循环单元(Gate Recurrent Unit,GRU)、长短期记忆网络(Long Short TermMemory,LSTM)、transformer等或者其他神经网络构建,根据不同的应用场景,可以灵活选择构建字符特征提取模块的网络结构,本说明书对字符特征提取模块的网络结构不做具体限制。
可选地,字符特征提取模块可以分为嵌入层和编码器。具体的,将所述待识别文本输入预先训练的命名实体识别模型中,通过所述嵌入层,得到所述待识别文本中各字符的嵌入向量,将所述各字符的嵌入向量输入所述编码器,得到所述各字符的字符特征向量。其中,编码器可以是transformer编码器,该transformer编码器的模型参数可以来源于基于通用语料预训练的自然语言模型中的编码器,也可是在命名实体识别模型中训练过程中得到的,本说明书对此不做限定。
字符特征提取模块的嵌入层可以用于获取待识别文本中每个字符的字符嵌入向量和位置嵌入向量,将字符嵌入向量和位置嵌入向量相加作为每个字符最终的嵌入向量。对于给定长度为n的待识别文本X=(x1,x2…,xi,…,xn),首先使用预训练语言模型(比如可以使用BERT预训练语言模型)的词表将待识别文本X转换为词表中对应字符的整数索引序列。预训练语言模型的词表由常见的字符和字符片段构成,其中包含中文汉字、英文字母、特殊字母、英文单词、英文单词的子词等。接着将待识别文本X对应的整数索引序列输入字符特征提取模块的嵌入层得到每个字符对应的字符嵌入向量和位置嵌入向量,将两者相加即为每个字符的嵌入向量。从而得到待识别文本X的字符嵌入向量序列,记为E=(e1,e2,…,ei,…,en),其中ei是待识别文本X中第i个字符xi的嵌入向量。
进一步的,将待识别文本的各字符的嵌入向量(嵌入向量序列)依次输入字符特征提取模块的编码器的每个transformer模块,将最后一个transformer模块输出的特征向量序列作为该待识别文本的字符特征向量序列,记为H=(h1,h2,…,hi,…,hn),其中hi是待识别文本X中第i个字符xi的字符特征向量,该字符特征向量包含字符的语义语法信息以及上下文信息。
S104:将所述待识别文本包含的各字符分别对应的字符特征向量作为输入,输入到所述命名实体识别模型的字符片段特征提取模块,得到所述待识别文本中各字符片段分别对应的字符片段特征向量。
具体地,使用神经网络构建命名实体识别模型的字符片段特征提取模块。该字符片段特征提取模块用于基于待识别文本中各字符的字符特征向量,确定待识别文本中各字符片段的特征。在实际应用中,以待识别文本中某一个字符xi为首字符,以待识别文本中排序在xi之后的另外一个字符xj为尾字符,即可构建属于待识别文本的一个字符片段Xi:j。该字符片段的长度为(j-i+1)个字符,其中,1≤i≤j≤n。由于待识别文本包含的各字符在待识别文本正是存在顺序的,因此,对于i>j的字符片段,该字符片段没有实际意义。由于待识别文本可以是一条长语句,其中包括n个字符,因此,待识别文本包括多个字符片段,总共有个字符片段。
需要注意的是,一般情况下,命名实体都是由多个字符构成的,但是,根据不同的实际应用场景中,还可以存在一个字符构成的命名实体,也即,在本说明书中,字符片段的长度可以是一个字符。
将步骤S102中获取的待识别文本中各字符的字符特征向量输入字符片段特征提取模块,得到待识别文本中每个字符的第一特征向量和第二特征向量,其中,第一特征向量可用于表征该字符作为字符片段的首字符时的特征,第二特征向量可用于表征该字符用作为字符片段的尾字符时的特征,然后基于待识别文本中每个字符片段的首字符的第一特征向量和尾字符的第二特征向量得到该字符片段的特征向量,从而得到待识别文本的字符片段特征向量矩阵。
S106:根据所述待识别文本中各字符片段分别对应的字符片段特征向量,以及所述命名实体识别模型中二维条件随机场实体标签预测模块,确定所述待识别文本对应于各预设实体类别组合的条件概率。
具体地,基于二维条件随机场构建命名实体识别模型的二维条件随机场实体标签预测模块,根据各字符片段的首字符和尾字符,构建字符片段二维网格结构,然后在该字符片段二维网格结构的基础上使用二维条件随机场,将待识别文本的字符片段特征向量,按照字符片段二维网格结构构成字符片段特征向量矩阵,并将该字符片段特征向量矩阵输入该二维条件随机场实体标签预测模块,输出待识别文本上所有实体类别组合的条件概率。具体的,待识别文本包含的所有字符片段分别与各预设实体类别相对应,构成了待识别文本对应的多个实体类别组合,通过上述二维条件随机场实体标签预测模块,在给定输入为待识别文本的条件下,确定待识别文本对应的各实体类别组合分别对应的条件概率。
需要注意的是,一条长度为n的待识别文本中共有个字符片段,对其中每个字符片段分别赋予一个实体类别就得到了该待识别文本对应的一种实体类别组合。由此,一条待识别文本对应着多种实体类别组合。也正因为如此,在此步骤中,命名实体识别模型中二维条件随机场实体标签预测模块可以基于待识别文本中各字符片段的字符片段特征向量,输出待识别文本对应于各预设实体类别组合的条件概率。
具体的,以往的基于条件随机场的命名实体识别模型(比如BiLSTM+CRF,BERT+CRF等)都是将待识别文本进行编码得到字符向量序列后,将其看作是一个链式结构或者线性结构(每个字符视作一个节点,相邻字符之间构建边),采用线性链条件随机场(linear-chain CRFs)对其进行建模和序列标注得到每个字符节点对应的实体类别标签,从而提取待识别文本中的实体信息。但是这些基于线性链条件随机场的命名实体识别的模型仅仅利用了相邻字符之间的关联关系,忽略了不同字符片段之间的关系(比如相邻的字符片段或者嵌套的字符片段),导致实体识别的准确率有限;并且这些命名实体识别模型无法有效识别文本中的嵌套实体,导致在实际应用场景中效果不佳。
而在本说明书中,采用二维条件随机场(two-dimensional conditional randomfields,2D CRFs)模型,构建命名实体识别模型中的实体标签预测模块,不仅仅将待识别文本看作是链式结构或是线性结构,而是对待识别文本构建字符片段二维网格结构,使用二维条件随机场进行建模,用于预测文本中的实体信息,有效地利用字符片段之间的立体的关联信息,从而有效应对实体嵌套的情况,提高实体识别的准确率。
仍以前述待识别文本X=(x1,x2…,xi,…,xn)为例,在确定了待识别文本中各字符的字符特征向量H=(h1,h2,…,hi,…,hn)后,基于步骤S104得到字符片段特征向量hij span,进而得到待识别文本的字符片段特征向量矩阵Hspan,基于字符片段特征向量矩阵,使用实体标签预测模块的二维条件随机场,确定待识别文本对应于各预设实体类别组合的条件概率大小。具体地,对于给定的待识别文本X,和某一种实体类别组合Y={T1,T2,…,Ti,…,Tn},其条件概率记为,其中Ti={yi,i,yi,i+1,…,yi,j,…,yi,n},其中yi,j是命名实体识别模型预测的待识别文本X中从第i个字符到第j个字符构成的字符片段Xi:j的实体类别。
S108:根据所述待识别文本对应于各预设实体类别组合的条件概率,确定所述待识别文本包含的命名实体信息。
进一步地,基于步骤S106得到所述待识别文本对应于各预设实体类别组合的条件概率后,选择其中条件概率最大的实体类别组合作为命名实体识别模型预测的实体类别标签。
具体地,仍以前述待识别文本X为例。一种可选的预测实体类别标签确定公式如下:
其中={/>,/>,…,/>,…,/>},其中/>={/>,/>,…,/>,…,/>},/>是命名实体识别模型预测的待识别文本X中从第i个字符到第j个字符构成的字符片段Xi:j的实体类别。
进一步地,得到命名实体识别模型预测的在给定待识别文本X的条件下条件概率最大实体类别标签后,根据该实体类别标签来判断待识别文本中的各字符片段是否是实体,并且在判断字符片段是实体时确定字符片段属于哪种实体类别。
具体地,对于待识别文本X中从第i个字符到第j个字符构成字符片段Xi:j,根据所述命名实体识别模型对该待识别文本预测的条件概率最大的实体类别标签,若确定该字符片段对应的实体类别/>=0,代表该字符片段不是一个实体;若/>=k(其中k∈{1,2,…,K}),则该字符片段是预设的K个实体类别中的第k种实体类别;若/>=K+1,则该字符片段是待识别文本中代表起始的特殊实体,对应start实体类别;若/>=K+2,则该字符片段是待识别文本中代表终止的特殊实体,对应end实体类别。从而得到待识别文本中每个实体及其实体类别作为实体信息进行输出。
本说明提供的命名实体识别方法中,将待识别文本输入预先训练的命名实体识别模型,通过字符特征提取模块确定待识别文本中各字符的字符特征向量,通过字符片段特征提取模块得到待识别文本中各字符片段的字符片段特征向量,根据所述待识别文本中各字符片段分别对应的字符片段特征向量,以及所述命名实体识别模型中二维条件随机场实体标签预测模块,确定所述待识别文本对应于各预设实体类别组合的条件概率,从而确定所述待识别文本包含的命名实体信息。
可见,上述方案中,构建字符片段二维网格结构,通过命名实体识别模型中二维条件随机场实体标签预测模块,基于字符片段二维网格结构预测待识别文本中的实体信息,该方法相比于以往的命名实体识别模型能有效地利用字符片段之间的关联信息,能够有效识别待识别文本中的嵌套实体,从而提高实体识别的准确性。
进一步地,字符片段特征提取模块用于根据待识别文本中各字符的字符特征向量,确定通过各字符组成的不同字符片段的字符片段特征向量,由于各字符片段之间的不同取决于各字符片段的首字符、尾字符以及片段长度,因此,字符片段特征提取模块需要提取每个字符作为字符片段中首字符的特征、作为字符片段中尾字符的特征。具体的,字符片段特征提取模块包括第一全连接层、第二全连接层和第三全连接层,如图2所示,具体方案如下:
S200:将所述待识别文本包含的各字符分别对应的字符特征向量作为输入,输入到所述命名实体识别模型的字符片段特征提取模块,通过所述第一全连接层得到所述各字符分别对应的第一特征向量,所述第一特征向量为所述各字符作为待识别文本中字符片段的首字符的特征向量。
对于给定的待识别文本X中第i个字符xi(1≤i≤n),步骤S102中获取的对应的字符特征向量为hi,按如下公式获取其第一特征向量hi s:
其中将字符xi的特征向量hi输入第一全连接层得到字符xi作为字符片段首字符的特征向量hi s,记为第一特征向量。其中Ws、bs是该第一全连接层的权重矩阵和偏置项,ReLU()是ReLU激活函数,此处也可以采用其他激活函数,比如LeakyReLU等,本说明书对激活函数的具体类型不做限定。此外,该第一全连接层也可以使用多层神经网络实现。
进一步地,得到待识别文本X的第一特征向量序列为Hs=(h1 s,h2 s,…,hi s,…,hn s),其中hi s是待识别文本中第i个字符xi的第一特征向量。
S202:根据所述待识别文本包含的各字符分别对应的字符特征向量,通过所述第二全连接层得到所述各字符分别对应的第二特征向量,所述第二特征向量为所述各字符作为待识别文本中字符片段的尾字符的特征向量。
对于给定的待识别文本X中第i个字符xi(1≤i≤n),步骤S102中获取的对应的字符特征向量为hi,按如下公式获取其第二特征向量hi e:
其中,将字符xi的特征向量hi输入第二全连接层得到xi作为字符片段尾字符的特征向量hi e,记为第二特征向量;其中We,be是该第二全连接层的权重矩阵和偏置项,ReLU()是ReLU激活函数,此处也可以采用其他激活函数,比如LeakyReLU等,本说明书对激活函数的具体类型不做限定。此外,该第二全连接层也可以使用多层神经网络实现。
进一步地,得到待识别文本X的第二特征向量序列为He=(h1 e,h2 e,…,hi e,…,hn e),其中hi e是待识别文本中第i个字符xi的第二特征向量。
S204:将所述待识别文本分割为多个字符片段。
与上述步骤S106类似,待识别文本中包含多个字符,因此,可以基于一个或多个字符构成字符片段。在此步骤中,可以针对待识别文本中每个字符,根据待识别文本中各字符的排列顺序,确定排列顺序在该字符之后的各候选字符,以该字符为首字符,以该字符的各候选字符分别为尾字符,构成以该字符为开头的各字符片段。当然,由于在本说明书中,一个字符也可以构成字符片段,因此,以该字符为开头的字符片段还包括该字符本身。
S206:针对每个字符片段,将该字符片段中首字符的第一特征向量和该字符片段中尾字符的第二特征向量作为输入,输入到所述第三全连接层,得到该字符片段的字符片段特征向量。
具体地,对于待识别文本X中的从第i个字符xi到第j个字符xj构成的字符片段xi:j(其中1≤i≤j≤n),从步骤S200和步骤S202中得到首字符xi的第一特征向量hi s和尾字符xj的第二特征向量hj e,将其输入第三全连接层得到该字符片段的特征向量hij span,具体公式如下:
其中,fdist是相对位置编码函数,将字符xi到字符xj之间的相对距离j-i输入该相对位置编码函数,得到字符xi到字符xj的相对位置编码向量edist,用于保留字符片段的长度信息。将hi s、hj e、edist三者拼接起来输入第三全连接层,得到字符xi到字符xj构成的字符片段的特征向量hij span,其中Wspan,bspan是该第三全连接层的权重矩阵和偏置项;Hspan是待识别文本的字符片段特征向量矩阵,当1≤i≤j≤n时,该矩阵中第(i,j)个元素是字符xi到字符xj构成的字符片段的特征向量;当i>j时,该矩阵中第(i,j)个元素为零向量。此外,该第三全连接层也可以使用多层神经网络实现。
在本说明书一个或多个实施例中,步骤S106可以基于各字符片段构成二维网格结构,二维条件随机场实体标签预测模块基于该二维网格结构,确定待识别文本对应的各实体类别组合的条件概率,如图3所示,具体通过下述方案实现:
S300:以所述待识别文本中各字符片段为节点,以所述待识别文本中各字符片段之间的关系为边,构建目标二维网格,并以所述待识别文本中各字符片段的实体类别分别为所述目标二维网格中各节点的状态;其中,所述目标二维网格中每行的各字符片段的首字符相同,每列的各字符片段的尾字符相同。
具体地,对于待识别文本X=(x1,x2…,xi,…,xn)(n是该待识别文本的长度),构建一个n×n的字符片段二维网格作为目标二维网格,该目标二维网格以待识别文本中字符片段为节点,在节点之间构建边,具体结构如图5所示。该目标二维网格中节点和边的具体构建方式为:
目标二维网格中坐标为(i,j)的节点(第i行、第j列的节点,i和j满足{1≤i≤j≤n})代表以待识别文本中第i个字符xi为首字符、以第j个字符xj为尾字符的字符片段Xi:j,值得注意的是该目标二维网格中只有上三角部分的节点,以及对角线上的节点是有意义的节点,下三角部分的节点(即i>j的部分的节点)是没有意义的,这是因为当i>j时,从第i个字符到第j个字符构成的字符片段在待识别文本中是一个逆序的字符片段,后续建模不会使用这部分节点,因此可以把这部分节点看作是空节点或者是虚拟节点,不妨记作Xnull;
目标二维网格中边的构建方式为:在每个节点(i,j)与其相邻的上下左右四个节点(i-1,j)、(i+1,j)、(i,j-1)、(i,j+1)之间构建边,并对对角线上的每个节点(i,i)与其相邻节点(i-1,i-1)、(i+1,i+1)之间构建边,用于建立不同字符片段之间的关联关系。在具体实践中,也可以根据实际情况采用其他的方式在二维网格结构中构建其他的边,本说明书对此不做限定。
通过以待识别文本的字符片段为节点构建目标二维网格,在节点之间构建边,可以建立字符片段之间的联系。相比于其他直接使用字符片段的信息预测实体类别、或者基于线性链条件随机场的命名实体识别的方法,本说明书中采用的命名实体识别模型中所采用的建立字符片段之间的联系并基于此进行建模的方案能充分利用字符片段之间不同维度的关联关系,且并不局限于线性关系,从而提升预测实体类别的准确性,并且还能够解决以往方法无法有效识别嵌套实体的问题。
S302:将所述待识别文本中各字符片段的字符片段特征向量,按照所述目标二维网格中各节点分别对应的字符片段进行排列,得到字符片段特征向量矩阵。
具体的,根据待识别文本中各字符片段在目标二维网格中的坐标,将各字符片段的字符片段特征向量按照该坐标在目标二维网格中的位置进行排列,得到字符片段特征向量矩阵,从而,字符片段特征向量矩阵中既包含各字符片段在待识别文本中的位置关系,也包含字符片段本身的特征。
S304:将所述目标二维网格以及所述字符片段特征向量矩阵作为输入,输入到所述命名实体识别模型中二维条件随机场实体标签预测模块,得到所述待识别文本对应于各预设实体类别组合的条件概率。
通过命名实体识别模型中二维条件随机场实体标签预测模块,可以对目标二维网格中每一行的节点之间的关系、每一行的节点和相邻行的节点之间的关系进行建模,通过建模前述关系,刻画节点之间的关联关系,从而基于该关联关系对待识别文本对应于各实体类别组合的条件概率进行预测。
在使用二维条件随机场对待识别文本的字符片段二维网格结构进行建模时,可以按行之间的实体类别标签的变化对其进行建模,也可以按列或者按对角线进行建模,本说明书对此不做限定。
可选地,以对按行进行建模的方法为例,基于按行建模的方式,上述步骤S304具体可通过下述方案实现:
第一步:通过所述二维条件随机场实体标签预测模块针对所述目标二维网格中每一行节点,根据该行节点之间的边、该行节点与该行节点的上一行节点之间的边、该行节点的状态、该行节点的上一行节点的状态,以及所述字符片段特征向量矩阵,确定用于表征该行节点之间的关联关系,以及该行节点与该行节点的上一行节点之间的关联关系的第一特征函数。
具体的,对于待识别文本X的字符片段二维网格结构中的第i行(1≤i≤n),定义×/>的矩阵随机变量/>,其中,/>为给定输入的待识别文本X时,第i-1行节点状态序列为Ti-1,第i行节点状态序列为Ti时的随机变量的取值,也即当第i-1行节点的实体类别序列为Ti-1时,以及第i行节点的实体类别序列为Ti时的分值大小。
而为了得到上述随机变量的取值,在本说明书中,以待识别文本为X=(x1,x2…,xi,…,xn),待识别文本中以第i个字符为首字符的所有字符片段对应节点的坐标集为R(i)={(i,i),(i,i+1),…,(i,j),…(i,n)},其中1≤i≤n,R(i)对应于字符片段二维网格结构中第i行从(i,i)开始的所有节点。
在本说明书中,建模每一行节点和相邻行节点之间的关联关系时,以该相邻行为每一行节点的上一行节点为例,因此,以待识别文本X对应的目标二维网格中第i-1行的节点坐标集R(i-1)和第i行的节点坐标集R(i)节点之间的所有边和第i行的节点坐标集R(i)内节点之间的所有边作为边集合,记为E(i)={e((m,n),(i,j)):(m,n)∈R(i-1)∪R(i),(i,j)∈R(i),e((m,n),(i,j))∈E},其中e((m,n),(i,j))代表从节点(m,n)到节点(i,j)之间的边,E为目标二维网格中所有有意义的边集合。E(i)即包括第i行节点之间存在的边,以及第i-1行和第i行节点之间存在的边。
以在待识别文本X的字符片段二维网格结构中第i行(1≤i≤n)节点上的状态序列为Ti={yi,i,yi,i+1,…,yi,j,…,yi,n},其中yi,j(i≤j≤n)为节点(i,j)的状态,在本说明书中节点的状态对应于节点对应的字符片段Xi:j的实体类别标签,其取值范围为{0,1,2,…,K,K+1,K+2}。
在此步骤中,以表征第一特征函数,则第一特征函数的一种可选的公式如下所示:
其中,e是E(i)中某一条边,ym,n是该边对应的起始节点状态,yi,j是该边对应的结束节点的状态,Hspan是待识别文本的字符片段特征向量矩阵。此外,根据不同的应用场景,第一特征函数还可以使用神经网络实现,本说明书对此不做限定。
第一特征函数可以用于刻画节点之间的关联关系,从而将节点之间的关联关系应用到后续实体类别的预测中,相当于通过第一特征函数向实体类别的预测中引入每一行节点之间的关联关系,以及每一行节点及其上一行节点之间的关联关系,充分利用待识别文本中各字符片段之间的关联关系,从而提升针对实体嵌套的实体类别预测的准确性。
第二步:根据该行节点的状态、该行节点,以及所述字符片段特征向量矩阵,确定用于表征该行节点的状态的第二特征函数。
以表征第二特征函数,公式可如下所示:
其中,v是第i行节点中的第j个节点,yi,j是该节点对应的状态,Hspan是待识别文本的字符片段特征向量矩阵。第二特征函数用于刻画节点状态。此外,根据不同的应用场景,第二特征函数还可以使用神经网络实现,本说明书对此不做限定。
第三步:根据所述第一特征函数和所述第二特征函数,确定该行节点对应的矩阵随机变量。
此步骤具体可以按照下述公式实现:
其中,第一特征函数共有K1个,每个第一特征函数可对应于权重/>,其中,1≤k1≤K1,。第二特征函数共有K2个,每个第二特征函数/>可对应于权重/>,其中,1≤k2≤K2。/>
进一步的:
=exp(/>),
其中,Ti-1={yi-1,i-1,yi-1,i,…,yi-1,n},Ti={yi,i,yi,i+1,…,yi,n}。
第四步:根据所述目标二维网格中各行节点的矩阵随机变量,得到所述待识别文本对应于各实体类别组合的条件概率。
当给定待识别文本X=(x1,x2,…,xi,…,xn)和对应的某种实体类别组合Y={yi,j:1≤i≤j≤n}时,将Y={yi,j:1≤i≤j≤n}改写为Y={T1,T2,…,Tn},其中Ti={yi,i,yi,i+1,…,yi,n},并令T0=start,Tn+1=end,按如下公式计算在给定待识别文本X的条件下,实体类别组合为Y的条件概率P(Y|X):
P(Y|X)=
该P(Y|X)代表对于给定待识别文本X的情况下,在所有可能的实体类别组合中Y的条件概率的大小。
在本说明书一个或多个实施例中,图1所示方案所采用的命名实体识别模型可以通过下述步骤迭代训练,如图4所示。
S400:预先获取参考文本作为训练样本,并获取所述参考文本包含的各字符片段的实体类别标签作为所述训练样本的标注。
具体地,从自然语言处理***或互联网中收集参考文本作为训练样本。从而对参考文本进行预处理,并标注每个参考文本的实体类别标签。
具体的,在训练一个命名实体识别模型的过程中,需要用到大量的参考文本作为训练样本,因此需要收集参考文本。参考文本可以从自然语言处理***(比如智能问答***、智能聊天***等)的日志记录中获取,也可以从互联网中进行采集。参考文本可以是指需要识别实体信息的文本,参考文本可以是句子、文章等等,参考文本中可以包含一个或多个实体,可以包含嵌套实体,也可以不包含任何实体,本说明书对此不做限定。
进一步地,收集得到参考文本后,需要对每条参考文本进行统一的预处理来得到具有统一格式、且符合后续命名实体识别模型输入格式的文本,具体的预处理步骤包括:繁简转换、大小写处理、去除特殊字符、Unicode文本标准化等,当然还可以包含其它现有的预处理步骤,本说明书对此不做限定。
进一步地,对原始文本数据进行预处理后,对其中每条待识别文本进行分词和标注得到对应的实体类别标签。
具体地,对待识别文本进行分词的步骤具体如下:给定参考文本X,使用分词器对其进行分词,将其划分为一个个字符,得到一个字符序列,不妨记为X=(x1,x2…,xi,…,xn),其中xi是参考文本X中第i个字符,n是该参考文本的字符序列长度。
在中文场景下的字符主要是指中文汉字,此外还包括字母、数据、特殊字符或者一些英文单词、英文单词子词(subword)、以及一些字符片段。此处分词器可以采用开源的分词器,如预训练语言模型自带的分词器、HanLP、LTP等,本说明书对此不做限定。
对参考文本进行分词后,对其进行标注得到对应的实体类别标签。首先在给定的应用场景下先确定多个预设的实体类别,不妨假设当前场景下有K种实体类别,记为(entity1,entity2,……,entityK),除了这K种实体之外,额外引入non-entity(非实体)、start(代表文本句子起始的特殊实体)和end(代表文本句子终止的特殊实体)这三种特殊实体,得到总的实体类别集合为У={non-entity,entity1,entity2,……,entityK,start,end}。
对于分词后的参考文本X=(x1,x2……,xn),其对应的实体类别标签可以为下述形式:
Y={yi,j:1≤i≤j≤n}
其中,yi,j表示参考文本X中第i个字符到第j个字符构成的字符片段(记作Xi:j)对应的实体类别。其中,当该字符片段不是一个实体时,则yi,j=0,对应non-entity类别;当该字符片段是预设的K个实体类别中的第k类实体类别时,则yi,j=k(1≤k≤K),对应entityk类别。当该字符片段是参考文本中代表起始的特殊实体时,yi,j=K+1,对应start类别;当该字符片段是参考文本中代表终止的特殊实体时,yi,j=K+2,对应end类别。
另外,在本说明书中,参考文本中包含的各字符片段的实体类别标签可以是基于人工标注得到的,也可以是基于其他场景下预先训练的命名实体识别模型确定的,本说明书对此不做限定。
在实际应用中,由于命名实体识别模型除了需要训练样本执行训练过程,还需要在训练完成后进行验证和测试,因此可以按一定的比例将参考文本随机划分为训练集、验证集、测试集,并利用其中的训练集作为训练命名实体识别模型的训练样本,利用验证集对训练完成后的命名实体识别模型进行验证,利用测试集对验证后的命名实体识别模型进行测试。
S402:将所述训练样本输入待训练的命名实体识别模型,通过所述命名实体识别模型的字符特征提取模块,确定所述训练样本包含的各字符分别对应的字符特征向量。
具体地,字符特征提取模块用于提取待识别文本中各个字符的字符特征向量,具体实现时可以使用基于深度学习的方法、采用神经网络进行构建,可以使用卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、门控循环单元(Gate Recurrent Unit,GRU)、长短期记忆网络(Long Short TermMemory,LSTM)、transformer等或者其他神经网络构建,根据不同的应用场景,可以灵活选择构建字符特征提取模块的网络结构,本说明书对字符特征提取模块的网络结构不做具体限制。
由于目前基于transformer的预训练语言模型在许多自然语言处理的任务上取得了惊人的效果,具有很强的语言表征和理解能力,常用的预训练语言模型有BERT、RoBERTa、ALBERT、T5、BART、GPT等。为此,在本说明书一个可选的实施例中,命名实体识别模型中的字符特征提取模块可以是基于预训练语言模型构建的,即,将预训练语言模型中用于从文本中提取文本字符特征的部分子模型,作为本说明书中待训练的命名实体识别模型中字符特征提取模块,从而,在命名实体识别模型的训练过程中,对预训练语言模型中用于从文本中提取文本字符特征的部分子模型的参数进行调整优化,从而在训练完成后,得到训练完成的字符特征提取模块。
可选地,该字符特征提取模块包含嵌入层和transformer编码器两部分。将训练样本输入至该字符特征提取模块的嵌入层中,得到训练样本中每个字符的嵌入向量。然后将训练样本的字符嵌入向量输入该字符特征提取模块的transformer编码器部分,输出训练样本中各个字符的字符特征向量。
S404:将所述训练样本包含的各字符分别对应的字符特征向量作为输入,输入到所述命名实体识别模型的字符片段特征提取模块,得到所述训练样本中各字符片段分别对应的字符片段特征向量。
与前述S104类似,在训练样本包含的各字符中,以某一个字符xi为首字符,以排序在xi之后的另外一个字符xj为尾字符,即可构建属于训练样本的一个字符片段Xi:j。其中,1≤i≤j≤n。
将步骤S402中获取的训练样本中各字符的字符特征向量输入字符片段特征提取模块,得到训练样本中每个字符的第一特征向量和第二特征向量,其中,第一特征向量可用于表征该字符作为字符片段的首字符时的特征,第二特征向量可用于表征该字符用作为字符片段的尾字符时的特征,然后基于训练样本中每个字符片段的首字符的第一特征向量和尾字符的第二特征向量得到该字符片段的特征向量,从而得到待识别文本的字符片段特征向量矩阵。
S406:根据所述训练样本中各字符片段分别对应的字符片段特征向量,以及所述命名实体识别模型中二维条件随机场实体标签预测模块,确定所述训练样本对应于各实体类别组合的条件概率。
具体地,基于二维条件随机场构建命名实体识别模型的二维条件随机场实体标签预测模块,根据各字符片段的首字符和尾字符,构建字符片段二维网格结构,然后在该字符片段二维网格结构的基础上使用二维条件随机场,将训练样本的字符片段特征向量,按照字符片段二维网格结构构成字符片段特征向量矩阵,并将该字符片段特征向量矩阵输入该二维条件随机场实体标签预测模块,输出所述训练样本对应于各实体类别组合的条件概率。具体方案与前述S106类似,此处不再赘述。另外,需要说明的是,在命名实体识别模型的训练过程中,可选地,同样可以执行与图3类似的方案,从而基于二维网格结构通过二维条件随机场确定训练样本对应于各实体类别组合的条件概率,此处不再赘述。
S408:根据所述训练样本中对应于各实体类别组合的条件概率和所述训练样本的标注之间的差异确定损失。
具体地,对于训练样本,基于前述步骤得到其对应的标注得到的实体类别组合的条件概率,然后使用损失函数计算训练样本对应的损失,其中,损失函数可以是现有的任意类型的损失函数,如负对数损失函数。该损失反映了命名实体识别模型在训练过程中输出的预测结果与真实的实体类别标签之间的差异程度,损失越小,说明差异越小,模型的性能越好。在训练过程中,通过最小化该损失值来优化命名体识别模型的参数。
可选地,训练样本X和对应的实体类别标签组合Y,按步骤S406中所述方式计算给定输入为X时,实体类别标签组合为Y的条件概率P(Y|X),按如下公式使用负对数损失函数计算该样本的损失:
S410:以所述损失最小化为训练目标,训练所述命名实体识别模型。
具体地,训练时采用多轮迭代的方式进行训练,每轮迭代时遍历一遍训练数据集,每次从打乱的训练数据集中随机抽取一小批次的训练样本输入命名实体识别模型计算每个训练样本对应的损失,该小批次样本的损失为该小批次样本中各个训练样本损失的平均值。然后执行梯度反向传播优化算法来更新命名实体识别模型各个模块的参数,具体表现为最小化损失。根据每轮迭代后命名实体识别模型在验证集上的表现来判断是否需要停止训练,并将在验证集上表现最好的模型保存下来。该保存下来的模型后续用于对待识别文本中的实体信息进行识别。
图6为本说明书提供的一种命名实体识别装置示意图,具体包括:
获取模块500,用于获取待识别文本;
字符特征向量确定模块502,用于将所述待识别文本输入预先训练的命名实体识别模型,通过所述命名实体识别模型的字符特征提取模块,确定所述待识别文本包含的各字符分别对应的字符特征向量;
字符片段特征向量确定模块504,用于将所述待识别文本包含的各字符分别对应的字符特征向量作为输入,输入到所述命名实体识别模型的字符片段特征提取模块,得到所述待识别文本中各字符片段分别对应的字符片段特征向量;
条件概率确定模块506,用于根据所述待识别文本中各字符片段分别对应的字符片段特征向量,以及所述命名实体识别模型中二维条件随机场实体标签预测模块,确定所述待识别文本对应于各预设实体类别组合的条件概率;
命名实体确定模块508,用于根据所述待识别文本对应于各预设实体类别组合的条件概率确定所述待识别文本包含的命名实体信息。
可选地,所述命名实体识别模型的字符特征提取模块包括嵌入层和编码器;
可选地,所述字符特征向量确定模块502具体用于,将所述待识别文本输入预先训练的命名实体识别模型中,通过所述嵌入层,得到所述待识别文本中各字符的嵌入向量;将所述各字符的嵌入向量输入所述编码器,得到所述各字符的字符特征向量。
可选地,所述命名实体识别模型的字符片段特征提取模块包括第一全连接层、第二全连接层和第三全连接层;
可选地,所述字符片段特征向量确定模块504具体用于,将所述待识别文本包含的各字符分别对应的字符特征向量作为输入,输入到所述命名实体识别模型的字符片段特征提取模块,通过所述第一全连接层得到所述各字符分别对应的第一特征向量,所述第一特征向量为所述各字符作为待识别文本中字符片段的首字符的特征向量;根据所述待识别文本包含的各字符分别对应的字符特征向量,通过所述第二全连接层得到所述各字符分别对应的第二特征向量,所述第二特征向量为所述各字符作为待识别文本中字符片段的尾字符的特征向量;将所述待识别文本分割为多个字符片段;针对每个字符片段,将该字符片段中首字符的第一特征向量和该字符片段中尾字符的第二特征向量作为输入,输入到所述第三全连接层,得到该字符片段的字符片段特征向量。
可选地,所述条件概率确定模块506具体用于,以所述待识别文本中各字符片段为节点,以所述待识别文本中各字符片段之间的关系为边,构建目标二维网格,并以所述待识别文本中各字符片段的实体类别分别为所述目标二维网格中各节点的状态;其中,所述目标二维网格中每行的各字符片段的首字符相同,每列的各字符片段的尾字符相同;将所述待识别文本中各字符片段的字符片段特征向量,按照所述目标二维网格中各节点分别对应的字符片段进行排列,得到字符片段特征向量矩阵;将所述目标二维网格以及所述字符片段特征向量矩阵作为输入,输入到所述命名实体识别模型中二维条件随机场实体标签预测模块,得到所述待识别文本对应于各实体类别组合的条件概率。
可选地,所述条件概率确定模块506具体用于,通过所述二维条件随机场实体标签预测模块,针对所述目标二维网格中每一行节点,根据该行节点之间的边、该行节点与该行节点的上一行节点之间的边、该行节点的状态、该行节点的上一行节点的状态,以及所述字符片段特征向量矩阵,确定用于表征该行节点之间的关联关系,以及该行节点与该行节点的上一行节点之间的关联关系的第一特征函数;根据该行节点的状态、该行节点,以及所述字符片段特征向量矩阵,确定用于表征该行节点的状态的第二特征函数;根据所述第一特征函数和所述第二特征函数,确定该行节点对应的矩阵随机变量;根据所述目标二维网格中各行节点的矩阵随机变量,得到所述待识别文本对应于各实体类别组合的条件概率。
可选地,所述命名实体确定模块508具体用于,根据所述待识别文本对应于各预设实体类别组合的条件概率中,条件概率最大的预设实体类别组合,确定所述待识别文本包含的命名实体信息。
可选地,所述装置还包括:
训练模块510,具体用于预先获取参考文本作为训练样本,并获取所述参考文本包含的各字符片段的实体类别标注作为所述训练样本的标注;将所述训练样本输入待训练的命名实体识别模型,通过所述命名实体识别模型的字符特征提取模块,确定所述训练样本包含的各字符分别对应的字符特征向量;将所述训练样本包含的各字符分别对应的字符特征向量作为输入,输入到所述命名实体识别模型的字符片段特征提取模块,得到所述训练样本中各字符片段分别对应的字符片段特征向量;根据所述训练样本中各字符片段分别对应的字符片段特征向量,以及所述命名实体识别模型中二维条件随机场实体标签预测模块,确定所述训练样本对应于各实体类别组合的条件概率;根据所述训练样本对应于各实体类别组合的条件概率和所述训练样本的标注之间的差异确定损失;以所述损失最小化为训练目标,训练所述命名实体识别模型。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1所示的命名实体识别方法。
本说明书还提供了图7所示的电子设备的示意结构图。如图7所述,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所示的命名实体识别方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、***、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、***或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (9)
1.一种命名实体识别方法,其特征在于,包括:
获取待识别文本;
将所述待识别文本输入预先训练的命名实体识别模型,通过所述命名实体识别模型的字符特征提取模块,确定所述待识别文本包含的各字符分别对应的字符特征向量;
将所述待识别文本包含的各字符分别对应的字符特征向量作为输入,输入到所述命名实体识别模型的字符片段特征提取模块,得到所述待识别文本中各字符片段分别对应的字符片段特征向量;
根据所述待识别文本中各字符片段分别对应的字符片段特征向量,以及所述命名实体识别模型中二维条件随机场实体标签预测模块,确定所述待识别文本对应于各预设实体类别组合的条件概率;
根据所述待识别文本对应于各预设实体类别组合的条件概率,确定所述待识别文本包含的命名实体信息;
所述根据所述待识别文本中各字符片段分别对应的字符片段特征向量,以及所述命名实体识别模型中二维条件随机场实体标签预测模块,确定所述待识别文本对应于各预设实体类别组合的条件概率,具体包括:
以所述待识别文本中各字符片段为节点,以所述待识别文本中各字符片段之间的关系为边,构建目标二维网格,并以所述待识别文本中各字符片段的实体类别分别为所述目标二维网格中各节点的状态;其中,所述目标二维网格中每行的各字符片段的首字符相同,每列的各字符片段的尾字符相同;
将所述待识别文本中各字符片段的字符片段特征向量,按照所述目标二维网格中各节点分别对应的字符片段进行排列,得到字符片段特征向量矩阵;
将所述目标二维网格以及所述字符片段特征向量矩阵作为输入,输入到所述命名实体识别模型中二维条件随机场实体标签预测模块,得到所述待识别文本对应于各预设实体类别组合的条件概率。
2.如权利要求1所述的方法,其特征在于,所述命名实体识别模型的字符特征提取模块包括嵌入层和编码器;
所述将所述待识别文本输入预先训练的命名实体识别模型中,通过所述命名实体识别模型的字符特征提取模块,确定所述待识别文本包含的各字符分别对应的字符特征向量,具体包括:
将所述待识别文本输入预先训练的命名实体识别模型中,通过所述嵌入层,得到所述待识别文本中各字符的嵌入向量;
将所述各字符的嵌入向量输入所述编码器,得到所述各字符的字符特征向量。
3.如权利要求1所述的方法,其特征在于,所述命名实体识别模型的字符片段特征提取模块包括第一全连接层、第二全连接层和第三全连接层;
所述将所述待识别文本包含的各字符分别对应的字符特征向量作为输入,输入到所述命名实体识别模型的字符片段特征提取模块,得到所述待识别文本中各字符片段分别对应的字符片段特征向量,具体包括:
将所述待识别文本包含的各字符分别对应的字符特征向量作为输入,输入到所述命名实体识别模型的字符片段特征提取模块,通过所述第一全连接层得到所述各字符分别对应的第一特征向量,所述第一特征向量为所述各字符作为待识别文本中字符片段的首字符的特征向量;
根据所述待识别文本包含的各字符分别对应的字符特征向量,通过所述第二全连接层得到所述各字符分别对应的第二特征向量,所述第二特征向量为所述各字符作为待识别文本中字符片段的尾字符的特征向量;
将所述待识别文本分割为多个字符片段;
针对每个字符片段,将该字符片段中首字符的第一特征向量和该字符片段中尾字符的第二特征向量作为输入,输入到所述第三全连接层,得到该字符片段的字符片段特征向量。
4.如权利要求1所述的方法,其特征在于,将所述目标二维网格和所述目标二维网格中各节点的字符片段特征向量作为输入,输入所述命名实体识别模型中二维条件随机场实体标签预测模块,确定所述待识别文本对应于各预设实体类别组合的条件概率,具体包括:
通过所述二维条件随机场实体标签预测模块针对所述目标二维网格中每一行节点,根据该行节点之间的边、该行节点与该行节点的上一行节点之间的边、该行节点的状态、该行节点的上一行节点的状态,以及所述字符片段特征向量矩阵,确定用于表征该行节点之间的关联关系,以及该行节点与该行节点的上一行节点之间的关联关系的第一特征函数;
根据该行节点的状态、该行节点,以及所述字符片段特征向量矩阵,确定用于表征该行节点的状态的第二特征函数;
根据所述第一特征函数和所述第二特征函数,确定该行节点对应的矩阵随机变量;
根据所述目标二维网格中各行节点的矩阵随机变量,得到所述待识别文本对应于各实体类别组合的条件概率。
5.如权利要求1所述的方法,其特征在于,根据所述待识别文本对应于各预设实体类别组合的条件概率,确定所述待识别文本包含的命名实体信息,具体包括:
根据所述待识别文本对应于各预设实体类别组合的条件概率中,条件概率最大的预设实体类别组合,确定所述待识别文本包含的命名实体信息。
6.如权利要求1所述的方法,其特征在于,预先训练命名实体识别模型,具体包括:
预先获取参考文本作为训练样本,并获取所述参考文本包含的各字符片段的实体类别标签作为所述训练样本的标注;
将所述训练样本输入待训练的命名实体识别模型,通过所述命名实体识别模型的字符特征提取模块,确定所述训练样本包含的各字符分别对应的字符特征向量;
将所述训练样本包含的各字符分别对应的字符特征向量作为输入,输入到所述命名实体识别模型的字符片段特征提取模块,得到所述训练样本中各字符片段分别对应的字符片段特征向量;
根据所述训练样本中各字符片段分别对应的字符片段特征向量,以及所述命名实体识别模型中二维条件随机场实体标签预测模块,确定所述训练样本对应于各实体类别组合的条件概率;
根据所述训练样本中对应于各实体类别组合的条件概率和所述训练样本的标注之间的差异确定损失;
以所述损失最小化为训练目标,训练所述命名实体识别模型。
7.一种命名实体识别装置,其特征在于,包括:
获取模块,用于获取待识别文本;
字符特征向量确定模块,用于将所述待识别文本输入预先训练的命名实体识别模型,通过所述命名实体识别模型的字符特征提取模块,确定所述待识别文本包含的各字符分别对应的字符特征向量;
字符片段特征向量确定模块,用于将所述待识别文本包含的各字符分别对应的字符特征向量作为输入,输入到所述命名实体识别模型的字符片段特征提取模块,得到所述待识别文本中各字符片段分别对应的字符片段特征向量;
条件概率确定模块,用于根据所述待识别文本中各字符片段分别对应的字符片段特征向量,以及所述命名实体识别模型中二维条件随机场实体标签预测模块,确定所述待识别文本对应于各预设实体类别组合的条件概率;
命名实体确定模块,用于根据所述待识别文本对应于各预设实体类别组合的条件概率,确定所述待识别文本包含的命名实体信息;
所述条件概率确定模块具体用于,以所述待识别文本中各字符片段为节点,以所述待识别文本中各字符片段之间的关系为边,构建目标二维网格,并以所述待识别文本中各字符片段的实体类别分别为所述目标二维网格中各节点的状态;其中,所述目标二维网格中每行的各字符片段的首字符相同,每列的各字符片段的尾字符相同;将所述待识别文本中各字符片段的字符片段特征向量,按照所述目标二维网格中各节点分别对应的字符片段进行排列,得到字符片段特征向量矩阵;将所述目标二维网格以及所述字符片段特征向量矩阵作为输入,输入到所述命名实体识别模型中二维条件随机场实体标签预测模块,得到所述待识别文本对应于各预设实体类别组合的条件概率。
8.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~6任一项所述的方法。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311286040.2A CN117034942B (zh) | 2023-10-07 | 2023-10-07 | 一种命名实体识别方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311286040.2A CN117034942B (zh) | 2023-10-07 | 2023-10-07 | 一种命名实体识别方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117034942A CN117034942A (zh) | 2023-11-10 |
CN117034942B true CN117034942B (zh) | 2024-01-09 |
Family
ID=88641380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311286040.2A Active CN117034942B (zh) | 2023-10-07 | 2023-10-07 | 一种命名实体识别方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117034942B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101559576B1 (ko) * | 2014-05-16 | 2015-10-15 | 동아대학교 산학협력단 | 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법 |
CN107797992A (zh) * | 2017-11-10 | 2018-03-13 | 北京百分点信息科技有限公司 | 命名实体识别方法及装置 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN110705294A (zh) * | 2019-09-11 | 2020-01-17 | 苏宁云计算有限公司 | 命名实体识别模型训练方法、命名实体识别方法及装置 |
CN111104800A (zh) * | 2019-12-24 | 2020-05-05 | 东软集团股份有限公司 | 一种实体识别方法、装置、设备、存储介质和程序产品 |
CN111709241A (zh) * | 2020-05-27 | 2020-09-25 | 西安交通大学 | 一种面向网络安全领域的命名实体识别方法 |
CN112163431A (zh) * | 2020-10-19 | 2021-01-01 | 北京邮电大学 | 一种基于泛条件随机场的中文缺失代词补全方法 |
CN113033204A (zh) * | 2021-03-24 | 2021-06-25 | 广州万孚生物技术股份有限公司 | 信息实体抽取方法、装置、电子设备和存储介质 |
CN115952800A (zh) * | 2022-12-29 | 2023-04-11 | 杭州恒生聚源信息技术有限公司 | 命名实体识别方法、装置、计算机设备及可读存储介质 |
CN116384401A (zh) * | 2023-04-14 | 2023-07-04 | 苏州空天信息研究院 | 一种基于提示学习的命名实体识别方法 |
CN116522942A (zh) * | 2023-05-06 | 2023-08-01 | 浙江师范大学 | 一种基于字符对的中文嵌套命名实体识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391485A (zh) * | 2017-07-18 | 2017-11-24 | 中译语通科技(北京)有限公司 | 基于最大熵和神经网络模型的韩语命名实体识别方法 |
-
2023
- 2023-10-07 CN CN202311286040.2A patent/CN117034942B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101559576B1 (ko) * | 2014-05-16 | 2015-10-15 | 동아대학교 산학협력단 | 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법 |
CN107797992A (zh) * | 2017-11-10 | 2018-03-13 | 北京百分点信息科技有限公司 | 命名实体识别方法及装置 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN110705294A (zh) * | 2019-09-11 | 2020-01-17 | 苏宁云计算有限公司 | 命名实体识别模型训练方法、命名实体识别方法及装置 |
CN111104800A (zh) * | 2019-12-24 | 2020-05-05 | 东软集团股份有限公司 | 一种实体识别方法、装置、设备、存储介质和程序产品 |
CN111709241A (zh) * | 2020-05-27 | 2020-09-25 | 西安交通大学 | 一种面向网络安全领域的命名实体识别方法 |
CN112163431A (zh) * | 2020-10-19 | 2021-01-01 | 北京邮电大学 | 一种基于泛条件随机场的中文缺失代词补全方法 |
CN113033204A (zh) * | 2021-03-24 | 2021-06-25 | 广州万孚生物技术股份有限公司 | 信息实体抽取方法、装置、电子设备和存储介质 |
CN115952800A (zh) * | 2022-12-29 | 2023-04-11 | 杭州恒生聚源信息技术有限公司 | 命名实体识别方法、装置、计算机设备及可读存储介质 |
CN116384401A (zh) * | 2023-04-14 | 2023-07-04 | 苏州空天信息研究院 | 一种基于提示学习的命名实体识别方法 |
CN116522942A (zh) * | 2023-05-06 | 2023-08-01 | 浙江师范大学 | 一种基于字符对的中文嵌套命名实体识别方法 |
Non-Patent Citations (5)
Title |
---|
Nested Named Entity Recognition with Partially-Observed TreeCRFs;Yao Fu等;arXiv;1-11 * |
中医药知识图谱构建与应用;阮彤;孙程琳;王昊奋;方之家;殷亦超;;医学信息学杂志(04);12-17 * |
基于深度学习的中文命名实体识别研究综述;祁鹏年等;小型微型计算机***;1857-1868 * |
基于深度神经网络的命名实体识别方法研究;GUL Khan Safi Qamas;尹继泽;潘丽敏;罗森林;;信息网络安全(10);35-41 * |
基于神经网络的片段级中文命名实体识别;王蕾;谢云;周俊生;顾彦慧;曲维光;;中文信息学报(03);89-95+105 * |
Also Published As
Publication number | Publication date |
---|---|
CN117034942A (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022007823A1 (zh) | 一种文本数据处理方法及装置 | |
CN111191002B (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN110807335B (zh) | 基于机器学习的翻译方法、装置、设备及存储介质 | |
CN113221555B (zh) | 一种基于多任务模型的关键词识别方法、装置及设备 | |
CN112417093B (zh) | 一种模型训练的方法及装置 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN115238026A (zh) | 一种基于深度学习的医疗文本主题分割方法和装置 | |
CN117056494B (zh) | 开放域问答的方法、装置、电子设备和计算机存储介质 | |
CN116205232B (zh) | 一种确定目标模型的方法、装置、存储介质及设备 | |
CN110852066A (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及*** | |
CN117453949A (zh) | 一种视频定位方法以及装置 | |
CN117034942B (zh) | 一种命名实体识别方法、装置、设备及可读存储介质 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN116230146A (zh) | 数据处理方法、icd编码模型的训练方法及相关设备 | |
CN114626378B (zh) | 命名实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN114707509A (zh) | 交通命名实体识别方法、装置、计算机设备及存储介质 | |
CN112650861A (zh) | 一种基于任务分层的人格预测方法、***及装置 | |
CN114611517B (zh) | 基于深度学习的命名实体识别方法、装置、设备和介质 | |
CN116451808B (zh) | 一种模型训练的方法、装置、存储介质及电子设备 | |
CN117874706B (zh) | 一种多模态知识蒸馏学习方法及装置 | |
CN116882398B (zh) | 基于短语交互的隐式篇章关系识别方法和*** | |
CN111368526B (zh) | 一种序列标注方法和*** | |
CN118194949A (zh) | 一种关键句提取模型的训练方法、装置及存储介质 | |
CN118113855A (zh) | 一种舰船试验训练场景问答方法、***、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |