CN112632997A - 基于BERT和Word2Vec向量融合的中文实体识别方法 - Google Patents

基于BERT和Word2Vec向量融合的中文实体识别方法 Download PDF

Info

Publication number
CN112632997A
CN112632997A CN202011462808.3A CN202011462808A CN112632997A CN 112632997 A CN112632997 A CN 112632997A CN 202011462808 A CN202011462808 A CN 202011462808A CN 112632997 A CN112632997 A CN 112632997A
Authority
CN
China
Prior art keywords
word
bert
word vector
sentence
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011462808.3A
Other languages
English (en)
Inventor
张有强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Engineering
Original Assignee
Hebei University of Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Engineering filed Critical Hebei University of Engineering
Priority to CN202011462808.3A priority Critical patent/CN112632997A/zh
Publication of CN112632997A publication Critical patent/CN112632997A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于BERT和Word2Vec向量融合的中文实体识别方法。该方法整体分为三个阶段,首先将海量文本预处理,之后输入到BERT和Word2Vec模型训练,获得预训练BERT模型和静态词向量表;接着将待识别文本与词向量表进行匹配获取每个字符的候选词向量,通过设计的两种融合策略对每个字的候选词向量融合,之后与BERT输出的字向量拼接;最后将拼接的字向量输入Bi‑LSTM‑CRF进行实体识别模型的训练。本发明构建的基于BERT和Word2Vec向量融合的中文实体识别方法,通过词向量融合拼接的方式间接引入了词语的边界信息,且利用BERT获取具体语境下的字向量,充分表征了字的多义性。

Description

基于BERT和Word2Vec向量融合的中文实体识别方法
技术领域
本发明属于命名实体识别领域,具体涉及一种基于BERT和Word2Vec 向量融合的中文实体识别方法。
背景技术
命名实体识别是一项识别文本中指定类型的实体成分并对其进行分类的 任务,常见的实体类型包括:人名、地名、机构名等。在网络数据日益剧增 的今天,命名实体识别为数据挖掘提供了强有力的支持,同时它也是信息检 索、问答***、知识图谱等任务的重要组成部分。常用的命名实体识别方法 主要分为以下三类:基于规则和词典的方法、基于统计机器学习的方法和基 于深度学习的方法。
基于规则和词典的方法,需要依靠语言学专家手工设计规则模板,选取 能够描述预定义类型的实体特征,包括:统计信息、关键字、指示词、位置 词以及标点符号等,结合领域内的词典,通过规则模板与字符串匹配的方式 进行实体识别。
基于统计机器学习的方法,把命名实体识别当作序列标注任务处理,该 类方法不需要拥有深厚语言学知识的专家来挑选和设计特征,普通研究人员 就可以挑选出能有效反映该类实体特性的特征集合,包括:单词特征、上下 文特征、词性特征以及语义特征等。通常采用人工标注的语料训练模型,常 用的机器学习模型包括:隐马尔可夫模型、最大熵模型、支持向量机、条件 随机场等。
基于深度学习的方法,能够进行端到端的模型训练,避免了人工挑选和 设计特征的问题。随着人工神经网络在词嵌入技术中的应用,使用大量未标 注语料进行无监督预训练,可以获得更贴近词语表达含义的低维稠密的原生 词向量,常用的词向量训练模型包括:Word2Vec、Glove等。在特征提取上 常用的深度学习模型有卷积神经网络、循环神经网络等,其中双向长短时记 忆(Bidirectional Long Short Term Memory,Bi-LSTM)网络是最经典,也是效 果较好的一个模型,而标签解码一般采用条件随机场(ConditionalRandom Fields,CRF)模型。
基于预训练语言模型的方法,使用海量文本对语言模型进行无监督预训 练,常用的预训练语言模型是BERT(Bidirectional Encoder Representations fromTransformers),利用获得的预训练模型在实体识别数据集上通过微调参 数的方式进行实体识别。
但上述技术在下列缺陷:
基于规则和词典的方法具有较强的领域性,且有限的规则无法覆盖所有 的语言现象,缺乏鲁棒性和可移植性;
基于统计机器学习的方法,需要人工进行特征的挑选和组合,且人类语 言的使用通常具有很大的随意性,仅仅使用基于统计的方法会使状态搜索空 间非常庞大,导致实体识别效果不好;
基于深度学习的方法,采用Word2Vec等模型训练获得固定的静态词向 量来表示词语的语义含义,无法解决一词多义的问题,且分词错误会导致误 差传播,影响实体识别效果;
基于BERT预训练语言模型微调的方法,通常模型参数量巨大,训练和 预测都要花费很长的时间,且在训练和部署方面对硬件设施的要求较高。
发明内容
本发明的目的是为了解决现有技术存在的上述所列问题,提供了一种基 于BERT和Word2Vec向量融合的中文实体识别方案,在保证实体识别效果 的前提下提高模型训练和预测的效率。
为实现上述目的,本发明采用的技术方案为:使用BERT模型获取包含 上下文信息的动态字向量,使用Word2Vec模型获取静态词向量,之后通过 两种词向量融合策略对候选词向量进行融合,最后将字向量和融合后的词向 量拼接作为后续模型的输入向量,且使用了经典的Bi-LSTM-CRF模型进行 特征编码和标签的解码。
基于BERT和Word2Vec进行向量融合的中文实体识别方法,具体包括 以下步骤:
步骤1,获取海量中文文本语料,利用Python中的jieba模块对文本进 行分词,训练Word2Vec模型,获取静态词向量表;
步骤2,对BERT模型进行预训练,把中文文本构造成BERT模型需要 的输入格式,具体分为以下几步:
2.1对于原始语料,通过换行来分割句子,通过空行来分割上下文;
2.2构建BERT下一句预测预训练任务需要的样本,其中正样本表示的是 输入的两个句子是存在上下文关系的连续的两个句子;负样本表示的是不存 在语义关系的随机选择的两个句子;
2.3对于超过设定的最大长度的句子,随机选择从句首或句尾进行截断;
2.4将待输入的两个句子用[SEP]标签连接,并且在整个句首添加[CLS] 标签,整个句尾添加[SEP]标签,若句子长度不够,用[PAD]标签进行填充;
2.5构建BERT遮蔽语言模型预训练任务需要的样本,随机选择句子中 15%的字符进行遮蔽,对于选中的字符80%的时间用[MASK]代替,10%的时 间用随机选择的一个字符代替,10%的时间保持原字符不变;
步骤3,根据上述两个预训练任务训练BERT模型,训练目标分别是预 测当前输入的句子对是否是存在上下文关系的句子和预测被遮蔽掉字符的原 始内容,最终获得预训练好的BERT模型;
步骤4,中文命名实体识别数据集的获取、预处理以及标注,具体标注 方式一般采用BIO标注法,其中B表示实体开始字符,I表示实体中间和结 尾字符,O表示非实体字符;
步骤5,对步骤4得到的数据集进行预处理,给每一个句子的句首添加 [CLS]标签,句尾添加[SEP]标签,将处理好的句子输入步骤3获得的预训练 BERT模型,最终获得BERT模型输出句子中每一个字符的字向量;
步骤6,对步骤4得到的数据集中的每一个句子,通过与词汇表进行匹 配获取该句子包含的所有候选词语,查询步骤1获得的静态词向量表,获得 每一个候选词语的词向量,将句子中每个字对应的候选词语的词向量通过两 种向量融合策略进行融合,来表示每个字在词汇层面的语义含义,具体包含 以下两种词向量融合策略:
6.1词向量融合策略一:对句子中每个字的候选词向量进行求和取均值, 以“广州市长隆公园”句子为例,“广”字包含“广州”和“广州市”两个 候选词语,首先查询词向量表获得两个词语的词向量,然后对两个词向量求 和取均值作为“广”字的词向量表示部分。
6.2词向量融合策略二:对句子中每个字的候选词向量以词频作为权重进 行加权求和,同样以上述例子为例,首先统计“广州”和“广州市”在数据 集中出现的总次数,然后将两个词出现的次数分别除以两个词的总次数作为 两个词向量的权重,最后将权重和词向量相乘并求和作为“广”字的词向量 表示部分,其余字符同理,当某个字不存在匹配词语时,用[None]的词向量 表示该字的词向量部分,维度同其他词向量维度一样。
步骤7,将步骤6得到的每个字的词向量与步骤5得到的每个字的字向 量进行拼接,获得每个字符的最终字向量;
步骤8,将步骤7得到的字向量输入Bi-LSTM-CRF模型进行训练预测, 得到实体识别结果。
本发明的有益效果是:
1.本发明针对传统词向量特征表达能力不强,提出使用预训练BERT模 型获取包含上下文信息的动态字向量,增强字的语义含义,解决一词多义的 问题;
2.为了解决在传统词向量使用过程中存在的分词错误问题,更好的引入 词语以及实体边界信息,提出了词向量融合的策略,且引入了词频信息来给 可能性更大的词向量赋予更高的权重,减少错误分词带来的影响。
3.通过词向量与字向量拼接的方式,实现字与词的融合,丰富了初始向 量的特征表示,提高了实体识别的精度和召回率;
4.本发明在输入向量的表示上进行改进,而没有涉及到特征编码模型结 构的改进,因此也可以适用于其他特征编码模型,而不仅仅局限于Bi-LSTM 模型,具有很强的灵活性;
5.为了减少模型训练时间,没有对预训练模型微调,而是采用特征抽取 的方式获取字向量,大大减少了模型训练的参数,提高了模型训练效率。
附图说明
图1为本发明的基于BERT和Word2vec向量融合的中文实体识别流程示意 图;
图2为本发明实施例的基于BERT和Word2Vec向量融合的中文实体识别模 型整体结构示意图;
图3为本发明实施例的BERT预训练语言模型结构示意图;
图4为本发明实施例的Word2vec中的Skip-gram模型结构示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明 白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此 处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明基于BERT和Word2vec向量融合的中文实体识别 方法,具体包括以下步骤:
步骤1,获取Word2vec模型的训练语料并进行预处理;
步骤2,根据步骤1预处理后的训练语料训练Word2vec中的Skip-gram 模型,如图4所示,通过输入中心词来预测指定大小窗口内的上下文的词, 训练完成获得的映射层的权重矩阵就是词向量表:W∈R|V|*d,其中|V|是词 汇表长度,d是词向量维度。
步骤3,通过查询步骤2训练获得的静态词向量表来获取每个词对应的 词向量:
Figure BDA0002833104080000061
其中vi是长度为|V|的one-hot向量,对应 维度的值为1,其余维度为0。
步骤4,根据步骤1预处理后的训练语料自己预训练BERT语言模型, 也可直接下载其它已经预训练好的中文BERT模型。
步骤5,将实体识别数据集输入到BERT模型获取包含具体语境的字向 量,
Figure BDA0002833104080000062
ci表示句子中的每一个字符,l表示字向量的维度。
步骤6,输入句子与预先训练好的词汇表进行匹配,获取每个字符的候 选词向量ew,如图2所示,之后通过词向量融合策略对候选词向量进行融合, 策略一为求和取均值,其计算如下:
Figure BDA0002833104080000071
其中,ew(w)表示该词语的词向量,S表示字符所对应的候选词语集合, N表示集合中词语的个数,ew(None)表示[None]标签的词向量,
Figure BDA0002833104080000072
表示该集合 为空集,即该字符不包含任何匹配词语。
策略二为词频加权求和,其计算如下:
Figure BDA0002833104080000073
其中,z(w)表示每个词语的词频,词频通过统计每个词在训练集和测试 集上出现的频率获得,其他参数同上。
将融合的词向量与BERT输出的字向量进行拼接,获得每个字符的最终 向量表示,
Figure BDA0002833104080000074
表示向量拼接。
步骤7,将句子中每一个字的字向量输入到LSTM模型中,学习句子中 较长距离的前后依赖关系,LSTM通过输入门、遗忘门、输出门控制和保持 信息的传递,其参数化表示如下所示:
it=σ(Wixt+Uiht-1+bi)
ft=σ(Wfxt+Ufht-1+bf)
Figure RE-GDA0002966111930000076
Figure RE-GDA0002966111930000077
ot=σ(Woxt+Uoht-1+bo)
ht=ot e tanh(ct)
其中,σ是Sigmoid激活函数,tanh表示tanh激活函数,
Figure BDA0002833104080000077
表示点乘运 算,W、U分别表示对应每个门的权重矩阵,b表示偏置,xt表示步骤6获得 的当前时刻的输入向量,ht-1和ct-1分别表示上一时刻的输出和上一时刻的细 胞状态。
步骤8,如图2所示,Bi-LSTM包含前向传递和反向传递两个过程,能 够编码双向语言信息,对于输入的句子向量序列S={e1,e2,L,en},ei∈R1×(d+l), 其中1≤i≤n,d,l分别表示词向量和字向量的维度。前向传递过程为:
Figure RE-GDA0002966111930000081
反向传递过程为:
Figure RE-GDA0002966111930000082
其中,
Figure RE-GDA0002966111930000083
是前向t-1时刻的隐藏状态,
Figure RE-GDA0002966111930000084
是反向t+1时刻的隐藏状态, et是t时刻的输入向量。
步骤9,最后对前向和反向LSTM的输出进行拼接获得t时刻的隐藏状 态ht
Figure RE-GDA0002966111930000085
步骤10,CRF层在Bi-LSTM输出的基础上考虑了标签之间的转移信息, 能够获得全局最优标签序列,计算过程如下:
Figure BDA0002833104080000086
其中,s表示评估得分,W是标签间的转移矩阵,P表示对应标签的得 分。根据评估得分计算序列x到标签y的概率为:
Figure BDA0002833104080000087
步骤11,训练损失函数为:
Figure BDA0002833104080000091
至此,具体实施例流程结束。
步骤12,本发明训练基于BERT和Word2Vec向量融合的Bi-LSTM-CRF 模型参数时,将已标注好的文本和标签作为输入,然后采用梯度下降法或其 他优化方法训练该模型,训练中只更新Bi-LSTM层和CRF层的参数,BERT 模型参数保持不变,当模型产生的损失值满足设定要求或达到最大迭代次数 时,则终止该模型的训练。
上述说明示出并描述了本发明的优选实施例,如前所述,应当理解本发 明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用 于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上 述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变 化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (6)

1.一种基于BERT和Word2Vec向量融合的中文实体识别方法,其特征在于,利用BERT模型获取句子中每个字的动态字向量,利用Word2Vec获取静态词向量,通过设计的两种融合策略对多个候选词向量进行融合,然后与字向量拼接,输入到Bi-LSTM-CRF进行模型训练,自动抽取文本中指定类型的实体。
2.根据权利要求1所述的一种基于BERT和Word2Vec向量融合的中文实体识别方法,其特征在于,所述中文实体识别方法具体包括以下步骤:
步骤1,获取海量中文文本并进行预处理,利用Python中的jieba模块对文本进行分词,训练Word2Vec模型,获取静态词向量表;
步骤2,对BERT模型进行预训练,把中文文本构造成BERT模型需要的输入格式,具体分为以下几步:
2.1对于原始语料,通过换行来分割句子,通过空行来分割上下文段落;
2.2构建BERT下一句预测预训练任务需要的样本,其中正样本表示的是输入的两个句子是存在上下文关系的连续的两个句子;负样本表示的是不存在语义关系的随机选择的两个句子;
2.3对于超过设定的最大长度的句子,随机选择从句首或句尾进行截断;
2.4将待输入的两个句子用[SEP]标签连接,并且在整个句首添加[CLS]标签,整个句尾添加[SEP]标签;
2.5构建BERT遮蔽语言模型预训练任务需要的样本,随机选择句子中15%的字符进行遮蔽,对于选中的字符80%的时间用[MASK]代替,10%的时间用随机选择的一个字符代替,10%的时间保持原字符不变;
步骤3,根据上述两个预训练任务训练BERT模型,训练目标分别是预测当前输入的句子对是否是存在上下文关系的句子和预测被遮蔽掉字符的原始内容,最终获得预训练好的BERT模型;
步骤4,中文命名实体识别数据集的获取、预处理以及标注,具体标注方式一般采用BIO标注法,其中B表示实体开始字符,I表示实体中间和结尾字符,O表示非实体字符;
步骤5,将步骤4得到的标注好的数据集进行预处理,给每一个句子的句首添加[CLS]标签,句尾添加[SEP]标签,将处理好的句子输入步骤3预训练好的BERT模型,获取BERT模型输出的句子中每一个字符的字向量;
步骤6,对步骤4得到的数据集中的每一个句子,通过与词汇表匹配的方式获取该句子包含的所有候选词语的词向量,将句子中每个字对应的候选词向量通过两种词向量融合策略进行融合,来表示每个字在词汇层面的语义含义,具体包含以下两种融合策略:
6.1词向量融合策略一:对句子中每个字的候选词向量进行求和取均值,以“广州市长隆公园”句子为例,“广”字包含“广州”和“广州市”两个匹配的候选词语,首先查询词向量表获得两个词语的词向量,然后对两个词向量求和取均值作为“广”字的词向量表示部分。
6.2词向量融合策略二:对句子中每个字的候选词向量以词频作为权重进行加权求和,同样以上述例子为例,首先统计“广州”和“广州市”在数据集中出现的总次数,然后将两个词出现的次数分别除以两个词的总次数作为两个词向量的权重,最后将权重和词向量相乘并求和作为“广”字的词向量表示部分,其余字符同理,当某个字不存在候选词语时,用[None]的词向量表示该字的词向量部分,维度同其他词向量维度一样。
步骤7,将步骤6得到的每个字的词向量与步骤5得到的每个字的字向量进行拼接,获得每个字符的最终字向量;
步骤8,将步骤7得到的字向量输入Bi-LSTM-CRF模型进行训练预测,获得实体识别结果。
3.根据权利要求2所述的一种基于BERT和Word2Vec向量融合的中文实体识别方法,其特征在于,步骤1、2中所述的中文文本预处理主要包括将通过爬虫或其他途径获取的文本数据去除无用符号、重复数据以及规范数据格式等。
4.根据权利要求3所述的一种基于BERT和Word2Vec向量融合的中文实体识别方法,其特征在于,所述步骤2中,对于长度不够的句子需要用[PAD]标签进行补齐,最终将定长句子输入BERT模型进行训练。
5.根据权利要求4所述的一种基于BERT和Word2Vec向量融合的中文实体识别方法,其特征在于,所述步骤6中的词汇表也是Word2Vec训练获得的词向量表,每输入一个句子,首先通过查询词向量表获取每个字符的候选词向量,然后从两种向量融合策略中选择一种进行词向量的融合。
6.根据权利要求5所述的一种基于BERT和Word2Vec向量融合的中文实体识别方法,其特征在于,所述步骤8中,整个模型可以看作三层,分别是基于BERT和Word2Vec模型的输入向量表示层、基于Bi-LSTM的上下文编码层和基于CRF的标签解码层;将利用Word2vec获取的静态词向量与利用BERT获得的动态字向量拼接作为输入向量,Bi-LSTM层负责对输入向量进行特征编码,CRF层则通过学习标签之间的转移概率选择最优的标签序列。
CN202011462808.3A 2020-12-14 2020-12-14 基于BERT和Word2Vec向量融合的中文实体识别方法 Pending CN112632997A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011462808.3A CN112632997A (zh) 2020-12-14 2020-12-14 基于BERT和Word2Vec向量融合的中文实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011462808.3A CN112632997A (zh) 2020-12-14 2020-12-14 基于BERT和Word2Vec向量融合的中文实体识别方法

Publications (1)

Publication Number Publication Date
CN112632997A true CN112632997A (zh) 2021-04-09

Family

ID=75312414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011462808.3A Pending CN112632997A (zh) 2020-12-14 2020-12-14 基于BERT和Word2Vec向量融合的中文实体识别方法

Country Status (1)

Country Link
CN (1) CN112632997A (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128199A (zh) * 2021-05-11 2021-07-16 济南大学 基于预训练语言模型与多重词信息嵌入的字向量生成方法
CN113239689A (zh) * 2021-07-07 2021-08-10 北京语言大学 面向易混淆词考察的选择题干扰项自动生成方法及装置
CN113254628A (zh) * 2021-05-18 2021-08-13 北京中科智加科技有限公司 事件关系的确定方法和装置
CN113342930A (zh) * 2021-05-24 2021-09-03 北京明略软件***有限公司 基于串向量的文本表示方法和装置、电子设备、存储介质
CN113392629A (zh) * 2021-06-29 2021-09-14 哈尔滨工业大学 基于预训练模型的人称代词消解方法
CN113450760A (zh) * 2021-06-07 2021-09-28 北京一起教育科技有限责任公司 一种文本转语音的方法、装置及电子设备
CN113505587A (zh) * 2021-06-23 2021-10-15 科大讯飞华南人工智能研究院(广州)有限公司 实体抽取方法及相关装置、设备和存储介质
CN113505200A (zh) * 2021-07-15 2021-10-15 河海大学 一种结合文档关键信息的句子级中文事件检测的方法
CN113657105A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN113673248A (zh) * 2021-08-23 2021-11-19 中国人民解放军32801部队 试验鉴定小样本文本的命名实体识别方法
CN113672727A (zh) * 2021-07-28 2021-11-19 重庆大学 一种金融文本实体关系抽取方法及***
CN113849597A (zh) * 2021-08-31 2021-12-28 艾迪恩(山东)科技有限公司 基于命名实体识别的违法广告词检测方法
CN113889259A (zh) * 2021-09-06 2022-01-04 浙江工业大学 一种知识图谱辅助下的自动诊断对话***
CN113988073A (zh) * 2021-10-26 2022-01-28 迪普佰奥生物科技(上海)股份有限公司 适用于生命科学的文本识别方法和***
CN114757184A (zh) * 2022-04-11 2022-07-15 中国航空综合技术研究所 实现航空领域知识问答的方法和***
CN115146642A (zh) * 2022-07-21 2022-10-04 北京市科学技术研究院 一种面向命名实体识别的训练集自动标注方法及***
CN115270803A (zh) * 2022-09-30 2022-11-01 北京道达天际科技股份有限公司 基于BERT并融合N-gram特征的实体抽取方法
CN115329766A (zh) * 2022-08-23 2022-11-11 中国人民解放军国防科技大学 一种基于动态词信息融合的命名实体识别方法
CN115422362A (zh) * 2022-10-09 2022-12-02 重庆邮电大学 一种基于人工智能的文本匹配方法
CN115687577A (zh) * 2023-01-04 2023-02-03 交通运输部公路科学研究所 一种道路运输常态化问题诉求发现方法及***
CN116011456A (zh) * 2023-03-17 2023-04-25 北京建筑大学 基于提示学习的中文建筑规范文本实体识别方法及***
CN116029354A (zh) * 2022-08-09 2023-04-28 中国搜索信息科技股份有限公司 一种面向文本对的中文语言模型预训练方法
CN116720520A (zh) * 2023-08-07 2023-09-08 烟台云朵软件有限公司 一种面向文本数据的别名实体快速识别方法及***
CN117195877A (zh) * 2023-11-06 2023-12-08 中南大学 一种电子病历的词向量生成方法、***、设备及存储介质
CN117350283A (zh) * 2023-10-11 2024-01-05 西安栗子互娱网络科技有限公司 文本缺陷检测方法、装置、设备和存储介质
WO2024045318A1 (zh) * 2022-08-30 2024-03-07 北京龙智数科科技服务有限公司 自然语言预训练模型训练方法、装置、设备及存储介质

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128199A (zh) * 2021-05-11 2021-07-16 济南大学 基于预训练语言模型与多重词信息嵌入的字向量生成方法
CN113128199B (zh) * 2021-05-11 2022-06-21 济南大学 基于预训练语言模型与多重词信息嵌入的字向量生成方法
CN113254628A (zh) * 2021-05-18 2021-08-13 北京中科智加科技有限公司 事件关系的确定方法和装置
CN113342930A (zh) * 2021-05-24 2021-09-03 北京明略软件***有限公司 基于串向量的文本表示方法和装置、电子设备、存储介质
CN113342930B (zh) * 2021-05-24 2024-03-08 北京明略软件***有限公司 基于串向量的文本表示方法和装置、电子设备、存储介质
CN113450760A (zh) * 2021-06-07 2021-09-28 北京一起教育科技有限责任公司 一种文本转语音的方法、装置及电子设备
CN113505587B (zh) * 2021-06-23 2024-04-09 科大讯飞华南人工智能研究院(广州)有限公司 实体抽取方法及相关装置、设备和存储介质
CN113505587A (zh) * 2021-06-23 2021-10-15 科大讯飞华南人工智能研究院(广州)有限公司 实体抽取方法及相关装置、设备和存储介质
CN113392629A (zh) * 2021-06-29 2021-09-14 哈尔滨工业大学 基于预训练模型的人称代词消解方法
CN113392629B (zh) * 2021-06-29 2022-10-28 哈尔滨工业大学 基于预训练模型的人称代词消解方法
CN113239689B (zh) * 2021-07-07 2021-10-08 北京语言大学 面向易混淆词考察的选择题干扰项自动生成方法及装置
CN113239689A (zh) * 2021-07-07 2021-08-10 北京语言大学 面向易混淆词考察的选择题干扰项自动生成方法及装置
CN113505200B (zh) * 2021-07-15 2023-11-24 河海大学 一种结合文档关键信息的句子级中文事件检测的方法
CN113505200A (zh) * 2021-07-15 2021-10-15 河海大学 一种结合文档关键信息的句子级中文事件检测的方法
CN113672727A (zh) * 2021-07-28 2021-11-19 重庆大学 一种金融文本实体关系抽取方法及***
CN113672727B (zh) * 2021-07-28 2024-04-05 重庆大学 一种金融文本实体关系抽取方法及***
CN113673248A (zh) * 2021-08-23 2021-11-19 中国人民解放军32801部队 试验鉴定小样本文本的命名实体识别方法
CN113673248B (zh) * 2021-08-23 2022-02-01 中国人民解放军32801部队 试验鉴定小样本文本的命名实体识别方法
CN113849597B (zh) * 2021-08-31 2024-04-30 艾迪恩(山东)科技有限公司 基于命名实体识别的违法广告词检测方法
CN113849597A (zh) * 2021-08-31 2021-12-28 艾迪恩(山东)科技有限公司 基于命名实体识别的违法广告词检测方法
CN113657105A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN113889259A (zh) * 2021-09-06 2022-01-04 浙江工业大学 一种知识图谱辅助下的自动诊断对话***
CN113988073A (zh) * 2021-10-26 2022-01-28 迪普佰奥生物科技(上海)股份有限公司 适用于生命科学的文本识别方法和***
CN114757184B (zh) * 2022-04-11 2023-11-10 中国航空综合技术研究所 实现航空领域知识问答的方法和***
CN114757184A (zh) * 2022-04-11 2022-07-15 中国航空综合技术研究所 实现航空领域知识问答的方法和***
CN115146642B (zh) * 2022-07-21 2023-08-29 北京市科学技术研究院 一种面向命名实体识别的训练集自动标注方法及***
CN115146642A (zh) * 2022-07-21 2022-10-04 北京市科学技术研究院 一种面向命名实体识别的训练集自动标注方法及***
CN116029354A (zh) * 2022-08-09 2023-04-28 中国搜索信息科技股份有限公司 一种面向文本对的中文语言模型预训练方法
CN115329766A (zh) * 2022-08-23 2022-11-11 中国人民解放军国防科技大学 一种基于动态词信息融合的命名实体识别方法
WO2024045318A1 (zh) * 2022-08-30 2024-03-07 北京龙智数科科技服务有限公司 自然语言预训练模型训练方法、装置、设备及存储介质
CN115270803A (zh) * 2022-09-30 2022-11-01 北京道达天际科技股份有限公司 基于BERT并融合N-gram特征的实体抽取方法
CN115422362B (zh) * 2022-10-09 2023-10-31 郑州数智技术研究院有限公司 一种基于人工智能的文本匹配方法
CN115422362A (zh) * 2022-10-09 2022-12-02 重庆邮电大学 一种基于人工智能的文本匹配方法
CN115687577A (zh) * 2023-01-04 2023-02-03 交通运输部公路科学研究所 一种道路运输常态化问题诉求发现方法及***
CN116011456A (zh) * 2023-03-17 2023-04-25 北京建筑大学 基于提示学习的中文建筑规范文本实体识别方法及***
CN116720520B (zh) * 2023-08-07 2023-11-03 烟台云朵软件有限公司 一种面向文本数据的别名实体快速识别方法及***
CN116720520A (zh) * 2023-08-07 2023-09-08 烟台云朵软件有限公司 一种面向文本数据的别名实体快速识别方法及***
CN117350283A (zh) * 2023-10-11 2024-01-05 西安栗子互娱网络科技有限公司 文本缺陷检测方法、装置、设备和存储介质
CN117195877A (zh) * 2023-11-06 2023-12-08 中南大学 一种电子病历的词向量生成方法、***、设备及存储介质
CN117195877B (zh) * 2023-11-06 2024-01-30 中南大学 一种电子病历的词向量生成方法、***、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112632997A (zh) 基于BERT和Word2Vec向量融合的中文实体识别方法
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN108959252B (zh) 基于深度学习的半监督中文命名实体识别方法
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN110083831A (zh) 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN111708882B (zh) 基于Transformer的中文文本信息缺失的补全方法
CN110737763A (zh) 一种融合知识图谱和深度学习的中文智能问答***及方法
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN109918681B (zh) 一种基于汉字-拼音的融合问题语义匹配方法
CN112905795A (zh) 文本意图分类的方法、装置和可读介质
CN117151220B (zh) 一种基于实体链接与关系抽取的行业知识库***及方法
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN114153971B (zh) 一种含错中文文本纠错识别分类设备
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN111581970B (zh) 一种网络语境的文本识别方法、装置及存储介质
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN114757184B (zh) 实现航空领域知识问答的方法和***
CN114153973A (zh) 基于t-m bert预训练模型的蒙古语多模态情感分析方法
CN113282711A (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN113221569A (zh) 一种毁伤试验文本信息抽取方法
CN112417823A (zh) 一种中文文本语序调整和量词补全方法及***
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN114970536A (zh) 一种分词、词性标注和命名实体识别的联合词法分析方法
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210409

WD01 Invention patent application deemed withdrawn after publication