CN114970532A - 一种基于嵌入分布改进的中文命名实体识别方法 - Google Patents
一种基于嵌入分布改进的中文命名实体识别方法 Download PDFInfo
- Publication number
- CN114970532A CN114970532A CN202210539034.2A CN202210539034A CN114970532A CN 114970532 A CN114970532 A CN 114970532A CN 202210539034 A CN202210539034 A CN 202210539034A CN 114970532 A CN114970532 A CN 114970532A
- Authority
- CN
- China
- Prior art keywords
- word
- information
- embedding
- word embedding
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000006872 improvement Effects 0.000 title claims abstract description 13
- 239000013598 vector Substances 0.000 claims abstract description 41
- 230000003068 static effect Effects 0.000 claims abstract description 33
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000010365 information processing Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 2
- 238000012937 correction Methods 0.000 claims 3
- 230000014509 gene expression Effects 0.000 abstract description 14
- 238000000605 extraction Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 3
- 238000011161 development Methods 0.000 abstract description 3
- 238000013519 translation Methods 0.000 abstract description 3
- 230000015556 catabolic process Effects 0.000 abstract description 2
- 238000006731 degradation reaction Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 description 9
- 230000003321 amplification Effects 0.000 description 6
- 238000003199 nucleic acid amplification method Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 125000004432 carbon atom Chemical group C* 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 1
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 1
- 101100397240 Arabidopsis thaliana ISPD gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- DDUHZTYCFQRHIY-RBHXEPJQSA-N griseofulvin Chemical compound COC1=CC(=O)C[C@@H](C)[C@@]11C(=O)C(C(OC)=CC(OC)=C2Cl)=C2O1 DDUHZTYCFQRHIY-RBHXEPJQSA-N 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
当前,随着机器翻译、信息提取、条件搜索等领域的发展,命名实体识别作为这些领域的基础技术也取得了进一步的发展。目前常用的词嵌入分为静态词嵌入和基于上下文语义信息的动态词嵌入(如BERT词嵌入),但是这两种词嵌入都存在一定的不足。静态词嵌入采用固定的词向量对词元进行表达,没有考虑词元在不同句子中表达语义不同的情况;而考虑上下文语义的BERT词嵌入又存在表征退化的问题,针对这种情况本方法提出了一种简单有效的词嵌入方法,通过改进静态词嵌入以及动态词嵌入的分布使其具备各向同性的分布特征,以此来提升词嵌入的语义表达能力。同时,为了更好的利用语义嵌入,针对注意力机制的计算方法进行了改进,最后基于transformer网络架构构建了基于嵌入分布改进的中文命名实体识别模型解决由于嵌入分布的各向异性带来的命名识别错误的问题。
Description
技术领域
本发明涉及深度学习以及自然语言处理领域,具体涉及一种基于嵌入分布改进的中文命名实体识别方法。
背景技术
随着机器翻译、信息提取、条件搜索等领域的飞速发展,自然语言处理在实际应用中越来越广泛,而命名实体识别(Named Entity Recognition,NER)作为信息抽取、机器翻译等领域最重要的任务之一,其目的是自动检测给定文本中的命名实体并识别其类别。由于汉语中不存在英语文本中类似的空格分词符,因此汉语NER相较于英文NER来说更加困难。
在研究早期,汉语NER任务被分解为两个独立的串联式任务,即分词和词序标记,这种方法存在一个严重的缺陷:如果存在分词错误,那么会导致分词错误在后续网络中传播。在后续的研究中,研究者提出基于字符的模型来避免分词错误,但这样完全丢掉词信息放弃了词语深层的语义信息,也变相的降低了嵌入的语义表达能力。于是,研究者们提出将词信息整合到基于字符的NER模型中。在近些年,研究者们聚焦于建模词与字符间的关系,以此来让模型学***均向量和几个顶部主导方向,使得现成的表示更加强大。词嵌入会分布于一个狭窄的锥形区域内,这样的分布会很大程度上限制词嵌入的表达能力,(Gao J,He D,Tan X,et al.Representationdegeneration problem in training natural language generation models[J].arXivpreprint arXiv:1907.12009,2019.)证明了这个现象并提出了一个新型的正则化方法来解决这个问题。另一方面,随着预训练模型的发展,语境化的词嵌入表示代替静态词嵌入成为了主流趋势,近些年研究者们常利用BERT预训练模型得到词嵌入作为网络的输入。但命名实体识别的研究者们很少考虑到词嵌入的可靠性问题,(Ethayarajh K.How contextualare contextualized word representations?comparing the geometry ofBERT,ELMo,and GPT-2embeddings[J]. arXiv preprint arXiv:1909.00512,2019.)研究了Elmo、BERT和GPT-2预训练模型每一层的单词化嵌入,证明了他们的分布不是各向同性的;(Li B,ZhouH,He J, et al.On the sentence embeddings from pre-trained language models[J].arXiv preprint arXiv:2011.05864,2020.)通过对嵌入的理论探讨,发现BERT句向量空间在语义上是非平滑的。于是,本发明针对于词嵌入的各向异性分布情况进行改善,然后提出一种简单有效的方法来改变嵌入的分布特性,从而解决该问题。另一方面,基于嵌入信息的增强方法也是近些年的研究热点,(Aiguo Chen, Chenglong Yin.CRW-NER:ExploitingMultiple Embeddings for Chinese Named Entity Recognition[C]//Proceedings of20214th International Conference on Artificial Intelligence and Big Data(ICAIBD),2021:520-524.)以及(Shuang Wu, Xiaoning Song,Zhenhua Feng.MECT:Multi-Metadata Embedding based Cross-Transformer for Chinese Named EntityRecognition[C]//Proceedings of the 59th Annual Meeting of the Association forComputational Linguistics,ACL, 2021:1529-1539.)在输入层融入词根信息来提升语义信息,这也说明了辅助的输入信息能在一定程度上提升语义丰富度,因此,本发明在嵌入层为模型加入词性信息,以此来达到对语义的增强。
综上所述,考虑到目前研究者普遍采用静态词嵌入以及基于语义信息的动态词嵌入,而静态词嵌入对于多义词表达存在天然的不足以及动态词嵌入分布存在的各向异性的分布而导致的表达退化的问题,本发明设计了一种基于嵌入分布改进的中文命名实体识别方法通过对静态词嵌入以及动态词嵌入分别做不同的变换处理,使模型的输入分布呈现各向同性的特性,让模型学习到更加丰富的语义信息,从而提升了中文命名实体识别的准确率。
发明内容
本发明的目的在于设计一种基于嵌入分布改进的中文命名实体识别方法准确的识别出文本中的实体,并在基于嵌入分布改进的中文命名实体识别方法的基础上针对具体实现命名实体识别的领域如医疗文本微调预训练模型,以达到最佳的实现效果。
本发明提供了一种基于嵌入分布改进的中文命名实体识别方法,包括:输入信息预处理模块,用于将输入文本进行预处理,通过自然语言处理工具为输入文本增加词性信息,然后对静态词嵌入和基于BERT的上下文语义词嵌入进行嵌入空间转换令其分布具备各向同性,最后将它们送入自注意力机制中进行建模,并通过条件随机场对标签约束进行学习,得到最后对实体以及实体类别预测。
本发明内容主要分为三个部分:静态词嵌入处理方法、动态词嵌入处理方法以及注意力机制改进方法。
基于嵌入分布改进的中文命名实体识别方法是本发明的主要内容,本发明提出的基于嵌入分布和注意力机制改进的中文命名实体识别方法,通过对输入文本预处理,得到网络模型的最终输入,然后经过注意力机制进行长距离依赖建模、前馈神经网络进行进一步的特征提取,最后将模型的输出送入条件随机场中进行标签信息的约束学习。具体包括以下步骤:
1.对输入的文本进行预处理:在嵌入层,本发明将输入分为了三个部分,第一部分利用了开源的自然语言处理库对词性信息进行提取并将其转移到字符层面,然后通过预训练好的词表进行向量映射作为输入;第二部分利用BERT预训练模型来获取动态词嵌入作为输入;第三部分同时采用了静态词向量以及动态词向量作为输入。其中静态词向量的处理方法为:采用的词向量为50维,先对其中元素进行放大操作,首先计算相邻两个值a和b的平均值c,然后对a、b、 c进行排序,如果它们中最小的值都大于0,那么令a加上a与c的差的绝对值,令b加上b与c的差的绝对值,如果它们中最大的值都小于0,那么令a减去a 与c差的绝对值,令b减去b与c差的绝对值,之后在对所有词向量的元素进行放大后,其中过大的值进行尺度变换缩小,对过小的值进行尺度变化放大,计算50个值的平均值,将大于平均值和小于平均值的数目进行统计,然后对他们的差值的个数的值进行约束,使其在嵌入空间中所占空间更大。而动态词嵌入,由于采用了语境化能力强的BERT模型,使得模型可以学习到同一个词在不同的句子中所具有的几个意思,因此表示向量只集中分布于向量空间中的某一簇,表示为各向异性,而这种情况会降低模型的泛化能力,也就是说在不同句子中,同一个词的分布应该是不同的,而不是在词嵌入空间中具有锥形分布,具有很高的余弦相似度,本发明首先对原始BERT词嵌入进行随机mask操作,然后令其通过一个线性层使其具备各向同性的分布。
2.构建一个基于嵌入分布改进的中文命名实体识别网络:在注意力机制的计算中,采用了transformerXL计算方法,对于位置编码部分采用了FLAT网络的编码方法,针对注意力机制的输入,本发明修改了原有的单输入为三输入,即本发明在嵌入层对输入做的三种处理。注意力模块计算方法如下:
Att(A,V)=softmax(A)V
其中,i表示第i个词元,ij表示第i个词元和第j个词元的关系。Q为利用BERT 预训练模型获取的动态词嵌入信息,K为利用自然语言处理工具获取的词性信息, V为同时采用的静态词向量以及动态词向量信息的表示。u、v为可学习的超参数,注意力机制中的位置信息编码模块是注意力机制中的位置信息编码,用于输入语句中词元之间的位置信息建模,归一化指数函数softmax将注意力值进行归一化处理。融合位置信息为:
上式中,dmodel是模型的维度,位置d通过下式计算方法得到:
式中hh表示head[i]到head[j]的距离,其中i表示第i个词元,j表示第j个词元,tt表示tail[i]到tail[j]到距离。
3.利用开源数据集如Weibo等对网络进行预训练,得到预训练模型;
4.通过迁移学习的方式将预训练好的模型转移到目标域;
5.通过微调的方式得到适用于目标域的预训练模型,使用此模型对该领域文本进行命名实体识别检测,得到目标实体和实体类型。
由于采用以上技术方案,本发明具有以下优点:
1、词嵌入技术为自然语言处理应用带来了巨大的改变,得益于几何学的表达,词向量能更好的捕捉语言规律,自Word2Vec被提出后,往往作为自然语言处理任务中的基础输入映射存在。例如,对于输入序列S={s1,s2,…sn},往往通过Word2Vec得到最终的输入S′=Word2Vec(S)。这种静态映射得到的词嵌入有一个很明显的不足,那就是缺少灵活的语境化表达,在以下两句话中可以明显的了解到“领导”的不同语义:“在××的领导下”和“真正的领导者”,那么对于这样多语义词的情况,静态词嵌入的表达就不能满足了。因此,随着BERT预训练模型的提出,更多研究者更趋向于使用类似BERT的预训练模型来得到语境化的词嵌入表达。但即使使用大规模语料库训练神经网络,大部分的词向量仍然会退化并分布在嵌入空间的一个狭小锥形区域内,这导致了一个非光滑的各向异性的语义空间,也就是说这样的分布损害了它的语义表达性能。在本发明中,首先对BERT 词嵌入的分布做处理,使其分布由各向异性转为各向同性,然后再与静态词嵌入做一个融合,实现了两者优势的互补,从而能实现语义特征更好的表达。
2、本发明提出针对自注意力机制的改进,不同于传统的transformerXL计算方法,传统的自注意力机制计算方法采用相同输入的不同线性变换来实现,这里为了这里采用了包含词信息的语义嵌入和基于BERT预训练模型的上下文语义信息进行交互,最后再通过点乘结合了静态词嵌入与BERT词嵌入的输入表征来进行信息恢复,使得模型能够关注到词元间的语义关系以及位置关系。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供下附图进行说明:
图1是本发明的基于嵌入分布改进的中文命名实体识别方法流程示意图;
图2是本发明的静态词嵌入和动态词嵌入分布图;
图3是本发明对词嵌入特征处理后的分布图。
具体实施方案
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地、完整地描述。
本发明提出了一种基于嵌入分布改进的中文命名实体识别方法,如图1,具体包括如下步骤:
步骤1、对输入文本进行词匹配、词性匹配,以及词向量映射等预处理操作;
步骤2、构建一个融合词性信息以及词信息的神经网络,将预处理得到的向量送入网络中学习。
步骤3、利用改进的自注意力机制对经过预处理后得到的三部分输入进行注意力训练,在后续此类信息再次出现就可以自动关注到该区域;
步骤4、将自注意力机制的输出送入到线性层中进行特征学习;
步骤5、将编码器的输出送入到条件随机场中进行标签约束学习,得到最终的预测实体。
步骤1:接收输入文本,利用输入预处理模块进行词匹配和词性匹配,然后将利用预训练好的向量表进行词向量映射,同时对静态词向量进行线性均匀扩增,首先对原始的静态词向量进行度量如图2(左图)所示,发现静态词嵌入的分布紧靠零域,这导致其分布不能很好的进行语义特征的表达,这里采用的词向量为 50维,先对其中元素进行放大操作,具体的实现方法是:计算相邻两个值a和b 的平均值c,然后对a、b、c进行排序,如果它们中最小的值都大于0,那么令a 加上a与c的差的绝对值,令b加上b与c的差的绝对值,如果它们中最大的值都小于0,那么令a减去a与c差的绝对值,令b减去b与c差的绝对值。在对所有词向量的元素进行放大后,其中过大的值进行尺度变换缩小,对过小的值进行尺度变化放大,计算50个值的平均值,将大于平均值和小于平均值的数目进行统计,然后对他们的差值的个数的值进行约束。对静态词向量处理后,需要对 BERT词嵌入进行处理,这里对BERT词向量进行度量如图2(右图)所示,发现其分布呈锥形,故将BERT词向量与经过均匀放大操作后的静态词嵌入进行一个相加操作,然后经过dropout操作,得到图3(中)表示,然后通过一个线性层以进行各向同性的空间转换得到图3(右图)所示的向量表示。
步骤2:将预处理后的文本送入自注意力机制模块进行建模,使用PyTorch 框架构建此中文命名实体识别网络,多头注意力模块在整体框架中的位置如图1 所示,整体计算公式如下:
Att(A,V)=softmax(A)V
其中,i表示第i个词元,ij表示第i个词元和第j个词元的关系。Q为利用BERT 预训练模型获取的动态词嵌入信息,K为利用自然语言处理工具获取的词性信息, V为同时采用的静态词向量以及动态词向量信息的表示。u、v为可学习的超参数,注意力机制中的位置信息编码模块是注意力机制中的位置信息编码,用于输入语句中词元之间的位置信息建模,归一化指数函数softmax将注意力值进行归一化处理。融合位置信息为:
上式中,dmodel是模型的维度,位置d通过下式计算方法得到:
式中hh表示head[i]到head[j]的距离,其中i表示第i个词元,j表示第j个词元,tt表示tail[i]到tail[j]到距离。
步骤3:将编码部分的输出送入到CRF层进行计算,通过条件随机场对于标签信息的约束学习,得到最后的预测实体。
步骤4:训练所构建的中文命名实体识别网络。通过迁移学习的方式,先利用相关领域的开源数据对网络进行预训练,再使用自制已标注的中文实体识别数据集对于预训练的网络进行微调。
Claims (3)
1.一种基于嵌入分布改进的中文命名实体识别方法,其特征在于,能够从给定文本内容中得到关注的专有名词,通过以下两个步骤实现:
步骤1、获取要识别的文本对象,并对输入文本进行预处理;
步骤2、将输入文本映射为词向量表示,并利用提出的静态词嵌入与动态词嵌入修正方法对词向量分布进行修正;
步骤3、将修正后的输入向量送入构建的基于嵌入分布改进的中文命名实体识别网络,包括输入信息处理模块、自注意力机制模块、前馈神经网络模块以及CRF标签约束模块,其中,输入信息处理模块利用了本发明提出的基于静态词嵌入与动态词嵌入修正分布方法,首先为输入语句加入词性信息以及为输入语句匹配词信息,然后为匹配词加上词性标注信息并将其转移到字符层面,最后对输入信息进行词向量匹配,在词向量匹配过程中利用了提出的基于静态词嵌入与动态词嵌入修正分布方法来进行映射;自注意力机制模块通过将匹配了词性信息的嵌入信息和匹配了词信息的嵌入信息进行自注意力机制中得到最后的特征输入;前馈神经网络模块对利用自注意力机制得到的特征进行再学习,以获取更深的空间特征映射信息;最后利用CRF(Conditional Random Field)条件随机场模块为最后预测的标签增加一些约束来保证预测的标签的准确性,这些约束通过CRF层进行学习,最后输出预测结果;
步骤4、利用训练得到的预训练模型对输入文本进行命名实体识别,得到实体以及实体类型。
2.根据权利要求1所述的静态词信息和动态词信息匹配,其特征在于,对于原始的静态词匹配向量做线性转换,对其中过大的值进行尺度变换缩小,计算所有值的平均值,统计大于平均值和小于平均值的数目,然后对他们的差值的个数的值进行约束,拉大词向量之间的距离,使其在向量空间中占据更大的空间;对于利用Bert得到的具有上下文语义信息的动态词嵌入,对其分布进行改善,将其分布由各向异性变为各向同性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210539034.2A CN114970532A (zh) | 2022-05-18 | 2022-05-18 | 一种基于嵌入分布改进的中文命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210539034.2A CN114970532A (zh) | 2022-05-18 | 2022-05-18 | 一种基于嵌入分布改进的中文命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114970532A true CN114970532A (zh) | 2022-08-30 |
Family
ID=82982978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210539034.2A Pending CN114970532A (zh) | 2022-05-18 | 2022-05-18 | 一种基于嵌入分布改进的中文命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114970532A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190019661A (ko) * | 2017-08-18 | 2019-02-27 | 동아대학교 산학협력단 | 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN111914560A (zh) * | 2020-07-31 | 2020-11-10 | 平安科技(深圳)有限公司 | 文本蕴含关系识别方法、装置、设备及存储介质 |
JP2021009538A (ja) * | 2019-07-01 | 2021-01-28 | 株式会社野村総合研究所 | 自然言語処理装置および自然言語処理プログラム |
CN112347796A (zh) * | 2020-11-10 | 2021-02-09 | 内蒙古工业大学 | 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法 |
CN112966523A (zh) * | 2021-03-15 | 2021-06-15 | 山东建筑大学 | 基于语义关系约束的词向量修正方法及计算*** |
WO2021139266A1 (zh) * | 2020-07-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
CN114154504A (zh) * | 2021-12-06 | 2022-03-08 | 重庆邮电大学 | 一种基于多信息增强的中文命名实体识别算法 |
CN114330352A (zh) * | 2022-01-05 | 2022-04-12 | 北京京航计算通讯研究所 | 一种命名实体识别方法和*** |
-
2022
- 2022-05-18 CN CN202210539034.2A patent/CN114970532A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190019661A (ko) * | 2017-08-18 | 2019-02-27 | 동아대학교 산학협력단 | 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
JP2021009538A (ja) * | 2019-07-01 | 2021-01-28 | 株式会社野村総合研究所 | 自然言語処理装置および自然言語処理プログラム |
WO2021139266A1 (zh) * | 2020-07-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
CN111914560A (zh) * | 2020-07-31 | 2020-11-10 | 平安科技(深圳)有限公司 | 文本蕴含关系识别方法、装置、设备及存储介质 |
CN112347796A (zh) * | 2020-11-10 | 2021-02-09 | 内蒙古工业大学 | 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法 |
CN112966523A (zh) * | 2021-03-15 | 2021-06-15 | 山东建筑大学 | 基于语义关系约束的词向量修正方法及计算*** |
CN114154504A (zh) * | 2021-12-06 | 2022-03-08 | 重庆邮电大学 | 一种基于多信息增强的中文命名实体识别算法 |
CN114330352A (zh) * | 2022-01-05 | 2022-04-12 | 北京京航计算通讯研究所 | 一种命名实体识别方法和*** |
Non-Patent Citations (4)
Title |
---|
YING LUO等: "Combining bert with static word embedding for categorizing social media", 《W-NUT 2020》, 31 December 2020 (2020-12-31), pages 1 - 6 * |
YING LUO等: "Open named entity modeling from embedding distribution", pages 1 - 12, Retrieved from the Internet <URL:https://arxiv.org/pdf/1909.00170> * |
刘慧婷;凌超;: "单词和字符表示的协同学习", 华南理工大学学报(自然科学版), no. 08, 15 August 2018 (2018-08-15), pages 122 - 129 * |
洪宇;张宇;刘挺;李生;: "话题检测与跟踪的评测及研究综述", 中文信息学报, no. 06, 15 November 2007 (2007-11-15), pages 71 - 87 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113343683B (zh) | 一种融合自编码器和对抗训练的中文新词发现方法及装置 | |
US11475225B2 (en) | Method, system, electronic device and storage medium for clarification question generation | |
Gontier et al. | Automated audio captioning by fine-tuning bart with audioset tags | |
Han et al. | A survey of transformer-based multimodal pre-trained modals | |
Wang et al. | Stroke constrained attention network for online handwritten mathematical expression recognition | |
CN112287105A (zh) | 融合标题和正文双向互注意力的涉法新闻相关性分析方法 | |
Xu et al. | A comprehensive survey of automated audio captioning | |
CN115759119A (zh) | 一种金融文本情感分析方法、***、介质和设备 | |
Heo et al. | Multimodal neural machine translation with weakly labeled images | |
Parvin et al. | Transformer-based local-global guidance for image captioning | |
CN114742069A (zh) | 一种代码相似度检测方法及装置 | |
CN112199952B (zh) | 一种分词方法、多模式分词模型和*** | |
Wu et al. | Joint intent detection model for task-oriented human-computer dialogue system using asynchronous training | |
US20240119716A1 (en) | Method for multimodal emotion classification based on modal space assimilation and contrastive learning | |
CN115129826B (zh) | 电力领域模型预训练方法、精调方法、装置及设备 | |
CN116955644A (zh) | 基于知识图谱的知识融合方法、***及存储介质 | |
CN112989839A (zh) | 一种基于关键词特征嵌入语言模型的意图识别方法及*** | |
CN114970532A (zh) | 一种基于嵌入分布改进的中文命名实体识别方法 | |
CN113254586B (zh) | 一种基于深度学习的无监督文本检索方法 | |
Xue et al. | A multi-modal fusion framework for continuous sign language recognition based on multi-layer self-attention mechanism | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
CN112434133B (zh) | 一种意图分类方法、装置、智能终端及存储介质 | |
Zhai et al. | MLNet: a multi-level multimodal named entity recognition architecture | |
Pa et al. | Improving Myanmar Image Caption Generation Using NASNetLarge and Bi-directional LSTM | |
Xie et al. | Enhancing multimodal deep representation learning by fixed model reuse |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |