CN111967267A - 一种基于XLNet的新闻文本地域提取的方法及*** - Google Patents
一种基于XLNet的新闻文本地域提取的方法及*** Download PDFInfo
- Publication number
- CN111967267A CN111967267A CN202011009623.7A CN202011009623A CN111967267A CN 111967267 A CN111967267 A CN 111967267A CN 202011009623 A CN202011009623 A CN 202011009623A CN 111967267 A CN111967267 A CN 111967267A
- Authority
- CN
- China
- Prior art keywords
- region
- model
- xlnet
- training
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于XLNet的新闻文本地域提取的方法及***,其方法包括如下步骤:S1、利用互联网上获取海量未标注生语料,输入XLNet预训练模型中进行预训练;S2、将预处理后的数据输入到步骤S1预训练好的XLNet预训练模型中进行编码,将编码后的隐状态输入到BiLSTM+CRF模型中进行识别,输出识别后的地域实体;S3、地域实体消歧;S4、地域实体汇总;S5、地域主体补全操作;其***包括地域实体识别模块、实体拼接模块、地域消歧义模块和地域汇总模块,地域实体识别模块由XLNet预训练模型和BiLSTM+CRF模型组成。本发明的二阶段训练过程克服了现有技术存在的预训练阶段和训练阶段存在使用模式不一致的问题,解决了传统的自回归模型无法同时学习上下文信息的痛点,实现了完整建模。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种基于XLNet的新闻文本地域提取的方法及***。
背景技术
新闻文本的地域属性蕴含了新闻事件发生的地点,是对新闻事件进行统计、分析的重要参考维度,因此利用计算机实现对新闻文本地域的自动抽取,对下游任务如推荐***、舆情分析、文本摘要等具有非常重要的推动作用。目前主流的地域提取方法包括机器学习方法和深度学习方法,这两种方法都需要人工标注的地域实体数据集进行训练。
BERT+BiLSTM+CRF模型就是(双向转换的编码预训练模型+双向长短期记忆网络+条件随机场模型)深度学习方法中的一种,但BERT模型存在如下缺点:1、预训练阶段采用引入遮掩标记来遮掩15%的词,但在训练阶段不含有这些被加入遮掩标记的词,导致预训练阶段和训练阶段存在使用模式不一致的情况;2、在预训练阶段,随机遮掩的15%词之间是条件独立的,不存在关联,但自然语言的词之间有些是存在关联的,导致模型的性能损失,无法同时学习上下文信息;3、只能对固定长度的文本序列进行建模,而新闻文本通常是长文本序列,导致无法对其进行完整建模。
发明内容
为解决上述问题,本发明提供了一种基于XLNet的新闻文本地域提取的方法及***。
本发明采用以下技术方案:
一种基于XLNet的新闻文本地域提取的方法,包括如下步骤:
S1、预训练:利用爬虫技术从互联网上获取海量未标注生语料,对所述未标注生语料进行去噪声和预处理操作后,输入XLNet预训练模型中进行预训练;
S2、训练:a、在BIOES标注框架下,人工标注形成带标签的中文新闻文本地域语料库用作模型训练语料,b、对所述模型训练语料进行通用的数据预处理流程,c、将预处理后的数据输入到所述步骤S1预训练好的XLNet预训练模型中进行编码,d、将编码后的隐状态输入到BiLSTM+CRF模型中进行识别,输出层输出识别后的地域实体;
S3、地域实体消歧:构建省/市二级同一地名知识库,将所述地域实体与所述知识库进行匹配映射,进行消歧;
S4、地域实体汇总:a、统计所述地域实体的长度、在文本中出现的次数以及位置,并将这三个统计信息通过非线性变换分别转换成人工特征,b、采用成对比较法,利用所述人工特征构建特征矩阵,c、计算所述特征矩阵的主特征向量,所述主特征向量上每一维的值对应着所述地域实体的主地域权重,d、对所述主地域权重进行归一化指数函数操作,并按照所述主地域权重大小降序排序,仅保留前3个权重最大的地域实体;
S5、补全:利用爬虫技术爬取中国的行政区划信息,构建省/市/县(区)三级的中国地域知识库,对所述步骤S4所得的前3个权重最大的地域实体进行补全操作,所述补全操作采用最大匹配算法。
进一步地,步骤S2中的所述人工标注的方法为:B代表地域的开始,I代表地域的中间,E代表地域的结尾,S代表单个字符,O代表无关字符。
进一步地,所述步骤S2还包括:e、地域拼接:利用所述地域实体在文本中的位置,采用地域拼接算法对地域主体信息进行拼接。
进一步地,所述XLNet预训练模型中包含了排列语言模型,所述排列语言模型将文本句子的单词随机打乱顺序,对于单词xi,原本出现在它后面的词{xi+1,...,xn}也可以出现在它前面,设长度为T的文本序列[1,2,...,T]的所有排列组合集合为ZT,设zt为文本序列中的第t个元素,z<t表示一种排列组合情况即z∈ZT的前t-1个元素,则排列语言模型对文本序列的建模过程可以表示成:
进一步地,所述XLNet预训练模型采用了双流注意力机制。
进一步地,所述BiLSTM+CRF模型采用随机梯度下降算法迭代优化模型的参数。
一种基于XLNet的新闻文本地域提取的***,包括地域实体识别模块、实体拼接模块、地域消歧义模块和地域汇总模块,所述地域实体识别模块由XLNet预训练模型和BiLSTM+CRF模型组成,所述XLNet预训练模型利用互联网未标注数据完成预训练后用于待识别文本的编码,所述BiLSTM+CRF模型用于对编码后的所述待识别文本进行文本地域识别以获得地域主体,所述实体拼接模块根据所述地域实体在文本中的位置信息对所述地域实体进行拼接,所述地域消歧模块用于将所述地域主体与人工构建的省/市二级同一地名知识库进行匹配映射以实现消歧,所述地域汇总模块用于所述地域实体的统计、排序和补全。
进一步地,所述XLNet预训练模型采用排列语言模型和双流注意力机制。
进一步地,所述BiLSTM+CRF模型为BiLSTM模型和CRF模型的结合,所述BiLSTM模型为双向长短期记忆网络即采用一个从前端到后端的LSTM神经网络和一个从后端到前端的LSTM神经网络拼接而成,所述CRF模型为条件随机场模型。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
1、本发明采用二阶段训练过程,即预训练过程和训练过程,预训练过程在大规模为标注数据上进行无监督学习得到预训练模型,训练过程则是将待识别数据输入预训练模型中编码后将编码结果输入训练模型中进行迭代训练,整体框架可确保获得较高的地域提取质量,克服了现有的BERT+BiLSTM+CRF模型存在的预训练阶段和训练阶段存在使用模式不一致的问题;
2、传统的自回归模型只能从前端到后端(或从后端到前端)单方向的建模,而本发明引入了排列语言模型,将输入的文本序列按照排列组合的方式随机打乱序列,使得后端的文本序列可能随机组合到了前端,解决了传统的自回归模型无法同时学习上下文信息的痛点;
3、引入的XLNet模型使用的是相对位置编码而不是绝对位置编码,使得本发明的地域提取方法能够完整的识别整个长文本序列的地域,实现了完整建模。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
如图1所示,一种基于XLNet的新闻文本地域提取的方法,包括如下步骤:
S1、预训练:利用爬虫技术从互联网上获取海量未标注生语料,对所述未标注生语料进行去噪声和预处理操作后,输入XLNet预训练模型中进行预训练;
S2、训练:a、在BIOES标注框架下,人工标注形成带标签的中文新闻文本地域语料库用作模型训练语料,b、对所述模型训练语料进行通用的数据预处理流程,c、将预处理后的数据输入到所述步骤S1预训练好的XLNet预训练模型中进行编码,d、将编码后的隐状态输入到BiLSTM+CRF模型中进行识别,输出层输出识别后的地域实体;
步骤S1和步骤S2中的所述数据预处理包括对未标注数据进行清洗,即剔除无用的文本,以及对文本进行分词、断句、去停用词等通用的数据预处理流程。
步骤S2中的所述人工标注的方法为:B代表地域的开始,I代表地域的中间,E代表地域的结尾,S代表单个字符,O代表无关字符。例如:“江苏省苏州市”就会被人工标注成“江苏B-TER省I-TER苏州I-TER市E-TER”。
所述步骤S2还包括:e、地域拼接:利用所述地域实体在文本中的位置,采用地域拼接算法对地域主体信息进行拼接。
在模型效果测试的过程中发现,发现对有些文本中出现的地域实体无法完整抽取,如:浙江省丽水市,会被识别成“浙江省”、“丽水市”两个实体,针对该问题,添加了在步骤S2添加了e、地域拼接的步骤,依赖地域实体在文章中的位置信息进行拼接,以此解决部分实体无法完整抽取的痛点。例如在文本中出现了“浙江省”、“丽水市”,此时模型会认为“浙江省”地域实体的末尾位置为1、“丽水市”地域实体的末尾位置为2,即这两个地域实体在文中是相邻的,然后判断两者是否存在从属关系,若是,则将二者拼接为“浙江省丽水市”,否则不作任何处理。地域拼接效果如下表所示:
表1.地域拼接效果
S3、地域实体消歧:构建省/市二级同一地名知识库,将所述地域实体与所述知识库进行匹配映射,进行消歧;
由于中国语言丰富多彩,存在着大量缺省现象,不同的文本却可以代表相同的含义,如“沪”、“上海”和网络常用语“魔都”表示的都是同一个地域,因此,构建了一个省/市二级同一地名知识库,通过地域实体与该知识库进行匹配映射,上述的“沪”、“上海”、“魔都”都会被映射为“上海市”。
S4、地域实体汇总:a、统计所述地域实体的长度、在文本中出现的次数以及位置,并将这三个统计信息通过非线性变换分别转换成人工特征,b、采用成对比较法,利用所述人工特征构建特征矩阵,c、计算所述特征矩阵的主特征向量,所述主特征向量上每一维的值对应着所述地域实体的主地域权重,d、对所述主地域权重进行归一化指数函数操作,并按照所述主地域权重大小降序排序,仅保留前3个权重最大的地域实体;
S5、补全:利用爬虫技术爬取中国的行政区划信息,构建省/市/县(区)三级的中国地域知识库,对所述步骤S4所得的前3个权重最大的地域实体进行补全操作,所述补全操作采用最大匹配算法。
补全的示例效果如下表所示:
表2.补全示例效果
所述XLNet预训练模型中包含了排列语言模型,所述排列语言模型将文本句子的单词随机打乱顺序,对于单词xi,原本出现在它后面的词{xi+1,...,xn}也可以出现在它前面,设长度为T的文本序列[1,2,...,T]的所有排列组合集合为ZT,设zt为文本序列中的第t个元素,z<t表示一种排列组合情况即z∈ZT的前t-1个元素,则排列语言模型对文本序列的建模过程可以表示成:
所述XLNet预训练模型采用了双流注意力机制。
引入排列语言模型后,解决了传统的自回归模型无法同时学习上下文信息的缺点同时,也会带来一个问题:文本位置信息丢失。在传统的自回归模型中,对于句子[x1,x2.x3,x4],模型预测的永远是序列下一个位置的单词,但对于排列语言模型,假设当前要预测x3对于排列组合后的序列[x2,x4,x1,x3],模型就会预测x1。为了使模型学习到序列的位置信息,在XLNet中引入了双流注意力机制,其中Content stream attention(内容流注意力)就是标准的自注意力(self-attention)机制,Query stream attention(查询流注意力)和Content stream attention(内容流注意力)的区别在于Query stream attention(查询流注意力)使用的都是上下文信息,没有涉及到任何有关预测目标词的信息,两者相结合有助于模型更好的提取有关上下文信息的特征,具体的双流注意力计算机制为:
其中,上标T代表矩阵转置操作,dim代表矩阵维度。
引入的XLNet模型使用的是相对位置编码而不是绝对位置编码,使得本发明的地域提取方法能够完整的识别整个长文本序列的地域,实现完整建模。
所述BiLSTM+CRF模型采用随机梯度下降算法迭代优化模型的参数。
本实施例采用二阶段训练过程,即预训练过程和训练过程,预训练过程在大规模为标注数据上进行无监督学习得到预训练模型,训练过程则是将待识别数据输入预训练模型中编码后将编码结果输入训练模型中进行迭代训练,整体框架可确保获得较高的地域提取质量,克服了现有的BERT+BiLSTM+CRF模型存在的预训练阶段和训练阶段存在使用模式不一致的问题。
实施例二
一种基于XLNet的新闻文本地域提取的***,包括地域实体识别模块、实体拼接模块、地域消歧义模块和地域汇总模块,所述地域实体识别模块由XLNet预训练模型和BiLSTM+CRF模型组成,所述XLNet预训练模型利用互联网未标注数据完成预训练后用于待识别文本的编码,所述BiLSTM+CRF模型用于对编码后的所述待识别文本进行文本地域识别以获得地域主体,所述实体拼接模块根据所述地域实体在文本中的位置信息对所述地域实体进行拼接,所述地域消歧模块用于将所述地域主体与人工构建的省/市二级同一地名知识库进行匹配映射以实现消歧,所述地域汇总模块用于所述地域实体的统计、排序和补全。
所述XLNet预训练模型采用排列语言模型和双流注意力机制。所述BiLSTM+CRF模型为BiLSTM模型和CRF模型的结合,所述BiLSTM模型为双向长短期记忆网络即采用一个从前端到后端的LSTM(长短期记忆网络)和一个从后端到前端的LSTM(长短期记忆网络)拼接而成,所述CRF模型为条件随机场模型。
本实施例的***中的地域实体识别模块采用二阶段训练过程,即基于XLNet预训练模型的预训练过程和基于BiLSTM+CRF模型的训练过程,预训练过程在大规模为标注数据上进行无监督学习得到预训练模型,训练过程则是将待识别数据输入预训练模型中编码后将编码结果输入训练模型中进行迭代训练,整体框架可确保获得较高的地域提取质量,克服了现有的BERT+BiLSTM+CRF模型存在的预训练阶段和训练阶段存在使用模式不一致的问题;
传统的自回归模型只能从前端到后端(或从后端到前端)单方向的建模,而本发明引入了排列语言模型,将输入的文本序列按照排列组合的方式随机打乱序列,使得后端的文本序列可能随机组合到了前端,解决了传统的自回归模型无法同时学习上下文信息的痛点;
引入的XLNet模型使用的是相对位置编码而不是绝对位置编码,使得本发明的地域提取方法能够完整的识别整个长文本序列的地域,实现完整建模。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (9)
1.一种基于XLNet的新闻文本地域提取的方法,其特征在于:包括如下步骤:
S1、预训练:利用爬虫技术从互联网上获取海量未标注生语料,对所述未标注生语料进行去噪声和预处理操作后,输入XLNet预训练模型中进行预训练;
S2、训练:a、在BIOES标注框架下,人工标注形成带标签的中文新闻文本地域语料库用作模型训练语料,b、对所述模型训练语料进行通用的数据预处理流程,c、将预处理后的数据输入到所述步骤S1预训练好的XLNet预训练模型中进行编码,d、将编码后的隐状态输入到BiLSTM+CRF模型中进行识别,输出层输出识别后的地域实体;
S3、地域实体消歧:构建省/市二级同一地名知识库,将所述地域实体与所述知识库进行匹配映射,进行消歧;
S4、地域实体汇总:a、统计所述地域实体的长度、在文本中出现的次数以及位置,并将这三个统计信息通过非线性变换分别转换成人工特征,b、采用成对比较法,利用所述人工特征构建特征矩阵,c、计算所述特征矩阵的主特征向量,所述主特征向量上每一维的值对应着所述地域实体的主地域权重,d、对所述主地域权重进行归一化指数函数操作,并按照所述主地域权重大小降序排序,仅保留前3个权重最大的地域实体;
S5、补全:利用爬虫技术爬取中国的行政区划信息,构建省/市/县(区)三级的中国地域知识库,对所述步骤S4所得的前3个权重最大的地域实体进行补全操作,所述补全操作采用最大匹配算法。
2.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法,其特征在于:步骤S2中的所述人工标注的方法为:B代表地域的开始,I代表地域的中间,E代表地域的结尾,S代表单个字符,O代表无关字符。
3.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法,其特征在于:所述步骤S2还包括:e、地域拼接:利用所述地域实体在文本中的位置,采用地域拼接算法对地域主体信息进行拼接。
5.如权利要求4所述的一种基于XLNet的新闻文本地域提取的方法,其特征在于:所述XLNet预训练模型采用了双流注意力机制。
6.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法,其特征在于:所述BiLSTM+CRF模型采用随机梯度下降算法迭代优化模型的参数。
7.一种基于XLNet的新闻文本地域提取的***,其特征在于:包括地域实体识别模块、实体拼接模块、地域消歧义模块和地域汇总模块,所述地域实体识别模块由XLNet预训练模型和BiLSTM+CRF模型组成,所述XLNet预训练模型利用互联网未标注数据完成预训练后用于待识别文本的编码,所述BiLSTM+CRF模型用于对编码后的所述待识别文本进行文本地域识别以获得地域主体,所述实体拼接模块根据所述地域实体在文本中的位置信息对所述地域实体进行拼接,所述地域消歧模块用于将所述地域主体与人工构建的省/市二级同一地名知识库进行匹配映射以实现消歧,所述地域汇总模块用于所述地域实体的统计、排序和补全。
8.如权利要求7所述的一种基于XLNet的新闻文本地域提取的***,其特征在于:所述XLNet预训练模型采用排列语言模型和双流注意力机制。
9.如权利要求7所述的一种基于XLNet的新闻文本地域提取的***,其特征在于:所述BiLSTM+CRF模型为BiLSTM模型和CRF模型的结合,所述BiLSTM模型为双向长短期记忆网络即采用一个从前端到后端的LSTM神经网络和一个从后端到前端的LSTM神经网络拼接而成,所述CRF模型为条件随机场模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011009623.7A CN111967267B (zh) | 2020-09-23 | 2020-09-23 | 一种基于XLNet的新闻文本地域提取的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011009623.7A CN111967267B (zh) | 2020-09-23 | 2020-09-23 | 一种基于XLNet的新闻文本地域提取的方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111967267A true CN111967267A (zh) | 2020-11-20 |
CN111967267B CN111967267B (zh) | 2022-06-21 |
Family
ID=73387426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011009623.7A Active CN111967267B (zh) | 2020-09-23 | 2020-09-23 | 一种基于XLNet的新闻文本地域提取的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967267B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487291A (zh) * | 2020-11-28 | 2021-03-12 | 重庆邮电大学 | 一种基于大数据的个性化新闻推荐方法及装置 |
CN113282767A (zh) * | 2021-04-30 | 2021-08-20 | 武汉大学 | 一种面向文本的相对位置信息提取方法 |
CN114064856A (zh) * | 2021-11-23 | 2022-02-18 | 江苏省未来网络创新研究院 | 一种基于XLNet-BiGRU文本纠错方法 |
TWI799274B (zh) * | 2021-05-24 | 2023-04-11 | 宏達國際電子股份有限公司 | 運算方法以及運算系統 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825890A (zh) * | 2020-01-13 | 2020-02-21 | 成都四方伟业软件股份有限公司 | 一种预训练模型知识图谱实体关系抽取方法及装置 |
CN111428054A (zh) * | 2020-04-14 | 2020-07-17 | 中国电子科技网络信息安全有限公司 | 一种网络空间安全领域知识图谱的构建与存储方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN111476031A (zh) * | 2020-03-11 | 2020-07-31 | 重庆邮电大学 | 一种基于Lattice-LSTM的改进中文命名实体识别方法 |
-
2020
- 2020-09-23 CN CN202011009623.7A patent/CN111967267B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825890A (zh) * | 2020-01-13 | 2020-02-21 | 成都四方伟业软件股份有限公司 | 一种预训练模型知识图谱实体关系抽取方法及装置 |
CN111476031A (zh) * | 2020-03-11 | 2020-07-31 | 重庆邮电大学 | 一种基于Lattice-LSTM的改进中文命名实体识别方法 |
CN111428054A (zh) * | 2020-04-14 | 2020-07-17 | 中国电子科技网络信息安全有限公司 | 一种网络空间安全领域知识图谱的构建与存储方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
Non-Patent Citations (2)
Title |
---|
杨敬闻: "基于XLNet与字词融合编码的中文命名实体识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
赵平 等: "基于BERT+BiLSTM+CRF的中文景点命名实体识别", 《计算机***应用》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487291A (zh) * | 2020-11-28 | 2021-03-12 | 重庆邮电大学 | 一种基于大数据的个性化新闻推荐方法及装置 |
CN112487291B (zh) * | 2020-11-28 | 2022-06-10 | 重庆邮电大学 | 一种基于大数据的个性化新闻推荐方法及装置 |
CN113282767A (zh) * | 2021-04-30 | 2021-08-20 | 武汉大学 | 一种面向文本的相对位置信息提取方法 |
CN113282767B (zh) * | 2021-04-30 | 2022-08-30 | 武汉大学 | 一种面向文本的相对位置信息提取方法 |
TWI799274B (zh) * | 2021-05-24 | 2023-04-11 | 宏達國際電子股份有限公司 | 運算方法以及運算系統 |
CN114064856A (zh) * | 2021-11-23 | 2022-02-18 | 江苏省未来网络创新研究院 | 一种基于XLNet-BiGRU文本纠错方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111967267B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902145B (zh) | 一种基于注意力机制的实体关系联合抽取方法和*** | |
CN110110054B (zh) | 一种基于深度学习的从非结构化文本中获取问答对的方法 | |
CN111967267B (zh) | 一种基于XLNet的新闻文本地域提取的方法及*** | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN110705301B (zh) | 实体关系抽取方法及装置、存储介质、电子设备 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和***及设备 | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
CN112270196A (zh) | 实体关系的识别方法、装置及电子设备 | |
CN113051356B (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN111738007A (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN111274804A (zh) | 基于命名实体识别的案件信息提取方法 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN107357785A (zh) | 主题特征词抽取方法及***、情感极性判断方法及*** | |
CN114328934B (zh) | 一种基于注意力机制的多标签文本分类方法及*** | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN112597366B (zh) | 基于Encoder-Decoder的事件抽取方法 | |
CN115935995A (zh) | 面向知识图谱生成的非遗丝织领域实体关系抽取方法 | |
CN115600605A (zh) | 一种中文实体关系联合抽取方法、***、设备及存储介质 | |
CN113377953B (zh) | 一种基于palc-dca模型的实体融合及分类方法 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配***及方法 | |
CN115795060B (zh) | 一种基于知识增强的实体对齐方法 | |
CN115270774B (zh) | 一种半监督学习的大数据关键词词典构建方法 | |
CN115344668A (zh) | 一种多领域与多学科科技政策资源检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000 Applicant after: Zhongke (Xiamen) data Intelligence Research Institute Address before: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000 Applicant before: Xiamen Institute of data intelligence, Institute of computing technology, Chinese Academy of Sciences |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |