CN112256840A - 改进迁移学习模型进行工业互联网发现并提取信息的装置 - Google Patents
改进迁移学习模型进行工业互联网发现并提取信息的装置 Download PDFInfo
- Publication number
- CN112256840A CN112256840A CN202011256306.5A CN202011256306A CN112256840A CN 112256840 A CN112256840 A CN 112256840A CN 202011256306 A CN202011256306 A CN 202011256306A CN 112256840 A CN112256840 A CN 112256840A
- Authority
- CN
- China
- Prior art keywords
- model
- industrial internet
- classification
- sentence
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013526 transfer learning Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000004140 cleaning Methods 0.000 claims abstract description 14
- 238000013145 classification model Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 6
- 230000011218 segmentation Effects 0.000 abstract description 2
- 238000013508 migration Methods 0.000 description 5
- 230000005012 migration Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
改进迁移学***台网站的关键业务信息提取。
Description
技术领域
本发明涉及信息技术领域,特别是信息安全技术领域。
背景技术
随着制造业从数字化阶段向网络化阶段加速迈进,我国工业互联网平台迅速兴起,平台信息的及时发现与管理成为当前急需解决的一个问题。互联网中网站类别众多,如何从海量的网站中自动找到工业互联网平台网站是目前面临的第一个问题,如何从平台网站内容中提取关键的平台信息是第二个问题。
当前,工业互联网平台信息主要由人工收集,十分浪费人力和时间成本,因此一种自动发现、提取平台信息的方法极为迫切。
近年来,人工智能技术的迅猛发展在自然语言处理领域有了不小进展,其中文本分类用于将不同特征的文本,命名实体识别技术主要用于信息抽取、文本数据结构化。
目前的网站分类方法主要是基于传统机器学习算法和基于深度学习的方式,传统机器学习算法,如发明专利CN106168968A,通过计算匹配到词典的数据的权重来确定网站类别。由于构建词典难度大,且网站类别众多,传统算法很难根据词典将网站进行准确分类。基于深度学习的方法,如发明专利CN110442823A,需要大量的训练样本来训练神经网络的参数,搜集大量样本的过程较长,耗费大量的人力资源。
现有技术中命名实体识别方法主要是基于传统机器学习的实体识别方法以及基于深度学习的实体识别方法。基于传统机器学习的实体识别方法,如发明专利CN111274804A,通过统计学对标注的数据进行模型学习,将待预测的数据送至模型预测,模型利用维特比算法计算最大可能性的实体,该方法最大缺点是无法理解语义,无法胜任复杂实体识别的任务。基于深度学习的命名实体识别方法,如发明专利CN111126068A,构建神经网络模型学习语义特征,并且能学习到较为复杂的语义,但需要大量的标注数据进行学习,数据标注工作极为费时费力。
基于现有技术的复杂度高实现成本高,耗费人工量大的特点,本发明的改进迁移学习模型进行工业互联网发现并提取信息的装置,对迁移学习模型进行了改进,通过共享迁移学习模型的分层计算参数使得迁移学习模型提高了计算效率,可以针对已分类工业互联网样本数据进行快速分类建模得到工业互联网分类模型,再通过网络信息抓取和数据清洗得到实时数据,将实时数据输入工业互联网分类模型进行分类,得到实时数据的工业互联网分类,再对实时数据进行关键信息抓取得到更新的工业互联网的样本数据,并将更新的工业互联网的样本数据更新到已分类工业互联网样本数据中,本发明可以全程自动完成工业互联网的分类和信息抓取,并且可以逐渐修正和丰富已分类工业互联网样本数据,从而达到工业互联网分类模型的不断进化和改进。本发明具有高效性和实时性的特点。
用到的共有技术说明
迁移学习模型:本专利申请用到的迁移学习模型指StructBERT,StructBERT是阿里巴巴达摩院提出的NLP预训练模型,在传统BERT的基础上作出了相关改进。作者认为Bert的预训练任务忽略了语言结构language structure信息,因此StructBert在Bert原有的MaskLM的训练目标上,增加了两个基于语言结构的训练目标:词序和句序任务。
命名实体识别:命名实体识别是指在文本中识别出特殊对象,这些对象的语义类别通常在识别前被预定义好,预定义类别如人、地址、组织等。命名实体识别不仅仅是独立的信息抽取任务,它在许多大型NLP应用***如信息检索、自动文本摘要、问答***、机器翻译以及知识建库中也扮演了关键的角色。
发明内容
鉴于现有技术的不足,本发明提供的改进迁移学习模型进行工业互联网发现并提取信息的装置由网络爬虫、文本清洗模块、内容分类执行模块、改进的迁移学习模型和实体识别模块组成;
网络爬虫负责爬取网页内容并将网页内容和网页地址发送给文本清洗模块;
文本清洗模块负责将网页内容和网页地址所形成的文本中的噪声字符去除生成干净的网页信息,文本清洗模块将干净的网页信息发送给内容分类执行模块;噪声字符包括:html标签、停用词、转发符、url、标记信息;
内容分类执行模块包含了工业互联网分类模型,工业互联网分类模型由已分类互联网样本数据经过改进的迁移学习模型进行语言训练得到;工业互联网分类模型是由已分类互联网样本数据的分类标签和已分类互联网样本数据的内容属于每种分类标签的概率组成;
改进的迁移学习模型的算法表示为:1)使用StructBERT对文本中的每句话的每个字进行表示,然后使用双向Transformer学习被表示后的文本,Transformer是StructBERT中的标准程序,传统Transformer的每一层参数独立,当层数增加时,参数量也会明显上升,本模型将所有层的参数进行共享,学习一层的参数量;2)改进StructBERT的词表示为由词向量、段向量和位置向量共同表示;词向量的第一个单词用于之后的分类任务,段向量用来区别两种句子,位置向量用于表示词位置信息;3)通过四个训练任务来学习语义特征:i)遮掩语言模型,ii)预测下一句任务,iii)词序任务,iv)句子结构任务;遮掩语言模型任务是指模型在训练过程中预测随机遮掩15%的字,而在随机遮掩15%的字中80%的字替换成mask符号,10%的字不替换,10%的字替换成其他字;模型通过此任务学习文本的语义信息;预测下一句任务为了使模型学习到句子之间的关系,假设训练的输入是句子S1和S2,S2有一半的几率是S1的下一句,输入这两个句子,模型预测S2是否为S1的下一句;词序任务是从未被遮掩的序列中以5%的几率选择部分长度为3子序列,将子序列中的词序打乱,让模型重建原来的词序,从而使模型学习到句子中的词序关系;句子结构任务,给定句子对(S1,S2),判断S2跟S1的上下关系和无关性;在采样时,对于一个句子S,1/3的概率采样S的下一句组成句对,1/3的概率采样S的上一句组成句对,1/3的概率随机采样一个其他文档的句子组成句对;
内容分类执行模块对照干净的网页信息和工业互联网分类模型,内容分类执行模块丢弃非工业互联网分类的干净的网页信息并将属于工业互联网分类的干净的网页信息发送给实体识别模块;
实体识别模块包含了实体类别模型,实体类别模型由带实体类别标签的已分类工业互联网样本数据经过改进的迁移学习模型进行语言训练得到,实体类别模型是带实体类别标签的已分类工业互联网样本数据的分类标签和带实体类别标签的已分类工业互联网样本数据的内容属于每种分类标签的概率组成;
实体识别模块对照干净的网页信息和实体类别模型,输出干净的网页信息中的内容及干净的网页信息中的内容对应的实体类别标签,生成更新的带实体类别标签的已分类工业互联网数据;
实体识别模块将更新的带实体类别标签的已分类工业互联网数据合并入带实体类别标签的已分类工业互联网样本数据。
有益效果
与传统的文本分类及信息提取的技术相比,本发明不需要海量带有标签的文本进行训练,节省了大量的人力成本;其次不受分词的影响,可以得到更多、更相关的文本特征用于网站分类及工业互联网平台网站的关键业务信息提取。
附图说明
图1是本发明的***结构图。
具体实施方式
参看图1实现本发明提供的改进迁移学习模型进行工业互联网发现并提取信息的装置由网络爬虫1、文本清洗模块2、内容分类执行模块3、改进的迁移学习模型4和实体识别模块5组成;
网络爬虫1负责爬取网页内容并将网页内容和网页地址10发送给文本清洗模块2;
文本清洗模块2负责将网页内容和网页地址10所形成的文本中的噪声字符去除生成干净的网页信息,文本清洗模2块将干净的网页信息发送给内容分类执行模块3;噪声字符包括:html标签、停用词、转发符、url、标记信息;
内容分类执行模块3包含了工业互联网分类模型41,工业互联网分类模型41由已分类互联网样本数据40经过改进的迁移学习模型4进行语言训练得到;工业互联网分类模型41是由已分类互联网样本数据40的分类标签和已分类互联网样本数据40的内容属于每种分类标签的概率组成;
改进的迁移学习模型4的算法表示为:1)使用StructBERT对文本中的每句话的每个字进行表示,然后使用双向Transformer学习被表示后的文本,Transformer是StructBERT中的标准程序,传统Transformer的每一层参数独立,当层数增加时,参数量也会明显上升,本模型将所有层的参数进行共享,学习一层的参数量;2)改进StructBERT的词表示为由词向量、段向量和位置向量共同表示;词向量的第一个单词用于之后的分类任务,段向量用来区别两种句子,位置向量用于表示词位置信息;3)通过四个训练任务来学习语义特征:i)遮掩语言模型,ii)预测下一句任务,iii)词序任务,iv)句子结构任务;遮掩语言模型任务是指模型在训练过程中预测随机遮掩15%的字,而在随机遮掩15%的字中80%的字替换成mask符号,10%的字不替换,10%的字替换成其他字;模型通过此任务学习文本的语义信息;预测下一句任务为了使模型学习到句子之间的关系,假设训练的输入是句子S1和S2,S2有一半的几率是S1的下一句,输入这两个句子,模型预测S2是否为S1的下一句;词序任务是从未被遮掩的序列中以5%的几率选择部分长度为3子序列,将子序列中的词序打乱,让模型重建原来的词序,从而使模型学习到句子中的词序关系;句子结构任务,给定句子对(S1,S2),判断S2跟S1的上下关系和无关性;在采样时,对于一个句子S,1/3的概率采样S的下一句组成句对,1/3的概率采样S的上一句组成句对,1/3的概率随机采样一个其他文档的句子组成句对;
内容分类执行模块3对照干净的网页信息和工业互联网分类模型41,内容分类执行模块丢弃非工业互联网分类的干净的网页信息并将属于工业互联网分类的干净的网页信息发送给实体识别模块5;
实体识别模块5包含了实体类别模型51,实体类别模型51由带实体类别标签的已分类工业互联网样本数据50经过改进的迁移学习模型4进行语言训练得到,实体类别模型51是带实体类别标签的已分类工业互联网样本数据50的分类标签和带实体类别标签的已分类工业互联网样本数据50的内容属于每种分类标签的概率组成;
实体识别模块5对照干净的网页信息和实体类别模型51,输出干净的网页信息中的内容及干净的网页信息中的内容对应的实体类别标签,生成更新的带实体类别标签的已分类工业互联网数据52;
实体识别模块5将更新的带实体类别标签的已分类工业互联网数据52合并入带实体类别标签的已分类工业互联网样本数据50。
Claims (1)
1.改进迁移学习模型进行工业互联网发现并提取信息的装置,其特征在于由网络爬虫、文本清洗模块、内容分类执行模块、改进的迁移学习模型和实体识别模块组成;
网络爬虫负责爬取网页内容并将网页内容和网页地址发送给文本清洗模块;
文本清洗模块负责将网页内容和网页地址所形成的文本中的噪声字符去除生成干净的网页信息,文本清洗模块将干净的网页信息发送给内容分类执行模块;噪声字符包括:html标签、停用词、转发符、url、标记信息;
内容分类执行模块包含了工业互联网分类模型,工业互联网分类模型由已分类互联网样本数据经过改进的迁移学习模型进行语言训练得到;工业互联网分类模型是由已分类互联网样本数据的分类标签和已分类互联网样本数据的内容属于每种分类标签的概率组成;
改进的迁移学习模型的算法表示为:1)使用StructBERT对文本中的每句话的每个字进行表示,然后使用双向Transformer学习被表示后的文本,Transformer是StructBERT中的标准程序,传统Transformer的每一层参数独立,当层数增加时,参数量也会明显上升,本模型将所有层的参数进行共享,学习一层的参数量;2)改进StructBERT的词表示为由词向量、段向量和位置向量共同表示;词向量的第一个单词用于之后的分类任务,段向量用来区别两种句子,位置向量用于表示词位置信息;3)通过四个训练任务来学习语义特征:i)遮掩语言模型,ii)预测下一句任务,iii)词序任务,iv)句子结构任务;遮掩语言模型任务是指模型在训练过程中预测随机遮掩15%的字,而在随机遮掩15%的字中80%的字替换成mask符号,10%的字不替换,10%的字替换成其他字;模型通过此任务学习文本的语义信息;预测下一句任务为了使模型学习到句子之间的关系,假设训练的输入是句子S1和S2,S2有一半的几率是S1的下一句,输入这两个句子,模型预测S2是否为S1的下一句;词序任务是从未被遮掩的序列中以5%的几率选择部分长度为3子序列,将子序列中的词序打乱,让模型重建原来的词序,从而使模型学习到句子中的词序关系;句子结构任务,给定句子对(S1,S2),判断S2跟S1的上下关系和无关性;在采样时,对于一个句子S,1/3的概率采样S的下一句组成句对,1/3的概率采样S的上一句组成句对,1/3的概率随机采样一个其他文档的句子组成句对;
内容分类执行模块对照干净的网页信息和工业互联网分类模型,内容分类执行模块丢弃非工业互联网分类的干净的网页信息并将属于工业互联网分类的干净的网页信息发送给实体识别模块;
实体识别模块包含了实体类别模型,实体类别模型由带实体类别标签的已分类工业互联网样本数据经过改进的迁移学习模型进行语言训练得到,实体类别模型是带实体类别标签的已分类工业互联网样本数据的分类标签和带实体类别标签的已分类工业互联网样本数据的内容属于每种分类标签的概率组成;
实体识别模块对照干净的网页信息和实体类别模型,输出干净的网页信息中的内容及干净的网页信息中的内容对应的实体类别标签,生成更新的带实体类别标签的已分类工业互联网数据;
实体识别模块将更新的带实体类别标签的已分类工业互联网数据合并入带实体类别标签的已分类工业互联网样本数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011256306.5A CN112256840A (zh) | 2020-11-12 | 2020-11-12 | 改进迁移学习模型进行工业互联网发现并提取信息的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011256306.5A CN112256840A (zh) | 2020-11-12 | 2020-11-12 | 改进迁移学习模型进行工业互联网发现并提取信息的装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112256840A true CN112256840A (zh) | 2021-01-22 |
Family
ID=74265439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011256306.5A Pending CN112256840A (zh) | 2020-11-12 | 2020-11-12 | 改进迁移学习模型进行工业互联网发现并提取信息的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256840A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451433A (zh) * | 2017-06-27 | 2017-12-08 | 中国科学院信息工程研究所 | 一种基于文本内容的信息源识别方法与装置 |
CN111078978A (zh) * | 2019-11-29 | 2020-04-28 | 上海观安信息技术股份有限公司 | 一种基于网站文本内容的网贷网站实体识别方法及*** |
CN111428981A (zh) * | 2020-03-18 | 2020-07-17 | 国电南瑞科技股份有限公司 | 基于深度学习的电网故障预案信息提取方法和*** |
CN111739520A (zh) * | 2020-08-10 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 一种语音识别模型训练方法、语音识别方法、装置 |
CN111767732A (zh) * | 2020-06-09 | 2020-10-13 | 上海交通大学 | 基于图注意力模型的文档内容理解方法及*** |
-
2020
- 2020-11-12 CN CN202011256306.5A patent/CN112256840A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451433A (zh) * | 2017-06-27 | 2017-12-08 | 中国科学院信息工程研究所 | 一种基于文本内容的信息源识别方法与装置 |
CN111078978A (zh) * | 2019-11-29 | 2020-04-28 | 上海观安信息技术股份有限公司 | 一种基于网站文本内容的网贷网站实体识别方法及*** |
CN111428981A (zh) * | 2020-03-18 | 2020-07-17 | 国电南瑞科技股份有限公司 | 基于深度学习的电网故障预案信息提取方法和*** |
CN111767732A (zh) * | 2020-06-09 | 2020-10-13 | 上海交通大学 | 基于图注意力模型的文档内容理解方法及*** |
CN111739520A (zh) * | 2020-08-10 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 一种语音识别模型训练方法、语音识别方法、装置 |
Non-Patent Citations (1)
Title |
---|
DRUGAI: "ICLR2020|StructBERT:融合语言结构的BERT模型", pages 2, Retrieved from the Internet <URL:https://blog.csdn.net/u012325865/article/details/106464621?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522170659530716800213024812%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=170659530716800213024812&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~rank_v31_ecpm-11-106464621-null-null.142^v99^pc_search_result_base6&utm_term=structbert&spm=1018.2226.3001.4187> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110054B (zh) | 一种基于深度学习的从非结构化文本中获取问答对的方法 | |
CN112989841B (zh) | 一种用于突发事件新闻识别与分类的半监督学习方法 | |
CN110009430B (zh) | 作弊用户检测方法、电子设备及计算机可读存储介质 | |
CN108984775B (zh) | 一种基于商品评论的舆情监控方法及*** | |
CN110633366A (zh) | 一种短文本分类方法、装置和存储介质 | |
CN107205016A (zh) | 物联网设备的检索方法 | |
CN113806547B (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
CN112199606B (zh) | 一种基于层次用户表示的面向社交媒体的谣言检测*** | |
CN115292568B (zh) | 一种基于联合模型的民生新闻事件抽取方法 | |
CN111651566A (zh) | 基于多任务的小样本学习的裁判文书争议焦点提取方法 | |
CN117520561A (zh) | 直升机装配领域知识图谱构建的实体关系抽取方法及*** | |
CN116150509A (zh) | 社交媒体网络的威胁情报识别方法、***、设备及介质 | |
CN112257444A (zh) | 金融信息负面实体发现方法、装置、电子设备及存储介质 | |
CN113378024B (zh) | 一种基于深度学习面向公检法领域的相关事件识别方法 | |
CN112579730A (zh) | 高扩展性、多标签的文本分类方法和装置 | |
CN111400617B (zh) | 基于主动学习的社交机器人检测数据集扩展方法及*** | |
CN116775880A (zh) | 一种基于标签语义和迁移学习的多标签文本分类方法及*** | |
CN112256840A (zh) | 改进迁移学习模型进行工业互联网发现并提取信息的装置 | |
CN115878800A (zh) | 一种融合共现图和依赖关系图的双图神经网络及其构建方法 | |
CN115934944A (zh) | 一种基于Graph-MLP与相邻对比损失的实体关系抽取方法 | |
CN115827871A (zh) | 互联网企业分类的方法、装置和*** | |
Jasim et al. | Analyzing Social Media Sentiment: Twitter as a Case Study | |
CN111221941B (zh) | 基于文本内容和行文风格的社交媒体谣言鉴别算法 | |
CN113326371A (zh) | 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法 | |
Zhao et al. | Health rumors detection based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |