CN114706975A - 引入数据增强的sa-lstm对停电新闻的文本分类方法 - Google Patents

引入数据增强的sa-lstm对停电新闻的文本分类方法 Download PDF

Info

Publication number
CN114706975A
CN114706975A CN202210059702.1A CN202210059702A CN114706975A CN 114706975 A CN114706975 A CN 114706975A CN 202210059702 A CN202210059702 A CN 202210059702A CN 114706975 A CN114706975 A CN 114706975A
Authority
CN
China
Prior art keywords
word
data enhancement
lstm
news
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210059702.1A
Other languages
English (en)
Inventor
饶国政
吕鹏浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210059702.1A priority Critical patent/CN114706975A/zh
Publication of CN114706975A publication Critical patent/CN114706975A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种引入数据增强的SA‑LSTM对停电新闻的文本分类方法,包括数据增强以及模型训练两个阶段:数据增强是用于将标注的少量停电新闻文本训练数据集按预设方法产生更多的带标注数据;模型训练是用数据增强后形成的新训练数据集通过双向LSTM网络模型进行特征提取,输出分类结果。本发明能够显著提升只有少量标注的停电新闻文本分类的准确率。

Description

引入数据增强的SA-LSTM对停电新闻的文本分类方法
技术领域
本发明涉及文本分类技术领域,特别是涉及一种引入数据增强的SA-LSTM 对停电新闻的文本分类方法。
背景技术
电力是现代社会不可缺少的能源之一,它支撑着我们生活中各类电器的正常运转。如果由于计划检修、自然灾害、外部破坏等原因造成停电事故的出现,导致电力供应减少或电力传输中断等异常情况,会给人们的正常生活会带来相应的影响,甚至是带来巨大的经济损失。另外根据研究证明,现有电力***发生停电事故是不可避免的,特别是危害程度较高的大停电事故也有微小的发生概率。因此,为了电力***的稳定运行,需要分析已发生的停电事故并总结经验教训。其中分析已发生的停电事故就需要对各类停电新闻文本进行分类整理,确定每段文本所涉及的主题。该文本分类过程一般是采取人工整理方式,需要研究员对各类报告和收集的停电新闻手动或使用文本分类工具进行分类。
在深度学习方法尚未出现之前,文本分类任务通常采用人工特征工程方式完成,即通过专家提前从文本中选取一些适用于分类器的特征或规则,包括语法或词性等,然后通过K近邻、朴素贝叶斯等分类器得到分类结果。在深度学习方法出现之后,文本分类任务不再需要耗费大量时间通过人工设计特征和规则,而是使用深度学习方法自动从文本中挖掘出相应的特征,这些特征相比于人工设计的特征具有更加丰富的语义信息,并且基于深度学习的文本分类模型更加准确且更稳定。
虽然基于深度学习的文本分类模型在多个领域取得了较好的分类效果,但仍然有需要解决的一些问题。通常基于深度学习的文本分类模型需要大量带标注的数据对模型进行训练才能得到良好的性能,但某些领域获取大量带标注的数据较为困难,需要通过数据增强方式自动扩大标注数据的数量。另外低资源的数据中蕴含的上下文信息较少,模型无法有效的提取出足够的特征用于分类。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种引入数据增强的SA-LSTM对停电新闻的文本分类方法,能够自动对网上获取的停电新闻中的文本进行分类,能更好地提高对停电新闻的文本分类准确率,对后续的停电分析工作提供帮助。
为实现本发明的目的所采用的技术方案是:
一种引入数据增强的SA-LSTM对停电新闻的文本分类方法,包括数据增强以及模型训练两个阶段:
数据增强是用于将标注的少量停电新闻文本训练数据集按预设方法产生更多的带标注数据;步骤是:
从训练数据集的句子中提取p个关键词,从提取的关键词中随机选取n个不属于指定停用词集的关键词,p需要小于该句子分词后的长度,n≤p,从每个被选取的关键词的同义词集中随机选取一个同义词对被选取的关键词进行替换,得到第一新句子;
随机选取i个标点符号并随机选取一个位置***到所述句子中,得到第二新句子;
将第一新句子及第二新句子与初始的训练数据集进行合并得到数据增强后的新训练数据集;
模型训练是用数据增强后形成的新训练数据集通过双向LSTM网络模型进行特征提取,输出分类结果;步骤是:
在模型的输入嵌入层中对输入的训练数据集的文本进行预处理操作,得到词序列;
通过预训练词向量对所述词序列进行词嵌入操作,得到映射后的词向量;
将所述词向量输入到双向LSTM网络模型中进行特征提取,得到特征向量,将由所述特征向量得到的特征矩阵通过自注意力机制捕获句子中相互依赖的特征并得到新特征矩阵,将新特征矩阵输入到全连接层,然后再将全连接层的输出输入到softmax中进行分类,得到分类结果。
其中,若被选取的关键词没有同义词,则跳过该关键词并随机替换成其它未被选中的关键词并继续关键词替换操作。
其中,所述预处理包括分词、去除停用词、大写转小写;分词采用HanLP 技术。
其中,通过Synonyms获取所提取的关键词的同义词集。
其中,标点符号***位置不能位于一个完整词的中间。
本发明的基于数据增强的SA-LSTM对停电新闻的文本分类方法,首先通过两种数据增强方式扩充了原有的标注数据量,对提升模型的准确率提供了帮助,然后利用预训练词向量进行词嵌入操作,将词序列转变为词向量以此引入丰富的词信息,接着利用BiLSTM捕获文本中蕴含的上下文信息,再利用自注意力机制进一步捕获句子中相互依赖的特征,最后通过全连接层并使用softmax进行分类。从而使得本发明能够显著提升只有少量标注的停电新闻文本分类的准确率。
附图说明
图1是本发明的基于数据增强的SA-LSTM对停电新闻的文本分类方法的处理示意图。
图2是部分预训练好的300维大小为3.5G的中文预训练词向量的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例的基于数据增强的SA-LSTM对停电新闻的文本分类方法,包括数据增强、模型训练两个阶段。
步骤(1):数据增强阶段
该阶段用于将标注的少量停电新闻文本训练数据集采取相应处理后产生更多的带标注数据;该阶段的所有操作过程均自动完成,无需人工介入。
数据增强的操作,主要采取对训练集中的每个句子执行关键词的同义词替换和随机***标点符号操作,具体步骤如下:
步骤(11),从句子中提取p个关键词,p需要小于句子分词后的长度。从提取的关键词中随机选取n(n≤p)个不属于指定停用词集的关键词,每个被选取的关键词从其同义词集中随机选取一个进行替换,随后得到新的句子。
步骤(12),随机选取i个标点符号并随机选取一个位置***到句子中,随后得到新的句子。
步骤(13),如果步骤(11)中无法提取出p个关键词,但仍然能够提取出不少于n个关键词,则继续进行关键词替换操作。
步骤(14)如果步骤(11)中被选取的关键词没有同义词,则跳过该关键词并随机替换成其它未被选中的关键词并继续关键词替换操作。
步骤(15),如果步骤(11)中无法提取出p个关键词,且能够提取的关键词数小于n个,则全部进行同义词替换操作,遇到没有同义词的关键词则跳过。
步骤(16),将步骤(11)和步骤(12)中得到的新句子和原有训练集进行合并得到数据增强后的新训练集。
其中,作为一个可选实施例,步骤(1)中进行数据增强的停电新闻文本数据来源于各类新闻平台上的停电新闻文本,并通过标注平台对其中的若干(如 100篇)新闻文本按照句子粒度标注成事故发生时间、事故原因、事故起始等7 类。
其中,为了保证进行数据增强后的句子的表达意思和原有句子相似,不会改变句子的原意,只使用同义进行替换或者只***随机标点符号改变词的位置。
具体地,采用HanLP提取句子中多个(如4个)能够反映该句主要内容的关键词,并随机选择其中的关键词(如2个)通过Synonyms获取关键词的同义词集,随机选择1个同义词集中相似度符合要求阈值(如相似度大于0.7)的同义词进行替换。
另外一个数据增强操作是,在每个句子中随机***多个(如6个)标点符号到句子中的任意位置,其中需要注意的是,标点符号的***位置不能位于一个完整词的中间。
例如:
某地发生全国性停电,影响到23个州中的至少13个州以及首都,这些地方的交通灯和地铁在高峰时段停止工作,给城市道路造成了混乱。→某地,发生全国性。停电,影响!到23个州中的至少13个州以及首都,这些地方的交通灯/和地铁在高峰时段。停止工作,!给城市道路造成了混乱。
经过数据增强后得到8000条带标注的数据。
步骤(2):训练阶段
经过数据增强后的训练数据集通过双向LSTM网络进行特征提取,具体步骤如下:
步骤(21),在模型的输入嵌入层中对输入的训练集文本进行分词、去除停用词、大写转小写等预处理操作,得到词序列。
步骤(22),通过预训练词向量对词序列进行词嵌入(Embedding)操作,得到映射后的词向量。
步骤(23),将词向量输入到双向LSTM网络中进行特征提取;
其具体公式如下:
it=σ(Wi·[ht-1,xt]+bi)#(1)
ft=σ(Wf·[ht_1,xt]+bf)#(2)
ot=σ(Wo·[ht-1,xt]+bo)#(3)
Figure RE-GDA0003639049110000061
Figure RE-GDA0003639049110000062
ht=ot*tanh(Ct)#(6)
Figure RE-GDA0003639049110000063
其中,Wi为输入门的可训练权重矩阵参数,ht-1为t-1时刻的隐藏层输出, xt为t时刻的输入,bi为输入门的可训练偏置项参数,σ(·)为sigmoid函数,it为输入门在t时刻的输出,Wf为遗忘门的可训练权重矩阵参数,bf为遗忘门的可训练偏置项参数,ft为遗忘门在t时刻的输出,Wo为输出门的可训练权重矩阵参数,bo为输出门的可训练偏置项参数,ot为输出门在t时刻的输出,Wc为t 时刻的临时单元状态的可训练权重矩阵参数,bC为当前单元状态的可训练偏置项参数,
Figure RE-GDA0003639049110000064
为t时刻的临时单元状态,Ct为t时刻的单元状态,Ct-1为t-1时刻的单元状态,ht为t时刻的隐藏层输出,
Figure RE-GDA0003639049110000065
为第l层的前向输出,
Figure RE-GDA0003639049110000066
为第l层的后向输出,
Figure RE-GDA0003639049110000067
表示串联,hi是词向量经过LSTM后得到的特征向量。
进一步,定义特征向量hi组成的特征矩阵
Figure RE-GDA0003639049110000071
H=(h1,h2,...hn)#(8)
其中,u为BiLSTM的隐藏层状态的维数,n为输入维度。
步骤(24),将前述得到的特征矩阵H,通过自注意力机制(Self-Attention) 进一步捕获句子中相互依赖的特征并得到新特征矩阵HA,具体公式如下:
Figure RE-GDA0003639049110000072
其中Q,K,V为双向LSTM的输出特征矩阵H,即Q=K=V=H。
步骤(25),将自注意力机制输出的新特征矩阵HA输入到全连接层,然后再将全连接层的输出输入到softmax中进行分类。
其中,步骤(2)首先输入模型的数据为句子,为了方便模型训练,需要对句子进行分词操作。分词工具使用HanLP,然后通过预训练词向量进行词嵌入操作。
其中,预训练词向量采用的是Chinese Word Vectors中经综合语料训练得到的中文预训练词向量,利用该预训练词向量将分词后的词用300维的向量进行表示,得到词向量X=(x1,x2,...xn)。
参见图2,该图示出了部分预训练好的300维大小为3.5G的中文预训练词向量:将句子的词向量X输入到BiLSTM网络中得到该句子的特征矩阵H,并进一步输入到自注意力机制中得到新特征矩阵HA,最后输入到全连接层中并通过 softmax得到最终的文本分类结果。
另外,需要说明的是,本发明的文本分类方法不只局限于对停电新闻进行文本分类,对其它文本分类任务也具有十分重要的借鉴意义。
本发明提出的基于数据增强的SA-LSTM对停电新闻的文本分类方法,相比于传统文本分类方法更加适用于低标注数据的停电新闻,具有更好分类性能。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种引入数据增强的SA-LSTM对停电新闻的文本分类方法,其特征在于,包括数据增强以及模型训练两个阶段:
数据增强是用于将标注的少量停电新闻文本训练数据集按预设方法产生更多的带标注数据;步骤是:
从训练数据集的句子中提取p个关键词,从提取的关键词中随机选取n个不属于指定停用词集的关键词,p需要小于该句子分词后的长度,n≤p,从每个被选取的关键词的同义词集中随机选取一个同义词对被选取的关键词进行替换,得到第一新句子;
随机选取i个标点符号并随机选取一个位置***到所述句子中,得到第二新句子;
将第一新句子及第二新句子与初始的训练数据集进行合并得到数据增强后的新训练数据集;
模型训练是用数据增强后形成的新训练数据集通过双向LSTM网络模型进行特征提取,输出分类结果;步骤是:
在模型的输入嵌入层中对输入的训练数据集的文本进行预处理操作,得到词序列;
通过预训练词向量对所述词序列进行词嵌入操作,得到映射后的词向量;
将所述词向量输入到双向LSTM网络模型中进行特征提取,得到特征向量,将由所述特征向量得到的特征矩阵通过自注意力机制捕获句子中相互依赖的特征并得到新特征矩阵,将新特征矩阵输入到全连接层,然后再将全连接层的输出输入到softmax中进行分类,得到分类结果。
2.根据权利要求1所述引入数据增强的SA-LSTM对停电新闻的文本分类方法,其特征在于,若被选取的关键词没有同义词,则跳过该关键词并随机替换成其它未被选中的关键词并继续关键词替换操作。
3.根据权利要求1或2所述引入数据增强的SA-LSTM对停电新闻的文本分类方法,其特征在于,所述预处理包括分词、去除停用词、英文字母大写转小写;分词采用HanLP技术。
4.根据权利要求3所述引入数据增强的SA-LSTM对停电新闻的文本分类方法,其特征在于,通过Synonyms获取所提取的关键词的同义词集。
5.根据权利要求1所述引入数据增强的SA-LSTM对停电新闻的文本分类方法,其特征在于,标点符号***位置不能位于一个完整词的中间。
6.根据权利要求1所述引入数据增强的SA-LSTM对停电新闻的文本分类方法,其特征在于,采用HanLP技术提取句子中的关键词。
CN202210059702.1A 2022-01-19 2022-01-19 引入数据增强的sa-lstm对停电新闻的文本分类方法 Pending CN114706975A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210059702.1A CN114706975A (zh) 2022-01-19 2022-01-19 引入数据增强的sa-lstm对停电新闻的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210059702.1A CN114706975A (zh) 2022-01-19 2022-01-19 引入数据增强的sa-lstm对停电新闻的文本分类方法

Publications (1)

Publication Number Publication Date
CN114706975A true CN114706975A (zh) 2022-07-05

Family

ID=82166370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210059702.1A Pending CN114706975A (zh) 2022-01-19 2022-01-19 引入数据增强的sa-lstm对停电新闻的文本分类方法

Country Status (1)

Country Link
CN (1) CN114706975A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510236A (zh) * 2022-11-23 2022-12-23 中国人民解放军国防科技大学 基于信息融合和数据增强的篇章级事件检测方法
CN116955628A (zh) * 2023-08-08 2023-10-27 武汉市万睿数字运营有限公司 一种投诉事件分类方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200065384A1 (en) * 2018-08-26 2020-02-27 CloudMinds Technology, Inc. Method and System for Intent Classification
CN111858935A (zh) * 2020-07-13 2020-10-30 北京航空航天大学 一种航班点评的细粒度情感分类***
CN111950264A (zh) * 2020-08-05 2020-11-17 广东工业大学 文本数据增强方法及知识元抽取方法
CN112989841A (zh) * 2021-02-24 2021-06-18 中国搜索信息科技股份有限公司 一种用于突发事件新闻识别与分类的半监督学习方法
CN113673219A (zh) * 2021-08-20 2021-11-19 合肥中科类脑智能技术有限公司 一种停电计划文本解析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200065384A1 (en) * 2018-08-26 2020-02-27 CloudMinds Technology, Inc. Method and System for Intent Classification
CN111858935A (zh) * 2020-07-13 2020-10-30 北京航空航天大学 一种航班点评的细粒度情感分类***
CN111950264A (zh) * 2020-08-05 2020-11-17 广东工业大学 文本数据增强方法及知识元抽取方法
CN112989841A (zh) * 2021-02-24 2021-06-18 中国搜索信息科技股份有限公司 一种用于突发事件新闻识别与分类的半监督学习方法
CN113673219A (zh) * 2021-08-20 2021-11-19 合肥中科类脑智能技术有限公司 一种停电计划文本解析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李文慧: "改进biLSTM网络的短文本分类方法", 《计算机工程与设计》 *
范文慧: "基于机器学习的网络舆情文本情感分类方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510236A (zh) * 2022-11-23 2022-12-23 中国人民解放军国防科技大学 基于信息融合和数据增强的篇章级事件检测方法
CN116955628A (zh) * 2023-08-08 2023-10-27 武汉市万睿数字运营有限公司 一种投诉事件分类方法、装置、计算机设备及存储介质
CN116955628B (zh) * 2023-08-08 2024-05-03 武汉市万睿数字运营有限公司 一种投诉事件分类方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN111382575A (zh) 一种基于联合标注和实体语义信息的事件抽取方法
CN114706975A (zh) 引入数据增强的sa-lstm对停电新闻的文本分类方法
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN113157916A (zh) 一种基于深度学习的民航突发事件抽取方法
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及***
CN111753058A (zh) 一种文本观点挖掘方法及***
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN110232127A (zh) 文本分类方法及装置
CN115310448A (zh) 一种基于bert和字词向量结合的中文命名实体识别方法
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及***
CN114970523B (zh) 一种基于文本语义增强的主题提示式关键词提取方法
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN111460144A (zh) 基于时序切分与融合的谣言早期检测算法
Balouchzahi et al. LA-SACo: A study of learning approaches for sentiments analysis inCode-mixing texts
CN117131856A (zh) 一种基于问题引导的交通事故文本因果关系抽取方法
CN113342982B (zh) 融合RoBERTa和外部知识库的企业行业分类方法
CN116186241A (zh) 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质
CN114610874A (zh) 一种基于bert模型的安全事故标签分类方法
CN114757191A (zh) 基于深度学习的电力舆情领域命名实体识别方法***
CN113723078A (zh) 一种文本逻辑信息结构化方法、装置及电子设备
CN112613316A (zh) 一种生成古汉语标注模型的方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220705

RJ01 Rejection of invention patent application after publication