CN113515624A - 一种针对突发事件新闻的文本分类方法 - Google Patents

一种针对突发事件新闻的文本分类方法 Download PDF

Info

Publication number
CN113515624A
CN113515624A CN202110467773.0A CN202110467773A CN113515624A CN 113515624 A CN113515624 A CN 113515624A CN 202110467773 A CN202110467773 A CN 202110467773A CN 113515624 A CN113515624 A CN 113515624A
Authority
CN
China
Prior art keywords
event
news
events
cluster
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110467773.0A
Other languages
English (en)
Other versions
CN113515624B (zh
Inventor
孙锐
谢红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leshan Normal University
Original Assignee
Leshan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leshan Normal University filed Critical Leshan Normal University
Priority to CN202110467773.0A priority Critical patent/CN113515624B/zh
Publication of CN113515624A publication Critical patent/CN113515624A/zh
Application granted granted Critical
Publication of CN113515624B publication Critical patent/CN113515624B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种针对突发事件新闻的文本分类方法,属于自然语言处理领域,包括:收集新闻文档,完成数据清洗,及文档的分词、依存分析和指代消解等预处理操作,得到新闻数据集D;将新闻数据集D加入到背景语料,利用Word2Vec训练后学习词的分布式表示;对新闻数据集D中的每篇新闻d进行事件抽取并构造事件词典;采用无参聚类的中文口哨方法对事件词典中的所有事件进行聚类以得到事件簇;对聚类后得到的每个事件簇,计算其出现频率和倒排文档频率,以提取特征事件;根据特征事件为每篇新闻文档构建其特征向量;采用支持向量机的分类算法完成对新闻文档的分类。该方法语义表征能力和类别区分度强。

Description

一种针对突发事件新闻的文本分类方法
技术领域
本发明属于自然语言处理领域,具体涉及一种针对突发事件新闻的文本分类方法。
背景技术
突发事件,是指突然发生,造成或者可能造成严重社会危害,需要采取应急处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全事件。事件发生后,相关的新闻报道快速在网络上进行传播,大多会成为政府部门以及民众关注的焦点。利用文本分类技术快速地将对新闻按主题进行分类,以便民众对事件发生的原因、过程和后续影响进行了解分析,也能为相关部门控制、减轻和消除突发事件引起的严重社会危害同时进行辅助性决策提供便利。
突发事件发生或演变的过程中,往往会伴随或衍生出很多子事件。例如,“台风威马逊来袭”事件的发生一般也发生“气象台发布预警”、“人员受伤”、“通讯中断”和“人员转移”等事件,而“云南发生地震”事件的发生一般则会发生“云南地震”、“人死亡”、“房屋倒塌”和“民政局报告”等事件。通过对一些具备显著特征的事件进行分析,就很容易地新闻按不同的突发事件主题进行分类。
在自然语言处理领域,事件一般是指一个动作的发生或状态的变化,由触发词和一个或多个论元组成。事件本身就包含了词间的语义关系,具有比传统词袋模型更强的语义表征能力,从而具备更好的类别区分度。因此,针对突发事件新闻,采用事件作为特征进行文本分类应当更简单有效。
随着IT技术的深入应用,突发事件发生后,网络上会出现大量相关的新闻报道,大多数新闻文本都会成为政府部门以及民众关注的焦点。利用文本分类技术快速地将对新闻按主题进行分类,以便民众对事件发生的原因、过程和后续影响进行了解分析,也能为相关部门控制、减轻和消除突发事件引起的严重社会危害同时进行辅助性决策提供便利。现有技术主要采用基本词袋的分类模型,即采用词汇特征来表征文档。这类技术忽略了词间的语义关系,语义表征能力较弱。
因此,本申请提出一种针对突发事件新闻的文本分类方法。
发明内容
为了克服上述现有技术存在的不足,本发明提供了一种针对突发事件新闻的文本分类方法。
为了实现上述目的,本发明提供如下技术方案:
一种针对突发事件新闻的文本分类方法,包括以下步骤:
包括以下步骤:
从网上收集新闻文档,完成数据清洗,并利用自然语言处理工具对所述新闻文档中的每篇文档进行分词、依存分析和指代消解的预处理操作,得到新闻数据集D;
将预处理后的新闻数据集D加入到背景语料,利用Word2Vec训练后学习词的分布式表示;
对新闻数据集D中的每篇新闻d进行事件抽取,并构造事件词典;
采用无参聚类的中文口哨方法对事件词典中的所有事件进行聚类以得到事件簇;
对聚类后得到的每个事件簇,计算其出现频率和倒排文档频率,以提取特征事件;
根据特征事件为每篇新闻文档构建其特征向量;
采用支持向量机的分类算法完成对新闻文档的分类。
优选地,利用现有的自然语言处理工具包,完成对新闻文档的数据清洗。
优选地,所述对新闻数据集D中的每篇新闻d进行事件抽取,并构造事件词典的具体步骤包括:
扫描每篇新闻d依存分析结果中类型为“nsubj”和“dobj”的依存分析关系,得到二元依存关系集合ea,二元关系用于表示事件论元关系;
依次扫描上述二元依存关系集合ea,若两个事件论元关系的谓词相同,则合并为一个候选事件;
将上述二元论元关系集合ea中剩余的每一个未合并二元依存关系也分别表示为一个候选事件;
由所有候选事件得到每篇新闻的事件集合de,即每个文档由多个事件组成;
重复上述四步,当新闻数据集D中所有文档中的事件抽取完成后,即可得到新闻数据集D的所有事件集合DE;
扫描事件集合DE,构建事件词典
ED={event1,event2,…,eventm},eventi表示第i类事件,m表示词典大小即事件类别数,所有论元均相同的事件为同一类别。
优选地,所述采用无参聚类的中文口哨方法对事件词典中的所有事件进行聚类以得到事件簇的具体步骤包括:
采用组合语义的方式计算得到每个事件event的分布式表示:
Figure BDA0003044782430000031
其中subj、pred和obj分别代表事件event的主语、谓语和宾语,
Figure BDA0003044782430000032
表示克罗内克积运算,·表示点乘运算;
采用余弦相似度来计算每一对事件间的相似度sim(eventi,eventj);
采用中文口哨算法对事件词典ED的所有事件进行聚类,以得到不同的事件簇;
聚类完成后,得到事件簇EC={ec1,ec2,…,ecx},每个簇eci均包含了语义高度相似的事件,i为该簇的簇号。
优选地,所述采用中文口哨算法对事件词典ED的所有事件进行聚类,以得到不同的事件簇的具体步骤包括:
构建事件图G=(Vertex,Edge),其中,Vertext表示图的顶点集合,Edge表示图的边集合,初始时每个事件为一个结点且独成一簇,即Vertex=ED={event1,event2,…,eventm},而Edge={},即图中没有边存在;
依次扫描每个事件结点eventi,为每个事件结点找到不相连的且相似度最高的事件结点eventj,将它们聚在一个簇中,若存在多个相似度最高的结点,则随机选择一个;
重复上述扫描步骤,直至满足收敛条件为止,收敛条件按事件相似度阈值设置。
优选地,所述对聚类后得到的每个事件簇,计算其出现频率和倒排文档频率,以提取特征事件的具体步骤包括:
扫描新闻数据集D的所有事件集合DE,统计每个事件簇eci的出现频率ecf;
扫描每篇新闻的事件集合de,计算每个事件簇eci的倒排文档频率idf;
计算每个事件簇eci的出现频率和倒排文档频率乘积ecf*idf,并用于表示每个事件簇eci的特征显著性;
按事件簇的特征显著性由大到小排序,提取前K个最大特征值,构建特征事件词典FED={fed1,fed2,…,fedk},fedi为第i个特征显著的事件簇,i=1,2,…,K。
优选地,所述根据特征事件为每篇新闻文档构建其特征向量的具体步骤包括:
依次扫描特征事件词典FED中的每个事件簇fedi,统计该事件簇在每篇新闻d的出现频率edfi
依次扫描特征事件词典FED中的每个事件簇fedi,计算文档在每个特征维度的特征值fdi=ecfi*idfi*edfi,即事件簇显著特征ecfi*idfi与事件簇文档特征edfi的乘积;
扫描完特征事件词典后,可得文档特征向量fd=[fd1,fd2,…,fdk]。
本发明提供的针对突发事件新闻的文本分类方法具有以下有益效果:
1)本发明采用原子事件为基本特征,比传统词具有更强的语义表征能力和类别区分度;
2)本发明引入词向量的组合语义来表示原子事件并采用无参聚类算法生成事件簇,避免了事件语义相近但表现形式不同而带来的稀疏问题;
3)本发明在传统的TF.IDF算法上进行改进,引入事件的语料出现频率、文档倒排频率和事件的文档出现频率,以生成更具区分度的文档向量。
附图说明
为了更清楚地说明本发明实施例及其设计方案,下面将对本实施例所需的附图作简单地介绍。下面描述中的附图仅仅是本发明的部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1的针对突发事件新闻的文本分类方法的流程图。
具体实施方式
为了使本领域技术人员更好的理解本发明的技术方案并能予以实施,下面结合附图和具体实施例对本发明进行详细说明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
本发明提供了一种针对突发事件新闻的文本分类方法,在新浪网上采集专题文档(包括“今年第9号台风威马逊来袭”专题92篇、“台湾客机迫降重摔起火”专题102篇、“杭州发生公交车纵火案”54篇、“云南发生地震”117篇等),并以此作为验证本发明提供的方法有效性的训练和测试语料。在该数据集上的实施例表明该方法分类简单准确,以原子事件为基本特征对突发事件新闻有更强的类别区分度,具体如图1所示,包括如下步骤:
S1、从新浪网采集新闻文档数据,进行数据清洗后,利用自然语言处理工具对所述新闻语料中的每篇文档进行分词、依存分析和指代消解等预处理操作;新闻文档集合记作新闻数据集D={d1,d2,…,dn},其中di表示第i篇新闻文档,n表示文档集合中的新闻总数;本实例选用斯坦福大学公开的自然语言处理工具包Stanford CoreNLP;
S1的具体步骤包括:对爬取的专题文档完成对新闻文档的数据清洗,如全角转半角、去除冗余URL等非中文符号,并利用现有的自然语言处理工具包Stanford CoreNLP对每篇文档进行预处理,如分词、依存分析和指代消解等操作,得到文档D。
S2、将预处理后的文档D加入到背景语料,如***语料,利用词嵌入算法训练后学习词的分布式表示;常见的词嵌入算法包括Word2Vec,Glove等,本实例选用Word2Vec作为词嵌入算法。
S3、对新闻数据集D中的每篇新闻d进行事件抽取,所对应的事件采用主谓宾结构的三元组原子事件表示,并构造事件词典,具体步骤为:
S31、扫描每篇新闻d依存分析结果中类型为“nsubj”和“dobj”的依存分析关系,得到二元依存关系集合ea,这些二元关系可用于表示事件论元关系;
S32、依次扫描上述二元依存关系集合ea,若两个事件论元关系的谓词相同,则合并为一个候选事件;例,给定语句“气象台今日6时发布台风预警”,由两个依存关系“nsubj(发布,气象台)”和“dobj(发布,预警)”可得到事件“气象台,发布,预警”;
S33、将上述事件论元关系集合ea中剩余的每一个未合并二元依存关系也分别表示为一个候选事件;
S34、由所有候选事件得到每篇新闻的事件集合de,即每个文档由多个事件组成;
S35、重复上述四步S31、S32、S33和S34,当新闻文档集合D中所有文档中的事件抽取完成后,即可得到文档集合D的所有事件集合DE;
S36、扫描事件集合DE,构建事件词典ED={event1,event2,…,eventm},eventi表示第i类事件,m表示词典大小即事件类别数,所有论元均相同的事件为同一类别。
S4、采用无参聚类方法对事件词典ED中的所有事件进行聚类,常见的无参聚类方法有中文口哨方法、DBSCAN和层次聚类等,本实例选用中文口哨方法,其实现步骤如下:
S41、每个事件event的分布式表示与事件的各个论元有关,故采用组合语义的方式计算得到每个事件event的分布式表示。常见的组合方式有串接、加法和乘法等,本实例采用乘法运算的方式。具体地,事件的分布式表示计算方法为:
Figure BDA0003044782430000071
其中subj、pred和obj分别代表事件event的主语、谓语和宾语,
Figure BDA0003044782430000072
表示克罗内克积运算,·表示点乘运算;
S42、采用余弦相似度来计算每一对事件间的相似度sim(eventi,eventj);
S43、采用中文口哨算法对事件词典ED的所有事件进行聚类,以得到不同的事件簇,具体步骤如下:
S431、构建事件图G=(Vertex,Edge),初始时每个事件为一个结点且独成一簇,即Vertex=ED={event1,event2,…,eventm},而Edge={},即图中没有边存在;
S432、依次扫描每个事件结点eventi,为每个事件结点找到不相连的且相似度最高的事件结点eventj,将它们聚在一个簇中(即添加一条边),若存在多个相似度最高的结点,则随机选择一个;
S433、重复S432,直至满足收敛条件为止,收敛条件按事件相似度阈值设置(本实例选择的阈值为sim(eventi,eventj)>0.6)。
S44、聚类完成后,得到事件簇EC={ec1,ec2,…,ecx},每个簇eci均包含了语义高度相似的事件,i为该簇的簇号。例如,“人,受伤,nil”、“人,重伤,nil”、“nil,受伤,人”等事件被聚在同一个簇。
S5、对聚类后的每个事件簇eci,计算其出现频率和倒排文档频率,以提取特征事件,其实现步骤如下:
S51、扫描文档集合D的所有事件集合DE,统计每个事件簇eci的出现频率ecf;
S52、扫描每篇新闻的事件集合de,计算每个事件簇eci的倒排文档频率idf;
S53、计算每个事件簇eci的出现频率和倒排文档频率乘积ecf*idf,并用于表示每个事件簇eci的特征显著性;
S54、按事件簇的特征显著性由大到小排序,提取前K个(特征个数K的个数可以根据不同的实施例来设置,本实例中K值设置为20)最大特征值,构建特征事件词典FED={fed1,fed2,…,fedk},fedi为第i个特征显著的事件簇,i=1,2,…,K。具体实施例中,出现在多篇新闻文档且频次较高的事件簇被提取为特征事件,如“人,受伤,nil”、“云南,发生,地震”和“飞机,迫降,nil”等。
S6、为每篇新闻文档d构建其特征向量fd,具体步骤为:
S61、依次扫描特征事件词典FED中的每个事件簇fedi,统计该事件簇在每篇新闻d的出现频率edfi
S62、依次扫描特征事件词典FED中的每个事件簇fedi,计算文档在每个特征维度的特征值fdi=ecfi*idfi*edfi,即事件簇显著特征ecfi*idfi与事件簇文档特征edfi的乘积;
S63、在特征事件词典扫描完成后,可得文档特征向量fd=[fd1,fd2,…,fdk]。
S7、采用支持向量机SVM分类算法即可完成对新闻文档的分类。在本实施例的新闻数据集上进行十折交叉验证,常见的以“词”为特征的方法Accuracy值为0.83,本发明以“事件”为特征,Accuracy值达到0.89,效果更优。
本发明针对突发事件新闻的文本分类,采用原子事件为基本特征,通过对原子事件进行聚类和统计分析抽取显著特征事件,并以这些特征事件来表征新闻文档向量;引入词向量的组合语义来表示原子事件并采用无参聚类算法生成事件簇,避免了事件语义相近但表现形式不同而带来的稀疏问题;在传统的TF.IDF算法上进行改进,引入事件的语料出现频率、文档倒排频率和事件的文档出现频率构造特征事件词典,以生成更具区分度的文档向量。原子事件包含了词间的语义信息,比传统词具有更强的语义表征能力,克服了传统的基于词汇特征的分类方法因类别区分度差而造成的准确率不高的问题。
以上所述实施例仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换,均属于本发明的保护范围。

Claims (7)

1.一种针对突发事件新闻的文本分类方法,其特征在于,包括以下步骤:
从网上收集新闻文档,完成数据清洗,并利用自然语言处理工具对所述新闻文档中的每篇文档进行分词、依存分析和指代消解的预处理操作,得到新闻数据集D;
将预处理后的新闻数据集D加入到背景语料,利用Word2Vec训练后学习词的分布式表示;
对新闻数据集D中的每篇新闻d进行事件抽取,并构造事件词典;
采用无参聚类的中文口哨方法对事件词典中的所有事件进行聚类以得到事件簇;
对聚类后得到的每个事件簇,计算其出现频率和倒排文档频率,以提取特征事件;
根据特征事件为每篇新闻文档构建其特征向量;
采用支持向量机的分类算法完成对新闻文档的分类。
2.根据权利要求1所述的针对突发事件新闻的文本分类方法,其特征在于,利用现有的自然语言处理工具包,完成对新闻文档的数据清洗。
3.根据权利要求1所述的针对突发事件新闻的文本分类方法,其特征在于,所述对新闻数据集D中的每篇新闻d进行事件抽取,并构造事件词典的具体步骤包括:
扫描每篇新闻d依存分析结果中类型为“nsubj”和“dobj”的依存分析关系,得到二元依存关系集合ea,二元关系用于表示事件论元关系;
依次扫描上述二元依存关系集合ea,若两个事件论元关系的谓词相同,则合并为一个候选事件;
将上述二元论元关系集合ea中剩余的每一个未合并二元依存关系也分别表示为一个候选事件;
由所有候选事件得到每篇新闻的事件集合de,即每个文档由多个事件组成;
重复上述四步,当新闻数据集D中所有文档中的事件抽取完成后,即可得到新闻数据集D的所有事件集合DE;
扫描事件集合DE,构建事件词典
ED={event1,event2,…,eventm},eventi表示第i类事件,m表示词典大小即事件类别数,所有论元均相同的事件为同一类别。
4.根据权利要求3所述的针对突发事件新闻的文本分类方法,其特征在于,所述采用无参聚类的中文口哨方法对事件词典中的所有事件进行聚类以得到事件簇的具体步骤包括:
采用组合语义的方式计算得到每个事件event的分布式表示:
Figure FDA0003044782420000021
其中subj、pred和obj分别代表事件event的主语、谓语和宾语,
Figure FDA0003044782420000022
表示克罗内克积运算,·表示点乘运算;
采用余弦相似度来计算每一对事件间的相似度sim(eventi,eventj);
采用中文口哨算法对事件词典ED的所有事件进行聚类,以得到不同的事件簇;
聚类完成后,得到事件簇EC={ec1,ec2,…,ecx},每个簇eci均包含了语义高度相似的事件,i为该簇的簇号。
5.根据权利要求4所述的针对突发事件新闻的文本分类方法,其特征在于,所述采用中文口哨算法对事件词典ED的所有事件进行聚类,以得到不同的事件簇的具体步骤包括:
构建事件图G=(Vertex,Edge),其中,Vertext表示图的顶点集合,Edge表示图的边集合,初始时每个事件为一个结点且独成一簇,即Vertex=ED={event1,event2,…,eventm},而Edge={},即图中没有边存在;
依次扫描每个事件结点eventi,为每个事件结点找到不相连的且相似度最高的事件结点eventj,将它们聚在一个簇中,若存在多个相似度最高的结点,则随机选择一个;
重复上述扫描步骤,直至满足收敛条件为止,收敛条件按事件相似度阈值设置。
6.根据权利要求5所述的针对突发事件新闻的文本分类方法,其特征在于,所述对聚类后得到的每个事件簇,计算其出现频率和倒排文档频率,以提取特征事件的具体步骤包括:
扫描新闻数据集D的所有事件集合DE,统计每个事件簇eci的出现频率ecf;
扫描每篇新闻的事件集合de,计算每个事件簇eci的倒排文档频率idf;
计算每个事件簇eci的出现频率和倒排文档频率乘积ecf*idf,并用于表示每个事件簇eci的特征显著性;
按事件簇的特征显著性由大到小排序,提取前K个最大特征值,构建特征事件词典FED={fed1,fed2,…,fedk},fedi为第i个特征显著的事件簇,i=1,2,…,K。
7.根据权利要求6所述的针对突发事件新闻的文本分类方法,其特征在于,所述根据特征事件为每篇新闻文档构建其特征向量的具体步骤包括:
依次扫描特征事件词典FED中的每个事件簇fedi,统计该事件簇在每篇新闻d的出现频率edfi
依次扫描特征事件词典FED中的每个事件簇fedi,计算文档在每个特征维度的特征值fdi=ecfi*idfi*edfi,即事件簇显著特征ecfi*idfi与事件簇文档特征edfi的乘积;
扫描完特征事件词典后,可得文档特征向量fd=[fd1,fd2,…,fdk]。
CN202110467773.0A 2021-04-28 2021-04-28 一种针对突发事件新闻的文本分类方法 Active CN113515624B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110467773.0A CN113515624B (zh) 2021-04-28 2021-04-28 一种针对突发事件新闻的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110467773.0A CN113515624B (zh) 2021-04-28 2021-04-28 一种针对突发事件新闻的文本分类方法

Publications (2)

Publication Number Publication Date
CN113515624A true CN113515624A (zh) 2021-10-19
CN113515624B CN113515624B (zh) 2023-07-21

Family

ID=78063717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110467773.0A Active CN113515624B (zh) 2021-04-28 2021-04-28 一种针对突发事件新闻的文本分类方法

Country Status (1)

Country Link
CN (1) CN113515624B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722194A (zh) * 2022-03-15 2022-07-08 电子科技大学 一种基于摘要生成算法的突发事件时间序列自动构建方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN107145568A (zh) * 2017-05-04 2017-09-08 成都华栖云科技有限公司 一种快速的新闻事件聚类***及方法
CN108197112A (zh) * 2018-01-19 2018-06-22 成都睿码科技有限责任公司 一种从新闻中提取事件的方法
CN108932311A (zh) * 2018-06-20 2018-12-04 天津大学 突发事件检测与预测的方法
CN109033200A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 事件抽取的方法、装置、设备及计算机可读介质
CN109299266A (zh) * 2018-10-16 2019-02-01 中国搜索信息科技股份有限公司 一种用于中文新闻突发事件的文本分类与抽取方法
CN110134757A (zh) * 2019-04-19 2019-08-16 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
CN110232149A (zh) * 2019-05-09 2019-09-13 北京邮电大学 一种热点事件检测方法和***
CN110399478A (zh) * 2018-04-19 2019-11-01 清华大学 事件发现方法和装置
CN111274790A (zh) * 2020-02-13 2020-06-12 东南大学 基于句法依存图的篇章级事件嵌入方法及装置
CN112463952A (zh) * 2020-12-22 2021-03-09 安徽商信政通信息技术股份有限公司 一种基于近邻搜索的新闻文本聚合方法及***

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN107145568A (zh) * 2017-05-04 2017-09-08 成都华栖云科技有限公司 一种快速的新闻事件聚类***及方法
CN108197112A (zh) * 2018-01-19 2018-06-22 成都睿码科技有限责任公司 一种从新闻中提取事件的方法
CN110399478A (zh) * 2018-04-19 2019-11-01 清华大学 事件发现方法和装置
CN108932311A (zh) * 2018-06-20 2018-12-04 天津大学 突发事件检测与预测的方法
CN109033200A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 事件抽取的方法、装置、设备及计算机可读介质
CN109299266A (zh) * 2018-10-16 2019-02-01 中国搜索信息科技股份有限公司 一种用于中文新闻突发事件的文本分类与抽取方法
CN110134757A (zh) * 2019-04-19 2019-08-16 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
CN110232149A (zh) * 2019-05-09 2019-09-13 北京邮电大学 一种热点事件检测方法和***
CN111274790A (zh) * 2020-02-13 2020-06-12 东南大学 基于句法依存图的篇章级事件嵌入方法及装置
CN112463952A (zh) * 2020-12-22 2021-03-09 安徽商信政通信息技术股份有限公司 一种基于近邻搜索的新闻文本聚合方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FAIK KEREM ORS等: "Event Clustering within News Articles", pages 63 - 68 *
谢红等: "面向中文新闻语料的事件规范化研究", vol. 17, no. 20, pages 139 - 140 *
赵海林: "基于用户行为的推特事件检测方法研究", vol. 2018, no. 09, pages 140 - 137 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722194A (zh) * 2022-03-15 2022-07-08 电子科技大学 一种基于摘要生成算法的突发事件时间序列自动构建方法
CN114722194B (zh) * 2022-03-15 2023-05-09 电子科技大学 一种基于摘要生成算法的突发事件时间序列自动构建方法

Also Published As

Publication number Publication date
CN113515624B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
Di Capua et al. Unsupervised cyber bullying detection in social networks
Xiao et al. Real-time identification of urban rainstorm waterlogging disasters based on Weibo big data
Ghosh et al. Class specific TF-IDF boosting for short-text classification: Application to short-texts generated during disasters
Deshwal et al. Twitter sentiment analysis using various classification algorithms
CN103678670B (zh) 一种微博热词与热点话题挖掘***及方法
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN105912576A (zh) 情感分类方法及***
Li et al. An empirical study of ontology-based multi-document summarization in disaster management
Tixier et al. Gowvis: a web application for graph-of-words-based text visualization and summarization
Sadr et al. Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms
CN111581952A (zh) 一种用于自然语言信息隐藏的大规模可替换词词库构建方法
CN102662987B (zh) 一种基于百度百科的网络文本语义的分类方法
CN109359299A (zh) 一种基于商品数据的物联网设备能力本体自构建方法
JP2015007920A (ja) テキスト処理を用いた社会構造モデルの抽出
CN113761192B (zh) 文本处理方法、文本处理装置及文本处理设备
Asinthara et al. Categorizing disaster tweets using learning based models for emergency crisis management
CN113515624B (zh) 一种针对突发事件新闻的文本分类方法
Hadi et al. Performance of NB and SVM classifiers in Islamic Arabic data
Indarapu et al. Comparative analysis of machine learning algorithms to detect fake news
Yeh et al. Ontology construction based on latent topic extraction in a digital library
Villegas et al. Vector-based word representations for sentiment analysis: a comparative study
CN110413985B (zh) 一种相关文本片段搜索方法及装置
Sohail et al. Text classification in an under-resourced language via lexical normalization and feature pooling
Li et al. Identification of public opinion on COVID-19 in microblogs
Lim et al. ClaimFinder: A Framework for Identifying Claims in Microblogs.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant