CN113515624A

CN113515624A - 一种针对突发事件新闻的文本分类方法

Info

Publication number: CN113515624A
Application number: CN202110467773.0A
Authority: CN
Inventors: 孙锐; 谢红
Original assignee: Leshan Normal University
Current assignee: Leshan Normal University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-10-19
Anticipated expiration: 2041-04-28
Also published as: CN113515624B

Abstract

本发明提供了一种针对突发事件新闻的文本分类方法，属于自然语言处理领域，包括：收集新闻文档，完成数据清洗，及文档的分词、依存分析和指代消解等预处理操作，得到新闻数据集D；将新闻数据集D加入到背景语料，利用Word2Vec训练后学习词的分布式表示；对新闻数据集D中的每篇新闻d进行事件抽取并构造事件词典；采用无参聚类的中文口哨方法对事件词典中的所有事件进行聚类以得到事件簇；对聚类后得到的每个事件簇，计算其出现频率和倒排文档频率，以提取特征事件；根据特征事件为每篇新闻文档构建其特征向量；采用支持向量机的分类算法完成对新闻文档的分类。该方法语义表征能力和类别区分度强。

Description

一种针对突发事件新闻的文本分类方法

技术领域

本发明属于自然语言处理领域，具体涉及一种针对突发事件新闻的文本分类方法。

背景技术

突发事件，是指突然发生，造成或者可能造成严重社会危害，需要采取应急处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全事件。事件发生后，相关的新闻报道快速在网络上进行传播，大多会成为政府部门以及民众关注的焦点。利用文本分类技术快速地将对新闻按主题进行分类，以便民众对事件发生的原因、过程和后续影响进行了解分析，也能为相关部门控制、减轻和消除突发事件引起的严重社会危害同时进行辅助性决策提供便利。

突发事件发生或演变的过程中，往往会伴随或衍生出很多子事件。例如，“台风威马逊来袭”事件的发生一般也发生“气象台发布预警”、“人员受伤”、“通讯中断”和“人员转移”等事件，而“云南发生地震”事件的发生一般则会发生“云南地震”、“人死亡”、“房屋倒塌”和“民政局报告”等事件。通过对一些具备显著特征的事件进行分析，就很容易地新闻按不同的突发事件主题进行分类。

在自然语言处理领域，事件一般是指一个动作的发生或状态的变化，由触发词和一个或多个论元组成。事件本身就包含了词间的语义关系，具有比传统词袋模型更强的语义表征能力，从而具备更好的类别区分度。因此，针对突发事件新闻，采用事件作为特征进行文本分类应当更简单有效。

随着IT技术的深入应用，突发事件发生后，网络上会出现大量相关的新闻报道，大多数新闻文本都会成为政府部门以及民众关注的焦点。利用文本分类技术快速地将对新闻按主题进行分类，以便民众对事件发生的原因、过程和后续影响进行了解分析，也能为相关部门控制、减轻和消除突发事件引起的严重社会危害同时进行辅助性决策提供便利。现有技术主要采用基本词袋的分类模型，即采用词汇特征来表征文档。这类技术忽略了词间的语义关系，语义表征能力较弱。

因此，本申请提出一种针对突发事件新闻的文本分类方法。

发明内容

为了克服上述现有技术存在的不足，本发明提供了一种针对突发事件新闻的文本分类方法。

为了实现上述目的，本发明提供如下技术方案：

一种针对突发事件新闻的文本分类方法，包括以下步骤：

包括以下步骤：

从网上收集新闻文档，完成数据清洗，并利用自然语言处理工具对所述新闻文档中的每篇文档进行分词、依存分析和指代消解的预处理操作，得到新闻数据集D；

将预处理后的新闻数据集D加入到背景语料，利用Word2Vec训练后学习词的分布式表示；

对新闻数据集D中的每篇新闻d进行事件抽取，并构造事件词典；

采用无参聚类的中文口哨方法对事件词典中的所有事件进行聚类以得到事件簇；

对聚类后得到的每个事件簇，计算其出现频率和倒排文档频率，以提取特征事件；

根据特征事件为每篇新闻文档构建其特征向量；

采用支持向量机的分类算法完成对新闻文档的分类。

优选地，利用现有的自然语言处理工具包，完成对新闻文档的数据清洗。

优选地，所述对新闻数据集D中的每篇新闻d进行事件抽取，并构造事件词典的具体步骤包括：

扫描每篇新闻d依存分析结果中类型为“nsubj”和“dobj”的依存分析关系，得到二元依存关系集合ea，二元关系用于表示事件论元关系；

依次扫描上述二元依存关系集合ea，若两个事件论元关系的谓词相同，则合并为一个候选事件；

将上述二元论元关系集合ea中剩余的每一个未合并二元依存关系也分别表示为一个候选事件；

由所有候选事件得到每篇新闻的事件集合de，即每个文档由多个事件组成；

重复上述四步，当新闻数据集D中所有文档中的事件抽取完成后，即可得到新闻数据集D的所有事件集合DE；

扫描事件集合DE，构建事件词典

ED＝{event₁,event₂,…,event_m},event_i表示第i类事件，m表示词典大小即事件类别数，所有论元均相同的事件为同一类别。

优选地，所述采用无参聚类的中文口哨方法对事件词典中的所有事件进行聚类以得到事件簇的具体步骤包括：

采用组合语义的方式计算得到每个事件event的分布式表示：

其中subj、pred和obj分别代表事件event的主语、谓语和宾语，

表示克罗内克积运算，·表示点乘运算；

采用余弦相似度来计算每一对事件间的相似度sim(event_i,event_j)；

采用中文口哨算法对事件词典ED的所有事件进行聚类，以得到不同的事件簇；

聚类完成后，得到事件簇EC＝{ec₁,ec₂,…,ec_x}，每个簇ec_i均包含了语义高度相似的事件，i为该簇的簇号。

优选地，所述采用中文口哨算法对事件词典ED的所有事件进行聚类，以得到不同的事件簇的具体步骤包括：

构建事件图G＝(Vertex,Edge)，其中，Vertext表示图的顶点集合，Edge表示图的边集合，初始时每个事件为一个结点且独成一簇,即Vertex＝ED＝{event1,event2,…,event_m},而Edge＝{}，即图中没有边存在；

依次扫描每个事件结点event_i，为每个事件结点找到不相连的且相似度最高的事件结点event_j，将它们聚在一个簇中，若存在多个相似度最高的结点，则随机选择一个；

重复上述扫描步骤，直至满足收敛条件为止，收敛条件按事件相似度阈值设置。

优选地，所述对聚类后得到的每个事件簇，计算其出现频率和倒排文档频率，以提取特征事件的具体步骤包括：

扫描新闻数据集D的所有事件集合DE，统计每个事件簇ec_i的出现频率ecf；

扫描每篇新闻的事件集合de，计算每个事件簇ec_i的倒排文档频率idf；

计算每个事件簇ec_i的出现频率和倒排文档频率乘积ecf*idf,并用于表示每个事件簇ec_i的特征显著性；

按事件簇的特征显著性由大到小排序，提取前K个最大特征值，构建特征事件词典FED＝{fed₁,fed₂,…,fed_k},fed_i为第i个特征显著的事件簇,i＝1,2,…,K。

优选地，所述根据特征事件为每篇新闻文档构建其特征向量的具体步骤包括：

依次扫描特征事件词典FED中的每个事件簇fed_i，统计该事件簇在每篇新闻d的出现频率edf_i；

依次扫描特征事件词典FED中的每个事件簇fed_i，计算文档在每个特征维度的特征值fd_i＝ecf_i*idf_i*edf_i,即事件簇显著特征ecf_i*idf_i与事件簇文档特征edf_i的乘积；

扫描完特征事件词典后，可得文档特征向量fd＝[fd₁,fd₂,…,fd_k]。

本发明提供的针对突发事件新闻的文本分类方法具有以下有益效果：

1)本发明采用原子事件为基本特征，比传统词具有更强的语义表征能力和类别区分度；

2)本发明引入词向量的组合语义来表示原子事件并采用无参聚类算法生成事件簇，避免了事件语义相近但表现形式不同而带来的稀疏问题；

3)本发明在传统的TF.IDF算法上进行改进，引入事件的语料出现频率、文档倒排频率和事件的文档出现频率，以生成更具区分度的文档向量。

附图说明

为了更清楚地说明本发明实施例及其设计方案，下面将对本实施例所需的附图作简单地介绍。下面描述中的附图仅仅是本发明的部分实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1的针对突发事件新闻的文本分类方法的流程图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方案并能予以实施，下面结合附图和具体实施例对本发明进行详细说明。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

本发明提供了一种针对突发事件新闻的文本分类方法，在新浪网上采集专题文档(包括“今年第9号台风威马逊来袭”专题92篇、“台湾客机迫降重摔起火”专题102篇、“杭州发生公交车纵火案”54篇、“云南发生地震”117篇等)，并以此作为验证本发明提供的方法有效性的训练和测试语料。在该数据集上的实施例表明该方法分类简单准确，以原子事件为基本特征对突发事件新闻有更强的类别区分度，具体如图1所示，包括如下步骤：

S1、从新浪网采集新闻文档数据，进行数据清洗后，利用自然语言处理工具对所述新闻语料中的每篇文档进行分词、依存分析和指代消解等预处理操作；新闻文档集合记作新闻数据集D＝{d₁,d₂,…,d_n},其中d_i表示第i篇新闻文档，n表示文档集合中的新闻总数；本实例选用斯坦福大学公开的自然语言处理工具包Stanford CoreNLP；

S1的具体步骤包括：对爬取的专题文档完成对新闻文档的数据清洗，如全角转半角、去除冗余URL等非中文符号，并利用现有的自然语言处理工具包Stanford CoreNLP对每篇文档进行预处理，如分词、依存分析和指代消解等操作，得到文档D。

S2、将预处理后的文档D加入到背景语料，如***语料，利用词嵌入算法训练后学习词的分布式表示；常见的词嵌入算法包括Word2Vec,Glove等，本实例选用Word2Vec作为词嵌入算法。

S3、对新闻数据集D中的每篇新闻d进行事件抽取，所对应的事件采用主谓宾结构的三元组原子事件表示，并构造事件词典，具体步骤为：

S31、扫描每篇新闻d依存分析结果中类型为“nsubj”和“dobj”的依存分析关系，得到二元依存关系集合ea，这些二元关系可用于表示事件论元关系；

S32、依次扫描上述二元依存关系集合ea，若两个事件论元关系的谓词相同，则合并为一个候选事件；例，给定语句“气象台今日6时发布台风预警”，由两个依存关系“nsubj(发布，气象台)”和“dobj(发布，预警)”可得到事件“气象台，发布，预警”；

S33、将上述事件论元关系集合ea中剩余的每一个未合并二元依存关系也分别表示为一个候选事件；

S34、由所有候选事件得到每篇新闻的事件集合de，即每个文档由多个事件组成；

S35、重复上述四步S31、S32、S33和S34，当新闻文档集合D中所有文档中的事件抽取完成后，即可得到文档集合D的所有事件集合DE；

S36、扫描事件集合DE，构建事件词典ED＝{event1,event2,…,event_m},event_i表示第i类事件，m表示词典大小即事件类别数，所有论元均相同的事件为同一类别。

S4、采用无参聚类方法对事件词典ED中的所有事件进行聚类，常见的无参聚类方法有中文口哨方法、DBSCAN和层次聚类等，本实例选用中文口哨方法，其实现步骤如下：

S41、每个事件event的分布式表示与事件的各个论元有关，故采用组合语义的方式计算得到每个事件event的分布式表示。常见的组合方式有串接、加法和乘法等，本实例采用乘法运算的方式。具体地，事件的分布式表示计算方法为：

其中subj、pred和obj分别代表事件event的主语、谓语和宾语，

表示克罗内克积运算，·表示点乘运算；

S42、采用余弦相似度来计算每一对事件间的相似度sim(event_i,event_j)；

S43、采用中文口哨算法对事件词典ED的所有事件进行聚类，以得到不同的事件簇，具体步骤如下：

S431、构建事件图G＝(Vertex,Edge)，初始时每个事件为一个结点且独成一簇,即Vertex＝ED＝{event1,event2,…,event_m},而Edge＝{}，即图中没有边存在；

S432、依次扫描每个事件结点event_i，为每个事件结点找到不相连的且相似度最高的事件结点event_j，将它们聚在一个簇中(即添加一条边)，若存在多个相似度最高的结点，则随机选择一个；

S433、重复S432，直至满足收敛条件为止，收敛条件按事件相似度阈值设置(本实例选择的阈值为sim(event_i,event_j)＞0.6)。

S44、聚类完成后，得到事件簇EC＝{ec₁,ec₂,…,ec_x}，每个簇ec_i均包含了语义高度相似的事件，i为该簇的簇号。例如，“人，受伤，nil”、“人，重伤，nil”、“nil，受伤，人”等事件被聚在同一个簇。

S5、对聚类后的每个事件簇ec_i，计算其出现频率和倒排文档频率，以提取特征事件，其实现步骤如下：

S51、扫描文档集合D的所有事件集合DE，统计每个事件簇ec_i的出现频率ecf；

S52、扫描每篇新闻的事件集合de，计算每个事件簇ec_i的倒排文档频率idf；

S53、计算每个事件簇ec_i的出现频率和倒排文档频率乘积ecf*idf,并用于表示每个事件簇ec_i的特征显著性；

S54、按事件簇的特征显著性由大到小排序，提取前K个(特征个数K的个数可以根据不同的实施例来设置，本实例中K值设置为20)最大特征值，构建特征事件词典FED＝{fed₁,fed₂,…,fed_k},fed_i为第i个特征显著的事件簇,i＝1,2,…,K。具体实施例中，出现在多篇新闻文档且频次较高的事件簇被提取为特征事件，如“人，受伤，nil”、“云南，发生，地震”和“飞机，迫降，nil”等。

S6、为每篇新闻文档d构建其特征向量fd,具体步骤为：

S61、依次扫描特征事件词典FED中的每个事件簇fed_i，统计该事件簇在每篇新闻d的出现频率edf_i；

S62、依次扫描特征事件词典FED中的每个事件簇fed_i，计算文档在每个特征维度的特征值fd_i＝ecf_i*idf_i*edf_i,即事件簇显著特征ecf_i*idf_i与事件簇文档特征edf_i的乘积；

S63、在特征事件词典扫描完成后，可得文档特征向量fd＝[fd₁,fd₂,…,fd_k]。

S7、采用支持向量机SVM分类算法即可完成对新闻文档的分类。在本实施例的新闻数据集上进行十折交叉验证，常见的以“词”为特征的方法Accuracy值为0.83，本发明以“事件”为特征，Accuracy值达到0.89，效果更优。

本发明针对突发事件新闻的文本分类，采用原子事件为基本特征，通过对原子事件进行聚类和统计分析抽取显著特征事件，并以这些特征事件来表征新闻文档向量；引入词向量的组合语义来表示原子事件并采用无参聚类算法生成事件簇，避免了事件语义相近但表现形式不同而带来的稀疏问题；在传统的TF.IDF算法上进行改进，引入事件的语料出现频率、文档倒排频率和事件的文档出现频率构造特征事件词典，以生成更具区分度的文档向量。原子事件包含了词间的语义信息，比传统词具有更强的语义表征能力，克服了传统的基于词汇特征的分类方法因类别区分度差而造成的准确率不高的问题。

以上所述实施例仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换，均属于本发明的保护范围。

Claims

1.一种针对突发事件新闻的文本分类方法，其特征在于，包括以下步骤：

根据特征事件为每篇新闻文档构建其特征向量；

采用支持向量机的分类算法完成对新闻文档的分类。

2.根据权利要求1所述的针对突发事件新闻的文本分类方法，其特征在于，利用现有的自然语言处理工具包，完成对新闻文档的数据清洗。

3.根据权利要求1所述的针对突发事件新闻的文本分类方法，其特征在于，所述对新闻数据集D中的每篇新闻d进行事件抽取，并构造事件词典的具体步骤包括：

扫描事件集合DE，构建事件词典

4.根据权利要求3所述的针对突发事件新闻的文本分类方法，其特征在于，所述采用无参聚类的中文口哨方法对事件词典中的所有事件进行聚类以得到事件簇的具体步骤包括：

采用组合语义的方式计算得到每个事件event的分布式表示：

其中subj、pred和obj分别代表事件event的主语、谓语和宾语，

表示克罗内克积运算，·表示点乘运算；

5.根据权利要求4所述的针对突发事件新闻的文本分类方法，其特征在于，所述采用中文口哨算法对事件词典ED的所有事件进行聚类，以得到不同的事件簇的具体步骤包括：

6.根据权利要求5所述的针对突发事件新闻的文本分类方法，其特征在于，所述对聚类后得到的每个事件簇，计算其出现频率和倒排文档频率，以提取特征事件的具体步骤包括：

7.根据权利要求6所述的针对突发事件新闻的文本分类方法，其特征在于，所述根据特征事件为每篇新闻文档构建其特征向量的具体步骤包括：