CN104731768B

CN104731768B - 一种面向中文新闻文本的事件地点抽取方法

Info

Publication number: CN104731768B
Application number: CN201510097822.0A
Authority: CN
Inventors: 何绯娟; 孙霞; 缪相林
Original assignee: Xian Jiaotong University City College
Current assignee: Xian Jiaotong University City College
Priority date: 2015-03-05
Filing date: 2015-03-05
Publication date: 2017-10-20
Anticipated expiration: 2035-03-05
Also published as: CN104731768A

Abstract

一种面向中文新闻文本的事件地点抽取方法，先利用ICTCLAS中文分词工具对中文新闻文本T进行分词，选择词性为机构名、处所名词、地名的词汇组成候选事件地点集合；再对于候选事件地点集合中的每个词汇，构建包含上下文特征、位置特征、拓扑特征的三维特征向量；最后利用所构建的三维特征向量，采用Random Forest分类器将候选事件地点集合中的每个词汇按照事件地点与非事件地点进行二值分类，从而实现事件地点的抽取。本发明能综合运用新闻文本中的多类特征，抽取上下文特征、位置特征、拓扑特征三个特征构成特征向量，利用Random Forest分类器从分词获取机构名、处所名词、地名中识别出事件地点；能够在地名识别的基础上，进一步识别出新闻事件发生的地点。

Description

一种面向中文新闻文本的事件地点抽取方法

技术领域

本发明涉及计算机科学与技术中的文本挖掘、自然语言处理、舆情分析领域，特别涉及一种面向中文新闻文本的事件地点抽取方法。

背景技术

新闻文本中，存在机构名、处所名词、地名等词汇或短语，但是它们并不一定是事件发生的地点。例如，在新闻文本中“2012年6月19日，在墨西哥洛斯卡沃斯召开的G20峰会期间，阿根廷总统克里斯蒂娜向英国首相卡梅伦递交有关马尔维纳斯群岛主权的函件”中，存在地名“墨西哥”、“洛斯卡沃斯”、“马尔维纳斯群岛”三个地名，但是“马尔维纳斯群岛”并不是事件发生的地点。如何从机构名、处所名词、地名中识别出事件地点是事件抽取中的一个难题。

关于面向中文新闻文本的事件地点抽取的专利。专利名称《一种地名识别方法和装置》公开号CN103186524A；该发明公开了一种地名识别方法和装置，用以进行地名识别。该发明方法包括：对待识别的字符串进行分词得到候选词；获取各候选词在地址名称库中的所属类别；对各候选词进行遍历，若当前候选词的所属类别为第一类别，则将当前候选词作为地名添加到候选地名集合；若当前候选词的所属类别为第二类别，则对当前候选词以及在所述地址名称库中与当前候选词临近的候选词进行组合得到合成词，并将所述合成词作为地名添加到候选地名集合。但是该专利只能识别文本中的地名，还不能识别出事件地点。

发明内容

为了克服上述现有技术的缺陷，本发明的目的在于提供一种面向中文新闻文本的事件地点抽取方法，该方法从新闻文本中抽取上下文特征、位置特征、拓扑特征三个特征构成特征向量，利用Random Forest分类器从分词获取机构名、处所名词、地名中识别出事件地点；能够在地名识别的基础上，进一步识别出新闻事件发生的地点。

为达到以上目的，本发明的技术方案为：

一种面向中文新闻文本的事件地点抽取方法，包括如下步骤：

步骤一：候选事件地点抽取

(1)首先，利用ICTCLAS中文分词工具对中文新闻文本T进行分词，生成一个由二元组构成的序列S_T＝(w₁，p₁)，(w₂，p₂),...，(w_i，p_i)，...，(w_n，p_n)，其中，n表示切分出的词汇的个数，n＞0，w_i表示ICTCLAS切分出的词汇，p_i表示w_i的词性；

(2)从S_T中依次选择所有满足p_i＝″ni″p_i＝″nl″、p_i＝″ns″三种情况之一的二元组，p_i＝″ni″p_i＝″nl″、p_i＝″ns″分别表示对应的w_i为机构名、处所名词、地名；所有被选中的二元组中的w_i构成一个集合W_T＝{w′₁，w′₂，...，w′_j，...，w′_m}，W_T将作为候选事件地点的集合，m表示W_T中词汇的个数，m＞0；

步骤二：特征向量构建

对于集合W_T中的每个w′_j，选择三个特征，包括：w′_j在新闻文本T中的上下文Context特征；w′_j在新闻文本T中的位置特征；w′_j在新闻文本T中的拓扑特征；三个特征的计算如下：

特征一：w′_j在新闻文本T中的上下文特征c_j

w′_j在新闻文本T中的上下文特征用w′_j所匹配的正则表达式的权重表示，记为c_j；

(1)若w′_j在新闻文本T中能够匹配下表中的某个正则表达式，假设为第k个，则c_j＝a_k；a_k表示“若词汇匹配第k个正则表达式，则该词汇是事件地点的比率”，a_k的计算公式为：a_k＝|L_k|/|S_k|，其中，S_k表示标注数据中能成功匹配第k个正则表达式的所有词汇的集合，L_k表示属于S_k且在标注数据中是事件地点的词汇构成的集合，标注数据是指人工标注了事件地点的新闻文本集；

(2)若w′_j在新闻文本T中能够匹配下表中的多个正则表达式，设为第k₁，k₂，...，k_l(l＞1)个正则表达式，则

(3)若w′_j在新闻文本T中不能匹配下表中的正则表达式，则c_j＝0。

特征二：w′_j在新闻文本T中的位置特征p_j

p_j＝loc(w′_j，T)，其中，loc(w′_j，T)表示词汇w′_j在新闻文本T中首次出现的位置，即从文本T起始处到词汇w′_j第一次出现位置之间的字数。

特征三：w′_j在新闻文本T中的拓扑特征t_j

初始化空集合E；对于任意二元组(w′_j，w′_j)∈W_T×W_T且，执行以下两个步骤：

STEP1：将字符串“http://www.baike.com/wiki/”与w′_j组成URL，下载该URL对应的页面；若下载不到，则不处理二元组(w′_j，w′_i)；

STEP2：利用正则表达式

/<a[^>]*？href＝[″’]？([^’″>]*)[’″]？[^>]*？>(.*？)</a>/ig匹配页面文件，获取所有锚文本；若锚文本中包含w′_i，则把E∪{(w′_j，w′_i)}的结果赋给E；

对于任意二元组(w′_j，w′_i)∈W_T×W_T且，执行上述两个步骤后，生成以W_T为结点集合，E为有向边集合的有向图G；

对任意w′_j∈W_T，计算其聚集系数C(w′_j)，聚集系数用于衡量不同结点之间连接的紧密程度；

上式中，G_Δ(w′_j)表示G中包含w′_j的闭三点组的数量，G_Δ(w′_j)为表示G中包含w′_j的开三点组的数量；闭三点组指图中任意两两相连的三个结点，开三点组指图中被两条边连接起来的三个结点；

令w′_j在新闻文本T中的拓扑特征t_j为C(w′_j)，即t_j＝C(w′_j)；

利用w′_j在新闻文本T中的上下文特征、位置特征、拓扑特征，构建w′_j的三维特征向量(c_j，p_j，t_j)。

步骤三：事件地点识别

选择100-200个特征向量，人工为每个特征向量标注一个类标签(事件地点与非事件地点)，形成一个训练数据集；采用Random Forest分类器训练一个分类器，利用该分类器将集合W_T中的每个w′_j按照事件地点与非事件地点进行二值分类，从而实现事件地点的抽取。

本发明能依据新闻文本中词汇的上下文特征、位置特征、拓扑特征，建立分类器，实现事件地点的自动抽取。

附图说明

附图1是面向中文新闻文本的事件地点抽取过程。

附图2是用于计算拓扑特征t_j的一个有向图实例。

具体实施方式

下面结合附图对本发明做详细叙述。

参照附图，该方法的具体实施方案可分为候选事件地点抽取、特征向量构建、事件地点识别三个步骤。具体描述如下：

步骤一：候选事件地点抽取

a)首先，利用ICTCLAS中文分词工具对中文新闻文本T进行分词，生成一个由二元组构成的序列S_T＝(w₁，p₁)，(w₂，p₂)，...，(w_i，p_i)，...，(w_n，p_n)，其中，n表示切分出的词汇的个数，n＞0，w_i表示ICTCLAS切分出的词汇，p_i表示w_i的词性；

b)从S_T中依次选择所有满足p_i＝″ni″、p_i＝″nl″、p_i＝″ns″三种情况之一的二元组，p_i＝″ni″、p_i＝″nl″、p_i＝″ns″分别表示对应的w_i为机构名、处所名词、地名；所有被选中的二元组中的w_i构成一个集合W_T＝{w′₁，w′₂，...，w′_j，...，w′_m}，W_T将作为候选事件地点的集合。

以新闻文本“2012年6月19日，在墨西哥洛斯卡沃斯召开的G20峰会期间，阿根廷总统克里斯蒂娜向英国首相卡梅伦递交有关马尔维纳斯群岛主权的函件”为例，经过上述步骤，可生成集合{墨西哥，洛斯卡沃斯，阿根廷，英国，马尔维纳斯群岛}。

步骤二：特征向量构建

对于集合W_T中的每个w′_j，选择三个特征，包括：w′_j在新闻文本T中的上下文(Context)特征；w′_j在新闻文本T中的位置特征；w′_j在新闻文本T中的拓扑特征；三个特征的计算如下：

特征一：w′_j在新闻文本T中的上下文(Context)特征c_j

w′_j在新闻文本T中的上下文特征用w′_j所匹配的正则表达式的权重表示，记为c_j：

a)若w′_j在新闻文本T中能够匹配下表中的某个正则表达式，假设为第k个，则c_j＝a_k；a_k表示“若词汇匹配第k个正则表达式，则该词汇是事件地点的比率”，a_k的计算公式为：a_k＝|L_k|/|S_k|，其中，S_k表示标注数据中能成功匹配第k个正则表达式的所有词汇的集合，L_k表示属于S_k且在标注数据中是事件地点的词汇构成的集合，标注数据是指人工标注了事件地点的新闻文本集；

b)若w′_j在新闻文本T中能够匹配下表中的多个正则表达式，设为第k₁，k₂，...，k_l(l＞1)个正则表达式，则

c)若w′_j在新闻文本T中不能匹配下表中的正则表达式，则c_j＝0。

以新闻文本“2012年6月19日，在墨西哥洛斯卡沃斯召开的G20峰会期间，阿根廷总统克里斯蒂娜向英国首相卡梅伦递交有关马尔维纳斯群岛主权的函件”为例，集合{墨西哥，洛斯卡沃斯，阿根廷，英国，马尔维纳斯群岛}中“墨西哥”可匹配第一个正则表达式“^\在\w+$”，则对应的c_j为0.64。

特征二：w′_j在新闻文本T中的位置特征p_j

对人工标注事件地点的新闻文本统计分析表明，当机构名、处所名词、地名出现的位置越靠前，越有可能是时间地点。为此，引入位置特征，并定义为：p_j＝loc(w′_j，T)，其中，loc(w′_j，T)表示词汇w′_j在新闻文本T中首次出现的位置，即从文本T起始处到词汇w′_j第一次出现位置之间的字数。

仍以新闻文本“2012年6月19日，在墨西哥洛斯卡沃斯召开的G20峰会期间，阿根廷总统克里斯蒂娜向英国首相卡梅伦递交有关马尔维纳斯群岛主权的函件”为例，“墨西哥”在该文本首次的位置为12，故对应的p_j为12。

特征三：w′_j在新闻文本T中的拓扑特征t_j

对人工标注事件地点的新闻文本统计分析表明，如果事件发生的地点有多个，则这些事件地点存在较强的相关性。为此，用地点对在“互动百科”对应页面中是否互相出现来描述是否存在相关性。

初始化空集合E；对于任意二元组(w′_j，w′_i)∈W_T×W_T且，执行以下两个步骤：

STEP2：利用正则表达式

/<a[^>]*？href＝[″’]？([^’″>]*)[’″]？[^>]*？>(.*？)</a>/ig匹配页面文件，获取所有锚文本；若锚文本中包含w′_i，则把E∪{(w′_j，w′_i)}的结果赋给E。

以新闻文本“2012年6月19日，在墨西哥洛斯卡沃斯召开的G20峰会期间，阿根廷总统克里斯蒂娜向英国首相卡梅伦递交有关马尔维纳斯群岛主权的函件”为例，可生成图2所示的有向图。

对任意w′_j∈W_T，计算其聚集系数C(w′_j)，聚集系数用于衡量不同结点之间连接的紧密程度；这里，用于衡量多个获选时间地点之间的相关程度；

上式中，G_Δ(w′_j)表示G中包含w′_j的闭三点组的数量，G_Δ(w′_j)为表示G中包含w′_j的开三点组的数量。闭三点组指图中任意两两相连的三个结点，开三点组指图中被两条边连接起来的三个结点；

令w′_j在新闻文本T中的拓扑特征t_j为C(w′_j)，即t_j＝C(w′_j)。

根据图2，“墨西哥”的拓扑特征

利用w′_j在新闻文本T中的上下文特征、位置特征、拓扑特征，构建w′_j的三维特征向量(c_j，p_i，t_j)。

以新闻文本“2012年6月19日，在墨西哥洛斯卡沃斯召开的G20峰会期间，阿根廷总统克里斯蒂娜向英国首相卡梅伦递交有关马尔维纳斯群岛主权的函件”为此，“墨西哥”在此文本中的特征向量为(0.64，12，0.6)

步骤三：事件地点识别

选择100-200特征向量，人工为每个特征向量标注一个类标签(事件地点与非事件地点)，形成一个训练数据集。

根据w′_j在新闻文本T中的上下文特征、位置特征、拓扑特征，采用Random Forest分类器训练出一个分类模型，能够对W_T中的词汇按照事件地点与非事件地点进行二值分类，从而实现事件地点的抽取。

Claims

1.一种面向中文新闻文本的事件地点抽取方法，其特征在于，包括如下步骤：

步骤一：候选事件地点抽取

(1)首先，利用ICTCLAS中文分词工具对中文新闻文本T进行分词，生成一个由二元组构成的序列S_T＝(w₁，p₁)，(w₂，p₂)，...，(w_i，p_i)，...，(w_n，p_n)，其中，n表示切分出的词汇的个数，n＞0，ω_i表示ICTCLAS切分出的词汇，p_i表示w_i的词性；

(2)从S_T中依次选择所有满足p_i＝"ni"、p_i＝"nl"、p_i＝"ns"三种情况之一的二元组，p_i＝"ni"、p_i＝"nl"、p_i＝"ns"分别表示对应的w_i为机构名、处所名词、地名；所有被选中的二元组中的w_i构成一个集合W_T＝{w′₁，w′₂，...，w′_j，...，w′_m}，W_T将作为候选事件地点的集合，m表示W_T中词汇的个数，m＞0；

步骤二：特征向量构建

对于集合W_T中的每个w′_j，选择三个特征,包括：w′_j在新闻文本T中的上下文Context特征；w′_j在新闻文本T中的位置特征；w′_j在新闻文本T中的拓扑特征；

步骤三：事件地点识别

选择100-200个特征向量，人工为每个特征向量标注一个类标签(事件地点与非事件地点)，形成一个训练数据集；采用Random Forest分类器训练一个分类器，利用该分类器将集合W_T中的每个w′_j按照事件地点与非事件地点进行二值分类，从而实现事件地点的抽取；

所述的步骤二中所述的w′_j在新闻文本T中的上下文Context特征；w′_j在新闻文本T中的位置特征；w′_j在新闻文本T中的拓扑特征，三个特征的计算如下：

特征一：w′_j在新闻文本T中的上下文特征_cj

(3)若w′_j在新闻文本T中不能匹配下表中的正则表达式，则c_j＝0；

特征二：w′_j在新闻文本T中的位置特征p_j

p_j＝loc(w′_j，T),其中，loc(w′_j，T)表示词汇w′_j在新闻文本T中首次出现的位置，即从文本T起始处到词汇w′_j第一次出现位置之间的字数；

特征三：w′_j在新闻文本T中的拓扑特征t_j

STEP2：利用正则表达式

/<a[^>]*？href＝["']？([^'">]*)['"]？[^>]*？>(.*？)</a>/ig匹配页面文件，获取所有锚文本；若锚文本中包含w′_i，则把E∪{(w′_j，w′_i)}的结果赋给E；

对任意w′_j∈W_T,计算其聚集系数C(w′_j)，聚集系数用于衡量不同结点之间连接的紧密程度；

上式中，G_Δ(w′_j)表示G中包含w′_j的闭三点组的数量，G_∧(w′_j)为表示G中包含w′_j的开三点组的数量；闭三点组指图中任意两两相连的三个结点，开三点组指图中被两条边连接起来的三个结点；

令w′_j在新闻文本T中的拓扑特征t_j为C(w′_j),即t_j＝C(w′_j)；