CN102508830A

CN102508830A - 从新闻文档中抽取社会网络的方法和***

Info

Publication number: CN102508830A
Application number: CN201110384750XA
Authority: CN
Inventors: 杨伟杰; 肖洪兵; 莫倩; 黄今慧
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2011-11-28
Filing date: 2011-11-28
Publication date: 2012-06-20

Abstract

本发明公开一种基于语义分析的网络新闻信息中社会网络自动抽取方法，包括：文档预处理；把经过预处理的新闻文档根据句义完整性进行语篇划分，形成话语片段；对划分之后的各个话语片断进行主动词识别；对于每个话语片段中的主动词识别其施事论元和受事论元；把施事论元和受事论元之间进行有向连接，并进行关系动词的标注，形成实体关系；将所有实体关系进行合并，得到整个事件的社会网络；输出抽取的社会网络。本发明提供的方法实现了对网络新闻中社会网络更加有效的抽取和表示，可用于网络新闻的社会网络抽取、网络新闻的监控等方面，也可用于新闻热点的发现、以及建立新闻热点索引等方面。

Description

从新闻文档中抽取社会网络的方法和***

技术领域

本发明涉及自然语言处理领域中的社会网络抽取***的实现方法，具体地说是涉及基于内容分析的文本信息中社会网络抽取的实现方法。

背景技术

社会网络指的是社会行动者及其间的关系的集合。换句话说，一个社会网络是由多个点(社会行动者)和各点之间的连线(行动者之间的关系)组成的集合。因而可以用点和线来表达社会网络，这也是一般情况下人们对社会网络的形式化界定。社会网络能清楚表现个体或组织之间的关系，在日常生活中发挥着重要的作用。人们无时无刻不在通过社会网络与外界的人或组织或其他实体进行交流。另外随着网络的普及，社会网络在信息***中的作用也日益凸现，例如邮件过滤，利益关系分析、人的可信度分析以及信息共享和推荐等等，都是以社会网络分析为基础进行的。准确判断实体之间的关系网络，对研究人类的行为及其他方面都有很重要的作用。因而如何自动抽取各种信息源中的社会网络越来越多地受到人们的关注。

可以获得社会网络的信息源有很多，例如电子邮件存档，FOAF(Friend Of A Friend)文档以及网络中其他类型的各种文档。本发明则是侧重于研究网络新闻文档中的社会网络抽取。这是因为对新闻文档的分析具有更好的现实意义。从文本挖掘的角度来看，命名实体在新闻文档中占有很高的地位，新闻的五要素基本上都属于命名实体的范畴，只要了解了实体间的关系，就对新闻的核心内容有了大概的了解，对新闻的探测、跟踪、自动摘要、以及新闻自动推荐方面都有帮助。另外，从信息内容安全角度来看，准确识别新闻文档中社会网络关系，特别是人与人之间，组织与组织之间的关系，对于了解整篇文档的主要观点和社会舆论的动向是很有帮助的。

研究社会实体的关系连结以及这些连结关系的模式、结构和功能的方法称为社会网络分析。以关系作为基本分析单位的社会网络分析已经在社会学、教育学、心理学与经济学等诸多学科领域得到了广泛研究。但是在在统计学和计算科学领域对如何自动抽取文本中的社会网络的研究并不是很多。而且现在采用的方法大多是基于两个实体在网络上的共现特征，判断两个实体之间是否存在关系则是通过分析二者在网络中的共现特征的值是否达到了某个预设的阈值。Faloutsos等人采用这种方法从五十亿网页中抽取了一个由一亿五千万人组成的社会网络。A.McCallum和他的研究小组则提出了一个自动抽取用户间社会网络的***。这个***从电子邮件信息中识别出不同的人并找到他们的主页，然后把相关信息记录在一个通讯簿中。最后再通过他们的主页信息发现一些其他人的信息，这样在主页的主人与在此人主页中发现的人名之间建立链接并放入社会网络。还有一些研究是应用搜索引擎来发现社会网络，例如在20世纪中期，H.Kautz和B.Selman开发了一个社会网络抽取***Referral Web，这个***用搜索引擎作为工具来发现社会网络。最近P.Mika开发的Flink***实现了语义网群落中社会网络的在线抽取与可视化。其实Flink与Referral Web进行网络挖掘的机制都是相同的，主要是通过共现特征来识别实体间存在的关系，只不过这些共现信息是通过搜索引擎来得到的。另外通过搜索引擎来度量名字间共现特征的***还有Matsuo等人开发的POLYPHONET。然而共现状态只能说明两者可能存在关系，却不能确定二者是否有直接关系，更不能给出具体的关系描述。

发明内容

针对上述问题，本发明提出了一种基于内容的关系抽取方法，在对输入文章进行分词标注、共指消解等预处理之后，通过名词合并及主动词识别，得到存在关系的实体之间的关系指向和关系描述，最后通过有向图把存在关系的实体进行链接，最终形成有向关系网络。这样不仅能够通过对一个新闻事件的分析得到对事件中实体之间关系的指向，更能根据关系图中每个点的出度、入度确定各个实体在事件中的重要程度，而且可以确定点与点之间的相对关系紧密程度，并给出比较合理的点与点之间关系的描述。

本发明的主要目的如下：

首先，本发明是基于文本内容分析的，而不仅仅是依靠实体的共现信息，所以得到的社会网络更加可靠。

其次，本发明不仅仅局限于对人与人之间的关系进行抽取，而是对所有的不同实体之间的关系进行抽取。

再次，本发明中采用有向图对社会网络进行可视化表现，对实体之间关系的描述更加详细。有向图中不仅仅标注出实体之间是否有关系，而且标注出实体之间的关系指向，并给出了实体之间相互作用关系的描述词。

本发明提供的技术方案如下：

一种从新闻文档中抽取社会网络的方法，包括如下：

(1)文档预处理步骤：对于输入的新闻文档进行预处理，包括进行分词，标注以及命名实体的指代消解；

(2)把经过预处理的新闻文档根据句义完整性进行语篇划分，形成话语片段；

(3)对划分之后的各个话语片断进行主动词识别；

(4)对于每个话语片段中的主动词识别其施事论元和受事论元；

(5)把施事论元和受事论元之间进行有向连接，并进行关系动词(即该话语片段的主动词)的标注，形成实体关系；

(6)将所有实体关系进行合并，得到整个事件的社会网络；

(7)输出抽取的社会网络。

特别的，所述新闻文档为包含新闻信息的单个文档或者具有相同主题的多个文档。

特别的，步骤2所述语篇划分步骤包括：一个语义完整的话语片断必然存在主动词及其必要论元，所以最初以每个小句为单位进行分析，如果小句中存在主动词和相应的论元，则把此小句作为一个单独的话语片断进行后续处理，如果此小句中缺少任何元素，那么考虑加入其后紧邻的小句，并进行同样的主动词及相应论元的分析，直到这个处理句组中存在主动词及必要论元为止，然后把这个句组当作一个话语片断进行后续处理。

特别的，步骤6还包括：采用有向图对社会网络进行可视化表现，标注出实体之间的关系指向，并给出了实体之间相互作用关系的描述词。

本发明同时提供了一种从新闻文档中抽取社会网络的***，包括：网络新闻信息预处理单元、语义分析单元、实体关系抽取单元、社会网络生成单元，其特征是，

所述网络新闻信息预处理单元，用于对输入新闻文档进行预处理，包括分词，标注以及命名实体的指代消解；

所述语义分析单元，把经过预处理的文档，在根据句义完整性进行语篇划分，对划分之后的各个话语片断进行主动词识别；

所述实体关系抽取单元，用于对每个话语片段中的主动词识别其施事论元和受事论元，然后把施事论元和受事论元之间进行有向连接，并进行关系动词的标注；

所述社会网络生成单元，根据关系抽取结果自动生成由命名实体、实体间关系指向、实体间关系描述构成的社会网络，并以可视化的方式显示自动抽取的社会网络。

特别的，所述网络新闻信息预处理单元进一步包括：

分词标注模块，对于输入的单个文档或者一个主题的相关文档集合进行分词、标注；

指代消解模块，对文档中的代词进行消解。

特别的，所述语义分析单元进一步包括：

语篇划分模块，对预处理之后的文档进行话语片段划分；

主动词识别模块，对每个话语片段中的主动词进行识别。

特别的，所述实体关系抽取单元进一步包括：

论元识别模块，对于每个话语片段中的主动词识别其施事论元和受事论元；

关系形成模块，把施事论元和受事论元之间进行有向连接，并进行关系动词的标注，形成实体关系。

提别的，所述社会网络生成单元进一步包括：

社会网络形成模块，把关系抽取结果进行合并，自动生成由命名实体、实体间关系指向、实体间关系描述构成的社会网络；

社会网络可视化模块，以可视化的方式显示自动抽取的社会网络。

本发明同时提供一种应用，把上面所述的方法和***应用于网络新闻监控，新闻网站管理人员根据获取的社会网络，判断当前的新闻热点，一旦发现可能对社会安全造成影响的话题，可以及时进行监管和调控。

本发明提供的一种基于语义分析的网络新闻信息中社会网络自动抽取方法，对网络新闻进行更深层次的内容挖掘，实现了基于语义的社会网络抽取，弥补了仅依靠实体的共现信息来分析实体间关系的缺点，而且该方法不仅对人与人之间的关系进行抽取，而且对所有实体之间的关系进行抽取；另外该发明并完善了对社会网络的描述，此方法不仅标注出实体之间是否有关系，而且标注出实体之间相互关系的指向与描述，基于有向图的表现形式使对整个社会网络的描述更加详细清晰。

附图说明

图1是本发明的***框图；

图2是本发明中网络新闻信息预处理单元框图；

图3是本发明中语义分析单元框图；

图4是本发明中实体关系抽取单元框图；

图5是本发明中社会网络生成单元框图；

图6是本发明方法的流程图；

图7是本发明的实施例结果示意图。

具体实施方式

下面结合附图对本发明作进一步详细的描述。

为了能够确定两个实体之间是否存在直接关系，二者之间的关系具体如何，本发明通过对文档内容进行语义分析，在此基础上进行实体关系抽取以及实体关系描述抽取，不仅能够通过对一个新闻事件的分析得到对事件中实体之间关系的指向，而且能够给出比较合理的实体间关系的描述。

***框图如图1所示，包括网络新闻信息预处理单元1、语义分析单元2、实体关系抽取单元3、社会网络生成单元4。其中：

(1)网络新闻信息预处理单元1：对于输入的单个文档或者一个主题的相关文档集合，首先进行文档预处理，主要是进行分词，标注以及命名实体的指代消解；该单元包括(参图2)：

分词标注模块11：对于输入的单个文档或者一个主题的相关文档集合进行分词、标注；指代消解模块12：对文档中的代词进行消解。

(2)语义分析单元2：把经过预处理的文档，在根据句义完整性进行语篇划分，对划分之后的各个话语片断进行主动词识别；该单元包括(参图3)：

语篇划分模块21：对预处理之后的文档进行话语片段划分；

主动词识别模块22：对每个话语片段中的主动词进行识别。

(3)实体关系抽取单元3：对于每个话语片段中的主动词识别其施事论元和受事论元，(跟谓词搭配的名词称为论元。本发明中，论元如果是主动词动作的发出者则为施事论元，论元如果是主动词动作的承受者则为受事论元)然后把施事论元和受事论元之间进行有向连接，并进行关系动词的标注；该单元包括(参图4)：

论元识别模块31：对于每个话语片段中的主动词识别其施事论元和受事论元；

关系形成模块32：把施事论元和受事论元之间进行有向连接，并进行关系动词的标注，形成实体关系。

(4)社会网络生成单元4：根据关系抽取结果自动生成由命名实体、实体间关系指向、实体间关系描述构成的社会网络，并最终以可视化的方式显示自动抽取的社会网络；该单元包括(参图5)：

社会网络形成模块41：把关系抽取结果进行合并，自动生成由命名实体、实体间关系指向、实体间关系描述构成的社会网络；

社会网络可视化模块42：最终以可视化的方式显示自动抽取的社会网络。

图6是本发明所述方法的流程图。本发明所述方法如下：

步骤1：文档预处理：对于输入的单个新闻文档或者一组具有相同主题的新闻文档集合，进行文档预处理，包括进行分词，标注以及命名实体的指代消解；

步骤2：基于句义完整性的文档语篇划分：把经过预处理的文档，根据句义完整性进行语篇划分；

步骤3：话语片断中主动词识别：对划分之后的各个话语片断进行主动词识别；

步骤4：主动词的施事论元和受事论元识别：对于每个话语片段中的主动词识别其施事论元和受事论元；

步骤5：实体关系形成：根据每个话语片段中抽取的主动词及其论元，形成实体关系；

步骤6：社会网络形成：将所有实体关系进行合并，得到整个新闻事件的社会网络；

步骤7：社会网络的可视化表示：以可视化的方式显示自动抽取的社会网络。

上述步骤1对文档的预处理具体方法如下：在分词、标注过程中，使用中科院计算所研制的基于多层隐马模型的汉语词法分析***ICTCLAS对输入文档进行分词及标注。而在指代消解部分，为了保证社会网络抽取的准确性和***实现的简洁性，本发明利用文章《Anaphora resolution in Chinese financial news for information extraction》(作者：Wang Ning)中提出的方法对文档中的实体及代词进行了指代消解。步骤2针对上一步中经过预处理的文档进行语篇划分。话语片断的划分，决定了文本自然语言处理过程的准确性。在划分之前，对各话语片断均给定一个合适的量，其既要保证语言分析需要的足够信息，又要适合计算机的操作及存储空间的开销。通过分析，本文提出了基于语义完整性划分语篇的方法：因为一个语义完整的话语片断必然存在主动词及其必要论元，所以首先以每个小句(通过逗号，分号，句号隔开的句子单元)为单位进行分析，如果小句中存在主动词和相应的论元，则把此小句作为一个单独的话语片断进行后续处理；否则，加入其后紧邻的小句，并进行同样的主动词及相应论元的分析，直到这个处理句组中存在主动词及相应的论元为止，然后把这个句组当作一个话语片断进行后续处理。

步骤3对上一步中语篇划分得到的各个话语片段进行主动词识别。主动词是句子的核心，如何判断句子的核心动词，是正确分析句子结构和层次的重要步骤。但是，在汉语文本中，一个句子中有一个以上的动词很普通，而且汉语动词没有数、性、格和时态的变化，用语法来确定哪个是主动词非常困难。因此，本文使用了文献《计算语义学》(作者：吴蔚天)中提出的主动词识别方法：步骤4，对于各个话语片断，识别出其中的主动词之后，需要给主动词查找施事论元(即主语)和受事论元(宾语)。这里，采用基于动词逻辑配价的逻辑论元识别方法，通过《现代汉语词典》中对动词释义和应用举例来判断动词的价，同时，由于存在受事论元的动词一般是有施事论元的，所以只考虑动词是否能带受事论元，如果是，则把动词定义为二价动词，否则为一价动词。

比如：安排：有条理、分先后地处理(事物)、安置(人员)～工作、～生活、～他当统计员。“安排”这个词可以带有受事论元，定义其价为2。

判断完动词能否带受事论元，接下来就要判断该动词带什么样的受事论元和施事论元。经过前面提到的名词合并及分析，基本上所有的话语片断都成为一个简单句，使得论元的识别变得非常容易。本发明简单定义：如果动词前为名词(包括合并后的名词短语)或者代词，则把该名词(包括合并后的名词短语)或者代词作为该动词的施事论元；如果动词后为名词(包括合并后的名词短语)或者代词，则把该名词(包括合并后的名词短语)或者代词作为该动词的受事论元。这一规律符合大多数句子的特点，除了极个别的特殊句型。

步骤5，对于每个话语片断，查找完主动词及其论元之后，即完成了对这个话语片断中存在的关系的判断，接下来看这些关系涉及到的是否为命名实体，这主要是看主动词的论元是否都为命名实体或者都包含命名实体的成分，如果是，则在关系图中把二者进行有向连接，箭头由施事论元指向受事论元，同时把该主动词作为此关系的描述标注于连线的上方。

步骤6，整篇文档中所有的话语片断分析完成之后进行合并去重，即生成整篇文档中所有实体间的有向关系网络，即所需的社会网络。

为了更清晰地理解本发明，下面用具体的实施例进行阐释。

实施例1：

对于一篇新闻文档，新闻内容如下：

题目：穆巴拉克称允许加沙居民进入埃及购买必需品。

内容：1月23日，上万巴勒斯坦民众通过被毁的边境墙涌入埃及境内。

*以色列称埃及应负责解决加沙地带边境民众骚乱

*巴勒斯坦民众涌入埃及抢购生活用品

*******召开紧急会议讨论加沙局势

据法新社报道，埃及总统穆巴拉克今日称，他允许巴勒斯坦人离开加沙，前往埃及境内寻找生活必需品，前提是他们不得携带武器。

穆巴拉克对开罗媒体说：“我告诉***队对前往我国境内的加沙居民予以放行，并允许他们返回加沙，只要他们不携带武器或其它非法物品。”

对于这篇新闻文档，按照上述步骤执行如下(可以结合附图)：

(1)对于输入的文档进行进行分词标注以及命名实体的指代消解；

(2)把经过预处理的文档，根据句义完整性进行语篇划分；

(3)对划分之后的各个话语片断进行主动词识别；

(5)形成实体关系；

(6)将所有实体关系进行合并，得到整个事件的社会网络；

(7)以可视化的方式显示自动抽取的社会网络。本发明进行社会网络分析得到的关系图如图7所示。

(8)将得到的社会网络提交给网站新闻管理员，通过该社会网络，管理员可以清楚得看到文章的主要内容，包括涉及的实体以及实体间的关系，从而快速对文章进行分类，并将其放到相应板块，并把抽取的关键词(实体和关系动词)作为新闻话题跟踪的依据，方便进行下一步网络新闻管理。

实施例2：

本发明不仅可以用于新闻文档，也可以用于其他方面的社会网络抽取，下面是另一个实施例。社会网络抽取可应用于博客舆情监控与引导。

(1)实时抽取一个博客网站的博客文档，对于得到的博客文档进行进行分词标注以及命名实体的指代消解；

(2)把经过预处理的文档，根据句义完整性进行语篇划分；

(3)对划分之后的各个话语片断进行主动词识别；

(5)形成实体关系；

(6)将所有实体关系进行合并，得到整个事件的社会网络；

(7)以可视化的方式显示自动抽取的社会网络。

(8)将得到的社会网络提交给网站管理员，通过该社会网络，管理员可以看到各个主帖的作者，以及作出回帖的作者。并根据社会网络规模大小，实时发现热门贴及其主要内容(实体和关系动词)，一旦发现可能对社会安全造成影响的话题，及时进行监管和调控。另外该社会网络也可以作为博文推荐的依据，根据社会网络，可以分析实体之间关系，找到具有相同爱好的用户，针对其爱好，把他们收集的博文进行相互推荐。

另外，本发明抽取的社会网络还可应用于邮件过滤，产品推荐服务方面，网络用户关系。

本发明提出的社会网络的表现形式，能够比较简明扼要的表现出一个新闻事件的主要内容，以及其中涉及到的实体和实体之间的关系指向和关系描述。本发明提供的方法实现了对网络新闻中社会网络更加有效的抽取和表示，可用于网络新闻的社会网络抽取、网络新闻的监控等方面，也可用于新闻热点的发现、以及建立新闻热点索引等方面。

Claims

1.一种从新闻文档中抽取社会网络的方法，包括如下：

(3)对划分之后的各个话语片断进行主动词识别；

(5)把施事论元和受事论元之间进行有向连接，并进行关系动词的标注，形成实体关系；

(6)将所有实体关系进行合并，得到整个事件的社会网络；

(7)输出抽取的社会网络。

2.如权利要求1所述的方法，其特征是，所述新闻文档为包含新闻信息的单个文档或者具有相同主题的多个文档。

3.如权利要求1所述的方法，其特征是，步骤2所述语篇划分步骤包括：以每个小句为单位进行分析，如果小句中存在主动词和相应的论元，则把此小句作为一个单独的话语片断进行后续处理，如果此小句中缺少任何元素，那么考虑加入其后紧邻的小句，并进行同样的主动词及相应论元的分析，直到这个处理句组中存在主动词及必要论元为止，然后把这个句组当作一个话语片断进行后续处理。

4.如权利要求1所述的方法，其特征是，步骤6还包括：采用有向图对社会网络进行可视化表现，标注出实体之间的关系指向，并给出了实体之间相互作用关系的描述词。

5.一种从新闻文档中抽取社会网络的***，包括：网络新闻信息预处理单元、语义分析单元、实体关系抽取单元、社会网络生成单元，其特征是，

6.如权利要求5所述的***，其特征是，所述网络新闻信息预处理单元进一步包括：

指代消解模块，对文档中的代词进行消解。

7.如权利要求5所述的***，其特征是，所述语义分析单元进一步包括：

语篇划分模块，对预处理之后的文档进行话语片段划分；

主动词识别模块，对每个话语片段中的主动词进行识别。

8.如权利要求5所述的***，其特征是，所述实体关系抽取单元进一步包括：

9.如权利要求5所述的***，其特征是，所述社会网络生成单元进一步包括：

社会网络形成模块，把关系抽取结果进行合并，自动生成由命名实体、实体间关系指向、实体间关系描述构成的关系网络；

10.将权利要求1-4任意一种所述方法应用于网络新闻监控。