CN101149739A

CN101149739A - 一种面向互联网的有意义串的挖掘方法和***

Info

Publication number: CN101149739A
Application number: CNA2007101207555A
Authority: CN
Inventors: 张华平; 贺敏; 黄玉兰; 龚才春
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2007-08-24
Filing date: 2007-08-24
Publication date: 2008-03-26

Abstract

本发明公开了一种面向互联网的有意义串的挖掘方法和***。该方法包括下列步骤：步骤A，重复字符串发现；步骤B，通过上下文邻接分析过滤所述字符串；步骤C，通过语言模型分析过滤所述字符串。其能够有效的提取网页或大规模文本数据中的有意义串。

Description

一种面向互联网的有意义串的挖掘方法和***

技术领域

本发明涉及一种信息检索领域和操作***领域，特别是一种面向互联网的有意义串的挖掘方法和***。

背景技术

互联网上有着浩瀚如海的信息，但其庞大的数目使得Web用户很难从中有效获取有用信息，用户们面对汪洋大海般的日夜更新的信息，往往感到不知所措，不知道如何从海量信息中寻求自己真正想要的信息，更不知道如何获取或把握海量信息中的关键信息，及时掌握当前的重要资讯。同时面对时时刻刻不断涌现的新信息，任何人都无法做到“眼观六路、耳听八方”。在这个时候，人们更加迫切需要自然语言处理技术的强力支持，以应对日益严重的信息过载问题。

从海量的网络信息中提取出有用的关键信息，成为了一大难题，也成为了在网络信息***时代亟待解决的需求。而此问题的解决，也将有着广泛的应用前景：对于个人，能通过它更方便地发现和组织当前重要资讯，它能够成为人们掌控海量信息的切入点。对于企业，能通过它及时掌握企业相关领域的最新动态，战略伙伴的发展方向，竞争对手的最新动作，为企业制定战略方针提供资讯方面的帮助。对于国家，能通过它了解当前社会重要事件，流行趋向，舆论方向等等，成为了解和掌握社会状况的信息窗口，为相关决策的制定提供帮助。

在这样的背景下，如何提取网络文本中的有用信息，凸现出了其自身的重要性，成为一个值得深入研究的方向。

发明内容

本发明的目的是提供一种面向互联网的有意义串的挖掘方法和***，其能够有效的提取网页或大规模文本数据中的有意义串。

为实现本发明目的而提供的一种面向互联网的有意义串的挖掘方法，包括下列步骤：

步骤A，重复字符串发现；

步骤B，通过上下文邻接分析过滤所述字符串；

步骤C，通过语言模型分析过滤所述字符串。

所述步骤A包括下列步骤：

步骤A1，将网页语料处理得到格式化的纯文本文件，对文本文件进行分类，记录文本中重复出现的字符串及其出现的频次，将出现次数小于一定阈值的字符串滤掉。

所述步骤B包括下列步骤：

步骤B1，计算每条重复串的上下文邻接特征量，并判断这些特征量是否达到设定的阈值，根据判断结果过滤掉没有达到阈值的文本串。

所述步骤C包括下列步骤：

步骤C1，对文本串逐字扫描相邻字对，查找相邻字对的耦合度，根据耦合度过滤文本串，然后根据文本串的位置成词概率，进一步进行过滤而得到有意义串。

所述步骤A1包括下列步骤：

步骤A11，将网页语料处理得到格式化的纯文本文件，然后将汉字转化为对应的ID；

步骤A12，对处理好的ID序列建立索引，从每个单字索引的信息开始扩展得到所有重复串，新产生的重复串写入文件之后，继续扩展得到长串，反复迭代，直到出现间隔符号或者长度达到指定阈值，停止扩展；

步骤A13，记录每个串的邻接词信息以及文档信息，每类信息独立保存在一个文件中。

所述步骤B1包括下列步骤：

步骤B11，计算每条重复串的上下文邻接特征量，判断这些特征量是否达到设定的阈值；

步骤B12，如果达到阈值，则转入步骤C；

步骤B13，如果特征量未达到阈值，则将其过滤掉。

所述步骤C1包括下列步骤：

步骤C11，对一部分训练语料进行标注，生成相邻字的耦合度词典和单字位置成词概率词典；

步骤C12，逐字扫描相邻字对，查找相邻字对的耦合度；

步骤C13，当相邻字对的耦合度小于设定阈值时，不构成词的一部分，作为垃圾串过滤掉；

步骤C14，对相邻字对没有过滤掉的字符串，查找单字位置成词概率，判断其串首和串尾是否包含常用功能字；

步骤C15，如果是功能字，则将其过滤掉；

步骤C16，还没有被过滤掉的字符中确定为有意义串。

为实现本发明目的还提供一种面向互联网的有意义串的挖掘***，包括：

重复串发现模块，用于将网页语料处理得到格式化的纯文本文件，对文本文件进行分类，记录文本中重复出现的字符串及其出现的频次，将出现次数小于一定阈值的字符串滤掉；

上下文邻接分析模块，用于计算每条重复串的上下文邻接特征量，并判断这些特征量是否达到设定的阈值，根据判断结果过滤掉没有达到阈值的文本串；

统计语言模型分析模块，用于对文本串逐字扫描相邻字对，查找相邻字对的耦合度，根据耦合度过滤文本串，得到有意义串。

所述统计语言模型分析模块，还用于在扫描相邻字对后，根据文本串的位置成词概率，进一步进行过滤字符串而得到有意义串。

所述上下文邻接特征量为邻接集合、邻接种类、邻接熵、邻接对集合、邻接对种类、邻接对熵中的一种或者一种以上的组合。

所述记录文本中重复出现的字符串及其出现的频次，是通过后缀树算法、sequitur算法、n元递增分布算法或者改进的n元递增分布算法进行重复串发现而得到的。

本发明的有益效果是：本发明的面向互联网的有意义串的挖掘方法和***，将待识别文本经过重复串发现、上下文邻接分析、统计语言模型分析三个阶段达到挖掘有意义串的目的。本发明在预处理中做了分词，进一步降低重复串发现的时间复杂度，同时也大幅提高了提取结果的准确率和召回率；重复串发现的空间复杂度是O(N)(N为语料规模大小)，能够对与内存大小相当的纯文本数据进行分析，比传统的后缀树方法处理规模大10倍左右；邻接分析时可以根据应用需要采用不同的特征量，邻接熵倾向于发现各种语用环境分布比较均匀的串，这些串空间分布较广泛，往往具有通用性；最后，采用双字耦合度来衡量两个字结合的紧密程度，与停用字判断相结合，更加灵活和智能。

附图说明

图1为本发明面向互联网的有意义串的挖掘方法过程示意图；

图2为图1中从重复串提取有意义串过程流程图；

图3为本发明面向互联网的有意义串的串首串尾判断过程流程图；

图4为本发明面向互联网的有意义串的挖掘***示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明的一种面向互联网的有意义串的挖掘方法和***进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明将在互联网中具有有用信息，在多种环境下应用的字符串定义为有意义串。有意义串最主要的特点是语义完整性，本发明从统计、结构、语用、语义几方面来分析，提出一种普适性的有意义串的挖掘方法和***。

本发明将有意义串挖掘方法过程分为重复串发现、上下文邻接分析、语言模型分析三个阶段，整个过程如图1所示，包括下列步骤：

步骤S100，在重复串发现阶段，将网页语料处理得到格式化的纯文本文件，对文本文件进行分类，记录文本中重复出现的字符串及其出现的频次，将出现次数小于一定阈值的字符串滤掉。

步骤S200，在上下文邻接分析阶段，计算每条重复串的上下文邻接特征量，并判断这些特征量是否达到设定的阈值，根据判断结果过滤掉没有达到阈值的文本串。

步骤S300，在统计语言模型分析阶段，对文本串逐字扫描相邻字对，查找相邻字对的耦合度，根据耦合度过滤文本串，然后根据文本串的位置成词概率，进一步进行过滤而得到有意义串。

本发明主要使用了两个标准来衡量。首先，本发明计算一个字符串中相邻的两个词结合的紧密程度，如果紧密程度小于一定阈值，就删除这个字符串。

其次，本发明还要测试一个词中的字，出现在它现在位置(位置指词首或词尾)的概率，如果概率低于一定的阈值，就删除该词。

下面详细说明步骤S100中，将网页语料处理得到格式化的纯文本文件，对文本文件进行分类，记录文本中重复出现的字符串及其出现的频次，将出现次数小于一定阈值的字符串滤掉的过程。

将网页语料处理得到格式化的纯文本文件，然后进行预处理，包括分词，将汉字转化为对应的ID。分词部分采用速度较快的最大匹配分词法。实验表明，分词词典包含6迈出多核心词汇，而且分词过程不做未登录词识别而进行分词，最大匹配分词这一步骤的效果要明显好于没有分词的结果。

对处理好的ID序列建立索引，从每个单字索引的信息开始扩展得到所有重复串，新产生的重复串写入文件之后，继续扩展得到长串，反复迭代，直到出现间隔符号或者长度达到指定阈值时，停止扩展。同时，还要记录每个串的邻接词信息以及文档信息，每类信息独立保存在一个文件中。

目前比较成熟的、应用于中文文本的重复串发现算法有后缀树算法、sequitur算法和n元递增分布算法等。应用其中任何一种算法都可以达到统计重复串的目的。本发明实施例采用的是改进的n元递增分布算法。具体做法如下。

本发明的方法比n元递增算法时间复杂度有所降低，因为索引记录了每个串的地址信息，扩展时根据地址信息和串长直接定位到下一个扩展字符，统计频次信息的范围仅仅是当前扩展串，而不需要遍历整个语料进行全局比较统计。

同时，还要记录每个串的邻接词信息以及文档信息，每类信息独立保存在一个文件中。在后面的有意义串分析中需要利用串的文档信息和邻接对信息，如果重复串发现后再进行上述统计，则要对整个语料做多次遍历，增加时间开销。而发现重复串时每个串的地址信息是已知的，几乎在不增加时间复杂度的同时，能够获得上述信息。

通过实验验证，如果在查找重复串之前对文本进行分词，有意义串挖掘的效果将比较好。

下面详细描述步骤S200中，计算每条重复串的上下文邻接特征量，并判断这些特征量是否达到设定的阈值，根据判断结果过滤掉没有达到阈值的文本串的过程。

为了描述字符串S的上下文环境灵活程度，本发明提出了一系列上下文邻接特征量概念，即邻接集合、邻接种类、邻接熵，以及邻接对集合、邻接对种类、邻接对熵。

邻接集合：分为左邻接集合L_NB和右邻接集合R_NB，分别指真实文本中，与字符串S左边或者右边相邻的字或词元素的集合。

邻接种类：分为左邻接种类V_L和右邻接种类V_R，分别指左邻接集合中和右邻接集合种字或词元素的数目，它们反映了字符串S上文和下文语境种类的多少。

邻接熵：表示字符串S的邻接集合的信息熵，字符串S有左邻接熵和右邻接熵。

相应地，还提出了邻接对集合、邻接对种类、邻接对熵等上下文邻接特征值的概念。

邻接对集合：字符串S每次出现的左邻接元素和右邻接元素构成一个邻接对<Li，Ri>，字符串S的所有邻接对组成邻接对集合PNB。

邻接对种类：邻接对集合PNB中元素的个数称为邻接对种类VP。

邻接对熵：表示邻接对集合的信息熵。

这些上下文邻接特征量都可以用来衡量一个字符串上下文环境。

如图2所示，上下文邻接分析主要计算每条重复串的上下文邻接特征量，包括邻接集合、邻接种类、邻接熵，以及邻接对集合、邻接对种类、邻接对熵等，判断这些特征量是否达到设定的阈值，如果达到，则说明该串在语言用途上比较灵活，进入统计语言模型分析阶段。

计算重复串的上下文邻接特征量，包括邻接集合、邻接种类，以及邻接对集合、邻接对种类，是通过对重复串语料统计而得到。

熵(包括邻接熵、邻接对熵)是通过计算而得到。

计算熵的公式如下：

如邻接集合(如左邻接集合)L_NB中每个元素l_i在真实文本中对应一个出现频次n_i，频次总和记为N，则熵的计算公式为：

E_{L} = - Σ_{i = 1}^{| V_{L} |} \frac{n_{i}}{n} \log (\frac{n_{i}}{n})

例如：新词“禽流感”从2000年开始频繁使用，出现在以下句子中：

钟南山透露禽流感病毒尚未明显变异。

广东的防控禽流感形势趋缓。

有7人感染禽流感事件。

发现一宗禽流感疑似病例。

颁布5条禁令防控禽流感。

如果将词做为邻接分析的粒度，“禽流感”这些字符串中的上下文邻接特征量计算结果为：

左邻接集合：L_NB＝{透露，防控，感染，一宗}

右邻接集合：R_NB＝{病毒，形势，事件，疑似，EOS}

左邻接种类：V_L＝4

右邻接种类：V_R＝5

左邻接熵：

E_{L} = - (\frac{1}{5} \log \frac{1}{5} + \frac{2}{5} \log \frac{2}{5} + \frac{1}{5} \log \frac{1}{5} + \frac{1}{5} \log \frac{1}{5}) = - 0.718

右邻接熵：

E_{R} = - (\frac{1}{5} \log \frac{1}{5} + \frac{1}{5} \log \frac{1}{5} + \frac{1}{5} \log \frac{1}{5} + \frac{1}{5} \log \frac{1}{5} + \frac{1}{5} \log \frac{1}{5}) = - 0.699

邻接对集合PNB＝{<透露，病毒>，<防控，形势>，<感染，事件>，<一宗，疑似>，<防控，EOS>}

邻接对种类：PNB＝5

邻接对熵

E_{P} = - (\frac{1}{5} \log \frac{1}{5} + \frac{1}{5} \log \frac{1}{5} + \frac{1}{5} \log \frac{1}{5} + \frac{1}{5} \log \frac{1}{5} + \frac{1}{5} \log \frac{1}{5}) = - 0.699

若特征量未达到阈值，则说明该串是垃圾串，将其过滤掉。其中，阈值是由训练语料训练得来的。

语料是在语言的实际使用中真实出现过的语言材料；以电子计算机为载体承载语言知识的基础资源。真实语料需要经过加工(分析和处理)，才能成为有用的资源。

语料训练方法是一种现有技术，如通过隐马尔可夫模型(Hidden MarkovModel，HMM)对训练语料进行训练的方法。其不是本发明的发明点，因此，在本发明中不再一一详细描述。

通过实验验证，相邻元素的单位是词的准确率比是字的准确率要高。

下面详细描述步骤S300中，对文本串逐字扫描相邻字对，查找相邻字对的耦合度，根据耦合度过滤文本串，然后根据文本串的成词概率，进一步进行过滤而得到有意义串的过程。

为了描述一个词中连续两个字的结合紧密程度，本发明定义了相邻字对的耦合度的概念。其定义是：在切分好的训练语料中扫描所有出现过的连续字对，统计出每组字对出现的总次数以及该字对作为某个词子串的总次数，后者与前者之比就叫做相邻字对的耦合度，用符号Coup表示。例如“过目”这一双字对在本文的统计中共出现16次，其中出现在“过目不忘”，“一一过目”这样的词中12次，而在“超过目前”这样的语境中共出现了4次，所以Coup(<过，目>)＝12/(12+4)＝0.75。

Coup值越高，表明该字对的结合程度越高，反之表明该字对越不可能出现在一个词中。耦合度是由训练语料求得的。

另外，本发明引入位置成词概率来表示某个汉字在某个位置(词首或词位等)出现的概率。如“阿”字的词首概率很大，但是词尾概率很小，如果“阿”出现在一个词的词尾，基本可以认为该词是一个垃圾串。位置成词概率也是由训练语料求得。

在语言模块分析之前，应当对一部分训练语料进行人工标注，生成相邻字的耦合度词典(如双字耦合度词典)和单字位置成词概率词典。

如图3所示，首先逐字扫描相邻两字对，查找其相邻字对的耦合度，如双字耦合度，小于设定阈值时，不构成某个词的一部分，应该作为垃圾串删除。

而双字对扫描没有删除的文字串要进入下一步过滤，查找单字位置成词概率。首先查找首字的位置成词概率，如果概率低于一定的阈值，代表这个字不应出现在字首，则将其过滤。

没有被删除的字符串，查找其尾字的位置成词概率，来判断其串首和串尾是否包含常用功能字，如果是功能字，则将其过滤。即如果位置成词概率低于设置的阈值，代表这个字符串不应该出现在字尾，将其过滤。

较佳地，还取出串中首字对判断其双字耦合度，如果大于某个阈值，则认为该字对结合紧密，够成某个词的首部，不再对首字的单字位置成词概率进行判断，这样能够避免垃圾头词典的绝对化问题。如“的士”这个双字对是构成词的，如果仅仅判断首字“的”的位置成词概率，也许需要过滤，但是首先判断字对的双字耦合度，发现其耦合程度高，应该保留。

经过这一步骤，还没有被过滤掉的字符串确定为有意义串。输出这些有意义串，过程结束。

其中，这一过程中的所有阈值都是由训练语料，训练得到的。

以来自新浪，网易等9个国内新闻网站实验的原始网页，作为测试数据的原始网页一部分，采集时间介于2006年4月19日到2006年6月14日之间，共有31万多张网页为测试数据，大小12G，提取正文后，最终正文的大小为470MB。本发明的有意义串的挖掘方法在这些新闻网页上提取有意义串的正确率可以达到70.55％。

与所述面向互联网的有意义串的挖掘方法相对应，本发明还提供一种面向互联网的有意义串的挖掘***400，如图4所示，其包括：

重复串发现模块410，用于将网页语料处理得到格式化的纯文本文件，对文本文件进行分类，记录文本中重复出现的字符串及其出现的频次，将出现次数小于一定阈值的字符串滤掉。

上下文邻接分析模块420，用于计算每条重复串的上下文邻接特征量，并判断这些特征量是否达到设定的阈值，根据判断结果过滤掉没有达到阈值的文本串。

统计语言模型分析模块430，用于对文本串逐字扫描相邻字对，查找相邻字对的耦合度，根据耦合度过滤文本串，然后根据文本串的位置成词概率，进一步进行过滤而得到有意义串。

本发明的面向互联网的有意义串的挖掘***400，采用与面向互联网的有意义串的挖掘方法相同的过程工作，因此，在本发明实施例中，不再对该***进行重复描述。

以上对本发明的具体实施例进行了描述和说明，这些实施例应被认为其只是示例性的，并不用于对本发明进行限制，本发明应根据所附的权利要求进行解释。

Claims

1.一种面向互联网的有意义串的挖掘方法，其特征在于，包括下列步骤：

步骤A，重复字符串发现；

步骤B，通过上下文邻接分析过滤所述字符串；

步骤C，通过语言模型分析过滤所述字符串。

2.根据权利要求1所述的面向互联网的有意义串的挖掘方法，其特征在于，所述步骤A包括下列步骤：

3.根据权利要求2所述的面向互联网的有意义串的挖掘方法，其特征在于，所述步骤B包括下列步骤：

4.根据权利要求3所述的面向互联网的有意义串的挖掘方法，其特征在于，所述步骤C包括下列步骤：

5.根据权利要求2所述的面向互联网的有意义串的挖掘方法，其特征在于，所述步骤A1包括下列步骤：

6.根据权利要求3所述的面向互联网的有意义串的挖掘方法，其特征在于，所述步骤B1包括下列步骤：

步骤B12，如果达到阈值，则转入步骤C；

步骤B13，如果特征量未达到阈值，则将其过滤掉。

7.根据权利要求4所述的面向互联网的有意义串的挖掘方法，其特征在于，所述步骤C1包括下列步骤：

步骤C12，逐字扫描相邻字对，查找相邻字对的耦合度；

步骤C15，如果是功能字，则将其过滤掉；

步骤C16，还没有被过滤掉的字符确定为有意义串。

8.根据权利要求4所述的面向互联网的有意义串的挖掘方法，其特征在于，所述步骤C1包括下列步骤：

步骤C11′，对一部分训练语料进行标注，生成相邻字的耦合度词典和单字位置成词概率词典；

步骤C12′，取出字符串中首的字对，判断其相邻字的耦合度，如果大于阈值，则认为该字对结合紧密，构成词的首部，则不再对首字的单字位置成词概率进行判断。

9.一种面向互联网的有意义串的挖掘***，其特征在于，包括：

10.根据权利要求9所述的面向互联网的有意义串的挖掘***，其特征在于，所述统计语言模型分析模块，还用于在扫描相邻字对后，根据文本串的位置成词概率，进一步进行过滤字符串而得到有意义串。

11.根据权利要求9或10所述的面向互联网的有意义串的挖掘***，其特征在于，所述上下文邻接特征量为邻接集合、邻接种类、邻接熵、邻接对集合、邻接对种类、邻接对熵中的一种或者一种以上的组合。

12.根据权利要求9或10所述的面向互联网的有意义串的挖掘***，其特征在于，所述记录文本中重复出现的字符串及其出现的频次，是通过后缀树算法、sequitur算法、n元递增分布算法或者改进的n元递增分布算法进行重复串发现而得到的。