CN101079024B

CN101079024B - 一种专业词表动态生成***和方法

Info

Publication number: CN101079024B
Application number: CN2006100360939A
Authority: CN
Inventors: 丁江伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2006-06-19
Filing date: 2006-06-19
Publication date: 2010-06-16
Anticipated expiration: 2026-06-19
Also published as: CN101079024A

Abstract

本发明提供了一种专业词表动态生成***，包括根据主题语义向量对对应文档进行专业分类或聚类的文档分类模块和专业词表生成模块，所述专业词表生成模块用于提取一定数量的、属于一个专业类别的文档的正文，对所有正文中的词汇计算权重，并按权重值大小排序，将排序靠前的N个词汇作为对应专业类别的专业词表。本发明还提供了一种专业词表动态生成方法。本发明的有益效果在于：***能够自动生成专业词表，并且由于应用了基于语义计算的聚类或分类算法，准确率比较高，成本比较低；能够对专业词表进行动态的维护更新；能够发现并记录网络上的新生词汇，并将其归类。

Description

一种专业词表动态生成***和方法

技术领域

本发明涉及网络通信技术，更具体地说，涉及一种专业词表动态生成***和方法。

背景技术

专业领域词表指的是某一专业类别里面的词汇集合。在自然语言处理领域该信息对于诸如搜索、语义相关计算等有很大帮助，现阶段一般是由专人手工收录。很显然，手工建设专业词表的方法比较浪费人力物力，另外手工建设词表取决于录入人的知识，可能有很多词汇没有召回。另外，词汇在不断的消长，手工录入对新造词汇需要一个持续的投入，成本太高。

发明内容

本发明的目的在于针对现有技术的缺陷，提供一种专业词表动态生成***和方法，节省人力物力。

本发明的技术方案是：一种专业词表动态生成***，包括：文档分类模块，其用于获取一定数量文档的主题语义向量，根据所述主题语义向量对所述文档进行按照专业分类或聚类的处理，并按类别进行存储；专业词表生成模块，其用于提取一定数量的、属于一个专业类别的文档的正文，对所有正文中的词汇计算权重，并按权重值大小排序，将排序靠前的N个词汇作为对应专业类别的专业词表；

上述专业词表动态生成***还包括：文档预处理模块，其用于将输入的、不同格式的文档转换为标准格式，并提取文档正文；分词模块，其用于对所述文档预处理模块的输出进行分词，得到所述第一词汇表；主题语义向量计算模块，其用于将所述第一词汇表中的词汇转换为义元，对所述义元计算权重，得到与所述文档一一对应的主题语义向量；文档主题语义向量库，其用于存储对应文档的主题语义向量；以及文档语义向量管理模块，其用于对文档主题语义向量库进行管理，接收所述主题语义向量计算模块的输出，再存入文档主题语义向量库；从所述文档主题语义向量库中获取文档的主题语义向量，并发送到所述文档分类模块。还可以包括：类别文档库，其用于按照专业类别分别存储经过所述文档分类模块分类后的文档。

在一种实施方式中，本发明***还包括类别语义种子向量库，其用于存储代表各专业类别典型特征词汇语义的类别语义种子向量；所述文档分类模块，其用于计算对应文档的主题语义向量与类别语义种子向量库中的各类别语义种子向量的相似度，来对所述文档进行专业分类，并按分类存储到所述类别文档库。

进一步的，所述专业词表生成模块包括：词汇权重计算模块，其用于提取一定数量的、属于一个专业类别的文档的正文，对所有正文中的词汇计算权重，并按权重进行排序；类别标识及关键词提取模块，其用于选取权重最高的词汇或选取所述类别语义种子向量中的类别标识词作为本类别的类别标识词，选取排序靠前的N个词汇作为本专业类别的专业词表，并将所述类别标识词和专业词表发送到专业类别词汇库；专业类别词汇库，其用于存储对应专业类别的专业词表和类别标识词。

本发明一种专业词表动态生成***还可以包括：类别词汇管理模块，其用于接收所述专业词表生成模块的输出，将对应专业类别的最新类别标识词和专业词表与历史类别标识词和专业词表进行合成，再存储到所述专业类别词汇库中。

本发明还提供了一种专业词表动态生成方法，主要包括以下步骤：(a)，文档分类模块获取一定数量文档的主题语义向量，并根据其主题语义向量对文档进行按照专业分类或聚类的处理，并按类别将对应文档存储到类别文档库；(b)，专业词表生成模块从所述类别文档库中提取一定数量的、属于一个专业类别的文档的正文，对所有正文中的词汇计算权重，并按权重值大小排序，将

在一种具体实施方式中，步骤(a)中，进行专业分类的方法是：所述文档分类模块计算对应文档的主题语义向量与类别语义种子向量库中的各类别语义种子向量的相似度，将文档分到相似度最大的那个类别中，并存储到所述类别文档库。

在另一种具体实施方式中，步骤(a)中，所述文档分类模块采用聚类算法对一定数量文档的主题语义向量进行处理，对文档进行专业聚类。

进一步的，步骤(b)包括：专业词表生成模块选取权重最高的词汇或选取对应类别语义种子向量中的类别标识词作为本类别的类别标识词，将所述类别标识词和所述专业词表发送到专业类别词汇库。

步骤(a)中，所述获取一定数量文档的主题语义向量的方法可以包括：(c1)，文档预处理模块将输入的、不同格式的文档转换为标准格式，并提取文档正文内容；(c2)，分词模块对所述文档预处理模块的输出进行分词，得到第一词汇表；(c3)，主题语义向量计算模块将所述第一词汇表中的词汇转换为义元，对所述义元计算权重，得到与所述文档一一对应的主题语义向量，并通过文档语义向量管理模块存储到文档主题语义向量库；(c4)，所述文档语义向量管理模块从所述文档主题语义向量库中或从主题语义向量计算模块中获得一定数量文档的主题语义向量，并发送到所述文档分类模块。

本发明的有益效果在于：①***能够自动生成专业词表，并且由于应用了基于语义计算的聚类或分类算法，准确率比较高，节省了成本。②能够低成本的对专业词表进行动态的维护更新。③能够发现并记录网络上的新生词汇，并将其归类。

附图说明

图1是本发明一种专业词表动态生成***的结构图。

图2是本发明一种专业词表动态生成方法的流程图。

具体实施方式

下面根据附图和具体实施例对本发明作进一步阐述。

如图1所示，本发明一种专业词表动态生成***主要包括顺序相连的文档预处理模块1、分词模块2、分词后处理模块3、主题语义向量计算模块4、文档语义向量管理模块5、文档分类模块7、类别文档库9、词汇权重计算模块10、类别标识及关键词提取模块11、类别词汇管理模块12和专业类别词汇库13。还包括文档主题语义向量库6，其与文档语义向量管理模块5相连。根据需要，还可以包括类别语义种子向量库8。

其中，文档预处理模块1用于根据需要将输入的、不同格式的文档转换为标准格式，并提取文档正文，如果只需要处理一种文档，则不需要对文档进行转换。其中，不同格式的文档可以包括网页、word文档、文本文档、pdf等文档。文档预处理模块1还可具有提取文档标题和分类信息的能力。它与分词模块2相连。

分词模块2用于对所述文档预处理模块1的输出进行分词。本实施例中，分词模块2负责按照词典将转换后文档的正文和标题、类别切分成词汇。如将“我是一个学生”进行分词，分为“我”、“是”、“一个”、“学生”四个词。现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。本实施例中采用基于字符串匹配的分词方法。该方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。

本发明中，分词模块2还具有对切分后的词汇进行词性标注的功能，以方便分词后处理模块3按照词性将词汇中的停用词和虚词等去掉。

分词后处理模块3的功能包括但不限于对分词模块2的输出去停用词、去虚词等功能，剔除对主题无关的信息。

主题语义向量计算模块4负责使用义元词典将分词后的词汇用义元表示，并利用统计语言学原理对文档义元进行计算，计算的结果是对不同的义元赋予了不同的权重，给最能代表文档主题、最能使本文档区别于其他文档的义元赋予高的权重，得到按权重排序的主题语义向量。如(W1，W2，W3......Wn)，其中Wi为第i个义元的权重。如果文档预处理模块11得到了文档的标题和分类信息，则主题语义向量计算模块46在计算的过程中对于文档的分类信息、标题信息和正文信息分别给予不同的统计权值。

本发明在文档主题提取过程中并不是用词汇作为计算单元的，而是使用义元词典将词汇转换成义元表示，是一种基于义元集的语义分析技术。自然语言处理所面临的一个重大难题是词汇稀疏，所以将关键词转换成义元词表示能很大程度上避免词汇稀疏现象，义元集是一个小规模词汇或者义元序号集合，表征了自然界的所有概念，一个义元集元素唯一的、不重复的表示一个概念。

本实施例中，采用Tf-Idf算法对所有义元计算权重。当然也可以采用交叉熵等算法对义元计算权重。Tf-Idf算法采用倒排索引技术，其主要应用在全文检索。该算法可以保证为中等频率的义元赋以高的权重，并排除噪声词汇。

文档主题语义向量库6用于存储对应文档的主题语义向量。

文档语义向量管理模块5负责对文档主题语义向量库6进行管理，接收主题语义向量计算模块4的输出，再存入文档主题语义向量库6。根据文档分类模块7的请求从文档主题语义向量库6中或从主题语义向量计算模块4中获取文档的主题语义向量，并发送到文档分类模块7。

文档分类模块7负责通过文档语义向量管理模块5从文档主题语义向量库6中或从主题语义向量计算模块4中获取一定数量文档的主题语义向量，并根据其主题语义向量对文档进行专业分类或聚类，并按类别将对应文档存储到类别文档库9中

其中，可以采用的分类算法有支持向量机(SVM)算法、贝叶斯算法、K-近邻算法等。可以采用的聚类算法有K均值、c均值、基于密度的聚类算法等。如果采用分类算法，则需要采用类别语义种子向量库8，通过计算主题语义向量与类别语义种子向量库8中的各类别语义种子向量的相似度，将文档分到相似度最大的那个类别中。如果采用聚类算法，则不需要类别语义种子向量库8。由于分类和聚类算法都是比较成熟的技术，故不在此进行详述。本实施例中采用分类算法对文档进行分类。

类别语义种子向量库8用于存储代表各专业类别典型特征词汇语义的类别语义种子向量。每个子向量中权重最高的义元为本类别的类别标识词。类别标识词也叫作领域标识词，指某领域的代表词汇或者具有标识性的词汇，用来作为其代表的领域、类别的别名。

类别文档库9负责按照专业类别分别存储经过文档分类模块7分类后的文档。

词汇权重计算模块10负责从类别文档库9中提取一定数量的、属于一个专业类别的文档的正文，对所有正文中的词汇计算权重，并按权重进行排序。本实施例中采用Tf-Idf算法对所有词汇计算权重。当然也可以采用交叉熵等算法对正文词汇计算权重

由于构成文档的词汇、数量是相当大的，因此表示文档的词汇向量空间的维数也相当大，因此需要使用类别标识及关键词提取模块11来选取权重较高的词汇作为关键词，生成本专业类别的专业词表。而类别标识词的提取决定于文档分类模块7所采用的分类算法。如果采用的是聚类算法，则需选取上述专业词表中权重最高的词汇作为本类别的类别标识词。如果采用的是分类算法，则选取同类类别语义种子向量所对应的类别标识词作为本类别的类别标识词。

类别词汇管理模块12用于接收类别标识及关键词提取模块11的输出，对所述专业类别词汇库13进行管理：接收专业词表生成模块11的输出，将对应专业类别的最新类别标识词和专业词表与历史类别标识词和专业词表进行合成——将衰减后的类别标识词和专业词表与新类别标识词和专业词表进行迭加，形成专业类别词汇库13中最新的类别标识词和专业词表，并存储到专业类别词汇库13中。

专业类别词汇库13用于存储对应专业类别的专业词表和类别标识词。

下面以处理网页为例对本发明一种专业词表动态生成方法进行阐述，其流程如图2所示：

S1，文档预处理模块1从网页存储中心获取一定数量的网页的源文件，同时获得每个网页的分类信息，然后对网页的源文件进行解析，得到网页的语法树，再从网页语法树上面取得网页的标题信息以及正文中具有不同突出显示属性的正文内容，并按照正文中的突出显示顺序记为body1 body2 body3...bodyN。

多数网站导航条里面都指明了某个网页的所属类别信息，即网页的分类信息。分类信息一般是从网站导航树中获得，网站导航树可以是直接由网站中取得，也可以由网站目录树生成。由于本实施例中只处理网页信息，因此不需要进行转换，网页就是标准格式。

S2，分词模块2对网页的类别、标题和正文body1 body2 body3...bodyN进行分词，并对上述切分后的词汇进行词性标注，形成第一词汇表。

S3，分词后处理模块3将第一词汇表中的停用词、虚词等剔除，形成第二词汇表。

S4，主题语义向量计算模块4按照词典和义元词典的对应关系将第二词汇表中的词汇用义元表示，并按照量空间模型的Tf-Idf(特征项赋权因子)等算法给所有义元计算权重并排序，得到带不同权重的、与文档一一对应的主题语义向量，最后通过文档语义向量管理模块5存储到文档主题语义向量库6中。

S5，文档分类模块7通过文档语义向量管理模块5从文档主题语义向量库6获得一定数量的文档的主题语义向量，采用分类算法对上述文档进行分类，在按分类将文档存储到类别文档库9中。

S6，词汇权重计算模块10从类别文档库9中获取属于同一类的所有文档，提取所有文档的正文词汇采用Tf-Idf算法计算权重，并按权重值大小排序，将权重大于p的词汇作为对应专业类别的专业词表。

S7，类别标识及关键词提取模块11提取对应类别的专业词表和类别标识词，合并后通过类别词汇管理模块12发送到专业类别词汇库13。

S8，专业类别词汇库13进行更新。

本发明一种专业词表动态生成***可以与其它***共享文档分类模块7之前的所有模块，即本发明***可以不包括文档分类模块7之前的模块，只要可以得到对应文档的主题语义向量即可。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种专业词表动态生成***，其特征在于，包括：

文档分类模块，其用于获取一定数量文档的主题语义向量，根据所述主题语义向量对所述文档进行按照专业分类或聚类的处理，并按类别进行存储；

专业词表生成模块，其用于提取一定数量的、属于一个专业类别的文档的正文，对所有正文中的词汇计算权重，并按权重值大小排序，将排序靠前的N个词汇作为对应专业类别的专业词表；

还包括：

文档预处理模块，其用于将输入的、不同格式的文档转换为标准格式，并提取文档正文；

分词模块，其用于对所述文档预处理模块的输出进行分词，得到所述第一词汇表；

主题语义向量计算模块，其用于将所述第一词汇表中的词汇转换为义元，对所述义元计算权重，得到与所述文档一一对应的主题语义向量；

文档主题语义向量库，其用于存储对应文档的主题语义向量；

以及文档语义向量管理模块，其用于对文档主题语义向量库进行管理，接收所述主题语义向量计算模块的输出，再存入文档主题语义向量库；从所述文档主题语义向量库中获取文档的主题语义向量，并发送到所述文档分类模块。

2.根据权利要求1所述的一种专业词表动态生成***，其特征在于，还包括：类别文档库，其用于按照专业类别分别存储经过所述文档分类模块分类后的文档。

3.根据权利要求2所述的一种专业词表动态生成***，其特征在于：还包括类别语义种子向量库，其用于存储代表各专业类别典型特征词汇语义的类别语义种子向量；所述文档分类模块，其用于计算对应文档的主题语义向量与类别语义种子向量库中的各类别语义种子向量的相似度，来对所述文档进行专业分类，并按分类存储到所述类别文档库。

4.根据权利要求3所述的一种专业词表动态生成***，其特征在于，所述专业词表生成模块包括：

词汇权重计算模块，其用于提取一定数量的、属于一个专业类别的文档的正文，对所有正文中的词汇计算权重，并按权重进行排序；

类别标识及关键词提取模块，其用于选取权重最高的词汇或选取所述类别语义种子向量中的类别标识词作为本类别的类别标识词，选取排序靠前的N个词汇作为本专业类别的专业词表，并将所述类别标识词和专业词表发送到专业类别词汇库；

专业类别词汇库，其用于存储对应专业类别的专业词表和类别标识词。

5.根据权利要求4所述的一种专业词表动态生成***，其特征在于，还包括：类别词汇管理模块，其用于接收所述专业词表生成模块的输出，将对应专业类别的最新类

别标识词和专业词表与历史类别标识词和专业词表进行合成，再存储到所述专业类别词汇库中。

6.一种专业词表动态生成方法，其特征在于，包括以下步骤：

(a)，文档分类模块获取一定数量文档的主题语义向量，并根据其主题语义向量对文档进行按照专业分类或聚类的处理，并按类别将对应文档存储到类别文档库；

(b)，专业词表生成模块从所述类别文档库中提取一定数量的、属于一个专业类别的文档的正文，对所有正文中的词汇计算权重，并按权重值大小排序，将排序靠前的N个词汇作为对应专业类别的专业词表；

步骤(a)中，所述获取一定数量文档的主题语义向量的方法包括：

(c1)，文档预处理模块将输入的、不同格式的文档转换为标准格式，并提取文档正文内容；

(c2)，分词模块对所述文档预处理模块的输出进行分词，得到第一词汇表；

(c3)，主题语义向量计算模块将所述第一词汇表中的词汇转换为义元，对所述义元计算权重，得到与所述文档一一对应的主题语义向量，并通过文档语义向量管理模块存储到文档主题语义向量库；

(c4)，所述文档语义向量管理模块从所述文档主题语义向量库中或从主题语义向量计算模块中获得一定数量文档的主题语义向量，并发送到所述文档分类模块。

7.根据权利要求6所述的一种专业词表动态生成方法，其特征在于，步骤(a)中，进行专业分类的方法是：

所述文档分类模块计算对应文档的主题语义向量与代表各专业类别典型特征词汇语义的类别语义种子向量库中的各类别语义种子向量的相似度，将文档分到相似度最大的那个类别中，并存储到所述类别文档库。

8.根据权利要求6所述的一种专业词表动态生成方法，其特征在于：步骤(a)中，所述文档分类模块采用聚类算法对一定数量文档的主题语义向量进行处理，对文档进行按照专业聚类的处理。

9.根据权利要求6或7所述的一种专业词表动态生成方法，其特征在于，步骤(b)进一步包括：专业词表生成模块选取权重最高的词汇或选取对应类别语义种子向量中的类别标识词作为本类别的类别标识词，将所述类别标识词和所述专业词表发送到专业类别词汇库。