CN103201718A

CN103201718A - 关于关键词提取的***和方法

Info

Publication number: CN103201718A
Application number: CN2011800531753A
Authority: CN
Inventors: 佐菲亚·斯坦基维兹; 关根聪
Original assignee: Rakuten Inc
Current assignee: Rakuten Group Inc
Priority date: 2010-11-05
Filing date: 2011-11-02
Publication date: 2013-07-10
Also published as: KR20130142124A; JP2013544397A; KR101672579B1; JP5990178B2; US20120117092A1; EP2635965A4; US8874568B2; EP2635965A1; WO2012061462A1

Abstract

一个示例性方面包括一种计算机***，包括：(a)预处理单元，从网页中提取文本，以产生至少第一组候选关键词，应用语言处理以产生至少第二组候选关键词，并将所述第一组和第二组候选关键词组成第一候选池；(b)候选提取单元，从所述预处理单元接收描述至少所述第一候选池的数据，并产生第二候选池；(c)特征提取单元，接收描述至少所述第二候选池的数据，并针对一般特征和语言特征来分析所述第二候选池；以及(d)分类单元，从所述特征提取单元接收描述至少所述第二候选池的所述数据和相关数据，并确定所述第二候选池中每个候选成为主关键词或次关键词的可能性。

Description

关于关键词提取的***和方法

背景技术

关键词提取典型地用作上下文广告***的核心组件，其中基于从页面文本中自动选择的关键词选择与网页内容匹配的广告。为了显示与网页相关、从而可能使用户更感兴趣的广告，需要对文本中出现的许多特征进行评估，以作出哪些关键词准确反映页面内容的决定。

在本文描述的示例性实施例中，关键词提取***将页面url作为输入，并返回由***排序的10个关键词短语作为最高关键词候选。该***首先处理网页文本，并使用它的结构来提取作为关键词候选池的短语。每个短语然后可以由一组特征(例如其在网页上的频率、在文本中的位置、大写及其语言结构(例如，其是否构成名词短语)来描述。基于具有人工标注的关键词的样本网页的集合，该***学习这些特征如何有助于候选短语是否有可能是“好的”关键词的决定。一旦它以这种方式被训练，该***可以被用来识别先前没有见过的网页上的(即，在训练集中所没有的)关键词。

大多数现有的关键词提取***依靠采用统计频率措施(如tf-idf¹)的信息检索模型。示例性***的实施例通过使用自然语言处理技术改进该方式以实现改进的性能。一个或多个示例性实施例采用了一种新的关键词候选提取方法，该方法对于短语结构是敏感的，并且可以包括附加的导致更好的机器学习结果的语言特征。

发明内容

一个示例性方面包括一种计算机***，包括：(a)预处理单元，

----------------------

¹tf-idf权重(词频-逆文档频率)是通常用于信息检索和文本挖掘中的权重。该权重是用于评估词对于集合或文集中的文档的重要性的统计措施。重要性与词在文档中出现的次数成比例地增大，但是由词在文集中的频率来进行偏移。从网页中提取文本，以产生至少第一组的候选关键词，应用语言处理以产生至少第二组的候选关键词，并将所述第一组和第二组候选关键词组成第一候选池；(b)候选提取单元，从所述预处理单元接收描述至少所述第一候选池的数据，并产生第二候选池；(c)特征提取单元，接收描述至少所述第二候选池的数据，并针对一般特征和语言特征来分析所述第二候选池；以及(d)分类单元，从所述特征提取单元接收描述至少所述第二候选池的所述数据和相关数据，并确定所述第二候选池中每个候选成为主关键词或次关键词的可能性。

在一个或多个示例性实施例及其组合中：(1)所述语言处理的至少一部分是由标记器和解析器来执行的；(2)所述语言处理的至少一部分是由标记器(tokenizer)、解析器、词性标注器(tagger)和命名实体标注器来执行的；(3)所述语言处理的至少一部分是由标记器执行的；(4)所述语言处理的至少一部分是由解析器执行的；(5)所述语言处理的至少一部分是由词性标注器执行的；(6)所述语言处理的至少一部分是由命名实体标注器执行的；(7)所述第一组候选关键词包括元数据文本；(8)所述第二候选池包括名词短语和名词序列；(9)所述第二候选池包括名词短语、名词序列和n元语言；(10)所述一般特征包括以下一个或多个：频率、在文档中的位置、大写；(11)所述语言特征涉及以下一个或多个：词性、短语结构和命名实体信息；(12)所述一般特征包括频率特征，并且所述频率特征包括以下一个或多个：所述网页内的相对词频和词频的对数；(13)确定每个候选是主关键词或次关键词的可能性的所述确定基于注释训练数据；(14)确定每个候选是主关键词或次关键词的可能性的所述确定基于通过组合来自多个注释器的注释输入而创建的训练数据，其中每个注释包括主关键词和次关键词之间的区别；(15)所述一般特征包括频率、在文档中的位置和大写，并且所述语言特征涉及词性、短语结构、和命名实体信息；和/或(16)所述一般特征包括频率特征，所述频率特征包括以下一个或多个：所述网页内的相对词频和词频的对数，以及所述语言特征涉及词性、短语结构和命名实体信息。

另一个方面包括一种包括由计算机处理***实现的步骤的方法，所述步骤包括：(a)从网页提取文本以产生至少第一组候选关键词，应用语言处理以产生至少第二组候选关键词，以及将所述第一组和第二组候选关键词组成第一候选池；(b)接收描述至少所述第一候选池的数据，并产生第二候选池；(c)接收描述至少所述第二候选池的数据，并针对一般特征和语言特征分析所述第二候选池；以及(d)从所述特征提取单元接收描述至少所述第二候选池的所述数据和相关数据，并确定所述第二候选池中每个候选是主关键词或次关键词的可能性。

另一个方面包括一种存储有软件的有形计算机可读介质，可操作用于执行如下步骤：(a)从网页提取文本以产生至少第一组候选关键词，应用语言处理以产生至少第二组候选关键词，以及将所述第一组和第二组候选关键词组成第一候选池；(b)接收描述至少所述第一候选池的数据，并产生第二候选池；(c)接收描述至少所述第二候选池的数据，并针对一般特征和语言特征分析所述第二候选池；以及(d)从所述特征提取单元接收描述至少所述第二候选池的所述数据和相关数据，并确定所述第二候选池中每个候选是主关键词或次关键词的可能性。

根据本文所提供的描述和附图，其它方面和实施例对于本领域技术人员将是显而易见的。

附图说明

图1示出了示例实施例的处理的总览图。

图2示出了可以实现示例实施例的计算机***。

具体实施方式

图1示出了计算机实现的示例性实施例的概述。在本说明书的余下部分中，进一步详细描述每一个组件。

示例预处理单元

在示例性实施例中，在可以从页面中选择可能的关键词短语之前，可以从HTML格式中提取页面的纯文本。该文本可以被进一步处理，以获得有关它的结构的信息，该信息对于关键词提取***是有用的。优选地，***的预处理单元执行提取以及标注和格式化网页文本，以便为随后的候选短语选择阶段和特征提取阶段提供合适的输入。

在预处理阶段，首先可以使用BoilerPipe(例如，见[9])从网页中提取内容文本，其消除了样板内容，仅保留页面的主要文本主体。除了主体文本，可以提取如标题、元描述和元关键词的首部信息，并与BoilerPipe输出组合以形成用于进一步处理的纯文本输入。

然后，页面文本可以被标记，而且标记器的输出传递至词性标注器(例如，见[18])和解析器(例如，见[13])。由于构成名词短语的关键词有一种倾向，解析器输出可用于在文本中查找名词短语。使用解析器而不是分块器(chunker)可能由获得更细粒度的分层短语结构信息(与基本的名词短语块相比)的愿望而激励，以改进关键词候选提取。

由于命名实体(“NE”)(如个人或组织名称)可能是有用的关键词，还可以从网页文本中提取命名实体。优选地使用两个不同的NE***(参见，例如[18]、[4])，以提供更大的一组实体类型的覆盖。

示例性候选提取单元

候选提取可用于选择作为可能关键词的短语，并且可以用作分类器的输入，该分类器估计给定的短语是关键词的可能性。此外，在示例性分类器的训练阶段，候选提取的更好的精度有助于过滤不可能是关键词的词组合，从而降低了负面训练样本的数量，由此提高了正面与负面训练数据的比率(关键词提取任务具有正面和负面样本之间的不平衡，有极少数的正面标签数据)。

在示例性实施例中，关键词提取方法如下执行。首先，通过递归地从解析的文本中提取所有名词短语，形成基础候选集。然后，仅包括名词的(从左到右提取的)所有候选子序列被加入候选集(例如，如果最好的Nixon相机配件是候选，Nixon相机配件、相机配件和配件将被添加到候选集)。最后，向候选集添加从候选短语中提取的所有一元语言(unigram)、二元语言(bigrams)和三元语言(trigrams)。

也可以参照最常见的英语单词的停止列表来过滤候选集。优选地，从候选集中移除包含停止词的一元语言或二元语言。然而，可以保留在短语中部包含停止列表中的词的较长短语。

示例性关键词分类单元

为了识别哪些候选短语是关键词，示例性实施例采用了分类器，该分类器使用输入(候选短语的特征)来估计短语是关键词的概率，并向短语指派输出标签(关键词或非关键词)。可以使用监督机器学习来获得将特征输入映射到关键词标签的分类器功能。也就是说，映射可以由分类器***根据其中“正确”输出的标签已被人类注解者提供的数据集来学习。

为了训练用于示例性***的分类器，可使用最大熵(ME)模型(这有时被称为逻辑回归模型，请参见[11]的介绍)。ME模型从训练数据中导出约束，并假定不包括训练集的最大熵分布。ME分类器的输入由每个关键词候选的值向量组成，其由模型使用以学习与每个特征相关联的权重。给定新的输入数据，然后训练分类器可以计算在给定该候选短语的输入值的情况下短语是关键词的概率。

给定输入值

标签c的概率可以根据以下公式来计算：

P (c | \overset{&RightArrow;}{x}) = \frac{\exp (\underset{i}{Σ} α_{i} f_{i} (\overset{&RightArrow;}{x}, c))}{1 + \exp (\underset{i}{Σ} α_{i} f_{i} (\overset{&RightArrow;}{x}, c))}

其中，f是联合特征(输入向量和标签的函数)，α是指派给该特征的权重。

--------------------

²CG是指共轭梯度方法，用于求解稀疏线性等式***的标准迭代方法，作为分类器库中的训练方法之一而提供。CG需要以Python和NLTK来安装scipy包(http：//www.scipy.ore/)。

为了训练最大熵分类器，可以使用自然语言工具包(NLTK；见[1])中提供的Python库。CG²可被用作训练方法。然而，由于该算法在唯一解上收敛，训练方法的选择对分类器的性能不产生影响，并且本领域技术人员将认识到，在不脱离本文描述的本发明的范围的情况下，可以使用其他的训练方法。例如，可以使用例如支持向量机(rbf核)(见[8])的其他学习方法，但本发明的发明人没有发现超越使用ME模型所获得的结果。

由于正面和负面的训练数据的不平衡(即，训练数据中的大多数候选短语通常不是关键词)，可以选择不使用由分类器指派的标签(关键词或非关键词)，而是直接基于概率分数对候选进行排序，例如选择具有给定网页中最高概率的10个候选。

示例性特征

可以针对每一个关键词候选来计算特征值集合，并将其用作分类器的输入。特征的选择对分类器的性能起着重要的作用。特征可分为两种类型：(a)一般的非语言特征，以及(b)语言特征。一般特征可类似于[17]中描述的***所采用的特征，并且包括如频率、在文档中的位置和大写之类的信息。语言特征利用词性、短语结构和命名实体信息。在下面更详细地描述两种类型的特征。

表1：示例性分类特征

示例性一般特征

频率特征提供与TFxlDF³类似的信息。频率特征可以包括文档内的相对词频、词频的对数以及DF(文档集合中的频率)和logDF值。可以使用来自Google Ngram文集的频率来逼近DF值。优选地，仅使用一元语言和二元语言频率信息来计算DF。对于超过2个单词的候选短语，也可以使用短语中的所有二元语言的DF平均值作为DF值。可以使用平均值，以获得不同长度的短语的类似范围的值。此外，可以使用针对完整的博客集合计算的DF值来替代来自Google Ngram文集的频率。

2.标题

候选短语是否在在文档的标题中。

3.大写

大写单词包括正确的名称或给定文档中标记为重要词的单词。示例性大写特征是：关键词候选中的所有单词是否为大写，以及关键词候选中的至少一个单词是否为大写。

4.位置

关键词候选在文档内第一次出现的相对位置，由单词的个数来计算。例如，如果文档具有20个单词且候选短语的第1个单词是文档中的

-------------------------

³TFxIDF是指词频-逆文档频率，是信息检索中使用的用于评估词的相对重要性的标准分数。其基于词在给定文档中的频率被其在文档集合中的总频率的偏移。针对tf和idf的标准公式是：

其中n_i，j是考虑的词i在文档j中出现的次数；以及

它是集合中所有文档的个数除以包含词i的文档的个数的对数。第5个单词，则位置＝5/20＝0.25。

5.长度

候选短语中的词的个数。

6.URL

候选短语是否在页面url中。

7.Wiki-业务

可以使用基于***业务的特征来反映作为频繁搜索/查询项的关键词候选的流行度。这个特征集合可以包括：候选短语是否是***标题(包括重定向)，以及候选短语的业务数据(如果候选不是***标题，则为0)。业务统计可以基于特定时间段(例如，2010年6月中的20天时间段)上聚集的每小时的***日志。

示例性语言特征

1.名词短语

候选是否为名词短语或包含名词短语。

2.名词

候选短语是否包含至少一个名词，以及候选短语是否仅包括名词。

3.POS标记

指派给候选短语的词性标记的序列。

4.命名实体

关键词候选是否为命名实体，其是否包含命名实体以及指派给候选的命名实体标记(如果候选短语不是NE，则为“O”)。

5.PMI

逐点互信息(PMI)反映短语是否可能是连语。候选短语的PMl分数可以计算如下：

对于二元语言，

PMI (w_{1}, w_{2}) = \log \frac{(P (w_{1}, w_{2}))}{P (w_{1}) * P (w_{2})},

其中P(w)是词或短语的相对频率。

对于单个单词，

PMI = \log \frac{1}{P (w)} .

对于大于2个单词的候选短语，可以将PMI设置为针对短语中所有二元语言的PMI分数的平均值。

示例性估计和数据

示例性训练数据

训练数据可以包括比如500个网页(从博客页面文集中随机选择；参见[3])。可以向注释者呈现从博客页面中提取的纯文本，并指导注释者选择最佳地表达页面内容的关键词。优选地，来自首部的元信息不包括在注释文本中。可选地，没有对可针对单个页面选择的关键词的个数进行限制。还可以注释附加页面，并留出作为未用于训练的测试集。

注释者间的一致性(agreement)和黄金标准

对于每一个页面，优选地由两个注释者选择关键词。然而，对于此任务，注释者间的一致性可能不高(例如，在一个实现中，注释者的kappa⁴分数是0.49)。低的kappa分数可能由于以下原因：首先，注释者可能标记仅部分匹配的类似短语。其次，当未指定能够选择的关键词的最大数目时，针对给定文本，一个注释者可能比另一个注释者选择更多数目的关键词。

为了创建不依赖于单个注释者的黄金标准(GS)，可以合并来自两个注释者的输出。当注释关键词时，可以指导注释者还选择关键词是“主关键词”还是“次关键词”。主关键词可以被定义为捕捉文档的主话题或中心思想的关键词。次关键词可以被定义为提供与文档有关的额外关键信息(例如事件发生的位置、曾提到的附加但是重要的数字

--------------------

⁴Cohen的kappa系数是一般用于测量分类任务的注释者间的一致性的统计测量。Kappa被计算为

其中P(A)是编码器中观察到的一致性，以及P(E)是编码器偶尔一致的概率。0.6-0.7以上的kappa分数被认为是“基本一致”。等)的重要短语。为了创建准确地反映两个注释者的选择的关键词集，可以保留GS中的以下关键词：

1.已经被(一个注释者或两个注释者)标记为主的所有关键词。

2.两个注释者选择了的次关键词。

3.仅由一个人选择的、但是与另一个注释者选择的主关键词部分匹配的次关键词。

在使用GS的示例性实施例中，每一个注释者与标准之间的kappa分数是：对于注释者1是0.75，对于注释者2是0.74。下表2中示出了针对主和次关键词的详细一致性统计。

表2

注释者1/注释者2	主	次	非关键词
				主	1652	319	1796
次	437	264	1777
				非关键词	1069	264	//////

示例性候选提取单元

如上所述，示例性实施例使用名词短语作为基础候选集，但是向候选池添加了从名词短语中提取的名词序列和一元语言、二元语言和三元语言。

用于从文本中获得所有可能的候选短语的一种现有方法是将多达长度n(典型地是3-5)的所有n元语言包括在候选集中。这种n元语言方法的严重缺点是其引入了大量噪声(是无意义的短语和/或不可能是潜在的关键词的单词序列的形式)。因此，n元语言方法的精度低。

备选的现有方法是使用语言结构暗示来提取候选。因为关键词倾向于名词短语，来自文本的所有名词短语可以用于形成候选池。然而，该方法比n元语言方法具有明显更低的再调用，意味着许多潜在的关键词未包括在候选集中。

本发明的发明人已经利用示例性实施例中的提取方法对n元语言和名词短语策略的精度、再调用和F措施进行了比较。换言之，本发明的发明人已经评估了将每一种方式用作选择关键词的仅有方法(没有进一步的分类阶段)时的有效性。结果归纳如下表3。

表3：候选提取方法的比较

如表3中所示，n元语言方法具有高于80％的再调用，但是其还是具有三种方法中最低的精度(即，候选集包括大量噪声)。提取名词短语作为候选具有增加精度的优点，但是该方法具有很低的再调用(仅26％)，所以丢失潜在关键词的可能性较高。

相反，本发明的方法的示例性实施例与提取名词短语相比提高了再调用。该方法的再调用与n元语言方法相当，但是精度更高。下文描述不同方法与分类器性能相结合的评估结果。

分类器性能

为了评定整体***性能，基于[17]将本发明的***所实现的结果与基线进行比较。在基线***中，候选提取方法是n元语言方法，而且特征包括一般非语言特征(加上NP/名词特征的简单集合)。分析了以下内容：***性能怎样随着(a)组合候选提取方法的使用和(b)在分类阶段添加语言特征而变化。

在将本发明的***和基线相比较时，使用了两种估计措施：

1.R-精度(前n个结果中有多少个候选是关键词，其中n是页面上可能的关键词的总数)。

2.前10分数(类似于R-精度，但是仅取前10个结果，即所有n＞10被设为10)。

前10措施用于评估，因为其提供了当具有前10分数的候选被选作关键词输出时分类器如何作为提取***来执行的估计。基于从未在分类器训练中使用的100个网页的提供(held-out)测试集来测试***性能(见表4)，并且基于500页面训练集来进行相互确认测试(10次合并，每次大约50个文档；见表5)。

表4：针对提供集的前10分数结果

方法	一般特征	一般+语言特征
			N元语言	43.71	47.24
本发明	48.28	49.84

表5：针对相互确认测试的前10分数结果

方法	一般特征	一般+语言特征
			N元语言	45.97	49.01
本发明	48.21	51.74

基线和本发明的***之间在结果上的不同在统计上是显著的(根据对相互确认结果的双尾配对t测试，p＝0.0001)。超越基线的相对改进是12.55％。

相关实施例

存在用于针对给定网页来选择上下文合适的广告的两种优选方法。一种方法包括将网页文本与广告池直接匹配。在另一种方法中，页面和广告之间的匹配包括中间关键词提取步骤。以下给出每一种方法的示例。

关键词提取

1.KEA[5]

2.GenEx[15]，[14]

3.Yih等[17]

4.Hulth[7]，[6]

5.其他：[10]，[16]

上下文广告

1.Broder等[2]

2.Ribeiro-Neto等[12]

在本文描述的特定的示例性***和方法实施例中，关键词提取优选地包括：(a)预处理，包括从网页提取文本和语言处理，例如词性标注和解析；(b)关键词候选短语的提取；以及(c)使用监督机器学习的候选分类。

本发明的***和方法可以实现改进的性能，这是由于在候选选择和特征提取阶段都使用了语言信息。示例性实施例包括使用分层短语结构的候选选择，导致更小的噪声候选池。可以用于分类的特征还包括语言特征(例如词性和命名实体信息)，导致改进的分类器性能。

实施例包括对于本领域技术人员显而易见的计算机组件和计算机实施的步骤。例如，可以以电子方式来执行计算和通信，并且可以使用图形用户接口来显示结果。

图2中描述了该示例性***。计算机100经由网络110与服务器130通信。多个数据源120-121也经由网络110与服务器130、处理器150和/或可操作地计算和/或发送信息的其他组件通信。服务器130可以耦合到一个或更多个存储设备140、一个或更多个处理器150和软件160。

在实施例中，本文描述的计算和等同物完全以电子方式执行。还可以使用其他组件和组件的组合来支持本文描述的处理数据或其他计算，这对于本领域技术人员将是明显的。服务器130可以便于数据从存储设备140向和从处理器150的通信，以及向计算机100的通信。处理器150可以可选地包括本地或联网存储器(未示出)或与之进行通信，该存储器可用于存储临时或其他信息。软件160可以在计算机100、处理器150本地安装和/或中心支持，用于便于计算和应用。

为了便于说明，本文描述的本发明中并非每个步骤或元件都作为计算机***的一部分，但是本领域技术人员将会认识到，每一个步骤或元件可以具有对应的计算机***或软件组件。该计算机***和/或软件组件可以通过描述它们的对应步骤或元件(即，它们的功能)来实现，并且在本发明的范围内。

此外，当描述或请求保护的计算机***具有用于执行特定功能的处理器时，本领域技术人员可以理解，该使用不应被解释为将单个处理器(例如，执行被委派给各个处理器的一些或全部任务)的***排除在外。即，说明书和/或权利要求中指定的处理器的任意组合或全部可以是同一个处理器。所有这些组合在本发明的范围内。

备选地或组合地，可以通过功能上等同的电路(例如数字信号处理器电路或专用集成电路)来执行处理和决策制定。

许多例程要素(例如循环和变量的初始化以及临时变量的使用)本文没有描述。此外，本领域技术人员可以理解，除非另有指出，否则所描述的步骤的特定顺序仅是示意性的，并且可以一般性地改变而不背离本发明的范围。除非另有声明，否则本文描述的处理是无序的，即，可以以任何适当的顺序来执行这些处理。

本领域技术人员可以理解，本文描述的所有步骤在可行的情况下能够通过软件来实现。此外，本领域技术人员可以理解，该软件能够存储在非瞬时计算机可读介质上，并且由一个或更多个计算机处理器来执行。

尽管已经结合本文概述的示例性方面的实施例对本发明做出描述，许多备选、修改和变体对于本领域技术人员来说是明显的。因此，本发明的示例性方面和实施例(如本文所提出)意在是示意性的而非限制。在不背离本发明的精神和范围的前提下，可以进行各种改变。

参考文献

[1]Bird，Steven，Edward Loper and Ewan Klein.Natural LanguageProcessing with Python.O′Reilly Media Inc.，2009.

[2]Broder，Andrei and Fontoura，Marcus and Josifovski，Vanja and Riedel，Lance.A semantic approach to contextual advertising.SIGIR′07：Proceedings of the30th annual international ACM SIGIR conference on Research and development ininformation retrieval，pages 559--566，New York，NY，USA，2007.ACM.

[3]Kevin Burton and Akshay Java and Ian Soboroff.The ICWSM2009Spinn3r Dataset.San Jose.CA，2009.

[4]Finkel，Jenny Rose and Grenager.Trond and Manning，Christopher.Incorporating non-local information into information extraction systems by(iibbssampling.ACL′05：Proceedings of the 43rd Annual Meeting on Association forComputational Linguistics，pages 363--370，Morristown，NJ，USA，2005.Associationfor Computational Linguistics.

[5]Frank，Eibe and Paynter，Gordon W.and Witten，lan H.and Gutwin，Car1 and Nevill-Manning，Craig G.Domain-specific keyphrase extraction.IJCAI′99：Proceedings of the 16th international joint conference on Artificial intellingence，pages668--673，San Francisco，CA，USA，1999.Morgan Kaufmann Publishers Inc.

[6]Hulth，Anette.Automatic Keyword Extraction.Combining MachineLearning and Natural Language Processing.Verlag Dr.Muller，2008.

[7]Hulth，Anette.Improved automatic keyword extraction given morelinguistic knowledge.Proceedings of the 2003 conference on Empirical methods innatural language processing.pages 216--223，Morristown，NJ，USA，2003.Associationfor Computational Linguistics.

[8]Joachims，Thorsten.Making large-scale support vector machine learningpractical.：169--184.1999.

[9]Kohlschǖtter，Christian and Fankhauser，Peter and Nejdl，Wolfgang.Boilerplate detection using shallow text features.WSDM′10：Proceedings of the thirdACM international conference on Web search and data mining，pages 441--450，NewYork，NY，USA，2010.ACM.

[10]Matsuo，Y.and Ishizuka，M.Keyword Extraction from a Documentusing Word Co-occurrence Statistical Information.Transactions of the Japanese，Society for Artificial Intelligence，17：217-223，2002.

[11]Adwait Ratnaparkhi.A Simple Introduction to Maximum EntropyModels for Natural Language Processing.Technical report，IRCS，1997.

[12]Ribeiro-Neto，Berthier and Cristo，Marco and Golgher，Paulo B.andSilva de Moura，Edleno.Impedance coupling in content-targeted advertising.SIGIR′05：Proceeeings of the 28th annual international ACM SIGIR conference on Researchand development in information retrieval，pages 496--503，NeW York，NY，USA，2005.ACM.

[13]Sekine，Satoshi and Ralph Grishman.A corpus based probabilisticgrammar with only two non-terminals.Fourth International Workshop on ParsingTechnology，1995.

[14]Turney，Peter D.Coherent keyphrase extraction via web mining.IJCAI′03：Proceedings of the 18th international joint conference on Artificial intelligence，pages 434--439，San Francisco，CA，USA，2003.Morgan Kaufmann Publishers Inc.

[15]Turney，Peter D.Learning Algorithms for Keyphrase Extraction.Inf.Retr.，2(4)：303--336，2000.

[16]Wu，Xiaoyuan and Bolivar，Alvaro.Keyword extraction for contextualadvertisement.WWW′08：Proceeding of the 17th international conference on WorldWide Web，pages 1195--1196.New York．NY，USA，2008.ACM.

[17]Yih，Wen-tau and Goodman，Joshua and Carvalho，Vitor R.Findingadvertising keywords on web pages.WWW′06：Proceedings of the 15th internationalconference on World Wide Web，pages 213--222，NeW York，NY，USA，2006.ACM.

[18]OAK System.http://nlp.cs.nyu.edu/oak/.

Claims

1.一种计算机***，包括：

(a)预处理单元，从网页中提取文本以产生至少第一组候选关键词，应用语言处理以产生至少第二组候选关键词，并将所述第一组候选关键词和第二组候选关键词组成第一候选池；

(b)候选提取单元，从所述预处理单元接收描述至少所述第一候选池的数据，并产生第二候选池；

(c)特征提取单元，接收描述至少所述第二候选池的数据，并针对一般特征和语言特征来分析所述第二候选池；以及

(d)分类单元，从所述特征提取单元接收描述至少所述第二候选池的所述数据和相关数据，并确定所述第二候选池中每个候选是主关键词或次关键词的可能性。

2.根据权利要求1所述的计算机***，其中，所述语言处理的至少一部分是由标记器和解析器来执行的。

3.根据权利要求1所述的计算机***，其中，所述语言处理的至少一部分是由标记器、解析器、词性标注器和命名实体标注器来执行的。

4.根据权利要求1所述的计算机***，其中，所述语言处理的至少一部分是由标记器执行的。

5.根据权利要求1所述的计算机***，其中，所述语言处理的至少一部分是由解析器执行的。

6.根据权利要求1所述的计算机***，其中，所述语言处理的至少一部分是由词性标注器执行的。

7.根据权利要求1所述的计算机***，其中，所述语言处理的至少一部分是由命名实体标注器执行的。

8.根据权利要求1所述的计算机***，其中，所述第一组候选关键词包括元数据文本。

9.根据权利要求1所述的计算机***，其中，所述第二候选池包括名词短语和名词序列。

10.根据权利要求1所述的计算机***，其中，所述第二候选池包括名词短语、名词序列和n元语言。

11.根据权利要求1所述的计算机***，其中，所述一般特征包括以下一个或更多个：频率、文档中的位置和大写。

12.根据权利要求1所述的计算机***，其中，所述语言特征涉及以下一个或更多个：词性、短语结构和命名实体信息。

13.根据权利要求1所述的计算机***，其中，所述一般特征包括频率特征，并且所述频率特征包括以下一个或更多个：所述网页内的相对词频和词频的对数。

14.根据权利要求1所述的计算机***，其中，基于注释训练数据来确定每个候选是主关键词或次关键词的可能性。

15.根据权利要求1所述的计算机***，其中，基于通过组合来自多个注释器的注释输入而创建的训练数据来确定每个候选是主关键词或次关键词的可能性，以及每个注释包括主关键词和次关键词之间的区别。

16.根据权利要求1所述的计算机***，其中，所述一般特征包括频率、文档中的位置和大写，并且所述语言特征涉及词性、短语结构和命名实体信息。

17.根据权利要求1所述的计算机***，其中，所述一般特征包括频率特征，所述频率特征包括以下一个或更多个：所述网页内的相对词频和词频的对数，以及所述语言特征涉及词性、短语结构和命名实体信息。

18.一种包括由计算机处理***实现的步骤的方法，所述步骤包括：

(a)从网页提取文本以产生至少第一组候选关键词，应用语言处理以产生至少第二组候选关键词，以及将所述第一组候选关键词和第二组候选关键词组成第一候选池；

(b)接收描述至少所述第一候选池的数据，并产生第二候选池；

(c)接收描述至少所述第二候选池的数据，并针对一般特征和语言特征分析所述第二候选池；以及

(d)从所述特征提取单元接收描述至少所述第二候选池的所述数据和相关数据，并确定所述第二候选池中每个候选是主关键词或次关键词的可能性。

19.一种存储有软件的有形计算机可读介质，操作用于执行如下步骤：

(a)从网页提取文本以产生至少第一组候选关键词，应用语言处理以产生至少第二组候选关键词，以及将所述第一组和第二组候选关键词组成第一候选池；