CN103177126A

CN103177126A - 用于搜索引擎的色情用户查询识别方法及设备

Info

Publication number: CN103177126A
Application number: CN2013101349335A
Authority: CN
Inventors: 程学旗; 熊锦华; 公帅; 张�成; 廖华明; 王元卓
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-04-18
Filing date: 2013-04-18
Publication date: 2013-06-26
Anticipated expiration: 2033-04-18
Also published as: CN103177126B

Abstract

本发明提供一种用于搜索引擎的色情用户查询识别方法，该方法包括基于已标注的用户查询集合，训练用于识别色情用户查询的分类模型，以及利用该训练好的分类模型判断待识别的用户查询是否为色请用户查询。其中，用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征以及用户属于色情查询和非色情查询的概率。该方法不需要基于搜索引擎的查询结果来识别色情查询，而是通过利用用户查询中包含的命名实体特征和语言模型特征实现了快速、有效的色情查询识别。

Description

用于搜索引擎的色情用户查询识别方法及设备

技术领域

本发明涉及信息检索和搜索引擎，尤其涉及搜索引擎中色情用户查询的识别方法。

背景技术

随着互联网规模不断增加，搜索引擎成为互联网上的重要应用***之一。如何准确的理解用户提交到搜索引擎的查询意图是一个重要的技术问题。准确理解用户的查询意图有助于搜索引擎返回更好的结果或者调用相应的垂直搜索引擎，从而提高搜索引擎的用户体验。然而，互联网中的信息纷繁复杂，糟粕与精华并存，搜索引擎的返回结果中往往包含一些不良结果，例如色情页面。正确识别用户查询中是否包含色情意图能够帮助搜索引擎针对色情用户查询采取特殊措施，避免返回色情页面。这对于保护未成年人和构建和谐的互联网都十分重要。

搜索引擎中用户查询意图最初主要分为三类，分别是导航类，信息类，实务类。导航类是指用户期望找到某个网站的首页。信息类是指用户期望找到一些满足需求的网页，这些网页往往是内容型的，例如新闻，百科类的网页。通过阅读这些页面，用户可以得到满意的信息。事务类是指用户期望找到某个网页能够完成某项事务。例如银行转账，购买商品，查询机票信息等。随着互联网的快速发展，近期的研究工作对用户查询意图进行了进一步的细分，例如用户查询是否涉及找工作，是否搜索餐厅，是否下载音乐等等。正确识别这些细粒度的用户查询意图，能够帮助搜索引擎触发正确的垂直搜索引擎。

由于搜索引擎的用户查询较短，文本特征稀疏，且用户查询往往具有歧义性，因此如何准确的识别用户的查询意图具有挑战性。针对这些问题，现有的技术中主要采用下面两类方法进行解决。一类方法利用用户搜索引擎的点击日志来识别用户的查询意图。这类方法利用用户在查询结果页中所点击的网站或页面来识别查询意图，这类方法假设用户点击的页面满足其查询意图，但是当用户点击页面后快速离开却往往意味着查询意图并没有得到满足，这种行为模式在用户点击日志中并没有得到体现。另一类方法通过使用用户查询的搜索结果反向判断用户查询的意图，这类方法利用搜索结果页的主题分布特征来识别用户查询意图的分布，其对在查询日志中出现频率较低的意图识别不够准确。而且这种基于搜索结果反向判断用户查询意图的方法识别查询意图的时间复杂度高，给搜索引擎造成较大的负荷。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种融合命名实体和语言模型的色情用户查询识别方法，能快速有效地识别色情用户查询。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种用于搜索引擎的色情用户查询意图识别方法，包括：步骤1）利用训练好的用于识别色情用户查询的分类模型判断待识别的用户查询是否为色请用户查询；其中，用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征。

上述方法中，用于训练所述分类模型的用户查询特征还包括用户属于色情查询和非色情查询的概率。

上述方法中，所述分类模型可以是基于已标注的用户查询集合通过以下步骤进行训练：

步骤21）基于用户查询日志来训练主题模型；

步骤23）利用训练好的主题模型来提取已标注的用户查询集合中每个用户查询的命名实体和实体上下文主题特征，并以用户查询的命名实体和实体上下文主题特征来训练所述分类模型。

上述方法中，所述分类模型是基于已标注的用户查询集合通过以下步骤进行训练：

步骤21）基于用户查询日志来训练主题模型；

步骤22）基于色情语料和非色情语料分别训练基于统计的语言模型；

步骤23）利用训练好的主题模型来提取已标注的用户查询集合中每个用户查询的命名实体和实体上下文主题特征，利用训练好的语言模型来判断已标注的用户查询集合中每个用户查询属于色情查询和非色情查询的概率，并以用户查询的命名实体和实体上下文主题特征以及用户查询属于色情查询和非色情查询的概率来训练所述分类模型。

上述方法中，所述步骤1）可包括：

通过已收集的色情类型的命名实体集合将待识别的用户查询切分为命名实体和实体上下文两部分，并利用训练好的主题模型提取该用户查询的命名实体和实体上下文主题特征；

基于该用户查询的命名实体和实体上下文主题特征，利用训练好的分类模型判断该用户查询是否为色请用户查询。

上述方法中，所述步骤1）可包括：

利用训练好的语言模型来判断该用户查询属于色情查询和非色情查询的概率，

基于该用户查询的命名实体和实体上下文主题特征以及该用户查询属于色情查询和非色情查询的概率，利用训练好的分类模型判断该用户查询是否为色请用户查询。

上述方法中，所述步骤21）可包括：

通过已收集的色情类型的命名实体集合将用户查询日志中的每个查询切分为命名实体和实体上下文两部分；

将每一个命名实体在用户查询日志中的实体上下文聚合为一篇关于该命名实体的文档，并构造该文档的词频特征向量；

基于从用户查询日志中提取的命名实体和关于命名实体的文档及其词频特征向量来对主题模型进行训练，以得到实体上下文的主题分布特征和每个命名实体的主题分布特征。

另一方面，本发明提供了一种用于搜索引擎的色情用户查询意图识别设备，包括：识别装置，用于利用训练好的用于识别色情用户查询的分类模型判断待识别的用户查询是否为色请用户查询；其中，用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征。

上述设备中，用于训练所述分类模型的用户查询特征还包括用户属于色情查询和非色情查询的概率。

上述设备中，还可包括训练装置，用于基于已标注的用户查询集合，训练所述分类模型。

与现有技术相比，本发明的优点在于：

不需要基于搜索引擎的查询结果来识别色情查询，而是通过利用用户查询中包含的命名实体特征和语言模型特征实现了快速、有效的色情查询识别。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明一个实施例的用于搜索引擎的色情用户查询意图识别方法的流程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明的一个实施例中，提供了一种用于搜索引擎的色情用户查询意图识别的方法。该方法包括离线训练和在线识别两个阶段，在离线训练阶段，可以基于已标注的用户查询集合来训练用于识别色情查询意图的分类模型；在在线识别阶段，可以利用该训练好的分类模型来判断待识别的用户查询是否为色情用户查询。

图1给出了根据本发明实施例的色情用户查询识别方法的流程示意图。该方法包括步骤1）基于已标注的用户查询集合，训练用于识别色情用户查询的分类模型；步骤2）根据待识别的用户查询的特征和该训练好的分类模型来判断该用户查询是否为色请用户查询。

现参考图1，更具体地，在步骤1）基于已标注的用户查询集合，训练用于识别色情用户查询的分类模型（即离线训练阶段）。其中，已标注的用户查询集合包括被标注为色情或非色情的用户查询。例如，通过将用户查询输入通用的搜索引擎，查看其查询结果就可以判断该用户查询是否是色情查询，从而可以对该用户查询进行标注。而分类模型可以采用逻辑回归模型、决策树、支持向量机(Support Vector Machine，SVM)模型等典型的分类模型。

在训练分类模型时，最关键的是以哪些特征来选择样本并训练模型，所谓训练分类模型就是利用样本数据和从样本数据中提取的特征通过训练来学习出分类模型中的参数。在本发明的一个优选实施例中，可以以用户查询中的命名实体的主题分布特征、实体上下文的主题分布特征以及该用户查询属于色情查询和非色情查询的概率这四个特征来训练该分类模型。在该实施例中，可使用训练好的主题模型来发现用户查询中的命名实体及实体上下文的主题分布特征，并且可采用基于统计的语言模型来估计的对于该用户查询属于色情查询和非色情查询的概率。下面将分别介绍如何从已标注的用户查询集合中的每个用户查询中提取上述四个特征。

（1）对于命名实体及实体上下文的主题分布特征，首先基于用户查询日志来训练主题模型，然后使用训练好的主题模型来发现已标注的用户查询集合中每个用户查询的命名实体及实体上下文的主题分布特征。

其中，主题模型通常用来发现文档中隐含的主题分布特征，PLSA(Probabilistic Latent Semantic Analysis，基于概率的隐含语义分析),LDA（Latent Dirichlet Allocation，隐含狄利克雷分配）等都是常用的主题模型。在一个实施例中，可以采用LDA作为主题模型。LDA是一种先进的主题模型，与PLSA相比需要学习更少的参数，因此LDA模型的泛化能力也更强。LDA模型基于词袋（bag of world）假设，适合用来处理用户查询并不构成完整句子的问题。LDA的建模过程是逆向通过文本集合建立生成模型。假设一个语料库中有若干个主题；在生成某个文档时，首先随机选择某一主题；然后选择单词，选择到那些和主题相关的词的概率更高。这样就完成了一个单词的选择。不断选择N个单词，这样就组成了一篇关于多个主题的文档。具体来说，生成一篇文档按照如下步骤：

1.选择N，N服从Poisson(ξ)分布，这里N代表文档的长度，ξ表示泊松分布的参数。

2.选择θ，θ服从Dirichlet(α)分布，这里θ是k维列向量，该列向量中每个元素表示每个主题在该文档发生的概率，α是Dirichlet分布的参数，k表示训练主题模型过程中所设定的主题数量，可根据经验设定，例如可设为10、20等。

3.对N个单词中的每一个:

a)选择主题z_n，z_n服从Multinomial(θ)多项分布。z_n代表当前选择的主题；

b)选择w_n，根据p(w_n|z_n;β)：在z_n条件下的多项分布，p(w_n|z_n;β)表示了对于第n个单词w_n，在选择了主题z_n的情况下生成w_n的概率；β记录了某个主题条件下生成某个单词的概率，实际上β相当于一个矩阵，行为主题（共k行），列为单词，该矩阵中每个元素表示在某个主题下某个单词发生的概率。就本发明的实施例而言，θ表示命名实体的主题分布特征，β表示实体上下文的主题分布特征。

所建立的LDA模型例如为：

p (w | α, β) = \frac{Γ (Σ_{i} α_{i})}{Π_{i} Γ (α_{i})} &Integral; (Π_{i = 1}^{k} θ_{i}^{α_{i} - 1}) (Π_{n = 1}^{N} Σ_{i = 1}^{k} Π_{j = 1}^{V} {(θ_{i} β_{ij})}^{w_{n}^{j}}) dθ

基于用户查询日志对所建立的LDA模型进行训练实际上就是估计出α和β两个参数以及向量θ。

基于用户查询日志来训练主题模型主要包括以下步骤：

（11）通过已收集的特定类型的命名实体集合将用户查询日志中的每个查询切分为命名实体和实体上下文两部分。例如，可以根据这些已收集的特定类型的命名实体构建前缀树结构，然后使用每个用户查询来在所构建的前缀树结构中匹配命名实体，从而从该用户查询中提取出命名实体，该用户查询的其余部分组成为实体上下文。命名实体指用户查询中在有命名性指称的实体，例如人名、地名、机构名、电影名、书名等等。例如，对于用户查询“建国大业放映时间”，其中“建国大业”为命名实体，“放映时间”为实体上下文。对于色情用户查询这种类型，所收集的色情类型的命名实体集合包括收集好的***名、电影名等。当然，除了前缀树结构，也可以使用其他匹配方式来快速查找到用户查询中的命名实体，从而将该用户查询切分为命名实体和实体上下文两部分。

（12）将每一个命名实体在用户查询日志中的实体上下文聚合为一篇关于该命名实体的文档，并构造该文档的词频特征向量。例如，命名实体“卡罗拉”的实体上下文有“维修”，“油耗”，“省油”等，这些单词构成了关于“卡罗拉”命名实体的文档。根据该文档中每个上下文单词的词频和每个上下文单词的id（例如，在该文档中为所有的上下文单词赋予唯一的id）构造整个文档的词频特征向量<f1,f2,….>,其中第i维表示id为i的单词在该文档中的词频，文档中某个单词的词频可以为|d|/|w|，|d|表示某个单词在文档中出现的次数，|w|表示文档的长度。

（13）基于从用户查询日志中提取的命名实体和关于命名实体的文档及其词频特征向量来对所建立的LDA主题模型进行训练，从而得到实体上下文的主题分布特征（即β）以及与每个命名实体对应的命名实体的主题分布特征（即θ）。每个命名实体对应的θ中的第i个元素记录了该命名实体在第i个主题下发生的概率；而β记录了某个主题下生成某个单词的概率。

在基于用户查询日志训练好主题模型之后，就可以使用训练好的主题模型来发现已标注的用户查询集合中每个用户查询的命名实体及实体上下文的主题分布特征。例如，对于已标注的用户查询集合中的每个用户查询，例如通过已收集的特定类型的命名实体集合将该用户查询切分为命名实体和实体上下文两部分，然后从经训练主题模型得到的结果中该用户查询中的命名实体的主题分布特征（即该命名实体对应的θ），并从实体上下文的主题分布特征（即矩阵β）中提取该用户查询中的实体上下文对应的行向量，该行向量中第i个元素表示该实体上下文在第i个主题下发生的概率。也就是说，对于已标注的用户查询集合中的每个用户查询，所提取的命名实体及实体上下文的主题分布特征为两个k维向量。

在该优选的实施例中，不仅考虑用户查询中命名实体的主题分布特征，而且考虑用户查询中实体上下文的主题分布特征。这是因为实体上下文的主题分布特征可以明确了命名实体在用户查询中的意图，例如“高圆圆博客”中“博客”作为实体的上下文，它的主题分布特征与色情意图无关，而查询“高圆圆艳照”中“艳照”作为实体上下文，它的主题分布特征与色情意图是相关的。而且，利用用户查询中的命名实体的主题分布特征和实体上下文的主题分布特征丰富了用户查询特征，可以解决用户查询特征稀疏的问题，不需要借助搜索引擎的查询结果来识别用户查询意图。

此外，在该优选的实施例中，除了用户查询中的命名实体的主题分布特征、实体上下文的主题分布特征之外，还考虑了该用户查询属于色情查询和非色情查询的概率这两个特征，这样不仅可以提高色情查询识别的效率和准确率，而且在待识别的用户查询中不包含命名实体的情况下，也可以有效地识别色情查询。下面将介绍如何提取用户查询属于色情查询和非色情查询的概率这两个特征。

（2）对于用户查询属于色情查询和非色情查询的概率，首先基于色情语料和非色情语料分别训练基于统计的语言模型，例如n-gram语言模型，然后利用训练好的语言模型来判断已标注的用户查询集合中每个用户查询属于色情查询和非色情查询的概率。

在一个实施例中使用色情语料和非色情语料分别训练bi-gram语言模型，即2-gram语言模型，实际上就是统计任意两个单词在色情语料和非色情语料中连续出现的概率。更具体地，在对一个语句进行分词后，每个词是一个句子的最小的结构单位，并假设一个语句s由词w₁，w₂，...，w_n组成。对于色情语料的bi-gram模型，可以形式化为p(q|porn)=∏p_(porn)(w_i|w_i-1)，其中概率p_(porn)(w_i|w_i-1)计算公式如下：

p_{porn} (w_{i} | w_{i - 1}) = \frac{count (w_{i - 1,} w_{i})}{Σ_{w_{j}, j = 1}^{N} count (w_{i - 1,} w_{j})}

count(w_i-1,w_i)为单词对w_i-1w_i在色情语料库中出现的次数，N为该语料库中单词的总数。同理，对于非色情语料的bi-gram模型可形式化为p(q|notporn)=∏p（_notporn）(w_i|w_i-1)，计算公式同上，区别仅在于在非色情语料库中进行统计，例如count(w_i-1,w_i)为单词对w_i-1w_i在非色情语料库中出现的次数。

在基于色情语料和非色情语料分别训练好相应的语言模型后，可利用训练好的语言模型来判断已标注的用户查询集合中每个用户查询属于色情查询的概率和属于非色情查询的概率。

继续参考图1，在步骤1）对于已标注的用户查询集合中的每个用户查询，如上文所述，利用上述训练好的主题模型和语言模型分别提取每个用户查询的特征向量，该特征向量包括：该用户查询中的命名实体和实体上下文的主题分布，该用户查询属于色情查询的概率和属于非色情查询的概率。每个用户查询的特征向量q记为：

q=<k_e,k_context,p(q|porn),p(q|not porn)>

其中，k_e表示k维的命名实体的主题分布向量，对应于主题模型中的参数θ；k_context表示实体上下文的主题分布向量，对应于主题模型中的参数β中的某一行向量；p(q|porn)表示该用户查询属于色情查询的概率，p(q|notporn)表示用户查询属于非色情查询的概率。可见，每个用户查询的特征向量为2k+2维。

然后，基于已标注的用户查询集合中的每个用户查询的特征向量来训练用于识别色情用户查询的分类模型。所述分类模型可以采用逻辑回归模型、决策树、支持向量机(Support Vector Machine，SVM)模型等典型的分类模型。使用分类模型的好处在于一方面更加合理的调整命名实体特征和语言模型特征在识别用户色情查询中所起的作用，另外，采用分类模型能够给出的色情用户查询的置信度，能够帮助搜索引擎进行后续处理，使色情用户查询识别的结果更加具有实用性。

继续参考图1，在步骤2）基于待识别的用户查询的特征和该训练好的分类模型来判断该用户查询是否为色请查询。例如，对于待识别的用户查询，通过已收集的特定类型的命名实体集合将该用户查询切分为命名实体和实体上下文两部分，然后基于训练好的主题模型提取该用户查询中的命名实体的主题分布特征（即该命名实体对应的θ），并从实体上下文的主题分布特征（即矩阵β）中提取该用户查询中的实体上下文对应的行向量，该行向量中第i个元素表示该实体上下文在第i个主题下发生的概率。以及通过训练好的语言模型提取出待识别的用户查询属于色情查询的概率和属于色情查询的概率。这样就可以得到待识别的用户查询的特征向量，然后基于该特征向量和已训练好的分类模型来判断该用户查询是否为色请查询。

此外，还可以将命名实体和实体上下文的主题分布特征（即θ和β）以及已训练的语言模型（即任意两个单词在色情语料和非色情语料中出现的概率）存储在高速缓存中。这样，可以对新输入的用户查询提取特征并使用离线训练好的分类模型来快速判断用户查询是否包含色情意图，而不需要获得搜索引擎返回的结果页后再识别查询意图，缩短了色情查询识别的时间，同时也减轻了搜索引擎的负荷。

应指出，上文介绍的仅是本发明的优选方式。在其他实施例中，在步骤1）也可仅以用户查询中的命名实体的主题分布特征、实体上下文的主题分布特征这两个特征来训练该分类模型，然后利用训练好的分类模型进行识别，采用这两个特征也可以克服用户查询特征稀疏的特点，而不必利用搜索结果，从而减轻了搜索引擎的负荷。

在本发明的又一个实施例中，还提供了一种用于搜索引擎的色情用户查询识别设备，该设备可包括识别装置和训练装置。所述识别装置用于利用该训练好的用于识别色情用户查询的分类模型判断待识别的用户查询是否为色请用户查询。所述训练装置用于利用上文所述的方法基于已标注的用户查询集合，训练用于识别色情用户查询的分类模型；其中，用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征。用于训练所述分类模型的用户查询特征还可以包括用户属于色情查询和非色情查询的概率。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims

1.一种用于搜索引擎的色情用户查询识别方法，该方法包括：

步骤1）利用训练好的用于识别色情用户查询的分类模型判断待识别的用户查询是否为色请用户查询；

其中，用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征。

2.根据权利要求1所述的方法，其中用于训练所述分类模型的用户查询特征还包括用户属于色情查询和非色情查询的概率。

3.根据权利要求1所述的方法，其中，所述分类模型是基于已标注的用户查询集合通过以下步骤进行训练：

步骤21）基于用户查询日志来训练主题模型；

4.根据权利要求2所述的方法，其中，所述分类模型是基于已标注的用户查询集合通过以下步骤进行训练：

步骤21）基于用户查询日志来训练主题模型；

5.根据权利要求3所述的方法，所述步骤1）包括：

6.根据权利要求4所述的方法，所述步骤1）包括：

7.根据权利要求3至6之一所述的方法，所述步骤21）包括：

8.一种用于搜索引擎的色情用户查询识别设备，该设备包括：

识别装置，用于利用训练好的用于识别色情用户查询的分类模型判断待识别的用户查询是否为色请用户查询；其中，用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征。

9.根据权利要求8所述的设备，其中，用于训练所述分类模型的用户查询特征还包括用户属于色情查询和非色情查询的概率。

10.根据权利要求8或9所述的设备，还包括训练装置，用于基于已标注的用户查询集合，训练所述分类模型。

11.根据权利要求10所述的设备，所述训练装置被配置为执行：

基于用户查询日志来训练主题模型；以及

利用训练好的主题模型来提取已标注的用户查询集合中每个用户查询的命名实体和实体上下文主题特征，并以用户查询的命名实体和实体上下文主题特征来训练所述分类模型。

12.根据权利要求10所述的设备，所述训练装置被配置为执行：

基于用户查询日志来训练主题模型；

基于色情语料和非色情语料分别训练基于统计的语言模型；以及

利用训练好的主题模型来提取已标注的用户查询集合中每个用户查询的命名实体和实体上下文主题特征，利用训练好的语言模型来判断已标注的用户查询集合中每个用户查询属于色情查询和非色情查询的概率，并以用户查询的命名实体和实体上下文主题特征以及用户查询属于色情查询和非色情查询的概率来训练所述分类模型。