CN101344890A

CN101344890A - 一种基于观点检索的信息检索文档的评分方法

Info

Publication number: CN101344890A
Application number: CNA2008101186680A
Authority: CN
Inventors: 张敏; 马少平
Original assignee: Tsinghua University
Current assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Priority date: 2008-08-22
Filing date: 2008-08-22
Publication date: 2009-01-14
Anticipated expiration: 2028-08-22
Also published as: CN100570611C

Abstract

一种基于观点检索的信息检索文档的评分方法属于信息处理领域。其特征在于：它首先建立情感词列表，在列表中指定要在检索***中使用的所有带有感情色彩的词，然后根据用户具体输入的查询，生成候选结果集合；其次在***中计算文档与用户查询之间的相关性，得到每篇文档的相关性评分；然后根据文档中与查询词在一定距离范围内共同出现的情感词的次数，计算出***中每篇文档的主客观性评分；再将一篇文档的相关性评分和主客观性评分进行基于二次函数(即相乘)的合并，得到合并后的文档最终评分；最后检索***根据文档的最终评分对***中的所有候选文档进行排序，并按照评分从大到小的次序显示给用户。该技术具有计算机自动完成，能够返回既具有高相关性又带有强烈主观意见的检索结果的优点。

Description

一种基于观点检索的信息检索文档的评分方法

技术领域

本发明属于信息处理领域，特别是涉及信息检索***，具体说是在信息检索***中对文档进行评分的方法，最终得到与用户查询相关的且带有主观意见的检索结果。

背景技术

信息检索***是以一定的策略收集信息(例如互联网上的网页文档，或数字图书馆中的数字文档等)，对信息进行组织和处理后为用户提供检索服务的计算机***，它包括计算机硬件***以及在硬件***上运行的软件程序两个部分。它的主要作用是帮助用户快捷、高效的获取那些能够满足用户需求的有用信息。

信息检索***通过查询服务器与用户进行交互。一方面查询服务器提供一个可供用户输入或选择自己的查询需求的页面，通常查询需求由一个或几个关键词构成。另一方面查询服务器针对用户提交的查询，在***内所有的文档中进行检索，返回排序后的相关结果列表，并在结果页面中按顺序展示给用户。其中对***内文档的排序依据就是文档与用户查询之间的相关性评分，评分越高，排序越靠前。因此查询服务器中的一个关键技术是如何计算文档的相关性，得到可供排序的相关性评分，从而使得用户想要的页面排在返回结果的前列位置，相关信息更容易被用户访问到。

随着信息检索***的发展，人们也开始提出了更多更复杂的查询需求，其中一种重要需求是观点检索(opinion search)。在观点检索中，***不仅要找出与用户查询相关的信息，而且这些信息必须带有一定的感情色彩，即检索***要返回相关的且带有主观性意见的信息。而那些仅仅是客观性描述的相关信息也被认为不符合用户需求。例如一个用户想要买一款手机，那么他在检索***中输入查询“N95手机”进行观点检索，希望返回的内容是其他用户或者评论中关于N95的各种性能和功能上的意见，例如手机的价格是否便宜，外观是否好看，电池是否耐用，总体评价是否好，等等。在这样的要求下，查询服务器不仅要计算每个文档的相关性评分，还要计算其主客观性评分，然后将这两种评分合并到一起，形成一篇文档的最终得分，并排序后返回给用户。

从20世纪60年代中期以来，人们提出了很多计算文档与用户查询的相关性的模型。其主要的思想就是“TF*IDF”，即一方面考虑用户的查询词在一篇文档中出现的次数，出现次数越多越有可能相关，另一方面考虑这个查询词在全部文档中的常见程度，越常见，其区分能力越弱。当前应用广泛的模型主要有布尔模型(Boolean Model)，统计模型(Statistical Model)和语言知识模型(Linguistic and Knowledge-based Model)。

在计算文档的主客观性评分方面，一种常用的方法是看这篇文档中出现了多少带有主观性感情色彩的词(通常称为情感词)。出现的情感词越多，则文档的主客观性评分越高。其中情感词通常由一个人工或自动的方法事先构建好的情感词列表给出。另一种方法是通过文本分类的技术，把一篇文档分为主观类或客观类，根据该文档属于某类的程度不同，得到该文档的主客观性评分。

在观点检索中，如何将主客观性评分和相关性评分合并起来，是影响观点检索***性能的一个重要因素。由于缺乏深入研究，目前的相关技术中并没有把这两个评分之间的联系建立起来，常用的方法是把这两种评分以一定的比例进行简单地相加(例如将客观性评分乘以A，将相关性评分乘以B，并把二者加起来。A和B是事先给定的数值)。不少实验结果表明，这种方法不能很好地满足用户的观点检索需求。甚至在很多情况下，经过这种相关性和主客观性评分合并之后的结果，其性能还不如只使用相关性评分进行排序后提供给用户的结果的效果。因此，有必要提出一种有效地合并相关性和主客观性评分的方法，以改进信息检索***的性能，满足用户进行观点检索的需求。

发明内容

观点检索***要根据用户需求，返回与用户查询相关的、且带有主观性意见的信息。本发明提出一种既考虑文档的主客观性又考虑文档的相关性的评分方法。不同于传统的加权线性合并方法(即对两个评分分别乘以一个常数的权值，然后以相加的方式合并起来)，在本发明提出的合并方法中，综合考虑了相关性对主客观性的影响，将相关性评分与主客观评分以二次函数(即相乘)的关系合并起来。其中特别考虑到两种评分的取值差异，将主客观评分进行了取对数(log)的归一化处理。通过这种合并方法，最终排序后返回给用户的结果文档中，那些排序靠前的文档既具有很高的相关性，又具有很强的主观性，从而有效地改进观点检索***的性能，方便用户在较早出现的结果页面中就能进行信息的访问，因此更能满足用户观点检索的需求。

该方法的具体内容如下：

1.首先建立情感词列表，在列表中指定要在检索***中使用的所有带有感情色彩的词，然后针对用户输入给***的查询，***自动找出候选文档集合；

2.在检索***中计算每篇文档与用户输入的查询之间的相关性程度，得到文档的相关性评分；

3.根据一篇文档中与查询词在设定距离范围内共同出现的带有感情色彩的词(即情感词)的个数，计算出文档的主客观评分；

4.将一篇文档的相关性评分和主客观评分进行基于二次函数(即相乘)的合并，得到合并后的文档最终评分；

5.检索***根据最终评分对***中的所有候选文档进行排序，并按照评分从大到小的次序显示给用户。

本发明的特征在于：

所述方法是在一个计算机信息检索***中依次按以下步骤实现的：

步骤(1).在所述***的观点检索服务器中建立一个中、英文对照的情感词列表，所述情感词至少包括下列所有属性中的一个属性：好、良、美、伟、坏、莠以及伪；

步骤(2).针对用户输入的至少一个查询词w_i，所述***通过信息检索把所有带有用户查询中任一查询词w_i的文档d自动挑选出来，作为候选文档集合，所述候选文档简称为文档d，并建立文档索引，统计所有被索引的文档总数N，计算平均每篇文档中所包含的词数avdl；同时，对用户的每一个查询词w_i，统计所述候选文档集合中所有出现了该查询词w_i的文档d的总数，用变量df(w_i)表示；

步骤(3).按下式计算每一篇文档d与用户查询中的每一个查询词w_i的相关性评分ScoreI_rel(d，w_i)：

{ScoreI}_{rel} (d, w_{i}) = \ln (\frac{N - df (w_{i}) + 0.5}{df (w_{i}) + 0.5}) \times \frac{(k_{1} + 1) \times c (w_{i}, d)}{k_{1} (1 - b) + b \frac{l_{d}}{avdl} + c (w_{i}, d)} \times \frac{(k_{3} + 1) \times c (w_{i}, q)}{k_{3} + c (w_{i}, q)},

其中：k₁是1.0～2.0之间的常数，

c(w_i，d)是词w_i在文档d中出现的总次数，

c(w_i，q)是词w_i出现在用户查询Q中的总次数，

b是0.0～1.0之间的常数，

l_d是文档d的长度，用文档d中的总词数表示，

k₃是0～1000之间的整数常数；

步骤(4).按下式把每一篇文档d与用户查询中的所有查询词的相关性评分相加，得到该文档d关于用户查询Q的相关性评分，q是用户的查询词集合：

{ScoreI}_{rel} (d, q) = \underset{w_{i} &Element; q}{Σ} {ScoreI}_{rel} (d, w_{i});

步骤(5).按下式计算每篇文档d的主客观性评分ScoreI_op(d，q)，q是用户的查询词集合：

其中：λ是一个0.0～1.0之间的常数，

s_i∈d是文档d中的每个情感词，

co(s_i，w_i|W)是所有与用户查询Q中的任一查询词w_i同时出现在文档d中并且与查询词w_i的位置距离小于W的情感词s_i在所有位置上出现的总次数，W＝25，单位是词数，

c(w_i，d)是查询词w_i在文档d中出现的总次数；

步骤(6).按下式计算每一篇文档的最终评分，用ScoreI_rel(d，q)×ScoreI_op(d，q)表示；

步骤(7).在所述***中，把所有的候选文档按照其相应的最终评分从大到小的顺序进行排序，得到观点检索后的结果列表并作为最终的检索结果返回给用户。

本发明能够充分考虑文档的主客观评分与文档的相关性评分之间的联系，将这两种评分以二次函数(即相乘)的方式合并起来，同时还考虑到这两种评分的差异，因此对文档的主客观评分进行了取对数的处理，最终得到优化的观点检索***的结果列表。从而针对用户的观点检索需求，能够将那些既带有感情色彩又与用户查询的内容密切相关的文档排在前面返回给用户。该方法处理简单，算法复杂度低，在测试数据上取得了很好的结果，较大幅度地提高了搜索引擎进行观点检索的性能。这说明本发明具有较好的推广性和适应性，能对搜索引擎的观点检索结果进行有效改进，具有良好的应用前景。

附图说明

图1.信息检索***进行观点检索的基本流程架构。

图2.本发明提出的观点检索评分方法流程。

具体实施方式

它是在计算机上自动完成的，依次含有如下步骤：

步骤1生成情感词列表和候选文档集合

针对用户输入的一次查询(可能包含多个查询词)，检索***将所有带有用户查询中任一查询词的文档自动挑选出来，作为候选文档集合。以后的操作都在这个候选文档集合的范围内进行，其他的文档在这次用户查询中就都不予考虑了。

步骤2计算一篇文档与用户查询的相关性评分

可以使用现有信息检索***中常用的相关性计算方法得到每一篇候选文档与查询的相关性评分。使用如下所示的公式：

{ScoreI}_{rel} (d, q) = Σ_{w_{i} &Element; q} [\ln (\frac{N - df (w_{i}) + 0.5}{df (w_{i}) + 0.5}) \times \frac{(k_{1} + 1) \times c (w_{i}, d)}{k_{1} (1 - b) + b \frac{l_{d}}{avdl} + c (w_{i}, d)} \times \frac{(k_{3} + 1) \times c (w_{i}, q)}{k_{3} + c (w_{i}, q)}]

(式1)

其中：d是步骤一处理后的文档；q是步骤一处理后的用户查询；ScoreI_rel(d，q)是文档d与查询q的相关性评分；w_i∈q是用户查询中的每一个词；ln()为对括号中的内容去自然对数操作；N是***中的全部文档总数；df(w_i)是***中所有包括词w_i的文档总数；k₁是1.0到2.0之间的常数；c(w_i，d)是词w_i在文档d中出现的总次数；b是0.0到1.0之间的常数；l_d是文档d的长度(即文档d中的总词数)；avdl是***中所有文档的平均长度；k₃是0到1000之间的整数常数；c(w_i，q)是词出现在查询q中的次数。这些参数中，除k₁，b和k₃是人工设定的常数以外，其他各值都可以根据用户查询以及文档集合自动统计得到。

步骤3计算一篇文档的主客观评分

使用如下公式计算***中每篇候选文档的主客观性评分：

(式2)

其中：d是步骤一处理后的文档；q是步骤一处理后的用户查询；Score_Iop(d，q)是文档d相对于查询q的主客观评分；λ是一个0.0到1.0之间的常数；s_i∈d是文档d中的每个情感词(其中情感词的范围由步骤3.1中的情感词列表给定)；log()为对括号中的内容取对数操作；co(s_i，w_i|W)是所有与用户查询Q的任一查询词w_i同时出现在文档d中并且与查询词w_i的位置距离小于W的情感词s_i在所有位置上出现的总次数；W是距离(也称作窗口)的大小，是一个正整数；c(w_i，d)是查询词w_i在文档d中出现的总次数。这些参数中，除λ和W是由人工设定的常数以外，其他各值都可以根据用户查询、情感词列表以及文档集合自动统计得到。

步骤4计算一篇文档的最终评分

将步骤2与步骤4所得到的相关性评分和主客观评分相乘，即：

ScoreI_rel(d，q)×ScoreI_op(d，q)， (式3)

就可得到***中一篇候选文档d相对于用户查询Q的观点检索最终评分。

步骤5得到最终的观点检索结果列表

在检索***中，将所有候选文档按照其相应的最终评分从大到小的顺序进行排序，就得到了观点检索后的结果列表，并作为最终的检索结果返回给用户。

为了验证本发明的有效性、可靠性和应用性，我们设计和测试了相关的验证实验。

从数据源上，我们使用了美国国家技术研究所NIST组织的文本检索会议TREC所给出的标准测试数据：互联网英文博客网页数据集合、100个用户查询以及每个查询相应的答案集合(由NIST组织人工标注得到)。

在验证实验中使用信息检索中常用的平均检索精度(MAP)进行性能的评价。

依照本发明所述的步骤在上述数据集合上进行观点检索的验证实验，表1列出了使用本发明的评分方法，与现在常用的线性加权的方法相比，带来的检索***性能提高情况。其中现在常用的线性加权方法为：

λ {ScoreI}_{op} (d, q) + (1 - λ) \frac{\underset{w_{i} &Element; q}{Σ} co (s_{i}, w_{i} | W)}{\underset{w_{i} &Element; q}{Σ} c (w_{i}, d) \times W},

其各部分参数的含义和计算方法与本发明公式1和公式2的方法中的相应参数相同。本发明中用到的人工设定的参数分别取值为：K₁＝1.0，b＝0.75，K₃＝100，W＝25。λ的取值如表1中所示。可以看到性能提高的幅度较大，均在8％以上，最高达到18.6％。

表1本发明评分方法与现在常用的线性加权方法相比带来的检索***性能提高

λ的取值	常用的线性加权方法的检索性能	本发明给出的评分方法的检索性能	本发明带来的性能提高
λ的取值	常用的线性加权方法的检索性能	本发明给出的评分方法的检索性能	本发明带来的性能提高	0.01	0.1969	0.2253	14.42％
0.1	0.2041	0.2255	10.49％	0.01	0.1969	0.2253	14.42％
0.1	0.2041	0.2255	10.49％	0.2	0.2071	0.2256	8.93％
0.3	0.2081	0.2257	8.46％	0.2	0.2071	0.2256	8.93％
0.3	0.2081	0.2257	8.46％	0.4	0.2087	0.2257	8.15％
0.5	0.2067	0.2259	9.29％	0.4	0.2087	0.2257	8.15％
0.5	0.2067	0.2259	9.29％	0.6	0.2038	0.2266	11.19％
0.7	0.1993	0.2267	13.75％	0.6	0.2038	0.2266	11.19％
0.7	0.1993	0.2267	13.75％	0.8	0.1938	0.2255	16.36％
0.9	0.1866	0.2213	18.60％	0.8	0.1938	0.2255	16.36％

例如对用户查询“Oprah”(Oprah Winfrey是美国一个脱口秀电视节目的主持人)，希望找到她的节目的评论和观点信息。但是用传统方法，找到的只是大量的节目列表和客观的内容介绍与宣传，因此对这个查询的MAP精度只有0.0687，检索***返回的前10个结果中只有两个是带有观点信息的；而采用本发明所提出的评分方法进行检索，则改进的检索***MAP精度提高到了0.2721，且返回的前10个结果中，有8个都是用户需要的观点和评论信息，***性能是传统方法***性能的4倍。

再例如用户查询“tivo”(是一款数字录像机)，希望找到大家对这个品牌的评价。用传统方法，找到了大量该品牌的产品介绍，包括不少型号、体积等数字类型的客观信息，但是并没有提供该品牌好或者不好的观点性的信息，因此对该查询的前10个返回结果中，只有1个是用户需要的信息；而使用本发明提出的方法，则将那些其他用户的使用心得、感受以及对产品的评价观点等信息文档排在了最前面，使得***返回的前10个结果中，有9个都是用户需要的带有观点的相关信息，极大地改进了用户使用的满意度。

附图1描述了信息检索***进行观点检索的基本流程架构：

1、首先将已经收集得到的原始数据进行预处理，包括：去除文档中过于常用的词(称为停用词)，例如“的”、“地”、“得”、“了”等。停用词列表可根据需要自由制定；对中文内容使用分词技术(正向最长匹配分词算法)对文档进行分词，以词(包括单字词)作为文档的基本单位，一个词内的所有字均看作一个整体进行处理。

2、然后对文档的内容利用倒排文档技术建立索引。

3、对用户提交的查询，使用与文档相同的预处理(去除停用词、分词)方法进行查询预处理。

4、最后根据本发明提出的方法，利用已经建立好的情感词列表，在观点检索服务器中对处理后的查询与索引后的文档进行匹配，对每篇文档得到观点检索评分，进行排序后形成结果页面，返回给用户。

本发明就是针对上述流程的第4步，即如何建立情感词列表，以及在观点检索服务器中如何对文档进行评分提出相应的方法。附图2描述了本发明的流程。下面就如何在观点检索***中实施本发明进行详细的流程说明。

1.根据用户提交的一次查询内容，***找出候选文档集合

对***中的文档进行预处理，包括去除停用词，中文文档进行分词，以及建立文档索引。同时对用户提交给***的查询内容，也进行完全一致的预处理过程。

首先统计***中所有被索引的文档总数，就得到式(1)中的变量N的值。计算***中平均每篇文档包含的词数(用***中所有文档的总词数除以***中的文档总数即可)，就是式(1)中变量avdl的值。

当用户提交了查询Q之后(查询中包括一个或多个词)，将已经索引好的所有文档中(文档中也包括一个或多个词)，那些至少出现了用户查询Q中的一个查询词的文档挑选出来，构成候选文档集合。剩下的那些没有包括任何查询词的文档在本次检索过程中都不再考虑。对查询Q中的每一个词w_i，统计候选文档集合中所有出现了该词的文档的总数，记为式(1)中变量df(w_i)的值。

设定***中用到的各常数的值，例如可以设为：k₁＝1.0，b＝0.75，k₃＝100，W＝25，λ＝0.8。

2.按照下述流程生成情感词列表。

初始化中文情感词典列表S_CN＝{}；初始化英文情感词典列表S_EN＝{}；对知网(HowNet)中的每一个词：如果其属性(DEF)的值至少包括下列之一：“good|好”，“desire|良”，“beautiful|美”，“great|伟”那么：将该词的中文描述(W_C的值)加入中文情感词典列表S_CN作为一条记录；将该词的英文描述(W_X的值)加入英文情感词典S_EN作为一条记录；如果其属性(DEF)的值至少包括下列之一：“bad|坏”，“undesired|莠”，“fake|伪”那么：将该词的中文描述(W_C的值)加入中文情感词典列表S_CN作为一条记录；将该词的英文描述(W_X的值)加入英文情感词典S_EN作为一条记录；对英文情感词典S_EN中的每一条记录：如果该记录由多个词组成那么：将该记录中的每个词也分别作为一条记录加入情感词典S_EN；删去英文情感词典S_EN中的重复记录。

根据该流程得到的列表中，其中中文词有个，英文情感词有4621个。

3.计算每篇文档的相关性评分

对候选文档集合中的每篇文档d进行如下操作：

(1)统计文档d的总词数，记作式(1)中变量l_d的值；对查询Q中的每一个词w_i，统计该词在文档d中出现的次数，记为式(1)中变量c(w_i，d)的值；统计该词在查询Q中出现的次数，记作式(1)中变量c(w_i，q)的值；

(2)将上述步骤中已经得到的N、avdl、df(w_i)、k₁、b、k₃、l_d、c(w_i，d)、c(w_i，q)的值代入式(1)进行如下计算：

\ln (\frac{N - df (w_{i}) + 0.5}{df (w_{i}) + 0.5}) \times \frac{(k_{1} + 1) \times c (w_{i}, d)}{k_{1} (1 - b) + b \frac{l_{d}}{avdl} + c (w_{i}, d)} \times \frac{(k_{3} + 1) \times c (w_{i}, q)}{k_{3} + c (w_{i}, q)},

就得到文档d关于一个查询词w_i的相关性评分。

(3)将文档d关于Q中所有查询词的相关性评分加起来，就得到该文档d关于查询Q的相关性评分。

4.计算每篇文档的主客观性评分

如果***中的常数λ设定为0，则直接得到文档的主客观性评分为1。否则根据***中设定的常数W的值(记为式(2)中W的值)，计算每篇文档的主客观性评分。这里以W取值25为例，说明其流程如下：

(1)首先统计查询Q中的所有查询词在文档中出现的总次数，记作公式(2)中

的值。同时记录这些查询词在文档中出现的位置l_j。

(2)对情感词列表中的每个情感词s_i，进行如下流程的操作：

(2.1)依次统计该词在每个位置l_j前后各25个词的范围内出现的次数，并将所有位置统计得到的次数相加，就得到文档d中s_i与查询Q同时出现的总次数，记作式(2)中

的值。

(2.2)根据式(2)，将前述流程中得到

W代入如下公式进行计算，得到文档d相对于每个情感词s_i的评分：

\log (\frac{\underset{w_{i} &Element; q}{Σ} co (s_{i}, w_{i} | W)}{\underset{w_{i} &Element; q}{Σ} c (w_{i}, d) \times W} + 1);

(3)将所有情感词的评分加起来，再乘以

的系数，最后将结果加1，就得到文档d的主客观性评分。

5.计算每篇文档的最终评分

将每篇文档在流程3中得到的相关性评分，与在流程4中得到的主客观性评分相乘，就得到了每篇在观点检索***中的最终评分。

6.将***中的所有文档进行排序，并对用户返回最终结果

根据每篇文档的最终评分，把文档候选集合中的所有进行排序，按照评分从大到小的顺序产生结果列表，使得文档的最终评分越高，则它在结果列表中的位置越靠前。最后将这个结果返回给用户，就完成了针对用户输入的一次查询的完整的信息检索。

按照以上步骤，就可以构建一个有效的计算机自动执行的观点信息检索***，在***中综合考虑文档的相关性和主客观性对文档进行评分，使得在观点检索***的返回结果列表中，那些既与用户查询的内容相关，又带有较强烈的感情色彩的文档排在靠前的位置，更有可能被用户先访问到，从而改进观点检索***的检索结果，提高***的检索性能。

Claims

1.一种基于观点检索的信息检索文档的评分方法，其特征在于，所述方法是在一个计算机信息检索***中依次按以下步骤实现的：

{ScoreI}_{rel} (d, w_{i}) = \ln (\frac{N - df (w_{i}) + 0.5}{df (w_{i}) + 0.5}) \times \frac{(k_{1} + 1) \times c (w_{i}, d)}{k_{1} (1 - b) + b \frac{l_{d}}{avdl} + c (w_{i}, d)} \times \frac{(k_{3} + 1) \times c (w_{i}, q)}{k_{3} + c (w_{i}, q)},