CN101344890A - 一种基于观点检索的信息检索文档的评分方法 - Google Patents

一种基于观点检索的信息检索文档的评分方法 Download PDF

Info

Publication number
CN101344890A
CN101344890A CNA2008101186680A CN200810118668A CN101344890A CN 101344890 A CN101344890 A CN 101344890A CN A2008101186680 A CNA2008101186680 A CN A2008101186680A CN 200810118668 A CN200810118668 A CN 200810118668A CN 101344890 A CN101344890 A CN 101344890A
Authority
CN
China
Prior art keywords
document
user
speech
query word
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008101186680A
Other languages
English (en)
Other versions
CN100570611C (zh
Inventor
张敏
马少平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Beijing Sogou Technology Development Co Ltd
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CNB2008101186680A priority Critical patent/CN100570611C/zh
Publication of CN101344890A publication Critical patent/CN101344890A/zh
Application granted granted Critical
Publication of CN100570611C publication Critical patent/CN100570611C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于观点检索的信息检索文档的评分方法属于信息处理领域。其特征在于:它首先建立情感词列表,在列表中指定要在检索***中使用的所有带有感情色彩的词,然后根据用户具体输入的查询,生成候选结果集合;其次在***中计算文档与用户查询之间的相关性,得到每篇文档的相关性评分;然后根据文档中与查询词在一定距离范围内共同出现的情感词的次数,计算出***中每篇文档的主客观性评分;再将一篇文档的相关性评分和主客观性评分进行基于二次函数(即相乘)的合并,得到合并后的文档最终评分;最后检索***根据文档的最终评分对***中的所有候选文档进行排序,并按照评分从大到小的次序显示给用户。该技术具有计算机自动完成,能够返回既具有高相关性又带有强烈主观意见的检索结果的优点。

Description

一种基于观点检索的信息检索文档的评分方法
技术领域
本发明属于信息处理领域,特别是涉及信息检索***,具体说是在信息检索***中对文档进行评分的方法,最终得到与用户查询相关的且带有主观意见的检索结果。
背景技术
信息检索***是以一定的策略收集信息(例如互联网上的网页文档,或数字图书馆中的数字文档等),对信息进行组织和处理后为用户提供检索服务的计算机***,它包括计算机硬件***以及在硬件***上运行的软件程序两个部分。它的主要作用是帮助用户快捷、高效的获取那些能够满足用户需求的有用信息。
信息检索***通过查询服务器与用户进行交互。一方面查询服务器提供一个可供用户输入或选择自己的查询需求的页面,通常查询需求由一个或几个关键词构成。另一方面查询服务器针对用户提交的查询,在***内所有的文档中进行检索,返回排序后的相关结果列表,并在结果页面中按顺序展示给用户。其中对***内文档的排序依据就是文档与用户查询之间的相关性评分,评分越高,排序越靠前。因此查询服务器中的一个关键技术是如何计算文档的相关性,得到可供排序的相关性评分,从而使得用户想要的页面排在返回结果的前列位置,相关信息更容易被用户访问到。
随着信息检索***的发展,人们也开始提出了更多更复杂的查询需求,其中一种重要需求是观点检索(opinion search)。在观点检索中,***不仅要找出与用户查询相关的信息,而且这些信息必须带有一定的感情色彩,即检索***要返回相关的且带有主观性意见的信息。而那些仅仅是客观性描述的相关信息也被认为不符合用户需求。例如一个用户想要买一款手机,那么他在检索***中输入查询“N95手机”进行观点检索,希望返回的内容是其他用户或者评论中关于N95的各种性能和功能上的意见,例如手机的价格是否便宜,外观是否好看,电池是否耐用,总体评价是否好,等等。在这样的要求下,查询服务器不仅要计算每个文档的相关性评分,还要计算其主客观性评分,然后将这两种评分合并到一起,形成一篇文档的最终得分,并排序后返回给用户。
从20世纪60年代中期以来,人们提出了很多计算文档与用户查询的相关性的模型。其主要的思想就是“TF*IDF”,即一方面考虑用户的查询词在一篇文档中出现的次数,出现次数越多越有可能相关,另一方面考虑这个查询词在全部文档中的常见程度,越常见,其区分能力越弱。当前应用广泛的模型主要有布尔模型(Boolean Model),统计模型(Statistical Model)和语言知识模型(Linguistic and Knowledge-based Model)。
在计算文档的主客观性评分方面,一种常用的方法是看这篇文档中出现了多少带有主观性感情色彩的词(通常称为情感词)。出现的情感词越多,则文档的主客观性评分越高。其中情感词通常由一个人工或自动的方法事先构建好的情感词列表给出。另一种方法是通过文本分类的技术,把一篇文档分为主观类或客观类,根据该文档属于某类的程度不同,得到该文档的主客观性评分。
在观点检索中,如何将主客观性评分和相关性评分合并起来,是影响观点检索***性能的一个重要因素。由于缺乏深入研究,目前的相关技术中并没有把这两个评分之间的联系建立起来,常用的方法是把这两种评分以一定的比例进行简单地相加(例如将客观性评分乘以A,将相关性评分乘以B,并把二者加起来。A和B是事先给定的数值)。不少实验结果表明,这种方法不能很好地满足用户的观点检索需求。甚至在很多情况下,经过这种相关性和主客观性评分合并之后的结果,其性能还不如只使用相关性评分进行排序后提供给用户的结果的效果。因此,有必要提出一种有效地合并相关性和主客观性评分的方法,以改进信息检索***的性能,满足用户进行观点检索的需求。
发明内容
观点检索***要根据用户需求,返回与用户查询相关的、且带有主观性意见的信息。本发明提出一种既考虑文档的主客观性又考虑文档的相关性的评分方法。不同于传统的加权线性合并方法(即对两个评分分别乘以一个常数的权值,然后以相加的方式合并起来),在本发明提出的合并方法中,综合考虑了相关性对主客观性的影响,将相关性评分与主客观评分以二次函数(即相乘)的关系合并起来。其中特别考虑到两种评分的取值差异,将主客观评分进行了取对数(log)的归一化处理。通过这种合并方法,最终排序后返回给用户的结果文档中,那些排序靠前的文档既具有很高的相关性,又具有很强的主观性,从而有效地改进观点检索***的性能,方便用户在较早出现的结果页面中就能进行信息的访问,因此更能满足用户观点检索的需求。
该方法的具体内容如下:
1.首先建立情感词列表,在列表中指定要在检索***中使用的所有带有感情色彩的词,然后针对用户输入给***的查询,***自动找出候选文档集合;
2.在检索***中计算每篇文档与用户输入的查询之间的相关性程度,得到文档的相关性评分;
3.根据一篇文档中与查询词在设定距离范围内共同出现的带有感情色彩的词(即情感词)的个数,计算出文档的主客观评分;
4.将一篇文档的相关性评分和主客观评分进行基于二次函数(即相乘)的合并,得到合并后的文档最终评分;
5.检索***根据最终评分对***中的所有候选文档进行排序,并按照评分从大到小的次序显示给用户。
本发明的特征在于:
所述方法是在一个计算机信息检索***中依次按以下步骤实现的:
步骤(1).在所述***的观点检索服务器中建立一个中、英文对照的情感词列表,所述情感词至少包括下列所有属性中的一个属性:好、良、美、伟、坏、莠以及伪;
步骤(2).针对用户输入的至少一个查询词wi,所述***通过信息检索把所有带有用户查询中任一查询词wi的文档d自动挑选出来,作为候选文档集合,所述候选文档简称为文档d,并建立文档索引,统计所有被索引的文档总数N,计算平均每篇文档中所包含的词数avdl;同时,对用户的每一个查询词wi,统计所述候选文档集合中所有出现了该查询词wi的文档d的总数,用变量df(wi)表示;
步骤(3).按下式计算每一篇文档d与用户查询中的每一个查询词wi的相关性评分ScoreIrel(d,wi):
ScoreI rel ( d , w i ) = ln ( N - df ( w i ) + 0.5 df ( w i ) + 0.5 ) × ( k 1 + 1 ) × c ( w i , d ) k 1 ( 1 - b ) + b l d avdl + c ( w i , d ) × ( k 3 + 1 ) × c ( w i , q ) k 3 + c ( w i , q ) ,
其中:k1是1.0~2.0之间的常数,
c(wi,d)是词wi在文档d中出现的总次数,
c(wi,q)是词wi出现在用户查询Q中的总次数,
b是0.0~1.0之间的常数,
ld是文档d的长度,用文档d中的总词数表示,
k3是0~1000之间的整数常数;
步骤(4).按下式把每一篇文档d与用户查询中的所有查询词的相关性评分相加,得到该文档d关于用户查询Q的相关性评分,q是用户的查询词集合:
ScoreI rel ( d , q ) = Σ w i ∈ q ScoreI rel ( d , w i ) ;
步骤(5).按下式计算每篇文档d的主客观性评分ScoreIop(d,q),q是用户的查询词集合:
Figure A20081011866800072
其中:λ是一个0.0~1.0之间的常数,
si∈d是文档d中的每个情感词,
co(si,wi|W)是所有与用户查询Q中的任一查询词wi同时出现在文档d中并且与查询词wi的位置距离小于W的情感词si在所有位置上出现的总次数,W=25,单位是词数,
c(wi,d)是查询词wi在文档d中出现的总次数;
步骤(6).按下式计算每一篇文档的最终评分,用ScoreIrel(d,q)×ScoreIop(d,q)表示;
步骤(7).在所述***中,把所有的候选文档按照其相应的最终评分从大到小的顺序进行排序,得到观点检索后的结果列表并作为最终的检索结果返回给用户。
本发明能够充分考虑文档的主客观评分与文档的相关性评分之间的联系,将这两种评分以二次函数(即相乘)的方式合并起来,同时还考虑到这两种评分的差异,因此对文档的主客观评分进行了取对数的处理,最终得到优化的观点检索***的结果列表。从而针对用户的观点检索需求,能够将那些既带有感情色彩又与用户查询的内容密切相关的文档排在前面返回给用户。该方法处理简单,算法复杂度低,在测试数据上取得了很好的结果,较大幅度地提高了搜索引擎进行观点检索的性能。这说明本发明具有较好的推广性和适应性,能对搜索引擎的观点检索结果进行有效改进,具有良好的应用前景。
附图说明
图1.信息检索***进行观点检索的基本流程架构。
图2.本发明提出的观点检索评分方法流程。
具体实施方式
它是在计算机上自动完成的,依次含有如下步骤:
步骤1生成情感词列表和候选文档集合
情感词列表包括***将要处理的所有带有感情色彩的词,如中文的“好”,“坏”,“令人失望”等,英文包括“good”,“bad”等。这里对知网HowNet中的词,根据其属性进行自动筛选,如果一个词在知网中的属性定义至少包括“good|好”,“desire|良”,“beautiful|美”,“great|伟”,“bad|坏”,“undesired|莠”,“fake|伪”中的一项,则将该词以及该词对应的英文描述词挑选出来,分别加入中文和英文情感词列表。
针对用户输入的一次查询(可能包含多个查询词),检索***将所有带有用户查询中任一查询词的文档自动挑选出来,作为候选文档集合。以后的操作都在这个候选文档集合的范围内进行,其他的文档在这次用户查询中就都不予考虑了。
步骤2计算一篇文档与用户查询的相关性评分
可以使用现有信息检索***中常用的相关性计算方法得到每一篇候选文档与查询的相关性评分。使用如下所示的公式:
ScoreI rel ( d , q ) = Σ w i ∈ q [ ln ( N - df ( w i ) + 0.5 df ( w i ) + 0.5 ) × ( k 1 + 1 ) × c ( w i , d ) k 1 ( 1 - b ) + b l d avdl + c ( w i , d ) × ( k 3 + 1 ) × c ( w i , q ) k 3 + c ( w i , q ) ]
(式1)
其中:d是步骤一处理后的文档;q是步骤一处理后的用户查询;ScoreIrel(d,q)是文档d与查询q的相关性评分;wi∈q是用户查询中的每一个词;ln()为对括号中的内容去自然对数操作;N是***中的全部文档总数;df(wi)是***中所有包括词wi的文档总数;k1是1.0到2.0之间的常数;c(wi,d)是词wi在文档d中出现的总次数;b是0.0到1.0之间的常数;ld是文档d的长度(即文档d中的总词数);avdl是***中所有文档的平均长度;k3是0到1000之间的整数常数;c(wi,q)是词出现在查询q中的次数。这些参数中,除k1,b和k3是人工设定的常数以外,其他各值都可以根据用户查询以及文档集合自动统计得到。
步骤3计算一篇文档的主客观评分
使用如下公式计算***中每篇候选文档的主客观性评分:
Figure A20081011866800091
(式2)
其中:d是步骤一处理后的文档;q是步骤一处理后的用户查询;ScoreIop(d,q)是文档d相对于查询q的主客观评分;λ是一个0.0到1.0之间的常数;si∈d是文档d中的每个情感词(其中情感词的范围由步骤3.1中的情感词列表给定);log()为对括号中的内容取对数操作;co(si,wi|W)是所有与用户查询Q的任一查询词wi同时出现在文档d中并且与查询词wi的位置距离小于W的情感词si在所有位置上出现的总次数;W是距离(也称作窗口)的大小,是一个正整数;c(wi,d)是查询词wi在文档d中出现的总次数。这些参数中,除λ和W是由人工设定的常数以外,其他各值都可以根据用户查询、情感词列表以及文档集合自动统计得到。
步骤4计算一篇文档的最终评分
将步骤2与步骤4所得到的相关性评分和主客观评分相乘,即:
ScoreIrel(d,q)×ScoreIop(d,q),    (式3)
就可得到***中一篇候选文档d相对于用户查询Q的观点检索最终评分。
步骤5得到最终的观点检索结果列表
在检索***中,将所有候选文档按照其相应的最终评分从大到小的顺序进行排序,就得到了观点检索后的结果列表,并作为最终的检索结果返回给用户。
为了验证本发明的有效性、可靠性和应用性,我们设计和测试了相关的验证实验。
从数据源上,我们使用了美国国家技术研究所NIST组织的文本检索会议TREC所给出的标准测试数据:互联网英文博客网页数据集合、100个用户查询以及每个查询相应的答案集合(由NIST组织人工标注得到)。
在验证实验中使用信息检索中常用的平均检索精度(MAP)进行性能的评价。
依照本发明所述的步骤在上述数据集合上进行观点检索的验证实验,表1列出了使用本发明的评分方法,与现在常用的线性加权的方法相比,带来的检索***性能提高情况。其中现在常用的线性加权方法为:
λ ScoreI op ( d , q ) + ( 1 - λ ) Σ w i ∈ q co ( s i , w i | W ) Σ w i ∈ q c ( w i , d ) × W ,
其各部分参数的含义和计算方法与本发明公式1和公式2的方法中的相应参数相同。本发明中用到的人工设定的参数分别取值为:K1=1.0,b=0.75,K3=100,W=25。λ的取值如表1中所示。可以看到性能提高的幅度较大,均在8%以上,最高达到18.6%。
表1本发明评分方法与现在常用的线性加权方法相比带来的检索***性能提高
  λ的取值   常用的线性加权方法的检索性能   本发明给出的评分方法的检索性能   本发明带来的性能提高
  0.01   0.1969   0.2253   14.42%
  0.1   0.2041   0.2255   10.49%
  0.2   0.2071   0.2256   8.93%
  0.3   0.2081   0.2257   8.46%
  0.4   0.2087   0.2257   8.15%
  0.5   0.2067   0.2259   9.29%
  0.6   0.2038   0.2266   11.19%
  0.7   0.1993   0.2267   13.75%
  0.8   0.1938   0.2255   16.36%
  0.9   0.1866   0.2213   18.60%
例如对用户查询“Oprah”(Oprah Winfrey是美国一个脱口秀电视节目的主持人),希望找到她的节目的评论和观点信息。但是用传统方法,找到的只是大量的节目列表和客观的内容介绍与宣传,因此对这个查询的MAP精度只有0.0687,检索***返回的前10个结果中只有两个是带有观点信息的;而采用本发明所提出的评分方法进行检索,则改进的检索***MAP精度提高到了0.2721,且返回的前10个结果中,有8个都是用户需要的观点和评论信息,***性能是传统方法***性能的4倍。
再例如用户查询“tivo”(是一款数字录像机),希望找到大家对这个品牌的评价。用传统方法,找到了大量该品牌的产品介绍,包括不少型号、体积等数字类型的客观信息,但是并没有提供该品牌好或者不好的观点性的信息,因此对该查询的前10个返回结果中,只有1个是用户需要的信息;而使用本发明提出的方法,则将那些其他用户的使用心得、感受以及对产品的评价观点等信息文档排在了最前面,使得***返回的前10个结果中,有9个都是用户需要的带有观点的相关信息,极大地改进了用户使用的满意度。
附图1描述了信息检索***进行观点检索的基本流程架构:
1、首先将已经收集得到的原始数据进行预处理,包括:去除文档中过于常用的词(称为停用词),例如“的”、“地”、“得”、“了”等。停用词列表可根据需要自由制定;对中文内容使用分词技术(正向最长匹配分词算法)对文档进行分词,以词(包括单字词)作为文档的基本单位,一个词内的所有字均看作一个整体进行处理。
2、然后对文档的内容利用倒排文档技术建立索引。
3、对用户提交的查询,使用与文档相同的预处理(去除停用词、分词)方法进行查询预处理。
4、最后根据本发明提出的方法,利用已经建立好的情感词列表,在观点检索服务器中对处理后的查询与索引后的文档进行匹配,对每篇文档得到观点检索评分,进行排序后形成结果页面,返回给用户。
本发明就是针对上述流程的第4步,即如何建立情感词列表,以及在观点检索服务器中如何对文档进行评分提出相应的方法。附图2描述了本发明的流程。下面就如何在观点检索***中实施本发明进行详细的流程说明。
1.根据用户提交的一次查询内容,***找出候选文档集合
对***中的文档进行预处理,包括去除停用词,中文文档进行分词,以及建立文档索引。同时对用户提交给***的查询内容,也进行完全一致的预处理过程。
首先统计***中所有被索引的文档总数,就得到式(1)中的变量N的值。计算***中平均每篇文档包含的词数(用***中所有文档的总词数除以***中的文档总数即可),就是式(1)中变量avdl的值。
当用户提交了查询Q之后(查询中包括一个或多个词),将已经索引好的所有文档中(文档中也包括一个或多个词),那些至少出现了用户查询Q中的一个查询词的文档挑选出来,构成候选文档集合。剩下的那些没有包括任何查询词的文档在本次检索过程中都不再考虑。对查询Q中的每一个词wi,统计候选文档集合中所有出现了该词的文档的总数,记为式(1)中变量df(wi)的值。
设定***中用到的各常数的值,例如可以设为:k1=1.0,b=0.75,k3=100,W=25,λ=0.8。
2.按照下述流程生成情感词列表。
初始化中文情感词典列表SCN={};初始化英文情感词典列表SEN={};对知网(HowNet)中的每一个词:如果其属性(DEF)的值至少包括下列之一:“good|好”,“desire|良”,“beautiful|美”,“great|伟”那么:将该词的中文描述(W_C的值)加入中文情感词典列表SCN作为一条记录;将该词的英文描述(W_X的值)加入英文情感词典SEN作为一条记录;如果其属性(DEF)的值至少包括下列之一:“bad|坏”,“undesired|莠”,“fake|伪”那么:将该词的中文描述(W_C的值)加入中文情感词典列表SCN作为一条记录;将该词的英文描述(W_X的值)加入英文情感词典SEN作为一条记录;对英文情感词典SEN中的每一条记录:如果该记录由多个词组成那么:将该记录中的每个词也分别作为一条记录加入情感词典SEN;删去英文情感词典SEN中的重复记录。
根据该流程得到的列表中,其中中文词有个,英文情感词有4621个。
3.计算每篇文档的相关性评分
对候选文档集合中的每篇文档d进行如下操作:
(1)统计文档d的总词数,记作式(1)中变量ld的值;对查询Q中的每一个词wi,统计该词在文档d中出现的次数,记为式(1)中变量c(wi,d)的值;统计该词在查询Q中出现的次数,记作式(1)中变量c(wi,q)的值;
(2)将上述步骤中已经得到的N、avdl、df(wi)、k1、b、k3、ld、c(wi,d)、c(wi,q)的值代入式(1)进行如下计算:
ln ( N - df ( w i ) + 0.5 df ( w i ) + 0.5 ) × ( k 1 + 1 ) × c ( w i , d ) k 1 ( 1 - b ) + b l d avdl + c ( w i , d ) × ( k 3 + 1 ) × c ( w i , q ) k 3 + c ( w i , q ) ,
就得到文档d关于一个查询词wi的相关性评分。
(3)将文档d关于Q中所有查询词的相关性评分加起来,就得到该文档d关于查询Q的相关性评分。
4.计算每篇文档的主客观性评分
如果***中的常数λ设定为0,则直接得到文档的主客观性评分为1。否则根据***中设定的常数W的值(记为式(2)中W的值),计算每篇文档的主客观性评分。这里以W取值25为例,说明其流程如下:
(1)首先统计查询Q中的所有查询词在文档中出现的总次数,记作公式(2)中
Figure A20081011866800132
的值。同时记录这些查询词在文档中出现的位置lj
(2)对情感词列表中的每个情感词si,进行如下流程的操作:
(2.1)依次统计该词在每个位置lj前后各25个词的范围内出现的次数,并将所有位置统计得到的次数相加,就得到文档d中si与查询Q同时出现的总次数,记作式(2)中
Figure A20081011866800133
的值。
(2.2)根据式(2),将前述流程中得到
Figure A20081011866800134
W代入如下公式进行计算,得到文档d相对于每个情感词si的评分:
log ( Σ w i ∈ q co ( s i , w i | W ) Σ w i ∈ q c ( w i , d ) × W + 1 ) ;
(3)将所有情感词的评分加起来,再乘以
Figure A20081011866800136
的系数,最后将结果加1,就得到文档d的主客观性评分。
5.计算每篇文档的最终评分
将每篇文档在流程3中得到的相关性评分,与在流程4中得到的主客观性评分相乘,就得到了每篇在观点检索***中的最终评分。
6.将***中的所有文档进行排序,并对用户返回最终结果
根据每篇文档的最终评分,把文档候选集合中的所有进行排序,按照评分从大到小的顺序产生结果列表,使得文档的最终评分越高,则它在结果列表中的位置越靠前。最后将这个结果返回给用户,就完成了针对用户输入的一次查询的完整的信息检索。
按照以上步骤,就可以构建一个有效的计算机自动执行的观点信息检索***,在***中综合考虑文档的相关性和主客观性对文档进行评分,使得在观点检索***的返回结果列表中,那些既与用户查询的内容相关,又带有较强烈的感情色彩的文档排在靠前的位置,更有可能被用户先访问到,从而改进观点检索***的检索结果,提高***的检索性能。

Claims (2)

1.一种基于观点检索的信息检索文档的评分方法,其特征在于,所述方法是在一个计算机信息检索***中依次按以下步骤实现的:
步骤(1).在所述***的观点检索服务器中建立一个中、英文对照的情感词列表,所述情感词至少包括下列所有属性中的一个属性:好、良、美、伟、坏、莠以及伪;
步骤(2).针对用户输入的至少一个查询词wi,所述***通过信息检索把所有带有用户查询中任一查询词wi的文档d自动挑选出来,作为候选文档集合,所述候选文档简称为文档d,并建立文档索引,统计所有被索引的文档总数N,计算平均每篇文档中所包含的词数avdl;同时,对用户的每一个查询词wi,统计所述候选文档集合中所有出现了该查询词wi的文档d的总数,用变量df(wi)表示;
步骤(3).按下式计算每一篇文档d与用户查询中的每一个查询词wi的相关性评分ScoreIrel(d,wi):
ScoreI rel ( d , w i ) = ln ( N - df ( w i ) + 0.5 df ( w i ) + 0.5 ) × ( k 1 + 1 ) × c ( w i , d ) k 1 ( 1 - b ) + b l d avdl + c ( w i , d ) × ( k 3 + 1 ) × c ( w i , q ) k 3 + c ( w i , q ) ,
其中:k1是1.0~2.0之间的常数,
c(wi,d)是词wi在文档d中出现的总次数,
c(wi,q)是词wi出现在用户查询Q中的总次数,
b是0.0~1.0之间的常数,
ld是文档d的长度,用文档d中的总词数表示,
k3是0~1000之间的整数常数;
步骤(4).按下式把每一篇文档d与用户查询中的所有查询词的相关性评分相加,得到该文档d关于用户查询Q的相关性评分,q是用户的查询词集合:
ScoreI rel ( d , q ) = Σ w i ∈ q ScoreI rel ( d , w i ) ;
步骤(5).按下式计算每篇文档d的主客观性评分ScoreIop(d,q),q是用户的查询词集合:
Figure A2008101186680002C3
其中:λ是一个0.0~1.0之间的常数,
si∈d是文档d中的每个情感词,
co(si,wi|W)是所有与用户查询Q中的任一查询词wi同时出现在文档d中并且与查询词wi的位置距离小于W的情感词si在所有位置上出现的总次数,W=25,单位是词数,
c(wi,d)是查询词wi在文档d中出现的总次数;
步骤(6).按下式计算每一篇文档的最终评分,用ScoreIrel(d,q)×ScoreIop(d,q)表示;
步骤(7).在所述***中,把所有的候选文档按照其相应的最终评分从大到小的顺序进行排序,得到观点检索后的结果列表并作为最终的检索结果返回给用户。
2.根据权利要求1所述的一种基于观点检索的信息检索文档的评分方法,其特征在于,在所述步骤(1)之前还有一个对原始数据的预处理步骤,其中包括:去除停用词,对文档进行分词,以及对文档内容利用倒排文档技术建立索引,对用户提交的查询使用与所述文档相同的预处理方法进行预处理。
CNB2008101186680A 2008-08-22 2008-08-22 一种基于观点检索的信息检索文档的评分方法 Active CN100570611C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2008101186680A CN100570611C (zh) 2008-08-22 2008-08-22 一种基于观点检索的信息检索文档的评分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2008101186680A CN100570611C (zh) 2008-08-22 2008-08-22 一种基于观点检索的信息检索文档的评分方法

Publications (2)

Publication Number Publication Date
CN101344890A true CN101344890A (zh) 2009-01-14
CN100570611C CN100570611C (zh) 2009-12-16

Family

ID=40246893

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2008101186680A Active CN100570611C (zh) 2008-08-22 2008-08-22 一种基于观点检索的信息检索文档的评分方法

Country Status (1)

Country Link
CN (1) CN100570611C (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887414A (zh) * 2009-02-04 2010-11-17 Kddi株式会社 对包含图像符号的文本消息传达的评价自动打分的服务器
CN102236650A (zh) * 2010-04-20 2011-11-09 日电(中国)有限公司 用于修正和/或扩展情感词典的方法和装置
CN102567420A (zh) * 2010-12-27 2012-07-11 北大方正集团有限公司 文档检索方法和装置
CN102567421A (zh) * 2010-12-27 2012-07-11 北大方正集团有限公司 文档检索方法和装置
CN102637165A (zh) * 2012-02-17 2012-08-15 清华大学 一种中文的观点、评价信息的属性-观点对抽取方法
CN102915322A (zh) * 2011-07-11 2013-02-06 莱克西私人有限公司 情感数据生成的***和方法
CN102929962A (zh) * 2012-10-11 2013-02-13 中国科学技术大学 一种搜索引擎的评测方法
CN103177054A (zh) * 2011-09-16 2013-06-26 莱克西私人有限公司 用于使用最高级形容词来排序语义子密钥的***和方法
CN103646097A (zh) * 2013-12-18 2014-03-19 北京理工大学 一种基于约束关系的意见目标和情感词联合聚类方法
CN104217026A (zh) * 2014-09-28 2014-12-17 福州大学 一种基于图模型的中文微博客倾向性检索方法
CN104268230A (zh) * 2014-09-28 2015-01-07 福州大学 一种基于异质图随机游走的中文微博客观点探测方法
CN104424278A (zh) * 2013-08-29 2015-03-18 腾讯科技(深圳)有限公司 一种获取热点资讯的方法及装置
CN104933022A (zh) * 2014-03-20 2015-09-23 株式会社东芝 信息处理装置和信息处理方法
CN106156340A (zh) * 2016-07-12 2016-11-23 浪潮(北京)电子信息产业有限公司 一种命名实体链接方法
CN106407730A (zh) * 2016-11-30 2017-02-15 广州市万表科技股份有限公司 手表测评方法及装置
CN108038204A (zh) * 2017-12-15 2018-05-15 福州大学 针对社交媒体的观点检索***及方法
US10311113B2 (en) 2011-07-11 2019-06-04 Lexxe Pty Ltd. System and method of sentiment data use
CN110209821A (zh) * 2019-06-06 2019-09-06 北京奇艺世纪科技有限公司 文本类别确定方法和装置
CN111488931A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN111612658A (zh) * 2020-05-29 2020-09-01 北京华宇元典信息服务有限公司 法律数据检索的评价方法、评价装置和电子设备
CN113544689A (zh) * 2019-02-11 2021-10-22 谷歌有限责任公司 为文档的来源观点生成并提供附加内容

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887414A (zh) * 2009-02-04 2010-11-17 Kddi株式会社 对包含图像符号的文本消息传达的评价自动打分的服务器
CN101887414B (zh) * 2009-02-04 2014-07-16 Kddi株式会社 对包含图像符号的文本消息传达的评价自动打分的服务器
CN102236650A (zh) * 2010-04-20 2011-11-09 日电(中国)有限公司 用于修正和/或扩展情感词典的方法和装置
CN102236650B (zh) * 2010-04-20 2014-06-04 日电(中国)有限公司 用于修正和/或扩展情感词典的方法和装置
CN102567420B (zh) * 2010-12-27 2014-03-12 北大方正集团有限公司 文档检索方法和装置
CN102567421B (zh) * 2010-12-27 2014-04-02 北大方正集团有限公司 文档检索方法和装置
CN102567421A (zh) * 2010-12-27 2012-07-11 北大方正集团有限公司 文档检索方法和装置
CN102567420A (zh) * 2010-12-27 2012-07-11 北大方正集团有限公司 文档检索方法和装置
CN102915322A (zh) * 2011-07-11 2013-02-06 莱克西私人有限公司 情感数据生成的***和方法
US10311113B2 (en) 2011-07-11 2019-06-04 Lexxe Pty Ltd. System and method of sentiment data use
CN102915322B (zh) * 2011-07-11 2017-01-18 莱克西私人有限公司 情感数据生成的***和方法
CN103177054A (zh) * 2011-09-16 2013-06-26 莱克西私人有限公司 用于使用最高级形容词来排序语义子密钥的***和方法
CN102637165A (zh) * 2012-02-17 2012-08-15 清华大学 一种中文的观点、评价信息的属性-观点对抽取方法
CN102637165B (zh) * 2012-02-17 2014-08-20 清华大学 一种中文的观点、评价信息的属性-观点对抽取方法
CN102929962A (zh) * 2012-10-11 2013-02-13 中国科学技术大学 一种搜索引擎的评测方法
CN102929962B (zh) * 2012-10-11 2015-08-12 中国科学技术大学 一种搜索引擎的评测方法
CN104424278A (zh) * 2013-08-29 2015-03-18 腾讯科技(深圳)有限公司 一种获取热点资讯的方法及装置
CN103646097A (zh) * 2013-12-18 2014-03-19 北京理工大学 一种基于约束关系的意见目标和情感词联合聚类方法
CN103646097B (zh) * 2013-12-18 2016-09-07 北京理工大学 一种基于约束关系的意见目标和情感词联合聚类方法
CN104933022A (zh) * 2014-03-20 2015-09-23 株式会社东芝 信息处理装置和信息处理方法
CN104933022B (zh) * 2014-03-20 2018-11-13 株式会社东芝 信息处理装置和信息处理方法
CN104217026A (zh) * 2014-09-28 2014-12-17 福州大学 一种基于图模型的中文微博客倾向性检索方法
CN104217026B (zh) * 2014-09-28 2017-08-11 福州大学 一种基于图模型的中文微博客倾向性检索方法
CN104268230B (zh) * 2014-09-28 2017-09-15 福州大学 一种基于异质图随机游走的中文微博客观点探测方法
CN104268230A (zh) * 2014-09-28 2015-01-07 福州大学 一种基于异质图随机游走的中文微博客观点探测方法
CN106156340A (zh) * 2016-07-12 2016-11-23 浪潮(北京)电子信息产业有限公司 一种命名实体链接方法
CN106407730A (zh) * 2016-11-30 2017-02-15 广州市万表科技股份有限公司 手表测评方法及装置
CN108038204A (zh) * 2017-12-15 2018-05-15 福州大学 针对社交媒体的观点检索***及方法
CN113544689A (zh) * 2019-02-11 2021-10-22 谷歌有限责任公司 为文档的来源观点生成并提供附加内容
US12008323B2 (en) 2019-02-11 2024-06-11 Google Llc Generating and provisioning of additional content for source perspective(s) of a document
CN110209821A (zh) * 2019-06-06 2019-09-06 北京奇艺世纪科技有限公司 文本类别确定方法和装置
CN111488931A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN111488931B (zh) * 2020-04-10 2023-04-07 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN111612658A (zh) * 2020-05-29 2020-09-01 北京华宇元典信息服务有限公司 法律数据检索的评价方法、评价装置和电子设备

Also Published As

Publication number Publication date
CN100570611C (zh) 2009-12-16

Similar Documents

Publication Publication Date Title
CN100570611C (zh) 一种基于观点检索的信息检索文档的评分方法
US11036814B2 (en) Search engine that applies feedback from users to improve search results
CN101501630B (zh) 计算机化搜索结果列表的排序方法及其数据库搜索引擎
TWI544351B (zh) Extended query method and system
US9430568B2 (en) Method and system for querying information
US8612435B2 (en) Activity based users' interests modeling for determining content relevance
CN100465954C (zh) 用于搜索术语建议的多种类型数据的加强群集
JP4908214B2 (ja) サーチクエリのリファインメントを提供するシステム及び方法。
CN103678576B (zh) 基于动态语义分析的全文检索***
US20060155751A1 (en) System and method for document analysis, processing and information extraction
CN104252456B (zh) 一种权重估计方法、装置及***
CN1818908A (zh) 一种在搜索引擎中应用搜索者反馈信息的方法
JP2009520264A5 (zh)
CN102314443B (zh) 搜索引擎的修正方法和***
WO2009152441A1 (en) Searching, sorting, and displaying data files by relevance
CN101206674A (zh) 以商品为媒介的增强型相关搜索***及其方法
US20100306214A1 (en) Identifying modifiers in web queries over structured data
US20080288483A1 (en) Efficient retrieval algorithm by query term discrimination
CN107193883B (zh) 一种数据处理方法和***
CN103123653A (zh) 基于贝叶斯分类学习的搜索引擎检索排序方法
US20100042610A1 (en) Rank documents based on popularity of key metadata
CN110609950B (zh) 一种舆情***搜索词推荐方法及***
CN103186650B (zh) 一种搜索方法和装置
CN103324707A (zh) 一种基于半监督聚类的查询扩展方法
US20070192313A1 (en) Data search method with statistical analysis performed on user provided ratings of the initial search results

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20090626

Address after: Beijing 100084-82 mailbox code: 100084

Applicant after: Tsinghua University

Co-applicant after: Sogo Science-Technology Development Co., Ltd., Beijing

Address before: Beijing 100084-82 mailbox code: 100084

Applicant before: Tsinghua University

C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Zhang Min

Inventor after: Sun Maosong

Inventor after: Ma Shaoping

Inventor after: Hong Richang

Inventor after: Ru Liyun

Inventor after: Tong Zijian

Inventor before: Zhang Min

Inventor before: Ma Shaoping

Inventor before: Ru Liyun

Inventor before: Tong Zijian

COR Change of bibliographic data