CN102737059A - 用于确定资源描述信息的准确度信息的方法、装置和设备 - Google Patents
用于确定资源描述信息的准确度信息的方法、装置和设备 Download PDFInfo
- Publication number
- CN102737059A CN102737059A CN2011100937190A CN201110093719A CN102737059A CN 102737059 A CN102737059 A CN 102737059A CN 2011100937190 A CN2011100937190 A CN 2011100937190A CN 201110093719 A CN201110093719 A CN 201110093719A CN 102737059 A CN102737059 A CN 102737059A
- Authority
- CN
- China
- Prior art keywords
- description information
- resource
- resource description
- information
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种用于确定资源描述信息的准确度信息的方法、装置及设备。根据本发明的方案先由预建立的资源描述信息集合所包含的多个资源描述信息中选择待处理资源描述信息;接着,再获取所述待处理资源描述信息所包含的各个关键词在所述其他资源描述信息中的分布信息;随后根据所述分布信息,确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度,以获得该待处理资源描述信息的准确度信息。本发明的优点包括:能够确定资源描述信息对资源的描述的准确度。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种确定资源描述信息的准确度信息的方法、装置及设备。
背景技术
随着网络的普及,越来越多的用户热衷于将自己标注过的资源(也被称之为UGC资源)通过网络予以发布,以便与他人分享。然而,由于用户个人对资源的标注具有随意性,常常会根据个人的喜好、情绪等来随意标注,因此标注的信息的准确度难以保证。例如,用户恶作剧地将A明星的图片标注为B明星后,随后发布在自己的相册集中。则当其他用户通过搜索引擎搜索B明星时,A明星的图片可能出现在搜索结果中,从而严重影响搜索引擎的可信度。
发明内容
本发明的目的是提供一种确定资源描述信息的准确度信息的方法、装置及设备。
根据本发明的一个方面,提供一种计算机实现的用于确定资源描述信息的准确度信息的方法,其中,该方法包括以下步骤:
a由预建立的资源描述信息集合所包含的多个资源描述信息中选择待处理资源描述信息,其中,所述多个资源描述信息中的每个资源描述信息均用于描述一个资源,且每个资源描述信息所描述的资源与该资源描述信息集合中的任一其他资源描述信息所描述的资源相似或相同;
b获取所述待处理资源描述信息所包含的各个关键词在所述其他资源描述信息中的分布信息;
c根据所述分布信息,确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度,以获得该待处理资源描述信息的准确度信息。
根据本发明的另一个方面,还提供了一种计算机实现的用于确定描述信息的准确度信息的准确度确定装置,其中,该准确度确定装置包括:
选择装置、用于由预建立的资源描述信息集合所包含的多个资源描述信息中选择待处理资源描述信息,其中,所述多个资源描述信息中的每个资源描述信息均用于描述一个资源,且每个资源描述信息所描述的资源与该资源描述信息集合中的任一其他资源描述信息所描述的资源相似或相同;
第一获取装置、用于获取所述待处理资源描述信息所包含的各个关键词在所述其他资源描述信息中的分布信息;
第一确定装置、根据所述分布信息,确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度,以获得该待处理资源描述信息的准确度信息。
根据本发明的再一个方面,还提供了一种计算机设备,其中,该计算机设备包括前述准确度确定装置。
与现有技术相比,本发明具有以下优点:1)能够通过对一个资源的资源描述信息包含的关键词在其他多个相同或相似资源的资源描述信息中的分布情况,来确定该资源描述信息或其包含的关键词与其他资源描述信息的关联度,由于该资源描述信息所描述的资源和其他资源描述信息所描述的资源相同或相似,因此,该关联度能够反映该资源描述信息或其包含的关键词的描述准确度,特别是用户生成资源的资源描述信息的描述准确度;2)通过对待处理资源描述信息包含的关键词在其他多个相同或相似资源的描述信息中的分布情况及其他相关信息的分析,能够更为准确地确定待处理资源描述信息和/或其包含的关键词与其他资源描述信息间的关联度,从而更为准确地判断待处理资源描述信息的准确度;3)能够将所确定的资源描述信息的准确度应用于多种场合,例如:a)应用于检索***,以使资源描述信息不准确的资源排序靠后,使检索结果的排序更为合理;b)应用于推荐***,例如,基于所确定的资源描述信息的准确度来向用户推荐资源,以提高资源的利用率;c)提示***,例如,基于所确定的资源描述信息的准确度来提示用户该资源的描述可能准确度较低等。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一个方面的用于确定资源描述信息的准确度信息的方法的流程图;
图2为本发明一个优选实施例的基于资源聚类来预建立资源描述信息集合的流程图;
图3为本发明一个优选实施例的用于确定资源描述信息的准确度信息的方法的流程图;
图4为本发明一个优选实施例的根据所确定的资源描述信息的准确度信息来对资源执行相应操作的流程图;
图5为本发明一个方面的用于确定资源描述信息的准确度信息的准确度确定装置示意图;
图6为本发明一个优选实施例的基于资源聚类来预建立资源描述信息集合的准确度确定装置示意图
图7为本发明一个优选实施例的用于确定资源描述信息的准确度信息的准确度确定装置示意图;
图8为本发明一个优选实施例的根据所确定的资源描述信息的准确度信息来对资源执行相应操作的准确度确定装置示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出了本发明一个方面的用于确定资源描述信息的准确度信息的方法的流程图。其中,根据本发明的方法主要通过计算机设备中的操作***或处理控制器来完成,为简明起见,以下将所述操作***或处理控制器统称为准确度确定装置。其中,该计算机设备包括但不限于:1)用户设备;2)网络设备。所述用户设备包括但不限于计算机、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在步骤S1中,所述准确度确定装置由预建立的资源描述信息集合所包含的多个描述信息中选择待处理资源描述信息,其中,所述多个资源描述信息中的每个资源描述信息均用于描述一个资源,且每个资源描述信息所描述的资源与该资源描述信息集合中的任一其他资源描述信息所描述的资源相似或相同。其中,所述资源包括但不限于:1)图片类资源;2)音频类资源;3)视频类资源;4)程序包类资源等。
其中,预建立资源描述信息集合的方式包括但不限于:
1)人工来预建立资源描述信息集合。
a)对于图片类资源、操作人员在建立资源描述信息集合时,基于视觉效果来判断多个资源是否相同或相似。例如,对于图片类资源、如果资源A1与资源B 1在视觉效果上相同,仅仅只是在背景颜色、尺寸、局部区域等方面存在差异,则操作人员判断资源A1与资源B 1相似。
b)对于视频类资源,操作人员在建立资源描述信息集合时,基于资源情节来判断多个资源是否相同或相似。例如,如果资源A2与资源B2的主要情节相同,只是在图像分辨率、压缩格式等方面不同,则操作人员判断资源A2与资源B2相似。
c)对于音频类资源,操作人员在建立资源描述信息集合时,基于听觉效果来判断多个资源是否相同或相似。例如,资源A3与资源B3在听觉效果上相同,不同仅在于资源A3与资源B3的歌词、压缩格式等方面不同,则操作人员判断资源A3与资源B3相似。
d)对于程序包类资源,操作人员基于程序源代码来判断多个资源是否相同或相似。例如,资源A4与资源B4的源代码只是在变量、指针、数组等的命名或者对程序源代码的解释等方面存在不同,则操作人员判断资源A4与资源B4相似。
2)基于资源聚类来预建立资源描述信息集合。该建立方式将在图2所示实施例中予以详述。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何确定资源是否相同或相似的方式,以及基于相同或相似资源来预建立资源描述信息集合的实现方式,均应包含在本发明的范围内。
所述准确度确定装置由预建立的资源描述信息集合所包含的多个描述信息中选择待处理资源描述信息的选择方式包括但不限于:
1)随机选择待处理资源描述信息。
2)所述准确度确定装置根据所述多个资源描述信息所描述的资源对应的网络相关信息,来对该多个资源描述信息进行识别,以将识别所得的用户生成资源描述信息作为所述待处理资源描述信息。
例如,所述多个资源描述信息包括来自网站A’的资源A的资源描述信息、来自网站B’的资源B的资源描述信息与来自网站C’的资源C的资源描述信息,所述准确度确定装置根据预定的权威网站列表确定所述网站A’与网站B’为权威网站,网站C’为非权威网站,因此,所述准确度确定装置根据资源A的资源描述信息、资源B的资源描述信息与资源C的资源描述信息所来自的网站,识别资源C的资源描述信息来自非权威网站,并将资源C的资源描述信息作为所述待处理资源描述信息。
优选地,所述网络相关信息包括以下至少一项:
a)该网络相关信息对应的资源的链接地址信息。具体地,所述准确度确定装置根据资源的链接地址信息中包含的预定文本信息,例如:i)bbs;ii)blog;iii)SNS等,来识别该资源对应的资源描述信息为用户生成资源描述信息,进而将该资源对应的资源描述信息作为待处理资源描述信息。例如,所述多个资源描述信息所描述的资源包括资源A与资源B。其中,资源A的链接地址信息为“www.222.com”,资源B的链接地址信息为“bbs.444.com”,则所述准确度确定装置根据资源B的链接地址信息包含“bbs”,识别资源B的资源描述信息为用户生成资源描述信息,并将资源B的资源描述信息作为待处理资源描述信息。
b)该网络相关信息对应的资源所属网页的页面特征信息。具体地,所述准确度确定装置根据对资源所属网页的代码进行分析所得的页面特征信息,例如,帖子类特征信息、包含于页面主题中的诸如“的博客”、“的个人相册”等特定文本信息等,来确定属于该网页的资源的资源描述信息为用户生成资源描述信息,进而将该资源对应的资源描述信息作为待处理资源描述信息。优选地,所述帖子类特征信息包括;1)“主楼”、“1楼”、“楼主”等帖子类文本信息;2)包含多个层叠显示且结构相同的显示模块等的帖子类结构信息。
c)该网络相关信息对应的资源所属网站所包含的网页的页面特征信息。具体地,所述准确度确定装置根据对资源所属网站所包含的网页代码进行分析所得的该网站的网页页面特征信息,例如,出现在多个网页的页面主题中的诸如“的博客”、“的家庭视频”等特定文本信息、出现在多个网页中的帖子类结构信息等,来确定属于该网页的资源的资源描述信息为用户生成资源描述信息,进而将该资源对应的资源描述信息作为待处理资源描述信息。
更优选地,准确度确定装置根据上述三项网络相关信息中的至少一项,来对该多个资源描述信息进行识别,以将识别所得的用户生成资源描述信息作为所述待处理资源描述信息。
例如,当准确度确定装置获得资源的链接地址信息中包含的预定文本信息“bbs”时,进一步分析资源所属网页的页面特征信息是否包含帖子类特征信息,并当页面特征信息包含帖子类特征信息时,才将该资源识别为用户生成资源描述信息,并将该资源作为所述待处理资源描述信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何能够用来识别资源以获得用户生成资源描述信息的网络相关信息,均应包含在本发明的范围内。
接着,在步骤S2中,所述准确度确定装置获取所述待处理资源描述信息所包含的各个关键词在所述其他资源描述信息中的分布信息。其中,当所述待处理资源描述信息仅包含一个或多个分离的关键词时,所述准确度确定装置直接获取所述一个或多个关键词在所述其他资源描述信息中的分布信息;当所述待处理资源描述信息包含一个或多个文本时,所述准确度确定装置对所述一个或多个文本进行切词、去重等处理来获取所述待处理资源描述信息包含的关键词。
其中,所述分布信息包括以下至少一项:
1)所述各个关键词在所述所有其他资源描述信息中出现的总次数。例如,预建立的资源描述信息集合中包括描述资源A的待处理资源描述信息a、描述资源B的资源描述信息b和描述资源C的资源描述信息c,所述准确度确定装置获取资源描述信息a包含的关键词包括关键词a1和关键词a2、并获取关键词a1和关键词a2在资源描述信息b中出现2次,在资源描述信息c中出现1次,则所述准确度确定装置获得描述待处理资源的资源描述信息a包含的关键词a1和关键词a2在所述资源描述信息b与资源描述信息c中出现的总次数为2+1=3次。
2)所述各个关键词在所述所有其他资源描述信息中分别出现的次数。例如,预建立的资源描述信息集合中包括描述资源D的待处理资源描述信息d、描述资源E的资源描述信息e与描述资源F的资源描述信息f;所述准确度确定装置获取待处理资源描述信息d包含的关键词包括关键词d1和关键词d2、并获取关键词d1在资源描述信息e与资源描述信息f中出现5次,获取关键词d2在资源描述信息e与资源描述信息f中出现3次。
3)包含所述各个关键词中任一关键词的所述其他资源描述信息的标识信息。例如,预建立的资源描述信息集合中包括描述资源G的待处理资源描述信息g、描述资源H的资源描述信息h与描述资源I的资源描述信息i;所述准确度确定装置获取待处理资源描述信息g包含的关键词包括关键词g1、并确定资源描述信息h包含关键词g1,资源描述信息i中不包含关键词g1,则所述准确度确定装置获取包含关键词g1的资源描述信息的标识信息为h。
4)包含所述至少一个关键词的所述其他资源描述信息的数量。例如,预建立的资源描述信息集合中包括描述资源J的待处理资源描述信息j、描述资源K的资源描述信息k与描述资源L的资源描述信息1,所述准确度确定装置获取待处理资源描述信息j包含的关键词包括关键词j1与关键词j2、并确定资源描述信息k中包含关键词j1,资源描述信息1中包含关键词j2,则所述准确度确定装置获取包含关键词j1与关键词j2中至少一个的所述其他资源描述信息的数量为2个。
5)包含所述至少一个关键词的所述其他资源描述信息的数量占所述所有资源描述信息的数量的比例。
6)所述各个关键词中的每个关键词所出现的其他资源描述信息的数量占所有资源描述信息的数量的比例。例如,一个关键词在4个其他资源描述信息中出现,且所有资源描述信息的数量为10,则该关键词在其他资源描述信息的数量占所有资源描述信息的数量的比例为0.4。
接着,在步骤S4中,所述准确度确定装置根据所述分布信息,确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度,以获得该待处理资源描述信息的准确度信息。
其中,所述准确度确定装置根据所述分布信息,确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度的方式包括但不限于:
1)直接将分布信息作为所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度。例如,所述准确度确定装置获得包含所述待处理资源的至少一个关键词的所述其他资源描述信息的数量占所述所有资源描述信息的数量的比例为0.8,则所述准确度确定装置确定所述待处理资源描述信息与所有其他资源描述信息间的关联度为0.8。又例如,所述各个关键词中的每个关键词所出现的其他资源描述信息的数量占所有资源描述信息的数量的比例为0.4,则所述准确度确定装置确定该关键词与所有其他资源描述信息间的关联度为0.4。
2)将分布信息进行处理所获得的处理结果作为所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度。具体地,将分布信息进行处理的方式包括:a)根据分布信息中的一项来获得所述关联度,例如:i)将分布信息与预定阈值进行比较,并根据比较结果来确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度等级;ii)求取分布信息与资源描述信息集合中的资源描述信息总数之比,并根据所得比值来确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度;b)根据分布信息中的多项来获得所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度,例如:i)将两项项分布信息之比作为所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度;ii)将多项分布信息进行归一化处理,并对归一化处理所得的值进行求和、求平均值、求对数和等处理,来将所得的值作为所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度;iii)根据预定公式来对多项分布信息进行运算处理,并将运算处理所得的值作为所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度等。
例如,所述准确度确定装置获得待处理资源的各个关键词在所述所有其他资源描述信息中出现的总次数为10次,则所述准确度确定装置基于该总次数高于第一预定阈值,来确定所述待处理资源描述信息与所有其他资源描述信息间的关联度为高级。
又例如,所述准确度确定装置获得待处理资源描述信息包含的关键词在所述所有其他资源描述信息中出现的次数为5次,则所述准确度确定装置基于该次数低于第二预定阈值,来确定所述待处理资源描述信息与所有其他资源描述信息间的关联度为低级。
再例如,所述准确度确定装置获得包含所述待处理资源描述信息包含的关键词Y的所述其他资源描述信息的数量为6,并获取所述待处理资源描述信息包含的关键词X、关键词Y及关键词Z在所述所有其他资源描述信息中出现的总次数为60次,则所述准确度确定装置将包含该关键词Y的所述其他资源描述信息的数量与各个关键词在所述所有其他资源描述信息中出现的总次数之比6/60=0.1作为为该关键词Y与所有其他资源描述信息间的关联度。
再例如,所述准确度确定装置获得待处理资源的各个关键词在所述所有其他资源描述信息中出现的总次数为20次,并基于包含所述各个关键词中任一关键词的所述其他资源描述信息的标识信息获得包含所述各个关键词中任一关键词的所述其他资源描述信息的数量为5,则所述准确度确定装置将所述待处理资源的各个关键词在所述所有其他资源描述信息中出现的总次数与获得的包含所述各个关键词中任一关键词的所述其他资源描述信息的数量之比20/5=4作为所述待处理资源描述信息与所有其他资源描述信息间的关联度。
再例如,所述准确度确定装置获得待处理资源的各个关键词在所述所有其他资源描述信息中出现的总次数为10次,所述资源描述信息集合中所有的关键词数量为50,包含所述任一关键词的所述其他资源描述信息的数量占所述所有资源描述信息的数量的比例为0.5,则准确度确定装置根据第一预定公式:所述待处理资源描述信息与所有其他资源描述信息间的关联度=待处理资源的各个关键词在所述所有其他资源描述信息中出现的总次数/所述资源描述信息集合中所有的关键词数量+所述任一关键词的所述其他资源描述信息的数量占所述所有资源描述信息的数量的比例,来确定所述待处理资源描述信息与所有其他资源描述信息间的关联度=10/50+0.5=0.7。
再例如,所述准确度确定装置获得待处理资源包含的关键词V与关键词W在所述所有其他资源描述信息中出现的总次数为10次,获得待处理资源包含的关键词V在所述所有其他资源描述信息中出现的次数为3次,包含所述关键词V与关键词W中至少一个关键词的所述其他资源描述信息的数量占所述所有资源描述信息的数量的比例为0.9,则准确度确定装置根据第二预定公式:所述待处理资源描述信息包含的关键词与所有其他资源描述信息间的关联度=该关键词在所述所有其他资源描述信息中出现的次数/待处理资源包含的各关键词在所述所有其他资源描述信息中出现的总次数*包含所述至少一个关键词的所述其他资源描述信息的数量占所述所有资源描述信息的数量的比例,来确定关键词V与所有其他资源描述信息间的关联度=3/10*0.9=0.27。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述分布信息,确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度的实现方式,均应包含在本发明的范围内。
其中,所述准确度信息包括以下至少一项:1)所述待处理资源描述信息的总体准确度;2)所述待处理资源描述信息所包含的各个关键词的准确度等。
具体地,所述准确度确定装置基于所确定的待处理资源描述信息与所有其他资源描述信息间的关联度来获得待处理资源描述信息的总体准确度的方式包括但不限于:1)直接将所述待处理资源描述信息与所有其他资源描述信息间的关联度作为待处理资源描述信息的总体准确度。2)将所述待处理资源描述信息与所有其他资源描述信息间的关联度进行处理所获得的处理结果作为待处理资源描述信息的总体准确度。例如,将所述待处理资源描述信息与所有其他资源描述信息间的关联度与预定权重值的乘积作为待处理资源描述信息的总体准确度。又例如,将所述待处理资源描述信息与所有其他资源描述信息间的关联度求取平方或3次方的结果作为所述待处理资源描述信息所包含的各个关键词的准确度等。3)将所述待处理资源所包含的各关键词与所有其他资源描述信息间的关联度进行求和、加权求和、求积、归一化后求和等所获得的结果作为待处理资源描述信息的总体准确度。
所述准确度确定装置基于所述待处理资源所包含的各个关键词与所有其他资源描述信息间的关联度来确定所述待处理资源描述信息所包含的各个关键词的准确度的方式包括但不限于;1)直接将所述待处理资源描述信息所包含的各个关键词与所有其他资源描述信息间的各个关联度分别作为所述待处理资源描述信息所包含的各个关键词的准确度。2)将所述待处理资源描述信息所包含的各个关键词与所有其他资源描述信息间的关联度进行处理所获得的各个处理结果分别作为所述待处理资源描述信息所包含的各个关键词的准确度。例如,将所述待处理资源所包含的各个关键词与所有其他资源描述信息间的各个关联度分别求取平方或3次方的各个结果作为所述待处理资源描述信息所包含的各个关键词的准确度。又例如,将所述待处理资源所包含的各个关键词与所有其他资源描述信息间的各个关联度与预定权重的乘积分别作为所述待处理资源描述信息所包含的各个关键词的准确度等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所确定的关联度来获得待处理资源描述信息的总体准确度和/或所述待处理资源描述信息所包含的各个关键词的准确度的实现方式,均应包含在本发明的范围内。
根据本发明的方法能够通过对一个资源的资源描述信息包含的关键词在其他多个相同或相似资源的资源描述信息中的分布情况,来确定该资源描述信息或其包含的关键词与其他资源描述信息的关联度,由于该资源描述信息所描述的资源和其他资源描述信息所描述的资源相同或相似,因此,该关联度能够反映该资源描述信息或其包含的关键词的描述准确度。根据本发明的方法尤其适用于确定用户生成资源的资源描述信息的描述准确度。
作为本发明的优选方案之一,图2示出了本发明一个优选实施例的基于资源聚类来预建立资源描述信息集合的流程图。
在步骤S5中,所述准确度确定装置获取多个资源。其中,所述准确度确定装置获取多个资源的方式包括但不限于:1)由多个网站中获取所述多个资源;2)由预存储的资源库中获取所述多个资源等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取多个资源的实现方式,均应包含在本发明的范围内。
接着,在步骤S6中,所述准确度确定装置根据所述多个资源自身所包含的信息,来对该多个资源进行聚类,以获得一组或多组聚类资源,其中,每组聚类资源包括一个或多个相同或相似的资源。其中,所述准确度确定装置根据资源类型来采用相应的聚类方式。例如,对于图片类资源,所述准确度确定装置根据图片包含的象素点信息、图片的颜色直方图信息、局部不变特征(SIFT,Scale-invariant featuretransform)、纹理特征(HTD,Homogeneous Texture Descriptor),颜色特征(SCD)等,来进行图片聚类。又例如,对于视频类资源,所述准确度确定装置根据视频资源的大小、格式、相同时间点的截图等信息来进行聚类。再例如,对于音频类资源,所述准确度确定装置根据音频的格式、大小、音频资源的平均音调、音频资源在各个时间点上的音调等信息来进行聚类。再例如,对于程序包类资源,所述准确度确定装置根据程序包包含的源代码信息等来进行聚类。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对资源进行聚类以获得一组或多组聚类资源,其中,每组聚类资源包括一个或多个相同或相似的资源的聚类方式,均应包含在本发明的范围内。
接着,在步骤S7中,所述准确度确定装置根据所述每组相同或相似的资源对应的资源描述信息,来建立所述资源描述信息集合。
例如,所述准确度确定装置获得一组聚类资源A1、一组聚类资源A2、一组聚类资源A3,所述准确度确定装置根据聚类资源A1包含的资源a1对应的资源描述信息、资源a2对应的资源描述信息及资源a3对应的资源描述信息,来建立所述资源描述信息集合。
优选地,在步骤S7之前、之后或者同时,所述准确度确定装置基于聚类资源A2或聚类资源A3包含的资源对应的资源描述信息,来建立另一资源描述信息集合。
图3示出了本发明一个优选实施例的用于确定资源描述信息的准确度信息的方法的流程图。其中,步骤S1与S2已在参照图1所示实施例中予以详述,并以引用的方式包含于此,不再赘述。
在步骤S3中,所述准确度确定装置获取用于确定所述关联度的其他相关信息。
其中,所述其他相关信息包括以下至少一项;
1)包含所述各个关键词中任一关键词的所述其他资源描述信息所描述的资源的权威性。
其中,所述准确度确定装置获取资源的权威性的方式包括但不限于:a)获取预存储的该资源的权威性;b)基于该资源所属网站的特征信息来确定该资源的权威性。例如,所述准确度确定装置基于该网站的访问量、该网站是否包含在预定的权威网站、素材网站的列表中、资料库中包含的来自该网站的资源的数量是否超过预定阈值及资料库中包含的来自该网站的资源的质量信息是否为优质等,来确定该资源的权威性。
2)所述所有关键词中的每个关键词与包含该关键词的各个其他资源描述信息间的第一相关度。
其中,所述准确度确定装置获取关键词与包含该关键词的各个其他资源描述信息间的第一相关度的方式包括但不限于:
a)获取预存储的关键词与包含该关键词的各个其他资源描述信息间的第一相关度;例如,包括关键词X的其他资源描述信息为资源描述信息b和资源描述信息c,且在所述准确度确定装置所能够访问的存储设备中预存储关键词X与资源描述信息b间的第一相关度为2,关键词X与资源描述信息c间的第一相关度为3,则准确度确定装置获取预存储的关键词X与包含该关键词的其他资源描述信息b和c间的第一相关度分别为2和3。
b)所述准确度确定装置基于以下至少一项来确定关键词与包含该关键词的一个其他资源描述信息间的所述第一相关度,以分别确定该关键词与包含该关键词的各个其他资源描述信息间的第一相关度:
i)该关键词在一个其他资源描述信息中出现的次数;例如,所述准确度确定装置将该关键词在一个其他资源描述信息中出现的次数与该其他资源描述信息所包含的关键词总数之比,作为该关键词与该其他资源描述信息间的第一相关度。
ii)该关键词所在的文本信息的文本类型;其中,所述文本信息包含于其他资源描述信息中,且所述文本类型包括但不限于:标题类文本、锚文本类文本、在该资源所属网页中与资源相邻的上下文类文本等;例如,当包含该关键词的文本类型为标题类文本,则所述准确度确定装置确定该关键词的第一相关度为高级。
iii)该关键词在一个其他资源描述信息包含的各个文本类型中分别出现的次数及各个文本类型的预定权重值;例如,所述准确度确定装置获得该关键词在该其他资源描述信息包含的标题类文本中出现1次,上下文类文本中出现8次,且标题类文本的预定权重值为0.6,上下文类文本的预定权重值为0.3,则所述准确度确定装置确定不同文本类型的预定权重值与该关键词出现在不同类型文本中的次数的乘积和=0.6*1+0.3*8=3,并将该乘积和作为该关键词与包含该关键词的该其他资源描述信息间的第一相关度。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何用于确定该关键词与包含该关键词的该其他资源描述信息间的第一相关度的实现方式,例如,将关键词在一个其他资源描述信息中出现的次数乘以该关键词所在的文本信息的各个文本类型的预定权重值的平均值,来获得所述第一相关度等,均应包含在本发明的范围内。
3)所述所有关键词中的每个关键词与所述待处理资源描述信息间的第二相关度。其中,所述准确度确定装置获取所述所有关键词中的每个关键词与所述待处理资源描述信息间的第二相关度的获取方式,与所述准确度确定装置获取所述所有关键词中的每个关键词与包含该关键词的其他资源描述信息间的第一相关度的获取方式相同或相似,并以引用的方式包含于此,不再赘述。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何用于确定所述关联度的其他相关信息以及任何获取用于确定所述关联度的其他相关信息的实现方式,均应包含在本发明的范围内。
需要进一步说明的是,步骤S2与步骤S3并无先后顺序。
接着,在步骤S4’中,所述准确度确定装置根据所述分布信息以及所述其他相关信息,确定所述待处理资源描述信息与所有其他资源描述信息间的关联度,以获得该待处理资源描述信息的准确度。其中,所述准确度确定装置根据所述分布信息以及所述其他相关信息,确定所述待处理资源描述信息与所有其他资源描述信息间的关联度的方式包括但不限于:
1)所述准确度确定装置先基于所述分布信息确定包含至少一个关键词的其他资源描述信息,再根据所确定的包含至少一个关键词的所有其他资源描述信息及所述其他相关信息来确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度。例如,所述准确度确定装置先基于包含所述各个关键词中至少一个关键词的所述其他资源描述信息的标识信息,确定资源描述集合中包含至少一个关键词的所述其他资源描述信息包括描述资源A的资源描述信息a,接着,所述准确度确定装置再根据资源A的权威性为高级,确定所述待处理资源描述信息与所有其他资源描述信息间的关联度为高级。
又例如,所述准确度确定装置先基于包含所述各个关键词中至少一个关键词的所述其他资源描述信息的标识信息,确定资源描述集合中包含至少一个关键词的所述其他资源描述信息包括描述资源B的资源描述信息b与描述资源C的资源描述信息c,并确定描述资源B的资源描述信息b包含关键词Y,描述资源C的资源描述信息c包含关键词X与关键词Y,所述准确度确定装置基于关键词X与资源描述信息c的第一相关度为0.6,来确定该关键词X与所有其他资源描述信息间的关联度为0.6,并基于关键词Y与资源描述信息b的第一相关度为0.8及关键词Y与资源描述信息c的第一相关度为0.4、来确定该关键词Y与所有其他资源描述信息间的关联度=0.8+0.4=1.2。
2)准确度确定装置根据分布信息中的至少一项以及所述其他相关信息中的至少一项来确定所述关联度。具体地,所述准确度确定装置基于所述其他相关信息来调整所述分布信息所包含的值,并基于调整后的结果来确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度。
例如,所述准确度确定装置获取关键词X在资源描述信息集合中的资源描述信息a中出现2次,并获取该关键词X与资源描述信息a的第一相关度为0.6,则所述准确度确定装置以该第一相关度为调整因子,确定所述该关键词X与所有其他资源描述信息间的关联度为0.6*2=1.2。
又例如,所述准确度确定装置获取关键词Y在资源描述信息集合中的资源描述信息b中出现3次,关键词Y与资源描述信息b的第一相关度为0.3,与待处理资源描述信息的第二相关度为0.5,并获取关键词Z在资源描述信息b中出现6次,关键词Z与资源描述信息b的第一相关度为0.5,与待处理资源的资源描述信息的第二相关度为0.2;则所述准确度确定装置确定关键词Y与所有其他资源描述信息间的关联度=3*0.3*0.5=0.45,关键词Z与所有其他资源描述信息间的关联度=6*0.5*0.2=0.6;并且,所述准确度确定装置将关键词Y与所有其他资源描述信息间的关联度以及关键词Z与所有其他资源描述信息间的关联度进行处理,诸如求取两者的平均值、平方和等,并将处理后的结果作为所述待处理资源描述信息与所有其他资源描述信息间的关联度。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述分布信息以及所述其他相关信息,确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度的实现方式,均应包含在本发明的范围内。
其中,所述准确度确定装置基于所确定的关联度来确定所述待处理资源描述信息的总体准确度和/或所述待处理资源描述信息所包含的各个关键词的准确度的实现方式,已在图1所示的实施例中的步骤S4中予以详述,并以引用的方式包含于此,不再赘述。
作为优选方案之一,根据本发明的方法还包括所述准确度确定装置根据所述待处理资源描述信息的准确度信息及其所描述的资源,建立或更新资源信息库的步骤。
例如,所述准确度确定装置确定所述待处理资源描述信息包含的关键词X的准确度为0.8,关键词Y的准确度为0.1,则所述准确度确定装置根据关键词X的准确度及关键词Y的准确度以及所述待处理资源,建立或更新资源信息库。
优选地,所述准确度确定装置将所述待处理资源所属网站的链接地址信息、所述待处理资源的评价值信息等存储在所述资源信息库中。
根据本实施例的方法,通过对待处理资源描述信息包含的关键词在其他多个相同或相似资源的描述信息中的分布情况及其他相关信息的分析,能够更为准确地确定待处理资源描述信息和/或其包含的关键词与其他资源描述信息间的关联度,从而更为准确地判断待处理资源描述信息的准确度。
图4示出了本发明的一个优选实施例的根据所确定的资源描述信息的准确度信息来对资源执行相应操作的流程图。
在步骤S8中,所述准确度确定装置获取与用户行为相关的行为相关信息。其中,所述用户行为包括但不限于:1)用户主动要求提供服务的行为;例如,用户输入查询序列并发送所述查询序列等,又例如,用户控制鼠标使光标停留在一个资源上以索取该资源的推荐等级等;2)用户触发资源信息显示的行为,例如,用户打开一个网页页面等。其中,所述行为相关信息包括但不限于:1)用户所执行的行为操作信息,例如,请求搜索的行为信息,又例如,请求显示资源推荐等级的行为信息等;2)用户所输入的输入序列,例如,用户所输入的用于检索的输入序列等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何与资源相关的用户行为,均应包含在本发明的范围内。
接着,在步骤S9中,所述准确度确定装置根据所述行为相关信息来确定待处理资源。
例如,所述准确度确定装置根据用户输入的用于检索的输入序列,由检索后所获得的检索结果中选择待处理资源,该选择待处理资源的方式包括但不限于:随机选择、基于点击次数来选择等。又例如,所述准确度确定装置根据光标停留的位置,将该位置所对应的资源作为待处理资源。再例如,所述准确度确定装置根据用户打开一个网页页面,将该网页页面中包含的资源作为待处理资源等。
接着,在步骤S10中,所述准确度确定装置根据所述待处理资源来在所述资源信息库中进行查询,以获得所述待处理资源对应的资源描述信息的准确度信息。其中,所述资源信息库的建立及更新过程已在图3所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
接着,在步骤S11中,所述准确度确定装置根据所述待处理资源对应的资源描述信息的准确度信息,执行与所述用户行为相应的操作。
例如,对于由检索结果中选择得到的所述待处理资源,所述准确度确定装置根据所述待处理资源对应的资源描述信息的准确度信息,来调整该待处理资源在检索结果中的排序,并根据调整后的排序结果来生成展现信息,以将所述展现信息提供给所述用户。又例如,所述准确度确定装置基于光标停留的位置获得待处理资源,则所述准确度确定装置将所获得的所述待处理资源对应的资源描述信息的准确度信息显示在该光标所在的页面中,优选的,以临时窗口的方式显示在临近该光标位置等。再例如,所述准确度确定装置基于用户打开的网页来获得待处理资源,则所述准确度确定装置将所获得的所述待处理资源对应的资源描述信息的准确度信息显示在该网页中。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述待处理资源对应的资源描述信息的准确度信息,执行与所述用户行为相应的操作的实现方式,均应包含在本发明的范围内。
根据本实施例的方法,能将所确定的资源描述信息的准确度应用于多种场合,例如:1)应用于检索***,以使资源描述信息不准确的资源排序靠后,使检索结果的排序更为合理;2)应用于推荐***,例如,基于所确定的资源描述信息的准确度来向用户推荐资源,以提高资源的利用率;3)提示***,例如,基于所确定的资源描述信息的准确度来提示用户该资源的描述可能准确度较低等。
图5示出了本发明一个方面的用于确定资源描述信息的准确度信息的准确度确定装置示意图。其中,根据本发明的准确度确定装置包括选择装置1、第一获取装置2及第一确定装置3。
所述选择装置1由预建立的资源描述信息集合所包含的多个描述信息中选择待处理资源描述信息,其中,所述多个资源描述信息中的每个资源描述信息均用于描述一个资源,且每个资源描述信息所描述的资源与该资源描述信息集合中的任一其他资源描述信息所描述的资源相似或相同。其中,所述资源包括但不限于:1)图片类资源;2)音频类资源;3)视频类资源;4)程序包类资源等。
其中,预建立资源描述信息集合的方式包括但不限于:
1)人工来预建立资源描述信息集合。
a)对于图片类资源、操作人员在建立资源描述信息集合时,基于视觉效果来判断多个资源是否相同或相似。例如,对于图片类资源、如果资源A1与资源B1在视觉效果上相同,仅仅只是在背景颜色、尺寸、局部区域等方面存在差异,则操作人员判断资源A1与资源B1相似。
b)对于视频类资源,操作人员在建立资源描述信息集合时,基于资源情节来判断多个资源是否相同或相似。例如,如果资源A2与资源B2的主要情节相同,只是在图像分辨率、压缩格式等方面不同,则操作人员判断资源A2与资源B2相似。
c)对于音频类资源,操作人员在建立资源描述信息集合时,基于听觉效果来判断多个资源是否相同或相似。例如,资源A3与资源B3在听觉效果上相同,不同仅在于资源A3与资源B3的歌词、压缩格式等方面不同,则操作人员判断资源A3与资源B3相似。
d)对于程序包类资源,操作人员基于程序源代码来判断多个资源是否相同或相似。例如,资源A4与资源B4的源代码只是在变量、指针、数组等的命名或者对程序源代码的解释等方面存在不同,则操作人员判断资源A4与资源B4相似。
2)基于资源聚类来预建立资源描述信息集合。该建立方式将在图6所示实施例中予以详述。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何确定资源是否相同或相似的方式,以及基于相同或相似资源来预建立资源描述信息集合的实现方式,均应包含在本发明的范围内。
选择装置1由预建立的资源描述信息集合所包含的多个描述信息中选择待处理资源描述信息的选择方式包括但不限于:
1)所述选择装置1随机由预建立的资源描述信息集合所包含的多个描述信息中选择待处理资源描述信息。
2)所述选择装置1包括识别装置(图未示),所述识别装置根据所述多个资源描述信息所描述的资源对应的网络相关信息,来对该多个资源描述信息进行识别,以将识别所得的用户生成资源描述信息作为所述待处理资源描述信息。
例如,所述多个资源描述信息包括来自网站A’的资源A的资源描述信息、来自网站B’的资源B的资源描述信息与来自网站C’的资源C的资源描述信息,所述识别装置根据预定的权威网站列表确定所述网站A’与网站B’为权威网站,网站C’为非权威网站,因此,所述识别装置根据资源A的资源描述信息、资源B的资源描述信息与资源C的资源描述信息所来自的网站,识别资源C的资源描述信息来自非权威网站,并将资源C的资源描述信息作为所述待处理资源描述信息。
优选地,所述网络相关信息包括以下至少一项:
a)该网络相关信息对应的资源的链接地址信息。具体地,所述识别装置根据资源的链接地址信息中包含的预定文本信息,例如:i)bbs;ii)blog;iii)SNS等,来识别该资源对应的资源描述信息为用户生成资源描述信息,进而将该资源对应的资源描述信息作为待处理资源描述信息。例如,所述多个资源描述信息所描述的资源包括资源A与资源B。其中,资源A的链接地址信息为“www.222.com”,资源B的链接地址信息为“bbs.444.com”,则所述识别装置根据资源B的链接地址信息包含“bbs”,识别资源B的资源描述信息为用户生成资源描述信息,并将资源B的资源描述信息作为待处理资源描述信息。
b)该网络相关信息对应的资源所属网页的页面特征信息。具体地,所述识别装置根据对资源所属网页的代码进行分析所得的页面特征信息,例如,帖子类特征信息、包含于页面主题中的诸如“的博客”、“的个人相册”等特定文本信息等,来确定属于该网页的资源的资源描述信息为用户生成资源描述信息,进而将该资源对应的资源描述信息作为待处理资源描述信息。优选地,所述帖子类特征信息包括;1)“主楼”、“1楼”、“楼主”等帖子类文本信息;2)包含多个层叠显示且结构相同的显示模块等的帖子类结构信息。
c)该网络相关信息对应的资源所属网站所包含的网页的页面特征信息。具体地,所述识别装置根据对资源所属网站所包含的网页代码进行分析所得的该网站的网页页面特征信息,例如,出现在多个网页的页面主题中的诸如“的博客”、“的家庭视频”等特定文本信息、出现在多个网页中的帖子类结构信息等,来确定属于该网页的资源的资源描述信息为用户生成资源描述信息,进而将该资源对应的资源描述信息作为待处理资源描述信息。
更优选地,所述识别装置根据上述三项网络相关信息中的至少一项,来对该多个资源描述信息进行识别,以将识别所得的用户生成资源描述信息作为所述待处理资源描述信息。
例如,当所述识别装置获得资源的链接地址信息中包含的预定文本信息“bbs”时,进一步分析资源所属网页的页面特征信息是否包含帖子类特征信息,并当页面特征信息包含帖子类特征信息时,才将该资源识别为用户生成资源描述信息,并将该资源作为所述待处理资源描述信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何能够用来识别资源以获得用户生成资源描述信息的网络相关信息,均应包含在本发明的范围内。
接着,所述第一获取装置2获取所述待处理资源描述信息所包含的各个关键词在所述其他资源描述信息中的分布信息。其中,当所述待处理资源描述信息仅包含一个或多个分离的关键词时,所述第一获取装置2直接获取所述一个或多个关键词在所述其他资源描述信息中的分布信息;当所述待处理资源描述信息包含一个或多个文本时,所述第一获取装置2对所述一个或多个文本进行切词、去重等处理来获取所述待处理资源描述信息包含的关键词。
其中,所述分布信息包括以下至少一项:
1)所述各个关键词在所述所有其他资源描述信息中出现的总次数。例如,预建立的资源描述信息集合中包括描述资源A的待处理资源描述信息a、描述资源B的资源描述信息b和描述资源C的资源描述信息c,所述第一获取装置2获取资源描述信息a包含的关键词包括关键词a1和关键词a2、并获取关键词a1和关键词a2在资源描述信息b中出现2次,在资源描述信息c中出现1次,则所述第一获取装置2获得待处理资源描述信息a包含的关键词a1和关键词a2在所述资源描述信息b与资源描述信息c中出现的总次数为2+1=3次。
2)所述各个关键词在所述所有其他资源描述信息中分别出现的次数。例如,预建立的资源描述信息集合中包括描述资源D的待处理资源描述信息d、描述资源E的资源描述信息e与描述资源F的资源描述信息f;所述第一获取装置2获取待处理资源描述信息d包含的关键词包括关键词d1和关键词d2、并获取关键词d1在资源描述信息e与资源描述信息f中出现5次,获取关键词d2在资源描述信息e与资源描述信息f中出现3次。
3)包含所述各个关键词中任一关键词的所述其他资源描述信息的标识信息。例如,预建立的资源描述信息集合中包括描述资源G的待处理资源描述信息g、描述资源H的资源描述信息h与描述资源I的资源描述信息i;所述第一获取装置2获取待处理资源描述信息g包含的关键词包括关键词g1、并确定资源描述信息h包含关键词g1,资源描述信息i中不包含关键词g1,则所述第一获取装置2获取包含关键词g1的资源描述信息的标识信息为h。
4)包含所述至少一个关键词的所述其他资源描述信息的数量。例如,预建立的资源描述信息集合中包括描述资源J的待处理资源描述信息j、描述资源K的资源描述信息k与描述资源L的资源描述信息1,所述第一获取装置2获取待处理资源描述信息j包含的关键词包括关键词j1与关键词j2、并确定资源描述信息k中包含关键词j1,资源描述信息1中包含关键词j2,则所述第一获取装置2获取包含关键词j1与关键词j2中至少一个的所述其他资源描述信息的数量为2个。
5)包含所述至少一个关键词的所述其他资源描述信息的数量占所述所有资源描述信息的数量的比例。
6)所述各个关键词中的每个关键词所出现的其他资源描述信息的数量占所有资源描述信息的数量的比例。例如,一个关键词在4个其他资源描述信息中出现,且所有资源描述信息的数量为10,则该关键词在其他资源描述信息的数量占所有资源描述信息的数量的比例为0.4。
接着,所述第一确定装置3根据所述分布信息,确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度,以获得该待处理资源描述信息的准确度信息。
其中,所述第一确定装置3根据所述分布信息,确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度的方式包括但不限于:
1)直接将分布信息作为所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度。例如,所述第一获取装置2获得包含所述待处理资源的至少一个关键词的所述其他资源描述信息的数量占所述所有资源描述信息的数量的比例为0.8,则所述第一确定装置3确定所述待处理资源描述信息与所有其他资源描述信息间的关联度为0.8。又例如,所述各个关键词中的每个关键词所出现的其他资源描述信息的数量占所有资源描述信息的数量的比例为0.4,则所述第一确定装置3确定该关键词与所有其他资源描述信息间的关联度为0.4。
2)将分布信息进行处理所获得的处理结果作为所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度。具体地,将分布信息进行处理的方式包括:a)根据分布信息中的一项来获得所述关联度,例如:i)将分布信息与预定阈值进行比较,并根据比较结果来确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度等级;ii)求取分布信息与资源描述信息集合中的资源描述信息总数之比,并根据所得比值来确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度;b)根据分布信息中的多项来获得所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度,例如:i)将两项项分布信息之比作为所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度;ii)将多项分布信息进行归一化处理,并对归一化处理所得的值进行求和、求平均值、求对数和等处理,来将所得的值作为所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度;iii)根据预定公式来对多项分布信息进行运算处理,并将运算处理所得的值作为所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度等。
例如,所述第一获取装置2获得待处理资源的各个关键词在所述所有其他资源描述信息中出现的总次数为10次,则所述第一确定装置3基于该总次数高于第一预定阈值,来确定所述待处理资源描述信息与所有其他资源描述信息间的关联度为高级。
又例如,所述第一获取装置2获得待处理资源描述信息包含的关键词在所述所有其他资源描述信息中出现的次数为5次,则所述第一确定装置3基于该次数低于第二预定阈值,来确定所述待处理资源描述信息与所有其他资源描述信息间的关联度为低级。
再例如,所述第一获取装置2获得包含所述待处理资源描述信息包含的关键词Y的所述其他资源描述信息的数量为6,并获取所述待处理资源描述信息包含的关键词X、关键词Y及关键词Z在所述所有其他资源描述信息中出现的总次数为60次,则所述第一确定装置3将包含该关键词Y的所述其他资源描述信息的数量与各个关键词在所述所有其他资源描述信息中出现的总次数之比6/60=0.1作为为该关键词Y与所有其他资源描述信息间的关联度。
再例如,所述第一获取装置2获得待处理资源的各个关键词在所述所有其他资源描述信息中出现的总次数为20次,并基于包含所述各个关键词中任一关键词的所述其他资源描述信息的标识信息获得包含所述各个关键词中任一关键词的所述其他资源描述信息的数量为5,则所述第一确定装置3将所述待处理资源的各个关键词在所述所有其他资源描述信息中出现的总次数与获得的包含所述各个关键词中任一关键词的所述其他资源描述信息的数量之比20/5=4作为所述待处理资源描述信息与所有其他资源描述信息间的关联度。
再例如,所述第一获取装置2获得待处理资源的各个关键词在所述所有其他资源描述信息中出现的总次数为10次,所述资源描述信息集合中所有的关键词数量为50,包含所述任一关键词的所述其他资源描述信息的数量占所述所有资源描述信息的数量的比例为0.5,则第一确定装置3根据第一预定公式:所述待处理资源描述信息与所有其他资源描述信息间的关联度=待处理资源的各个关键词在所述所有其他资源描述信息中出现的总次数/所述资源描述信息集合中所有的关键词数量+所述任一关键词的所述其他资源描述信息的数量占所述所有资源描述信息的数量的比例,来确定所述待处理资源描述信息与所有其他资源描述信息间的关联度=10/50+0.5=0.7。
再例如,所述第一获取装置2获得待处理资源包含的关键词V与关键词W在所述所有其他资源描述信息中出现的总次数为10次,获得待处理资源包含的关键词V在所述所有其他资源描述信息中出现的次数为3次,包含所述关键词V与关键词W中至少一个关键词的所述其他资源描述信息的数量占所述所有资源描述信息的数量的比例为0.9,则第一确定装置3根据第二预定公式:所述待处理资源描述信息包含的关键词与所有其他资源描述信息间的关联度=该关键词在所述所有其他资源描述信息中出现的次数/待处理资源包含的各关键词在所述所有其他资源描述信息中出现的总次数*包含所述至少一个关键词的所述其他资源描述信息的数量占所述所有资源描述信息的数量的比例,来确定关键词V与所有其他资源描述信息间的关联度=3/10*0.9=0.27。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述分布信息,确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度的实现方式,均应包含在本发明的范围内。
其中,所述准确度信息包括以下至少一项:1)所述待处理资源描述信息的总体准确度;2)所述待处理资源描述信息所包含的各个关键词的准确度等。
具体地,所述第一确定装置3基于所确定的待处理资源描述信息与所有其他资源描述信息间的关联度来获得待处理资源描述信息的总体准确度的方式包括但不限于:1)直接将所述待处理资源描述信息与所有其他资源描述信息间的关联度作为待处理资源描述信息的总体准确度。2)将所述待处理资源描述信息与所有其他资源描述信息间的关联度进行处理所获得的处理结果作为待处理资源描述信息的总体准确度。例如,将所述待处理资源描述信息与所有其他资源描述信息间的关联度与预定权重值的乘积作为待处理资源描述信息的总体准确度。又例如,将所述待处理资源描述信息与所有其他资源描述信息间的关联度求取平方或3次方的结果作为所述待处理资源描述信息所包含的各个关键词的准确度等。3)将所述待处理资源所包含的各关键词与所有其他资源描述信息间的关联度进行求和、加权求和、求积、归一化后求和等所获得的结果作为待处理资源描述信息的总体准确度。
所述第一确定装置3基于所述待处理资源所包含的各个关键词与所有其他资源描述信息间的关联度来确定所述待处理资源描述信息所包含的各个关键词的准确度的方式包括但不限于;1)直接将所述待处理资源描述信息所包含的各个关键词与所有其他资源描述信息间的各个关联度分别作为所述待处理资源描述信息所包含的各个关键词的准确度。2)将所述待处理资源描述信息所包含的各个关键词与所有其他资源描述信息间的关联度进行处理所获得的各个处理结果分别作为所述待处理资源描述信息所包含的各个关键词的准确度。例如,将所述待处理资源所包含的各个关键词与所有其他资源描述信息间的各个关联度分别求取平方或3次方的各个结果作为所述待处理资源描述信息所包含的各个关键词的准确度。又例如,将所述待处理资源所包含的各个关键词与所有其他资源描述信息间的各个关联度与预定权重的乘积分别作为所述待处理资源描述信息所包含的各个关键词的准确度等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所确定的关联度来获得待处理资源描述信息的总体准确度和/或所述待处理资源描述信息所包含的各个关键词的准确度的实现方式,均应包含在本发明的范围内。
根据本发明的准确度确定装置能够通过对一个资源的资源描述信息包含的关键词在其他多个相同或相似资源的资源描述信息中的分布情况,来确定该资源描述信息或其包含的关键词与其他资源描述信息的关联度,由于该资源描述信息所描述的资源和其他资源描述信息所描述的资源相同或相似,因此,该关联度能够反映该资源描述信息或其包含的关键词的描述准确度。根据本发明的准确度确定装置尤其适用于确定用户生成资源的资源描述信息的描述准确度。
作为本发明的优选方案之一,图6示出了本发明一个优选实施例的基于资源聚类来预建立资源描述信息集合的准确度确定装置示意图。根据本实施例的准确度确定装置包括第三获取装置4、聚类装置5及构建装置6。
所述第三获取装置4获取多个资源。其中,所述第三获取装置4获取多个资源的方式包括但不限于:1)由多个网站中获取所述多个资源;2)由预存储的资源库中获取所述多个资源等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取多个资源的实现方式,均应包含在本发明的范围内。
接着,所述聚类装置5根据所述多个资源自身所包含的信息,来对该多个资源进行聚类,以获得一组或多组聚类资源,其中,每组聚类资源包括一个或多个相同或相似的资源。其中,所述聚类装置5根据资源类型来采用相应的聚类方式。例如,对于图片类资源,所述聚类装置5根据图片包含的象素点信息、图片的颜色直方图信息、局部不变特征(SIFT,Scale-invariant feature transform)、纹理特征(HTD,Homogeneous Texture Descriptor),颜色特征(SCD)等,来进行图片聚类。又例如,对于视频类资源,所述聚类装置5根据视频资源的大小、格式、相同时间点的截图等信息来进行聚类。再例如,对于音频类资源,所述聚类装置5根据音频的格式、大小、音频资源的平均音调、音频资源在各个时间点上的音调等信息来进行聚类。再例如,对于程序包类资源,所述聚类装置5根据程序包包含的源代码信息等来进行聚类。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对资源进行聚类以获得一组或多组聚类资源,其中,每组聚类资源包括一个或多个相同或相似的资源的聚类方式,均应包含在本发明的范围内。
接着,所述构建装置6根据所述每组相同或相似的资源对应的资源描述信息,来建立所述资源描述信息集合。
例如,所述聚类装置5获得一组聚类资源A1、一组聚类资源A2、一组聚类资源A3,所述构建装置6根据聚类资源A1包含的资源a1对应的资源描述信息、资源a2对应的资源描述信息及资源a3对应的资源描述信息,来建立所述资源描述信息集合。
优选地,所述构建装置6还基于聚类资源A2或聚类资源A3包含的资源对应的资源描述信息,来建立另一资源描述信息集合。
图7示出了本发明一个优选实施例的用于确定资源描述信息的准确度信息的准确度确定装置示意图。根据本实施例的准确度确定装置包括选择装置1、第一获取装置2、第一确定装置3及第二获取装置7;所述第一确定装置3还包括子确定装置301。其中,选择装置1及第一获取装置2已在参照图5所示实施例中予以详述,并以引用的方式包含于此,不再赘述。
所述第二获取装置7获取用于确定所述关联度的其他相关信息。
其中,所述其他相关信息包括以下至少一项;
1)包含所述各个关键词中任一关键词的所述其他资源描述信息所描述的资源的权威性。
其中,所述第二获取装置7获取资源的权威性的方式包括但不限于:a)获取预存储的该资源的权威性;b)基于该资源所属网站的特征信息来确定该资源的权威性。例如,所述第二获取装置7基于该网站的访问量、该网站是否包含在预定的权威网站、素材网站的列表中、资料库中包含的来自该网站的资源的数量是否超过预定阈值及资料库中包含的来自该网站的资源的质量信息是否为优质等,来确定该资源的权威性。
2)所述所有关键词中的每个关键词与包含该关键词的各个其他资源描述信息间的第一相关度。
其中,所述第二获取装置7获取关键词与包含该关键词的各个其他资源描述信息间的第一相关度的方式包括但不限于:
a)获取预存储的关键词与包含该关键词的各个其他资源描述信息间的第一相关度;例如,包括关键词X的其他资源描述信息为资源描述信息b和资源描述信息c,且在所述第二获取装置7所能够访问的存储设备中预存储关键词X与资源描述信息b间的第一相关度为2,关键词X与资源描述信息c间的第一相关度为3,则第二获取装置7获取预存储的关键词X与包含该关键词的其他资源描述信息b和c间的第一相关度分别为2和3。
b)所述第二获取装置7基于以下至少一项来确定关键词与包含该关键词的一个其他资源描述信息间的所述第一相关度,以分别确定该关键词与包含该关键词的各个其他资源描述信息间的第一相关度:
i)该关键词在一个其他资源描述信息中出现的次数;例如,第二获取装置7将该关键词在一个其他资源描述信息中出现的次数与该其他资源描述信息所包含的关键词总数之比,作为该关键词与该其他资源描述信息间的第一相关度。
ii)该关键词所在的文本信息的文本类型;其中,所述文本信息包含于其他资源描述信息中,且所述文本类型包括但不限于:标题类文本、锚文本类文本、在该资源所属网页中与资源相邻的上下文类文本等;例如,当包含该关键词的文本类型为标题类文本,则所述第二获取装置7确定该关键词的第一相关度为高级。
iii)该关键词在一个其他资源描述信息包含的各个文本类型中分别出现的次数及各个文本类型的预定权重值;例如,所述第二获取装置7获得该关键词在该其他资源描述信息包含的标题类文本中出现1次,上下文类文本中出现8次,且标题类文本的预定权重值为0.6,上下文类文本的预定权重值为0.3,则第二获取装置7确定不同文本类型的预定权重值与该关键词出现在不同类型文本中的次数的乘积和=0.6*1+0.3*8=3,并将该乘积和作为该关键词与包含该关键词的该其他资源描述信息间的第一相关度。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何用于确定该关键词与包含该关键词的该其他资源描述信息间的第一相关度的实现方式,例如,将关键词在一个其他资源描述信息中出现的次数乘以该关键词所在的文本信息的各个文本类型的预定权重值的平均值,来获得所述第一相关度等,均应包含在本发明的范围内。
3)所述所有关键词中的每个关键词与所述待处理资源描述信息间的第二相关度。其中,所述第二获取装置7获取所述所有关键词中的每个关键词与所述待处理资源描述信息间的第二相关度的获取方式,与所述第二获取装置7获取所述所有关键词中的每个关键词与包含该关键词的其他资源描述信息间的第一相关度的获取方式相同或相似,并以引用的方式包含于此,不再赘述。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何用于确定所述关联度的其他相关信息以及任何获取用于确定所述关联度的其他相关信息的实现方式,均应包含在本发明的范围内。
需要进一步说明的是,第一获取装置2获取所述待处理资源描述信息所包含的各个关键词在所述其他资源描述信息中的分布信息的操作与第二获取装置7获取用于确定所述关联度的其他相关信息的操作并无先后顺序。
接着,所述子确定装置301根据所述分布信息以及所述其他相关信息,确定所述待处理资源描述信息与所有其他资源描述信息间的关联度,以获得该待处理资源描述信息的准确度。其中,所述子确定装置301根据所述分布信息以及所述其他相关信息,确定所述待处理资源描述信息与所有其他资源描述信息间的关联度的方式包括但不限于:
1)所述子确定装置301先基于所述分布信息确定包含至少一个关键词的其他资源描述信息,再根据所确定的包含至少一个关键词的所有其他资源描述信息及所述其他相关信息来确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度。例如,所述子确定装置301先基于包含所述各个关键词中至少一个关键词的所述其他资源描述信息的标识信息,确定资源描述集合中包含至少一个关键词的所述其他资源描述信息包括描述资源A的资源描述信息a,接着,所述子确定装置301再根据资源A的权威性为高级,确定所述待处理资源描述信息与所有其他资源描述信息间的关联度为高级。
又例如,所述子确定装置301先基于包含所述各个关键词中至少一个关键词的所述其他资源描述信息的标识信息,确定资源描述集合中包含至少一个关键词的所述其他资源描述信息包括描述资源B的资源描述信息b与描述资源C的资源描述信息c,并确定描述资源B的资源描述信息b包含关键词Y,描述资源C的资源描述信息c包含关键词X与关键词Y,所述子确定装置301基于关键词X与资源描述信息c的第一相关度为0.6,来确定该关键词X与所有其他资源描述信息间的关联度为0.6,并基于关键词Y与资源描述信息b的第一相关度为0.8及关键词Y与资源描述信息c的第一相关度为0.4、来确定该关键词Y与所有其他资源描述信息间的关联度=0.8+0.4=1.2。
2)子确定装置301根据分布信息中的至少一项以及所述其他相关信息中的至少一项来确定所述关联度。具体地,所述子确定装置301基于所述其他相关信息来调整所述分布信息所包含的值,并基于调整后的结果来确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度。
例如,所述子确定装置301获取关键词X在资源描述信息集合中的资源描述信息a中出现2次,并获取该关键词X与资源描述信息a的第一相关度为0.6,则所述子确定装置301以该第一相关度为调整因子,确定所述该关键词X与所有其他资源描述信息间的关联度为0.6*2=1.2。
又例如,所述子确定装置301获取关键词Y在资源描述信息集合中的资源描述信息b中出现3次,关键词Y与资源描述信息b的第一相关度为0.3,与待处理资源描述信息的第二相关度为0.5,并获取关键词Z在资源描述信息b中出现6次,关键词Z与资源描述信息b的第一相关度为0.5,与待处理资源的资源描述信息的第二相关度为0.2;则所述子确定装置301确定关键词Y与所有其他资源描述信息间的关联度=3*0.3*0.5=0.45,关键词Z与所有其他资源描述信息间的关联度=6*0.5*0.2=0.6;并且,所述子确定装置301将关键词Y与所有其他资源描述信息间的关联度以及关键词Z与所有其他资源描述信息间的关联度进行处理,诸如求取两者的平均值、平方和等,并将处理后的结果作为所述待处理资源描述信息与所有其他资源描述信息间的关联度。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述分布信息以及所述其他相关信息,确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度的实现方式,均应包含在本发明的范围内。
其中,所述子确定装置301基于所确定的关联度来确定所述待处理资源描述信息的总体准确度和/或所述待处理资源描述信息所包含的各个关键词的准确度的实现方式,与图5所示的实施例中的所述第一确定装置3基于所确定的所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度,来获得该待处理资源描述信息的准确度信息的实现方式相同或相似,以引用的方式包含于此,不再赘述。
作为本发明的优选方案之一,所述准确度确定装置还包括更新装置(图未示)。所述更新装置根据所述待处理资源描述信息的准确度信息及其所描述的资源,建立或更新资源信息库的步骤。
例如,所述第一确定装置3确定所述待处理资源描述信息包含的关键词X的准确度为0.8,关键词Y的准确度为0.1,则所述更新装置根据关键词X的准确度及关键词Y的准确度以及所述待处理资源,建立或更新资源信息库。
优选地,所述更新装置将所述待处理资源所属网站的链接地址信息、所述待处理资源的评价值信息等存储在所述资源信息库中。
根据本实施例的准确度确定装置,通过对待处理资源描述信息包含的关键词在其他多个相同或相似资源的描述信息中的分布情况及其他相关信息的分析,能够更为准确地确定待处理资源描述信息和/或其包含的关键词与其他资源描述信息间的关联度,从而更为准确地判断待处理资源描述信息的准确度。
图8示出了本发明的一个优选实施例的根据所确定的资源描述信息的准确度信息来对资源执行相应操作的准确度确定装置示意图。根据本实施例的准确度确定装置包括第四获取装置8、第二确定装置9、查询装置10及执行装置11。
所述第四获取装置8获取与用户行为相关的行为相关信息。其中,所述用户行为包括但不限于:1)用户主动要求提供服务的行为;例如,用户输入查询序列并发送所述查询序列等,又例如,用户控制鼠标使光标停留在一个资源上以索取该资源的推荐等级等;2)用户触发资源信息显示的行为,例如,用户打开一个网页页面等。其中,所述行为相关信息包括但不限于:1)用户所执行的行为操作信息,例如,请求搜索的行为信息,又例如,请求显示资源推荐等级的行为信息等;2)用户所输入的输入序列,例如,用户所输入的用于检索的输入序列等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何与资源相关的用户行为,均应包含在本发明的范围内。
接着,所述第二确定装置9根据所述行为相关信息来确定待处理资源。
例如,所述第二确定装置9根据用户输入的用于检索的输入序列,由检索后所获得的检索结果中选择待处理资源,该选择待处理资源的方式包括但不限于:随机选择、基于点击次数来选择等。又例如,所述第二确定装置9根据光标停留的位置,将该位置所对应的资源作为待处理资源。再例如,所述第二确定装置9根据用户打开一个网页页面,将该网页页面中包含的资源作为待处理资源等。
接着,所述查询装置10根据所述待处理资源来在所述资源信息库中进行查询,以获得所述待处理资源对应的资源描述信息的准确度信息。其中,所述资源信息库的建立及更新过程已在图7所示的实施例中予以详述,并以引用的方式包含于此,不再赘述。
接着,所述执行装置11根据所述待处理资源对应的资源描述信息的准确度信息,执行与所述用户行为相应的操作。
例如,对于由检索结果中选择得到的所述待处理资源,所述执行装置11根据查询装置10所获得的所述待处理资源对应的资源描述信息的准确度信息,来调整该待处理资源在检索结果中的排序,并根据调整后的排序结果来生成展现信息,以将所述展现信息提供给所述用户。又例如,所述第二确定装置9基于光标停留的位置获得待处理资源,则所述执行装置11将查询装置10所获得的所述待处理资源对应的资源描述信息的准确度信息显示在该光标所在的页面中,优选的,以临时窗口的方式显示在临近该光标位置等。再例如,所述第二确定装置9基于用户打开的网页来获得待处理资源,则所述执行装置11将查询装置10所获得的所述待处理资源对应的资源描述信息的准确度信息显示在该网页中。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述待处理资源对应的资源描述信息的准确度信息,执行与所述用户行为相应的操作的实现方式,均应包含在本发明的范围内。
根据本实施例的准确度确定装置,能将所确定的资源描述信息的准确度应用于多种场合,例如:1)应用于检索***,以使资源描述信息不准确的资源排序靠后,使检索结果的排序更为合理;2)应用于推荐***,例如,基于所确定的资源描述信息的准确度来向用户推荐资源,以提高资源的利用率;3)提示***,例如,基于所确定的资源描述信息的准确度来提示用户该资源的描述可能准确度较低等。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (23)
1.一种计算机实现的用于确定资源描述信息的准确度信息的方法,其中,该方法包括以下步骤:
a由预建立的资源描述信息集合所包含的多个资源描述信息中选择待处理资源描述信息,其中,所述多个资源描述信息中的每个资源描述信息均用于描述一个资源,且每个资源描述信息所描述的资源与该资源描述信息集合中的任一其他资源描述信息所描述的资源相似或相同;
b获取所述待处理资源描述信息所包含的各个关键词在所述其他资源描述信息中的分布信息;
c根据所述分布信息,确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度,以获得该待处理资源描述信息的准确度信息。
2.根据权利要求1所述的方法,其中,所述分布信息包括以下至少一项:
-所述各个关键词在所述所有其他资源描述信息中出现的总次数;
-所述各个关键词在所述所有其他资源描述信息中分别出现的次数;
-包含所述各个关键词中至少一个关键词的所述其他资源描述信息的标识信息;
-包含所述至少一个关键词的所述其他资源描述信息的数量;
-包含所述至少一个关键词的所述其他资源描述信息的数量占所述所有资源描述信息的数量的比例;
-所述各个关键词中的每个关键词所出现的其他资源描述信息的数量占所有资源描述信息的数量的比例。
3.根据权利要求1或2所述的方法,其中,该方法还包括以下步骤:
-获取用于确定所述关联度的其他相关信息;
其中,所述步骤c还包括以下步骤:
-根据所述分布信息以及所述其他相关信息,确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度,以获得该待处理资源描述信息的准确度信息。
4.根据权利要求3所述的方法,其中,所述其他相关信息包括以下至少一项:
-包含所述各个关键词中任一关键词的所述其他资源描述信息所描述的资源的权威性;
-所述所有关键词中的每个关键词与包含该关键词的各个其他资源描述信息间的第一相关度;
-所述所有关键词中的每个关键词与所述待处理资源描述信息间的第二相关度。
5.根据权利要求1至4中任一项所述的方法,其中,所述步骤a还包括以下步骤:
-根据所述多个资源描述信息所描述的资源对应的网络相关信息,来对该多个资源描述信息进行识别,以将识别所得的用户生成资源描述信息作为所述待处理资源描述信息。
6.根据权利要求5所述的方法,其中,所述网络相关信息包括以下至少一项:
-该网络相关信息对应的资源的链接地址信息;
-该网络相关信息对应的资源所属网页的页面特征信息;
-该网络相关信息对应的资源所属网站所包含的网页的页面特征信息。
7.根据权利要求1至6中任一项所述的方法,其中,该方法还包括以下步骤:
-获取多个资源;
-根据所述多个资源自身所包含的信息,来对该多个资源进行聚类,以获得一组或多组聚类资源,其中,每组聚类资源包括一个或多个相同或相似的资源;
其中,该方法还包括以下步骤:
-根据所述每组相同或相似的资源对应的资源描述信息,来建立所述资源描述信息集合。
8.根据权利要求1至7中任一项所述的方法,其中,该方法还包括以下步骤:
-根据所述待处理资源描述信息的准确度信息及其所描述的资源,建立或更新资源信息库。
9.根据权利要求8所述的方法,其中,该方法还包括以下步骤:
-获取与用户行为相关的行为相关信息;
-根据所述行为相关信息,确定待处理资源;
-根据所述待处理资源来在所述资源信息库中进行查询,以获得所述待处理资源对应的资源描述信息的准确度信息;
-根据所述待处理资源对应的资源描述信息的准确度信息,执行与所述用户行为相应的操作。
10.根据权利要求9所述的方法,其中,所述用户行为信息包括以下至少一项:
-用户操作的类型;
-用户操作的对象;
-用户输入操作中所输入的输入内容。
11.根据权利要求1至10中任一项所述的方法,其中,所述准确度信息包括以下至少一项:
-所述待处理资源描述信息的总体准确度;
-所述待处理资源描述信息所包含的各个关键词的准确度。
12.一种计算机实现的用于确定描述信息的准确度信息的准确度确定装置,其中,该准确度确定装置包括:
选择装置、用于由预建立的资源描述信息集合所包含的多个资源描述信息中选择待处理资源描述信息,其中,所述多个资源描述信息中的每个资源描述信息均用于描述一个资源,且每个资源描述信息所描述的资源与该资源描述信息集合中的任一其他资源描述信息所描述的资源相似或相同;
第一获取装置、用于获取所述待处理资源描述信息所包含的各个关键词在所述其他资源描述信息中的分布信息;
第一确定装置、根据所述分布信息,确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度,以获得该待处理资源描述信息的准确度信息。
13.根据权利要求12所述的准确度确定装置,其中,所述分布信息包括以下至少一项:
-所述各个关键词在所述所有其他资源描述信息中出现的总次数;
-所述各个关键词在所述所有其他资源描述信息中分别出现的次数;
-包含所述各个关键词中至少一个关键词的所述其他资源描述信息的标识信息;
-包含所述至少一个关键词的所述其他资源描述信息的数量;
-包含所述至少一个关键词的所述其他资源描述信息的数量占所述所有资源描述信息的数量的比例;
-所述各个关键词中的每个关键词在所述所有其他资源描述信息中出现的次数占所有资源描述信息的数量的比例。
14.根据权利要求12或13所述的准确度确定装置,其中,该准确度确定装置还包括:
第二获取装置、用于获取用于确定所述关联度的其他相关信息;
其中,所述第一确定装置还包括:
子确定装置、用于根据所述分布信息以及所述其他相关信息,确定所述待处理资源描述信息和/或其包含的各个关键词与所有其他资源描述信息间的关联度,以获得该待处理资源描述信息的准确度信息。
15.根据权利要求14所述的准确度确定装置,其中,所述其他相关信息包括以下至少一项:
-包含所述各个关键词中任一关键词的所述其他资源描述信息所描述的资源的权威性;
-所述所有关键词中的每个关键词与包含该关键词的其他资源描述信息间的第一相关度;
-所述所有关键词中的每个关键词与所述待处理资源描述信息间的第二相关度。
16.根据权利要求12至15中任一项所述的准确度确定装置,其中,所述选择装置还包括:
识别装置、用于根据所述多个资源描述信息所描述的资源对应的网络相关信息,来对该多个资源描述信息进行识别,以将识别所得的用户生成资源描述信息作为所述待处理资源描述信息。
17.根据权利要求16所述的准确度确定装置,其中,所述网络相关信息包括以下至少一项:
-该网络相关信息对应的资源的链接地址信息;
-该网络相关信息对应的资源所属网页的页面特征信息;
-该网络相关信息对应的资源所属网站所包含的网页的页面特征信息。
18.根据权利要求12至17中任一项所述的准确度确定装置,其中,该准确度确定装置还包括以下步骤:
第三获取装置、用于获取多个资源;
聚类装置、用于根据所述多个资源自身所包含的信息,来对该多个资源进行聚类,以获得一组或多组聚类资源,其中,每组聚类资源包括一个或多个相同或相似的资源;
其中,该准确度确定装置还包括:
构建装置、用于根据所述每组相同或相似的资源对应的资源描述信息,来建立所述资源描述信息集合。
19.根据权利要求12至18中任一项所述的准确度确定装置,其中,该准确度确定装置还包括:
更新装置、用于根据所述待处理资源描述信息的准确度及其所描述的资源,建立或更新资源信息库。
20.根据权利要求19所述的准确度确定装置,其中,该准确度确定装置还包括:
第四获取装置、用于获取与用户行为相关的行为相关信息;
第二确定装置、用于根据所述行为相关信息,确定待处理资源;
查询装置、用于根据所述待处理资源来在所述资源信息库中进行查询,以获得所述待处理资源对应的资源描述信息的准确度信息;
执行装置、用于根据所述待处理资源对应的资源描述信息的准确度信息,执行与所述用户行为相应的操作。
21.根据权利要求20所述的准确度确定装置,其中,所述用户行为信息包括以下至少一项:
-用户操作的类型;
-用户操作的对象;
-用户输入操作中所输入的输入内容。
22.根据权利要求12至21中任一所述的准确度确定装置,所述准确度信息包括以下至少一项:
-所述待处理资源描述信息的总体准确度;
-所述待处理资源描述信息所包含的各个关键词的准确度。
23.一种计算机,其中,该计算机设备包括如权利要求12至22中至少一项所述的准确度确定装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110093719.0A CN102737059B (zh) | 2011-04-14 | 用于确定资源描述信息的准确度信息的方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110093719.0A CN102737059B (zh) | 2011-04-14 | 用于确定资源描述信息的准确度信息的方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102737059A true CN102737059A (zh) | 2012-10-17 |
CN102737059B CN102737059B (zh) | 2016-12-14 |
Family
ID=
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020141A (zh) * | 2012-11-21 | 2013-04-03 | 北京百度网讯科技有限公司 | 一种用于提供搜索结果的方法和设备 |
CN103412880A (zh) * | 2013-07-17 | 2013-11-27 | 百度在线网络技术(北京)有限公司 | 一种用于确定多媒体资源间隐式关联信息的方法与设备 |
CN105991312A (zh) * | 2015-01-30 | 2016-10-05 | 深圳市腾讯计算机***有限公司 | 一种网络资源的排重方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101000611A (zh) * | 2006-08-29 | 2007-07-18 | 曾文均 | 利用互联网为公众提供和查询信息的方法 |
CN101075942A (zh) * | 2007-06-22 | 2007-11-21 | 清华大学 | 基于专家值传播算法的社会网络专家信息处理***及方法 |
CN101089843A (zh) * | 2006-06-15 | 2007-12-19 | 王刘忠 | 一种仅针对产品或服务供需信息的搜索方法 |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101089843A (zh) * | 2006-06-15 | 2007-12-19 | 王刘忠 | 一种仅针对产品或服务供需信息的搜索方法 |
CN101000611A (zh) * | 2006-08-29 | 2007-07-18 | 曾文均 | 利用互联网为公众提供和查询信息的方法 |
CN101075942A (zh) * | 2007-06-22 | 2007-11-21 | 清华大学 | 基于专家值传播算法的社会网络专家信息处理***及方法 |
Non-Patent Citations (1)
Title |
---|
李玉红等: "基于关键词集合的产品信息描述与检索***", 《控制工程》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020141A (zh) * | 2012-11-21 | 2013-04-03 | 北京百度网讯科技有限公司 | 一种用于提供搜索结果的方法和设备 |
CN103412880A (zh) * | 2013-07-17 | 2013-11-27 | 百度在线网络技术(北京)有限公司 | 一种用于确定多媒体资源间隐式关联信息的方法与设备 |
CN103412880B (zh) * | 2013-07-17 | 2017-02-22 | 百度在线网络技术(北京)有限公司 | 一种用于确定多媒体资源间隐式关联信息的方法与设备 |
CN105991312A (zh) * | 2015-01-30 | 2016-10-05 | 深圳市腾讯计算机***有限公司 | 一种网络资源的排重方法及装置 |
CN105991312B (zh) * | 2015-01-30 | 2019-06-18 | 深圳市腾讯计算机***有限公司 | 一种网络资源的排重方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11100178B2 (en) | Method and device for pushing information | |
CN103886090B (zh) | 基于用户喜好的内容推荐方法及装置 | |
CN106415537B (zh) | 将本地应用搜索结果***到web搜索结果中 | |
US9411890B2 (en) | Graph-based search queries using web content metadata | |
CN102171689B (zh) | 用于提供搜索结果的方法、*** | |
US9569499B2 (en) | Method and apparatus for recommending content on the internet by evaluating users having similar preference tendencies | |
JP5396533B2 (ja) | 情報処理装置、情報処理方法、および、情報処理装置用のプログラム | |
US20150169710A1 (en) | Method and apparatus for providing search results | |
CN103827863A (zh) | 动态图像显示区域和在web搜索结果内的图像显示 | |
JP2013515977A (ja) | 複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法 | |
CN102687138A (zh) | 搜索建议聚类和呈现 | |
WO2014107682A1 (en) | Method and apparatus for generating webpage content | |
US11561988B2 (en) | Systems and methods for harvesting data associated with fraudulent content in a networked environment | |
CN103221951A (zh) | 预测查询建议高速缓存 | |
JP6291145B2 (ja) | 情報処理装置、情報処理方法、プログラム、記憶媒体 | |
CN102236710A (zh) | 一种用于在查询结果中展现新闻信息的方法与设备 | |
CN102855261A (zh) | 一种用于确定视频权威值的方法与设备 | |
JP5905551B1 (ja) | 情報処理装置、端末装置、情報処理方法及び情報処理プログラム | |
CN102262660B (zh) | 一种计算机实现的用于获取搜索结果的方法与设备 | |
CN102063468A (zh) | 一种用于确定查询序列的查询类别的设备及其方法 | |
KR101346927B1 (ko) | 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체 | |
CN102541946B (zh) | 基于超链接的推荐属性确定超链推荐度的方法与设备 | |
CN103365932A (zh) | 一种网页搜索方法和装置 | |
CN106599291B (zh) | 数据分组方法及装置 | |
CN102760127A (zh) | 基于扩展文本信息来确定资源类型的方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20121017 Assignee: Beijing small mutual Entertainment Technology Co., Ltd. Assignor: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. Contract record no.: 2017110000013 Denomination of invention: Method, apparatus and device for determining accuracy information of resource description information Granted publication date: 20161214 License type: Exclusive License Record date: 20170705 |
|
EE01 | Entry into force of recordation of patent licensing contract |