CN101246502B - 一种在网络上搜索图片的方法及*** - Google Patents

一种在网络上搜索图片的方法及*** Download PDF

Info

Publication number
CN101246502B
CN101246502B CN2008100880561A CN200810088056A CN101246502B CN 101246502 B CN101246502 B CN 101246502B CN 2008100880561 A CN2008100880561 A CN 2008100880561A CN 200810088056 A CN200810088056 A CN 200810088056A CN 101246502 B CN101246502 B CN 101246502B
Authority
CN
China
Prior art keywords
classification
picture
word
weight
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008100880561A
Other languages
English (en)
Other versions
CN101246502A (zh
Inventor
田密
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2008100880561A priority Critical patent/CN101246502B/zh
Publication of CN101246502A publication Critical patent/CN101246502A/zh
Application granted granted Critical
Publication of CN101246502B publication Critical patent/CN101246502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种在网络上搜索图片的方法,该方法包括:对照预置的词语分类库,确定查询词所属主分类;搜索与所述查询词相关的各图片,对照预置的网站分类库,分别获取所述各图片所在网站对于上述主分类的分类权重;对照预置的网页分类库,分别获取所述各图片所在网页的对于上述主分类的描述权重;依据所述分类权重和描述权重计算所述各图片的综合相关性,提取综合相关性大于阈值的图片。本发明同时还公开一种在网络上搜索图片的***。本发明解决现有技术中搜索的图片与查询词相关性差,用户体验感较低的问题。本发明能够使搜索的图片与查询词紧密相关,提高用户的体验感。

Description

一种在网络上搜索图片的方法及***
技术领域
本发明涉及图片搜索领域,特别是涉及一种在网络上搜索图片的方法及***。
背景技术
在网络上搜索与查询词相关的图片,是搜索引擎的一种重要应用。搜索时,搜索引擎主要依据图片描述文本与查询词的相关性,判断该图片与查询词的是否紧密相关,如是,则提取该图片。但是,因图片描述文本的多义性和错误性,图片描述文本与查询词直接相关,并不能保证图片与查询词紧密相关,使搜索的图片不能很好地满足用户的需求。
例如,“老虎”不仅可以是一种动物图片的描述文本,也可以是某高尔夫球星图片的描述文本;“苹果”不仅可以是一种水果图片的描述文本,还可以是某著名科技公司图片的描述文本。当用户使用查询词“老虎”查询所需的动物图片时,搜索引擎根据图片描述文本搜索的图片就很可能是某高尔夫球星图片。当用户使用查询词“苹果”查询所需的水果图片时,搜索引擎根据图片描述文本搜索的图片就很可能是某著名科技公司图片。
再例如,一张羊的图片,其描述文本可能“马”,一张搞笑的女性网友自拍,其描述文本可能是“美女”。这样,搜索引擎根据图片描述文本提取的图片可能杂乱无章。
目前,解决上述问题最常用的方法是人工对各大网站进行打分,将互联网上各网站大致分为“专业站点”、“普通站点”、“垃圾站点”,搜索时,在图片描述文本与查询词的相关度近似的前提下,来自专业站点的图片权重大于普通站点,来自普通站点的图片权重大于垃圾站点。再按图片的权重,排序显示。
但是,一个网站被分为专业站点,并不能保证它对任何查询词都专业,专业站点只针对一类查询词表现专业,而不可能对所有的查询词都专业。例如,一个明星类的专业站点,对于查询词“马”,返回的是歌手马天宇的图片,导致搜索的图片与查询词相关性差,降低用户的体验感。
互联网上的网站数以万计,依靠人工查询每个站点,并打分,不仅浪费大量的人力,还查询的网站数量有限,覆盖率低,影响图片搜索的效果。
发明内容
本发明所要解决的技术问题是提供一种在网络上搜索图片的方法,以解决现有技术中搜索的图片与查询词相关性差,用户体验感较低的问题。该方法能够使搜索的图片与查询词紧密相关,提高用户的体验感。
本发明的另一个目的是提供一种在网络上搜索图片的***,以解决现有技术中搜索的图片与查询词相关性差,用户体验感较低的问题。该***能够使搜索的图片与查询词紧密相关,提高用户的体验感。
本发明公开一种在网络上搜索图片的方法,该方法包括:对照预置的词语分类库,确定查询词所属分类,所述词语分类库包括每个分类的特征词语;搜索与所述查询词相关的各图片,对照预置的网站分类库,分别获取所述各图片所在网站对于上述分类的分类权重,所述网站分类库包括各网站对于所述分类的分类权重;对照预置的网页分类库,分别获取所述各图片所在网页对于上述分类的描述权重,所述网页分类库包括各网页对于所述分类的描述权重;依据所述分类权重和描述权重计算所述各图片的综合相关性,提取综合相关性大于阈值的图片。
优选的,对照预置的网页分类库之前,还包括:划分图片搜索领域为若干分类;为每个分类设置分类描述词;利用上述分类描述词分别计算互联网上各网页针对每个分类的描述权重,组成网页分类库。
优选的,利用上述分类描述词分别计算互联网上各网页针对每个分类的描述权重,计算方法具体为:统计某分类的各分类描述词在该网页出现频次,乘以相应的系数;统计各分类描述词在该网页出现位置,乘以相应的系数;将上述乘积相加,得到该网页针对该分类的描述权重。
优选的,对照预置的网站分类库之前,还包括:划分图片搜索领域为若干分类;为每个分类设置分类基准词;利用上述分类基准词分别计算互联网上各网站针对每个分类的分类权重,组成网站分类库。
优选的,利用上述分类基准词分别计算互联网上各网站针对每个分类的分类权重,计算方法具体为:统计某分类的各分类基准词在该网站的出现频次,乘以相应系数;统计各分类基准词在该网站相关联图片数之和,乘以相应系数;计算上述相关联图片占该网站图片总数的比例,乘以相应的系数;上述三个乘积相加,得到该网站针对该分类的分类权重。
优选的,利用上述分类基准词分别计算互联网上各网站针对每个分类的分类权重,计算方法为:统计某分类的各分类基准词在该网站的出现频次,乘以相应系数后,加1;统计各分类基准词在该网站相关联图片数之和,乘以相应系数后,加1;计算上述相关联图片占该网站图片总数的比例,乘以相应的系数后,加1;上述计算得到的三个和相乘后,减1,得到该网站针对该分类的分类权重。
优选的,对照预置的词语分类库之前,还包括:分别统计各词语在各网站的出现次数;针对每个词语,提取该词语出现次数大于预设数值的网站,获取上述网站分类权重最高的分类,划归该词语为该分类的词语,组成词语分类库。
优选的,还包括:提取该词语出现次数最多的网站,获取该网站分类权重最高的分类,将该分类作为该词语所属的主分类,其它分类作为该词语所属的次分类。
优选的,还包括:如查询词属至少两个分类,为该查询词所属次分类的图片建立链接;显示主分类的图片和次分类的链接。
优选的,还包括:统计各分类图片的被点击次数;获取图片被点击次数最多的分类,显示该分类的图片。
本发明还公开一种在网络上搜索图片的***,该***包括查询词分类模块,分类权重计算模块、描述权重计算模块、综合相关性计算模块、及图片提取模块:所述查询词分类模块,用于对照预置的词语分类库,确定查询词所属分类,所述词语分类库包括每个分类的特征词语;所述分类权重计算模块,用于搜索与所述查询词相关的各图片,对照预置的网站分类库,分别获取所述各图片所在网站对于该分类的分类权重,所述网站分类库包括各网站对于所述分类的分类权重;所述描述权重计算模块,用于对照预置的网页分类库,分别获取所述各图片所在网页对于该分类的描述权重,所述网页分类库包括各网页对于所述分类的描述权重;所述综合相关性计算模块,用于依据所述分类权重和描述权重计算所述各图片的综合相关性;所述图片提取模块,用于提取综合相关性大于阈值的图片。
优选的,该***还包括图片搜索领域划分模块、分类描述词设置模块、及网页分类库组成模块;所述图片搜索领域划分模块,用于划分图片搜索领域为若干分类;所述分类描述词设置模块,用于为每个分类设置分类描述词;所述网页分类库组成模块,用于利用上述分类描述词分别计算互联网上各网页针对每个分类的描述权重,组成网页分类库。
优选的,该***还包括分类基准词设置模块和网站分类库组成模块;所述分类基准词设置模块,用于为每个分类设置分类基准词;所述网站分类库组成模块,用于利用上述分类基准词分别计算互联网上各网站针对每个分类的分类权重,组成网站分类库。
优选的,还包括词语统计模块和词语分类库组成模块:所述词语统计模块,用于分别统计各词语在各网站的出现次数;所述词语分类库组成模块,用于针对每个词语,提取该词语出现次数大于预设数值的网站,获取上述网站分类权重最高的分类,划归该词语为该分类的词语,组成词语分类库。
与现有技术相比,本发明具有以下优点:
本发明将网站的分类权重和网页的描述权重细分到每个分类上,针对依据查询词获取的图片,根据图片所在的网站和网页针对查询词所属分类的分类权重和描述权重,计算图片与查询词的综合相关性,该综合相关性综合考虑了查询词的类别、网站和网页的针对该分类的专业程度,使搜索的图片与查询词紧密相关,提高用户的体验感。
附图说明
图1为本发明在网络上搜索图片的方法第一实施例流程图;
图2为本发明预置网页分类库流程图;
图3为本发明预置网站分类库的流程图;
图4为本发明预置词语分类库流程图;
图5为本发明在网络上搜索图片的方法第二实施例流程图;
图6为本发明在网络上搜索图片的方法第三实施例流程图;
图7为本发明在网络上搜索图片的***第一实施例示意图;
图8为本发明在网络上搜索图片的***第二实施例示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明对查询词和网站进行主题分类,并把查询词和网站分类匹配因素加入到图片的综合相关性计算中。图片所在的网站对查询词所属分类的分类权重高,说明该网站与查询词相关度高,图片所在的网页对查询词所属分类的描述权重高,说明该网页和查询词的相关高,在相对分类权重和描述权重较高的网站和网页提取图片,可以保证图片在用户所需的主题内,并与查询词紧密相关。
参阅图1,示出本发明在网络上搜索图片的方法第一实施例,具体步骤如下。
步骤S101、预置词语分类库、网站分类库、及网页分类库。把图片搜索中常见的领域划分为若干个分类,划分的原则是分类明晰,各分类之间交叉小。如划分为“动植物”分类、“人物”分类、“风景”分类、“军事”分类等等。
词语分类库包括每个分类的特征词语,词语分类库中的词语相对全面,可包含用户的常使用的各种查询词。词语分类库可通过记录用户查询词,为查询词归类的的方式获得,还可以在网络上收集常用词语,为每个词语归类的方式获得。
网站分类库包括互联网上各网站对于各分类的分类权重值,分类权重可集中体现该网站对于该分类的可置信度和专业程度。
网页分类库包括互连网上各网页对于各分类的描述权重,描述权重可集中体现该网页对于该分类的可置信度和专业程度。
步骤S102、对照词语分类库,确定查询词所属分类。提取用户输入的查询词,与词语分类库中的词语进行对比,确定该查询词所属的分类。
步骤S103、搜索与查询词相关的各图片。网络搜索服务器在网络上搜索与该查询词直接相关的图片。搜索方式可通过判断图片的描述文本与查询词是否相关,获取描述文本与查询词直接相关的图片。
步骤S104、在网站分类库分别获取各图片所在网站对于该主分类的分类权重。获取各图片所在的网站,对照网站分类库,获取网站对于该分类的分类权重。
步骤S105、在网页分类库分别获取各图片所在网页的对于该分类的描述权重。获取各图片所在的网页,对照网页分类库,获取网页对于该主分类的分类权重。
步骤S106、依据分类权重和描述权重计算每个图片的综合相关值。计算算式如下:
W=a×(Wsite Rank)+b×(Page Rank);
其中,Wsite Rank为网站的分类权重,Page Rank为网页的描述权重,a、b为系数,可根据分类的不同,适当调整a、b的取值。
当然,本发明也可考虑图片描述文本因素,及其它相关因素,将上述因素加入到图片的综合相关值计算中,计算图片的综合相关值。
步骤S107、提取综合相关值大于阈值的图片。将每张图片的综合相关值与设定的阈值相比较,如大于,则提取该图片,并发送到用户客户端;如小于,则丢弃该图片。
本发明将网站的分类权重和网页的描述权重细分到每个分类上,针对依据查询词获取的图片,根据图片所在的网站和网页针对查询词所属分类的分类权重和描述权重,计算图片与查询词的综合相关性,该综合相关性综合考虑了查询词的类别、网站和网页的针对该分类的专业程度,使提取的图片能够很好的集中在查询词所在的分类,提高与查询词的相关度。
本发明为每个分类设置分类描述词,根据分类描述词在网页的出现次数和出现位置,计算互联网上各网页针对每个分类的描述权重。描述权重计算的核心思想是网页命中的某分类描述词越多,这些分类描述词在网页中出现的位置越重要,该网页对该分类的可置信度就越大。
参阅图2,示出本发明预置网页分类库流程,具体包括以下步骤。
步骤S201、划分图片搜索领域为若干分类。把图片搜索中常见的领域划分为若干个分类,划分的原则是分类明晰,各分类之间交叉小。
步骤S202、为每个分类设置分类描述词。为每个分类指定若干分类描述词,分类描述词可以理解为一个分类的子分类名,表述的是该分类中的一些常见主题。例如,把“足球”、“篮球”、“乒乓球”等词作为“体育”分类的分类描述词。分类描述词可以从一些专业网站的分类导航目录页中获得。
步骤S203、利用上述分类描述词分别计算互联网上各网页针对每个分类的描述权重。计算公式可为:
Weight ( page , class ) = Σ i = 1 n Weight ( Location [ i ] ) ;
Weight(Location)=a*Weight(hit word)+b*Weight(hit word loc);
其中,Weight(hit word)表示某分类描述词出现的次数,Weight(hit wordloc)表示该分类描述词出现的位置,a、b为系数,可根据分类的不同和位置的不同,适当调整a、b的取值。
网页位置的重要性可分为三个档次,第一档包括导航文本等位置,第二档包含网页标题等位置,第三档包含环绕文本等位置。档次越高对应系数越高。例如,某网页命中“动植物”类的分类描述词“哺乳动物”,这个分类描述词出现在导航字段,“首页>>图片素材>>动物>>哺乳动物”,那么该网页对于“动植物”类的描述权值很大,该网页是“动植物”分类的专业网页的可能性较高。
步骤S204、组成网页分类库。将互联网上各网页的对于各分类的描述权重归纳成表格形式,作为网页分类库,储存在网络搜索服务器内。
本发明根据分类描述词在网页中出现的个数和出现位置,计算该网页对于该分类的描述权重,使描述权重能够很好的体现该网页对于该分类的可置信度和专业程度。
本发明为每个分类设置分类基准词,利用分类基准词分别计算互联网上各网站针对每个分类的分类权重。分类权重计算的基本思想是该网站中命中的分类基准词越多,这些分类基准词命中的图片数之和越大,命中的图片数之和占该网站的图片总数的比例越大,该网站对该分类的可置信度也就越大。
参阅图3,示出预置网站分类库的流程,具体步骤如下所述。
步骤S301、划分图片搜索领域为若干分类。把图片搜索中常见的领域划分为若干个分类,划分的原则是分类明晰,各分类之间交叉小。
步骤S302、为每个分类设置分类基准词。分类基准词唯一属于某个分类,是集中表现该分类特征的词语,例如,对于“动植物”分类,将一些常见的动物植物名称作为分类基准词,对于“风景”分类,将一些著名的风景景点作为分类基准词。分类基准词可以专业网站的分类浏览页中获得。
步骤S303、利用分类基准词分别计算互联网上各网站针对每个分类的分类权重。计算算式可为:
Weight(site,class)=(1+αWeight(word num))*(1+βWeight(pic num))*(1+γ Weight(pic percent))-1;
其中,Weight(word num)为该网站命中的分类基准词数量;Weight(pic num)为分类基准词在该网站命中图片的数量;Weight(pic percent)命中图片的数量占总图片数量的比例;α、β、γ为系数。
计算算式还可为:
Weight(site,class)=a*Weight(hit word)+b*Weight(hit pic)+c*Weight(percent);
其中,Weight(word num)为该网站命中的分类基准词数量;Weight(pic num)为分类基准词在该网站命中图片的数量;Weight(pic percent)命中图片的数量占总图片数量的比例;a、b、c为系数。
例如,某个网站命中了50个“动植物”类的分类基准词,这50个分类基准词一共命中了800张图片,而这个网站一共只有1000张图片,命中图片占80%,那么该网站对于“动植物”类的分类权值很大,该网站是“动植物”分类的专业站点可能性较大。
步骤S304、组成网站分类库。将互联网上各网站的对于各分类的描述权重归纳成表格形式,作为网站分类库,储存在网络搜索服务器内。
本发明综合考虑网站所命中的分类基准词数量,该分类基准词命中的图片数量,命中的图片数所占的比例,使网站的分类权重能够很好的体现该网站对于该分类的可置信度和专业程度。
本发明还可通过记录用户查询词,根据词语库,分别统计各词语在各网站的出现频次,将出现频次大于该预设数值的词语划归为该网站分类权重值最高的分类。
参阅图4,示出本发明预置词语分类库流程,具体步骤如下所述。
步骤S401、分别统计各词语在各网站的出现次数。本发明通过记录用户的查询词,或在词语库中调取词语,或在专业网站上提取词语等方式获取各词语,分别统计各词语在各网站的出现次数。
步骤S402、将出现次数与预设数值相比较,如大于,获取上述网站分类权重最高的分类,划归该词语为该分类词语;如小于,丢弃该词语。
例如,词语“苹果”在某网站出现次数为50次,大于预设数值30次,该网站的对于“水果”分类的分类权重最高,则将词语“苹果”划归为“水果”分类。
步骤S403、提取该词语出现次数最多的网站,获取该网站分类权重最高的分类,将该分类作为该词语所属的主分类,其它分类作为该词语所属的次分类。
步骤S404、组成词语分类库。将各分栏的词语和前述为各分类设置的分类基准词一起,组成词语分类库。
本发明通过在网站出现次数判断词语所属的分类,使词语在能够集中的体现与该网站的相关性,也就是能够集中反映该网站的特征。通过不断的将用户查询词加入到分类词语库中,使分类词语库涵盖用户常用的查询词,涵盖范围广。依据该分类词语库,能够对用户所使用的查询词进行准确分类。
一个查询词可能只属于一个分类,也可能属于多个分类,如果一个查询词只属于一个分类,直接给出依据该分类的搜索的图片,但如果一个查询词有多个分类,只给出固定依据某个分类的搜索的图片,会使得想查看其它分类图片的用户体验降低。本发明对属于多个分类的查询词,为每一个分类建立一套以该分类排序优先的索引结果,在展现搜索图片的时候有更多的灵活性。
本发明可直接给出该查询词主分类的搜索图片,对于该查询词其它分类的搜索图片,可给出相关链接,用户想查看该查询词其它分类的搜索图片,点击该相关链接,即可显示该分类的搜索图片。
参阅图5,示出本发明在网络上搜索图片的方法第二实施例,具体步骤如下。
步骤S501、预置分类词语库、网站分类库、及网页分类库。
步骤S502、对照词语分类库,确定查询词所属分类。提取用户输入的查询词,与词语分类库中的词语进行对比,确定该查询词所属的分类。
步骤S503、网络搜索服务器在网络上搜索与该查询词直接相关的图片。
步骤S504、在网站分类库分别获取各图片所在网站对于该分类的分类权重。
步骤S505、在网页分类库分别获取各图片所在网页的对于该分类的描述权重。
步骤S506、依据分类权重和描述权重计算每个图片的综合相关值。
步骤S507、提取综合相关值大于阈值的图片。
步骤S508、判断该查询词是否有多个分类,如无,直接显示提取的图片;如有,转到步骤S509。
步骤S509、将该查询词所属的各次分类的图片分别存储在服务器内,并分别建立相关链接,显示主分类的图片和各相关链接。例如,用户使用查询词“苹果”,给出主分类“动植物”类的搜索图片,同时给出“您是否要查看苹果在数码产品类搜索图片?”的链接。
步骤S510、点击该链接,服务器调取该分类的搜索图片。例如,用户点击“您是否要查看苹果在数码产品类搜索图片?”链接,得到“数码产品”类的搜索图片。
本发明通过直接显示查询词主分类的搜索图片,对于各次分类的图片则给出相关链接,即可保证搜索的图片的全面性,还可让显示的图片不杂乱,方便用户查看。
本发明还可统计各分类图片的被点击次数,获取图片被点击次数最多的分类,直接显示该分类的搜索图片,使用户可方便、快捷地查看到所需图片。
参阅图6,示出本发明在网络上搜索图片的方法第三实施例,具体步骤如下。
步骤S601、预置分类词语库、网站分类库、及网页分类库,统计各分类图片的被点击次数。统计以往用户使用该查询词搜索图片后,用户点击各分类图片的次数,记录在分类词语库。
步骤S602、对照词语分类库,确定查询词所属主分类。提取用户输入的查询词,与词语分类库中的词语进行对比,确定该查询词所属的分类。
步骤S603、网络搜索服务器在网络上搜索与该查询词直接相关的图片。
步骤S604、在网站分类库分别获取各图片所在网站对于该分类的分类权重。
步骤S605、在网页分类库分别获取各图片所在网页的对于该分类的描述权重。
步骤S606、依据分类权重和描述权重计算每个图片的综合相关值。
步骤S607、提取综合相关值大于阈值的图片。
步骤S608、获取图片被点击次数最多的分类,显示该分类的图片。例如,用户使用查询词“苹果”搜索图片,用户以往使用查询词“苹果”搜索图片后,点击查看对多的是“数码产品”分类的图片,则直接显示“数码产品”分类的图片。
本发明通过记录用户使用查询词搜索图片后,记录图片被点击次数最多的分类,表明用户最需要的是该分类的图片,则直接显示该分类的图片,使用户方便、快捷地查看该分类的图片。
基于上述在网络上搜索图片的方法,本发明还提供一种在网络上搜索图片的***。该***能够使搜索的图片与查询词紧密相关,提高用户的体验感。
参与图7,示出本发明在网络上搜索图片的***第一实施例,包括查询词分类模块71,图片搜索模块72、分类权重计算模块73、描述权重计算模块74、综合相关性计算模块75、及图片提取模块76。
查询词分类模块71对照预置的词语分类库,确定查询词所属分类。查询词分类模块71提取用户输入的查询词,与词语分类库中的词语进行对比,确定该查询词所属的分类,将该分类信息发送到分类权重计算模块73和描述权重计算模块74。
图片搜索模块72搜索与查询词直接相关的各图片,发送到分类权重计算模块73和描述权重计算模块74。
分类权重计算模块73对照预置的网站分类库,分别获取各图片所在网站对于该主分类的分类权重,并发送到综合相关性计算模块75。
描述权重计算模块74对照预置的网页分类库,分别获取各图片所在网页的对于该主分类的描述权重,并发送到综合相关性计算模块75。
综合相关性计算模块75依据分类权重和描述权重计算各图片的综合相关性,并计算结果发送到图片提取模块76。
图片提取模块76在图片搜索模块72提取综合相关性大于阈值的图片。
参与图8,示出本发明在网络上搜索图片的***第二实施例,查询词分类模块71,图片搜索模块72、分类权重计算模块73、描述权重计算模块74、综合相关性计算模块75、图片提取模块76、图片搜索领域划分模块77、分类描述词设置模块78、网页分类库组成模块79、分类基准词设置模块80、网站分类库组成模块81、词语统计模块82、及词语分类库组成模块83。
图片搜索领域划分模块77划分图片搜索领域为若干分类,划分的原则是分类明晰,各分类之间交叉小。图片搜索领域划分模块77将划分结果发送到分类描述词设置模块78和分类基准词设置模块80。
分类描述词设置模块78为每个分类设置分类描述词,分类描述词可以理解为一个分类的子分类名,表述的是该分类中的一些常见主题。分类描述词设置模块78将分类描述词发送到网页分类库组成模块79。
网页分类库组成模块79利用上述分类描述词分别计算互联网上各网页针对每个分类的描述权重,组成网页分类库,发送到描述权重计算模块74。
分类基准词设置模块80为每个分类设置分类基准词,分类基准词唯一属于某个分类,是集中表现该分类特征的词语。分类基准词设置模块80将分类基准词发送到网站分类库组成模块81。
网站分类库组成模块81利用上述分类基准词分别计算互联网上各网站针对每个分类的分类权重,组成网站分类库,发送到分类权重计算模块73。
词语统计模块82分别统计各词语在各网站的出现次数。词语统计模块82通过记录用户的查询词,或在词语库中调取词语,或在专业网站上提取词语等方式获取各词语,分别统计各词语在各网站的出现次数。词语统计模块82将统计结果发送到词语分类库组成模块83。
词语分类库组成模块83针对每个词语,提取该词语出现次数大于预设数值的网站,获取上述网站分类权重最高的分类,划归该词语为该分类词语,组成词语分类库,发送到查询词分类模块71。
查询词分类模块71,图片搜索模块72、分类权重计算模块73、描述权重计算模块74、综合相关性计算模块75、及图片提取模块76在本实施例中的功能和作用与图7所示实施例相同,不再赘述。
以上对本发明所提供的一种在网络上所搜图片的方法及***,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种在网络上搜索图片的方法,其特征在于,该方法包括:
对照预置的词语分类库,确定查询词所属分类,所述词语分类库包括每个分类的特征词语;
搜索与所述查询词相关的各图片,对照预置的网站分类库,分别获取所述各图片所在网站对于上述分类的分类权重,所述网站分类库包括各网站对于所述分类的分类权重;
对照预置的网页分类库,分别获取所述各图片所在网页对于上述分类的描述权重,所述网页分类库包括各网页对于所述分类的描述权重;
依据所述分类权重和描述权重计算所述各图片的综合相关性,提取综合相关性大于阈值的图片。
2.如权利要求1所述的方法,其特征在于,对照预置的网页分类库之前,还包括:
划分图片搜索领域为若干分类;
为每个分类设置分类描述词;
利用上述分类描述词分别计算互联网上各网页针对每个分类的描述权重,组成网页分类库。
3.如权利要求2所述的方法,其特征在于,利用上述分类描述词分别计算互联网上各网页针对每个分类的描述权重,计算方法具体为:
统计某分类的各分类描述词在该网页出现频次,乘以相应的系数;
统计各分类描述词在该网页出现位置,乘以相应的系数;
将上述乘积相加,得到该网页针对该分类的描述权重。
4.如权利要求1所述的方法,其特征在于,对照预置的网站分类库之前,还包括:
划分图片搜索领域为若干分类;
为每个分类设置分类基准词;
利用上述分类基准词分别计算互联网上各网站针对每个分类的分类权重,组成网站分类库。
5.如权利要求4所述的方法,其特征在于,利用上述分类基准词分别计算互联网上各网站针对每个分类的分类权重,计算方法具体为:
统计某分类的各分类基准词在该网站的出现频次,乘以相应系数;
统计各分类基准词在该网站相关联图片数之和,乘以相应系数;
计算上述相关联图片占该网站图片总数的比例,乘以相应的系数;
上述三个乘积相加,得到该网站针对该分类的分类权重。
6.如权利要求4所述的方法,其特征在于,利用上述分类基准词分别计算互联网上各网站针对每个分类的分类权重,计算方法为:
统计某分类的各分类基准词在该网站的出现频次,乘以相应系数后,加1;
统计各分类基准词在该网站相关联图片数之和,乘以相应系数后,加1;
计算上述相关联图片占该网站图片总数的比例,乘以相应的系数后,加1;
上述计算得到的三个和相乘后,减1,得到该网站针对该分类的分类权重。
7.如权利要求1所述的方法,其特征在于,对照预置的词语分类库之前,还包括:
分别统计各词语在各网站的出现次数;
针对每个词语,提取该词语出现次数大于预设数值的网站,获取上述网站分类权重最高的分类,划归该词语为该分类的词语,组成词语分类库。
8.如权利要求7所述的方法,其特征在于,还包括:
提取该词语出现次数最多的网站,获取该网站分类权重最高的分类,将该分类作为该词语所属的主分类,其它分类作为该词语所属的次分类。
9.如权利要求1至8任一项所述的方法,其特征在于,还包括:
如查询词属至少两个分类,为该查询词所属次分类的图片建立链接;
显示主分类的图片和次分类的链接。
10.如权利要求1至8任一项所述的方法,其特征在于,还包括:
统计各分类图片的被点击次数;
获取图片被点击次数最多的分类,显示该分类的图片。
11.一种在网络上搜索图片的***,其特征在于,该***包括查询词分类模块,图片搜索模块、分类权重计算模块、描述权重计算模块、综合相关性计算模块、及图片提取模块:
所述查询词分类模块,用于对照预置的词语分类库,确定查询词所属分类,所述词语分类库包括每个分类的特征词语;
所述图片搜索模块,用于搜索与所述查询词相关的各图片;
所述分类权重计算模块,用于对照预置的网站分类库,分别获取所述各图片所在网站对于上述分类的分类权重,所述网站分类库包括各网站对于所述分类的分类权重;
所述描述权重计算模块,用于对照预置的网页分类库,分别获取所述各图片所在网页对于上述分类的描述权重,所述网页分类库包括各网页对于所述分类的描述权重;
所述综合相关性计算模块,用于依据所述分类权重和描述权重计算所述各图片的综合相关性;
所述图片提取模块,用于提取综合相关性大于阈值的图片。
12.如权利要求11所述的***,其特征在于,该***还包括图片搜索领域划分模块、分类描述词设置模块、及网页分类库组成模块;
所述图片搜索领域划分模块,用于划分图片搜索领域为若干分类;
所述分类描述词设置模块,用于为每个分类设置分类描述词;
所述网页分类库组成模块,用于利用上述分类描述词分别计算互联网上各网页针对每个分类的描述权重,组成网页分类库。
13.如权利要求12所述的***,其特征在于,该***还包括分类基准词设置模块和网站分类库组成模块;
所述分类基准词设置模块,用于为每个分类设置分类基准词;
所述网站分类库组成模块,用于利用上述分类基准词分别计算互联网上各网站针对每个分类的分类权重,组成网站分类库。
14.如权利要求13所述的***,其特征在于,还包括词语统计模块和词语分类库组成模块:
所述词语统计模块,用于分别统计各词语在各网站的出现次数;
所述词语分类库组成模块,用于针对每个词语,提取该词语出现次数大于预设数值的网站,获取上述网站分类权重最高的分类,划归该词语为该分类的词语,组成词语分类库。
CN2008100880561A 2008-03-27 2008-03-27 一种在网络上搜索图片的方法及*** Active CN101246502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100880561A CN101246502B (zh) 2008-03-27 2008-03-27 一种在网络上搜索图片的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100880561A CN101246502B (zh) 2008-03-27 2008-03-27 一种在网络上搜索图片的方法及***

Publications (2)

Publication Number Publication Date
CN101246502A CN101246502A (zh) 2008-08-20
CN101246502B true CN101246502B (zh) 2010-07-21

Family

ID=39946953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100880561A Active CN101246502B (zh) 2008-03-27 2008-03-27 一种在网络上搜索图片的方法及***

Country Status (1)

Country Link
CN (1) CN101246502B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722483A (zh) * 2011-03-29 2012-10-10 百度在线网络技术(北京)有限公司 用于确定输入法的候选项排序的方法、装置和设备

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081601B (zh) * 2009-11-27 2013-01-09 北京金山软件有限公司 一种领域词识别方法和装置
CN102819595A (zh) * 2012-08-10 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法、装置及网络设备
CN103678400B (zh) * 2012-09-21 2017-12-01 腾讯科技(深圳)有限公司 基于群体搜索行为的网页分类方法及装置
CN103294825B (zh) * 2013-06-21 2016-08-31 刘俊 影像文件搜索***及方法
CN103324760B (zh) * 2013-07-11 2016-08-17 中国农业大学 使用解说词文档自动生成营养健康教育视频的方法及***
CN104881428B (zh) * 2015-04-02 2019-03-29 广州神马移动信息科技有限公司 一种信息图网页的信息图提取、检索方法和装置
CN106570116B (zh) * 2016-11-01 2020-05-22 北京百度网讯科技有限公司 基于人工智能的搜索结果的聚合方法及装置
CN106649563B (zh) * 2016-11-10 2022-02-25 新华三技术有限公司 一种网站分类字典的构建方法及装置
CN107067032B (zh) * 2017-03-30 2020-04-07 东软集团股份有限公司 数据分类的方法和装置
CN110807138B (zh) * 2019-09-10 2022-07-05 国网电子商务有限公司 一种搜索对象类别的确定方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722483A (zh) * 2011-03-29 2012-10-10 百度在线网络技术(北京)有限公司 用于确定输入法的候选项排序的方法、装置和设备
CN102722483B (zh) * 2011-03-29 2017-07-25 百度在线网络技术(北京)有限公司 用于确定输入法的候选项排序的方法、装置和设备

Also Published As

Publication number Publication date
CN101246502A (zh) 2008-08-20

Similar Documents

Publication Publication Date Title
CN101246502B (zh) 一种在网络上搜索图片的方法及***
CN105912669B (zh) 用于补全搜索词及建立个体兴趣模型的方法及装置
CN106372249B (zh) 一种点击率预估方法、装置及电子设备
US9858308B2 (en) Real-time content recommendation system
CN104298719A (zh) 基于社交行为进行用户的类别划分、广告投放方法和***
CN101299217B (zh) 一种地图信息处理的方法、装置和***
Smucker et al. Overview of the TREC 2012 Crowdsourcing Track.
CN103729424A (zh) 问答社区内回答评价方法和***
CN103186550A (zh) 一种视频的相关视频列表的生成方法及***
CN103235796B (zh) 一种基于用户点击行为的搜索方法及***
CN103678668A (zh) 相关搜索结果的提示方法、服务器及***
CN105893390A (zh) 一种应用程序的处理方法及电子设备
CN109064293A (zh) 商品推荐方法、装置、计算机设备及存储介质
CN104217030A (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN105824961B (zh) 一种标签确定方法及装置
CN103020066A (zh) 一种识别搜索需求的方法和装置
CN103268330A (zh) 基于图片内容的用户兴趣提取方法
CN103336848A (zh) 一种分类信息的排序方法
CN108228911A (zh) 一种相似视频的计算方法及装置
Mokarrama et al. RSF: A recommendation system for farmers
CN102567392A (zh) 一种基于时间窗口兴趣主题挖掘的控制方法
CN106919588A (zh) 一种应用程序搜索***及方法
Grieve et al. Site-restricted web searches for data collection in regional dialectology
CN108009194A (zh) 一种图书推送方法、电子设备、存储介质及装置
CN104123321B (zh) 一种确定推荐图片的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20151223

Address after: The South Road in Guangdong province Shenzhen city Fiyta building 518057 floor 5-10 Nanshan District high tech Zone

Patentee after: Shenzhen Tencent Computer System Co., Ltd.

Address before: 2, 518044, East 410 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.