CN103885979B - 推送信息的方法和装置 - Google Patents

推送信息的方法和装置 Download PDF

Info

Publication number
CN103885979B
CN103885979B CN201210562496.2A CN201210562496A CN103885979B CN 103885979 B CN103885979 B CN 103885979B CN 201210562496 A CN201210562496 A CN 201210562496A CN 103885979 B CN103885979 B CN 103885979B
Authority
CN
China
Prior art keywords
string
inquiry
picture
inquiry string
query character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210562496.2A
Other languages
English (en)
Other versions
CN103885979A (zh
Inventor
高健
陈戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shiji Guangsu Information Technology Co Ltd filed Critical Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority to CN201210562496.2A priority Critical patent/CN103885979B/zh
Priority to US14/653,589 priority patent/US9589026B2/en
Priority to PCT/CN2013/084828 priority patent/WO2014094481A1/zh
Publication of CN103885979A publication Critical patent/CN103885979A/zh
Application granted granted Critical
Publication of CN103885979B publication Critical patent/CN103885979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种推送信息的方法和装置,属于通信技术领域。所述方法包括:获取网页上输入的指定查询字符串;将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配,其中,所述查询字符串候选集中的查询字符串是带有图片倾向的查询字符串;当所述查询字符串候选集中有与所述指定的查询字符串匹配的查询字符串时,根据所述指定查询字符串在所述网页上输出相应的图片。本发明不限定查询字符串中是否带有“图片”字样,将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配就能够获知该指定查询字符串是否带有图片倾向,从而为用户提供更准确的图片搜索结果。

Description

推送信息的方法和装置
技术领域
本发明涉及通信技术领域,特别涉及一种推送信息的方法和装置。
背景技术
随着搜索引擎的发展,更加方便了用户在网页上搜索信息,其中怎样为用户提供准确的搜索结果是每个网站需要解决的问题。
现有技术中,当用户想在网页中搜索图片时,需要在搜索引擎上输入带有“图片”字样的查询字符串(Query),例如,用户想浏览故宫的图片,则需要输入“故宫图片”这样的字符串,搜索引擎获取网页上输入的查询字符串,根据查询字符串查找关于故宫的图片,然后在网页上输出。
现有技术中在输出图片的搜索结果时,需要用户输入带有“图片”字样的查询字符串,但用户输入的很多查询字符串均不带有“图片”字样,虽然查询字符串不带有“图片”字样,但用户还是希望能得到图片的搜索结果,例如,用户输入“中国国徽”,这种查询字符串虽然没有“图片”字样,但是用户会很希望能得到中国国徽图片的搜索结果。所以怎样根据用户输入的查询字符串为用户提供准确的图片搜索结果是需要解决的问题。
发明内容
为了能够为用户提供更准确的图片搜索结果,本发明实施例中提供了一种推送信息的方法和装置。所述技术方案如下:
一方面,提供了一种推动信息的方法,所述方法包括:
获取网页上输入的指定查询字符串;
将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配,其中,所述查询字符串候选集中的查询字符串是带有图片倾向的查询字符串;
当所述查询字符串候选集中有与所述指定的查询字符串匹配的查询字符串时,根据所述指定查询字符串在所述网页上输出相应的图片。
另一方面,提供了一种推送信息的装置,所述装置包括:
获取模块,用于获取网页上输入的指定查询字符串;
匹配模块,用于将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配,其中,所述查询字符串候选集中的查询字符串是带有图片倾向的查询字符串;
图片输出模块,用于当所述查询字符串候选集中有与所述指定的查询字符串匹配的查询字符串时,根据所述指定查询字符串在所述网页上输出相应的图片。
本发明实施例中提供的技术方案带来的有益效果是:获取网页上输入的指定查询字符串;将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配,其中,所述查询字符串候选集中的查询字符串是带有图片倾向的查询字符串;当所述查询字符串候选集中有与所述指定的查询字符串匹配的查询字符串时,根据所述指定查询字符串在所述网页上输出相应的图片。其中,不限定查询字符串中是否带有“图片”字样,将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配就能够获知该指定查询字符串是否带有图片倾向,从而为用户提供更准确的图片搜索结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一中提供的一种推送信息的方法流程图;
图2是本发明实施例二中提供的一种推送信息的方法流程图;
图3是本发明实施例三中提供的一种推送信息的装置结构示意图;
图4是本发明实施例三中提供的另一种推送信息的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
参见图1,本实施例中提供了一种推动信息的方法,包括:
101、获取网页上输入的指定查询字符串;
102、将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配,其中,所述查询字符串候选集中的查询字符串是带有图片倾向的查询字符串;
103、当所述查询字符串候选集中有与所述指定的查询字符串匹配的查询字符串时,根据所述指定查询字符串在所述网页上输出相应的图片。
本实施例的有益效果是:获取网页上输入的指定查询字符串;将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配,其中,所述查询字符串候选集中的查询字符串是带有图片倾向的查询字符串;当所述查询字符串候选集中有与所述指定的查询字符串匹配的查询字符串时,根据所述指定查询字符串在所述网页上输出相应的图片。其中,不限定查询字符串中是否带有“图片”字样,将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配就能够获知该指定查询字符串是否带有图片倾向,从而为用户提供更准确的图片搜索结果。
实施例二
本发明实施例中提供了一种推送信息的方法,对网页上具有图片倾向的查询字符串进行挖掘,当用户在网页上搜索该查询字符串时,搜索结果的第一页中将会展示出图片box的结果,从而方便用户查看图片结果。其中,图片倾向的查询字符串是指用户在搜索这个查询字符串的时候,希望看到图片结果。图片box是在网页搜索中展现图片一种形式,如,可以将图片缩放到一定比例,在一个显示框内横向拉开展示多张图片,或是纵向展示多张图片,对其具体形式本实施例不做具体限定。参见图2,方法流程包括:
201、对网页上的历史查询字符串进行预处理,获取查询字符串候选集。
本实施例中,挖掘网页上具有图片倾向的查询字符串,并将这些具有图片倾向的查询字符串进行统一管理,使得用户在输入这些查询字符串时,能够准确输出图片box。具体的,所述对网页上的历史查询字符串进行预处理,获取查询字符串候选集,包括:
1)根据网页中历史查询字符串的搜索次数对所述历史查询字符串进行筛选,得到第一候选查询字符串集,其中,所述第一候选查询字符串集中的每个查询字符串的搜索次数大于第一阈值;
2)获取所述第一候选查询字符串集中每个查询字符串的相关分数,并根据所述第一候选查询字符串集中每个查询字符串的相关分数对所述第一候选查询字符串集中的查询字符串进行筛选,得到第二候选查询字符串集;
3)获取所述第二候选查询字符串集中的每个查询字符串包含的预设关键词的个数,并根据所述第二候选查询字符串集中每个查询字符串的相关分数和所述每个查询字符串包含的预设关键词的个数,得到所述第二候选查询字符串集中每个查询字符串的图片倾向分数;
4)将所述第二候选查询字符串集中查询字符串的图片倾向分数大于第二阈值的查询字符串加入到查询字符串候选集中。
本步骤中,对网页上的历史查询字符串进行统计,得到每个查询字符串的搜索次数,并选取搜索次数高于第一阈值的查询字符串。其中第一阈值和第二阈值可以根据经验值进行设定,对此本实施例不做具体限定。
具体的,获取所述第一候选查询字符串集中每个查询字符串的相关分数,并根据所述第一候选查询字符串集中每个查询字符串的相关分数对所述第一候选查询字符串集中的查询字符串进行筛选,得到第二候选查询字符串集,包括:获取所述第一候选查询字符串集中每个查询字符串的指定页中的搜索结果,并提取所述每条搜索结果的标题;根据所述标题中包含的关键词和所述标题的位置得到所述第一候选查询字符串集中每个查询字符串的相关分数,其中,如果所述标题中包含预设关键词且所述标题的位置在所述结果中的第一指定位置之前或在所述第一指定位置上,则将所述查询字符串的相关分数累加第三阈值,如果所述标题的位置在所述第一指定位置之后,则将所述查询字符串的相关分数累加第四阈值,所述第三阈值大于所述第四阈值,所述查询字符串的相关分数从所述指定页中的第一条搜索结果逐条向下累加;对所述第一候选查询字符串集中的查询字符串进行筛选,当所述第一候选查询字符串集中的查询字符串在第二指定位置上的分数小于第五阈值时,则丢弃该查询字符串,当所述指定页中搜索结果中包含所述预设关键词的标题数小于第六阈值时,则丢弃该查询字符串,得到筛选后的第二候选查询字符串集。
优选地,本实施例中的指定页是指根据查询字符串进行搜索时,在网页上展现的第一页,抓取第一页上的每条搜索结果的标题,如第一页上有6条搜索结果,则抓取每条搜索结果的标题,判断每个标题中是否包含预设关键词,其中预设关键词是指带有图片倾向的关键词,例如,国徽、故宫等。本实施例中,第一指定位置、第二指定位置、第三阈值、第四阈值、第五阈值和第六阈值,可以根据网页中的实际搜索情况进行设定,对此本实施例中不做具体限定。
为使本领域技术人员更加清楚的了解本发明中的查询字符串相关分数的计算方法和第二候选查询字符串集的筛选方法,现举例如下:
设定第一指定位置为3,第二指定位置为5,第三阈值为2,第四阈值为1,第五阈值为3,第六阈值为30%。
对查询字符串“故宫”进行搜索,得到6条搜索结果,从第一页中的第一条搜索结果的标题开始逐条向下累加查询字符串的相关分数,相关分数初始值为0。当第一条搜索结果的标题中包括任意一个预设关键词时,则累计加2分,当第二条搜索结果的标题中包括任意一个预设关键词时,则累计加2分,当第三条搜索结果的标题中不包括任意一个预设关键词时,则不加分,当第四条搜索结果的标题中包括任意一个预设关键词时,则累计加1分,当第五条搜索结果的标题中包括任意一个预设关键词时,则累计加1分,当第二条搜索结果的标题中不包括任意一个预设关键词时,则不加分,从而得到该查询字符串的相关分数为6,其在第三位置上的相关分数为6,大于第五阈值3,则保留该查询字符串,且该查询字符串的搜索结果中包含预设关键词的标题数为4条,大于总标题数的30%。从而将该查询字符串加入到第二候选查询字符串集中。
本实施例中,获取所述第二候选查询字符串集中的每个查询字符串包含的预设关键词的个数,即对所述第二候选查询字符串集中的每个查询字符串包含的预设关键词的数量进行统计。
本步骤中具体的,根据所述第二候选查询字符串集中每个查询字符串的相关分数和所述每个查询字符串包含的预设关键词的个数,得到所述第二候选查询字符串集中每个查询字符串的图片倾向分数,包括:
当所述第二候选查询字符串集中的查询字符串的相关分数和该查询字符串包含的预设关键词的个数均等于零时,设定该查询字符串的图片倾向分数为零;
当所述第二候选查询字符串集中的查询字符串的相关分数等于零,且该查询字符串包含的预设关键词的个数大于零时,设定该查询字符串的图片倾向分数为第七阈值;
当所述第二候选查询字符串集中的查询字符串的相关分数和该查询字符串包含的预设关键词的个数均大于零时,设定该查询字符串包含的预设关键词的个数为第八阈值,根据2*第八阈值*该查询字符串的相关分数/该查询字符串的长度,得到该查询字符串的图片倾向分数;
当所述第二候选查询字符串集中的查询字符串的相关分数大于零,且该查询字符串包含的预设关键词的个数等于零时,设定该查询字符串包含的预设关键词的个数为第九阈值,根据2*第九阈值*该查询字符串的相关分数/该查询字符串的长度,得到该查询字符串的图片倾向分数。
上述,“*”表示做乘法的运算,“/”表示做除法的运算。
本实施例中,第七阈值、第八阈值、第九阈值,可以根据网页中的实际搜索情况进行设定,其中根据上述对查询字符串相关分数的计算方法和第二候选查询字符串集的筛选方法的举例说明中,在此可以将第七阈值设置为1.5,第八阈值设置为1.5,第九阈值设置为1,当然此处只是举例说明,在具体执行过程中的设定情况本实施例中并不做具体限定。
本实施例中,可以进一步限定相关分数的最大值和最小值,如将相关分数的最大值设置为2,最小值设置为0.01,当计算出来的相关分数超过2时,则将该相关分数设置为2,当计算出来的相关分数小于0.01时,则将该相关分数置为0.01,以便于统一管理。
202、根据所述查询字符串候选集中查询字符串的指定页中的搜索结果的点击率,对所述查询字符串候选集中的查询字符串的图片倾向分数进行修正。
本实施例中,可选地,将所述第二候选查询字符串集中查询字符串的图片倾向分数大于第二阈值的查询字符串加入到查询字符串候选集中之后,还包括:根据所述查询字符串候选集中查询字符串的指定页中的搜索结果的点击率,对所述查询字符串候选集中的查询字符串的图片倾向分数进行修正。其中,对图片倾向分数值进行修正是为了保证查询字符串候选集中的查询字符串是真正有图片倾向的查询字符串,过滤掉查询字符串候选集中那一些图片倾向不强的查询字符串。
具体的,根据所述查询字符串候选集中查询字符串的指定页中的搜索结果的点击率,对所述查询字符串候选集中的查询字符串的图片倾向分数进行修正,包括:根据所述查询字符串候选集中查询字符串的指定页中的搜索结果的点击率,得到所述指定页中每个搜索结果的位置的平均点击率;根据所述指定页中每个搜索结果的位置的平均点击率得到每个搜索结果的位置的标准点击率;统计所述指定页中搜索结果为图片的点击率,根据所述图片的点击率和所述指定页中每个搜索结果的位置的标准点击率,得到所述图片的指定位置;根据所述图片的指定位置和所述图片的原始位置,对所述查询字符串候选集中查询字符串的图片倾向分数进行修正。
其中,根据所述查询字符串候选集中查询字符串的指定页中的搜索结果的点击率,得到所述指定页中每个搜索结果的位置的平均点击率,包括:统计指定页中的所有搜索结果的位置的点击率,用每条搜索结果的位置的点击率除以所述所有搜索结果的位置的点击率,得到每个搜索结果的位置的平均点击率。
进一步地,根据所述指定页中每个搜索结果的位置的平均点击率得到每个搜索结果的位置的标准点击率,包括:设置每个搜索结果的位置的标准点击率为平均点击率的t倍。例如,第一条搜索结果的位置的平均点击率为0.5,则该条搜索结果的位置的标准点击率为0.5t,其中t为大于1的数,如1.5,1.6,1.8,2等,对此本实施例不做具体限定。
本实施例中,对于统计到的出现过图片box的查询字符串,如果该查询字符串的点击率小于预设阈值,则放弃对该查询字符串的图片倾向分数的修正。图片的指定位置是指搜索结果为图片的点击率在指定页中每个搜索结果的位置的标准点击率中的位置。例如每个搜索结果的位置的标准点击率依次为0.5,0.4,0.3,0.2,搜索结果为图片的点击率为0.36,则图片的指定位置就是0.4与0.3之间的位置。
进一步地,所述根据所述图片的指定位置和所述图片的原始位置,对所述查询字符串候选集中查询字符串的图片倾向分数进行修正,包括:
当所述图片的原始位置低于所述图片的指定位置时,获取所述查询字符串的图片倾向分数的增加值,其中,所述增加值为第十阈值*(所述图片的原始位置-所述图片的指定位置);
当所述图片的原始位置高于所述图片的指定位置时,获取所述查询字符串的图片倾向分数的减小值,其中,所述减小值为第十一阈值*(所述图片的指定位置-所述图片的原始位置);
根据所述图片倾向分数的增加值或所述图片倾向分数的减少值,对所述图片倾向分数进行修正。
上述,“*”表示做乘法的运算,“-”表示做减法运算。
其中,在图片倾向分数的基础上加上增加值或是减去减少值,已对图片倾向分数进行修正,以得到准确的具有图片倾向的查询字符串。第七阈值、第八阈值、第九阈值,可以根据网页中的实际搜索情况进行设定,如将第七阈值设置为0.02、0.025等。将第八阈值设置为0.05,0.55等,对此本实施例不做具体限定。
值得说明的是,步骤201-202是在用户输入查询字符串之前还未对查询字符串进行挖掘时需要执行的步骤,如果当用户输入查询字符串时已经对网页上的查询字符串进行了挖掘则不需要重复执行该步骤。
203、获取网页上输入的指定查询字符串,将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配。
本步骤中,在对网页上的查询字符串进行挖掘之后,当获取到用户在网页上输入的查询字符串,将该查询字符串与查询字符串候选集中的查询字符串进行匹配,以确认该指定查询字符串是否具有图片倾向。
本实施例中的匹配并不局限于完全意义上的文字匹配,当指定查询字符串中包含有查询字符串候选集中的某个查询字符串时,或是指定查询字符串包含在查询字符串候选集中的某个查询字符串中时,也算作查询字符串候选集中有与所述指定的查询字符串匹配的查询字符串,对此本实施例并不做具体限定。
204、当所述查询字符串候选集中有与所述指定的查询字符串匹配的查询字符串时,根据所述指定查询字符串在所述网页上输出相应的图片。
本步骤中,当所述查询字符串候选集中有与所述指定的查询字符串匹配的查询字符串时,则确认该指定查询字符串为具有图片倾向的字符串,在指定查询字符串搜索结果的第一页上优选输出图片box,以供用户浏览。
当所述查询字符串候选集中没有与所述指定的查询字符串匹配的查询字符串时,则确认该指定查询字符串不具有图片倾向的字符串,在网页上输出相应的文字搜索结果,对此本实施例中不再赘述。
本实施例的有益效果是:获取网页上输入的指定查询字符串;将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配,其中,所述查询字符串候选集中的查询字符串是带有图片倾向的查询字符串;当所述查询字符串候选集中有与所述指定的查询字符串匹配的查询字符串时,根据所述指定查询字符串在所述网页上输出相应的图片。其中,不限定查询字符串中是否带有“图片”字样,将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配就能够获知该指定查询字符串是否带有图片倾向,从而为用户提供更准确的图片搜索结果。
实施例三
参见图3,本发明实施例中提供了一种推送信息的装置,该装置包括:获取模块301、匹配模块302和图片输出模块303。
获取模块301,用于获取网页上输入的指定查询字符串;
匹配模块302,用于将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配,其中,所述查询字符串候选集中的查询字符串是带有图片倾向的查询字符串;
图片输出模块303,用于当所述查询字符串候选集中有与所述指定的查询字符串匹配的查询字符串时,根据所述指定查询字符串在所述网页上输出相应的图片。
可选地,参见图4,所述装置还包括:
查询字符串候选集获取模块304,用于在所述获取模块301获取网页上输入的指定查询字符串之前,对网页上的历史查询字符串进行预处理,获取查询字符串候选集。
参见图4,进一步地,所述查询字符串候选集获取模块304,包括:
第一筛选单元304a,用于根据网页中历史查询字符串的搜索次数对所述历史查询字符串进行筛选,得到第一候选查询字符串集,其中,所述第一候选查询字符串集中的每个查询字符串的搜索次数大于第一阈值;
第二筛选单元304b,用于获取所述第一候选查询字符串集中每个查询字符串的相关分数,并根据所述第一候选查询字符串集中每个查询字符串的相关分数对所述第一候选查询字符串集中的查询字符串进行筛选,得到第二候选查询字符串集;
图片倾向分数获取单元304c,用于获取所述第二候选查询字符串集中的每个查询字符串包含的预设关键词的个数,并根据所述第二候选查询字符串集中每个查询字符串的相关分数和所述每个查询字符串包含的预设关键词的个数,得到所述第二候选查询字符串集中每个查询字符串的图片倾向分数;
查询字符串候选集获取单元304d,用于将所述第二候选查询字符串集中查询字符串的图片倾向分数大于第二阈值的查询字符串加入到查询字符串候选集中。
其中,所述第二筛选单元304b,包括:
提取子单元,用于获取所述第一候选查询字符串集中每个查询字符串的指定页中的搜索结果,并提取所述每条搜索结果的标题;
相关分数计算子单元,用于根据所述标题中包含的关键词和所述标题的位置得到所述第一候选查询字符串集中每个查询字符串的相关分数,其中,如果所述标题中包含预设关键词且所述标题的位置在所述结果中的第一指定位置之前或在所述第一指定位置上,则将所述查询字符串的相关分数累加第三阈值,如果所述标题的位置在所述第一指定位置之后,则将所述查询字符串的相关分数累加第四阈值,所述第三阈值大于所述第四阈值,所述查询字符串的相关分数从所述指定页中的第一条搜索结果开始逐条向下累加;
筛选子单元,用于对所述第一候选查询字符串集中的查询字符串进行筛选,当所述第一候选查询字符串集中的查询字符串在第二指定位置上的分数小于第五阈值时,则丢弃该查询字符串,当所述指定页中搜索结果中包含所述预设关键词的标题数小于第六阈值时,则丢弃该查询字符串,得到筛选后的第二候选查询字符串集。
其中,所述图片倾向分数获取单元具体用于:
当所述第二候选查询字符串集中的查询字符串的相关分数和该查询字符串包含的预设关键词的个数均等于零时,设定该查询字符串的图片倾向分数为零;
当所述第二候选查询字符串集中的查询字符串的相关分数等于零,且该查询字符串包含的预设关键词的个数大于零时,设定该查询字符串的图片倾向分数为第七阈值;
当所述第二候选查询字符串集中的查询字符串的相关分数和该查询字符串包含的预设关键词的个数均大于零时,设定该查询字符串包含的预设关键词的个数为第八阈值,根据2*第八阈值*该查询字符串的相关分数/该查询字符串的长度,得到该查询字符串的图片倾向分数;
当所述第二候选查询字符串集中的查询字符串的相关分数大于零,且该查询字符串包含的预设关键词的个数等于零时,设定该查询字符串包含的预设关键词的个数为第九阈值,根据2*第九阈值*该查询字符串的相关分数/该查询字符串的长度,得到该查询字符串的图片倾向分数。
参见图4,可选地,所述查询字符串候选集获取模块304还包括:
修正单元304e,用于在所述查询字符串候选集获取单元304d将所述第二候选查询字符串集中查询字符串的图片倾向分数大于第二阈值的查询字符串加入到查询字符串候选集中之后,根据所述查询字符串候选集中查询字符串的指定页中的搜索结果的点击率,对所述查询字符串候选集中的查询字符串的图片倾向分数进行修正。
其中,所述修正单元304e,包括:
平均点击率获取子单元,用于根据所述查询字符串候选集中查询字符串的指定页中的搜索结果的点击率,得到所述指定页中每个搜索结果的位置的平均点击率;
标准点击率获取子单元,用于根据所述指定页中每个搜索结果的位置的平均点击率得到每个搜索结果的位置的标准点击率;
位置获取子单元,用于统计所述指定页中搜索结果为图片的点击率,根据所述图片的点击率和所述指定页中每个搜索结果的位置的标准点击率,得到所述图片的指定位置;
修正子单元,用于根据所述图片的指定位置和所述图片的原始位置,对所述查询字符串候选集中查询字符串的图片倾向分数进行修正。
本实施例中,所述修正子单元具体用于:
当所述图片的原始位置低于所述图片的指定位置时,获取所述查询字符串的图片倾向分数的增加值;
当所述图片的原始位置高于所述图片的指定位置时,获取所述查询字符串的图片倾向分数的减小值;
根据所述图片倾向分数的增加值或所述图片倾向分数的减少值,对所述图片倾向分数进行修正。
本实施例的有益效果是:获取网页上输入的指定查询字符串;将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配,其中,所述查询字符串候选集中的查询字符串是带有图片倾向的查询字符串;当所述查询字符串候选集中有与所述指定的查询字符串匹配的查询字符串时,根据所述指定查询字符串在所述网页上输出相应的图片。其中,不限定查询字符串中是否带有“图片”字样,将所述指定查询字符串与查询字符串候选集中的查询字符串进行匹配就能够获知该指定查询字符串是否带有图片倾向,从而为用户提供更准确的图片搜索结果。
需要说明的是:上述实施例中提供的推送信息的装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
另外,上述实施例中提供的推送信息的装置与推送信息的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种推送信息的方法,其特征在于,所述方法包括:
根据网页中历史查询字符串的搜索次数对历史查询字符串进行筛选,得到第一候选查询字符串集,其中,所述第一候选查询字符串集中的每个查询字符串的搜索次数大于第一阈值;
获取所述第一候选查询字符串集中每个查询字符串的相关分数,并根据所述第一候选查询字符串集中每个查询字符串的相关分数对所述第一候选查询字符串集中的查询字符串进行筛选,得到第二候选查询字符串集;
获取所述第二候选查询字符串集中的每个查询字符串包含的预设关键词的个数,并根据所述第二候选查询字符串集中每个查询字符串的相关分数和所述每个查询字符串包含的预设关键词的个数,得到所述第二候选查询字符串集中每个查询字符串的图片倾向分数;
将所述第二候选查询字符串集中查询字符串的图片倾向分数大于第二阈值的查询字符串加入到查询字符串候选集中;
获取网页上输入的指定查询字符串;
将所述指定查询字符串与所述查询字符串候选集中的查询字符串进行匹配,其中,所述查询字符串候选集中的查询字符串是带有图片倾向的查询字符串;
当所述查询字符串候选集中有与所述指定的查询字符串匹配的查询字符串时,根据所述指定查询字符串在所述网页上输出相应的图片。
2.根据权利要求1所述的方法,其特征在于,所述获取所述第一候选查询字符串集中每个查询字符串的相关分数,并根据所述第一候选查询字符串集中每个查询字符串的相关分数对所述第一候选查询字符串集中的查询字符串进行筛选,得到第二候选查询字符串集,包括:
获取所述第一候选查询字符串集中每个查询字符串的指定页中的搜索结果,并提取每条所述搜索结果的标题;
根据所述标题中包含的关键词和所述标题的位置得到所述第一候选查询字符串集中每个查询字符串的相关分数,其中,如果所述标题中包含预设关键词且所述标题的位置在所述结果中的第一指定位置之前或在所述第一指定位置上,则将所述查询字符串的相关分数累加第三阈值,如果所述标题的位置在所述第一指定位置之后,则将所述查询字符串的相关分数累加第四阈值,所述第三阈值大于所述第四阈值,所述查询字符串的相关分数从所述指定页中的第一条搜索结果开始逐条向下累加;
对所述第一候选查询字符串集中的查询字符串进行筛选,当所述第一候选查询字符串集中的查询字符串在第二指定位置上的分数小于第五阈值时,则丢弃该查询字符串,当所述指定页中搜索结果中包含所述预设关键词的标题数小于第六阈值时,则丢弃该查询字符串,得到筛选后的第二候选查询字符串集。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第二候选查询字符串集中每个查询字符串的相关分数和所述每个查询字符串包含的预设关键词的个数,得到所述第二候选查询字符串集中每个查询字符串的图片倾向分数,包括:
当所述第二候选查询字符串集中的查询字符串的相关分数和该查询字符串包含的预设关键词的个数均等于零时,设定该查询字符串的图片倾向分数为零;
当所述第二候选查询字符串集中的查询字符串的相关分数等于零,且该查询字符串包含的预设关键词的个数大于零时,设定该查询字符串的图片倾向分数为第七阈值;
当所述第二候选查询字符串集中的查询字符串的相关分数和该查询字符串包含的预设关键词的个数均大于零时,设定该查询字符串包含的预设关键词的个数为第八阈值,根据2*第八阈值*该查询字符串的相关分数/该查询字符串的长度,得到该查询字符串的图片倾向分数;
当所述第二候选查询字符串集中的查询字符串的相关分数大于零,且该查询字符串包含的预设关键词的个数等于零时,设定该查询字符串包含的预设关键词的个数为第九阈值,根据2*第九阈值*该查询字符串的相关分数/该查询字符串的长度,得到该查询字符串的图片倾向分数。
4.根据权利要求1所述的方法,其特征在于,所述将所述第二候选查询字符串集中查询字符串的图片倾向分数大于第二阈值的查询字符串加入到查询字符串候选集中之后,还包括:
根据所述查询字符串候选集中查询字符串的指定页中的搜索结果的点击率,对所述查询字符串候选集中的查询字符串的图片倾向分数进行修正。
5.根据权利要求4所述的方法,其特征在于,所述根据所述查询字符串候选集中查询字符串的指定页中的搜索结果的点击率,对所述查询字符串候选集中的查询字符串的图片倾向分数进行修正,包括:
根据所述查询字符串候选集中查询字符串的指定页中的搜索结果的点击率,得到所述指定页中每个搜索结果的位置的平均点击率;
根据所述指定页中每个搜索结果的位置的平均点击率得到每个搜索结果的位置的标准点击率;
统计所述指定页中搜索结果为图片的点击率,根据所述图片的点击率和所述指定页中每个搜索结果的位置的标准点击率,得到所述图片的指定位置;
根据所述图片的指定位置和所述图片的原始位置,对所述查询字符串候选集中查询字符串的图片倾向分数进行修正。
6.根据所述权利要求5所述的方法,其特征在于,所述根据所述图片的指定位置和所述图片的原始位置,对所述查询字符串候选集中查询字符串的图片倾向分数进行修正,包括:
当所述图片的原始位置低于所述图片的指定位置时,获取所述查询字符串的图片倾向分数的增加值;
当所述图片的原始位置高于所述图片的指定位置时,获取所述查询字符串的图片倾向分数的减小值;
根据所述图片倾向分数的增加值或所述图片倾向分数的减少值,对所述图片倾向分数进行修正。
7.一种推送信息的装置,其特征在于,所述装置包括:
查询字符串候选集获取模块,包括:
第一筛选单元,用于根据网页中历史查询字符串的搜索次数对所述历史查询字符串进行筛选,得到第一候选查询字符串集,其中,所述第一候选查询字符串集中的每个查询字符串的搜索次数大于第一阈值;
第二筛选单元,用于获取所述第一候选查询字符串集中每个查询字符串的相关分数,并根据所述第一候选查询字符串集中每个查询字符串的相关分数对所述第一候选查询字符串集中的查询字符串进行筛选,得到第二候选查询字符串集;
图片倾向分数获取单元,用于获取所述第二候选查询字符串集中的每个查询字符串包含的预设关键词的个数,并根据所述第二候选查询字符串集中每个查询字符串的相关分数和所述每个查询字符串包含的预设关键词的个数,得到所述第二候选查询字符串集中每个查询字符串的图片倾向分数;
查询字符串候选集获取单元,用于将所述第二候选查询字符串集中查询字符串的图片倾向分数大于第二阈值的查询字符串加入到查询字符串候选集中;
获取模块,用于获取网页上输入的指定查询字符串;
匹配模块,用于将所述指定查询字符串与所述查询字符串候选集中的查询字符串进行匹配,其中,所述查询字符串候选集中的查询字符串是带有图片倾向的查询字符串;
图片输出模块,用于当所述查询字符串候选集中有与所述指定的查询字符串匹配的查询字符串时,根据所述指定查询字符串在所述网页上输出相应的图片。
8.根据权利要求7所述的装置,其特征在于,所述第二筛选单元,包括:
提取子单元,用于获取所述第一候选查询字符串集中每个查询字符串的指定页中的搜索结果,并提取每条所述搜索结果的标题;
相关分数计算子单元,用于根据所述标题中包含的关键词和所述标题的位置得到所述第一候选查询字符串集中每个查询字符串的相关分数,其中,如果所述标题中包含预设关键词且所述标题的位置在所述结果中的第一指定位置之前或在所述第一指定位置上,则将所述查询字符串的相关分数累加第三阈值,如果所述标题的位置在所述第一指定位置之后,则将所述查询字符串的相关分数累加第四阈值,所述第三阈值大于所述第四阈值,所述查询字符串的相关分数从所述指定页中的第一条搜索结果开始逐条向下累加;
筛选子单元,用于对所述第一候选查询字符串集中的查询字符串进行筛选,当所述第一候选查询字符串集中的查询字符串在第二指定位置上的分数小于第五阈值时,则丢弃该查询字符串,当所述指定页中搜索结果中包含所述预设关键词的标题数小于第六阈值时,则丢弃该查询字符串,得到筛选后的第二候选查询字符串集。
9.根据权利要求7所述的装置,其特征在于,所述图片倾向分数获取单元具体用于:
当所述第二候选查询字符串集中的查询字符串的相关分数和该查询字符串包含的预设关键词的个数均等于零时,设定该查询字符串的图片倾向分数为零;
当所述第二候选查询字符串集中的查询字符串的相关分数等于零,且该查询字符串包含的预设关键词的个数大于零时,设定该查询字符串的图片倾向分数为第七阈值;
当所述第二候选查询字符串集中的查询字符串的相关分数和该查询字符串包含的预设关键词的个数均大于零时,设定该查询字符串包含的预设关键词的个数为第八阈值,根据2*第八阈值*该查询字符串的相关分数/该查询字符串的长度,得到该查询字符串的图片倾向分数;
当所述第二候选查询字符串集中的查询字符串的相关分数大于零,且该查询字符串包含的预设关键词的个数等于零时,设定该查询字符串包含的预设关键词的个数为第九阈值,根据2*第九阈值*该查询字符串的相关分数/该查询字符串的长度,得到该查询字符串的图片倾向分数。
10.根据权利要求7所述的装置,其特征在于,所述查询字符串候选集获取模块还包括:
修正单元,用于在所述查询字符串候选集获取单元将所述第二候选查询字符串集中查询字符串的图片倾向分数大于第二阈值的查询字符串加入到查询字符串候选集中之后,根据所述查询字符串候选集中查询字符串的指定页中的搜索结果的点击率,对所述查询字符串候选集中的查询字符串的图片倾向分数进行修正。
11.根据权利要求10所述的装置,其特征在于,所述修正单元,包括:
平均点击率获取子单元,用于根据所述查询字符串候选集中查询字符串的指定页中的搜索结果的点击率,得到所述指定页中每个搜索结果的位置的平均点击率;
标准点击率获取子单元,用于根据所述指定页中每个搜索结果的位置的平均点击率得到每个搜索结果的位置的标准点击率;
位置获取子单元,用于统计所述指定页中搜索结果为图片的点击率,根据所述图片的点击率和所述指定页中每个搜索结果的位置的标准点击率,得到所述图片的指定位置;
修正子单元,用于根据所述图片的指定位置和所述图片的原始位置,对所述查询字符串候选集中查询字符串的图片倾向分数进行修正。
12.根据所述权利要求11所述的装置,其特征在于,所述修正子单元具体用于:
当所述图片的原始位置低于所述图片的指定位置时,获取所述查询字符串的图片倾向分数的增加值;
当所述图片的原始位置高于所述图片的指定位置时,获取所述查询字符串的图片倾向分数的减小值;
根据所述图片倾向分数的增加值或所述图片倾向分数的减少值,对所述图片倾向分数进行修正。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序在被执行时以实现所述权利要求1-6中任一所述的推送信息的方法。
CN201210562496.2A 2012-12-21 2012-12-21 推送信息的方法和装置 Active CN103885979B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210562496.2A CN103885979B (zh) 2012-12-21 2012-12-21 推送信息的方法和装置
US14/653,589 US9589026B2 (en) 2012-12-21 2013-10-08 Method and device for pushing information
PCT/CN2013/084828 WO2014094481A1 (zh) 2012-12-21 2013-10-08 推送信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210562496.2A CN103885979B (zh) 2012-12-21 2012-12-21 推送信息的方法和装置

Publications (2)

Publication Number Publication Date
CN103885979A CN103885979A (zh) 2014-06-25
CN103885979B true CN103885979B (zh) 2018-06-05

Family

ID=50954874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210562496.2A Active CN103885979B (zh) 2012-12-21 2012-12-21 推送信息的方法和装置

Country Status (3)

Country Link
US (1) US9589026B2 (zh)
CN (1) CN103885979B (zh)
WO (1) WO2014094481A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909166B1 (en) * 2017-11-03 2021-02-02 Shutterstock, Inc. Reverse search with manual composition

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436495A (zh) * 2011-11-14 2012-05-02 百度在线网络技术(北京)有限公司 一种提供动态搜索页面的方法及其装置
CN102456054A (zh) * 2010-10-28 2012-05-16 腾讯科技(深圳)有限公司 一种搜索方法及***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9128945B1 (en) * 2008-05-16 2015-09-08 Google Inc. Query augmentation
CN101930438B (zh) * 2009-06-19 2016-08-31 阿里巴巴集团控股有限公司 一种搜索结果生成方法及信息搜索***
CA2785746C (en) * 2009-12-30 2016-09-13 Nokia Corporation Methods and apparatuses for facilitating content-based image retrieval
CN102043833B (zh) 2010-11-25 2013-12-25 北京搜狗科技发展有限公司 一种基于查询词进行搜索的方法和搜索装置
CN102622417B (zh) * 2012-02-20 2016-08-31 北京搜狗信息服务有限公司 对信息记录进行排序的方法和装置
US9087107B2 (en) * 2012-06-14 2015-07-21 Google Inc. Rank-specific search results
US20140095427A1 (en) * 2012-10-01 2014-04-03 Rimm-Kaufman Group, LLC Seo results analysis based on first order data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102456054A (zh) * 2010-10-28 2012-05-16 腾讯科技(深圳)有限公司 一种搜索方法及***
CN102436495A (zh) * 2011-11-14 2012-05-02 百度在线网络技术(北京)有限公司 一种提供动态搜索页面的方法及其装置

Also Published As

Publication number Publication date
US9589026B2 (en) 2017-03-07
CN103885979A (zh) 2014-06-25
US20160004700A1 (en) 2016-01-07
WO2014094481A1 (zh) 2014-06-26

Similar Documents

Publication Publication Date Title
CN104820686B (zh) 一种网络搜索方法及网络搜索***
CN101231661B (zh) 对象级知识挖掘的方法和***
CN105138558B (zh) 基于用户访问内容的实时个性化信息采集方法
US8874542B2 (en) Displaying browse sequence with search results
US7343551B1 (en) Autocompleting form fields based on previously entered values
CN103631794B (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN103077254B (zh) 网页获取方法和装置
CN104102658B (zh) 文本内容挖掘方法及装置
CN105426360A (zh) 一种关键词抽取方法及装置
WO2008002638A1 (en) Visual and multi-dimensional search
CN103365904B (zh) 一种广告信息搜索方法和***
CN104391978B (zh) 用于浏览器的网页收藏处理方法及装置
CN103425661B (zh) 一种网站数据分析方法及分析***
CN106021418B (zh) 新闻事件的聚类方法及装置
CN109189990A (zh) 一种搜索词的生成方法、装置及电子设备
CN105302876A (zh) 基于正则表达式的url过滤方法
CN110309386A (zh) 一种网页爬取的方法和装置
CN108536841A (zh) 基于业务用户习惯的智能学习查询模型
CN106874502A (zh) 一种视频搜索的方法、装置及终端
Hanany et al. Counting gauge invariant operators in SQCD with classical gauge groups
CN105447004B (zh) 查询推荐词的挖掘、相关查询方法及装置
CN106649312A (zh) 日志文件的分析方法和***
CN103885979B (zh) 推送信息的方法和装置
CN104156458B (zh) 一种信息的提取方法及装置
CN106126588A (zh) 提供相关词的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant