CN104063394A - 一种用于确定目标网页的方法、装置和设备 - Google Patents
一种用于确定目标网页的方法、装置和设备 Download PDFInfo
- Publication number
- CN104063394A CN104063394A CN201310092363.8A CN201310092363A CN104063394A CN 104063394 A CN104063394 A CN 104063394A CN 201310092363 A CN201310092363 A CN 201310092363A CN 104063394 A CN104063394 A CN 104063394A
- Authority
- CN
- China
- Prior art keywords
- information
- web pages
- released
- candidate
- candidate web
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明的目的是提供一种用于确定目标网页的方法、装置和设备。根据本发明的方法,包括:获取待发布信息及其对应的多个候选网页;获取所述待发布信息与该多个候选网页中的各个候选网页之间的匹配度;根据所述待发布信息与所述各个候选网页之间的匹配度,选择一个或多个候选网页作为与所述待发布信息对应的目标网页。本发明的优点在于:可自动确定与待发布信息相匹配的网页,无需人工进行设置,从而提高了操作效率,并且,当网页内容发生变换后,计算机设备还可根据变换后的网页来执行本发明的方案,以重新确定与待发布信息对应的目标网页,因此根据本发明的方案,可自动、高效的为待发布信息确定与其匹配度较高的目标网页。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于确定目标网页的方法、装置和设备。
背景技术
在互联网营销中,着陆页(Landing Page,有时被称为首要捕获用户页)就是当***点击广告或者利用搜索引擎搜索后显示给用户的网页。
现有技术中,通常仅根据预先设定的广告与网页的对应关系来确定着陆页。这种方式的问题在于,通常仅将广告与网站的首页相对应,从而点击广告的用户不能直接获得与广告内容直接相关的信息,然而,要为各个广告均设定针对性的网页,则需要极大的工作量,并且对所设定的对应关系进行调整也需要花费较多时间与精力。
发明内容
本发明的目的是提供一种用于确定目标网页的方法、装置和设备。
根据本发明的一个方面,提供一种计算机设备实现的用于确定目标网页的方法,其中,所述方法包括以下步骤:
a获取待发布信息及其对应的多个候选网页;
b获取所述待发布信息与该多个候选网页中的各个候选网页之间的匹配度;
c根据所述待发布信息与所述各个候选网页之间的匹配度,选择一个或多个候选网页作为与所述待发布信息对应的目标网页。
根据本发明的另一个方面,还提供了一种用于确定目标网页的网页确定装置,其中,所述网页确定装置包括:
第一获取装置,用于获取待发布信息及其对应的多个候选网页;
第二获取装置,用于获取所述待发布信息与该多个候选网页中的各个候选网页之间的匹配度;
选择装置,用于根据所述待发布信息与所述各个候选网页之间的匹配度,选择一个或多个候选网页作为与所述待发布信息对应的目标网页。
根据本发明的另一个方面,还提供了一种计算机设备,其中,所述计算机设备包括所述网页确定装置。
与现有技术相比,本发明具有以下优点:计算机设备可自动确定与待发布信息相匹配的网页,无需人工进行设置,从而提高了操作效率,并且,当网页内容发生变换后,计算机设备还可根据变换后的网页来执行本发明的方案,以重新确定与待发布信息对应的目标网页,因此根据本发明的方案,可自动、高效的为待发布信息确定与其匹配度较高的目标网页,提高了实现效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明的一个方面的一种计算机设备实现的用于确定目标网页的方法流程图;
图2为根据本发明的一个方面的一种用于确定目标网页的网页确定装置的结构示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示意出了根据本发明的一个方面的一种计算机设备实现的用于确定目标网页的方法流程图。根据本发明的方法包括步骤S1、步骤S2和步骤S3。
其中,根据本发明的方法通过计算机设备实现。所述计算机设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。其中,所述计算机设备包括网络设备和用户设备。所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、PDA、游戏机、或IPTV等。其中,所述用户设备及网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备、网络设备以及网络仅为举例,其他现有的或今后可能出现的用户设备、网络设备以及网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
具体地,参照图1,在步骤S1中,计算机设备获取待发布信息及其对应的多个候选网页。
其中,所述待发布信息包括用户希望发布至互联网的各类信息,包括但不限于文本、网页、多媒体等。
其中,所述计算机设备可直接根据用户输入来确定待发布信息,或者,根据一个或多个其他用户所使用的待发布信息来确定待发布信息。例如,计算机设备获取被其他用户使用最多的前n个待发布信息,作为自身的待发布信息等。
具体地,计算机设备根据预定网页范围来确定与待发布信息对应的候选网页。其中,所述预定网页范围包括但不限于预设的至少一个网页的网页链接信息。
优选地,所述预定网页范围包括所述与预设的网页链接信息的所属网站所包含的所有网页。
例如,预设的网页链接信息包括:http://www.abc.com/page1.html,则预定网页范围包括与域名“http://www.abc.com/”对应的网站所包含的全部网页。
接着,在步骤S2中,计算机设备获取所述待发布信息与该多个候选网页中的各个候选网页之间的匹配度。
具体地,计算机设备根据待发布信息与所述各个候选网页的网页内容间的相似度,和/或各个候选网页分别在各自所属网站的站内搜索结果中的排名信息,来确定待发布信息与该多个候选网页中的各个候选网页之间的匹配度。
其中,所述计算机设备获取所述待发布信息与该多个候选网页中的各个候选网页之间的匹配度的方式包括但不限于以下任一种:
1)获取所述待发布信息与所述各个候选网页的网页内容间的相似度;根据所述相似度来确定该待发布信息与各个候选网页的匹配度。
其中,所述网页内容包括但不限于以下至少任一项:
a)锚文本信息;
b)网页主题信息;
c)网页正文信息。
具体地,获取所述待发布信息与所述各个候选网页的网页内容间的相似度的方式包括但不限于以下任一种:
a)利用文本挖掘技术来分析待发布信息与各个候选网页的网页内容间的相似度。
例如,计算待发布信息相对于候选网页的网页内容信息的IF-IDF值,并将其作为相似度信息等。
b)计算机设备计算所述待发布信息与所述候选网页的网页内容之间的编辑距离信息,以根据所述编辑距离信息来确定相似度信息。
优选地,根据所述待发布信息与候选网页中的一个或多个锚文本信息之间的编辑距离来确定相似度。
更优选地,计算机设备获取待发布信息相对于候选网页的多个锚文本之间的编辑距离,并基于该多个编辑距离来确定该待发布信息相对于候选网页的相似度。
例如,先根据多个编辑距离获取待发布信息相对于候选网页的网页内容的平均编辑距离,并基于预定的编辑距离与匹配度的转换规则,确定相应的匹配度等级。其中所述转换规则可以为预定的对应关系,也可以为预定的转换函数。
2)当所述多个候选网页中的部分或全部候选网页属于同一网站时,计算机设备通过与该网站通信,以获取该网站基于所述待发布信息在其网站内进行查询的查询结果,其中包含所述部分或全部候选网页的排序信息;接着,计算机设备根据所述查询结果中所包含的所述部分或全部候选网页排序信息,确定所述待发布信息与该部分或全部候选网页中的各个候选网页之间的匹配度。
根据本发明的第一示例,待发布信息Info1对应的3个候选网页page1、page2以及page3均包含于网站Site1中,则计算机设备与该Site1进行通信,以获得网站Site基于Info1在网站内部进行搜索的搜索结果,其中候选网页page1、page2以及page3在搜索结果中的排名分别为第2位、第5位以及第10位,则计算机设备该3个候选网页各自的搜索结果排名,确定该3个候选网页与待发布信息Info1之间的匹配度排名从高到低依次为候选网页page3、page2和page1。
优选地,计算机设备可根据待发布信息与所述各个候选网页的网页内容间的相似度,以及各个候选网页分别在各自所属网站的站内搜索结果中的排名信息,确定待发布信息与该各个候选网页的匹配度信息。
根据本发明的第二示例,待发布信息Info2对应的5个候选网页中,page4至page6属于网站Site2,page7和page8属于网站Site3。计算机设备根据Info3相对于该5个候选网页的编辑距离依次分别为1、2、1、2、4;并且,计算机设备通过与网站Site2的通信,获得网站Site2基于Info2进行站内搜索后共获得50项结果,其中,page4、page5以及page6分别位于第3位、第4位以及第9位;计算机设备通过与网站Site3的通信,获得网站Site3基于Info2进行站内搜索后共获得25项结果,其中,page7、page8分别位于第1位和第5位。
接着,计算机设备根据预定的匹配度计算公式来确定待发布信息相对于各个候选网页的匹配度,该公式如下所示:
匹配度=(1/编辑距离)×(1-搜索结果排名/搜索结果总项数);
则计算机设备根据该确定Info2相对于候选网页page4至page8的匹配度分别为:0.94、0.46、0.82、0.48、0.2。
需要说明的是,本说明书中所用到的公式、数值等仅是用于供理解本发明而作的举例,不作为实际应用时的真实数据或公式,也不应当理解为对于本发明的限制。本领域技术人员根据本发明所公开的原理,采用其他公式或数值来确定匹配度的方式,也应当包含于本发明的保护范围内。如无特别说明,本文中其他地方出现的字符串的功用与此处相同,为简明起见,不再赘述。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取所述待发布信息与该多个候选网页中的各个候选网页之间的匹配度的实现方式,均应包含在本发明的范围内。
接着,在步骤S3中,计算机设备根据所述待发布信息与所述各个候选网页之间的匹配度,选择一个或多个候选网页作为与所述待发布信息对应的目标网页。
具体地,计算机设备基于预定选择规则,根据所述待发布信息与所述各个候选网页之间的匹配度来选择一个或多个候选网页作为目标网页。
例如,预定选择规则包括选择匹配度排名前m个的候选网页作为目标网页,则计算机设备将各个候选网页按照匹配度信息排名后选取前m个作为目标网页。
优选地,计算机设备对各个候选网页,判断该候选网页与所述待发布信息之间的匹配度是否达到预定阈值;并当达到预定阈值时,将该候选网页作为所述待发布信息的目标网页。
更优选地,当没有候选网页达到所述预定阈值时,计算机设备将预定网页作为所述待发布信息的目标网页。
其中,所述预定网页包括但不限于用户预设的网页。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何计算机设备根据所述待发布信息与所述各个候选网页之间的匹配度,选择一个或多个候选网页作为与所述待发布信息对应的目标网页的实现方式,均应包含在本发明的范围内。
作为本发明的优选实施例之一,其中,所述方法还包括步骤S4(图未示)和步骤S5(图未示)。
在步骤S4中,计算机设备根据所述待发布信息及其对应的至少一个目标网页,生成一个或多个网络发布信息。
其中,各个网络发布信息分别包含其所对应的目标网页的指示信息。所述指示信息包括但不限于指向所述目标网页的网页链接信息。
优选地,网络发布信息包括但不限于可在网页中以不同形式呈现的各类信息。
例如,当待发布信息包括关键词“苹果”时,网络发布信息可包括嵌入在网页中的包含该“评估”关键词的URL,或者,网络发布信息可包括嵌入在网页中的以“苹果”为主题的图片等。
继续对前述第二示例进行说明,其中,计算机设备根据获取最匹配的网页的预定选择规则,确定与待发布信息Info2对应的目标网页为page4,则计算机设备生成以Info2的内容为锚文本,并指向page4的超链接信息Link1。
接着,在步骤S5中,当接收到与待发布信息相关的查询序列时,计算机设备反馈与该待发布信息对应的该一个或多个网络发布信息。
继续对前述第二示例进行说明,当计算机设备接收到用户提交的包含待发布信息Info2的内容的查询序列时,计算机设备将该在步骤S4中生成的超链接信息Link1提供给用户。
根据本发明的方法,计算机设备可自动确定与待发布信息相匹配的网页,无需人工进行设置,从而提高了操作效率,并且,当网页内容发生变换后,计算机设备还可根据变换后的网页来执行本发明的方案,以重新确定与待发布信息对应的目标网页,因此根据本发明的方案,可自动、高效的为待发布信息确定与其匹配度较高的目标网页,提高了实现效率。
图2示意出了根据本发明的一个方面的一种用于确定目标网页的网页确定装置的结构示意图。根据本发明的方法包括第一获取装置1、第二获取装置2和选择装置3。
其中,根据本发明的方案通过计算机设备实现。所述计算机设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。其中,所述计算机设备包括网络设备和用户设备。所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、PDA、游戏机、或IPTV等。其中,所述用户设备及网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备、网络设备以及网络仅为举例,其他现有的或今后可能出现的用户设备、网络设备以及网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
具体地,参照图2,第一获取装置1获取待发布信息及其对应的多个候选网页。
其中,所述待发布信息包括用户希望发布至互联网的各类信息,包括但不限于文本、网页、多媒体等。
其中,所述第一获取装置1可直接根据用户输入来确定待发布信息,或者,根据一个或多个其他用户所使用的待发布信息来确定待发布信息。例如,第一获取装置1获取被其他用户使用最多的前n个待发布信息,作为自身的待发布信息等。
具体地,第一获取装置1根据预定网页范围来确定与待发布信息对应的候选网页。其中,所述预定网页范围包括但不限于预设的至少一个网页的网页链接信息。
优选地,所述预定网页范围包括所述与预设的网页链接信息的所属网站所包含的所有网页。
例如,预设的网页链接信息包括:http://www.abc.com/page1.html,则预定网页范围包括与域名“http://www.abc.com/”对应的网站所包含的全部网页。
接着,第二获取装置2获取所述待发布信息与该多个候选网页中的各个候选网页之间的匹配度。
具体地,第二获取装置2根据待发布信息与所述各个候选网页的网页内容间的相似度,和/或各个候选网页分别在各自所属网站的站内搜索结果中的排名信息,来确定待发布信息与该多个候选网页中的各个候选网页之间的匹配度。
其中,所述第二获取装置2获取所述待发布信息与该多个候选网页中的各个候选网页之间的匹配度的方式包括但不限于以下任一种:
1)第二获取装置2中的第一子获取装置(图未示)获取所述待发布信息与所述各个候选网页的网页内容间的相似度;接着,第二获取装置2中的第一确定装置(图未示)根据所述相似度来确定该待发布信息与各个候选网页的匹配度。
其中,所述网页内容包括但不限于以下至少任一项:
a)锚文本信息;
b)网页主题信息;
c)网页正文信息。
具体地,第一子获取装置获取所述待发布信息与所述各个候选网页的网页内容间的相似度的方式包括但不限于以下任一种:
a)第一子获取装置利用文本挖掘技术来分析待发布信息与各个候选网页的网页内容间的相似度。
例如,第一子获取装置计算待发布信息相对于候选网页的网页内容信息的IF-IDF值,并将其作为相似度信息等。
b)第一子获取装置中的计算装置(图未示)计算所述待发布信息与所述候选网页的网页内容之间的编辑距离信息,以根据所述编辑距离信息来确定相似度信息。
优选地,计算装置根据所述待发布信息与候选网页中的一个或多个锚文本信息之间的编辑距离来确定相似度。
更优选地,计算装置获取待发布信息相对于候选网页的多个锚文本之间的编辑距离,并基于该多个编辑距离来确定该待发布信息相对于候选网页的相似度。
例如,计算装置先根据多个编辑距离获取待发布信息相对于候选网页的网页内容的平均编辑距离,并基于预定的编辑距离与匹配度的转换规则,确定相应的匹配度等级。其中所述转换规则可以为预定的对应关系,也可以为预定的转换函数。
2)当所述多个候选网页中的部分或全部候选网页属于同一网站时,第二获取装置2中的第二子获取装置(图未示)通过与该网站通信,以获取该网站基于所述待发布信息在其网站内进行查询的查询结果,其中包含所述部分或全部候选网页的排序信息;接着,第二获取装置2中的第二确定装置(图未示)根据所述查询结果中所包含的所述部分或全部候选网页排序信息,确定所述待发布信息与该部分或全部候选网页中的各个候选网页之间的匹配度。
根据本发明的第一示例,待发布信息Info1对应的3个候选网页page1、page2以及page3均包含于网站Site1中,则第二子获取装置与该Site1进行通信,以获得网站Site1基于Info1在网站内部进行搜索的搜索结果,其中候选网页page1、page2以及page3在搜索结果中的排名分别为第2位、第5位以及第10位,则第二确定装置根据该3个候选网页各自的搜索结果排名,确定该3个候选网页与待发布信息Info1之间的匹配度排名从高到低依次为候选网页page3、page2和page1。
优选地,计算机设备可根据待发布信息与所述各个候选网页的网页内容间的相似度,以及各个候选网页分别在各自所属网站的站内搜索结果中的排名信息,确定待发布信息与该各个候选网页的匹配度信息。
根据本发明的第二示例,待发布信息Info2对应的5个候选网页中,page4至page6属于网站Site2,page7和page8属于网站Site3。计算机设备根据Info3相对于该5个候选网页的编辑距离依次分别为1、2、1、2、4;并且,计算机设备通过与网站Site2的通信,获得网站Site2基于Info2进行站内搜索后共获得50项结果,其中,page4、page5以及page6分别位于第3位、第4位以及第9位;计算机设备通过与网站Site3的通信,获得网站Site3基于Info2进行站内搜索后共获得25项结果,其中,page7、page8分别位于第1位和第5位。
接着,计算机设备根据预定的匹配度计算公式来确定待发布信息相对于各个候选网页的匹配度,该公式如下所示:
匹配度=(1/编辑距离)×(1-搜索结果排名/搜索结果总项数);
则计算机设备根据该确定Info2相对于候选网页page4至page8的匹配度分别为:0.94、0.46、0.82、0.48、0.2。
需要说明的是,本说明书中所用到的公式、数值等仅是用于供理解本发明而作的举例,不作为实际应用时的真实数据或公式,也不应当理解为对于本发明的限制。本领域技术人员根据本发明所公开的原理,采用其他公式或数值来确定匹配度的方式,也应当包含于本发明的保护范围内。如无特别说明,本文中其他地方出现的字符串的功用与此处相同,为简明起见,不再赘述。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取所述待发布信息与该多个候选网页中的各个候选网页之间的匹配度的实现方式,均应包含在本发明的范围内。
接着,选择装置3根据所述待发布信息与所述各个候选网页之间的匹配度,选择一个或多个候选网页作为与所述待发布信息对应的目标网页。
具体地,选择装置3基于预定选择规则,根据所述待发布信息与所述各个候选网页之间的匹配度来选择一个或多个候选网页作为目标网页。
例如,预定选择规则包括选择匹配度排名前m个的候选网页作为目标网页,则计算机设备将各个候选网页按照匹配度信息排名后选取前m个作为目标网页。
优选地,预定选择规则包括选择匹配度大于预定阈值的候选网页作为目标网页,则选择装置3中的判断装置(图未示)对各个候选网页,判断该候选网页与所述待发布信息之间的匹配度是否达到预定阈值;并当达到预定阈值时,选择装置3中的第一子选择装置(图未示)将该候选网页作为所述待发布信息的目标网页。
更优选地,当没有候选网页达到所述预定阈值时,选择装置3中的第二子选择装置(图未示)将预定网页作为所述待发布信息的目标网页。
其中,所述预定网页包括但不限于用户预设的网页。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何计算机设备根据所述待发布信息与所述各个候选网页之间的匹配度,选择一个或多个候选网页作为与所述待发布信息对应的目标网页的实现方式,均应包含在本发明的范围内。
作为本发明的优选实施例之一,其中,所述网页确定装置还包括生成装置(图未示)和反馈装置(图未示)。
生成装置根据所述待发布信息及其对应的至少一个目标网页,生成一个或多个网络发布信息。
其中,各个网络发布信息分别包含其所对应的目标网页的指示信息。所述指示信息包括但不限于指向所述目标网页的网页链接信息。
优选地,网络发布信息包括但不限于可在网页中以不同形式呈现的各类信息。
例如,当待发布信息包括关键词“苹果”时,网络发布信息可包括嵌入在网页中的包含该“评估”关键词的URL,或者,网络发布信息可包括嵌入在网页中的以“苹果”为主题的图片等。
继续对前述第二示例进行说明,其中,生成装置根据获取最匹配的网页的预定选择规则,确定与待发布信息Info2对应的目标网页为page4,则生成装置生成以Info2的内容为锚文本,并指向page4的超链接信息Link1。
接着,当接收到与待发布信息相关的查询序列时,反馈装置反馈与该待发布信息对应的该一个或多个网络发布信息。
继续对前述第二示例进行说明,当反馈装置接收到用户提交的包含待发布信息Info2的内容的查询序列时,反馈装置将生成装置生成的超链接信息Link1提供给用户。
根据本发明的方案,计算机设备可自动确定与待发布信息相匹配的网页,无需人工进行设置,从而提高了操作效率,并且,当网页内容发生变换后,计算机设备还可根据变换后的网页来执行本发明的方案,以重新确定与待发布信息对应的目标网页,因此根据本发明的方案,可自动、高效的为待发布信息确定与其匹配度较高的目标网页,提高了实现效率。
根据本实施例的方案,当用户与多个账户相对应时,网络设备可自动分析其所对应的账户的重要性,并根据主要的账户的相关信息来触发对该用户的后续管理操作,而无需对重要性较低的一些次要账户进行管理,从而在实现对用户的有效管理的前提下,减轻了网络设备自身的负担。
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (17)
1.一种计算机设备实现的用于确定目标网页的方法,其中,所述方法包括以下步骤:
a获取待发布信息及其对应的多个候选网页;
b获取所述待发布信息与该多个候选网页中的各个候选网页之间的匹配度;
c根据所述待发布信息与所述各个候选网页之间的匹配度,选择一个或多个候选网页作为与所述待发布信息对应的目标网页。
2.根据权利要求1所述的方法,其中,所述步骤b包括以下步骤:
b1获取所述待发布信息与所述各个候选网页的网页内容间的相似度;
b2根据所述相似度来确定该待发布信息与各个候选网页的匹配度。
3.根据权利要求2所述的方法,其中,所述步骤b1包括以下步骤:
-计算所述待发布信息与所述候选网页的网页内容之间的编辑距离信息,以根据所述编辑距离信息来确定相似度信息。
4.根据权利要求1至3中任一项所述的方法,其中,所述多个候选网页中的部分或全部候选网页属于同一网站,其中,所述步骤b包括以下步骤:
-通过与该网站通信,以获取该网站基于所述待发布信息在其网站内进行查询的查询结果,其中包含所述部分或全部候选网页的排序信息;
-根据所述查询结果中所包含的所述部分或全部候选网页排序信息,确定所述待发布信息与该部分或全部候选网页中的各个候选网页之间的匹配度。
5.根据权利要求2至4中任一项所述的方法,其中,所述网页内容包括以下至少任一项:
-锚文本信息;
-网页主题信息;
-网页正文信息。
6.根据权利要求1至5中任一项所述的方法,其中,所述步骤c包括以下步骤:
-对各个候选网页,判断该候选网页与所述待发布信息之间的匹配度是否达到预定阈值;
-当达到预定阈值时,将该候选网页作为所述待发布信息的目标网页。
7.根据权利要求6所述的方法,其中,所述步骤c还包括以下步骤;
-当没有候选网页达到所述预定阈值时,将预定网页作为所述待发布信息的目标网页。
8.根据权利要求1至7中任一项所述的方法,其中,所述方法还包括以下步骤:
-根据所述待发布信息及其对应的至少一个目标网页,生成一个或多个网络发布信息,其中,各个网络发布信息分别包含其所对应的目标网页的指示信息;
其中,所述方法还包括以下步骤:
-当接收到与待发布信息相关的查询序列时,反馈与该待发布信息对应的该一个或多个网络发布信息。
9.一种用于确定目标网页的网页确定装置,其中,所述网页确定装置包括:
第一获取装置,用于获取待发布信息及其对应的多个候选网页;
第二获取装置,用于获取所述待发布信息与该多个候选网页中的各个候选网页之间的匹配度;
选择装置,用于根据所述待发布信息与所述各个候选网页之间的匹配度,选择一个或多个候选网页作为与所述待发布信息对应的目标网页。
10.根据权利要求9所述的网页确定装置,其中,所述第二获取装置包括:
第一子获取装置,用于获取所述待发布信息与所述各个候选网页的网页内容间的相似度;
第一确定装置,用于根据所述相似度来确定该待发布信息与各个候选网页的匹配度。
11.根据权利要求10所述的网页确定装置,其中,所述第一子获取装置包括:
计算装置,用于计算所述待发布信息与所述候选网页的网页内容之间的编辑距离信息,以根据所述编辑距离信息来确定相似度信息。
12.根据权利要求9至11中任一项所述的网页确定装置,其中,所述多个候选网页中的部分或全部候选网页属于同一网站,其中,所述第二获取装置包括:
第二子获取装置,用于通过与该网站通信,以获取该网站基于所述待发布信息在其网站内进行查询的查询结果,其中包含所述部分或全部候选网页的排序信息;
第二确定装置,用于根据所述查询结果中所包含的所述部分或全部候选网页排序信息,确定所述待发布信息与该部分或全部候选网页中的各个候选网页之间的匹配度。
13.根据权利要求10至12中任一项所述的网页确定装置,其中,所述网页内容包括以下至少任一项:
-锚文本信息;
-网页主题信息;
-网页正文信息。
14.根据权利要求9至13中任一项所述的网页确定装置,其中,所述选择装置包括:
判断装置,用于对各个候选网页,判断该候选网页与所述待发布信息之间的匹配度是否达到预定阈值;
第一子选择装置,用于当达到预定阈值时,将该候选网页作为所述待发布信息的目标网页。
15.根据权利要求14所述的网页确定装置,其中,所述选择装置还包括:
第二子选择装置,用于当没有候选网页达到所述预定阈值时,将预定网页作为所述待发布信息的目标网页。
16.根据权利要求9至15中任一项所述的网页确定装置,其中,所述网页确定装置还包括:
生成装置,用于根据所述待发布信息及其对应的至少一个目标网页,生成一个或多个网络发布信息,其中,各个网络发布信息分别包含其所对应的目标网页的指示信息;
反馈装置,用于当接收到与待发布信息相关的查询序列时,反馈与该待发布信息对应的该一个或多个网络发布信息。
17.一种计算机设备,其中,所述计算机设备包括根据权利要求9至权利要求16中至少任一项所述的网页确定装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310092363.8A CN104063394B (zh) | 2013-03-21 | 2013-03-21 | 一种用于确定目标网页的方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310092363.8A CN104063394B (zh) | 2013-03-21 | 2013-03-21 | 一种用于确定目标网页的方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104063394A true CN104063394A (zh) | 2014-09-24 |
CN104063394B CN104063394B (zh) | 2020-05-08 |
Family
ID=51551110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310092363.8A Active CN104063394B (zh) | 2013-03-21 | 2013-03-21 | 一种用于确定目标网页的方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104063394B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331449A (zh) * | 2014-10-29 | 2015-02-04 | 百度在线网络技术(北京)有限公司 | 查询语句与网页相似度的确定方法、装置、终端及服务器 |
CN114077722A (zh) * | 2021-10-20 | 2022-02-22 | 深信服科技股份有限公司 | 数据泄密追踪方法、装置、电子设备和计算机存储介质 |
CN114463730A (zh) * | 2021-07-15 | 2022-05-10 | 荣耀终端有限公司 | 一种页面识别方法及终端设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070073667A1 (en) * | 2004-06-01 | 2007-03-29 | Chung Hyun J | Search system and method using a plurality of searching criterion |
CN101256596A (zh) * | 2008-03-28 | 2008-09-03 | 北京搜狗科技发展有限公司 | 一种站内导航的方法及*** |
CN102789453A (zh) * | 2011-05-16 | 2012-11-21 | 阿里巴巴集团控股有限公司 | 广告信息投放方法及装置 |
CN102968413A (zh) * | 2011-08-31 | 2013-03-13 | 北京百度网讯科技有限公司 | 一种用于提供搜索结果的方法与设备 |
-
2013
- 2013-03-21 CN CN201310092363.8A patent/CN104063394B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070073667A1 (en) * | 2004-06-01 | 2007-03-29 | Chung Hyun J | Search system and method using a plurality of searching criterion |
CN101256596A (zh) * | 2008-03-28 | 2008-09-03 | 北京搜狗科技发展有限公司 | 一种站内导航的方法及*** |
CN102789453A (zh) * | 2011-05-16 | 2012-11-21 | 阿里巴巴集团控股有限公司 | 广告信息投放方法及装置 |
CN102968413A (zh) * | 2011-08-31 | 2013-03-13 | 北京百度网讯科技有限公司 | 一种用于提供搜索结果的方法与设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331449A (zh) * | 2014-10-29 | 2015-02-04 | 百度在线网络技术(北京)有限公司 | 查询语句与网页相似度的确定方法、装置、终端及服务器 |
CN104331449B (zh) * | 2014-10-29 | 2017-10-27 | 百度在线网络技术(北京)有限公司 | 查询语句与网页相似度的确定方法、装置、终端及服务器 |
CN114463730A (zh) * | 2021-07-15 | 2022-05-10 | 荣耀终端有限公司 | 一种页面识别方法及终端设备 |
CN114077722A (zh) * | 2021-10-20 | 2022-02-22 | 深信服科技股份有限公司 | 数据泄密追踪方法、装置、电子设备和计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104063394B (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103699619A (zh) | 一种用于提供搜索结果的方法及装置 | |
US20180121430A1 (en) | Determination of content score | |
CN103064826B (zh) | 一种用于表情输入的方法、装置与*** | |
CN104102639B (zh) | 基于文本分类的推广触发方法和装置 | |
CN103207892B (zh) | 一种用于经由网络分享文档的方法和装置 | |
WO2014107682A1 (en) | Method and apparatus for generating webpage content | |
EP3126940A1 (en) | Systems and methods for optimizing content layout using behavior metrics | |
CN105260420A (zh) | 一种用于在移动应用中提供目标页面的方法与设备 | |
CN102779136A (zh) | 一种信息搜索的方法和装置 | |
US20180285331A1 (en) | Method, server, browser, and system for recommending text information | |
CN104978368A (zh) | 一种用于提供推荐信息的方法和装置 | |
CN103970534A (zh) | 一种提供移动应用中的渲染页面的方法与设备 | |
CN102141868B (zh) | 快捷操作信息交互页面的方法、输入法***和浏览器插件 | |
CN102339311B (zh) | 在用户设备上基于查询分类搜索网页内容的方法与设备 | |
CN103425631A (zh) | 用于获取文档文件中目标文字的字体文件的方法及装置 | |
CN112446727B (zh) | 广告触发的方法、装置、设备及计算机可读存储介质 | |
CN103678325A (zh) | 一种用于提供与初始页面相对应的浏览页面的方法和设备 | |
CN105446989A (zh) | 搜索方法及装置、显示装置 | |
CN105183853A (zh) | 一种用于展现标签页的方法和装置 | |
CN103942257A (zh) | 一种视频搜索的方法与装置 | |
CN102651031A (zh) | 一种用于提供搜索结果的方法与设备 | |
CN104866116A (zh) | 一种用于输出表情信息的方法和装置 | |
CN103885968A (zh) | 一种用于提供推荐信息的方法和装置 | |
CN105302461A (zh) | 一种用于在移动应用中提供目标页面的方法与设备 | |
CN104063394A (zh) | 一种用于确定目标网页的方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |