CN112883294A - 一种数据处理方法、装置和介质 - Google Patents
一种数据处理方法、装置和介质 Download PDFInfo
- Publication number
- CN112883294A CN112883294A CN201911205942.2A CN201911205942A CN112883294A CN 112883294 A CN112883294 A CN 112883294A CN 201911205942 A CN201911205942 A CN 201911205942A CN 112883294 A CN112883294 A CN 112883294A
- Authority
- CN
- China
- Prior art keywords
- anchor text
- weight
- webpage
- search
- click
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 79
- 238000012545 processing Methods 0.000 claims description 39
- 230000015654 memory Effects 0.000 claims description 27
- 238000012163 sequencing technique Methods 0.000 abstract description 7
- 238000013507 mapping Methods 0.000 description 138
- 230000006399 behavior Effects 0.000 description 46
- 239000013598 vector Substances 0.000 description 36
- 230000004927 fusion Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 12
- 230000002441 reversible effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 238000013178 mathematical model Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 230000009191 jumping Effects 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提供了一种数据处理方法、装置和介质,其中的方法具体包括:确定网页对应锚文本的权重;依据所述锚文本对应的搜索点击数据、和/或、所述锚文本对应的浏览数据、和/或、所述锚文本对应的网页特征,对所述权重进行调整。本发明实施例可以提高锚文本对应权重的准确度,进而可以提高搜索结果的排序结果的合理性。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种数据处理方法、一种数据处理装置、一种用于数据处理的装置和一种机器可读介质。
背景技术
随着互联网技术的发展,网页数量日趋庞大,为了建立网页与网页、网页与网站之间的链接关系,经常使用基于超链接和/或锚文本的链接技术。锚文本通常是对一个网页内容的高度概括描述,与该网页有着高度的内容相关性。
将超链接的锚文本应用于搜索引擎,还可以基于所述锚文本进行内容相关度计算,以获取用户的查询词(query)与网页之间的相关度,从而对搜索结果进行精确排名。
在正常情形下,锚文本可以对超链接指向的网页内容进行高度概括,并相当程度上反映出该网页的内容。但是,互联网上存在大量的超链作弊行为,锚文本与超链接指向网页之间不再总是内容高度相关;这样,在搜索引擎基于锚文本来获取搜索结果的情况下,有可能出现与查询词内容不相关但排序位置靠前的网页。
发明内容
本发明实施例提供一种数据处理方法、数据处理装置、用于数据处理的装置、以及一种机器可读介质,可以提高锚文本对应权重的准确度,进而可以提高搜索结果的排序结果的合理性。
为了解决上述问题,本发明实施例公开了一种数据处理方法,包括:
确定网页对应锚文本的权重;
依据所述锚文本对应的搜索点击数据、和/或、所述锚文本对应的浏览数据、和/或、所述锚文本对应的网页特征,对所述权重进行调整。
另一方面,本发明实施例公开了一种数据处理装置,包括:
权重确定模块,用于确定网页对应锚文本的权重;以及
权重调整模块,用于依据所述锚文本对应的搜索点击数据、和/或、所述锚文本对应的浏览数据、和/或、所述锚文本对应的网页特征,对所述权重进行调整。
再一方面,本发明实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定网页对应锚文本的权重;
依据所述锚文本对应的搜索点击数据、和/或、所述锚文本对应的浏览数据、和/或、所述锚文本对应的网页特征,对所述权重进行调整。
为了解决上述问题,本发明实施例公开了一种数据处理方法,包括:
确定查询词对应的搜索结果;
依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据前述的方法中锚文本的权重得到。
另一方面,本发明实施例公开了一种数据处理装置,所述装置包括:
确定模块,用于确定查询词对应的搜索结果;
排序模块,用于依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据前述的方法中锚文本的权重得到;
输出模块,用于输出排序后的搜索结果。
再一方面,本发明实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定查询词对应的搜索结果;
依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据权利要求1至12中任一所述的方法中锚文本的权重得到。
又一方面,本发明实施例公开了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行前述一个或多个所述的数据处理方法。
本发明实施例包括以下优点:
本发明实施例在确定网页对应锚文本的权重后,对上述权重进行调整。其中,对上述权重进行调整的调整特征可以包括如下特征中的至少一种:锚文本对应的搜索点击数据、锚文本对应的浏览数据、以及锚文本对应的网页特征。
搜索点击数据可以表征经由搜索行为得到的针对网页的点击行为。搜索点击数据可以包括:查询词和点击的网页。可以将锚文本与查询词对应的搜索点击数据进行匹配,以得到锚文本对应的搜索点击数据。
由于锚文本对应的搜索点击数据表征经由用户的搜索行为主动获取网页的行为,故依据锚文本对应的搜索点击数据对权重进行调整,可以使调整后的权重与用户的搜索行为相匹配,因此可以提高调整后的权重的准确度。
锚文本对应的浏览数据可以表征经由针对锚文本对应链接的点击行为跳转到网页的行为。由于锚文本对应的浏览数据可以表征经由用户的浏览访问网页的行为,故依据锚文本对应的浏览数据对权重进行调整,可以使调整后的权重与用户的浏览行为相匹配,因此可以提高调整后的权重的准确度。
锚文本对应的网页特征可以表征网页本身的特征,网页特征可以反映网页所属网站的权威性或可信度,故依据锚文本对应的网页特征对权重进行调整,可以使调整后的权重与网站的权威性或可信度相匹配,因此可以提高调整后的权重的准确度。
在提高锚文本对应权重的准确度的基础上,将锚文本对应权重应用于搜索结果的排序,可以避免出现与查询词内容不相关但排序位置靠前的网页,因此能够提高搜索结果的排序结果的合理性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种数据处理方法实施例一的步骤流程图;
图2是本发明实施例的一种链接图的示意;
图3是本发明的一种数据处理方法实施例二的步骤流程图;
图4是本发明的一种数据处理方法实施例三的步骤流程图;
图5是本发明的一种数据处理方法实施例四的步骤流程图;
图6是本发明的另一种数据处理装置实施例的结构框图;
图7是本发明的另一种数据处理装置实施例的结构框图;
图8是本发明的一种用于数据处理的装置900的框图;及
图9是本发明的一些实施例中服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种数据处理方案,该方案具体包括:确定网页对应锚文本的权重;依据上述锚文本对应的搜索点击数据、和/或、上述锚文本对应的浏览数据、和/或、上述锚文本对应的网页特征,对上述权重进行调整。
本发明实施例在确定网页对应锚文本的权重后,对上述权重进行调整。其中,对上述权重进行调整的调整特征可以包括如下特征中的至少一种:锚文本对应的搜索点击数据、锚文本对应的浏览数据、以及锚文本对应的网页特征。
搜索点击数据可以表征经由搜索行为得到的针对网页的点击行为。搜索点击数据可以包括:查询词和点击的网页。可以将锚文本与查询词对应的搜索点击数据进行匹配,以得到锚文本对应的搜索点击数据。
由于锚文本对应的搜索点击数据表征经由用户的搜索行为主动获取网页的行为,故依据锚文本对应的搜索点击数据对权重进行调整,可以使调整后的权重与用户的搜索行为相匹配,因此可以提高调整后的权重的准确度。
锚文本对应的浏览数据可以表征经由针对锚文本对应链接的点击行为跳转到网页的行为。由于锚文本对应的浏览数据可以表征经由用户的浏览访问网页的行为,故依据锚文本对应的浏览数据对权重进行调整,可以使调整后的权重与用户的浏览行为相匹配,因此可以提高调整后的权重的准确度。
锚文本对应的网页特征可以表征网页本身的特征,网页特征可以反映网页所属网站的权威性,故依据锚文本对应的网页特征对权重进行调整,可以使调整后的权重与网站的权威性相匹配,因此可以提高调整后的权重的准确度。
本发明实施例可以应用于搜索等应用场景。在搜索场景中,网页可用于作为查询词对应的搜索结果,则可以依据基于上述锚文本的权重得到的相关性信息,对搜索结果进行排序;由于依据准确度更高的权重能够得到准确度更高的相关性信息,故依据准确度更高的相关性信息进行排序,可以提高搜索结果排序的合理性,由此将与查询词相关性更高的搜索结果优先提供给用户。
本发明实施例提供的数据处理方法可应用于客户端和服务端对应的应用环境中,客户端与服务端位于有线或无线网络中,通过该有线或无线网络,客户端与服务端进行数据交互。
可选地,客户端可以运行在终端上,上述终端具体包括但不限:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。可选地,客户端可以对应任意的应用程序,如搜索程序、搜索网站等,搜索程序和搜索网站可以与搜索引擎相应。
方法实施例一
参照图1,示出了本发明的一种数据处理方法实施例一的步骤流程图,具体可以包括:
步骤101、确定网页对应锚文本的权重;
步骤102、依据上述锚文本对应的搜索点击数据、和/或、上述锚文本对应的浏览数据、和/或、上述锚文本对应的网页特征,对上述权重进行调整。
图1所示方法实施例一可由服务端执行,当然本发明实施例对于方法实施例一对应的具体执行主体不加以限制。
步骤101中,可选的是,可以依据网页对应的反链接信息,确定网页对应锚文本的权重。
反链接又称反向链接,可以表征两个网页之间的关系。例如,有两个网页,网页X和网页Y,网页X通过超链接的形式链接到网页Y,那么网页X就是网页Y的反向链接。
本发明实施例可以针对待确定锚文本的第一网页,确定链向第一网页的第二网页、以及第二网页中的锚文本,构造链接图,并依据上述链接图,确定第一网页对应的锚文本。其中,锚文本可以存在于第二网页中,锚文本对应的超链接可以链向第一网页。第一网页可以对应至少一个第二网页,不同第二网页对应的锚文本可以相同或不同。
参照图2,示出了本发明实施例的一种链接图的示意。其中,链接图中第一网页可以对应多个第二网页,也即,多个第二网页通过网页中的锚文本立链向第一网页,第二网页可以包括:第二网页A、第二网页B、第二网页C、第二网页D…等;不同第二网页对应的锚文本可以相同或不同。
可选地,上述反链接信息可以包括:
网页内容与网页对应锚文本之间的第一匹配信息;和/或;
网页对应锚文本的入链数量;和/或
网页对应锚文本的入链网站的信息。
其中,网页内容可以包括:网页标题、或网页正文。第一匹配信息可以包括:网页内容与网页对应锚文本之间的相似度。
网页对应锚文本的入链数量可以为网页对应锚文本所在第二网页的数量。
网页对应锚文本的入链网站的信息可以包括:网页对应锚文本的入链网站的数量、或者网页对应锚文本的入链网站的可信度信息等。
本发明实施例可以依据一种或多种反链接信息,确定网页对应锚文本的权重。
在本发明的一种可选实施例中,可以依据网页对应锚文本的权重,对网页对应锚文本进行筛选。例如,可以保留权重超过权重阈值的锚文本,以及可以丢弃权重不超过权重阈值的锚文本。可以将筛选后的锚文本及其对应的权重输入步骤102。
在确定网页对应锚文本的权重后,步骤102可以对上述权重进行调整。其中,对上述权重进行调整的调整特征可以包括如下特征中的至少一种:锚文本对应的搜索点击数据、锚文本对应的浏览数据、以及锚文本对应的网页特征。
技术方案A1、
技术方案A1具体为:依据锚文本对应的搜索点击数据,对权重进行调整。
首先对搜索点击数据的获取过程进行说明。搜索点击数据可以包括:查询词和点击的网页之间的映射关系。可以依据至少两个搜索引擎的搜索日志,获取查询词在至少两个搜索引擎条件下的搜索点击数据。可选地,本发明实施例的搜索点击数据所涉及的搜索引擎可以包括:综合搜索引擎,而不包括垂直搜索引擎,垂直搜索引擎的类别可以包括:音乐类别等。
查询词可用于表征向搜索引擎提交的字符串。本发明实施例可以依据历史查询词集合得到上述查询词,例如,可以从历史查询词集合中确定出上述查询词。或者,可以构造得到上述查询词。可以理解,任意的查询词均在本发明实施例的查询词的保护范围之内,本发明实施例对于具体的查询词不加以限制。
网页是构成网站的基本元素,是承载各种网站应用的平台。在搜索场景中,网页可用于作为查询词对应的搜索结果。可选地,本发明实施例可以从预置网站对应的网页中确定出上述网页。可以理解,任意的网页均在本发明实施例的网页的保护范围之内,本发明实施例对于具体的网页不加以限制。
可选地,可以确定查询词对于网页的浏览点击数量,并依据上述浏览点击数量对搜索点击数据进行过滤。可选地,可以保留浏览点击数量超过次数阈值的搜索点击数据,以及丢弃浏览点击数量不超过次数阈值的搜索点击数据。次数阈值可由本领域技术人员根据实际情况确定,例如,次数阈值可以为3等数值。
本发明实施例可以将锚文本与查询词对应的搜索点击数据进行匹配,以得到锚文本对应的搜索点击数据,进而将锚文本对应的搜索点击数据用于权重的调整过程。
在本发明的一种可选实施例中,上述对所述权重进行调整,具体可以包括:判断所述锚文本对应的搜索点击数据是否符合作弊条件,以得到对应的作弊判断结果;依据所述作弊判断结果,对所述权重进行调整。
本发明实施例可以依据锚文本对应的搜索点击数据判断锚文本是否作弊,得到作弊判断结果可以作为权重调整的依据。
作弊条件可用于约束作弊情况对应的搜索点击数据,本领域技术人员可以根据实际应用情况确定作弊条件。
本发明实施例中,上述作弊条件,可以包括如下条件中的至少一种:
条件1、若查询词和点击的网页之间的映射关系命中至少两种搜索引擎,则作弊判断结果为不作弊。
查询词和点击的网页之间的映射关系命中至少两种搜索引擎,可以表征查询词和点击的网页之间的映射关系在至少两种搜索引擎中出现。
条件2、若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎,则依据所述映射关系中的网页在第二搜索引擎中的搜索点击次数是否超过第一点击阈值,确定作弊判断结果。
第二搜索引擎不同于第一搜索引擎,查询词和点击的网页之间的映射关系未命中第二搜索引擎。
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数未超过第一点击阈值,则作弊判断结果可以为不作弊。
条件3、若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值,则依据所述映射关系中的查询词对应的字符是否命中所述第二搜索引擎的查询词,确定作弊判断结果。
在实际应用中,可以依据搜索引擎提供的接口,获取搜索引擎对应的搜索点击数据;而搜索点击数据可以包括:查询词、网页、搜索点击次数、以及搜索点击时间等信息;由此可以依据第二搜索引擎提供的接口,获取第二搜索引擎的查询词。可以理解,本领域技术人员还可以采用其他方式获取第二搜索引擎的查询词,本发明实施例对于第二搜索引擎的查询词的具体获取方式不加以限制。
所述映射关系中的查询词对应的字符可以包括:查询词对应的部分字符或全部字符,其中,所述映射关系中的查询词对应的字符的字符数量可以为1,或者,字符数量可以大于1。
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值、以及所述映射关系中的查询词对应的字符未命中所述第二搜索引擎的查询词,则作弊判断结果为作弊;若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值、以及所述映射关系中的查询词对应的字符命中所述第二搜索引擎的查询词,则作弊判断结果为不确定,可以继续利用条件4确定作弊判断结果。
条件4、若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值、以及所述映射关系中的查询词对应的字符命中所述第二搜索引擎的查询词,则依据所述映射关系在第一搜索引擎中的搜索点击次数,确定作弊判断结果。
所述映射关系在第一搜索引擎中的搜索点击次数可以指,在第一搜索引擎的条件下、映射关系对应的查询词和点击的网页成对出现的次数,也即,在第一搜索引擎的条件下、通过映射关系中查询词进行搜索、并点击了映射关系中的网页这种情况出现的次数。若所述映射关系在第一搜索引擎中的搜索点击次数未超过第二点击阈值,则作弊判断结果为不作弊。
条件5、若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值、所述映射关系中的查询词对应的字符命中所述第二搜索引擎的查询词、以及所述映射关系在第一搜索引擎中的搜索点击次数超过第二点击阈值,则依据所述映射关系中的查询词对应的字符在所述第一搜索引擎的查询词中的匹配次数,确定作弊判断结果。
在实际应用中,可以依据第一搜索引擎的接口,获取第一搜索引擎的搜索点击数据,并从第一搜索引擎的搜索点击数据中确定出第一搜索引擎的查询词。
本发明实施例可以将映射关系中查询词对应的字符与第一搜索引擎的查询词进行匹配,以得到对应的匹配次数。
若所述映射关系中的查询词对应的字符在所述第一搜索引擎的查询词中的匹配次数超过出现阈值,则作弊判断结果为不作弊。出现阈值可由本领域技术人员根据实际应用需求确定,例如,出现阈值为2等。
条件6、若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值、所述映射关系中的查询词对应的字符命中所述第二搜索引擎的查询词、所述映射关系在第一搜索引擎中的搜索点击次数超过第二点击阈值、以及所述映射关系中的查询词对应的字符在所述第一搜索引擎的查询词中的匹配次数小于出现阈值,则依据所述映射关系中的查询词的部分字符是否在所述第二搜索引擎的查询词或所述映射关系中网页对应的锚文本中出现,确定作弊判断结果。
若所述映射关系中的查询词的部分字符在所述第二搜索引擎的查询词或所述映射关系中网页对应的锚文本中出现,则作弊判断结果为未作弊,否则作弊判断结果为作弊。上述部分字符与全部字符的比例可以为预设比例,预设比例可由本领域技术人员根据实际应用需求确定,例如,预设比例为3/4、1/2等数值。
在本发明的一种可选实施例中,上述依据所述作弊判断结果,对所述权重进行调整,具体可以包括:
若所述作弊判断结果为作弊,则降低所述权重;或者
若所述作弊判断结果为非作弊,则增加所述权重。
若所述作弊判断结果为作弊,则可以降低原有权重。例如,可以将原有权重与降低比例相乘。降低比例可以为小于1的正数,降低比例可以为预设值,或者,降低比例可以为依据差异信息得到,例如,差异信息对应的差异越大,则降低比例的值越小等。
若所述作弊判断结果为非作弊,则增加所述权重。例如,可以将原有权重与增加比例相乘。增加比例可以为大于1的正数,增加比例可以为预设值,或者,增加比例可以为依据差异信息得到,例如,差异信息对应的差异越小,则增加比例的值越大等。
技术方案A2、
技术方案A2具体为:依据锚文本对应的浏览数据,对权重进行调整。
本发明实施例中,可以依据浏览器日志,确定经由第二网页的锚文本对应链接跳转到第一网页的点击行为,进而依据该点击行为,确定锚文本对应的浏览数据。锚文本对应的浏览数据可以包括:锚文本和网页对应的浏览点击数量等。
在本发明的一种可选实施例中,可以对锚文本对应的浏览数据进行过滤。
根据一种实施例,可以滤除浏览点击数量超过点击阈值的浏览数据。浏览点击数量超过点击阈值,可以认为锚文本为“首页”等常用的锚文本。此种情况下,可以将对应的浏览数据滤除,以节省运算量。点击阈值可由本领域技术人员根据实际应用需求确定,例如,点击阈值可以为10000等。
根据另一种实施例,可以依据预设网页集合,对锚文本对应的浏览数据进行过滤。预设网页集合可由本领域技术人员根据实际应用需求确定,可以过滤掉与预设网页集合中网页不匹配的浏览数据等。
本发明实施例中,可选的是,上述对所述权重进行调整,具体可以包括:依据所述锚文本对应的浏览数据和所述权重,确定特征向量;依据数据分析器和所述特征向量,对所述权重进行调整。
本发明实施例可以依据浏览数据和权重,构造特征向量。并且,可以结合特征向量和数据分析器,对权重进行调整。
在本发明的一个可选实施例中,可基于训练数据对数学模型进行训练,以得到数据分析器,数据分析器可表征输入数据(特征向量和权重)和输出数据(权重调整结果或调整后的权重)之间的映射关系。
数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型,数学模型是针对参照某种事物***的特征或数量依存关系,采用数学语言,概括地或近似地表述出的一种数学结构,这种数学结构是借助于数学符号刻画出来的关系结构。数学模型可以是一个或一组代数方程、微分方程、差分方程、积分方程或统计学方程及其组合,通过这些方程定量地或定性地描述***各变量之间的相互关系或因果关系。除了用方程描述的数学模型外,还有用其他数学工具,如代数、几何、拓扑、数理逻辑等描述的模型。其中,数学模型描述的是***的行为和特征而不是***的实际结构。其中,可采用机器学习、深度学习方法等方法进行数学模型的训练,机器学习方法可包括:线性回归、决策树、随机森林等,深度学习方法可包括:卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(LongShort-Term Memory,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)等。
本发明实施例中,训练数据对应的样本可以对应一个网页和一个锚文本。则可以依据一个网页对应的多个锚文本得到多个样本。可以首先依据训练数据确定数据分析器的参数,然后利用数据分析器的参数和待调整权重的特征向量和权重,得到调整后的权重。
基于训练数据对数学模型进行训练,可以学习得到特征向量对应的权重调整规律,因此可以使数据分析器具有权重调整的能力。而特征向量是基于浏览数据得到的,可以反映用户浏览访问网页的行为的规律;因此,依据基于浏览数据得到的特征向量训练数据分析器,可以使调整后的权重与用户的搜索行为相匹配,因此可以提高调整后的权重的准确度。
本发明实施例可以依据浏览数据构造一维或多维的特征向量。可选地,上述特征向量可以包括如下特征中的至少一种:
所述权重;
所述锚文本和所述网页对应的浏览点击数量;
所述锚文本和所述网页对应的网站数量;
所述锚文本和所述网页对应的浏览点击比例;
所述锚文本和所述网页对应的浏览点击比例与所述权重对应的第一融合信息;
所述锚文本和所述网页对应的网站比例;
所述锚文本和所述网页对应的网站比例与所述权重对应的第二融合信息;以及
权重比例;所述权重比例可以为所述锚文本和所述网页对应的权重与所述锚文本和所有网页对应的总权重之间的比例,也即链向网页的锚文本对应的权重与链向所有网页的锚文本对应的总权重之间的比例。
上述特征向量中的锚文本具体指:链向网页的锚文本,网页可以指待确定锚文本的网页。
所述锚文本和所述网页对应的浏览点击数量可以为,锚文本针对所述网页的浏览点击次数,可以表征锚文本对应的入链数量。
所述锚文本和所述网页对应的网站数量可以为,链向网页的锚文本所属的网站的数量。其中,不同的第二网页可以属于相同或不同的网站。在不同的第二网页属于相同的网站的情况下,不同的第二网页对应一种网站,也即,不同的第二网页所属的网站的数量为1。可以对不同的网站进行统计,以得到链向网页的锚文本所属的网站的数量。
所述锚文本和所述网页对应的浏览点击比例具体指,链向网页的锚文本对应的浏览点击次数与链向所有网页的锚文本对应的浏览点击次数的比值,此处,链向网页的锚文本和链向所有网页的锚文本相同。
第一融合信息可以为依据所述锚文本对应的浏览点击比例与所述权重进行相乘、相加、或者加权平均得到。
所述锚文本对应的网站比例具体指,链向网页的锚文本所属的网站的数量与链向所有网页的锚文本所属的网站的数量的比值。
第二融合信息的确定过程与第一融合信息的确定过程类似,在此不作赘述,相互参照即可。
可以理解,上述特征向量只是作为可选实施例,可以理解,本领域技术人员可以根据实际应用需求,确定所需的特征向量,本发明实施例对于具体的特征向量不加以限制。
技术方案A3、
技术方案A3具体为:依据锚文本对应的网页特征,对权重进行调整。
锚文本对应的网页特征可以表征网页本身的特征,网页特征可以反映网页所属网站的权威性或可信度,故依据锚文本对应的网页特征对权重进行调整,可以使调整后的权重与网站的权威性或可信度相匹配,因此可以提高调整后的权重的准确度。
本发明实施例中,可选的是,上述网页特征可以包括如下特征中的至少一种:用户访问热度特征、网站等级特征、黑名单特征、跳转特征和域名特征。
用户访问热度特征可以表征用户针对网页的访问热度。可以依据用户针对该网页的访问行为数据得到用户访问热度特征,访问行为数据对应的访问行为可以包括:搜索点击行为、或者浏览点击行为。
网站等级特征可以表征网页所属网站的等级。
黑名单特征可以表征网页是否被用户或机构列为黑名单。
跳转特征可用于表征网页之间的跳转行为。针对一个网页A而言,跳转行为可以包括:正向跳转行为和反向跳转行为。正向跳转行为可以指从网页A跳转至其他网页,也即跳出行为。反向跳转行为可以指从其他网页跳转至网页A,也即跳入行为。
域名特征可以表征网站对应域名的质量。域名(Domain Name),又称网域,是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称,用于在数据传输时对计算机的定位标识(有时也指地理位置)。
可选地,上述对所述权重进行调整,具体可以包括:依据所述锚文本对应的网页特征、以及网页特征与权重之间的关系,对所述权重进行调整。
本发明实施例可以针对一种或多种网页特征,设置网页特征与权重之间的关系。网页特征与权重之间的关系可以包括:正向关系或负向关系。
例如,权重与用户访问热度特征之间的关系为正向关系。用户访问热度特征表征的用户访问热度较大,则可以增加权重;或者,若用户访问热度特征表征的用户访问热度较小,则可以降低权重。
对于网站等级特征、反向跳转特征和域名特征而言,其中任一与权重之间的关系可以为正向关系。网站等级特征表征的网站等级较高,则可以增加权重;或者,网站等级特征表征的网站等级较低,则可以降低权重。若网页对应有反向跳转特征,则可以增加权重。域名特征对应的域名质量较高,则可以增加权重,否则域名特征对应的域名质量较低,则可以降低权重。
权重与黑名单特征之间的关系为负向关系。若网页对应有黑名单特征,则可以降低权重。
以上通过具体的技术方案A1至技术方案A3对步骤102中对上述权重进行调整的过程进行了详细介绍,可以理解,本领域技术人员可以根据实际应用需求,采用技术方案A1至技术方案A3中的任一或组合。在采用技术方案A1至技术方案A3中的组合的情况下,本发明实施例对于技术方案A1至技术方案A3的具体执行顺序不加以限制。
技术方案A1依据锚文本对应的搜索点击数据,对权重进行调整,可以利用调权规则,预设作弊条件为调权规则的一种。技术方案A2依据锚文本对应的浏览数据,对权重进行调整,可以利用数据分析器。技术方案A3依据锚文本对应的网页特征,对权重进行调整,可以利用调权规则,网页特征与权重之间的关系为调权规则的一种。
可以理解,上述技术方案A1至技术方案A3只是作为可选实施例,本领域技术人员可以根据实际应用需求,采用其他技术方案。例如,在依据锚文本对应的浏览数据,对权重进行调整的过程中,采用调权规则;又如,在依据锚文本对应的搜索点击数据、或网页特征,对权重进行调整的过程中,利用数据分析器等。
本发明实施例中,可选的是,搜索点击数据或浏览数据可以对应时间信息。例如,搜索点击数据或浏览数据可以对应第一时间段和第二时间段,其中,第一时间段可以早于第二时间段,例如,第二时间段可以为最近一周或者最近一天,第一时间段可以为一周前或者一天前等。本发明实施例可以依据第一时间段和第二时间段实现搜索点击数据或浏览数据的更新,以提高搜索点击数据或浏览数据的时效性和丰富性。
在本发明的一种可选实施例中,可以首先利用网页特征、和/或、第一时间段对应的搜索点击数据和/或浏览数据,对权重进行调整,以得到第一权重调整结果;然后,利用第二时间段对应的搜索点击数据和/或浏览数据,对第一权重调整结果进行调整,以得到第二权重调整结果,由此可以提高第二权重调整结果的时效性。
在实际应用中,对于一些没有反链接且点击次数(包括搜索点击次数或浏览点击次数)较少的网页,如一些小众的官网对应的网页,可能很难得到合理的锚文本。针对上述问题,本发明实施例可以对网站的首页进行实体识别,并依据实体识别结果确定首页对应的锚文本。例如,可以从首页的网页正文或网页标题中识别得到实体词,并依据实体词与网页标题之间的匹配度,确定是否将实体词作为首页对应的锚文本。
综上,本发明实施例的数据处理方法,在确定网页对应锚文本的权重后,对上述权重进行调整。其中,对上述权重进行调整的调整特征可以包括如下特征中的至少一种:锚文本对应的搜索点击数据、锚文本对应的浏览数据、以及锚文本对应的网页特征。
搜索点击数据可以表征经由搜索行为得到的针对网页的点击行为。搜索点击数据可以包括:查询词和点击的网页。可以将锚文本与查询词对应的搜索点击数据进行匹配,以得到锚文本对应的搜索点击数据。
由于锚文本对应的搜索点击数据表征经由用户的搜索行为主动获取网页的行为,故依据锚文本对应的搜索点击数据对权重进行调整,可以使调整后的权重与用户的搜索行为相匹配,因此可以提高调整后的权重的准确度。
锚文本对应的浏览数据可以表征经由针对锚文本对应链接的点击行为跳转到网页的行为。由于锚文本对应的浏览数据可以表征经由用户的浏览访问网页的行为,故依据锚文本对应的浏览数据对权重进行调整,可以使调整后的权重与用户的浏览行为相匹配,因此可以提高调整后的权重的准确度。
锚文本对应的网页特征可以表征网页本身的特征,网页特征可以反映网页所属网站的权威性或可信度,故依据锚文本对应的网页特征对权重进行调整,可以使调整后的权重与网站的权威性或可信度相匹配,因此可以提高调整后的权重的准确度。
在提高锚文本对应权重的准确度的基础上,将锚文本对应权重应用于搜索结果的排序,可以避免出现与查询词内容不相关但排序位置靠前的网页,因此能够提高搜索结果的排序结果的合理性。
方法实施例二
参照图3,示出了本发明的一种数据处理方法实施例二的步骤流程图,具体可以包括:
步骤301、确定网页对应锚文本的第一权重;
步骤302、依据上述锚文本对应的搜索点击数据,对上述锚文本对应的第一权重进行调整,以得到上述锚文本对应的第二权重;
步骤303、依据上述锚文本对应的浏览数据,对上述第二权重进行调整,以得到上述锚文本对应的第三权重;
步骤304、依据上述锚文本对应的网页特征,对上述第三权重进行调整,以得到上述锚文本对应的第四权重。
相对于图1上述方法实施例一,本实施例依次利用锚文本对应的搜索点击数据、锚文本对应的浏览数据和锚文本对应的网页特征,对锚文本对应的权重进行调整。
本发明实施例中,可选的是,步骤302对上述锚文本对应的第一权重进行调整,具体可以包括:判断所述锚文本对应的搜索点击数据是否符合作弊条件,以得到对应的作弊判断结果;依据所述作弊判断结果,对所述第一权重进行调整,具体实现过程可以参照技术方案A1,在此不作赘述。
本发明实施例中,可选的是,步骤303对上述第二权重进行调整,具体可以包括:依据所述锚文本对应的浏览数据和所述第二权重,确定特征向量;依据数据分析器和所述特征向量,对所述第二权重进行调整,具体实现过程可以参照技术方案A2,在此不作赘述。
本发明实施例中,可选的是,步骤304对上述第三权重进行调整,具体可以包括:依据所述锚文本对应的网页特征、以及网页特征与权重之间的关系,对所述权重进行调整,具体实现过程可以参照技术方案A3,在此不作赘述。
为使本领域技术人员更好地理解本发明实施例,在此提供本发明实施例的一种数据处理方法的示例,该示例具体可以包括如下步骤:
步骤S1、通过第一时间段内的搜索日志,得到查询词对应网页的搜索点击数据,并按照搜索点击次数和内容、对搜索点击数据进行过滤。
步骤S1包括步骤S11-S12:
步骤S11、对至少两个搜索引擎(如搜狗搜索引擎)的搜索点击数据进行汇总统计,可以统计同一网页相同查询词数量大于3的记录,每个网页最多保留M条记录,M的值可以为18等。
步骤S12、剔除例如音乐类的垂直搜索引擎的搜索点击数据。
步骤S2、对于待确定锚文本的网页b,提取所有链向b的网页a及对应锚文本,构造链接图。针对网页b拥有的大量不同锚文本,利用与网页内容之间的匹配度、入链数量等信息的计算,确定锚文本对应的第一权重。
步骤S3、通过第一时间段内的浏览器日志,获取用户通过网页a的超链接对应锚文本点击到网页b的操作,获取不同锚文本的浏览点击次数,并过滤得到有用点击。
步骤S3包括S31-S34:
步骤S31、获取用户从网页a链接到网页b点击的每个锚文本的浏览点击次数。
步骤S32、过滤点入网页或点出网页不在预设网页集合中的点击数据。
步骤S33、对相同锚文本对应浏览点击次数超过10000的锚文本进行过滤,这类锚文本可能是“首页”等大众锚文本,得到有用点击。
步骤S4、依据锚文本对应的搜索点击数据,对第一权重进行调整,以得到第二权重。
判断步骤S1中的搜索点击数据是否作弊,若是,则对第一权重进行降低,否则对第一权重进行增加。
步骤S5、依据所述锚文本对应的浏览数据和所述第二权重,确定第一时间段对应的第一特征向量。
对步骤S3的浏览数据和步骤S4的第二权重进行融合,具体地,根据浏览点击次数和第二权重,以网页+锚文本(一共8维,第一个是锚文本的权重,2-8是用户浏览数据对应的特征)作为样本,生成特征向量,同一个万个亿如果有多个锚文本的话,会生成多个样本。
步骤S6-步骤S8、通过第二时间段内的搜索日志和浏览器日志,执行步骤S1、步骤S3和步骤S5,以得到第二时间段对应的第二特征向量。
对近期新收集到的搜索数据和浏览数据进行补充,防止第一时间段内的数据运算时间过长无法及时对数据变化做出反应,步骤S8的处理结果与S5的处理结果一起输入步骤S9中。
步骤S9、依据数据分析器、第一特征向量和第二特征向量,对第二权重进行调整,以得到第三权重。
步骤S10、依据锚文本对应的网页特征,对第三权重进行调整,以得到第四权重。
可以针对网页特征,设置对应的调权规则,本发明实施例对于具体的调权规则不加以限制。
步骤S11、依据第二时间段内的搜索点击数据和/或浏览数据,对第四权重,以得到第五权重。
通过本发明实施例的权重调整,可以得到锚文本和网页对应的权重。可选地,本发明实施例可以依据锚文本和网页对应的权重,确定锚文本对应的权重最高的网页,并对锚文本对应的权重最高的网页增加权重,权重最高的网页可以为官网的首页。由此可以增加锚文本对应的权重最高的网页与锚文本对应的权重次高(也即权重第二高,权重排在第二位)的网页之间的差距;这样,在将锚文本对应的权重应用于搜索结果的排序的情况下,可以增加排序结果的准确度。
在实际应用中,存在多个网页对应同一锚文本的情况,例如https://www.taobao.com/和https://rule.taobao.com/index.htm?spm=a21bo.2017.201865-nav.2.5af911d9prCsC6均对应锚文本“淘宝网”,为了更好地区别官网的首页与其他关系较小的网页,本发明实施例可以依据权重确定锚文本对应的最可信的网页,并针对最可信的网页增加权重,以更好地辅助搜索结果的排序。最可信的网页可以为权重最高的网页。或者,还可以结合权重和网页特征,确定最可信的网页。
方法实施例三
参照图4,示出了本发明的一种数据处理方法实施例一的步骤流程图,具体可以包括:
步骤401、确定网页对应锚文本的权重;
步骤402、依据上述锚文本对应的搜索点击数据、和/或、上述锚文本对应的浏览数据、和/或、上述锚文本对应的网页特征,对上述权重进行调整;
相对于图1所示方法实施例一,所述搜索点击数据可以包括:查询词、以及所述查询词对应的网页;本实施例的方法还可以包括:
步骤403、若不存在与所述查询词相匹配的锚文本,则确定所述查询词与所述查询词对应网页的网页内容之间的第二匹配信息;
步骤404、若所述第二匹配信息符合预设扩充条件,则将所述查询词作为所述查询词对应网页的锚文本进行保存。
本发明实施例可以在不存在与查询词相匹配的锚文本的情况下,依据查询词进行锚文本的扩充。具体地,可以通过判断第二匹配信息是否符合预设扩充条件,确定是否将查询词扩充为锚文本。
查询词与查询词对应网页的网页内容之间的第二匹配信息,可以包括:查询词与网页内容(网页正文和/或网页标题)之间的文本相似度。查询词对应网页可以包括:通过查询词对应的搜索结果点击的网页。
本领域技术人员可以根据实际应用需求,确定预设扩充条件,例如,预设扩充条件可以包括:第二匹配信息超过匹配阈值等。
对于步骤404扩充得到的锚文本,本发明实施例可以依据网页对应的反链接信息,确定网页对应锚文本的权重。
上述反链接信息具体可以包括:
网页内容与网页对应锚文本之间的第二匹配信息;和/或;
网页对应锚文本的入链数量;和/或
网页对应锚文本的入链网站的信息。
综上,本发明实施例可以依据搜索点击数据实现锚文本的扩充。
方法实施例四
参照图5,示出了本发明的一种数据处理方法实施例四的步骤流程图,具体可以包括:
步骤501、确定查询词对应的搜索结果;
步骤502、依据上述查询词与上述搜索结果之间的相关性信息,对上述搜索结果进行排序;
其中,上述相关性信息可以为依据前述的方法中锚文本的权重得到;
步骤503、输出排序后的搜索结果。
本发明实施例可以应用于搜索场景等应用场景。在搜索场景中,网页可用于作为查询词对应的搜索结果,则可以依据上述相关性信息,对搜索结果进行排序;由于依据准确度更高的相关性信息进行排序,故可以提高搜索结果的排序结果的合理性,由此将与查询词的相关性更高的搜索结果优先提供给用户。
步骤501中,可以依据用户输入的查询词,在搜索引擎的数据库中进行检索,以得到查询词对应的搜索结果。
本发明实施例中,可选的是,上述确定查询词对应的搜索结果,具体可以包括:依据倒排索引,确定查询词对应的搜索结果;上述倒排索引可以包括:基于锚文本得到的索引。
传统技术依据网页内容(网页标题和正文)建立倒排索引。在本发明的一种示例中,假设查询词为某网站的简称或别名,该网站所包括网页(如首页)的网页内容中不包括该简称或别名,则按照传统技术将无法将该网站的首页作为该查询词对应的搜索结果,而本发明实施例可以在该网站的简称或别名包含在锚文本的范围内,并依据锚文本得到倒排索引,由此可以将该网站的首页作为该查询词对应的搜索结果,由此可以增加搜索结果的范围。
步骤502中,可以将相关性信息作为排序特征,对上述搜索结果进行排序。
在此提供一种依据锚文本的权重确定相关性信息的示例。具体地,可以确定查询词与锚文本之间的第一匹配度;确定查询词对应的查询分词与锚文本对应的分词之间的第二匹配度;对第一匹配度和第二匹配度进行融合,以得到相关性信息。
其中,第一匹配度可以从整体上表征查询词与锚文本之间的匹配情况。可选地,可以从字符的角度对查询词与锚文本进行匹配,也即,对查询词与锚文本进行字符匹配。上述字符匹配可以包括:去掉无用词后字符是否匹配、字符的顺序是否匹配等。在实际应用中,可以确定字符匹配规则,并将字符匹配规则应用于字符匹配过程,本发明实施例对于具体的字符匹配规则不加以限制。
第二匹配度可以从分词角度表征查询词与锚文本之间的匹配情况。具体地,可以将查询词分成对应的查询分词,一个查询分词对应有权重,可以判断一个查询分词是否在网页的锚文本中出现,若是,则依据查询分词命中的目标锚文本的权重和查询分词的权重、以及锚文本对应分词的数量,确定目标锚文本对应的分值;依据所有目标锚文本对应的分值可以得到第一匹配度。
其中,目标锚文本可以指包含查询分词的锚文本。目标锚文本对应的分值的确定过程可以为:首先确定目标锚文本的权重和查询分词的权重的乘积,然后依据该乘积与锚文本对应分词的数量的比值,确定目标锚文本对应的分值。
对第一匹配度和第二匹配度进行融合,所采用的融合方式可以包括:求和、加权平均方式等,可以理解,本发明实施例对于具体的融合方式不加以限制。
可选地,除了相关性信息之外,排序特征还可以包括:用户特征、网页的热度特征等特征。
步骤503中,服务端可以向客户端输出排序后的搜索结果,或者,客户端可以向用户输出排序后的搜索结果。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。
装置实施例
参照图6,示出了本发明的一种数据处理装置实施例的结构框图,具体可以包括:权重确定模块601和权重调整模块602。
其中,权重确定模块601,用于确定网页对应锚文本的权重。
权重调整模块602,用于依据所述锚文本对应的搜索点击数据、和/或、所述锚文本对应的浏览数据、和/或、所述锚文本对应的网页特征,对所述权重进行调整。
可选地,权重调整模块602可以包括:
作弊判断模块,用于判断所述锚文本对应的搜索点击数据是否符合作弊条件,以得到对应的作弊判断结果;
调整模块,用于依据所述作弊判断结果,对所述权重进行调整。
可选地,所述调整模块可以包括:
第一调整模块,用于若所述作弊判断结果为作弊,则降低所述权重;或者
第二调整模块,用于若所述作弊判断结果为非作弊,则增加所述权重。
可选地,所述搜索点击数据可以包括:查询词和点击的网页之间的映射关系;所述作弊条件,可以包括:
若查询词和点击的网页之间的映射关系命中至少两种搜索引擎,则作弊判断结果为不作弊;和/或
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎,则依据所述映射关系中的网页在第二搜索引擎中的搜索点击次数是否超过第一点击阈值,确定作弊判断结果;
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值,则依据所述映射关系中的查询词对应的字符是否命中所述第二搜索引擎的查询词,确定作弊判断结果;和/或
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值、以及所述映射关系中的查询词对应的字符命中所述第二搜索引擎的查询词,则依据所述映射关系在第一搜索引擎中的搜索点击次数,确定作弊判断结果;和/或
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值、所述映射关系中的查询词对应的字符命中所述第二搜索引擎的查询词、以及所述映射关系在第一搜索引擎中的搜索点击次数超过第二点击阈值,则依据所述映射关系中的查询词对应的字符在所述第一搜索引擎的查询词中的匹配次数,确定作弊判断结果;和/或
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值、所述映射关系中的查询词对应的字符命中所述第二搜索引擎的查询词、所述映射关系在第一搜索引擎中的搜索点击次数超过第二点击阈值、以及所述映射关系中的查询词对应的字符在所述第一搜索引擎的查询词中的匹配次数小于出现阈值,则依据所述映射关系中的查询词的部分字符是否在所述第二搜索引擎的查询词或所述映射关系中网页对应的锚文本中出现,确定作弊判断结果。
可选地,所述权重确定模块可以包括:
基于反链接的权重确定模块,用于依据网页对应的反链接信息,确定网页对应锚文本的权重。
可选地,所述反链接信息可以包括:
网页内容与网页对应锚文本之间的第一匹配信息;和/或;
网页对应锚文本的入链数量;和/或
网页对应锚文本的入链网站的信息。
可选地,所述权重调整模块,可以包括:
特征向量确定模块,用于依据所述锚文本对应的浏览数据和所述权重,确定特征向量;
基于数据分析器的调整模块,用于依据数据分析器和所述特征向量,对所述权重进行调整。
可选地,所述权重调整模块,可以包括:
基于网页特征的调整模块,用于依据所述锚文本对应的网页特征、以及网页特征与权重之间的关系,对所述权重进行调整。
可选地,权重调整模块602可以包括:
第一权重调整模块,用于依据所述锚文本对应的搜索点击数据,对所述锚文本对应的第一权重进行调整,以得到所述锚文本对应的第二权重;
第二权重调整模块,用于依据所述锚文本对应的浏览数据,对所述第二权重进行调整,以得到所述锚文本对应的第三权重;
第三权重调整模块,用于依据所述锚文本对应的网页特征,对所述第三权重进行调整,以得到所述锚文本对应的第四权重。
可选地,所述搜索点击数据可以包括:查询词、以及所述查询词对应的网页;所述装置还可以包括:
匹配确定模块,用于若不存在与所述查询词相匹配的锚文本,则确定所述查询词与所述查询词对应网页的网页内容之间的第二匹配信息;
锚文本保存模块,用于若所述第二匹配信息符合预设扩充条件,则将所述查询词作为所述查询词对应网页的锚文本进行保存。
可选地,所述网页特征可以包括如下特征中的至少一种:
用户访问热度特征、网站等级特征、黑名单特征、跳转特征和域名特征。
可选地,所述特征向量可以包括如下特征中的至少一种:
所述权重;
所述锚文本和所述网页对应的浏览点击数量;
所述锚文本和所述网页对应的网站数量;
所述锚文本和所述网页对应的浏览点击比例;
所述锚文本和所述网页对应的浏览点击比例与所述权重对应的第一融合信息;
所述锚文本和所述网页对应的网站比例;
所述锚文本和所述网页对应的网站比例与所述权重对应的第二融合信息;以及
权重比例;所述权重比例为所述锚文本和所述网页对应的权重与所述锚文本和所有网页对应的总权重之间的比例。
参照图7,示出了本发明的一种数据处理装置实施例的结构框图,具体可以包括:确定模块701、排序模块702和输出模块703。
其中,确定模块701,用于确定查询词对应的搜索结果;
排序模块702,用于依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据权利要求1至12中任一所述的方法中锚文本的权重得到;
输出模块703,用于输出排序后的搜索结果。
可选地,确定模块701可以包括:
依据倒排索引,确定查询词对应的搜索结果;所述倒排索引可以包括:基于锚文本得到的索引。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例还提供了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:确定网页对应锚文本的权重;依据所述锚文本对应的搜索点击数据、和/或、所述锚文本对应的浏览数据、和/或、所述锚文本对应的网页特征,对所述权重进行调整。
图8是根据一示例性实施例示出的一种用于数据处理的装置900作为终端时的结构框图。例如,装置900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图8,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理***,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到设备900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图9是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作***1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时,使得装置能够执行一种数据处理方法,所述方法包括:确定网页对应锚文本的权重;依据所述锚文本对应的搜索点击数据、和/或、所述锚文本对应的浏览数据、和/或、所述锚文本对应的网页特征,对所述权重进行调整。
本发明实施例公开了A1、一种数据处理方法,包括:
确定网页对应锚文本的权重;
依据所述锚文本对应的搜索点击数据、和/或、所述锚文本对应的浏览数据、和/或、所述锚文本对应的网页特征,对所述权重进行调整。
A2、根据A1所述的方法,所述对所述权重进行调整,包括:
判断所述锚文本对应的搜索点击数据是否符合作弊条件,以得到对应的作弊判断结果;
依据所述作弊判断结果,对所述权重进行调整。
A3、根据A2所述的方法,所述依据所述作弊判断结果,对所述权重进行调整,包括:
若所述作弊判断结果为作弊,则降低所述权重;或者
若所述作弊判断结果为非作弊,则增加所述权重。
A4、根据A2所述的方法,所述搜索点击数据包括:查询词和点击的网页之间的映射关系;所述作弊条件,包括:
若查询词和点击的网页之间的映射关系命中至少两种搜索引擎,则作弊判断结果为不作弊;和/或
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎,则依据所述映射关系中的网页在第二搜索引擎中的搜索点击次数是否超过第一点击阈值,确定作弊判断结果;
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值,则依据所述映射关系中的查询词对应的字符是否命中所述第二搜索引擎的查询词,确定作弊判断结果;和/或
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值、以及所述映射关系中的查询词对应的字符命中所述第二搜索引擎的查询词,则依据所述映射关系在第一搜索引擎中的搜索点击次数,确定作弊判断结果;和/或
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值、所述映射关系中的查询词对应的字符命中所述第二搜索引擎的查询词、以及所述映射关系在第一搜索引擎中的搜索点击次数超过第二点击阈值,则依据所述映射关系中的查询词对应的字符在所述第一搜索引擎的查询词中的匹配次数,确定作弊判断结果;和/或
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值、所述映射关系中的查询词对应的字符命中所述第二搜索引擎的查询词、所述映射关系在第一搜索引擎中的搜索点击次数超过第二点击阈值、以及所述映射关系中的查询词对应的字符在所述第一搜索引擎的查询词中的匹配次数小于出现阈值,则依据所述映射关系中的查询词的部分字符是否在所述第二搜索引擎的查询词或所述映射关系中网页对应的锚文本中出现,确定作弊判断结果。
A5、根据A1至A4中任一所述的方法,所述确定网页对应锚文本的权重,包括:
依据网页对应的反链接信息,确定网页对应锚文本的权重。
A6、根据A5所述的方法,所述反链接信息包括:
网页内容与网页对应锚文本之间的第一匹配信息;和/或;
网页对应锚文本的入链数量;和/或
网页对应锚文本的入链网站的信息。
A7、根据A1至A4中任一所述的方法,所述对所述权重进行调整,包括:
依据所述锚文本对应的浏览数据和所述权重,确定特征向量;
依据数据分析器和所述特征向量,对所述权重进行调整。
A8、根据A1至A4中任一所述的方法,所述对所述权重进行调整,包括:
依据所述锚文本对应的网页特征、以及网页特征与权重之间的关系,对所述权重进行调整。
A9、根据A1至A4中任一所述的方法,所述对所述权重进行调整,包括:
依据所述锚文本对应的搜索点击数据,对所述锚文本对应的第一权重进行调整,以得到所述锚文本对应的第二权重;
依据所述锚文本对应的浏览数据,对所述第二权重进行调整,以得到所述锚文本对应的第三权重;
依据所述锚文本对应的网页特征,对所述第三权重进行调整,以得到所述锚文本对应的第四权重。
A10、根据A1至A4中任一所述的方法,所述搜索点击数据包括:查询词、以及所述查询词对应的网页;所述方法还包括:
若不存在与所述查询词相匹配的锚文本,则确定所述查询词与所述查询词对应网页的网页内容之间的第二匹配信息;
若所述第二匹配信息符合预设扩充条件,则将所述查询词作为所述查询词对应网页的锚文本进行保存。
A11、根据A1至A4中任一所述的方法,所述网页特征包括如下特征中的至少一种:
用户访问热度特征、网站等级特征、黑名单特征、跳转特征和域名特征。
A12、根据A7所述的方法,所述特征向量包括如下特征中的至少一种:
所述权重;
所述锚文本和所述网页对应的浏览点击数量;
所述锚文本和所述网页对应的网站数量;
所述锚文本和所述网页对应的浏览点击比例;
所述锚文本和所述网页对应的浏览点击比例与所述权重对应的第一融合信息;
所述锚文本和所述网页对应的网站比例;
所述锚文本和所述网页对应的网站比例与所述权重对应的第二融合信息;以及
权重比例;所述权重比例为所述锚文本和所述网页对应的权重与所述锚文本和所有网页对应的总权重之间的比例。
本发明实施例公开了B13、一种数据处理方法,所述方法包括:
确定查询词对应的搜索结果;
依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据权利要求1至12中任一所述的方法中锚文本的权重得到;
输出排序后的搜索结果。
B14、根据B13所述的方法,所述确定查询词对应的搜索结果,包括:
依据倒排索引,确定查询词对应的搜索结果;所述倒排索引包括:基于锚文本得到的索引。
本发明实施例公开了C15、一种数据处理装置,所述装置包括:
权重确定模块,用于确定网页对应锚文本的权重;以及
权重调整模块,用于依据所述锚文本对应的搜索点击数据、和/或、所述锚文本对应的浏览数据、和/或、所述锚文本对应的网页特征,对所述权重进行调整。
C16、根据C15所述的装置,所述权重调整模块包括:
作弊判断模块,用于判断所述锚文本对应的搜索点击数据是否符合作弊条件,以得到对应的作弊判断结果;
调整模块,用于依据所述作弊判断结果,对所述权重进行调整。
C17、根据C16所述的装置,所述调整模块包括:
第一调整模块,用于若所述作弊判断结果为作弊,则降低所述权重;或者
第二调整模块,用于若所述作弊判断结果为非作弊,则增加所述权重。
C18、根据C16所述的装置,所述搜索点击数据包括:查询词和点击的网页之间的映射关系;所述作弊条件,包括:
若查询词和点击的网页之间的映射关系命中至少两种搜索引擎,则作弊判断结果为不作弊;和/或
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎,则依据所述映射关系中的网页在第二搜索引擎中的搜索点击次数是否超过第一点击阈值,确定作弊判断结果;
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值,则依据所述映射关系中的查询词对应的字符是否命中所述第二搜索引擎的查询词,确定作弊判断结果;和/或
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值、以及所述映射关系中的查询词对应的字符命中所述第二搜索引擎的查询词,则依据所述映射关系在第一搜索引擎中的搜索点击次数,确定作弊判断结果;和/或
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值、所述映射关系中的查询词对应的字符命中所述第二搜索引擎的查询词、以及所述映射关系在第一搜索引擎中的搜索点击次数超过第二点击阈值,则依据所述映射关系中的查询词对应的字符在所述第一搜索引擎的查询词中的匹配次数,确定作弊判断结果;和/或
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值、所述映射关系中的查询词对应的字符命中所述第二搜索引擎的查询词、所述映射关系在第一搜索引擎中的搜索点击次数超过第二点击阈值、以及所述映射关系中的查询词对应的字符在所述第一搜索引擎的查询词中的匹配次数小于出现阈值,则依据所述映射关系中的查询词的部分字符是否在所述第二搜索引擎的查询词或所述映射关系中网页对应的锚文本中出现,确定作弊判断结果。
C19、根据C15至C18中任一所述的装置,所述权重确定模块包括:
基于反链接的权重确定模块,用于依据网页对应的反链接信息,确定网页对应锚文本的权重。
C20、根据C19所述的装置,所述反链接信息包括:
网页内容与网页对应锚文本之间的第一匹配信息;和/或;
网页对应锚文本的入链数量;和/或
网页对应锚文本的入链网站的信息。
C21、根据C15至C18中任一所述的装置,所述权重调整模块,包括:
特征向量确定模块,用于依据所述锚文本对应的浏览数据和所述权重,确定特征向量;
基于数据分析器的调整模块,用于依据数据分析器和所述特征向量,对所述权重进行调整。
C22、根据C15至C18中任一所述的装置,所述权重调整模块,包括:
基于网页特征的调整模块,用于依据所述锚文本对应的网页特征、以及网页特征与权重之间的关系,对所述权重进行调整。
C23、根据C15至C18中任一所述的装置,所述权重调整模块,包括:
第一权重调整模块,用于依据所述锚文本对应的搜索点击数据,对所述锚文本对应的第一权重进行调整,以得到所述锚文本对应的第二权重;
第二权重调整模块,用于依据所述锚文本对应的浏览数据,对所述第二权重进行调整,以得到所述锚文本对应的第三权重;
第三权重调整模块,用于依据所述锚文本对应的网页特征,对所述第三权重进行调整,以得到所述锚文本对应的第四权重。
C24、根据C15至C18中任一所述的装置,所述搜索点击数据包括:查询词、以及所述查询词对应的网页;所述装置还包括:
匹配确定模块,用于若不存在与所述查询词相匹配的锚文本,则确定所述查询词与所述查询词对应网页的网页内容之间的第二匹配信息;
锚文本保存模块,用于若所述第二匹配信息符合预设扩充条件,则将所述查询词作为所述查询词对应网页的锚文本进行保存。
C25、根据C15至C18中任一所述的装置,所述网页特征包括如下特征中的至少一种:
用户访问热度特征、网站等级特征、黑名单特征、跳转特征和域名特征。
C26、根据C21所述的装置,所述特征向量包括如下特征中的至少一种:
所述权重;
所述锚文本和所述网页对应的浏览点击数量;
所述锚文本和所述网页对应的网站数量;
所述锚文本和所述网页对应的浏览点击比例;
所述锚文本和所述网页对应的浏览点击比例与所述权重对应的第一融合信息;
所述锚文本和所述网页对应的网站比例;
所述锚文本和所述网页对应的网站比例与所述权重对应的第二融合信息;以及
权重比例;所述权重比例为所述锚文本和所述网页对应的权重与所述锚文本和所有网页对应的总权重之间的比例。
本发明实施例公开了D27、一种数据处理装置,所述装置包括:
确定模块,用于确定查询词对应的搜索结果;
排序模块,用于依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据A1至A12中任一所述的方法中锚文本的权重得到;
输出模块,用于输出排序后的搜索结果。
D28、根据D27所述的装置,所述确定模块包括:
依据倒排索引,确定查询词对应的搜索结果;所述倒排索引包括:基于锚文本得到的索引。
本发明实施例公开了E29、一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定网页对应锚文本的权重;
依据所述锚文本对应的搜索点击数据、和/或、所述锚文本对应的浏览数据、和/或、所述锚文本对应的网页特征,对所述权重进行调整。
E30、根据E29所述的装置,所述对所述权重进行调整,包括:
判断所述锚文本对应的搜索点击数据是否符合作弊条件,以得到对应的作弊判断结果;
依据所述作弊判断结果,对所述权重进行调整。
E31、根据E30所述的装置,所述依据所述作弊判断结果,对所述权重进行调整,包括:
若所述作弊判断结果为作弊,则降低所述权重;或者
若所述作弊判断结果为非作弊,则增加所述权重。
E32、根据E30所述的装置,所述搜索点击数据包括:查询词和点击的网页之间的映射关系;所述作弊条件,包括:
若查询词和点击的网页之间的映射关系命中至少两种搜索引擎,则作弊判断结果为不作弊;和/或
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎,则依据所述映射关系中的网页在第二搜索引擎中的搜索点击次数是否超过第一点击阈值,确定作弊判断结果;
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值,则依据所述映射关系中的查询词对应的字符是否命中所述第二搜索引擎的查询词,确定作弊判断结果;和/或
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值、以及所述映射关系中的查询词对应的字符命中所述第二搜索引擎的查询词,则依据所述映射关系在第一搜索引擎中的搜索点击次数,确定作弊判断结果;和/或
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值、所述映射关系中的查询词对应的字符命中所述第二搜索引擎的查询词、以及所述映射关系在第一搜索引擎中的搜索点击次数超过第二点击阈值,则依据所述映射关系中的查询词对应的字符在所述第一搜索引擎的查询词中的匹配次数,确定作弊判断结果;和/或
若查询词和点击的网页之间的映射关系命中唯一的第一搜索引擎、且所述映射关系中的网页在第二搜索引擎中的搜索点击次数超过第一点击阈值、所述映射关系中的查询词对应的字符命中所述第二搜索引擎的查询词、所述映射关系在第一搜索引擎中的搜索点击次数超过第二点击阈值、以及所述映射关系中的查询词对应的字符在所述第一搜索引擎的查询词中的匹配次数小于出现阈值,则依据所述映射关系中的查询词的部分字符是否在所述第二搜索引擎的查询词或所述映射关系中网页对应的锚文本中出现,确定作弊判断结果。
E33、根据E29至E32中任一所述的装置,所述确定网页对应锚文本的权重,包括:
依据网页对应的反链接信息,确定网页对应锚文本的权重。
E34、根据E33所述的装置,所述反链接信息包括:
网页内容与网页对应锚文本之间的第一匹配信息;和/或;
网页对应锚文本的入链数量;和/或
网页对应锚文本的入链网站的信息。
E35、根据E29至E32中任一所述的装置,所述对所述权重进行调整,包括:
依据所述锚文本对应的浏览数据和所述权重,确定特征向量;
依据数据分析器和所述特征向量,对所述权重进行调整。
E36、根据E29至E32中任一所述的装置,所述对所述权重进行调整,包括:
依据所述锚文本对应的网页特征、以及网页特征与权重之间的关系,对所述权重进行调整。
E37、根据E29至E32中任一所述的装置,所述对所述权重进行调整,包括:
依据所述锚文本对应的搜索点击数据,对所述锚文本对应的第一权重进行调整,以得到所述锚文本对应的第二权重;
依据所述锚文本对应的浏览数据,对所述第二权重进行调整,以得到所述锚文本对应的第三权重;
依据所述锚文本对应的网页特征,对所述第三权重进行调整,以得到所述锚文本对应的第四权重。
E38、根据E29至E32中任一所述的装置,所述搜索点击数据包括:查询词、以及所述查询词对应的网页;所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
若不存在与所述查询词相匹配的锚文本,则确定所述查询词与所述查询词对应网页的网页内容之间的第二匹配信息;
若所述第二匹配信息符合预设扩充条件,则将所述查询词作为所述查询词对应网页的锚文本进行保存。
E39、根据E29至E32中任一所述的装置,所述网页特征包括如下特征中的至少一种:
用户访问热度特征、网站等级特征、黑名单特征、跳转特征和域名特征。
E40、根据E35所述的装置,所述特征向量包括如下特征中的至少一种:
所述权重;
所述锚文本和所述网页对应的浏览点击数量;
所述锚文本和所述网页对应的网站数量;
所述锚文本和所述网页对应的浏览点击比例;
所述锚文本和所述网页对应的浏览点击比例与所述权重对应的第一融合信息;
所述锚文本和所述网页对应的网站比例;
所述锚文本和所述网页对应的网站比例与所述权重对应的第二融合信息;以及
权重比例;所述权重比例为所述锚文本和所述网页对应的权重与所述锚文本和所有网页对应的总权重之间的比例。
本发明实施例公开了F41、一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定查询词对应的搜索结果;
依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据A1至A12中任一所述的方法中锚文本的权重得到;
输出排序后的搜索结果。
F42、根据F所述的装置,所述确定查询词对应的搜索结果,包括:
依据倒排索引,确定查询词对应的搜索结果;所述倒排索引包括:基于锚文本得到的索引。
本发明实施例公开了G43、一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如A1至A12中一个或多个所述的数据处理方法。
本发明实施例公开了H44、一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如B13至B14中一个或多个所述的数据处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种用于数据处理的装置、以及一种机器可读介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
确定网页对应锚文本的权重;
依据所述锚文本对应的搜索点击数据、和/或、所述锚文本对应的浏览数据、和/或、所述锚文本对应的网页特征,对所述权重进行调整。
2.根据权利要求1所述的方法,其特征在于,所述对所述权重进行调整,包括:
判断所述锚文本对应的搜索点击数据是否符合作弊条件,以得到对应的作弊判断结果;
依据所述作弊判断结果,对所述权重进行调整。
3.根据权利要求2所述的方法,其特征在于,所述依据所述作弊判断结果,对所述权重进行调整,包括:
若所述作弊判断结果为作弊,则降低所述权重;或者
若所述作弊判断结果为非作弊,则增加所述权重。
4.一种数据处理方法,其特征在于,所述方法包括:
确定查询词对应的搜索结果;
依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据权利要求1至3中任一所述的方法中锚文本的权重得到;
输出排序后的搜索结果。
5.一种数据处理装置,其特征在于,所述装置包括:
权重确定模块,用于确定网页对应锚文本的权重;以及
权重调整模块,用于依据所述锚文本对应的搜索点击数据、和/或、所述锚文本对应的浏览数据、和/或、所述锚文本对应的网页特征,对所述权重进行调整。
6.一种数据处理装置,其特征在于,所述装置包括:
确定模块,用于确定查询词对应的搜索结果;
排序模块,用于依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据权利要求1至12中任一所述的方法中锚文本的权重得到;
输出模块,用于输出排序后的搜索结果。
7.一种用于数据处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定网页对应锚文本的权重;
依据所述锚文本对应的搜索点击数据、和/或、所述锚文本对应的浏览数据、和/或、所述锚文本对应的网页特征,对所述权重进行调整。
8.一种用于数据处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定查询词对应的搜索结果;
依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据权利要求1至3中任一所述的方法中锚文本的权重得到;
输出排序后的搜索结果。
9.一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至3中一个或多个所述的数据处理方法。
10.一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求4所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911205942.2A CN112883294B (zh) | 2019-11-29 | 2019-11-29 | 一种数据处理方法、装置和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911205942.2A CN112883294B (zh) | 2019-11-29 | 2019-11-29 | 一种数据处理方法、装置和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112883294A true CN112883294A (zh) | 2021-06-01 |
CN112883294B CN112883294B (zh) | 2024-06-25 |
Family
ID=76039726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911205942.2A Active CN112883294B (zh) | 2019-11-29 | 2019-11-29 | 一种数据处理方法、装置和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883294B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101093510A (zh) * | 2007-07-25 | 2007-12-26 | 北京搜狗科技发展有限公司 | 一种针对网页作弊的反作弊方法及*** |
CN101178728A (zh) * | 2007-11-21 | 2008-05-14 | 北京搜狗科技发展有限公司 | 一种网址导航的方法和*** |
US20100318533A1 (en) * | 2009-06-10 | 2010-12-16 | Yahoo! Inc. | Enriched document representations using aggregated anchor text |
US20110238644A1 (en) * | 2010-03-29 | 2011-09-29 | Microsoft Corporation | Using Anchor Text With Hyperlink Structures for Web Searches |
CN102567417A (zh) * | 2010-12-31 | 2012-07-11 | 百度在线网络技术(北京)有限公司 | 一种用于确定超链接的锚文本可信度的分析设备和方法 |
CN103186574A (zh) * | 2011-12-29 | 2013-07-03 | 北京百度网讯科技有限公司 | 一种搜索结果的生成方法和装置 |
CN105808607A (zh) * | 2014-12-31 | 2016-07-27 | 北京奇虎科技有限公司 | 一种文档索引的生成方法和装置 |
WO2017101818A1 (zh) * | 2015-12-16 | 2017-06-22 | 广州神马移动信息科技有限公司 | 搜索结果显示方法、装置及搜索*** |
-
2019
- 2019-11-29 CN CN201911205942.2A patent/CN112883294B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101093510A (zh) * | 2007-07-25 | 2007-12-26 | 北京搜狗科技发展有限公司 | 一种针对网页作弊的反作弊方法及*** |
CN101178728A (zh) * | 2007-11-21 | 2008-05-14 | 北京搜狗科技发展有限公司 | 一种网址导航的方法和*** |
US20100318533A1 (en) * | 2009-06-10 | 2010-12-16 | Yahoo! Inc. | Enriched document representations using aggregated anchor text |
US20110238644A1 (en) * | 2010-03-29 | 2011-09-29 | Microsoft Corporation | Using Anchor Text With Hyperlink Structures for Web Searches |
CN102567417A (zh) * | 2010-12-31 | 2012-07-11 | 百度在线网络技术(北京)有限公司 | 一种用于确定超链接的锚文本可信度的分析设备和方法 |
CN103186574A (zh) * | 2011-12-29 | 2013-07-03 | 北京百度网讯科技有限公司 | 一种搜索结果的生成方法和装置 |
CN105808607A (zh) * | 2014-12-31 | 2016-07-27 | 北京奇虎科技有限公司 | 一种文档索引的生成方法和装置 |
WO2017101818A1 (zh) * | 2015-12-16 | 2017-06-22 | 广州神马移动信息科技有限公司 | 搜索结果显示方法、装置及搜索*** |
Non-Patent Citations (6)
Title |
---|
YONGGANG ZHANG; KAI LEI; LIAN\'EN HUANG: "Using anchor text refined by page importance to improve web retrieval", 2012 7TH INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE & EDUCATION (ICCSE), 6 September 2012 (2012-09-06), pages 1200 - 1203 * |
周博;刘奕群;张敏;金奕江;马少平;: "锚文本检索有效性分析", 软件学报, no. 08, pages 1714 - 1724 * |
孙世友,谢涛,姚新,刘锐: "大地图 测绘地理信息大数据理论与实践", 西南交通大学出版社, pages: 189 - 190 * |
杨劲松, 凌培亮: "搜索引擎PageRank算法的改进", 计算机工程, vol. 35, no. 22, 20 November 2009 (2009-11-20), pages 35 - 37 * |
王洪伟;王伟;孟园;: "搜索引擎排序作弊的识别:基于文本内容和链接结构的分析", ***工程理论与实践, no. 02, pages 445 - 457 * |
王钟斐;: "一种改进的PageRank算法", 计算机与数字工程, no. 06, 20 June 2011 (2011-06-20), pages 8 - 9 * |
Also Published As
Publication number | Publication date |
---|---|
CN112883294B (zh) | 2024-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614482B (zh) | 标签的处理方法、装置、电子设备及存储介质 | |
CN108121736B (zh) | 一种主题词确定模型的建立方法、装置及电子设备 | |
CN107958042B (zh) | 一种目标专题的推送方法及移动终端 | |
CN111859020B (zh) | 推荐方法、装置、电子设备及计算机可读存储介质 | |
CN110222256B (zh) | 一种信息推荐方法、装置和用于信息推荐的装置 | |
CN111708943B (zh) | 一种搜索结果展示方法、装置和用于搜索结果展示的装置 | |
CN109918565B (zh) | 一种搜索数据的处理方法、装置及电子设备 | |
CN110929176A (zh) | 一种信息推荐方法、装置及电子设备 | |
CN109101505B (zh) | 一种推荐方法、推荐装置和用于推荐的装置 | |
CN106815291B (zh) | 搜索结果项展现方法、装置和用于搜索结果项展现的装置 | |
CN108717403B (zh) | 一种处理方法、装置和用于处理的装置 | |
CN111382339A (zh) | 一种搜索处理方法、装置和用于搜索处理的装置 | |
CN112784142A (zh) | 一种信息推荐方法及装置 | |
CN109521888B (zh) | 一种输入方法、装置和介质 | |
CN110020106B (zh) | 一种推荐方法、推荐装置和用于推荐的装置 | |
CN111813932A (zh) | 文本数据的处理方法、分类方法、装置及可读存储介质 | |
CN111368161A (zh) | 一种搜索意图的识别方法、意图识别模型训练方法和装置 | |
CN110110046B (zh) | 同名实体推荐方法及装置 | |
CN107784037B (zh) | 信息处理方法和装置、用于信息处理的装置 | |
CN107301188B (zh) | 一种获取用户兴趣的方法及电子设备 | |
CN112883294B (zh) | 一种数据处理方法、装置和介质 | |
CN112052395B (zh) | 一种数据处理方法及装置 | |
CN112825076B (zh) | 一种信息推荐方法、装置和电子设备 | |
CN113239183A (zh) | 排序模型的训练方法、装置、电子设备和存储介质 | |
CN107870941B (zh) | 一种网页排序方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |