CN115687810A - 网页搜索方法、装置及相关设备 - Google Patents

网页搜索方法、装置及相关设备 Download PDF

Info

Publication number
CN115687810A
CN115687810A CN202110866859.0A CN202110866859A CN115687810A CN 115687810 A CN115687810 A CN 115687810A CN 202110866859 A CN202110866859 A CN 202110866859A CN 115687810 A CN115687810 A CN 115687810A
Authority
CN
China
Prior art keywords
webpage
web page
feature
features
webpages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110866859.0A
Other languages
English (en)
Inventor
李子健
曹莉
王工艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202110866859.0A priority Critical patent/CN115687810A/zh
Publication of CN115687810A publication Critical patent/CN115687810A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种网页搜索方法,包括:接收包括检索关键词的搜索请求,并从网页特征库中查找与该检索关键词相匹配的网页特征,从而输出与该检索关键词相匹配的网页特征对应的网页搜索结果,如网页标识或者网页内容等。其中,该网页特征库包括多个网页的标识以及该多个网页分别对应的网页特征,该网页特征包括根据网页中的内容提取得到的内容特征。由于网页对应的网页特征的数据量通常小于网页中的文本数据量,这使得即使网页数据的规模较大,网页搜索***也能通过查找网页特征库中数据量相对较小的网页特征,快速查找出与检索关键词相匹配的网页特征,从而基于该网页特征可以查找出用户所需的网页。如此,可以提高网页搜索结果的效率。

Description

网页搜索方法、装置及相关设备
技术领域
本申请涉及人工智能(Artificial Intelligence,AI)技术领域,尤其涉及一种网页搜索方法、装置及相关设备。
背景技术
随着互联网技术的飞速发展,网络中的网页数量呈现爆发性的增长,这给各厂商的搜索引擎带来了巨大的挑战。比如,在某实际业务的真实搜索场景中,需要从千亿级数量的网页中搜索出用户所需的网页。而通常情况下,在为互联网用户进行网页搜索时,通过遍历各个网页上的文本是否包括互联网用户输入的检索关键词,以确定该网页是否为互联网用户所需的网页。由于网页数量较大,因此,逐个遍历各个网页中的文本来搜索出具有该检索关键词的网页所需耗时较长,从而使得网页搜索结果的反馈时间较长,影响用户体验。因此,如何在网页数据规模较大(如千亿级等)的场景下提升网页搜索结果的效率成为亟待解决的重要技术问题。
发明内容
本申请提供了一种网页搜索方法、装置、计算设备、计算机可读存储介质及计算机程序产品,用以在大规模的网页数据场景下,提升网页搜索结果的效率。
第一方面,本申请提供一种网页搜索方法,在实施该方法的过程中,接收包括检索关键词的搜索请求,并从网页特征库中查找与该检索关键词相匹配的网页特征,从而输出与该检索关键词相匹配的网页特征对应的网页搜索结果,如网页标识或者网页内容等。其中,该网页特征库包括多个网页的标识(如网页的URL等)以及该多个网页分别对应的网页特征,并且网页特征包括根据网页中的内容提取得到的内容特征。
由于网页对应的网页特征的数据量通常小于网页中的文本数据量,这使得即使网页数据的规模较大,网页搜索***也能通过查找网页特征库中数据量相对较小的网页特征,快速查找出与检索关键词相匹配的网页特征,从而基于该网页特征可以查找出用户所需的网页。如此,可以提高网页搜索结果的效率,从而使得用户在短时间内获得其所需的网页搜索结果,提高用户的搜索体验。
示例性地,根据网页中的内容所提取得到的内容特征,例如可以是TF-IDF特征、simhash特征、pagevalue特征、keywords特征以及原创指数等。
在一种可能的实施方式中,在接收搜索请求之前,可以预先基于全量网页建立网页特征库。具体的,可以先获取全量网页的网页数据(如网页上的链接、文本、图片等),该全量网页包括第一网页集合,并且,该第一网页集合包括多个第一网页,该第一网页为按照第一预设规则获取的网页中的任意一个。然后,从全量网页的网页数据中提取出全量网页对应的网页数据,并将全量网页对应的网页特征以及全量网页的网页数据包括的全量网页的标识添加至网页特征库。如此,可以基于全量网页的网页数据构建出网页特征库,从而后续可以基于该网页特征库,从全量网页中搜索出用户所需的网页。
在一种可能的实施方式中,在从全量网页的网页数据中提取出全量网页对应的网页特征时,具体可以利用特征提取算法从全量网页的网页数据中提取出全量网页对应的网页特征,该特征提取算法包括第一算法以及第二算法,其中,第一算法用于提取网页特征中的第一特征的特征值,而第二算法用于提取网页特征中的第二特征的特征值。并且,在利用特征提取算法提取网页特征的过程中,可以根据特征提取算法与硬件资源之间的匹配规则,确定执行第一算法的第一硬件资源以及执行第二算法的第二硬件资源,从而可以利用第一硬件资源执行第一算法,以从全量网页的网页数据中提取出全量网页对应的第一特征,利用第二硬件资源执行第二算法,以从全量网页的网页数据中提取出全量网页对应的第二特征。如此,可以通过为各个特征提取算法选取最适合的硬件资源进行执行,如为支持随机读写内存的算法分配CPU,为要求顺序读写数据的算法分配NPU等,从而可以提高提取网页特征的效率,减少非必要的资源消耗。
在一种可能的实施方式中,在提取网页特征之前,可以预先确定算法与硬件资源之间的匹配规则。具体的,可以呈现匹配规则配置界面,以便由技术人员在该匹配规则配置界面上对算法与硬件资源之间的对应关系进行配置。然后,获取技术人员针对算法与硬件资源的配置操作请求,并根据该配置操作请求呈现匹配规则,以便由技术人员对该匹配规则进行确定。其中,该匹配规则用于指示不同算法与硬件资源之间的对应关系,从而后续可以根据该匹配规则,为不同算法分配与其相匹配的硬件资源执行。如此,可以通过匹配规则配置界面支持技术人员对于该匹配规则的灵活配置。
可选地,也可以是通过机器学习等方式对该匹配规则进行配置。比如,可以通过比较不同硬件资源执行同一特征提取算法时的性能、效率以及资源消耗等内容,确定执行每种特征提取算法所适用的硬件资源(如性能最高、效率最高、整体资源消耗最少等),并建立该特征提取算法与该硬件资源之间的匹配规则。
在一种可能的实施方式中,在接收搜索请求之前,可以预先基于增量网页建立网页特征库。具体的,先获取已知的网页特征以及增量网页的网页数据,该增量网页包括第二网页集合,该第二网页集合包括多个第二网页,并且第二网页为按照第二预设骨子额获取的网页中任意一个。其中,该已知的网页特征例如可以是前述实施方式中根据全量网页的网页数据所提取出的全部或者部分网页特征,或者,也可以是根据上一轮基于多个网页的网页数据所提取出的网页特征。然后,根据已知的网页特征以及增量网页的网页数据,利用迁移学习算法计算得到该增量网页对应的网页特征,并将计算得到的增量网页对应的网页特征以及增量网页的网页数据包括的增量网页的标识添加至网页特征库中,以此构建出网页特征库。如此,可以基于增量网页的网页数据构建出网页特征库,从而后续可以基于该网页特征库,从增量网页中搜索出用户所需的网页。
在一种可能的实施方式中,从提取的增量网页的网页特征与已知的网页特征均包括第一特征以及第二特征,则在根据已知的网页特征以及增量网页的网页数据,利用迁移学习算法计算得到该增量网页对应的网页特征时,具体可以是计算已知的网页特征中的第一特征的特征值与增量网页对应的网页特征中的第一特征值之间的相似度,该增量网页的第一特征可以是采用第一特征对应的特征提取算法从增量网页的网页数据中提取得到。当两个第一特征之间的相似度大于预设阈值,如大于95%等,则可以将已知的网页特征中的第二特征的特征值,确定为增量网页对应的网页特征中的第二特征的特征值,从而可以无需通过执行复杂的计算过程来提取增量网页的第二特征。如此,可以有效提高生成增量网页的网页特征的效率;并且,利用已有的网页特征,可以对齐已知的网页特征与增量网页的网页特征的量纲和分布,从而可以提高确定增量网页的网页特征的准确性。
在一种可能的实施方式中,根据算法与硬件资源之间的匹配规则,确定执行迁移学习算法的硬件资源。如此,可以为迁移学习算法分配适合的硬件资源进行执行,以此可以提高执行该迁移学习算法的效率,也即可以提高基于该迁移学习算法确定增量网页的网页特征的效率。
在一种可能的实施方式中,网页特征除了可以包括内容特征之外,还可以包括根据网页中的链接所提取得到的链接特征,如锚(anchors)特征、网页排名(pagerank)特征、站点等级(siterank)特征以及域名信任度(trustrank)特征等。如此,在利用提取得到的网页特征搜索用户所需的网页时,可以先根据内容特征从多个网页中初步查找出可以推荐给用户的网页,再根据链接特征从中筛选出最适合推荐给用户的部分网页等,以此可以提高向用户推荐网页的质量。
在一种可能的实施方式中,所构建的网页特征库中包括全量网页特征库以及增量网页特征库,其中,全量网页特征库用于存储从全量网页的网页特征中提取得到的网页特征,增量网页特征库用于存储基于增量网页的网页数据所确定的网页特征。
在一种可能的实施方式中,当网页特征库中同时包括全量网页特征库以及增量网页特征库时,可以先从增量网页特征库中查找是否存在与检索关键词相匹配的网页特征,若存在并且具有该网页特征的数量大于数量阈值(如20等),则可以直接将具有该网页特征的网页推荐给用户,无需再从全量网页特征库中进行查找,由于增量网页特征库中的网页特征通常少于全量网页特征库中的网页特征,以此不仅可以提高网页搜索效率,而且也能减少搜索网页所需的资源消耗。而若基于增量网页特征库未查找到或者查找到的网页数量较少,则可以再从全量网页特征库中根据检索关键词进行进一步检索。
第二方面,本申请还提供了一种网页搜索装置,所述网页搜索装置包括用于执行第一方面或第一方面任一种可能实现方式中的网页搜索方法的各个模块。
第三方面,本申请还提供了一种计算设备,包括:处理器和存储器;该存储器用于存储指令,当该计算设备运行时,该处理器执行该存储器存储的该指令,以使该计算设备执行上述第一方面或第一方面的任一实现方法中网页搜索方法。需要说明的是,该存储器可以集成于处理器中,也可以是独立于处理器之外。计算设备还可以包括总线。其中,处理器通过总线连接存储器。其中,存储器可以包括可读存储器以及随机存取存储器。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面以及第一方面中任意一种实施方式所述方法的操作步骤。
第五方面,本申请提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面以及第一方面中任意一种实施方式所述方法的操作步骤。
本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
附图说明
图1为本申请实施例提供的一示例性应用场景示意图;
图2为本申请实施例提供的一示例性网页搜索***300的架构示意图;
图3为本申请实施例提供的一种针对全量网页构建网页特征库的方法流程示意图;
图4为针对多个网页所提取的内容特征以及链接特征的示意图;
图5为本申请提供的一种匹配规则配置界面的示意图;
图6为本申请实施例提供的一种针对增量网页构建网页特征库的方法流程示意图;
图7为本申请实施例提供的一种网页搜索的方法流程示意图;
图8为本申请提供的一种网页搜索装置的结构示意图;
图9为本申请提供的一种计算设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请中的技术方案进行描述。
参见图1,为本申请实施例提供的一示例性应用场景示意图。如图1所示,用户100可以通过终端设备200触发网页搜索操作。比如,当用户100需要了解A城市的相关信息时,可以在终端设备200上的信息搜索框中输入检索关键词“A城市简介”,并通过点击相应的搜索控件以触发搜索“A城市”相关的介绍性网页。终端设备200可以基于用户输入的检索关键词生成相应的搜索请求,并通过终端设备200与网页搜索***300之间的通信连接,将该搜索请求发送给网页搜索***300。网页搜索***300可以根据该搜索请求中的检索关键词,从预先构建的网页特征库中查找与该检索关键词相匹配的网页特征,该网页特征库具体在网页搜索***300接收到搜索请求之前已经完成构建,并且网页特征库包括多个网页(如可以是千亿级数量的网页)的标识以及该多个网页分别对应的网页特征,该网页特征描述了该网页中的数据的特征,例如可以是包括内容特征,该内容特征是指根据网页中的内容所提取得到的特征,如网页中各个词语对应的词频逆文本频率(term frequency–inversedocument frequency,TF-IDF)等。在查找到与该检索关键词相匹配的网页特征后,如指示网页主旨的关键词与用户100提供地检索关键词一致等,网页搜索***300可以向终端设备200发送网页搜索结果,该搜索结果包括具有该网页特征的网页的标识,如网页的统一资源定位符(uniform resource locator,URL)或其他用于指示网页的表示形式等。这样,终端设备200可以根据接收到的网页标识对该网页进行访问,并将访问得到的网页数据(如网页上的文本、图片、音视频等)呈现给用户100,以便用户100在该终端设备200的显示界面上浏览到相应的网页内容。可选地,网页搜索结果除了包括网页的标识外,还可以包括其他类型的信息,例如该网页的网页内容数据等,从而终端设备200在接收到该网页搜索结果后,可以直接将网页内容数据呈现给用户100,以便用户100浏览网页内容。类似的,用户101可以通过终端设备201触发网页搜索操作,并通过终端设备201接收网页搜索***反馈的网页搜索结果;用户102可以通过终端设备202触发网页搜索操作,并通过终端设备202接收网页搜索***反馈的网页搜索结果等,为了简洁,在此不做赘述。
由于网页对应的网页特征的数据量通常小于网页中的文本数据量,这使得即使网页数据的规模较大,网页搜索***300也能通过查找网页特征库中数据量相对较小的网页特征快速查找出与检索关键词相匹配的网页特征,从而基于该网页特征可以查找出用户所需的网页。如此,可以提高网页搜索结果的效率,从而使得用户100在短时间内获得其所需的网页搜索结果,提高用户的搜索体验。
示例性地,终端设备200可以是用户100所持有的设备,如手机、电脑、手表、智能音响、车载终端等智能终端,也可以是其它可适用的计算机设备。网页搜索***300可以由一个或者多个服务器实现(如分布式服务器集群等,图1中以包括服务器301、服务器302以及服务器303进行示例性说明),并可以为多个用户(如图1中的用户100、用户101以及用户102等)提供相应的网页搜索服务。具体地,构成网页搜索***300的服务器中设置一个或多个处理器,如利用中央处理器(central processing unit,CPU)或专用集成电路(application-specific integrated circuit,ASIC)实现,或可编程逻辑器件(programmable logic device,PLD)实现,上述PLD可以是复杂程序逻辑器件(complexprogrammable logical device,CPLD)、FPGA、通用阵列逻辑(generic array logic,GAL)或其任意组合实现等。在其它可能的实施方式中,除了上述以服务器为例的硬件形态外,网页搜索***300也可以通过加速终端(例如,边缘小站),网页搜索***300还可以通过软件实现,例如,网页搜索***300为一种数据中心或云运营商所提供的云服务。
在网页搜索***300提供网页搜索服务之前,还可以基于多个网页构建出该网页特征库。实际应用时,可以由该网页搜索***300预先构建该网页特征库,或者可以是由其它***基于多个网页构建网页特征库,并将构建成功的网页特征库提供给网页搜索***300。为便于理解,本实施例中以网页搜索***300构建该网页特征库为例进行示例性说明。
参见图2,网页搜索***300可以包括特征引擎301、计算引擎302,其中,特征引擎301用于调用计算引擎302进行网页特征的提取,并将提取的网页特征添加至网页特征库304。计算引擎302用于读取网页库303中的网页数据,并执行相应的特征提取算法从该网页数据中提取出相应的网页特征。如图2所示,计算引擎302可以通过感知与调度模块2023感知硬件资源305,并为机器学习算法模块3021调度该硬件资源305,以使得机器学习算法模块3021通过执行机器学习算法从网页数据中提取出相应的网页特征。可选地,计算引擎302还可以为图分析模块3022调度该硬件资源305,以使得图分析模块3022通过执行图分析算法从网页数据中提取出相应的网页特征。
实际应用时,特征引擎301以及计算引擎302可以通过硬件以及软件实现。其中,特征引擎301以及计算引擎302通过硬件实现时,特征引擎301以及计算引擎302可以由不同服务器实现,如可以是图1中所示的不同服务器等;或者,特征引擎301以及计算引擎302可以由图1中的同一服务器上的不同处理器实现,或者可以是同一处理器上的不同处理器核等实现。另外,当特征引擎301以及计算引擎302通过软件实现时,特征引擎301以及计算引擎302可以运行在相同或者不同的处理器中。
下面,结合图3至图7进一步介绍本申请提供的构建网页特征库的过程以及利用网页特征库实现网页搜索的过程。为便于描述,下面以图2中的网页搜索***300构建网页特征库为例进行示例性说明。
参见图3,图3为本申请实施例提供的一种针对全量网页构建网页特征库的方法流程示意图,其中,所构建的网页特征库可以包括全量网页特征库,即基于全量网页的网页数据所提取的网页特征所构建的库。如图3所示,该方法具体可以包括:
S301:特征引擎301调用计算引擎302获取全量网页的网页数据,该全量网页包括第一网页集合,该第一网页集合包括多个第一网页,所述第一网页为按照第一预设规则获取的网页中的任意一个。
其中,全量网页,是指在构建全量网页特征库时网页搜索***300按照第一预设规则所获取的网页。示例性地,按照第一预设规则所获取的网页例如可以是网页搜索***300在网络中所能获取的所有网页。或者,按照第一预设规则所获取的网页,也可以是由用户指定的特定范围内的所有网页。例如,用户可以指定属于特定域名或者特定网址范围的所有网页作为全量网页,或者用户可以指定在特定时间段内创建的网页作为全量网页等。实际应用时,网页搜索***300所获取的网页可以构成第一网页集合,该第一网页集合中包括的多个第一网页,具体可以是网页搜索***300按照第一预设规则所获取的网页。
全量网页的网页数据,具体是指分别从每个网页上所能获取的数据,如网页的访问地址、网页上的链接、文字、字符、图片等。实际应用时,该网页的访问地址可以进一步作为该网页的标识,如可以将网页的URL作为网页的标识等。
作为一种获取网页数据的实现示例,网页搜索***300可以加载爬虫脚本(或程序),从而利用该爬虫脚本从网络中爬取网页上的数据,所爬取得到的网页数据即可以是本实施例中的全量网页的网页数据。示例性地,网页搜索***300所爬取的网页数据可以被存储于预先创建的网页库中。实际应用时,网页搜索***300也可以是采用其它方式获取全量网页的网页数据,例如可以是通过AI技术从网络中获取全量网页的网页数据,或者在从网络中爬取部分网页的网页数据的同时,可以由技术人员提供剩余部分网页的网页数据等。本实施例中,对于网页搜索***300如何获取全量网页的网页数据的具体实现方式并不进行限定。
在进一步可能的实施方式中,由于从网络中获取的网页数据中,可能包括部分噪声数据,如网页上无用的冗余符号以及错误数据等,因此,网页搜索***300在通过爬虫脚本(或者程序)等方式获取全量网页的网页数据后,可以对网页上的内容数据进行数据清洗,也即去除内容数据中无用数据和冗余数据,以提高入库的网页内容数据的质量。示例性地,在对网页上的内容数据进行数据清洗时,具体可以是去除该网页上的冗余符号、语气词等,并对网页上的错别字进行识别以及替换等。本实施例中并不限定针对网页内容进行数据清洗的具体实现方式。
本实施例中,特征引擎301中可以包括全量特征构建模块4011,该全量特征构建模块4011可以用于将调用计算引擎302,以执行提取全量网页的网页特征所需的处理过程。
S302:计算引擎302从全量网页的网页数据中提取出该全量网页对应的网页特征,该网页特征包括根据网页中的内容所提取得到的内容特征。
本实施例中,在网页搜索***300为用户提供网页搜索服务之前,网页搜索***300可以从全量网页的网页数据中提取出该全量网页的网页特征,以便后续基于该网页特征为用户提供网页搜索服务。作为一些示例,所提取的网页特征,具体可以是根据网页中的内容所提取得到的内容特征,如网页中一个或者多个词语(如关键词等)的TF-IDF、simhash值、pagevalue值、关键词(keywords)特征以及原创指数等特征中的一种或者多种。其中,网页中的词语对应的TF-IDF值大小表征了该词语相对于该网页的重要程度高低。通常情况下,某个词的TF-IDF值越大,表征这个词对于网页的重要程度越高,该网页中的主要内容与该词对应的语义相关。网页的simhash值,可以用于计算网页之间在内容上的相似度。pagevalue值,可以用于指示网页中的字/词相对于该网页的重要程度。关键词特征,是指该网页中包括的关键词,可以用于表征网页内容的主旨。原创指数,用于评价网页内容的原创程度高低,比如,当网页中的内容与其它网页中的内容之间差异较大时,可以利用该原创指数指示该网页的原创程度较高。实际应用时,内容特征,也可以是其它特征,本实施例对此并不进行限定。
具体实现时,计算引擎302可以从网页库303包括的网页内容库4031中读取全量网页的网页内容,该全量网页的网页内容可以是由网页搜索***300在执行步骤S301的过程中将其添加至网页内容库4031,然后,计算引擎302执行相应的特征提取算法(例如可以是机器学习算法)提取得到全量网页对应的网页特征。示例性地,针对全量网页中的各个第一网页,计算引擎302先提取出第一网页包括的文本,并对该文本进行分词处理,得到一个或者多个关键词,然后,计算引擎302可以将该文本以及一个或者多个关键词输入至预先完成训练的机器学习模型中,以便由该机器学习模型输出该第一网页对应的网页特征。示例性地,当提取的网页特征具体为TF-IDF特征时,机器学习模型基于TF-IDF算法或者其它算法进行构建,则计算引擎302将第一网页包括的文本以及一个或者多个关键词输入至该机器学习模型后,该机器学习模型输出该一个或者多个关键词分别对应的TF-IDF值,从而得到该第一网页的TF-IDF特征,以此得到所有网页的TF-IDF特征。类似的,当提取的网页特征具体为simhash特征时,机器学习模型基于simhash算法或者其它算法进行构建,从而机器学习模型可以根据输入的第一网页包括的文本以及关键词输出得到各个关键词对应的simhash值,从而得到第一网页的simhash特征。当提取的网页特征具体为pagevalue特征时,机器学习模型基于pagevalue算法或者其它算法进行构建,从而机器学习模型可以根据输入的第一网页包括的文本以及关键词输出得到各个关键词对应的pagevalue值,从而得到第一网页的pagevalue特征。当提取的网页特征具体为keywords特征时,机器学习模型基于keywords算法或者其它算法进行构建,从而机器学习模型可以根据输入的第一网页包括的文本以及关键词输出得到各个关键词对应的keywords值,从而得到第一网页的keywords特征。当提取的网页特征具体为原创指数时,机器学习模型基于原创指数计算算法进行构建,从而机器学习模型可以根据输入的第一网页包括的文本以及关键词输出得到第一网页的原创指数。
在一种可能的实施方式中,计算引擎302所提取全量网页对应的网页特征,除了可以包括内容特征之外,还可以包括根据全量网页中各个第一网页上的链接所提取得到的链接特征。示例性地,根据第一网页所提取得到的链接特征,例如,链接特征可以是第一网页对应的锚(anchors)特征、网页排名(pagerank)特征、站点等级(siterank)特征以及域名信任度(trustrank)特征中的一种或者多种。其中,锚特征,是指第一网页中指向锚的链接。pagerank特征,是指根据第一网页与其它网页之间的链接关系所确定的页面等级,可以用于衡量第一页面的重要度。siterank特征,可以用于衡量第一网页所属网站的重要程度。trustrank特征,可以用于衡量第一页面对应的域名的可信程度。实际应用时,链接特征,也可以是其它特征,本实施例对此并不进行限定。
具体实现时,计算引擎302在提取该全量网页的网页特征的过程中,可以从网页库303包括的网页链接库4032中读取网页搜索***300在执行步骤S301时所获取的全量网页包括的链接,并根据各个网页包括的链接构建网页关联网络。其中,网页关联网络包括多个节点以及多条有向边,其中,每个节点可以表征一个页面,而连接不同节点的有向边可以表征一个网页中存在指向另一个网页的链接。然后,计算引擎302可以对全量网页中的各个第一网页赋予初始值,并将构建的网页关联网络以及各个第一页面的初始值输入至图分析模型中,该图分析模型可以基于相应的特征提取算法(例如,图分析算法)进行构建,以便由图分析模型输出第一网页的链接特征,以此得到全量网页对应的链接特征。示例性地,当提取的链接特征具体为anchors特征时,图分析模型可以基于anchors算法或者其它算法进行构建,从而图分析模型可以根据输入的网页关联网络以及第一网页的初始值,基于一轮或者多轮迭代,输出得到该第一网页的anchors特征。类似地,当提取的链接特征具体为pagerank特征时,图分析模型可以基于pagerank算法或者其它算法进行构建,从而图分析模型可以根据输入的网页关联网络以及第一网页的初始值,基于一轮或者多轮迭代,输出得到该第一网页的pagerank特征。当提取的链接特征具体为siterank特征时,图分析模型可以基于siterank算法或者其它算法进行构建,从而图分析模型可以根据输入的网页关联网络以及第一网页的初始值,基于一轮或者多轮迭代,输出得到该第一网页的siterank特征。当提取的链接特征具体为trustrank特征时,图分析模型可以基于trustrank算法或者其它算法进行构建,从而图分析模型可以根据输入的网页关联网络以及第一网页的初始值,基于一轮或者多轮迭代,输出得到该第一网页的trustrank特征。示例性地,网页搜索***300针对多个网页所提取的内容特征以及链接特征可以如图4所示。
实际应用时,计算引擎302在从全量网页的网页数据中提取不同的特征时,可能会使用多种不同的特征提取算法,并且不同特征提取算法对于硬件资源的要求可能存在差异。因此,计算引擎302可以采用不同的硬件资源执行不同的特征提取算法。比如,在利用计算网页排名的算法(例如pagerank算法等)提取全量网页对应的pagerank特征时,由于计算网页排名的算法所涉及的代数运算密度通常较高,因此,计算引擎302可以采用在代数运算方面具有处理优势的处理器来执行该算法,如利用嵌入式神经网络处理器(neural-network processing unit,NPU)执行该算法等。又比如,在利用计算网页中关键词对应的TF-IDF值的算法(例如TF-IDF算法等)提取全量网页对应的TF-IDF特征时,由于该算法涉及的随机访存操作较高,因此,计算引擎302可以采用在随机访问方面具有处理优势的处理器执行该算法,如利用中央处理器(central processing unit,CPU)执行该算法等。
作为一种具体实现示例,以特征提取算法包括第一算法(如上述paerank算法等)以及第二算法(如上述TD-IDF算法等)为例,计算引擎302可以感知硬件资源的算力特性,如感知硬件资源中的计算性能、存储性能以及通信性能等,并获取算法与硬件资源之间的匹配规则,从而可以根据硬件资源的算力特性以及第一算法对于硬件资源的需求,为第一算法分配第一硬件资源(如NPU)以及为第二算法分配第二硬件资源(如CPU)。这样,计算引擎302在提取网页特的过程中,可以调度第一硬件资源执行第一算法,以提取全量网页对应的网页特征中第一特征的特征值,调度第二硬件资源执行第二算法,以提取全量网页对应的网页特征中第二特征的特征值。示例性地,硬件资源的算力特性可以包括计算特性、存储特性以及通信特性中至少一种。其中,计算特性可以包括计算时钟周期、物理核心数、最大线程数等;存储特性可以包括缓存容量、读写时延;通信特性可以包括数据搬移时延、读写IO时延、通信时延等。
应理解,上述实现示例中是以特征提取算法包括两个不同的算法为例,在其它示例中,特征提取算法也可以是仅包括一种算法,如仅包括TF-IDF算法等,或者,特征提取算法可以包括三种以上(包括三种)算法。相应的,网页搜索***300可以根据上述匹配规则,为特征提取算法中的每种算法选取相应的硬件资源进行执行。如此,计算引擎302可以为特征提取算法选取最适合的硬件资源进行执行,从而可以提高从全量网页的网页数据中提取网页特征的效率、减少非必要的资源消耗。
其中,上述硬件资源,具体可以包括计算资源、存储资源以及通信资源。其中,计算资源例如包括CPU、NPU、图形处理器(graphics processing unit,GPU)、张量处理器(tensor processing unit,TPU)、数据处理器(Data Processing Unit,DPU)等处理器。存储资源例如包括易失性存储器、非易失性存储器等,如只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)等。通信资源,包括带宽、端口、网际互连协议(internet protocol,IP)地址等。
作为一种示例,算法与硬件资源之间的匹配规则,可以根据业务需求配置。例如,网页搜索***300可以向技术人员呈现如图5所示的匹配规则配置界面,该匹配规则配置界面中可以呈现有计算引擎302可调用的硬件资源的标识,如图5所示的硬件资源1至硬件资源n,并可以提示技术人员在该匹配规则配置界面上输入基于这些硬件资源所能执行的特征提取算法。这样,网页搜索***300可以获取技术人员针对算法与硬件资源的配置操作请求,并根据该配置操作请求向技术人员呈现相应的匹配规则,该匹配规则指示了不同算法与不同硬件资源之间的对应关系。当技术人员在匹配规则配置界面上对呈现的匹配规则进行确认后,计算引擎302可以基于该匹配规则为算法调用相匹配的硬件资源进行执行。以匹配计算资源(包括NPU以及CPU)为例,对于代数类计算操作(如加减乘除等)较多的算法,可以将其与NPU进行匹配,即利用NPU实现这类算法,而对于查询等操作较多的算法,可以将其与CPU进行匹配,即利用CPU实现这类算法等。又比如,对于支持随机读写数据的算法,可以将其与NPU进行匹配,而对于要求顺序读写数据的算法,可以向其与CPU进行访问。再比如,对于产生较大数据通信量的算法,可以将其与CPU进行匹配,而对于产生较小数据通信量的算法,可以将其与NPU进行匹配等。实际应用场景中,技术人员可以根据业务需求对算法与硬件资源之间的匹配规则进行灵活配置,本实施例对此并不进行限定。
而在其它示例中,算法与硬件资源之间的匹配规则,也可以是通过机器学习等方法进行确定。比如,网页搜索***300可以通过比较不同硬件资源执行同一特征提取算法时的性能、效率以及资源消耗等内容,确定执行每种特征提取算法所适用的硬件资源(如性能最高、效率最高、整体资源消耗最少等),并建立该特征提取算法与该硬件资源之间的匹配规则。本实施例中,对于网页搜索***300如何获取匹配规则的具体实现方式并不进行限定。
S303:特征引擎301将全量网页的网页数据中该全量网页的标识以及全量网页对应的网页特征添加至网页特征库。
在计算引擎302利用硬件资源执行相应的特征提取算法,并从全量网页的网页数据中提取出全量网页对应的网页特征后,特征引擎301可以将全量网页对应的网页特征添加至网页特征库中。此时,每个网页对应的网页特征的时间戳,可以是该网页的网页特征被添加至网页特征库时的时间戳。并且,各个网页对应的网页特征可以与该网页的标识对应存储于网页特征库,以便后续根据该网页特征对应的网页标识,查找出具有该网页特征的网页。
本实施例中,网页搜索***300可以通过调用硬件资源执行相应的特征提取算法,为全量网页构建出相应的全量网页特征库。并且,网页搜索***300可以通过感知多样化的硬件资源,并为各个特征提取算法选取最适合的硬件资源进行执行,从而可以提高从全量网页的网页数据中提取网页特征的效率、减少非必要的资源消耗。
实际应用时,全量网页的网页数量通常较大,如网页数量可能达到千亿级,这使得网页搜索***300基于全量网页的网页数据构建全量网页特征库的时长较长,如耗时可能会达到15天甚至更久。因此,网页搜索***300所构建出的全量网页特征库中的网页特征,通常为15天之前的网页数据对应的网页特征,而对于在该15天内所生成的新网页(例如可以是在这15天新创建的网页,或者可以是在该15内对已有的网页进行调整后所生成的网页等,或者,根据业务需求新增的网页(例如,用户更新了第一预设规则导致增加网页数量增加))以及第15天之后所生成的新网页,其对应的网页特征并未及时被提取并添加至全量网页特征库中,从而导致基于全量网页特征库进行网页搜索的时效性较低,即基于全量网页特征库难以搜索出在构建全量网页特征库这一时刻之后所生成的新网页。为便于描述,以下将在构建全量网页特征库这一时刻之后所生成的新网页成为增量网页。基于此,在其它可能的实施方式中,网页搜索***300所构建的网页特征库可以包括增量网页特征库,即基于增量网页的网页数据所提取的网页特征所构建的库。参见图6,图6示出了一种针对增量网页构建网页特征库的方法流程示意图。如图6所示,该方法具体可以包括:
S601:特征引擎301获取已知的网页特征,并调用计算引擎302获取增量网页的网页数据,该增量网页包括第二网页集合,该第二网页集合包括多个第二网页,并且,第二网页为按照第二预设规则获取的网页中任意一个。
其中,增量网页,是指在构建增量网页特征库时网页搜索***300按照第二预设规则所获取的网页。示例性地,按照第二预设规则所获取的网页例如可以是网页搜索***300在相邻两次构建全量网页特征库期间在网络中所能获取的所有网页。或者,按照第二预设规则所获取的网页,也可以是由用户指定的特定时间段内的所有网页。实际应用时,网页搜索***300所获取的网页可以构成第二网页集合,该第二网页集合中包括的多个第二网页,具体可以是网页搜索***300按照第二预设规则所获取的网页。
本实施例中,网页搜索***300获取增量网页的网页数据的具体实现过程与前述实施例中网页搜索***300获取全量网页的网页数据的实现过程类似,区别点主要在于网页的量的差异,为了简洁,在此不做赘述。
本实施例中,计算引擎302不仅获取构建增量网页特征库所需的增量网页的网页数据,还获取已知的网页特征。作为一种实现示例,已知的网页特征例如可以是前述实施例中所构建出的全量网页特征库中的部分或者全部网页特征,此时,网页搜索***300可以支持同时基于全量网页以及增量网页的网页数据建立网页特征库。作为另一中可能的实现方式,该已知的网页特征也可以是上一轮基于增量网页的网页数据所构建的网页特征库中的网页特征,此时,网页搜索***300可以仅支持基于增量网页的网页数据建立网页特征库。
本实施例中,特征引擎301中可以包括增量特征构建模块4012,该增量特征构建模块4012可以用于将调用计算引擎302,以执行提取增量网页的网页特征所需的处理过程。
S602:计算引擎302根据已知的网页特征,计算得到增量网页对应的网页特征。
其中,增量网页对应的网页特征,可以包括增量网页的内容特征,或者同时包括内容特征以及链接特征。本实施例中,计算引擎302在提取增量网页的网页特征时,可以参考全量网页特征库的构建过程,对每个网页中网页数据进行提取和分析,为了便于简洁,在此不再赘述。
作为另一种可能的实现方式,除了参考全量网页特征库的构建过程获取增量网页的网页特征外,还可以根据已知的网页特征来计算增量网页的网页特征。
作为一种实现示例,网页特征包括多个特征,如包括TD-IDF特征、pagavalue特征、pagerank特征、simhash特征等。在该示例中,以包括第一特征(如TF-IDF特征)以及第二特征(如simhash特征)为例,其中,第二特征为各个第二网页中除第一特征以外的任意一个特征。计算引擎302可以提取第一特征所对应的特征提取算法提取得到增量网页中各个第二网页对应的第一特征,并计算已知的网页特征中的第一特征与所有第二网页对应的第一特征之间的相似度。当已知的网页特征的第一特征与所有第二网页对应的第一特征之间的相似度大于预设阈值(如95%等)时,表征已知的网页特征与所有第二网页的网页特征之间关于第一特征的差异较小。其中,预设阈值可以为经验值或者历史统计值经过计算获得(例如,历史统计值的平均值或方差值等形式)。实际应用时,不同网页的网页特征之间通常具有相同的特征相似趋势,即当不同网页的第一特征相似时,该不同网页的第二特征通常也相似。反之,当不同网页的第一特征不相似时,该不同网页的第二特征之间的相似程度通常也较低。因此,计算引擎302在确定已知的网页特征的第一特征与所有第二网页对应的第一特征之间的差异较小(相似度大于预设阈值)时,可以确定已知的网页特征与所有第二网页的网页特征之间关于第二特征的差异通常也会较小,则,计算引擎302可以直接将已知的网页特征中的第二特征,确定为所有第二网页对应的网页特征中的第二特征,这样,计算引擎302可以无需通过执行复杂的计算过程来提取增量网页的第二特征,而是直接将已知的网页特征中的第二特征作为增量网页的第二特征,同时,增量网页的第一特征也已经由计算引擎302利用第一特征对应的特征提取算法从增量网页的网页数据中提取得到。如此,可以有效提高计算引擎302生成增量网页的网页特征的效率;并且,利用已有的网页特征,可以对齐已知的网页特征与增量网页的网页特征的量纲和分布,从而可以提高计算引擎302确定增量网页的网页特征的准确性。实际应用时,计算引擎302可以依据迁移学习算法执行上述计算增量网页的第一特征以及第二特征的过程,即上述计算逻辑为迁移学习算法的算法逻辑。
举例来说,假设所要提取的增量网页的第一特征包括TF-IDF特征、pagerank特征,第二特征包括simhash特征以及anchors特征等,则计算引擎302可以先利用TF-IDF算法以及pagerank算法,从根据增量网页的网页数据中提取得到增量网页的TF-IDF特征以及pagerank特征(也即上述第一特征)。然后,计算引擎302可以基于高斯混合模型的TF-IDF特征迁移算法,计算已知的网页特征中的TF-IDF特征与增量网页的TF-IDF特征,并基于MonteCarlo采样算法的pagerank特征迁移算法,计算已知的网页特征中的pagerank特征与增量网页的pagerank特征之间的相似度。当针对TF-IDF特征的相似度以及针对pagerank特征的相似度均大于预设阈值时,则计算引擎302可以无需再计算增量网页的simhash特征以及anchors特征,而是将已知的网页特征中的simhash特征作为增量网页的simhash特征,并将已知的网页特征中的anchors特征作为增量网页的anchors特征。
实际应用时,当已知的网页特征中的第一特征与增量网页的第一特征之间的相似度小于预设阈值时,表征已知的网页特征与增量网页的网页特征之间关于第一特征的差异较大,此时,已知的网页特征与增量网页的网页特征之间关于第二特征的差异通常也会较大。因此,计算引擎302可以利用第二特征对应的特征提取算法,从增量网页的网页数据中提取出第二特征,以此保证所提取的增量网页的第二特征的准确性。
作为一些示例,在计算已知的网页特征的第一特征与增量网页的第一特征之间的相似度时,可以是根据两个第一特征的均值、方差或者特征分布情况(如网页之间的链接跳转情况等)计算得到相似度。其中,已知的网页特征的第一特征的均值、方差或者特征分布情况,可以称之为先验特征,并且基于该先验特征可以确定增量网页(即第二网页)的第二特征。例如,当第一特征具体为TF-IDF特征/pagevalue特征时,计算引擎302可以计算已知的TF-IDF特征/pagevalue特征的均值(或者方差),并计算增量网页的TF-IDF特征/pagevalue特征的均值(或者方差),然后计算两个均值(或者方差)之间的偏差是否位于预设范围,若是,则计算引擎302可以确定两个第一特征之间的相似度大于预设阈值(如95%等),而若不是,则计算引擎302可以确定两个第一特征之间的相似度小于预设阈值。又例如,当第一特征具体为pagerank特征/siterank特征/trustrank特征时,计算引擎302可以计算已知的pagerank特征/siterank特征/trustrank特征的特征分布,以及增量网页的pagerank特征/siterank特征/trustrank特征的特征分布,并根据两个特征分布之间的差异,确定出两个第一特征之间的相似度是否大于预设阈值。
在进一步可能的实施方式中,计算引擎302在利用特征提取算法提取增量网页的第一特征以及利用迁移学习算法计算两个第一特征之间的相似度时,可以根据算法与硬件资源的匹配规则,确定执行该特征提取算法以及迁移学习算法分别对应的硬件资源。其中,计算引擎302获取算法与硬件资源的匹配规则的具体实现过程,以及确定执行算法的硬件资源的具体实现过程,可以参见前述实施例的相关之处描述,在此不做赘述。
S603:特征引擎301将增量网页的网页特征添加至网页特征库中。
此时,每个增量网页对应的网页特征的时间戳,可以是该增量网页的网页特征被添加至网页特征库时的时间戳。并且,增量网页中各个第二网页对应的网页特征可以与该第二网页的标识对应存储于网页特征库,以便后续根据该增量网页特征对应的网页标识,查找出具有该网页特征的网页。
本实施例中,网页搜索***300可以通过调用硬件资源执行相应的特征提取算法,为增量网页构建出相应的增量网页特征库。并且,在计算增量网页的网页特征的过程中,网页搜索***300可以直接将已知的网页特征中的第二特征作为增量网页的第二特征,而可以无需通过执行复杂的计算过程来提取增量网页的第二特征。如此,可以有效提高网页搜索***300生成增量网页的网页特征的效率;并且,利用已有的网页特征,可以对齐已知的网页特征与增量网页的网页特征的量纲和分布,从而可以提高网页搜索***300确定增量网页的网页特征的准确性。并且,网页搜索***300可以通过感知多样化的硬件资源,并为各个算法选取最适合的硬件资源进行执行,从而可以提高提取增量网页的网页特征的效率、减少非必要的资源消耗。
实际应用时,网页搜索***300构建得到全量网页特征库以及增量网页特征库,此时,网页特征库中包括两个网页特征库,分别是用于存储全量网页的网页特征的全量网页特征库以及用于存储增量网页的网页特征的增量网页特征库。或者,网页搜索***300也可以是将全量网页特征库以及增量网页特征库集成为一个网页特征库,即网页搜索***300构建得到全量网页特征库后,可以将增量网页的网页特征添加至该全量网页特征库中。本实施例对此并不进行限定。此外,无论全量网页特征库还是增量网页特征库均可以利用数据库实现,即由数据库实现网页特征的数据存储,本申请对存储网页特征的数据库的类型不做限定,具体实施时,可以根据业务需求进行选择和部署。
进一步地,在网页搜索***300基于全量网页的网页数据以及增量网页的网页数据构建出上述网页特征库后,网页搜索***300可以利用该网页特征库为用户从大量的网页中搜索出符合用户预期的网页。参见图7,示出了本申请实施例提供的一种网页搜索方法,该方法具体可以由网页搜索***300执行。如图7所示,该方法具体可以包括:
S701:网页搜索***300接收搜索请求。
示例性地,当用户需要获取其所需的网页时,可以在客户端或者用户终端上输入用于搜索该网页的检索关键词。比如,当用户需要了解A城市的相关信息时,可以在客户端或者用户终端上输入检索关键词:“A城市”、“简介”等。这样,客户端或者用户终端可以基于用户输入的检索关键词,生成包括该检索关键词的搜索请求,并将其发送给网页搜索***300,以请求网页搜索***300从大量的网页中检索出与该检索关键词相匹配的网页。
S702:网页搜索***300从网页搜索***300已构建的网页特征库中查找与该检索关键词相匹配的网页特征,该网页特征库中包括多个网页的标识以及该多个网页分别对应的网页特征,该网页特征至少包括根据网页中的内容所提取得到的内容特征。
本实施例中,网页搜索***300可以从接收到的搜索请求中解析出检索关键词,并访问预先构建的网页特征库。通常情况下,由于网页特征库中存储的内容特征是根据网页中的数据内容提取得到,因此,网页搜索***300可以通过访问该网页特征库,从中搜索出与该检索关键词相匹配的内容特征。如此,网页搜索***300可以根据该检索关键词,查找出多个网页内容包括该检索关键词的网页。实际应用场景中,包含该检索关键词的网页数量可能仍然较多,而用户所期望浏览的网页数量通常有限,因此,网页搜索***300可以从多个包括该检索关键词的网页中,进一步确定出最终呈现给用户的网页。具体的,网页搜索***300可以根据与该检索关键词相匹配的内容特征,对查找到的多个网页进行计算以及排序,并从中确定出排序靠前的预设数量(如20等)的网页,作为最终呈现给用户的网页。
以内容特征具体为TF-IDF特征为例,每个网页对应的内容特征中,可以包括该网页上的一个或者多个词语对应的TF-IDF值,因此,网页搜索***300可以先从网页特征库中遍历得到具有该检索关键词以及该检索关键词对应的TF-IDF的多个网页(具体可以是遍历得到该多个网页的标识)。然后,网页搜索***300可以根据该多个网页分别包括的检索关键词对应的TD-IDF值的大小,按照由大到小的顺序对该多个网页进行排序,并选取排序靠前的20个网页作为最终呈现给用户的网页。实际应用时,当内容特征同时包括TF-IDF特征、simhash特征、pagevalue特征、keywords特征以及原创指数时,网页搜索***300可以同时根据这些特征对多个网页进行排序。如针对每个网页,网页搜索***300可以分别根据各个特征计算将该网页呈现给用户的评分,并通过加权求和或者计算平均值等方式,计算得到将该网页呈现给用户的最终评分。然后,网页搜索***300可以根据各个网页的最终评分对多个网页分贝进行排序,并选取排序靠前的20个网页作为最终呈现给用户的网页。
进一步的,当网页特征库中存储的网页特征同时包括内容特征以及链接特征时,网页搜索***300可以先从网页特征库中遍历出内容特征与该检索关键词相匹配的多个网页,再根据该多个网页中的各个网页的内容特征以及链接特征,确定最终呈现给用户的网页等。比如,当网页对应的pagevalue值越大以及pagerank值越大时,该网页在多个网页中越优先呈现给用户。
由于增量网页的网页数据的时效性通常较高,因此,在一种可能的实施方式中,当网页特征库中同时包括全量网页特征库以及增量网页特征库时,网页搜索***300可以优先从增量网页特征库中根据检索关键词查找用户所需的网页,若未查找到或者查找到的网页数量较少,则网页搜索***300可以再从全量网页特征库中根据检索关键词进行进一步检索。而若从增量网页特征库中根据检索关键词查找到的网页数量较高(具体可以是大于预设的网页数量阈值),则网页搜索***300可以无需从全量网页特征库中继续进行查询。如此,网页搜索***300可以基于数据量较少的增量网页特征库为用户搜索出其所需的网页,不仅可以提高网页搜索***300搜索用户所需网页的效率,而且也能减少网页搜索***300搜索网页所需的资源消耗。
S703:网页搜索***300输出与该检索关键词相匹配的网页特征对应的网页搜索结果。
本实施例中,网页搜索***300在根据网页特征库查找出与该检索关键词相匹配的网页特征后,可以进一步确定该网页特征对应的网页搜索结果并输出。作为一种实现示例,网页搜索***300所输出的网页搜索结果例如可以是具有该网页特征的网页的标识,这样,网页搜索***300可以将查找出的网页的标识提供给发送搜索请求的客户端或者用户终端,以便客户端或者用户终端根据该网页的标识访问相应的网页,并将访问到的网页呈现给用户。如此,用户可以根据客户端或者用户终端所呈现的网页查阅到其所需的网页内容。
而在另一种实现示例中,网页搜索***300所输出的网页搜索结果例如可以是具有该网页特征的网页上的内容数据,即网页搜索***300在基于网页特征库搜索出具有与检索关键词相匹配的网页特征后,可以先确定具有该网页特征的网页的标识,然后再根据该网页的标识访问该得到该网页对应的网页内容,从而网页搜索***300可以直接向用户所使用的客户端或者用户终端发送给网页内容,以便用户在客户端或者用户终端上查阅到其所需的网页内容。
本实施例中,由于网页对应的网页特征的数据量通常小于网页中的文本数据量,这使得即使网页数据的规模较大,网页搜索***300也能通过查找网页特征库中数据量相对较小的网页特征快速查找出与检索关键词相匹配的网页特征,从而基于该网页特征可以查找出用户所需的网页。如此,可以提高网页搜索结果的效率,从而使得用户100在短时间内获得其所需的网页搜索结果,提高用户的搜索体验。
值得注意的是,本领域的技术人员根据以上描述的内容,能够想到的其他合理的步骤组合,也属于本申请的保护范围内。其次,本领域技术人员也应该熟悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请所必须的。
上文中结合图1至图7,详细描述了本申请所提供的网页搜索方法以及建立网页特征库的方法,下面将结合图8至图9,描述根据本申请所提供的网页搜索装置和计算设备。
图8为本申请提供的一种网页搜索装置的结构示意图。如图8所示,网页搜索装置800可以包括:
通信模块801,用于接收搜索请求,所述搜索请求包括检索关键词;
查找模块802,用于从网页特征库中查找与所述检索关键词相匹配的网页特征,所述网页特征库包括多个网页的标识以及所述多个网页分别对应的网页特征,所述网页特征包括根据网页中的内容提取得到的内容特征;
所述通信模块801,还用于输出与所述检索关键词相匹配的网页特征对应的网页搜索结果。
应理解的是,本发明本申请实施例的网页搜索装置800可以通过CPU或专用集成电路(application-specific integrated circuit,ASIC)实现,或可编程逻辑器件(programmable logic device,PLD)实现,上述PLD可以是复杂程序逻辑器件(complexprogrammable logical device,CPLD),现场可编程门阵列(field-programmable gatearray,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。也可以通过软件实现图1至图7所示的网页搜索方法时,网页搜索装置800及其各个模块也可以为软件模块。
在一种可能的实施方式中,在所述通信模块801接收搜索请求之前,所述装置800还包括:
获取模块803,用于获取全量网页的网页数据,所述全量网页包括第一网页集合,所述第一网页集合包括多个第一网页,所述第一网页为按照第一预设规则获取的网页中任意一个;
提取模块804,用于从所述全量网页的网页数据中提取出所述全量网页对应的网页特征;
添加模块805,用于将所述全量网页对应的网页特征以及所述全量网页的网页数据包括的所述全量网页的标识添加至所述网页特征库。
在一种可能的实施方式中,所述提取模块804,具体用于:
利用特征提取算法从所述全量网页的网页数据中提取出所述全量网页对应的网页特征;所述特征提取算法包括第一算法以及第二算法,所述第一算法用于提取所述网页特征中的第一特征的特征值,所述第二算法用于提取所述网页特征中的第二特征的特征值;
所述装置800还包括:
资源匹配模块806,用于根据所述特征提取算法与硬件资源之间的匹配规则,确定执行所述第一算法的第一硬件资源以及执行所述第二算法的第二硬件资源。
在一种可能的实施方式中,所述装置还包括:
呈现模块807,用于呈现匹配规则配置界面;
所述获取模块803,还用于获取算法与硬件资源的配置操作请求;
所述呈现模块807,还用于根据所述配置操作请求呈现匹配规则,所述匹配规则用于指示不同算法和硬件资源的对应关系。
在一种可能的实施方式中,所述装置800还包括:
获取模块803,用于在所述通信模块接收搜索请求之前,获取已知的网页特征以及增量网页的网页数据,所述增量网页包括第二网页集合,所述第二网页集合包括多个第二网页,所述第二网页为按照第二预设规则获取的网页中任意一个;
提取模块804,用于根据所述已知的网页特征以及所述增量网页的网页数据,利用迁移学习算法计算得到所述增量网页对应的网页特征;
添加模块805,用于将所述增量网页对应的网页特征以及所述增量网页的网页数据包括的所述增量网页的标识添加至所述网页特征库。
在一种可能的实施方式中,所述网页特征包括第一特征以及第二特征,所述提取模块804,具体用于:
计算所述已知的网页特征中的第一特征的特征值与所述增量网页对应的网页特征中的第一特征的特征值之间的相似度;
当所述相似度大于预设阈值时,将所述已知的网页特征中的第二特征的特征值,确定为所述增量网页对应的网页特征中的第二特征的特征值。
在一种可能的实施方式中,所述装置800还包括:
资源匹配模块806,用于根据算法与硬件资源之间的匹配规则,确定执行所述迁移学习算法的硬件资源。
在一种可能的实施方式中,所述网页特征还包括根据网页中的链接提取得到的链接特征。
在一种可能的实施方式中,其特征在于,所述网页特征库包括全量网页特征库和/或增量网页特征库。
根据本申请实施例的网页搜索装置800可对应于执行本申请实施例中描述的方法,并且网页搜索装置800的各个模块的上述和其它操作和/或功能分别为了实现图3、图6以及图7中的各个方法的相应流程,为了简洁,在此不再赘述。
图9为本申请提供的一种计算设备900的示意图,如图所示,所述计算设备900包括处理器901、存储器902、通信接口903。其中,处理器901、存储器902、通信接口903通过总线904进行通信,也可以通过无线传输等其他手段实现通信。该存储器902用于存储指令,该处理器901用于执行该存储器902存储的指令。进一步的,计算设备900还可以包括内存单元905,还内存单元905可以通过总线904与处理器901、存储介质902以及通信接口903连接。其中,该存储器902存储程序代码,且处理器901可以调用存储器902中存储的程序代码执行以下操作:
接收搜索请求,所述搜索请求包括检索关键词;
从网页特征库中查找与所述检索关键词相匹配的网页特征,所述网页特征库包括多个网页的标识以及所述多个网页分别对应的网页特征,所述网页特征包括根据网页中的内容提取得到的内容特征;
输出与所述检索关键词相匹配的网页特征对应的网页搜索结果。
应理解,在本申请实施例中,该处理器901可以是CPU,该处理器901还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立器件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。
该存储器902可以包括只读存储器和随机存取存储器,并向处理器901提供指令和数据。存储器902还可以包括非易失性随机存取存储器。例如,存储器902还可以存储设备类型的信息。
该存储器902可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlinkDRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
该通信接口903用于与计算设备900连接的其它设备进行通信。该总线904除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线904。
应理解,根据本申请实施例的计算设备900可对应于本申请实施例中的网页搜索装置800,并可以对应于执行根据本申请实施例中图3、图6以及图7所示方法中的相应主体,并且计算设备900所实现的上述和其它操作和/或功能分别为了实现图3、图6以及图7中的各个方法的相应流程,为了简洁,在此不再赘述。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘(solid state drive,SSD)
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (20)

1.一种网页搜索方法,其特征在于,所述方法包括:
接收搜索请求,所述搜索请求包括检索关键词;
从网页特征库中查找与所述检索关键词相匹配的网页特征,所述网页特征库包括多个网页的标识以及所述多个网页分别对应的网页特征,所述网页特征包括根据网页中的内容提取得到的内容特征;
输出与所述检索关键词相匹配的网页特征对应的网页搜索结果。
2.根据权利要求1所述的方法,其特征在于,在所述接收搜索请求之前,所述方法还包括:
获取全量网页的网页数据,所述全量网页包括第一网页集合,所述第一网页集合包括多个第一网页,所述第一网页为按照第一预设规则获取的网页中任意一个;
从所述全量网页的网页数据中提取出所述全量网页对应的网页特征;
将所述全量网页对应的网页特征以及所述全量网页的网页数据包括的所述全量网页的标识添加至所述网页特征库。
3.根据权利要求2所述的方法,其特征在于,所述从所述全量网页的网页数据中提取出所述全量网页对应的网页特征,包括:
利用特征提取算法从所述全量网页的网页数据中提取出所述全量网页对应的网页特征;所述特征提取算法包括第一算法以及第二算法,所述第一算法用于提取所述网页特征中的第一特征的特征值,所述第二算法用于提取所述网页特征中的第二特征的特征值;
所述方法还包括:
根据所述特征提取算法与硬件资源之间的匹配规则,确定执行所述第一算法的第一硬件资源以及执行所述第二算法的第二硬件资源。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
呈现匹配规则配置界面;
获取算法与硬件资源的配置操作请求;
根据所述配置操作请求呈现匹配规则,所述匹配规则用于指示不同算法和硬件资源的对应关系。
5.根据权利要求1所述的方法,其特征在于,在所述接收搜索请求之前,所述方法还包括:
获取已知的网页特征以及增量网页的网页数据,所述增量网页包括第二网页集合,所述第二网页集合包括多个第二网页,所述第二网页为按照第二预设规则获取的网页中任意一个;
根据所述已知的网页特征以及所述增量网页的网页数据,利用迁移学习算法计算得到所述增量网页对应的网页特征;
将所述增量网页对应的网页特征以及所述增量网页的网页数据包括的所述增量网页的标识添加至所述网页特征库。
6.根据权利要求5所述的方法,其特征在于,所述网页特征包括第一特征以及第二特征,所述根据所述已知的网页特征以及所述增量网页的网页数据,利用迁移学习算法计算得到所述增量网页对应的网页特征,包括:
计算所述已知的网页特征中的第一特征的特征值与所述增量网页对应的网页特征中的第一特征的特征值之间的相似度;
当所述相似度大于预设阈值时,将所述已知的网页特征中的第二特征的特征值,确定为所述增量网页对应的网页特征中的第二特征的特征值。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据算法与硬件资源之间的匹配规则,确定执行所述迁移学习算法的硬件资源。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述网页特征还包括根据网页中的链接提取得到的链接特征。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述网页特征库包括全量网页特征库和/或增量网页特征库。
10.一种网页搜索装置,其特征在于,所述装置包括:
通信模块,用于接收搜索请求,所述搜索请求包括检索关键词;
查找模块,用于从网页特征库中查找与所述检索关键词相匹配的网页特征,所述网页特征库包括多个网页的标识以及所述多个网页分别对应的网页特征,所述网页特征包括根据网页中的内容提取得到的内容特征;
所述通信模块,还用于输出与所述检索关键词相匹配的网页特征对应的网页搜索结果。
11.根据权利要求10所述的装置,其特征在于,在所述通信模块接收搜索请求之前,所述装置还包括:
获取模块,用于获取全量网页的网页数据,所述全量网页包括第一网页集合,所述第一网页集合包括多个第一网页,所述第一网页为按照第一预设规则获取的网页中任意一个;
提取模块,用于从所述全量网页的网页数据中提取出所述全量网页对应的网页特征;
添加模块,用于将所述全量网页对应的网页特征以及所述全量网页的网页数据包括的所述全量网页的标识添加至所述网页特征库。
12.根据权利要求11所述的装置,其特征在于,所述提取模块,具体用于:
利用特征提取算法从所述全量网页的网页数据中提取出所述全量网页对应的网页特征;所述特征提取算法包括第一算法以及第二算法,所述第一算法用于提取所述网页特征中的第一特征的特征值,所述第二算法用于提取所述网页特征中的第二特征的特征值;
所述装置还包括:
资源匹配模块,用于根据所述特征提取算法与硬件资源之间的匹配规则,确定执行所述第一算法的第一硬件资源以及执行所述第二算法的第二硬件资源。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
呈现模块,用于呈现匹配规则配置界面;
所述获取模块,还用于获取算法与硬件资源的配置操作请求;
所述呈现模块,还用于根据所述配置操作请求呈现匹配规则,所述匹配规则用于指示不同算法和硬件资源的对应关系。
14.根据权利要求10所述的装置,其特征在于,所述装置还包括:
所述获取模块,用于在所述通信模块接收搜索请求之前,获取已知的网页特征以及增量网页的网页数据,所述增量网页包括第二网页集合,所述第二网页集合包括多个第二网页,所述第二网页为按照第二预设规则获取的网页中任意一个;
提取模块,用于根据所述已知的网页特征以及所述增量网页的网页数据,利用迁移学习算法计算得到所述增量网页对应的网页特征;
添加模块,用于将所述增量网页对应的网页特征以及所述增量网页的网页数据包括的所述增量网页的标识添加至所述网页特征库。
15.根据权利要求14所述的装置,其特征在于,所述网页特征包括第一特征以及第二特征,所述提取模块,具体用于:
计算所述已知的网页特征中的第一特征的特征值与所述增量网页对应的网页特征中的第一特征的特征值之间的相似度;
当所述相似度大于预设阈值时,将所述已知的网页特征中的第二特征的特征值,确定为所述增量网页对应的网页特征中的第二特征的特征值。
16.根据权利要求15所述的装置,其特征在于,所述装置还包括:
资源匹配模块,用于根据算法与硬件资源之间的匹配规则,确定执行所述迁移学习算法的硬件资源。
17.根据权利要求10至16中任一项所述的装置,其特征在于,所述网页特征还包括根据网页中的链接提取得到的链接特征。
18.根据权利要求10至17中任一项所述的装置,其特征在于,所述网页特征库包括全量网页特征库和/或增量网页特征库。
19.一种计算设备,其特征在于,包括处理器和存储器;所述存储器,用于存储计算机指令;所述处理器,用于根据所述计算机指令执行如权利要求1至9任一项所述方法的操作步骤。
20.一种计算机可读存储介质,其特征在于,包括指令,所述指令用于实现如权利要求1至9中任一项所述方法的操作步骤。
CN202110866859.0A 2021-07-29 2021-07-29 网页搜索方法、装置及相关设备 Pending CN115687810A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110866859.0A CN115687810A (zh) 2021-07-29 2021-07-29 网页搜索方法、装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110866859.0A CN115687810A (zh) 2021-07-29 2021-07-29 网页搜索方法、装置及相关设备

Publications (1)

Publication Number Publication Date
CN115687810A true CN115687810A (zh) 2023-02-03

Family

ID=85059513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110866859.0A Pending CN115687810A (zh) 2021-07-29 2021-07-29 网页搜索方法、装置及相关设备

Country Status (1)

Country Link
CN (1) CN115687810A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116527372A (zh) * 2023-05-16 2023-08-01 深圳建安润星安全技术有限公司 基于互联网的数据安全交互***及方法
CN117540113A (zh) * 2023-11-27 2024-02-09 南京联迪信息***股份有限公司 一种地理位置信息搜索方法、***、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116527372A (zh) * 2023-05-16 2023-08-01 深圳建安润星安全技术有限公司 基于互联网的数据安全交互***及方法
CN116527372B (zh) * 2023-05-16 2023-12-15 深圳建安润星安全技术有限公司 基于互联网的数据安全交互***及方法
CN117540113A (zh) * 2023-11-27 2024-02-09 南京联迪信息***股份有限公司 一种地理位置信息搜索方法、***、设备及存储介质

Similar Documents

Publication Publication Date Title
US10452691B2 (en) Method and apparatus for generating search results using inverted index
JP7343568B2 (ja) 機械学習のためのハイパーパラメータの識別および適用
Serafino et al. True scale-free networks hidden by finite size effects
CN109783651B (zh) 提取实体相关信息的方法、装置、电子设备和存储介质
US11314823B2 (en) Method and apparatus for expanding query
CN108304444B (zh) 信息查询方法及装置
CN109885773B (zh) 一种文章个性化推荐方法、***、介质及设备
KR101656245B1 (ko) 문장 추출 방법 및 시스템
CN109241403B (zh) 项目推荐方法、装置、机器设备和计算机可读存储介质
CN102171689A (zh) 响应于搜索查询提供针对讨论话题的帖子
CN111259220B (zh) 一种基于大数据的数据采集方法和***
CN104133877A (zh) 软件标签的生成方法和装置
Sisodia et al. Fast prediction of web user browsing behaviours using most interesting patterns
CN115687810A (zh) 网页搜索方法、装置及相关设备
Fageeri et al. An efficient log file analysis algorithm using binary-based data structure
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
Li [Retracted] Internet Tourism Resource Retrieval Using PageRank Search Ranking Algorithm
Oo Pattern discovery using association rule mining on clustered data
CN113961811B (zh) 基于事件图谱的话术推荐方法、装置、设备及介质
Poornalatha et al. Web sessions clustering using hybrid sequence alignment measure (HSAM)
CN116822491A (zh) 日志解析方法及装置、设备、存储介质
CN114461606A (zh) 数据存储方法、装置、计算机设备及存储介质
CN110580317B (zh) 社交信息分析方法、装置、终端设备及存储介质
Ma et al. Api prober–a tool for analyzing web api features and clustering web apis
CN113868373A (zh) 一种词云生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination