CN113449168A - 主题网页数据抓取方法、装置、设备及存储介质 - Google Patents

主题网页数据抓取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113449168A
CN113449168A CN202110793519.XA CN202110793519A CN113449168A CN 113449168 A CN113449168 A CN 113449168A CN 202110793519 A CN202110793519 A CN 202110793519A CN 113449168 A CN113449168 A CN 113449168A
Authority
CN
China
Prior art keywords
link
links
grabbed
target
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110793519.XA
Other languages
English (en)
Other versions
CN113449168B (zh
Inventor
史延涛
谢永恒
火一莽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN202110793519.XA priority Critical patent/CN113449168B/zh
Publication of CN113449168A publication Critical patent/CN113449168A/zh
Priority to PCT/CN2022/104188 priority patent/WO2023284612A1/zh
Application granted granted Critical
Publication of CN113449168B publication Critical patent/CN113449168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了主题网页数据抓取方法、装置、设备及存储介质。该方法包括:根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接;获取待抓取链接对应的网页内容;根据内容相关度和链接相关度从待抓取链接中筛选目标链接,并将目标链接作为搜索结果进行反馈。采用上述技术方案,通过将网页内容和网页链接结合,判断内容相关度和链接相关度,进而从待抓取链接中筛选出目标链接,可以达到提高搜索精准度,提升搜索效率的技术效果。

Description

主题网页数据抓取方法、装置、设备及存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及主题网页数据抓取方法、装置、设备及存储介质。
背景技术
互联网作为一个庞大的数据集合,网络信息资源数据呈指数增加,如何有效地根据用户的搜索查询将庞大的数据分为相关和不相关数据,并将相关的数据进行展示,是现在的研究方向。
当用户使用传统搜索引擎进行检索时,只能提供粗略的检索结果,且传统的基于网页内容评价的搜索策略往往会忽略网页间链接的相关性,而基于链接分析的搜索策略忽略了网页正文内容,容易造成“主题漂移”现象。
传统的搜索策略存在自动搜索不精准,抓取网页数据速度较慢的问题。
发明内容
本发明实施例提供了主题网页数据抓取方法、装置、设备及存储介质,可以优化现有的主题网页数据抓取方案。
第一方面,本发明实施例提供了一种主题网页数据抓取方法,包括:根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取待抓取链接;获取待抓取链接对应的网页内容;根据内容相关度和链接相关度从待抓取链接中筛选目标链接,并将所述目标链接作为搜索结果进行反馈,其中,所述内容相关度根据所述网页内容和所述目标主题确定,所述链接相关度根据待抓取链接和所述目标主题确定。
第二方面,本发明实施例提供了一种主题网页数据抓取装置,包括:待抓取链接选取模块,用于根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取待抓取链接;网页内容获取模块,用于获取待抓取链接对应的网页内容;目标链接筛选模块,用于根据内容相关度和链接相关度从待抓取链接中筛选目标链接,并将所述目标链接作为搜索结果进行反馈,其中,所述内容相关度根据所述网页内容和所述目标主题确定,所述链接相关度根据待抓取链接和所述目标主题确定。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例提供的主题网页数据抓取方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的主题网页数据抓取方法。
本发明实施例中提供的主题网页数据抓取方案,首先根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接;然后根据待抓取链接获取对应的网页内容;最后根据内容相关度和链接相关度从待抓取链接中筛选目标链接,并将目标链接作为搜索结果进行反馈。采用上述技术方案,通过将网页内容和网页链接结合,判断内容相关度和链接相关度,进而从待抓取链接中筛选出目标链接,可以达到提高搜索精准度,提升搜索效率的技术效果。
附图说明
图1为本发明实施例提供的一种主题网页数据抓取方法的流程示意图;
图2为本发明实施例提供的又一种主题网页数据抓取方法的流程示意图;
图3为本发明实施例提供的一种主题网页数据抓取装置的结构框图;
图4为本发明实施例提供的一种计算机设备的结构框图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例提供的一种主题网页数据抓取方法的流程示意图,该方法可以由主题网页数据抓取装置执行,其中该装置可由软件和/或硬件实现,一般可集成在服务器等计算机设备中。如图1所示,该方法包括:
S110、根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接。
根据用户输入的搜索内容确定目标主题可以理解为,用户需要在搜索引擎上进行搜索时所输入的文字信息,并根据当前文字信息确定目标主题,可以将当前文字信息直接确定为目标主题,也可对当前文字信息进行语义分析后得到相应的目标主题。该目标主题可以为词语、句子或者一段文字等信息,在此不作限制。
当用户在搜索引擎的输入框中输入搜索内容时,搜索引擎会展示出与目标主题相关的网页界面。需要知道的是,在服务器中存储有大量关于数据信息的网页链接(UniformResource Locator,简称URL),且每一网页界面与网页链接一一对应。因此,在对与目标主题相关的网页界面展示之前,服务器需要判断将与目标主题相关的哪些网页界面进行展示。
进一步地,当使用搜索引擎进行搜索时,为便于对产生的大量关于数据信息的网页链接进行管理,可根据网页链接的状态进行分开管理。例如,若当前链接历史时间段内被成功抓取过,则存放入已抓取队列;若当前链接未被抓取过,则存放入待抓取队列;若当前链接历史时间段内被抓取过,但抓取失败,则存放入错误队列。
需要说明的是,判断上述链接抓取成功或者抓取失败的依据可以为,链接被抓取后是否成功展示对应的网页界面,若成功展示对应的网页界面则认为当前链接被成功抓取;若在链接抓取时抓取超时,即在预设时间内没有展示对应的网页界面,或是返回结果为空,即对应的网页界面无内容,则认为当前链接抓取失败。
当用户进行目标主题的搜索时,基于预设搜索策略从待抓取链接队列中选取待抓取链接的方式可以为,当判断到网页链接对应的关键字或关键词的词条信息与目标主题相关时,均可作为待抓取链接。其中,待抓取链接可以为一个或者多个,在此不作限制。
示例性的,若目标主题为“天气预报”时,则预设搜索策略可以为待抓取链接中包含有与“天气”有关信息词条,则待抓取链接对应的网页界面可以为“A市一周天气预报”、“A市未来15天天气预报”以及“天气-百度百科”等。
S120、获取待抓取链接对应的网页内容。
通过对待抓取链接对应的网页界面进行解析,可获得对应的网页内容。其获得网页内容的方式可以为:采用超文本标记语言(Hyper Text Markup Language,简称HTML)的方式对当前网页中的重要信息链接以及文本进行提取。还可在服务器内部设置相关计算机程序代码,可通过代码将目标主题解析为关键字或关键词信息,从而提取与关键字或关键词信息有关的网页内容,具体提取方式在此不作限制。
S130、根据内容相关度和链接相关度从待抓取链接中筛选目标链接,并将目标链接作为搜索结果进行反馈。
对多个待抓取链接分别从内容相关度以及链接相关度两个维度分析,综合判断得到目标链接。其中,内容相关度根据网页内容和目标主题确定,链接相关度根据待抓取链接和目标主题确定。
具体地,根据网页内容和目标主题确定内容相关度的方式可以为,通过提取网页内容中的关键字或关键词信息与目标主题的关键字或关键词进行比对,或者对待抓取链接对应的网页内容中的关键字或关键词信息进行统计,将统计数量由高到低进行依次排序,关键字或关键词越多的,相关度越高,从而筛选得到内容相关度较高的待抓取链接。
在筛选得到内容相关度较高的待抓取链接的基础上,进一步通过待抓取链接和目标主题确定链接相关度,确定链接相关度的方式可以为通过链接地址携带的关键字或关键词信息与目标主题的关键字或关键词进行匹配比对,或通过类别关系及复杂关系计算等搜索策略,确定与主题的相关度高低,从而可在内容相关度较高的待抓取链接中得到链接相关度较高的待抓取链接,并将当前链接相关度较高顺序排位在顺位第一的待抓取链接当作目标链接。
从而将目标链接进行反馈后,可向用户展示与目标链接相关的网页界面。本发明实施例通过判断待抓取链接与目标主题的内容相关度和链接相关度,并通过结合基于内容评价算法和基于链接分析算法从页面内容和页面间的链接关系两个方面进行考虑,将网页文本内容和网页链接结合使用、取长补短,从而计算出页面内容与主题间的相关性,尽可能择优判断与筛选出与主题相关的页面,增强准确率。
本发明实施例中提供的主题网页数据抓取方法,首先根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接;然后根据待抓取链接获取对应的网页内容;最后根据内容相关度和链接相关度从待抓取链接中筛选目标链接,并将目标链接作为搜索结果进行反馈。采用上述技术方案,通过将网页内容和网页链接结合,判断内容相关度和链接相关度,进而从待抓取链接中筛选出目标链接,可以达到提高搜索精准度,提升搜索效率的技术效果。
实施例二
本发明实施例在上述实施例的基础上进行了优化,优化了所述获取待抓取链接对应的网页内容步骤,包括:模拟客户端向对应的服务端发送待抓取链接对应的访问请求,并根据接收到的访问响应下载待抓取链接对应的网页文件;对所述网页文件进行解析,以提取所述网页文件中的网页内容,其中,所述网页内容中包括链接信息和文本信息。这样设置的好处在于通过对待抓取链接对应的网页文件进行下载,可精准解析对应的网页内容。
进一步的,所述根据内容相关度和链接相关度从待抓取链接中筛选目标链接步骤,包括:对于所有待抓取链接,根据所述网页内容中的文本信息和所述目标主题确定内容相关度,若内容相关度不满足预设内容相关度要求,则将对应的待抓取链接存入已抓取队列;对于满足预设内容相关度要求的待抓取链接,根据所述网页内容中的链接信息和所述目标主题确定链接相关度,若链接相关度不满足预设链接相关度要求,则将对应的待抓取链接存入已抓取队列;将满足预设链接相关度要求的待抓取链接按照内容相关度和链接相关度进行排序,根据排序结果筛选出目标链接。这样设置的好处在于通过筛选满足内容相关度以及链接相关度两个维度的待抓取链接作为目标链接,可提高获取目标链接的精准度。
图2为本发明实施例提供的又一种主题网页数据抓取方法的流程示意图,该方法以网页搜索作为应用场景为例进行说明,具体的,该方法包括如下步骤:
S210、根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接。
S220、模拟客户端向对应的服务端发送待抓取链接对应的访问请求,并根据接收到的访问响应下载待抓取链接对应的网页文件。
在获取网页内容之前,需要在服务器内部模拟客户端向对应的服务端发送待抓取链接对应的访问请求,该访问请求可包括对待抓取链接的访问请求方法、访问请求标识及当前服务器内的通信协议等。在服务器端接收到该访问请求并进行响应后,对应下载待抓取链接对应的网页文件,从而完成根据目标主题对待抓取链接对应网页文件的自动抓取工作。同时,为了确保对待抓取链接的正常工作和效率,防止抓取同一网页,在网页获取模块中设定超时机制,超过一定抓取时间的网页将被舍弃。
可选地,可针对每个待抓取链接依次进行模拟访问,分别下载待抓取链接对应的网页文件。为增快网页内容获取效率,还可针对当前所有的待抓取链接,进行统一模拟访问,则可下载获得多个待抓取链接对应的网页文件,具体下载网页文件的方式在此不作限制。
S230、对网页文件进行解析,以提取网页文件中的网页内容。
服务器分别对下载的每一网页文件进行解析,从而提取网页文件中的网页内容。其中,网页内容中包括链接信息和文本信息。
所述链接信息可以为当前网页对应的网页链接或网页地址,也可以为待抓取链接对应的网页里的超链接。文本信息为当前网页中所包含的文本内容,可以为文本标题信息、一段文字信息或者网页内容中包含的全部文字信息等,在此不作限制。
S240、对于所有待抓取链接,根据网页内容中的文本信息和目标主题确定内容相关度,若内容相关度不满足预设内容相关度要求,则将对应的待抓取链接存入已抓取队列。
对于所有待抓取链接,提取对应的网页内容中的文本信息,并计算与目标主题的内容相关度,针对每一待抓取链接计算后,均可得到对应的网页内容中的文本信息与目标主题的相关度的相关数值。例如,当前待抓取链接与目标主题的内容相关度为20%、50%或80%等,也可将该相关度的相关数值划分为相关等级,例如将数值在10%以下的划分为不相关、数值在10%-40%划分为一般相关、40%-70%划分为中度相关以及70%以上划分为重度相关等。
相应地,预设内容相关度要求可以为选取内容相关度数值在40%以上,或者相关度等级为中度相关以及重度相关的待抓取连接进行进一步分析。由于对所有待抓取链接已进行内容相关度计算,则可认为所有待抓取链接均为已成功抓取的连接,则可将对应内容相关度数值在40%以下或者相关度等级为不相关以及一般相关的待抓取链接存入已抓取队列。
需要说明的是,具体内容相关度的数值或者相关度等级的设定根据开发人员实际需求而定,在此不作限制。
优选地,根据网页内容中的文本信息和目标主题确定内容相关度,包括:对网页内容中的文本信息进行预处理,得到机器语言模型数据,根据机器语言模型数据和目标主题确定内容相关度,其中,预处理包括文本分词、去除停用词和词干化中的至少一个。
对网页内容中的文本信息进行预处理时,可使用文本分词、去除停用词和词干化中的至少一个算法进行预处理。其中,文本分词算法是有利于文本的挖掘。可根据当前网页内容中的文本信息,将其成功的进行分词,可以达到识别语义的效果。去除停用词(StopWords)在当前网页内容中的文本信息中,为节省对文本信息中关键字或关键词的识别效率,在对文本信息进行识别之前或之后会自动过滤掉某些字或词,例如,可以为限定词、量词或者介词等。词干化算法为对当前网页内容中的文本信息进行分词之后,将剩余词语的一些名词的复数去掉,动词的不同时态去掉等。
除可使用以上算法对网页内容中的文本信息进行预处理外,还可通过从网页内容中的文本信息中抽取关键词,计算所抽取的关键词与目标主题的语义相似度,针对抽取的关键词进行频率统计,根据频率统计结果和语义相似度确定内容相关度。
其中,计算与目标主题的语义相似度可将关键词与目标主题使用匹配策略、类别关系策略和复杂关系计算等多种策略计算获得。例如,当用户输入的目标主题为“A省旅游攻略”时,则在进行语义相似度计算时,关于“A省-百度百科”、“A省自驾游攻略”以及“A省旅游必去景点”等均与目标主题相似,则可对应得到相似度数值。
进一步地,对当前网页内容中的文本信息抽取的关键词进行频率统计后,可针对当前统计数值进行依次排序,则频率统计数值越大,语义相似度越高的网页内容中的文本信息与目标主题内容相关度越高。
可选地,可选取内容相关度排序在顺序前几位(例如,前10位)的网页内容对应的待抓取链接进行下一维度关于链接相关度的判断,也可选取内容相关度大于一定数值(例如,大于百分之七十)的网页内容对应的待抓取链接进行下一维度关于链接相关度的判断,在此不作限制。
S250、对于满足预设内容相关度要求的待抓取链接,根据网页内容中的链接信息和目标主题确定链接相关度,若链接相关度不满足预设链接相关度要求,则将对应的待抓取链接存入已抓取队列。
在满足预设内容相关度要求的待抓取链接的基础上,进一步根据网页内容中的链接信息和目标主题确定链接相关度。链接可以由:协议类型,主机名和路径及文件名等信息组成,则可通过链接中携带的关键字相关的词条信息进行相关度判断。
其中,链接相关度是否满足预设链接相关度要求的判断过程与判断是否满足内容相关度要求的过程相同,在此不再赘述。经过判断后,将再次筛选后不满足预设链接相关度要求的待抓取链接也存入已抓取队列中。
S260、将满足预设链接相关度要求的待抓取链接,按照内容相关度和链接相关度进行排序,根据排序结果筛选出目标链接。
根据S240判断得到符合内容相关度的第一数量的待抓取链接,根据S250在符合内容相关度的基础上得到符合链接相关度的第二数量的待抓取链接。其中,第二数量小于第一数量,进一步从满足第二数量的待抓取链接中筛选出目标连接。
一种可选方案,按照内容相关度和链接相关度进行排序,根据排序结果筛选出目标链接包括:根据内容相关度和链接相关度确定各链接对应的综合相关度;按照综合相关度由高至低的顺序进行排序,将综合相关度大于第一预设综合相关度阈值的链接或者综合相关度排序序号小于第一预设序号的链接确定为目标链接。
可选地,根据内容相关度和链接相关度确定各链接对应的综合相关度时,可根据当前链接分别得到的内容相关度的数值和链接相关度的数值进行加和得到,也可根据为当前内容相关度与链接相关度分配权重(例如,内容相关度占比60%,链接相关度占比40%)得到等,在此不作限制。
从而,可将综合相关度大于第一预设综合相关度阈值的链接或者综合相关度排序序号小于第一预设序号的链接确定为目标链接。
相应地,也可直接将计算得到的综合相关度数值顺序排位第一的链接确定为目标链接。
另一种可选方案,在将通过上述方案得到的目标链接进行反馈后,用户在得到对应的网页内容不满意时,本发明实施例还提供一种可选方案,按照内容相关度和链接相关度进行排序,根据排序结果筛选出目标链接,还可以包括:将综合相关度小于或等于第一预设综合相关度阈值且大于第二预设综合相关度阈值的链接,或者,综合相关度排序序号大于或等于第一预设序号且小于第二预设序号的链接,确定为候选链接;根据用户输入的新的搜索内容确定新的目标主题;若新的目标主题与目标主题相同,则从候选链接中筛选新的目标链接,并将新的目标链接作为本次的搜索结果进行反馈。
即在对待候选链接进行综合相关度排序后,可将满足综合相关度小于或等于第一预设综合相关度阈值且大于第二预设综合相关度阈值(例如70%)的链接,或者,综合相关度排序序号大于或等于第一预设序号且小于第二预设序号(例如,10)的链接,确定为候选链接。重新根据当前目标主题,从候选链接中进行筛选,筛选出新的目标链接,并将新的目标链接作为本次的搜索结果进行反馈。
另一种可选方案,在将计算得到的综合相关度数值顺序排位第一的链接确定为目标链接进行反馈,若用户在得到对应的网页内容不满意时,也可将综合相关度顺序排位第二的链接作为新的目标链接进行反馈等。
S270、将目标链接作为搜索结果进行反馈。
当将目标链接作为搜索结果进行反馈后,则可将当前链接存入已抓取队列,并将目标链接对应的网页内容包含的信息通过文件或数据库的形式存储起来,从而为搜索引擎完成检索功能做好准备。
本申请实施例还提供了一种可选方案,基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接包括:基于预设搜索策略从目标主题对应的待抓取链接队列中选取候选待抓取链接;判断候选待抓取链接中是否包含目标候选待抓取链接,若包含,则将候选待抓取链接中包含的目标候选待抓取链接进行滤除,得到待抓取链接。其中,目标候选待抓取链接包括在最近的预设时长内被确定为待抓取链接的次数超过预设次数阈值的候选待抓取链接。
当用户基于与目标主题相似的内容再次进行检索时,在数据安全角度,为了确保自动搜索正常工作和工作效率,若多次抓取同一网页,会产生相应的预警机制,因此,需要对当前抓取次数已经超过预设次数阈值的目标候选待抓取链接进行过滤。
首先基于预设搜索策略从目标主题对应的待抓取链接队列中选取候选待抓取链接;然后判断候选待抓取链接中是否包含目标候选待抓取链接,其中,目标候选待抓取链接可以理解为曾经已被抓取过但其对应的网页内容用户不满意,或者当前抓取次数已经超过预设次数阈值的链接。因此,需要对候选待抓取链接中包含的目标候选待抓取链接进行滤除,将除过目标候选待抓取链接后,剩余的链接称为待抓取链接。
本发明实施例提供的主题网页数据抓取方法,通过优化与合理制定搜索策略,对网页内容中的文本信息进行预处理,将文本内容转换为机器语言模型,并通过对待抓取链接进行网页分析、筛选等,解决了目标链接与目标主题以及目标页面内容与目标主题相关性的判断,提高了搜索引擎根据目标主题搜索时的查准率、查全率及有效率。在搜索引擎抓取目标链接之前,通过判断待抓取链接与目标主题的内容相关度和链接相关度,使自动索引***尽可能多地筛选出和主题相关的网页界面,减少无关网页建模,从而使目标主题进行自动索引时返回的结果具有较高的准确率。相比较传统的搜索方法,能够精准地获取有效信息的特性。
实施例三
图3为本发明实施例提供的一种主题网页数据抓取装置的结构框图,该装置可由软件和/或硬件实现,一般可集成在服务器等计算机设备中,可通过执行主题网页数据抓取方法来进行主题网页数据抓取。如图3所示,该装置包括:待抓取链接选取模块31、网页内容获取模块32和目标链接筛选模块33,其中:
待抓取链接选取模块31,用于根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取待抓取链接;
网页内容获取模块32,用于获取待抓取链接对应的网页内容;
目标链接筛选模块33,用于根据内容相关度和链接相关度从待抓取链接中筛选目标链接,并将所述目标链接作为搜索结果进行反馈,其中,所述内容相关度根据所述网页内容和所述目标主题确定,所述链接相关度根据待抓取链接和所述目标主题确定。
本发明实施例中提供的主题网页数据抓取装置,首先根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接;然后根据待抓取链接获取对应的网页内容;最后根据内容相关度和链接相关度从待抓取链接中筛选目标链接,并将目标链接作为搜索结果进行反馈。采用上述技术方案,通过将网页内容和网页链接结合,判断内容相关度和链接相关度,进而从待抓取链接中筛选出目标链接,可以达到提高搜索精准度,提升搜索效率的技术效果。
可选的,网页内容获取模块32包括:网页文件下载单元和网页内容提取单元;
网页文件下载单元,用于模拟客户端向对应的服务端发送待抓取链接对应的访问请求,并根据接收到的访问响应下载待抓取链接对应的网页文件。
网页内容提取单元,用于对所述网页文件进行解析,以提取所述网页文件中的网页内容,其中,所述网页内容中包括链接信息和文本信息。
可选地,目标链接筛选模块33包括:内容相关度确定单元、链接相关度确定单元、抓取链接存储单元和目标链接筛选单元;
内容相关度确定单元,用于对于所有待抓取链接,根据所述网页内容中的文本信息和所述目标主题确定内容相关度,若内容相关度不满足预设内容相关度要求,则将对应的待抓取链接存入已抓取队列。
链接相关度确定单元,用于链接相关度确定单元,用于对于满足预设内容相关度要求的待抓取链接,根据所述网页内容中的链接信息和所述目标主题确定链接相关度,若链接相关度不满足预设链接相关度要求,则将对应的待抓取链接存入已抓取队列。
目标链接筛选单元,用于将满足预设链接相关度要求的待抓取链接,按照内容相关度和链接相关度进行排序,根据排序结果筛选出目标链接。
可选地,链接相关度确定单元,还用于对所述网页内容中的文本信息进行预处理,得到机器语言模型数据,根据机器语言模型数据和所述目标主题确定内容相关度,其中,所述预处理包括文本分词、去除停用词和词干化中的至少一个;和/或,从所述网页内容中的文本信息中抽取关键词,计算所抽取的关键词与所述目标主题的语义相似度,针对所述抽取的关键词进行频率统计,根据频率统计结果和所述语义相似度确定内容相关度。
可选地,目标链接筛选单元包括:综合相关度确定子单元和目标链接确定子单元;
综合相关度确定单元,用于根据内容相关度和链接相关度确定各链接对应的综合相关度。
目标链接确定单元,用于按照综合相关度由高至低的顺序进行排序,将综合相关度大于第一预设综合相关度阈值的链接或者综合相关度排序序号小于第一预设序号的链接确定为目标链接。
可选地,目标链接筛选单元还包括:候选链接确定子单元、目标主题确定子单元和目标链接反馈子单元;
候选链接确定子单元,用于将综合相关度小于或等于所述第一预设综合相关度阈值且大于第二预设综合相关度阈值的链接,或者,综合相关度排序序号大于或等于所述第一预设序号且小于第二预设序号的链接,确定为候选链接。
目标主题确定子单元,用于根据用户输入的新的搜索内容确定新的目标主题。
目标链接反馈子单元,用于若所述新的目标主题与所述目标主题相同,则从所述候选链接中筛选新的目标链接,并将所述新的目标链接作为本次的搜索结果进行反馈。
可选地,待抓取链接选取模块31包括:候选待抓取链接选取单元和目标候选待抓取链接滤除单元;
候选待抓取链接选取单元,用于基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取候选待抓取链接。
目标候选待抓取链接滤除单元,用于判断所述候选待抓取链接中是否包含目标候选待抓取链接,若包含,则将所述候选待抓取链接中包含的目标候选待抓取链接进行滤除,得到待抓取链接;其中,所述目标候选待抓取链接包括在最近的预设时长内被确定为待抓取链接的次数超过预设次数阈值的候选待抓取链接。
本发明实施例提供的主题网页数据抓取装置,可执行本发明任意实施例所提供的主题网页数据抓取方法,具备执行该方法相应的功能模块和有益效果。
实施例四
本发明实施例提供了一种计算机设备,该计算机设备中可集成本发明实施例提供的主题网页数据抓取装置。图4为本发明实施例提供的一种计算机设备的结构框图。计算机设备40可以包括:存储器41,处理器42及存储在存储器41上并可在处理器运行的计算机程序,所述处理器42执行所述计算机程序时实现如本发明实施例所述的主题网页数据抓取方法。
本发明实施例提供的计算机设备,可执行本发明任意实施例所提供的主题网页数据抓取方法,具备执行该方法相应的功能模块和有益效果。
实施例五
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行主题网页数据抓取方法,该方法包括:
根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取待抓取链接;
获取待抓取链接对应的网页内容;
根据内容相关度和链接相关度从待抓取链接中筛选目标链接,并将所述目标链接作为搜索结果进行反馈,其中,所述内容相关度根据所述网页内容和所述目标主题确定,所述链接相关度根据待抓取链接和所述目标主题确定。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机***存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机***中,或者可以位于不同的第二计算机***中,第二计算机***通过网络(诸如因特网)连接到第一计算机***。第二计算机***可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机***中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的主题网页数据抓取操作,还可以执行本发明任意实施例所提供的主题网页数据抓取方法中的相关操作。
上述实施例中提供的主题网页数据抓取装置、设备及存储介质可执行本发明任意实施例所提供的主题网页数据抓取方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的主题网页数据抓取方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种主题网页数据抓取方法,其特征在于,包括:
根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取待抓取链接;
获取待抓取链接对应的网页内容;
根据内容相关度和链接相关度从待抓取链接中筛选目标链接,并将所述目标链接作为搜索结果进行反馈,其中,所述内容相关度根据所述网页内容和所述目标主题确定,所述链接相关度根据待抓取链接和所述目标主题确定。
2.根据权利要求1所述的方法,其特征在于,所述获取待抓取链接对应的网页内容,包括:
模拟客户端向对应的服务端发送待抓取链接对应的访问请求,并根据接收到的访问响应下载待抓取链接对应的网页文件;
对所述网页文件进行解析,以提取所述网页文件中的网页内容,其中,所述网页内容中包括链接信息和文本信息。
3.根据权利要求1所述的方法,其特征在于,所述根据内容相关度和链接相关度从待抓取链接中筛选目标链接,包括:
对于所有待抓取链接,根据所述网页内容中的文本信息和所述目标主题确定内容相关度,若内容相关度不满足预设内容相关度要求,则将对应的待抓取链接存入已抓取队列;
对于满足预设内容相关度要求的待抓取链接,根据所述网页内容中的链接信息和所述目标主题确定链接相关度,若链接相关度不满足预设链接相关度要求,则将对应的待抓取链接存入已抓取队列;
将满足预设链接相关度要求的待抓取链接,按照内容相关度和链接相关度进行排序,根据排序结果筛选出目标链接。
4.根据权利要求3所述的方法,其特征在于,所述根据所述网页内容中的文本信息和所述目标主题确定内容相关度,包括:
对所述网页内容中的文本信息进行预处理,得到机器语言模型数据,根据机器语言模型数据和所述目标主题确定内容相关度,其中,所述预处理包括文本分词、去除停用词和词干化中的至少一个;和/或,
从所述网页内容中的文本信息中抽取关键词,计算所抽取的关键词与所述目标主题的语义相似度,针对所述抽取的关键词进行频率统计,根据频率统计结果和所述语义相似度确定内容相关度。
5.根据权利要求3所述的方法,其特征在于,所述按照内容相关度和链接相关度进行排序,根据排序结果筛选出目标链接,包括:
根据内容相关度和链接相关度确定各链接对应的综合相关度;
按照综合相关度由高至低的顺序进行排序,将综合相关度大于第一预设综合相关度阈值的链接或者综合相关度排序序号小于第一预设序号的链接确定为目标链接。
6.根据权利要求5所述的方法,其特征在于,还包括:
将综合相关度小于或等于所述第一预设综合相关度阈值且大于第二预设综合相关度阈值的链接,或者,综合相关度排序序号大于或等于所述第一预设序号且小于第二预设序号的链接,确定为候选链接;
根据用户输入的新的搜索内容确定新的目标主题;
若所述新的目标主题与所述目标主题相同,则从所述候选链接中筛选新的目标链接,并将所述新的目标链接作为本次的搜索结果进行反馈。
7.根据权利要求1-6任一所述的方法,其特征在于,所述基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取待抓取链接,包括:
基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取候选待抓取链接;
判断所述候选待抓取链接中是否包含目标候选待抓取链接,若包含,则将所述候选待抓取链接中包含的目标候选待抓取链接进行滤除,得到待抓取链接;其中,所述目标候选待抓取链接包括在最近的预设时长内被确定为待抓取链接的次数超过预设次数阈值的候选待抓取链接。
8.一种主题网页数据抓取装置,其特征在于,包括:
待抓取链接选取模块,用于根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取待抓取链接;
网页内容获取模块,用于获取待抓取链接对应的网页内容;
目标链接筛选模块,用于根据内容相关度和链接相关度从待抓取链接中筛选目标链接,并将所述目标链接作为搜索结果进行反馈,其中,所述内容相关度根据所述网页内容和所述目标主题确定,所述链接相关度根据待抓取链接和所述目标主题确定。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的方法。
CN202110793519.XA 2021-07-14 2021-07-14 主题网页数据抓取方法、装置、设备及存储介质 Active CN113449168B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110793519.XA CN113449168B (zh) 2021-07-14 2021-07-14 主题网页数据抓取方法、装置、设备及存储介质
PCT/CN2022/104188 WO2023284612A1 (zh) 2021-07-14 2022-07-06 主题网页数据抓取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110793519.XA CN113449168B (zh) 2021-07-14 2021-07-14 主题网页数据抓取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113449168A true CN113449168A (zh) 2021-09-28
CN113449168B CN113449168B (zh) 2024-02-20

Family

ID=77816136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110793519.XA Active CN113449168B (zh) 2021-07-14 2021-07-14 主题网页数据抓取方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN113449168B (zh)
WO (1) WO2023284612A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115525730A (zh) * 2022-02-27 2022-12-27 博才汇(宁波)信息科技有限公司 基于页面赋权的网页内容提取方法、装置及电子设备
WO2023284612A1 (zh) * 2021-07-14 2023-01-19 北京锐安科技有限公司 主题网页数据抓取方法、装置、设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701813A (zh) * 2023-08-04 2023-09-05 北控水务(中国)投资有限公司 一种数据检索方法、***、终端及存储介质
CN117874319B (zh) * 2024-03-11 2024-05-17 江西顶易科技发展有限公司 基于搜索引擎的信息挖掘方法、装置及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073730A (zh) * 2011-01-14 2011-05-25 哈尔滨工程大学 一种主题网络爬虫***的构建方法
CN102646129A (zh) * 2012-03-09 2012-08-22 武汉大学 一种主题相关的分布式网络爬虫***
CN103841173A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种垂直网络蜘蛛
CN108959413A (zh) * 2018-06-07 2018-12-07 吉林大学 一种主题网页爬取方法及主题爬虫***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714140A (zh) * 2013-12-23 2014-04-09 北京锐安科技有限公司 一种基于主题网络爬虫的搜索方法及装置
CN110569430A (zh) * 2019-08-13 2019-12-13 河北上通云天网络科技有限公司 一种移动端网络爬虫***
CN112084390B (zh) * 2020-09-07 2024-03-19 广东赛博威信息科技有限公司 一种电商平台中利用自动结构化爬虫搜索的方法
CN113449168B (zh) * 2021-07-14 2024-02-20 北京锐安科技有限公司 主题网页数据抓取方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073730A (zh) * 2011-01-14 2011-05-25 哈尔滨工程大学 一种主题网络爬虫***的构建方法
CN102646129A (zh) * 2012-03-09 2012-08-22 武汉大学 一种主题相关的分布式网络爬虫***
CN103841173A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种垂直网络蜘蛛
CN108959413A (zh) * 2018-06-07 2018-12-07 吉林大学 一种主题网页爬取方法及主题爬虫***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023284612A1 (zh) * 2021-07-14 2023-01-19 北京锐安科技有限公司 主题网页数据抓取方法、装置、设备及存储介质
CN115525730A (zh) * 2022-02-27 2022-12-27 博才汇(宁波)信息科技有限公司 基于页面赋权的网页内容提取方法、装置及电子设备
CN115525730B (zh) * 2022-02-27 2024-04-19 山东视角数字技术有限公司 基于页面赋权的网页内容提取方法、装置及电子设备

Also Published As

Publication number Publication date
WO2023284612A1 (zh) 2023-01-19
CN113449168B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN113449168B (zh) 主题网页数据抓取方法、装置、设备及存储介质
EP2289007B1 (en) Search results ranking using editing distance and document information
US7636714B1 (en) Determining query term synonyms within query context
US8321410B1 (en) Identification of semantic units from within a search query
US20150095300A1 (en) System and method for mark-up language document rank analysis
US7324988B2 (en) Method of generating a distributed text index for parallel query processing
KR20160124079A (ko) 인-메모리 데이터베이스 탐색을 위한 시스템 및 방법
US20110022596A1 (en) Method and system for document indexing and data querying
CN107832444B (zh) 基于搜索日志的事件发现方法及装置
US8234584B2 (en) Computer system, information collection support device, and method for supporting information collection
CN110889023A (zh) 一种elasticsearch的分布式多功能搜索引擎
CN112000929A (zh) 一种跨平台数据分析方法、***、设备及可读存储介质
CN109388690A (zh) 文本检索方法、用于文本检索的倒排表生成方法以及***
CN109284441B (zh) 动态自适应网络敏感信息检测方法及装置
CN107133321B (zh) 页面的搜索特性的分析方法和分析装置
CN103226601A (zh) 一种图片搜索的方法和装置
Ganguly et al. Performance optimization of focused web crawling using content block segmentation
KR100931772B1 (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
KR20040098889A (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
CN111858918A (zh) 新闻分类方法及装置、网元、存储介质
KR100871470B1 (ko) 색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법
KR100884889B1 (ko) 검색 데이터베이스의 자동 색인어 추가 방법 및 시스템
Bahmaee et al. Evaluation of the performance of web search engines in retrieving the information in the field of information and knowledge based on seven indicators
CN115203510A (zh) 暗网监测与分析***
CN115328945A (zh) 数据资产的检索方法、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant