CN116226494B - 一种用于信息搜索的爬虫***及方法 - Google Patents
一种用于信息搜索的爬虫***及方法 Download PDFInfo
- Publication number
- CN116226494B CN116226494B CN202310435034.2A CN202310435034A CN116226494B CN 116226494 B CN116226494 B CN 116226494B CN 202310435034 A CN202310435034 A CN 202310435034A CN 116226494 B CN116226494 B CN 116226494B
- Authority
- CN
- China
- Prior art keywords
- information
- searched
- unit
- module
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004458 analytical method Methods 0.000 claims abstract description 57
- 238000007781 pre-processing Methods 0.000 claims abstract description 42
- 230000000007 visual effect Effects 0.000 claims abstract description 23
- 238000010586 diagram Methods 0.000 claims abstract description 21
- 238000012216 screening Methods 0.000 claims abstract description 15
- 238000004891 communication Methods 0.000 claims abstract description 9
- 230000008451 emotion Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 238000007621 cluster analysis Methods 0.000 claims description 11
- 230000009193 crawling Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 238000012800 visualization Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 16
- 238000007726 management method Methods 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Navigation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用于信息搜索的爬虫***及方法,***包括:通信连接的信息获得模块、信息预处理模块、信息解析模块以及可视化管理模块,信息获得模块用于获得待搜索第一信息,信息预处理模块用于接收并存储待搜索第一信息,并对待搜索第一信息执行预处理,信息解析模块用于执行预处理后的待搜索第一信息的指令,获取用于模拟搜索环境的整体架构及数据流图,并筛选出最佳信息搜索路线,可视化管理模块用于确定最佳信息搜索路线中包含的目标信息,并按照预设统一格式整合为结构化数据,对结构化数据按类别进行分类可视化展示,它利用爬虫技术所获得的信息搜索结果,快速筛选并获得目标信息,提高用户体验和信息搜索效率。
Description
技术领域
本发明属于信息搜索技术领域,特别是一种用于信息搜索的爬虫***及方法。
背景技术
目前,随着计算机硬件处理能力的不断增强以及网络带宽的逐年扩容,通过互联网进行信息搜索已经成为常态。然而,互联网信息数据量巨大,要在其中快速检索到符合需求的可用信息并非易事,由此,网络爬虫技术应运而生。
网络爬虫技术能够按照一定的规则,自动地抓取万维网信息,被广泛应用于互联网搜索***。通常情况下,网页中除包含供用户阅读的文字信息外,还附有超链接信息,网络爬虫技术通过网页中的超链接信息不断获取网络上的其它网页,以此为信息搜索***提供数据来源。
但是现有技术中,利用爬虫技术所获得的信息搜索结果,往往包含大量无用信息,且信息质量参差不齐,很难满足用户的特定需求,因此,用户不得不花费时间进行二次搜索,用户体验差,信息搜索效率低,这是一个亟待解决的问题。
发明内容
本发明的目的是提供一种用于信息搜索的爬虫***及方法,以解决现有技术中的不足,它利用爬虫技术所获得的信息搜索结果,快速筛选并获得目标信息,满足用户的特定需求,避免二次搜索,提高用户体验和信息搜索效率。
本申请的一个实施例提供了一种用于信息搜索的爬虫***,所述***包括:
通信连接的信息获得模块、信息预处理模块、信息解析模块以及可视化管理模块;其中,
所述信息获得模块用于获得待搜索第一信息,所述待搜索第一信息至少包括信息源、信息关键词和关联信息中的一种或其组合,其中,所述关联信息根据所述信息关键词从所述信息源中生成;
所述信息预处理模块用于接收并存储所述待搜索第一信息,并对所述待搜索第一信息执行预处理,所述预处理包括基于深度学习的情感分析和用户偏好预测分析;
所述信息解析模块用于执行预处理后的待搜索第一信息的指令,获取用于模拟搜索环境的整体架构及数据流图,并筛选出最佳信息搜索路线;
所述可视化管理模块用于确定所述最佳信息搜索路线中包含的目标信息,并按照预设统一格式整合为结构化数据,对所述结构化数据按类别进行分类可视化展示。
可选的,所述***还包括:
数据库模块,用于通过神经网络模型获取网络中的第二信息,并根据获取的所述第二信息构建待搜索第一信息数据库。
可选的,所述***还包括:
计算集群模块,用于抓取网络空间内的计算集群信息,以及与所述计算集群信息相对应的***数据,并执行用于信息搜索的分布式计算操作。
可选的,所述信息获得模块,包括:
聚类分析单元、映射单元和信息生成单元,其中,
所述聚类分析单元用于将初始信息源进行聚类分析,在每一次的聚类过程中获得聚类特征值,并且使用预设聚类方式将设定相似度的所述初始信息源归类为一个群组,以形成聚类区域;
所述映射单元用于建立所述初始信息源的聚类特征值与所述聚类区域之间的映射关系;
所述信息生成单元用于接收所述映射关系,并生成待搜索第一信息。
可选的,所述信息预处理模块,包括:
第一预处理单元,用于建立情感分析模型,并将所述待搜索第一信息进行向量化,通过向量化后的待搜索第一信息作为输入训练所述情感分析模型,实现所述待搜索第一信息的属性提取和属性情感预测;
第二预处理单元,用于根据所述待搜索第一信息,获取偏好信息,并将所述偏好信息和预设推荐算法模型结合得到优化后的待搜索第一信息。
可选的,所述信息解析模块,包括:
遍历单元、解析单元和筛选单元,其中,
所述遍历单元用于遍历搜索线路中包含所述待搜索第一信息的线路信息,并生成模拟搜索环境的整体架构;
所述解析单元用于解析所述遍历单元提供的线路信息;
所述筛选单元用于根据获取的线路信息生成数据流图,并确定最佳信息搜索路线。
可选的,所述可视化管理模块,包括:
格式整合单元和分类展示单元,其中,
所述格式整合单元用于整合目标信息的属性,其中,所述属性包括***当前爬取的目标信息数量、追踪的链接数量、文件数量,当前***爬取进度以及爬取信息准确度;
所述分类展示单元用于将所述结构化数据导入神经网络模型进行学习和通过所述神经网络模型对所述结构化数据进行分值评价,根据所述分值评价将满足条件的结构化数据按类别进行分类可视化展示。
本申请的一个实施例提供了一种用于信息搜索的爬虫方法,所述方法包括:
获得待搜索第一信息,所述待搜索第一信息至少包括信息源、信息关键词和关联信息中的一种或其组合,其中,所述关联信息根据所述信息关键词从所述信息源中生成;
接收并存储所述待搜索第一信息,并对所述待搜索第一信息执行预处理,所述预处理包括基于深度学习的情感分析和用户偏好预测分析;
执行预处理后的待搜索第一信息的指令,获取用于模拟搜索环境的整体架构及数据流图,并筛选出最佳信息搜索路线;
确定所述最佳信息搜索路线中包含的目标信息,并按照预设统一格式整合为结构化数据,对所述结构化数据按类别进行分类可视化展示。
本申请的又一实施例提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
本申请的又一实施例提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述所述的方法。
与现有技术相比,本发明公开的用于信息搜索的爬虫***包括通信连接的信息获得模块、信息预处理模块、信息解析模块以及可视化管理模块,信息获得模块用于获得待搜索第一信息,信息预处理模块用于接收并存储待搜索第一信息,并对待搜索第一信息执行预处理,信息解析模块用于执行预处理后的待搜索第一信息的指令,获取用于模拟搜索环境的整体架构及数据流图,并筛选出最佳信息搜索路线,可视化管理模块用于确定最佳信息搜索路线中包含的目标信息,并按照预设统一格式整合为结构化数据,对结构化数据按类别进行分类可视化展示,它利用爬虫技术所获得的信息搜索结果,快速筛选并获得目标信息,满足用户的特定需求,避免二次搜索,提高用户体验和信息搜索效率。
附图说明
图1为本发明实施例提供的一种用于信息搜索的爬虫***框架结构示意图;
图2为本发明实施例提供的另一种用于信息搜索的爬虫***框架结构示意图;
图3为本发明实施例提供的再一种用于信息搜索的爬虫***框架结构示意图;
图4为本发明实施例提供的一种用于信息搜索的爬虫方法的计算机终端的硬件结构框图;
图5为本发明实施例提供的一种用于信息搜索的爬虫方法的流程示意图。
具体实施方式
下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
现代互联网提供了多样的文本浏览功能,一般人们浏览网页都会通过搜索引擎进入具体的网站,而搜索引擎则是通过爬虫对网站信息进行收集、整理。爬虫是模拟用户浏览网页过程,对互联网上的文本浏览服务器进行访问,获取信息的自动化程序。实际上爬虫本质上是一种文件下载程序,按照互联网浏览的基本规则和协议进行文本的下载提取。
参见图1,图1为本发明实施例提供的一种用于信息搜索的爬虫***框架结构示意图,其中,用于信息搜索的爬虫***100可以应用于智能终端,例如计算机设备或者移动终端等。***可以包括:通信连接的信息获得模块101、信息预处理模块102、信息解析模块103以及可视化管理模块104;其中,所述信息获得模块101用于获得待搜索第一信息,所述待搜索第一信息至少包括信息源、信息关键词和关联信息中的一种或其组合,其中,所述关联信息根据所述信息关键词从所述信息源中生成;所述信息预处理模块102用于接收并存储所述待搜索第一信息,并对所述待搜索第一信息执行预处理,所述预处理包括基于深度学习的情感分析和用户偏好预测分析;所述信息解析模块103用于执行预处理后的待搜索第一信息的指令,获取用于模拟搜索环境的整体架构及数据流图,并筛选出最佳信息搜索路线;所述可视化管理模块104用于确定所述最佳信息搜索路线中包含的目标信息,并按照预设统一格式整合为结构化数据,对所述结构化数据按类别进行分类可视化展示。
具体的,所述信息获得模块101,可以包括:聚类分析单元、映射单元和信息生成单元,其中,所述聚类分析单元用于将初始信息源进行聚类分析,在每一次的聚类过程中获得聚类特征值,并且使用预设聚类方式将设定相似度的所述初始信息源归类为一个群组,以形成聚类区域;所述映射单元用于建立所述初始信息源的聚类特征值与所述聚类区域之间的映射关系;所述信息生成单元用于接收所述映射关系,并生成待搜索第一信息。
示例性的,将初始信息源进行聚类分析的过程可以包括:获取初始信息源的特征,对初始信息源数据的各个特征设置不同的相似度度量函数,相似度度量函数分别从初始信息源的字节、长度、词性等方面计算两者之间的特征相似度;根据各个初始信息源之间的特征相似度乘积,获得总体相似度,并且根据所得总体相似度在每一次的聚类过程中进行数据点之间的计算,使用密度聚类的方式将相似度较高的初始信息源归类为一个群组,形成聚类区域。其中,密度聚类的方式可以采用DBSCAN算法进行聚类,根据设定的密度阈值将数据点以不同形状与大小的聚类区域进行归类。
具体的,所述信息预处理模块102,可以包括:第一预处理单元,用于建立情感分析模型,并将所述待搜索第一信息进行向量化,通过向量化后的待搜索第一信息作为输入训练所述情感分析模型,实现所述待搜索第一信息的属性提取和属性情感预测;第二预处理单元,用于根据所述待搜索第一信息,获取偏好信息,并将所述偏好信息和预设推荐算法模型结合得到优化后的待搜索第一信息。
示例性的,用户在确定待搜索第一信息时,往往会选择具有明显情感倾向的词语,因此在待搜索第一信息的情感识别阶段,可以依据词性与符号特征,首先确定情感指示词/符号:形容词、程度副词、叹词、名词或动词。其中,情感分析模型可以包括向量表示层、特征抽取层、特征信息提取层和解析层,向量表示层可以通过预训练语言模型获得输入的初始信息源表示,得到初始信息源中每个字的向量表示;特征抽取层可以通过预训练语言模型中双向编码器基于注意力机制对初始信息源进行建模抽取特征,并计算初始信息源中每个字对于初始信息源中所有词的相互关系;特征信息提取层接受的特征抽取层的输出向量,进行初始信息源深层次特征的提取;解析层计算特征信息提取层输出初始信息源中出现频次概率最大属性序列,以实现待搜索第一信息的属性提取和属性情感预测。
具体的,所述信息解析模块103,可以包括:遍历单元、解析单元和筛选单元,其中,所述遍历单元用于遍历搜索线路中包含所述待搜索第一信息的线路信息,并生成模拟搜索环境的整体架构;所述解析单元用于解析所述遍历单元提供的线路信息;所述筛选单元用于根据获取的线路信息生成数据流图,并确定最佳信息搜索路线。
示例性的,遍历单元检查加载搜索线路的遍历规则代码,根据遍历规则,设置是否加载代理,是否添加或改变搜索请求,是否启用搜索线路去重功能,将搜索请求数据封装好交给任务规划器,任务规划器协调下载顺序,下载器请求搜索线路,将响应数据封装好返回给遍历单元,随后遍历单元根据遍历规则调用正则解析式、解析器、加载器抽取搜索线路上链接,将抽取到的链接与信息生成检查数据类,进行数据完整性检查与数据统计,完成一次遍历后立即请求下一个遍历任务,若未请求到任务则转入空闲状态,随后基于完整的遍历任务生成模拟搜索环境的整体架构。
解析单元通过设置解析线路信息空闲时的任务规划器间隔时间请求和解析任务请求,若请求到解析线路信息任务,自动处理,若未请求到解析线路信息则休息预设时间后重复操作。解析线路信息任务根据解析规则,通过加载器定位线路信息位置,使用正则表达式过滤线路信息的不同部分,将线路信息映射到结构化的数据中,将结构化的数据生成检查数据类,交给数据完整性检查,完成一次解析后立即执行下一个解析线路信息或请求下一个解析线路信息,若未请求到解析线路信息则转入空闲状态。
具体的,所述可视化管理模块104,可以包括:格式整合单元和分类展示单元,其中,所述格式整合单元用于整合目标信息的属性,其中,所述属性包括***当前爬取的目标信息数量、追踪的链接数量、文件数量,当前***爬取进度以及爬取信息准确度;所述分类展示单元用于将所述结构化数据导入神经网络模型进行学习和通过所述神经网络模型对所述结构化数据进行分值评价,根据所述分值评价将满足条件的结构化数据按类别进行分类可视化展示。
在一种可选的实施方式中,参见图2,图2为本发明实施例提供的另一种用于信息搜索的爬虫***框架结构示意图,所述***还可以包括:数据库模块105,用于通过神经网络模型获取网络中的第二信息,并根据获取的所述第二信息构建待搜索第一信息数据库。
示例性的,在海量互联网中选取一部分精心挑选的常用搜索主题相关URL(统一资源定位符);在互联网中选择领域内认为相对优质的、主流的、信息齐全的网站的URL,将这些URL放入待抓取的URL队列。取出待抓取的URL队列中每一个URL,访问每一个URL页面,并下载其中的常用搜索主题相关信息;利用XPath(XML路径语言)抽取下载得到的常用搜索主题相关信息中格式化的数据,并对格式化的数据进行过滤、去重、拼接等操作得到固定格式的结构化数据,结构化数据用于建立数据库;分析已抓取的URL得到网站下网页的结构,根据网页的结构找到要得到的数据的路径,根据路径设置网页信息爬取循环,根据网页信息爬取循环,返回上述步骤,直到把所有URL的常用搜索主题相关信息爬取完成,则待搜索第一信息数据库建成。
在一种可选的实施方式中,参见图3,图3为本发明实施例提供的再一种用于信息搜索的爬虫***框架结构示意图,所述***还可以包括:计算集群模块106,用于抓取网络空间内的计算集群信息,以及与所述计算集群信息相对应的***数据,并执行用于信息搜索的分布式计算操作。
示例性的,计算集群模块可以由多个服务器组成的服务器集群,设置有N个主题分类分区,一个计算集群信息对应一个主题分区,计算集群模块采用并行的方式将N个计算集群信息中的对象数据实时采集到各自对应的主题分区中。例如,用户通过计算机设备提供的搜索界面进行人机交互,触发计算机设备生成信息搜索请求,计算机设备向计算集群模块发送搜索请求,搜索请求携带搜索条件信息,计算机设备基于用户输入的搜索条件信息生成搜索请求,以及向计算集群模块的控制节点发送搜索请求。
需要说明的是,爬虫***需要的主要资源是下载网页时占用的带宽和解析网页时处理文本所占用的计算资源,根据爬虫不同的功能特点,所需的资源情况不同,负责数据储存,任务调度节点控制的节点被称为中心节点,执行爬虫功能的节点被称为工作节点。中心节点数据库中存储着各个节点和功能的任务队列,节点管理功能通过各节点的Scrapyd服务实时记录各个节点的工作情况,当节点出现错误时,通过RPC拉起其他节点的相同模块进行替换;中心节点负责爬虫网络中代码的匹配工作,IP池和Cookies池的维护工作;中心节点通过节点管理记录的数据,各个节点爬取数据的统计情况,使用任务规划算法对各个节点的下一步任务进行规划,为了实现分布式,将***中的爬虫按功能可分为遍历、解析、登录、回复、匹配四种功能,分别安排在工作节点和中心节点中。
可见,本发明公开的用于信息搜索的爬虫***包括通信连接的信息获得模块、信息预处理模块、信息解析模块以及可视化管理模块,信息获得模块用于获得待搜索第一信息,信息预处理模块用于接收并存储待搜索第一信息,并对待搜索第一信息执行预处理,信息解析模块用于执行预处理后的待搜索第一信息的指令,获取用于模拟搜索环境的整体架构及数据流图,并筛选出最佳信息搜索路线,可视化管理模块用于确定最佳信息搜索路线中包含的目标信息,并按照预设统一格式整合为结构化数据,对结构化数据按类别进行分类可视化展示,它利用爬虫技术所获得的信息搜索结果,快速筛选并获得目标信息,满足用户的特定需求,避免二次搜索,提高用户体验和信息搜索效率。
本发明实施例还提供了一种用于信息搜索的爬虫方法,该方法可以应用于电子设备,如计算机终端,具体如普通电脑、量子计算机等。
下面以运行在计算机终端上为例对其进行详细说明。图4为本发明实施例提供的一种用于信息搜索的爬虫方法的计算机终端的硬件结构框图。如图4所示,计算机终端可以包括一个或多个(图4中仅示出一个)处理器402(处理器402可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器404,可选地,上述计算机终端还可以包括用于通信功能的传输装置406以及输入输出设备408。本领域普通技术人员可以理解,图4所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。
存储器404可用于存储应用软件的软件程序以及模块,如本申请实施例中的用于信息搜索的爬虫方法对应的程序指令/模块,处理器402通过运行存储在存储器404内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器404可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器404可进一步包括相对于处理器402远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置406包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置406可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
参见图5,图5为本发明实施例提供的一种用于信息搜索的爬虫方法的流程示意图,可以包括如下步骤:
S501:获得待搜索第一信息,所述待搜索第一信息至少包括信息源、信息关键词和关联信息中的一种或其组合,其中,所述关联信息根据所述信息关键词从所述信息源中生成。
具体地,可以根据用户在搜索框中输入的信息源来获得信息关键词。用户输入的信息源可以是中文词、外文词或数字等,也可以是句子。当信息源是中文词、外文词或数字时,可以直接将中文词、外文词或数字确定为信息关键词。如果输入的是句子,则可以采用现有技术的关键词提取方法,从句子中提取出关键词。其中,搜索框可以为浏览器界面上供用户输入信息源(例如关键词)的区域。搜索框可以为HTML(Hyper Text Mark-upLanguage,超文本标记语言)文本框。
在获得信息关键词后,可以通过识别信息关键词的词性、拆解信息关键词的词形等方式对信息关键词进行解析,或者在接收到句子,并从句子中提取到关键词后,通过对该句子的语法和语义分析,获得关键词所表示的含义。进一步地,通过上述所解析出的词性与词意调取,可以获得关联信息或者关联信息数据集。
S502:接收并存储所述待搜索第一信息,并对所述待搜索第一信息执行预处理,所述预处理包括基于深度学习的情感分析和用户偏好预测分析。
示例性的,对所述待搜索第一信息进行预处理,获取情感分析模型,并将预处理后的待搜索第一信息代入情感分析模型,得到待搜索第一信息中的情感要素。用户偏好预测分析可以通过语言处理器从待搜索第一信息中提取用户的一个或多个用户偏好和用户的一个或多个情感分析结果,由计算机对待搜索第一信息执行语义搜索,并接收多个候选信息。由计算机根据一个或多个情感分析结果,或根据一个或多个用户偏好,或情感要素来选择接收的候选信息中的一个或多个结果并输出预处理后的待搜索第一信息。
S503:执行预处理后的待搜索第一信息的指令,获取用于模拟搜索环境的整体架构及数据流图,并筛选出最佳信息搜索路线。
示例性的,本发明筛选出最佳信息搜索路线的具体过程可以包括:根据标号依次遍历数据流图中的节点,假设当前遍历节点序号为1,获取当前节点及其后续n层深度的子节点的数量;对当前节点及其n层深度的子节点到目标信息的不同的搜索线路进行代价建模;选取代价最小的搜索线路方式作为最终的最佳信息搜索路线。
S504:确定所述最佳信息搜索路线中包含的目标信息,并按照预设统一格式整合为结构化数据,对所述结构化数据按类别进行分类可视化展示。
具体的,结构化数据的可视化展示功能面向两种用户,一种是搜索用户一种是管理用户。搜索用户使用搜索引擎,对已经爬取的信息进行搜索、查看。管理用户需要登录后台管理***,登录***后可以查看***状态,并对爬虫代码进行管理,查看代码匹配状态,设置代码与网站匹配,或是对入口的网站进行添加,删除。例如,当前网页显示各网站的内容爬取情况,代码采集的识别度,前端页面通过向服务器请求数据渲染展示;此页提供对入口网站新添与删除操作功能,用户点击新添网站按钮,填入网站域名,适用爬虫类型,前端将内容发送给服务器,服务器返回将新添加网站添加到代码匹配模块的队列中,返回信息前端显示,当匹配代码完成后,前端通过轮询查询到匹配状态并展示;此页提供对网页匹配爬虫代码的手工选择功能,前端展示爬虫代码分配按钮,用户可选择设置当前网页匹配爬虫,由前端发送到服务器,服务器设置当前网页的匹配爬虫到数据库;此页提供对网页进行手工设置重新爬取功能,前端向服务器发送请求后,服务器将所有或部分网站添加到爬虫模块任务列表中。
与现有技术相比,本申请实施例首先获得待搜索第一信息,接收并存储待搜索第一信息,并对待搜索第一信息执行预处理,执行预处理后的待搜索第一信息的指令,获取用于模拟搜索环境的整体架构及数据流图,并筛选出最佳信息搜索路线,确定最佳信息搜索路线中包含的目标信息,并按照预设统一格式整合为结构化数据,对结构化数据按类别进行分类可视化展示,它利用爬虫技术所获得的信息搜索结果,快速筛选并获得目标信息,满足用户的特定需求,避免二次搜索,提高用户体验和信息搜索效率。
本发明实施例还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
具体的,在本实施例中,上述存储介质可以被设置为存储用于实现以下步骤的计算机程序:
S501:获得待搜索第一信息,所述待搜索第一信息至少包括信息源、信息关键词和关联信息中的一种或其组合,其中,所述关联信息根据所述信息关键词从所述信息源中生成;
S502:接收并存储所述待搜索第一信息,并对所述待搜索第一信息执行预处理,所述预处理包括基于深度学习的情感分析和用户偏好预测分析;
S503:执行预处理后的待搜索第一信息的指令,获取用于模拟搜索环境的整体架构及数据流图,并筛选出最佳信息搜索路线;
S504:确定所述最佳信息搜索路线中包含的目标信息,并按照预设统一格式整合为结构化数据,对所述结构化数据按类别进行分类可视化展示。
与现有技术相比,本申请实施例首先获得待搜索第一信息,接收并存储待搜索第一信息,并对待搜索第一信息执行预处理,执行预处理后的待搜索第一信息的指令,获取用于模拟搜索环境的整体架构及数据流图,并筛选出最佳信息搜索路线,确定最佳信息搜索路线中包含的目标信息,并按照预设统一格式整合为结构化数据,对结构化数据按类别进行分类可视化展示,它利用爬虫技术所获得的信息搜索结果,快速筛选并获得目标信息,满足用户的特定需求,避免二次搜索,提高用户体验和信息搜索效率。
具体的,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明实施例还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
具体的,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
具体的,在本实施例中,上述处理器可以被设置为通过计算机程序实现以下步骤:
S501:获得待搜索第一信息,所述待搜索第一信息至少包括信息源、信息关键词和关联信息中的一种或其组合,其中,所述关联信息根据所述信息关键词从所述信息源中生成;
S502:接收并存储所述待搜索第一信息,并对所述待搜索第一信息执行预处理,所述预处理包括基于深度学习的情感分析和用户偏好预测分析;
S503:执行预处理后的待搜索第一信息的指令,获取用于模拟搜索环境的整体架构及数据流图,并筛选出最佳信息搜索路线;
S504:确定所述最佳信息搜索路线中包含的目标信息,并按照预设统一格式整合为结构化数据,对所述结构化数据按类别进行分类可视化展示。
与现有技术相比,本申请实施例首先获得待搜索第一信息,接收并存储待搜索第一信息,并对待搜索第一信息执行预处理,执行预处理后的待搜索第一信息的指令,获取用于模拟搜索环境的整体架构及数据流图,并筛选出最佳信息搜索路线,确定最佳信息搜索路线中包含的目标信息,并按照预设统一格式整合为结构化数据,对结构化数据按类别进行分类可视化展示,它利用爬虫技术所获得的信息搜索结果,快速筛选并获得目标信息,满足用户的特定需求,避免二次搜索,提高用户体验和信息搜索效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本发明实施例进行了详细的介绍,本申请文件中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应该被理解为对本发明的限制。
Claims (9)
1.一种用于信息搜索的爬虫***,其特征在于,所述***包括:
通信连接的信息获得模块、信息预处理模块、信息解析模块以及可视化管理模块;其中,
所述信息获得模块用于获得待搜索第一信息,所述待搜索第一信息至少包括信息源、信息关键词和关联信息中的一种或其组合,其中,所述关联信息根据所述信息关键词从所述信息源中生成;
所述信息预处理模块用于接收并存储所述待搜索第一信息,并对所述待搜索第一信息执行预处理,所述预处理包括基于深度学习的情感分析和用户偏好预测分析;
所述信息解析模块用于执行预处理后的待搜索第一信息的指令,获取用于模拟搜索环境的整体架构及数据流图,并筛选出最佳信息搜索路线;
所述可视化管理模块用于确定所述最佳信息搜索路线中包含的目标信息,并按照预设统一格式整合为结构化数据,对所述结构化数据按类别进行分类可视化展示;
所述信息解析模块,包括:遍历单元、解析单元和筛选单元;
其中,所述遍历单元用于遍历搜索线路中包含所述待搜索第一信息的线路信息,并基于完整的遍历任务生成模拟搜索环境的整体架构;
所述解析单元用于解析所述遍历单元提供的线路信息;
所述筛选单元用于根据获取的线路信息生成数据流图,并确定最佳信息搜索路线;
所述筛选出最佳信息搜索路线的具体过程包括:根据标号依次遍历数据流图中的节点,获取当前节点及其后续n层深度的子节点的数量;对当前节点及其n层深度的子节点到目标信息的不同的搜索线路进行代价建模;选取代价最小的搜索线路方式作为最终的最佳信息搜索路线。
2.根据权利要求1所述的***,其特征在于,所述***还包括:
数据库模块,用于通过神经网络模型获取网络中的第二信息,并根据获取的所述第二信息构建待搜索第一信息数据库。
3.根据权利要求1或2任一项所述的***,其特征在于,所述***还包括:
计算集群模块,用于抓取网络空间内的计算集群信息,以及与所述计算集群信息相对应的***数据,并执行用于信息搜索的分布式计算操作。
4.根据权利要求1所述的***,其特征在于,所述信息获得模块,包括:
聚类分析单元、映射单元和信息生成单元,其中,
所述聚类分析单元用于将初始信息源进行聚类分析,在每一次的聚类过程中获得聚类特征值,并且使用预设聚类方式将设定相似度的所述初始信息源归类为一个群组,以形成聚类区域;
所述映射单元用于建立所述初始信息源的聚类特征值与所述聚类区域之间的映射关系;
所述信息生成单元用于接收所述映射关系,并生成待搜索第一信息。
5.根据权利要求1所述的***,其特征在于,所述信息预处理模块,包括:
第一预处理单元,用于建立情感分析模型,并将所述待搜索第一信息进行向量化,通过向量化后的待搜索第一信息作为输入训练所述情感分析模型,实现所述待搜索第一信息的属性提取和属性情感预测;
第二预处理单元,用于根据所述待搜索第一信息,获取偏好信息,并将所述偏好信息和预设推荐算法模型结合得到优化后的待搜索第一信息。
6.根据权利要求1所述的***,其特征在于,所述可视化管理模块,包括:
格式整合单元和分类展示单元,其中,
所述格式整合单元用于整合目标信息的属性,其中,所述属性包括***当前爬取的目标信息数量、追踪的链接数量、文件数量,当前***爬取进度以及爬取信息准确度;
所述分类展示单元用于将所述结构化数据导入神经网络模型进行学习和通过所述神经网络模型对所述结构化数据进行分值评价,根据所述分值评价将满足条件的结构化数据按类别进行分类可视化展示。
7.一种用于信息搜索的爬虫方法,其特征在于,所述方法包括:
获得待搜索第一信息,所述待搜索第一信息至少包括信息源、信息关键词和关联信息中的一种或其组合,其中,所述关联信息根据所述信息关键词从所述信息源中生成;其中,将初始信息源进行聚类分析,在每一次的聚类过程中获得聚类特征值,并且使用预设聚类方式将设定相似度的所述初始信息源归类为一个群组,以形成聚类区域;建立所述初始信息源的聚类特征值与所述聚类区域之间的映射关系;接收所述映射关系,并生成待搜索第一信息;接收并存储所述待搜索第一信息,并对所述待搜索第一信息执行预处理,所述预处理包括基于深度学习的情感分析和用户偏好预测分析;
遍历搜索线路中包含所述待搜索第一信息的线路信息,并基于完整的遍历任务生成模拟搜索环境的整体架构;根据获取的线路信息生成数据流图,并确定最佳信息搜索路线;
确定所述最佳信息搜索路线中包含的目标信息,并按照预设统一格式整合为结构化数据,对所述结构化数据按类别进行分类可视化展示;
所述确定出最佳信息搜索路线的具体过程包括:根据标号依次遍历数据流图中的节点,获取当前节点及其后续n层深度的子节点的数量;对当前节点及其n层深度的子节点到目标信息的不同的搜索线路进行代价建模;选取代价最小的搜索线路方式作为最终的最佳信息搜索路线。
8.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求7中所述的方法。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求7中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310435034.2A CN116226494B (zh) | 2023-04-21 | 2023-04-21 | 一种用于信息搜索的爬虫***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310435034.2A CN116226494B (zh) | 2023-04-21 | 2023-04-21 | 一种用于信息搜索的爬虫***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116226494A CN116226494A (zh) | 2023-06-06 |
CN116226494B true CN116226494B (zh) | 2023-09-12 |
Family
ID=86575276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310435034.2A Active CN116226494B (zh) | 2023-04-21 | 2023-04-21 | 一种用于信息搜索的爬虫***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116226494B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312579B (zh) * | 2023-11-28 | 2024-02-06 | 一铭寰宇科技(北京)有限公司 | 一种数据模型搜索分析文本的生成方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101359332A (zh) * | 2008-09-02 | 2009-02-04 | 浙江大学 | 具有语义分类功能的可视化搜索界面的设计方法 |
US7908263B1 (en) * | 2008-06-25 | 2011-03-15 | Richard S Paiz | Search engine optimizer |
CN102402539A (zh) * | 2010-09-15 | 2012-04-04 | 倪毅 | 对象级个性化垂直搜索引擎设计技术 |
CN112328806A (zh) * | 2020-10-30 | 2021-02-05 | 广州市西美信息科技有限公司 | 一种数据的处理方法、***、计算机设备和存储介质 |
CN114996549A (zh) * | 2022-06-08 | 2022-09-02 | 钱塘科技创新中心 | 基于活动对象信息挖掘的智能追踪方法与*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7584194B2 (en) * | 2004-11-22 | 2009-09-01 | Truveo, Inc. | Method and apparatus for an application crawler |
-
2023
- 2023-04-21 CN CN202310435034.2A patent/CN116226494B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7908263B1 (en) * | 2008-06-25 | 2011-03-15 | Richard S Paiz | Search engine optimizer |
CN101359332A (zh) * | 2008-09-02 | 2009-02-04 | 浙江大学 | 具有语义分类功能的可视化搜索界面的设计方法 |
CN102402539A (zh) * | 2010-09-15 | 2012-04-04 | 倪毅 | 对象级个性化垂直搜索引擎设计技术 |
CN112328806A (zh) * | 2020-10-30 | 2021-02-05 | 广州市西美信息科技有限公司 | 一种数据的处理方法、***、计算机设备和存储介质 |
CN114996549A (zh) * | 2022-06-08 | 2022-09-02 | 钱塘科技创新中心 | 基于活动对象信息挖掘的智能追踪方法与*** |
Also Published As
Publication number | Publication date |
---|---|
CN116226494A (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8538989B1 (en) | Assigning weights to parts of a document | |
KR101114023B1 (ko) | 확장형 문서 검색을 위한 콘텐츠 전파 | |
US8200617B2 (en) | Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata | |
CN110597981B (zh) | 一种采用多策略自动生成摘要的网络新闻概要*** | |
US10713291B2 (en) | Electronic document generation using data from disparate sources | |
CN111831802B (zh) | 一种基于lda主题模型的城市领域知识检测***及方法 | |
US20080282186A1 (en) | Keyword generation system and method for online activity | |
CN104978314B (zh) | 媒体内容推荐方法及装置 | |
CN108090104B (zh) | 用于获取网页信息的方法和装置 | |
GB2575141A (en) | Conversational query answering system | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
JP2013531289A (ja) | 検索におけるモデル情報群の使用 | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
CN110134845A (zh) | 项目舆情监控方法、装置、计算机设备及存储介质 | |
CN111259220B (zh) | 一种基于大数据的数据采集方法和*** | |
CN107526718A (zh) | 用于生成文本的方法和装置 | |
CN105718533A (zh) | 信息推送方法和装置 | |
CN104679783A (zh) | 一种网络搜索方法和装置 | |
CN116226494B (zh) | 一种用于信息搜索的爬虫***及方法 | |
CN111708774A (zh) | 一种基于大数据的产业分析*** | |
CN115757689A (zh) | 一种信息查询***、方法及设备 | |
US10157222B2 (en) | Methods and apparatuses for content preparation and/or selection | |
Knap | Towards Odalic, a Semantic Table Interpretation Tool in the ADEQUATe Project. | |
Wang et al. | Enriching descriptions for public web services using information captured from related web pages on the internet | |
CN112269906A (zh) | 网页正文的自动抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |