CN113220965A - 一种网站关键词智能抓取分类分析*** - Google Patents
一种网站关键词智能抓取分类分析*** Download PDFInfo
- Publication number
- CN113220965A CN113220965A CN202110398925.6A CN202110398925A CN113220965A CN 113220965 A CN113220965 A CN 113220965A CN 202110398925 A CN202110398925 A CN 202110398925A CN 113220965 A CN113220965 A CN 113220965A
- Authority
- CN
- China
- Prior art keywords
- module
- keywords
- information
- text
- website
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000004891 communication Methods 0.000 claims abstract description 22
- 230000009193 crawling Effects 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 abstract description 5
- 238000010801 machine learning Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000012535 impurity Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002023 wood Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种网站关键词智能抓取分类分析***,包括中央处理器、采集分词模块、获取模块、提取模块、计算模块、爬取模块和确定模块;采集分词模块、获取模块、提取模块、计算模块、爬取模块和确定模块均与中央处理器通信连接。本发明能快速根据使用者输入的文本信息在网站的页面上显示出使用者所需要的数据信息,操作简单使用方便,大大节省使用者的查询时间,提高对所需数据检索的效率。
Description
技术领域
本发明涉及数据获取技术领域,尤其涉及一种网站关键词智能抓取分类分析***。
背景技术
网站(Website)是指在因特网上根据一定的规则,使用HTML(标准通用标记语言)等工具制作的用于展示特定内容相关网页的集合。简单地说,网站是一种沟通工具,人们可以通过网站来发布自己想要公开的资讯,或者利用网站来提供相关的网络服务。人们可以通过网页浏览器来访问网站,获取自己需要的资讯或者享受网络服务。随着网络科技的快速发展,人们日常学习办公等均离不开网络,在工作以及学习过程中,都会需要从网站上检索自己所需的资料,但是随着网络的发展,网络上的文本信息的数量呈现***式增长,如何能快速从网络中获取所需的数据资料是人们所迫切解决的。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种网站关键词智能抓取分类分析***,本发明能快速根据使用者输入的文本信息在网站的页面上显示出使用者所需要的数据信息,操作简单使用方便,大大节省使用者的查询时间,提高对所需数据检索的效率。
(二)技术方案
本发明提供了一种网站关键词智能抓取分类分析***,包括中央处理器、采集分词模块、获取模块、提取模块、计算模块、爬取模块和确定模块;
采集分词模块通信连接中央处理器,采集分词模块用于采集网站输入框中输入的文本信息,并对文本信息进行分句,得到多个词语单元;
获取模块通信连接中央处理器,获取模块用于获取多个词语单元的文本特征,得到多个文本特征信息;
提取模块通信连接中央处理器,提取模块用于根据多个文本特征信息从多个词语单元中提取关键词,得到多个关键词;
计算模块通信连接中央处理器,计算模块用于计算多个关键词之间的距离,得到多个距离信息;
爬取模块通信连接中央处理器,爬取模块用于从网络中获取网络数据,得到网络数据信息;
确定模块通信连接中央处理器,确定模块用于确定网络数据信息中与多个距离信息符合的数据信息,得到目标数据。
优选的,还包括整理模块;整理模块通信连接中央处理器,整理模块用于对获得的目标数据进行整理。
优选的,获取模块获取的文本特征包括每个词语单元自身的文本特征、每个词语单元在文本信息中的文本特征以及每个词语单元在每个对应分句信息中的文本特征。
优选的,提取模块采用机械学习的方式提取关键词。
优选的,计算多个关键词之间的距离为计算多个关键词之间的欧式距离。
优选的,确定模块包括排序单元和截取单元;
排序模块,用于对计算得到的距离进行倒序排序,得到排序表;
截取单元,用于截取排序表中前n位距离对应的数据信息,截取的数据信息为目标数据;其中,n≥1。
一种网站关键词智能抓取分类分析方法,包括以下具体步骤:
S1、采集网站输入框中输入的文本信息,并对文本信息进行分句,得到多个词语单元;
S2、获取多个词语单元的文本特征,得到多个文本特征信息;
S3、多个文本特征信息从多个词语单元中提取关键词,得到多个关键词;
S4、计算多个关键词之间的距离,得到多个距离信息;
S5、从网络中获取网络数据,得到网络数据信息;
S6、判断网络数据信息是否与多个距离信息符合;
若符合,则确定网络数据信息为目标数据;
若不符合,则继续执行S5。
优选的,S1中对获得的文本信息进行过滤除杂处理。
优选的,S3中采用机械学习的方式提取关键词。
优选的,S4中计算多个关键词之间的距离为计算多个关键词之间的欧式距离。
与现有技术相比,本发明的上述技术方案具有如下有益的技术效果:
本发明中,使用时,通过获取使用者在网站上输入的文本信息,并对文本信息进行分句,得到多个词语单元;再获取多个词语单元的文本特征,得到多个文本特征信息,根据得到的文本特征信息提取多个词语单元中的关键词;计算多个关键词之间的距离,再将从网络上获取的网络数据信息与与多个距离信息进行确定分析,以判定所爬取的网络数据信息是否为目标数据,以快速根据使用者输入的文本信息检索出使用者所需要的网络数据;通过本方法能快速根据使用者输入的文本信息在网站的页面上显示出使用者所需要的数据信息,操作简单使用方便,大大节省使用者的查询时间,提高对所需数据检索的效率。
附图说明
图1为本发明提出的一种网站关键词智能抓取分类分析***的原理框图。
图2为本发明提出的一种网站关键词智能抓取分类分析方法的流程图。
附图标记:101、中央处理器;102、采集分词模块;103、获取模块;104、提取模块;105、计算模块;106、爬取模块;107、确定模块;108、整理模块。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
实施例1
如图1所示,本发明提出的一种网站关键词智能抓取分类分析***,包括中央处理器101、采集分词模块102、获取模块103、提取模块104、计算模块105、爬取模块106和确定模块107;
采集分词模块102通信连接中央处理器101,采集分词模块102用于采集网站输入框中输入的文本信息,并对文本信息进行分句,得到多个词语单元;
获取模块103通信连接中央处理器101,获取模块103用于获取多个词语单元的文本特征,得到多个文本特征信息;
提取模块104通信连接中央处理器101,提取模块104用于根据多个文本特征信息从多个词语单元中提取关键词,得到多个关键词;
计算模块105通信连接中央处理器101,计算模块105用于计算多个关键词之间的距离,得到多个距离信息;
爬取模块106通信连接中央处理器101,爬取模块106用于从网络中获取网络数据,得到网络数据信息;
确定模块107通信连接中央处理器101,确定模块107用于确定网络数据信息中与多个距离信息符合的数据信息,得到目标数据。
本发明的一个实施例中,使用时,通过获取使用者在网站上输入的文本信息,并对文本信息进行分句,得到多个词语单元;再获取多个词语单元的文本特征,得到多个文本特征信息,根据得到的文本特征信息提取多个词语单元中的关键词;计算多个关键词之间的距离,再将从网络上获取的网络数据信息与与多个距离信息进行确定分析,以判定所爬取的网络数据信息是否为目标数据,以快速根据使用者输入的文本信息检索出使用者所需要的网络数据。
在一个可选的实施例中,还包括整理模块108;整理模块108通信连接中央处理器,整理模块108用于对获得的目标数据进行整理;
通过设有的整理模块108对爬取的符合使用者需要的木板数据进行整理,将整理后的数据信息进行呈现,以方便使用者进行查阅。
在一个可选的实施例中,获取模块103获取的文本特征包括每个词语单元自身的文本特征、每个词语单元在文本信息中的文本特征以及每个词语单元在每个对应分句信息中的文本特征;
每个词语单元自身的文本特征包括词语单元的词性特征以及命名实体特征。
在一个可选的实施例中,提取模块104采用机械学习的方式提取关键词;
需要说明的是,机器学习是通过从数据里提取规则或模式来把数据转换成信息的一种方法,主要的机器学习方法有归纳学习法和分析学习法。在机器学习过程中,数据首先被预处理,形成特征,然后根据特征创建某种模型;机器学习算法分析收集到的数据,分配权重、阈值和其他参数达到学习目的,其为现有技术对此并不详细说明。
在一个可选的实施例中,计算多个关键词之间的距离为计算多个关键词之间的欧式距离。
在一个可选的实施例中,确定模块107包括排序单元和截取单元;
排序模块,用于对计算得到的距离进行倒序排序,得到排序表;
截取单元,用于截取排序表中前n位距离对应的数据信息,截取的数据信息为目标数据;其中,n≥1。
实施例2
如图2所示,本发明提出的一种网站关键词智能抓取分类分析方法,包括实施例1中的网站关键词智能抓取分类分析***,具体包括以下步骤:
S1、采集网站输入框中输入的文本信息,并对文本信息进行分句,得到多个词语单元;
S2、获取多个词语单元的文本特征,得到多个文本特征信息;
S3、多个文本特征信息从多个词语单元中提取关键词,得到多个关键词;
S4、计算多个关键词之间的距离,得到多个距离信息;
S5、从网络中获取网络数据,得到网络数据信息;
S6、判断网络数据信息是否与多个距离信息符合;
若符合,则确定网络数据信息为目标数据;
若不符合,则继续执行S5;
S7,对得到的目标数据进行整理。
本发明的一个实施例中,通过本方法能快速根据使用者输入的文本信息在网站的页面上显示出使用者所需要的数据信息,操作简单使用方便。
在一个可选的实施例中,S1中对获得的文本信息进行过滤除杂处理,以对无用信息进行过滤。
在一个可选的实施例中,S3中采用机械学习的方式提取关键词。
在一个可选的实施例中,S4中计算多个关键词之间的距离为计算多个关键词之间的欧式距离。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (10)
1.一种网站关键词智能抓取分类分析***,其特征在于,包括中央处理器(101)、采集分词模块(102)、获取模块(103)、提取模块(104)、计算模块(105)、爬取模块(106)和确定模块(107);
采集分词模块(102)通信连接中央处理器(101),采集分词模块(102)用于采集网站输入框中输入的文本信息,并对文本信息进行分句,得到多个词语单元;
获取模块(103)通信连接中央处理器(101),获取模块(103)用于获取多个词语单元的文本特征,得到多个文本特征信息;
提取模块(104)通信连接中央处理器(101),提取模块(104)用于根据多个文本特征信息从多个词语单元中提取关键词,得到多个关键词;
计算模块(105)通信连接中央处理器(101),计算模块(105)用于计算多个关键词之间的距离,得到多个距离信息;
爬取模块(106)通信连接中央处理器(101),爬取模块(106)用于从网络中获取网络数据,得到网络数据信息;
确定模块(107)通信连接中央处理器(101),确定模块(107)用于确定网络数据信息中与多个距离信息符合的数据信息,得到目标数据。
2.根据权利要求1所述的一种网站关键词智能抓取分类分析***,其特征在于,还包括整理模块(108);整理模块(108)通信连接中央处理器,整理模块(108)用于对获得的目标数据进行整理。
3.根据权利要求1所述的一种网站关键词智能抓取分类分析***,其特征在于,获取模块(103)获取的文本特征包括每个词语单元自身的文本特征、每个词语单元在文本信息中的文本特征以及每个词语单元在每个对应分句信息中的文本特征。
4.根据权利要求1所述的一种网站关键词智能抓取分类分析***,其特征在于,提取模块(104)采用机械学习的方式提取关键词。
5.根据权利要求1所述的一种网站关键词智能抓取分类分析***,其特征在于,计算多个关键词之间的距离为计算多个关键词之间的欧式距离。
6.根据权利要求1所述的一种网站关键词智能抓取分类分析***,其特征在于,确定模块(107)包括排序单元和截取单元;
排序模块,用于对计算得到的距离进行倒序排序,得到排序表;
截取单元,用于截取排序表中前n位距离对应的数据信息,截取的数据信息为目标数据;其中,n≥1。
7.一种网站关键词智能抓取分类分析方法,其特征在于,包括以下具体步骤:
S1、采集网站输入框中输入的文本信息,并对文本信息进行分句,得到多个词语单元;
S2、获取多个词语单元的文本特征,得到多个文本特征信息;
S3、多个文本特征信息从多个词语单元中提取关键词,得到多个关键词;
S4、计算多个关键词之间的距离,得到多个距离信息;
S5、从网络中获取网络数据,得到网络数据信息;
S6、判断网络数据信息是否与多个距离信息符合;
若符合,则确定网络数据信息为目标数据;
若不符合,则继续执行S5。
8.根据权利要求7所述的一种网站关键词智能抓取分类分析方法,其特征在于,S1中对获得的文本信息进行过滤除杂处理。
9.根据权利要求7所述的一种网站关键词智能抓取分类分析方法,其特征在于,S3中采用机械学习的方式提取关键词。
10.根据权利要求1所述的一种网站关键词智能抓取分类分析方法,其特征在于,S4中计算多个关键词之间的距离为计算多个关键词之间的欧式距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110398925.6A CN113220965A (zh) | 2021-04-14 | 2021-04-14 | 一种网站关键词智能抓取分类分析*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110398925.6A CN113220965A (zh) | 2021-04-14 | 2021-04-14 | 一种网站关键词智能抓取分类分析*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113220965A true CN113220965A (zh) | 2021-08-06 |
Family
ID=77087125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110398925.6A Pending CN113220965A (zh) | 2021-04-14 | 2021-04-14 | 一种网站关键词智能抓取分类分析*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220965A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN103064846A (zh) * | 2011-10-20 | 2013-04-24 | 北京中搜网络技术股份有限公司 | 检索装置和检索方法 |
CN106095779A (zh) * | 2016-05-26 | 2016-11-09 | 达而观信息科技(上海)有限公司 | 一种基于关键词位置的检索方法及装置 |
US20170308613A1 (en) * | 2016-04-26 | 2017-10-26 | Baidu Usa Llc | Method and system of determining categories associated with keywords using a trained model |
-
2021
- 2021-04-14 CN CN202110398925.6A patent/CN113220965A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN103064846A (zh) * | 2011-10-20 | 2013-04-24 | 北京中搜网络技术股份有限公司 | 检索装置和检索方法 |
US20170308613A1 (en) * | 2016-04-26 | 2017-10-26 | Baidu Usa Llc | Method and system of determining categories associated with keywords using a trained model |
CN106095779A (zh) * | 2016-05-26 | 2016-11-09 | 达而观信息科技(上海)有限公司 | 一种基于关键词位置的检索方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104598532A (zh) | 一种信息处理方法及装置 | |
CA2365705A1 (en) | A system for collecting specific information from several sources of unstructured digitized data | |
CN101788988B (zh) | 信息抓取方法 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN100478962C (zh) | 搜索网页的方法、装置及***和建立索引数据库的装置 | |
CN105279277A (zh) | 知识数据的处理方法和装置 | |
CN108416034B (zh) | 基于金融异构大数据的信息采集***及其控制方法 | |
CN102567494B (zh) | 网站分类方法及装置 | |
CN108846117A (zh) | 商业快讯的去重筛选方法及装置 | |
CN112328936A (zh) | 一种网站识别方法、装置、设备及计算机可读存储介质 | |
KR101780377B1 (ko) | 뉴스와 sns 데이터로부터 식품 위해 이벤트를 실시간 자동 추출하는 방법 및 이를 위한 시스템 | |
CN115238154A (zh) | 搜索引擎优化*** | |
CN112328792A (zh) | 一种基于dbscan聚类算法识别信用事件的优化方法 | |
CN112149422A (zh) | 一种基于自然语言的企业新闻动态监测方法 | |
CN112035723A (zh) | 资源库的确定方法和装置、存储介质及电子装置 | |
CN103425742A (zh) | 一种网站的搜索方法和装置 | |
CN109471934B (zh) | 基于互联网的金融风险线索发掘方法 | |
CN107943937B (zh) | 一种基于司法***息分析的债务人资产监控方法及*** | |
CN111460803B (zh) | 基于工业物联网设备Web管理页面的设备识别方法 | |
CN112183093A (zh) | 一种企业舆情分析方法、装置、设备及可读存储介质 | |
CN104462439A (zh) | 事件的识别方法和装置 | |
CN104281710A (zh) | 一种网络数据挖掘方法 | |
CN107291952B (zh) | 一种提取有意义串的方法及装置 | |
CN111581478A (zh) | 一种特定主体的跨网站通用新闻采集方法 | |
CN114238735B (zh) | 一种互联网数据智能采集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210806 |
|
RJ01 | Rejection of invention patent application after publication |