CN104778208A - 一种搜索引擎 seo 网站数据的优化抓取方法及*** - Google Patents
一种搜索引擎 seo 网站数据的优化抓取方法及*** Download PDFInfo
- Publication number
- CN104778208A CN104778208A CN201510106543.6A CN201510106543A CN104778208A CN 104778208 A CN104778208 A CN 104778208A CN 201510106543 A CN201510106543 A CN 201510106543A CN 104778208 A CN104778208 A CN 104778208A
- Authority
- CN
- China
- Prior art keywords
- data
- keyword
- user
- search
- seo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种搜索引擎SEO网站数据的优化抓取方法及***,包括步接收用户输入的关键词,对关键词进行拓展,获得多个长尾关键词;根据长尾关键词进行精准搜索,抓取相关大数据;将获得的相关大数据进行SEO自然排名,将排名数据及相关大数据内容发送至引擎服务器;所述引擎服务器对所述相关大数据内容进行大数据过滤,将过滤后的数据分类存储;根据所述分类存储的数据形成可视化图表进行展示。本申请中根据用户的搜索习惯对输入的关键词进行拓展,根据拓展的长尾关键词抓取大数据,克服数据缺失现象,并对抓取的数据进行分类存储,生成可视化图表进行展示,为用户提供精准搜索体验的同时,为用户提供直观明了的结果展现。
Description
技术领域
本发明涉及互联网大数据分析、通讯技术及计算机技术领域,尤其涉及一种搜索引擎SEO网站数据的优化抓取方法及***。
背景技术
搜索引擎是针对“用户使用网站的便利性”所提供的必要功能,同时也是“研究网站数据分析的一个有效工具”。高效的Spider检索与延伸可以让用户快速精准地找到实用信息,从而更有效地提高用户的分析能力,而且通过对网站访问者搜索行为的深度分析,对分辨事物本质具有着重要的价值。鉴于搜索引擎营销的环境发展为网络营销的推动起到举足轻重的作用从效果营销看,很多公司之所以可以应用网络营销是利用了搜索引擎营销就完整型电子商务概念组成部分来看,网络营销是其中最重要的组成部分,是向终端客户传递信息的重要环节。
但是,目前的数据抓取过程存在数据缺失现象,尤其当有些数据不存在网页上,而是在微信或微博上,则不能被抓取,进而不能为用户提供精准的数据搜索附图,且现有技术不能精准的根据用户的搜索习惯给出用户需要的网络数据,并且搜索结果的展现比较单一,且不直观。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种搜索引擎SEO网站数据的优化抓取方法及***。
本发明解决上述技术问题的技术方案如下:一种搜索引擎SEO网站数据的优化抓取方法,包括如下步骤:
步骤1,接收用户输入的关键词,对关键词进行拓展,获得多个长尾关 键词;
步骤2,根据长尾关键词进行精准搜索,抓取相关大数据;
步骤3,将获得的相关大数据进行SEO自然排名,将排名数据及相关大数据内容发送至引擎服务器;
步骤4,所述引擎服务器对所述相关大数据内容进行大数据过滤,将过滤后的数据分类存储;
步骤5,根据所述分类存储的数据形成可视化图表进行展示。
本发明的有益效果是:本申请中根据用户的搜索习惯对输入的关键词进行拓展,为用户提供最需要的搜索数据,根据拓展的长尾关键词抓取大数据,不仅包括网站数据,还包括微信微博等数据,克服数据缺失现象,并对抓取的数据进行分类存储,生成可视化图表进行展示,为用户提供精准搜索体验的同时,为用户提供直观明了的结果展现。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,上述技术方案还包括提供蜂巢搜索,具体实现如下:
当用户点击蜂巢搜索链接,进入蜂巢搜索界面,进行JS蜂巢分析,根据关键词生成分析报告。
进一步,进行JS蜂巢分析,根据关键词生成分析报告的具体实现为:将可视化图表按照分析报告的框架转换成文字数据,生成分析报告。
采用上述进一步方案的有益效果:在蜂巢中形成可视化对比与分析,根据可视化的对比与分析形成数据报告,为用户提供多样的展示形式,满足用户的各种需求。
进一步,步骤1的具体实现为:接收用户输入的关键词,查询用户的访问记录cookie,根据用户的访问记录cookie分析用户的搜索习惯,根据用户的搜素习惯对用户输入的关键词进行拓展,获得相应的多个长尾关键词。
进一步,步骤2中所述大数据包括新闻、问问、百科、微信、微博、论 坛、贴吧和文库中的一种或几种数据。
本发明解决上述技术问题的另一技术方案如下:一种搜索引擎SEO网站数据的优化抓取***,包括关键词拓展模块、网站抓取模块、第一数据处理模块、第二数据处理模块、数据存储模块和可视化模块;
所述关键词拓展模块,其用于接收用户输入的关键词,对关键词进行拓展,获得多个长尾关键词;
所述网站抓取模块,其用于根据长尾关键词进行精准搜索,抓取相关大数据;
所述第一数据处理模块,将获得的相关大数据进行SEO自然排名,将排名数据及相关大数据内容发送至第二数据处理模块;
第二数据处理模块,其用于对所述相关大数据内容进行大数据过滤;
所述数据存储模块,请用于将过滤后的数据分类存储;
所述可视化模块,其用于根据所述分类存储的数据形成可视化图表进行展示。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,上述技术方案还包括蜂巢搜索模块,其用于当用户点击蜂巢搜索链接,进入蜂巢搜索界面,进行JS蜂巢分析,根据关键词生成分析报告。
进一步,所述蜂巢搜索模块将可视化图表按照分析报告的框架转换成文字数据,生成分析报告。
进一步,所述关键词拓展模块包括接收单元、查询单元、分析单元和拓展单元;
所述接收单元,其用于接收用户输入的关键词;
所述查询单元,其用于查询用户的访问记录cookie;
所述分析单元,其用于根据用户的访问记录cookie分析用户的搜索习惯;
所述拓展单元,其用于根据用户的搜素习惯对用户输入的关键词进行拓展,获得相应的多个长尾关键词。
进一步,所述大数据包括新闻、问问、百科、微信、微博、论坛、贴吧和文库中的一种或几种数据。
附图说明
图1为本发明所述一种搜索引擎SEO网站数据的优化抓取方法流程图;
图2为本发明实施例1所述框图;
图3为本发明实施例2所示框图。
附图中,各标号所代表的部件列表如下:
1、关键词拓展模块,2、网站抓取模块,3、第一数据处理模块,4、第二数据处理模块,5、数据存储模块,6、可视化模块,7、蜂巢搜索模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种搜索引擎SEO网站数据的优化抓取方法,包括如下步骤:
步骤1,接收用户输入的关键词,对关键词进行拓展,获得多个长尾关键词;
步骤2,根据长尾关键词进行精准搜索,抓取相关大数据;
步骤3,将获得的相关大数据进行SEO自然排名,将排名数据及相关大数据内容发送至引擎服务器;
步骤4,所述引擎服务器对所述相关大数据内容进行大数据过滤,将过滤后的数据分类存储;
步骤5,根据所述分类存储的数据形成可视化图表进行展示。
上述技术方案还包括提供蜂巢搜索,具体实现如下:
当用户点击蜂巢搜索链接,进入蜂巢搜索界面,进行JS蜂巢分析,根据关键词生成分析报告。进行JS蜂巢分析,根据关键词生成分析报告的具体实现为:将可视化图表按照分析报告的框架转换成文字数据,生成分析报告。在蜂巢中形成可视化对比与分析,根据可视化的对比与分析形成数据报告,为用户提供多样的展示形式,满足用户的各种需求。
步骤1的具体实现为:接收用户输入的关键词,查询用户的访问记录cookie,根据用户的访问记录cookie分析用户的搜索习惯,根据用户的搜素习惯对用户输入的关键词进行拓展,获得相应的多个长尾关键词。
步骤2中所述大数据包括新闻、问问、百科、微信、微博、论坛、贴吧和文库中的一种或几种数据。
如图2所示,本发明实施例1,一种搜索引擎SEO网站数据的优化抓取***,包括关键词拓展模块1、网站抓取模块2、第一数据处理模块3、第二数据处理模块4、数据存储模块5和可视化模块6;所述关键词拓展模块1,其用于接收用户输入的关键词,对关键词进行拓展,获得多个长尾关键词;所述网站抓取模块2,其用于根据长尾关键词进行精准搜索,抓取相关大数据;所述第一数据处理模块3,将获得的相关大数据进行SEO自然排名,将排名数据及相关大数据内容发送至第二数据处理模块4;第二数据处理模块4,其用于对所述相关大数据内容进行大数据过滤;所述数据存储模块5,请用于将过滤后的数据分类存储;所述可视化模块6,其用于根据所述分类存储的数据形成可视化图表进行展示。
本发明实施例2是在实施例1的基础上,还包括蜂巢搜索模块7,其用于当用户点击蜂巢搜索链接,进入蜂巢搜索界面,进行JS蜂巢分析,根据关键词生成分析报告。所述蜂巢搜索模块将可视化图表按照分析报告的框架转换成文字数据,生成分析报告。
所述关键词拓展模块1包括接收单元11、查询单元12、分析单元13和 拓展单元14;所述接收单元11,其用于接收用户输入的关键词;所述查询单元12,其用于查询用户的访问记录cookie;所述分析单元13,其用于根据用户的访问记录cookie分析用户的搜索习惯;所述拓展单元14,其用于根据用户的搜素习惯对用户输入的关键词进行拓展,获得相应的多个长尾关键词。所述大数据包括新闻、问问、百科、微信、微博、论坛、贴吧和文库中的一种或几种数据。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种搜索引擎SEO网站数据的优化抓取方法,其特征在于,包括如下步骤:
步骤1,接收用户输入的关键词,对关键词进行拓展,获得多个长尾关键词;
步骤2,根据长尾关键词进行精准搜索,抓取相关大数据;
步骤3,将获得的相关大数据进行SEO自然排名,将排名数据及相关大数据内容发送至引擎服务器;
步骤4,所述引擎服务器对所述相关大数据内容进行大数据过滤,将过滤后的数据分类存储;
步骤5,根据所述分类存储的数据形成可视化图表进行展示。
2.根据权利要求1所述一种搜索引擎SEO网站数据的优化抓取方法,其特征在于,还包括提供蜂巢搜索,具体实现如下:
当用户点击蜂巢搜索链接,进入蜂巢搜索界面,进行JS蜂巢分析,根据关键词生成分析报告。
3.根据权利要求2所述一种搜索引擎SEO网站数据的优化抓取方法,其特征在于,进行JS蜂巢分析,根据关键词生成分析报告的具体实现为:将可视化图表按照分析报告的框架转换成文字数据,生成分析报告。
4.根据权利要求1所述一种搜索引擎SEO网站数据的优化抓取方法,其特征在于,步骤1的具体实现为:接收用户输入的关键词,查询用户的访问记录cookie,根据用户的访问记录cookie分析用户的搜索习惯,根据用户的搜素习惯对用户输入的关键词进行拓展,获得相应的多个长尾关键词。
5.根据权利要求1所述一种搜索引擎SEO网站数据的优化抓取方法,其特征在于,步骤2中所述大数据包括新闻、问问、百科、微信、微博、论坛、贴吧和文库中的一种或几种数据。
6.一种搜索引擎SEO网站数据的优化抓取***,其特征在于,包括关键词拓展模块、网站抓取模块、第一数据处理模块、第二数据处理模块、数据存储模块和可视化模块;
所述关键词拓展模块,其用于接收用户输入的关键词,对关键词进行拓展,获得多个长尾关键词;
所述网站抓取模块,其用于根据长尾关键词进行精准搜索,抓取相关大数据;
所述第一数据处理模块,将获得的相关大数据进行SEO自然排名,将排名数据及相关大数据内容发送至第二数据处理模块;
第二数据处理模块,其用于对所述相关大数据内容进行大数据过滤;
所述数据存储模块,请用于将过滤后的数据分类存储;
所述可视化模块,其用于根据所述分类存储的数据形成可视化图表进行展示。
7.根据权利要求6所述一种搜索引擎SEO网站数据的优化抓取***,其特征在于,还包括蜂巢搜索模块,其用于当用户点击蜂巢搜索链接,进入蜂巢搜索界面,进行JS蜂巢分析,根据关键词生成分析报告。
8.根据权利要求7所述一种搜索引擎SEO网站数据的优化抓取***,其特征在于,所述蜂巢搜索模块将可视化图表按照分析报告的框架转换成文字数据,生成分析报告。
9.根据权利要求6所述一种搜索引擎SEO网站数据的优化抓取***,其特征在于,所述关键词拓展模块包括接收单元、查询单元、分析单元和拓展单元;
所述接收单元,其用于接收用户输入的关键词;
所述查询单元,其用于查询用户的访问记录cookie;
所述分析单元,其用于根据用户的访问记录cook i e分析用户的搜索习惯;
所述拓展单元,其用于根据用户的搜素习惯对用户输入的关键词进行拓展,获得相应的多个长尾关键词。
10.根据权利要求6所述一种搜索引擎SEO网站数据的优化抓取***,其特征在于,所述大数据包括新闻、问问、百科、微信、微博、论坛、贴吧和文库中的一种或几种数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510106543.6A CN104778208A (zh) | 2015-03-11 | 2015-03-11 | 一种搜索引擎 seo 网站数据的优化抓取方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510106543.6A CN104778208A (zh) | 2015-03-11 | 2015-03-11 | 一种搜索引擎 seo 网站数据的优化抓取方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104778208A true CN104778208A (zh) | 2015-07-15 |
Family
ID=53619672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510106543.6A Pending CN104778208A (zh) | 2015-03-11 | 2015-03-11 | 一种搜索引擎 seo 网站数据的优化抓取方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104778208A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447113A (zh) * | 2015-11-13 | 2016-03-30 | 四川九成信息技术有限公司 | 一种基于大数据的信息分析方法 |
CN105528728A (zh) * | 2015-12-09 | 2016-04-27 | 江苏易销电子商务有限公司 | 一种基于云计算的商城电商服务平台及其方法 |
CN106446253A (zh) * | 2016-10-13 | 2017-02-22 | 中国农业大学 | 一种农药信息数据库建立的方法及装置 |
CN108647342A (zh) * | 2018-05-14 | 2018-10-12 | 佛山市真觉网络科技有限公司 | 一种优化百度蜘蛛抓取的方法 |
CN108647341A (zh) * | 2018-05-14 | 2018-10-12 | 佛山市真觉网络科技有限公司 | 一种提高搜索引擎排名的方法 |
CN108710706A (zh) * | 2018-05-28 | 2018-10-26 | 江苏中安环能新能源科技有限公司 | 一种搜索方法、***及装置 |
CN108733794A (zh) * | 2018-05-14 | 2018-11-02 | 佛山市真觉网络科技有限公司 | 一种基于关键词编辑的人工搜索引擎优化方法 |
CN109961317A (zh) * | 2019-02-20 | 2019-07-02 | 江苏瑞祥科技集团有限公司 | 一种用于客户拓展的一体化营销管理*** |
CN110188957A (zh) * | 2019-06-03 | 2019-08-30 | 南京微尚信息技术有限公司 | 网站智能优化推广*** |
CN112861046A (zh) * | 2021-02-24 | 2021-05-28 | 杭州志卓科技股份有限公司 | 搜索引擎优化的seo网站、方法、***、终端、介质 |
CN112860754A (zh) * | 2021-03-11 | 2021-05-28 | 恒基文化实业(深圳)有限公司 | 一种基于大数据筛选相应用户的数据处理方法 |
CN113010636A (zh) * | 2021-02-23 | 2021-06-22 | 玉米社(深圳)网络科技有限公司 | 一种快速检测网站所有关键词排名的方法 |
CN113032657A (zh) * | 2021-04-28 | 2021-06-25 | 玉米社(深圳)网络科技有限公司 | 一种快速选择企业推广中核心市场的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060074843A1 (en) * | 2004-09-30 | 2006-04-06 | Pereira Luis C | World wide web directory for providing live links |
CN101441645A (zh) * | 2007-11-23 | 2009-05-27 | 财团法人工业技术研究院 | 技术数据分析的***与方法 |
CN102033955A (zh) * | 2010-12-24 | 2011-04-27 | 常华 | 扩展用户搜索结果的方法及服务器 |
CN102200996A (zh) * | 2010-03-25 | 2011-09-28 | 微软公司 | 对动态报告进行解析和索引 |
CN104035966A (zh) * | 2014-05-16 | 2014-09-10 | 百度在线网络技术(北京)有限公司 | 一种提供扩展搜索项的方法与装置 |
-
2015
- 2015-03-11 CN CN201510106543.6A patent/CN104778208A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060074843A1 (en) * | 2004-09-30 | 2006-04-06 | Pereira Luis C | World wide web directory for providing live links |
CN101441645A (zh) * | 2007-11-23 | 2009-05-27 | 财团法人工业技术研究院 | 技术数据分析的***与方法 |
CN102200996A (zh) * | 2010-03-25 | 2011-09-28 | 微软公司 | 对动态报告进行解析和索引 |
CN102033955A (zh) * | 2010-12-24 | 2011-04-27 | 常华 | 扩展用户搜索结果的方法及服务器 |
CN104035966A (zh) * | 2014-05-16 | 2014-09-10 | 百度在线网络技术(北京)有限公司 | 一种提供扩展搜索项的方法与装置 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447113B (zh) * | 2015-11-13 | 2018-09-28 | 深圳市远方创新数据咨询有限公司 | 一种基于大数据的信息分析方法 |
CN105447113A (zh) * | 2015-11-13 | 2016-03-30 | 四川九成信息技术有限公司 | 一种基于大数据的信息分析方法 |
CN105528728A (zh) * | 2015-12-09 | 2016-04-27 | 江苏易销电子商务有限公司 | 一种基于云计算的商城电商服务平台及其方法 |
CN106446253A (zh) * | 2016-10-13 | 2017-02-22 | 中国农业大学 | 一种农药信息数据库建立的方法及装置 |
CN108733794A (zh) * | 2018-05-14 | 2018-11-02 | 佛山市真觉网络科技有限公司 | 一种基于关键词编辑的人工搜索引擎优化方法 |
CN108647342A (zh) * | 2018-05-14 | 2018-10-12 | 佛山市真觉网络科技有限公司 | 一种优化百度蜘蛛抓取的方法 |
CN108647341A (zh) * | 2018-05-14 | 2018-10-12 | 佛山市真觉网络科技有限公司 | 一种提高搜索引擎排名的方法 |
CN108710706A (zh) * | 2018-05-28 | 2018-10-26 | 江苏中安环能新能源科技有限公司 | 一种搜索方法、***及装置 |
CN109961317A (zh) * | 2019-02-20 | 2019-07-02 | 江苏瑞祥科技集团有限公司 | 一种用于客户拓展的一体化营销管理*** |
CN110188957A (zh) * | 2019-06-03 | 2019-08-30 | 南京微尚信息技术有限公司 | 网站智能优化推广*** |
CN113010636A (zh) * | 2021-02-23 | 2021-06-22 | 玉米社(深圳)网络科技有限公司 | 一种快速检测网站所有关键词排名的方法 |
CN112861046A (zh) * | 2021-02-24 | 2021-05-28 | 杭州志卓科技股份有限公司 | 搜索引擎优化的seo网站、方法、***、终端、介质 |
CN112860754A (zh) * | 2021-03-11 | 2021-05-28 | 恒基文化实业(深圳)有限公司 | 一种基于大数据筛选相应用户的数据处理方法 |
CN113032657A (zh) * | 2021-04-28 | 2021-06-25 | 玉米社(深圳)网络科技有限公司 | 一种快速选择企业推广中核心市场的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104778208A (zh) | 一种搜索引擎 seo 网站数据的优化抓取方法及*** | |
CN109033387B (zh) | 一种融合多源数据的物联网搜索***、方法及存储介质 | |
CN107273409B (zh) | 一种网络数据采集、存储及处理方法及*** | |
CN105447184B (zh) | 信息抓取方法及装置 | |
CN102760138B (zh) | 用户网络行为的分类方法和装置及对应的搜索方法和装置 | |
CN104699704B (zh) | 内容推送及接收方法、装置和*** | |
CN102567494B (zh) | 网站分类方法及装置 | |
CN101814083A (zh) | 网页自动分类方法和*** | |
CN104077377A (zh) | 基于网络文章属性的网络舆情热点发现方法和装置 | |
WO2014180130A1 (en) | Method and system for recommending contents | |
CN101908071A (zh) | 一种提高搜索引擎搜索效率的方法及其*** | |
CN103617266A (zh) | 个性化扩展搜索方法及装置、*** | |
CN103577489A (zh) | 一种网页浏览历史查询方法及装置 | |
CN103577490A (zh) | 一种网页浏览历史展现方法及装置 | |
EP2802979A2 (en) | Processing store visiting data | |
CN103744856A (zh) | 联动性扩展搜索方法及装置、*** | |
CN104615627A (zh) | 一种基于微博平台的事件舆情信息提取方法及*** | |
CN103559258A (zh) | 基于云计算的网页排序方法 | |
CN104021125A (zh) | 一种搜索引擎排序的方法、***以及一种搜索引擎 | |
CN103077254A (zh) | 网页获取方法和装置 | |
CN103514282A (zh) | 一种视频搜索结果展示方法及装置 | |
CN105302807A (zh) | 一种获取信息类别的方法和装置 | |
CN105808642B (zh) | 推荐方法及装置 | |
CN103745006A (zh) | 一种互联网信息搜索***及方法 | |
CN102955802A (zh) | 从数据报表中获取数据的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150715 |