CN117076773B - 一种基于互联网信息的数据源筛选优化方法 - Google Patents

一种基于互联网信息的数据源筛选优化方法 Download PDF

Info

Publication number
CN117076773B
CN117076773B CN202311063341.9A CN202311063341A CN117076773B CN 117076773 B CN117076773 B CN 117076773B CN 202311063341 A CN202311063341 A CN 202311063341A CN 117076773 B CN117076773 B CN 117076773B
Authority
CN
China
Prior art keywords
content resource
website
information
value
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311063341.9A
Other languages
English (en)
Other versions
CN117076773A (zh
Inventor
闫磊
潘俊峰
梁雷
聂磊
董曙光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Languiqi Technology Development Co ltd
Original Assignee
Shanghai Languiqi Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Languiqi Technology Development Co ltd filed Critical Shanghai Languiqi Technology Development Co ltd
Priority to CN202311063341.9A priority Critical patent/CN117076773B/zh
Publication of CN117076773A publication Critical patent/CN117076773A/zh
Application granted granted Critical
Publication of CN117076773B publication Critical patent/CN117076773B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于互联网信息的数据源筛选优化方法,具体步骤如下:S1:选取每个搜索引擎得到的前n个搜索结果放入内容资源列表中,经去重处理后作为筛选优化的输入;S2:对内容资源列表中的搜索结果进行权值初始化;S3:根据打分规则,对内容资源列表中的每个内容资源网站进行权重打分,得到一个以内容资源网站为key,以权重得分为Value值的字典;S4:将该字典按Value值的从高到低进行排序,将排名前m的内容资源网站输出至结果列表作为筛选优化后的数据源。本发明在互联网信息爬取过程中,对数据源进行筛选及优化,以得到高价值度、高匹配度、高可靠性的数据,以解决互联网信息驳杂、价值密度低的问题,为农业生产提供数据支撑以及数据来源。

Description

一种基于互联网信息的数据源筛选优化方法
技术领域
本发明属于大数据领域,特别涉及一种基于互联网信息的数据源筛选优化方法。
背景技术
为了能够更好地推动智能农业、智慧农业的发展,如何获取高价值度、高匹配度、高可靠性的数据尤为重要。互联网作为当下重要的信息获取手段之一,其信息量巨大、种类丰富,同时也存在着信息驳杂、价值密度低的缺点。因此,为了尽可能获取最有效的数据信息,往往需要耗费大量的人工进行数据筛选。且由于各搜索引擎其内置的搜索算法不同,单一搜索引擎的搜索结果往往存在一定的局限性,导致出现漏检现象,遗漏重要数据信息。
发明目的
为了解决上述技术问题,本发明公开了一种基于互联网信息的数据源筛选优化方法,在互联网信息爬取过程中,对数据源进行筛选及优化,以得到高价值度、高匹配度、高可靠性的数据,以解决互联网信息驳杂、价值密度低的问题,为农业生产提供数据支撑以及数据来源。
本发明的具体技术方案如下:
一种基于互联网信息的数据源筛选优化方法,具体步骤如下:
S1:将关键词分别在互联网中不同的搜索引擎中进行检索,选取每个搜索引擎得到的前n个搜索结果放入内容资源列表中,经去重处理后作为筛选优化的输入;
S2:对内容资源列表中的搜索结果进行权值初始化;
S3:根据打分规则,对内容资源列表中的每个内容资源网站进行权重打分,得到一个以内容资源网站为key,以权重得分为Value值的字典;
S4:将该字典按Value值的从高到低进行排序,将排名前m的内容资源网站输出至结果列表作为筛选优化后的数据源。
优选地,对步骤S4得到的结果列表进行进一步的验证和评估,具体方法如下:
对结果列表中的内容资源网站的内容信息按照期望得到的数据信息条目进行爬取,并将爬取得到的数据信息条目与期望得到的数据信息条目做比值计算,该比值用于衡量内容资源网站的价值度,其计算公式为:
内容资源网站价值度=该网站爬取信息条目/期望得到数据条目。
优选地,所述S3中,从可信度、匹配度、普适度三个维度对内容资源网站进行权重打分计算。
优选地,所述S3中,根据公式(1)对内容资源网站进行权重打分:
Value=V1*a1+V2*a2+…+Vn*an (1);
其中,Vn表示内容资源网站在第n个维度的得分值,an表示第n个维度的权重比例,且a1+a2+…+an=1。
优选地,所述S3中,所述可信度的权重根据信息发布网站类型进行分布,所述匹配度的权重根据信息匹配类型进行分布,所述普适度的权重根据信息适用标准类型进行分布。
优选地,信息发布网站类型包括部委官方公布、部委下属单位公布、省市地方官方数据公布、地方单位公布、行业龙头官方网站、行业一般企业官方网站、第三方统计网站和电商网站。
优选地,所述信息匹配类型包括关键词匹配、类别匹配、领域匹配和行业匹配。
优选地,所述信息适用标准类型包括国家标准、行业标准、地方标准和企业标准。
有益效果:本发明公开了一种基于互联网信息的数据源筛选优化方法,具有如下优点:
(1)本发明借助不同搜索引擎其内置的搜索算法以及排序规则作为初步筛选的数据输入,可以综合充分利用各搜索引擎实现初步筛选,不仅可以提高输入数据的全面性,还能有效减少后面筛选优化的数据量,有利于提高筛选优化效率;
(2)本发明从可信度、匹配度、普适度三个维度对内容资源网站进行打分选择得分高的内容资源网站输出,实现了数据源的筛选和优化,有利于提高搜索结果的价值度、可靠性以及匹配度。
(3)本发明通过爬取筛选后内容资源网站的内容信息与预设置的期望得到的数据信息条目进行比较,从而对优化结果做一步的验证与评估,进一步保证了搜索结果的价值度、可靠性以及匹配度。
附图说明
图1为本发明的数据源筛选优化方法示意图。
具体实施方式
下面结合附图对本发明作若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
实施例1
以农业生产中水稻种苗数据信息的爬取为例,如图1所示,基于互联网信息对数据源进行筛选优化,具体方法如下:
步骤1:设置输入关键词为“水稻种子信息”,在本实施例中将该关键词输入百度、搜狗、360和Bing四个不同搜索引擎中,将每个搜索引擎排名前20的搜索结果放入内容资源列表中,并作去重处理,得到如下内容资源列表:
[https://ricedata.cn/,https://www.ricedata.cn/variety/,https://www.cgris.net/,https://zhuanlan.zhihu.com/p/374483809,https://baike.***.hk/item/%E6%B0%B4%E7%A8%BB/21285,http://www.zys.moa.gov.cn/mhsh/202104/t20210422_6366373.htm,https://baike.***.com/item/%E7%A8%BB/4417005,https://www.ricedata.cn/variety/superice.htm,https://www.gov.cn/xinwen/2022-12/05/content_5730461.htm,http://www.jiangdu.gov.cn/jdqxxgk/nyncj/202304/9585364ff7644872a192aa4e764acbd2.shtml,...,https://www.***.com/link?url=mqtDoXWwXYVLdKcQWTGUgzJODBEum5ZwKuGHls3NrfKKlgdy2N-5kfUU9Abxpw4w&wd=&eqid=8e799a1c00002480000000046497f78d,https://www.***.com/link?url=mqtDoXWwXYVLdKcQWTGUgrK3K0aILqMtbYseQAn6vP2-5lVLOgsNpBv4RoklwWfcvNVoWN6OXLGcq3BtRJP_oWtzZritn37lyIlYvPn4fYDFgtxTvg7uqrzcMgWV3bkyRkgqVZEObUtkqLB3m1iUwWAzK3wAnFZXppTYghXeYDUC3pLMHonrqWLeRDJ7KcXKiqTtTRhJtZfzExYxI3mSVr4e8vLxhUSCsuL9doVU6TB0VeGXmp8QLVmkB8-HGBHCwxOUKVFM4f56y-lExxW4U_&wd=&eqid=8e799a1c00002480000000046497f78d,https://www.***.com/link?url=mMw2X75qEAIbS7UaWryrE30mmDQC2vfgEAU1SUVbxG9FcbNBsXgj8I8_2eBtePgQGUP49x7a0L1-uFMfzuAXOw77M9u0awzhoN6a0gmyGqy&wd=&eqid=8e799a1c00002480000000046497f78d,https://www.***.com/link?url=mMw2X75qEAIbS7UaWryrEEZJFrDq5Q8gbyA3LHePwBA6AkxTlgFSzbpcesUaRiFHhXCXi-xOUgwhJ__3SS16zZonqACOiHu99BsG9XVxrGS&wd=&eqid=8e799a1c00002480000000046497f78d]。
本发明中的搜索引擎可以但不仅限于上述搜索引擎,现有的可以实现信息检索的搜索引擎均可适用。
步骤2:将上述内容资源列表作为输入进行筛选及优化,首先对对内容资源列表中的搜索结果进行权值初始化,即字典key对应的内容资源网站的Value值初始化为0。然后按照打分规则,对上述内容资源列表中的内容资源网站进行权重打分,得到一个如下所示的以内容资源网站为key,以权重得分为Value值的字典:
[https://www.ricedata.cn/variety/:9,https://ricedata.cn/:8.4,https://www.ricedata.cn/variety/superice.htm:8,https://www.cgris.net/:7.8,http://www.zys.moa.gov.cn/mhsh/202104/t20210422_6366373.html:7.2,...,https://baike.***.com/item/%E7%A8%BB/4417005:5.8,https://baike.***.hk/item/%E6%B0%B4%E7%A8%BB/21285:5.8,https://zhuanlan.zhihu.com/p/374483809:4.6]。
将该字典按Value值的从高到低进行排序,将排名前20的内容资源网站输出至结果列表。
本发明中,权重打分计算如公式(1)所示:
Value=V1*a1+V2*a2+…+Vn*an (1);
其中,Vn表示内容资源网站在第n个维度的得分值,an表示第n维度的权重比例,且a1+a2+…+an=1。
本实施例1中的打分规则为:从可信度、匹配度、普适度三个维度对内容资源网站进行权重打分计算,即n取值为3。各维度的权重分值表设计如下所示:
表1可信度权重分布表
表2匹配度权重分布表
关键词匹配 类别匹配 领域匹配 行业匹配 权重比例
匹配度 10 8 6 4 0.3
表3普适度权重分布表
国家标准 行业标准 地方标准 企业标准 权重比例
普适度 10 8 6 4 0.2
步骤3:根据水稻种苗数据信息,设定期望得到的数据信息条目,共计22个数据条目,如下表所示:
表4期望得到的数据信息条目
步骤4:按照上述期望得到的数据信息条目,对步骤2得到的结果列表中的内容资源网站进行内容信息爬取,将爬取到的数据信息条目与期望得到的数据信息条目做比值计算,以得到内容资源网站的价值度,用于评估筛选优化方法的好坏程度评估),计算公式如下:内容资源网站价值度=该网站爬取信息条目/期望得到数据条目。
数据源筛选优化方法的好坏程度评估标准可以根据用户实际需求进行设定,例如:以内容资源网站价值度作为衡量标准,可以认为高于85%是很好,75%-85%是较好,60%-75%是一般,60%以下是不好。
若经评估得到的结果不好,则表明筛选优化方法需要进行调整,可以考虑增加维度,进一步细分各维度的衡量指标等等。
以上所述仅是本发明说明,为本发明的优选实施方式。应当指出,对于本技术领域的普通技术人员来脱离本发明的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (1)

1.一种基于互联网信息的数据源筛选优化方法,其特征在于,具体步骤如下:
S1:将关键词分别在互联网中不同的搜索引擎中进行检索,选取每个搜索引擎得到的前n个搜索结果放入内容资源列表中,经去重处理后作为筛选优化的输入;
S2:对内容资源列表中的搜索结果进行权值初始化;
S3:根据如公式(1)所示的打分规则,从可信度、匹配度、普适度三个维度对内容资源列表中的每个内容资源网站进行权重打分,得到一个以内容资源网站为key,以权重得分为Value值的字典,其中,公式(1)如下所示:
Value=V1*a1+ V2*a2+…+Vn*an(1);
其中,Vn表示内容资源网站在第n个维度的得分值,an表示第n个维度的权重比例,且a1+a2+…+ an=1;
所述可信度的权重根据信息发布网站类型进行分布,所述信息发布网站类型包括部委官方公布、部委下属单位公布、省市地方官方数据公布、地方单位公布、行业龙头官方网站、行业一般企业官方网站、第三方统计网站和电商网站;
所述匹配度的权重根据信息匹配类型进行分布,所述信息匹配类型包括关键词匹配、类别匹配、领域匹配和行业匹配;
所述普适度的权重根据信息适用标准类型进行分布,所述信息适用标准类型包括国家标准、行业标准、地方标准和企业标准;
S4:将该字典按Value值的从高到低进行排序,将排名前m的内容资源网站输出至结果列表作为筛选优化后的数据源;
对步骤S4得到的结果列表进行进一步的验证和评估,具体方法如下:
对结果列表中的内容资源网站的内容信息按照期望得到的数据信息条目进行爬取,期望得到的数据条目是根据关键词进行设定得到的,并将爬取得到的数据信息条目与期望得到的数据信息条目做比值计算,该比值用于衡量内容资源网站的价值度,其计算公式为:
内容资源网站价值度 = 该网站爬取信息条目/期望得到数据条目。
CN202311063341.9A 2023-08-23 2023-08-23 一种基于互联网信息的数据源筛选优化方法 Active CN117076773B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311063341.9A CN117076773B (zh) 2023-08-23 2023-08-23 一种基于互联网信息的数据源筛选优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311063341.9A CN117076773B (zh) 2023-08-23 2023-08-23 一种基于互联网信息的数据源筛选优化方法

Publications (2)

Publication Number Publication Date
CN117076773A CN117076773A (zh) 2023-11-17
CN117076773B true CN117076773B (zh) 2024-05-28

Family

ID=88714825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311063341.9A Active CN117076773B (zh) 2023-08-23 2023-08-23 一种基于互联网信息的数据源筛选优化方法

Country Status (1)

Country Link
CN (1) CN117076773B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639838A (zh) * 2008-07-31 2010-02-03 深圳龙媒网络技术有限公司 一种资源搜索方法和资源搜索***
CN102023996A (zh) * 2009-09-21 2011-04-20 英业达股份有限公司 依据网站文章内容对网站进行排序的***及其方法
CN104008210A (zh) * 2014-06-20 2014-08-27 李玉坤 一种基于多搜索引擎的Web信息检索方法
CN104111888A (zh) * 2014-07-03 2014-10-22 曹建楠 一种面向教学的代码评测方法、装置和***
WO2015070673A1 (zh) * 2013-11-15 2015-05-21 北京奇虎科技有限公司 浏览器侧进行网络搜索的方法与浏览器
WO2015089860A1 (zh) * 2013-12-18 2015-06-25 孙燕群 基于用户参与的搜索引擎排序方法
CN110175280A (zh) * 2019-04-30 2019-08-27 广东鼎义互联科技股份有限公司 一种基于政务大数据的爬虫分析平台
CN110968511A (zh) * 2019-11-29 2020-04-07 车智互联(北京)科技有限公司 一种推荐引擎的测试方法、装置、计算设备和***
CN111177514A (zh) * 2019-12-31 2020-05-19 沈阳航空航天大学 基于网站特征分析的信源评价方法、装置及存储设备、程序
CN112417299A (zh) * 2020-12-08 2021-02-26 西安联乘智能科技有限公司 一种网页推荐方法、计算机存储介质及计算设备
CN113722572A (zh) * 2021-10-11 2021-11-30 上海易路软件有限公司 一种分布式深度爬取的方法、装置及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8650191B2 (en) * 2010-08-23 2014-02-11 Vistaprint Schweiz Gmbh Search engine optimization assistant
US11693910B2 (en) * 2018-12-13 2023-07-04 Microsoft Technology Licensing, Llc Personalized search result rankings

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639838A (zh) * 2008-07-31 2010-02-03 深圳龙媒网络技术有限公司 一种资源搜索方法和资源搜索***
CN102023996A (zh) * 2009-09-21 2011-04-20 英业达股份有限公司 依据网站文章内容对网站进行排序的***及其方法
WO2015070673A1 (zh) * 2013-11-15 2015-05-21 北京奇虎科技有限公司 浏览器侧进行网络搜索的方法与浏览器
WO2015089860A1 (zh) * 2013-12-18 2015-06-25 孙燕群 基于用户参与的搜索引擎排序方法
CN104008210A (zh) * 2014-06-20 2014-08-27 李玉坤 一种基于多搜索引擎的Web信息检索方法
CN104111888A (zh) * 2014-07-03 2014-10-22 曹建楠 一种面向教学的代码评测方法、装置和***
CN110175280A (zh) * 2019-04-30 2019-08-27 广东鼎义互联科技股份有限公司 一种基于政务大数据的爬虫分析平台
CN110968511A (zh) * 2019-11-29 2020-04-07 车智互联(北京)科技有限公司 一种推荐引擎的测试方法、装置、计算设备和***
CN111177514A (zh) * 2019-12-31 2020-05-19 沈阳航空航天大学 基于网站特征分析的信源评价方法、装置及存储设备、程序
CN112417299A (zh) * 2020-12-08 2021-02-26 西安联乘智能科技有限公司 一种网页推荐方法、计算机存储介质及计算设备
CN113722572A (zh) * 2021-10-11 2021-11-30 上海易路软件有限公司 一种分布式深度爬取的方法、装置及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
面向网页信息筛选的可信度评估研究;靳嘉林,王曰芬,郑小昌;情报理论与实践;20170515;第40卷(第5期);116-121 *
靳嘉林 ; 王曰芬 ; 郑小昌 ; .面向网页信息筛选的可信度评估研究.情报理论与实践.2017,40(5),116-121. *

Also Published As

Publication number Publication date
CN117076773A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN100507920C (zh) 一种基于用户行为信息的搜索引擎检索结果重排序方法
US7756867B2 (en) Ranking documents
CN100433007C (zh) 提供搜索结果的方法
Singh et al. A comparative study of page ranking algorithms for information retrieval
Pavani et al. A novel web crawling method for vertical search engines
Choudhary et al. Role of ranking algorithms for information retrieval
Alghamdi et al. Extended user preference based weighted page ranking algorithm
CN117076773B (zh) 一种基于互联网信息的数据源筛选优化方法
Yan et al. An improved PageRank method based on genetic algorithm for web search
Batra et al. Comparative study of page rank algorithm with different ranking algorithms adopted by search engine for website ranking
Lei et al. Improved relevance ranking in WebGather
Kadam Search Engine Optimization Techniques and Tools
Yerma et al. Updated page rank of dynamically generated research authors' pages: A new idea
Batra et al. Content based hidden web ranking algorithm (CHWRA)
Zeraatkar et al. Improvement of Page Ranking Algorithm by Negative Score of Spam Pages.
Liang et al. R-SpamRank: a spam detection algorithm based on link analysis
WO2005024661A2 (en) Improved search engine optimisation
Rashmi et al. Deep web crawler: exploring and re-ranking of web forms
Zubi Ranking webpages using web structure mining concepts
Jiang et al. Improved methods for static index pruning
Bama et al. Improved pagerank algorithm for web structure mining
CN105159899A (zh) 一种搜索的方法和装置
CN109948019B (zh) 一种深层网络数据获取方法
Sundarde et al. Smart crawler for hidden web interfaces
Malas et al. SmartCrawler: Extraction of targeted forms from deep web using site locating and in-site exploring

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant