CN117076773B

CN117076773B - 一种基于互联网信息的数据源筛选优化方法

Info

Publication number: CN117076773B
Application number: CN202311063341.9A
Authority: CN
Inventors: 闫磊; 潘俊峰; 梁雷; 聂磊; 董曙光
Original assignee: Shanghai Languiqi Technology Development Co ltd
Current assignee: Shanghai Languiqi Technology Development Co ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2024-05-28
Anticipated expiration: 2043-08-23
Also published as: CN117076773A

Abstract

本发明公开了一种基于互联网信息的数据源筛选优化方法，具体步骤如下：S1：选取每个搜索引擎得到的前n个搜索结果放入内容资源列表中，经去重处理后作为筛选优化的输入；S2：对内容资源列表中的搜索结果进行权值初始化；S3：根据打分规则，对内容资源列表中的每个内容资源网站进行权重打分，得到一个以内容资源网站为key，以权重得分为Value值的字典；S4：将该字典按Value值的从高到低进行排序，将排名前m的内容资源网站输出至结果列表作为筛选优化后的数据源。本发明在互联网信息爬取过程中，对数据源进行筛选及优化，以得到高价值度、高匹配度、高可靠性的数据，以解决互联网信息驳杂、价值密度低的问题，为农业生产提供数据支撑以及数据来源。

Description

一种基于互联网信息的数据源筛选优化方法

技术领域

本发明属于大数据领域，特别涉及一种基于互联网信息的数据源筛选优化方法。

背景技术

为了能够更好地推动智能农业、智慧农业的发展，如何获取高价值度、高匹配度、高可靠性的数据尤为重要。互联网作为当下重要的信息获取手段之一，其信息量巨大、种类丰富，同时也存在着信息驳杂、价值密度低的缺点。因此，为了尽可能获取最有效的数据信息，往往需要耗费大量的人工进行数据筛选。且由于各搜索引擎其内置的搜索算法不同，单一搜索引擎的搜索结果往往存在一定的局限性，导致出现漏检现象，遗漏重要数据信息。

发明目的

为了解决上述技术问题，本发明公开了一种基于互联网信息的数据源筛选优化方法，在互联网信息爬取过程中，对数据源进行筛选及优化，以得到高价值度、高匹配度、高可靠性的数据，以解决互联网信息驳杂、价值密度低的问题，为农业生产提供数据支撑以及数据来源。

本发明的具体技术方案如下：

一种基于互联网信息的数据源筛选优化方法，具体步骤如下：

S1：将关键词分别在互联网中不同的搜索引擎中进行检索，选取每个搜索引擎得到的前n个搜索结果放入内容资源列表中，经去重处理后作为筛选优化的输入；

S2：对内容资源列表中的搜索结果进行权值初始化；

S3：根据打分规则，对内容资源列表中的每个内容资源网站进行权重打分，得到一个以内容资源网站为key，以权重得分为Value值的字典；

S4：将该字典按Value值的从高到低进行排序，将排名前m的内容资源网站输出至结果列表作为筛选优化后的数据源。

优选地，对步骤S4得到的结果列表进行进一步的验证和评估，具体方法如下：

对结果列表中的内容资源网站的内容信息按照期望得到的数据信息条目进行爬取，并将爬取得到的数据信息条目与期望得到的数据信息条目做比值计算，该比值用于衡量内容资源网站的价值度，其计算公式为：

内容资源网站价值度＝该网站爬取信息条目/期望得到数据条目。

优选地，所述S3中，从可信度、匹配度、普适度三个维度对内容资源网站进行权重打分计算。

优选地，所述S3中，根据公式(1)对内容资源网站进行权重打分：

Value＝V₁*a₁+V₂*a₂+…+V_n*a_n (1)；

其中，V_n表示内容资源网站在第n个维度的得分值，a_n表示第n个维度的权重比例，且a₁+a₂+…+a_n＝1。

优选地，所述S3中，所述可信度的权重根据信息发布网站类型进行分布，所述匹配度的权重根据信息匹配类型进行分布，所述普适度的权重根据信息适用标准类型进行分布。

优选地，信息发布网站类型包括部委官方公布、部委下属单位公布、省市地方官方数据公布、地方单位公布、行业龙头官方网站、行业一般企业官方网站、第三方统计网站和电商网站。

优选地，所述信息匹配类型包括关键词匹配、类别匹配、领域匹配和行业匹配。

优选地，所述信息适用标准类型包括国家标准、行业标准、地方标准和企业标准。

有益效果：本发明公开了一种基于互联网信息的数据源筛选优化方法，具有如下优点：

(1)本发明借助不同搜索引擎其内置的搜索算法以及排序规则作为初步筛选的数据输入，可以综合充分利用各搜索引擎实现初步筛选，不仅可以提高输入数据的全面性，还能有效减少后面筛选优化的数据量，有利于提高筛选优化效率；

(2)本发明从可信度、匹配度、普适度三个维度对内容资源网站进行打分选择得分高的内容资源网站输出，实现了数据源的筛选和优化，有利于提高搜索结果的价值度、可靠性以及匹配度。

(3)本发明通过爬取筛选后内容资源网站的内容信息与预设置的期望得到的数据信息条目进行比较，从而对优化结果做一步的验证与评估，进一步保证了搜索结果的价值度、可靠性以及匹配度。

附图说明

图1为本发明的数据源筛选优化方法示意图。

具体实施方式

下面结合附图对本发明作若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

实施例1

以农业生产中水稻种苗数据信息的爬取为例，如图1所示，基于互联网信息对数据源进行筛选优化，具体方法如下：

步骤1：设置输入关键词为“水稻种子信息”，在本实施例中将该关键词输入百度、搜狗、360和Bing四个不同搜索引擎中，将每个搜索引擎排名前20的搜索结果放入内容资源列表中，并作去重处理，得到如下内容资源列表：

[https://ricedata.cn/,https://www.ricedata.cn/variety/,https://www.cgris.net/,https://zhuanlan.zhihu.com/p/374483809,https://baike.***.hk/item/％E6％B0％B4％E7％A8％BB/21285,http://www.zys.moa.gov.cn/mhsh/202104/t20210422_6366373.htm,https://baike.***.com/item/％E7％A8％BB/4417005,https://www.ricedata.cn/variety/superice.htm,https://www.gov.cn/xinwen/2022-12/05/content_5730461.htm,http://www.jiangdu.gov.cn/jdqxxgk/nyncj/202304/9585364ff7644872a192aa4e764acbd2.shtml,...,https://www.***.com/link？url＝mqtDoXWwXYVLdKcQWTGUgzJODBEum5ZwKuGHls3NrfKKlgdy2N-5kfUU9Abxpw4w&wd＝&eqid＝8e799a1c00002480000000046497f78d,https://www.***.com/link？url＝mqtDoXWwXYVLdKcQWTGUgrK3K0aILqMtbYseQAn6vP2-5lVLOgsNpBv4RoklwWfcvNVoWN6OXLGcq3BtRJP_oWtzZritn37lyIlYvPn4fYDFgtxTvg7uqrzcMgWV3bkyRkgqVZEObUtkqLB3m1iUwWAzK3wAnFZXppTYghXeYDUC3pLMHonrqWLeRDJ7KcXKiqTtTRhJtZfzExYxI3mSVr4e8vLxhUSCsuL9doVU6TB0VeGXmp8QLVmkB8-HGBHCwxOUKVFM4f56y-lExxW4U_&wd＝&eqid＝8e799a1c00002480000000046497f78d,https://www.***.com/link？url＝mMw2X75qEAIbS7UaWryrE30mmDQC2vfgEAU1SUVbxG9FcbNBsXgj8I8_2eBtePgQGUP49x7a0L1-uFMfzuAXOw77M9u0awzhoN6a0gmyGqy&wd＝&eqid＝8e799a1c00002480000000046497f78d,https://www.***.com/link？url＝mMw2X75qEAIbS7UaWryrEEZJFrDq5Q8gbyA3LHePwBA6AkxTlgFSzbpcesUaRiFHhXCXi-xOUgwhJ__3SS16zZonqACOiHu99BsG9XVxrGS&wd＝&eqid＝8e799a1c00002480000000046497f78d]。

本发明中的搜索引擎可以但不仅限于上述搜索引擎，现有的可以实现信息检索的搜索引擎均可适用。

步骤2：将上述内容资源列表作为输入进行筛选及优化，首先对对内容资源列表中的搜索结果进行权值初始化，即字典key对应的内容资源网站的Value值初始化为0。然后按照打分规则，对上述内容资源列表中的内容资源网站进行权重打分，得到一个如下所示的以内容资源网站为key，以权重得分为Value值的字典：

[https://www.ricedata.cn/variety/:9,https://ricedata.cn/:8.4,https://www.ricedata.cn/variety/superice.htm:8,https://www.cgris.net/:7.8,http://www.zys.moa.gov.cn/mhsh/202104/t20210422_6366373.html:7.2,...,https://baike.***.com/item/％E7％A8％BB/4417005:5.8,https://baike.***.hk/item/％E6％B0％B4％E7％A8％BB/21285:5.8,https://zhuanlan.zhihu.com/p/374483809:4.6]。

将该字典按Value值的从高到低进行排序，将排名前20的内容资源网站输出至结果列表。

本发明中，权重打分计算如公式(1)所示：

Value＝V₁*a₁+V₂*a₂+…+V_n*a_n (1)；

其中，V_n表示内容资源网站在第n个维度的得分值，a_n表示第n维度的权重比例，且a₁+a₂+…+a_n＝1。

本实施例1中的打分规则为：从可信度、匹配度、普适度三个维度对内容资源网站进行权重打分计算,即n取值为3。各维度的权重分值表设计如下所示：

表1可信度权重分布表

表2匹配度权重分布表

	关键词匹配	类别匹配	领域匹配	行业匹配	权重比例
						匹配度	10	8	6	4	0.3

表3普适度权重分布表

	国家标准	行业标准	地方标准	企业标准	权重比例
						普适度	10	8	6	4	0.2

步骤3：根据水稻种苗数据信息，设定期望得到的数据信息条目，共计22个数据条目，如下表所示：

表4期望得到的数据信息条目

步骤4：按照上述期望得到的数据信息条目，对步骤2得到的结果列表中的内容资源网站进行内容信息爬取，将爬取到的数据信息条目与期望得到的数据信息条目做比值计算，以得到内容资源网站的价值度，用于评估筛选优化方法的好坏程度评估)，计算公式如下：内容资源网站价值度＝该网站爬取信息条目/期望得到数据条目。

数据源筛选优化方法的好坏程度评估标准可以根据用户实际需求进行设定，例如：以内容资源网站价值度作为衡量标准，可以认为高于85％是很好，75％-85％是较好，60％-75％是一般，60％以下是不好。

若经评估得到的结果不好，则表明筛选优化方法需要进行调整，可以考虑增加维度，进一步细分各维度的衡量指标等等。

以上所述仅是本发明说明，为本发明的优选实施方式。应当指出，对于本技术领域的普通技术人员来脱离本发明的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于互联网信息的数据源筛选优化方法，其特征在于，具体步骤如下：

S2：对内容资源列表中的搜索结果进行权值初始化；

S3：根据如公式（1）所示的打分规则，从可信度、匹配度、普适度三个维度对内容资源列表中的每个内容资源网站进行权重打分，得到一个以内容资源网站为key，以权重得分为Value值的字典，其中，公式（1）如下所示：

Value=V₁*a₁+ V₂*a₂+…+V_n*a_n（1）；

其中，V_n表示内容资源网站在第n个维度的得分值，a_n表示第n个维度的权重比例，且a₁+a₂+…+ a_n=1；

所述可信度的权重根据信息发布网站类型进行分布，所述信息发布网站类型包括部委官方公布、部委下属单位公布、省市地方官方数据公布、地方单位公布、行业龙头官方网站、行业一般企业官方网站、第三方统计网站和电商网站；

所述匹配度的权重根据信息匹配类型进行分布，所述信息匹配类型包括关键词匹配、类别匹配、领域匹配和行业匹配；

所述普适度的权重根据信息适用标准类型进行分布，所述信息适用标准类型包括国家标准、行业标准、地方标准和企业标准；

S4：将该字典按Value值的从高到低进行排序，将排名前m的内容资源网站输出至结果列表作为筛选优化后的数据源；

对步骤S4得到的结果列表进行进一步的验证和评估，具体方法如下：

对结果列表中的内容资源网站的内容信息按照期望得到的数据信息条目进行爬取，期望得到的数据条目是根据关键词进行设定得到的，并将爬取得到的数据信息条目与期望得到的数据信息条目做比值计算，该比值用于衡量内容资源网站的价值度，其计算公式为：

内容资源网站价值度 = 该网站爬取信息条目/期望得到数据条目。