CN113127714A

CN113127714A - 一种物流大数据采集方法

Info

Publication number: CN113127714A
Application number: CN201911406474.5A
Authority: CN
Inventors: 李晶磊
Original assignee: Yunnan Youth Academy Technology Co ltd
Current assignee: Yunnan Youth Academy Technology Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-07-16

Abstract

本发明提供一种物流大数据采集方法，数据来源主要通过已有的统计数据和爬虫两种方式来获取，数据包括：全国交通纸质地图，中国城市统计年鉴，中国统计年鉴，中国铁路时刻网和中国民航信息网，物流网站，使用Python提供的SCRAPY框架进行爬虫程序的编写，采用KNN算法补充完整，采用Apriori算法实现关联规则的挖掘，通过紧密中心性和介数中心性判断市级区域在全国范围内的重要性，然后利用GN算法得到不同市级区域之间最短路径，最后利用K均值算法将聚类市级区域是否属于一个分组的判断标准。

Description

一种物流大数据采集方法

技术领域

本发明涉创业技术领域，具体涉及一种物流大数据采集方法。

背景技术

2010年代以来，我国物流业随着电子商务的兴起取得了巨大的发展，发展好物流业不仅可以调整经济结构、促进制造业的发展，而且能够加强区域竞争力，提高人们的生活水平.物流业是一种复合型产业，融合了运输业、仓储业、货代业和信息业等。截止2016年年底，单年度物流总额达到219.2亿元，与上一年相比较增长了5.8%左右，社会物流的总费用也在不断地增长。国际上以全社会的物流总费用占这个国家总GDP的比重来衡量这个国家经济体中的物流效率,数据显示这一数据在缓慢下降，已经下降到16%左右较2010年的17%而言，物流效率已在不断提高。

发明内容

本发明的目的在于提供一种物流大数据采集方法，数据来源主要通过已有的统计数据和爬虫两种方式来获取，采用KNN算法对数据补充完整，采用Apriori算法实现关联规则的挖掘，通过紧密中心性和介数中心性判断市级区域在全国范围内的重要性，然后利用GN 算法得到不同市级区域之间最短路径，最后利用K均值算法将聚类市级区域是否属于一个分组的判断标准。

为实现上述目的，本发明采用的技术方案是：

一种物流大数据采集方法，其特征在于：

1）、数据的采集范围，包括全国交通纸质地图、中国城市统计年鉴、中国统计年鉴、中国铁路时刻网和中国民航信息网物流网站；

2）、采集方法，物流网站数据主要采用的是网络爬虫的方式进行自动抓取，网络爬虫也可以称为网络蜘蛛，是按照特定的规则对互联网上的信息进行自动获取的程序或者脚本，该方法的实质是用计算机程序模拟游览器对丽站进行请求访问，而将网站的反馈信息记录并保存下来，再将保存下来的文本数据封装成树的形式方便用户自定义获取；对于数疵庞大并且记录的数据格式不一但彼此之间又存在某种联系的网站，网络爬虫是最适当的获取手段；

通常每一个网站都有其独一无二的网络地址，称之为统一资源定位符，即URL；这里通过HTTP协议（超文本传输协议，是一种基于请求和响应的应用层协议）与URL可以访问到物流网站的位置，如“物流天下网”的URL为http://www.56885.net/,通过该网址我们可以访问到网站服务器端存储的物流信息，并将服务器返回的文本信息保存成文档对象模型树的结构，这种结构使用起来非常方便，遍历起来也非常简单，并且支持XPath、BeautifulSoup等，增强了其本身的可用性；这里我们使用的是XPath,XPath是一种XML路径语言，通过XPath可以很快地从复杂的树形结构中找到自己需要的信息；这里主要使用Python提供的SCRAPY框架进行爬虫程序的编写，SCRAPY框架是一种使用Twisted异步网络库来处理网络通讯的集网站数据爬取与提取结构性数据等功能为一体的应用框架；通过网络爬虫获取了多种数据属性字段并建立了不同的数据库表，如货物表2.1,包括时间、货物名称、货物类型、运输类型、重量、体积、出发地所属省、出发地所属市、目的地所质省以及目的地所属市。物流专线表2.2包括始发地、终点站、运输方式、配货方式、发车频率、运输时间、承载货物、公司名称、地址、价格等。

3）、挖掘算法，在数据采集的阶段，将出现很多数据质量的问题，这是由多种原因导致的，如数据发布阶段的误操作等，导致最终的数据部分属性缺失或重复，又或者是出现了明显的错误，这些都需要我们对数据进行预处理；这里我们设计到的处理方式有三点：第一，对于重复的数据将其删除；第二，将明显错误的数据删除；第三，对于缺失的数据将采用KNN算法补充完整；结合本次研究的数据以及实现的复杂程度，本发明将采用Apriori算法实现关联规则的挖掘，Apriori算法的步骤可以概括为以下7条：

1）首先会扫描整个数据项集，产生符合要求的1项集的集合，这里用C1表示；

2）根据定义好的最小支持度，在上一步的结合Cl中选出频繁项集，这里用Ll表示；

3）对阶数k>l循环执行第4,5,6步；

4）对K阶频繁项集Lk进行Apriori算法的连接步和剪枝步，产生了k+l阶的项集Ck+l；

5）类似于第2步，从上一步产生的候选集Ck+1中根据支持度的阈值选出频繁项集，这里用Lk+l表示；

6)如果这里最后得到的L不是空集，则继续执行第4步，此时的k将会自增1，否则将会执行第7步；

7)根据事先定义好的最小置信度，从产生的频繁项集中得出强关联规则，算法到此为止。

通过紧密中心性和介数中心性判断市级区域在全国范围内的重要性；

然后利用GN 算法得到不同市级区域之间最短路径；

最后利用K均值算法将聚类市级区域是否属于一个分组的判断标准，可以认为如果两个样本之间的距离越近，他们处于同一分组的概率就越高，而最终的簇应该是由彼此距离很近的一群样本组成的。

附图说明

图1为本发明中的一份货物表；

图2本发明中的一份物流专线表。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

一、数据采集

地理信息科学的大数据挖掘中第一个问题是要获取数据，本发明主要针对的是物流网站数据，由于网站数据数量巨大并且手动获取比较困难，因此数据来源主要通过已有的统计数据和网络爬虫两种方式来获取，网络爬虫可以针对网站数据进行自定义的爬取。

本发明涉及到的数据包括：(1)全国交通纸质地图，(2)中国城市统计年鉴，(3)中国统计年鉴，(4)中国铁路时刻网和中国民航信息网，(5)物流网站，包括全国物流信息网、中国物通网、今日物流通、中国物流网、好运物流网、中国物流交易中心和物流天下网等多个与物流信息有关的网站。

通过已上途径，获取到的数据是多源多类型的，主要有以下几类：

第一类数据：将全国范围内的道路网矢量化后可以得到每个区域的高速公路、省道和国道的道路总长度，再结合“中国铁路时刻网”和“中国民航信息网”获取的火车、高铁和航班信息共同作为表征交通发展水平的交通便捷性。

第二类数据：通过《中国城市统计年鉴》获取每个城市的GDP数据，用以表征该地区的经济发展水平。

第三类数据：通过《中国城市统计年鉴》获取每个城市的物流业从业人数，这里认定的物流业包括仓储业、货物运输业和邮政业。物流业从业人数为三者人数的总和。

第四类数据：针对物流网站通过使用网络爬虫获取的数据，包括城市与城市之间设置的专线数据、区域物流企业的分布数噩、快递公司的分布数蜇、区域内的物流业求职招聘数量、区域物流货源信息以及区域内的物流业仓库数位和仓储总面积等。

数据的这些特点表明利用常规的计量地理学的方法，GIS方法处理起来较困难，要想发现新的地理学规律或现象，需要发展新的方法。

二、采集方法

物流网站数据主要采用的是网络爬虫的方式进行自动抓取，网络爬虫也可以称为网络蜘蛛，是按照特定的规则对互联网上的信息进行自动获取的程序或者脚本，该方法的实质是用计算机程序模拟游览器对丽站进行请求访问，而将网站的反馈信息记录并保存下来，再将保存下来的文本数据封装成树的形式方便用户自定义获取。

通常每一个网站都有其独一无二的网络地址，称之为统一资源定位符，即URL。这里通过HTTP协议与URL可以访问到物流网站的位置，如“物流天下网”的URL为http://www.56885.net/,通过该网址我们可以访问到网站服务器端存储的物流信息，并将服务器返回的文本信息保存成文档对象模型树的结构，这种结构使用起来非常方便，遍历起来也非常简单，并且支持XPath、BeautifulSoup等，增强了其本身的可用性。这里我们使用的是XPath,XPath是一种XML路径语言，通过XPath可以很快地从复杂的树形结构中找到自己需要的信息。这里主要使用Python提供的SCRAPY框架进行爬虫程序的编写，SCRAPY框架是一种使用Twisted异步网络库来处理网络通讯的集网站数据爬取与提取结构性数据等功能为一体的应用框架。通过网络爬虫获取了多种数据属性字段并建立了不同的数据库表，如货物表图1,包括时间、货物名称、货物类型、运输类型、重量、体积、出发地所属省、出发地所属市、目的地所质省以及目的地所属市。物流专线表图2包括始发地、终点站、运输方式、配货方式、发车频率、运输时间、承载货物、公司名称、地址、价格等。

三、挖掘算法

在数据采集的阶段，将出现很多数据质量的问题，这是由多种原因导致的，如数据发布阶段的误操作等，导致最终的数据部分属性缺失或重复，又或者是出现了明显的错误，这些都需要我们对数据进行预处理。这里我们设计到的处理方式有三点：第一，对于重复的数据将其删除；第二，将明显错误的数据删除；第三，对于缺失的数据将采用KNN算法补充完整。

KNN算法是一种常见的数据挖掘算法，是Hart和Cover在1968年提出来的,算法不仅可以用于解决分类问题，而且可以用在回归问题上。KNN算法的基本思路是通过找到在特征空间里与当前样本最相近的K个样本，并将这K个样本的属性平均值赋予当前样本，这样就可以得到这个未知样本的属性值，或根据不同“邻居”的远近程度来给予不同的权重，例如权重与距离成反比，距离越近给待求样本带来的影响越大。

关联规则是数据挖掘中一个非常经典的算法，可以用来描述数据不同特征之间隐藏的联系。早在1993年，便提出了关联规则用来挖掘大量顾客交易数据中各集合之间存在的关联关系。沃尔玛超市利用数据挖掘工具意外地发现跟尿布一起购买的最多的商品居然是啤酒，而在当时研究者们已经对一些术语进行了解释，后来经过不断的发展才有了现在的关联规则。而今关联规则已经广泛用于营销、金融以及生物信息学等各种领域。关联规则包括的主要概念有项集、频繁项集、支持度和置信度等。例如在购买商品的实例中，用户购买的商品就是项目，而一个或多个项目的集的集合则称之为项集，例如（牛奶，尿布，面包）。一个项集出现的频率则是这个项集的支持度，即当前的项集出现的次数与总数之间的比值。当某个项集的支持度大于或者等千初始设置的支待度阈值时，那么这个项集就可以被称为频繁项集（大项集）。关联规则通常可以用X=>Y来表示，X称为前项，Y为后项，而上面所提到的支持度可以表示为X和Y同时出现的概率，而置信度表示的是当X和Y同时出现的概率与X出现的概率的比重。只有当一条规则的支持度和置信度都大于事先给定对应的最小阈值时，这条规则才能称为关联规则。

Apriori算法主要包含两个步骤：第一步就是找出数据库中所有大于或者等于最小支持度的数据项集，第二步就是利用频繁项集生成需要的关联规则，根据事先设定的最小置信度进行取舍，便可以得到强关联规则，而找到数据项集中所有的频繁项集是关联规则挖掘算法中的重中之重。Apriori算法基于这样的事实：这里会利用到频繁项集的先验知识，莽法会采取逐层迭代的方法，首先找到满足条件的1项集，接着按相同方法找到2项集、3项集等等，直到找不到频繁项集为止。每找一次都会扫描整个数据库一次，因此效率会有所下降。Apriori算法有两个核心步骤，即连接步和剪枝步：连接步是指通过k-1项的频繁项集与自身的连接形成K阶项集；剪枝步是指排除掉连接步中产生的候选集合中不是频繁项集的数据项集。对于剪枝步有很多排除策略，而这里算法是基千这样的先验知识，即如果一个候选集的k-1项集都不是频繁项集，那么由k-1项连接产生的K项也不可能是频繁项集。

结合本次研究的数据以及实现的复杂程度，本发明将采用Apriori算法实现关联规则的挖掘。Apriori算法的步骤可以概括为以下7条：

3）对阶数k>l循环执行第4,5,6步；

紧密中心性是评价网络节点重要性的重要指标，这里的节点指的是全国范围内所有的市级区域。紧密中心性是指某个节点到达其他节点的难易程度，这里使用距离能够到达的节点的远近来衡显，计算方法是求该点在网络中与其他所有节点的距离的平均值的倒数。具有较高的紧密中心性的城市通常在集群中被高度连接，但在集群外就不一定有高的连接性。计算公式如下：

中Cv表示某个网络节点的紧密中心性，|v|是指该节点在网络中可以到达的点的个数，包括自身。dvi则表示该点与其他可以到达的每个点的距离。

介数中心性用于衡量节点在网络中的地位，中心性越高说明该节点在网络中越重要，某个城市的介数中心性描述的是网络中所有的城市与城市之间的最短路径通过该城市的个数和节点与节点总的最短路径条数的比值。计算介数中心性的步骤如下：

1) 计算网络中两两节点之间的最短路径，需要得到具体路径。

2) 对每个节点判断该节点是否在最短路径上。

3) 最后将判断进行累加，得到节点与节点之间的最短路径中有多少条是经过该节点的。

计算公式为：

其中Ce(v)表示节点v的介数中心性，rsl(v)表示节点s到节点t并且经过节点v的最短路径的条数，而rsl表示的是节点s到节点t的最短路径的条数。

社区发现算法是应用在复杂网络中的一种经典的算法，目的是发掘复杂网络中隐藏的社区信息。其中复杂网络是指现实中复杂***的抽象，其中网络中的节点表示的是实际***中一个个的个体，节点之间的连线（边）指的是个体之问的某种联系。近年来对于复杂网络的研究也越来越多，对于网络结构的研究变成一个热点，社区是网络结构中普遍存在且非常重要的特征，某种程度上可以认为一个复杂网络是由一个一个社区按照某种规则组合而成的。如果将整个网络看作是一个图的话，那么社区可以认为是其中一个子图，也包含顶点和边，社区内部节点之间的连接非常密切，而不处于同一个社区的节点之间的连接则显得比较稀疏。整个社区发现的过程比较复杂，对于我们探究一个复杂网络的特性时作用巨大，而随着针对复杂网络结构的研究越来越受关注，很多社区发现算法也相继问世。

总的来说社区发现算法可以分为传统算法、谱方法、基于模块度的方法、动态算法、***方法、基于统计推断的方法、其他算法等七类算法，其中传统算法又可以分为图分割算法和聚类算法；分类算法中主要是GN算法；基于模块度的方法包括标签传播、贪心算法、极值优化算法、模拟退火算法和谱优化算法；动态算法包括自旋模型、随机游走和同步算法;基于统计推断的方法包括生成模型和判别模型；当然还有一些其他的算法如重在社区、动态社区发现以及web社区发现等等。

其中GN算法是一个非常经典的社区发现算法，可以认为GN算法是属于***的层次聚类方法，该算法是牺牲效率提高准确率的典型算法，因此算法只适合200到300个节点，如果节点超过一定的范围整个过程将变得非常耗时。由于本次研究所涉及到的内容对准确度要求比较高，而对于效率则显得不是那么高，城市节点数也在200-300的范闱内，因此本次研究所涉及到的复杂网络的网络结构研究将采用的是GN算法。GN算法的核心思想是迭代删除网络中相对于所有的边中边介数最大的边，边介数的计算是首先通过计算网络中每两个节点之间的最短路径，再计算所有的最短路径中包含这条边的条数即为该边的边介数，当每次删除边介数最大的边之后重新计鍔网络中每条边的边介数，重复这个过程迭代下去，直到网络中所有的节点都是一个单独的社区。GN算法认为在点与点之间最短路径问题上，社区内部的边作为最短路径会较少，而社区之间的连接边则会相对来说多一点。GN算法的步骤可以概括为以下几点：

(1)计算网络中每一条边的边介数；（2）将网络中边介数最大的一条边删除；(3)在删除边后的网络中重新计算网络中剩下所有边的边介数；（4）重复(2),(3)直到删除了所有的边为止。

对于早期形成的GN算法，我们可以很容易发现算法本身存在的一些问题，首先算法本身是不能够得到最终有多少个社区的，其次是每轮迭代的时候需要计算每两个点之间的最短路径，这样会使得存在很多重复计算的过程，使得时间复杂度大大提升了，然后是GN算法除了网络中没有剩下的边可以删除为停止条件，就不能够判定算浩终止的位置。面对这些问题，2004年Newman在GN算法中引入了Q函数的概念，用它来度量网络中社区结构划分质届的优劣程度，当模块性Q函数达到最大值的时候表明此时这个划分效果是最好的。Q函数的计算公式为：

其中表示网路中边没有权重的情况下的Q函数的表达式，其中i表示的是第i个社区，eii表示的是第i个社区内部边的数量占总的数量的比重，而ai表示的是与第i个社区中节点相连的边的数量占总数的比值。

表示的事网络中的边具有权重的情况下Q函数的表达式，其中M=05∑aij，其中aij表示的是领接矩阵的权重，如果i和j相连aij表示的是这条边的权重，如果i和j没有相连aij为0，ki表示的是第i个节点的权重，计算方法是将所有连接在第i个节点上的边的权重相加。∮表示的是一个隶属函数，如果i和j属于同一个社区那么∮函数的取值取1，否则为0。在实际的计算中Q函数的值一般处于0.3和0.7之间，大于0.7的可能性很小，Q函数的最大值为1,值越大表明划分的结果越好，这就说明网络中的社区结构越明显。当网络中的边都具有权重的时候，其计算步骤也与以前不同了，具体的步骤如下：

(1)首先忽略网络中所有边的权重，参考无权重网络的计算方法计算每条边的边介值；

(2)计算出每条边的边介数与权重的比值，这里藏式将其称为边权比；

(3)找到网络中所有边中边权比最大的边将其移出，如果存在多个边权比最大的边，此时将他们一起移出，并计算此时网络中的Q函数的值，将移除的边和对应的Q函数的值保存。

（4）重复上面的步骤指导满足终止条件为止。

(5)取出Q函数的最大值并得到最大值对应的网络结构划分的情况，此时的划分效果是最好的。

K均值聚类算法的基本思路是：迭代计算每个点到组中心的距离，当满足终止条件的时候停止，此时的聚类结果为K均值算法的最终结果，每次迭代都要比上一次的聚类结果要好，至于如何评价聚类结果的好坏，当分组内部的记录彼此之间越来越近，而不同分组之间的距离越来越远，那么这样的聚类结果认为是较好的。

K均值算法是先将数据集中样本映射为多维空间中的一个点，再从所有样本点中随机选择K个点作为初始的中心点，紧接着计算每个点到这些中心点的距离，将每个点赋予最近的中心点，从而形成一个簇，再计算每个簇的中心逐步调整中心点的位置，然后计算其他点到达中心点的距离，整个过程层层迭代下去，直到满足算法的终止条件。该算法在每次迭代中都考虑了每个样本的分类结果，逐步调整不正确的样本分类，进入下一次迭代。算法的终止条件满足以下任意一个就可以终止本次算法的循环迭代：

(1)所有样本的分类结果没有发生变化；（2）中心点的位置没有发生变化；（3）聚类的误差平方和达到了局部最小。

根据上面的描述我们可以将K均值算法的步骤概括为以下四点：

(l)从所有的数据集中选出K个样本作为最开始的聚类中心，可以是任意的K个，从而可以认为有K个簇的中心产生」；

（2）计算每个样本到聚类中心的距离，根据求得的距离中最小值重新划分这些样本所属的簇，保留簇和中心；

（3）看看是否达到终止条件，若没有达到，则执行第匹步，若达到，则算法停止。

（4）计算每簇的新的中心，并回到第(2)步。

算法评价划分的优劣用下式来度量：

其中Xi表示第i个样本，mj表示第j个簇的中心，ωj表示第j个簇。

可以看出K均值算法是基于距离的聚类算法，将聚类做完样本是否属于一个分组的判断标准，可以认为如果两个样本之间的距离越近，他们处于同一分组的概率就越高，而最终的簇应该是由彼此距离很近的一群样本组成的。K均值算法实际上是一种自适应完成聚类的算法，王铮用K平均方法对电池流域的水土流失情况做了数据特征挖机研究，划分了滇池流域的水土流失类型，该算法是一种经典的计量地理学方法。

Claims

1.一种物流大数据采集方法，其特征在于：数据来源主要通过已有的统计数据和爬虫两种方式来获取，数据包括：全国交通纸质地图，中国城市统计年鉴，中国统计年鉴，中国铁路时刻网和中国民航信息网，物流网站，使用Python提供的SCRAPY框架进行爬虫程序的编写；

在数据采集的阶段，将出现很多数据质量的问题，导致最终的数据部分属性缺失或重复，又或者是出现了明显的错误，这里我们的处理方式有三点：第一，对于重复的数据将其删除；第二，将明显错误的数据删除；第三，对于缺失的数据将采用KNN算法补充完整；

采用Apriori算法实现关联规则的挖掘，Apriori算法的步骤可以概括为以下7条：1）首先会扫描整个数据项集，产生符合要求的1项集的集合，这里用C1表示；

3）对阶数k>l循环执行第4,5,6步；

7)根据事先定义好的最小置信度，从产生的频繁项集中得出强关联规则，算法到此为止；

然后利用GN 算法得到不同市级区域之间最短路径；

2.根据权利要求1所述的一种物流大数据采集方法其特征在于：将全国交通纸质地图的道路网矢量化后可以得到每个区域的高速公路、省道和国道的道路总长度，再结合中国铁路时刻网和中国民航信息网获取的火车、高铁和航班信息共同作为表征交通发展水平的交通便捷性；

通过中国城市统计年鉴获取每个城市的GDP数据，用以表征该地区的经济发展水平，通过中国城市统计年鉴获取每个城市的物流业从业人数，这里认定的物流业包括仓储业、货物运输业和邮政业，物流业从业人数为三者人数的总和；

针对物流网站通过使用网络爬虫获取的数据，包括城市与城市之间设置的专线数据、区域物流企业的分布数噩、快递公司的分布数蜇、区域内的物流业求职招聘数量、区域物流货源信息以及区域内的物流业仓库数位和仓储总面积。

3.根据权利要求1所述的一种物流大数据采集方法其特征在于：物流网站包括：包括全国物流信息网、中国物通网、今日物流通、中国物流网、好运物流网、中国物流交易中心和物流天下网。