CN111291933A - 一种集装箱码头客户模型建模方法 - Google Patents
一种集装箱码头客户模型建模方法 Download PDFInfo
- Publication number
- CN111291933A CN111291933A CN202010096706.8A CN202010096706A CN111291933A CN 111291933 A CN111291933 A CN 111291933A CN 202010096706 A CN202010096706 A CN 202010096706A CN 111291933 A CN111291933 A CN 111291933A
- Authority
- CN
- China
- Prior art keywords
- customer
- spark
- client
- data
- modeling method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种集装箱码头客户模型建模方法,包括:搭建Spark+Hadoop集群环境;基于设定指标维度选取客户群体信息;处理客户群体信息得到客户群体数据,并对客户群体数据进行归一化处理;建立聚类模型,在搭建的Spark平台上对所述客户群体数据进行聚类分析确定关注客户类别,针对每个类别的关注客户确定客户关注度。解决大数据背景之下的高维数据计算效率问题,帮助集装箱码头识别不同的客户群体,达到优化资源配置、降低成本的目的。
Description
技术领域
本发明属于集装箱码头技术领域,具体地说,是涉及一种集装箱码头客户模型建模方法。
背景技术
随着集装箱码头规模的不断扩大,服务客户群体的迅速增多,集装箱码头公司的客户数据信息在急剧增长,全国集装箱码头一直在探索利用大数据技术实现对码头客户的精细化管理和细分,以实现码头客户资源的高效配置和优化。现在全国集装箱码头客户信息主要领域集中在客户信息数据库及统计分析***等领域,但是针对大数据背景下集装箱码头客户深层次的挖掘与细分工作少有突破。
发明内容
本发明的目的在于提供一种集装箱码头客户模型建模方法,解决大数据背景之下的高维数据计算效率问题,帮助集装箱码头识别不同的客户群体,达到优化资源配置、降低成本的目的。
为解决上述技术问题,本发明采用以下技术方案予以实现:
提出一种集装箱码头客户模型建模方法,包括:搭建Spark+Hadoop集群环境;基于设定指标维度选取客户群体信息;处理客户群体信息得到客户群体数据,并对客户群体数据进行归一化处理;建立聚类模型,在搭建的Spark平台上对所述客户群体数据进行聚类分析确定关注客户类别,针对每个类别的关注客户确定客户关注度。
进一步的,在搭建Spark+Hadoop集群环境中,包括:所述Spark集群依赖于CDH集群正常工作;以及,在搭建Hadoop集群基础上搭建YARN资源管理器的Spark分布式集群,基于Hadoop底层的HDFS实现海量数据存储,基于Spark实现对大规模数据的快速分布式计算。
进一步的,基于设定指标维度选取客户群体信息中,所述设定指标维度包括:基于客户对码头贡献的集装箱吞吐量、客户对码头贡献的单箱收入、客户对码头贡献收入的增长率、客户挂靠码头的航线数量和客户的欠款额。
进一步的,处理客户群体信息得到客户群体数据,包括:通过ETL工具对不同客户群体信息进行过滤、清洗、转换,得到客户群体数据。
进一步的,对客户群体数据进行归一化处理,包括:采用线性归一化处理客户群体数据,使得结果值映射到[0,1]之间。
进一步的,建立聚类模型,具体包括:在搭建的Spark集群环境中将所述不同客户群体数据采用Spark MLlib K-means算法建立Spark MLlib K-means聚类模型。
进一步的,在K-means算法中,采用误差平方和SSE确定最佳聚类数k;在SparkMLlib K-means中对初始聚类中心采用随机选择方式得到所需的聚类中心。
与现有技术相比,本发明的优点和积极效果是:本发明申请提出的集装箱码头客户模型建模方法,通过搭建Spark+Hadoop集群模式,实现海量数据的分布式存储和快速分布式计算,对客户信息细分效率更快,更有利于高效的进行客户资源配置和优化;基于能够体现客户价值的设定指标维度:客户对码头贡献的集装箱吞吐量、客户对码头贡献的单箱收入、客户对码头贡献收入的增长率、客户挂靠码头的航线数量和客户的欠款额,来选取客户群体信息,建模分析不同的客户群体数据,确定重点关注客户类别,对不同的客户类别给予不同的关注度,从客户的“全面把控”到“重点关注”,保证高效率的资源配置与优化,可节约成本提高收入。
结合附图阅读本发明实施方式的详细描述后,本发明的其他特点和优点将变得更加清楚。
附图说明
图1为本发明提出的集装箱码头客户模型建模方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步详细的说明。
本发明提出的集装箱码头客户模型建模方法,使用大数据技术实现海量数据的分布式存储和快速计算,选取五个维度建模分析不同的客户群体数据,确定重点关注客户类别,对不同的客户类别给予不同的关注度,具体的,如图1所示,包括如下步骤:
步骤S1:搭建Spark+Hadoop集群环境。
为实现***的良好兼容,***所有软件均采用CDH(Hadoop分支中的一种)版本,Spark(专为大规模数据处理而设计的快速通用的计算引擎)集群依赖于CDH集群正常工作,在搭建Hadoop(分布式存储)集群基础上搭建基于YARN资源管理器的Spark分布式集群,借助Hadoop底层的HDFS实现海量数据的存储,利用Spark在数据处理上的速度优势实现对大规模数据的快速分布式计算。
步骤S2:基于设定指标维度选取客户群体信息。
通过从统计学特征、价值等因素综合分析选取能够体现客户价值的变量作为指标,包括客户对码头贡献的集装箱吞吐量、客户对码头贡献的单箱收入、客户对码头贡献收入的增长率、客户挂靠码头的航线数量、客户的欠款额5个指标维度。
客户对码头贡献的集装箱吞吐量越大,该客户规模和盈利情况越可观,服务水平越好,给码头带来的收入就越高,客户价值越高;客户对码头贡献的单箱收入和客户对码头贡献收入的增长率是衡量该客户价值的最直接体现,客户对码头贡献的单箱收入是客户对码头贡献的收入与客户对码头贡献的集装箱吞吐量之比,比值越大,则该客户的价值越高,同时客户对码头贡献收入的增长率越高,该客户的价值越高;客户挂靠码头的航线数量越多,则该客户与码头有较稳定的合作关系,价值越高;客户的欠款额则反应了客户的信任度,欠款额越大,信任度越低,客户价值越低。
步骤S3:处理客户群体信息得到客户群体数据,并对客户群体数据进行归一化处理。
通过ETL(Extract-Transform-Load,用来描述将数据从来源端经过抽取、转换、加载至目的端的过程)工具对不同客户群体信息进行过滤、清洗、转换。过滤、清洗部分是指某些字段值缺失、数据记录不完整、数据空值、数据转码异常等情况。因为不同的客户***信息化不同,业务***数据库设计不一致等,因此需要通过数据转换实现数据联网,将来自于不同***的数据统一汇聚到一个***中,统一使用。
采用线性归一化方法,对原始数据进行线性变换,使得结果值映射到[0,1]之间,缩小数据范围,避免值域过大。转换函数如下:
式中,x'是转换后的值,x转换前的值,min(x)是该属性的最小值,max(x)该属性的最大值。
步骤S4:建立聚类模型,在搭建的Spark平台上对所述客户群体数据进行聚类分析确定关注客户类别,针对每个类别的关注客户确定客户关注度。
在搭建的Spark集群环境中将不同客户群体数据(经过ETL处理和线性归一化后的5个指标维度),运用MLlib机器学习算法库,调用K-means算法,建立Spark MLlib K-means聚类模型进行聚类。
K-means算法对聚类数k和初始聚类中心的依赖很大,采用基于误差平方和SSE来确定k值,核心指标SSE(sum of the squared errors,简称SSE)的计算公式为:
式中Ci是第i个簇,p是Ci中的样本点,mi是Ci的质心(Ci中所有样本的均值),在Spark MLlib K-means中对初始聚类中心的选择支持随机选择的方法,得到所需的聚类中心。
根据上述的指标维度和最佳聚类数k,建立Spark MLlib K-means聚类模型,根据聚类结果,得到重点关注客户类别。
本实施例中,对集装箱码头服务的船公司客户群体进行建模分析,确定最佳聚类数k为5,根据客户价值将现有客户聚成5类:高价值客户、潜在价值客户、中价值客户、低价值客户及无价值客户。高价值客户对码头吞吐量贡献极大,给码头带来很高的经济利润,贡献的单箱收入很高,自身发展速度较快,挂靠在该码头的航线数量很多,基本无欠款额,与码头有稳定且长久的合作关系,因此需要对该类客户足够重视,重点关注该类别的客户。潜在价值客户信用较好,此类客户与公司建立合作关系较晚,对码头贡献的集装箱吞吐量较多,贡献的单箱收入利润较高,挂靠在该码头的航线数量较多,欠款额较少,因此公司需要不断提升该类别客户的满意度,使其能够快速升级为高价值客户,建立长久的合作关系。中价值客户总体的箱量不大,但是对该码头贡献的集装箱吞吐量逐渐增长,贡献的单箱收入较高,挂靠在该码头的航线数量逐渐增多,欠款额不大,该类客户的服务水平较高,因此对该类客户在保持现有的合作关系的基础上争取建立长久的合作关系。低价值客户码头吞吐量贡献较低,给码头带来的直接经济利润较低,挂靠在码头的航线数量少,欠款额高,信任度低,对该类别客户给予适当的关注即可。无价值客户对码头贡献的集装箱吞吐量和单箱收入极低,挂靠在该码头的航线数很少,欠款额很高,信任度很低,对该类别的客户无需过多关注。
上述本发明提出的集装箱码头客户模型建模方法中,实现了对集装箱码头客户细分的三个转变:
(1)从传统的数据库存储和计算到利用大数据技术进行海量数据的存储和计算。以往的客户信息数据仅仅是存储在传统的数据库中,对于客户信息的计算和分析方面也较欠缺;本发明通过搭建Spark+Hadoop集群模式,实现了海量数据的分布式存储和快速分布式计算,对客户信息细分效率更快,更有利于高效的进行客户资源配置和优化。
(2)从独立信息的展示到五个指标维度的体系化建模。客户对码头贡献的集装箱吞吐量、客户对码头贡献的单箱收入、客户对码头贡献收入的增长率、客户挂靠码头的航线数量、客户的欠款额五个指标维度,是一个价值性和全面性的体现。
(3)从客户的“全面把控”到“重点关注”。有依据的选择优先服务的客户,适中投入资源服务客户,保证高效率的资源配置与优化,赢得客户的认可,进而节约成本,提高收入。
应该指出的是,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (7)
1.一种集装箱码头客户模型建模方法,其特征在于,包括:
搭建Spark+Hadoop集群环境;
基于设定指标维度选取客户群体信息;
处理客户群体信息得到客户群体数据,并对客户群体数据进行归一化处理;
建立聚类模型,在搭建的Spark平台上对所述客户群体数据进行聚类分析确定关注客户类别,针对每个类别的关注客户确定客户关注度。
2.根据权利要求1所述的集装箱码头客户模型建模方法,其特征在于,在搭建Spark+Hadoop集群环境中,包括:
所述Spark集群依赖于CDH集群正常工作;以及,
在搭建Hadoop集群基础上搭建YARN资源管理器的Spark分布式集群,基于Hadoop底层的HDFS实现海量数据存储,基于Spark实现对大规模数据的快速分布式计算。
3.根据权利要求1所述的集装箱码头客户模型建模方法,其特征在于,基于设定指标维度选取客户群体信息中,所述设定指标维度包括:
基于客户对码头贡献的集装箱吞吐量、客户对码头贡献的单箱收入、客户对码头贡献收入的增长率、客户挂靠码头的航线数量和客户的欠款额。
4.根据权利要求1所述的集装箱码头客户模型建模方法,其特征在于,处理客户群体信息得到客户群体数据,包括:
通过ETL工具对不同客户群体信息进行过滤、清洗、转换,得到客户群体数据。
5.根据权利要求1所述的集装箱码头客户模型建模方法,其特征在于,对客户群体数据进行归一化处理,包括:
采用线性归一化处理客户群体数据,使得结果值映射到[0,1]之间。
6.根据权利要求1所述的集装箱码头客户模型建模方法,其特征在于,建立聚类模型,具体包括:
在搭建的Spark集群环境中将所述不同客户群体数据采用Spark MLlib K-means算法建立Spark MLlib K-means聚类模型。
7.根据权利要求6所述的集装箱码头客户模型建模方法,其特征在于,在K-means算法中,采用误差平方和SSE确定最佳聚类数k;在Spark MLlib K-means中对初始聚类中心采用随机选择方式得到所需的聚类中心。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010096706.8A CN111291933A (zh) | 2020-02-17 | 2020-02-17 | 一种集装箱码头客户模型建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010096706.8A CN111291933A (zh) | 2020-02-17 | 2020-02-17 | 一种集装箱码头客户模型建模方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111291933A true CN111291933A (zh) | 2020-06-16 |
Family
ID=71021447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010096706.8A Pending CN111291933A (zh) | 2020-02-17 | 2020-02-17 | 一种集装箱码头客户模型建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291933A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133652A (zh) * | 2017-05-17 | 2017-09-05 | 国网山东省电力公司烟台供电公司 | 基于K‑means聚类算法的用电客户价值评估方法及*** |
CN107220732A (zh) * | 2017-05-31 | 2017-09-29 | 福州大学 | 一种基于梯度提升树的停电投诉风险预测方法 |
CN107784518A (zh) * | 2017-09-20 | 2018-03-09 | 国网浙江省电力公司电力科学研究院 | 一种基于多维指标的电力客户细分方法 |
US20190130013A1 (en) * | 2017-10-26 | 2019-05-02 | Salesforce.com. inc. | User clustering based on query history |
-
2020
- 2020-02-17 CN CN202010096706.8A patent/CN111291933A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133652A (zh) * | 2017-05-17 | 2017-09-05 | 国网山东省电力公司烟台供电公司 | 基于K‑means聚类算法的用电客户价值评估方法及*** |
CN107220732A (zh) * | 2017-05-31 | 2017-09-29 | 福州大学 | 一种基于梯度提升树的停电投诉风险预测方法 |
CN107784518A (zh) * | 2017-09-20 | 2018-03-09 | 国网浙江省电力公司电力科学研究院 | 一种基于多维指标的电力客户细分方法 |
US20190130013A1 (en) * | 2017-10-26 | 2019-05-02 | Salesforce.com. inc. | User clustering based on query history |
Non-Patent Citations (1)
Title |
---|
裔隽等, 科学技术文献出版社 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111552813A (zh) | 一种基于电网全业务数据的电力知识图谱构建方法 | |
CN109582717A (zh) | 一种面向电力大数据的数据库统一平台及其读取方法 | |
CN111008726B (zh) | 一种电力负荷预测中类图片转换方法 | |
CN113590698A (zh) | 基于人工智能技术的数据资产分类建模与分级保护方法 | |
CN111489201A (zh) | 一种客户价值分析的方法、设备、存储介质 | |
CN109657063A (zh) | 一种海量环保人工上报事件数据的处理方法及存储介质 | |
CN108399553A (zh) | 一种考虑地理和线路从属关系的用户特征标签设定方法 | |
CN111815026A (zh) | 一种基于特征聚类的多能源***负荷预测方法 | |
CN117764631A (zh) | 基于源端静态数据建模的数据治理优化方法及*** | |
CN111062539B (zh) | 基于次级用电量特性聚类分析的总电量预测方法 | |
CN110909786A (zh) | 一种基于特性指标与决策树模型的新装用户负荷辨识方法 | |
CN112215655B (zh) | 一种客户画像的标签管理方法及*** | |
CN111291933A (zh) | 一种集装箱码头客户模型建模方法 | |
CN116680090A (zh) | 一种基于大数据的边缘计算网络管理方法及平台 | |
CN110781959A (zh) | 基于birch算法和随机森林算法的电力客户分群方法 | |
CN113052629B (zh) | 基于cecu体系智能算法模型的网络用户画像方法 | |
CN115375357A (zh) | 客户流失预警方法和装置 | |
CN115358797A (zh) | 基于聚类分析法的综合能源用户用能行为分析方法、***及存储介质 | |
CN109033678A (zh) | 一种基于虚拟样本生成的飞行器近似优化设计方法 | |
CN114638284A (zh) | 一种考虑外部影响因素的用电行为刻画方法 | |
CN112907362A (zh) | 贷款业务的处理方法、装置、电子设备和存储介质 | |
CN112100246A (zh) | 一种基于多维图码标签的客户用电价值挖掘方法 | |
Lv | The Application of Intelligent Agricultural Big Data Platform on the Internet | |
CN114781685B (zh) | 基于大数据挖掘技术的大用户用电负荷预测方法及*** | |
CN115271274B (zh) | 电力***短期日负荷预测方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: No.12 Jingba Road, Huangdao District, Qingdao City, Shandong Province Applicant after: QINGDAO PORT INTERNATIONAL Co.,Ltd. Applicant after: QINGDAO NEW QIANWAN CONTAINER TERMINAL Co.,Ltd. Address before: The city of north port green road 266011 Shandong city of Qingdao province No. 6 Applicant before: QINGDAO PORT INTERNATIONAL Co.,Ltd. Applicant before: QINGDAO NEW QIANWAN CONTAINER TERMINAL Co.,Ltd. |