CN116431931A - 实时增量数据统计分析方法 - Google Patents

实时增量数据统计分析方法 Download PDF

Info

Publication number
CN116431931A
CN116431931A CN202310699401.XA CN202310699401A CN116431931A CN 116431931 A CN116431931 A CN 116431931A CN 202310699401 A CN202310699401 A CN 202310699401A CN 116431931 A CN116431931 A CN 116431931A
Authority
CN
China
Prior art keywords
data
user
incremental
users
consumption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310699401.XA
Other languages
English (en)
Other versions
CN116431931B (zh
Inventor
赵宏斌
房涛
戴光
赵鹏
张晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Siji Technology Co ltd
Original Assignee
Shaanxi Siji Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Siji Technology Co ltd filed Critical Shaanxi Siji Technology Co ltd
Priority to CN202310699401.XA priority Critical patent/CN116431931B/zh
Publication of CN116431931A publication Critical patent/CN116431931A/zh
Application granted granted Critical
Publication of CN116431931B publication Critical patent/CN116431931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及实时增量数据统计分析方法,包括:获取多个用户的消费信息数据;根据获取的用户的消费习惯特征值进行初次聚类得到多个初始聚类簇,根据初始聚类中用户的消费行为特征进行二次聚类得到第二聚类簇记为历史数据集;根据历史数据集中每个历史数据中的用户的消费参数与增量数据中用户的消费参数之间的相关性和增量数据中每个用户与历史数据集中每个历史数据相关性的两个参数构建历史数据和增量数据的相似度模型得到增量数据的归属数据集;根据归属数据集将增量数据归类到历史数据集。本发明能够及时的处理大量的实时增量数据,并且对数据的变化较为敏感,能够避免因为数据之间的相似程度较大导致错分的情况。

Description

实时增量数据统计分析方法
技术领域
本发明涉及数据处理技术领域,具体涉及实时增量数据统计分析方法。
背景技术
实时增量数据统计分析方法是一种用于处理大量动态数据的技术,其主要特点是可以在数据更新时及时地对数据进行分析和预测,从而实现对业务过程的监控和优化。因为在对实时增量数据进行分析时,主要是分析数据之间的相关性,然后根据数据之间的相关性对数据进行分类。例如:电商平台的数据分析***中,需要根据用户的购物喜好进行相关产品的推荐,但是在商品推荐时,不可能对每一个用户的购物喜好进行分析,而是通过对大量用户的数据进行分析,然后根据用户的购物喜好和习惯进行用户归类,从而在商品推荐时,就能够减小需要处理的数据量,从而更高效的对用户进行产品推荐。
在现有技术中,对实时增量数据进行统计主要是通过聚类的方法,根据数据之间的特征关系获得数据之间的相关性,然后对数据进行聚类,然后再根据聚类后的数据之间的差异性,来进行个性化的分析。但是当处理的数据量特别大时,会导致算法计算量大,并且根据特征进行聚类时,会存在个体之间的部分差异导致同一类的数据也存在差异,使得后续对每一类数据的进行分析时,存在较大的个体差异。
发明内容
本发明提供实时增量数据统计分析方法,以解决现有的问题。
本发明的实时增量数据统计分析方法采用如下技术方案:
本发明一个实施例提供了实时增量数据统计分析方法,该方法包括以下步骤:
获取多个用户的消费信息数据;
根据消费信息数据获得每个用户的消费习惯特征值;根据每个用户的消费习惯特征值进行初次聚类得到多个初始聚类簇;根据初始聚类中用户的消费行为特征进行二次聚类得到多个第二聚类簇,记为历史数据集;
获取历史数据集中每个历史数据中的用户的消费参数与增量用户的消费参数之间的相关性,记为第一相关性;获取增量用户与历史数据集中每个历史数据相关性,记为第二相关性;根据第一相关性和第二相关性构建历史数据和增量数据的相似度模型;根据历史数据和增量数据相似度模型对增量数据的用户进行判断,得到增量用户的归属数据集;
将归属数据集中商品推荐给增量用户。
优选的,所述根据消费信息数据获得每个用户的消费习惯特征值,包括的具体步骤如下:
根据消费信息数据获得每个用户的消费习惯特征值的计算表达式为:
Figure SMS_1
式中,
Figure SMS_4
表示第/>
Figure SMS_6
个用户的消费习惯特征值;/>
Figure SMS_8
表示第/>
Figure SMS_2
个用户购买的第/>
Figure SMS_5
件商品的价格;/>
Figure SMS_7
表示第/>
Figure SMS_9
个用户购物的种类;/>
Figure SMS_3
表示购买商品的数量。
优选的,所述用户的消费行为特征的获取方法如下:
用户的消费行为特征的计算表达式:
Figure SMS_10
式中,
Figure SMS_12
表示在第/>
Figure SMS_18
个初始聚类簇中第/>
Figure SMS_21
个用户购买第/>
Figure SMS_13
件商品的决策时间;/>
Figure SMS_17
表示第/>
Figure SMS_19
个初始聚类簇中第/>
Figure SMS_22
个用户在购买第/>
Figure SMS_11
件商品时的购买时间,所述购买时间是指用户第一次浏览第/>
Figure SMS_16
件商品时到下单时的时间间隔;/>
Figure SMS_20
表示购买商品的数量;/>
Figure SMS_23
表示第/>
Figure SMS_14
个初始聚类簇中第/>
Figure SMS_15
个用户购物的平均时间;
Figure SMS_25
表示第/>
Figure SMS_31
个初始聚类簇中第/>
Figure SMS_33
个用户的消费行为特征值;/>
Figure SMS_26
表示第/>
Figure SMS_29
个初始聚类簇内所有用户购物决策时间的平均值;/>
Figure SMS_32
表示第/>
Figure SMS_35
个初始聚类簇中第/>
Figure SMS_24
个用户在购物时直接点击推荐页商品的次数;/>
Figure SMS_30
表示第/>
Figure SMS_34
个初始聚类簇中第/>
Figure SMS_36
个用户在购物时通过搜索页面搜索商品的次数;/>
Figure SMS_27
表示第/>
Figure SMS_28
个初始聚类簇中用户的数量。
优选的,所述增量用户是指:
新采集的、没有被分到第二聚类簇的用户。
优选的,所述历史数据集中每个历史数据中的用户的消费参数与增量用户的消费参数之间的相关性的获取方法如下:
历史数据集中每个历史数据中的用户的消费参数与增量用户的消费参数之间的相关性的计算表达式为:
Figure SMS_37
式中,
Figure SMS_48
表示增量数据中第/>
Figure SMS_40
个增量用户与第/>
Figure SMS_42
个历史数据中相关性较大的数据集之间的特征区分量;/>
Figure SMS_39
表示增量数据中第/>
Figure SMS_45
个增量用户的消费行为特征值;/>
Figure SMS_47
表示第/>
Figure SMS_52
个历史数据中第/>
Figure SMS_46
个用户的消费行为特征值;/>
Figure SMS_53
表示增量数据中第/>
Figure SMS_38
个增量用户的第/>
Figure SMS_44
个消费参数;/>
Figure SMS_50
表示第/>
Figure SMS_55
个历史数据中第/>
Figure SMS_54
个用户的第/>
Figure SMS_57
个消费参数;/>
Figure SMS_43
表示不同的用户;/>
Figure SMS_49
表示第/>
Figure SMS_51
个历史数据中用户数量;/>
Figure SMS_56
表示消费参数总数;/>
Figure SMS_41
{}表示以自然常熟为底的指数函数。
优选的,所述增量用户与历史数据集中每个历史数据相关性的获取方法如下:
增量用户与历史数据集中每个历史数据相关性的计算表达式为:
Figure SMS_58
式中,
Figure SMS_68
表示增量数据中第/>
Figure SMS_60
个增量用户与历史数据集中的第/>
Figure SMS_64
个历史数据的相关性;/>
Figure SMS_70
表示增量数据中第/>
Figure SMS_74
个增量用户的消费参数/>
Figure SMS_71
的均值; />
Figure SMS_75
表示历史数据集中第/>
Figure SMS_67
个历史数据中消费参数/>
Figure SMS_72
的均值;/>
Figure SMS_59
表示消费参数的种类;/>
Figure SMS_65
表示增量数据中第/>
Figure SMS_61
个增量用户的购买商品的种类;/>
Figure SMS_66
表示历史数据集中第/>
Figure SMS_69
个历史数据中所有用户购买的商品的种类;
Figure SMS_73
表示增量数据中第/>
Figure SMS_62
个增量用户购买的商品种类与历史数据集中第/>
Figure SMS_63
个历史数据的用户购买的商品种类的相同数量。
优选的,所述历史数据和增量数据的相似度模型的获取方法如下:
历史数据和增量数据的相似度模型的计算表达式为:
Figure SMS_76
式中,
Figure SMS_78
表示增量数据中第/>
Figure SMS_81
个增量用户与历史数据集中的第/>
Figure SMS_82
个历史数据的相似程度输出值;/>
Figure SMS_79
表示增量数据中第/>
Figure SMS_80
个增量用户的消费行为特征值;/>
Figure SMS_83
表示历史数据集中的第/>
Figure SMS_84
个历史数据中所有用户的消费行为特征值的均值;/>
Figure SMS_77
{}表示以自然常熟为底的指数函数。
优选的,所述增量数据的归属数据集,包括的具体步骤如下:
给定一个r,获得一个使得
Figure SMS_85
最大的/>
Figure SMS_86
,那么将第/>
Figure SMS_87
个历史数据作为第/>
Figure SMS_88
个增量用户的归属数据集。
本发明的技术方案的有益效果是:在对实时增量数据进行统计分析时,因为所处理的数据量很大,因此本发明基于所获得数据的历史数据的特征其进行特征分析,将历史数据进行分类。而在对历史数据进行分类时,首先基于实施例中的消费习惯进行初次分类,然后再对每个处理类簇中的各个用户的消费行为数据进行分析,进行二次分类,最后在个根据当前实时采集数据的特征与历史数据的二次分类数据集进行比较,对其进统计归类。该方法是基于递推数学模型进行计算分析的,能够对实时采集的数据进行准确的归类,使得在对数据进行二次处理时,能够准确的获得每一数据集的变化特征。
在将当前实时采集获得的数据与历史数据进行比较时,本发明根据数据之间的相关性建立相关关系分析模型,通过分析数据之间的相似特征描述当前实时数据与所有的历史数据集之间的相关关系,然后再进行当前实时采集数据的归类判断,该方法能够及时的处理大量的实时增量数据,并且对数据的变化较为敏感,能够避免因为数据之间的相似程度较大导致错分的情况。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明用于实时增量数据统计分析方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的实时增量数据统计分析方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的用于实时增量数据统计分析方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的用于实时增量数据统计分析方法的步骤流程图,该方法包括以下步骤:
步骤S001:获取目标处理数据,并对数据进行预处理。
本实施例主要目的是为了对实时获得的数据进行分析处理,因此首先需要采集获得数据。因为本实施例需要对当前数据与历史数据进行分析,因此首先需要从数据库中调取历史数据,然后再通过数据监测平台实时采集当前生成的数据,该数据是一个时序数据,但是会存在不同的维度特征。基于本实施例以电商平台的数据进行叙述,则本实施例通过对电商平台的用户数据进行统计分析,因此需要采集多个用户的消费信息数据,其中包含用户购买商品的价格、种类以及在电商平台内的浏览、搜索、点击等行为记录,然后对数据进行分析统计。
步骤S002:对数据进行个性化分析,通过初始类别划分来递归更新样本集合。
本实施例主要目的是为了电商平台的实时数据进行统计分析,根据用户的购买行为信息与历史数据进行比较,对用户进行分类,那么在进行商品推荐时,就能够根据用户间的购买行为的相似性进行相关产品的推荐,这样既能够减少服务器处理的数据量,又能进行个性化的商品推荐。而在进行数据分析统计时,因为是对实时数据进行分析,是将当前数据与历史数据进行比较,获得其与历史数据的相似性,然后将当前数据与历史数据进行归类。因此首先需要对历史数据进行分析,根据历史数据中个体的共性与差异来对历史数据进行划分。
因为本实施例是以电商平台的数据进行叙述,即是对电商平台的用户实时消费增量数据进行处理,而用户的消费数据的共性较多,例如:商品的种类数是一定的,消费价格区间也是固定的等等。因此在对消费者的购买习惯进行描述时,首先根据消费者的共性特征对用户进行初次类别划分,然后再根据差异进行二次类别划分,那么所划分后的同一用户类别中,既根据相同特征进行用户的归类,又根据差异性将用户群体进行细致的划分。
因此首先根据每个用户的消费行为数据获得每一位用户的消费行为特征值,该特征值时用来表示每一位用户的消费习惯的,其计算表达式为:
Figure SMS_89
式中,
Figure SMS_91
表示第/>
Figure SMS_94
个用户的消费***均价格;/>
Figure SMS_97
表示购买商品的数量。
然后根据用户的消费习惯特征值对多个历史数据集进行聚类,所有用户的消费习惯特征值是一个一维数据序列,因此在这里采用层次聚类的方法,根据经验值设定迭代次数为
Figure SMS_100
,然后会获得多个聚类簇,每一个聚类簇包含的是消费习惯相近的用户群体,该聚类簇是对多个历史数据集中的用户进行初次分类,然后再根据每一用户的消费行为特征进行二次分析。(本实施例/>
Figure SMS_101
选取为2)
事实上,用户的消费***台面向的用户群体。而其他的购物***台购物时,一种是直接搜索想要的商品,然后对比价格进行筛选,直接就进行购买;另外一种是通过长时间的筛选、对比,然后再进行购买。因此根据每一初始分类中用户的消费行为来获得用户的购物行为特征,其计算表达式为:
Figure SMS_102
式中,
Figure SMS_120
表示在第/>
Figure SMS_124
个初始聚类簇中第/>
Figure SMS_126
个用户购买第/>
Figure SMS_104
件商品的决策时间;/>
Figure SMS_107
表示第/>
Figure SMS_113
个初始聚类簇中第/>
Figure SMS_115
个用户在购买第/>
Figure SMS_105
件商品时的购买时间,所述购买时间是指用户第一次浏览第/>
Figure SMS_109
件商品时到下单时的时间间隔;/>
Figure SMS_111
表示购买商品的数量;/>
Figure SMS_118
表示该第/>
Figure SMS_106
个初始聚类簇中第/>
Figure SMS_108
个用户的购物的平均时间;/>
Figure SMS_114
表示第/>
Figure SMS_116
个初始聚类簇中第/>
Figure SMS_121
个用户购物的平均时间;/>
Figure SMS_122
表示第/>
Figure SMS_127
个初始聚类簇中第/>
Figure SMS_128
个用户购物时间的方差;/>
Figure SMS_103
表示第/>
Figure SMS_110
个初始聚类簇中第/>
Figure SMS_112
个用户购买商品的决策时间。因为用均值乘以方差表示第/>
Figure SMS_117
个初始聚类簇中第/>
Figure SMS_119
个用户购物时间在哪个范围内波动,因为用户在购买商品时,虽然平均时间能够表示其购物的决策时间,但是存在购物时间的波动,影响平均时间,因此在这里乘以第
Figure SMS_123
个初始聚类簇中第/>
Figure SMS_125
个用户购物时间的方差,就表示其决策时间的准确性。
Figure SMS_132
表示第/>
Figure SMS_136
个初始聚类簇中第/>
Figure SMS_138
个用户的消费行为特征值;/>
Figure SMS_131
表示第/>
Figure SMS_135
个初始聚类簇内所有用户购物决策时间的平均值;/>
Figure SMS_137
表示第/>
Figure SMS_143
个初始聚类簇中第/>
Figure SMS_129
个用户在购物时直接点击推荐页商品的次数;/>
Figure SMS_134
表示第/>
Figure SMS_140
个初始聚类簇中第/>
Figure SMS_142
个用户在购物时通过搜索页面搜索商品的次数;/>
Figure SMS_146
表示第/>
Figure SMS_150
个初始聚类簇中第/>
Figure SMS_156
个用户的主观意愿表现度,点击推荐页面与搜索页面之间的比值;/>
Figure SMS_158
表示第/>
Figure SMS_145
个初始聚类簇中用户的数量;/>
Figure SMS_149
表示第/>
Figure SMS_154
个初始聚类簇中用户点击推荐页面与搜索页面比值的均值;/>
Figure SMS_157
表示第/>
Figure SMS_130
个初始聚类簇中第/>
Figure SMS_133
个用户的购物决策时间与第/>
Figure SMS_139
个初始聚类簇的平均决策时间的差值,其差异越大说明第/>
Figure SMS_144
个初始聚类簇中第/>
Figure SMS_141
个用户的购物决策时间与其他用户的购物决策时间差异越大;/>
Figure SMS_147
表示第/>
Figure SMS_152
个初始聚类簇中第/>
Figure SMS_153
个用户的主观意愿表现度与第/>
Figure SMS_148
个初始聚类簇的均值的差异,其差异越大,说明第/>
Figure SMS_151
个初始聚类簇中第/>
Figure SMS_155
个用户的购物行为差异越大。
上述是对,每一个初始聚类中每一位用户的消费行为特征进行分析描述的,然后根据每一位用户消费特征对其进行密度聚类,根据上述获得的消费习惯特征值和消费行为特征值组成一个二维数据,其横坐标为消费习惯特征值,纵坐标为消费行为特征值,数据点表示用户。在这里,使用DBSCAN密度聚类算法对每个初始聚类簇中的所有用户进行聚类,设置聚类半径为2,最小聚类数位4,然后获得每个初始聚类簇中的多个第二聚类簇。这里获得的第二聚类簇是通过消费习惯特征值与消费行为特征值来进行区分的用户群体,那么在每个第二聚类簇中每个用户的消费是相近的,然后再根据当前获得的实时数据历史数据的相似性对当前数据进行归类。
至此,对采集到用户的消费信息数据根据每个用户的消费习惯特征值进行初次聚类得到多个初始聚类簇;然后对每个初始聚类簇根据每一个初始聚类中每一位用户的消费行为特征进行二次聚类得到多个第二聚类簇。
步骤S003:利用历史数据来动态调整数据的归属数据集。
在根据增量数据与历史数据之间的相似特征进行数据归类时,需要计算每个用户与第二聚类簇中用户相似性。为了能够准确的将当前获得的增量数据与历史数据集进行匹配,本实施例通过建立数据的相关关系模型对数据间描述,将上述获得的一个第二聚类簇视为一个历史数据,所有的第二聚类簇看作是一个历史数据集,新采集、没有被分到二聚类簇的用户记为增量用户,这些增量用户的消费参数记为增量数据,所述的参数消费参数包括价格、物品的种类、决策时间、点击次数等,需要根据历史数据集来动态调整当前数据相似程度。
因为上述在对历史数据进行分析时,是根据每个用户的特征参数计算的该用户的特征值,然后根据特征值进行聚类的,但是为了能够准确的反映当前数据与历史数据的关联性,因此对上述的特征值进行释放,相当于是每一个用户都有表示自己特征的多个数据,那么在每个数据集中就会包含多个维度的数据,然后对当前获得数据即增量数据与历史数据集中的数据进行分析,获得数据的相关关系,进而对当前数据进行归类。
因为相同类型数据的相似程度是呈线性变化关系的,但是多维数据之间的相似程度是非线性性变化的,并且多维数据之间的相似程度是呈现线性回归的,因此本实施例使用高斯函数作为目标函数,其高斯函数中的超参数
Figure SMS_159
表示历史数据与增量数据之间的相似性,需要根据历史数据与增量数据的变化获得,其计算表达式为:
Figure SMS_160
式中,
Figure SMS_169
表示增量数据中第/>
Figure SMS_161
个增量用户与第/>
Figure SMS_168
个历史数据中相关性较大的数据集之间的特征区分量;/>
Figure SMS_170
表示增量数据中第/>
Figure SMS_173
个增量用户的消费行为特征值;/>
Figure SMS_177
表示第/>
Figure SMS_179
个历史数据中第/>
Figure SMS_171
个用户的消费行为特征值;/>
Figure SMS_174
表示增量数据中第/>
Figure SMS_162
个增量用户的第/>
Figure SMS_166
个消费参数;/>
Figure SMS_172
表示第/>
Figure SMS_175
个历史数据中第/>
Figure SMS_176
个用户的第/>
Figure SMS_178
个消费参数;/>
Figure SMS_163
表示不同的用户;/>
Figure SMS_165
表示第/>
Figure SMS_164
个历史数据中用户数量;/>
Figure SMS_167
表示消费参数总数。消费参数包括价格、物品的种类、决策时间、点击次数等。
Figure SMS_181
表示增量数据中第/>
Figure SMS_184
个增量用户与第/>
Figure SMS_188
个历史数据中用户的消费行为之间的差异的均值,该值用来描述增量数据与历史数据的整体的差异,其差异越小,说明增量数据与第/>
Figure SMS_182
个历史数据的相似程度越大;/>
Figure SMS_186
表示增量数据中第/>
Figure SMS_189
个增量用户的第
Figure SMS_190
个消费参数与第/>
Figure SMS_180
个历史数据中第/>
Figure SMS_187
个用户的第/>
Figure SMS_191
个消费参数之间的差值,在这里需要说明,因为是把增量数据中第/>
Figure SMS_192
个增量用户的消费参数作为一个数据集,然后历史数据集中的第/>
Figure SMS_183
个第二聚类簇作为一个数据集,因此通过比较两个数据集相同维度的参数之间的差异,来表示两个数据集的相似程度。因此这里对每一个维度下的数据的差异求和
Figure SMS_185
通过计算增量数据与历史数据的整体差异,以及每一参数的差异来判断两个数据集之间的相似程度,其既能够表示整体的差异,也能够表示增量数据的用户的各个消费行为数据与历史数据中各消费行为数据的差异。获得的数据集之间的相似程度更加准确,能够将增量数据中用户的消费行为习惯与历史数据中的用户消费行为习惯进行很好的区分。
至此,获取历史数据集中每个历史数据中的用户的消费参数与增量数据中用户的消费参数之间的相关性。
通过上述计算获得的增量数据与历史数据之间的相关性,当增量数据中第
Figure SMS_193
个增量用户与第/>
Figure SMS_194
个历史数据的相关性越大时,说明增量数据中第/>
Figure SMS_195
个增量用户的消费行为与第/>
Figure SMS_196
个历史数据中的用户的消费行为相近。但是在根据相似程度进行判断时,会出现增量数据中第/>
Figure SMS_197
个增量用户的消费行为与多个历史数据的都较为相似,此时就需要判断用户的归属问题。因此在进行判断时,每次选取相关性最大的五个历史聚类簇,然后根据增量数据与历史数据集之间的细节特征差异进行描述。其计算表达式为:
Figure SMS_198
式中,
Figure SMS_207
表示增量数据中第/>
Figure SMS_201
个增量用户与历史数据集中的第/>
Figure SMS_203
个历史数据的相关性;/>
Figure SMS_200
表示增量数据中第/>
Figure SMS_204
个增量用户的消费参数/>
Figure SMS_209
的均值;例如:决策时间的均值,点击次数的均值等。/>
Figure SMS_214
表示历史数据集中第/>
Figure SMS_210
个历史数据中消费参数/>
Figure SMS_212
的均值;/>
Figure SMS_202
表示消费参数的种类;/>
Figure SMS_206
表示增量数据中第/>
Figure SMS_213
个增量用户的购买商品的种类;/>
Figure SMS_215
表示历史数据集中第/>
Figure SMS_216
个历史数据中所有用户购买的商品的种类;这里求交集/>
Figure SMS_217
表示增量数据中第/>
Figure SMS_199
个增量用户购买的商品种类与历史数据集中第/>
Figure SMS_205
个历史数据的用户购买的商品种类的相同数量,因为在对用户的购买习惯进行描述时,其购买的商品的种类越相同,并且其价格越相近,说明增量数据中第/>
Figure SMS_208
个增量用户与历史数据集中第/>
Figure SMS_211
个历史数据中所有用户的购物喜好越相近,因此这里通过计算增量数据中用户与历史数据集中某一个历史数据中所有用户购买商品的相同种类的数量来进行描述,其相同的数量越多,说明增量数据中每个用户与历史数据集中每个历史数据相关性越大。
至此,获取增量数据中每个用户与历史数据集中每个历史数据相关性。
根据上述获得的超参数来构建数据之间的相关性模型,其数学表达式如下:
Figure SMS_218
式中,
Figure SMS_219
表示增量数据中第/>
Figure SMS_220
个增量用户与历史数据集中的第/>
Figure SMS_221
个历史数据的相似程度输出值;/>
Figure SMS_222
表示增量数据中第/>
Figure SMS_223
个增量用户的消费行为特征值;/>
Figure SMS_224
表示历史数据集中的第/>
Figure SMS_225
个历史数据中所有用户的消费行为特征值的均值。该公式为高斯函数模型,为现有公式,逻辑不再赘述。
获取上述计算构建的增量数据与历史数据之间的相似度模型,然后根据拟合得到历史数据和增量数据的相似度模型对增量数据进行判断;因为高斯函数存在其峰值点,则该峰值点为增量数据与历史数据两组数据相似程度最大的点;因此可以根据历史数据和增量数据的相似度模型对多个增量用户依次进行判断,即给定一个r,获得一个使得
Figure SMS_226
最大的/>
Figure SMS_227
,那么将第/>
Figure SMS_228
个历史数据作为第/>
Figure SMS_229
个增量用户的归属数据集。
步骤S004:根据增量数据中每一个用户的归属数据集对增量数据用户归类。
通过上述方法计算获得所有增量用户的归属数据集,对于每个增量用户的归属数据集,将归属数据集的商品推荐给对应的增量用户。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.实时增量数据统计分析方法,其特征在于,该方法包括以下步骤:
获取多个用户的消费信息数据;
根据消费信息数据获得每个用户的消费习惯特征值;根据每个用户的消费习惯特征值进行初次聚类得到多个初始聚类簇;根据初始聚类中用户的消费行为特征进行二次聚类得到多个第二聚类簇,记为历史数据集;
获取历史数据集中每个历史数据中的用户的消费参数与增量用户的消费参数之间的相关性,记为第一相关性;获取增量用户与历史数据集中每个历史数据相关性,记为第二相关性;根据第一相关性和第二相关性构建历史数据和增量数据的相似度模型;根据历史数据和增量数据相似度模型对增量数据的用户进行判断,得到增量用户的归属数据集;
将归属数据集中商品推荐给增量用户。
2.根据权利要求1所述实时增量数据统计分析方法,其特征在于,所述根据消费信息数据获得每个用户的消费习惯特征值,包括的具体步骤如下:
根据消费信息数据获得每个用户的消费习惯特征值的计算表达式为:
Figure QLYQS_1
式中,
Figure QLYQS_3
表示第/>
Figure QLYQS_6
个用户的消费习惯特征值;/>
Figure QLYQS_7
表示第/>
Figure QLYQS_4
个用户购买的第/>
Figure QLYQS_5
件商品的价格;/>
Figure QLYQS_8
表示第/>
Figure QLYQS_9
个用户购物的种类;/>
Figure QLYQS_2
表示购买商品的数量。
3.根据权利要求1所述实时增量数据统计分析方法,其特征在于,所述用户的消费行为特征的获取方法如下:
用户的消费行为特征的计算表达式:
Figure QLYQS_10
式中,
Figure QLYQS_12
表示在第/>
Figure QLYQS_17
个初始聚类簇中第/>
Figure QLYQS_19
个用户购买第/>
Figure QLYQS_14
件商品的决策时间;/>
Figure QLYQS_15
表示第/>
Figure QLYQS_20
个初始聚类簇中第/>
Figure QLYQS_22
个用户在购买第/>
Figure QLYQS_11
件商品时的购买时间,所述购买时间是指用户第一次浏览第/>
Figure QLYQS_18
件商品时到下单时的时间间隔;/>
Figure QLYQS_21
表示购买商品的数量;/>
Figure QLYQS_23
表示第/>
Figure QLYQS_13
个初始聚类簇中第/>
Figure QLYQS_16
个用户购物的平均时间;
Figure QLYQS_26
表示第/>
Figure QLYQS_29
个初始聚类簇中第/>
Figure QLYQS_33
个用户的消费行为特征值;/>
Figure QLYQS_27
表示第/>
Figure QLYQS_31
个初始聚类簇内所有用户购物决策时间的平均值;/>
Figure QLYQS_34
表示第/>
Figure QLYQS_36
个初始聚类簇中第/>
Figure QLYQS_24
个用户在购物时直接点击推荐页商品的次数;/>
Figure QLYQS_28
表示第/>
Figure QLYQS_32
个初始聚类簇中第/>
Figure QLYQS_35
个用户在购物时通过搜索页面搜索商品的次数;/>
Figure QLYQS_25
表示第/>
Figure QLYQS_30
个初始聚类簇中用户的数量。
4.根据权利要求1所述实时增量数据统计分析方法,其特征在于,所述增量用户是指:
新采集的、没有被分到第二聚类簇的用户。
5.根据权利要求1所述实时增量数据统计分析方法,其特征在于,所述历史数据集中每个历史数据中的用户的消费参数与增量用户的消费参数之间的相关性的获取方法如下:
历史数据集中每个历史数据中的用户的消费参数与增量用户的消费参数之间的相关性的计算表达式为:
Figure QLYQS_37
式中,
Figure QLYQS_49
表示增量数据中第/>
Figure QLYQS_40
个增量用户与第/>
Figure QLYQS_45
个历史数据中相关性较大的数据集之间的特征区分量;/>
Figure QLYQS_51
表示增量数据中第/>
Figure QLYQS_55
个增量用户的消费行为特征值;/>
Figure QLYQS_54
表示第/>
Figure QLYQS_57
个历史数据中第/>
Figure QLYQS_48
个用户的消费行为特征值;/>
Figure QLYQS_50
表示增量数据中第/>
Figure QLYQS_38
个增量用户的第/>
Figure QLYQS_42
个消费参数;/>
Figure QLYQS_41
表示第/>
Figure QLYQS_43
个历史数据中第/>
Figure QLYQS_46
个用户的第/>
Figure QLYQS_53
个消费参数;/>
Figure QLYQS_44
表示不同的用户;/>
Figure QLYQS_47
表示第/>
Figure QLYQS_52
个历史数据中用户数量;/>
Figure QLYQS_56
表示消费参数总数;/>
Figure QLYQS_39
{}表示以自然常熟为底的指数函数。
6.根据权利要求1所述实时增量数据统计分析方法,其特征在于,所述增量用户与历史数据集中每个历史数据相关性的获取方法如下:
增量用户与历史数据集中每个历史数据相关性的计算表达式为:
Figure QLYQS_58
式中,
Figure QLYQS_67
表示增量数据中第/>
Figure QLYQS_60
个增量用户与历史数据集中的第/>
Figure QLYQS_66
个历史数据的相关性;/>
Figure QLYQS_70
表示增量数据中第/>
Figure QLYQS_73
个增量用户的消费参数/>
Figure QLYQS_71
的均值; />
Figure QLYQS_75
表示历史数据集中第/>
Figure QLYQS_68
个历史数据中消费参数/>
Figure QLYQS_72
的均值;/>
Figure QLYQS_59
表示消费参数的种类;/>
Figure QLYQS_65
表示增量数据中第/>
Figure QLYQS_61
个增量用户的购买商品的种类;/>
Figure QLYQS_64
表示历史数据集中第/>
Figure QLYQS_69
个历史数据中所有用户购买的商品的种类;
Figure QLYQS_74
表示增量数据中第/>
Figure QLYQS_62
个增量用户购买的商品种类与历史数据集中第/>
Figure QLYQS_63
个历史数据的用户购买的商品种类的相同数量。
7.根据权利要求1所述实时增量数据统计分析方法,其特征在于,所述历史数据和增量数据的相似度模型的获取方法如下:
历史数据和增量数据的相似度模型的计算表达式为:
Figure QLYQS_76
式中,
Figure QLYQS_78
表示增量数据中第/>
Figure QLYQS_81
个增量用户与历史数据集中的第/>
Figure QLYQS_82
个历史数据的相似程度输出值;/>
Figure QLYQS_79
表示增量数据中第/>
Figure QLYQS_80
个增量用户的消费行为特征值;/>
Figure QLYQS_83
表示历史数据集中的第/>
Figure QLYQS_84
个历史数据中所有用户的消费行为特征值的均值;/>
Figure QLYQS_77
{}表示以自然常熟为底的指数函数。
8.根据权利要求7所述实时增量数据统计分析方法,其特征在于,所述增量数据的归属数据集,包括的具体步骤如下:
给定一个r,获得一个使得
Figure QLYQS_85
最大的/>
Figure QLYQS_86
,那么将第/>
Figure QLYQS_87
个历史数据作为第/>
Figure QLYQS_88
个增量用户的归属数据集。/>
CN202310699401.XA 2023-06-14 2023-06-14 实时增量数据统计分析方法 Active CN116431931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310699401.XA CN116431931B (zh) 2023-06-14 2023-06-14 实时增量数据统计分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310699401.XA CN116431931B (zh) 2023-06-14 2023-06-14 实时增量数据统计分析方法

Publications (2)

Publication Number Publication Date
CN116431931A true CN116431931A (zh) 2023-07-14
CN116431931B CN116431931B (zh) 2023-08-25

Family

ID=87089438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310699401.XA Active CN116431931B (zh) 2023-06-14 2023-06-14 实时增量数据统计分析方法

Country Status (1)

Country Link
CN (1) CN116431931B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862625A (zh) * 2023-09-05 2023-10-10 武汉森全科技有限公司 基于互联网大数据的生鲜水果线上推荐方法
CN116884554A (zh) * 2023-09-06 2023-10-13 济宁蜗牛软件科技有限公司 一种电子病历分类管理方法及***
CN116913395A (zh) * 2023-09-13 2023-10-20 青岛虹竹生物科技有限公司 一种构建小分子肽数据库的数字化方法
CN117932311A (zh) * 2024-03-21 2024-04-26 杭州可当科技有限公司 基于5g网络的智能上网终端的用户智能识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011070396A (ja) * 2009-09-25 2011-04-07 Brother Industries Ltd 商品利用傾向分析方法、商品推奨方法、商品利用傾向分析システム、及び商品推奨システム
JP2011209979A (ja) * 2010-03-30 2011-10-20 Brother Industries Ltd 商品推奨方法及び商品推奨システム
CN102982489A (zh) * 2012-11-23 2013-03-20 广东电网公司电力科学研究院 一种基于海量计量数据的电力客户在线分群方法
CN105389713A (zh) * 2015-10-15 2016-03-09 南京大学 基于用户历史数据的移动流量套餐推荐算法
CN115860787A (zh) * 2022-12-30 2023-03-28 浙江工业大学 一种增量式消费者画像方法
CN116205675A (zh) * 2023-04-28 2023-06-02 华南师范大学 一种基于线程划分的数据采集方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011070396A (ja) * 2009-09-25 2011-04-07 Brother Industries Ltd 商品利用傾向分析方法、商品推奨方法、商品利用傾向分析システム、及び商品推奨システム
JP2011209979A (ja) * 2010-03-30 2011-10-20 Brother Industries Ltd 商品推奨方法及び商品推奨システム
CN102982489A (zh) * 2012-11-23 2013-03-20 广东电网公司电力科学研究院 一种基于海量计量数据的电力客户在线分群方法
CN105389713A (zh) * 2015-10-15 2016-03-09 南京大学 基于用户历史数据的移动流量套餐推荐算法
CN115860787A (zh) * 2022-12-30 2023-03-28 浙江工业大学 一种增量式消费者画像方法
CN116205675A (zh) * 2023-04-28 2023-06-02 华南师范大学 一种基于线程划分的数据采集方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HONG LU 等: "Object Tracking Based on Stable Feature Mining Using Intraframe Clustering and Interframe Association", 《 IEEE ACCESS 》, pages 4690 *
徐忠健;陈泳;刘群;: "基于改进的K-均值聚类的新发展用户虚开分析", 井冈山大学学报(自然科学版), no. 05, pages 98 - 102 *
高明远: "面向电网大数据的电力用户行为分析平台设计与实现", 《CNKI优秀硕士学位论文全文库》, pages 042 - 418 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862625A (zh) * 2023-09-05 2023-10-10 武汉森全科技有限公司 基于互联网大数据的生鲜水果线上推荐方法
CN116862625B (zh) * 2023-09-05 2023-11-21 武汉森全科技有限公司 基于互联网大数据的生鲜水果线上推荐方法
CN116884554A (zh) * 2023-09-06 2023-10-13 济宁蜗牛软件科技有限公司 一种电子病历分类管理方法及***
CN116884554B (zh) * 2023-09-06 2023-11-24 济宁蜗牛软件科技有限公司 一种电子病历分类管理方法及***
CN116913395A (zh) * 2023-09-13 2023-10-20 青岛虹竹生物科技有限公司 一种构建小分子肽数据库的数字化方法
CN116913395B (zh) * 2023-09-13 2023-11-28 青岛虹竹生物科技有限公司 一种构建小分子肽数据库的数字化方法
CN117932311A (zh) * 2024-03-21 2024-04-26 杭州可当科技有限公司 基于5g网络的智能上网终端的用户智能识别方法
CN117932311B (zh) * 2024-03-21 2024-05-31 杭州可当科技有限公司 基于5g网络的智能上网终端的用户智能识别方法

Also Published As

Publication number Publication date
CN116431931B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN116431931B (zh) 实时增量数据统计分析方法
CN111709812A (zh) 基于用户动态分类的电商平台商品推荐方法及***
Tsiptsis et al. Data mining techniques in CRM: inside customer segmentation
WO2002079942A2 (en) System for visual preference determination and predictive product selection
CN114219169A (zh) 颖幡供应链销售和库存预测算法模型和应用***
Vahidi Farashah et al. An analytics model for TelecoVAS customers’ basket clustering using ensemble learning approach
CN116205675B (zh) 一种基于线程划分的数据采集方法及装置
CN115203311B (zh) 一种基于数据大脑的行业数据分析挖掘方法及***
CN115131101A (zh) 一种保险产品个性化智能推荐***
CN112070126A (zh) 一种物联网数据挖掘方法
Wu et al. Discovery of associated consumer demands: Construction of a co-demanded product network with community detection
Lewaaelhamd Customer segmentation using machine learning model: an application of RFM analysis
CN118014622A (zh) 一种基于用户画像的广告推送方法及***
Noviantoro et al. Applying data mining techniques to investigate online shopper purchase intention based on clickstream data
Wu et al. RETRACTED ARTICLE: Artificial neural network based high dimensional data visualization technique for interactive data exploration in E-commerce
CN112232388A (zh) 基于elm-rfe的购物意图关键因素识别方法
Bhargavi et al. Comparative study of consumer purchasing and decision pattern analysis using pincer search based data mining method
Singh et al. Improving customer segmentation in e-commerce using predictive neural network
Jadhav et al. Customer Segmentation and Buyer Targeting Approach
CN114648391B (zh) 一种网购信息推荐方法
Wikamulia et al. Predictive business intelligence dashboard for food and beverage business
Huang Analysis of promotional online shopping behavior based on machine learning
CN115953166B (zh) 基于大数据智能匹配的客户信息管理方法及***
CN113706195B (zh) 一种基于两阶段组合的在线消费行为预测方法及***
CN117035947B (zh) 基于大数据处理的农产品数据分析方法及云平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant