CN116562923B - 一种基于电商行为的大数据分析方法、***及介质 - Google Patents

一种基于电商行为的大数据分析方法、***及介质 Download PDF

Info

Publication number
CN116562923B
CN116562923B CN202310606850.5A CN202310606850A CN116562923B CN 116562923 B CN116562923 B CN 116562923B CN 202310606850 A CN202310606850 A CN 202310606850A CN 116562923 B CN116562923 B CN 116562923B
Authority
CN
China
Prior art keywords
data
user behavior
behavior data
network nodes
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310606850.5A
Other languages
English (en)
Other versions
CN116562923A (zh
Inventor
郑志光
李伟汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Prajnahai Technology Co ltd
Original Assignee
Shenzhen Prajnahai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Prajnahai Technology Co ltd filed Critical Shenzhen Prajnahai Technology Co ltd
Priority to CN202310606850.5A priority Critical patent/CN116562923B/zh
Publication of CN116562923A publication Critical patent/CN116562923A/zh
Application granted granted Critical
Publication of CN116562923B publication Critical patent/CN116562923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种基于电商行为的大数据分析方法、***及介质,该方法包括:通过网络爬虫抓取用户行为数据,并对用户行为数据进行预处理,得到结果信息;提取结果信息特征值,将结果信息特征值与预设的特征阈值进行比较,得到偏差率;判断所述偏差率是否大于或等于预设的偏差率阈值;若大于或等于,则生成修正信息,通过修正信息对用户行为数据进行反馈修正;若小于,则将用户行为数据进行聚类分析,得到行为分类结果;通过判断用户行为数据的偏差率对用户行为数据进行分析处理,进而可以更加精准的对用户行为数据进行分析,分析结果更加贴近实际值。

Description

一种基于电商行为的大数据分析方法、***及介质
技术领域
本申请涉及大数据分析领域,具体而言,涉及一种基于电商行为的大数据分析方法、***及介质。
背景技术
电子商务是指以信息网络技术为手段,以商品交换为中心的商务活动。也可以理解为互联网、内部网和增值网上的电子交易及相关服务活动,是传统商业活动中所有环节的电子化、网络化和信息化。以互联网为媒介的商业活动都属于电子商务的范围。
现有的电商行为大数据分析精度较差,无法通过网络爬虫抓取用户行为数据对用户行为数据的进行偏差判断,从而根据偏差结果进行修正,针对上述问题,目前亟待有效的技术解决方案。
发明内容
本申请实施例的目的在于提供一种基于电商行为的大数据分析方法、***及介质,可以通过判断用户行为数据的偏差率对用户行为数据进行分析处理,进而可以更加精准的对用户行为数据进行分析,分析结果更加贴近实际值的技术。
本申请实施例还提供了一种基于电商行为的大数据分析方法,包括:
通过网络爬虫抓取用户行为数据,并对用户行为数据进行预处理,得到结果信息;
提取结果信息特征值,将结果信息特征值与预设的特征阈值进行比较,得到偏差率;
判断所述偏差率是否大于或等于预设的偏差率阈值;
若大于或等于,则生成修正信息,通过修正信息对用户行为数据进行反馈修正;
若小于,则将用户行为数据进行聚类分析,得到行为分类结果。
可选地,在本申请实施例所述的基于电商行为的大数据分析方法中,所述通过网络爬虫抓取用户行为数据,并对用户行为数据进行预处理,得到结果信息,包括:
抓取网页,设定遍历规则,遍历网络节点,并提取网络节点的数据;
通过分析算法计算网络节点的数据的评价值;
将网络节点的评价值与预设的阈值进行比较,得到评价差值;
判断所述评价差值是否大于或等于预设的评价差值;
若大于或等于,则生成修正信息,通过修正信息对遍历规则进行调整;
若小于,则将网络节点的数据存放到存储节点,生成存储数据。
可选地,在本申请实施例所述的基于电商行为的大数据分析方法中,所述抓取网页,设定遍历规则,遍历网络节点,并提取网络节点的数据,包括:
获取网络节点的数量;
将网络节点的数量与预设的数量进行差值计算,得到数量差值;
判断所述数量差值是否为正;
若为正,则判定网络节点数量多,建立叠加规则,通过叠加规则对网络节点进行融合;
若为负,则判定网络节点数量少,建立分割规则,通过分割规则对网络节点进行分割。
可选地,在本申请实施例所述的基于电商行为的大数据分析方法中,所述若为正,则判定网络节点数量多,建立叠加规则,通过叠加规则对网络节点进行融合,包括:
获取网络节点的数据,生成节点信息;
将节点信息进行随机排序;
按照排序将相邻的两个节点信息进行比较,得到第一相似度;
判断所述第一相似度是否大于或等于第一相似度阈值;
若大于或等于,则将相邻的两个网络节点进行融合,并生成网络节点数量;
若网络节点数量与预设的网络节点数量相等,则停止网络节点融合。
可选地,在本申请实施例所述的基于电商行为的大数据分析方法中,所述若为负,则判定网络节点数量少,建立分割规则,通过分割规则对网络节点进行分割,包括:
若网络节点数量小于预设的网络节点数量;
获取同一个网络节点内的数据信息;
将网络节点内的数据信息与预设的数据信息进行比较,得到第二相似度;
判断所述第二相似度是否大于或等于第二相似度阈值;
若大于或等于,则将网络节点内的数据划为同一类数据;
若小于,则判断对应的数据为不同类,将不同类的网络数据进行网络节点分割。
可选地,在本申请实施例所述的基于电商行为的大数据分析方法中,所述若大于或等于,则生成修正信息,通过修正信息对用户行为数据进行反馈修正,包括:
提取结果信息特征值,将结果信息特征值与预设的特征阈值进行比较,得到偏差率;
判断所述偏差率是否大于或等于第一偏差率阈值且小于第二偏差率阈值;
若大于或等于第一偏差率阈值且小于第二偏差率阈值,则生成第一修正信息,通过第一修正信息生成第一反馈数据,根据第一反馈数据对用户行为数据进行调整;
若大于第二偏差率阈值,则生成第二修正信息,通过第二修正信息生成第二反馈数据,根据第二反馈数据对用户行为数据进行调整。
第二方面,本申请实施例提供了一种基于电商行为的大数据分析***,该***包括:存储器及处理器,所述存储器中包括基于电商行为的大数据分析方法的程序,所述基于电商行为的大数据分析方法的程序被所述处理器执行时实现以下步骤:
通过网络爬虫抓取用户行为数据,并对用户行为数据进行预处理,得到结果信息;
提取结果信息特征值,将结果信息特征值与预设的特征阈值进行比较,得到偏差率;
判断所述偏差率是否大于或等于预设的偏差率阈值;
若大于或等于,则生成修正信息,通过修正信息对用户行为数据进行反馈修正;
若小于,则将用户行为数据进行聚类分析,得到行为分类结果。
可选地,在本申请实施例所述的基于电商行为的大数据分析***中,所述通过网络爬虫抓取用户行为数据,并对用户行为数据进行预处理,得到结果信息,包括:
抓取网页,设定遍历规则,遍历网络节点,并提取网络节点的数据;
通过分析算法计算网络节点的数据的评价值;
将网络节点的评价值与预设的阈值进行比较,得到评价差值;
判断所述评价差值是否大于或等于预设的评价差值;
若大于或等于,则生成修正信息,通过修正信息对遍历规则进行调整;
若小于,则将网络节点的数据存放到存储节点,生成存储数据。
可选地,在本申请实施例所述的基于电商行为的大数据分析***中,所述抓取网页,设定遍历规则,遍历网络节点,并提取网络节点的数据,包括:
获取网络节点的数量;
将网络节点的数量与预设的数量进行差值计算,得到数量差值;
判断所述数量差值是否为正;
若为正,则判定网络节点数量多,建立叠加规则,通过叠加规则对网络节点进行融合;
若为负,则判定网络节点数量少,建立分割规则,通过分割规则对网络节点进行分割。
第三方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中包括基于电商行为的大数据分析方法程序,所述基于电商行为的大数据分析方法程序被处理器执行时,实现如上述任一项所述的基于电商行为的大数据分析方法的步骤。
由上可知,本申请实施例提供的一种基于电商行为的大数据分析方法、***及介质,通过网络爬虫抓取用户行为数据,并对用户行为数据进行预处理,得到结果信息;提取结果信息特征值,将结果信息特征值与预设的特征阈值进行比较,得到偏差率;判断所述偏差率是否大于或等于预设的偏差率阈值;若大于或等于,则生成修正信息,通过修正信息对用户行为数据进行反馈修正;若小于,则将用户行为数据进行聚类分析,得到行为分类结果;通过判断用户行为数据的偏差率对用户行为数据进行分析处理,进而可以更加精准的对用户行为数据进行分析,分析结果更加贴近实际值。
本申请的其他特征和优点将在随后的说明书阐述,并且,本申请的优点部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的基于电商行为的大数据分析方法的流程图;
图2为本申请实施例提供的基于电商行为的大数据分析方法的用户行为数据修正流程图;
图3为本申请实施例提供的基于电商行为的大数据分析方法的网络节点处理流程图;
图4为本申请实施例提供的基于电商行为的大数据分析方法的网络节点融合流程图;
图5为本申请实施例提供的基于电商行为的大数据分析***的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到,相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1是本申请一些实施例中的一种基于电商行为的大数据分析方法的流程图。该基于电商行为的大数据分析方法用于终端设备中,该基于电商行为的大数据分析方法,包括以下步骤:
S101,通过网络爬虫抓取用户行为数据,并对用户行为数据进行预处理,得到结果信息;
S102,提取结果信息特征值,将结果信息特征值与预设的特征阈值进行比较,得到偏差率;
S103,判断偏差率是否大于或等于预设的偏差率阈值;
S104,若大于或等于,则生成修正信息,通过修正信息对用户行为数据进行反馈修正;
S105,若小于,则将用户行为数据进行聚类分析,得到行为分类结果。
需要说明的是,网络爬虫是一个自动提取网页的程序,它为搜索引擎下载网页,是搜索引擎的重要组成,网络爬虫从一个或若干初始网页的网络节点开始,获得初始网页上的网络节点,在抓取网页的过程中,不断从当前页面上抽取新的网络节点放入队列,直到满足***的一定停止条件。
请参照图2,图2是本申请一些实施例中的一种基于电商行为的大数据分析方法的用户行为数据修正流程图。根据本发明实施例,通过网络爬虫抓取用户行为数据,并对用户行为数据进行预处理,得到结果信息,包括:
S201,抓取网页,设定遍历规则,遍历网络节点,并提取网络节点的数据;
S202,通过分析算法计算网络节点的数据的评价值;
S203,将网络节点的评价值与预设的阈值进行比较,得到评价差值;
S204,判断评价差值是否大于或等于预设的评价差值;
S205,若大于或等于,则生成修正信息,通过修正信息对遍历规则进行调整;若小于,则将网络节点的数据存放到存储节点,生成存储数据。
需要说明的是,通过对网络节点进行评价,网络节点评价值大于预设的阈值时,说明网络节点的数据满足要求,只有网络节点的数据满足要求时,才能够更加精准的判断用户行为。
请参照图3,图3是本申请一些实施例中的一种基于电商行为的大数据分析方法的网络节点处理流程图。根据本发明实施例,抓取网页,设定遍历规则,遍历网络节点,并提取网络节点的数据,包括:
S301,获取网络节点的数量;
S302,将网络节点的数量与预设的数量进行差值计算,得到数量差值;
S303,判断数量差值是否为正;
S304,若为正,则判定网络节点数量多,建立叠加规则,通过叠加规则对网络节点进行融合;
S305,若为负,则判定网络节点数量少,建立分割规则,通过分割规则对网络节点进行分割。
需要说明的是,通过判断网络节点的数量对网络节点进行整合,整合的原则根据网络节点信息的相似度进行判断识别,保证整合后的网络节点数据依然保持原有的数据信息类别。
请参照图4,图4是本申请一些实施例中的一种基于电商行为的大数据分析方法的网络节点融合流程图。根据本发明实施例,若为正,则判定网络节点数量多,建立叠加规则,通过叠加规则对网络节点进行融合,包括:
S401,获取网络节点的数据,生成节点信息,将节点信息进行随机排序;
S402,按照排序将相邻的两个节点信息进行比较,得到第一相似度;
S403,判断第一相似度是否大于或等于第一相似度阈值;
S404,若大于或等于,则将相邻的两个网络节点进行融合,并生成网络节点数量;
S405,若网络节点数量与预设的网络节点数量相等,则停止网络节点融合。
需要说明的是,对排序后的节点信息进行相似度比较,比较的原则是将第一个网络节点与第二网络节点进行比较,第三个网络节点与第四个网络节点进行比较,依次类推。
根据本发明实施例,若为负,则判定网络节点数量少,建立分割规则,通过分割规则对网络节点进行分割,包括:
若网络节点数量小于预设的网络节点数量;
获取同一个网络节点内的数据信息;
将网络节点内的数据信息与预设的数据信息进行比较,得到第二相似度;
判断第二相似度是否大于或等于第二相似度阈值;
若大于或等于,则将网络节点内的数据划为同一类数据;
若小于,则判断对应的数据为不同类,将不同类的网络数据进行网络节点分割。
根据本发明实施例,若大于或等于,则生成修正信息,通过修正信息对用户行为数据进行反馈修正,包括:
提取结果信息特征值,将结果信息特征值与预设的特征阈值进行比较,得到偏差率;
判断偏差率是否大于或等于第一偏差率阈值且小于第二偏差率阈值;
若大于或等于第一偏差率阈值且小于第二偏差率阈值,则生成第一修正信息,通过第一修正信息生成第一反馈数据,根据第一反馈数据对用户行为数据进行调整;
若大于第二偏差率阈值,则生成第二修正信息,通过第二修正信息生成第二反馈数据,根据第二反馈数据对用户行为数据进行调整。
需要说明的是,判断用户行为数据,根据用户行为数据的偏差率对用户行为数据进行不同方式的调整,调整后的用户行为数据更加精准。
根据本发明实施例,所述将用户行为数据进行聚类分析,得到行为分类结果之后,还包括:
将用户行为数据的分类结果和预设分类结果进行对比分析,得到第三相似值;
判断所述第三相似值是否大于预设第三相似阈值,若是,将对应用户行为数据进行标记,并触发警示信息;
将标记的用户行为数据发送至预设管理端以进行提醒。
需要说明的是,所述预设分类结果为不良动作行为数据的分类结果,其中当第三相似值大于预设第三相似阈值时,说明对应用户行为数据属于不良动作行为,将对应用户行为数据进行标记并发发送至预设管理端以进行提醒,所述第三相似阈值由本领域技术人员根据实际需求进行设置。
根据本发明实施例,还包括:
基于预设时间感应器,获取用户行为数据的时间值;
根据用户行为数据的时间值将对应用户行为数据进行标识,得到不同时间点的用户行为数据;
将不同时间点的用户行为数据按照时间先后顺序进行存储。
需要说明的是,通过预设时间感应器将不同时间点的用户行为进行时间标识,且按照时间先后顺序进行存储。
根据本发明实施例,还包括:
基于预设时间周期,将所述预设时间周期内不同时间点的用户行为数据进行对比分析,得到第四相似值;
判断所述第四相似值是否大于预设第四相似阈值,若是,则触发对应用户行为动作是否重复信息;
将用户行为动作是否重复信息发送至用户端以进行确认。
需要说明的是,在预设时间周期内,若存在不同时间点的用户行为数据的相似值大于第四相似阈值,则说明不同时间点的用户行为数据为重复数据,对应用户端可能存在手滑等现象,将用户行为动作是否重复信息发送至用户端以进行确认,其中若是,则将重复的用户行为动作进行删除,保留时间点靠前的用户行为动作数据;若否,则将对应用户行为数据进行分别存储。
请参照图5,图5是本申请一些实施例中的一种基于电商行为的大数据分析***的结构示意图。第二方面,本申请实施例提供了一种基于电商行为的大数据分析***5,该***包括:存储器51及处理器52,存储器51中包括基于电商行为的大数据分析方法的程序,基于电商行为的大数据分析方法的程序被处理器执行时实现以下步骤:
通过网络爬虫抓取用户行为数据,并对用户行为数据进行预处理,得到结果信息;
提取结果信息特征值,将结果信息特征值与预设的特征阈值进行比较,得到偏差率;
判断偏差率是否大于或等于预设的偏差率阈值;
若大于或等于,则生成修正信息,通过修正信息对用户行为数据进行反馈修正;
若小于,则将用户行为数据进行聚类分析,得到行为分类结果。
需要说明的是,网络爬虫是一个自动提取网页的程序,它为搜索引擎下载网页,是搜索引擎的重要组成,网络爬虫从一个或若干初始网页的网络节点开始,获得初始网页上的网络节点,在抓取网页的过程中,不断从当前页面上抽取新的网络节点放入队列,直到满足***的一定停止条件。
根据本发明实施例,通过网络爬虫抓取用户行为数据,并对用户行为数据进行预处理,得到结果信息,包括:
抓取网页,设定遍历规则,遍历网络节点,并提取网络节点的数据;
通过分析算法计算网络节点的数据的评价值;
将网络节点的评价值与预设的阈值进行比较,得到评价差值;
判断评价差值是否大于或等于预设的评价差值;
若大于或等于,则生成修正信息,通过修正信息对遍历规则进行调整;
若小于,则将网络节点的数据存放到存储节点,生成存储数据。
需要说明的是,通过对网络节点进行评价,网络节点评价值大于预设的阈值时,说明网络节点的数据满足要求,只有网络节点的数据满足要求时,才能够更加精准的判断用户行为。
根据本发明实施例,抓取网页,设定遍历规则,遍历网络节点,并提取网络节点的数据,包括:
获取网络节点的数量;
将网络节点的数量与预设的数量进行差值计算,得到数量差值;
判断数量差值是否为正;
若为正,则判定网络节点数量多,建立叠加规则,通过叠加规则对网络节点进行融合;
若为负,则判定网络节点数量少,建立分割规则,通过分割规则对网络节点进行分割。
需要说明的是,通过判断网络节点的数量对网络节点进行整合,整合的原则根据网络节点信息的相似度进行判断识别,保证整合后的网络节点数据依然保持原有的数据信息类别。
根据本发明实施例,若为正,则判定网络节点数量多,建立叠加规则,通过叠加规则对网络节点进行融合,包括:
获取网络节点的数据,生成节点信息;
将节点信息进行随机排序;
按照排序将相邻的两个节点信息进行比较,得到第一相似度;
判断第一相似度是否大于或等于第一相似度阈值;
若大于或等于,则将相邻的两个网络节点进行融合,并生成网络节点数量;
若网络节点数量与预设的网络节点数量相等,则停止网络节点融合。
需要说明的是,对排序后的节点信息进行相似度比较,比较的原则是将第一个网络节点与第二网络节点进行比较,第三个网络节点与第四个网络节点进行比较,依次类推。
根据本发明实施例,若为负,则判定网络节点数量少,建立分割规则,通过分割规则对网络节点进行分割,包括:
若网络节点数量小于预设的网络节点数量;
获取同一个网络节点内的数据信息;
将网络节点内的数据信息与预设的数据信息进行比较,得到第二相似度;
判断第二相似度是否大于或等于第二相似度阈值;
若大于或等于,则将网络节点内的数据划为同一类数据;
若小于,则判断对应的数据为不同类,将不同类的网络数据进行网络节点分割。
根据本发明实施例,若大于或等于,则生成修正信息,通过修正信息对用户行为数据进行反馈修正,包括:
提取结果信息特征值,将结果信息特征值与预设的特征阈值进行比较,得到偏差率;
判断偏差率是否大于或等于第一偏差率阈值且小于第二偏差率阈值;
若大于或等于第一偏差率阈值且小于第二偏差率阈值,则生成第一修正信息,通过第一修正信息生成第一反馈数据,根据第一反馈数据对用户行为数据进行调整;
若大于第二偏差率阈值,则生成第二修正信息,通过第二修正信息生成第二反馈数据,根据第二反馈数据对用户行为数据进行调整。
需要说明的是,判断用户行为数据,根据用户行为数据的偏差率对用户行为数据进行不同方式的调整,调整后的用户行为数据更加精准。
根据本发明实施例,所述将用户行为数据进行聚类分析,得到行为分类结果之后,还包括:
将用户行为数据的分类结果和预设分类结果进行对比分析,得到第三相似值;
判断所述第三相似值是否大于预设第三相似阈值,若是,将对应用户行为数据进行标记,并触发警示信息;
将标记的用户行为数据发送至预设管理端以进行提醒。
需要说明的是,所述预设分类结果为不良动作行为数据的分类结果,其中当第三相似值大于预设第三相似阈值时,说明对应用户行为数据属于不良动作行为,将对应用户行为数据进行标记并发发送至预设管理端以进行提醒,所述第三相似阈值由本领域技术人员根据实际需求进行设置。
根据本发明实施例,还包括:
基于预设时间感应器,获取用户行为数据的时间值;
根据用户行为数据的时间值将对应用户行为数据进行标识,得到不同时间点的用户行为数据;
将不同时间点的用户行为数据按照时间先后顺序进行存储。
需要说明的是,通过预设时间感应器将不同时间点的用户行为进行时间标识,且按照时间先后顺序进行存储。
根据本发明实施例,还包括:
基于预设时间周期,将所述预设时间周期内不同时间点的用户行为数据进行对比分析,得到第四相似值;
判断所述第四相似值是否大于预设第四相似阈值,若是,则触发对应用户行为动作是否重复信息;
将用户行为动作是否重复信息发送至用户端以进行确认。
需要说明的是,在预设时间周期内,若存在不同时间点的用户行为数据的相似值大于第四相似阈值,则说明不同时间点的用户行为数据为重复数据,对应用户端可能存在手滑等现象,将用户行为动作是否重复信息发送至用户端以进行确认,其中若是,则将重复的用户行为动作进行删除,保留时间点靠前的用户行为动作数据;若否,则将对应用户行为数据进行分别存储。
本发明第三方面提供了一种计算机可读存储介质,可读存储介质中包括基于电商行为的大数据分析方法程序,基于电商行为的大数据分析方法程序被处理器执行时,实现如上述任一项的基于电商行为的大数据分析方法的步骤。
本发明公开的一种基于电商行为的大数据分析方法、***及介质,通过网络爬虫抓取用户行为数据,并对用户行为数据进行预处理,得到结果信息;提取结果信息特征值,将结果信息特征值与预设的特征阈值进行比较,得到偏差率;判断所述偏差率是否大于或等于预设的偏差率阈值;若大于或等于,则生成修正信息,通过修正信息对用户行为数据进行反馈修正;若小于,则将用户行为数据进行聚类分析,得到行为分类结果;通过判断用户行为数据的偏差率对用户行为数据进行分析处理,进而可以更加精准的对用户行为数据进行分析,分析结果更加贴近实际值。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (5)

1.一种基于电商行为的大数据分析方法,其特征在于,包括:
通过网络爬虫抓取用户行为数据,并对用户行为数据进行预处理,得到结果信息;
提取结果信息特征值,将结果信息特征值与预设的特征阈值进行比较,得到偏差率;
判断所述偏差率是否大于或等于预设的偏差率阈值;
若大于或等于,则生成修正信息,通过修正信息对用户行为数据进行反馈修正;
若小于,则将用户行为数据进行聚类分析,得到行为分类结果;
所述通过网络爬虫抓取用户行为数据,并对用户行为数据进行预处理,得到结果信息,包括:
抓取网页,设定遍历规则,遍历网络节点,并提取网络节点的数据;
通过分析算法计算网络节点的数据的评价值;
将网络节点的评价值与预设的阈值进行比较,得到评价差值;
判断所述评价差值是否大于或等于预设的评价差值;
若大于或等于,则生成修正信息,通过修正信息对遍历规则进行调整;
若小于,则将网络节点的数据存放到存储节点,生成存储数据;
所述抓取网页,设定遍历规则,遍历网络节点,并提取网络节点的数据,包括:
获取网络节点的数量;
将网络节点的数量与预设的数量进行差值计算,得到数量差值;
判断所述数量差值是否为正;
若为正,则判定网络节点数量多,建立叠加规则,通过叠加规则对网络节点进行融合;
若为负,则判定网络节点数量少,建立分割规则,通过分割规则对网络节点进行分割;
所述若大于或等于,则生成修正信息,通过修正信息对用户行为数据进行反馈修正,包括:
提取结果信息特征值,将结果信息特征值与预设的特征阈值进行比较,得到偏差率;
判断所述偏差率是否大于或等于第一偏差率阈值且小于第二偏差率阈值;
若大于或等于第一偏差率阈值且小于第二偏差率阈值,则生成第一修正信息,通过第一修正信息生成第一反馈数据,根据第一反馈数据对用户行为数据进行调整;
若大于第二偏差率阈值,则生成第二修正信息,通过第二修正信息生成第二反馈数据,根据第二反馈数据对用户行为数据进行调整;
所述将用户行为数据进行聚类分析,得到行为分类结果之后,还包括:
将用户行为数据的分类结果和预设分类结果进行对比分析,得到第三相似值;
判断所述第三相似值是否大于预设第三相似阈值,若是,将对应用户行为数据进行标记,并触发警示信息;
将标记的用户行为数据发送至预设管理端以进行提醒。
2.根据权利要求1所述的基于电商行为的大数据分析方法,其特征在于,所述若为正,则判定网络节点数量多,建立叠加规则,通过叠加规则对网络节点进行融合,包括:
获取网络节点的数据,生成节点信息;
将节点信息进行随机排序;
按照排序将相邻的两个节点信息进行比较,得到第一相似度;
判断所述第一相似度是否大于或等于第一相似度阈值;
若大于或等于,则将相邻的两个网络节点进行融合,并生成网络节点数量;
若网络节点数量与预设的网络节点数量相等,则停止网络节点融合。
3.根据权利要求2所述的基于电商行为的大数据分析方法,其特征在于,所述若为负,则判定网络节点数量少,建立分割规则,通过分割规则对网络节点进行分割,包括:
若网络节点数量小于预设的网络节点数量;
获取同一个网络节点内的数据信息;
将网络节点内的数据信息与预设的数据信息进行比较,得到第二相似度;
判断所述第二相似度是否大于或等于第二相似度阈值;
若大于或等于,则将网络节点内的数据划为同一类数据;
若小于,则判断对应的数据为不同类,将不同类的网络数据进行网络节点分割。
4.一种基于电商行为的大数据分析***,其特征在于,该***包括:存储器及处理器,所述存储器中包括基于电商行为的大数据分析方法的程序,所述基于电商行为的大数据分析方法的程序被所述处理器执行时实现以下步骤:
通过网络爬虫抓取用户行为数据,并对用户行为数据进行预处理,得到结果信息;
提取结果信息特征值,将结果信息特征值与预设的特征阈值进行比较,得到偏差率;
判断所述偏差率是否大于或等于预设的偏差率阈值;
若大于或等于,则生成修正信息,通过修正信息对用户行为数据进行反馈修正;
若小于,则将用户行为数据进行聚类分析,得到行为分类结果;
所述通过网络爬虫抓取用户行为数据,并对用户行为数据进行预处理,得到结果信息,包括:
抓取网页,设定遍历规则,遍历网络节点,并提取网络节点的数据;
通过分析算法计算网络节点的数据的评价值;
将网络节点的评价值与预设的阈值进行比较,得到评价差值;
判断所述评价差值是否大于或等于预设的评价差值;
若大于或等于,则生成修正信息,通过修正信息对遍历规则进行调整;
若小于,则将网络节点的数据存放到存储节点,生成存储数据;
所述抓取网页,设定遍历规则,遍历网络节点,并提取网络节点的数据,包括:
获取网络节点的数量;
将网络节点的数量与预设的数量进行差值计算,得到数量差值;
判断所述数量差值是否为正;
若为正,则判定网络节点数量多,建立叠加规则,通过叠加规则对网络节点进行融合;
若为负,则判定网络节点数量少,建立分割规则,通过分割规则对网络节点进行分割;
所述若大于或等于,则生成修正信息,通过修正信息对用户行为数据进行反馈修正,包括:
提取结果信息特征值,将结果信息特征值与预设的特征阈值进行比较,得到偏差率;
判断所述偏差率是否大于或等于第一偏差率阈值且小于第二偏差率阈值;
若大于或等于第一偏差率阈值且小于第二偏差率阈值,则生成第一修正信息,通过第一修正信息生成第一反馈数据,根据第一反馈数据对用户行为数据进行调整;
若大于第二偏差率阈值,则生成第二修正信息,通过第二修正信息生成第二反馈数据,根据第二反馈数据对用户行为数据进行调整;
所述将用户行为数据进行聚类分析,得到行为分类结果之后,还包括:
将用户行为数据的分类结果和预设分类结果进行对比分析,得到第三相似值;
判断所述第三相似值是否大于预设第三相似阈值,若是,将对应用户行为数据进行标记,并触发警示信息;
将标记的用户行为数据发送至预设管理端以进行提醒。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括基于电商行为的大数据分析方法程序,所述基于电商行为的大数据分析方法程序被处理器执行时,实现如权利要求1至3中任一项所述的基于电商行为的大数据分析方法的步骤。
CN202310606850.5A 2023-05-26 2023-05-26 一种基于电商行为的大数据分析方法、***及介质 Active CN116562923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310606850.5A CN116562923B (zh) 2023-05-26 2023-05-26 一种基于电商行为的大数据分析方法、***及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310606850.5A CN116562923B (zh) 2023-05-26 2023-05-26 一种基于电商行为的大数据分析方法、***及介质

Publications (2)

Publication Number Publication Date
CN116562923A CN116562923A (zh) 2023-08-08
CN116562923B true CN116562923B (zh) 2023-12-22

Family

ID=87501791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310606850.5A Active CN116562923B (zh) 2023-05-26 2023-05-26 一种基于电商行为的大数据分析方法、***及介质

Country Status (1)

Country Link
CN (1) CN116562923B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5978794A (en) * 1996-04-09 1999-11-02 International Business Machines Corporation Method and system for performing spatial similarity joins on high-dimensional points
DE102007042019A1 (de) * 2007-09-04 2009-04-16 Universität Tübingen Verfahren und Vorrichtung zur Positionsbestimmung und Navigation
JP2012234415A (ja) * 2011-05-02 2012-11-29 Fujitsu Ltd インデックス管理方法、インデックス管理プログラムおよびインデックス管理装置
CN106294529A (zh) * 2015-06-29 2017-01-04 阿里巴巴集团控股有限公司 一种识别用户异常操作方法和设备
CN107172615A (zh) * 2017-07-25 2017-09-15 中国信息安全测评中心 一种网络节点的数据传输方法、装置、网络节点及***
CN110598055A (zh) * 2019-08-23 2019-12-20 华北电力大学 一种基于属性图的并行图摘要方法
CN110943920A (zh) * 2019-12-12 2020-03-31 电子科技大学 一种基于无线自组织网络的分布式簇头选举方法
CN110969472A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 访问行为的处理方法和装置
CN111259137A (zh) * 2020-01-17 2020-06-09 平安科技(深圳)有限公司 知识图谱摘要的生成方法及***
CN112084225A (zh) * 2020-09-16 2020-12-15 苏州众智诺成信息科技有限公司 一种基于大数据的共享平台的智能处理方法、***及可读存储介质
CN112396019A (zh) * 2020-11-27 2021-02-23 佛山市墨纳森智能科技有限公司 一种基于无人机的植被分布识别方法、***及可读存储介质
CN112907107A (zh) * 2021-03-12 2021-06-04 中国水产科学研究院南海水产研究所 一种基于多源信息融合的渔业事故应急处理***及方法
CN113111095A (zh) * 2021-04-02 2021-07-13 国网北京市电力公司 一种智能化信息管理方法及***
CA3179065A1 (fr) * 2020-05-20 2021-11-11 I-Mc Procede pour le controle d'une piece en cours de fabrication
CN113762506A (zh) * 2021-08-13 2021-12-07 中国电子科技集团公司第三十八研究所 一种深度学习模型剪枝方法及***
CN113794906A (zh) * 2021-09-23 2021-12-14 苏州律点信息科技有限公司 一种视频推荐方法、装置及云视频服务器
CN114416008A (zh) * 2022-03-28 2022-04-29 深圳市掌视互娱网络有限公司 多屏互动***及其操作方法
CN115002025A (zh) * 2022-07-21 2022-09-02 东营国图信息科技有限公司 一种数据安全传输方法、***及云平台
CN116012094A (zh) * 2022-11-30 2023-04-25 哈尔滨工业大学(深圳) 一种深度图匹配网络及基于该网络的时尚搭配推荐方法

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5978794A (en) * 1996-04-09 1999-11-02 International Business Machines Corporation Method and system for performing spatial similarity joins on high-dimensional points
DE102007042019A1 (de) * 2007-09-04 2009-04-16 Universität Tübingen Verfahren und Vorrichtung zur Positionsbestimmung und Navigation
JP2012234415A (ja) * 2011-05-02 2012-11-29 Fujitsu Ltd インデックス管理方法、インデックス管理プログラムおよびインデックス管理装置
CN106294529A (zh) * 2015-06-29 2017-01-04 阿里巴巴集团控股有限公司 一种识别用户异常操作方法和设备
CN107172615A (zh) * 2017-07-25 2017-09-15 中国信息安全测评中心 一种网络节点的数据传输方法、装置、网络节点及***
CN110969472A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 访问行为的处理方法和装置
CN110598055A (zh) * 2019-08-23 2019-12-20 华北电力大学 一种基于属性图的并行图摘要方法
CN110943920A (zh) * 2019-12-12 2020-03-31 电子科技大学 一种基于无线自组织网络的分布式簇头选举方法
CN111259137A (zh) * 2020-01-17 2020-06-09 平安科技(深圳)有限公司 知识图谱摘要的生成方法及***
CA3179065A1 (fr) * 2020-05-20 2021-11-11 I-Mc Procede pour le controle d'une piece en cours de fabrication
CN112084225A (zh) * 2020-09-16 2020-12-15 苏州众智诺成信息科技有限公司 一种基于大数据的共享平台的智能处理方法、***及可读存储介质
CN112396019A (zh) * 2020-11-27 2021-02-23 佛山市墨纳森智能科技有限公司 一种基于无人机的植被分布识别方法、***及可读存储介质
CN112907107A (zh) * 2021-03-12 2021-06-04 中国水产科学研究院南海水产研究所 一种基于多源信息融合的渔业事故应急处理***及方法
CN113111095A (zh) * 2021-04-02 2021-07-13 国网北京市电力公司 一种智能化信息管理方法及***
CN113762506A (zh) * 2021-08-13 2021-12-07 中国电子科技集团公司第三十八研究所 一种深度学习模型剪枝方法及***
CN113794906A (zh) * 2021-09-23 2021-12-14 苏州律点信息科技有限公司 一种视频推荐方法、装置及云视频服务器
CN114416008A (zh) * 2022-03-28 2022-04-29 深圳市掌视互娱网络有限公司 多屏互动***及其操作方法
CN115002025A (zh) * 2022-07-21 2022-09-02 东营国图信息科技有限公司 一种数据安全传输方法、***及云平台
CN116012094A (zh) * 2022-11-30 2023-04-25 哈尔滨工业大学(深圳) 一种深度图匹配网络及基于该网络的时尚搭配推荐方法

Also Published As

Publication number Publication date
CN116562923A (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN110210508B (zh) 模型生成方法、异常流量检测方法、装置、电子设备、计算机可读存储介质
EP2691848B1 (en) Determining machine behavior
CN111325463A (zh) 数据质量检测方法、装置、设备及计算机可读存储介质
CN110991474A (zh) 一种机器学***台
CN113378899B (zh) 非正常账号识别方法、装置、设备和存储介质
CN103077163B (zh) 数据预处理方法、装置及***
CN109698798B (zh) 一种应用的识别方法、装置、服务器和存储介质
CN111163072A (zh) 机器学习模型中特征值的确定方法、装置及电子设备
CN114781510A (zh) 一种故障定位方法、装置、***和存储介质
CN112118249A (zh) 基于日志和防火墙的安全防护方法及装置
CN112839014A (zh) 建立识别异常访问者模型的方法、***、设备及介质
CN106294406B (zh) 一种用于处理应用访问数据的方法与设备
CN108804501B (zh) 一种检测有效信息的方法及装置
CN116562923B (zh) 一种基于电商行为的大数据分析方法、***及介质
CN115620243B (zh) 基于人工智能的污染源监测方法、***及云平台
CN109409091B (zh) 检测Web页面的方法、装置、设备以及计算机存储介质
CN111400608B (zh) 数据处理方法及装置、存储介质及电子设备
CN114422168A (zh) 一种恶意机器流量识别方法及***
CN113038283B (zh) 视频推荐方法、装置和存储介质
CN112929458B (zh) App应用的服务端地址确定方法、装置以及存储介质
CN114691505A (zh) 程序问题的定位方法、电子设备及存储介质
CN111091391B (zh) 用于识别作弊用户的方法、装置和电子设备
CN111985979A (zh) 用于广告业务中的无效流量信息处理的方法和装置
CN112364121A (zh) 问卷pdf的自动创建方法、装置、存储介质及计算机设备
CN112308419A (zh) 数据处理方法、装置、设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant