CN114625804A - 基于大数据的用户行为数据处理方法、***及云平台 - Google Patents

基于大数据的用户行为数据处理方法、***及云平台 Download PDF

Info

Publication number
CN114625804A
CN114625804A CN202210321076.9A CN202210321076A CN114625804A CN 114625804 A CN114625804 A CN 114625804A CN 202210321076 A CN202210321076 A CN 202210321076A CN 114625804 A CN114625804 A CN 114625804A
Authority
CN
China
Prior art keywords
behavior
events
event
target operation
information record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210321076.9A
Other languages
English (en)
Other versions
CN114625804B (zh
Inventor
张桂芝
薛羿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Weiai Zhiyun Technology Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202210321076.9A priority Critical patent/CN114625804B/zh
Publication of CN114625804A publication Critical patent/CN114625804A/zh
Application granted granted Critical
Publication of CN114625804B publication Critical patent/CN114625804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供的基于大数据的用户行为数据处理方法、***及云平台,通过确定叠加用户行为数据集,其中,叠加用户行为数据集分别涵盖第一行为信息记录和第二行为信息记录;对第一行为信息记录进行行为描述挖掘,得到第一关键描述集;以及对第二行为信息记录中的各组行为事件进行挖掘,得到各组行为事件中的目标操作主题的显著性表达,根据第二行为信息记录和目标操作主题的显著性表达,生成携带目标操作主题的显著性表达的第三行为信息记录,对第三行为信息记录进行行为描述挖掘,得到第二关键描述集。在本实施例中,第一关键描述集和第二关键描述集存在潜在的对应关系,通过第一关键描述集和第二关键描述集的共同作用下,提高用户行为数据处理的可信度。

Description

基于大数据的用户行为数据处理方法、***及云平台
技术领域
本申请涉及数据处理技术领域,具体而言,涉及基于大数据的用户行为数据处理方法、***及云平台。
背景技术
大数据(big data)是规模非常巨大和复杂的数据集,传统数据库管理工具处理起来面临很多问题,比如说获取、存储、检索、共享、分析和可视化。在将大数据具体应用到用户行为数据处理的过程中时,可能会存在数据处理不准确以及数据处理紊乱的问题,进而可能会导致用户行为挖掘不准确的问题,这样一来,无法确保用户行为数据处理的可信度。
发明内容
鉴于此,本申请提供了基于大数据的用户行为数据处理方法、***及云平台。
第一方面,提供一种基于大数据的用户行为数据处理方法,应用于用户行为数据处理***,所述方法至少包括:
确定叠加用户行为数据集,其中,所述叠加用户行为数据集分别涵盖第一行为信息记录和第二行为信息记录;对所述第一行为信息记录进行行为描述挖掘,得到第一关键描述集;
对所述第二行为信息记录中的各组行为事件进行挖掘,得到各组行为事件中的目标操作主题的显著性表达,根据所述第二行为信息记录和所述目标操作主题的显著性表达,生成携带目标操作主题的显著性表达的第三行为信息记录,对所述第三行为信息记录进行行为描述挖掘,得到第二关键描述集。
在一种独立实施的实施例中,确定叠加用户行为数据集方式包括:
确定由合法爬虫线程爬取的基础第一可视化行为数据集,重构所述第一可视化行为数据集,得到基础第二可视化行为数据集。
在一种独立实施的实施例中,确定叠加用户行为数据集的步骤还包括:
确定由合法爬虫线程爬取的用户行为数据集,通过配置存在动态的数据处理策略将所述用户行为数据集拆解成混合用户行为数据集,其中,所述混合用户行为数据集包括第一阶段性用户行为数据集和第二阶段性用户行为数据集。
在一种独立实施的实施例中,所述目标操作主题的显著性表达包括:所述目标操作主题的要素显著性表达中的习惯显著性表达至少一个。
在一种独立实施的实施例中,根据所述第二行为信息记录和所述目标操作主题的显著性表达,生成携带目标操作主题的显著性表达的第三行为信息记录之后包括:
在各组行为事件中根据所述目标操作主题的显著性表达、所述目标操作主题的显著性表达在对应行为事件中的分布描述以及定位关键词,确定各组行为事件中的所述目标操作主题的显著性表达在基础行为事件中的关联数据集,记录基础行为事件中与所述关联数据集相关联的动态行为事件、所述动态行为事件的定位关键词以及动态行为事件的分布描述。
在一种独立实施的实施例中,记录基础行为事件中与所述关联数据集相关联的动态行为事件、所述动态行为事件的定位关键词以及动态行为事件的分布描述包括:
检测是否需要对所述关联数据集相关联的动态行为事件进行调整;
如果需要,对所述关联数据集相关联的动态行为事件进行调整后,记录调整后的动态行为事件、所述动态行为事件的定位关键词以及动态行为事件的分布描述。
在一种独立实施的实施例中,检测是否需要对所述关联数据集相关联的动态行为事件进行调整包括:
根据云端数据库的容量部署第一判定值,在对所述动态行为事件进行统计时,根据所述动态行为事件信息量确定所匹配的统计资源量化值,检测所匹配的统计资源量化值是否超过所述第一判定值,如果需要,对所述关联数据集相关联的动态行为事件进行调整。
在一种独立实施的实施例中,对所述第三行为信息记录进行行为描述挖掘,得到第二关键描述集之后包括:
对动态行为事件进行特征挖掘,得到特征挖掘后的动态行为事件;
在检测需要将所述第二关键描述集解码成用户行为数据集时,根据所述第二关键描述集得到多组待解码的行为事件以及各组待解码行为事件的定位关键词,根据待解码行为事件的定位关键词找到相关联的特征挖掘后动态行为事件,将所述特征挖掘后动态行为事件根据所述动态行为事件的分布描述加载至所述待解码行为事件中,得到解码后行为事件;对解码后行为事件的进行处理得到用户行为数据集。
在一种独立实施的实施例中,所述方法还包括:
确定当前行为事件的第一目标操作主题,根据所述第一目标操作主题确定前x组行为事件中第一目标操作主题的显著性表达,将前x组行为事件的所述第一目标操作主题的显著性表达添加到当前行为事件中,基于当前的行为事件输出前x组行为事件的第一目标操作主题显著性表达,其中,x为大于1的整数。
在一种独立实施的实施例中,对所述第二行为信息记录中的各组行为事件进行挖掘,得到各组行为事件中的目标操作主题的显著性表达之后包括:
以定位关键词为参照记录各组行为事件中的目标操作主题的显著性表达;
检测所述第一关键描述集中是否需要带有目标操作主题的显著性表达;
如果需要,根据所述定位关键词将各组行为事件的目标操作主题的显著性表达补充至所述第一关键描述集中。
第二方面,提供一种基于大数据的用户行为数据处理***,其特征在于,包括互相之间通信的处理器和存储器,所述处理器用于从所述存储器中读取计算机程序并执行,以实现上述的方法。
第三方面,本申请实施例提供一种云平台,所述云平台包括存储有程序的可读存储介质,以实现所述的方法。
本申请实施例所提供的基于大数据的用户行为数据处理方法、***及云平台,通过确定叠加用户行为数据集,其中,叠加用户行为数据集分别涵盖第一行为信息记录和第二行为信息记录;对第一行为信息记录进行行为描述挖掘,得到第一关键描述集;以及对第二行为信息记录中的各组行为事件进行挖掘,得到各组行为事件中的目标操作主题的显著性表达,根据第二行为信息记录和目标操作主题的显著性表达,生成携带目标操作主题的显著性表达的第三行为信息记录,对第三行为信息记录进行行为描述挖掘,得到第二关键描述集。在本实施例中,第一关键描述集和第二关键描述集存在潜在的对应关系,通过第一关键描述集和第二关键描述集的共同作用下,提高用户行为数据处理的可信度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种基于大数据的用户行为数据处理方法的流程图。
图2为本申请实施例所提供的一种基于大数据的用户行为数据处理装置的框图。
图3为本申请实施例所提供的一种基于大数据的用户行为数据处理***的架构图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本申请技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
请参阅图1,示出了一种基于大数据的用户行为数据处理方法,该方法可以包括以下步骤201-步骤203所描述的技术方案。
步骤201,确定叠加用户行为数据集(可以理解为多个用户行为数据组合形成的集合),其中,叠加用户行为数据集分别涵盖第一行为信息记录(可以理解为用户录入的相关数据,比如:用户输入的操作指令以及用户输入的资料信息等)和第二行为信息记录。
步骤202,对第一行为信息记录进行行为描述挖掘(可以理解为用户意图挖掘),得到第一关键描述集(可以理解为挖局出来重要的特征组成的集合)。
步骤203,以及对第二行为信息记录中的各组行为事件进行挖掘,得到各组行为事件中的目标操作主题的显著性表达,根据第二行为信息记录和目标操作主题(可以理解为操作指示)的显著性表达(可以理解为关键特征),生成携带目标操作主题的显著性表达的第三行为信息记录,对第三行为信息记录进行行为描述挖掘,得到第二关键描述集。
可以理解的是,在执行上述步骤201-步骤203所描述的技术方案时,通过确定叠加用户行为数据集,其中,所述叠加用户行为数据集分别涵盖第一行为信息记录和第二行为信息记录;对所述第一行为信息记录进行行为描述挖掘,得到第一关键描述集;以及对所述第二行为信息记录中的各组行为事件进行挖掘,得到各组行为事件中的目标操作主题的显著性表达,根据所述第二行为信息记录和所述目标操作主题的显著性表达,生成携带目标操作主题的显著性表达的第三行为信息记录,对所述第三行为信息记录进行行为描述挖掘,得到第二关键描述集,在本实施例中,第一关键描述集和第二关键描述集存在潜在的对应关系,通过第一关键描述集和第二关键描述集的共同作用下,提高用户行为数据处理的可信度。
在一种可能的实施例中,对第二行为信息记录中的各组行为事件进行自动挖掘,自动挖掘可以理解为人工智能模型,基本不需要人工进行工作的情况下,通过对合法爬虫线程记录(可以理解为经过授权的爬虫线程)的行为事件队列进行定位,并行地进行挖掘和检测,进而提高数据挖掘的准确性。
进一步地,通过确定叠加用户行为数据集,其中,叠加基础事件集分别涵盖第一行为信息记录和第二行为信息记录,对第一可视化行为信息记录进行行为描述挖掘,得到第一关键描述集;对第二行为信息记录中的各组行为事件进行挖掘,得到各组行为事件中的目标操作主题的显著性表达,根据第二行为信息记录和目标操作主题的显著性表达,生成携带目标操作主题的显著性表达的第三行为信息记录,对第三行为信息记录进行行为描述挖掘,得到第二关键描述集,在不干扰第一关键描述集挖掘效率的基础上,以实现将用户互动信息记录能准确地整合到第二关键描述集中。
在一种可替换的实施例中,确定叠加用户行为数据集步骤具体可以包括以下步骤:确定由合法爬虫线程爬取的基础第一可视化行为数据集,重构第一可视化行为数据集,得到基础第二可视化行为数据集。
通过上述描述内容,以实现与基础一可视化行为数据集可视化完全一致的第二阶段性用户行为数据集的确定,为后续根据多个阶段性用户行为数据集进行处理铺垫好基础。
在一种可替换的实施例中,确定叠加用户行为数据集的步骤还可以还包括以下步骤:确定由合法爬虫线程爬取的用户行为数据集,通过配置存在动态的数据处理策略将用户行为数据集拆解成混合用户行为数据集,其中,混合用户行为数据集包括第一阶段性用户行为数据集和第二阶段性用户行为数据集。
在一种可能的实施例中,假设用户行为数据集包括行为信息记录,行为信息记录有20组行为事件,现在通过配置存在动态的数据处理策略将用户行为数据集拆解成4阶段性用户行为数据集,分别为第一阶段性用户行为数据集和第二阶段性用户行为数据集,第一阶段性用户行为数据集包括第一行为信息记录,第二阶段性用户行为数据集包括第二行为信息记录,第一行为信息记录与第二行为信息记录融合结果匹配用户行为数据集中的行为信息记录,第一行为信息记录和第二行为信息记录分别为10组行为事件。
通过上述描述内容,以实现将用户行为数据集拆解成第一阶段性用户行为数据集和第二阶段性用户行为数据集,为后续根据多个阶段性用户行为数据集进行处理铺垫好基础。
在一种可替换的实施例中,目标操作主题的显著性表达包括:目标操作主题的要素显著性表达与习惯显著性表达中的至少一种。
在一种可能的实施例中,目标操作主题的要素描述包括目标操作主题的属性、目标操作主题的空间定位和目标操作主题的关键词,
在一种可替换的实施例中,第二行为信息记录包括多组行为事件和各组行为事件的定位关键词,根据第二行为信息记录和目标操作主题的显著性表达,生成携带目标操作主题的显著性表达的第三行为信息记录,具体可以包括以下步骤。
STEP210,确定定位关键词为x的行为事件的目标操作主题的显著性表达和目标操作主题的显著性表达在第x组行为事件中的第一分布描述。
STEP211,定位关键词x与第二行为信息记录的定位关键词进行匹配,找到与定位关键词x相关联的第一行为事件。
STEP212,在第一行为事件中根据第一分布描述叠加第x组行为事件的目标操作主题的显著性表达,得到携带目标操作主题的显著性表达的第三行为信息记录,其中,x=1,2,…,x;x≥1。
进一步地,通过根据定位关键词将目标操作主题的显著性表达加载至相关联的行为事件中,以实现携带目标操作主题的显著性表达的第三行为信息记录的生成,为后续的特征挖掘得到第二关键描述集铺垫好基础,进而提高挖掘的精度。
作为另一种可实施方式,第二行为信息记录包括多组行为事件和各组行为事件的定位关键词,根据第二行为信息记录和目标操作主题的显著性表达,生成携带目标操作主题的显著性表达的第三行为信息记录,具体可以包括以下步骤。
STEP220,在各组行为事件中根据目标操作主题的显著性表达、目标操作主题的显著性表达在对应行为事件中的分布描述以及定位关键词,在第二行为信息记录的各组行为事件中抽取具有目标操作主题显著性表达的目标行为事件。
STEP221,根据定位关键词,将目标行为事件与第二行为信息记录中相关联的行为事件进行行为事件整合,得到携带目标操作主题的显著性表达的第三行为信息记录。
可以理解的是,行为事件整合多个关键词中的内容属性进行融合,这样一来,能够有效地提高第三行为信息记录的准确性和完整性。
进一步地,根据定位关键词,将携带有目标操作主题显著性表达的目标行为事件与第二行为信息记录中相关联的行为事件进行行为事件整合,以实现携带目标操作主题的显著性表达的第三行为信息记录的生成,为后续的特征挖掘得到第二关键描述集铺垫好基础,进而提高挖掘的精度。
在一种可替换的实施例中,根据第二行为信息记录和目标操作主题的显著性表达,生成携带目标操作主题的显著性表达的第三行为信息记录之后还可包括以下步骤。
STEP230,在各组行为事件中根据目标操作主题的显著性表达、目标操作主题的显著性表达在对应行为事件中的分布描述以及定位关键词,确定各组行为事件中的目标操作主题的显著性表达在基础行为事件中的关联数据集。
STEP231,记录基础行为事件中与关联数据集相关联的动态行为事件、动态行为事件的定位关键词以及动态行为事件的分布描述。
进一步地,根据目标操作主题的显著性表达、目标操作主题的显著性表达在对应行为事件中的分布描述以及定位关键词,确定了各组行为事件中的目标操作主题的显著性表达在基础行为事件中的关联数据集,以实现基础行为事件中与关联数据集相关联的动态行为事件、动态行为事件的定位关键词以及动态行为事件的分布描述的记录,为后续根据动态行为事件解码带有目标操作主题显著性表达的行为事件铺垫好基础。
在一种可替换的实施例中,记录基础行为事件中与关联数据集相关联的动态行为事件、动态行为事件的定位关键词以及动态行为事件的分布描述,具体可以包括以下步骤。
STEP2310,检测是否需要对关联数据集相关联的动态行为事件进行调整。
STEP2311,如果需要,对关联数据集相关联的动态行为事件进行调整后,记录调整后的动态行为事件、动态行为事件的定位关键词以及动态行为事件的分布描述。
进一步地,在记录调整后的动态行为事件、动态行为事件的定位关键词以及动态行为事件的分布描述之前,根据检测是否需要对关联数据集相关联的动态行为事件进行调整,以实现对动态行为事件的调整,削弱了记录动态行为事件所匹配的统计资源量化值。
在一种可替换的实施例中,检测是否需要对关联数据集相关联的动态行为事件进行调整,具体可以包括以下步骤。
步骤1,根据云端数据库的容量部署第一判定值。
步骤2,在对动态行为事件进行统计时,根据动态行为事件信息量确定所匹配的统计资源量化值。
步骤3,检测所匹配的统计资源量化值是否超过第一判定值,如果需要,对关联数据集相关联的动态行为事件进行调整。
进一步地,通过将云端数据库的容量与统计动态行为事件所匹配的统计资源量化值进行比对,判定出是否需要对动态行为事件进行调整,削弱了记录动态行为事件所匹配的统计资源量化值。
在一种可替换的实施例中,对第三行为信息记录进行行为描述挖掘,得到第二关键描述集之后,具体可以包括以下步骤。
步骤204,对动态行为事件进行特征挖掘,得到特征挖掘后的动态行为事件。
步骤205,在检测需要将第二关键描述集解码成用户行为数据集时,根据第二关键描述集得到多组待解码的行为事件以及各组待解码行为事件的定位关键词,根据待解码行为事件的定位关键词找到相关联的特征挖掘后动态行为事件,将特征挖掘后动态行为事件根据动态行为事件的分布描述加载至待解码行为事件中,得到解码后行为事件。
步骤206,对解码后行为事件的进行处理得到用户行为数据集。
进一步地,对动态行为事件进行特征挖掘得到特征挖掘后动态行为事件,根据第二关键描述集得到多组待解码的行为事件以及待解码行为事件的定位关键词,根据定位关键词以及待解码行为事件将特征挖掘后的动态行为事件加载至待解码的行为事件中,得到解码后行为事件,并对解码后行为事件进行处理得到用户行为数据集,以实现对带有目标操作主题显著性表达的第二关键描述集的解码,为后续进行二次行为事件挖掘铺垫好基础,二次行为事件挖掘包括行为事件优化和目标要素检测。
在一种可替换的实施例中,基于大数据的用户行为数据处理方法还,具体可以包括以下步骤。
步骤1,确定当前行为事件的第一目标操作主题,根据第一目标操作主题确定前x组行为事件中第一目标操作主题的显著性表达。
步骤2,将前x组行为事件的第一目标操作主题的显著性表达加载至当前行为事件中,基于当前的行为事件输出前x组行为事件的第一目标操作主题显著性表达,其中,x不小于1的整数。
进一步地,通过将前x组行为事件中第一目标操作主题的显著性表达加入当前行为事件,以实现在当前行为事件中可以查询上一个x组中与第一目标操作主题相关的显著性表达。
在一种可替换的实施例中,对第三行为信息记录进行行为描述挖掘,得到第二关键描述集之后还可以包括以下步骤。
在一种可能的实施例中,处理各组行为事件的所消耗的时间包括爬取各组行为事件的所消耗的时间和自动挖掘各组行为事件的所消耗的时间。
在一种可替换的实施例中,对第二行为信息记录中的各组行为事件进行挖掘,得到各组行为事件中的目标操作主题的显著性表达之后,具体可以包括以下步骤。
步骤1,以定位关键词为参照记录各组行为事件中的目标操作主题的显著性表达。
步骤2,检测第一关键描述集中是否需要带有目标操作主题的显著性表达。
步骤3,如果需要,根据定位关键词将各组行为事件的目标操作主题的显著性表达补充至第一关键描述集中。
进一步地,根据定位关键词将各组行为事件中的目标操作主题的显著性表达进行记录,在检测第一关键描述集中需要带有目标操作主题的显著性表达时,根据定位关键词将各组行为事件的目标操作主题的显著性表达补充至第一关键描述集中,以实现在第一关键描述集中加权处理目标操作主题的显著性表达。
本公开优选实施例的基于大数据的用户行为数据处理方法步骤,具体可以包括以下步骤。
步骤301,将合法爬虫线程爬取到的行为事件,划分为冷门事件和热门事件两可视化事件集。
将合法爬虫线程爬取到的行为事件,划分为冷门事件和热门事件两可视化事件集。热门事件可视化事件集直接以特征挖掘单元输出热门事件序列,冷门事件可视化事件集进行自动挖掘单元得到用户互动信息情况。
步骤302,根据用户要求选择热门事件显示或冷门事件用户互动信息识别功能。
步骤303,自动挖掘冷门事件可视化事件集中的每一组行为事件,将自动挖掘后的用户互动信息加载至同一组行为事件上,并可视化识别过用户互动信息的热门事件或冷门事件。
步骤304,将携带有用户互动信息的热门事件或冷门事件进行解码。
在识别用户互动信息的同时,根据每一组行为事件的定位关键词,确定用户互动信息在每一组行为事件中相关联的关联数据集,根据定位关键词,在基础行为事件中确定关联数据集相关联的识别行为事件,将识别行为事件、识别行为事件的定位关键词以及识别行为事件在基础行为事件中的分布描述统计起来,当进行补全时,根据定位关键词找到相关联的识别行为事件,然后二次补充至携带有用户互动信息的行为事件中,得到识别上一个基础行为事件。
步骤305,用户互动信息在交通场景中的应用。
进一步地,在热门事件事件集基础上扩展出一可视化冷门事件事件集进行自动挖掘,并根据定位关键词将自动挖掘后的用户互动信息加载至相关联的行为事件中,将识别用户互动信息后的行为事件进行特征挖掘,得到携带有用户互动信息的行为事件或热门事件,以实现用户互动信息处理同步,提高用户互动信息的可信度。
在本公开实施例中,基于大数据的用户行为数据处理方法的步骤,可以包括以下内容。
爬取层爬取两可视化事件集,分别为热门事件组队列和冷门事件组队列,热门事件组队列发送至第一特征挖掘层得到实时行为信息记录,冷门事件组队列包括多组行为事件和各组行为事件的定位关键词,在检测需要在行为事件组队列中的各组行为事件中识别用户互动信息时,将冷门事件组队列中的行为事件经过自动挖掘后获得的用户互动信息加载至基础行为事件中,获得携带有用户互动信息的行为事件,携带有用户互动信息的行为事件送入第二特征挖掘层,得到相应的智能采集行为事件,其中,对携带用户互动信息的行为事件进行特征挖掘时得到智能行为事件,对带有用户互动信息的行为事件进行或特征挖掘时得到智能采集。由于同一组的行为事件和这一组行为事件经过自动挖掘情况是相关联的,定位关键词一致,因此识别后的冷门事件或热门事件是完全一致的,预览到的用户互动信息完全属于相同组的热门事件或冷门事件
本公开优选实施例的备份叠加行为事件的步骤,具体可以包括以下步骤。
步骤501,根据定位关键词,在基础行为事件中确定关联数据集相关联的识别行为事件。
步骤502,确定识别行为事件信息量。
步骤503,检测是否需要对识别行为事件进行调整。
步骤504,对识别行为事件进行调整,得到调整后的识别行为事件。
步骤505,候选识别行为事件。
进一步地,通过行为事件的范围信息量来部署目标值,根据目标值来检测是否需要对识别行为事件进行调整,并将识别行为事件进行优化,以实现识别行为事件的准确度更加高,为后续将携带有用户互动信息的行为事件解码成基础行为事件铺垫好基础。
可选地,在一种可能的实施例中,还可以包括以下步骤。
STEP1,确定叠加用户行为数据集,其中,叠加用户行为数据集分别涵盖第一行为信息记录和第二行为信息记录。
STEP2,对第一行为信息记录进行行为描述挖掘,得到第一关键描述集。
STEP3,以及对第二行为信息记录中的各组行为事件进行挖掘,得到各组行为事件中的目标操作主题的显著性表达,根据第二行为信息记录和目标操作主题的显著性表达,生成携带目标操作主题的显著性表达的第三行为信息记录,对第三行为信息记录进行行为描述挖掘,得到第二关键描述集。
可以理解的是,通过不断的进行行为描述挖掘,这样能够优先的进行反馈和更新,提高挖掘的精度。
在上述基础上,请结合参阅图2,提供了一种基于大数据的用户行为数据处理装置200,应用于基于大数据的用户行为数据处理***,所述装置包括:
数据确定模块210,用于确定叠加用户行为数据集,其中,所述叠加用户行为数据集分别涵盖第一行为信息记录和第二行为信息记录;对所述第一行为信息记录进行行为描述挖掘,得到第一关键描述集;
记录生成模块220,用于对所述第二行为信息记录中的各组行为事件进行挖掘,得到各组行为事件中的目标操作主题的显著性表达,根据所述第二行为信息记录和所述目标操作主题的显著性表达,生成携带目标操作主题的显著性表达的第三行为信息记录,对所述第三行为信息记录进行行为描述挖掘,得到第二关键描述集。
在上述基础上,请结合参阅图3,示出了一种基于大数据的用户行为数据处理***300,包括互相之间通信的处理器310和存储器320,所述处理器310用于从所述存储器320中读取计算机程序并执行,以实现上述的方法。
在上述基础上,还提供了一种云平台,所述云平台包括存储有程序的可读存储介质,以实现所述的方法。
综上,基于上述方案,通过确定叠加用户行为数据集,其中,叠加用户行为数据集分别涵盖第一行为信息记录和第二行为信息记录;对第一行为信息记录进行行为描述挖掘,得到第一关键描述集;以及对第二行为信息记录中的各组行为事件进行挖掘,得到各组行为事件中的目标操作主题的显著性表达,根据第二行为信息记录和目标操作主题的显著性表达,生成携带目标操作主题的显著性表达的第三行为信息记录,对第三行为信息记录进行行为描述挖掘,得到第二关键描述集。在本实施例中,第一关键描述集和第二关键描述集存在潜在的对应关系,通过第一关键描述集和第二关键描述集的共同作用下,提高用户行为数据处理的可信度。
应当理解,上述所示的***及其模块可以利用各种方式来实现。例如,在一些实施例中,***及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行***,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和***可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的***及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“***”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行***、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的***组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的***。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有适应性的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方,以本申请的描述、定义和/或术语的使用为准。
最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施例。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于大数据的用户行为数据处理方法,其特征在于,应用于用户行为数据处理***,所述方法至少包括:
确定叠加用户行为数据集,其中,所述叠加用户行为数据集分别涵盖第一行为信息记录和第二行为信息记录;对所述第一行为信息记录进行行为描述挖掘,得到第一关键描述集;
对所述第二行为信息记录中的各组行为事件进行挖掘,得到各组行为事件中的目标操作主题的显著性表达,根据所述第二行为信息记录和所述目标操作主题的显著性表达,生成携带目标操作主题的显著性表达的第三行为信息记录,对所述第三行为信息记录进行行为描述挖掘,得到第二关键描述集。
2.如权利要求1所述的基于大数据的用户行为数据处理方法,其特征在于,确定叠加用户行为数据集方式包括:
确定由合法爬虫线程爬取的基础第一可视化行为数据集,重构所述第一可视化行为数据集,得到基础第二可视化行为数据集。
3.如权利要求1所述的基于大数据的用户行为数据处理方法,其特征在于,确定叠加用户行为数据集的步骤还包括:
确定由合法爬虫线程爬取的用户行为数据集,通过配置存在动态的数据处理策略将所述用户行为数据集拆解成混合用户行为数据集,其中,所述混合用户行为数据集包括第一阶段性用户行为数据集和第二阶段性用户行为数据集。
4.如权利要求1所述的基于大数据的用户行为数据处理方法,其特征在于,根据所述第二行为信息记录和所述目标操作主题的显著性表达,生成携带目标操作主题的显著性表达的第三行为信息记录之后包括:
在各组行为事件中根据所述目标操作主题的显著性表达、所述目标操作主题的显著性表达在对应行为事件中的分布描述以及定位关键词,确定各组行为事件中的所述目标操作主题的显著性表达在基础行为事件中的关联数据集,记录基础行为事件中与所述关联数据集相关联的动态行为事件、所述动态行为事件的定位关键词以及动态行为事件的分布描述。
5.如权利要求4所述的基于大数据的用户行为数据处理方法,其特征在于,记录基础行为事件中与所述关联数据集相关联的动态行为事件、所述动态行为事件的定位关键词以及动态行为事件的分布描述包括:
检测是否需要对所述关联数据集相关联的动态行为事件进行调整;
如果需要,对所述关联数据集相关联的动态行为事件进行调整后,记录调整后的动态行为事件、所述动态行为事件的定位关键词以及动态行为事件的分布描述。
6.如权利要求5所述的基于大数据的用户行为数据处理方法,其特征在于,检测是否需要对所述关联数据集相关联的动态行为事件进行调整包括:
根据云端数据库的容量部署第一判定值,在对所述动态行为事件进行统计时,根据所述动态行为事件信息量确定所匹配的统计资源量化值,检测所匹配的统计资源量化值是否超过所述第一判定值,如果需要,对所述关联数据集相关联的动态行为事件进行调整。
7.如权利要求1所述的基于大数据的用户行为数据处理方法,其特征在于,对所述第三行为信息记录进行行为描述挖掘,得到第二关键描述集之后包括:
对动态行为事件进行特征挖掘,得到特征挖掘后的动态行为事件;
在检测需要将所述第二关键描述集解码成用户行为数据集时,根据所述第二关键描述集得到多组待解码的行为事件以及各组待解码行为事件的定位关键词,根据待解码行为事件的定位关键词找到相关联的特征挖掘后动态行为事件,将所述特征挖掘后动态行为事件根据所述动态行为事件的分布描述加载至所述待解码行为事件中,得到解码后行为事件;对解码后行为事件的进行处理得到用户行为数据集。
8.如权利要求1所述的基于大数据的用户行为数据处理方法,其特征在于,所述方法还包括:
确定当前行为事件的第一目标操作主题,根据所述第一目标操作主题确定前x组行为事件中第一目标操作主题的显著性表达,将前x组行为事件的所述第一目标操作主题的显著性表达添加到当前行为事件中,基于当前的行为事件输出前x组行为事件的第一目标操作主题显著性表达,其中,x为大于1的整数;
其中,对所述第二行为信息记录中的各组行为事件进行挖掘,得到各组行为事件中的目标操作主题的显著性表达之后包括:
以定位关键词为参照记录各组行为事件中的目标操作主题的显著性表达;
检测所述第一关键描述集中是否需要带有目标操作主题的显著性表达;
如果需要,根据所述定位关键词将各组行为事件的目标操作主题的显著性表达补充至所述第一关键描述集中。
9.一种基于大数据的用户行为数据处理***,其特征在于,包括互相之间通信的处理器和存储器,所述处理器用于从所述存储器中读取计算机程序并执行,以实现权利要求1-9任一项所述的方法。
10.一种云平台,其特征在于,所述云平台包括存储有程序的可读存储介质,以执行权利要求1中所述的方法。
CN202210321076.9A 2022-03-30 2022-03-30 基于大数据的用户行为数据处理方法、***及云平台 Active CN114625804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210321076.9A CN114625804B (zh) 2022-03-30 2022-03-30 基于大数据的用户行为数据处理方法、***及云平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210321076.9A CN114625804B (zh) 2022-03-30 2022-03-30 基于大数据的用户行为数据处理方法、***及云平台

Publications (2)

Publication Number Publication Date
CN114625804A true CN114625804A (zh) 2022-06-14
CN114625804B CN114625804B (zh) 2022-11-08

Family

ID=81903558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210321076.9A Active CN114625804B (zh) 2022-03-30 2022-03-30 基于大数据的用户行为数据处理方法、***及云平台

Country Status (1)

Country Link
CN (1) CN114625804B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470905A (zh) * 2022-09-27 2022-12-13 高强 一种大数据分析处理方法及***
CN116719926A (zh) * 2023-08-10 2023-09-08 四川大学 基于智慧医疗的先天性心脏病报告数据筛选方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140012803A1 (en) * 2011-03-23 2014-01-09 Nec Corporation Event analysis apparatus, event analysis method, and computer-readable recording medium
CN113434638A (zh) * 2021-07-08 2021-09-24 广州乾顺科技有限公司 应用于人工智能的话题用户信息处理方法及云服务器
CN113901089A (zh) * 2021-10-20 2022-01-07 广州洪昇软件和信息技术有限公司 一种应用于大数据防护的威胁行为识别方法及***
CN114140127A (zh) * 2022-01-27 2022-03-04 广州卓远虚拟现实科技有限公司 一种基于区块链的支付处理方法及***
CN114154990A (zh) * 2021-12-08 2022-03-08 河北晓博互联网科技有限公司 一种基于在线支付的大数据防攻击方法及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140012803A1 (en) * 2011-03-23 2014-01-09 Nec Corporation Event analysis apparatus, event analysis method, and computer-readable recording medium
CN113434638A (zh) * 2021-07-08 2021-09-24 广州乾顺科技有限公司 应用于人工智能的话题用户信息处理方法及云服务器
CN113901089A (zh) * 2021-10-20 2022-01-07 广州洪昇软件和信息技术有限公司 一种应用于大数据防护的威胁行为识别方法及***
CN114154990A (zh) * 2021-12-08 2022-03-08 河北晓博互联网科技有限公司 一种基于在线支付的大数据防攻击方法及存储介质
CN114140127A (zh) * 2022-01-27 2022-03-04 广州卓远虚拟现实科技有限公司 一种基于区块链的支付处理方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470905A (zh) * 2022-09-27 2022-12-13 高强 一种大数据分析处理方法及***
CN116719926A (zh) * 2023-08-10 2023-09-08 四川大学 基于智慧医疗的先天性心脏病报告数据筛选方法及***
CN116719926B (zh) * 2023-08-10 2023-10-20 四川大学 基于智慧医疗的先天性心脏病报告数据筛选方法及***

Also Published As

Publication number Publication date
CN114625804B (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN114625804B (zh) 基于大数据的用户行为数据处理方法、***及云平台
JP7026092B2 (ja) 記述情報を決定する方法、装置、電子デバイス、コンピュータ可読媒体およびコンピュータプログラム
AU2016222407B2 (en) Intelligent visualization munging
CN108292231B (zh) 从数据生成应用的方法和***
Guarino Digital forensics as a big data challenge
US8832148B2 (en) Enterprise evidence repository
CN109522312B (zh) 一种数据处理方法、装置、服务器和存储介质
US20120101929A1 (en) Parallel processing development environment and associated methods
US20140279583A1 (en) Systems and Methods for Classifying Entities
US9098497B1 (en) Methods and systems for building a search service application
US10031978B1 (en) Methods and systems for providing a search service application
US11475077B2 (en) Methods and systems for building a search service application
KR102656323B1 (ko) 블록체인 기반 문서 관리 방법 및 장치
US11954008B2 (en) User action generated process discovery
CN107679937B (zh) 定制服务功能的方法、***、存储介质及设备
US11605012B2 (en) Framework for processing machine learning model metrics
KR102153259B1 (ko) 데이터 도메인 추천 방법 및 추천된 도메인을 이용하여 통합 데이터 저장소 관리 시스템을 구축하는 방법
CN114329116B (zh) 基于人工智能的智慧园区资源匹配度分析方法及***
US20070299705A1 (en) Method and apparatus for observation model validation
CN113434531A (zh) 一种对数据资产进行管理的方法、装置和介质
CN109582795B (zh) 基于全生命周期的数据处理方法、设备、***和介质
US8639668B2 (en) Structured requirements management
US11934800B2 (en) Generating metadata to facilitate code generation
CN117194751B (zh) 一种政务电子数据筛选方法及***
CN114090858B (zh) 基于自动化爬虫的资源池对象数据获取方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221019

Address after: 518000 Units 304 and 306, podium building of Luohu Investment Holding Building, No. 112, Qingshuihe 1st Road, Qingshuihe Community, Luohu District, Shenzhen, Guangdong

Applicant after: Shenzhen weiai Zhiyun Technology Co.,Ltd.

Address before: No. 1, Jinyuan Road, Jinyuan Township, XUNDIAN Hui and Yi Autonomous County, Kunming, Yunnan 650000

Applicant before: Zhang Guizhi

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant