CN110442762B - 基于云平台大数据的大数据处理方法 - Google Patents

基于云平台大数据的大数据处理方法 Download PDF

Info

Publication number
CN110442762B
CN110442762B CN201910728420.4A CN201910728420A CN110442762B CN 110442762 B CN110442762 B CN 110442762B CN 201910728420 A CN201910728420 A CN 201910728420A CN 110442762 B CN110442762 B CN 110442762B
Authority
CN
China
Prior art keywords
mining
data
service
service candidate
mining service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910728420.4A
Other languages
English (en)
Other versions
CN110442762A (zh
Inventor
陈泉鑫
罗茂锐
陈少海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Jiu Ling Creative Technology Ltd
Original Assignee
Xiamen Jiu Ling Creative Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Jiu Ling Creative Technology Ltd filed Critical Xiamen Jiu Ling Creative Technology Ltd
Priority to CN201910728420.4A priority Critical patent/CN110442762B/zh
Publication of CN110442762A publication Critical patent/CN110442762A/zh
Application granted granted Critical
Publication of CN110442762B publication Critical patent/CN110442762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种大数据处理方法、及大大数据处理服务器,通过综合考虑不同兴趣度度量维度,以对每个维度的所有业务大数据进行聚类后,可以保证不同兴趣度度量维度在不同的数据挖掘项目待应用场景下性能表现更加统一,提高大数据挖掘的能力,并且可以根据各聚类簇的特征信息,动态确定待挖掘服务的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度,并以此进行后续数据挖掘,可以避免现有技术中采用固定挖掘数据维度可能出现挖掘效果较差,或者数据挖掘结果存在准确性不高的问题。

Description

基于云平台大数据的大数据处理方法
技术领域
本申请涉及大数据技术领域,具体而言,涉及一种基于云平台大数据的大数据处理方法。
背景技术
目前针对各个线上业务(例如订单行为业务、浏览行为业务等)等大数据挖掘方案,大多仅限使用一种兴趣度度量维度,虽然部分关注于不同兴趣度度量维度方式的属性和行为的研究,但是针对某个待挖掘服务,不同兴趣度度量维度在不同的数据挖掘项目待应用场景下,性能表现不一,其使用局限性限制了在大数据挖掘的能力。并且,在整个数据挖掘过程中,大多是采用固定挖掘数据维度进行挖掘。然而,当挖掘数据维度过多时,这些固定挖掘数据维度可能无法达到较佳的挖掘效果,或者当固定挖掘数据维度较少时,这些固定挖掘数据维度可能比实际需要的多,一方面会浪费计算资源,另一方面也会增加数据挖掘结果存在准确性不高的概率。
发明内容
为了至少克服现有技术中的上述不足,本申请的目的之一在于提供一种大数据处理方法,通过综合考虑不同兴趣度度量维度,以对每个维度的所有业务大数据进行聚类后,可以保证不同兴趣度度量维度在不同的数据挖掘项目待应用场景下性能表现更加统一,提高大数据挖掘的能力,并且可以根据各聚类簇的特征信息,动态确定待挖掘服务的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度,并以此进行后续数据挖掘,可以避免现有技术中采用固定挖掘数据维度可能出现挖掘效果较差,或者数据挖掘结果存在准确性不高的问题。
第一方面,本申请提供一种大数据处理方法,应用于与待挖掘服务所对应的各个业务服务器通信连接的大数据处理服务器,所述方法包括:
从各个业务服务器中获取多个维度的业务大数据,并针对每个维度,对该维度的所有业务大数据进行聚类,得到每个维度的聚类簇;
提取每个维度的聚类簇的特征信息,并根据每个维度的聚类簇的特征信息,确定所述待挖掘服务的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度;
根据所述待挖掘服务的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度,分别在每个数据挖掘项目下获取待挖掘数据维度对应的业务过程数据;
根据在每个数据挖掘项目下获取待挖掘数据维度对应的业务过程数据,得到所述待挖掘服务的大数据挖掘结果;
将所述待挖掘服务的大数据挖掘结果分割为多个数据段,判断每一数据段是否需要加密,对需要加密的数据段进行加密生成随机密钥的加密数据,最后将全部数据段发送给各个对应的业务服务器。
在第一方面的一种可能的设计中,所述根据在每个数据挖掘项目下获取待挖掘数据维度对应的业务过程数据,得到所述待挖掘服务的大数据挖掘结果的步骤,包括:
根据在每个数据挖掘项目下获取待挖掘数据维度对应的业务过程数据,得到多个第一挖掘服务候选项集,每个第一挖掘服务候选项集中包括多个挖掘服务候选项;
根据预设挖掘服务候选项检索表,在所述多个第一挖掘服务候选项集确定存在与所述预设挖掘服务候选项检索表中包括的预设挖掘服务候选项相同的挖掘服务候选项,并作为所述多个第一挖掘服务候选项集的目标挖掘服务候选项,其中,所述预设挖掘服务候选项检索表中包括多个预设挖掘服务候选项、用于标识具有第一关联关系的每两个预设挖掘服务候选项的第一关联关系标识以及具有第二关联关系的各个预设挖掘服务候选项的频繁项业务级别,所述第一关联关系和所述第二关联关系分别用于表征频繁项之间的强关联关系和频繁项之间的弱关联关系;
根据所述预设挖掘服务候选项检索表包含的第一关联关系标识,在各个存在预设挖掘服务候选项的第一挖掘服务候选项集中确定存在第二关联关系的预设挖掘服务候选项的第二挖掘服务候选项集;
针对各个第二挖掘服务候选项集,根据该第二挖掘服务候选项集中的各个预设挖掘服务候选项在所述预设挖掘服务候选项检索表中对应的频繁项业务级别,选择一个预设挖掘服务候选项作为父挖掘服务候选项、其它预设挖掘服务候选项作为子挖掘服务候选项;
根据所述父挖掘服务候选项和所述子挖掘服务候选项得到所述待挖掘服务的大数据挖掘结果。
在第一方面的一种可能的设计中,所述根据该第二挖掘服务候选项集中的各个预设挖掘服务候选项在所述预设挖掘服务候选项检索表中对应的频繁项业务级别,选择一个预设挖掘服务候选项作为父挖掘服务候选项、其它预设挖掘服务候选项作为子挖掘服务候选项的步骤,包括:
根据该第二挖掘服务候选项集中的各个预设挖掘服务候选项在所述预设挖掘服务候选项检索表中对应的频繁项业务级别,选择频繁项业务级别大于其它预设挖掘服务候选项的预设挖掘服务候选项作为父挖掘服务候选项,并将其它预设挖掘服务候选项作为子挖掘服务候选项。
在第一方面的一种可能的设计中,所述根据所述父挖掘服务候选项和所述子挖掘服务候选项得到所述待挖掘服务的大数据挖掘结果的步骤,包括:
将所述父挖掘服务候选项添加到指定挖掘项集合中,所述指定挖掘项集合包括与所述父挖掘服务候选项相匹配的挖掘策略;
根据所述与所述父挖掘服务候选项相匹配的挖掘策略和子挖掘服务候选项比例,从多个所述子挖掘服务候选项中随机生成多个目标子挖掘服务候选项;
计算所述多个目标子挖掘服务候选项中每份目标子挖掘服务候选项与所述父挖掘服务候选项的相关度;
根据计算得到的每份目标子挖掘服务候选项与所述父挖掘服务候选项的相关度,将相关度最大的目标子挖掘服务候选项作为比较子挖掘服务候选项,对所述多个目标子挖掘服务候选项中剩余的目标子挖掘服务候选项进行选择,得到选择后的目标子挖掘服务候选项集合;
对所述选择后的目标子挖掘服务候选项集合进行交叉和变异的遗传操作,得到新的目标子挖掘服务候选项集合;
计算新的目标子挖掘服务候选项集合中每个目标子挖掘服务候选项的相关度,根据新的目标子挖掘服务候选项集合中每个目标子挖掘服务候选项的相关度和所述比较子挖掘服务候选项的相关度,判断新的目标子挖掘服务候选项集合是否满足预设条件,若满足,则根据所述挖掘策略输出与所述新的目标子挖掘服务候选项集合和所述父挖掘服务候选项对应的所述待挖掘服务的大数据挖掘结果。
在第一方面的一种可能的设计中,所述根据每个维度的聚类簇的特征信息,确定所述待挖掘服务的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度的步骤,包括:
从所述每个维度的聚类簇的特征信息中分析得到高贡献值特征与低贡献值特征;
计算所述高贡献值特征在所述每个维度的聚类簇的特征信息中的第一占比以及所述低贡献值特征在所述每个维度的聚类簇的特征信息中的第二占比;
根据所述第一占比和所述第二占比确定所述待挖掘服务的多个数据挖掘项目;
根据所述待挖掘服务的多个数据挖掘项目和所述待挖掘服务的贡献值,按照预设的数据维度对应关系,确定每个数据挖掘项目对应的待挖掘数据维度。
在第一方面的一种可能的设计中,所述根据所述第一占比和所述第二占比确定所述待挖掘服务的多个数据挖掘项目的步骤,包括:
根据所述第一占比与第一设定值之间的第一差值,以及所述第二占比与第二设定值之间的第二差值,分别确定高贡献值特征的第一挖掘系数和低贡献值特征的第二挖掘系数;
根据所述第一挖掘系数和所述第二挖掘系数确定高贡献值特征所对应的数据挖掘项目的第一比例和低贡献值特征所对应的数据挖掘项目的第二比例;
根据所述第一比例和所述第二比例确定所述待挖掘服务的多个数据挖掘项目。
在第一方面的一种可能的设计中,所述判断每一数据段是否需要加密的步骤包括:
根据所述高贡献值特征在每个数据段的聚类簇的特征信息中的占比是否超过第一阈值,是,判断所述数据段需要加密,否则不加密。
第二方面,本申请实施例提供一种大数据处理服务器,包括处理器、存储器和网络接口。其中,存储器、网络接口处理器之间可以通过总线***相连。网络接口用于接收报文,存储器用于存储程序、指令或代码,处理器用于执行存储器中的程序、指令或代码,以完成上述第一方面或第一方面的任意可能的设计方式中的所执行的操作。
第三方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面的任意可能的设计方式中的方法。
基于上述任意一个方面,本申请通过综合考虑不同兴趣度度量维度,以对每个维度的所有业务大数据进行聚类后,可以保证不同兴趣度度量维度在不同的数据挖掘项目待应用场景下性能表现更加统一,提高大数据挖掘的能力,并且可以根据各聚类簇的特征信息,动态确定待挖掘服务的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度,并以此进行后续数据挖掘,可以避免现有技术中采用固定挖掘数据维度可能出现挖掘效果较差,或者数据挖掘结果存在准确性不高的问题。另外,通过将所述大数据挖掘结果分割为多个数据段,从而可以避免庞大的工作量,又可以保护重要的数据。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的大数据处理方法的应用场景示意图;
图2为本申请实施例提供的大数据处理方法的流程示意图;
图3为图2中所示的一种可能的实施方式中步骤S120包括的各个子步骤的流程示意图;
图4为图2中所示的一种可能的实施方式中步骤S140包括的各个子步骤的流程示意图;
图5为本申请实施例提供的用于执行上述方法的大数据处理服务器的结构示意框图。
具体实施方式
下面结合说明书附图对本申请进行具体说明,方法实施例中的具体操作方法也可以应用于装置实施例或***实施例中。在本申请的描述中,除非另有说明,“至少一个”包括一个或多个。“多个”是指两个或两个以上。例如,A、B和C中的至少一个,包括:单独存在A、单独存在B、同时存在A和B、同时存在A和C、同时存在B和C,以及同时存在A、B和C。在本申请中,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
请参阅图1,为本申请实施例提供的大数据处理方法的应用场景示意图。本实施例中,该应用场景可包括大数据处理服务器100以及与该大数据处理服务器100通信连接的多个业务服务器200。其中,大数据处理服务器100可以为多个业务服务器200提供数据挖掘服务。每个业务服务器200可以是单独执行各个线上业务,例如订单业务、交易业务等。
图2为本申请实施例提供的大数据处理方法的流程示意图。本实施例中,该大数据处理方法可以由图1中所示的大数据处理服务器100执行,下面对该大数据处理方法进行详细介绍。
步骤S110,从各个业务服务器200中获取多个维度的业务大数据,并针对每个维度,对该维度的所有业务大数据进行聚类,得到每个维度的聚类簇。
本实施例中,待挖掘服务可以是根据用户需求实际确定的挖掘服务,具体可以根据用户的设定选择与其相关联的业务服务器200,然后从这些业务服务器200中获取多个维度的业务大数据,并针对每个维度,对该维度的所有业务大数据进行聚类,从而得到每个维度的聚类簇。
步骤S120,提取每个维度的聚类簇的特征信息,并根据每个维度的聚类簇的特征信息,确定所述待挖掘服务的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度。
本实施例中,例如,可以通过首先对每个维度的聚类簇进行加窗处理;将窗口内的每个维度的聚类簇输入到CCIPCA算法中计算所述每个维度的聚类簇的特征信息。
步骤S130,根据所述待挖掘服务的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度,分别在每个数据挖掘项目下获取待挖掘数据维度对应的业务过程数据。
本实施例中,业务过程数据可以包括但不限于待挖掘数据维度下的业务历史数据和当前实时生成的历史数据。
步骤S140,根据在每个数据挖掘项目下获取待挖掘数据维度对应的业务过程数据,得到所述待挖掘服务的大数据挖掘结果。
步骤S150,将所述待挖掘服务的大数据挖掘结果分割为多个数据段,判断每一数据段是否需要加密,对需要加密的数据段进行加密生成随机密钥的加密数据,最后将全部数据段发送给各个对应的业务服务器。
所述数据段可以以文件的方式存储,即,每一文件当做一数据段。在其他实施例中,也可以多个数据段存储在同一文件中。另外,所述加密的方式也不限,可以使用现有的加密方法。
基于上述步骤,本实施例通过综合考虑不同兴趣度度量维度,以对每个维度的所有业务大数据进行聚类后,可以保证不同兴趣度度量维度在不同的数据挖掘项目待应用场景下性能表现更加统一,提高大数据挖掘的能力,并且可以根据各聚类簇的特征信息,动态确定待挖掘服务的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度,并以此进行后续数据挖掘,可以避免现有技术中采用固定挖掘数据维度可能出现挖掘效果较差,或者数据挖掘结果存在准确性不高的问题。另外,通过将所述大数据挖掘结果分割为多个数据段,从而可以避免对全部数据进行加密而产生的庞大工作量,然而又可以保护重要的数据。在一种可能的设计中,请结合参阅图3,针对步骤S120,具体可以包括如下子步骤:
子步骤S121,从所述每个维度的聚类簇的特征信息中分析得到高贡献值特征与低贡献值特征。
子步骤S122,计算所述高贡献值特征在所述每个维度的聚类簇的特征信息中的第一占比以及所述低贡献值特征在每个维度的聚类簇的特征信息中的第二占比。
子步骤S123,根据所述第一占比和所述第二占比确定所述待挖掘服务的多个数据挖掘项目。
子步骤S124,根据所述待挖掘服务的多个数据挖掘项目和所述待挖掘服务的贡献值,按照预设的数据维度对应关系,确定每个数据挖掘项目对应的待挖掘数据维度。
其中,针对子步骤S123,在一种可能的实现方式中,首先根据所述第一占比与第一设定值之间的第一差值,以及所述第二占比与第二设定值之间的第二差值,分别确定高贡献值特征的第一挖掘系数和低贡献值特征的第二挖掘系数。然后,根据所述第一挖掘系数和所述第二挖掘系数确定高贡献值特征所对应的数据挖掘项目的第一比例和低贡献值特征所对应的数据挖掘项目的第二比例,最后根据所述第一比例和所述第二比例确定所述待挖掘服务的多个数据挖掘项目。
基于上述步骤,本实施例通过进一步考虑高贡献值特征与低贡献值特征在每个维度的聚类簇的特征信息中的占比,从而确定待挖掘服务的多个数据挖掘项目,相较于现有技术中采用固定挖掘数据维度来说,本实施例可以有效提高数据挖掘效果和准确性,避免过多无用数据参与到数据挖掘过程中。并且,能够有效降低固定挖掘数据维度选择的主观性影响、降低挖掘错误率。
在一种可能的设计中,请结合参阅图4,针对步骤S140,具体可以包括如下子步骤:
子步骤S141,根据在每个数据挖掘项目下获取待挖掘数据维度对应的业务过程数据,得到多个第一挖掘服务候选项集。
本实施例中,每个第一挖掘服务候选项集中可包括多个挖掘服务候选项。在本子步骤中,可以通过对业务过程数据与每个挖掘服务候选项的参考过程数据进行匹配,以得到多个第一挖掘服务候选项集。
子步骤S142,根据预设挖掘服务候选项检索表,在所述多个第一挖掘服务候选项集确定存在与所述预设挖掘服务候选项检索表中包括的预设挖掘服务候选项相同的挖掘服务候选项,并作为所述多个第一挖掘服务候选项集的目标挖掘服务候选项。
本实施例中,所述预设挖掘服务候选项检索表中可包括多个预设挖掘服务候选项、用于标识具有第一关联关系的每两个预设挖掘服务候选项的第一关联关系标识以及具有第二关联关系的各个预设挖掘服务候选项的频繁项业务级别,所述第一关联关系和所述第二关联关系分别用于表征频繁项之间的强关联关系和频繁项之间的弱关联关系。可选地,上述强关联关系可以是指,该两个预设挖掘服务候选项存在业务前后顺序的关联,上述弱关联关系可以是指,该两个预设挖掘服务候选项不存在业务前后顺序的关联。
子步骤S143,根据所述预设挖掘服务候选项检索表包含的第一关联关系标识,在各个存在预设挖掘服务候选项的第一挖掘服务候选项集中确定存在第二关联关系的预设挖掘服务候选项的第二挖掘服务候选项集。
子步骤S144,针对各个第二挖掘服务候选项集,根据该第二挖掘服务候选项集中的各个预设挖掘服务候选项在所述预设挖掘服务候选项检索表中对应的频繁项业务级别,选择一个预设挖掘服务候选项作为父挖掘服务候选项、其它预设挖掘服务候选项作为子挖掘服务候选项。
子步骤S145,根据所述父挖掘服务候选项和所述子挖掘服务候选项得到所述待挖掘服务的大数据挖掘结果。
基于上述步骤,本实施例进一步考虑到频繁项之间的强关联关系和频繁项之间的弱关联关系,并以此进行检索挖掘,可以避免在挖掘频繁项过程总中数据的误关联挖掘导致的挖掘结果偏离待挖掘数据维度的情况,从而进一步提高挖掘准确性。
作为一种可选的实施方式,针对子步骤S144,可以根据该第二挖掘服务候选项集中的各个预设挖掘服务候选项在所述预设挖掘服务候选项检索表中对应的频繁项业务级别,选择频繁项业务级别大于其它预设挖掘服务候选项的预设挖掘服务候选项作为父挖掘服务候选项,并将其它预设挖掘服务候选项作为子挖掘服务候选项。
作为一种可选的实施方式,针对子步骤S145,为了能够针对不同挖掘服务候选项进行适应性调整挖掘,有利于针对数据量较小的大数据进行强化挖掘,提高挖掘效率,本实施例可以将所述父挖掘服务候选项添加到指定挖掘项集合中,所述指定挖掘项集合包括与所述父挖掘服务候选项相匹配的挖掘策略。然后,根据所述与所述父挖掘服务候选项相匹配的挖掘策略和子挖掘服务候选项比例,从多个所述子挖掘服务候选项中随机生成多个目标子挖掘服务候选项,并计算所述多个目标子挖掘服务候选项中每份目标子挖掘服务候选项与所述父挖掘服务候选项的相关度。
在此基础上,可以进一步根据计算得到的每份目标子挖掘服务候选项与所述父挖掘服务候选项的相关度,将相关度最大的目标子挖掘服务候选项作为比较子挖掘服务候选项,对所述多个目标子挖掘服务候选项中剩余的目标子挖掘服务候选项进行选择,得到选择后的目标子挖掘服务候选项集合。而后,对所述选择后的目标子挖掘服务候选项集合进行交叉和变异的遗传操作,得到新的目标子挖掘服务候选项集合。接着,计算新的目标子挖掘服务候选项集合中每个目标子挖掘服务候选项的相关度,根据新的目标子挖掘服务候选项集合中每个目标子挖掘服务候选项的相关度和所述比较子挖掘服务候选项的相关度,判断新的目标子挖掘服务候选项集合是否满足预设条件,若满足,则根据所述挖掘策略输出与所述新的目标子挖掘服务候选项集合和所述父挖掘服务候选项对应的所述待挖掘服务的大数据挖掘结果。
作为一种可选的实施方式,在步骤S150中,所述判断每一数据段是否需要加密的步骤包括:
S151,根据所述高贡献值特征在每个数据段的聚类簇的特征信息中的占比是否超过第一阈值,是,判断所述数据段需要加密,否则不加密。
在步骤S151中,通过高贡献值特征在每个数据段的聚类簇的特征信息中的占比是否超过第一阈值来作为是否需要加密的依据,从而可以减少计算量,提高效率。当然,也可以使用其他的判断方式,例如,设定额外的关键词规则,通过所述关键词规则计算每一文件的需要保密的程度是否超过设定阈值,从而判断是否需要加密。
在前述描述的基础上,大数据处理服务器100可以将所述待挖掘服务的大数据挖掘结果发送给各个对应的业务服务器200。
图5为本申请实施例提供的用于执行上述大数据处理方法的大数据处理服务器100的结构示意图,如图5所示,该大数据处理服务器100可包括网络接口110、机器可读存储介质120、处理器130以及总线140。处理器130的数量可以是一个或多个,图5中以一个处理器130为例;网络接口110、机器可读存储介质120以及处理器130可以通过总线140或其他方式连接,图5中以通过总线140连接为例。
机器可读存储介质120作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的建立机器人自动问答知识库的方法对应的程序指令/模块。处理器130通过运行存储在机器可读存储介质120中的软件程序、指令以及模块,从而执行终端设备的各种功能应用以及数据处理,即实现上述的大数据处理方法,在此不再赘述。
机器可读存储介质120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,机器可读存储介质120可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DR RAM)。应注意,本文描述的***和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。在一些实例中,机器可读存储介质120可进一步包括相对于处理器130远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器130可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器130中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器130可以是通用处理器、数字信号处理器(DigitalSignalProcessorDSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。
大数据处理服务器100可以通过通信接口110和其它设备(例如业务服务器200)进行信息交互。通信接口110可以是电路、总线、收发器或者其它任意可以用于进行信息交互的装置。处理器130可以利用通信接口110收发信息。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本申请实施例是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (6)

1.一种基于云平台大数据的大数据处理方法,其特征在于,应用于与待挖掘服务所对应的各个业务服务器通信连接的大数据处理服务器,所述方法包括:
从各个业务服务器中获取多个维度的业务大数据,并针对每个维度,对该维度的所有业务大数据进行聚类,得到每个维度的聚类簇;
提取每个维度的聚类簇的特征信息,并根据每个维度的聚类簇的特征信息,确定所述待挖掘服务的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度;
根据所述待挖掘服务的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度,分别在每个数据挖掘项目下获取待挖掘数据维度对应的业务过程数据;
根据在每个数据挖掘项目下获取待挖掘数据维度对应的业务过程数据,得到所述待挖掘服务的大数据挖掘结果;
将所述待挖掘服务的大数据挖掘结果分割为多个数据段,判断每一数据段是否需要加密,对需要加密的数据段进行加密生成随机密钥的加密数据,最后将全部数据段发送给各个对应的业务服务器;
所述根据在每个数据挖掘项目下获取待挖掘数据维度对应的业务过程数据,得到所述待挖掘服务的大数据挖掘结果的步骤,包括:
根据在每个数据挖掘项目下获取待挖掘数据维度对应的业务过程数据,得到多个第一挖掘服务候选项集,每个第一挖掘服务候选项集中包括多个挖掘服务候选项;
根据预设挖掘服务候选项检索表,在所述多个第一挖掘服务候选项集确定存在与所述预设挖掘服务候选项检索表中包括的预设挖掘服务候选项相同的挖掘服务候选项,并作为所述多个第一挖掘服务候选项集的目标挖掘服务候选项,其中,所述预设挖掘服务候选项检索表中包括多个预设挖掘服务候选项、用于标识具有第一关联关系的每两个预设挖掘服务候选项的第一关联关系标识以及具有第二关联关系的各个预设挖掘服务候选项的频繁项业务级别,所述第一关联关系和所述第二关联关系分别用于表征频繁项之间的强关联关系和频繁项之间的弱关联关系;
根据所述预设挖掘服务候选项检索表包含的第一关联关系标识,在各个存在预设挖掘服务候选项的第一挖掘服务候选项集中确定存在第二关联关系的预设挖掘服务候选项的第二挖掘服务候选项集;
针对各个第二挖掘服务候选项集,根据该第二挖掘服务候选项集中的各个预设挖掘服务候选项在所述预设挖掘服务候选项检索表中对应的频繁项业务级别,选择一个预设挖掘服务候选项作为父挖掘服务候选项、其它预设挖掘服务候选项作为子挖掘服务候选项;
根据所述父挖掘服务候选项和所述子挖掘服务候选项得到所述待挖掘服务的大数据挖掘结果。
2.根据权利要求1所述的大数据处理方法,其特征在于,所述根据该第二挖掘服务候选项集中的各个预设挖掘服务候选项在所述预设挖掘服务候选项检索表中对应的频繁项业务级别,选择一个预设挖掘服务候选项作为父挖掘服务候选项、其它预设挖掘服务候选项作为子挖掘服务候选项的步骤,包括:
根据该第二挖掘服务候选项集中的各个预设挖掘服务候选项在所述预设挖掘服务候选项检索表中对应的频繁项业务级别,选择频繁项业务级别大于其它预设挖掘服务候选项的预设挖掘服务候选项作为父挖掘服务候选项,并将其它预设挖掘服务候选项作为子挖掘服务候选项。
3.根据权利要求1所述的大数据处理方法,其特征在于,所述根据所述父挖掘服务候选项和所述子挖掘服务候选项得到所述待挖掘服务的大数据挖掘结果的步骤,包括:
将所述父挖掘服务候选项添加到指定挖掘项集合中,所述指定挖掘项集合包括与所述父挖掘服务候选项相匹配的挖掘策略;
根据所述与所述父挖掘服务候选项相匹配的挖掘策略和子挖掘服务候选项比例,从多个所述子挖掘服务候选项中随机生成多个目标子挖掘服务候选项;
计算所述多个目标子挖掘服务候选项中每份目标子挖掘服务候选项与所述父挖掘服务候选项的相关度;
根据计算得到的每份目标子挖掘服务候选项与所述父挖掘服务候选项的相关度,将相关度最大的目标子挖掘服务候选项作为比较子挖掘服务候选项,对所述多个目标子挖掘服务候选项中剩余的目标子挖掘服务候选项进行选择,得到选择后的目标子挖掘服务候选项集合;
对所述选择后的目标子挖掘服务候选项集合进行交叉和变异的遗传操作,得到新的目标子挖掘服务候选项集合;
计算新的目标子挖掘服务候选项集合中每个目标子挖掘服务候选项的相关度,根据新的目标子挖掘服务候选项集合中每个目标子挖掘服务候选项的相关度和所述比较子挖掘服务候选项的相关度,判断新的目标子挖掘服务候选项集合是否满足预设条件,若满足,则根据所述挖掘策略输出与所述新的目标子挖掘服务候选项集合和所述父挖掘服务候选项对应的所述待挖掘服务的大数据挖掘结果。
4.根据权利要求1所述的大数据处理方法,其特征在于,所述根据每个维度的聚类簇的特征信息,确定所述待挖掘服务的多个数据挖掘项目以及每个数据挖掘项目对应的待挖掘数据维度的步骤,包括:
从所述每个维度的聚类簇的特征信息中分析得到高贡献值特征与低贡献值特征;
计算所述高贡献值特征在所述每个维度的聚类簇的特征信息中的第一占比以及所述低贡献值特征在每个维度的聚类簇的特征信息中的第二占比;
根据所述第一占比和所述第二占比确定所述待挖掘服务的多个数据挖掘项目;
根据所述待挖掘服务的多个数据挖掘项目和所述待挖掘服务的贡献值,按照预设的数据维度对应关系,确定每个数据挖掘项目对应的待挖掘数据维度。
5.根据权利要求4所述的大数据处理方法,其特征在于,所述根据所述第一占比和所述第二占比确定所述待挖掘服务的多个数据挖掘项目的步骤,包括:
根据所述第一占比与第一设定值之间的第一差值,以及所述第二占比与第二设定值之间的第二差值,分别确定高贡献值特征的第一挖掘系数和低贡献值特征的第二挖掘系数;
根据所述第一挖掘系数和所述第二挖掘系数确定高贡献值特征所对应的数据挖掘项目的第一比例和低贡献值特征所对应的数据挖掘项目的第二比例;
根据所述第一比例和所述第二比例确定所述待挖掘服务的多个数据挖掘项目。
6.根据权利要求4所述的大数据处理方法,其特征在于,所述判断每一数据段是否需要加密的步骤包括:
根据所述高贡献值特征在每个数据段的聚类簇的特征信息中的占比是否超过第一阈值,是,判断所述数据段需要加密,否则不加密。
CN201910728420.4A 2019-08-08 2019-08-08 基于云平台大数据的大数据处理方法 Active CN110442762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910728420.4A CN110442762B (zh) 2019-08-08 2019-08-08 基于云平台大数据的大数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910728420.4A CN110442762B (zh) 2019-08-08 2019-08-08 基于云平台大数据的大数据处理方法

Publications (2)

Publication Number Publication Date
CN110442762A CN110442762A (zh) 2019-11-12
CN110442762B true CN110442762B (zh) 2022-02-08

Family

ID=68433720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910728420.4A Active CN110442762B (zh) 2019-08-08 2019-08-08 基于云平台大数据的大数据处理方法

Country Status (1)

Country Link
CN (1) CN110442762B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159506B (zh) * 2019-12-26 2023-11-14 广州信天翁信息科技有限公司 一种数据有效性识别方法、装置、设备及可读存储介质
CN111258968B (zh) * 2019-12-30 2020-09-11 广州博士信息技术研究院有限公司 企业冗余数据清理方法、装置及大数据平台
CN113537271B (zh) * 2020-10-06 2022-09-27 思玛特健康科技(苏州)有限公司 基于人工智能的大数据挖掘方法、***及云端服务中心
CN112163156B (zh) * 2020-10-06 2021-04-30 青岛仁科信息技术有限公司 基于人工智能和云计算的大数据处理方法及云端服务中心

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794209A (en) * 1995-03-31 1998-08-11 International Business Machines Corporation System and method for quickly mining association rules in databases
US6324533B1 (en) * 1998-05-29 2001-11-27 International Business Machines Corporation Integrated database and data-mining system
CN105005570A (zh) * 2014-04-23 2015-10-28 国家电网公司 基于云计算的海量智能用电数据挖掘方法及装置
CN107870990A (zh) * 2017-10-17 2018-04-03 北京德塔精要信息技术有限公司 一种汽车推荐方法及装置
CN108073701A (zh) * 2017-12-13 2018-05-25 北京工业大学 一种挖掘多维时序数据稀有模式的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794209A (en) * 1995-03-31 1998-08-11 International Business Machines Corporation System and method for quickly mining association rules in databases
US6324533B1 (en) * 1998-05-29 2001-11-27 International Business Machines Corporation Integrated database and data-mining system
CN105005570A (zh) * 2014-04-23 2015-10-28 国家电网公司 基于云计算的海量智能用电数据挖掘方法及装置
CN107870990A (zh) * 2017-10-17 2018-04-03 北京德塔精要信息技术有限公司 一种汽车推荐方法及装置
CN108073701A (zh) * 2017-12-13 2018-05-25 北京工业大学 一种挖掘多维时序数据稀有模式的方法

Also Published As

Publication number Publication date
CN110442762A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110442762B (zh) 基于云平台大数据的大数据处理方法
US20230350774A1 (en) Methods and systems for determining system capacity
CN108920947B (zh) 一种基于日志图建模的异常检测方法和装置
CN110943961B (zh) 数据处理方法、设备以及存储介质
WO2021032666A1 (en) Data breach detection
CN110442623B (zh) 大数据挖掘方法、装置及数据挖掘服务器
US20120303624A1 (en) Dynamic rule reordering for message classification
CN110855648B (zh) 一种网络攻击的预警控制方法及装置
CN112351088A (zh) 一种cdn缓存方法、装置、计算机设备及存储介质
JP2015526800A (ja) ビジネスオブジェクトのプッシュ
US11366821B2 (en) Epsilon-closure for frequent pattern analysis
CN110674182A (zh) 大数据的分析方法、及数据分析服务器
CN111245897A (zh) 数据处理方法、装置、***、存储介质及处理器
CN111382179B (zh) 数据处理方法、装置及电子设备
CN111814052A (zh) 移动互联网用户管理方法、装置、服务器及可读存储介质
WO2023109627A1 (zh) 一种分布式***的分片方法、装置、电子设备及存储介质
US10970341B2 (en) Predictive modeling in event processing systems for big data processing in cloud
KR20200132521A (ko) 블록체인 기반 시스템에서 상태 db의 무결성을 보장하는 장치 및 그 방법
US20230029312A1 (en) Similarity-based search for fraud prevention
CN113282489B (zh) 一种接口测试方法和装置
CN115033551A (zh) 一种数据库迁移方法、装置、电子设备及存储介质
CN113641909A (zh) 信息推送方法、装置、电子设备和计算机可读介质
CN112055076A (zh) 基于互联网的多功能智能监控方法、装置及服务器
CN111667190A (zh) 一种电力施工接地监控方法、装置及服务器
CN112055075B (zh) 互联网产品监控方法、装置、服务器及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant