CN111831706A - 一种应用之间关联规则的挖掘方法、装置及存储介质 - Google Patents

一种应用之间关联规则的挖掘方法、装置及存储介质 Download PDF

Info

Publication number
CN111831706A
CN111831706A CN202010612788.7A CN202010612788A CN111831706A CN 111831706 A CN111831706 A CN 111831706A CN 202010612788 A CN202010612788 A CN 202010612788A CN 111831706 A CN111831706 A CN 111831706A
Authority
CN
China
Prior art keywords
application
applications
community
credibility
support degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010612788.7A
Other languages
English (en)
Inventor
陈光勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN202010612788.7A priority Critical patent/CN111831706A/zh
Publication of CN111831706A publication Critical patent/CN111831706A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种应用之间关联规则的挖掘方法、装置及存储介质。本公开基于时间分段计算应用的评价使用率作为最小支持度,将所有大于最小支持度的应用筛选出来构成频繁项集L1,基于L1进行应用的两两组合,计算应用两两之间可信度得到可信度集合L2,从L2中筛选出前一应用到后一应用的可信度大于后一应用的最小支持度与预设常数的乘积的项,构成表达应用之间关联规则的集合R2。进一步基于R2构造图并使用社区划分算法进行社区划分。本公开可根据挖掘的关联规则及社区划分将应用主动推送给使用相关应用较多的用户,并可对识别出的应用社区中的核心应用进行重点运维保障,提高关联规则挖掘的智能性、灵活性,以及提高了应用维护***的效率。

Description

一种应用之间关联规则的挖掘方法、装置及存储介质
技术领域
本公开涉及互联网及通信技术领域,尤其涉及一种应用之间关联规则的挖掘方法、装置及存储介质。
背景技术
随着信息技术的迅猛发展,互联网行业积累了巨量的网络流量数据,而简单的依靠数据库的查询和统计方法很难发现潜在的信息,所以迫切需要使用更加智能的方法来挖掘更有价值的信息。数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果。针对网络流量的大数据挖掘无疑是最重要的领域之一。
随着互联网中各式应用的快速发展,网络能够帮助人做的事越来越多,人们对网络的依赖也越来越强。越来越多的事情能够通过网络应用得到解决,应用访问流量呈现***式的增长。用户在使用应用时,往往是遵循着一定的规律,观察用户使用应用的行为,可以掌握用户特征,并且对用户进行分类、聚类、关联等操作,继而使用预测、推荐***等。
关联分析是一种在大规模数据集中寻找关系的任务。这些关系可以有两种形式:频繁项集或者关联规则。频繁项集是经常出现在一块的物品的集合,关联规则暗示两种物品之间可能存在很强的关系。Apriori算法是经典的挖掘频繁项集和关联规则的数据挖掘算法,通过使用频繁项集的先验性质来压缩搜索空间。
由于现有的应用之间的关联规则挖掘方法的种种缺陷,不能很好的分析挖掘应用之间关联规制,对于使用率低的应用的关联规则更不易被发现,而且对于具有相互依赖关系的应用,由于无法识别这些应用中的核心应用,导致整体的维护效率不高。
发明内容
有鉴于此,本公开提供一种应用之间关联规则的挖掘方法及装置,用于解决现有应用关联规则挖掘不准确及不能识别应用社区核心应用等技术问题。
基于本公开实施例,本公开提供一种应用之间关联规则的挖掘方法,所述方法包括:
在分析时长的多个时间段内,以用户识别码对应用使用信息进行分组统计,得到每个时间段内每个用户所使用的应用集合;
计算每个应用在不同时间段内的使用率,将每个应用在不同时间段内的使用率的平均值做为每个应用的最小支持度;
针对每个时间段,计算该时间段内每个应用的支持度,将该时间段内大于自身最小支持度的应用筛选出来,构成项集L1;
将L1中的项两两组合,构成表达两种应用先后应用关系的候选项集C2,计算C2中每一个项的可信度,得到表达两个应用先后应用关系的可信度集合L2;
从L2中筛选出前一应用到后一应用的可信度大于后一应用的最小支持度与预设常数的乘积的项,得到表达应用之间关联规则的集合R2。
基于本公开实施例,进一步地,所述方法还包括:
将所述关联规则的集合R2中的每一项的前后两个应用分别做为图中的点,将前后两个应用的可信度作为两点之间的边的权重,构建应用关联图;
采用社区划分算法对所述应用关联图进行社区划分,得到应用社区。
基于本公开实施例,进一步地,所述方法还包括:
计算每个应用社区中的每个应用对应的节点的边的权重和,将每个应用社区中边的权重和最大的应用确定该应用社区的核心应用。
基于本公开实施例,进一步地,在所述计算每个应用的最小支持度之前,所述方法还包括:过滤掉使用率大于预设门限的应用数据。
基于本公开实施例,进一步地,所述的社区划分算法为Louvain算法,所述预设常数为大于1.2的常数。
基于本公开实施例,本公开还提供一种应用之间关联规则的挖掘装置,所述装置包括:
分组统计模块,用于在分析时长的多个时间段内,以用户识别码对应用使用信息进行分组统计,得到每个时间段内每个用户所使用的应用集合;
最小支持度计算模块,用于计算每个应用在不同时间段内的使用率,将每个应用在不同时间段内的使用率的平均值做为每个应用的最小支持度;
应用筛选模块,用于针对每个时间段,计算该时间段内每个应用的支持度,将该时间段内大于自身最小支持度的应用筛选出来,构成项集L1;
可信度计算模块,用于将L1中的项两两组合,构成表达两种应用先后应用关系的候选项集C2,计算C2中每一个项的可信度,得到表达两个应用先后应用关系的可信度集合L2;
关联规则确定模块,用于从L2中筛选出前一应用到后一应用的可信度大于后一应用的最小支持度与预设常数的乘积的项,得到表达应用之间关联规则的集合R2。
基于本公开实施例,进一步地,所述装置还包括:
社区划分模块,用于将所述关联规则的集合R2中的每一项的前后两个应用分别做为图中的点,将前后两个应用的可信度作为两点之间的边的权重,构建应用关联图;采用社区划分算法对所述应用关联图进行社区划分,得到应用社区;
核心应用识别模块,用于计算每个应用社区中的每个应用对应的节点的边的权重和,将每个应用社区中边的权重和最大的应用确定该应用社区的核心应用。
基于本公开实施例,进一步地,所述装置还包括:
所述最小支持度计算模块还用于在所述计算每个应用的最小支持度之前,过滤掉使用率大于预设门限的应用数据。
基于本公开实施例,本公开还提供一种存储介质,所述存储介质中存储有计算机程序,当存储介质中的计算机程序被处理器读取执行后用于完成上述本公开提供的任一应用之间关联规则的挖掘方法的步骤功能。
本公开基于时间分段计算应用的评价使用率作为最小支持度,将所有大于最小支持度的应用筛选出来构成频繁项集L1,基于L1进行应用的两两组合,计算应用两两之间可信度得到可信度集合L2,从L2中筛选出前一应用到后一应用的可信度大于后一应用的最小支持度与预设常数的乘积的项,构成表达应用之间关联规则的集合R2。进一步基于R2构造图并使用社区划分算法进行社区划分。本公开可根据挖掘的关联规则及社区划分将应用主动推送给使用相关应用较多的用户,并可对识别出的应用社区中的核心应用进行重点运维保障,提高关联规则挖掘的智能性、灵活性,以及提高了应用维护***的效率。
附图说明
为了更加清楚地说明本公开实施例或者现有技术中的技术方案,下面将对本公开实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本公开实施例的这些附图获得其他的附图。
图1为本公开实施例提供的一种应用之间关联规则的挖掘方法流程图;
图2为本公开实施例提供的一种应用之间关联规则的挖掘装置结构图。
具体实施方式
在本公开实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本公开实施例。本公开实施例和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。本公开中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本公开实施例的主要目的之一是提供一种应用之间关联规则的挖掘方法,该方法是对基于Apriori算法进行应用之间关联规则的挖掘方法的改进。Apriori算法是经典的挖掘频繁项集和关联规则的数据挖掘算法。算法使用频繁项集性质的先验性质,即频繁项集的所有非空子集也一定是频繁的。Apriori算法使用一种称为逐层搜索的迭代方法,其中k项集用于探索(k+1)项集。
在本公开中,所用到的一些基本术语在本公开中所代表的含义解释如下:
项与项集:设appset={app1,app2,...,appm}是所有应用的集合,其中,appi称为项,下标i代表第i个应用。项的集合称为项集appset,包含k个项的项集称为应用k项集,表示为k-appset。
支持度support:数据集中包含该项集的记录占总记录的比例,用于度量一个集合在原始数据中出现的频率。例如第i个应用appi的支持度的含义为使用该应用的用户数占总用户数比例,表示如下:
Figure BDA0002562708300000051
可信度confidence:用来度量一条规则发生的可能性,例如用户在使用appi后又紧接着使用appn的可信度等于appi和appn两种应用被先后应用的支持度除以appi单独被使用的支持度,表示如下:
Figure BDA0002562708300000052
本公开实施例首先利用流量采集器完成对网络流量的预处理,预处理包括网络流量的采集、数据匹配与过滤、基于用户的网络应用数据合并等。在预处理的基础上,本公开实施例提出基于时间段分组计算在预设分析时长范围内应用之间关联规则的最小支持度确定方法,设计了一个用户使用应用的关联分析框架,包括数据处理,数据分析,数据挖掘以及应用社区划分。
图1为本公开实施例提供的一种应用之间关联规则的挖掘方法的步骤流程图,该方法包括:
步骤101.在分析时长的多个时间段内,以用户识别码对应用使用信息进行分组统计,得到每个时间段内每个用户所使用的应用集合。
本公开的目的之一是要分析用户在一定时间范围内同时使用两种应用之间的关联性,为了更准确的确定应用之间的关联规则,本公开提出了对分析时长进行分段的然后分段统计的方案。分析时长用于确定进行应用关联规则分析的时间范围,例如可以是1天、1周等。时间段的划分可以基于不同的地理环境中用户生活习惯或应用使用习惯进行划分,或以固定时间单位划分等。时间段的划分需要兼顾关联规则的分析精度和效率,如果时间段过短可能会导致某些应用之间的关联性会很小,而且时间段过长的话,可能会导致应用集合太大使分析效率低下。
步骤102.计算每个应用在不同时间段内的使用率,将每个应用在不同时间段内的使用率的平均值做为每个应用的最小支持度。
该步骤是在所述分析时长范围内,基于所获得的每个时间段内每个用户所使用的应用集合数据,计算每个应用不同时间段内的使用率,将每个应用在不同时间段内的使用率平均值做为每个应用的最小支持度。最小支持度是一个动态的平均值,相对于固定门限更加灵活智能,并且能够避免使用率低的应用不易被发现。
步骤103.针对每个时间段,计算该时间段内每个应用的支持度,将该时间段内大于自身最小支持度的应用筛选出来,构成项集L1。
步骤104.将L1中的项两两组合,构成表达两种应用先后应用关系的候选项集C2,计算C2中每一个项的可信度,得到表达两个应用先后应用关系的可信度集合L2。
步骤105.从L2中筛选出前一应用到后一应用的可信度大于后一应用的最小支持度与预设常数的乘积的项,得到表达应用之间关联规则的集合R2。
本公开实施例在挖掘两个应用之间的关联规则时,为了保证关联规则的可信度,在判断两个应用是否为强关联规则时,在计算前后两个应用一块被使用的可信度的基础上还进一步判断可信度与后一应用最小支持度的关系,只有两个应用被先后使用的可信度大于后项应用的最小支持度与预设常数的乘积时,才被认定为两个应用之间具有强关联规则,从而进一步保证了关联规则的可信度。
在本公开一实施例中,为了识别和划分应用社区,挖掘应用之间的社区关系,以及识别应用社区中的核心应用,所述方法还包括:
步骤106.将关联规则集合R2中的每一项的前后两个应用分别做为图中的点,将前后两个应用的可信度作为两点之间的边的权重,构建应用关联图。
步骤107.采用社区划分算法对所述应用关联图进行社区划分,得到应用社区。
该步骤通过社区划分算法对应用关联图进行处理得到一个或多个应用社区,应用社区体现了一组应用之间的社区关系,应用商店可以基于应用社区向用户推荐同一社区内的应用,从而提高类似应用商店的智能化和用户体验。
步骤108.计算每个应用社区中的每个应用对应的节点的边的权重和,将每个应用社区中边的权重和最大的应用确定该应用社区的核心应用。
通过确定应用社区中的核心应用,可以发现应用社区中核心应用,对核心应用进行重点的维护,可以提高运维***的可用性、稳定性,提升维护效率和用户体验。
基于本公开上述实施例可知,本公开实施例对现有的应用关联规则挖掘方法进行了改进,本公开通过计算不同时段的应用使用率,针对每种应用自动设置支持度阈值,提升了应用关联规则挖掘方法的智能性和适应性,解决传统Apriori算法不能兼顾所有情况的问题。此外,在判断是否为强关联规则时,与后一应用的最小支持度对比,从而进一步保证可信度。本公开实施例还进一步将挖掘的应用之间的关联规则作为图算法中的点和边,利用社区划分算法得到应用社区图,将联系紧密的应用化为同一社区。由应用关联规则可以预测用户访问应用的行为,向用户推荐可能需要的某个应用,由应用社区图可以将同一社区内的应用主动推送给使用此社区应用的用户。
以下结合具体实施例对本公开提供的应用之间关联规则的挖掘方法的步骤进行详细描述。
步骤201.使用流量采集技术采集用户网络流量数据,并从中获取应用使用信息,所述应用使用信息至少包括用户识别码、使用时间等应用使用信息。
该步骤首先利用流量采集器获得网络数据,并将数据储存在数据库中。接着使用python对数据进行处理,包括过滤、分组、整合等。
利用流量采集器的深度包检测技术获取网络流量数据,深度包检测技术不仅可以获得流量包中的源ip、目的ip、源端口、目的端口以及协议等数据,还可以对应用层数据进行内容检测与深度解码。但是由深度包检测得到的数据冗余太多,只需要从中提取需要的应用使用信息即可。比如用户识别码/用户标识、应用名称、使用时间、流量、包数等。将这些数据储存到数据仓库,形成用于应用关联分析的数据表。
关联分析数据表
字段 字段含义
user_id 用户识别码
apply_name 应用名称
log_time 使用时间
flow 流量
pack 包数
app_class 应用类别
步骤202.在分析时长的多个时间段内,以用户识别码对所获取的应用使用信息进行分组统计,得到每个时间段内每个用户所使用的应用集合。
本公开一实施例将分析时长设定为一天,将一天24小时分成了7个时段。从零点到五点是深夜时间段;六点到八点是早上时间段;九点到十一点是上午时间段;十二点和十三点是中午时间段;十四点到十七点是下午时间段;十八点和十九点是傍晚时间段;二十点到二十三点是夜晚时间段。
时间段划分
Figure BDA0002562708300000081
Figure BDA0002562708300000091
对于一些热门应用,例如微信等,应用本身的独立性比较高,常常被单独使用,需要将这些应用的流量数据从采集器采集的流量数据中过滤掉,否则挖掘出的频繁项集几乎全是这些热门应用,不利于发现其它使用量低的应用关系,挖掘到的这些规则意义也不大。因此,本公开一实施例中,通过计算各应用的使用率,过滤掉使用率大于预设门限的应用数据,例如过滤掉1.5倍四分位距的应用数据,所述四分位距为第三四分位数与第一四分位数的差值。
将处理后的数据按不同时间段中的不同用户识别码进行分组统计,对用户使用的应用做合并,从而得到在每个时间段内每个用户所使用的应用集合,将这些集合作为输入进行关联规则挖掘。
步骤203.计算每个应用在不同时间段内的使用率,将每个应用在不同时间段内的使用率的平均值做为每个应用的最小支持度。
Apriori算法使用一种称为逐层搜索的迭代方法,其中k项集用于探索(k+1)项集。本公开实施例只搜索到频繁2项集,首先通过扫描所采集的数据集,累计每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合记为L1。然后,使用L1找出频繁2项集的集合L2,最后得到应用的关联规则R2。
该步骤是在总的分析时长范围内,基于所获得的每个时间段内每个用户所使用的应用集合数据,计算每个应用不同时间段内的使用率,将每个应用在不同时间段内的使用率平均值做为每个应用的最小支持度
Figure BDA0002562708300000092
Figure BDA0002562708300000093
其中,user_num是t时段用户总数,user_appm_n是t时间段使用appm的用户数。
步骤204.针对每个时间段,获得该时间段内每个应用的支持度,将该时间段内大于自身最小支持度的应用筛选出来,构成频繁1项集L1。
该步骤中,针对每个时间段构建候选集C1,C1是1维候选项集:对每个时段的应用进行次数统计和运算得到C1,C1的每个元素包含应用标识符和应用支持度的信息,例如:
Figure BDA0002562708300000101
然后,扫描每个时间段的C1,判断该时间段内每种应用是否大于其最小支持度,将每个时间段内大于其最小支持度的应用构成频繁1项集L1。
Figure BDA0002562708300000102
步骤205.将L1中的元素做两两组合,构成表达两种应用先后应用关系的候选项集C2,计算C2中每一个项的可信度,得到表达两个应用先后应用关系的可信度集合L2。
该步骤中,首先将L1中的元素两两组合构成候选集C2,C2的每一项包括两个应用的应用标识及两个应用组合的支持度信息:
Figure BDA0002562708300000103
集合(appa,appb)不考虑应用顺序,计算二项集L2时有应用间的顺序关系,针对C2中的每一项都计算了如下两项可信度:
Figure BDA0002562708300000104
Figure BDA0002562708300000105
针对C2中的每一项计算可信度后得到集合L2。
Figure BDA0002562708300000106
L2中的每项包含两应用之间的关联规则和可信度信息。
步骤206.从L2中筛选出前一应用到后一应用的可信度大于后一应用的最小支持度与预设常数的乘积的项,构成表达两个应用之间关联规制的集合R2。
扫描L2判断每项的可信度是否大于该项中后一应用的最小支持度与预设常数的乘积,将大于后一应用最小支持度与预设常数的乘积的项,构成表达两个应用之间关联规制的集合R2。
Figure BDA0002562708300000111
其中,K为预设常数,在本公开一实施例中,K取值为大于1.2的常数值,例如1.4。
通过上述步骤,即可得到不同时间段用户访问应用的关联规则,可以根据关联规则预测用户访问应用的行为,同时将具有关联关系的应用推荐给用户。
步骤207.将关联规则集合R2中的每一项的前后两个应用分别做为图中的点,将前后两个应用的可信度作为两点之间的边的权重,构建应用关联图。
该步骤将关联规则集合R2中每项appa,appb作为点,
Figure BDA0002562708300000112
作为点appa到点appb的边的权重,构造应用关联图G,构建应用关联图的目的是进行应用社区划分。
步骤208.将应用关联图G作为社区划分算法的输入,得到基于应用关联关系划分的不同应用社区,社区内的应用联系紧密,社区间的应用联系稀疏。
模块度用来衡量一个社区网络划分的好坏,可以简单地理解为社区内部所有边权重和减去与社区相连的边权重和。定义如下:
Figure BDA0002562708300000113
Figure BDA0002562708300000114
其中,Aij表示节点i和节点j之间边的权重;ki=∑jAij表示所有与节点i相连的边的权重之和(度数);ci表示节点i所属的社区;
Figure BDA0002562708300000115
表示所有边的权重之和。
Louvain算法是基于模块度的社区发现算法,该算法在效率和效果上都表现较好,并且能够发现层次性的社区结构,其优化目标是最大化整个社区网络的模块度。本公开一实施例利用Louvain算法实现应用间的社区划分。
采用Louvain算法实现应用间的社区划分流程如下:
1)将图中的每个节点看成一个独立的社区,社区的数目与节点个数相同;
2)对每个节点i,依次尝试把节点i分配到其每个邻居节点所在的社区,计算分配前与分配后的模块度变化ΔQ,并记录ΔQ最大的那个邻居节点,如果maxΔQ>0,则把节点i分配ΔQ最大的那个邻居节点所在的社区,否则保持不变;
3)重复2),直到所有节点的所属社区不再变化;
4)对图进行压缩,将所有在同一个社区的节点压缩成一个新节点,社区内节点之间的边的权重转化为新节点环的权重,社区间的边权重转化为新节点间的边权重;新结点环表示对图压缩后将同一社区中的点作为新节点,此时的权重是压缩同一社区中的点的权重之和。
5)重复1)-4)直到整个图的模块度不再发生变化。
6)将每个社区中将ki(度数)最大的节点i记为社区核心,其中ki=∑jAij表示所有与节点i相连的边的权重之和(度数),Aij表示节点i和节点j之间边的权重。然后返回应用社区划分结果如下所示:
{社区1:[(社区核心,应用a),(社区成员,应用b),…];
社区2:[(社区核心,应用m),(社区成员,应用n),…];
……}
由此得到了应用社区划分结果,可以对应用社区中的核心应用进行重点运维保障,并且可以将同一社区中的应用推荐给使用此社区应用的用户。
图2为本公开一实施例提供的一种应用之间关联规则的挖掘装置结构示意图,该装置中的各功能模块可以采用软件模块形式实现,也可以采用硬件单元方式实现。该装置的各模块的功能与本公开实施提供的应用之间关联规则的挖掘方法中的各步骤具有对应关系。该装置中的各模块可以在一个硬件设备上执行,也可以由不同的硬件设备分别完成本公开提供的方法中的一个或多个步骤或模块功能。该装置200包括:分组统计模块201、最小支持度计算模块202、应用筛选模块203、可信度计算模块204、关联规则确定模块205。
分组统计模块201,用于在分析时长的多个时间段内,以用户识别码对应用使用信息进行分组统计,得到每个时间段内每个用户所使用的应用集合;
最小支持度计算模块202,用于计算每个应用在不同时间段内的使用率,将每个应用在不同时间段内的使用率的平均值做为每个应用的最小支持度;
应用筛选模块203,用于针对每个时间段,计算该时间段内每个应用的支持度,将该时间段内大于自身最小支持度的应用筛选出来,构成项集L1;
可信度计算模块204,用于将L1中的项两两组合,构成表达两种应用先后应用关系的候选项集C2,计算C2中每一个项的可信度,得到表达两个应用先后应用关系的可信度集合L2;
关联规则确定模块205,用于从L2中筛选出前一应用到后一应用的可信度大于后一应用的最小支持度与预设常数的乘积的项,得到表达应用之间关联规则的集合R2。
为实现应用社区划分,本公开一实施例中,所述装置还包括:
社区划分模块206,用于将所述关联规则的集合R2中的每一项的前后两个应用分别做为图中的点,将前后两个应用的可信度作为两点之间的边的权重,构建应用关联图;采用社区划分算法对所述应用关联图进行社区划分,得到应用社区;
为实现核心应用识别,本公开一实施例中,所述装置还包括:核心应用识别模块207,用于计算每个应用社区中的每个应用对应的节点的边的权重和,将每个应用社区中边的权重和最大的应用确定该应用社区的核心应用。
为过滤掉频繁独立使用的应用,本公开一实施例中,所述最小支持度计算模块202还用于在所述计算每个应用的最小支持度之前,过滤掉使用率大于预设门限的应用数据。
本公开另一实施例中,还提供一种存储介质,该存储介质位于具有处理器及总线结构的设备当中,所述存储介质可以为易失性存储介质也可以为非易失性存储介质,所述存储介质中存储有计算机程序,当存储介质中的计算机程序被处理器读取执行后可用于完成上述本公开实施例提供的应用之间关联规则的挖掘方法的步骤功能。
以上所述仅为本公开的实施例而已,并不用于限制本公开。对于本领域技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本公开的权利要求范围之内。

Claims (10)

1.一种应用之间关联规则的挖掘方法,其特征在于,所述方法包括:
在分析时长的多个时间段内,以用户识别码对应用使用信息进行分组统计,得到每个时间段内每个用户所使用的应用集合;
计算每个应用在不同时间段内的使用率,将每个应用在不同时间段内的使用率的平均值做为每个应用的最小支持度;
针对每个时间段,计算该时间段内每个应用的支持度,将该时间段内大于自身最小支持度的应用筛选出来,构成项集L1;
将L1中的项两两组合,构成表达两种应用先后应用关系的候选项集C2,计算C2中每一个项的可信度,得到表达两个应用先后应用关系的可信度集合L2;
从L2中筛选出前一应用到后一应用的可信度大于后一应用的最小支持度与预设常数的乘积的项,得到表达应用之间关联规则的集合R2。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述关联规则的集合R2中的每一项的前后两个应用分别做为图中的点,将前后两个应用的可信度作为两点之间的边的权重,构建应用关联图;
采用社区划分算法对所述应用关联图进行社区划分,得到应用社区。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
计算每个应用社区中的每个应用对应的节点的边的权重和,将每个应用社区中边的权重和最大的应用确定该应用社区的核心应用。
4.根据权利要求1所述的方法,其特征在于,在所述计算每个应用的最小支持度之前,所述方法还包括:过滤掉使用率大于预设门限的应用数据。
5.根据权利要求2所述的方法,其特征在于,
所述的社区划分算法为Louvain算法,所述预设常数为1.4。
6.一种应用之间关联规则的挖掘装置,其特征在于,所述装置包括:
分组统计模块,用于在分析时长的多个时间段内,以用户识别码对应用使用信息进行分组统计,得到每个时间段内每个用户所使用的应用集合;
最小支持度计算模块,用于计算每个应用在不同时间段内的使用率,将每个应用在不同时间段内的使用率的平均值做为每个应用的最小支持度;
应用筛选模块,用于针对每个时间段,计算该时间段内每个应用的支持度,将该时间段内大于自身最小支持度的应用筛选出来,构成项集L1;
可信度计算模块,用于将L1中的项两两组合,构成表达两种应用先后应用关系的候选项集C2,计算C2中每一个项的可信度,得到表达两个应用先后应用关系的可信度集合L2;
关联规则确定模块,用于从L2中筛选出前一应用到后一应用的可信度大于后一应用的最小支持度与预设常数的乘积的项,得到表达应用之间关联规则的集合R2。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
社区划分模块,用于将所述关联规则的集合R2中的每一项的前后两个应用分别做为图中的点,将前后两个应用的可信度作为两点之间的边的权重,构建应用关联图;采用社区划分算法对所述应用关联图进行社区划分,得到应用社区;
核心应用识别模块,用于计算每个应用社区中的每个应用对应的节点的边的权重和,将每个应用社区中边的权重和最大的应用确定该应用社区的核心应用。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
所述最小支持度计算模块还用于在所述计算每个应用的最小支持度之前,过滤掉使用率大于预设门限的应用数据。
9.根据权利要求6所述的装置,其特征在于,
所述的社区划分算法为Louvain算法,所述预设常数为1.4。
10.一种存储介质,所述存储介质中存储有计算机程序,其特征在于,当存储介质中的计算机程序被处理器读取执行后用于完成如权利要求1至5中任一项方法的步骤功能。
CN202010612788.7A 2020-06-30 2020-06-30 一种应用之间关联规则的挖掘方法、装置及存储介质 Pending CN111831706A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010612788.7A CN111831706A (zh) 2020-06-30 2020-06-30 一种应用之间关联规则的挖掘方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010612788.7A CN111831706A (zh) 2020-06-30 2020-06-30 一种应用之间关联规则的挖掘方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN111831706A true CN111831706A (zh) 2020-10-27

Family

ID=72900671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010612788.7A Pending CN111831706A (zh) 2020-06-30 2020-06-30 一种应用之间关联规则的挖掘方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111831706A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022100009A1 (en) * 2020-11-13 2022-05-19 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and system for dynamic categorization of applications in user devices
WO2022141340A1 (zh) * 2020-12-31 2022-07-07 山石网科通信技术股份有限公司 确定应用服务的依赖关系的方法及装置、处理器
CN116662673A (zh) * 2023-07-28 2023-08-29 西安银信博锐信息科技有限公司 基于数据监控的用户偏好数据分析方法
CN117891857A (zh) * 2024-03-13 2024-04-16 广东工业大学 基于大数据的数据挖掘方法及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022100009A1 (en) * 2020-11-13 2022-05-19 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and system for dynamic categorization of applications in user devices
WO2022141340A1 (zh) * 2020-12-31 2022-07-07 山石网科通信技术股份有限公司 确定应用服务的依赖关系的方法及装置、处理器
CN116662673A (zh) * 2023-07-28 2023-08-29 西安银信博锐信息科技有限公司 基于数据监控的用户偏好数据分析方法
CN116662673B (zh) * 2023-07-28 2023-11-03 西安银信博锐信息科技有限公司 基于数据监控的用户偏好数据分析方法
CN117891857A (zh) * 2024-03-13 2024-04-16 广东工业大学 基于大数据的数据挖掘方法及***
CN117891857B (zh) * 2024-03-13 2024-05-24 广东工业大学 基于大数据的数据挖掘方法及***

Similar Documents

Publication Publication Date Title
CN111831706A (zh) 一种应用之间关联规则的挖掘方法、装置及存储介质
Amini et al. On density-based data streams clustering algorithms: A survey
US7724784B2 (en) System and method for classifying data streams using high-order models
CN113612749B (zh) 一种面向入侵行为的溯源数据聚类方法及装置
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
US9720986B2 (en) Method and system for integrating data into a database
CN104820708B (zh) 一种基于云计算平台的大数据聚类方法和装置
CN110263230B (zh) 一种基于密度聚类的数据清洗方法及装置
CN110689368B (zh) 一种移动应用内广告点击率预测***设计方法
CN107832333B (zh) 基于分布式处理和dpi数据构建用户网络数据指纹的方法和***
CN110633371A (zh) 一种日志分类方法及***
CN116455861B (zh) 一种基于大数据的计算机网络安全监测***及方法
CN110334157B (zh) 一种云计算管理***
CN106228178A (zh) 网络用户行为预测***
CN112800115B (zh) 数据处理方法及数据处理装置
CN114817243A (zh) 数据库联合索引的建立方法、装置、设备及存储介质
CN112508726A (zh) 一种基于信息传播特点的虚假舆论识别***及其处理方法
CN111597399A (zh) 基于数据融合的计算机数据处理***及方法
CN114124484B (zh) 网络攻击识别方法、***、装置、终端设备以及存储介质
CN110019193B (zh) 相似帐号识别方法、装置、设备、***及可读介质
CN113010884B (zh) 一种入侵检测***中的实时特征过滤方法
CN111259442A (zh) MapReduce框架下决策树的差分隐私保护方法
CN111768031B (zh) 一种基于arma算法预测人群聚集趋势的方法
CN115392351A (zh) 风险用户识别方法、装置、电子设备及存储介质
CN114066636A (zh) 一种基于大数据的金融信息***与操作方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination