CN113704215B - 业务过程事件日志采样方法、***、存储介质及计算设备 - Google Patents

业务过程事件日志采样方法、***、存储介质及计算设备 Download PDF

Info

Publication number
CN113704215B
CN113704215B CN202110914759.0A CN202110914759A CN113704215B CN 113704215 B CN113704215 B CN 113704215B CN 202110914759 A CN202110914759 A CN 202110914759A CN 113704215 B CN113704215 B CN 113704215B
Authority
CN
China
Prior art keywords
track
log
intersection
starting point
point set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110914759.0A
Other languages
English (en)
Other versions
CN113704215A (zh
Inventor
刘聪
苏轩
张帅鹏
李彩虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiecheng Heli Technology Co ltd
Original Assignee
Beijing Jiecheng Heli Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiecheng Heli Technology Co ltd filed Critical Beijing Jiecheng Heli Technology Co ltd
Priority to CN202110914759.0A priority Critical patent/CN113704215B/zh
Publication of CN113704215A publication Critical patent/CN113704215A/zh
Application granted granted Critical
Publication of CN113704215B publication Critical patent/CN113704215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种业务过程事件日志采样方法、***、存储介质及计算设备,包括:1)获取日志直接跟随活动关系集合、开始点集合和结束点集合;2)判断轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集是否都为空集;若判断结果都为空集,则结束对事件日志的轨迹遍历,输出样本日志;若判断结果不全为空集,则从完全遍历采样法、集合覆盖采样法、基于轨迹长度的采样方法、基于轨迹频次的采样方法这四种事件日志采样方法中任意选择一种;3)选择轨迹组成新的日志,新的日志即为样本日志。本发明能够有效地通过采样获取具有足够代表性的样本日志,同时保证了日志完备性。

Description

业务过程事件日志采样方法、***、存储介质及计算设备
技术领域
本发明涉及对事件日志的过程挖掘的技术领域,尤其是指一种业务过程事件日志采样方法、***、存储介质及计算设备。
背景技术
过程挖掘是连接数据科学和业务过程管理领域的新颖学科,其目的是从事件日志中提取关于业务过程的有效信息,发现、监控和改进真实的业务过程。过程发现是最具挑战性的过程挖掘任务之一,目前国内外研究学者已经提出了许多过程发现方法,如基于AlphaMiner、Heuristics Miner、Inductive Miner、Tsinghua-Alpha、Split Miner等。但由于I/O和内存等硬件限制,大多数发现方法不再适用于使用一台机器处理整个大型数据集。若依靠当前的分布式平台来重新实现现有的过程发现算法,例如著名的MapReduce框架,又会非常耗时,并且这些方法不能一般化,需要开发人员对底层发现方法有广泛的了解,因此迫切需要一种新方法来解决这些问题。事件日志采样方法提供了一种提高发现效率的替代方法,而不是重新实施现有的发现方法。然而,已有的事件日志采样方法的性能依然不能满足实际应用的需求。本发明中的业务过程事件日志采样方法为上述问题提供了一种可行性方案,在保证了模型挖掘质量的基础上,大幅度地提高了日志采样效率,同时本发明中的事件日志采样方法保证了日志完备性,并且可以得到更简单、质量更高的过程模型。
发明内容
本发明的第一目的在于克服现有事件日志采样方法的缺点与不足,提供一种业务过程事件日志采样方法,解决已有的事件日志采样方法不能处理大规模事件日志或处理效率低下等问题,通过将大规模事件日志作为输入来获得具有足够代表性的样本日志,样本日志比原始日志小得多,处理效率也更高。
本发明的第二目的在于提供一种业务过程事件日志采样***。
本发明的第三目的在于提供一种存储介质。
本发明的第四目的在于提供一种计算设备。
本发明的第一目的通过下述技术方案实现:业务过程事件日志采样方法,包括以下步骤:
1)获取日志事件日志的三个集合,分别为日志直接跟随活动关系集合、开始点集合和结束点集合;
2)根据步骤1)获得的三个集合,判断轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集是否都为空集;若判断结果都为空集,则结束对事件日志的轨迹遍历,输出样本日志;若判断结果不全为空集,则从完全遍历采样法、集合覆盖采样法、基于轨迹长度的采样方法、基于轨迹频次的采样方法这四种事件日志采样方法中任意选择一种;
3)根据步骤2)中选择的事件日志采样方法,选择轨迹组成新的日志,新的日志即为样本日志。
进一步,在步骤1)中,所述事件日志是由案例组成,所述案例是由事件组成,案例中的事件用轨迹的形式来表示,事件有很多属性,用活动表示事件,所述集合定义如下:
a、直接跟随活动是指在事件日志的一条轨迹中,满足活动b紧紧跟随在活动a之后,记作<a,b>,日志直接跟随活动关系集合为日志中每一条轨迹的直接跟随活动的合集,记作dfrSetLog;
b、每一条轨迹的开始点构成开始点集合,日志的开始点集合记作StartSet;
c、每一条轨迹的结束点构成结束点集合,日志的结束点集合记作EndSet;
进一步,在步骤3)中,若选择完全遍历采样法,则从事件日志的第一条轨迹开始依次遍历,当轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历;
若选择集合覆盖采样法,则遍历日志中所有轨迹,选择轨迹直接跟随活动关系集合与日志直接跟随活动关系集合拥有最大交集的轨迹,在满足轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集的条件下将此条轨迹加入样本日志中,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历;
若选择基于轨迹长度的采样方法,其中所述轨迹长度是指轨迹所包含的活动的个数,首先统计事件日志中所有轨迹长度并进行降序排序,其次从长度最长轨迹开始依次遍历,当轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历;
若选择基于轨迹频次的采样方法,其中所述轨迹频次是指在事件日志的轨迹遍历中轨迹是第几次出现,首先统计事件日志轨迹频次并进行去重操作,所述去重操作是指只保留相同轨迹中有最大频次的轨迹,最后按照轨迹频次进行降序排序,从轨迹频次最大的轨迹开始依次遍历,轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历。
本发明的第二目的通过下述技术方案实现:业务过程事件日志采样***,包含事件日志数据获取模块、轨迹集合交集判断模块、事件日志采样选择模块、样本日志轨迹选择模块;
所述事件日志数据获取模块用于获取日志直接跟随活动关系集合、开始点集合和结束点集合;
所述轨迹集合交集判断模块用于判断轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集是否都为空集;
所述事件日志采样选择模块用于从完全遍历采样法、集合覆盖采样法、基于轨迹长度的采样方法、基于轨迹频次的采样方法这四种事件日志采样方法中选择一种,或直接结束对事件日志的轨迹遍历,输出样本日志;
所述样本日志轨迹选择模块用于选择轨迹组成新的日志,新的日志即为样本日志。
进一步,所述事件日志数据获取模块执行如下操作:
获取事件日志的开始点集合、结束点集合、日志直接跟随活动关系集合,所述事件日志是由案例组成,所述案例是由事件组成,案例中的事件用轨迹的形式来表示,事件有很多属性,用活动表示事件,所述集合定义如下:
a、直接跟随活动是指在事件日志的一条轨迹中,满足活动b紧紧跟随在活动a之后,记作<a,b>,日志直接跟随活动关系集合为日志中每一条轨迹的直接跟随活动的合集,记作dfrSetLog;
b、每一条轨迹的开始点构成开始点集合,日志的开始点集合记作StartSet;
c、每一条轨迹的结束点构成结束点集合,日志的结束点集合记作EndSet。
进一步,所述轨迹集合交集判断模块执行如下操作:
根据数据获取模块得到的日志直接跟随活动关系集合、开始点集合和结束点集合,判断轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集是否都为空集。
进一步,所述事件日志采样选择模块根据轨迹集合交集判断模块获得的判断结果,执行如下操作:
a、若判断结果为空集,则结束对事件日志的轨迹遍历,输出样本日志;
b、若判断结果不为空集,则选择四种事件日志采样方法中的一种,四种事件日志采样方法分别为:完全遍历采样法、集合覆盖采样法、基于轨迹长度的采样方法和基于轨迹频次的采样方法。
进一步,所述样本日志轨迹选择模块执行如下操作:
a、若选择完全遍历采样法,则从事件日志的第一条轨迹开始依次遍历,当轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历;
b、若选择集合覆盖采样法,则遍历日志中所有轨迹,选择轨迹直接跟随活动关系集合与日志直接跟随活动关系集合拥有最大交集的轨迹,在满足轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集的条件下将此条轨迹加入样本日志中,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历;
c、若选择基于轨迹长度的采样方法,其中所述轨迹长度是指轨迹所包含的活动的个数,首先统计事件日志中所有轨迹长度并进行降序排序,其次从长度最长轨迹开始依次遍历,当轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历;
d、若选择基于轨迹频次的采样方法,其中所述轨迹频次是指在事件日志的轨迹遍历中轨迹是第几次出现,首先统计事件日志轨迹频次并进行去重操作,所述去重操作是指只保留相同轨迹中有最大频次的轨迹,最后按照轨迹频次进行降序排序,从轨迹频次最大的轨迹开始依次遍历,轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历。
本发明的第三目的通过下述技术方案实现:一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的业务过程事件日志采样方法。
本发明的第四目的通过下述技术方案实现:一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的业务过程事件日志采样方法。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明实现了对于大规模事件日志,采用较以往更高效的业务流程事件日志采样方法对其采样,得到的样本日志可以保证日志完备性;
2、本发明使用较以往更高效的业务流程事件日志采样方法进行采样,在保证了模型挖掘质量的前提下,极大地提高了事件日志的采样效率,为过程挖掘领域提供了四种新的采样方法;
3、本发明可以结合大数据领域,部署在分布式***上,能更高效地处理超大规模的事件日志;
4、本发明方法在对大规模日志进行过程发现方面具有广泛的使用空间,实用性强,在过程发现、一致性检查等诸多过程挖掘领域有广阔前景。
附图说明
图1为本发明逻辑流程示意图。
图2为本发明的Prom工具插件实现方法界面图。
图3为本发明四种采样方法的选择界面图。
图4为本发明用例原始事件日志图。
图5为本发明用例采样事件日志图。
图6为本发明***架构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
本实施例公开了一种业务过程事件日志采样方法,该方法已经在Prom工具以插件的方式实现,如图2所示;如图1所示,输入原始事件日志,获取事件日志的日志直接跟随活动关系集合、开始点集合和结束点集合,选择了四种事件日志采样方法中的一种后,再分别根据不同的采样策略进行采样得到样本事件日志,具体包括以下步骤:
1)获取事件日志的直接跟随活动关系集合、初始点集合和结束点集合。其中,所述事件日志是由案例组成,所述案例是由事件组成,案例中的事件用轨迹的形式来表示,事件有很多属性,用活动表示事件,所述集合定义如下所示:直接跟随活动是指在事件日志的一条轨迹中,满足活动b紧紧跟随在活动a之后,记作<a,b>,每一条轨迹的初始点构成初始点集合,结束点构成结束点集合。因此本步骤三个集合求法如下所示:
示例事件日志L包含9条轨迹,共有6个活动。其中,记σ(1)=<a,d,e>,σ(2)=<a,b,c,e>,σ(3)=<b,c,e,f>,σ(4)=<b,d,f>,σ(5)=<c,d>,σ(6)=<a,c,d>,σ(7)=<b,c,d>,σ(8)=<a,d,e>,σ(9)=<b,c,e,f>。L=[<a,d,e>,<a,b,c,e>,<b,c,e,f>,<b,d,f>,<c,d>,<a,c,d>,<b,c,d>]。如图4所示为使用本发明时输入的原始事件日志,通过事件日志采样方法最终可以得到如图5所示样本日志。
a、日志的直接跟随活动关系集合记为dfrSetLog,dfrSetLog=[<a,d>,<d,e>,<a,b>,<b,c>,<c,e>,<e,f>,<b,d>,<d,f>,<c,d>,<a,c>];
b、日志的开始点集合记为StartSet,StartSet=[a,b,c];
c、日志的结束点集合记为EndSet,EndSet=[e,f,d];
2)判断轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集是否都为空集;若判断结果都为空集,则结束对事件日志的轨迹遍历,输出样本日志;若判断结果不全为空集,首先选择本发明在Prom6平台中的业务过程事件日志采样插件(名为Business Process Event LogSampling Plugin),其次选择四种事件日志采样方法中的一种,四种事件日志采样方法分别为:(1)完全遍历采样法(Brute Force Sampling);(2)集合覆盖采样法(Set CoverageSampling);(3)基于轨迹长度的采样方法(Trace Length-based Sampling);(4)基于轨迹频次的采样方法(Trace Frequency-based Sampling),如图3所示为采样方法的选择界面;
3)根据步骤2)中选择的事件日志采样方法,选择轨迹组成新的日志,新的日志即为样本日志,具体如下:
a、若选择完全遍历采样法,则从事件日志的第一条轨迹开始依次遍历,当轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历;因此示例事件日志最终得到的样本日志L'为L'=[<a,d,e>,<a,b,c,e>,<b,c,e,f>,<b,d,f>,<c,d>,<a,c,d>]。
b、若选择集合覆盖采样法,则遍历日志中所有轨迹,选择轨迹直接跟随活动关系集合与日志直接跟随活动关系集合拥有最大交集的轨迹,在满足轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集的条件下将此条轨迹加入样本日志中,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历;因此示例事件日志最终得到的样本日志L'为L'=[<a,d,e>,<a,b,c,e>,<b,c,e,f>,<b,d,f>,<c,d>,<a,c,d>]。
c、若选择基于轨迹长度的采样方法,其中所述轨迹长度是指轨迹所包含的活动的个数,首先统计事件日志中所有轨迹长度并进行降序排序,其次从长度最长轨迹开始依次遍历,当轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历;因此示例事件日志最终得到的样本日志L'为L'=[<a,d,e>,<a,b,c,e>,<b,c,e,f>,<b,d,f>,〈c,d>,〈a,c,d〉]。
d、若选择基于轨迹频次的采样方法,其中所述轨迹频次是指在事件日志的轨迹遍历中轨迹是第几次出现,首先统计事件日志轨迹频次并进行去重操作,所述去重操作是指只保留相同轨迹中有最大频次的轨迹,最后按照轨迹频次进行降序排序,从轨迹频次最大的轨迹开始依次遍历,轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历。因此示例事件日志最终得到的样本日志L'为L'=[〈a,d,e〉,〈a,b,c,e〉,〈b,c,e,f〉,〈b,d,f>,<c,d>,<a,c,d>]。
实施例2
本实施例公开了一种业务过程事件日志采样***,如图6所示,该***包含事件日志数据获取模块、轨迹集合交集判断模块、事件日志采样选择模块、样本日志轨迹选择模块;
所述事件日志数据获取模块用于获取日志直接跟随活动关系集合、开始点集合和结束点集合;
所述轨迹集合交集判断模块用于判断轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集是否都为空集;
所述事件日志采样选择模块用于从完全遍历采样法、集合覆盖采样法、基于轨迹长度的采样方法、基于轨迹频次的采样方法这四种事件日志采样方法中选择一种,或直接结束对事件日志的轨迹遍历,输出样本日志;
所述样本日志轨迹选择模块用于选择轨迹组成新的日志,新的日志即为样本日志。
所述事件日志数据获取模块执行如下操作:
获取事件日志的开始点集合、结束点集合、日志直接跟随活动关系集合,所述事件日志是由案例组成,所述案例是由事件组成,案例中的事件用轨迹的形式来表示。事件有很多属性,本发明中用活动表示事件,三个集合具体求法如下所示:示例事件日志L包含9条轨迹,共有6个活动。其中,记σ(1)=<a,d,e>,σ(2)=<a,b,c,e>,σ(3)=<b,c,e,f>,σ(4)=<b,d,f>,σ(5)=<c,d>,σ(6)=<a,c,d>,σ(7)=<b,c,d>,σ(8)=<a,d,e>,σ(9)=<b,c,e,f>。L=[<a,d,e>,<a,b,c,e>,<b,c,e,f>,<b,d,f>,<c,d>,<a,c,d>,<b,c,d>]。
a、日志的直接跟随活动关系集合记为dfrSetLog,dfrSetLog=[<a,d>,<d,e>,<a,b>,<b,c>,<c,e>,<e,f>,<b,d>,<d,f>,<c,d>,<a,c>];
b、日志的开始点集合记为StartSet,StartSet=[a,b,c];
c、日志的结束点集合记为EndSet,EndSet=[e,f,d];
所述轨迹集合交集判断模块执行如下操作:
根据数据获取模块得到的日志直接跟随活动关系集合、开始点集合和结束点集合,判断轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集是否都为空集。
所述事件日志采样选择模块执行如下操作:
a、若判断结果为空集,则结束对事件日志的轨迹遍历,输出样本日志;
b、若判断结果不为空集,首先选择本发明在Prom6平台中的业务过程事件日志采样插件(名为Business Process Event Log Sampling Plugin),其次选择四种事件日志采样方法中的一种,四种事件日志采样方法分别为:(1)完全遍历采样法(Brute ForceSampling);(2)集合覆盖采样法(Set Coverage Sampling);(3)基于轨迹长度的采样方法(Trace Length-based Sampling);(4)基于轨迹频次的采样方法(Trace Frequency-basedSampling)。
所述样本日志轨迹选择模块执行如下操作:
a、若选择完全遍历采样法,则从事件日志的第一条轨迹开始依次遍历,当轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历;因此示例事件日志最终得到的样本日志L'为L'=[<a,d,e>,<a,b,c,e>,<b,c,e,f>,<b,d,f>,<c,d>,<a,c,d>]。
b、若选择集合覆盖采样法,则遍历日志中所有轨迹,选择轨迹直接跟随活动关系集合与日志直接跟随活动关系集合拥有最大交集的轨迹,在满足轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集的条件下将此条轨迹加入样本日志中,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历;因此示例事件日志最终得到的样本日志L'为L'=[<a,d,e>,<a,b,c,e>,<b,c,e,f>,<b,d,f>,<c,d>,<a,c,d>]。
c、若选择基于轨迹长度的采样方法,其中所述轨迹长度是指轨迹所包含的活动的个数,首先统计事件日志中所有轨迹长度并进行降序排序,其次从长度最长轨迹开始依次遍历,当轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历;因此示例事件日志最终得到的样本日志L'为L'=[<a,d,e>,<a,b,c,e>,<b,c,e,f>,<b,d,f>,<c,d>,<a,c,d>]。
d、若选择基于轨迹频次的采样方法,其中所述轨迹频次是指在事件日志的轨迹遍历中轨迹是第几次出现,首先统计事件日志轨迹频次并进行去重操作,所述去重操作是指只保留相同轨迹中有最大频次的轨迹,最后按照轨迹频次进行降序排序,从轨迹频次最大的轨迹开始依次遍历,轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历。因此示例事件日志最终得到的样本日志L'为L'=[<a,d,e>,<a,b,c,e>,<b,c,e,f>,<b,d,f>,〈c,d〉,〈a,c,d〉]。
实施例3
本实施例公开了一种存储介质,存储有程序,所述程序被处理器执行时,实现实施例1所述的业务过程事件日志采样方法。
本实施例中的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
实施例4
本实施例公开了一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例1所述的业务过程事件日志采样方法。
本实施例中所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑、可编程逻辑控制器(PLC,Programmable Logic Controller)、或其它具有处理器功能的终端设备。
综上所述,在采用以上方案后,本发明为现有事件日志采样方法无法或不能有效处理大规模事件日志中的信息,而且会导致发现过程模型的低效率提供了新的方式,能够有效地通过采样获取具有足够代表性的样本日志,具有实际推广价值,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (4)

1.业务过程事件日志采样方法,其特征在于,包括以下步骤:
1)获取事件日志的三个集合,分别为日志直接跟随活动关系集合、开始点集合和结束点集合;
所述事件日志是由案例组成,所述案例是由事件组成,案例中的事件用轨迹的形式来表示,事件有很多属性,用活动表示事件,所述集合定义如下:
a、直接跟随活动是指在事件日志的一条轨迹中,满足活动b紧紧跟随在活动a之后,记作<a,b>,日志直接跟随活动关系集合为日志中每一条轨迹的直接跟随活动的合集,记作dfrSetLog;
b、每一条轨迹的开始点构成开始点集合,日志的开始点集合记作StartSet;
c、每一条轨迹的结束点构成结束点集合,日志的结束点集合记作EndSet;
2)根据步骤1)获得的三个集合,判断轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集是否都为空集;若判断结果都为空集,则结束对事件日志的轨迹遍历,输出样本日志;若判断结果不全为空集,则从完全遍历采样法、集合覆盖采样法、基于轨迹长度的采样方法、基于轨迹频次的采样方法这四种事件日志采样方法中任意选择一种;
3)根据步骤2)中选择的事件日志采样方法,选择轨迹组成新的日志,新的日志即为样本日志;
若选择完全遍历采样法,则从事件日志的第一条轨迹开始依次遍历,当轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历;
若选择集合覆盖采样法,则遍历日志中所有轨迹,选择轨迹直接跟随活动关系集合与日志直接跟随活动关系集合拥有最大交集的轨迹,在满足轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集的条件下将此条轨迹加入样本日志中,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历;
若选择基于轨迹长度的采样方法,其中所述轨迹长度是指轨迹所包含的活动的个数,首先统计事件日志中所有轨迹长度并进行降序排序,其次从长度最长轨迹开始依次遍历,当轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历;
若选择基于轨迹频次的采样方法,其中所述轨迹频次是指在事件日志的轨迹遍历中轨迹是第几次出现,首先统计事件日志轨迹频次并进行去重操作,所述去重操作是指只保留相同轨迹中有最大频次的轨迹,最后按照轨迹频次进行降序排序,从轨迹频次最大的轨迹开始依次遍历,轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历。
2.业务过程事件日志采样***,其特征在于,用于实现权利要求1所述的业务过程事件日志采样方法,包含事件日志数据获取模块、轨迹集合交集判断模块、事件日志采样选择模块、样本日志轨迹选择模块;
所述事件日志数据获取模块用于获取日志直接跟随活动关系集合、开始点集合和结束点集合;
所述轨迹集合交集判断模块用于判断轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集是否都为空集;
所述事件日志采样选择模块用于从完全遍历采样法、集合覆盖采样法、基于轨迹长度的采样方法、基于轨迹频次的采样方法这四种事件日志采样方法中选择一种,或直接结束对事件日志的轨迹遍历,输出样本日志;
所述样本日志轨迹选择模块用于选择轨迹组成新的日志,新的日志即为样本日志。
3.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1所述的业务过程事件日志采样方法。
4.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1所述的业务过程事件日志采样方法。
CN202110914759.0A 2021-08-10 2021-08-10 业务过程事件日志采样方法、***、存储介质及计算设备 Active CN113704215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110914759.0A CN113704215B (zh) 2021-08-10 2021-08-10 业务过程事件日志采样方法、***、存储介质及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110914759.0A CN113704215B (zh) 2021-08-10 2021-08-10 业务过程事件日志采样方法、***、存储介质及计算设备

Publications (2)

Publication Number Publication Date
CN113704215A CN113704215A (zh) 2021-11-26
CN113704215B true CN113704215B (zh) 2023-10-13

Family

ID=78652112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110914759.0A Active CN113704215B (zh) 2021-08-10 2021-08-10 业务过程事件日志采样方法、***、存储介质及计算设备

Country Status (1)

Country Link
CN (1) CN113704215B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114238243B (zh) * 2021-12-17 2023-02-03 杭州电子科技大学 一种用于流程发现的局部日志采样方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416365A (zh) * 2018-02-06 2018-08-17 山东科技大学 基于距离的并发完备日志挖掘方法
CN112632018A (zh) * 2020-12-21 2021-04-09 山东理工大学 一种业务流程事件日志采样方法与***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10860949B2 (en) * 2016-05-02 2020-12-08 Verizon Media Inc. Feature transformation of event logs in machine learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416365A (zh) * 2018-02-06 2018-08-17 山东科技大学 基于距离的并发完备日志挖掘方法
CN112632018A (zh) * 2020-12-21 2021-04-09 山东理工大学 一种业务流程事件日志采样方法与***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于事件日志增强的时序活动表示学习方法;倪维健,孙宇健,等;《计算机集成制造***》;第第25卷卷(第第4期期);全文 *

Also Published As

Publication number Publication date
CN113704215A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
US20140207820A1 (en) Method for parallel mining of temporal relations in large event file
CN102902752A (zh) 一种日志监控方法及***
CN106126601A (zh) 一种社保大数据分布式预处理方法及***
CN110674109B (zh) 数据导入方法、***、计算机设备及计算机可读存储介质
CN104144081A (zh) 一种通用应用日志管理方法、装置和***
CN102508919A (zh) 数据处理方法及***
CN109559054B (zh) 一种电力工程施工信息处理***
CN113704215B (zh) 业务过程事件日志采样方法、***、存储介质及计算设备
CN111259212B (zh) 一种遥测数据判读方法、装置、设备及存储介质
CN112651618A (zh) 用于计量数据在线审计的审计维度模型的构建方法
CN115392501A (zh) 数据采集方法、装置、电子设备及存储介质
CN114020593B (zh) 一种基于轨迹聚类的异质流程日志采样方法与***
CN113326131B (zh) 一种数据处理方法、装置、设备及存储介质
CN106802928A (zh) 电网历史数据管理方法及其***
CN113312529A (zh) 一种数据可视化方法、装置、计算机设备及存储介质
CN112052248A (zh) 一种审计大数据处理方法及***
CN102436535B (zh) 计算机辅助设计过程中创意拐点的识别方法及***
CN109032940B (zh) 一种测试场景录入方法、装置、设备及存储介质
US8489444B2 (en) Chronicling for process discovery in model driven business transformation
CN115858322A (zh) 日志数据处理方法、装置和计算机设备
CN112000312B (zh) 基于Kettle和GeoTools的空间大数据自动化并行处理方法和***
CN112433710A (zh) 一种区块链智能合约生成方法、设备及存储介质
Nda et al. Big data management in education sector: an overview
CN107589444B (zh) 地震数据的处理方法和装置
CN115712622B (zh) 电力交易数据处理方法、***、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211221

Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant after: Shenzhen Jiecheng Software Co.,Ltd.

Address before: 266 Xincun West Road, Zhangdian District, Zibo City, Shandong Province

Applicant before: Shandong University of Technology

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230602

Address after: 408, 4th Floor, No. 6 Zhongguancun South Street, Haidian District, Beijing, 100080

Applicant after: Beijing Jiecheng Heli Technology Co.,Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: Shenzhen Jiecheng Software Co.,Ltd.

GR01 Patent grant
GR01 Patent grant