CN116127016A - 基于自然语言处理的业务流程合规性检查方法、终端及平台 - Google Patents
基于自然语言处理的业务流程合规性检查方法、终端及平台 Download PDFInfo
- Publication number
- CN116127016A CN116127016A CN202310111947.9A CN202310111947A CN116127016A CN 116127016 A CN116127016 A CN 116127016A CN 202310111947 A CN202310111947 A CN 202310111947A CN 116127016 A CN116127016 A CN 116127016A
- Authority
- CN
- China
- Prior art keywords
- flow model
- rule
- score
- violation
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于自然语言处理的业务流程合规性检查方法、终端及平台。该方法能够从监管文件中提取语义信息,并从多个角度对业务流程模型进行合规性检查。这种方法能够在设计阶段评估流程模型存在的不合规模式,帮助企业在早期阶段检测出违规,防止流程后续执行的潜在违规行为,从而节省企业的精力、时间和财政资源。
Description
技术领域
本发明涉及业务流程合规性检查领域,尤其涉及一种基于自然语言处理的业务流程合规性检查方法、终端及平台。
背景技术
Business Process Management(BPM),即业务流程管理,是一套达成企业各种业务环节整合的全面管理模式。流程无处不在。研发有研发的流程,生产有生产的流程,计划有计划的流程,销售有销售的流程,服务有服务的流程,人事有人事的流程,财务有财务的流程,实际上,在企业应用的各种管理***中,都会包含大量的业务流程管理工作。
业务流程遵从性(BPC)是业务流程管理的一个重要部分,它衡量组织的业务流程是否遵守所有相关法律、法规、指导方针和标准。公司的业务流程如果违反了这些法规,该公司可能会失去投资者的信任,甚至遭到罚款,并面临刑事指控。因此,遵守来自不同来源的规则对每个组织来说都是必不可少的,以避免巨额罚款损失和提高业务流程透明度。然而,在公司的实践中,检查和确保组织的业务流程与监管文档的一致性在很大程度上是手动完成的,极大消耗人力资源。目前,也有一些自动实现业务流程合规检查的做法,例如,在申请号为CN202111083654.1的发明专利中公开了一种跨组织业务流程模型挖掘、合规性检查方法与***,能够挖掘各种场景下的跨组织业务流程模型,突破现有合规性检查方法无法有效地度量挖掘的跨组织业务流程模型的问题;而在申请号为CN202210920275.1的发明专利中公开了一种业务流程合规性检查方法、计算机设备以及可读存储介质,基于决策树对轨迹是否合规的判断方法并对其进行剪枝处理,使其能够更高效的实现轨迹合规性检查。但是这些现有技术中,流程模型和监管文档中的语义信息依然无法实现自动提取,因此其在实际应用时依然存在限制。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于自然语言处理的业务流程合规性检查方法、终端及平台,可有效解决上述问题。
本发明具体采用的技术方案如下:
第一方面,本发明提供了一种基于自然语言处理的业务流程合规性检查方法,其包括以下步骤:
S1:输入流程模型库∑=<m1,m2,…,mn>,提取每个流程模型中活动和事件标签的语义信息,其中∑由n个流程模型m=(Am,Em,Gm,Rm,Nm,Fm,u,ρ)组成,其中Am代表活动集合,Em代表事件集合,Gm代表网关集合,Rm代表执行者集合,Nm=Am∪Em∪Gm代表所有节点集合,Fm代表由Nm中所有节点的有向边f组成的顺序关系集合,u表示活动和事件到其操作和业务对象之间的映射关系,ρ表示执行者到活动和事件的映射关系;
S2:获取预先构建的业务流程合规性检查规则库R,所述规则库R由业务流程监管文档中提取的所有规则记录组成;规则库R中每一条规则记录表示为r=(tr,Ar,Pr,Cr,Or,Ee,Ur,fr),其中tr表示规则记录来源于的规则语句sent的语句类型分类结果,语句类型包含强制型、禁止型、允许型和定义型四类;Ar、pr、Cr、Or和Er分别表示从规则语句sent中提取的操作、执行者、条件、约束和例外五种语义成分;Ur表示操作与条件或操作与约束之间的顺序关系,fr表示执行者与操作之间的执行关系,即指定哪些执行者必须执行哪些操作;
S3:逐个计算待检查流程模型与所有规则记录间的匹配分数,设定匹配分数阈值δ,当规则记录与流程模型之间的匹配分数大于δ时,该规则记录与该流程模型匹配;任一流程模型m∈∑与规则记录r∈R之间的匹配度分数计算公式如下:
其中代表规则记录r中的操作Ar与流程模型m的操作act(Am∪Em)两两配对组成的操作对集合,||表示计算集合中的元素数量,(ar,am)∈Dr,m代表am和ar是待检查的流程模型m和规则记录r中相似度最高的一对匹配操作,且am对应于流程模型m中的操作,ar对应于规则记录r中的操作;Or,m∈Pr×bs_obj(Am∪Em)∪Rm代表规则记录r中的执行者Pr与集合bs_obj(Am∪Em)∪Rm中的执行者两两配对组成的执行者对集合,bs_obj(Am∪Em)∪Rm为流程模型m的业务对象bs_obj(Am∪Em)与执行者集合Rm组成的集合,(or,om)∈Or,m代表om和or是待检查的流程模型m和规则记录r中相似度最高的一对匹配执行者;sim(S1,S2)代表两个文本S1和S2之间的相似度,τ代表计入求和项的最小相似度阈值,若sim(ar,am)>τ成立则sim(ar,am)>τ整体取值为sim(ar,am),否则将sim(ar,am)>τ的整体取值设为0;
S4、计算待检查的流程模型m与其匹配的规则记录之间的违规分数,其中违规分数包括活动缺失违规分数、执行者错误违规分数、执行顺序错误违规分数三类,其中:
流程模型m与规则记录r之间的活动缺失违规分数计算公式如下:
其中γ∈(0,1)代表预设的操作相似度阈值,{(ar,am)∈Dr,m|sim(ar,am)<γ}表示Dr,m中相似度满足sim(ar,am)<γ的所有匹配操作对;
流程模型m与规则记录r之间的执行者错误违规分数计算公式如下:
参数Rr,m,γ和Cr,m,γ的计算式分别为:
其中θ∈(0,1)代表预设的执行者相似度阈值;符号“∧”代表且;fr(g)代表规则记录r中执行者与操作之间的执行关系,fm(r)代表流程模型m中执行者与操作之间的执行关系;
流程模型m与规则记录r之间的执行顺序错误违规分数计算公式如下:
其中γ∈(0,1)代表预设的操作违规相似度阈值;
(ur,u′r)∈Ur表示Ur中的顺序关系,而(ur,um)和(u′r,u′m)均是流程模型m和规则记录r中相似度最高的一对匹配操作,(ur,um)∈Dr,m且(u′r,u′m)∈Dr,m;
S5、根据S4中计算得到的活动缺失违规分数、执行者错误违规分数和执行顺序错误违规分数,结合预设的违规判定规则输出待检查的流程模型的合规性检查结果。
作为上述第一方面的优选,所述S1中,提取每个流程模型中活动和事件标签的语义信息具体包含以下子步骤:
S11:针对每个流程模型m∈∑的活动集合Am和事件集合Em的并集Am∪Em,提取其中活动和事件的标签进行词性标注,将标签中的单词按词性分类为动词、形容词、名词、定位词、代词、介词、副词、连词、助词、限定词和数词,提取出其中被标记为动词的单词作为流程模型m的操作act(Am∪Em);
S12:对每个流程模型m∈∑的并集Am∪Em中活动和事件的标签文本进行依存句法分析,文本中一个依存关系连接两个词,提取出与S11中act(Am∪Em)存在主谓关系或者动宾关系的词作为流程模型m的业务对象bs_obj(Am∪Em);
S13:针对每个流程模型m的并集Am∪Em,建立其与S11中提取的操作act(Am∪Em)和S12中提取的业务对象bs_obj(Am∪Em)之间的映射关系u,并将映射关系保存在流程模型m中,u表示为Am∪Em→{act(Am∪Em),bs_obj(Am∪Em)}。
作为上述第一方面的优选,所述依存关系分为主谓关系、动宾关系、间宾关系、前置宾语、兼语、定中关系、状中结构、动补结构、并列关系、介宾关系、左附加关系、右附加关系、独立结构和核心关系。
作为上述第一方面的优选,所述S11中,词性标注工具选择自然语言分析工具Stanford NLP。
作为上述第一方面的优选,所述S12中,依存句法分析工具选择自然语言分析工具Stanford NLP。
作为上述第一方面的优选,所述S3中,匹配分数阈值δ取0.5。
作为上述第一方面的优选,所述操作相似度阈值γ取0.8。
作为上述第一方面的优选,所述执行者相似度阈值θ取0.7。
作为上述第一方面的优选,所述S5中,违规判定规则为分别针对活动缺失违规分数、执行者错误违规分数和执行顺序错误违规分数预设的第一分数阈值区间、第二分数阈值区间和第三分数阈值区间,当某一种违规项的分数偏离对应的分数阈值区间时视为该违规项出现不合规问题,所述违规项包括活动缺失、执行者错误、执行顺序错误三种。
第二方面,本发明提供了一种智能终端,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如上述第一方面任一方案所述的基于自然语言处理的业务流程合规性检查方法。
作为上述第二方面的优选,该智能终端为本地终端或云端终端。
第三方面,本发明提供了一种业务平台,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,针对平台上拟运行或正在运行的业务流程执行如上述第一方面任一方案所述的基于自然语言处理的业务流程合规性检查方法。
相比于传统的业务流程合规性检查方法,本发明具有如下有益效果:1、本发明自动提取流程模型和监管文档中的语义信息,大大减少了人工成本;2、本发明使用深度学习和基于规则的传统自然语言处理方法,对监管文档的文本进行语义提取,提高了准确度,并提供了更加详细的违规信息。
附图说明
图1为本发明的方法流程图;
图2为本发明实施例的活动缺失和顺序错误的结果图;
图3为本发明实施例的执行者错误的结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行详细说明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
在本发明的一个较佳实施例中,提供了一种基于自然语言处理的业务流程合规性检查方法,其合规性依据来源于业务流程监管文档。上述业务流程监管文档是指业务流程应当遵守的相关法律、法规、指导方针和标准,例如对于保险流程而言此类文档的例子有《健康保险可携性与责任法案》(HIPAA)、《萨班斯-奥克斯利法案》(SOX)和《通用数据保护条例》(GDPR)。公司的业务流程如果违反了这些法规,该公司可能会失去投资者的信任,甚至遭到罚款,并面临刑事指控。因此,遵守来自不同来源的规则对每个组织来说都是必不可少的,以避免巨额罚款损失和提高业务流程透明度。
如图1所示,在本发明的实施例中,基于自然语言处理的业务流程合规性检查方法具体包括以下步骤:
S1:输入流程模型库∑=<m1,m2,…,mn>,提取每个流程模型中活动和事件标签的语义信息,其中∑由n个流程模型m=(Am,Em,Gm,Rm,Nm,Fm,u,ρ)组成,其中Am代表活动集合,Em代表事件集合,Gm代表网关集合(具体分为排他网关和并行网关),Rm代表执行者集合,Nm=Am∪Em∪Gm代表所有节点集合,Fm代表由Nm中所有节点的有向边f组成的顺序关系集合,u表示活动和事件到其操作和业务对象之间的映射关系,ρ∶Rm→Am∪Em表示执行者到活动和事件的映射关系。
在本发明的实施例中,上述步骤S1中,提取每个流程模型中活动和事件标签的语义信息具体包含以下子步骤:
S11:针对每个流程模型m∈∑的活动集合Am和事件集合Em的并集Am∪Em,提取其中活动和事件的标签进行词性标注,将标签中的单词按词性分类为动词、形容词、名词、定位词、代词、介词、副词、连词、助词、限定词和数词,提取出其中被标记为动词的单词作为流程模型m的操作act(Am∪Em);
S12:对每个流程模型m∈∑的并集Am∪Em中活动和事件的标签文本进行依存句法分析,文本中一个依存关系连接两个词,提取出与S11中act(Am∪Em)存在主谓关系或者动宾关系的词作为流程模型m的业务对象bs_obj(Am∪Em);
S13:针对每个流程模型m的并集Am∪Em,建立其与S11中提取的操作act(Am∪Em)和S12中提取的业务对象bs_obj(Am∪Em)之间的映射关系u,并将映射关系保存在流程模型m中,u表示为Am∪Em→{act(Am∪Em),bs_obj(Am∪Em)}。
在本发明的实施例中,上述依存关系可以分为主谓关系、动宾关系、间宾关系、前置宾语、兼语、定中关系、状中结构、动补结构、并列关系、介宾关系、左附加关系、右附加关系、独立结构和核心关系。
在本发明的实施例中,上述词性标注工具可选择自然语言分析工具StanfordNLP。上述依存句法分析工具可选择自然语言分析工具Stanford NLP。
S2:获取预先构建的业务流程合规性检查规则库R,所述规则库R由业务流程监管文档中提取的所有规则记录组成;规则库R中每一条规则记录表示为r=(tr,Ar,Pr,Cr,Or,Er,Ur,fr),其中tr表示规则记录来源于的规则语句sent的语句类型分类结果,语句类型包含强制型、禁止型、允许型和定义型四类;Ar、Pr、Cr、Or和Er分别表示从规则语句sent中提取的操作、执行者、条件、约束和例外五种语义成分;Ur表示操作与条件或操作与约束之间的顺序关系,fr表示执行者与操作之间的执行关系,即指定哪些执行者必须执行哪些操作。
需要说明的是,上述业务流程合规性检查规则库R可以是已完成构建的现有规则库,可以通过人工构建,也可以通过机器学习、自然语言技术自动构建。下面简单介绍一下自动构建上述业务流程合规性检查规则库R的过程,包括以下步骤:
S22:将BERT模型在法律领域通用语料上进行微调,然后再将微调后的BERT模型与分类器连接,构成规则语句分类模型;对规则语句分类模型进行训练,使其能够识别每条规则语句sent的语句类型,得到每条规则语句sent的分类结果tr;所述语句类型的分类结果标签包含强制型、禁止型、允许型和定义型。
上述四种语句类型具体定义如下:
强制型表示在法律上被要求强制执行某事的情况,如果不满足此条件,则发生违规;
禁止型表示在法律上被禁止去做某事的情况,如果不满足此条件,则发生违规;
允许型表示被允许在没有违反强制型或禁止型的情况下做某事,如果不满足此条件,可能会发生违规;
定义型表示定义概念性的法律条款。
S23:通过成分句法分析和依存句法分析,对识别完语句类型的规则语句sent进行语义成分提取,从中提取出操作Ar、执行者Pr、条件Cr、约束Or和例外Er一共五种语义成分,具体做法如下:
S231:对每条规则语句sent进行文本预处理,包括分词,词性标注和命名实体识别;
S232:对预处理后的规则语句文本使用自然语言处理工具进行成分句法分析和依存句法分析,分别得到成分分析树Tc和Td,使用查询语言在树Tc和Td上根据提取规则和提取关键词,提取文本中的五类语义成分,分别为操作Ar、执行者Pr、条件Cr、约束Or和例外Er。五类语义成分的具体定义如下:
操作表示规则具体的内容,即规则中限定的强制、禁止和允许的内容;
执行者表示负责操作执行的角色;
条件表示规则适用时的状态;
约束表示规则规定的一种特殊情况;
例外表示规则不适用的情况。
另外,上述使用查询语言根据提取规则和提取关键词,提取文本中的五类语义成分的具体做法如下:
S2321:采用斯坦福Tregex作为查询语言,其使用的规则符号具体如下:
A<<B表示在树形结构中,A支配B;
A<B表示在树形结构中,A直接支配B;
A$B表示在树形结构中,A和B是姐妹关系;
S2322:按照如下步骤提取执行者Pr:
先设计提取执行者Pr所需的提取规则和提取关键词,执行者提取规则具体包括以下三种:
第一种:存在主语依赖且NP<(执行者关键词)
第二种:存在宾语依赖和被动语且PP<IN$(NP<(执行者关键词))
第三种:存在宾语依赖和主动语态且NP<(执行者关键词)
其中执行者关键词为规则语句中用于指示执行者潜在位置的关键词,其依赖关系表现在依存关系分析树Td上,NP代表名词短语,PP代表介词短语,IN代表介词;
提取出所述规则语句sent中满足任意一种执行者提取规则的名词短语NP并将其作为执行者Pr;
S2323:按照如下步骤提取条件Cr:
先设计提取条件Cr所需的提取规则和提取关键词,条件提取规则具体包括以下两种:
SBAR<<(条件关键词)
PP<<(条件关键词)
其中条件关键词为规则语句中用于指示条件Cr潜在位置的关键词,SBAR代表从句,PP代表介词短语;
提取出所述规则语句sent中满足任意一种条件提取规则的从句SBAR或介词短语PP并将其作为条件Cr;
S2324:按照如下步骤提取约束Or:
先设计提取约束Or所需的提取规则和提取关键词,约束提取规则具体包括以下两种:
NP<(约束关键词)
PP<(IN<(约束关键词))$NP
其中约束关键词为规则语句中用于指示约束Or潜在位置的关键词,NP代表名词短语,PP代表介词短语,IN代表介词;
提取出所述规则语句sent中满足任意一种约束提取规则的名词短语NP或介词短语PP并将其作为约束Or;
S2325:按照如下步骤提取例外Er:
先设计提取例外Er所需的提取规则和提取关键词,例外提取规则具体包括以下三种:
SBAR<<(例外关键词)
PP<<(例外关键词)
NP<<(IN<例外关键词)
其中例外关键词为规则语句中用于指示例外Er潜在位置的关键词,SBAR代表从句,NP代表名词短语,PP代表介词短语,IN代表介词;
提取出所述规则语句sent中满足任意一种约束提取规则的从句SBAR、名词短语NP或介词短语PP并将其作为例外Er;
S2326:按照如下步骤提取操作Ar:
先设计情态动词的提取规则和提取关键词,情态动词提取规则具体包括以下三种:
(S<VP)<<MD
((SINV<<S)<VP)<<MD
((SBAR<<S)<VP)<<MD
其中S代表简单陈述句,VP代表动词短语,SINV代表主语倒装的陈述句,MD代表情态动词,SBAR代表从句;
再设计操作Ar的提取规则,操作提取规则为所有除了情态动词MD、条件Cr和约束Or之外的动词短语VP;
最后,先提取出所述规则语句sent中满足任意一种情态动词提取规则的情态动词MD,然后再提取出所述规则语句sent中满足任意一种操作提取规则的动词短语VP并将其作为操作Ar。
S24:将同一条规则语句sent中得到的所述语句类型的分类结果tr和所述语义成分结合生成一个规则记录r=(tr,Ar,Pr,Cr,Or,Er,Ur,fr),其中Ur表示操作与条件或操作与约束之间的顺序关系,fr表示执行者与操作之间的执行关系,即指定哪些执行者必须执行哪些操作;由所有规则记录组成规则库R,用于作为业务流程中合规性检查的依据。
S3:逐个计算待检查流程模型与所有规则记录间的匹配分数,设定匹配分数阈值δ,当规则记录与流程模型之间的匹配分数大于δ时,该规则记录与该流程模型匹配;任一流程模型m∈∑与规则记录r∈R之间的匹配度分数计算公式如下:
其中代表规则记录r中的操作Ar与流程模型m的操作act(Am∪Em)两两配对组成的操作对集合,||表示计算集合中的元素数量,(ar,am)∈Dr,m代表am和ar是待检查的流程模型m和规则记录r中相似度最高的一对匹配操作,且am对应于流程模型m中的操作,ar对应于规则记录r中的操作;Or,m∈Pr×bs_obj(Am∪Em)∪Rm代表规则记录r中的执行者Pr与集合bs_obj(Am∪Em)∪Rm中的执行者两两配对组成的执行者对集合,bs_obj(Am∪Em)∪Rm为流程模型m的业务对象bs_obj(Am∪Em)与执行者集合Rm组成的集合,(or,om)∈Or,m代表om和or是待检查的流程模型m和规则记录r中相似度最高的一对匹配执行者;sim(S1,S2)代表两个文本S1和S2之间的相似度,τ代表计入求和项的最小相似度阈值,若sim(ar,am)>τ成立则sim(ar,am)>τ整体取值为sim(ar,am),否则将sim(ar,am)>τ的整体取值设为0。
在本发明的实施例中,上述S3中,匹配分数阈值δ可根据实际进行优化调整,优选取0.5。
S4、计算待检查的流程模型m与其匹配的规则记录之间的违规分数,其中违规分数包括活动缺失违规分数、执行者错误违规分数、执行顺序错误违规分数三类,其中:
4.1)流程模型m与规则记录r之间的活动缺失违规分数计算公式如下:
其中γ∈(0,1)代表预设的操作相似度阈值,{(ar,am)∈Dr,m|sim(ar,am)<γ}表示Dr,m中相似度满足sim(ar,am)<γ的所有匹配操作对;
4.2)流程模型m与规则记录r之间的执行者错误违规分数计算公式如下:
参数Rr,m,γ和Cr,m,γ的计算式分别为:
其中θ∈(0,1)代表预设的执行者相似度阈值;符号“∧”代表且;fr(g)代表规则记录r中执行者与操作之间的执行关系,fm(r)代表流程模型m中执行者与操作之间的执行关系;
4.3)流程模型m与规则记录r之间的执行顺序错误违规分数计算公式如下:
其中γ∈(0,1)代表预设的操作违规相似度阈值;
(ur,u′r)∈Ur表示Ur中的顺序关系,而(ur,um)和(u′r,u′m)均是流程模型m和规则记录r中相似度最高的一对匹配操作,(ur,um)∈Dr,m且(u′r,u′m)∈Dr,m。
在本发明的实施例中,上述操作相似度阈值γ可根据实际进行优化调整,优选取0.8,同样的上述执行者相似度阈值θ可根据实际进行优化调整,优选取0.7。
S5、根据S4中计算得到的活动缺失违规分数、执行者错误违规分数和执行顺序错误违规分数,结合预设的违规判定规则输出待检查的流程模型的合规性检查结果。
上述违规判定规则可以根据实际的业务流程违规判定准则进行调整。在本发明的实施例中,上述违规判定规则为分别针对活动缺失违规分数、执行者错误违规分数和执行顺序错误违规分数预设的第一分数阈值区间、第二分数阈值区间和第三分数阈值区间,当某一种违规项的分数偏离对应的分数阈值区间时视为该违规项出现不合规问题,其中违规项包括活动缺失、执行者错误、执行顺序错误三种。因此,在最终输出的待检查的流程模型的合规性检查结果中,可能存在一种或多种违规项不合规问题。
同样的,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的基于自然语言处理的业务流程合规性检查方法对应的一种智能终端,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如前述实施例所述的基于自然语言处理的业务流程合规性检查方法。
同样的,基于同一发明构思,本发明的另一较佳实施例中还提供了与上述实施例提供的基于自然语言处理的业务流程合规性检查方法对应的一种业务平台,其包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,针对平台上拟运行或正在运行的业务流程执行如前述实施例所述的基于自然语言处理的业务流程合规性检查方法。
可以理解的是,上述存储介质、存储器可以采用随机存取存储器(Random AccessMemory,RAM),也可以采用非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。同时存储介质还可以是U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可以理解的是,上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解的是,上述智能终端可以为本地终端或云端终端。
另外需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的各实施例中,所述的装置和方法中对于步骤或者模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或步骤可以结合或者可以集成到一起,一个模块或者步骤亦可进行拆分。
下面将前述实施例所述的基于自然语言处理的业务流程合规性检查方法应用于一个具体实例中,以展示其具体实现方式以及技术效果。
实施例
本实施例步骤与具体实施方式前述S1~S5步骤相同,在此不再进行赘述。下面就部分实施过程和实施结果进行展示:
本实施例使用四个流程模型作为输入,这些模型捕捉了GDPR的主要隐私约束是如何在流程中实施的,四个模型的特征如表1所示。
表1流程模型特征
此外,本实施例使用GDPR第1条至第50条作为这四个过程模型的监管文件,其中第1条至第4条包含介绍性说明,第5条至第50条包含四个模型的监管说明,第51条及以上适用于监管机构而非公司组织。基于这四个过程模型和监管文本,本实施例手工构建了一个包含违规的过程模型集合。首先,对流程模型进行补充,使流程模型完全合规。对于操作缺失违规,如果该活动存在于模型中,就删除它。对于执行者错误违规,如果它在模型中是正确的,则手动修改它。对于乱序执行违规,将交换模型中活动之间的位置。每个检查只包含一个违规项。表2中显示了每个模型的违规数据。
表2模型的违规数据
本实施例使用推荐***的常用度量标准来量化本发明方法中匹配的准确性:每个模型的平均精度(AP),以及整个模型库的平均精度(MAP),其定义如下:
而对于违规检测的准确性,本实施例使用准确度来衡量,其定义如下:
其中TP表示真正例;FP表示为伪正例,准确率表示预测为正例中真正的正例的样本比例。
对于匹配的结果,如表3所示,可以看出无论是单个模型还是整体准确度,都是在τ=0.8是取得最好的结果。
表3在不同的τ下匹配的结果
而对于违规检测的结果,活动缺失和执行顺序错误的检测结果如图2所示,可以看出对于大多数模型来说,这两种违规在γ=0.8时准确度最高,然而对于模型4,γ=0.7时准确度是最高的。因为模型4是最复杂的,当γ变高时,即更严格时,它会识别初更多的违规,从而将正常操作识别为违规,并因此降低准确度。
而对于执行者错误这类违规,结果如图3所示,本实施例在γ=0.8时,改变θ的值,发现四个模型中的前两个在时准确度最高,另外两个在时准确度最高。这是因为后两个模型更复杂。此外,后两个模型的执行者和规则的执行者之间的相似性由于它们的包含关系而减少,这也导致当提高时准确度下降。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (11)
1.一种基于自然语言处理的业务流程合规性检查方法,其特征在于包括以下步骤:
S1:输入流程模型库∑=<m1,m2,...,mn>,提取每个流程模型中活动和事件标签的语义信息,其中∑由n个流程模型m=(Am,Em,Gm,Rm,Nm,Fm,u,ρ)组成,其中Am代表活动集合,Em代表事件集合,Gm代表网关集合,Rm代表执行者集合,Nm=Am∪Em∪Gm代表所有节点集合,Fm代表由Nm中所有节点的有向边f组成的顺序关系集合,u表示活动和事件到其操作和业务对象之间的映射关系,p表示执行者到活动和事件的映射关系;
S2:获取预先构建的业务流程合规性检查规则库R,所述规则库R由业务流程监管文档中提取的所有规则记录组成;规则库R中每一条规则记录表示为r=(tr,Ar,Pr,Cr,Or,Er,Ur,fr),其中tr表示规则记录来源于的规则语句sent的语句类型分类结果,语句类型包含强制型、禁止型、允许型和定义型四类;Ar、Pr、Cr、Or和Er分别表示从规则语句sent中提取的操作、执行者、条件、约束和例外五种语义成分;Ur表示操作与条件或操作与约束之间的顺序关系,fr表示执行者与操作之间的执行关系,即指定哪些执行者必须执行哪些操作;
S3:逐个计算待检查流程模型与所有规则记录间的匹配分数,设定匹配分数阈值δ,当规则记录与流程模型之间的匹配分数大于δ时,该规则记录与该流程模型匹配;任一流程模型m∈∑与规则记录r∈R之间的匹配度分数计算公式如下:
其中代表规则记录r中的操作Ar与流程模型m的操作act(Am∪Em)两两配对组成的操作对集合,| |表示计算集合中的元素数量,(ar,am)∈Dr,m代表am和ar是待检查的流程模型m和规则记录r中相似度最高的一对匹配操作,且am对应于流程模型m中的操作,ar对应于规则记录r中的操作;Or,m∈Pr×bs_obj(Am∪Em)∪Rm代表规则记录r中的执行者Pr与集合bs_obj(Am∪Em)∪Rm中的执行者两两配对组成的执行者对集合,bs_obj(Am∪Em)∪Rm为流程模型m的业务对象bs_obj(Am∪Em)与执行者集合Rm组成的集合,(or,om)∈Or,m代表om和or是待检查的流程模型m和规则记录r中相似度最高的一对匹配执行者;sim(S1,S2)代表两个文本S1和S2之间的相似度,τ代表计入求和项的最小相似度阈值,若sim(ar,am)>τ成立则sim(ar,am)>τ整体取值为sim(ar,am),否则将sim(ar,am)>τ的整体取值设为0;
S4、计算待检查的流程模型m与其匹配的规则记录之间的违规分数,其中违规分数包括活动缺失违规分数、执行者错误违规分数、执行顺序错误违规分数三类,其中:
流程模型m与规则记录r之间的活动缺失违规分数计算公式如下:
其中γ∈(0,1)代表预设的操作相似度阈值,{(ar,am)∈Dr,m|sim(ar,am)<γ}表示Dr,m中相似度满足sim(ar,am)<γ的所有匹配操作对;
流程模型m与规则记录r之间的执行者错误违规分数计算公式如下:
参数Rr,m,γ和Cr,m,γ的计算式分别为:
其中θ∈(0,1)代表预设的执行者相似度阈值;符号“∧”代表且;fr(g)代表规则记录r中执行者与操作之间的执行关系,fm(r)代表流程模型m中执行者与操作之间的执行关系;
流程模型m与规则记录r之间的执行顺序错误违规分数计算公式如下:
其中γ∈(0,1)代表预设的操作违规相似度阈值;
(ur,u′r)∈Ur表示Ur中的顺序关系,而(ur,um)和(u′r,u′m)均是流程模型m和规则记录r中相似度最高的一对匹配操作,(ur,um)∈Dr,m且(u′r,u′m)∈Dr,m;
S5、根据S4中计算得到的活动缺失违规分数、执行者错误违规分数和执行顺序错误违规分数,结合预设的违规判定规则输出待检查的流程模型的合规性检查结果。
2.根据权利要求1所述的基于自然语言处理的业务流程合规性检查方法,其特征在于,所述S1中,提取每个流程模型中活动和事件标签的语义信息具体包含以下子步骤:
S11:针对每个流程模型m∈∑的活动集合Am和事件集合Em的并集Am∪Em,提取其中活动和事件的标签进行词性标注,将标签中的单词按词性分类为动词、形容词、名词、定位词、代词、介词、副词、连词、助词、限定词和数词,提取出其中被标记为动词的单词作为流程模型m的操作act(Am∪Em);
S12:对每个流程模型m∈∑的并集Am∪Em中活动和事件的标签文本进行依存句法分析,文本中一个依存关系连接两个词,提取出与S11中act(Am∪Em)存在主谓关系或者动宾关系的词作为流程模型m的业务对象bs_obj(Am∪Em);
S13:针对每个流程模型m的并集Am∪Em,建立其与S11中提取的操作act(Am∪Em)和S12中提取的业务对象bs_obj(Am∪Em)之间的映射关系u,并将映射关系保存在流程模型m中,u表示为Am∪Em→{act(Am∪Em),bs_obj(Am∪Em)}。
3.根据权利要求2所述的基于自然语言处理的业务流程合规性检查方法,其特征在于,所述依存关系分为主谓关系、动宾关系、间宾关系、前置宾语、兼语、定中关系、状中结构、动补结构、并列关系、介宾关系、左附加关系、右附加关系、独立结构和核心关系。
4.根据权利要求2所述的基于自然语言处理的业务流程合规性检查方法,其特征在于,所述S11中,词性标注工具选择自然语言分析工具Stanford NLP。
5.根据权利要求2所述的基于自然语言处理的业务流程合规性检查方法,其特征在于,所述S12中,依存句法分析工具选择自然语言分析工具Stanford NLP。
6.根据权利要求1所述的基于自然语言处理的业务流程合规性检查方法,其特征在于,所述S3中,匹配分数阈值δ取0.5。
7.根据权利要求1所述的基于自然语言处理的业务流程合规性检查方法,其特征在于,所述操作相似度阈值γ取0.8。
8.根据权利要求1所述的基于自然语言处理的业务流程合规性检查方法,其特征在于,所述执行者相似度阈值θ取0.7。
9.根据权利要求1所述的基于自然语言处理的业务流程合规性检查方法,其特征在于,所述S5中,违规判定规则为分别针对活动缺失违规分数、执行者错误违规分数和执行顺序错误违规分数预设的第一分数阈值区间、第二分数阈值区间和第三分数阈值区间,当某一种违规项的分数偏离对应的分数阈值区间时视为该违规项出现不合规问题,所述违规项包括活动缺失、执行者错误、执行顺序错误三种。
10.一种智能终端,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1~9任一所述的基于自然语言处理的业务流程合规性检查方法;
优选的,该智能终端为本地终端或云端终端。
11.一种业务平台,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,针对平台上拟运行或正在运行的业务流程执行如权利要求1~9任一所述的基于自然语言处理的业务流程合规性检查方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310111947.9A CN116127016A (zh) | 2023-02-14 | 2023-02-14 | 基于自然语言处理的业务流程合规性检查方法、终端及平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310111947.9A CN116127016A (zh) | 2023-02-14 | 2023-02-14 | 基于自然语言处理的业务流程合规性检查方法、终端及平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116127016A true CN116127016A (zh) | 2023-05-16 |
Family
ID=86306173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310111947.9A Pending CN116127016A (zh) | 2023-02-14 | 2023-02-14 | 基于自然语言处理的业务流程合规性检查方法、终端及平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127016A (zh) |
-
2023
- 2023-02-14 CN CN202310111947.9A patent/CN116127016A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240087067A1 (en) | Machine evaluation of contract terms | |
CN110909226B (zh) | 金融类文档信息处理方法、装置、电子设备及存储介质 | |
US9792277B2 (en) | System and method for determining the meaning of a document with respect to a concept | |
Van der Aa et al. | Comparing textual descriptions to process models–the automatic detection of inconsistencies | |
US11449559B2 (en) | Identifying similar sentences for machine learning | |
Sundaram et al. | Assessing traceability of software engineering artifacts | |
US11526804B2 (en) | Machine learning model training for reviewing documents | |
Gao et al. | Mining business contracts for service exceptions | |
CN110263311B (zh) | 一种网络页面的生成方法及设备 | |
US11556711B2 (en) | Analyzing documents using machine learning | |
Li et al. | A policy-based process mining framework: mining business policy texts for discovering process models | |
US11423231B2 (en) | Removing outliers from training data for machine learning | |
Liu et al. | Measuring similarity for data-aware business processes | |
Ko et al. | Natural language processing–driven model to extract contract change reasons and altered work items for advanced retrieval of change orders | |
Sleimi et al. | Automated recommendation of templates for legal requirements | |
US20090192784A1 (en) | Systems and methods for analyzing electronic documents to discover noncompliance with established norms | |
US20170154029A1 (en) | System, method, and apparatus to normalize grammar of textual data | |
Pham et al. | Natural language processing with multitask classification for semantic prediction of risk-handling actions in construction contracts | |
Malhotra et al. | Analyzing and evaluating security features in software requirements | |
Massey et al. | Modeling regulatory ambiguities for requirements analysis | |
US9613134B2 (en) | Identifying mathematical operators in natural language text for knowledge-based matching | |
US11573968B2 (en) | Systems and methods of creating and using a transparent, computable contractual natural language | |
Zhu | Financial data analysis application via multi-strategy text processing | |
CN112733517B (zh) | 需求模板符合性检查的方法、电子设备及存储介质 | |
CN116127016A (zh) | 基于自然语言处理的业务流程合规性检查方法、终端及平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |