CN112308464A - 业务流程数据处理方法和装置 - Google Patents
业务流程数据处理方法和装置 Download PDFInfo
- Publication number
- CN112308464A CN112308464A CN202011326959.6A CN202011326959A CN112308464A CN 112308464 A CN112308464 A CN 112308464A CN 202011326959 A CN202011326959 A CN 202011326959A CN 112308464 A CN112308464 A CN 112308464A
- Authority
- CN
- China
- Prior art keywords
- business process
- triples
- process data
- data
- triple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 265
- 230000008569 process Effects 0.000 title claims abstract description 210
- 238000003672 processing method Methods 0.000 title description 10
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000003058 natural language processing Methods 0.000 claims description 5
- 238000013515 script Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 description 14
- 238000005065 mining Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000004927 fusion Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000007711 solidification Methods 0.000 description 5
- 230000008023 solidification Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000001723 curing Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0633—Workflow analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种业务流程数据处理方法和装置。其中,该方法包括:接收检索词;基于检索词从预先建立的业务流程模型中进行检索,确定检索词对应的业务流程;其中,业务流程模型基于从业务流程数据中获取的多个三元组建立。在接收到检索词后,将将所持输入基于从业务流程数据中获取的多个三元组建立的业务流程模型中进行检索,可以确定检索词对应的业务流程;该方式中,可以脱离繁琐的业务细节,提供对业务流程的宏观理解,可以提供较为完整的业务流程处理与应用框架。
Description
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种业务流程数据处理方法和装置。
背景技术
业务流程的固化与复用在业务智能与流程管理中都具有重要意义。现有的业务流程挖掘与固化技术旨在从与信息***相关联的事件日志中抽取信息,发现业务流程模型,并使用所得模型对业务流程进行校验与改进的工作。现有的业务流程依赖于结构化的事件日志,在实际情况中,流程文件、专家经验案事件信息都是业务流程的载体。
现有技术具有以下缺点:(1)业务的流程挖掘的一般方法是将结构化的事件日志从企业信息***产生的原始日志中提取出来,但所提取的流程通常非常琐碎,聚焦于细节,让人无法确定该流程的宏观操作,同时容易混淆相似流程,无法消除用户的动作歧义。(2)另一种方法是通过专家进行业务流程与经验的总结与归纳,但该方法的效率较低,同时存在大量的重复劳动,同一类业务流程经验相互重合现象。(3)目前已有海量的案事件信息、专家经验信息,但缺少合适的数据库实现高效的存储与结合领域特点的业务流程表示。(4)目前业务流程知识缺少分类、融合、推理等智能化操作。
发明内容
有鉴于此,本发明的目的在于提供一种业务流程数据处理方法和装置,以脱离繁琐的业务细节,提供对业务流程的宏观理解,可以提供较为完整的业务流程处理与应用框架。
第一方面,本发明实施例提供了一种业务流程数据处理方法,方法包括:接收检索词;基于检索词从预先建立的业务流程模型中进行检索,确定检索词对应的业务流程;其中,业务流程模型基于从业务流程数据中获取的多个三元组建立。
在本发明较佳的实施例中,上述业务流程模型包含保密数据和非保密数据。
在本发明较佳的实施例中,上述业务流程模型通过以下步骤建立:获取业务流程数据;从业务流程数据中获取多个三元组;三元组的形式为实体、关系、实体的形式;计算多个三元组之间的距离,基于距离融合多个三元组;基于融合后的多个三元组构建业务流程模型。
在本发明较佳的实施例中,上述获取业务流程数据的步骤,包括:通过爬虫的方式从预先获得的业务流程样本中获取业务流程数据;其中,业务流程样本包括网页、图片和文本;或者,基于预先编写的脚本从样本数据库中导入业务流程数据。
在本发明较佳的实施例中,上述从业务流程数据中获取多个三元组的步骤,包括:基于词库和自然语言处理的方式,从业务流程数据中提取至少一条文本链条;从至少一条文本链条中提取多个三元组。
在本发明较佳的实施例中,上述计算多个三元组之间的距离的步骤,包括:基于语义网络和词林的方式,计算多个三元组之间的距离。
在本发明较佳的实施例中,上述元组包括第一三元组和第二三元组;上述基于距离融合多个三元组的步骤,包括:如果第一三元组和第二三元组的距离小于预设的距离阈值,融合第一三元组和第二三元组。
在本发明较佳的实施例中,上述基于距离融合多个三元组的步骤之后,方法还包括:将融合后的多个三元组保存在业务流程数据库中。
在本发明较佳的实施例中,上述基于距离融合多个三元组的步骤之后,方法还包括:对融合后的多个三元组进行分类,得到分类结果;将融合后的多个三元组保存在业务流程数据库中的步骤,包括:将融合后的多个三元组和三元组对应的分类结果保存在业务流程数据库中。
第二方面,本发明实施例还提供一种业务流程数据处理装置,装置包括:检索词接收模块,用于接收检索词;业务流程确定模块,用于基于检索词从预先建立的业务流程模型中进行检索,确定检索词对应的业务流程;其中,业务流程模型基于从业务流程数据中获取的多个三元组建立。
本发明实施例带来了以下有益效果:
本发明实施例提供的一种业务流程数据处理方法和装置,在接收到检索词后,将将所持输入基于从业务流程数据中获取的多个三元组建立的业务流程模型中进行检索,可以确定检索词对应的业务流程;该方式中,可以脱离繁琐的业务细节,提供对业务流程的宏观理解,可以提供较为完整的业务流程处理与应用框架。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种业务流程数据处理方法的流程图;
图2为本发明实施例提供的一种业务流程模型的建立方法的流程图;
图3为本发明实施例提供的一种图结构存储的业务流程经验固化和复用引擎的框架示意图;
图4为本发明实施例提供的一种业务流程数据处理装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,业务流程建模在办公自动化、工业制造等领域得到了广泛的应用。目前的流程挖掘数据来源主要为日志数据,知识来源较为单一。具有代表性流程挖掘算法有基于遗传算法的流程挖掘、基于日志分类的挖掘算法和基于执行模式的挖掘算法。这些算法在日志完整性、控制流结构、噪声处理和模型质量控制等方面各有利弊。在未来,日志数据的处理、解决特殊控制流结构和挖掘结果的可视化是流程挖掘研究的发展方向。基于此,本发明实施例提供的一种业务流程数据处理方法和装置,立足于一般业务流程知识,对上述需要解决的问题进行研究与分析,实现了一种图结构存储的业务流程经验固化和复用引擎。
本发明实施例将专家业务流程归纳,形成本体模型;基于本体模型,完成规则合并、过滤;完成高层语义流程推理。高层本体模型建立,简化了基于日志的流程挖掘环境,便于分阶段分析日志行为/动作的语义涵义,利于自动理解用户动作意图/消除用户动作歧义。最后利用图数据库完成业务流程的存储与表示,可以支持高效率导入与高可视化展示。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种业务流程数据处理方法进行详细介绍。
实施例1
参见图1所示的一种业务流程数据处理方法的流程图,该业务流程数据处理方法包括如下步骤:
步骤S102,接收检索词。
本实施例中的检索词可以是时间、地点、人物、事项的分类、要做的事情等,本实施例中对检索词不做限定。用户如果想要检索某一时间要做的事情,可以输入时间的检索词;用户如果想要输入在某一地点应该做的事情,可以输入地点的检索词;如果用户想要输入有关特定人物的事项,可以将该特定人物作为检索词;如果用户想要查找某一分类的事项,可以将该分类作为检索词输入;如果用户想要输入某一步骤接下来要做的事情,可以将该步骤的部分字词作为检索词输入。
另外需要说明的是,除了本实施例中提到的检索词的类型,检索词还可以为其他内容,这里不做限定。本实施例中的检索词可以为1个或者多个字、词或者语句的集合。
步骤S104,基于检索词从预先建立的业务流程模型中进行检索,确定检索词对应的业务流程;其中,业务流程模型基于从业务流程数据中获取的多个三元组建立。
业务流程模型预先根据从业务流程数据中获取的多个三元组建立,业务流程数据可以理解为每个业务具体的业务流程,业务流程数据的主要来源可以是案例、专家经验、规章制度、办事流程等,并分为内部数据与外部数据两类该层将业务流程分为外部与内部两类,以确保内部流程的保密性。
三元组的形式可以为实体-关系-实体,通过三元组可以清楚地展示每两个实体间的联系。例如:业务流程数据为:员工A在11月14日去了公司X,和员工B进行了当面沟通,从上述业务流程数据中,可以至少提取2个三元组,分别是:员工A-11月14日-公司X,以及员工A-当面沟通-员工B。
在获取检索词之后,可以将检索词输入预先建立的业务流程模型中,查找该检索词对应的检索结果,并将检索结果显示给用户,从而让帮助用户熟悉或了解业务流程。本实施例中的检索结果可以包括业务流程推理、业务流程检索、业务流程问答、业务流程决策。
本发明实施例提供的一种业务流程数据处理方法,在接收到检索词后,将将所持输入基于从业务流程数据中获取的多个三元组建立的业务流程模型中进行检索,可以确定检索词对应的业务流程;该方式中,可以脱离繁琐的业务细节,提供对业务流程的宏观理解,可以提供较为完整的业务流程处理与应用框架。
实施例2
本发明实施例还提供一种业务流程模型的建立方法;该方法在上述实施例方法的基础上实现;该方法重点描述建立业务流程模型的具体实现方式。
如图2所示的一种业务流程模型的建立方法的流程图,该业务流程模型的建立方法包括如下步骤:
步骤S202,获取业务流程数据。
本实施例中具体的业务流程可以参见图3所示的一种图结构存储的业务流程经验固化和复用引擎的框架示意图,业务流程数据来源于案例、专家经验、规章制度、办事流程等,并分为保密数据与非保密数据两类,该层将业务流程分为外部(即非保密数据)与内部(即保密数据)两类,以确保内部流程的保密性。
其中,可以通过下述步骤获取业务流程数据:通过爬虫的方式从预先获得的业务流程样本中获取业务流程数据;其中,业务流程样本包括网页、图片和文本;或者,基于预先编写的脚本从样本数据库中导入业务流程数据。
可以利用scrapy(抓取)爬虫的方式,进行网络数据(网络数据可以包括网页、图片和文本)的爬取,从而获得业务流程数据,也可以编写脚本,从内部数据库(即样本数据库)中导入业务流程数据。
步骤S204,从业务流程数据中获取多个三元组;三元组的形式为实体、关系、实体的形式。
如图3所示,业务流程抽取可以基于词库、nlp(自然语言处理)等方式实现,例如:基于词库和自然语言处理的方式,从业务流程数据中提取至少一条文本链条;从至少一条文本链条中提取多个三元组。
提取三元组也可以称为关系抽取,关系抽取的主要任务就是,给定一段句子文本,抽取句子中的两个实体以及实体之间的关系,以此来构成一个三元组(s,p,o),s是subject表示主实体,o为object表示客实体,p为predicate表示两实体间的关系。总的来说,(s,p,o)可以理解的“s的p是o”。当然一个句子中可能不止两个实体,从而也不止一种关系,要做的就是尽可能多的、且正确的抽取句子中的关系实体对。
具体来说,可以先从一大段文本(即业务流程数据)抽取若干条句子(文本链条),之后从若干条句子(文本链条)中抽取多个关系实体对(三元组)。
步骤S206,计算多个三元组之间的距离,基于距离融合多个三元组。
如图3所示,在抽取多个三元组之后,需要对三元组进行融合,如对近似的三元组进行融合,可以称为业务流程经验融合。业务流程经验融合包括实例、概念融合,使用hownet(语义网络)与词林等,计算jaccard(杰卡德)距离等方法实现,例如:基于语义网络和词林的方式,计算多个三元组之间的距离。
对于任意两个三元组(如第一三元组和第二三元组),可以通过下述方式融合:如果第一三元组和第二三元组的距离小于预设的距离阈值,融合第一三元组和第二三元组。
首先可以计算第一三元组和第二三元组的jaccard距离,如果计算得到的jaccard距离小于预设的距离阈值,则说明第一三元组和第二三元组内容非常接近,可以融合。
如图3所示,融合后的三元组可以存储在业务流程数据库中,例如:将融合后的多个三元组保存在业务流程数据库中,即图3中的业务流程经验存储。
业务流程经验存储可以使用MongoDB(基于分布式文件存储的数据库)、ES(Elasticsearch,分布式全文检索数据库)、Neo4j(面向网络的数据库)实现混合存储存储,并将实例映射至流程本体模型中。MongoDB不是关系数据库,但是它有许多关系数据库的特点,它具有存储结构,同时读写语句简洁方便,内部也有明显的层次架构。本实施例的***在MongoDB中多是文本、半结构化的表现形式。本实施例使用ES搜索引擎对流程进行索引,以便在使用时提高检索效率,其内在的中文分词插件和倒排索引模式都大大方便了本实施例提供的方法的应用。Neo4j以(实体-关系-实体)的三元组形式存储流程,实现流程推理、流程聚类等工作。
除了使用数据库存储之外,本实施例还可以对融合后的三元组进行分类,例如:对融合后的多个三元组进行分类,得到分类结果;并将分类得到的分类结果也保存在数据库中,例如:将融合后的多个三元组和三元组对应的分类结果保存在业务流程数据库中。如图3所示,本实施例的分类可以从事务类型、场景、时间、地点实现细粒度分类。
步骤S208,基于融合后的多个三元组构建业务流程模型。
在使用MongoDB、ES、Neo4j实现混合存储之后,可以将实例映射至流程本体模型中,从而得到业务流程模型。如图3所示,在得到业务流程模型之后,可以实现业务流程经验应用,即用户在该层实现与***的交互,由用户输入或发送请求,***再由底层依次往上传递信息。本文基于图数据库推理,自然语言理解等技术开发业务流程检索、决策、问答、推理四类应用,并为经验交流、数据共享、检测预警、决策流程提供思路。
本实施例提供的上述方法,当用户进行某项具体业务流程时,可依赖本引擎得知该业务的上层本体,使用户理解整体业务流程逻辑;同时图数据库会为进行知识推理操作,返回后续业务,为用户提供后续业务流程参考,方便用户决策;对于海量数据来源,能够实现自动化处理,实现高效数据治理。
现在给出一具体实例,某地公安机关构建业务流程模型,首先确定群众办事类、办案流程类、侦查打击技战法类三类情景,并基于三类情景定义出子类本体,如办案流程类的子类为刑事案件流程、民事案件流程等,而刑事案件流程类的子类受案、立案、侦查、执行刑罚等,依此类推。
接着对办事办案流程、公安技战法等数据进行流程抽取,以三元组形式存储至图数据库中。举例来说,公安视频侦查技战法为:首先调取该地方圆1公里的监控视频,接着进行不同地区的视频碰撞,寻找嫌疑人出没声影,最后将地点相连,推测嫌疑人行动轨迹。基于上述技战法,则可以对每一句话进行三元组抽取工作。得到调取监控-视频碰撞-寻找身影-地点相连-推测轨迹,这一链条,在完成流程融合,实体消歧等工作后,将这一链条以三元组形式(调取监控-视频碰撞-寻找身影)(寻找身影-地点相连-推测轨迹)存储在知识图谱中。
本发明实施例提供的上述方法,基于知识图谱具有数据导入简单快捷、展示形式多样直观等特点,能够完成流程推理、流程融合、流程消歧等操作,方便了各类基于流程知识的应用。
该方式中公开了图结构存储的业务流程经验固化和复用方法和业务流程处理与应用框架,业务流程经验固化与复用方法新颖,立足业务流程本体层,脱离了繁琐的业务细节,提供对业务流程的宏观理解,并能够实现流程推理、流程融合等功能。并且,该方法较具有为完整的业务流程处理与应用框架。
实施例3
对应于上述方法实施例,本发明实施例提供了一种业务流程数据处理装置,如图4所示的一种业务流程数据处理装置的结构示意图,该业务流程数据处理装置包括:
检索词接收模块41,用于接收检索词;
业务流程确定模块42,用于基于检索词从预先建立的业务流程模型中进行检索,确定检索词对应的业务流程;其中,业务流程模型基于从业务流程数据中获取的多个三元组建立。
本发明实施例提供的一种业务流程数据处理装置,在接收到检索词后,将将所持输入基于从业务流程数据中获取的多个三元组建立的业务流程模型中进行检索,可以确定检索词对应的业务流程;该方式中,可以脱离繁琐的业务细节,提供对业务流程的宏观理解,可以提供较为完整的业务流程处理与应用框架。
上述业务流程模型包含保密数据和非保密数据。
上述装置还包括业务流程模型建立模块,用于:获取业务流程数据;从业务流程数据中获取多个三元组;三元组的形式为实体、关系、实体的形式;计算多个三元组之间的距离,基于距离融合多个三元组;基于融合后的多个三元组构建业务流程模型。
上述业务流程模型建立模块,用于:通过爬虫的方式从预先获得的业务流程样本中获取业务流程数据;其中,业务流程样本包括网页、图片和文本;或者,基于预先编写的脚本从样本数据库中导入业务流程数据。
上述业务流程模型建立模块,用于:基于词库和自然语言处理的方式,从业务流程数据中提取至少一条文本链条;从至少一条文本链条中提取多个三元组。
上述业务流程模型建立模块,用于:基于语义网络和词林的方式,计算多个三元组之间的距离。
上述三元组包括第一三元组和第二三元组;上述业务流程模型建立模块,用于:如果第一三元组和第二三元组的距离小于预设的距离阈值,融合第一三元组和第二三元组。
上述业务流程模型建立模块,还用于:将融合后的多个三元组保存在业务流程数据库中。
上述业务流程模型建立模块,还用于:对融合后的多个三元组进行分类,得到分类结果;上述业务流程模型建立模块,还用于:将融合后的多个三元组和三元组对应的分类结果保存在业务流程数据库中。
本发明实施例提供的业务流程数据处理装置,与上述实施例提供的业务流程数据处理方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例4
本发明实施例还提供了一种电子设备,用于运行上述业务流程数据处理方法;参见图5所示的一种电子设备的结构示意图,该电子设备包括存储器100和处理器101,其中,存储器100用于存储一条或多条计算机指令,一条或多条计算机指令被处理器101执行,以实现上述业务流程数据处理方法。
进一步地,图5所示的电子设备还包括总线102和通信接口103,处理器101、通信接口103和存储器100通过总线102连接。
其中,存储器100可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100,处理器101读取存储器100中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述业务流程数据处理方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的业务流程数据处理方法和装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和/或电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种业务流程数据处理方法,其特征在于,所述方法包括:
接收检索词;
基于所述检索词从预先建立的业务流程模型中进行检索,确定所述检索词对应的业务流程;其中,所述业务流程模型基于从业务流程数据中获取的多个三元组建立。
2.根据权利要求1所述的方法,其特征在于,所述业务流程模型包含保密数据和非保密数据。
3.根据权利要求1所述的方法,其特征在于,所述业务流程模型通过以下步骤建立:
获取所述业务流程数据;
从所述业务流程数据中获取多个所述三元组;所述三元组的形式为实体、关系、实体的形式;
计算多个所述三元组之间的距离,基于所述距离融合多个所述三元组;
基于融合后的多个所述三元组构建所述业务流程模型。
4.根据权利要求3所述的方法,其特征在于,获取所述业务流程数据的步骤,包括:
通过爬虫的方式从预先获得的业务流程样本中获取所述业务流程数据;其中,所述业务流程样本包括网页、图片和文本;
或者,基于预先编写的脚本从样本数据库中导入所述业务流程数据。
5.根据权利要求3所述的方法,其特征在于,从所述业务流程数据中获取多个所述三元组的步骤,包括:
基于词库和自然语言处理的方式,从所述业务流程数据中提取至少一条文本链条;
从至少一条所述文本链条中提取多个所述三元组。
6.根据权利要求3所述的方法,其特征在于,计算多个所述三元组之间的距离的步骤,包括:
基于语义网络和词林的方式,计算多个所述三元组之间的距离。
7.根据权利要求3所述的方法,其特征在于,所述三元组包括第一三元组和第二三元组;
基于所述距离融合多个所述三元组的步骤,包括:
如果所述第一三元组和所述第二三元组的距离小于预设的距离阈值,融合所述第一三元组和所述第二三元组。
8.根据权利要求3所述的方法,其特征在于,基于所述距离融合多个所述三元组的步骤之后,所述方法还包括:
将融合后的多个所述三元组保存在业务流程数据库中。
9.根据权利要求8所述的方法,其特征在于,基于所述距离融合多个所述三元组的步骤之后,所述方法还包括:
对融合后的多个所述三元组进行分类,得到分类结果;
将融合后的多个所述三元组保存在业务流程数据库中的步骤,包括:
将融合后的多个所述三元组和所述三元组对应的分类结果保存在业务流程数据库中。
10.一种业务流程数据处理装置,其特征在于,所述装置包括:
检索词接收模块,用于接收检索词;
业务流程确定模块,用于基于所述检索词从预先建立的业务流程模型中进行检索,确定所述检索词对应的业务流程;其中,所述业务流程模型基于从业务流程数据中获取的多个三元组建立。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011326959.6A CN112308464B (zh) | 2020-11-24 | 2020-11-24 | 业务流程数据处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011326959.6A CN112308464B (zh) | 2020-11-24 | 2020-11-24 | 业务流程数据处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112308464A true CN112308464A (zh) | 2021-02-02 |
CN112308464B CN112308464B (zh) | 2023-11-24 |
Family
ID=74335522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011326959.6A Active CN112308464B (zh) | 2020-11-24 | 2020-11-24 | 业务流程数据处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308464B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473346A (zh) * | 2023-12-27 | 2024-01-30 | 安徽思高智能科技有限公司 | 一种基于轨迹聚类的流程漂移定位方法及*** |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874303A (zh) * | 2015-12-14 | 2017-06-20 | 清华大学 | 业务办理流程管理***和方法 |
US20180144250A1 (en) * | 2016-11-23 | 2018-05-24 | Electronics And Telecommunications Research Institute | Data processing apparatus and method for merging and processing deterministic knowledge and non-deterministic knowledge |
WO2019013913A1 (en) * | 2017-07-14 | 2019-01-17 | Nec Laboratories America, Inc. | SPATIO-TEMPORAL INTERACTION NETWORK FOR LEARNING OBJECT INTERACTIONS |
CN109783650A (zh) * | 2019-01-10 | 2019-05-21 | 首都经济贸易大学 | 中文网络百科知识去燥方法、***及知识库 |
CN109948911A (zh) * | 2019-02-27 | 2019-06-28 | 北京邮电大学 | 一种计算网络产品信息安全风险的评估方法 |
CN109992772A (zh) * | 2019-03-13 | 2019-07-09 | 众安信息技术服务有限公司 | 一种文本相似度计算方法及装置 |
CN110543499A (zh) * | 2019-08-22 | 2019-12-06 | 云南电网有限责任公司 | 一种基于多源数据融合的反窃电定位跟踪设备 |
US20190392074A1 (en) * | 2018-06-21 | 2019-12-26 | LeapAnalysis Inc. | Scalable capturing, modeling and reasoning over complex types of data for high level analysis applications |
CN110826617A (zh) * | 2019-10-31 | 2020-02-21 | 中国人民公安大学 | 态势要素分类方法及其模型的训练方法、装置及服务器 |
CN110909168A (zh) * | 2019-09-23 | 2020-03-24 | 腾讯科技(深圳)有限公司 | 知识图谱的更新方法和装置、存储介质及电子装置 |
CN111192012A (zh) * | 2019-12-27 | 2020-05-22 | 腾讯云计算(北京)有限责任公司 | 事项处理方法、装置、服务器及存储介质 |
CN111339321A (zh) * | 2020-05-18 | 2020-06-26 | 中国人民解放军国防科技大学 | 知识图谱中三元组真实性检测方法和装置 |
CN111460125A (zh) * | 2020-05-09 | 2020-07-28 | 山东舜网传媒股份有限公司 | 政务服务智能问答方法及*** |
CN111475604A (zh) * | 2019-09-18 | 2020-07-31 | 北京国双科技有限公司 | 数据处理方法及装置 |
CN111552813A (zh) * | 2020-03-18 | 2020-08-18 | 国网浙江省电力有限公司 | 一种基于电网全业务数据的电力知识图谱构建方法 |
CN111581395A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于深度学习的模型融合三元组表示学习***及方法 |
-
2020
- 2020-11-24 CN CN202011326959.6A patent/CN112308464B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874303A (zh) * | 2015-12-14 | 2017-06-20 | 清华大学 | 业务办理流程管理***和方法 |
US20180144250A1 (en) * | 2016-11-23 | 2018-05-24 | Electronics And Telecommunications Research Institute | Data processing apparatus and method for merging and processing deterministic knowledge and non-deterministic knowledge |
WO2019013913A1 (en) * | 2017-07-14 | 2019-01-17 | Nec Laboratories America, Inc. | SPATIO-TEMPORAL INTERACTION NETWORK FOR LEARNING OBJECT INTERACTIONS |
US20190392074A1 (en) * | 2018-06-21 | 2019-12-26 | LeapAnalysis Inc. | Scalable capturing, modeling and reasoning over complex types of data for high level analysis applications |
CN109783650A (zh) * | 2019-01-10 | 2019-05-21 | 首都经济贸易大学 | 中文网络百科知识去燥方法、***及知识库 |
CN109948911A (zh) * | 2019-02-27 | 2019-06-28 | 北京邮电大学 | 一种计算网络产品信息安全风险的评估方法 |
CN109992772A (zh) * | 2019-03-13 | 2019-07-09 | 众安信息技术服务有限公司 | 一种文本相似度计算方法及装置 |
CN110543499A (zh) * | 2019-08-22 | 2019-12-06 | 云南电网有限责任公司 | 一种基于多源数据融合的反窃电定位跟踪设备 |
CN111475604A (zh) * | 2019-09-18 | 2020-07-31 | 北京国双科技有限公司 | 数据处理方法及装置 |
CN110909168A (zh) * | 2019-09-23 | 2020-03-24 | 腾讯科技(深圳)有限公司 | 知识图谱的更新方法和装置、存储介质及电子装置 |
CN110826617A (zh) * | 2019-10-31 | 2020-02-21 | 中国人民公安大学 | 态势要素分类方法及其模型的训练方法、装置及服务器 |
CN111192012A (zh) * | 2019-12-27 | 2020-05-22 | 腾讯云计算(北京)有限责任公司 | 事项处理方法、装置、服务器及存储介质 |
CN111552813A (zh) * | 2020-03-18 | 2020-08-18 | 国网浙江省电力有限公司 | 一种基于电网全业务数据的电力知识图谱构建方法 |
CN111581395A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于深度学习的模型融合三元组表示学习***及方法 |
CN111460125A (zh) * | 2020-05-09 | 2020-07-28 | 山东舜网传媒股份有限公司 | 政务服务智能问答方法及*** |
CN111339321A (zh) * | 2020-05-18 | 2020-06-26 | 中国人民解放军国防科技大学 | 知识图谱中三元组真实性检测方法和装置 |
Non-Patent Citations (4)
Title |
---|
"基于本体的行业知识图谱构建技术的研究与实现", 《信息科技》, no. 8 * |
BHATTACHARYA,ET AL: "Ranking-based triplet loss function with intra-class mean and variance for fine-grained classification tasks", 《SOFT COMPUTING》, vol. 24, no. 20, pages 15519 - 15528, XP037248984, DOI: 10.1007/s00500-020-04880-1 * |
崔浩: "公安应急预案数字化管理平台的设计与实现", 《社会科学Ⅰ辑》, no. 9 * |
田枫,李欣: "基于多模态子空间学习的语义标签生成方法", 《山东大学学报(工学版)》, vol. 50, no. 3, pages 31 - 39 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473346A (zh) * | 2023-12-27 | 2024-01-30 | 安徽思高智能科技有限公司 | 一种基于轨迹聚类的流程漂移定位方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN112308464B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10725981B1 (en) | Analyzing big data | |
CN110275965B (zh) | 假新闻检测方法、电子装置及计算机可读存储介质 | |
CN111538794B (zh) | 一种数据融合方法、装置及设备 | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN111262730B (zh) | 一种告警信息的处理方法及装置 | |
US11983297B2 (en) | Efficient statistical techniques for detecting sensitive data | |
CN111831629A (zh) | 一种数据处理方法及装置 | |
CN113158251B (zh) | 应用程序隐私泄露检测方法、***、终端及介质 | |
CN115618371A (zh) | 一种非文本数据的脱敏方法、装置及存储介质 | |
CN112016138A (zh) | 一种车联网自动化安全建模的方法、装置和电子设备 | |
Japkowicz et al. | A machine learning perspective on big data analysis | |
CN113836128A (zh) | 一种异常数据识别方法、***、设备及存储介质 | |
Bayer et al. | Big data mining and business intelligence trends | |
CN112308464B (zh) | 业务流程数据处理方法和装置 | |
DeCastro-García et al. | On detecting and removing superficial redundancy in vector databases | |
CN111429110B (zh) | 门店标准化审核方法、装置、设备及存储介质 | |
CN116521729A (zh) | 一种基于Elasticsearch的信息分类搜索方法及装置 | |
CN116340989A (zh) | 一种数据脱敏方法、装置、电子设备及存储介质 | |
CN111209750A (zh) | 车联网威胁情报建模方法、装置及可读存储介质 | |
Janev | Chapter 1 Ecosystem of Big Data | |
CN115292353A (zh) | 数据查询方法、装置、计算机设备和存储介质 | |
Xu et al. | The semantic analysis of knowledge map for the traffic violations from the surveillance video big data. | |
EP3547154B1 (en) | Constraint satisfaction software tool for database tables | |
CN110765100B (zh) | 标签的生成方法、装置、计算机可读存储介质及服务器 | |
CN113934729A (zh) | 一种基于知识图谱的数据管理方法、相关设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |