CN114064920A - 基于人工智能的非结构化文档监管方法及存储介质 - Google Patents

基于人工智能的非结构化文档监管方法及存储介质 Download PDF

Info

Publication number
CN114064920A
CN114064920A CN202111344801.6A CN202111344801A CN114064920A CN 114064920 A CN114064920 A CN 114064920A CN 202111344801 A CN202111344801 A CN 202111344801A CN 114064920 A CN114064920 A CN 114064920A
Authority
CN
China
Prior art keywords
supervision
entity
document
knowledge
entity relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111344801.6A
Other languages
English (en)
Inventor
郑敏
阮义清
罗建新
池毓成
陈颖华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Zefu Software Co ltd
Original Assignee
Fujian Zefu Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Zefu Software Co ltd filed Critical Fujian Zefu Software Co ltd
Priority to CN202111344801.6A priority Critical patent/CN114064920A/zh
Publication of CN114064920A publication Critical patent/CN114064920A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于人工智能的非结构化文档监管方法及存储介质,所述存储介质包括以下步骤:从企业或者项目中获取监管文档作为双向LSTM+RNN实体及实体关系抽取联合模型训练的素材,并通过模型训练输出实体及实体关系抽取联合模型;将训练得到的实体及实体关系抽取联合模型封装为实体及实体关系识别服务;监管过程中,不断输入监管文档供实体及实体关系识别服务进行信息抽取,构建监管知识图谱;通过监管知识图谱,对非结构文档进行监管。代替原有的通过人工梳理规则,效果更显著,覆盖更全面。

Description

基于人工智能的非结构化文档监管方法及存储介质
技术领域
本发明涉及文档监管技术领域,特别涉及一种基于人工智能的非结构化文档监管方法及存储介质。
背景技术
在企业运营或者项目管理过程中存在各种工程项目过程文档、财务文件、制度规范文档等等,从中挖掘项目过程纰漏、环节缺失、财务资金混乱、制度执行不到位等信息,并予以集中发现、监管和风险评估;以往这些工作从海量文档中人工批阅且分析发现文档信息问题的监管模式,需要投入大量的人力,存在效率低下、遗漏多、监管滞后等等众多问题。而现有的文档监管的技术方案中,如申请号为CN202111021148.X公开的一种基于综合安全审计的文档监控管理***,如申请号为CN202110759545.0基于云平台的电子文档分类监管***,虽然可以对文档进行监控或者监管,但是均未解决发现多个文档潜在关系,并对文档内容实体或者实体关系进行监管,同时数据补入均采用人工录入方式,人工成本高。
发明内容
为此,需要提供一种基于人工智能的非结构化文档监管方法及存储介质,解决现有的企业运营或者项目管理过程中的各种文档监管需要投入大量人力,效率低下、遗漏多、监管滞后以及无法解决发现多个文档潜在关系等监管问题。
为实现上述目的,发明人提供了一种基于人工智能的非结构化文档监管方法,包括以下步骤:
从企业或者项目中获取监管文档作为双向LSTM+RNN实体及实体关系抽取联合模型训练的素材,并通过模型训练输出实体及实体关系抽取联合模型;
将训练得到的实体及实体关系抽取联合模型封装为实体及实体关系识别服务;
监管过程中,不断输入监管文档供实体及实体关系识别服务进行信息抽取,构建监管知识图谱;
通过监管知识图谱,对非结构文档进行监管。
进一步优化,所述“通过监管知识图谱,对非结构文档进行监管”具体包括以下步骤:
通过监管知识图谱及监管规则库,对企业或者项目的风险进行评估。
进一步优化,所述监管规则库为通过平台预置并后续不断录入完善。
进一步优化,所述“通过监管知识图谱,对非结构文档进行监管”具体还包括以下步骤:
通过监管知识图谱对监管问题溯源分析定位根源或者影响因子。
进一步优化,所述步骤“通过监管知识图谱对监管问题溯源分析定位根源或者影响因子”之后还包括步骤:
根据可视化技术呈现监管问题的影响范围。
还提供了另一个实施例,一种存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器运行时执行以下步骤:
从企业或者项目中获取监管文档作为双向LSTM+RNN实体及实体关系抽取联合模型训练的素材,并通过模型训练输出实体及实体关系抽取联合模型;
将训练得到的实体及实体关系抽取联合模型封装为实体及实体关系识别服务;
监管过程中,不断输入监管文档供实体及实体关系识别服务进行信息抽取,构建监管知识图谱;
通过监管知识图谱,对非结构文档进行监管。
进一步优化,所述步骤“通过监管知识图谱,对非结构文档进行监管”具体包括以下步骤:
通过监管知识图谱及监管规则库,对企业或者项目的风险进行评估。
进一步优化,所述监管规则库为通过平台预置并后续不断录入完善。
进一步优化,所述步骤“通过监管知识图谱,对非结构文档进行监管”具体还包括以下步骤:
通过监管知识图谱对监管问题溯源分析定位根源或者影响因子。
进一步优化,所述步骤“通过监管知识图谱对监管问题溯源分析定位根源或者影响因子”之后还包括步骤:
根据可视化技术呈现监管问题的影响范围。
区别于现有技术,上述技术方案,通过分析海量文档中的潜在实体及实体关系构建监管知识图谱,代替原有的人力梳理工作,优势明显,更专注于同一或者不同文档中实体关系的识别;同时采用了人工智能双向LSTM+RNN实体及实体关系抽取联合模型训练,从中提炼的模型针对实际输入文档的抽取识别更全面,并且可以配合模型训练不断丰富,代替原有的通过人工梳理规则,效果更显著,覆盖更全面。并且通过结合知识图谱相关技术,让抽取的实体和关系在实际监管应用分析中能满足灵活多面的分析诉求。
附图说明
图1为具体实施方式所述基于人工智能的非结构化文档监管方法的一种流程示意图;
图2为具体实施方式所述基于人工智能的非结构化文档监管方法的另一种流程示意图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1-2,本实施例提供一种基于人工智能的非结构化文档监管方法,包括以下步骤:
步骤S110:从企业或者项目中获取监管文档作为双向LSTM+RNN实体及实体关系抽取联合模型训练的素材,并通过模型训练输出实体及实体关系抽取联合模型;
步骤S120:将训练得到的实体及实体关系抽取联合模型封装为实体及实体关系识别服务;
步骤S130:监管过程中,不断输入监管文档供实体及实体关系识别服务进行信息抽取,构建监管知识图谱;
步骤S140:通过监管知识图谱,对非结构文档进行监管。
通过从企业或者项目中获取如项目过程文档、财务文档、制度文档、合同文档等监管文档作为双向LSTM+RNN实体及实体关系抽取联合模型训练的素材,通过模型训练输出模型,将训练出的模型封装为实体及实体关系识别服务,监管过程中不断输入相关监管文档供实体及实体关系服务进行信息抽取,通过不断的实体及实体关系抽取监管实体、监管要素以及其中潜在关系,构建监管知识图谱为后续应用及应用分析提供数据基础,通过监管知识图谱对非结构文档进行监管。通过分析海量文档中的潜在实体及实体关系构建监管知识图谱,代替原有的人力梳理工作,优势明显,更专注于同一或者不同文档中实体关系的识别;同时采用了人工智能双向LSTM+RNN实体及实体关系抽取联合模型训练,从中提炼的模型针对实际输入文档的抽取识别更全面,并且可以配合模型训练不断丰富,代替原有的通过人工梳理规则,效果更显著,覆盖更全面。并且通过结合知识图谱相关技术,让抽取的实体和关系在实际监管应用分析中能满足灵活多面的分析诉求。
在本实例中,可以通过监管知识图谱可以应用于企业或者项目的风险评估等,所述“通过监管知识图谱,对非结构文档进行监管”具体包括以下步骤S141:
通过监管知识图谱及监管规则库,对企业或者项目的风险进行评估。
建立整套完善的监管规则库,其中,所述监管规则库为通过平台预置并后续不断录入完善,通过构建的监管知识图谱结合监管规则库,可以对企业或者项目的风险进行评估,代替原有的人力梳理工作。
在本实施例中,可以实现监管问题的溯源,所述“通过监管知识图谱,对非结构文档进行监管”具体还包括以下步骤S142:
通过监管知识图谱对监管问题溯源分析定位根源或者影响因子。
构建监管知识图谱,可视化呈现企业或者项目监管中的各个环节问题,同时,通过监管知识图谱的溯源分析支管展现环节问题根源和环节问题影响。其中,所述步骤“通过监管知识图谱对监管问题溯源分析定位根源或者影响因子”之后还包括步骤:
根据可视化技术呈现监管问题的影响范围。
还提供了另一个实施例,一种存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器运行时执行以下步骤:
从企业或者项目中获取监管文档作为双向LSTM+RNN实体及实体关系抽取联合模型训练的素材,并通过模型训练输出实体及实体关系抽取联合模型;
将训练得到的实体及实体关系抽取联合模型封装为实体及实体关系识别服务;
监管过程中,不断输入监管文档供实体及实体关系识别服务进行信息抽取,构建监管知识图谱;
通过监管知识图谱,对非结构文档进行监管。
通过从企业或者项目中获取如项目过程文档、财务文档、制度文档、合同文档等监管文档作为双向LSTM+RNN实体及实体关系抽取联合模型训练的素材,通过模型训练输出模型,将训练出的模型封装为实体及实体关系识别服务,监管过程中不断输入相关监管文档供实体及实体关系服务进行信息抽取,通过不断的实体及实体关系抽取监管实体、监管要素以及其中潜在关系,构建监管知识图谱为后续应用及应用分析提供数据基础,通过监管知识图谱对非结构文档进行监管。通过分析海量文档中的潜在实体及实体关系构建监管知识图谱,代替原有的人力梳理工作,优势明显,更专注于同一或者不同文档中实体关系的识别;同时采用了人工智能双向LSTM+RNN实体及实体关系抽取联合模型训练,从中提炼的模型针对实际输入文档的抽取识别更全面,并且可以配合模型训练不断丰富,代替原有的通过人工梳理规则,效果更显著,覆盖更全面。并且通过结合知识图谱相关技术,让抽取的实体和关系在实际监管应用分析中能满足灵活多面的分析诉求。
在本实例中,可以通过监管知识图谱可以应用于企业或者项目的风险评估等,所述步骤“通过监管知识图谱,对非结构文档进行监管”具体包括以下步骤:
通过监管知识图谱及监管规则库,对企业或者项目的风险进行评估。
建立整套完善的监管规则库,其中,所述监管规则库为通过平台预置并后续不断录入完善,通过构建的监管知识图谱结合监管规则库,可以对企业或者项目的风险进行评估,代替原有的人力梳理工作。
在本实施例中,可以实现监管问题的溯源,所述步骤“通过监管知识图谱,对非结构文档进行监管”具体还包括以下步骤:
通过监管知识图谱对监管问题溯源分析定位根源或者影响因子。
构建监管知识图谱,可视化呈现企业或者项目监管中的各个环节问题,同时,通过监管知识图谱的溯源分析支管展现环节问题根源和环节问题影响。其中,所述步骤“通过监管知识图谱对监管问题溯源分析定位根源或者影响因子”之后还包括步骤:
根据可视化技术呈现监管问题的影响范围。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

Claims (10)

1.一种基于人工智能的非结构化文档监管方法,其特征在于,包括以下步骤:
从企业或者项目中获取监管文档作为双向LSTM+RNN实体及实体关系抽取联合模型训练的素材,并通过模型训练输出实体及实体关系抽取联合模型;
将训练得到的实体及实体关系抽取联合模型封装为实体及实体关系识别服务;
监管过程中,不断输入监管文档供实体及实体关系识别服务进行信息抽取,构建监管知识图谱;
通过监管知识图谱,对非结构文档进行监管。
2.根据权利要求1所述基于人工智能的非结构化文档监管方法,其特征在于,所述步骤“通过监管知识图谱,对非结构文档进行监管”具体包括以下步骤:
通过监管知识图谱及监管规则库,对企业或者项目的风险进行评估。
3.根据权利要求2所述基于人工智能的非结构化文档监管方法,其特征在于,所述监管规则库为通过平台预置并后续不断录入完善。
4.根据权利要求1所述基于人工智能的非结构化文档监管方法,其特征在于,所述步骤“通过监管知识图谱,对非结构文档进行监管”具体还包括以下步骤:
通过监管知识图谱对监管问题溯源分析定位根源或者影响因子。
5.根据权利要求4所述基于人工智能的非结构化文档监管方法,其特征在于,所述步骤“通过监管知识图谱对监管问题溯源分析定位根源或者影响因子”之后还包括步骤:
根据可视化技术呈现监管问题的影响范围。
6.一种存储介质,所述存储介质内存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行以下步骤:
从企业或者项目中获取监管文档作为双向LSTM+RNN实体及实体关系抽取联合模型训练的素材,并通过模型训练输出实体及实体关系抽取联合模型;
将训练得到的实体及实体关系抽取联合模型封装为实体及实体关系识别服务;
监管过程中,不断输入监管文档供实体及实体关系识别服务进行信息抽取,构建监管知识图谱;
通过监管知识图谱,对非结构文档进行监管。
7.根据权利要求6所述存储介质,其特征在于,所述步骤“通过监管知识图谱,对非结构文档进行监管”具体包括以下步骤:
通过监管知识图谱及监管规则库,对企业或者项目的风险进行评估。
8.根据权利要求7所述存储介质,其特征在于,所述监管规则库为通过平台预置并后续不断录入完善。
9.根据权利要求6所述存储介质,其特征在于,所述步骤“通过监管知识图谱,对非结构文档进行监管”具体还包括以下步骤:
通过监管知识图谱对监管问题溯源分析定位根源或者影响因子。
10.根据权利要求9所述存储介质,其特征在于,所述步骤“通过监管知识图谱对监管问题溯源分析定位根源或者影响因子”之后还包括步骤:
根据可视化技术呈现监管问题的影响范围。
CN202111344801.6A 2021-11-15 2021-11-15 基于人工智能的非结构化文档监管方法及存储介质 Pending CN114064920A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111344801.6A CN114064920A (zh) 2021-11-15 2021-11-15 基于人工智能的非结构化文档监管方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111344801.6A CN114064920A (zh) 2021-11-15 2021-11-15 基于人工智能的非结构化文档监管方法及存储介质

Publications (1)

Publication Number Publication Date
CN114064920A true CN114064920A (zh) 2022-02-18

Family

ID=80271828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111344801.6A Pending CN114064920A (zh) 2021-11-15 2021-11-15 基于人工智能的非结构化文档监管方法及存储介质

Country Status (1)

Country Link
CN (1) CN114064920A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230059494A1 (en) * 2021-08-19 2023-02-23 Digital Asset Capital, Inc. Semantic map generation from natural-language text documents

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230059494A1 (en) * 2021-08-19 2023-02-23 Digital Asset Capital, Inc. Semantic map generation from natural-language text documents
US20230056987A1 (en) * 2021-08-19 2023-02-23 Digital Asset Capital, Inc. Semantic map generation using hierarchical clause structure

Similar Documents

Publication Publication Date Title
CN110929036B (zh) 电力营销稽查管理方法、装置、计算机设备和存储介质
CN111461668A (zh) 一种基于流程自动化技术的数字化审计***及方法
CN109784758B (zh) 基于bim模型的工程质量监管预警***和方法
CN114281877A (zh) 一种数据管理***及方法
CN112508541A (zh) 基于培训学员信息数据采集的便携式手机采集软件***
CN114064920A (zh) 基于人工智能的非结构化文档监管方法及存储介质
CN115657890A (zh) 一种pra机器人可定制方法
CN113609393B (zh) 一种基于数据服务和数据管理的数字化平台
CN105138612A (zh) 数据一致性差异原因的分析和定位的方法及***
Kropatschek et al. Towards the representation of cross-domain quality knowledge for efficient data analytics
Suleykin et al. Associative Rules-Driven Intelligent Production Schedule Control System for Digital Manufacturing Ecosystem
CN113706098B (zh) 基于业务的偏差原因识别方法、装置及电子设备
CN111913706B (zh) 一种调度自动化***拓扑构建方法、存储介质和计算设备
Layer et al. Identification and Retrieval of relevant Information for instantiating Digital Twins during the Construction of Process Plants
CN113887862A (zh) 一种能源计量业务数据分析方法和***
CN114066223A (zh) 基于知识图谱的国资国企可配置规则监控方法及存储介质
CN114331165A (zh) 一种城市安全绩效评估报告自动生成与分析方法及***
CN112650796A (zh) 一种自动化的应用数据收集、存储管理***
Xing et al. Study on the Impact of Big Data Technology on the Audit and its Application
Xu et al. Concept drift detection and localization framework based on behavior replacement
CN112968941B (zh) 一种基于边缘计算的数据采集和人机协同标注方法
Oyoo Collaboration-Based Automatic Data Validation Framework for Enterprise Asset Management
CN111625522A (zh) 一种数据采集挖掘方法和设备
Oladimeji Identifying case studies for performance measurement implementation models using systematic review
CN117896171A (zh) 一种安全测试方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination