CN114925674A - 文件合规性检查方法、装置、电子设备及存储介质 - Google Patents

文件合规性检查方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114925674A
CN114925674A CN202210593966.5A CN202210593966A CN114925674A CN 114925674 A CN114925674 A CN 114925674A CN 202210593966 A CN202210593966 A CN 202210593966A CN 114925674 A CN114925674 A CN 114925674A
Authority
CN
China
Prior art keywords
compliance
file
checked
standard
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210593966.5A
Other languages
English (en)
Inventor
王夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202210593966.5A priority Critical patent/CN114925674A/zh
Publication of CN114925674A publication Critical patent/CN114925674A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种文件合规性检查方法、装置、电子设备及存储介质,所述方法包括:获取待检查的合规文件;对待检查的合规文件进行第一预处理,获取合规类型;基于合规类型,获取原始合规文件样本集;对原始合规文件样本集进行第二预处理,得到标准合规文件样本集;创建合规检查模型,将标准合规文件样本集和待检查的合规文件输入至合规检查模型中,得到合规检查结果,其中,合规检查模型中包含有语义模型和合规组件模型。本发明将标准合规文件与语义模型输出的标准化合规规则进行重新组合加以训练合规组件模型,使得训练得到的合规组件模型更加的精确,进而提高了合规检查结果的准确率。

Description

文件合规性检查方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种文件合规性检查方法、装置、电子设备及存储介质。
背景技术
现有的合规文件是否满足合规要求,需要通过企业自身或者监管部门大量人工抽样检查。
然而,随着现有的合规规则的不断颁布,现有***与新增合规规则需要经历多个环节,在检查过程中,很多都依赖于用户的经验和能力,可能无法客观的进行检查,导致合规文件检查的准确率低。
因此,有必要提出一种可以快速准确的合规文件的检查方法。
发明内容
鉴于以上内容,有必要提出一种文件合规性检查方法、装置、电子设备及存储介质,将标准合规文件与语义模型输出的标准化合规规则进行重新组合加以训练合规组件模型,使得训练得到的合规组件模型更加的精确,进而提高了合规检查结果的准确率。
本发明的第一方面提供一种文件合规性检查方法,所述方法包括:
解析接收的文件合规性检查请求,获取待检查的合规文件;
对所述待检查的合规文件进行第一预处理,获取所述待检查的合规文件对应的合规类型;
基于所述待检查的合规文件对应的合规类型,获取原始合规文件样本集;
对所述原始合规文件样本集进行第二预处理,得到标准合规文件样本集;
创建合规检查模型,将所述标准合规文件样本集和所述待检查的合规文件输入至所述合规检查模型中,得到所述待检查的合规文件的合规检查结果,其中,所述合规检查模型中包含有语义模型和合规组件模型。
可选地,所述对所述待检查的合规文件进行第一预处理,获取所述待检查的合规文件对应的合规类型包括:
识别所述待检查的合规文件的标签;
将识别到的标签输入至预先训练好的合规类型分类模型中,得到所述待检查的合规文件对应的合规类型。
可选地,所述基于所述待检查的合规文件对应的合规类型,获取原始合规文件样本集包括:
从预设的源数据库中获取与所述待检查的合规文件的合规类型对应的目标数据源;
采用爬虫技术从所述目标数据源中,按照预设的规则获取原始合规文件样本集。
可选地,所述对所述原始合规文件样本集进行第二预处理,得到标准合规文件样本集包括:
根据所述待检查的合规文件对应的合规类型,获取对应的标准定义的数据结构;
按照所述数据结构将所述原始合规文件样本集中的每个原始合规文件样本进行数据转换,得到标准合规文件样本集。
可选地,所述将所述标准合规文件样本集和所述待检查的合规文件输入至所述合规检查模型中,得到所述待检查的合规文件的合规检查结果包括:
将所述标准合规文件样本集输入至所述语义模型中,得到标准化合规规则;
将所述标准化合规规则和所述待检查的合规文件输入至与所述语义模型连接的合规组件模型中,得到所述待检查的合规文件的合规检查结果。
可选地,所述语义模型的训练过程包括:
获取所述合规类型对应的多个历史标准合规文件及每个所述历史标准合规文件的标准化合规规则集;
从预设的语义表中查找每个所述历史标准合规文件的标准化合规规则中的每个标准化合规规则对应的语义向量,构建每个所述历史标准合规文件的语义矩阵;
将所述多个历史标准合规文件的多个语义矩阵确定为语义样本集;
将所述语义样本集按照预设的比例划分为训练集和测试集;
将所述训练集输入至预设神经网络中进行训练,得到语义模型;
将所述测试集输入至所述语义模型中进行测试,并计算测试通过率;
若所述测试通过率大于或者等于预设通过率阈值,确定所述语义模型训练结束;若所述测试通过率小于所述预设通过率阈值,增加训练集的数量,重新进行语义模型的训练。
可选地,所述将所述标准化合规规则和所述待检查的合规文件输入至与所述语义模型连接的合规组件模型中,得到所述待检查的合规文件的合规检查结果包括:
按照所述合规类型对应的标准定义的数据结构对所述待检查的合规文件进行数据转换,得到待检查的标准合规文件;
将所述待检查的标准合规文件和所述标准化合规规则输入至与所述语义模型连接的合规组件模型中,得到所述待检查的合规文件的合规检查结果。
本发明的第二方面提供一种文件合规性检查装置,所述装置包括:
解析和获取模块,用于解析接收的文件合规性检查请求,获取待检查的合规文件;
第一预处理模块,用于对所述待检查的合规文件进行第一预处理,获取所述待检查的合规文件对应的合规类型;
获取模块,用于基于所述待检查的合规文件对应的合规类型,获取原始合规文件样本集;
第二预处理模块,用于对所述原始合规文件样本集进行第二预处理,得到标准合规文件样本集;
创建和输入模块,用于创建合规检查模型,将所述标准合规文件样本集和所述待检查的合规文件输入至所述合规检查模型中,得到所述待检查的合规文件的合规检查结果,其中,所述合规检查模型中包含有语义模型和合规组件模型。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的文件合规性检查方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的文件合规性检查方法。
综上所述,本发明所述的文件合规性检查方法、装置、电子设备及存储介质,通过对所述待检查的合规文件进行第一预处理,获取所述待检查的合规文件对应的合规类型的原始合规文件样本集,避免获取到与合规类型无关的其他合规文件,确保了原始合规文件样本集的准确性,后续在进行语义模型训练时考虑了所述原始合规文件样本集,提高了训练得到的语义模型的准确性,进而提高了得到的标准化合规规则的准确性。创建合规检查模型,将所述标准合规文件样本集和所述待检查的合规文件输入至所述合规检查模型中,得到所述待检查的合规文件的合规检查结果,其中,所述合规检查模型中包含有语义模型和合规组件模型,通过将标准合规文件与语义模型输出的标准化合规规则之间的检查结果信息进行重新组合在合规组件模型中加以训练,使得训练得到的合规组件模型更加的精确,利用训练好的合规组件模型对所述待检查的合规文件进行合规检查,提高了合规检查结果的准确率。
附图说明
图1是本发明实施例一提供的文件合规性检查方法的流程图。
图2是本发明实施例二提供的文件合规性检查装置的结构图。
图3是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例一
图1是本发明实施例一提供的文件合规性检查方法的流程图。
在本实施例中,所述文件合规性检查方法可以应用于电子设备中,对于需要进行文件合规性检查的电子设备,可以直接在电子设备上集成本发明的方法所提供的文件合规性检查的功能,或者以软件开发工具包(Software Development Kit,SDK)的形式运行在电子设备中。
如图1所示,所述文件合规性检查方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,解析接收的文件合规性检查请求,获取待检查的合规文件。
本实施例中,很多应用场景都需要对文件的合规性进行检查,例如,针对金融领域,很多的传统金融行业都在进行着零售化、数字化的转型,从原来的线下向线上化、智能化、自助化的方向演进,需要根据不同的金融业务场景定制应用服务,在进行应用服务的定制过程中,会设置标准化合规规则,通过标准化合规规则对文件的合规性进行检查,确保服务质量。
本实施例中,用户在进行文件合规性检查时,通过客户端发起文件合规性检查请求至服务端,具体地,所述客户端可以是智能手机、IPAD或者其他现有的智能设备,所述服务端可以为文件合规性检查子***,在文件合规性检查过程中,如所述客户端可以向文件合规性检查子***发送文件合规性检查请求,所述文件合规性检查子***用于接收所述客户端发送的文件合规性检查请求。
在一个可选的实施例中,所述解析接收的文件合规性检查请求,获取待检查的合规文件包括:
解析所述文件合规性检查请求获取待检查的合规文件的业务类型;
根据所述业务类型确定调用接口;
启动所述调用接口从对应的预设的待检查数据库中获取待检查的合规文件。
具体地,所述待检查的合规文件包括文本文件、视频文件或者语音文件。
例如,针对金融领域,文本文件可以为《非居民金融账户涉税信息尽职调查管理办法》、《个人信用信息基础数据库管理暂行办法》、《人民币银行结算账户管理办法》等其他文本文件。本实施例中,不同的业务类型对应的调用接口不同,在进行待检查的合规文件获取时,通过启动对应的业务类型的调用接口从对应的预设的待检查数据库中获取,提高了获取的待检查的合规文件效率。
S12,对所述待检查的合规文件进行第一预处理,获取所述待检查的合规文件对应的合规类型。
本实施例中,所述第一预处理是指根据待检查的合规文件中的标签集确定对应的合规类型,具体地,所述待检查的合规文件中包含有标签集。
示例性地,若待检查的合规文件为NY/T 435-2021绿色食品水果蔬菜脆片,标签集可以为:产品、储存、分类、包装、标签、检验规则、水果、绿色食品、脆片、蔬菜、运输、食用菌。
在一个可选的实施例中,所述对所述待检查的合规文件进行第一预处理,获取所述待检查的合规文件对应的合规类型包括:
识别所述待检查的合规文件的标签;
将识别到的标签输入至预先训练好的合规类型分类模型中,得到所述待检查的合规文件对应的合规类型。
本实施例中,可以预先训练分类模型,具体地,所述分类模型训练过程包括:获取历史合规文件及对应的合规类型;提取每个历史合规文件对应的标签集,将所述标签集作为样本数据集;从所述样本数据集中划分出训练集和测试集;将所述训练集中的标签集及对应的合规类型输入预设神经网络中进行训练,得到合规类型分类模型;将所述测试集输入至所述合规类型分类模型中进行测试,并计算测试通过率;若所述测试通过率大于或者等于预设通过率阈值,确定所述合规类型分类模型训练结束;若所述测试通过率小于预设通过率阈值,增加训练集的数量,重新合规类型分类模型的训练。
本实施例中,预先训练合规类型分类模型,所述合规类型分类模型用于表示待检查的合规文件的合规类型,所述合规类型可以限于,但不限于:海鲜食品、日用品、水果、餐厅及服装。提取每个合规类型的历史合规文件,提取所述历史合规文件的标签集,然后根据提取的标签集及合规类型训练合规类型分类模型,后续只需要获取每个合规文件的标签集,即可通过合规类型分类模型识别出所述合规文件所属的合规类型,得到的待检查的合规文件的合规类型准确率高。
S13,基于所述待检查的合规文件对应的合规类型,获取原始合规文件样本集。
在一个可选的实施例中,所述基于所述待检查的合规文件对应的合规类型,获取原始合规文件样本集包括:
从预设的源数据库中获取与所述待检查的合规文件的合规类型对应的目标数据源;
采用爬虫技术从所述目标数据源中,按照预设的规则获取原始合规文件样本集。
本实施例中,所述目标数据源可以为一个或者多个,所述爬虫技术为现有技术,本实施例在此不做详述。
本实施例中,由于合规规则随着时间不断的更新和变化,可以预先设置获取规则,具体地,所述获取规则可以根据接收的文件合规性检查请求的时间确定,不同时间段对应的获取原始合规文件样本集的规则不同。
本实施例中,基于待检查的合规文件对应的合规类型进行原始合规文件样本集的获取,避免获取到与合规类型无关的其他合规文件,确保了原始合规文件样本集的准确性,后续在进行语义模型训练时考虑了所述原始合规文件样本集,提高了训练得到的语义模型的准确性,进而提高了得到的标准化合规规则的准确性。
S14,对所述原始合规文件样本集进行第二预处理,得到标准合规文件样本集。
本实施例中,所述第二预处理是指对所述原始合规文件样本集中的文件进行标准化,转换为可以得到合格规则要求的标准合规文件。
在一个可选的实施例中,所述对所述原始合规文件样本集进行第二预处理,得到标准合规文件样本集包括:
根据所述待检查的合规文件对应的合规类型,获取对应的标准定义的数据结构;
按照所述数据结构将所述原始合规文件样本集中的每个原始合规文件样本进行数据转换,得到标准合规文件样本集。
本实施例中,不同的合规类型的合规文件的数据结构不同,针对所述待检查的合规文件对应的合规类型,获取对应的标准定义的数据结构对每个原始合规文件进行转换,得到标准合规文件样本集。
S15,创建合规检查模型,将所述标准合规文件样本集和所述待检查的合规文件输入至所述合规检查模型中,得到所述待检查的合规文件的合规检查结果,其中,所述合规检查模型中包含有语义模型和合规组件模型。
本实施例中,所述语义模型与所述合规组件模型串联,具体地,所述合规组件模型的输入依赖于所述语义模型的输出。
在一个可选的实施例中,所述将所述标准合规文件样本集和所述待检查的合规文件输入至所述合规检查模型中,得到所述待检查的合规文件的合规检查结果包括:
将所述标准合规文件样本集输入至所述语义模型中,得到标准化合规规则;
将所述标准化合规规则和所述待检查的合规文件输入至与所述语义模型连接的合规组件模型中,得到所述待检查的合规文件的合规检查结果。
本实施例中,由于语义模型是通过对应的合规类型的标准合规文件样本集训练的,确保了训练得到的语义模型的准确率,进而提高了标准化合规规则的准确率。
本实施例中,所述标准合规文件样本集中的每个标准合规文件中标注有标准化合规规则。
具体地,所述语义模型的训练过程包括:
获取所述合规类型对应的多个历史标准合规文件及每个所述历史标准合规文件的标准化合规规则集;
从预设的语义表中查找每个所述历史标准合规文件的标准化合规规则中的每个标准化合规规则对应的语义向量,构建每个所述历史标准合规文件的语义矩阵;
将所述多个历史标准合规文件的多个语义矩阵确定为语义样本集;
将所述语义样本集按照预设的比例划分为训练集和测试集;
将所述训练集输入至预设神经网络中进行训练,得到语义模型;
将所述测试集输入至所述语义模型中进行测试,并计算测试通过率;
若所述测试通过率大于或者等于预设通过率阈值,确定所述语义模型训练结束;若所述测试通过率小于所述预设通过率阈值,增加训练集的数量,重新进行语义模型的训练。
进一步地,所述将所述标准化合规规则和所述待检查的合规文件输入至与所述语义模型连接的合规组件模型中,得到所述待检查的合规文件的合规检查结果包括:
按照所述合规类型对应的标准定义的数据结构对所述待检查的合规文件进行数据转换,得到待检查的标准合规文件;
将所述待检查的标准合规文件和所述标准化合规规则输入至与所述语义模型连接的合规组件模型中,得到所述待检查的合规文件的合规检查结果。
具体地,可以预先训练合规组件模型,其中,所述合规组件模型的训练过程与所述语义模型的训练过程相同,基于每个历史标准合规规则与对应的历史标准合规文件之间的检查结果信息训练合规组件模型。
本实施例中,所述合规检查结果中包括所述待检查的合规文件不符合合规要求及所述待检查的合规文件符合合规要求,当所述待检查的合规文件不符合合规要求时,所述合规检查结果中包含有不符合合规要求的具体信息,例如,《人民币银行结算账户管理办法》中的第N条银行结账日期不符合标准化合规规则对应的结账日期。
本实施例中,由于所述标准化合规规则是通过语义模型识别得到的,解决了现有技术中依赖于用户的经验和能力,可能无法客观理解合规性的合规规则的问题,导致合规检查结果准确率低的问题,同时将标准合规文件与标准化合规规则之间的检查结果信息进行重新组合在合规组件模型中加以训练,使得训练得到的合规组件模型更加的精确,利用训练好的合规组件模型对所述待检查的合规文件进行合规检查,提高了合规检查结果的准确率。
示例性地,针对食品领域,参照国家食品安全标准检测的基本流程,将最新国家食品安全标准文件输入至语义模型中,得到相关标准/要求细则,即标准化合规规则;将所述标准化合规规则待检查的合规文件输入至合规组件模型中,检查待检查文件是否符合标准文件。
综上所述,本实施例所述的文件合规性检查方法,通过对所述待检查的合规文件进行第一预处理,获取所述待检查的合规文件对应的合规类型的原始合规文件样本集,避免获取到与合规类型无关的其他合规文件,确保了原始合规文件样本集的准确性,后续在进行语义模型训练时考虑了所述原始合规文件样本集,提高了训练得到的语义模型的准确性,进而提高了得到的标准化合规规则的准确性。创建合规检查模型,将所述标准合规文件样本集和所述待检查的合规文件输入至所述合规检查模型中,得到所述待检查的合规文件的合规检查结果,其中,所述合规检查模型中包含有语义模型和合规组件模型,通过将标准合规文件与语义模型输出的标准化合规规则之间的检查结果信息进行重新组合在合规组件模型中加以训练,使得训练得到的合规组件模型更加的精确,利用训练好的合规组件模型对所述待检查的合规文件进行合规检查,提高了合规检查结果的准确率。
实施例二
图2是本发明实施例二提供的文件合规性检查装置的结构图。
在一些实施例中,所述文件合规性检查装置20可以包括多个由程序代码段所组成的功能模块。所述文件合规性检查装置20中的各个程序段的程序代码可以存储于电子设备的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)文件合规性检查的功能。
本实施例中,所述文件合规性检查装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:解析和获取模块201、第一预处理模块202、获取模块203、第二预处理模块204及创建和输入模块205。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
解析和获取模块201,用于解析接收的文件合规性检查请求,获取待检查的合规文件。
本实施例中,很多应用场景都需要对文件的合规性进行检查,例如,针对金融领域,很多的传统金融行业都在进行着零售化、数字化的转型,从原来的线下向线上化、智能化、自助化的方向演进,需要根据不同的金融业务场景定制应用服务,在进行应用服务的定制过程中,会设置标准化合规规则,通过标准化合规规则对文件的合规性进行检查,确保服务质量。
本实施例中,用户在进行文件合规性检查时,通过客户端发起文件合规性检查请求至服务端,具体地,所述客户端可以是智能手机、IPAD或者其他现有的智能设备,所述服务端可以为文件合规性检查子***,在文件合规性检查过程中,如所述客户端可以向文件合规性检查子***发送文件合规性检查请求,所述文件合规性检查子***用于接收所述客户端发送的文件合规性检查请求。
在一个可选的实施例中,所述解析和获取模块201解析接收的文件合规性检查请求,获取待检查的合规文件包括:
解析所述文件合规性检查请求获取待检查的合规文件的业务类型;
根据所述业务类型确定调用接口;
启动所述调用接口从对应的预设的待检查数据库中获取待检查的合规文件。
具体地,所述待检查的合规文件包括文本文件、视频文件或者语音文件。
例如,针对金融领域,文本文件可以为《非居民金融账户涉税信息尽职调查管理办法》、《个人信用信息基础数据库管理暂行办法》、《人民币银行结算账户管理办法》等其他文本文件。本实施例中,不同的业务类型对应的调用接口不同,在进行待检查的合规文件获取时,通过启动对应的业务类型的调用接口从对应的预设的待检查数据库中获取,提高了获取的待检查的合规文件效率。
第一预处理模块202,用于对所述待检查的合规文件进行第一预处理,获取所述待检查的合规文件对应的合规类型。
本实施例中,所述第一预处理是指根据待检查的合规文件中的标签集确定对应的合规类型,具体地,所述待检查的合规文件中包含有标签集。
示例性地,若待检查的合规文件为NY/T 435-2021绿色食品水果蔬菜脆片,标签集可以为:产品、储存、分类、包装、标签、检验规则、水果、绿色食品、脆片、蔬菜、运输、食用菌。
在一个可选的实施例中,所述第一预处理模块202对所述待检查的合规文件进行第一预处理,获取所述待检查的合规文件对应的合规类型包括:
识别所述待检查的合规文件的标签;
将识别到的标签输入至预先训练好的合规类型分类模型中,得到所述待检查的合规文件对应的合规类型。
本实施例中,可以预先训练分类模型,具体地,所述分类模型训练过程包括:获取历史合规文件及对应的合规类型;提取每个历史合规文件对应的标签集,将所述标签集作为样本数据集;从所述样本数据集中划分出训练集和测试集;将所述训练集中的标签集及对应的合规类型输入预设神经网络中进行训练,得到合规类型分类模型;将所述测试集输入至所述合规类型分类模型中进行测试,并计算测试通过率;若所述测试通过率大于或者等于预设通过率阈值,确定所述合规类型分类模型训练结束;若所述测试通过率小于预设通过率阈值,增加训练集的数量,重新合规类型分类模型的训练。
本实施例中,预先训练合规类型分类模型,所述合规类型分类模型用于表示待检查的合规文件的合规类型,所述合规类型可以限于,但不限于:海鲜食品、日用品、水果、餐厅及服装。提取每个合规类型的历史合规文件,提取所述历史合规文件的标签集,然后根据提取的标签集及合规类型训练合规类型分类模型,后续只需要获取每个合规文件的标签集,即可通过合规类型分类模型识别出所述合规文件所属的合规类型,得到的待检查的合规文件的合规类型准确率高。
获取模块203,用于基于所述待检查的合规文件对应的合规类型,获取原始合规文件样本集。
在一个可选的实施例中,所述获取模块203基于所述待检查的合规文件对应的合规类型,获取原始合规文件样本集包括:
从预设的源数据库中获取与所述待检查的合规文件的合规类型对应的目标数据源;
采用爬虫技术从所述目标数据源中,按照预设的规则获取原始合规文件样本集。
本实施例中,所述目标数据源可以为一个或者多个,所述爬虫技术为现有技术,本实施例在此不做详述。
本实施例中,由于合规规则随着时间不断的更新和变化,可以预先设置获取规则,具体地,所述获取规则可以根据接收的文件合规性检查请求的时间确定,不同时间段对应的获取原始合规文件样本集的规则不同。
本实施例中,基于待检查的合规文件对应的合规类型进行原始合规文件样本集的获取,避免获取到与合规类型无关的其他合规文件,确保了原始合规文件样本集的准确性,后续在进行语义模型训练时考虑了所述原始合规文件样本集,提高了训练得到的语义模型的准确性,进而提高了得到的标准化合规规则的准确性。
第二预处理模块205,用于对所述原始合规文件样本集进行第二预处理,得到标准合规文件样本集。
本实施例中,所述第二预处理是指对所述原始合规文件样本集中的文件进行标准化,转换为可以得到合格规则要求的标准合规文件。
在一个可选的实施例中,所述第二预处理模块205对所述原始合规文件样本集进行第二预处理,得到标准合规文件样本集包括:
根据所述待检查的合规文件对应的合规类型,获取对应的标准定义的数据结构;
按照所述数据结构将所述原始合规文件样本集中的每个原始合规文件样本进行数据转换,得到标准合规文件样本集。
本实施例中,不同的合规类型的合规文件的数据结构不同,针对所述待检查的合规文件对应的合规类型,获取对应的标准定义的数据结构对每个原始合规文件进行转换,得到标准合规文件样本集。
创建和输入模块205,用于创建合规检查模型,将所述标准合规文件样本集和所述待检查的合规文件输入至所述合规检查模型中,得到所述待检查的合规文件的合规检查结果,其中,所述合规检查模型中包含有语义模型和合规组件模型。
本实施例中,所述语义模型与所述合规组件模型串联,具体地,所述合规组件模型的输入依赖于所述语义模型的输出。
在一个可选的实施例中,所述创建和输入模块205将所述标准合规文件样本集和所述待检查的合规文件输入至所述合规检查模型中,得到所述待检查的合规文件的合规检查结果包括:
将所述标准合规文件样本集输入至所述语义模型中,得到标准化合规规则;
将所述标准化合规规则和所述待检查的合规文件输入至与所述语义模型连接的合规组件模型中,得到所述待检查的合规文件的合规检查结果。
本实施例中,由于语义模型是通过对应的合规类型的标准合规文件样本集训练的,确保了训练得到的语义模型的准确率,进而提高了标准化合规规则的准确率。
本实施例中,所述标准合规文件样本集中的每个标准合规文件中标注有标准化合规规则。
具体地,所述语义模型的训练过程包括:
获取所述合规类型对应的多个历史标准合规文件及每个所述历史标准合规文件的标准化合规规则集;
从预设的语义表中查找每个所述历史标准合规文件的标准化合规规则中的每个标准化合规规则对应的语义向量,构建每个所述历史标准合规文件的语义矩阵;
将所述多个历史标准合规文件的多个语义矩阵确定为语义样本集;
将所述语义样本集按照预设的比例划分为训练集和测试集;
将所述训练集输入至预设神经网络中进行训练,得到语义模型;
将所述测试集输入至所述语义模型中进行测试,并计算测试通过率;
若所述测试通过率大于或者等于预设通过率阈值,确定所述语义模型训练结束;若所述测试通过率小于所述预设通过率阈值,增加训练集的数量,重新进行语义模型的训练。
进一步地,所述将所述标准化合规规则和所述待检查的合规文件输入至与所述语义模型连接的合规组件模型中,得到所述待检查的合规文件的合规检查结果包括:
按照所述合规类型对应的标准定义的数据结构对所述待检查的合规文件进行数据转换,得到待检查的标准合规文件;
将所述待检查的标准合规文件和所述标准化合规规则输入至与所述语义模型连接的合规组件模型中,得到所述待检查的合规文件的合规检查结果。
具体地,可以预先训练合规组件模型,其中,所述合规组件模型的训练过程与所述语义模型的训练过程相同,基于每个历史标准合规规则与对应的历史标准合规文件之间的检查结果信息训练合规组件模型。
本实施例中,所述合规检查结果中包括所述待检查的合规文件不符合合规要求及所述待检查的合规文件符合合规要求,当所述待检查的合规文件不符合合规要求时,所述合规检查结果中包含有不符合合规要求的具体信息,例如,《人民币银行结算账户管理办法》中的第N条银行结账日期不符合标准化合规规则对应的结账日期。
本实施例中,由于所述标准化合规规则是通过语义模型识别得到的,解决了现有技术中依赖于用户的经验和能力,可能无法客观理解合规性的合规规则的问题,导致合规检查结果准确率低的问题,同时将标准合规文件与标准化合规规则之间的检查结果信息进行重新组合在合规组件模型中加以训练,使得训练得到的合规组件模型更加的精确,利用训练好的合规组件模型对所述待检查的合规文件进行合规检查,提高了合规检查结果的准确率。
示例性地,针对食品领域,参照国家食品安全标准检测的基本流程,将最新国家食品安全标准文件输入至语义模型中,得到相关标准/要求细则,即标准化合规规则;将所述标准化合规规则待检查的合规文件输入至合规组件模型中,检查待检查文件是否符合标准文件。
综上所述,本实施例所述的文件合规性检查装置,通过对所述待检查的合规文件进行第一预处理,获取所述待检查的合规文件对应的合规类型的原始合规文件样本集,避免获取到与合规类型无关的其他合规文件,确保了原始合规文件样本集的准确性,后续在进行语义模型训练时考虑了所述原始合规文件样本集,提高了训练得到的语义模型的准确性,进而提高了得到的标准化合规规则的准确性。创建合规检查模型,将所述标准合规文件样本集和所述待检查的合规文件输入至所述合规检查模型中,得到所述待检查的合规文件的合规检查结果,其中,所述合规检查模型中包含有语义模型和合规组件模型,通过将标准合规文件与语义模型输出的标准化合规规则之间的检查结果信息进行重新组合在合规组件模型中加以训练,使得训练得到的合规组件模型更加的精确,利用训练好的合规组件模型对所述待检查的合规文件进行合规检查,提高了合规检查结果的准确率。
实施例三
参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如安装在所述电子设备3中的文件合规性检查装置20,并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(Control Unit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的文件合规性检查装置20)、程序代码等,例如,上述的各个模块。
所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到文件合规性检查的目的。
示例性的,所述程序代码可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述处理器32执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述程序代码在所述电子设备3中的执行过程。例如,所述程序代码可以被分割成解析和获取模块201、第一预处理模块202、获取模块203、第二预处理模块204及创建和输入模块205。
在本发明的一个实施例中,所述存储器31存储多个计算机可读指令,所述多个计算机可读指令被所述至少一个处理器32所执行以实现文件合规性检查的功能。
具体地,所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种文件合规性检查方法,其特征在于,所述方法包括:
解析接收的文件合规性检查请求,获取待检查的合规文件;
对所述待检查的合规文件进行第一预处理,获取所述待检查的合规文件对应的合规类型;
基于所述待检查的合规文件对应的合规类型,获取原始合规文件样本集;
对所述原始合规文件样本集进行第二预处理,得到标准合规文件样本集;
创建合规检查模型,将所述标准合规文件样本集和所述待检查的合规文件输入至所述合规检查模型中,得到所述待检查的合规文件的合规检查结果,其中,所述合规检查模型中包含有语义模型和合规组件模型。
2.如权利要求1所述的文件合规性检查方法,其特征在于,所述对所述待检查的合规文件进行第一预处理,获取所述待检查的合规文件对应的合规类型包括:
识别所述待检查的合规文件的标签;
将识别到的标签输入至预先训练好的合规类型分类模型中,得到所述待检查的合规文件对应的合规类型。
3.如权利要求1所述的文件合规性检查方法,其特征在于,所述基于所述待检查的合规文件对应的合规类型,获取原始合规文件样本集包括:
从预设的源数据库中获取与所述待检查的合规文件的合规类型对应的目标数据源;
采用爬虫技术从所述目标数据源中,按照预设的规则获取原始合规文件样本集。
4.如权利要求1所述的文件合规性检查方法,其特征在于,所述对所述原始合规文件样本集进行第二预处理,得到标准合规文件样本集包括:
根据所述待检查的合规文件对应的合规类型,获取对应的标准定义的数据结构;
按照所述数据结构将所述原始合规文件样本集中的每个原始合规文件样本进行数据转换,得到标准合规文件样本集。
5.如权利要求1所述的文件合规性检查方法,其特征在于,所述将所述标准合规文件样本集和所述待检查的合规文件输入至所述合规检查模型中,得到所述待检查的合规文件的合规检查结果包括:
将所述标准合规文件样本集输入至所述语义模型中,得到标准化合规规则;
将所述标准化合规规则和所述待检查的合规文件输入至与所述语义模型连接的合规组件模型中,得到所述待检查的合规文件的合规检查结果。
6.如权利要求5所述的文件合规性检查方法,其特征在于,所述语义模型的训练过程包括:
获取所述合规类型对应的多个历史标准合规文件及每个所述历史标准合规文件的标准化合规规则集;
从预设的语义表中查找每个所述历史标准合规文件的标准化合规规则中的每个标准化合规规则对应的语义向量,构建每个所述历史标准合规文件的语义矩阵;
将所述多个历史标准合规文件的多个语义矩阵确定为语义样本集;
将所述语义样本集按照预设的比例划分为训练集和测试集;
将所述训练集输入至预设神经网络中进行训练,得到语义模型;
将所述测试集输入至所述语义模型中进行测试,并计算测试通过率;
若所述测试通过率大于或者等于预设通过率阈值,确定所述语义模型训练结束;若所述测试通过率小于所述预设通过率阈值,增加训练集的数量,重新进行语义模型的训练。
7.如权利要求5所述的文件合规性检查方法,其特征在于,所述将所述标准化合规规则和所述待检查的合规文件输入至与所述语义模型连接的合规组件模型中,得到所述待检查的合规文件的合规检查结果包括:
按照所述合规类型对应的标准定义的数据结构对所述待检查的合规文件进行数据转换,得到待检查的标准合规文件;
将所述待检查的标准合规文件和所述标准化合规规则输入至与所述语义模型连接的合规组件模型中,得到所述待检查的合规文件的合规检查结果。
8.一种文件合规性检查装置,其特征在于,所述装置包括:
解析和获取模块,用于解析接收的文件合规性检查请求,获取待检查的合规文件;
第一预处理模块,用于对所述待检查的合规文件进行第一预处理,获取所述待检查的合规文件对应的合规类型;
获取模块,用于基于所述待检查的合规文件对应的合规类型,获取原始合规文件样本集;
第二预处理模块,用于对所述原始合规文件样本集进行第二预处理,得到标准合规文件样本集;
创建和输入模块,用于创建合规检查模型,将所述标准合规文件样本集和所述待检查的合规文件输入至所述合规检查模型中,得到所述待检查的合规文件的合规检查结果,其中,所述合规检查模型中包含有语义模型和合规组件模型。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的文件合规性检查方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的文件合规性检查方法。
CN202210593966.5A 2022-05-27 2022-05-27 文件合规性检查方法、装置、电子设备及存储介质 Pending CN114925674A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210593966.5A CN114925674A (zh) 2022-05-27 2022-05-27 文件合规性检查方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210593966.5A CN114925674A (zh) 2022-05-27 2022-05-27 文件合规性检查方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114925674A true CN114925674A (zh) 2022-08-19

Family

ID=82810583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210593966.5A Pending CN114925674A (zh) 2022-05-27 2022-05-27 文件合规性检查方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114925674A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115130139A (zh) * 2022-08-31 2022-09-30 杭州链城数字科技有限公司 数字资产审查方法、装置、***和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115130139A (zh) * 2022-08-31 2022-09-30 杭州链城数字科技有限公司 数字资产审查方法、装置、***和存储介质

Similar Documents

Publication Publication Date Title
EP3686750A1 (en) Data migration
CN113435998B (zh) 贷款逾期预测方法、装置、电子设备及存储介质
CN114663223A (zh) 基于人工智能的信用风险评估方法、装置及相关设备
CN113435582B (zh) 基于句向量预训练模型的文本处理方法及相关设备
CN113190372A (zh) 多源数据的故障处理方法、装置、电子设备及存储介质
CN112950344A (zh) 数据评估方法、装置、电子设备及存储介质
CN114638547A (zh) 企业战略智能预警方法、装置、电子设备及存储介质
CN114328277A (zh) 一种软件缺陷预测和质量分析方法、装置、设备及介质
CN113256108A (zh) 人力资源分配方法、装置、电子设备及存储介质
CN115525750A (zh) 机器人话术检测可视化方法、装置、电子设备及存储介质
CN114880449A (zh) 智能问答的答复生成方法、装置、电子设备及存储介质
CN114925674A (zh) 文件合规性检查方法、装置、电子设备及存储介质
CN116340831B (zh) 一种信息分类方法、装置、电子设备及存储介质
CN113674065B (zh) 基于服务触点的业务推荐方法、装置、电子设备及介质
CN114881313A (zh) 基于人工智能的行为预测方法、装置及相关设备
CN115237706A (zh) 埋点数据处理方法、装置、电子设备及存储介质
CN113449037B (zh) 基于ai的sql引擎调用方法、装置、设备及介质
CN114840522A (zh) 基于人工智能的数据查询方法、装置、电子设备及介质
CN113987351A (zh) 基于人工智能的智能推荐方法、装置、电子设备及介质
CN113254728B (zh) 任务信息展示方法、装置、电子设备及存储介质
CN114637564B (zh) 数据可视化方法、装置、电子设备及存储介质
CN114461717A (zh) 自动化数据对比方法、装置、电子设备及存储介质
CN113139381A (zh) 不均衡样本分类方法、装置、电子设备及存储介质
CN114399318A (zh) 链路处理方法、装置、计算机设备及存储介质
CN116414709A (zh) 业务***检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination