CN110334212A

CN110334212A - 一种基于机器学习的领域性审计知识图谱构建方法

Info

Publication number: CN110334212A
Application number: CN201910585450.4A
Authority: CN
Inventors: 李保珍; 王倩玉; 王雪荣; 李迁; 徐海勇; 陶涛; 杨猛; 徐萌
Original assignee: Medium Shift Information Technology Co Ltd; NANJING AUDIT UNIVERSITY; Nanjing University
Current assignee: Medium Shift Information Technology Co Ltd; NANJING AUDIT UNIVERSITY; Nanjing University
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-10-15

Abstract

本发明公开了一种基于机器学习的领域性审计知识图谱构建方法，首先通过多种来源获取数据；然后对获取的数据进行预处理；采用实体识别与关系处理模块和专家知识工程模块实现对实体的识别；然后根据实体识别与关系处理模块和专家知识工程模块两个步骤获得的实体，进入自然语言理解模块，利用主题模型，提取特征词；根据自然语言理解模块提取出的特征词，进入特征机器学习模块，根据具体场景调整权重，将特征词进行分类；最后，生成知识图谱。本发明构建的知识图谱可以揭示审计相关主体之间的多维关联；从而提高审计法规及案例的检索及关联比对效率。

Description

一种基于机器学习的领域性审计知识图谱构建方法

技术领域

本发明涉及审计图谱构建领域，具体涉及一种基于机器学习的领域性审计知识图谱构建方法。

背景技术

近年来，知识图谱的应用变成了大数据时代的一个标志。知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息(HeterogeneousInformation)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。而伴随着知识图谱的兴起是人工智能领域的机器学习技术以及相关概念。其核心要点在于通过搜集一系列大数量级的结构化数据或非结构化数据，继而基于领域专业性对数据进行分析建模，并通过机器计算从中找出规律——通常是该领域的规律，最后机器可以识别该规律并进行学习，形成之后生成相关数据的计算规则。

目前对于知识图谱的建构方法有很多，通常涉及的技术是以爬虫爬取、日志搜索(querylog)或基于Bootstrapping的多类别协同模式学习等方式，这类方法现在主要的应用途径是优化现有的搜索引擎。全世界的所有数据中，高达80％是非结构化数据，而大多数现有技术和云技术无法识别和分析这些数据。在审计领域，由于其高度的专业性、知识性和强逻辑性，大多利用审计人员的经验来建构数学审计规则来处理审计数据，但是这类数据通常是结构化数据，解析的也都是通用文本，无法适用于审计文本训练，灵活性较差。不仅如此，单不论审计知识图谱的建构还不成熟，即使基于现有的关联图技术和算法，对审计领域的适用度不足，主要是因为审计专业性较强，传统方法无法实现审计概念、规则的认知，只能揭示常规的实体关联关系，在审计逻辑层面的技术处理上有较大缺陷，并且业内对于利用机器学习的技术建构起审计知识图谱也仍旧处于空白。

发明内容

为解决上述问题，本发明提供了一种基于机器学习的领域性审计知识图谱构建方法，。

为实现上述目的，本发明采取的技术方案为：

一种基于机器学习的领域性审计知识图谱构建方法，首先通过多种来源获取数据；然后对获取的数据进行预处理；采用实体识别与关系处理模块和专家知识工程模块实现对实体的识别：其中，实体识别与关系处理模块采用自下而上法构建审计知识图谱，专家知识工程模块采用自上而下法构建审计知识图谱，两者相辅相成；然后根据实体识别与关系处理模块和专家知识工程模块两个步骤获得的实体，进入自然语言理解模块，利用主题模型，提取特征词；根据自然语言理解模块提取出的特征词，进入特征机器学习模块，根据具体场景调整权重，将特征词进行分类；最后，生成知识图谱；具体包括如下步骤：

S1、通过多种来源获取数据；

获取被审计单位的相关数据，相关数据包括：被审计单位的概况(行业类型、上级主管部门、组织结构)、被审计单位的内部控制制度、被审计单位的历年财务数据、被审计单位的历年审计报告、被审计单位所需遵循的法律法规、审计案例、审计术语，并建立四个初始数据库：被审计单位原始数据库、审计术语库、审计案例库、法律法规库；

S2、对获取的数据进行预处理；

对于结构化数据，直接提取字段信息；

对于半结构化数据和非结构化数据的处理：

(1)输入步骤S1中获取的数据，首先识别所有半结构化数据和非结构化数据中涉及的特征属性，基于模块中种类特征模型的定义快速识别法律法规、审计案例、审计报告、内部控制制度等文本数据中被审计单位的行业类型，定位可用信息；

(2)利用模块段落识别模型对文本进行段落识别和划分；

(3)利用模块语句特征模型，统一文本用语特征，规范用模块语句特征模型采用关键字的方式表达，值得注意的是，在分句的过程中需要在审计报告和审计案例的分句过程中归纳审计疑点，形成审计疑点库；

(4)利用分词技术，对识别到的句子进行极细颗粒的词语划分，按照中文语法并辅以关键字对词语进行划分的同时，还可以进行类别归类；

S3、采用实体识别与关系处理模块实现对实体的识别；

(1)、对经过文本预处理模块后获得的文本语料库中具有意义的实体进行识别，并辅以法律法规库、审计知识库和审计案例库，利用命名实体识别的技术提取出业务概念实体、财务审计概念实体、组织实体、审计对象实体；

(2)、业务概念实体中，使用法律法规库，对业务实体关系进行识别，具体采取具有业务逻辑的分析方法对实体间的关系总结提取，进而建立起业务实体之间的关联关系；财务审计概念实体中，基于会计科目的层次性实现各会计科目之间的关系；组织实体中，基于被审计单位的机构设置等信息判断组织实体之间的关系；

(3)、建立四种类型的实体之间的联系；这里建立了逻辑上具有直接关系的三种关系识别，即业务与会计科目之间的关系、业务与审计客体之间的关系、会计科目与审计对象之间的关系，其余关系可以通过这三个关系间接关联起来；

(4)、利用规则样本建立规则模型，该规则模型可变且具有复用性，从而可以对业务实体、财务审计实体、组织实体、审计对象实体、实体关系以及业务规则逻辑做到同步更新；

S4、采用专家知识工程模块实现对实体的识别；

基于专家规则模型实现会计审计概念的抽取、业务概念的抽取、审计疑点的抽取，建立与法律法规之间的映射；

S5、根据实体识别与关系处理模块和专家知识工程模块两个步骤获得的实体，进入自然语言理解模块，利用主题模型，提取特征词；

(1)提取特征词，特征词都是实体，特征词的提取要依据上下文，并基于此进行分词技术的运用，具体的：

a)通过分词算法对文本中的词汇进行提取，对于每一类，***自动去除表现力不强的词汇，筛选出针对该类的特征项集合；

b)针对词频、文档频、停用词采用TF-IDF(term frequency-inverse documentfrequency)方法来进行特征选择，依据某个词的词频和其出现过的文本的频率来计算该词在整个文本集合中的权重，依据权重来进行特征选取，权重越高，说明该词对文本的区分能力越强，否则其区分能力则越弱；

(2)利用词聚类组件将提取出的特征词聚类，首先基于Google Word2Vec框架给已提取的特征词编码，Word2Vec自动编码的过程会受上下文语境的影响，然后结合法律法规库和概念逻辑规则，根据语义信息、短语结构、短语词典等计算特征词之间的相关关系，形成相关特征词聚类以及相关性评价；

(3)当有新的特征词进入数据库时，依据聚类表示和组件，对语义意图进行识别，每个特征词采用分布式表示(Distributed Representation)表示方法，将所有特征词的编码设置为一个词向量，使用神经网络训练语言模型，采用SOM算法，对新特征词的词向量进行训练，同时通过文本统计出的词频、词的共现等因素，对所有特征词的词向量值进行调整，进而从大量未标注的普通文本数据中无监督地学习出优质的词向量，最后通过比较词向量的距离，将词向量距离较近的特征词集合进行聚类合并，并作为组件的输出；

(4)基于文本特征词，形成向量空间模型，在这个模型中，文本空间被看作是由一组正交词条向量组成的向量空间，每个文本表示为其中一个范化特征向量；

(5)将生成的特征词放进审计知识特征库中存储以供使用；

S6、根据实体识别与关系处理模块和专家知识工程模块两个步骤获得的实体，进入自然语言理解模块，利用主题模型，提取特征词；

(1)提取具有代表性的特征词

根据对审计知识特征库中的业务实体、财务审计实体、组织实体、审计对象实体、文本数据、审计概念的特征分析，进行文本特征的量化配置，包括逻辑段的特征识别、特征词的特征配置等，作为下一步实体权重计算和替换的规则依据；

(2)对具有业务实体特征、财务审计实体特征、组织实体特征、审计对象特征和文本数据特征的特征词进行权重加权计算，先给这些特征词设置初始权重，将这个权重参数设置为人为可调整的，然后根据不同的目的、不同的场景、不同的类别的图谱种类，人为调整这些权重参数，可以根据不同的需求和想达到的效果进行不同的计算；

(3)得到加权计算的特征之后，利用随机森林算法，生成每个决策树，利用每个决策树得到分类器，就可以对输入进来的样本特征进行分类，同时还可以给出各个变量(基因)的重要性评分，评估各个变量在分类中所起的作用；

(4)分类后的特征被固定下来，最后进入到审计知识特征库作为更为准确的样本补充；

S7、生成知识图谱；

(1)利用业务知识特征库中的业务特征实体数据、文本特征数据进行聚类划分，从中提取出业务知识；

(2)将上一步的业务知识根据被审计单位的结构建立关联关系，从而形成被审计单位的整个财务业务体系；

(3)将已生成的具有框架体系的业务知识按照结构化数据存储的方式存储在审计知识图谱存储模块中，按照法律关系的不同具体划分不同的存储集。

进一步地，所述被审计单位的概况、被审计单位的内部控制制度基于网络爬虫模块在被审计单位的官网爬取，所述被审计单位的历年财务数据、被审计单位的历年审计报告从被审计单位直接获取的方式采集，所述被审计单位所需遵循的法律法规、审计案例、审计术语采用网络爬虫模块在互联网中爬取；

进一步地，所述步骤S2的(2)中采用通用的段落分类器，输入由各个段落组成的法律法规、审计案例、被审计单位内部控制制度、审计报告等相关文本，输出各个段落的类别属性。

进一步地，所述步骤S2的(3)中采用文本匹配的方法，输入由各个句子组成的法律法规、审计案例、被审计单位内部控制制度、审计报告等相关段落文本，输出句子。

进一步地，所述步骤S2的(4)中采用结巴中文分词器，输入审计本体、审计词典和由各个词汇组成的法律法规、审计案例、被审计单位内部控制制度、审计报告等相关文本语句，输出分词后的句子和相对应的关键词。

进一步地，所述实体识别与关系处理模块具有文本的识别引擎且具有自学习能力，在其自动采集文本信息过程中能够识别出其中文本特征清晰的实体，将其存放在提取目标集中，作为“已知知识”处理，为不清晰的实体提取提供更多的线索，使可识别率大幅提高，随着已知知识的增多，能够清晰识别的文本特征实体也相应增加，从而达到***自学习目的；文本识别引擎采用了动态构造正则表达式的机制，即通过XPath检索已知知识，作为当前正则表达式中的精确文本，充当当前文本的领域特征，借之增强文本模式，继而完成匹配。不断重复这种复合提取模式，能够迭代出更多的实体。

本发明具有以下有益效果：利用自然语言理解技术进行语义理解以及文本意图的识别，从而抽取得到审计文本特征；利用特征机器学习技术的随机森林算法对机器进行训练学习，从而得到审计知识特征；利用知识工程技术用于梳理建立审计规则模型，识别得到审计概念，对原始审计数据识别出审计知识点，并通过审计概念框架自动关联审计知识点以构建领域性的审计知识图谱，可以揭示审计相关主体之间的多维关联；从而提高审计法规及案例的检索及关联比对效率。

附图说明

图1为本发明实施例一种基于机器学习的领域性审计知识图谱构建方法的流程图。

图2为本发明实施例中步骤S1的工作原理图。

图3为本发明实施例中步骤S2的工作原理图。

图4为本发明实施例中步骤S3的工作原理图。

图5为本发明实施例中步骤S4的工作原理图。

图6为本发明实施例中步骤S5的工作原理图。

图7为本发明实施例中步骤S6的工作原理图。

图8为本发明实施例中步骤S7的工作原理图。

图9为本发明实施例构建的审计知识图谱结果展示示意图。

图10为本发明应用例中审计案例检索及推荐***示意图。

图11为A高校所需遵循的法律法规展示。

图12为高等学校财务管理图谱展示。

图13为学校预算图谱展示。

图14为收入预算图谱展示。

图15为支出预算图谱展示。

图16为国内外教学交流合作支出。

图17为清查盘点的图谱展示。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1-图9所示，本发明实施例提供了一种基于机器学习的领域性审计知识图谱构建方法，包括如下步骤：

S1、通过多种来源获取数据；

获取被审计单位的相关数据，相关数据包括：被审计单位的概况(行业类型、上级主管部门、组织结构)、被审计单位的内部控制制度、被审计单位的历年财务数据、被审计单位的历年审计报告、被审计单位所需遵循的法律法规、审计案例、审计术语，并建立四个初始数据库：被审计单位原始数据库、审计术语库、审计案例库、法律法规库；如图2所示，所述被审计单位的概况、被审计单位的内部控制制度基于网络爬虫模块在被审计单位的官网爬取，所述被审计单位的历年财务数据、被审计单位的历年审计报告从被审计单位直接获取的方式采集，所述被审计单位所需遵循的法律法规、审计案例、审计术语采用网络爬虫模块在互联网中爬取；

S2、对获取的数据进行预处理；

一般被审计单位的财务数据是直接从被审计单位财务部门拷贝出来的，属于结构化数据，对于结构化数据，直接提取字段信息即可。

对于半结构化数据和非结构化数据的处理：

(1)输入步骤S1中获取的数据，首先识别所有半结构化数据和非结构化数据中涉及的特征属性，基于模块中种类特征模型的定义可快速识别法律法规、审计案例、审计报告、内部控制制度等文本数据中被审计单位的行业类型，定位可用信息。这一步采用文本匹配的处理方法，输入文本和文本属性判定规则，输出由相应审计领域本体构建时所规定文本属性类别；

(2)利用模块段落识别模型对文本进行段落识别和划分，便于将文本的内容主题清晰化，为下一步的文本处理做准备。这一步采用通用的段落分类器，输入由各个段落组成的法律法规、审计案例、被审计单位内部控制制度、审计报告等相关文本，输出各个段落的类别属性。

(3)利用模块语句特征模型，统一文本用语特征，规范用模块语句特征模型采用关键字的方式表达，主要是语句意义的表达。值得注意的是，在分句的过程中需要在审计报告和审计案例的分句过程中归纳审计疑点，形成审计疑点库。这一步采用文本匹配的方法，输入由各个句子组成的法律法规、审计案例、被审计单位内部控制制度、审计报告等相关段落文本，输出句子。例如高等学校内部控制包括：内部控制、控制、控制机制、高校、经营活动等，从而将段落拆分成一个个句子。

(4)利用分词技术，对识别到的句子进行极细颗粒的词语划分，按照中文语法并辅以关键字对词语进行划分的同时，还可以进行类别归类。这一步采用结巴中文分词器，输入审计本体、审计词典和由各个词汇组成的法律法规、审计案例、被审计单位内部控制制度、审计报告等相关文本语句，输出分词后的句子和相对应的关键词。例如高等学校收入包括：财政教育拨款、财政科研拨款、财政其他拨款、教育事业收入、科研事业收入、上级补助收入、附属单位上缴收入、经营收入、其他收入等；高等学校资产管理包括流动资产、固定资产、在建工程、无形资产、对外投资等。

S3、采用实体识别与关系处理模块实现对实体的识别；

(1)、对经过文本预处理模块后获得的文本语料库中具有意义的实体进行识别，并辅以法律法规库、审计知识库和审计案例库，利用命名实体识别的技术提取出业务概念实体、财务审计概念实体、组织实体、审计对象实体，图3中从文本语料库中抽取的业务概念实体识别及关系、财务审计概念实体识别及关系、审计客体实体识别及关系和审计对象实体识别及关系是指对业务概念实体、财务审计概念实体、审计客体实体、审计对象实体的识别和它们自身存在的内部关系。

(2)、业务概念实体中，使用法律法规库，对业务实体关系进行识别，具体采取具有业务逻辑的分析方法对实体间的关系总结提取，进而建立起业务实体之间的关联关系，如先后关系、上下级关系等。财务审计概念实体囊括了会计科目等财务概念，基于会计科目的层次性可以判断会计科目之间的关系。组织实体是指审计客体以及与审计客体相关的组织单位和个人。审计客体是指接受审计人员审计的经济责任承担者和履行者，即被审计单位，这里包括了被审计单位本身、被审计单位的下属部门、工作人员等。与审计客体相关的单位和个人包括了被审计单位的上级机构及其相关部门人员，以及被审计单位的下级机构及其相关部门人员。基于被审计单位的机构设置等信息可以判断组织实体之间的关系。审计对象实体是指被审计单位的财务收支及其有关的经营管理活动和作为提供这些经济活动信息载体的会计报表及其他有关资料，它是审计数据的来源，可以作为审计证据呈现。

(3)、在识别出各个实体及其自身关系之后，需要再将四种类型的实体之间的联系建立起来。这里建立了逻辑上具有直接关系的三种关系识别，即业务与会计科目之间的关系、业务与审计客体之间的关系、会计科目与审计对象之间的关系，其余关系可以通过这三个关系间接关联起来。

(4)、利用规则样本建立规则模型，该模型具有可变性、及时性、实时更新等特性，无论法律法规如何变化，只要规则模型可变且具有复用性，对业务实体、财务审计实体、组织实体、审计对象实体、实体关系以及业务规则逻辑就可以做到同步更新。

(5)、模块还有文本的识别引擎且具有自学习能力，在其自动采集文本信息过程中能够识别出其中文本特征清晰的实体，将其存放在提取目标集中，作为“已知知识”处理，为不清晰的实体提取提供更多的线索，使可识别率大幅提高，随着已知知识的增多，能够清晰识别的文本特征实体也相应增加，从而达到***自学习目的。文本识别引擎采用了动态构造正则表达式的机制，即通过XPath检索已知知识，作为当前正则表达式中的精确文本，充当当前文本的领域特征，借之增强文本模式，继而完成匹配。不断重复这种复合提取模式，能够迭代出更多的实体。

S4、采用专家知识工程模块实现对实体的识别；

(1)基于财务专家、审计专家或相关学术人士具有资深的财务审计方面的知识和经验构建专家规则模型；

(2)会计概念、审计概念和业务概念由具有具体意义的构成要件和一般词语所组成。会计概念的抽取就需要对具有会计知识的主体进行解构，根据构成要件，从而分析出会计概念。审计概念和业务概念亦然。

(3)审计疑点是指可能存在的问题，审计疑点一方面是在步骤二中通过审计报告和审计案例中获取，考虑到文件内容的局限性，也需要财务专家、审计专家或相关学术人士对审计疑点进行补充。同时，在审计疑点抽取阶段，还需要财务专家、审计专家或相关学术人士建立审计疑点和法律法规之间的映射关系，这是为了后期在提出审计问题时能快速定位具体的法律条文，使审计问题的提出有法可依而进行的必要步骤。

(1)提取特征词。特征词都是实体，特征词的提取要依据上下文，并基于此进行分词技术的运用，具体实施是：

a)通过分词算法对文本中的词汇进行提取。所有词汇对文本分类的意义不同，通常一些通用的、各个类别都普遍存在的词汇对分类的贡献小，在某特定类中出现比重大而在其他类中出现比重小的词汇对文本分类的贡献大。为了提高分类精度，对于每一类，***自动去除表现力不强的词汇，筛选出针对该类的特征项集合。

b)***在词频、文档频、停用词这些基本方法上，采用了TF-IDF(term frequency-inverse document frequency)方法来进行特征选择，依据某个词的词频和其出现过的文本的频率来计算该词在整个文本集合中的权重，依据权重来进行特征选取。权重越高，说明该词对文本的区分能力越强，否则其区分能力则越弱。

(2)利用词聚类组件将提取出的特征词聚类。首先基于Google Word2Vec框架给已提取的特征词编码，Word2Vec自动编码的过程会受上下文语境的影响。然后结合法律法规库和概念逻辑规则，根据语义信息、短语结构、短语词典等计算特征词之间的相关关系，形成相关特征词聚类以及相关性评价。例如：在高校审计中，“会计学院”、“金融学院”、“工商管理学院”、“信息工程管理学院”都是该高校的二级学院，这些实体的相关性很高，那么可以使用“二级学院”替代上述实体。

(3)当有新的特征词进入数据库时，依据聚类表示和组件，对语义意图进行识别，每个特征词采用分布式表示(Distributed Representation)表示方法，将所有特征词的编码设置为一个词向量，例如：[0.492,-0.721,-0.752,0.827,0.442,...]。使用神经网络训练语言模型，采用SOM算法，对新特征词的词向量进行训练。同时通过文本统计出的词频、词的共现等因素，对所有特征词的词向量值进行调整，进而从大量未标注的普通文本数据中无监督地学习出优质的词向量。最后通过比较词向量的距离，将词向量距离较近的特征词集合进行聚类合并，并作为组件的输出。

(4)基于文本特征词，形成向量空间模型。在这个模型中，文本空间被看作是由一组正交词条向量组成的向量空间，每个文本表示为其中一个范化特征向量。

(5)将生成的特征词放进审计知识特征库中存储以供使用。

(1)提取具有代表性的特征词。根据对审计知识特征库中的业务实体、财务审计实体、组织实体、审计对象实体、文本数据、审计概念的特征分析，进行文本特征的量化配置，包括逻辑段的特征识别、特征词的特征配置等，作为下一步实体权重计算和替换的规则依据。例如：在法律法规中逻辑段的划分，可以根据章节或者法律条文进行划分，分析其法律结构，作为该逻辑段的文本特征。在审计报告和审计案例中逻辑段的划分，对于被审计单位基本情况、审计情况、审计发现的问题的逻辑段，其前导特征字符串和截止特征字符串，在不同种类的审计报告和案例中均能总结出规律，作为特定逻辑段的文本特征。例如：对于“长期挂账”的特征要素，对其进行后续权重计算的量化，设置基准参数。

(2)对具有业务实体特征、财务审计实体特征、组织实体特征、审计对象特征和文本数据特征的特征词进行权重加权计算，先给这些特征词设置一些初始权重，将这个权重参数设置为人为可调整的，然后根据不同的目的、不同的场景、不同的类别的图谱种类，人为调整这些权重参数，可以根据不同的需求和想达到的效果进行不同的计算。例如：“账外账”需要作为判定审计意见的主要特征时，则该特征的准确度权重参数就需要提高，如是作为一个次要特征，则该特征的准确度权重参数就可以降低。

(3)得到加权计算的特征之后，利用随机森林算法，生成每个决策树，利用每个决策树得到分类器，就可以对输入进来的样本特征进行分类，同时还可以给出各个变量(基因)的重要性评分，评估各个变量在分类中所起的作用。例如：对“超过两年”及其相关表述进行样本归类，对该特征进行重要性评分，比如在长期挂账的重要性评分就会高，那么就可以作为长期挂账的特征——例如往来款超过两年未计提坏账准备。

(4)分类后的特征被固定下来，最后进入到审计知识特征库作为更为准确的样本补充。例如：“超过两年”的表述“存在三年及以上应收项目”就可以被补充进长期挂账这类审计问题的知识特征库中。

S7、生成知识图谱；

(1)利用业务知识特征库中的业务特征实体数据、文本特征数据进行聚类划分，从中提取出业务知识，这类知识可以是法律法规所含有的业务知识，但更多的是审计领域中基于财务人员的工作经验、基于审计人员的审计经验、基于大众社会的固有惯例、基于社会运行的法律规则等知识。

(2)审计领域需要审查被审计单位的经济运行情况，被审计单位的结构就是相关机构设置。要形成业务知识之间的动态关联就需要这些框架作为支撑，将上一步的业务知识根据被审计单位的结构建立关联关系，从而形成被审计单位的整个财务业务体系。

应用例1：审计案例的智能检索及案例推荐

基于构建的知识图谱可以为审计人员提供审计案例智能检索与审计案例智能推荐的功能。在开展审计工作的过程中，审计人员难免遇到需要翻阅过往审计案例为现有工作提供支持的情况。基于知识图谱技术的智能检索与案例推荐可以让审计人员更快的查找到需要的信息，提高审计人员的工作效率。

由于审计案例是文本类非结构化数据，故而在前期数据处理时要做很多准备工作，如数据库建立、本体构建、人工标注等等。首先汇总归纳出审计人员有需求的、感兴趣的本体概念，搭建概念框架。最终根据确认了以下几个要素：审计单位、被审计单位(人)、审计内容的发生时间、审计实施时间、被审计单位行业类型、审计方法、审计内容、审计问题、法律法规、审计评价、审计处理处罚。最终构成如图10所示：

具体要素的描述与内容如下表所示：

表1.审计案例要素描述

依据归纳出的要素，对审计案例文本进行人工标注，并依据审计案例本体建立起关联关系，最终一并存储进审计案例数据库中。基于前期的人工标注工作，利用本发明实施例提出的知识图谱构建流程，实现自动识别，机器学***台还可以通过对审计人员正在进行的审计项目的关键信息抓取，自动推荐同行业类型、同审计单位、同审计内容、同审计问题、同审计方法、同时间等多种信息高度相关的审计案例，有效地实现辅助审计人员开展审计工作的作用。应用例2：高校财务审计的法律法规知识图谱构建及应用

本实施例的研究场景都是界定在A高校的场景下，因此在目前构建的法律法规库现存的五万多条法律法规中，挑选了属A高校所需遵循的法律法规共计五百多条。图11是基于其中10部法律法规形成的法律法规知识图谱。这10部法律法规分别是：《高等学校财务制度》、《高等学校会计制度》、《行政事业单位内部控制规范(试行)》、《江苏高校品牌专业建设工程专项资金管理暂行办法》、《江苏省省属院校财务预算执行情况及决算年审规定》、《江苏省省属院校预算管理办法(试行)》、《事业单位财务规则》、《江苏省基本建设财务管理办法》、《江苏省事业单位工作人员绩效工资制度改革实施意见》、《江苏省基本建设财务管理暂行规定》。

将抽取的实体依照实体识别与关系处理模块，分成了业务概念实体类、财务审计概念实体类、组织实体类和审计对象实体类，为无法分进这四类的实体设立了其他类，并按不同的颜色进行了展示。截取局部图进行如下展示：

由图12到图16可以发现其中的包含关系。根据图12看，高等学校财务管理包含了学校预算和学校决算。根据图13看，学校预算包含了收入预算和支出预算。根据图14看，收入预算包含了经营收入、事业收入、中央财政补助资金、上级补助收入、附属单位上缴款、学校自筹基金、省财政专项基金、其他渠道基金、其他收入，同时高等学校预算和事业单位预算都包含收入预算。根据图15看，支出预算包含了基本支出预算、项目支出预算、教育教学研究与改革支出、教师发展与教学团队建设支出、课程教材资源开发支出、学生创业创新训练支出、国内外教学交流合作支出、实验实训条件建设支出，同时高等学校预算和事业单位预算都包含支出预算。根据图16看，国内外教学交流合作支出包含了差旅费、会议费、伙食费、出国费、住宿费、外国专家来华的旅费。所以根据法律法规，可以把高等学校应该进行的预算管理内容明确。

法律法规的知识图谱不只有上下级的包含关系，也可以展现其他多种关系。如图17所示是清查盘点的图谱展示。由图可以看出，清查盘点的对象是存货；清查盘点包含了定期盘点和不定期盘点；清查盘点的结果可能有盘盈和盘亏。

在出审计报告阶段，审计人员在发现的审计问题在引用法律条款上仍存在诸多问题。主要问题有以下几个：(1)没有引用法律条款；(2)引用废止或失效的法律条款；(3)引用的法律条款不适当；(4)同一个问题引用多个内容相近的法规做依据；(5)将处理依据作为审计问题的定性依据；(6)法律条款依据的引用不完整。以上问题都造成了审计人员在审计问题的定性依据引用上的困难，从而使得审计报告质量下降，审计效力降低。

这些困难形成的主要原因还是审计人员对法律法规的了解与理解上，因此面对这些困难，采用知识图谱的方法，将法律法规的条文零散化、精细化，抽取出每一句话的实体、关系、属性、值，有助于审计人员对法律法规进行深入透彻的理解。在帮助审计人员的理解的同时，还能利用法律法规知识图谱直接有效地解决上述多个问题：

(1)基于专家知识构建审计疑点库。审计疑点是被审计单位可能存在的未经证实的审计问题。在构建法律法规知识图谱，对法律条款的实体、关系、属性、值进行抽取的同时，将法律条款与审计疑点直接关联，建立映射关系。审计人员在确定被审计单位的审计问题后，可以通过审计疑点的检索，直接找到对应的法律条款，减少审计人员自行查询法律条款的时间，也避免了人为查找可能存在的失误与错漏，提高了审计工作效率。从而解决“没有引用法律条款”、“引用法律条款不适当”和“法律条款依据的引用不完整”等问题。

(2)在构建法律法规知识图谱之前，建立法律法规知识库时，对法律法规根据法律效力位阶按根本法、基本法、普通法、行政法规、地方性法规和行政规章进行分类，遵循“上位法优于下位法、新法优于旧法、特别法优于一般法”的原则/。一个审计问题可能在多部法律法规中提及，故而一个审计疑点可能对应了多条法律条款，在审计人员进行审计疑点的检索时，显示所有相关的法律条款，并将法律条款按法律效力由大到小排列，便于审计人员获取。从而解决“引用废止或失效的法律条款”、“引用的法律条款不适当”、“同一个问题引用多个内容相近的法规做依据”等问题。

(3)对于构建好的法律法规知识图谱，及时更新法律法规知识库。将废止或失效的法律条款贴上“失效”标签，移进失效法律法规库中。同时加入新的法律条款，抽取实体、关系、属性、值，构建知识图谱进入法律法规知识库。审计人员在引用法律条款时，可知晓自己引用的法律条款什么时候失效或生效。从而解决“引用废止或失效的法律条款”问题。

(4)在构建法律法规知识图谱数据预处理模块，在对法律法规进行分段分句时，将审计处理依据和审计定性依据区分开来，分类存储。从而解决“将处理依据作为审计问题的定性依据”问题。

例如，2016年度A高校在非财政拨款的收入中列支因公出国费用105万，而A高校并未编制财政拨款的因公出国的预算支出。审计人员为该问题定性时可能定性为“预算编制不完整”。通过检索关键词，关联到《江苏省省属院校预算管理办法(试行)》第二章第十条的预算算编制原则，全面性原则：学校预算要体现综合预算的要求，所有应纳入学校预算管理的收支，必须全部纳入年度预算，统一管理，统筹安排，全面反映各项事业计划和任务的需要。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于机器学习的领域性审计知识图谱构建方法，其特征在于：包括如下步骤：

S1、通过多种来源获取数据；

S2、对获取的数据进行预处理；

S3、采用实体识别与关系处理模块实现对实体的识别；

S4、采用专家知识工程模块实现对实体的识别；

S6、根据自然语言理解模块提取出的特征词，进入特征机器学习模块，根据具体场景调整权重，将特征词进行分类；

S7、生成知识图谱。

2.如权利要求1所述的一种基于机器学习的领域性审计知识图谱构建方法，其特征在于：具体包括如下步骤：

S1、通过多种来源获取数据；

获取被审计单位的相关数据，相关数据包括：被审计单位的概况、被审计单位的内部控制制度、被审计单位的历年财务数据、被审计单位的历年审计报告、被审计单位所需遵循的法律法规、审计案例、审计术语，并建立四个初始数据库：被审计单位原始数据库、审计术语库、审计案例库、法律法规库；

S2、对获取的数据进行预处理；

对于结构化数据，直接提取字段信息；

对于半结构化数据和非结构化数据的处理：

(2)利用模块段落识别模型对文本进行段落识别和划分；

S3、采用实体识别与关系处理模块实现对实体的识别；

(2)、业务概念实体中，使用法律法规库，对业务实体关系进行识别，具体采取具有业务逻辑的分析方法对实体间的关系总结提取，进而建立起业务实体之间的关联关系；财务审计概念实体中，基于会计科目的层次性实现各会计科目之间的关系；组织实体中，基于被审计单位的机构设置信息判断组织实体之间的关系；

S4、采用专家知识工程模块实现对实体的识别；

b)针对词频、文档频、停用词采用TF-IDF方法来进行特征选择，依据某个词的词频和其出现过的文本的频率来计算该词在整个文本集合中的权重，依据权重来进行特征选取，权重越高，说明该词对文本的区分能力越强，否则其区分能力则越弱；

(2)利用词聚类组件将提取出的特征词聚类，首先基于Google Word2Vec框架给已提取的特征词编码，Word2Vec自动编码的过程会受上下文语境的影响，然后结合法律法规库和概念逻辑规则，根据语义信息、短语结构、短语词典计算特征词之间的相关关系，形成相关特征词聚类以及相关性评价；

(3)当有新的特征词进入数据库时，依据聚类表示和组件，对语义意图进行识别，每个特征词采用分布式表示表示方法，将所有特征词的编码设置为一个词向量，使用神经网络训练语言模型，采用SOM算法，对新特征词的词向量进行训练，同时通过文本统计出的词频、词的共现等因素，对所有特征词的词向量值进行调整，进而从大量未标注的普通文本数据中无监督地学习出优质的词向量，最后通过比较词向量的距离，将词向量距离较近的特征词集合进行聚类合并，并作为组件的输出；

(5)将生成的特征词放进审计知识特征库中存储以供使用；

(1)提取具有代表性的特征词

根据对审计知识特征库中的业务实体、财务审计实体、组织实体、审计对象实体、文本数据、审计概念的特征分析，进行文本特征的量化配置，作为下一步实体权重计算和替换的规则依据；

S7、生成知识图谱；

3.如权利要求2所述的一种基于机器学习的领域性审计知识图谱构建方法，其特征在于：所述被审计单位的概况、被审计单位的内部控制制度基于网络爬虫模块在被审计单位的官网爬取，所述被审计单位的历年财务数据、被审计单位的历年审计报告从被审计单位直接获取的方式采集，所述被审计单位所需遵循的法律法规、审计案例、审计术语采用网络爬虫模块在互联网中爬取。

4.如权利要求2所述的一种基于机器学习的领域性审计知识图谱构建方法，其特征在于：所述步骤S2的(2)中采用通用的段落分类器，输入由各个段落组成的法律法规、审计案例、被审计单位内部控制制度、审计报告等相关文本，输出各个段落的类别属性。

5.如权利要求1所述的一种基于机器学习的领域性审计知识图谱构建方法，其特征在于：所述步骤S2的(3)中采用文本匹配的方法，输入由各个句子组成的法律法规、审计案例、被审计单位内部控制制度、审计报告等相关段落文本，输出句子。

6.如权利要求2所述的一种基于机器学习的领域性审计知识图谱构建方法，其特征在于：所述步骤S2的(4)中采用结巴中文分词器，输入审计本体、审计词典和由各个词汇组成的法律法规、审计案例、被审计单位内部控制制度、审计报告等相关文本语句，输出分词后的句子和相对应的关键词。

7.如权利要求2所述的一种基于机器学习的领域性审计知识图谱构建方法，其特征在于：所述实体识别与关系处理模块具有文本的识别引擎且具有自学习能力，在其自动采集文本信息过程中能够识别出其中文本特征清晰的实体，将其存放在提取目标集中，作为“已知知识”处理，为不清晰的实体提取提供更多的线索，使可识别率大幅提高，随着已知知识的增多，能够清晰识别的文本特征实体也相应增加，从而达到***自学习目的；文本识别引擎采用了动态构造正则表达式的机制，即通过XPath检索已知知识，作为当前正则表达式中的精确文本，充当当前文本的领域特征，借之增强文本模式，继而完成匹配。不断重复这种复合提取模式，能够迭代出更多的实体。

8.一种基于机器学习的领域性审计知识图谱构建***，其特征在于：基于权利要求1-7任一项所述的构建方法实现领域性审计知识图谱的构建；

实体识别与关系处理模块采用自下而上法构建审计知识图谱，专家知识工程模块采用自上而下法构建审计知识图谱，两者相辅相成。