CN114691835A

CN114691835A - 基于文本挖掘的审计计划数据生成方法、装置和设备

Info

Publication number: CN114691835A
Application number: CN202210423371.5A
Authority: CN
Inventors: 王鑫根; 王珏; 肖嘉丽; 蔡玲嘉; 黄华茂; 许志华; 吴伟忠
Original assignee: Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-07-01

Abstract

本申请涉及一种基于文本挖掘的审计计划数据生成方法、装置和设备。所述方法包括：获取审计领域专业词典数据，与审计领域专业词典数据关联的审计领域搜索数据，对审计领域专业词典数据，进行文本挖掘处理，生成审计候选词数据。基于审计候选词数据和审计领域搜索数据，训练得到审计领域词向量。获取审计领域本体知识框架，并基于审计领域本体知识框架构建审计知识图谱，根据审计领域词向量和审计知识图谱，确定审计方向，生成与审计方向关联的审计计划数据。采用本方法能够及时关注审计领域搜索数据中新增的词汇，避免遗漏新增的风险点，综合考虑了审计领域各个方面的词汇和关联数据，提升了审计方向的准确度和审计计划数据的合理性。

Description

基于文本挖掘的审计计划数据生成方法、装置和设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于文本挖掘的审计计划数据生成方法、装置和设备。

背景技术

随着计算机技术的发展，以及互联网应用广泛应用，在人们实际的工作生活中，出现了不同类型的大量文本数据，由于文本数据数量巨大，其格式和类型也不尽相同，比如审计领域的审计文本信息，其类型多种多样，可包括文件、档案、报告、微博、新闻、邮件以及web文本等。而针对各种不同类型的审计文本数据，需要进一步执行相应的审计计划，以便识别出审计文本数据中可能存在的风险情况或不合理的问题。

传统上，多采用根据不同审计工作人员在长期审计实践中的审计经验累积，指定常规的审计计划并执行的方式。其中，审计经验来源于审计实践，是审计工作人员长期从事审计实践积累的结果，而审计工作人员制定审计计划时，通常需要利用特定范围的审计资料，包括信息如政策文件、项目信息、会议决议单、办公会通知、办公文件、项目安排、相关年度资金计划安排、项目工作总结以及相关项目绩效评价报告等非结构化数据，进行分析得出具有特殊意义或者具有审计意义的词汇、段落等，进行总结，确定出审计计划制定的方向。

但由于审计文本信息的数量随着日益发展的互联网技术呈现几何倍增长，且非结构化文本数据在审计大数据中的占比日益增加，如果仅凭借审计工作人员的固有经验，只取政策文件、会议纪要、办公文件、项目计划以及工作总结等文本内容，往往会忽略掉新增的以往没有被重视的审计风险点。因此，传统的审计计划指定方法，仍存在需要消耗大量人力物力进行筛选，同时易忽略新增或不属于固有经验的审计风险点，导致生成的审计计划合理性较低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够节约人力物力资源，并提升所生成的审计计划的合理性的基于文本挖掘的审计计划数据生成方法、装置和设备。

第一方面，本申请提供了一种基于文本挖掘的审计计划数据生成方法。所述方法包括：

获取审计领域专业词典数据，以及与所述审计领域专业词典数据关联的审计领域搜索数据；

对所述审计领域专业词典数据，进行文本挖掘处理，生成审计候选词数据；

基于所述审计候选词数据和所述审计领域搜索数据，训练得到审计领域词向量；

获取审计领域本体知识框架，并基于所述审计领域本体知识框架构建审计知识图谱；

根据所述审计领域词向量和所述审计知识图谱，确定审计方向，并生成与所述审计方向关联的审计计划数据。

在其中一个实施例中，所述获取审计领域专业词典数据，以及与所述审计领域专业词典数据关联的审计领域搜索数据，包括：

采集审计领域核心词汇数据，并基于所述审计领域核心词汇数据确定审计领域专业词典数据；

基于所述审计领域专业词典数据，筛选得到关联引擎搜索词条；

提取与所述关联引擎搜索词条对应的搜索数据，确定为与所述审计领域专业词典数据关联的审计领域搜索数据；

将与所述关联引擎搜索词条对应的搜索数据，添加至所述审计领域专业词典数据中，得到更新后的审计领域专业词典数据；

根据所述更新后的审计领域专业词典数据，筛选得到新的关联引擎搜索词条，直至达到对所述审计领域专业词典数据的更新停止条件。

在其中一个实施例中，所述对所述审计领域专业词典数据，进行文本挖掘处理，生成审计候选词数据，包括：

基于所述审计领域专业词典数据，进行分词处理，生成对应的结构化审计数据；

对所述结构化审计数据中的各特征词进行重要度计算处理，生成与各所述特征词对应的文本特征重要度；

根据所述文本特征重要度对各所述特征词进行筛选，生成审计关键词；

基于所述审计关键词进行词汇扩展处理，生成审计候选词数据。

在其中一个实施例中，所述获取审计领域本体知识框架，并基于所述审计领域本体知识框架构建审计知识图谱，包括：

基于所述审计领域搜索数据进行信息抽取处理，生成审计三元组数据；

获取审计领域本体知识框架，并基于所述审计三元组数据和所述审计领域本体知识框架，构建审计知识图谱。

在其中一个实施例中，所述基于所述审计候选词数据和所述审计领域搜索数据，训练得到审计领域词向量，包括：

基于所述审计候选词数据和所述审计领域搜索数据，进行数据格式转换处理和分词处理，生成对应的审计特征词；

根据各所述审计特征词，对初始词向量模型进行训练，得到训练后的审计词向量模型；

对训练后的所述审计词向量模型进行模型测试处理，生成对应的测试结果；

当确定所述测试结果符合对应的模型预测精度要求时，得到训练好的审计领域词向量。

在其中一个实施例中，所述根据所述审计领域词向量和所述审计知识图谱，确定审计方向，并生成与所述审计方向关联的审计计划数据，包括：

根据所述审计领域词向量和所述审计知识图谱，构建审计领域知识库；

基于所述审计领域知识库，确定审计风险点；

根据所述审计风险点，确定审计方向；

基于所述审计方向和待审计文本数据，生成与所述审计方向关联的审计计划数据。

在其中一个实施例中，所述对所述结构化审计数据中的各特征词进行重要度计算处理，生成与各所述特征词对应的文本特征重要度，包括：

对所述结构化审计数据中的各特征词进行词频计算处理，生成各所述特征词在所述结构化审计数据中的词频数据；

基于所述结构化审计数据中的各特征词进行逆文档频率计算处理，生成各所述特征词在所述结构化审计数据中的逆文档频率数据；

根据所述词频数据和所述逆文档频率数据，进行重要度计算处理，生成与各所述特征词对应的文本特征重要度。

第二方面，本申请还提供了一种基于文本挖掘的审计计划数据生成装置。

所述装置包括：

获取模块，用于获取审计领域专业词典数据，以及与所述审计领域专业词典数据关联的审计领域搜索数据；

文本挖掘处理模块，用于对所述审计领域专业词典数据，进行文本挖掘处理，生成审计候选词数据；

词向量生成模块，用于基于所述审计候选词数据和所述审计领域搜索数据，训练得到审计领域词向量；

审计知识图谱构建模块，用于获取审计领域本体知识框架，并基于所述审计领域本体知识框架构建审计知识图谱；

审计计划数据生成模块，用于根据所述审计领域词向量和所述审计知识图谱，确定审计方向，并生成与所述审计方向关联的审计计划数据。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述基于文本挖掘的审计计划数据生成方法、装置、计算机设备、存储介质和计算机程序产品中，通过获取审计领域专业词典数据，以及与审计领域专业词典数据关联的审计领域搜索数据，并对审计领域专业词典数据，进行文本挖掘处理，生成审计候选词数据。进而可基于审计领域专业词典数据审计候选词数据和审计领域搜索数据，训练得到审计领域词向量，通过结合考虑审计领域专业词典数据和审计领域搜索数据，得到审计领域词向量，可避免凭借单一的审计人员审计经验生成审计计划，可及时关注审计领域搜索数据中新增的词汇，避免遗漏新增的风险点。而通过获取审计领域本体知识框架，可基于审计领域本体知识框架构建审计知识图谱，最终根据审计领域词向量和审计知识图谱所确定出的审计方向，综合考虑了审计领域各个方面的词汇和关联数据，提升了所确定出的审计方向的准确度，并进一步提升了所生成的与审计方向关联的审计计划数据的合理性。

附图说明

图1为一个实施例中基于文本挖掘的审计计划数据生成方法的应用环境图；

图2为一个实施例中基于文本挖掘的审计计划数据生成方法的流程示意图；

图3为一个实施例中获取审计领域专业词典数据，以及与审计领域专业词典数据关联的审计领域搜索数据的流程示意图；

图4为一个实施例中对审计领域专业词典数据，进行文本挖掘处理，生成审计候选词数据的流程示意图；

图5为一个实施例中基于文本挖掘的审计计划数据生成方法的完整流程示意图；

图6为一个实施例中基于文本挖掘的审计计划数据生成装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的基于文本挖掘的审计计划数据生成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储***可以存储服务器104需要处理的数据，数据存储***可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104通过获取审计领域专业词典数据，以及与审计领域专业词典数据关联的审计领域搜索数据，并对审计领域专业词典数据，进行文本挖掘处理，生成审计候选词数据。其中，审计领域专业词典数据和审计领域搜索数据可存储至数据存储***，也可存储于终端102的本地存储中。服务器104基于审计候选词数据和审计领域搜索数据，可训练得到审计领域词向量，通过获取审计领域本体知识框架，以基于审计领域本体知识框架构建审计知识图谱，进而服务器104可根据审计领域词向量和审计知识图谱，确定审计方向，并生成与审计方向关联的审计计划数据。其中，审计计划数据可由服务器104进行展示，也可发送至终端102进行展示并存储至本地。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于文本挖掘的审计计划数据生成方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取审计领域专业词典数据，以及与审计领域专业词典数据关联的审计领域搜索数据。

具体地，通过采集审计领域核心词汇数据，比如“中心***”、“地方审计厅”、“政府审计”、“独立审计”以及“内部审计”等，并基于审计领域核心词汇数据确定审计领域专业词典数据，即可通过对审计领域核心词汇数据进行标注和筛选，可生成得到审计领域专业词典数据。

进一步地，基于审计领域专业词典数据，筛选得到关联引擎搜索词条，具体来说，是通过利用网络爬虫技术，从搜索引擎中爬取与审计领域专业词典数据关联的超链接词汇，即与审计领域专业词典数据对应的关联引擎搜索词条。

举例来说，从“中心***”关联的超链接词汇中，可筛选得到的关联引擎搜索词条，可以包括“***”、“审计厅”、“审计报社”、“***外交外事审计局”以及“审计法”等。进而可提取与关联引擎搜索词条对应的搜索数据，确定为与审计领域专业词典数据关联的审计领域搜索数据，即可将各关联引擎搜索词条下所对应的搜索数据提取出来，比如，将关联引擎搜索词条“审计报社”下所对应的搜索数据提取出来，确定为与审计领域专业词典数据关联的审计领域搜索数据，同样地，也可将其他关联引擎搜索词条下对应的搜索数据，确定为与审计领域专业词典数据关联的审计领域搜索数据。

步骤S204，对审计领域专业词典数据，进行文本挖掘处理，生成审计候选词数据。

具体地，针对审计领域专业词典数据，进行文本挖掘处理，目的在于从审计领域专业词典数据中，筛选出对于审计计划重要性大的审计候选词汇，即确定出具有审计意义的关键词汇，或确定出可能携带审计风险点的风险词汇，以避免遗漏新增关键词汇或风险词汇，更加准确地确定出审计方向，制定合理的审计计划。

其中，基于审计领域专业词典数据进行分词处理，具体可以是采用不同类型的分词软件，对审计领域专业词典数据进行分词处理，以达到将审计领域专业词典数据转换成结构化数据的目的。其中，由于审计领域专业词典数据中仍存在大量的非结构化文本数据，进而无法对非结构化文本数据进行分类或聚类处理，进而需要在对审计领域专业词典数据进行分词处理，生成对应的结构化审计数据后，对结构化审计数据中的各特征词进行重要度计算处理，生成与各特征词对应的文本特征重要度。

进一步地，针对各特征词对应的文本特征重要度，进一步进行筛选处理，即根据文本特征重要度的大小，对各特征词进行排序，并将文本特征重要度大于预设特征重要度阈值的特征词筛选出来，确定为审计关键词。

其中，针对审计关键词，需要进一步确定出审计关键词的扩展词汇，即可基于审计关键词进行词汇扩展处理，比如将各审计关键词的中外文对照表(比如中英文对照表、中日文对照表、中韩文对照表等)，添加至审计关键词所在数据库，得到审计候选词数据。

步骤S206，基于审计候选词数据和审计领域搜索数据，训练得到审计领域词向量。

具体地，基于审计候选词数据和审计领域搜索数据，进行数据格式转换处理和分词处理，生成对应的审计特征词，并根据各审计特征词，对初始词向量模型进行训练，得到训练后的审计词向量模型。而在得到训练后的审计计量模型后，对训练后的审计词向量模型进行模型测试处理，生成对应的测试结果。

进一步地，只有当确定测试结果符合对应的模型预测精度要求时，才可得到训练好的审计领域词向量，而当测试结果不符合对应的模型预测精度要求时，需要对初始词向量模型进行重复训练。

其中，重复训练时需要对重新采集实时更新的审计领域搜索数据，以及根据审计搜索数据对审计领域专业词典数据进行更新，得到更新后的审计领域专业词典数据，进而根据更新后的审计领域专业词典数据，以及重新采集的审计领域搜索数据，得到更新后的审计特征词，进而根据更新后的审计特征词对初始词向量模型进行重复训练，直至对训练后的审计词向量模型进行模型测试处理得到的测试结果，符合对应的模型预测精度要求。其中，模型预测精度要求用于表示审计词向量模型对文本信息的识别、分类和聚类的准确度，即通过审计词向量模型将文本信息转化成对应的结构化信息，并进一步针对结构化信息进行分类、聚类处理，得到不同特征词的分类结果和聚类结果，并检测相应的分类结果和聚类结果的准确度。

步骤S208，获取审计领域本体知识框架，并基于审计领域本体知识框架构建审计知识图谱。

具体地，基于审计领域搜索数据进行信息抽取处理，生成审计三元组数据，并获取审计领域本体知识框架，以基于审计三元组数据和审计领域本体知识框架，构建审计知识图谱。

其中，针对审计领域搜索数据进行信息抽取处理，具体是抽取审计领域搜索数据的infobox结构化信息，即抽取审计领域搜索数据的词条结构化信息，生成对应的审计三元组数据。其中，审计三元组数据可以包括审计领域搜索数据对应的审计领域搜索词条、与审计领域搜索词条对应的审计领域专业词典数据、以及与审计领域专业词典数据对应的审计领域词向量。

进一步地，通过获取审计领域本体知识框架，并基于所获取的审计领域本体知识框架，结合对应的审计三元组数据，构建得到审计知识图谱。其中，审计知识图谱用于描述审计领域中存在的各种实体和概念，以及不同实体或概念之间的关联关系或实体关系。

步骤S210，根据审计领域词向量和审计知识图谱，确定审计方向，并生成与审计方向关联的审计计划数据。

具体地，根据审计领域词向量和审计知识图谱，构建审计领域知识库，进而基于审计领域知识库，确定审计风险点。其中，可进一步根据审计风险点，确定审计方向，并基于审计方向和待审计文本数据，生成与审计方向关联的审计计划数据。

其中，根据各审计领域词向量以及审计知识图谱，可进一步构建得到审计领域知识库，在审计领域知识库中，可获取多个审计领域词向量，以及包括审计领域中存在的各种实体和概念，以及不同实体或概念之间的关联关系或实体关系的审计知识图谱。

进一步地，基于审计领域知识库，可遍历各审计领域词向量，以及获取审计领域中存在的各种实体和概念对应的特征词，以及各个特征词之间的关联关系，进而可基于各审计领域词向量和审计领域中的各特征词，以及各特征词之间的关联关系，确定出对于审计计划重要性大的审计候选词汇，即确定出具有审计意义的关键词汇，或确定出可能携带审计风险点的风险词汇，以避免遗漏新增关键词汇或风险词汇，更加准确地确定出审计方向，从而可基于准确的审计方向，生成与审计方向关联的审计计划数据。

上述基于文本挖掘的审计计划数据生成方法中，通过获取审计领域专业词典数据，以及与审计领域专业词典数据关联的审计领域搜索数据，并对审计领域专业词典数据，进行文本挖掘处理，生成审计候选词数据。进而可基于审计领域专业词典数据审计候选词数据和审计领域搜索数据，训练得到审计领域词向量，通过结合考虑审计领域专业词典数据和审计领域搜索数据，得到审计领域词向量，可避免凭借单一的审计人员审计经验生成审计计划，可及时关注审计领域搜索数据中新增的词汇，避免遗漏新增的风险点。而通过获取审计领域本体知识框架，可基于审计领域本体知识框架构建审计知识图谱，最终根据审计领域词向量和审计知识图谱所确定出的审计方向，综合考虑了审计领域各个方面的词汇和关联数据，提升了所确定出的审计方向的准确度，并进一步提升了所生成的与审计方向关联的审计计划数据的合理性。

在一个实施例中，如图3所示，获取审计领域专业词典数据，以及与审计领域专业词典数据关联的审计领域搜索数据的步骤，具体包括：

步骤S302，采集审计领域核心词汇数据，并基于审计领域核心词汇数据确定审计领域专业词典数据。

具体地，通过采集审计领域核心词汇数据，比如“***”、“审计局”、“审计厅”、“三公经费”、“账项基础审计”、“风险基础审计”以及“***基础审计”等，并基于审计领域核心词汇数据确定审计领域专业词典数据，即可通过对审计领域核心词汇数据进行标注和筛选，可生成得到审计领域专业词典数据。

其中，在对审计领域核心词汇数据进行标注和筛选，生成得到审计领域专业词典数据的过程中，还包括：对相关词汇进行分类，类别包括领域专有名词、领域核心词汇、人名、机构名、相关词汇以及汇总信息等。其中，领域核心词汇仅指审计领域常用的核心词，而领域专有名词主要包含审计领域各类法律法规及准则名称，人名主要包括审计、会计、经济管理领域著名的人物姓名，机构名包括各级审计机关、国内外银行、国内外知名企业及大学等，相关词汇主要包括审计、会计、经济管理领域的常用词汇。

步骤S304，基于审计领域专业词典数据，筛选得到关联引擎搜索词条。

具体地，在确定出与所采集的审计领域核心词汇数据对应的审计领域专业词典数据后，进一步基于审计领域专业词典数据，筛选得到关联引擎搜索词条。具体来说，是通过利用网络爬虫技术，从搜索引擎中爬取与审计领域专业词典数据关联的超链接词汇，即与审计领域专业词典数据对应的关联引擎搜索词条。

举例来说，可从“审计厅”关联的超链接词汇中，可筛选得到的关联引擎搜索词条，可以包括“***”、“审计局”、“审计报社”以及“审计法”等。

步骤S306，提取与关联引擎搜索词条对应的搜索数据，确定为与审计领域专业词典数据关联的审计领域搜索数据。

具体地，基于审计领域专业词典数据，从搜索引擎中获取对应的超链接词汇，即得到与审计领域专业词典数据对应的关联引擎搜索词条，并进一步提取与关联引擎搜索词条对应的搜索数据，以将与关联引擎搜索词条对应的搜索数据，确定为与审计领域专业词典数据关联的审计领域搜索数据。

具体来说，可将各关联引擎搜索词条下所对应的搜索数据提取出来，比如，将关联引擎搜索词条“审计法”下所对应的搜索数据提取出来，确定为与审计领域专业词典数据关联的审计领域搜索数据，同样地，也可将其他关联引擎搜索词条下对应的搜索数据，比如“审计局”、“审计报社”等关联引擎搜索词条下对应的搜索数据，确定为与审计领域专业词典数据关联的审计领域搜索数据。

其中，利用网络爬虫技术，从搜索引擎中爬取与审计领域专业词典数据关联的超链接词汇时，可以是从搜索引擎中爬取出：比如审计专业词汇、审计/会计专业教程、审计部门网站、法律法规以及审计案例等关联引擎搜索词条，进而提取与该些关联引擎搜索词条对应的搜索数据。

步骤S308，将与关联引擎搜索词条对应的搜索数据，添加至审计领域专业词典数据中，得到更新后的审计领域专业词典数据。

具体地，通过将关联引擎搜索词条对应的搜索数据，添加至审计领域专业词典数据中，对审计领域专业词典数据进行补充和更新，使其包括更全面的审计领域词汇。

其中，通过重复更新审计领域专业词典数据，以及不断从搜索引擎中爬取与更新后的审计领域专业词典数据关联的超链接词汇，可达到对审计领域专业词典数据的全面补充，减少遗漏的审计领域词汇或审计风险点。

步骤S310，根据更新后的审计领域专业词典数据，筛选得到新的关联引擎搜索词条，直至达到对审计领域专业词典数据的更新停止条件。

具体地，基于更新后的审计领域专业词典数据，重新从搜索引擎中爬取与更新后的审计领域专业词典数据关联的超链接词汇，以筛选得到新的关联引擎搜索词条。其中，审计领域专业词典数据的更新操作，以及对超链接词汇的爬取操作不断重复，直至达到对审计领域专业词典数据的更新停止条件。

其中，对审计领域专业词典数据的更新停止条件，可以为对审计领域专业词典数据的更新次数，或审计领域专业词典数据的数据量值，也就是说，当对审计领域专业词典数据的更新次数达到预设的更新次数阈值，或审计领域专业词典数据的数据量值达到对应的数据量阈值时，可确定达到对审计领域专业词典数据的更新停止条件，停止对审计领域专业词典数据的的更新，以及对超链接词汇的爬取。

本实施例中，通过采集审计领域核心词汇数据，并基于审计领域核心词汇数据确定审计领域专业词典数据，进而基于审计领域专业词典数据，筛选得到关联引擎搜索词条。通过提取与关联引擎搜索词条对应的搜索数据，确定为与审计领域专业词典数据关联的审计领域搜索数据。通过将与关联引擎搜索词条对应的搜索数据，添加至审计领域专业词典数据中，得到更新后的审计领域专业词典数据，进而可根据更新后的审计领域专业词典数据，筛选得到新的关联引擎搜索词条，直至达到对审计领域专业词典数据的更新停止条件。可通过不断更新审计领域专业词典数据，以及不断从搜索引擎中爬取与更新后的审计领域专业词典数据对应的关联引擎搜索词条，可达到对审计领域专业词典数据的全面补充，减少遗漏的审计领域词汇或审计风险点，进一步提升后续所制定的审计计划数据的合理性。

在一个实施例中，如图4所示，对审计领域专业词典数据，进行文本挖掘处理，生成审计候选词数据的步骤，具体包括：

步骤S402，基于审计领域专业词典数据，进行分词处理，生成对应的结构化审计数据。

具体地，基于审计领域专业词典数据进行分词处理，具体可以是采用不同类型的分词软件，对审计领域专业词典数据进行分词处理，以达到将审计领域专业词典数据转换成结构化数据的目的。

举例来说，具体可以采用HanLP或Pkuseg，对审计领域专业词典数据进行分词处理。其中，HanLP表示由一系列模型与算法组成的NLP工具包，由大快搜索主导并完全开源，目标是普及自然语言处理在生产环境中的应用，其主要功能包括分词、词性标注、关键词提取、自动摘要、依存句法分析、命名实体识别、短语提取、拼音转换以及简繁转换等。

同样地，Pkuseg用于实现细分领域分词，有效提升分词准确度，致力于为不同领域的数据提供个性化的预训练模型，同时还可根据待分词文本的领域特点，自由选择不同的模型。其中，分词预训练模型可支持的领域包括：新闻领域、网络领域、医药领域、旅游领域、审计领域以及混合领域等。在Pkuseg的使用过程中，如果明确待分词的领域，可加载对应的模型进行分词，比如审计领域，则可通过加载审计领域对应的分词模型，对审计领域专业词典数据进行分词处理，而如果无法确定具体领域，则可使用在混合领域上训练的通用模型。

其中，基于审计领域专业词典数据，进行分词处理以及后续重要度计算处理，目的在于从审计领域专业词典数据中，筛选出对于审计计划重要性大的审计候选词汇，即确定出具有审计意义的关键词汇，或确定出可能携带审计风险点的风险词汇，以避免遗漏新增关键词汇或风险词汇，更加准确地确定出审计方向，制定合理的审计计划。

步骤S404，对结构化审计数据中的各特征词进行重要度计算处理，生成与各特征词对应的文本特征重要度。

具体地，通过对结构化审计数据中的各特征词进行词频计算处理，生成各特征词在结构化审计数据中的词频数据，进而基于结构化审计数据中的各特征词进行逆文档频率计算处理，生成各特征词在结构化审计数据中的逆文档频率数据，最终根据词频数据和逆文档频率数据，进行重要度计算处理，生成与各特征词对应的文本特征重要度。

进一步地，可根据特征词的在文本中出现的频率，以及特征词在整个文本库中出现的频率，来计算某个特征词在整个文本库中的重要程度。其中，如果某个词或短语在一篇文章中出现的词频数据，即词频频率高，同时在整个文本库中其他文本中出现的频率低，即文档频率低，则认为该特征词或短语具有代表性，可用于后续进行分类处理。

其中，对结构化审计数据中的各特征词进行词频计算处理，得到的各特征词在结构化审计数据中的词频数据，表示某个特征词在整个文本中出现的频率，可以通过以下公式(1)计算得到：

词频频率＝某个特征词在文本中的出现次数/文本中所有特征词的个数；(1)

同样地，基于结构化审计数据中的各特征词进行逆文档频率计算处理，得到的各特征词在结构化审计数据中的逆文档频率数据，表示文档频率的倒数。其中，文档频率是指某个关键词在整个文本库所有文件中出现的次数，则逆文档频率作为文档频率的倒数，主要用于降低所有文档中一些常见却对文档影响不大的特征词，可通过以下公式(2)计算得到：

逆文档频率＝log(文本库中文本的总数/(包含某个特征词的文本数+1))；(2)

在一个实施例中，在计算得到某特征词在结构化审计数据中的词频数据，以及该特征词在结构化审计数据中的逆文档频率数据之后，根据词频数据和逆文档频率数据，进行重要度计算处理，生成与各特征词对应的文本特征重要度。

具体来说，可通过计算词频频率和逆文档频率的乘积，得到与该特征词对应的文本特征重要度。

步骤S406，根据文本特征重要度对各特征词进行筛选，生成审计关键词。

具体地，针对各特征词对应的文本特征重要度，进一步进行筛选处理，即根据文本特征重要度的大小，对各特征词进行排序，并将文本特征重要度大于预设特征重要度阈值的特征词筛选出来，确定为审计关键词。

其中，预设特征重要度阈值可根据不同审计领域的实际场景进行调整或修改，不局限于某些具体取值。

步骤S408，基于审计关键词进行词汇扩展处理，生成审计候选词数据。

具体地，针对审计关键词，需要进一步确定出审计关键词的扩展词汇，即需要基于审计关键词进行词汇扩展处理，比如将各审计关键词的中外文对照表(比如中英文对照表、中法文对照表、中日文对照表以及中韩文对照表等等)，添加至审计关键词所在数据库，以得到审计候选词数据。

本实施例中，通过对审计领域专业词典数据进行分词处理，生成对应的结构化审计数据，并对结构化审计数据中的各特征词进行重要度计算处理，生成与各特征词对应的文本特征重要度，进而根据文本特征重要度对各特征词进行筛选，生成审计关键词，以基于审计关键词进行词汇扩展处理，生成审计候选词数据。实现了对审计领域专业词典数据的分词处理，以便后续进行分类、聚类处理和更新补充处理，减少遗漏的审计领域词汇或审计风险点，进一步提升后续所制定的审计计划数据的合理性。

在一个实施例中，如图5所示，提供了一种基于文本挖掘的审计计划数据生成方法的完整流程，参照图5可知，该方法具体包括以下步骤：

步骤S501，采集审计领域核心词汇数据，并基于审计领域核心词汇数据确定审计领域专业词典数据。

步骤S502，基于审计领域专业词典数据，筛选得到关联引擎搜索词条。

步骤S503，提取与关联引擎搜索词条对应的搜索数据，确定为与审计领域专业词典数据关联的审计领域搜索数据。

步骤S504，将与关联引擎搜索词条对应的搜索数据，添加至审计领域专业词典数据中，得到更新后的审计领域专业词典数据。

步骤S505，判断是否达到对审计领域专业词典数据的更新停止条件。

当未达到对审计领域专业词典数据的更新停止条件时，返回步骤S502，重新执行基于审计领域专业词典数据，筛选得到关联引擎搜索词条的步骤。

步骤S506，当达到对审计领域专业词典数据的更新停止条件时，基于审计领域专业词典数据，进行分词处理，生成对应的结构化审计数据。

步骤S507，对结构化审计数据中的各特征词进行词频计算处理，生成各特征词在结构化审计数据中的词频数据。

步骤S508，基于结构化审计数据中的各特征词进行逆文档频率计算处理，生成各特征词在结构化审计数据中的逆文档频率数据。

步骤S509，根据词频数据和逆文档频率数据，进行重要度计算处理，生成与各特征词对应的文本特征重要度。

步骤S510，根据文本特征重要度对各特征词进行筛选，生成审计关键词。

步骤S511，基于审计关键词进行词汇扩展处理，生成审计候选词数据。

步骤S512，基于审计候选词数据和审计领域搜索数据，进行数据格式转换处理和分词处理，生成对应的审计特征词。

步骤S513，根据各审计特征词，对初始词向量模型进行训练，得到训练后的审计词向量模型。

步骤S514，对训练后的审计词向量模型进行模型测试处理，生成对应的测试结果。

步骤S515，当确定测试结果符合对应的模型预测精度要求时，得到训练好的审计领域词向量。

步骤S516，基于审计领域搜索数据进行信息抽取处理，生成审计三元组数据。

步骤S517，获取审计领域本体知识框架，并基于审计三元组数据和审计领域本体知识框架，构建审计知识图谱。

步骤S518，根据审计领域词向量和审计知识图谱，构建审计领域知识库。

步骤S519，基于审计领域知识库确定审计风险点，并根据审计风险点，确定审计方向。

步骤S520，基于审计方向和待审计文本数据，生成与审计方向关联的审计计划数据。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的基于文本挖掘的审计计划数据生成方法的基于文本挖掘的审计计划数据生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个基于文本挖掘的审计计划数据生成装置实施例中的具体限定可以参见上文中对于基于文本挖掘的审计计划数据生成方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种基于文本挖掘的审计计划数据生成装置，包括：获取模块602、文本挖掘处理模块604、词向量生成模块606、审计知识图谱构建模块608以及审计计划数据生成模块610，其中：

获取模块602，用于获取审计领域专业词典数据，以及与审计领域专业词典数据关联的审计领域搜索数据。

文本挖掘处理模块604，用于对审计领域专业词典数据，进行文本挖掘处理，生成审计候选词数据。

词向量生成模块606，用于基于审计候选词数据和审计领域搜索数据，训练得到审计领域词向量。

审计知识图谱构建模块608，用于获取审计领域本体知识框架，并基于审计领域本体知识框架构建审计知识图谱。

审计计划数据生成模块610，用于根据审计领域词向量和审计知识图谱，确定审计方向，并生成与审计方向关联的审计计划数据。

上述基于文本挖掘的审计计划数据生成装置中，通过获取审计领域专业词典数据，以及与审计领域专业词典数据关联的审计领域搜索数据，并对审计领域专业词典数据，进行文本挖掘处理，生成审计候选词数据。进而可基于审计领域专业词典数据审计候选词数据和审计领域搜索数据，训练得到审计领域词向量，通过结合考虑审计领域专业词典数据和审计领域搜索数据，得到审计领域词向量，可避免凭借单一的审计人员审计经验生成审计计划，可及时关注审计领域搜索数据中新增的词汇，避免遗漏新增的风险点。而通过获取审计领域本体知识框架，可基于审计领域本体知识框架构建审计知识图谱，最终根据审计领域词向量和审计知识图谱所确定出的审计方向，综合考虑了审计领域各个方面的词汇和关联数据，提升了所确定出的审计方向的准确度，并进一步提升了所生成的与审计方向关联的审计计划数据的合理性。

在一个实施例中，获取模块还用于：

采集审计领域核心词汇数据，并基于审计领域核心词汇数据确定审计领域专业词典数据；基于审计领域专业词典数据，筛选得到关联引擎搜索词条；提取与关联引擎搜索词条对应的搜索数据，确定为与审计领域专业词典数据关联的审计领域搜索数据；将与关联引擎搜索词条对应的搜索数据，添加至审计领域专业词典数据中，得到更新后的审计领域专业词典数据；根据更新后的审计领域专业词典数据，筛选得到新的关联引擎搜索词条，直至达到对审计领域专业词典数据的更新停止条件。

在一个实施例中，文本挖掘处理模块，还用于：

基于审计领域专业词典数据，进行分词处理，生成对应的结构化审计数据；对结构化审计数据中的各特征词进行重要度计算处理，生成与各特征词对应的文本特征重要度；根据文本特征重要度对各特征词进行筛选，生成审计关键词；基于审计关键词进行词汇扩展处理，生成审计候选词数据。

在一个实施例中，文本挖掘处理模块，还用于：

对结构化审计数据中的各特征词进行词频计算处理，生成各特征词在结构化审计数据中的词频数据；基于结构化审计数据中的各特征词进行逆文档频率计算处理，生成各特征词在结构化审计数据中的逆文档频率数据；根据词频数据和逆文档频率数据，进行重要度计算处理，生成与各特征词对应的文本特征重要度。

在一个实施例中，审计知识图谱构建模块，还用于：

基于审计领域搜索数据进行信息抽取处理，生成审计三元组数据；获取审计领域本体知识框架，并基于审计三元组数据和审计领域本体知识框架，构建审计知识图谱。

在一个实施例中，词向量生成模块，还用于：

基于审计候选词数据和审计领域搜索数据，进行数据格式转换处理和分词处理，生成对应的审计特征词；根据各审计特征词，对初始词向量模型进行训练，得到训练后的审计词向量模型；对训练后的审计词向量模型进行模型测试处理，生成对应的测试结果；当确定测试结果符合对应的模型预测精度要求时，得到训练好的审计领域词向量。

在一个实施例中，审计计划数据生成模块，还用于：

根据审计领域词向量和审计知识图谱，构建审计领域知识库；基于审计领域知识库，确定审计风险点；根据审计风险点，确定审计方向；基于审计方向和待审计文本数据，生成与审计方向关联的审计计划数据。

上述基于文本挖掘的审计计划数据生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过***总线连接，通信接口通过输入/输出接口连接到***总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储审计领域专业词典数据、审计领域搜索数据、审计候选词数据、审计领域词向量、审计领域本体知识框架、审计知识图谱、审计方向以及审计计划数据等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于文本挖掘的审计计划数据生成方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于文本挖掘的审计计划数据生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取审计领域专业词典数据，以及与所述审计领域专业词典数据关联的审计领域搜索数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述审计领域专业词典数据，进行文本挖掘处理，生成审计候选词数据，包括：

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述获取审计领域本体知识框架，并基于所述审计领域本体知识框架构建审计知识图谱，包括：

5.根据权利要求1至3任意一项所述的方法，其特征在于，所述基于所述审计候选词数据和所述审计领域搜索数据，训练得到审计领域词向量，包括：

6.根据权利要求1至3任意一项所述的方法，其特征在于，所述根据所述审计领域词向量和所述审计知识图谱，确定审计方向，并生成与所述审计方向关联的审计计划数据，包括：

基于所述审计领域知识库，确定审计风险点；

根据所述审计风险点，确定审计方向；

7.根据权利要求3所述的方法，其特征在于，所述对所述结构化审计数据中的各特征词进行重要度计算处理，生成与各所述特征词对应的文本特征重要度，包括：

8.一种基于文本挖掘的审计计划数据生成装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。