CN117874240A - 基于知识图谱的审计文本分类方法、***和设备 - Google Patents

基于知识图谱的审计文本分类方法、***和设备 Download PDF

Info

Publication number
CN117874240A
CN117874240A CN202410278278.9A CN202410278278A CN117874240A CN 117874240 A CN117874240 A CN 117874240A CN 202410278278 A CN202410278278 A CN 202410278278A CN 117874240 A CN117874240 A CN 117874240A
Authority
CN
China
Prior art keywords
audit
text
audit text
data
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410278278.9A
Other languages
English (en)
Other versions
CN117874240B (zh
Inventor
孟庆霖
邱巧红
陈蕾
宫成
周飞
熊德意
药炜
高镇
李森
宋岩
谭真勇
王端瑞
韩琨
葛晓舰
吕元旭
柴博
李丽娜
吴新维
孙浩然
徐邵洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Tianjin Electric Power Co Chengxi Power Supply Branch
Tianjin Chengxi Guangyuan Power Engineering Co ltd
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Original Assignee
Tianjin Chengxi Guangyuan Power Engineering Co ltd
Tianjin Ninghe District Ningdong Shengyuan Power Engineering Co ltd
Tianjin Sanyuan Power Intelligent Technology Co ltd
Tianjin Tianyuan Electric Power Engineering Co ltd
Tianjin Electric Power Engineering Supervision Co ltd
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Construction Branch of State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Chengxi Guangyuan Power Engineering Co ltd, Tianjin Ninghe District Ningdong Shengyuan Power Engineering Co ltd, Tianjin Sanyuan Power Intelligent Technology Co ltd, Tianjin Tianyuan Electric Power Engineering Co ltd, Tianjin Electric Power Engineering Supervision Co ltd, State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd, Construction Branch of State Grid Tianjin Electric Power Co Ltd filed Critical Tianjin Chengxi Guangyuan Power Engineering Co ltd
Priority to CN202410278278.9A priority Critical patent/CN117874240B/zh
Publication of CN117874240A publication Critical patent/CN117874240A/zh
Application granted granted Critical
Publication of CN117874240B publication Critical patent/CN117874240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Probability & Statistics with Applications (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Water Supply & Treatment (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于知识图谱的审计文本分类方法、***和设备,涉及电力审计领域。方法包括:获取第一审计文本数据集,基于第一审计文本数据集构建审计文本知识图谱;获取第二审计文本数据集,获取待分类审计文本中审计问题类别的词向量,基于审计文本知识图谱和词向量计算配合指数,当配合指数小于第一预设值时,将词向量补全至审计文本知识图谱,并创建对应审计问题类别的文本数据库,当配合指数大于第二预设值时,获取第二审计文本数据集中的下一个待分类审计文本,直至第二审计文本数据集全部执行完毕。本发明能够帮助电力工作人员快速获取审计文本的各项信息,提高了后续工作中审计文本分类的准确度和可适度,实现了审计文本分类的自动化。

Description

基于知识图谱的审计文本分类方法、***和设备
技术领域
本发明涉及电力审计领域,特别涉及基于知识图谱的审计文本分类方法、***和设备。
背景技术
内部审计是电力公司内部管理的有力保障,通过内部审计,可以发现并解决电力公司内部存在的问题,提升管理水平,维护电力供应的安全和稳定。
伴随着社会发展,各电力公司的审计工作量逐渐增多,随之产生的审计文本量也呈上升趋势,且类型繁多,因此,对审计文本进行分类成为了电力***审计工作中的重要内容,如何提高审计文本的分类效率和准确性、提高审计工作的工作效率、实现审计文本分类的自动化,是当前电力***亟需解决的问题。
当前,已研究的对于审计文本分类的方法中,还存在以下不足:
(1)由于审计文本的专业性和复杂性,基于预训练语言模型的文本分类方法需要专业的审计审计人员进行标注,标注大量数据的成本高昂,且效率低下;
(2)基于深度学习的审计文本分类算法需要大量的训练样本才能提高模型的分类准确性;
(3)由于审计文本的专业性和复杂性,审计文本中包含的各项信息难以直观表现。
发明内容
针对上述问题,本发明提供了基于知识图谱的审计文本分类方法、***和设备,目的在于提高审计文本分类的准确度和可适度,提高电力***审计工作的工作效率,实现审计文本分类的自动化。
一方面,本发明提供了基于知识图谱的审计文本分类方法,包括以下步骤:
S1,获取第一审计文本数据集,基于所述第一审计文本数据集构建审计文本知识图谱;
S2,获取第二审计文本数据集,获取待分类审计文本中审计问题类别的词向量,基于所述审计文本知识图谱和所述词向量计算配合指数,当所述配合指数小于第一预设值时,将所述词向量补全至所述审计文本知识图谱,并创建对应所述审计问题类别的文本数据库;当所述配合指数大于第二预设值时,获取所述第二审计文本数据集中的下一个待分类审计文本并执行S2,直至所述第二审计文本数据集全部执行完毕。
进一步地,所述第一审计文本数据集的获取方式包括电力审计文本数据集和网页中获取的电力审计文本。
进一步地,所述第二审计文本数据集的获取方式为各电力公司的每日审计记录的电力审计文本。
进一步地,所述审计文本知识图谱的构建过程包括:
获取所述第一审计文本数据集中的实体数据;所述实体数据包括被审计单位、项目类型、审计问题标题、审计问题类别、制度依据和审计意见;
获取所述第一审计文本数据集中的关系数据;所述关系数据包括属于、发生、原因和依据;
获取所述第一审计文本数据集中的属性数据;所述属性数据包括无资质承揽业务、分包管理不规范、分包合同不规范和可研深度不足;
对所述实体数据、所述关系数据和所述属性数据进行数据融合并存储至图数据库,存储方式为实体—关系—实体—属性;
采用可视化工具,得到所述审计文本知识图谱。
进一步地,所述词向量的计算公式为:
式中,m为审计问题类别包含的词个数,n为审计问题类别包含的每个词的词向量长度,U m×n 表示作为审计问题类别包含的词作为中心词时的向量,V m×n 表示作为审计问题类别包含的词作为非中心词时的向量,Y为所述词向量。
进一步地,所述配合指数的计算公式为:
E为所述配合指数,Y i 为所述词向量的第i个字段,Q j 为所述审计文本知识图谱中所包含的实体数据“审计问题类别”的特征向量,n为所述审计文本知识图谱中所包含的实体数据“审计问题类别”的数量,max为最大值。
进一步地,所述第一预设值为40%。
进一步地,所述第二预设值为95%。
进一步地,所述文本数据库的创建过程包括:
基于所述审计文本知识图谱新补全的词向量,后台自动抓取数据信息,进行数据导出;
进行所述数据导出时,采用在线导出技术自动生成以所述词向量对应的审计问题类别为命名的文件数据库。
另一方面,本发明提供了基于知识图谱的审计文本分类***,包括:审计文本知识图谱构建模块、审计文本分类模块;
所述审计文本知识图谱构建模块用于获取第一审计文本数据集,基于所述第一审计文本数据集构建审计文本知识图谱;
所述审计文本分类模块用于获取第二审计文本数据集,获取待分类审计文本中审计问题类别的词向量,基于所述审计文本知识图谱和所述词向量计算配合指数,当所述配合指数小于第一预设值时,将所述词向量补全至所述审计文本知识图谱,并创建对应所述审计问题类别的文本数据库;当所述配合指数大于第二预设值时,获取所述第二审计文本数据集中的下一个待分类审计文本并重新执行所述审计文本分类模块,直至所述第二审计文本数据集全部执行完毕。
进一步地,所述第一审计文本数据集的获取方式包括电力审计文本数据集和网页中获取的电力审计文本。
进一步地,所述第二审计文本数据集的获取方式为各电力公司的每日审计记录的电力审计文本。
进一步地,审计文本知识图谱构建模块包括:实体数据获取单元、关系数据获取单元、属性数据获取单元、融合存储单元和可视化单元;
所述实体数据获取单元用于获取所述第一审计文本数据集中的实体数据;所述实体数据包括被审计单位、项目类型、审计问题标题、审计问题类别、制度依据和审计意见;
所述关系数据获取单元用于获取所述第一审计文本数据集中的关系数据;所述关系数据包括属于、发生、原因和依据;
所述属性数据获取单元用于获取所述第一审计文本数据集中的属性数据;所述属性数据包括无资质承揽业务、分包管理不规范、分包合同不规范和可研深度不足;
所述融合存储单元用于对所述实体数据、所述关系数据和所述属性数据进行数据融合并存储至图数据库,存储方式为实体—关系—实体—属性;
所述可视化单元用于采用可视化工具,得到所述审计文本知识图谱。
进一步地,所述词向量的计算公式为:
式中,m为审计问题类别包含的词个数,n为审计问题类别包含的每个词的词向量长度,U m×n 表示作为审计问题类别包含的词作为中心词时的向量,V m×n 表示作为审计问题类别包含的词作为非中心词时的向量,Y为所述词向量。
进一步地,所述配合指数的计算公式为:
E为所述配合指数,Y i 为所述词向量的第i个字段,Q j 为所述审计文本知识图谱中所包含的实体数据“审计问题类别”的特征向量,n为所述审计文本知识图谱中所包含的实体数据“审计问题类别”的数量,max为最大值。
进一步地,所述第一预设值为40%。
进一步地,所述第二预设值为95%。
进一步地,所述文本数据库的创建过程包括:
基于所述审计文本知识图谱新补全的词向量,后台自动抓取数据信息,进行数据导出;
进行所述数据导出时,采用在线导出技术自动生成以所述词向量对应的审计问题类别为命名的文件数据库。
另一方面,本发明还提供了基于知识图谱的审计文本分类设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一所述的基于知识图谱的审计文本分类方法。
本发明至少具备以下有益效果:
本发明通过获取审计文本中的实体数据、关系数据和属性数据构建审计文本知识图谱,进而将审计文本中不同实体数据之间的关联关系可视化,能够帮助电力工作人员快速获取审计文本的各项信息,提高工作效率;通过将审计问题类别转化成词向量,计算配合指数,将配合指数低于第一预设值的审计问题类别实体数据补全至审计文本知识图谱,提高了后续工作中审计文本分类的准确度和可适度;通过后台自动创建审计问题类别的文本数据库,提高了审计文本的分类效率及电力工作人员的工作效率,实现了审计文本分类的自动化。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一方法流程图;
图2为本发明实施例一审计文本知识图谱示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
伴随着社会发展,各电力公司的审计工作量逐渐增多,随之产生的审计文本量也呈上升趋势,且类型繁多,因此,对审计文本进行分类成为了电力***审计工作中的重要内容,如何提高审计文本的分类效率和准确性、提高审计工作的工作效率、实现审计文本分类的自动化,是当前电力***亟需解决的问题。
为此,本发明提出了基于知识图谱的审计文本分类方法、***和设备,包括基于知识图谱的审计文本分类方法、基于知识图谱的审计文本分类***和基于知识图谱的审计文本分类设备。
图1为本发明实施例一基于知识图谱的审计文本分类方法流程图,请参阅图1,本实施例提供了基于知识图谱的审计文本分类方法,包括:
S1,获取第一审计文本数据集,基于第一审计文本数据集构建审计文本知识图谱;
具体的,第一审计文本数据集的获取方式包括电力审计文本数据集和网页中获取的电力审计文本,能够最大范围地涵盖电力审计文本的各种类型信息;
图2为本发明实施例一审计文本知识图谱示意图,请参阅图2,审计文本知识图谱的构建过程包括:
由于审计文本为非结构化数据,因此,采用LSTM-CNNs-CRF模型获取第一审计文本数据集中的实体数据;实体数据包括被审计单位、项目类型、审计问题标题、审计问题类别、制度依据和审计意见;LSTM-CNNs-CRF模型包括正向LSTM层、反向LSTM层和CRF层,将审计文本中的字符作为输入,先后经过正向LSTM层、反向LSTM层和CRF层,输出所述实体数据;
采用BERT模型获取第一审计文本数据集中的关系数据;关系数据包括属于、发生、原因和依据;
获取第一审计文本数据集中的属性数据;属性数据包括无资质承揽业务、分包管理不规范、分包合同不规范和可研深度不足;
对实体数据、关系数据和属性数据进行数据融合并存储至图数据库,进行数据融合的过程包括:
对实体数据、关系数据和属性数据进行数据预处理,数据预处理包括规范语法、语法匹配、非相关符号移除和简写替换等;
采用K-Means聚类计算实体数据中两两实体数据的相似度;
采用Limes方法对相似度高的两个实体数据进行实体匹配,完成数据融合。
存储方式为实体—关系—实体—属性;
采用可视化工具,得到审计文本知识图谱。
S2,获取第二审计文本数据集,获取待分类审计文本中审计问题类别的词向量,基于审计文本知识图谱和词向量计算配合指数,当配合指数小于第一预设值时,将词向量补全至审计文本知识图谱,并创建对应审计问题类别的文本数据库;当配合指数大于第二预设值时,获取第二审计文本数据集中的下一个待分类审计文本并执行S2,直至第二审计文本数据集全部执行完毕;
具体的,第二审计文本数据集的获取方式为各电力公司的每日审计记录的电力审计文本,所述待分类审计文本为第二审计文本数据集所包含的审计文本;
具体的,待分类审计文本中审计问题类别的词向量的计算公式为:
式中,m为审计问题类别包含的词个数,n为审计问题类别包含的每个词的单个词向量长度,U m×n 表示作为审计问题类别包含的词作为中心词时的向量,V m×n 表示作为审计问题类别包含的词作为非中心词时的向量,Y为所述词向量,即“审计问题类别”的最终词向量。
具体的,建立在审计文本知识图谱具有可视化特征的基础上,基于审计文本知识图谱和词向量计算配合指数,配合指数的计算公式为:
E为配合指数,Y i 为词向量的第i个字段,Q j 为审计文本知识图谱中所包含的实体数据“审计问题类别”的特征向量,n为审计文本知识图谱中所包含的实体数据“审计问题类别”的数量,max为最大值。
具体的,第一预设值为40%,第二预设值为95%,当配合指数处于40%-95%之间时,认为该待分类审计文本对应的审计问题类别已经存在于审计文本知识图谱,则该待分类审计文本不执行S2,并删除(过滤),提高了审计文本的分类速度,降低了后台的数据量。
具体的,将词向量补全至审计文本知识图谱过程包括:
由于需要补全的词向量对应的“审计问题类别”为实体数据之一,在本实施例中,将需要补全的实体数据称为第一审计问题类别实体,将审计文本知识图谱中已存在的实体数据“审计问题类别”称为第二审计问题类别实体,采用评价指标w(a,b)计算第一审计问题类别和第二审计问题类别之间的匹配程度,评价指标w(a,b)的计算公式为:
式中,a为第一审计问题类别实体,b为第二审计问题类别实体,为循环相关运算。
具体的,文本数据库的创建过程包括:
基于审计文本知识图谱新补全的词向量,后台自动抓取数据信息,进行数据导出,进行数据导出时,采用BLOB在线导出技术自动生成以词向量对应的审计问题类别为命名的文件数据库。
值得注意的是,在S1和S2依次执行结束之后,还包括:组合本实施例获取的第一审计文本数据集和第二审计文本数据集,得到第三审计文本数据集,基于第三审计文本数据集,将第三审计文本数据集划分为训练集和测试集,构建深度学习模型,实现审计文本分类,由于在S2中,第二审计文本数据集中已经过滤掉一部分数据集,因此,在不会降低深度学习模型分类准确度的情况下,训练深度学习模型需要标注的训练集大大减少,进一步降低了工作量,提高分类效率。所述深度学习模型包括但不限于现有技术中常用的高精度模型,本实施例不予赘述。
本实施例提供了基于知识图谱的审计文本分类***,包括:审计文本知识图谱构建模块、审计文本分类模块;
审计文本知识图谱构建模块用于获取第一审计文本数据集,基于第一审计文本数据集构建审计文本知识图谱;
审计文本分类模块用于获取第二审计文本数据集,获取待分类审计文本中审计问题类别的词向量,基于审计文本知识图谱和词向量计算配合指数,当配合指数小于第一预设值时,将词向量补全至所述审计文本知识图谱,并创建对应审计问题类别的文本数据库;当配合指数大于第二预设值时,获取第二审计文本数据集中的下一个待分类审计文本并重新执行,直至第二审计文本数据集全部执行完毕。
具体实施时,本发明基于知识图谱的审计文本分类***和基于知识图谱的审计文本分类方法的实现过程一一对应,此处不予赘述。
本发明提供了基于知识图谱的审计文本分类设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一基于知识图谱的审计文本分类方法。
本发明通过获取审计文本中的实体数据、关系数据和属性数据构建审计文本知识图谱,进而将审计文本中不同实体数据之间的关联关系可视化,能够帮助电力工作人员快速获取审计文本的各项信息,提高工作效率;通过将审计问题类别转化成词向量,计算配合指数,将配合指数低于第一预设值的审计问题类别实体数据补全至审计文本知识图谱,提高了后续工作中审计文本分类的准确度和可适度;通过后台自动创建审计问题类别的文本数据库,提高了审计文本的分类效率及电力工作人员的工作效率,实现了审计文本分类的自动化。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (19)

1.基于知识图谱的审计文本分类方法,其特征在于,包括以下步骤:
S1,获取第一审计文本数据集,基于所述第一审计文本数据集构建审计文本知识图谱;
S2,获取第二审计文本数据集,获取待分类审计文本中审计问题类别的词向量,基于所述审计文本知识图谱和所述词向量计算配合指数,当所述配合指数小于第一预设值时,将所述词向量补全至所述审计文本知识图谱,并创建对应所述审计问题类别的文本数据库;当所述配合指数大于第二预设值时,获取所述第二审计文本数据集中的下一个待分类审计文本并执行S2,直至所述第二审计文本数据集全部执行完毕。
2.根据权利要求1所述的审计文本分类方法,其特征在于,所述第一审计文本数据集的获取方式包括电力审计文本数据集和网页中获取的电力审计文本。
3.根据权利要求1所述的审计文本分类方法,其特征在于,所述第二审计文本数据集的获取方式为各电力公司的每日审计记录的电力审计文本。
4.根据权利要求1所述的审计文本分类方法,其特征在于,所述审计文本知识图谱的构建过程包括:
获取所述第一审计文本数据集中的实体数据;所述实体数据包括被审计单位、项目类型、审计问题标题、审计问题类别、制度依据和审计意见;
获取所述第一审计文本数据集中的关系数据;所述关系数据包括属于、发生、原因和依据;
获取所述第一审计文本数据集中的属性数据;所述属性数据包括无资质承揽业务、分包管理不规范、分包合同不规范和可研深度不足;
对所述实体数据、所述关系数据和所述属性数据进行数据融合并存储至图数据库,存储方式为实体—关系—实体—属性;
采用可视化工具,得到所述审计文本知识图谱。
5.根据权利要求1所述的审计文本分类方法,其特征在于,所述词向量的计算公式为:
式中,m为审计问题类别包含的词个数,n为审计问题类别包含的每个词的词向量长度,U m×n 表示作为审计问题类别包含的词作为中心词时的向量,V m×n 表示作为审计问题类别包含的词作为非中心词时的向量,Y为所述词向量。
6.根据权利要求1所述的审计文本分类方法,其特征在于,所述配合指数的计算公式为:
E为所述配合指数,Y i 为所述词向量的第i个字段,Q j 为所述审计文本知识图谱中所包含的实体数据“审计问题类别”的特征向量,n为所述审计文本知识图谱中所包含的实体数据“审计问题类别”的数量,max为最大值。
7.根据权利要求1所述的审计文本分类方法,其特征在于,所述第一预设值为40%。
8.根据权利要求1所述的审计文本分类方法,其特征在于,所述第二预设值为95%。
9.根据权利要求1所述的审计文本分类方法,其特征在于,所述文本数据库的创建过程包括:
基于所述审计文本知识图谱新补全的词向量,后台自动抓取数据信息,进行数据导出;
进行所述数据导出时,采用在线导出技术自动生成以所述词向量对应的审计问题类别为命名的文件数据库。
10.基于知识图谱的审计文本分类***,其特征在于,包括:审计文本知识图谱构建模块、审计文本分类模块;
所述审计文本知识图谱构建模块用于获取第一审计文本数据集,基于所述第一审计文本数据集构建审计文本知识图谱;
所述审计文本分类模块用于获取第二审计文本数据集,获取待分类审计文本中审计问题类别的词向量,基于所述审计文本知识图谱和所述词向量计算配合指数,当所述配合指数小于第一预设值时,将所述词向量补全至所述审计文本知识图谱,并创建对应所述审计问题类别的文本数据库;当所述配合指数大于第二预设值时,获取所述第二审计文本数据集中的下一个待分类审计文本并重新执行所述审计文本分类模块,直至所述第二审计文本数据集全部执行完毕。
11.根据权利要求10所述的审计文本分类***,其特征在于,所述第一审计文本数据集的获取方式包括电力审计文本数据集和网页中获取的电力审计文本。
12.根据权利要求10所述的审计文本分类***,其特征在于,所述第二审计文本数据集的获取方式为各电力公司的每日审计记录的电力审计文本。
13.根据权利要求10所述的审计文本分类***,其特征在于,审计文本知识图谱构建模块包括:实体数据获取单元、关系数据获取单元、属性数据获取单元、融合存储单元和可视化单元;
所述实体数据获取单元用于获取所述第一审计文本数据集中的实体数据;所述实体数据包括被审计单位、项目类型、审计问题标题、审计问题类别、制度依据和审计意见;
所述关系数据获取单元用于获取所述第一审计文本数据集中的关系数据;所述关系数据包括属于、发生、原因和依据;
所述属性数据获取单元用于获取所述第一审计文本数据集中的属性数据;所述属性数据包括无资质承揽业务、分包管理不规范、分包合同不规范和可研深度不足;
所述融合存储单元用于对所述实体数据、所述关系数据和所述属性数据进行数据融合并存储至图数据库,存储方式为实体—关系—实体—属性;
所述可视化单元用于采用可视化工具,得到所述审计文本知识图谱。
14.根据权利要求10所述的审计文本分类***,其特征在于,所述词向量的计算公式为:
式中,m为审计问题类别包含的词个数,n为审计问题类别包含的每个词的词向量长度,U m×n 表示作为审计问题类别包含的词作为中心词时的向量,V m×n 表示作为审计问题类别包含的词作为非中心词时的向量,Y为所述词向量。
15.根据权利要求10所述的审计文本分类***,其特征在于,所述配合指数的计算公式为:
E为所述配合指数,Y i 为所述词向量的第i个字段,Q j 为所述审计文本知识图谱中所包含的实体数据“审计问题类别”的特征向量,n为所述审计文本知识图谱中所包含的实体数据“审计问题类别”的数量,max为最大值。
16.根据权利要求10所述的审计文本分类***,其特征在于,所述第一预设值为40%。
17.根据权利要求10所述的审计文本分类***,其特征在于,所述第二预设值为95%。
18.根据权利要求10所述的审计文本分类***,其特征在于,所述文本数据库的创建过程包括:
基于所述审计文本知识图谱新补全的词向量,后台自动抓取数据信息,进行数据导出;
进行所述数据导出时,采用在线导出技术自动生成以所述词向量对应的审计问题类别为命名的文件数据库。
19.基于知识图谱的审计文本分类设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-9中任一项所述的基于知识图谱的审计文本分类方法。
CN202410278278.9A 2024-03-12 2024-03-12 基于知识图谱的审计文本分类方法、***和设备 Active CN117874240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410278278.9A CN117874240B (zh) 2024-03-12 2024-03-12 基于知识图谱的审计文本分类方法、***和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410278278.9A CN117874240B (zh) 2024-03-12 2024-03-12 基于知识图谱的审计文本分类方法、***和设备

Publications (2)

Publication Number Publication Date
CN117874240A true CN117874240A (zh) 2024-04-12
CN117874240B CN117874240B (zh) 2024-06-14

Family

ID=90597173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410278278.9A Active CN117874240B (zh) 2024-03-12 2024-03-12 基于知识图谱的审计文本分类方法、***和设备

Country Status (1)

Country Link
CN (1) CN117874240B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558492A (zh) * 2018-10-16 2019-04-02 中山大学 一种适于事件归因的上市公司知识图谱构建方法及装置
CN110334212A (zh) * 2019-07-01 2019-10-15 南京审计大学 一种基于机器学习的领域性审计知识图谱构建方法
CN110990567A (zh) * 2019-11-25 2020-04-10 国家电网有限公司 一种增强领域特征的电力审计文本分类方法
CN112100396A (zh) * 2020-08-28 2020-12-18 泰康保险集团股份有限公司 一种数据处理方法和装置
WO2022041728A1 (zh) * 2020-08-28 2022-03-03 康键信息技术(深圳)有限公司 医学领域意图识别方法、装置、设备及存储介质
CN115168575A (zh) * 2022-06-27 2022-10-11 北京至臻云智能科技有限公司 应用于审计领域的主语补全方法及相关设备
CN115545468A (zh) * 2022-09-28 2022-12-30 国网山东省电力公司淄博供电公司 基于知识图谱的审计风险度量方法
CN116303976A (zh) * 2023-05-12 2023-06-23 中国人民解放军国防科技大学 基于网络安全知识图谱的渗透测试问答方法、***及介质
CN116844731A (zh) * 2023-07-07 2023-10-03 中国平安人寿保险股份有限公司 疾病分类方法、疾病分类装置、电子设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558492A (zh) * 2018-10-16 2019-04-02 中山大学 一种适于事件归因的上市公司知识图谱构建方法及装置
CN110334212A (zh) * 2019-07-01 2019-10-15 南京审计大学 一种基于机器学习的领域性审计知识图谱构建方法
CN110990567A (zh) * 2019-11-25 2020-04-10 国家电网有限公司 一种增强领域特征的电力审计文本分类方法
CN112100396A (zh) * 2020-08-28 2020-12-18 泰康保险集团股份有限公司 一种数据处理方法和装置
WO2022041728A1 (zh) * 2020-08-28 2022-03-03 康键信息技术(深圳)有限公司 医学领域意图识别方法、装置、设备及存储介质
CN115168575A (zh) * 2022-06-27 2022-10-11 北京至臻云智能科技有限公司 应用于审计领域的主语补全方法及相关设备
CN115545468A (zh) * 2022-09-28 2022-12-30 国网山东省电力公司淄博供电公司 基于知识图谱的审计风险度量方法
CN116303976A (zh) * 2023-05-12 2023-06-23 中国人民解放军国防科技大学 基于网络安全知识图谱的渗透测试问答方法、***及介质
CN116844731A (zh) * 2023-07-07 2023-10-03 中国平安人寿保险股份有限公司 疾病分类方法、疾病分类装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邵磊落: "面向电网企业内控审计的知识图谱建模研究", 《会计之友》, no. 20, 31 October 2021 (2021-10-31), pages 124 - 126 *

Also Published As

Publication number Publication date
CN117874240B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN112199512B (zh) 面向科技服务的事理图谱构建方法、装置、设备及存储介质
CN113051382A (zh) 一种基于知识图谱的电力故障智能问答方法及装置
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及***
CN110765277A (zh) 一种基于知识图谱的移动端的在线设备故障诊断平台
CN112181490B (zh) 功能点评估法中功能类别的识别方法、装置、设备及介质
CN116340530A (zh) 基于机械知识图谱的智能设计方法
CN116521898A (zh) 一种电厂发电设备故障知识图谱的构建方法
CN117648093A (zh) 基于大模型和自定制需求模板的rpa流程自动化生成方法
CN117909754A (zh) 基于孪生神经网络的电厂设备缺陷辅助消除方法及***
CN117874240B (zh) 基于知识图谱的审计文本分类方法、***和设备
CN112668836B (zh) 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置
CN116187323A (zh) 一种数控机床领域知识图谱及其构建方法
Hu et al. A classification model of power operation inspection defect texts based on graph convolutional network
CN116226371A (zh) 一种数字经济专利分类方法
Sharma et al. Comprehensive study of semantic annotation: Variant and praxis
CN115238093A (zh) 一种模型训练的方法、装置、电子设备及存储介质
CN114969341A (zh) 一种针对餐饮行业评论的细粒度情感分析方法及装置
CN113688233A (zh) 一种用于知识图谱语义搜索的文本理解的方法
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质
Rybak et al. Machine learning-enhanced text mining as a support tool for research on climate change: theoretical and technical considerations
Wang et al. Cases Integration System for Fault Diagnosis of CNC Machine Tools Based on Knowledge Graph
CN111814457A (zh) 一种电网工程合同文本生成方法
Feng et al. The core technique and application of knowledge graph in power grid company administrative duty
CN117332761B (zh) 一种pdf文档智能识别标注***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240517

Address after: 300000 No. 278, Hongqi Road, Nankai District, Tianjin

Applicant after: State Grid Tianjin electric power company Chengxi power supply branch

Country or region after: China

Applicant after: STATE GRID TIANJIN ELECTRIC POWER Co.

Applicant after: STATE GRID CORPORATION OF CHINA

Applicant after: Tianjin Chengxi Guangyuan Power Engineering Co.,Ltd.

Address before: No.153 Xiangwei Road, Hebei District, Tianjin 300143

Applicant before: TIANJIN ELECTRIC POWER ENGINEERING SUPERVISION Co.,Ltd.

Country or region before: China

Applicant before: State Grid Tianjin electric power company construction branch

Applicant before: Tianjin Sanyuan Power Intelligent Technology Co.,Ltd.

Applicant before: Tianjin Chengxi Guangyuan Power Engineering Co.,Ltd.

Applicant before: Tianjin Tianyuan Electric Power Engineering Co.,Ltd.

Applicant before: Tianjin Ninghe District Ningdong Shengyuan Power Engineering Co.,Ltd.

Applicant before: STATE GRID TIANJIN ELECTRIC POWER Co.

Applicant before: STATE GRID CORPORATION OF CHINA

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant