CN117273670B - 一种具有学习功能的工程资料管理*** - Google Patents

一种具有学习功能的工程资料管理*** Download PDF

Info

Publication number
CN117273670B
CN117273670B CN202311567369.6A CN202311567369A CN117273670B CN 117273670 B CN117273670 B CN 117273670B CN 202311567369 A CN202311567369 A CN 202311567369A CN 117273670 B CN117273670 B CN 117273670B
Authority
CN
China
Prior art keywords
data
engineering data
module
engineering
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311567369.6A
Other languages
English (en)
Other versions
CN117273670A (zh
Inventor
丛金亮
樊昊科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yuntu Huaxiang Technology Co ltd
Original Assignee
Shenzhen Yuntu Huaxiang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yuntu Huaxiang Technology Co ltd filed Critical Shenzhen Yuntu Huaxiang Technology Co ltd
Priority to CN202311567369.6A priority Critical patent/CN117273670B/zh
Publication of CN117273670A publication Critical patent/CN117273670A/zh
Application granted granted Critical
Publication of CN117273670B publication Critical patent/CN117273670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明涉及工程资料管理领域,特别是一种具有学习功能的工程资料管理***。通过获取建立SHAP特征评估模型,利用SHAP特征评估模型计算工程资料数据集的每个特征的所有特征组合贡献度,得到工程资料数据特征集;建立目标XGBoost工程资料检测模型;获取***中建设中的实时工程资料数据,将经过数据处理后的实时工程资料数据输入目标XGBoost工程资料检测模型进行检测,得到建设工程数据状态;根据建设工程数据状态判断实时工程资料数据完整性,若实时工程资料数据不完整,将异常数据传输至服务器中进行预警,并对实时工程资料数据的更新数据进行监控。可以对异常资料数据和缺失资料数据的补充和修改进行监控,有效保障数据的完整性和准确性。

Description

一种具有学习功能的工程资料管理***
技术领域
本发明涉及工程资料管理领域,特别是一种具有学习功能的工程资料管理***。
背景技术
在工程建设施工过程中,无论安全管理资料还是工程资料都是反映工程施工成果的重要文件。工程资料真实、及时、有效、规范可为工程创优成果的实现提供有力的保障。建筑工程资料包含的表格、文档不仅数量巨大,而且种类繁多,填写这些资料是一个非常耗费人力的过程。而随着信息技术的发展,当前,在实际工作中已广泛使用工程资料管理软件辅助工作,这些软件能完成工程资料文档、表格的录入、管理、查询、备份、导入、导出等任务。但是依旧需要人为进行审核和监督,因此会造成一定的资料管理纰漏,工程资料管理不及时、遗漏、重复、错误、不规范等问题,因此如何提高工程资料管理的效率和准确性是现阶段丞待解决的技术问题。
发明内容
本发明的目的是为了解决上述问题,设计了一种具有学习功能的工程资料管理***。
实现上述目的本发明的技术方案为,进一步,在上述一种具有学习功能的工程资料管理***中,所述所述工程资料管理***包括以下模块:
数据获取模块,用于获取***中的入档工程资料数据,对入档工程资料数据进行数据预处理,得到工程资料数据集;
特征提取模块,用于建立SHAP特征评估模型,利用SHAP特征评估模型计算数据集中单个特征对模型预测结果的贡献度,得到SHAP值,将各类输入特征按目标SHAP值的绝对值大小排序,得到工程资料数据特征集;
模型建立模块,用于建立XGBoost工程资料检测模型,利用SMOTE算法对所述工程资料数据特征集中的不平衡样本类别进行采样处理,将处理后的工程资料数据特征集输入至XGBoost工程资料检测模型进行训练,得到目标XGBoost工程资料检测模型;
数据检测模块,用于获取***中建设中的实时工程资料数据,将经过数据处理后的实时工程资料数据输入所述目标XGBoost工程资料检测模型进行检测,得到建设工程数据状态;
数据管理模块,用于根据所述建设工程数据状态判断所述实时工程资料数据完整性,若所述实时工程资料数据不完整,则通知管理人员对所述实时工程资料数据进行补充;
数据监控模块,用于若判断所述实时工程资料数据异常,则获取所述实时工程资料数据的异常数据,将所述异常数据传输至服务器中进行预警,并对所述实时工程资料数据的更新数据进行监控。
进一步,在上述工程资料管理***中,所述数据获取模块包括获取子模块、编码子模块、处理子模块:
获取子模块,用于获取***中的入档工程资料数据,所述入档工程资料数据至少包括:项目管理资料数据、水文地质资料数据、施工技术资料数据、工程质量资料数据、财务报告资料数据、施工图纸资料数据、合同资料数据、施工日志资料数据;
编码子模块,用于对所述入档工程资料数据进行特征编码,将所述入档工程资料数据中的非数值型数据转换成数值型特征的数据,得到编码工程资料数据;
处理子模块,用于对所述编码工程资料数据中异常值数据和缺失值数据进行数据清洗处理,得到工程资料数据集。
进一步,在上述工程资料管理***中,所述特征提取模块包括评估模块建立单元、贡献度定义单元、SHAP值定义单元、数据加权平均单元、模型预测贡献单元:
评估模块建立单元,用于建立SHAP特征评估模型,利用SHAP特征评估模型计算数据集中单个特征对模型预测结果的贡献度,得到SHAP值;
贡献度定义单元,用于确定所述贡献度为特征对于SHAP特征评估模型预测值的影响程度,该特征在模型预测中所贡献的重要性大小;所述SHAP值至少包括正值和负值,正值表示该特征对于预测值的增加起到了正向作用,负值则表示该特征对于预测值的降低起到了负向作用;
SHAP值定义单元,用于确定所述SHAP值的定义为,其中S表示所述SHAP特征评估模型所输入的特征子集合,/>表示子集S的条件期望值,/>表示目标变量的期望值,/>表示为模型预测的期望值,/>表示为样本集;
数据加权平均单元,用于确定当所述SHAP特征评估模型为非线性模型且所输入特征相互关联时,所述SHAP值为所有特征排序计算的加权平均值,并将所计算的条件期望和SHAP值进行组合,得到目标SHAP值;
模型预测贡献单元,用于分析各类输入特征对所述SHAP特征评估模型预测结果的贡献情况,并将各类输入特征按所述目标SHAP值的绝对值大小排序,得到工程资料数据特征集。
进一步,在上述工程资料管理***中,所述模型建立模块包括类别处理子模块、模型训练子模块、模型节点子模块、独热编码子模块、因子分解机子模块:
类别处理子模块,用于获取工程资料数据特征集,利用SMOTE算法对所述工程资料数据特征集中的不平衡样本类别进行采样处理,得到差异均衡工程资料数据集;
模型训练子模块,用于建立XGBoost工程资料检测模型,将所述差异均衡工程资料数据集输入至所述XGBoost工程资料检测模型进行训练,通过树***的方式进行特征交叉,得到所述XGBoost工程资料检测模型的目标树结构;
模型节点子模块,用于所述目标树结构中从每棵树的根节点到叶子节点的路径为不同特征之间交叉组合,叶子节点数为新特征数,每个样本在所有叶子节点的编码为新的样本特征值;
独热编码子模块,用于计算每个样本在每棵树各叶子节点所得到的预测概率值,将每个样本的预测概率值所属的叶子节点进行独热编码,得到工程资料数据稀疏特征矩阵;
因子分解机子模块,用于将所述工程资料数据稀疏特征矩阵输入FM因子分解机进行训练,通过 Sigmoid函数将对结果进行分类,得到目标XGBoost工程资料检测模型。
进一步,在上述工程资料管理***中,所述数据检测模块包括处理单元、检测单元、状态单元:
处理单元,用于获取***中建设中的实时工程资料数据,利用SHAP特征评估模型对所述实时工程资料数据进行数据处理,得到实时工程资料数据特征集;
检测单元,用于将所述实时工程资料数据特征集输入至所述目标XGBoost工程资料检测模型进行检测,得到建设工程数据状态;
状态单元,用于确定所述建设工程数据状态至少包括工程资料数据不完整状态、工程资料数据异常状态、工程资料数据正常状态。
进一步,在上述工程资料管理***中,所述数据管理模块包括判断子模块、状态子模块、检测子模块、存储子模块:
判断子模块,用于根据所述建设工程数据状态判断所述实时工程资料数据完整性,若工程资料数据不完整状态,则通知管理人员对所述实时工程资料数据进行补充;
状态子模块,用于确定所述工程资料数据不完整状态不完整状态至少包括:合同资料数据缺失、施工图纸资料数据缺失、施工日志资料数据缺失;
检测子模块,用于对补充后的工程资料数据进行检测,若检测通过,将补充后的工程资料数据输入至实时工程资料数据中,得到目标工程资料数据;
存储子模块,用于将目标工程资料数据输入至数据库中进行存储,并将所述实时工程资料数据标记为完整状态。
进一步,在上述工程资料管理***中,所述数据监控模块包括判断子模块、异常子模块、预警子模块、监控子模块:
判断子模块,用于若判断所述实时工程资料数据异常,则获取所述实时工程资料数据的异常数据;
异常子模块,用于确定所述工程资料数据异常至少包括:工程资料合同金额异常、工程资料财务数据异常、工程资料施工日志数据异常、工程资料检测数据异常;
预警子模块,用于将所述异常数据传输至服务器中进行预警并通知管理人员在24h内进行数据更新,每隔24h获取数据更新后的实时工程资料数据,得到第一时工程资料数据;
监控子模块,用于将所述第一时工程资料数据输入至所述目标XGBoost工程资料检测模型进行检测,判断所述第一时工程资料数据是否异常,若数据异常,则生成第二预警信息,将所述第二预警信息传输至管理人员。
进一步,在上述工程资料管理***中,所述工程资料管理***还包括以下步骤:
获取***中的入档工程资料数据,对入档工程资料数据进行数据预处理,得到工程资料数据集;
建立SHAP特征评估模型,利用SHAP特征评估模型计算数据集中单个特征对模型预测结果的贡献度,得到SHAP值,将各类输入特征按目标SHAP值的绝对值大小排序,得到工程资料数据特征集;
建立XGBoost工程资料检测模型,利用SMOTE算法对所述工程资料数据特征集中的不平衡样本类别进行采样处理,将处理后的工程资料数据特征集输入至XGBoost工程资料检测模型进行训练,得到目标XGBoost工程资料检测模型;
获取***中建设中的实时工程资料数据,将经过数据处理后的实时工程资料数据输入所述目标XGBoost工程资料检测模型进行检测,得到建设工程数据状态;
根据所述建设工程数据状态判断所述实时工程资料数据完整性,若所述实时工程资料数据不完整,则通知管理人员对所述实时工程资料数据进行补充;
若判断所述实时工程资料数据异常,则获取所述实时工程资料数据的异常数据,将所述异常数据传输至服务器中进行预警,并对所述实时工程资料数据的更新数据进行监控。
进一步,在上述工程资料管理***中,所述工程资料管理***还包括以下步骤:
建立SHAP特征评估模型,利用SHAP特征评估模型计算数据集中单个特征对模型预测结果的贡献度,得到SHAP值;
所述贡献度为特征对于SHAP特征评估模型预测值的影响程度,该特征在模型预测中所贡献的重要性大小;所述SHAP值至少包括正值和负值,正值表示该特征对于预测值的增加起到了正向作用,负值则表示该特征对于预测值的降低起到了负向作用;
所述SHAP值的定义为,其中S表示所述SHAP特征评估模型所输入的特征子集合,/>表示子集S的条件期望值,/>表示目标变量的期望值,/>表示为模型预测的期望值,/>表示为样本集;
当所述SHAP特征评估模型为非线性模型且所输入特征相互关联时,所述SHAP值为所有特征排序计算的加权平均值,并将所计算的条件期望和SHAP值进行组合,得到目标SHAP值;
分析各类输入特征对所述SHAP特征评估模型预测结果的贡献情况,并将各类输入特征按所述目标SHAP值的绝对值大小排序,得到工程资料数据特征集。
进一步,在上述工程资料管理***中,所述工程资料管理***还包括以下步骤:
根据所述建设工程数据状态判断所述实时工程资料数据完整性,若工程资料数据不完整状态,则通知管理人员对所述实时工程资料数据进行补充;
所述工程资料数据不完整状态不完整状态至少包括:合同资料数据缺失、施工图纸资料数据缺失、施工日志资料数据缺失;
对补充后的工程资料数据进行检测,若检测通过,将补充后的工程资料数据输入至实时工程资料数据中,得到目标工程资料数据;
将目标工程资料数据输入至数据库中进行存储,并将所述实时工程资料数据标记为完整状态。
其有益效果在于,通过数据获取模块,用于获取***中的入档工程资料数据,对入档工程资料数据进行数据预处理,得到工程资料数据集;特征提取模块,用于建立SHAP特征评估模型,利用SHAP特征评估模型计算数据集中单个特征对模型预测结果的贡献度,得到SHAP值,将各类输入特征按目标SHAP值的绝对值大小排序,得到工程资料数据特征集;模型建立模块,用于建立XGBoost工程资料检测模型,利用SMOTE算法对所述工程资料数据特征集中的不平衡样本类别进行采样处理,将处理后的工程资料数据特征集输入至XGBoost工程资料检测模型进行训练,得到目标XGBoost工程资料检测模型;数据检测模块,用于获取***中建设中的实时工程资料数据,将经过数据处理后的实时工程资料数据输入所述目标XGBoost工程资料检测模型进行检测,得到建设工程数据状态;数据管理模块,用于根据所述建设工程数据状态判断所述实时工程资料数据完整性,若所述实时工程资料数据不完整,则通知管理人员对所述实时工程资料数据进行补充;数据监控模块,用于若判断所述实时工程资料数据异常,则获取所述实时工程资料数据的异常数据,将所述异常数据传输至服务器中进行预警,并对所述实时工程资料数据的更新数据进行监控。可以对大量的工程数据进行分类管理,并对工程资料数据进行检测,如有异常资料数据及时进行预警,如有工程资料缺失及时提醒补充,并对异常资料数据和缺失资料数据的补充和修改进行监控,有效保障数据的完整性和准确性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
图1为本发明实施例中一种具有学习功能的工程资料管理***的第一个实施例示意图;
图2为本发明实施例中一种具有学习功能的工程资料管理***的第二个实施例示意图;
图3为本发明实施例中一种具有学习功能的工程资料管理***的第三个实施例示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“所述”也可包括复数形式。应所述进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
下面结合附图对本发明进行具体描述,如图1所示,一种具有学习功能的工程资料管理***,所述工程资料管理***包括以下模块:
数据获取模块,用于获取***中的入档工程资料数据,对入档工程资料数据进行数据预处理,得到工程资料数据集;
具体的,本实施例中还包括获取子模块,用于获取***中的入档工程资料数据,入档工程资料数据至少包括:项目管理资料数据、水文地质资料数据、施工技术资料数据、工程质量资料数据、财务报告资料数据、施工图纸资料数据、合同资料数据、施工日志资料数据;编码子模块,用于对入档工程资料数据进行特征编码,将入档工程资料数据中的非数值型数据转换成数值型特征的数据,得到编码工程资料数据;处理子模块,用于对编码工程资料数据中异常值数据和缺失值数据进行数据清洗处理,得到工程资料数据集。
特征提取模块,用于建立SHAP特征评估模型,利用SHAP特征评估模型计算数据集中单个特征对模型预测结果的贡献度,得到SHAP值,将各类输入特征按目标SHAP值的绝对值大小排序,得到工程资料数据特征集;
具体的,本实施例中还包括评估模块建立单元,用于建立SHAP特征评估模型,利用SHAP特征评估模型计算数据集中单个特征对模型预测结果的贡献度,得到SHAP值;贡献度定义单元,用于确定贡献度为特征对于SHAP特征评估模型预测值的影响程度,该特征在模型预测中所贡献的重要性大小;SHAP值至少包括正值和负值,正值表示该特征对于预测值的增加起到了正向作用,负值则表示该特征对于预测值的降低起到了负向作用;SHAP值定义单元,用于确定SHAP值的定义为,其中S表示SHAP特征评估模型所输入的特征子集合,/>表示子集S的条件期望值,/>表示目标变量的期望值,/>表示为模型预测的期望值,/>表示为样本集;
数据加权平均单元,用于确定当SHAP特征评估模型为非线性模型且所输入特征相互关联时,SHAP值为所有特征排序计算的加权平均值,并将所计算的条件期望和SHAP值进行组合,得到目标SHAP值;模型预测贡献单元,用于分析各类输入特征对SHAP特征评估模型预测结果的贡献情况,并将各类输入特征按目标SHAP值的绝对值大小排序,得到工程资料数据特征集。
模型建立模块,用于建立XGBoost工程资料检测模型,利用SMOTE算法对工程资料数据特征集中的不平衡样本类别进行采样处理,将处理后的工程资料数据特征集输入至XGBoost工程资料检测模型进行训练,得到目标XGBoost工程资料检测模型;
具体的,本实施例中还包括类别处理子模块,用于获取工程资料数据特征集,利用SMOTE算法采样对工程资料数据特征集中的不平衡样本类别进行处理,差异均衡工程资料数据集;模型训练子模块,用于建立XGBoost工程资料检测模型,将差异均衡工程资料数据集输入至XGBoost工程资料检测模型进行训练,通过树***的方式进行特征交叉,得到XGBoost工程资料检测模型的目标树结构;模型节点子模块,用于目标树结构中从每棵树的根节点到叶子节点的路径为不同特征之间交叉组合,叶子节点数为新特征数,每个样本在所有叶子节点的编码为新的样本特征值;独热编码子模块,用于计算每个样本在每棵树各叶子节点所得到的预测概率值,将每个样本的预测概率值所属的叶子节点进行独热编码,得到工程资料数据稀疏特征矩阵;因子分解机子模块,用于将工程资料数据稀疏特征矩阵输入FM因子分解机进行训练,通过 Sigmoid函数将对结果进行分类,得到目标XGBoost工程资料检测模型。
数据检测模块,用于获取***中建设中的实时工程资料数据,将经过数据处理后的实时工程资料数据输入目标XGBoost工程资料检测模型进行检测,得到建设工程数据状态;
具体的,本实施例中还包括处理单元,用于获取***中建设中的实时工程资料数据,利用SHAP特征评估模型对实时工程资料数据进行数据处理,得到实时工程资料数据特征集;检测单元,用于将实时工程资料数据特征集输入至目标XGBoost工程资料检测模型进行检测,得到建设工程数据状态;状态单元,用于确定建设工程数据状态至少包括工程资料数据不完整状态、工程资料数据异常状态、工程资料数据正常状态。
数据管理模块,用于根据建设工程数据状态判断实时工程资料数据完整性,若实时工程资料数据不完整,则通知管理人员对实时工程资料数据进行补充;
具体的,本实施例中还包括判断子模块,用于根据建设工程数据状态判断实时工程资料数据完整性,若工程资料数据不完整状态,则通知管理人员对实时工程资料数据进行补充;状态子模块,用于确定工程资料数据不完整状态不完整状态至少包括:合同资料数据缺失、施工图纸资料数据缺失、施工日志资料数据缺失;检测子模块,用于对补充后的工程资料数据进行检测,若检测通过,将补充后的工程资料数据输入至实时工程资料数据中,得到目标工程资料数据;存储子模块,用于将目标工程资料数据输入至数据库中进行存储,并将实时工程资料数据标记为完整状态。
数据监控模块,用于若判断实时工程资料数据异常,则获取实时工程资料数据的异常数据,将异常数据传输至服务器中进行预警,并对实时工程资料数据的更新数据进行监控。
具体的,本实施例中还包括判断子模块,用于若判断实时工程资料数据异常,则获取实时工程资料数据的异常数据;异常子模块,用于确定工程资料数据异常至少包括:工程资料合同金额异常、工程资料财务数据异常、工程资料施工日志数据异常、工程资料检测数据异常;预警子模块,用于将异常数据传输至服务器中进行预警并通知管理人员在24h内进行数据更新,每隔24h获取数据更新后的实时工程资料数据,得到第一时工程资料数据;监控子模块,用于将第一时工程资料数据输入至目标XGBoost工程资料检测模型进行检测,判断第一时工程资料数据是否异常,若数据异常,则生成第二预警信息,将第二预警信息传输至管理人员。
其有益效果在于,通过数据获取模块,用于获取***中的入档工程资料数据,对入档工程资料数据进行数据预处理,得到工程资料数据集;特征提取模块,用于建立SHAP特征评估模型,利用SHAP特征评估模型计算数据集中单个特征对模型预测结果的贡献度,得到SHAP值,将各类输入特征按目标SHAP值的绝对值大小排序,得到工程资料数据特征集;模型建立模块,用于建立XGBoost工程资料检测模型,利用SMOTE算法对工程资料数据特征集中的不平衡样本类别进行采样处理,将处理后的工程资料数据特征集输入至XGBoost工程资料检测模型进行训练,得到目标XGBoost工程资料检测模型;数据检测模块,用于获取***中建设中的实时工程资料数据,将经过数据处理后的实时工程资料数据输入目标XGBoost工程资料检测模型进行检测,得到建设工程数据状态;数据管理模块,用于根据建设工程数据状态判断实时工程资料数据完整性,若实时工程资料数据不完整,则通知管理人员对实时工程资料数据进行补充;数据监控模块,用于若判断实时工程资料数据异常,则获取实时工程资料数据的异常数据,将异常数据传输至服务器中进行预警,并对实时工程资料数据的更新数据进行监控。可以对大量的工程数据进行分类管理,并对工程资料数据进行检测,如有异常资料数据及时进行预警,如有工程资料缺失及时提醒补充,并对异常资料数据和缺失资料数据的补充和修改进行监控,有效保障数据的完整性和准确性。
本实施例中,请参阅图2,本发明实施例中一种具有学***均单元、模型预测贡献单元:
评估模块建立单元,用于建立SHAP特征评估模型,利用SHAP特征评估模型计算数据集中单个特征对模型预测结果的贡献度,得到SHAP值;
贡献度定义单元,用于确定贡献度为特征对于SHAP特征评估模型预测值的影响程度,该特征在模型预测中所贡献的重要性大小;SHAP值至少包括正值和负值,正值表示该特征对于预测值的增加起到了正向作用,负值则表示该特征对于预测值的降低起到了负向作用;
SHAP值定义单元,用于确定SHAP值的定义为,其中S表示SHAP特征评估模型所输入的特征子集合,/>表示子集S的条件期望值,表示目标变量的期望值,/>表示为模型预测的期望值,/>表示为样本集;
数据加权平均单元,用于确定当SHAP特征评估模型为非线性模型且所输入特征相互关联时,SHAP值为所有特征排序计算的加权平均值,并将所计算的条件期望和SHAP值进行组合,得到目标SHAP值;
模型预测贡献单元,用于分析各类输入特征对SHAP特征评估模型预测结果的贡献情况,并将各类输入特征按目标SHAP值的绝对值大小排序,得到工程资料数据特征集。
本实施例中,请参阅图3,本发明实施例中一种具有学习功能的工程资料管理***的第三个实施例,模型建立模块包括类别处理子模块、模型训练子模块、模型节点子模块、独热编码子模块、因子分解机子模块:
类别处理子模块,用于获取工程资料数据特征集,利用SMOTE算法对工程资料数据特征集中的不平衡样本类别进行采样处理,得到差异均衡工程资料数据集;
模型训练子模块,用于建立XGBoost工程资料检测模型,将差异均衡工程资料数据集输入至XGBoost工程资料检测模型进行训练,通过树***的方式进行特征交叉,得到XGBoost工程资料检测模型的目标树结构;
模型节点子模块,用于目标树结构中从每棵树的根节点到叶子节点的路径为不同特征之间交叉组合,叶子节点数为新特征数,每个样本在所有叶子节点的编码为新的样本特征值;
独热编码子模块,用于计算每个样本在每棵树各叶子节点所得到的预测概率值,将每个样本的预测概率值所属的叶子节点进行独热编码,得到工程资料数据稀疏特征矩阵;
因子分解机子模块,用于将工程资料数据稀疏特征矩阵输入FM因子分解机进行训练,通过 Sigmoid函数将对结果进行分类,得到目标XGBoost工程资料检测模型。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应所述了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变和改进,这些变和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (1)

1.一种具有学习功能的工程资料管理***,其特征在于,所述工程资料管理***包括以下模块:
数据获取模块,用于获取***中的入档工程资料数据,对入档工程资料数据进行数据预处理,得到工程资料数据集;
特征提取模块,用于建立SHAP特征评估模型,利用SHAP特征评估模型计算数据集中单个特征对模型预测结果的贡献度,得到SHAP值,将各类输入特征按目标SHAP值的绝对值大小排序,得到工程资料数据特征集;
模型建立模块,用于建立XGBoost工程资料检测模型,利用SMOTE算法对所述工程资料数据特征集中的不平衡样本类别进行采样处理,将处理后的工程资料数据特征集输入至XGBoost工程资料检测模型进行训练,得到目标XGBoost工程资料检测模型;
数据检测模块,用于获取***中建设中的实时工程资料数据,将经过数据处理后的实时工程资料数据输入所述目标XGBoost工程资料检测模型进行检测,得到建设工程数据状态;
数据管理模块,用于根据所述建设工程数据状态判断所述实时工程资料数据完整性,若所述实时工程资料数据不完整,则通知管理人员对所述实时工程资料数据进行补充;
数据监控模块,用于若判断所述实时工程资料数据异常,则获取所述实时工程资料数据的异常数据,将所述异常数据传输至服务器中进行预警,并对所述实时工程资料数据的更新数据进行监控;
所述数据获取模块包括获取子模块、编码子模块、处理子模块:
获取子模块,用于获取***中的入档工程资料数据,所述入档工程资料数据至少包括:项目管理资料数据、水文地质资料数据、施工技术资料数据、工程质量资料数据、财务报告资料数据、施工图纸资料数据、合同资料数据和施工日志资料数据;
编码子模块,用于对所述入档工程资料数据进行特征编码,将所述入档工程资料数据中的非数值型数据转换成数值型特征的数据,得到编码工程资料数据;
处理子模块,用于对所述编码工程资料数据中异常值数据和缺失值数据进行数据清洗处理,得到工程资料数据集;
所述特征提取模块包括评估模块建立单元、贡献度定义单元、SHAP值定义单元、数据加权平均单元、模型预测贡献单元:
评估模块建立单元,用于建立SHAP特征评估模型,利用SHAP特征评估模型计算数据集中单个特征对模型预测结果的贡献度,得到SHAP值;
贡献度定义单元,用于确定所述贡献度为特征对于SHAP特征评估模型预测值的影响程度,该特征在模型预测中所贡献的重要性大小;所述SHAP值至少包括正值和负值,正值表示该特征对于预测值的增加起到了正向作用,负值则表示该特征对于预测值的降低起到了负向作用;
SHAP值定义单元,用于确定所述SHAP值的定义为,其中S表示所述SHAP特征评估模型所输入的特征子集合,/>表示子集S的条件期望值,/>表示目标变量的期望值,/>表示为模型预测的期望值,/>表示为样本集;
数据加权平均单元,用于确定当所述SHAP特征评估模型为非线性模型且所输入特征相互关联时,所述SHAP值为所有特征排序计算的加权平均值,并将所计算的条件期望值和SHAP值进行组合,得到目标SHAP值;
模型预测贡献单元,用于分析各类输入特征对所述SHAP特征评估模型预测结果的贡献情况,并将各类输入特征按所述目标SHAP值的绝对值大小排序,得到工程资料数据特征集;
所述模型建立模块包括类别处理子模块、模型训练子模块、模型节点子模块、独热编码子模块、因子分解机子模块:
类别处理子模块,用于获取工程资料数据特征集,利用SMOTE算法对所述工程资料数据特征集中的不平衡样本类别进行采样处理,得到差异均衡工程资料数据集;
模型训练子模块,用于建立XGBoost工程资料检测模型,将所述差异均衡工程资料数据集输入至所述XGBoost工程资料检测模型进行训练,通过树***的方式进行特征交叉,得到所述XGBoost工程资料检测模型的目标树结构;
模型节点子模块,用于所述目标树结构中从每棵树的根节点到叶子节点的路径为不同特征之间交叉组合,叶子节点数为新特征数,每个样本在所有叶子节点的编码为新的样本特征值;
独热编码子模块,用于计算每个样本在每棵树各叶子节点所得到的预测概率值,将每个样本的预测概率值所属的叶子节点进行独热编码,得到工程资料数据稀疏特征矩阵;
因子分解机子模块,用于将所述工程资料数据稀疏特征矩阵输入FM因子分解机进行训练,通过 Sigmoid函数将对结果进行分类,得到目标XGBoost工程资料检测模型;
所述数据检测模块包括处理单元、检测单元、状态单元:
处理单元,用于获取***中建设中的实时工程资料数据,利用SHAP特征评估模型对所述实时工程资料数据进行数据处理,得到实时工程资料数据特征集;
检测单元,用于将所述实时工程资料数据特征集输入至所述目标XGBoost工程资料检测模型进行检测,得到建设工程数据状态;
状态单元,用于确定所述建设工程数据状态至少包括工程资料数据不完整状态、工程资料数据异常状态和工程资料数据正常状态;
所述数据管理模块包括判断子模块、状态子模块、检测子模块、存储子模块:
判断子模块,用于根据所述建设工程数据状态判断所述实时工程资料数据完整性,若工程资料数据为不完整状态,则通知管理人员对所述实时工程资料数据进行补充;
状态子模块,用于确定所述工程资料数据不完整状态,不完整状态至少包括:合同资料数据缺失、施工图纸资料数据缺失和施工日志资料数据缺失;
检测子模块,用于对补充后的工程资料数据进行检测,若检测通过,将补充后的工程资料数据输入至实时工程资料数据中,得到目标工程资料数据;
存储子模块,用于将目标工程资料数据输入至数据库中进行存储,并将所述实时工程资料数据标记为完整状态;
所述数据监控模块包括判断子模块、异常子模块、预警子模块、监控子模块:
判断子模块,用于若判断所述实时工程资料数据异常,则获取所述实时工程资料数据的异常数据;
异常子模块,用于确定所述工程资料数据异常至少包括:工程资料合同金额异常、工程资料财务数据异常、工程资料施工日志数据异常和工程资料检测数据异常;
预警子模块,用于将所述异常数据传输至服务器中进行预警并通知管理人员在24h内进行数据更新,每隔24h获取数据更新后的实时工程资料数据,得到第一实时工程资料数据;
监控子模块,用于将所述第一实时工程资料数据输入至所述目标XGBoost工程资料检测模型进行检测,判断所述第一实时工程资料数据是否异常,若数据异常,则生成第二预警信息,将所述第二预警信息传输至管理人员。
CN202311567369.6A 2023-11-23 2023-11-23 一种具有学习功能的工程资料管理*** Active CN117273670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311567369.6A CN117273670B (zh) 2023-11-23 2023-11-23 一种具有学习功能的工程资料管理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311567369.6A CN117273670B (zh) 2023-11-23 2023-11-23 一种具有学习功能的工程资料管理***

Publications (2)

Publication Number Publication Date
CN117273670A CN117273670A (zh) 2023-12-22
CN117273670B true CN117273670B (zh) 2024-03-12

Family

ID=89218230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311567369.6A Active CN117273670B (zh) 2023-11-23 2023-11-23 一种具有学习功能的工程资料管理***

Country Status (1)

Country Link
CN (1) CN117273670B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160824A (zh) * 2019-12-05 2020-05-15 深圳市铭华航电工艺技术有限公司 工程资料的检测方法、装置、计算机设备及存储介质
CN111325353A (zh) * 2020-02-28 2020-06-23 深圳前海微众银行股份有限公司 训练数据集的贡献度计算方法、装置、设备及存储介质
CN116663962A (zh) * 2023-04-26 2023-08-29 合肥天秤检测科技有限公司 一种用于水利工程堤坝材料质量检测分析***
CN117056834A (zh) * 2023-08-18 2023-11-14 上海墅字科技有限公司 基于决策树的大数据分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2021221978A1 (en) * 2020-02-17 2022-09-15 DataRobot, Inc. Automated data analytics methods for non-tabular data, and related systems and apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160824A (zh) * 2019-12-05 2020-05-15 深圳市铭华航电工艺技术有限公司 工程资料的检测方法、装置、计算机设备及存储介质
CN111325353A (zh) * 2020-02-28 2020-06-23 深圳前海微众银行股份有限公司 训练数据集的贡献度计算方法、装置、设备及存储介质
CN116663962A (zh) * 2023-04-26 2023-08-29 合肥天秤检测科技有限公司 一种用于水利工程堤坝材料质量检测分析***
CN117056834A (zh) * 2023-08-18 2023-11-14 上海墅字科技有限公司 基于决策树的大数据分析方法

Also Published As

Publication number Publication date
CN117273670A (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN115578015B (zh) 基于物联网的污水处理全过程监管方法、***及存储介质
CN111506478A (zh) 基于人工智能实现告警管理控制的方法
CN110851321A (zh) 一种业务告警方法、设备及存储介质
CN110636066B (zh) 基于无监督生成推理的网络安全威胁态势评估方法
CN112766429B (zh) 一种异常检测的方法、装置、计算机设备和介质
CN112422351A (zh) 一种基于深度学习的网络告警预测模型建立方法及装置
CN112328425A (zh) 一种基于机器学习的异常检测方法和***
CN114201374A (zh) 基于混合机器学习的运维时序数据异常检测方法及***
CN115296933B (zh) 一种工业生产数据风险等级评估方法及***
CN117196350B (zh) 一种矿山地质环境特征监测与恢复治理方法及***
CN108306997B (zh) 域名解析监控方法及装置
CN114138601A (zh) 一种业务告警方法、装置、设备及存储介质
CN117273670B (zh) 一种具有学习功能的工程资料管理***
CN111934903B (zh) 一种基于时序演化基因的Docker容器故障智能预测方法
CN116796894A (zh) 一种高效深度学习气象预测模型的构建方法
CN115169650B (zh) 一种大数据分析的装备健康预测方法
CN116126807A (zh) 一种日志分析方法及相关装置
CN113469247B (zh) 网络资产异常检测方法
CN116955059A (zh) 根因定位方法、装置、计算设备及计算机存储介质
CN113850528A (zh) 基于多维特征的固体废物产生量评估分析方法和***
CN115330103A (zh) 城市运行状态智能分析方法、装置、计算机设备及存储介质
CN112907111A (zh) 一种基于物联网技术的监控数据智能采集及分析方法
CN111612302A (zh) 一种集团级数据管理方法和设备
CN117312804B (zh) 智能数据感知监测方法和***
CN118114185B (zh) 一种水工程安全监测数据处理方法、***、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant