CN116108198A - 基于大数据ai构建知识图谱的水质诊断方法及存储介质 - Google Patents
基于大数据ai构建知识图谱的水质诊断方法及存储介质 Download PDFInfo
- Publication number
- CN116108198A CN116108198A CN202211700205.1A CN202211700205A CN116108198A CN 116108198 A CN116108198 A CN 116108198A CN 202211700205 A CN202211700205 A CN 202211700205A CN 116108198 A CN116108198 A CN 116108198A
- Authority
- CN
- China
- Prior art keywords
- water quality
- data
- knowledge graph
- historical
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 211
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000003745 diagnosis Methods 0.000 title claims abstract description 21
- 230000002159 abnormal effect Effects 0.000 claims abstract description 75
- 238000005516 engineering process Methods 0.000 claims abstract description 60
- 238000007689 inspection Methods 0.000 claims abstract description 39
- 238000009954 braiding Methods 0.000 claims abstract description 20
- 230000005856 abnormality Effects 0.000 claims description 35
- 238000004458 analytical method Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 21
- 238000012790 confirmation Methods 0.000 claims description 12
- 238000009960 carding Methods 0.000 claims description 11
- 238000011144 upstream manufacturing Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims 2
- 238000012544 monitoring process Methods 0.000 description 34
- 230000008569 process Effects 0.000 description 11
- 238000002372 labelling Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 239000003344 environmental pollutant Substances 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 231100000719 pollutant Toxicity 0.000 description 4
- 230000001149 cognitive effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000009940 knitting Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000000809 air pollutant Substances 0.000 description 1
- 231100001243 air pollutant Toxicity 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000008020 evaporation Effects 0.000 description 1
- 238000001704 evaporation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000008239 natural water Substances 0.000 description 1
- 239000005416 organic matter Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000002285 radioactive effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 235000013619 trace mineral Nutrition 0.000 description 1
- 239000011573 trace mineral Substances 0.000 description 1
- 238000003911 water pollution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/18—Water
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Development Economics (AREA)
- Animal Behavior & Ethology (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于大数据AI构建知识图谱的水质诊断方法及存储介质,所述方法包括以下步骤:汇总历史水质资料,从历史水质资料中获取历史水质数据,并进行存储形成知识图谱;对知识图谱中的历史水质数据进行数据编织,通过大数据技术接入数据源对知识图谱进行更新;当水质指标上报时,利用知识图谱通过自动巡检查找水质异常事件。通过大数据和知识图谱技术结合,构建的知识图谱具有自我学习能力,可以全局水质问题。
Description
技术领域
本申请涉及水质分析技术领域,具体涉及一种基于大数据AI构建知识图谱的水质诊断方法及存储介质。
背景技术
水在环境作用下所表现出来的综合特征,即水的物理性质和化学成分。自然界中的水,是由各种物质(溶解性和非溶解性物质)所组成的极其复杂的综合体。水中含有的溶解物质,直接影响天然水的许多性质,使水质有优劣之分。
水中含有的物质种类很多,有溶解于水中的O2、N2、CO2、H2S气体,Cl-、Na+、K+、Ca2+、Mg2+、CO卲、HCO婣和SO厈等离子;有Br、I、F等微量元素;有含量极少的Ra、Rn等放射性元素;还有大部分呈胶体状态的有机物以及悬浮固态颗粒。它们随环境条件的不同,含量也不同。各种水体的水质是不相同的。
实际上的水质问题,生活和工业排污、气象、农业种植等各种因素相互作用,错综复杂,需要综合各种因素去分析。
现有的技术方案中,监测设备只能从特定场景去发现问题,如管网排污,农业种植,土地利用情况变化;
经验模型可以从统计学的方式,发现水质指标和水质异常问题的潜在关系,但是模型需要长期校准和率定才能逐渐准确,同时也存在类似监测设备方案的局限性;
从水环境水生态水动力的原理出发方案,会碰到观测方式不足,不同研究团队结论有分歧,难以对水质污染做定性定量分析的情况。以降雨为例,降雨会稀释湖区中的污染物,使污染物浓度降低;但降雨也会冲刷上游的地面/空气污染物,通过径流汇入到湖区,使污染物浓度上升。为了能准确判断,必须对雨量、上游污染物浓度、水位流量、蒸发量、风向、周围工厂生活区管网、农业种植情况,做全方面的分析,确定相关联的因素以及能引起质变的阈值。由于从原理分析过于复杂,因此通常要缩小研究范围,从比较确定的范围出发,然后逐步补充扩展。
因此现有技术方案存在以下缺点:
1、由于只从特定领域去分析问题,如同盲人摸象,无法从全局进行分析;
2、水质的治理,会根据各个专题,做专项的方案,然而这些各方案通常由不同的单位建设,形成信息孤岛;
3、同一水质异常事件,如果多种方案给出不同的结论,决策者需要自行判断哪个结论置信度更高。
发明内容
鉴于上述问题,本申请提供了一种基于大数据AI构建知识图谱的水质诊断方法及存储介质,解决现有水质诊断只能从特定领域去分析问题,如同盲人摸象,无法从全局进行分析的问题。
为实现上述目的,发明人提供了一种基于大数据AI构建知识图谱的水质诊断方法,包括以下步骤:
汇总历史水质资料,从历史水质资料中获取历史水质数据,并进行存储形成知识图谱;
对知识图谱中的历史水质数据进行数据编织,通过大数据技术接入数据源对知识图谱进行更新;
当水质指标上报时,利用知识图谱通过自动巡检查找水质异常事件。
在一些实施例中,所述步骤“对知识图谱中的历史水质数据进行数据编织”具体包括以下步骤:
对知识图谱中的历史水质数据进行数据分类,并进行数据关系梳理,梳理出水质数据之间的上下游关系。
在一些实施例中,所述步骤“通过大数据技术接入数据源对知识图谱进行更新”具体包括以下步骤:
通过大数据技术接入数据源;
通过实时流处理技术,对数据源的数据进行梳理后,更新至知识图谱中。
在一些实施例中,所述步骤“利用知识图谱通过自动巡检查找水质异常事件”具体包括以下步骤:
利用知识图谱通过自动巡检查找从数据源获取的数据中水质异常数据;
将查找的水质异常数据发送至工作人员进行确认;
根据反馈的确认结果判断是否为误报;
若为误报,则修正自动巡检的阈值;
若非误报,则判定为水质异常事件。
在一些实施例中,所述步骤“利用知识图谱通过自动巡检查找水质异常事件”之后还包括以下步骤:
从知识图谱中查找与该水质异常事件正相关的所有实体;
通过阈值判断查找的所有实体是否为异常可能原因;
通过指标特征与历史事件的相似度算法对异常可能原因进行可信度评估;
列出该水质异常事件的所有异常可能原因及对应的置信度。
在一些实施例中,还包括以下步骤:
将根据知识图谱分析得到的水质异常事件的异常可能原因及人工处置后标注的事件原因作为历史经验上传至知识图谱中。
还提供了另一个技术方案,一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器运行时执行以下步骤:
汇总历史水质资料,从历史水质资料中获取历史水质数据,并进行存储形成知识图谱;
对知识图谱中的历史水质数据进行数据编织,通过大数据技术接入数据源对知识图谱进行更新;
当水质指标上报时,利用知识图谱通过自动巡检查找水质异常事件。
在一些实施例中,所述步骤“对知识图谱中的历史水质数据进行数据编织”具体包括以下步骤:
对知识图谱中的历史水质数据进行数据分类,并进行数据关系梳理,梳理出水质数据之间的上下游关系。
在一些实施例中,所述步骤“通过大数据技术接入数据源对知识图谱进行更新”具体包括以下步骤:
通过大数据技术接入数据源;
通过实时流处理技术,对数据源的数据进行梳理后,更新至知识图谱中。
在一些实施例中,所述步骤“利用知识图谱通过自动巡检查找水质异常事件”具体还包括以下步骤:
利用知识图谱通过自动巡检查找从数据源获取的数据中水质异常数据;
将查找的水质异常数据发送至工作人员进行确认;
根据反馈的确认结果判断是否为误报;
若为误报,则修正自动巡检的阈值;
若非误报,则判定为水质异常事件。
在一些实施例中,所述步骤“利用知识图谱通过自动巡检查找水质异常事件”之后还包括以下步骤:
从知识图谱中查找与该水质异常事件正相关的所有实体;
通过阈值判断查找的所有实体是否为异常可能原因;
通过指标特征与历史事件的相似度算法对异常可能原因进行可信度评估;
列出该水质异常事件的所有异常可能原因及对应的置信度。
在一些实施例中,还包括以下步骤:
将根据知识图谱分析得到的水质异常事件的异常可能原因及人工处置后标注的事件原因作为历史经验上传至知识图谱中。
区别于现有技术,上述技术方案,通过汇总历史水质资料,从历史水质资料中获取历史水质数据,并进行存储形成知识图谱;对知识图谱中的历史水质数据进行数据编织,通过大数据技术接入数据源对知识图谱进行更新;当水质指标上报时,利用知识图谱通过自动巡检查找水质异常事件。通过大数据和知识图谱技术结合,构建的知识图谱具有自我学习能力,可以全局水质问题。
上述发明内容相关记载仅是本申请技术方案的概述,为了让本领域普通技术人员能够更清楚地了解本申请的技术方案,进而可以依据说明书的文字及附图记载的内容予以实施,并且为了让本申请的上述目的及其它目的、特征和优点能够更易于理解,以下结合本申请的具体实施方式及附图进行说明。
附图说明
附图仅用于示出本申请具体实施方式以及其他相关内容的原理、实现方式、应用、特点以及效果等,并不能认为是对本申请的限制。
在说明书附图中:
图1为具体实施方式所述基于大数据AI构建知识图谱的水质诊断方法的一种流程示意图;
图2为具体实施方式所述基于大数据AI构建知识图谱的水质诊断方法的另一种流程示意图;
图3为具体实施方式所述寻找问题相关的原因的流程示意图;
图4为具体实施方式所述步骤S140的一种流程示意图;
图5为具体实施方式所述基于大数据AI构建知识图谱的水质诊断方法的另一种流程示意图;
图6为具体实施方式所述基于大数据AI构建知识图谱的水质诊断方法的另一种流程示意图;
图7为具体实施方式所述存储介质的一种结构示意图。
上述各附图中涉及的附图标记说明如下:
710、存储介质,
720、处理器。
具体实施方式
为详细说明本申请可能的应用场景,技术原理,可实施的具体方案,能实现目的与效果等,以下结合所列举的具体实施例并配合附图详予说明。本文所记载的实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中各个位置出现的“实施例”一词并不一定指代相同的实施例,亦不特别限定其与其它实施例之间的独立性或关联性。原则上,在本申请中,只要不存在技术矛盾或冲突,各实施例中所提到的各项技术特征均可以以任意方式进行组合,以形成相应的可实施的技术方案。
除非另有定义,本文所使用的技术术语的含义与本申请所属技术领域的技术人员通常理解的含义相同;本文中对相关术语的使用只是为了描述具体的实施例,而不是旨在限制本申请。
在本申请的描述中,用语“和/或”是一种用于描述对象之间逻辑关系的表述,表示可以存在三种关系,例如A和/或B,表示:存在A,存在B,以及同时存在A和B这三种情况。另外,本文中字符“/”一般表示前后关联对象是一种“或”的逻辑关系。
在本申请中,诸如“第一”和“第二”之类的用语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何实际的数量、主次或顺序等关系。
在没有更多限制的情况下,在本申请中,语句中所使用的“包括”、“包含”、“具有”或者其他类似的表述,意在涵盖非排他性的包含,这些表述160并不排除在包括所述要素的过程、方法或者产品中还可以存在另外的要素,
从而使得包括一系列要素的过程、方法或者产品中不仅可以包括那些限定的要素,而且还可以包括没有明确列出的其他要素,或者还包括为这种过程、方法或者产品所固有的要素。
与《审查指南》中的理解相同,在本申请中,“大于”、“小于”、“超165过”等表述理解为不包括本数;“以上”、“以下”、“以内”等表述理解为包括本数。此外,在本申请实施例的描述中“多个”的含义是两个以上(包括两个),与之类似的与“多”相关的表述亦做此类理解,例如“多组”、
“多次”等,除非另有明确具体的限定。
在本申请实施例的描述中,所使用的与空间相关的表述,诸如“中心”170“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”
“右”“竖直”“水平”“垂直”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等,所指示的方位或位置关系是基于具体实施例或附图所示的方位或位置关系,仅是为了便于描述本申请的具体实施例或便于读者理解,而不是指示或暗示所指的装置或部件必须具有特定的位175置、特定的方位、或以特定的方位构造或操作,因此不能理解为对本申请实施例的限制。
除非另有明确的规定或限定,在本申请实施例的描述中,所使用的“安装”“相连”“连接”“固定”“设置”等用语应做广义理解。例如,所述
“连接”可以是固定连接,也可以是可拆卸连接,或成一体设置;其可以是180机械连接,也可以是电连接,也可以是通信连接;其可以是直接相连,也可以通过中间媒介间接相连;其可以是两个元件内部的连通或两个元件的相互作用关系。对于本申请所属技术领域的技术人员而言,可以根据具体情况理解上述用语在本申请实施例中的具体含义。
请参阅图1,本实施例提供了一种基于大数据AI构建知识图谱的水质诊185断方法,包括以下步骤:
步骤S110:汇总历史水质资料,从历史水质资料中获取历史水质数据,并进行存储形成知识图谱;
使用数据湖技术汇总学术论文、政府公告、往年水质分析报告等历史水质资料,使用NLP(自然语言处理技术)从学术论文、政府公告、往年水质分190析报告、等资料中获取数据,使用数据仓库技术对数据进行存储和计算。使
用图数据库对知识进行存储更新与检索,知识包括以下内容:
水质、水文、气象的监测站点信息和实时监测数据;
监测站点与河流、湖湾等水质保护目标的关系;
水质指标发生异常的可能原因;
195可能原因对应的验证/观测方式,其中观测方式包含是其他水质监测/水质问题诊断方案的成果,或者是监测数据的指标;
构建知识图谱作为数据编织技术的实现手段。
步骤S120:对知识图谱中的历史水质数据进行数据编织,通过大数据技术接入数据源对知识图谱进行更新;
200步骤S130:当利用知识图谱通过自动巡检查找水质异常事件。
通过大数据和知识图谱技术结合,构建的知识图谱具有自我学习能力,可以全局水质问题。
在一些实施例中,所述步骤“对知识图谱中的历史水质数据进行数据编织”具体包括以下步骤:
205对知识图谱中的历史水质数据进行数据分类,并进行数据关系梳理,梳理出水质数据之间的上下游关系。
数据编织的具体实现步骤如下:
数据分类;分类主要是为了实现数据维度对齐,维度包括数据类型、时间粒度(年月日时)、数据所属概念(可能原因、观测方式、监测数据、监测站点等)。维度对齐就是将数据分门别类,并做一定的处理,使其满足同一规格的过程。同一规格如监测数据统一按时汇总,监测数据计量单位统一,地理坐标***一等等。
数据关系梳理:数据分类后,按照数据的概念对应知识图谱上的”关系”,将梳理出数据之间上下游的关系,使数据之间能够形成联系。
在一些实施例中,所述步骤“通过大数据技术接入数据源对知识图谱进行更新”具体包括以下步骤:
通过大数据技术接入数据源;
通过实时流处理技术,对数据源的数据进行梳理后,更新至知识图谱中。
数据源接入:数据源接入需要使用大数据技术进行处理,监测数据等动态数据,使用实时流处理技术,实时更新趋势信息、平均值最大值等统计结论;专家经验、历史处置结果等归档信息,使用批处理技术,定期批量存储。
数据动态集成:实时流处理技术的处理结果,需要更新到知识图谱上,使数据应用时,能够直接取得,无需关注数据来源以及临时统计。
这部分使用图数据库的PythonSDK结合值守服务实现。
在一些实施例中,所述步骤“利用知识图谱通过自动巡检查找水质异常事件”具体包括以下步骤:
利用知识图谱通过自动巡检查找从数据源获取的数据中水质异常数据;
将查找的水质异常数据发送至工作人员进行确认;
根据反馈的确认结果判断是否为误报;
若为误报,则修正自动巡检的阈值;
若非误报,则判定为水质异常事件。
自动巡检是使用大数据的实时流处理技术,在水质指标上报时,做即席查询,分析指标是否有异常,通过设定告警阈值,与往年同期对比差值的阈值,与最近数值趋势对比等方式发现异常数据。
发现异常数据后,需要人工确认是否误报,如果是误报,则需要修正自动巡检的阈值。如非误报,则认为判定为水质异常事件。
请参阅图2,在一些实施例中,所述步骤“利用知识图谱通过自动巡检查找水质异常事件”之后还包括以下步骤:
步骤S140:通过知识图谱寻找水质异常事件发生的可能原因。
请参阅图3所示的寻找问题相关的原因的流程示意图,这一步骤有两个过程:
通过知识图谱找到问题对应的可能原因
通过可能原因的观测方式,来寻找发生异常的可能原因。
观测方式自动集成观测结论,如”连续12天未下雨”“持续高温5天”“比常年同期温度高5℃”等可以作为异常原因的支撑依据
一个水质问题(水质异常事件)可以对应多个可能原因,每个原因需要多种观测方式来支撑,而观测方式又需要具体的监测数据来支撑。
请参阅图4,具体的通过知识图谱寻找水质异常事件发生的可能原因包括以下步骤:
步骤S141:从知识图谱中查找与该水质异常事件正相关的所有实体;
步骤S142:通过阈值判断查找的所有实体是否为异常可能原因;
步骤S143:通过指标特征与历史事件的相似度算法对异常可能原因进行可信度评估;
步骤S144:列出该水质异常事件的所有异常可能原因及对应的置信度。
不同的原因通过是通过不同技术方案使用不同技术手段,从不同角度进行分析得到的,由于生态环境问题的复杂性,其中存在超出认知范围的真实原理,且学术界尚未有专家发布其联系,只能通过历史经验中,各种问题真正原因对应的指标特征来进行机器学习,通过当前指标特征与历史经验中的相似度,作为各个原因的置信度。
在一些实施例中,还包括以下步骤:
根据处置结果标注事件。
水质监管部门在对水质问题处理后,标注事件的真正原因。如果是第一次发现的原因,则需要补充观测方式。如果不是,则标注后***自动摘录问题发生时候的指标特征。
请参阅图5,在一些实施例中,还包括以下步骤:
步骤S150:将根据知识图谱分析得到的水质异常事件的异常可能原因及人工处置后标注的事件原因作为历史经验上传至知识图谱中。
将***给出的分析结果,与水质异常事件人工处置后标注的事件原因,作为一个新的历史经验,自动上传到知识图谱平台中,进行自我学习,形成一个闭环。
这部分是智能知识图谱的关键。事件的标注结果,通过AI机器学习,能够动态校准实现,当问题再次发生时,能够给出更准确的置信度评估。以及能够将新的原因纳入观测范围。即智能知识图谱能使自身分析问题更全面、更准确。
请参阅图6,在一些实施例中,基于大数据AI构建知识图谱的水质诊断方法分别两个部份:数据编织及数据应用,并由数据平台来联结两个部份。
数据平台由大数据集群和知识图谱集群组成;
大数据集群负责任务:
使用数据湖技术汇总学术论文、政府公告、往年水质分析报告等资料;
使用NLP(自然语言处理技术)从学术论文、政府公告、往年水质分析报告、等资料中获取数据;
使用数据仓库技术对数据进行存储和计算。
知识图谱集群负责任务:
使用图数据库对知识进行存储更新与检索;
知识包括以下内容:
水质、水文、气象的监测站点信息和实时监测数据;
监测站点与河流湖湾等水质保护目标的关系;
水质指标发生异常的可能原因;
可能原因对应的验证/观测方式,其中观测方式包含是其他水质监测/水290质问题诊断方案的成果,或者是监测数据的指标;
数据平台作为数据编织技术的实现手段。
数据编织的具体实现步骤如下
数据分类;
分类主要是为了实现数据维度对齐,维度包括数据类型、时间粒度(年月295日时)、数据所属概念(可能原因观测方式监测数据监测站点等)。维度对齐就是将数据分门别类,并做一定的处理,使其满足同一规格的过程。同一规格如监测数据统一按时汇总,监测数据计量单位统一,地理坐标***一等。
数据关系梳理:
300数据分类后,按照数据的概念对应知识图谱上的”关系”,将梳理出数据之间上下游的关系,使数据之间能够形成联系。
数据源接入:
数据源接入需要使用大数据技术进行处理;
监测数据等动态数据,使用实时流处理技术,实时更新趋势信息、平均305值最大值等统计结论;
专家经验、历史处置结果等归档信息,使用批处理技术,定期批量存储;
数据动态集成:
流处理技术的处理结果,需要更新到知识图谱上,使数据应用时,能够直接取得,无需关注数据来源以及临时统计。
310这部分使用图数据库的PythonSDK结合值守服务实现
数据应用包括:
(1)、自动巡检;
自动巡检是使用大数据的实时流处理技术,在水质指标上报时,做即席查询,分析指标是否有异常,通过设定告警阈值,与往年同期对比差值的阈315值,与最近数值趋势对比等方式发现异常数据;
(2)、发现水质异常事件;
发现异常数据后,需要人工确认是否误报,如果是误报,则需要修正自动巡检的阈值。如非误报,则认为判定为水质异常事件;
(3)、寻找问题相关的原因;
320这一步骤有两个过程:
通过知识图谱找到问题对应的可能原因;
通过可能原因的观测方式,来寻找发生异常的可能原因。
(4)、评估多种原因的置信度;
这一步是因为,不同的原因通过是通过不同技术方案使用不同技术手段,325从不同角度进行分析得到的,由于生态环境问题的复杂性,其中存在超出我们认知范围的真实原理,且学术界尚未有专家发布其联系,我们只能通过历史经验中,各种问题真正原因对应的指标特征来进行机器学习,通过当前指标特征与历史经验中的相似度,作为各个原因的置信度。
(5)、根据处置结果标注事件;
330水质监管部门在对水质问题处理后,标注事件的真正原因。如果是第一次发现的原因,则需要补充观测方式。如果不是,则标注后***自动摘录问题发生时候的指标特征。
(6)、作为历史经验更新到数据平台;
这部分是智能知识图谱的关键。事件的标注结果,通过AI机器学习,能335够动态校准实现,当问题再次发生时,能够给出更准确的置信度评估。以及能够将新的原因纳入观测范围。
即智能知识图谱能使自身分析问题更全面、更准确。
数据编织技术使水质异常事件与对应的原因,原因对应的验证/观测方式更有条理,并可以对现有以及未来的各种水质异常监测方案兼收并蓄,多管齐下,提高问题诊断的准确度。
知识图谱(KnowledgeGraph)是人工智能的重要分支技术,它在2012年由谷歌提出,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关属性—值对,实体间通过关系相互联结,构成网状的知识结构
对于背景技术中的第1和第2两个缺点;
本申请围绕水质异常事件的成因,使用数据编织技术,融合现有其他技术方案、专家经验、历史经验、学术论文的成果,对问题进行综合分析。
对于背景技术中的第3个缺点;
本申请结合历史的异常处置经验和对比当前水质指标特征,使用大数据算法评估多种方案不同结论的置信度。
请参阅图7,另一实施例中,一种存储介质710,所述存储介质710存储有计算机程序,所述计算机程序被处理器720运行时执行以下步骤:
汇总历史水质资料,从历史水质资料中获取历史水质数据,并进行存储形成知识图谱;
使用数据湖技术汇总学术论文、政府公告、往年水质分析报告等历史水质资料,使用NLP(自然语言处理技术)从学术论文、政府公告、往年水质分析报告、等资料中获取数据,使用数据仓库技术对数据进行存储和计算。使用图数据库对知识进行存储更新与检索,知识包括以下内容:
水质、水文、气象的监测站点信息和实时监测数据;
监测站点与河流、湖湾等水质保护目标的关系;
水质指标发生异常的可能原因;
可能原因对应的验证/观测方式,其中观测方式包含是其他水质监测/水质问题诊断方案的成果,或者是监测数据的指标;
构建知识图谱作为数据编织技术的实现手段。
对知识图谱中的历史水质数据进行数据编织,通过大数据技术接入数据源对知识图谱进行更新;
当利用知识图谱通过自动巡检查找水质异常事件。
通过大数据和知识图谱技术结合,构建的知识图谱具有自我学习能力,可以全局水质问题。
在一些实施例中,所述步骤“对知识图谱中的历史水质数据进行数据编织”具体包括以下步骤:
对知识图谱中的历史水质数据进行数据分类,并进行数据关系梳理,梳理出水质数据之间的上下游关系。
数据编织的具体实现步骤如下:
数据分类;分类主要是为了实现数据维度对齐,维度包括数据类型、时间粒度(年月日时)、数据所属概念(可能原因、观测方式、监测数据、监测站点等)。维度对齐就是将数据分门别类,并做一定的处理,使其满足同一规格的过程。同一规格如监测数据统一按时汇总,监测数据计量单位统一,地理坐标***一等等。
数据关系梳理:数据分类后,按照数据的概念对应知识图谱上的”关系”,将梳理出数据之间上下游的关系,使数据之间能够形成联系。
在一些实施例中,所述步骤“通过大数据技术接入数据源对知识图谱进行更新”具体包括以下步骤:
通过大数据技术接入数据源;
通过实时流处理技术,对数据源的数据进行梳理后,更新至知识图谱中。
数据源接入:数据源接入需要使用大数据技术进行处理,监测数据等动态数据,使用实时流处理技术,实时更新趋势信息、平均值最大值等统计结论;专家经验、历史处置结果等归档信息,使用批处理技术,定期批量存储。
数据动态集成:实时流处理技术的处理结果,需要更新到知识图谱上,使数据应用时,能够直接取得,无需关注数据来源以及临时统计。
这部分使用图数据库的PythonSDK结合值守服务实现。
在一些实施例中,所述步骤“利用知识图谱通过自动巡检查找水质异常事件”具体包括以下步骤:
利用知识图谱通过自动巡检查找从数据源获取的数据中水质异常数据;395将查找的水质异常数据发送至工作人员进行确认;
根据反馈的确认结果判断是否为误报;
若为误报,则修正自动巡检的阈值;
若非误报,则判定为水质异常事件。
自动巡检是使用大数据的实时流处理技术,在水质指标上报时,做即席400查询,分析指标是否有异常,通过设定告警阈值,与往年同期对比差值的阈值,与最近数值趋势对比等方式发现异常数据。
发现异常数据后,需要人工确认是否误报,如果是误报,则需要修正自动巡检的阈值。如非误报,则认为判定为水质异常事件。
在一些实施例中,所述步骤“利用知识图谱通过自动巡检查找水质异常405事件”之后还包括以下步骤:
通过知识图谱寻找水质异常事件发生的可能原因。
寻找问题相关的原因,这一步骤有两个过程:
通过知识图谱找到问题对应的可能原因
通过可能原因的观测方式,来寻找发生异常的可能原因。
410观测方式自动集成观测结论,如”连续12天未下雨”“持续高温5天”
“比常年同期温度高5℃”等可以作为异常原因的支撑依据。
一个水质问题(水质异常事件)可以对应多个可能原因,每个原因需要多种观测方式来支撑,而观测方式又需要具体的监测数据来支撑。
具体的通过知识图谱寻找水质异常事件发生的可能原因包括以下步骤:415从知识图谱中查找与该水质异常事件正相关的所有实体;
通过阈值判断查找的所有实体是否为异常可能原因;
通过指标特征与历史事件的相似度算法对异常可能原因进行可信度评估;
列出该水质异常事件的所有异常可能原因及对应的置信度。
不同的原因通过是通过不同技术方案使用不同技术手段,从不同角度进行分析得到的,由于生态环境问题的复杂性,其中存在超出认知范围的真实原理,且学术界尚未有专家发布其联系,只能通过历史经验中,各种问题真正原因对应的指标特征来进行机器学习,通过当前指标特征与历史经验中的相似度,作为各个原因的置信度。
在一些实施例中,还包括以下步骤:
根据处置结果标注事件。
水质监管部门在对水质问题处理后,标注事件的真正原因。如果是第一次发现的原因,则需要补充观测方式。如果不是,则标注后***自动摘录问题发生时候的指标特征。
在一些实施例中,还包括以下步骤:
将根据知识图谱分析得到的水质异常事件的异常可能原因及人工处置后标注的事件原因作为历史经验上传至知识图谱中。
将***给出的分析结果,与水质异常事件人工处置后标注的事件原因,作为一个新的历史经验,自动上传到知识图谱平台中,进行自我学习,形成一个闭环。
最后需要说明的是,尽管在本申请的说明书文字及附图中已经对上述各实施例进行了描述,但并不能因此限制本申请的专利保护范围。凡是基于本申请的实质理念,利用本申请说明书文字及附图记载的内容所作的等效结构或等效流程替换或修改产生的技术方案,以及直接或间接地将以上实施例的技术方案实施于其他相关的技术领域等,均包括在本申请的专利保护范围之内。
Claims (10)
1.一种基于大数据AI构建知识图谱的水质诊断方法,其特征在于,包括以下步骤:
汇总历史水质资料,从历史水质资料中获取历史水质数据,并进行存储形成知识图谱;
对知识图谱中的历史水质数据进行数据编织,通过大数据技术接入数据源对知识图谱进行更新;
当水质指标上报时,利用知识图谱通过自动巡检查找水质异常事件。
2.根据权利要求1所述基于大数据AI构建知识图谱的水质诊断方法,其特征在于,所述步骤“对知识图谱中的历史水质数据进行数据编织,通过大数据技术接入数据源对知识图谱进行更新”具体包括以下步骤:
对知识图谱中的历史水质数据进行数据分类,并进行数据关系梳理,梳理出水质数据之间的上下游关系;
通过大数据技术接入数据源;
通过实时流处理技术,对数据源的数据进行梳理后,更新至知识图谱中。
3.根据权利要求1所述基于大数据AI构建知识图谱的水质诊断方法,其特征在于,所述步骤“利用知识图谱通过自动巡检查找水质异常事件”具体包括以下步骤:
利用知识图谱通过自动巡检查找从数据源获取的数据中水质异常数据;
将查找的水质异常数据发送至工作人员进行确认;
根据反馈的确认结果判断是否为误报;
若为误报,则修正自动巡检的阈值;
若非误报,则判定为水质异常事件。
4.根据权利要求1所述基于大数据AI构建知识图谱的水质诊断方法,其特征在于,所述步骤“利用知识图谱通过自动巡检查找水质异常事件”之后还包括以下步骤:
从知识图谱中查找与该水质异常事件正相关的所有实体;
通过阈值判断查找的所有实体是否为异常可能原因;
通过指标特征与历史事件的相似度算法对异常可能原因进行可信度评估;
列出该水质异常事件的所有异常可能原因及对应的置信度。
5.根据权利要求4所述基于大数据AI构建知识图谱的水质诊断方法,其特征在于,还包括以下步骤:
将根据知识图谱分析得到的水质异常事件的异常可能原因及人工处置后标注的事件原因作为历史经验上传至知识图谱中。
6.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行以下步骤:
汇总历史水质资料,从历史水质资料中获取历史水质数据,并进行存储形成知识图谱;
对知识图谱中的历史水质数据进行数据编织,通过大数据技术接入数据源对知识图谱进行更新;
当水质指标上报时,利用知识图谱通过自动巡检查找水质异常事件。
7.根据权利要求6所述存储介质,其特征在于,所述步骤“对知识图谱中的历史水质数据进行数据编织,通过大数据技术接入数据源对知识图谱进行更新”具体包括以下步骤:
对知识图谱中的历史水质数据进行数据分类,并进行数据关系梳理,梳理出水质数据之间的上下游关系;
通过大数据技术接入数据源;
通过实时流处理技术,对数据源的数据进行梳理后,更新至知识图谱中。
8.根据权利要求6所述存储介质,其特征在于,所述步骤“利用知识图谱通过自动巡检查找水质异常事件”具体还包括以下步骤:
利用知识图谱通过自动巡检查找从数据源获取的数据中水质异常数据;
将查找的水质异常数据发送至工作人员进行确认;
根据反馈的确认结果判断是否为误报;
若为误报,则修正自动巡检的阈值;
若非误报,则判定为水质异常事件。
9.根据权利要求6所述存储介质,其特征在于,所述步骤“利用知识图谱通过自动巡检查找水质异常事件”之后还包括以下步骤:
从知识图谱中查找与该水质异常事件正相关的所有实体;
通过阈值判断查找的所有实体是否为异常可能原因;
通过指标特征与历史事件的相似度算法对异常可能原因进行可信度评估;
列出该水质异常事件的所有异常可能原因及对应的置信度。
10.根据权利要求9所述存储介质,其特征在于,还包括以下步骤:
将根据知识图谱分析得到的水质异常事件的异常可能原因及人工处置后标注的事件原因作为历史经验上传至知识图谱中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211700205.1A CN116108198A (zh) | 2022-12-28 | 2022-12-28 | 基于大数据ai构建知识图谱的水质诊断方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211700205.1A CN116108198A (zh) | 2022-12-28 | 2022-12-28 | 基于大数据ai构建知识图谱的水质诊断方法及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116108198A true CN116108198A (zh) | 2023-05-12 |
Family
ID=86259061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211700205.1A Pending CN116108198A (zh) | 2022-12-28 | 2022-12-28 | 基于大数据ai构建知识图谱的水质诊断方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116108198A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116384158A (zh) * | 2023-05-26 | 2023-07-04 | 广东合诚环境工程有限公司 | 基于大数据的污水处理设备运行监测方法及*** |
-
2022
- 2022-12-28 CN CN202211700205.1A patent/CN116108198A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116384158A (zh) * | 2023-05-26 | 2023-07-04 | 广东合诚环境工程有限公司 | 基于大数据的污水处理设备运行监测方法及*** |
CN116384158B (zh) * | 2023-05-26 | 2023-08-18 | 广东合诚环境工程有限公司 | 基于大数据的污水处理设备运行监测方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Onal et al. | Weather data analysis and sensor fault detection using an extended IoT framework with semantics, big data, and machine learning | |
Lagomarsino et al. | Updating and tuning a regional-scale landslide early warning system | |
US20140058705A1 (en) | System and Method for Detecting Abnormal Occurrences | |
CN117809439B (zh) | 一种基于多种环境因素中河流流量异常预警*** | |
CN112633779B (zh) | 一种对环境监测数据可信度进行评估的方法 | |
CN116108198A (zh) | 基于大数据ai构建知识图谱的水质诊断方法及存储介质 | |
CN117538503A (zh) | 一种实时智能的土壤污染监测***及方法 | |
Praveenchandar et al. | IoT‐Based Harmful Toxic Gases Monitoring and Fault Detection on the Sensor Dataset Using Deep Learning Techniques | |
CN110399537B (zh) | 一种基于人工智能技术的警情时空预测方法 | |
CN113128803A (zh) | 油气管道风险确定方法、装置及计算机设备 | |
CN113742929B (zh) | 一种针对格点气象实况的数据质量评价方法 | |
Mascali et al. | A machine learning-based Anomaly Detection Framework for building electricity consumption data | |
CN113688506A (zh) | 基于微站等多维数据的潜在大气污染源识别方法 | |
CN115426161A (zh) | 异常设备识别方法、装置、设备、介质和程序产品 | |
CN115526330A (zh) | 有机物走航数据校准方法、装置、计算机设备和存储介质 | |
CN110751398B (zh) | 一种区域生态质量评价方法及装置 | |
Zakaria et al. | Forecasting air pollution index in Klang by markov chain model | |
US20240126954A1 (en) | System for and method of calculating hydrological conditions using machine learning | |
CN116630091B (zh) | 一种工业实时数据联动解析*** | |
Kumar et al. | Detection of Cyclones and Extreme Weather Events Using Advanced Deep Learning Methods | |
CN117113157B (zh) | 一种基于人工智能的台区用电故障检测*** | |
Ciappa et al. | Raising Environmental Alerts in the Arctic Region by Analyzing Pollution Data from Sentinel 5p | |
Kelana et al. | Challenge handling flood disaster by recommendation system with Analytical Hierarchy Process Methods | |
Hongyu et al. | Research on Auxiliary System of Big Data Abnormality in Station Area Line Loss under Smart Grid | |
CN115098604A (zh) | 一种特殊人员信息归正方法、设备及其存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |