CN117573667B - 一种煤矿井间数据优化清洗方法及*** - Google Patents

一种煤矿井间数据优化清洗方法及*** Download PDF

Info

Publication number
CN117573667B
CN117573667B CN202410020829.1A CN202410020829A CN117573667B CN 117573667 B CN117573667 B CN 117573667B CN 202410020829 A CN202410020829 A CN 202410020829A CN 117573667 B CN117573667 B CN 117573667B
Authority
CN
China
Prior art keywords
data
air pressure
target moment
time period
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410020829.1A
Other languages
English (en)
Other versions
CN117573667A (zh
Inventor
袁千军
杜政
王云峰
周满生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huayang Communication Technology Co ltd
Original Assignee
Huayang Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huayang Communication Technology Co ltd filed Critical Huayang Communication Technology Co ltd
Priority to CN202410020829.1A priority Critical patent/CN117573667B/zh
Publication of CN117573667A publication Critical patent/CN117573667A/zh
Application granted granted Critical
Publication of CN117573667B publication Critical patent/CN117573667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2123/00Data types
    • G06F2123/02Data types in the time domain, e.g. time-series data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

本发明涉及电数字数据处理技术领域,具体涉及一种煤矿井间数据优化清洗方法及***。该方法获取每个时刻的气压数据、温度数据和湿度数据;根据气压数据的变化,获取特征值;根据气压数据和特征值,获取气压散点图;根据气压散点图中数据点的位置和对应的目标时刻,获取异常得分;根据气压数据、温度数据、湿度数据的变化,获取一致程度值;根据一致程度值和异常得分,获取置信度,进而通过局部离群因子检测算法,获取气压数据的实际局部可达密度,确定噪声数据进行清洗。本发明通过获取气压数据的置信度,进而对气压数据的局部可达密度进行调整,降低噪声数据的影响,准确检测出噪声数据,进行清洗,对煤矿井中的环境进行准确监测。

Description

一种煤矿井间数据优化清洗方法及***
技术领域
本发明涉及电数字数据处理技术领域,具体涉及一种煤矿井间数据优化清洗方法及***。
背景技术
煤是一种重要的能源物质,大多数的煤是从地下矿井中开采出来的。在开采煤的过程中容易发生瓦斯***、粉尘***等矿井事故,对工作人员的生命安全和煤的生产效率造成损伤,因此,在对矿井中的煤进行开采的过程中,需要对矿井内的环境数据进行实时监测,避免矿井事故的发生。已知,气压数据的变化与矿井事故的发生密切相关,因此,实时监测气压数据的变化对矿井环境的研究具有重要意义。但矿井中的环境复杂,存在的干扰因素较多,监测到的气压数据中可能存在噪声数据,导致对矿井中的环境不能进行准确的分析。
现有方法中通过局部离群因子检测算法来计算每个时刻的气压数据的局部可达密度,判断每个气压数据是否为噪声数据。但在实际情况中,会存在一些噪声数据夹杂在正常气压数据之间,且噪声数据与正常气压数据之间的差异比较小,因此,在计算气压数据的局部离群因子时,气压数据的第k邻域内会存在噪声数据,这些噪声数据的局部可达密度会影响气压数据的局部离群因子的大小,进而无法准确检测出噪声数据,对矿井中的环境不能进行准确监测,进而无法对矿井事故进行及时预判。
发明内容
为了解决噪声数据的局部可达密度会影响气压数据的局部离群因子的大小,进而无法准确检测出噪声数据,对矿井中的环境不能进行准确监测的技术问题,本发明的目的在于提供一种煤矿井间数据优化清洗方法及***,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了一种煤矿井间数据优化清洗方法,该方法包括以下步骤:
获取预设时间段内每个时刻的气压数据、温度数据和湿度数据;将每个时刻与前后各预设数量个邻近时刻构成的时间段作为子时间段,将每个子时间段的中心时刻作为目标时刻;
根据每个子时间段内气压数据的变化情况,获取每个目标时刻的特征值;
根据每个目标时刻的气压数据和特征值,获取气压散点图;根据气压散点图中每个数据点的位置分布,获取数据点类别;根据每个数据点类别中每个数据点对应的目标时刻,通过孤立森林算法,获取每个数据点的异常得分;
根据每个子时间段内气压数据分别与温度数据、湿度数据的变化差异,获取每个目标时刻的一致程度值;
根据每个目标时刻的一致程度值和对应数据点的异常得分,获取每个目标时刻的气压数据的置信度;通过局部离群因子检测算法,根据所述置信度,获取每个目标时刻的气压数据的实际局部可达密度,确定噪声数据进行清洗。
进一步地,所述特征值的获取方法为:
将相邻两个时刻之间的气压数据差异,作为气压第一差异;
将相邻两个气压第一差异的差异,作为气压第二差异;
将每个子时间段内最大气压数据与最小气压数据之间的差异,作为每个子时间段的气压第一变化值;
根据每个子时间段内的气压第一差异、气压第二差异和气压第一变化值,获取每个目标时刻的特征值。
进一步地,所述特征值的计算公式为:
式中,为第u个目标时刻的特征值;I为第u个目标时刻对应子时间段内采集数据时刻的总数量;/>为第u个目标时刻对应子时间段内第i个气压第一差异;/>为第u个目标时刻对应子时间段内第(i+1)个时刻的气压数据;/>为第u个目标时刻对应子时间段内第i个时刻的气压数据;/>为第u个目标时刻对应子时间段内第i个气压第二差异;/>为第u个目标时刻对应子时间段内第(i+1)个气压第一差异;/>为第u个目标时刻对应子时间段内最大气压数据;/>为第u个目标时刻对应子时间段内最小气压数据;/>为第u个目标时刻对应子时间段的气压第一变化值;/>为绝对值函数;norm为归一化函数。
进一步地,所述根据每个子时间段内气压数据分别与温度数据、湿度数据的变化差异,获取每个目标时刻的一致程度值的方法为:
将相邻两个时刻之间的温度数据差异,作为温度第一差异;
将相邻两个温度第一差异的差异,作为温度第二差异;
将每个子时间段内最大温度数据与最小温度数据之间的差异,作为每个子时间段的温度第一变化值;
将相邻两个时刻之间的湿度数据差异,作为湿度第一差异;
将相邻两个湿度第一差异的差异,作为湿度第二差异;
将每个子时间段内最大湿度数据与最小湿度数据之间的差异,作为每个子时间段的湿度第一变化值;
根据每个子时间段内相同位置的气压第一差异分别与温度第一差异、湿度第一差异之间的差异,获取对应目标时刻的数据变化速度值;
根据每个子时间段内相同位置的气压第二差异分别与温度第二差异、湿度第二差异之间的差异,获取对应目标时刻的数据稳定值;
根据每个子时间段的气压第一变化值分别与温度第一变化值、湿度第一变化值之间的差异,获取对应目标时刻的数据变化值;
根据每个目标时刻的数据变化速度值、数据稳定值和数据变化值,获取每个目标时刻的一致程度值。
进一步地,所述一致程度值的计算公式为:
式中,为第u个目标时刻的数据变化速度值;I为第u个目标时刻对应子时间段内采集数据时刻的总数量;/>为第u个目标时刻对应子时间段内第i个气压第一差异;为第u个目标时刻对应子时间段内第i个温度第一差异;/>为第u个目标时刻对应子时间段内第i个湿度第一差异;/>为第u个目标时刻的数据稳定值;/>为第u个目标时刻对应子时间段内第i个气压第二差异;/>为第u个目标时刻对应子时间段内第i个温度第二差异;/>为第u个目标时刻对应子时间段内第i个湿度第二差异;/>为第u个目标时刻的数据变化值;/>为第u个目标时刻对应子时间段内最大气压数据;为第u个目标时刻对应子时间段内最小气压数据;/>为第u个目标时刻对应子时间段的气压第一变化值;/>为第u个目标时刻对应子时间段内最大温度数据;/>为第u个目标时刻对应子时间段内最小温度数据;/>为第u个目标时刻对应子时间段的温度第一变化值;/>为第u个目标时刻对应子时间段内最大湿度数据;/>为第u个目标时刻对应子时间段内最小湿度数据;为第u个目标时刻对应子时间段的湿度第一变化值;/>为第u个目标时刻的一致程度值;/>为第一预设常数,大于0;/>为绝对值函数;norm为归一化函数。
进一步地,所述置信度的获取方法为:
将每个目标时刻的一致程度值与对应数据点的异常得分的比值,作为每个目标时刻的第一比值;
将第一比值进行归一化的结果,作为对应目标时刻的气压数据的置信度。
进一步地,所述获取每个目标时刻的气压数据的实际局部可达密度的方法为:
对于局部离群因子检测算法中的任一第k邻域,获取该第k邻域内所有目标时刻的气压数据的置信度的相加结果,作为第一结果;
获取该第k邻域内每个目标时刻的气压数据的置信度与第一结果的比值,作为对应目标时刻的气压数据的权重;
将每个目标时刻的气压数据的权重与局部可达密度的乘积,作为每个目标时刻的气压数据的实际局部可达密度。
进一步地,所述确定噪声数据进行清洗的方法为:
通过局部离群因子检测算法,根据每个目标时刻的气压数据的实际局部可达密度,获取每个目标时刻的气压数据的局部离群因子;
当局部离群因子大于或者等于预设的局部离群因子阈值时,将对应目标时刻的气压数据作为噪声数据;
将噪声数据进行删除;
将噪声数据对应的目标时刻前后相邻两个目标时刻的正常气压数据的均值,作为噪声数据对应目标时刻的气压数据。
进一步地,所述根据每个目标时刻的气压数据和特征值,获取气压散点图的方法为:
在二维坐标系中,将每个目标时刻的气压数据作为横坐标、特征值作为纵坐标,获取气压散点图;其中,在气压散点图的横轴上将气压数据根据从小到大的顺序进行排列。
第二方面,本发明另一个实施例提供了一种煤矿井间数据优化清洗***,该***包括:存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序,处理器执行所述计算机程序时,实现上述任意一项方法的步骤。
本发明具有如下有益效果:
将每个时刻与前后各预设数量个邻近时刻构成的时间段作为子时间段,将每个子时间段的中心时刻作为目标时刻,便于分析每个时刻下数据的变化情况,对煤矿井环境进行准确的监测;为了准确监测煤矿井环境,进而根据每个子时间段内气压数据的变化情况,获取每个目标时刻的特征值,反映出每个目标时刻的气压数据的变化情况;进一步根据每个目标时刻的气压数据和特征值,获取气压散点图,为检测存在异常的气压数据作准确,进而根据气压散点图中每个数据点的位置分布,获取数据点类别,提高检测噪声数据的准确性和效率;进一步根据每个数据点类别中每个数据点对应的目标时刻,通过孤立森林算法,获取每个数据点的异常得分,准确反映出每个数据点对应的气压数据为噪声数据的可能性;同时,根据每个子时间段内气压数据分别与温度数据、湿度数据的变化差异,获取每个目标时刻的一致程度值,进一步反映出每个目标时刻的气压数据为噪声数据的可能性;因此,根据每个目标时刻的一致程度值和对应数据点的异常得分,获取每个目标时刻的气压数据的置信度,确定每个目标时刻的气压数据为噪声数据的可能性;进而通过局部离群因子检测算法,根据置信度,获取每个目标时刻的气压数据的实际局部可达密度,降低噪声数据的影响,准确获取每个目标时刻的气压数据的局部离群因子,准确检测出噪声数据;进而对噪声数据进行清洗,确保气压数据的准确性,对煤矿井中的环境进行准确的监测,避免矿井事故的发生,保证工作人员的安全和开采煤的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种煤矿井间数据优化清洗方法的流程示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种煤矿井间数据优化清洗方法及***,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种煤矿井间数据优化清洗方法的具体方案。
本发明实施例的目的为:通过对每个子时间段内气压数据的变化规律进行分析,获取每个目标时刻的特征值,根据每个目标时刻的特征值和气压数据,构建气压散点图,进而获取每个目标时刻对应数据点的异常得分。同时,对每个子时间段内气压数据、温度数据和湿度数据的变化一致性进行分析,获取每个目标时刻的一致程度值。进而根据每个目标时刻的一致程度值和对应数据点的异常得分,获取每个目标时刻的气压数据的置信度,根据置信度对每个目标时刻的气压数据的局部可达密度进行调整,准确获取每个目标时刻的气压数据的局部离群因子,进而准确检测出噪声数据,对噪声数据进行清洗,确保气压数据的真实性,对煤矿井环境进行准确的监测。
请参阅图1,其示出了本发明一个实施例提供的一种煤矿井间数据优化清洗方法的流程示意图,该方法包括以下步骤:
步骤S1:获取预设时间段内每个时刻的气压数据、温度数据和湿度数据;将每个时刻与前后各预设数量个邻近时刻构成的时间段作为子时间段,将每个子时间段的中心时刻作为目标时刻。
具体的,为了对煤矿井中的环境变化进行准确的分析,因此,在进入煤矿井环境内的探测探头上安装气压计、温度传感器和湿度传感器,获取预设时间段内每个时刻的气压数据、温度数据和湿度数据,及时对煤矿井内的环境进行检测。本发明实施例将预设时间段设定为24小时,为了准确高效的获取数据,本发明实施例将相邻两个采集数据时刻之间的时间间隔设定为3分钟,实施者可根据实际情况设定预设时间段和相邻两个采集数据时刻之间的时间间隔,在此不进行限定。
在正常的煤井环境中,气压数据、温度数据和湿度数据的变化都存在一定的规律,为了对每个时刻下的数据进行分析,因此,将每个时刻与前后各预设数量个邻近时刻构成的时间段作为子时间段,同时将每个子时间段的中心时刻作为目标时刻。本发明实施例将预设数量设定为2,即每个子时间段内共存在5个采集数据的时刻,以第i个时刻为例,则第(i-2)个时刻、第(i-1)个时刻、第i个时刻、第(i+1)个时刻和第(i+2)个时刻构成的时间段为一个子时间段,其中第i个时刻为目标时刻。实施者可根据实际情况设定预设数量的大小,在此不进行限定。需要说明的是,预设时间段内的第一个时刻、第二个时刻、倒数第二个时刻和倒数第一个时刻无法为中心时刻构成子时间段,因此,本方法实施例则不对预设时间段内的第一个时刻、第二个时刻、倒数第二个时刻和倒数第一个时刻进行分析,即在预设时间段内除了第一个时刻、第二个时刻、倒数第二个时刻和倒数第一个时刻外,其余时刻均为目标时刻。在本发明实施例中,可以默认每个目标时刻即为每个时刻。
步骤S2:根据每个子时间段内气压数据的变化情况,获取每个目标时刻的特征值。
具体的,在正常的煤矿井环境中,气压数据会稳定在一定的范围内,即使气压数据因为气象、通风、采矿等活动发生了变化,也会遵循一定的规律性,气压数据变化的趋势不会太大,且气压数据变化的方向也较为稳定。而气压数据中的噪声数据是因为干扰因素而随机产生的,因此,噪声数据的大小和变化趋势都无法预测,即噪声数据在时序上的变化趋势相比正常气压数据的变化趋势更大,且噪声数据的稳定性更差。因此,对每个子时间段内气压数据的变化情况进行分析,获取对应目标时刻的特征值,确定每个目标时刻的气压数据的变化情况。
优选地,获取特征值的方法为:将相邻两个时刻之间的气压数据差异,作为气压第一差异;将相邻两个气压第一差异的差异,作为气压第二差异;将每个子时间段内最大气压数据与最小气压数据之间的差异,作为每个子时间段的气压第一变化值;其中,每个子时间段内的气压第一差异反映出了每个子时间段内气压数据的变化速度,气压第一差异越大,说明气压数据的变化速度越大;每个子时间段内的气压第二差异反映出了每个子时间段内气压数据的变化稳定程度,气压第二差异越大,说明气压数据的变化越不稳定;每个子时间段的气压第一变化值反映出了每个子时间段内气压数据整体变化的大小,气压第一变化值越大,说明对应子时间段内气压数据的变化越大;因此,根据每个子时间段内的气压第一差异、气压第二差异和气压第一变化值,获取每个目标时刻的特征值,准确反映出每个目标时刻对应子时间段内气压的变化情况。
作为一个示例,以第u个目标时刻为例,获取第u个目标时刻的特征值的计算公式为:
式中,为第u个目标时刻的特征值;I为第u个目标时刻对应子时间段内采集数据时刻的总数量;/>为第u个目标时刻对应子时间段内第i个气压第一差异;/>为第u个目标时刻对应子时间段内第(i+1)个时刻的气压数据;/>为第u个目标时刻对应子时间段内第i个时刻的气压数据;/>为第u个目标时刻对应子时间段内第i个气压第二差异;/>为第u个目标时刻对应子时间段内第(i+1)个气压第一差异;/>为第u个目标时刻对应子时间段内最大气压数据;/>为第u个目标时刻对应子时间段内最小气压数据;/>为第u个目标时刻对应子时间段的气压第一变化值;/>为绝对值函数;norm为归一化函数。
需要说明的是,越大,说明第u个目标时刻对应子时间段内气压数据的变化速度越大,/>越大;/>越大,说明第u个目标时刻对应子时间段内气压数据的变化波动程度越大,即第u个目标时刻对应子时间段内气压数据的变化越不稳定,/>越大;越大,说明第u个目标时刻对应子时间段内气压数据的变化越大,/>越大;因此,/>越大,第u个目标时刻对应子时间段内气压数据的变化程度越大。
根据获取第u个目标时刻的特征值的方法,获取每个目标时刻的特征值。
步骤S3:根据每个目标时刻的气压数据和特征值,获取气压散点图;根据气压散点图中每个数据点的位置分布,获取数据点类别;根据每个数据点类别中每个数据点对应的目标时刻,通过孤立森林算法,获取每个数据点的异常得分。
具体的,在二维坐标系中,将每个目标时刻的气压数据作为横坐标、特征值作为纵坐标,获取气压散点图;其中,气压散点图横轴上的气压数据是根据从小到大的顺序进行排列。若直接通过局部离群因子检测算法获取气压散点图中每个数据点的局部离群因子,判定每个目标时刻的气压数据是否为噪声数据,则存在不准确的情况,因为噪声数据的特征值可能与某些正常气压数据的特征值相似,会存在将一些噪声数据误认为正常气压数据或者将一些正常气压数据误认为噪声数据,进而导致对煤矿井中的环境不能进行准确的监测。其中,局部离群因子检测算法为现有技术,不再进行赘述。已知,气压数据作为时间关联性较强的时序数据,在正常情况下,时序上距离较近的气压数据的大小和变化趋势也会较为接近,因此,本发明实施例结合气压散点图中每个数据点之间的位置分布,以及每个数据点对应的目标时刻,获取每个数据点的异常得分。其中,获取每个数据点的异常得分的具体方法如下:
(1)获取数据点类别。
根据气压散点图中每个数据点的位置分布,通过DBSCAN算法对气压散点图中的数据点进行聚类,获取数据点类别。本发明实施例将DBSCAN算法中的邻域半径设定为5,最小数据点个数设定为5,实施者可根据实际情况设定DBSCAN算法中邻域半径和最小数据点个数的大小,在此不进行限定。其中,DBSCAN算法为现有技术,不再进行赘述。
(2)获取异常得分。
在不考虑噪声数据时,对于同一数据点类别中的数据点,可以默认对应的目标时刻也比较近,因此,根据每个数据点类别中每个数据点对应的目标时刻,通过孤立森林算法,获取每个数据点的异常得分。其中,孤立森林算法为现有算法,不再进行赘述。
作为一个示例,以第S个数据点类别为例,获取第S个数据点类别中每个数据点对应的目标时刻,将第S个数据点类别中每个数据点对应的目标时刻记为一个样本,通过孤立森林算法,获取样本中每个目标时刻的异常得分,作为对应数据点的异常得分。其中,本发明实施例将孤立树的数量设定为10,孤立树的最大深度设定为6,每棵孤立树对应的子样本数量设定为总样本的80%,若总样本的80%不是一个正整数数,则将总样本的80%进行向上取整操作。实施者可根据实际情况设定孤立树的数量、孤立树的最大深度和每棵孤立树对应的子样本数量,在此不进行限定。
至此,获取每个数据点的异常得分。其中,异常得分越大,说明对应数据点的目标时刻与对应数据点类别中其他数据点的目标时刻之间的差异越大,对应数据点越可能异常,即对应数据点对应的气压数据越可能为噪声数据。
步骤S4:根据每个子时间段内气压数据分别与温度数据、湿度数据的变化差异,获取每个目标时刻的一致程度值。
在煤矿井下的工作环境中,气压数据的变化与其它环境数据的变化也有着密切的联系,例如,根据理想气体状态方程可知,气压数据的变化与温度数据的变化成正比关系,即温度数据与气压数据的变化趋势是一致的。在空气中水蒸气含量增多,则空气密度增大,此时气体压强也会相应增加,因此,湿度数据与气压数据的变化趋势也是一致的,即成正比关系。进而对每个子时间段内气压数据、温度数据和湿度数据的变化情况的一致性进行分析,当每个子时间段内气压数据的变化情况与温度数据、湿度数据的变化情况均越相似时,说明每个子时间段内气压数据的变化越正常,即每个子时间段的目标时刻的气压数据越正常。因此,根据每个子时间段内气压数据分别与温度数据、湿度数据的变化差异,获取每个目标时刻的一致程度值。其中,一致程度值越大,说明对应目标时刻的气压数据越正常。
其中,获取一致程度值的方法为:将相邻两个时刻之间的温度数据差异,作为温度第一差异;将相邻两个温度第一差异的差异,作为温度第二差异;将每个子时间段内最大温度数据与最小温度数据之间的差异,作为每个子时间段的温度第一变化值;将相邻两个时刻之间的湿度数据差异,作为湿度第一差异;将相邻两个湿度第一差异的差异,作为湿度第二差异;将每个子时间段内最大湿度数据与最小湿度数据之间的差异,作为每个子时间段的湿度第一变化值;根据每个子时间段内相同位置的气压第一差异分别与温度第一差异、湿度第一差异之间的差异,获取对应目标时刻的数据变化速度值;根据每个子时间段内相同位置的气压第二差异分别与温度第二差异、湿度第二差异之间的差异,获取对应目标时刻的数据稳定值;根据每个子时间段的气压第一变化值分别与温度第一变化值、湿度第一变化值之间的差异,获取对应目标时刻的数据变化值;根据每个目标时刻的数据变化速度值、数据稳定值和数据变化值,获取每个目标时刻的一致程度值。
作为一个示例,以步骤S2中的第u个目标时刻为例,获取第u个目标时刻对应子时间段内相邻两个时刻之间的后一个时刻与前一个时刻之间的温度数据的差值,作为温度第一差异。获取相邻两个温度第一差异的后一个温度第一差异与前一个温度第一差异的差值,作为温度第二差异。根据获取温度第一差异和温度第二差异的方法,获取湿度第一差异和湿度第二差异。进而根据第u个目标时刻对应子时间段内的气压第一差异、温度第一差异、湿度第一差异、气压第二差异、温度第二差异、湿度第二差异、气压第一变化值、温度第一变化值和湿度第一变化值,获取第u个目标时刻的一致程度值的计算公式为:
式中,为第u个目标时刻的数据变化速度值;I为第u个目标时刻对应子时间段内采集数据时刻的总数量;/>为第u个目标时刻对应子时间段内第i个气压第一差异;为第u个目标时刻对应子时间段内第i个温度第一差异;/>为第u个目标时刻对应子时间段内第i个湿度第一差异;/>为第u个目标时刻的数据稳定值;/>为第u个目标时刻对应子时间段内第i个气压第二差异;/>为第u个目标时刻对应子时间段内第i个温度第二差异;/>为第u个目标时刻对应子时间段内第i个湿度第二差异;/>为第u个目标时刻的数据变化值;/>为第u个目标时刻对应子时间段内最大气压数据;为第u个目标时刻对应子时间段内最小气压数据;/>为第u个目标时刻对应子时间段的气压第一变化值;/>为第u个目标时刻对应子时间段内最大温度数据;/>为第u个目标时刻对应子时间段内最小温度数据;/>为第u个目标时刻对应子时间段的温度第一变化值;/>为第u个目标时刻对应子时间段内最大湿度数据;/>为第u个目标时刻对应子时间段内最小湿度数据;为第u个目标时刻对应子时间段的湿度第一变化值;/>为第u个目标时刻的一致程度值;/>为第一预设常数,大于0;/>为绝对值函数;norm为归一化函数。
本发明实施例将设定为1,避免分母为0,实施者可根据实际情况设定/>的大小,在此不进行限定。
需要说明的是,表示第u个目标时刻对应子时间段内气压数据与温度数据、湿度数据在变化速度上的差异,越小,说明第u个目标时刻对应子时间段内气压数据与温度数据、湿度数据的变化速度一致性越强,/>越大,第u个目标时刻的气压数据越正常;表示第u个目标时刻对应子时间段内气压数据与温度数据、湿度数据在变化稳定程度上的差异,越小,说明第u个目标时刻对应子时间段内气压数据与温度数据、湿度数据的变化稳定程度一致性越强,/>越大,第u个目标时刻的气压数据越正常;表示第u个目标时刻对应子时间段内气压数据与温度数据、湿度数据在变化大小上的差异,越小,说明第u个目标时刻对应子时间段内气压数据与温度数据、湿度数据的变化大小的一致性越强,/>越大,第u个目标时刻的气压数据越正常;/>越大、/>越大和/>越大,则/>越大,说明第u个目标时刻的气压数据越正常。
根据获取第u个目标时刻的一致程度值的方法,获取每个目标时刻的一致程度值。
步骤S5:根据每个目标时刻的一致程度值和对应数据点的异常得分,获取每个目标时刻的气压数据的置信度;通过局部离群因子检测算法,根据所述置信度,获取每个目标时刻的气压数据的实际局部可达密度,确定噪声数据进行清洗。
具体的,为了对每个目标时刻的气压数据进行准确的检测,因此,根据每个目标时刻的一致程度值和对应数据点的异常得分,获取每个目标时刻的气压数据的置信度,通过置信度准确的反映出每个目标时刻的气压数据存在噪声的程度。为了通过局部离群因子检测算法,准确获取每个目标时刻的气压数据的局部离群因子,进而准确检测出噪声数据,本发明实施例通过每个目标时刻的气压数据的置信度对每个目标时刻的气压数据的局部可达密度进行修正,降低噪声数据带来的影响,进而准确检测出噪声数据,对噪声数据进行清洗,准确对煤矿井下的环境进行监测。其中,获取噪声数据的具体方法如下:
(1)获取置信度。
优选地,获取置信度的方法为:将每个目标时刻的一致程度值与对应数据点的异常得分的比值,作为每个目标时刻的第一比值;将第一比值进行归一化的结果,作为对应目标时刻的气压数据的置信度。
作为一个示例,以第u个目标时刻为例,获取第u个目标时刻的置信度的计算公式为:
式中,为第u个目标时刻的置信度;/>为第u个目标时刻的一致程度值;/>第u个目标时刻对应数据点的异常得分;norm为归一化函数。
需要说明的是,越大,第u个目标时刻的气压数据越正常,/>越大;/>越小,第u个目标时刻的气压数据越不可能异常,/>越大;因此,/>越大,说明第u个目标时刻的气压数据越正常。
根据获取第u个目标时刻的置信度的方法,获取每个目标时刻的置信度。
(2)获取实际局部可达密度。
优选地,获取实际局部可达密度的方法为:对于局部离群因子检测算法中的任一第k邻域,获取该第k邻域内所有目标时刻的气压数据的置信度的相加结果,作为第一结果;获取该第k邻域内每个目标时刻的气压数据的置信度与第一结果的比值,作为对应目标时刻的气压数据的权重;将每个目标时刻的气压数据的权重与局部可达密度的乘积,作为每个目标时刻的气压数据的实际局部可达密度。
作为一个示例,以第y个第k邻域内第j个目标时刻的气压数据为例,获取第y个第k邻域内第j个目标时刻的气压数据的权重的计算公式为:
式中,为第y个第k邻域内第j个目标时刻的气压数据的权重;/>为第y个第k邻域内第j个目标时刻的气压数据的置信度;N为第y个第k邻域内目标时刻的总数量;/>为第y个第k邻域内第n个目标时刻的气压数据的置信度。
将第y个第k邻域内第j个目标时刻的气压数据的权重与局部可达密度的乘积,作为第y个第k邻域内第j个目标时刻的气压数据的实际局部可达密度。其中,第y个第k邻域内第j个目标时刻的气压数据的局部可达密度是通过局部离群因子检测算法获取的。
根据获取第y个第k邻域内第j个目标时刻的实际局部可达密度的方法,获取每个第k邻域内每个目标时刻的气压数据的实际局部可达密度,即获取每个目标时刻的气压数据的实际局部可达密度。
(3)获取噪声数据。
通过局部离群因子检测算法,根据每个目标时刻的气压数据的实际局部可达密度,获取每个目标时刻的气压数据的局部离群因子;当局部离群因子大于或者等于预设的局部离群因子阈值时,将对应目标时刻的气压数据作为噪声数据;本发明实施例将预设的局部离群因子阈值设定为1.5,实施者可根据实际情况设定预设的局部离群因子阈值,在此不进行限定。至此,确定预设时间段内的噪声数据。
将噪声数据进行删除,为了确保气压数据的连贯性,对煤矿井下的环境进行准确的监测,本发明实施例将噪声数据对应目标时刻前后相邻的两个目标时刻的正常气压数据的均值,作为噪声数据对应目标时刻的气压数据。遍历预设时间段内所有的噪声数据,完成预设时间段内气压数据的优化,对煤矿井下的环境进行准确的监测,及时预防矿井事故的发生。
至此,本发明完成。
综上所述,本发明实施例获取每个时刻的气压数据、温度数据和湿度数据;根据气压数据的变化,获取特征值;根据气压数据和特征值,获取气压散点图;根据气压散点图中数据点的位置和对应的目标时刻,获取异常得分;根据气压数据、温度数据、湿度数据的变化,获取一致程度值;根据一致程度值和异常得分,获取置信度,进而通过局部离群因子检测算法,获取气压数据的实际局部可达密度,确定噪声数据进行清洗。本发明通过获取气压数据的置信度,进而对气压数据的局部可达密度进行调整,降低噪声数据的影响,准确检测出噪声数据,进行清洗,对煤矿井中的环境进行准确监测。
基于与上述方法实施例相同的发明构思,本发明实施例还提供了一种煤矿井间数据优化清洗***,该***包括:存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序,处理器执行所述计算机程序时实现上述一种煤矿井间数据优化清洗方法实施例中的步骤,例如图1所示的步骤。该一种煤矿井间数据优化清洗方法在上述实施例中已经详细说明,不再赘述。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

Claims (6)

1.一种煤矿井间数据优化清洗方法,其特征在于,该方法包括以下步骤:
获取预设时间段内每个时刻的气压数据、温度数据和湿度数据;将每个时刻与前后各预设数量个邻近时刻构成的时间段作为子时间段,将每个子时间段的中心时刻作为目标时刻;
根据每个子时间段内气压数据的变化情况,获取每个目标时刻的特征值;
根据每个目标时刻的气压数据和特征值,获取气压散点图;根据气压散点图中每个数据点的位置分布,获取数据点类别;根据每个数据点类别中每个数据点对应的目标时刻,通过孤立森林算法,获取每个数据点的异常得分;
根据每个子时间段内气压数据分别与温度数据、湿度数据的变化差异,获取每个目标时刻的一致程度值;
根据每个目标时刻的一致程度值和对应数据点的异常得分,获取每个目标时刻的气压数据的置信度;通过局部离群因子检测算法,根据所述置信度,获取每个目标时刻的气压数据的实际局部可达密度,确定噪声数据进行清洗;
所述特征值的获取方法为:
将相邻两个时刻之间的气压数据差异,作为气压第一差异;
将相邻两个气压第一差异的差异,作为气压第二差异;
将每个子时间段内最大气压数据与最小气压数据之间的差异,作为每个子时间段的气压第一变化值;
根据每个子时间段内的气压第一差异、气压第二差异和气压第一变化值,获取每个目标时刻的特征值;
所述特征值的计算公式为:
式中,为第u个目标时刻的特征值;I为第u个目标时刻对应子时间段内采集数据时刻的总数量;/>为第u个目标时刻对应子时间段内第i个气压第一差异;/>为第u个目标时刻对应子时间段内第i+1个时刻的气压数据;/>为第u个目标时刻对应子时间段内第i个时刻的气压数据;/>为第u个目标时刻对应子时间段内第i个气压第二差异;为第u个目标时刻对应子时间段内第i+1个气压第一差异;/>为第u个目标时刻对应子时间段内最大气压数据;/>为第u个目标时刻对应子时间段内最小气压数据;/>为第u个目标时刻对应子时间段的气压第一变化值;/>为绝对值函数;norm为归一化函数;
所述根据每个子时间段内气压数据分别与温度数据、湿度数据的变化差异,获取每个目标时刻的一致程度值的方法为:
将相邻两个时刻之间的温度数据差异,作为温度第一差异;
将相邻两个温度第一差异的差异,作为温度第二差异;
将每个子时间段内最大温度数据与最小温度数据之间的差异,作为每个子时间段的温度第一变化值;
将相邻两个时刻之间的湿度数据差异,作为湿度第一差异;
将相邻两个湿度第一差异的差异,作为湿度第二差异;
将每个子时间段内最大湿度数据与最小湿度数据之间的差异,作为每个子时间段的湿度第一变化值;
根据每个子时间段内相同位置的气压第一差异分别与温度第一差异、湿度第一差异之间的差异,获取对应目标时刻的数据变化速度值;
根据每个子时间段内相同位置的气压第二差异分别与温度第二差异、湿度第二差异之间的差异,获取对应目标时刻的数据稳定值;
根据每个子时间段的气压第一变化值分别与温度第一变化值、湿度第一变化值之间的差异,获取对应目标时刻的数据变化值;
根据每个目标时刻的数据变化速度值、数据稳定值和数据变化值,获取每个目标时刻的一致程度值;
所述一致程度值的计算公式为:
式中,为第u个目标时刻的数据变化速度值;I为第u个目标时刻对应子时间段内采集数据时刻的总数量;/>为第u个目标时刻对应子时间段内第i个气压第一差异;为第u个目标时刻对应子时间段内第i个温度第一差异;/>为第u个目标时刻对应子时间段内第i个湿度第一差异;/>为第u个目标时刻的数据稳定值;/>为第u个目标时刻对应子时间段内第i个气压第二差异;/>为第u个目标时刻对应子时间段内第i个温度第二差异;/>为第u个目标时刻对应子时间段内第i个湿度第二差异;/>为第u个目标时刻的数据变化值;/>为第u个目标时刻对应子时间段内最大气压数据;为第u个目标时刻对应子时间段内最小气压数据;/>为第u个目标时刻对应子时间段的气压第一变化值;/>为第u个目标时刻对应子时间段内最大温度数据;/>为第u个目标时刻对应子时间段内最小温度数据;/>为第u个目标时刻对应子时间段的温度第一变化值;/>为第u个目标时刻对应子时间段内最大湿度数据;/>为第u个目标时刻对应子时间段内最小湿度数据;为第u个目标时刻对应子时间段的湿度第一变化值;/>为第u个目标时刻的一致程度值;/>为第一预设常数,大于0;/>为绝对值函数;norm为归一化函数。
2.如权利要求1所述一种煤矿井间数据优化清洗方法,其特征在于,所述置信度的获取方法为:
将每个目标时刻的一致程度值与对应数据点的异常得分的比值,作为每个目标时刻的第一比值;
将第一比值进行归一化的结果,作为对应目标时刻的气压数据的置信度。
3.如权利要求1所述一种煤矿井间数据优化清洗方法,其特征在于,所述获取每个目标时刻的气压数据的实际局部可达密度的方法为:
对于局部离群因子检测算法中的任一第k邻域,获取该第k邻域内所有目标时刻的气压数据的置信度的相加结果,作为第一结果;
获取该第k邻域内每个目标时刻的气压数据的置信度与第一结果的比值,作为对应目标时刻的气压数据的权重;
将每个目标时刻的气压数据的权重与局部可达密度的乘积,作为每个目标时刻的气压数据的实际局部可达密度。
4.如权利要求1所述一种煤矿井间数据优化清洗方法,其特征在于,所述确定噪声数据进行清洗的方法为:
通过局部离群因子检测算法,根据每个目标时刻的气压数据的实际局部可达密度,获取每个目标时刻的气压数据的局部离群因子;
当局部离群因子大于或者等于预设的局部离群因子阈值时,将对应目标时刻的气压数据作为噪声数据;
将噪声数据进行删除;
将噪声数据对应的目标时刻前后相邻两个目标时刻的正常气压数据的均值,作为噪声数据对应目标时刻的气压数据。
5.如权利要求1所述一种煤矿井间数据优化清洗方法,其特征在于,所述根据每个目标时刻的气压数据和特征值,获取气压散点图的方法为:
在二维坐标系中,将每个目标时刻的气压数据作为横坐标、特征值作为纵坐标,获取气压散点图;其中,在气压散点图的横轴上将气压数据根据从小到大的顺序进行排列。
6.一种煤矿井间数据优化清洗***,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器在执行所述计算机程序时,实现上述权利要求1-5任意一项所述一种煤矿井间数据优化清洗方法的步骤。
CN202410020829.1A 2024-01-08 2024-01-08 一种煤矿井间数据优化清洗方法及*** Active CN117573667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410020829.1A CN117573667B (zh) 2024-01-08 2024-01-08 一种煤矿井间数据优化清洗方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410020829.1A CN117573667B (zh) 2024-01-08 2024-01-08 一种煤矿井间数据优化清洗方法及***

Publications (2)

Publication Number Publication Date
CN117573667A CN117573667A (zh) 2024-02-20
CN117573667B true CN117573667B (zh) 2024-04-09

Family

ID=89862679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410020829.1A Active CN117573667B (zh) 2024-01-08 2024-01-08 一种煤矿井间数据优化清洗方法及***

Country Status (1)

Country Link
CN (1) CN117573667B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117828516B (zh) * 2024-03-06 2024-05-24 湖南大学 一种数字化压力罐生产车间现场数据优化采集***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628529A (zh) * 2023-07-21 2023-08-22 山东科华电力技术有限公司 一种用于用户侧智能负荷控制***的数据异常检测方法
CN116659589A (zh) * 2023-07-25 2023-08-29 澳润(山东)药业有限公司 基于数据分析的阿胶糕保存环境监测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628529A (zh) * 2023-07-21 2023-08-22 山东科华电力技术有限公司 一种用于用户侧智能负荷控制***的数据异常检测方法
CN116659589A (zh) * 2023-07-25 2023-08-29 澳润(山东)药业有限公司 基于数据分析的阿胶糕保存环境监测方法

Also Published As

Publication number Publication date
CN117573667A (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN117573667B (zh) 一种煤矿井间数据优化清洗方法及***
CN117290802B (zh) 一种基于数据处理的主机电源运行监测方法
CN116128260B (zh) 基于数据样本的重点企业环境分析方法
CN108956111B (zh) 一种机械部件的异常状态检测方法及检测***
EP3876057A1 (en) Abnormality diagnostic device, abnormality diagnostic method, and program
CN117171604B (zh) 基于传感器的保温板生产线异常监测***
CN117289778B (zh) 一种工控主机电源健康状态的实时监测方法
CN116756493A (zh) 一种安消防集指平台数据管理方法
CN117436005B (zh) 一种环境空气自动监测过程中异常数据处理方法
US11500965B2 (en) Abnormality detection device, abnormality detection method, and non-transitory computer-readable medium
CN114328075A (zh) 一种智能配电房传感器多维数据融合异常事件检测方法、***及计算机可读存储介质
CN116499938B (zh) 一种职业工作场所气溶胶悬浮物智能监测方法
CN116985183B (zh) 一种近红外光谱分析仪质量监测管理方法及***
CN117476140A (zh) 基于物联网多维数据分析的大气环境污染治理方法
CN113918642A (zh) 一种基于电力物联网设备的数据过滤监测预警方法
CN117572837B (zh) 一种智慧电厂ai主动运维方法及***
Mi et al. A nonparametric cumulative sum-based fault detection method for rolling bearings using high-level extended isolated forest
CN111121943B (zh) 零点故障检测方法、装置、计算机设备和可读存储介质
CN104819382B (zh) 一种用于光纤预警***的自适应恒虚警率振源检测方法
CN117686682B (zh) 一种室内燃气故障监测方法及***
CN112229212A (zh) 一种基于动态主元分析的辊道窑能耗异常检测方法
CN116975768B (zh) 一种肥料安全生产的数据异常检测方法
CN117969443B (zh) 基于红外吸收光谱的氢气泄露激光遥测检测装置及方法
CN117932376A (zh) 一种基于高斯过程的桥梁代表性监测数据选取方法
CN117951616B (zh) 一种局部通风机智能运维分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant