CN111538708A - 地铁隧道全时全域振动监测历史数据的清洗压缩方法 - Google Patents
地铁隧道全时全域振动监测历史数据的清洗压缩方法 Download PDFInfo
- Publication number
- CN111538708A CN111538708A CN202010652658.6A CN202010652658A CN111538708A CN 111538708 A CN111538708 A CN 111538708A CN 202010652658 A CN202010652658 A CN 202010652658A CN 111538708 A CN111538708 A CN 111538708A
- Authority
- CN
- China
- Prior art keywords
- data
- time
- cleaning
- vibration
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Geophysics And Detection Of Objects (AREA)
Abstract
本发明的地铁隧道全时全域振动监测历史数据的清洗压缩方法,读取地铁全时全域的振动检测文件,以传感器数量m为行,以时序数n为列,构建(m,n)形状的矩阵,其中,第i行表示第i个传感器所采集的时间数据序列;对每一个时间数据序列按时长w划分为若干片段;对片段计算振动能量,以获取每个所述片段的振动能量的一个能量值序列;导入K均值模型和清洗填充值,对能量值序列执行模型对象的预测方法,得到对应的标注序列;对其中最小的标注子集,反向对应到数据文件中相应的片段,写入清洗填充值,得到清洗后的文件。本发明利用了地铁隧道的振动监测数据的特点和用途进行数据清洗,从而大幅提高了压缩比例,节省了数据存储空间。
Description
技术领域
本发明涉及地铁隧道监控技术领域,更具体地,涉及地铁隧道全时全域振动监测历史数据的清洗压缩方法。
背景技术
在地铁隧道全时全域振动监测中,往往会在隧道、轨道等不同部分敷设多条光纤,光纤上每隔一定的距离会设有振动传感器。隧道、轨道不同部位所受到的振动是有较大差异的,如交通繁忙地段下的隧道壁上的传感器会收到很多路面车辆的振动信号,而湖底隧道则几乎只会受到地铁列车行车带来的振动。
为了确保地铁运动的安全性,通常需要对地铁隧道全时全域振动监测,而在实际监控应用中,我们通常需要积累大量的历史数据,用于分析隧道长生命周期的一些变化趋势,以便发现相关的变化规律,从而帮助改进地铁隧道的维护和预防性维修,保障隧道功能和安全。长周期大数据量的采集和保存,势必消耗大量的磁盘存储空间,提升存储开销。若能够根据这些历史数据的用途,将分析中用不到的数据片段清洗掉,同时又不改变数据格式和布局,从而不影响上层分析应用,将极大缓解地铁隧道全时全域振动监测长时期数据存储开销的矛盾。
在通过对地铁隧道振动数据的特点和用途作分析,我们发现,有用途的数据主要源自列车驶经监测点时,以及有其他较大能量冲击事件产生时(如隧道附近地面的重型土建施工设备作业、地震传导等)产生的,在其他时段,传感器采集到的是微弱的振动信号,对于应用分析是可以舍弃的,因此属于我们可以清洗掉的数据,
因此,如何实现对微弱振动信号的冲洗,是降低存储空间的关键,故急需发明一种地铁隧道全时全域振动监测历史数据的清洗压缩方法,以达到上述目的。
发明内容
本发明提供一种地铁隧道全时全域振动监测历史数据的清洗压缩方法,根据地铁隧道振动数据的特点和用途,在保留有用信息、保护数据格式和布局的前提下,对数据作清洗,再使用现有压缩技术进行压缩时具有比未作上述处理时更高的压缩比例,从而占用更少的存储空间,有效缓解地铁隧道全时全域振动监测长时期数据存储开销的矛盾。
根据本发明的一个方面,提供了地铁隧道全时全域振动监测历史数据的清洗压缩方法,包括以下步骤:
步骤A1,读取地铁全时全域的振动检测文件,以传感器数量m为行,以时序数n为列,构建(m, n)形状的矩阵,其中,该矩阵中的第i行表示第i个传感器所采集的时间数据序列为Si;
步骤A2,对每一个时间数据序列Si按时长w划分为若干片段,且0.5s<w≤1s;
步骤A3,对上述的片段计算振动能量,以获取每个所述片段的振动能量,而得到一个能量值序列P(w)j,j为自然数;
步骤A4,导入K均值模型和清洗填充值,对步骤A3中的能量值序列P(w)j,执行模型对象的预测方法,得到对应的标注序列;
步骤A5,对其中最小的标注子集,反向对应到数据文件中相应的片段,写入清洗填充值,得到清洗后的文件;
步骤A6,使用压缩软件pigz压缩清洗后的文件,再以压缩文件替代源数据文件。
在上述方案基础上优选,步骤A3中计算振动能量的公式为
在上述方案基础上优选,步骤A4中的K均值模型采用机器学习中的k-means聚类方法以获取,且5≤K≤8。
在上述方案基础上优选,步骤A4中的清洗填充值获取方法为:基于K均值模型中最小标签对应的能量值序列,再对应到源数据片段的一部分,计算对应能量值序列的振动能量均值,作为清洗填充值,存入NoSQL库。
在上述方案基础上优选,所述步骤A4中的模型训练采用以下方法:
步骤A41,在历史数据中,按文件产生的季度,从中随机选择n天,且n≥3天,再从n天中各自随机选择x个工作时间段的n段时间的数据,按照所述步骤A1至步骤A3进行处理,使用机器学习中k-means聚类方法法法训练模型,以得到每个传感器的本季度的K均值模型;
步骤A42,再对待处理的历史数据文件,逐一对数据片段计算振动能量值,使用步骤A41得到的分类模型执行分类预测得到分类标签。
本发明的地铁隧道全时全域振动监测历史数据的清洗压缩方法,利用了地铁隧道的振动监测数据的特点和用途进行数据清洗,从而大幅提高了压缩比例,节省了数据存储空间。
附图说明
图1为本发明的地铁隧道全时全域振动监测历史数据的清洗压缩方法的流程框图;
图2为本发明的某一时段监测历史数据的光纤传感器与数据片段能量值波动图;
图3为本发明的另一时段监测历史数据的光纤传感器与数据片段能量值波动图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
请参阅图1所示,本发明一种地铁隧道全时全域振动监测历史数据的清洗压缩方法,其具体包括两层,第一层通过导入按季度随机选取的地铁全时全域的几段振动监控数据文件,以获取基于K均值的清洗模型训练得到K均值模型和填充值,第二层,导入待处理的振动文件,并读取第一步得到的K均值模型和填充值,进行清洗压缩。
以下将详细说明第二步的过程:
步骤A1,读取地铁全时全域的振动检测文件,以传感器数量m为行,以时序数n为列,构建(m, n)形状的矩阵,其中,该矩阵中的第i行表示第i个传感器所采集的时间数据序列为Si;
步骤A2,对每一个时间数据序列Si按时长w划分为若干片段,且0.5s<w≤1s;对于采样频率为f赫兹的数据,片段对应的数据点数为 f*w之积。除第0片段外,下一片段从上一片段的中间点开始计算,因此相邻片段是有一半重叠的。划分后,可能出现最后一个片段时长不足的情况,这样的尾部片段不参与计算和处理,在最终结果中保留。
步骤A3,对上述的片段计算振动能量,以获取每个所述片段的振动能量,得到一个能量值序列P(w)j;如图2所示为某实验段2019年5月5日19时的监测历史数据,横坐标表示光纤传感器序号,纵坐标表示使用k均值算法将数据片段能量值分类后,各分类的中心值。C1, C2, C3, C4, C5表示各传感器所采样数据片段能量值的从低到高的5个分类的中心值。图3为某实验段2019年7月21日18时的监测历史数据,横坐标表示光纤传感器序号,纵坐标表示使用k均值算法将数据片段能量值分类后,各分类的中心值。C1, C2, C3, C4, C5表示各传感器所采样数据片段能量值的从低到高的5个分类的中心值。
其中,计算振动能量的公式为:
步骤A4,根据第一步获得到的K均值模型和清洗填充值,导入所述K均值模型和清洗填充值,对步骤A3中的能量值序列P(w)j,执行模型对象的预测方法,得到对应的标注序列;
步骤A5,对其中最小的标注子集,反向对应到数据文件中相应的片段,写入清洗填充值,得到清洗后的文件;
步骤A6,使用压缩软件pigz压缩清洗后的文件,再以压缩文件替代源数据文件。
在第一步中,K均值模型采用机器学习中的k-means聚类方法以获取,且5≤K≤8,K表示分类参数。对于地铁隧道振动数据,当分类参数小于5的分类太粗,区分度不够,无法完全清洗掉其中无效数据;而当分类参数大于8的分类太细,难以与业务场景建立对应关系。
且本发明的步骤A4中的模型训练采用以下方法:
步骤A41,在历史数据中,按文件产生的季度,从中随机选择n天,且n≥3天,再从n天中各自随机选择x个工作时间段的n段时间的数据,按照所述步骤A1至步骤A3进行处理,使用机器学习中k-means聚类方法法法训练模型,以得到每个传感器的本季度的K均值模型;
步骤A42,再对待处理的历史数据文件,逐一对数据片段计算振动能量值,使用步骤A41得到的分类模型M执行分类预测得到分类标签。
本发明采用的K均值模型的预测方法具体为,K均值模型中记录了K个分类的中心值 {C1, C2, ..., Ck},其对应的标记为 {0,1,2,..., k-1};对于输入序列{P(w)0, P(w)1, ..., P(w)j} 中的每一个元素,计算它与 K个分类中心值的距离,计算方法为先算差值再取绝对值,选取距离最小的分类中心值,将其所对应的标记,写入输出序列中,从而得到对应的标注序列。
其中,步骤A5详细步骤为,对其中标记值最小的标注子集(标记值为0)中的每一个元素,根据其对应能量值序列中的位置,结合骤A2中的时间数据序列分片方法,得到其在时间数据序列Si中的片段,并写入清洗填充值,从而得到清洗后的Si。对步骤A1中的矩阵每一行均使用此过程,得到清洗后的矩阵, 再根据步骤A1中由振动监测文件构造矩阵的过程,反向将矩阵中的数据转换为原文件格式写入,从而得到清洗后的文件。
值得说明的是,本发明的K均值模型对象以键值对的方式保存在NoSQL数据库(如Redis)中,其键的模式为 <Sensor-UID>:<Year-Quarter>:Model。其中,<Sensor-UID>是传感器的唯一识别号,可用 <地铁线路> + <解调器识别号> + <光纤通道编号> + <传感器编号> 表示; <Year-Quarter>表示年份和季度;Model代表模型。
为了保护数据布局和时序连贯性,对可以清洗的数据时点不是删除,而是用一个合适的清洗填充值填充。此清洗填充值是在上述模型对象中,最小标记所对应的能量值子序列的一部分,再追溯到源数据文件中片段中数据点的算术平均值。也就是说,本发明步骤A4中的清洗填充值获取方法为:基于K均值模型中最小标签对应的能量值序列,再对应到源数据片段的一部分,计算对应能量值序列的振动能量均值,作为清洗填充值,存入NoSQL库。
其中,清洗填充值以键值对的方式保存在NoSQL数据库(如Redis)中,其键的模式为<Sensor-UID>:<Year-Quarter>:Fill。其中,Fill代表填充值。
为了验证本发明的技术效果,下面以某地铁隧道实验段采集的振动监测历史数据的清洗和压缩为例进行说明。该实验段一个监测光纤通道含有527个传感器,采样频率为1000赫兹,传感器测得的振动值类型为32位浮点数,代表了振动强度。把大约每分钟的数据写入一个数据文件,则文件内容大小为527*60*1000*4字节,约126MB(兆字节)。采用不经过清洗就直接使用pigz或gzip等压缩工具进行压缩,与采用本发明的地铁隧道全时全域振动监测历史数据的清洗压缩方法后,其压缩效果对比如下:
压缩效果对比
统计对比项 | 现有方法压缩后 | 使用本方法压缩后 |
平均值 | 0.937470 | 0.234006 |
标准差 | 0.003278 | 0.278633 |
中位数 | 0.937000 | 0.074000 |
最大数 | 0.948000 | 0.948000 |
压缩效果值 = 压缩后文件大小 / 原文件大小。此值越小,代表压缩后文件越小,即压缩效果越好。
从上表可知,现有方法对地铁隧道全时全域振动监测数据文件压缩后仍接近原文件大小,压缩比很低;而本方法对此类数据文件压缩的平均压缩后文件只有原文件大小的约1/4,平均压缩比达到了75%以上。由于本方法是结合了地铁隧道振动来源的特点和应用而设计的,为保留有用数据,对于较大振动较多的时段的数据文件,这种情况下未清除任何数据段,因此其压缩后最大值仍与现有方法相同。
本发明的地铁隧道全时全域振动监测历史数据的清洗压缩方法,利用了地铁隧道的振动监测数据的特点和用途进行数据清洗,从而大幅提高了压缩比例,节省了数据存储空间。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.地铁隧道全时全域振动监测历史数据的清洗压缩方法,其特征在于,包括以下步骤:
步骤A1,读取地铁全时全域的振动检测文件,以传感器数量m为行,以时序数n为列,构建(m, n)形状的矩阵,其中,该矩阵中的第i行表示第i个传感器所采集的时间数据序列为Si;
步骤A2,对每一个时间数据序列Si按时长w划分为若干片段,且0.5s<w≤1s;
步骤A3,对上述的片段计算振动能量,以获取每个所述片段的振动能量,而得到一个能量值序列P(w)j,j为自然数;
步骤A4,导入K均值模型和清洗填充值,对步骤A3中的能量值序列P(w)j,执行模型对象的预测方法,得到对应的标注序列;
步骤A5,对其中最小的标注子集,反向对应到数据文件中相应的片段,写入清洗填充值,得到清洗后的文件;
步骤A6,使用压缩软件pigz压缩清洗后的文件,再以压缩文件替代源数据文件。
3.如权利要求1所述的地铁隧道全时全域振动监测历史数据的清洗压缩方法,其特征在于,步骤A4中的K均值模型采用机器学习中的k-means聚类方法以获取,且5≤K≤8。
4.如权利要求1所述的地铁隧道全时全域振动监测历史数据的清洗压缩方法,其特征在于,步骤A4中的清洗填充值获取方法为:基于K均值模型中最小标签对应的能量值序列,再对应到源数据片段的一部分,计算对应能量值序列的振动能量均值,作为清洗填充值,存入NoSQL库。
5.如权利要求3所述的地铁隧道全时全域振动监测历史数据的清洗压缩方法,其特征在于,所述步骤A4中的模型训练采用以下方法:
步骤A41,在历史数据中,按文件产生的季度,从中随机选择n天,且n≥3天,再从n天中各自随机选择x个工作时间段的n段时间的数据,按照所述步骤A1至步骤A3进行处理,使用机器学习中k-means聚类方法法法训练模型,以得到每个传感器的本季度的K均值模型;
步骤A42,再对待处理的历史数据文件,逐一对数据片段计算振动能量值,使用步骤A41得到的分类模型执行分类预测得到分类标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010652658.6A CN111538708B (zh) | 2020-07-08 | 2020-07-08 | 地铁隧道全时全域振动监测历史数据的清洗压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010652658.6A CN111538708B (zh) | 2020-07-08 | 2020-07-08 | 地铁隧道全时全域振动监测历史数据的清洗压缩方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111538708A true CN111538708A (zh) | 2020-08-14 |
CN111538708B CN111538708B (zh) | 2020-10-13 |
Family
ID=71979728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010652658.6A Active CN111538708B (zh) | 2020-07-08 | 2020-07-08 | 地铁隧道全时全域振动监测历史数据的清洗压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111538708B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723486A (zh) * | 2021-08-23 | 2021-11-30 | 水利部交通运输部国家能源局南京水利科学研究院 | 一种离心泵多模态监测数据清洗及建模方法 |
CN117714380A (zh) * | 2024-01-24 | 2024-03-15 | 陕西小保当矿业有限公司 | 一种物联网数据接入方法及*** |
CN117714380B (zh) * | 2024-01-24 | 2024-07-26 | 陕西小保当矿业有限公司 | 一种物联网数据接入方法及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101289948B1 (ko) * | 2012-06-11 | 2013-07-26 | 인제대학교 산학협력단 | 분자 진동수 패턴을 이용한 리간드 분류 방법 및 장치 |
CN106990763A (zh) * | 2017-04-20 | 2017-07-28 | 浙江大学 | 一种基于数据挖掘的立磨运行调控***及方法 |
CN110285877A (zh) * | 2019-06-06 | 2019-09-27 | 武汉理工大学 | 基于Spark Streaming的列车实时定位跟踪与速度计算方法 |
-
2020
- 2020-07-08 CN CN202010652658.6A patent/CN111538708B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101289948B1 (ko) * | 2012-06-11 | 2013-07-26 | 인제대학교 산학협력단 | 분자 진동수 패턴을 이용한 리간드 분류 방법 및 장치 |
CN106990763A (zh) * | 2017-04-20 | 2017-07-28 | 浙江大学 | 一种基于数据挖掘的立磨运行调控***及方法 |
CN110285877A (zh) * | 2019-06-06 | 2019-09-27 | 武汉理工大学 | 基于Spark Streaming的列车实时定位跟踪与速度计算方法 |
Non-Patent Citations (1)
Title |
---|
CT YIAKOPOULOS等: "Rolling element bearing fault detection in industrial environments based on a K-means clustering approach", 《EXPERT SYSTEMS WITH APPLICATIONS》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723486A (zh) * | 2021-08-23 | 2021-11-30 | 水利部交通运输部国家能源局南京水利科学研究院 | 一种离心泵多模态监测数据清洗及建模方法 |
CN117714380A (zh) * | 2024-01-24 | 2024-03-15 | 陕西小保当矿业有限公司 | 一种物联网数据接入方法及*** |
CN117714380B (zh) * | 2024-01-24 | 2024-07-26 | 陕西小保当矿业有限公司 | 一种物联网数据接入方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN111538708B (zh) | 2020-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Audley et al. | The effects of tamping on railway track geometry degradation | |
ATE543184T1 (de) | Einmalig beschreibbares aufzeichnungsmedium, aufzeichnungsvorrichtung und -verfahren für das einmalig beschreibbare aufzeichnungsmedium sowie wiedergabevorrichtung und -verfahren für das einmalig beschreibbare aufzeichnungsmedium | |
CN111538708B (zh) | 地铁隧道全时全域振动监测历史数据的清洗压缩方法 | |
Sysyn et al. | Identification of sleeper support conditions using mechanical model supported data-driven approach | |
CN103886883B (zh) | 一种对有损视频监控数据进行恢复的方法及*** | |
CN104850748A (zh) | 一种铁路钢轨折断故障分析预警方法及*** | |
CN109522949A (zh) | 目标识别模型建立方法及装置 | |
Palmqvist et al. | Some influencing factors for passenger train punctuality in Sweden | |
US20230347948A1 (en) | Rail corrugation recognition method and apparatus based on support vector machine, device, and medium | |
CN104537052B (zh) | 基于小波分析模极大值算法的交通出行换乘点识别方法 | |
CN113640380A (zh) | 钢轨伤损检测多级分类方法及*** | |
CN111260495A (zh) | 一种粮食扦样方法、可读存储介质和*** | |
CN116627757A (zh) | 一种基于人工智能的集成数据数字化分析存储***及方法 | |
CN110567662B (zh) | 一种基于工程比拟的桥梁短期监测评估方法 | |
CN114169370B (zh) | 基于光栅阵列构建道路时空荷载谱系的方法及*** | |
CN108182286A (zh) | 一种基于物联网的公路养护检测与可视化交互方法 | |
CN104834725A (zh) | 一种分析鉴别车辆尾随行为的*** | |
JP2004164373A (ja) | 交通渋滞情報変換方法、交通渋滞情報変換装置、交通渋滞情報変換プログラムおよびそのプログラムを記録した記録媒体 | |
Ghofrani et al. | Rail breaks arrival rate prediction: A physics-informed data-driven analysis for railway tracks | |
CN107229716B (zh) | 一种生成铁路线路经纬度坐标的方法和*** | |
CN102622302A (zh) | 碎片数据类型的识别方法 | |
Zhang et al. | Dispersion heterogeneous recurrence analysis and its use on fault detection | |
CN114372522A (zh) | 一种基于rsf模型的交通事故持续时间影响因素分析方法 | |
CN110334170B (zh) | 一种时空轨迹压缩方法 | |
CN114841210B (zh) | 一种基于深度学习的微震多时窗智能p波到时拾取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |