CN110011847A - 一种传感云环境下的数据源质量评估方法 - Google Patents

一种传感云环境下的数据源质量评估方法 Download PDF

Info

Publication number
CN110011847A
CN110011847A CN201910256445.9A CN201910256445A CN110011847A CN 110011847 A CN110011847 A CN 110011847A CN 201910256445 A CN201910256445 A CN 201910256445A CN 110011847 A CN110011847 A CN 110011847A
Authority
CN
China
Prior art keywords
data
data source
quality
value
true
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910256445.9A
Other languages
English (en)
Other versions
CN110011847B (zh
Inventor
李默涵
田志宏
孙彦斌
顾钊铨
韩伟红
仇晶
苏申
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN201910256445.9A priority Critical patent/CN110011847B/zh
Publication of CN110011847A publication Critical patent/CN110011847A/zh
Application granted granted Critical
Publication of CN110011847B publication Critical patent/CN110011847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • H04L67/025Protocols based on web technology, e.g. hypertext transfer protocol [HTTP] for remote control or remote monitoring of applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/38Services specially adapted for particular environments, situations or purposes for collecting sensor information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

本发明实施例公开了一种传感云环境下的数据源质量评估方法,包括:获取传感云存储数据源的当前和历史监测数据,所述传感云是云计算和无线传感器网络的结合体,用于收集来自多个传感器节点或传感器子网络的监测数据并加以处理;基于空间关联性和时间关联性整合数据源的监测数据并确定数据真值;基于所述数据真值生成数据源的初始质量评估向量,并根据质量规则调整所述数据源的初始质量评估向量;根据调整后的所述数据源的初始质量评估向量计算所述数据源的最终质量评估结果。采用本发明,可以多角度描述数据源质量,对数据源质量的刻画更为全面。

Description

一种传感云环境下的数据源质量评估方法
技术领域
本发明涉及质量评估领域,特别是涉及一种传感云环境下的数据源质量评估方法。
背景技术
目前,已经有一些数据源质量评估方法被提出,现有方法大多基于规则,如条件函数依赖(conditional functional dependency)、条件包含依赖(conditional inclusiondependency)、时效约束(currency constraint)、匹配规则(matching rule)等,来评估数据库中的数据质量,监测劣质数据。基于数据源产生的劣质数据的比例,可以进一步评估数据源质量。数据质量规则一般具有A=a→B=b的形式,其语义为“如果属性集合A的值为a,则属性集合B的值必须为b”。通过在数据库中筛选满足规则前件A=a的数据并检查规则后件B=b是否满足,可以判断数据中是否存在错误,不满足规则的数据被认为是劣质数据(或称错误数据),一些数据源的数据质量可能受自身或外部因素影响而下降。这些受到负面影响的劣质数据源如果不能够被及时发现,又会进一步影响基于该数据源的服务的质量。为了能够准确发现劣质数据源,需要一套准确的数据源质量评估方法。
发明内容
为了解决上述问题,本发明提供了一种传感云环境下的数据源质量评估方法,可以多角度更准确的描述数据源质量,对数据源质量的刻画更为全面。
基于此,本发明提供了一种传感云环境下的数据源质量评估方法,包括:一种传感云环境下的数据源质量评估方法,其特征在于,包括:
获取传感云存储数据源的当前和历史监测数据,所述传感云是云计算和无线传感器网络的结合体,用于收集来自多个传感器节点或传感器子网络的监测数据并加以处理;
基于空间关联性和时间关联性整合数据源的监测数据并确定数据真值;
基于所述数据真值生成数据源的初始质量评估向量,并根据质量规则调整所述数据源的初始质量评估向量;
根据调整后的所述数据源的初始质量评估向量计算所述数据源的最终质量评估结果。
其中,所述获取传感云存储数据源的当前和历史监测数据之后,若获取传感云存储数据源的当前和历史监测数据超过阈值,则对所述数据进行数据归约,所述数据归约用于精简数据量,所述数据归约包括逐段聚集近似法或自适应逐段常量近似法。
其中,所述基于空间关联性和时间关联性整合数据源的监测数据并确定数据真值包括:判断数据是否具有空间上的相关性,若数据具有空间上的相关性,则针对给定的数据源si,读取si周围的一个规则监测区域中的其他传感器节点集合SN (i)以及SN (i)中节点的监测数据序列,SN (i)中的节点构成簇Cluster(i)
其中,所述得到si所在的簇Cluster(i)后,通过综合位置相似度和数据相似度对SN (i)中节点的监测数据序列进行聚簇,计算Cluster(i)每一时刻的质心,以之作为真值的候选序列。
其中,所述得到了经过空间关联性处理之后的真值候选序列后,还需要对其进行时间关联性处理即平滑处理,所述平滑处理包括用n阶移动平均法或最小二乘法,平滑后的序列即最终的真值序列。
其中,所述基于所述数据真值生成数据源的初始质量评估向量包括:比较si的值与真值的差别来评价si的质量,基于质量评估函数得到si在tk时刻的质量值Q(si,tk),t1~tm的质量值<Q(si,t1),…,Q(si,tm)>构成si的初始质量评估向量Qvec(si),所示质量评估函数包括:
Q(si,tk)=1-dist(vik,true(vik))/maxdist
其中,vik是si在tk时刻的值,true(vik)是si在tk时刻对应的真值,dist(vik,true(vik))是vik和true(vik)的距离,maxdist是vik和true(vik)的距离最大值。
其中,所述质量规则表示正相关、负相关和其他的数值上的关联关系,所述质量规则表示为:
(f(A)∈targetA)→(g(B)∈validB)
其中,A和B是两个属性集合,f()和g()是作用在A和B上的函数,targetA表示f(A)的目标值域,validB是g(B)的合法取值范围,targetA和validB为区间或取值集合或另一个函数,若所述质量规则在某时刻被满足,则认为该时刻的数据合理,不存在质量问题。
其中,所述根据质量规则调整所述数据源的初始质量评估向量包括:
步骤(1)、计算Qvec(si)=<Q(si,t1),…,Q(si,tm)>的均值QMeani和标准差QSDi
步骤(2)、定义偏离阈值Ti为h倍的标准差,即Ti=h·QSDi
步骤(3)、对于质量分值低于Qmeani超过Ti(即质量分值过低)时刻tk,遍历数据质量规则Ψ中的所有规则,检查在时刻tk,si的数据中是否存在前件的条件满足但后件条件不满足的情况:
a)如果存在被违背的规则,则质量分值Q(si,tk)维持不变;
b)如果遍历完成但未发现被违背的规则,则调整该时刻的质量分值,将其修改为QMeani,并跳转到步骤(1)(2),更新QMeani、QSDi和Ti
步骤(4)、重复步骤(1)(2)(3),直至QMeani和QSDi不再发生变化。
其中,所述si的质量评估包括:Qvec(si)的均值、Qvec(si)的标准差和平稳性QStationaryi
其中,所述均值QMeani,即表示被评估的这段时间内平均质量评分,其值越高,si质量表现越好;
标准差QSDi,即si的质量的稳定程度,其值越小质量越稳定;
平稳性QStationaryi的取值范围为{True,False},值为True表示平稳,值为False时表示非平稳。
本发明的综合考虑时空关联性进行真值发现,并对数据源质量做出评价,这弥补了现有工作不能处理时空属性的缺点,使得真值发现和质量评估更为准确;
在质量评估的过程中不仅仅依赖无监督方法发现的真值,而是提出了新的质量规则,并使用质量规则对评估结果进行修正,降低了误判的可能;
当前方法对数据源质量的评估只能给出一维评价(如错误率),而本发明所提出的技术使用三元组<QMeani,QSDi,QStationaryi>来表示最终的数据源质量,可以从多角度描述数据源质量,对数据源质量的刻画更为全面。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的传感云环境下的数据源质量评估方法的流程图;
图2是本发明实施例提供的确定数据真值的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的传感云环境下的数据源质量评估方法的流程图,所述传感云环境下的数据源质量评估方法包括:
S101、获取传感云存储数据源的当前和历史监测数据,所述传感云是云计算和无线传感器网络的结合体,用于收集来自多个异构传感器节点或传感器子网络的监测数据并加以处理。
通过在目标区域部署无线传感器网络(wireless sensor network,WSN),可以方便地收集物理世界的数据。无线传感器节点的体积小、价格便宜等优点使其可以广泛应用于环境监测、国防军事、交通管制、社区安防、目标定位等领域,但受限于其计算、存储、通信等方面的能力,大规模传感器网络的应用也面临着诸多挑战。随着云计算发展和信息物理融合的需求日益旺盛,将云计算和无线传感器网络结合成为了一种必然趋势,传感云(sensor-cloud)应运而生。在传感云中,云服务可以收集来自多个异构传感器节点或传感器子网络的数据并加以处理,进而完成一些原本在传感器端难以完成的数据驱动的计算密集型任务。云计算出色的计算能力使得数据源质量评估等原本较为笨重的服务能够应用于计算能力受限的传感器网络,被云服务集成异构传感器节点和子网络可以在云端进行数据源质量评估,进而按需使用或弃用。
然而,由于传感器节点大多被部署在环境恶劣或无人照看的区域,其中一些数据源(即传感器节点或者子网络)的数据的正确性和精确性在采集和传输的过程中易受到环境或攻击的负面影响。换言之,一些数据源的数据质量可能受自身或外部因素影响而下降。这些受到负面影响的劣质数据源如果不能够被及时发现,又会进一步影响云端数据驱动的服务质量。为了能够准确发现劣质数据源,需要一套准确的数据源质量评估方法。由于传感器的数据采集过程是持续不断的,故其数据源质量也会随时间波动,因此上述数据源质量评估方法还需要支持时间序列或数据流分析,以保证能够及时准确地对数据源质量评估结果进行更新。基于数据源质量的评估结果,云端应用可以更好地选取和利用数据源以提高服务的效率和质量。
令Se={s1,…,sn}表示要参与评价的数据源集合,t1是初始时刻,tm是当前时刻。首先从数据库中读出n个时间序列V={<v11,…,v1m>,…,<vn1,…,vnm>},其中<vi1,…,vim>是数据源si的监测值序列,vij表示数据源在时刻i的监测值构成的向量。
接着,检查数据量是否超过阈值θ,若m>θ,则对每一个序列<vi1,…,vim>执行维归约操作。出于简单性的考虑,约简操作可选用PAA(Piecewise Aggregate Approximation)或APCA(Adaptive Piecewise Constant Approximation),即将序列<vi1,…,vim>分为等长或变长的l段,每段用相应点的平均值来代表。阈值θ是一个经验值,根据云端的计算能力来设置。
S102、基于空间关联性和时间关联性整合数据源的监测数据并确定数据真值。
当前的方法多采用简单投票、反复迭代的方法来评估数据源质量,且多针对Web数据源和关系型数据库,并未考虑数据源的空间、时间、不同属性上的关联性对其质量评估的影响。但是,在传感器网络中,由于传感器节点的地理位置相近、监测对象一致、持续监测、且一些物理量是相关的,故不同的数据源同一时刻产生的数据存在空间关联性,同一数据源产生的不同时刻的数据存在时间关联性,同一数据源的不同属性之间存在物理量的关联性。这些关联性既可能表现在数据值的相似性上,也可能表现在数据变化趋势的正相关或负相关上。
可以首先处理空间相关性,得到空间相关性处理后的真值时间序列,接着,再基于该真值时间序列处理时间相关性,图2是本发明实施例提供的确定数据真值的流程图,请参考图2:
S201、数据是否具有空间上的相关性。
这里考虑的空间相关性的来源主要是传感器节点位置是否相近以及监测对象是否一致。由于传感器本身的脆弱性(能量有限且易被破坏),在布置时往往存在冗余,即同时存在多个传感器节点监测同一对象。这些传感器节点在地理位置上是相近的,其产生的数据也应该是相似的。给定的数据源(即传感器节点或子网)si,将所有与si监测对象一致的数据源构成的集合记为si所属的簇Cluster(i)
S202、针对给定的数据源si,读取si同一监测区域的其他传感器节点集合SN (i)以及SN (i)中节点的监测数据序列。
如果监测对象对应的区域是规则的(例如监测房间的温度和湿度),那么针对给定的数据源si,可以读取si周围的一个规则监测区域中的其他传感器节点集合SN (i)以及SN (i)中节点的监测数据序列。SN (i)中的所有节点自然地构成Cluster(i)
S203、综合位置相似度和数据相似度对SN (i)中节点的监测数据序列进行聚簇。
然而,在一些情况下,由于河流、山谷、道路、建筑物等因素的影响,监测对象对应的区域往往不是规则的。这时,SN (i)中的一部分节点可能与si监测的对象并不相同,其对应的真值也不同,为了不让这部分节点污染真值发现的结果,需通过聚簇(即聚类)筛选出和si足够相像的节点,在聚簇时需要同时考虑数据的相似性和位置的相似性。定义传感器节点的相似性为位置相似度和数据相似度的加权平均,如式(1)所示:
Sim(si,sj)=w1×Simspace(si,sj)+w2×Simdata(si,sj)
其中,对si和任意SN (i)中的节点sj,Simspace(si,sj)表示si和sj的位置相似度,可以选用坐标相似度,Simdata(si,sj)表示si和sj的数据相似度,可以选用归一化的时间序列欧氏距离或先将时间序列处理为直方图再计算归一化的EMD距离(Earth Mover'sDistance),w1和w2是权重,可均设为0.5。
S204、得到si所在的簇,计算出每一时刻该类的质心,以之作为候选真值序列。
得到si所在的簇Cluster(i)后,计算Cluster(i)每一时刻的质心,以之作为真值的候选序列(即t时刻的真值是Cluster(i)在t时刻的质心)。
S205、数据是否是具有时间上的相关性。
处理时间相关性首先需要判断数据在时间维度上是否存在相似性。考虑临近时刻的相似性。临近时刻的数据相似性在许多监测对象上都存在,例如温度、湿度、高度等量通常都是连续变化的,这种相似性也应当反应在真值上。因此在得到了经过空间相关性处理之后的真值候选序列后,还需要对其进行平滑处理,避免因为传感器数据出错而出现真值骤变的情况。
S206、对质心的时间序列做平滑处理。
平滑策略可选用n阶移动平均法或最小二乘法,平滑后的序列即最终的真值序列。
S103、基于所述数据真值生成数据源的初始质量评估向量。
得到真值序列后,可以比较si的值与真值的差别来评价si的质量。可以基于式(2)所示的质量评估函数得到si在tk时刻的质量值Q(si,tk),t1~tm的质量值<Q(si,t1),…,Q(si,tm)>构成si的初始质量评估向量Qvec(si)。
Q(si,tk)=1-dist(vik,true(vik))/maxdist
其中,vik是si在tk时刻的值,true(vik)是si在tk时刻对应的真值,dist(vik,true(vik))是vik和true(vik)的距离,maxdist是vik和true(vik)的距离最大值。如果只考虑精度错误,则dist函数可使用数值的差的绝对值,如果传感器网络部署环境比较恶劣,还需考虑比特串的传输和存储错误,此时可先转化为二进制串再选用汉明距离(Hamming Distance)或编辑距离(edit distance)。
S104、根据质量规则调整所述数据源的初始质量评估向量。
得到的初始质量评估向量直接用于数据源质量评估还存在一些问题。其问题在于并没有考虑突发的异常事件带来的影响。环境中的一些突发事件(例如突然起火会令温度读数骤然增高)可能会令传感器读数突变,而这种突变却不应被视为质量问题,换言之,不应该因这种突变而降低数据源的质量评分。
在关系数据库中的质量评价中,通常采用质量规则来说明哪些依赖是合理的、不应被违背的。不过,关系数据库的质量规则不能直接用于传感器监测的应用场景。为此,本发明设计了一种新的质量规则,如式(3)所示,可以表示正相关、负相关和其他的数值上的关联关系。
(f(A)∈targetA)→(g(B)∈validB)
其中,A和B是两个属性集合,f()和g()是作用在A和B上的函数,targetA表示f(A)的目标值域,validB是g(B)的合法取值范围,targetA和validB可以是区间或取值集合、也可以是另一个函数,如(-∞,0]、[0,+∞)或{0,1}等。
规则用于声明在物理世界中,属性集合A和B(例如高度和气压)应该存在的关联关系,其语义如下:如果规则前件(即箭头左部)的函数f(A)的值落在目标值域targetA中,那么规则后件(即箭头右部)的函数g(B)的值域应该落在validB中。如果规则在某时刻被满足(即前件的条件被满足时,后件的条件也被满足),则可认为该时刻的数据合理,不存在质量问题。
质量规则集合Ψ根据被监测对象的领域知识得到,应用规则集合如下迭代地调整质量评估向量Qvec(si)。
步骤(1)、计算Qvec(si)=<Q(si,t1),…,Q(si,tm)>的均值QMeani和标准差QSDi
步骤(2)、定义偏离阈值Ti为h倍(h是一个预先约定的常数)的标准差,即Ti=h·QSDi
步骤(3)、对于质量分值低于Qmeani超过Ti(即质量分值过低)时刻tk,遍历Ψ中的所有规则,检查在时刻tk,si的数据中是否违背了某些规则,即是否存在前件的条件满足但后件条件不满足的情况:
a)如果存在被违背的规则,则质量分值Q(si,tk)维持不变;
b)如果遍历完成但未发现被违背的规则,则调整该时刻的质量分值,将其修改为QMeani,并跳转到步骤(1)(2),更新QMeani、QSDi和Ti。
步骤(4)、重复步骤(1)(2)(3),直至QMeani和QSDi不再发生变化。
由于质量规则反应的是现实世界中的物理规则,所以上述调整过程的直观思想是,如果一次数据异常满足其应用场景下的所有物理规则,则该数据异常更有可能指示了一次物理世界中的突发事件,而非错误数据。相对应地,如果数据取值异常,同时还违背物理规律,那么数据更有可能是错误数据,而非物理世界中真实发生的异常事件。基于上述调整,可以修正误判的情况。
S105、根据调整后的所述数据源的初始质量评估向量计算所述数据源的最终质量评估结果。
获取到数据源si的最终质量评估向量Qvec(si)之后,可基于该向量完成si的质量评估。si的质量评估可以用三元组<QMeani,QSDi,QStationaryi>来表示。
均值QMeani。QMeani是Qvec(si)的均值,即被评估的这段时间内平均质量评分,其值越高则说明si在平均情况下的质量表现越好。
标准差QSDi。QSDi是Qvec(si)的标准差,表示si的质量的稳定程度,其值越小,说明si的质量评分变化不明显,质量越稳定。
平稳性QStationaryi。QStationaryi的取值范围为{True,False},值为True表示平稳,值为False时表示非平稳。正常情况下,如果将各时刻对数据源的质量评分看做是一个随机过程,则该过程应是一个平稳随机过程(stationary stochastic process),换言之,数据源忠实地提供每一时刻的监测数据,此行为不随时间发生改变。如果该过程不是平稳随机过程,则表示数据源的质量评分和时间有某种不可忽略的相关性,进而可以推测数据源本身存在着某些随时间影响数据质量的异常因素。因此,需要对Qvec(si)进行平稳性检验。如果QStationaryi的值为False,即Qvec(si)是非平稳的,则说明由于某些未知的异常因素的影响,使用此数据源的数据有较大风险,应在有条件的情况下应对数据源的异常因素进行排查,然后再决定是否要继续使用该数据源。
基于三元组<QMeani,QSDi,QStationaryi>,可以对数据源si的整体质量及稳定性做出描绘。对于参与评价的数据源集合Se={s1,…,sn}中的每一个数据源都计算其三元组,即可完成数据源质量评价任务。
本发明所提出的技术与现有工作相比有如下优点:
综合考虑时空关联性进行真值发现,并对数据源质量做出评价,这弥补了现有工作不能处理时空属性的缺点,使得真值发现和质量评估更为准确;
在质量评估的过程中不仅仅依赖无监督方法发现的真值,而是提出了新的质量规则,并使用质量规则对评估结果进行修正,降低了误判的可能;
当前方法对数据源质量的评估只能给出一维评价(如错误率),而本发明所提出的技术使用三元组<QMeani,QSDi,QStationaryi>来表示最终的数据源质量,可以从多角度描述数据源质量,对数据源质量的刻画更为全面。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (10)

1.一种传感云环境下的数据源质量评估方法,其特征在于,包括:
获取传感云存储数据源的当前和历史监测数据,所述传感云是云计算和无线传感器网络的结合体,用于收集来自多个传感器节点或传感器子网络的监测数据并加以处理;
基于空间关联性和时间关联性整合数据源的监测数据并确定数据真值;
基于所述数据真值生成数据源的初始质量评估向量;
根据质量规则调整所述数据源的初始质量评估向量;
根据调整后的所述数据源的初始质量评估向量计算所述数据源的最终质量评估结果。
2.如权利要求1所述传感云环境下的数据源质量评估方法,其特征在于,所述获取传感云存储数据源的当前和历史监测数据之后,若获取传感云存储数据源的当前和历史监测数据超过阈值,则对所述数据进行数据归约,所述数据归约用于精简数据量,所述数据归约包括逐段聚集近似法或自适应逐段常量近似法。
3.如权利要求1所述传感云环境下的数据源质量评估方法,其特征在于,所述基于空间关联性和时间关联性整合数据源的监测数据并确定数据真值包括:判断数据是否具有空间上的相关性,若数据具有空间上的相关性,则针对给定的数据源si,读取si周围的一个规则监测区域中的其他传感器节点集合SN (i)以及SN (i)中节点的监测数据序列,SN (i)中的节点构成簇Cluster(i)
4.如权利要求3所述传感云环境下的数据源质量评估方法,其特征在于,所述得到si所在的簇Cluster(i)后,通过综合位置相似度和数据相似度对SN (i)中节点的监测数据序列进行聚簇,计算Cluster(i)每一时刻的质心,作为真值的候选序列。
5.如权利要求4所述传感云环境下的数据源质量评估方法,其特征在于,所述得到真值候选序列后,对所述真值候选序列进行时间关联性处理即平滑处理,所述平滑处理包括用n阶移动平均法或最小二乘法,平滑后的序列即最终的真值序列。
6.如权利要求1所述传感云环境下的数据源质量评估方法,其特征在于,所述基于所述数据真值生成数据源的初始质量评估向量包括:通过比较si的值与真值的差别来评价si的质量,基于质量评估函数得到si在tk时刻的质量值Q(si,tk),t1~tm的质量值<Q(si,t1),…,Q(si,tm)>构成si的初始质量评估向量Qvec(si),所示质量评估函数包括
Q(si,tk)=1-dist(vik,true(vik))/maxdist
其中,vik是si在tk时刻的值,true(vik)是si在tk时刻对应的真值,dist(vik,true(vik))是vik和true(vik)的距离,maxdist是vik和true(vik)的距离最大值。
7.如权利要求1所述传感云环境下的数据源质量评估方法,其特征在于,所述质量规则表示为:
(f(A)∈targetA)→(g(B)∈validB)
其中,A和B是两个属性集合,f()和g()是作用在A和B上的函数,targetA表示f(A)的目标值域,validB是g(B)的取值范围,targetA和validB为区间或取值集合或另一个函数,若所述质量规则在某时刻被满足,则所述时刻的数据合理,不存在质量问题。
8.如权利要求1所述传感云环境下的数据源质量评估方法,其特征在于,所述根据质量规则调整所述数据源的初始质量评估向量包括:
步骤(1)、计算Qvec(si)=<Q(si,t1),…,Q(si,tm)>的均值QMeani和标准差QSDi
步骤(2)、定义偏离阈值Ti为h倍的标准差,即Ti=h·QSDi
步骤(3)、对于质量分值低于Qmeani超过Ti时刻tk,遍历数据质量规则Ψ中的规则,检查在时刻tk,si的数据中是否存在前件的条件满足但后件条件不满足的情况:
a)若存在被违背的规则,则质量分值Q(si,tk)维持不变;
b)若遍历完成但未发现被违背的规则,则调整该时刻的质量分值,将其修改为QMeani,并跳转到步骤(1)(2),更新QMeani、QSDi和Ti
步骤(4)、重复步骤(1)(2)(3),直至QMeani和QSDi不再发生变化。
9.如权利要求1所述传感云环境下的数据源质量评估方法,其特征在于,所述si的质量评估包括:Qvec(si)的均值、Qvec(si)的标准差和平稳性QStationaryi
10.如权利要求9所述传感云环境下的数据源质量评估方法,其特征在于,所述均值QMeani,即用于表示被评估的这段时间内平均质量评分,其值越高,si质量表现越好;
标准差QSDi,即si的质量的稳定程度,其值越小质量越稳定;
平稳性QStationaryi的取值范围包括{True,False},值为True表示平稳,值为False时表示非平稳。
CN201910256445.9A 2019-03-29 2019-03-29 一种传感云环境下的数据源质量评估方法 Active CN110011847B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910256445.9A CN110011847B (zh) 2019-03-29 2019-03-29 一种传感云环境下的数据源质量评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910256445.9A CN110011847B (zh) 2019-03-29 2019-03-29 一种传感云环境下的数据源质量评估方法

Publications (2)

Publication Number Publication Date
CN110011847A true CN110011847A (zh) 2019-07-12
CN110011847B CN110011847B (zh) 2022-03-25

Family

ID=67169319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910256445.9A Active CN110011847B (zh) 2019-03-29 2019-03-29 一种传感云环境下的数据源质量评估方法

Country Status (1)

Country Link
CN (1) CN110011847B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110519720A (zh) * 2019-08-23 2019-11-29 绍兴文理学院 一种传感云环境下突发数据流映射负载容量优化方法
CN111898871A (zh) * 2020-07-08 2020-11-06 南京南瑞水利水电科技有限公司 电网电源端数据质量评价方法、装置及***
CN115097526A (zh) * 2022-08-22 2022-09-23 江苏益捷思信息科技有限公司 地震采集资料质量评价方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020478A (zh) * 2012-12-28 2013-04-03 杭州师范大学 一种海洋水色遥感产品真实性检验的方法
CN103530347A (zh) * 2013-10-09 2014-01-22 北京东方网信科技股份有限公司 一种基于大数据挖掘的互联网资源质量评估方法及***
CN103916860A (zh) * 2014-04-16 2014-07-09 东南大学 无线传感器簇形网络中基于时空关联的离群数据检测方法
CN108614803A (zh) * 2018-04-16 2018-10-02 深圳市赑玄阁科技有限公司 一种气象数据质量控制方法及***
CN108898311A (zh) * 2018-06-28 2018-11-27 国网湖南省电力有限公司 一种面向智能配电网抢修调度平台的数据质量检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020478A (zh) * 2012-12-28 2013-04-03 杭州师范大学 一种海洋水色遥感产品真实性检验的方法
CN103530347A (zh) * 2013-10-09 2014-01-22 北京东方网信科技股份有限公司 一种基于大数据挖掘的互联网资源质量评估方法及***
CN103916860A (zh) * 2014-04-16 2014-07-09 东南大学 无线传感器簇形网络中基于时空关联的离群数据检测方法
CN108614803A (zh) * 2018-04-16 2018-10-02 深圳市赑玄阁科技有限公司 一种气象数据质量控制方法及***
CN108898311A (zh) * 2018-06-28 2018-11-27 国网湖南省电力有限公司 一种面向智能配电网抢修调度平台的数据质量检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
伍荣坤: "定期统计报表数据质量组合评估方法初探", 《统计研究》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110519720A (zh) * 2019-08-23 2019-11-29 绍兴文理学院 一种传感云环境下突发数据流映射负载容量优化方法
CN111898871A (zh) * 2020-07-08 2020-11-06 南京南瑞水利水电科技有限公司 电网电源端数据质量评价方法、装置及***
CN111898871B (zh) * 2020-07-08 2023-07-18 南京南瑞水利水电科技有限公司 电网电源端数据质量评价方法、装置及***
CN115097526A (zh) * 2022-08-22 2022-09-23 江苏益捷思信息科技有限公司 地震采集资料质量评价方法
CN115097526B (zh) * 2022-08-22 2022-11-11 江苏益捷思信息科技有限公司 地震采集资料质量评价方法

Also Published As

Publication number Publication date
CN110011847B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
Bosman et al. Spatial anomaly detection in sensor networks using neighborhood information
Varela et al. Wireless sensor network for forest fire detection
CN109150868A (zh) 网络安全态势评估方法及装置
Liu et al. Fault-tolerant event region detection on trajectory pattern extraction for industrial wireless sensor networks
CN110011847A (zh) 一种传感云环境下的数据源质量评估方法
Burdakis et al. Detecting outliers in sensor networks using the geometric approach
KR20190019493A (ko) 구성정보 관리 데이터베이스 기반의 it 시스템 장애 분석 기법
Mahdi et al. Diversity measure as a new drift detection method in data streaming
WO2022012295A1 (zh) 一种火灾检测方法及装置
Ghosh et al. Outlier detection in sensor data using machine learning techniques for IoT framework and wireless sensor networks: A brief study
CN103533571A (zh) 基于投票策略的容错事件检测方法
CN114004137A (zh) 一种多源气象数据融合与预处理方法
CN106875613A (zh) 一种火警态势分析方法
WO2018086025A1 (en) Node identification in distributed adaptive networks
CN109063885A (zh) 一种变电站异常量测数据预测方法
Zhang et al. Cleaning environmental sensing data streams based on individual sensor reliability
Yang et al. Cross-space building occupancy modeling by contextual information based learning
Tsai et al. Sensor abnormal detection and recovery using machine learning for IoT sensing systems
Haribabu et al. Prediction of flood by rainf all using MLP classifier of neural network model
US10921154B2 (en) Monitoring a sensor array
CN112128950B (zh) 一种基于多种模型对比的机房温湿度预测方法及***
Dai et al. Distance-based outliers method for detecting disease outbreaks using social media
Maksimović et al. Comparative analysis of data mining techniques applied to wireless sensor network data for fire detection
Kim et al. Automated damping identification of long-span bridge using long-term wireless monitoring data with multiple sensor faults
CN112437440A (zh) 无线传感器网络中基于相关性理论的恶意共谋攻击抵抗方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant