CN106326445B - 一种基于传感信息量的网页内容评价方法 - Google Patents

一种基于传感信息量的网页内容评价方法 Download PDF

Info

Publication number
CN106326445B
CN106326445B CN201610737560.4A CN201610737560A CN106326445B CN 106326445 B CN106326445 B CN 106326445B CN 201610737560 A CN201610737560 A CN 201610737560A CN 106326445 B CN106326445 B CN 106326445B
Authority
CN
China
Prior art keywords
heat transfer
transfer agent
block
webpage
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610737560.4A
Other languages
English (en)
Other versions
CN106326445A (zh
Inventor
李德识
刘鸣柳
陈健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201610737560.4A priority Critical patent/CN106326445B/zh
Publication of CN106326445A publication Critical patent/CN106326445A/zh
Application granted granted Critical
Publication of CN106326445B publication Critical patent/CN106326445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的在于提供一种基于传感信息量的网页内容评价方法。首先对网页内容进行分析,根据网页数据块的内容,以及其是否具有空间描述特性和时间变化特性,对其是否为传感器信息块进行判断;接着,依据传感信息块的大小,分布位置情况,依次计算所有传感器信息块的视觉信息量;利用网页的差值图像,计算传感信息块的更新时间间隔,并通过更新频率得到信息块的时间信息量;将所有传感信息块的视觉信息量和时间信息量依次相乘并进行累加,即得到网页内容的传感信息量。本发明可以实现对针对传感信息内容的网页评价,评价结果将为物联网的设备和数据搜索提供研究支撑。

Description

一种基于传感信息量的网页内容评价方法
技术领域
本发明属于物联网信息搜索领域,具体涉及一种基于传感信息量的网页内容评价方法。
背景技术
随着物联网技术的普及与发展,传感器的数量日益增长,面对其源源不断产生的海量数据,物联网搜索技术的研究已成为当前亟待解决的热点问题。与传统互联网中的数据相比,传感器所产生的数据兼具内容、时间和空间三维属性。与此同时,出于对隐私安全和传输负荷等问题的考虑,目前大量传感器采用了将数据传输至互联网,以网页的形式来展示数据内容,供用户自由访问。
网页通过视频、图片、表格和曲线等多种方式来向用户展示传感器所采集的数据内容,那么,如何评价网页所包含的传感数据量的大小,对网页传感信息搜索的研究而言,具有极高的价值。目前网页评价研究的相关工作,大都依靠视觉特性、链接内容等作为参照条件,对网页的复杂度,可靠性等指标进行考察,而针对网页中传感信息的分析内容成果尚少,而简单的依据视觉特性和链接等网页内容进行分析,又不具代表性和针对性。
发明内容
针对背景技术存在的问题,本发明提供一种基于传感信息量的网页评价方法,目的在于依据网页中的传感信息量,为物联网搜索中的网页传感信息搜索技术提供数据支撑。
本发明的目的是这样实现的:
(1)传感数据与其他数据块内容相比,多出时间和空间维度的属性。对网页传感信息块的判断将从这两个条件入手,对于同时具有时间变化特性,和空间描述特性的网页内容,称之为传感信息。
(2)由于数据空间信息量的大小不可表述,因此,对空间描述特性的分析仅用于协助判断网页数据块是否为传感信息块。而从时间变化特性的角度分析,为网页数据块定义时间信息量的概念,一般而言,时效性内的传感信息块,其时间信息量大于0。同时,从用户体验的角度出发,为每一个网页数据块定义视觉信息量的概念。对每一个网页数据块而言,其传感信息量表征为时间信息量和视觉信息量的乘积。而对每一个网页而言,其传感信息量表征为所有传感信息块的传感信息量之和。
(3)根据研究发现,用户对网页不同区域的内容往往呈现出不同的视觉关注度。根据用户视觉关注度的差异,针对网页中的不同数据内容的分布情况,提出了位置权重的视觉评价方法。以左上角至右下角的连接线为分界,网页数据块的位置越接近分界线,用户关注度越高,数据块的位置权重也越高大同时,随着时间推移,用户对内容的关注点呈现自左上角至中间逐渐分散开的特点,因此,位置权重与数据块到网页左上顶点距离成反比。
(4)针对网页不同数据块的视觉区域大小,结合位置权重的概念,定义了有效面积来表征每一个网页数据块的视觉信息量,视觉信息量分别与网页数据块的面积和位置权重成正比。
(5)传感器数据具有时间属性,显然,实时性越高的数据越具有查询价值。考虑网页数据块的更新频率,频率高的传感数据块具有更大的时间信息量。
本发明采用如下技术方案实现:
一种基于传感信息量的网页内容评价方法,包括以下步骤:
步骤1:统计网页中所有传感信息块的数量;
步骤2:依次计算传感信息块的视觉信息量;
步骤3:利用语义判别与差值图片结合分析的方法,获取传感信息块的更新频率,计算传感信息块的时间信息量;
步骤4:依次计算每一个传感信息块的信息量,并累加得到网页的整体信息量。
所述步骤1统计网页中所有传感信息块的数量具体过程如下:
网页经过分割,得到不同数据块内容,经过对网页内容的语义和更新情况分析,判断分割后的数据块是否包含传感信息,定义包含传感信息的数据块为传感数据块,统计所有传感信息块的数量;令Φ表示网页中所有传感信息块的集合。
所述步骤2,计算传感信息块的视觉信息量过程如下:
以ABCD代表整个网页,EFGH代表网页中的传感信息块bi,O与O’分别代表网页和信息块bi的质心,r表示AO的距离,代表AO’的距离,代表AO与AO’的夹角;那么,网页信息块bi的位置权重为:
以有效面积来表征网页的视觉信息量,因此,网页的有效面积为:
其中,表示信息块bi的面积,Sp表示网页的整体面积。
所述步骤3,计算传感信息块的时间信息量过程如下:
首先对获取的传感信息块的网页源代码进行预处理,得到正文内容;通过对正文内容的更新模板匹配,抽取出网页文本表述的更新信息;依据抽取出的更新信息获取差值图像,通过对图像像素值的分析,实现差值图像结果检测,若差值图像存在不为0的像素点,则更新信息匹配成功,反之,若文本抽取过程发现不存在更新信息或差值图检测结果与更新信息不符,则利用图像差值寻找更新频率;
设传感信息块bi的更新时间间隔为取最先出现的两幅非零差值图像出现时刻t1,t2,则
因此,计算传感信息块bi的时间信息量为:
所述步骤3中,设置T=86400s,表示一天的时长,表示一天内的更新次数,定义传感信息块的更新时间间隔为因此有:
所述步骤4中,计算网页的整体信息量过程如下:
对网页中的每一个传感信息块bi,定义其传感信息量为:
因此,对一个完整的网页而言,网页的传感信息量为:
与现有技术相比,本发明的优势在于:
第一次针对网页中的传感信息的包含情况,为网页给出一种评价方法;从传感信息的维度特性入手,结合对用户视觉感知特性的考虑,提出了用传感信息量来度量网页中所表征传感信息的情况;传统的网页评价手段往往采用人为打分或星级评价,本方法将网页信息的各项指标量化,通过计算给出评价结果。通过本发明所设计的评价指数,能够有效地将包含不同数量,不同类型,不同视觉强度以及不同实时性程度的传感信息的网页区分开来,未来可以为物联网中感知信息搜索结果的网页排名提供参考依据。
附图说明
图1是两张网页传感信息块示意说明图,其中,图1(a)是混合类传感信息网页信息块示意图,图1(b)是单一图表类传感信息网页信息块示意图;
图2是本发明中视觉信息参数的空间示意图;
图3是本发明中网页更新频率的计算流程图;
图4是本发明中差值图像计算更新频率的时间分析图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述。
图2矩形ABCD代表整个网页,EFGH代表已识别出的传感信息块。本发明的主要评价方法包括以下几部分内容:
步骤1:统计网页中所有传感信息块的数量。
步骤2:依次计算传感信息块的视觉信息量。
步骤3:利用语义判别或差值图片分析的方法,获取传感信息块的更新频率,计算传感信息块的时间信息量。
步骤4:依次计算每一个传感信息块的信息量,并累加得到网页的整体信息量。
具体实施方案包括:
1、统计网页中所有传感信息块的数量
如图1a、图1b中所示,网页经过分割,分别得到了以粗线条矩形框内所示的不同数据块内容,经过对网页内容的语义和更新情况分析,可以判断图中所示两个网页都包含传感信息,且传感信息块分别如图中标记指出,图1a的四个数据块中,有两个传感数据块,分别展示了摄像头和温度传感器所采集的Toronto某地区的视频信息和温度信息结果;图1b来自站点thingspeak.com,图中标出的四个传感信息块分别展示的是由用户自主注册上传的某地土壤监测情况,包括土壤所含的石膏厚度,***电压以及温度的信息。
令Φ表示网页中所有传感信息块的集合。
2、信息块视觉信息量的计算
如图2所示,以ABCD代表整个网页,EFGH代表网页中的某个信息块bi。O与O’分别代表网页和信息块bi的质心。r表示AO的距离,代表AO’的距离,代表AO与AO’的夹角。那么,网页信息块bi的位置权重为:
以的有效面积来表征网页的视觉信息量,那么,网页的有效面积为:
其中,表示信息块bi的面积,而Sp表示网页的整体面积。
3、获取传感信息块的时间信息量
如图3所示,更新频率的抽取流程中,将语义分析与差值图像分析的方法相结合,提高频率抽取的准确率和效率。首先对获取的网页源代码进行预处理,得到正文内容。通过对正文内容的更新模板匹配,抽取出网页文本表述的更新信息。依据抽取出的更新信息获取差值图像,通过对图像像素值的分析,实现差值图像结果检测,若差值图像存在不为0的像素点,则更新信息匹配成功,反正,若文本抽取过程发现不存在更新信息或差值图检测结果与更新信息不符,则利用图像差值寻找更新频率。
如图4所示,设数据块bi的更新时间间隔为由于网页截取开始的时候可能发生在任意时刻点,因此,取最先出现的两幅非零差值图像出现时刻t1,t2,则
因此,可以计算传感信息块bi的时间信息量为:
由于大部分网页中信息块在一天之内更新多次,且对大部分传感器信息而言,当天采集的数据内容更为有效,因此,定义数据的时效性最多为一天。默认设置T=86400s,表示一天的时长,因而表示一天内的更新次数。又由于对视频类传感器数据而言,当前常用的流媒体传输协议使用的帧速率通常在20~30fbps的范围内。因此我们定义视频类传感信息块的更新时间间隔为由此,我们有
4、计算网页的传感信息量
对网页中的每一个传感信息块bi,定义其传感信息量为:
因此,对一个完整的网页而言,网页的传感信息量为:

Claims (2)

1.一种基于传感信息量的网页内容评价方法,其特征在于;包括以下步骤:
步骤1:统计网页中所有传感信息块的数量;
步骤2:依次计算传感信息块的视觉信息量;
步骤3:利用语义判别与差值图片结合分析的方法,获取传感信息块的更新频率,计算传感信息块的时间信息量;
步骤4:依次计算每一个传感信息块的信息量,并累加得到网页的整体信息量;
所述步骤1统计网页中所有传感信息块的数量具体过程如下:
网页经过分割,得到不同数据块内容,经过对网页内容的语义和更新情况分析,判断分割后的数据块是否包含传感信息,定义包含传感信息的数据块为传感数据块,统计所有传感信息块的数量;令Φ表示网页中所有传感信息块的集合;
所述步骤2,计算传感信息块的视觉信息量过程如下:
以ABCD代表整个网页,EFGH代表网页中的传感信息块bi,O与O’分别代表网页和信息块bi的质心,r表示AO的距离,代表AO’的距离,代表AO与AO’的夹角;那么,网页信息块bi的位置权重为:
以有效面积来表征网页的视觉信息量,因此,网页的有效面积为:
其中,表示信息块bi的面积,Sp表示网页的整体面积;
所述步骤3,计算传感信息块的时间信息量过程如下:
首先对获取的传感信息块的网页源代码进行预处理,得到正文内容;通过对正文内容的更新模板匹配,抽取出网页文本表述的更新信息;依据抽取出的更新信息获取差值图像,通过对图像像素值的分析,实现差值图像结果检测,若差值图像存在不为0的像素点,则更新信息匹配成功,反之,若文本抽取过程发现不存在更新信息或差值图检测结果与更新信息不符,则利用图像差值寻找更新频率;
设传感信息块bi的更新时间间隔为取最先出现的两幅非零差值图像出现时刻t1,t2,则
因此,计算传感信息块bi的时间信息量为:
所述步骤4中,计算网页的整体信息量过程如下:
对网页中的每一个传感信息块bi,定义其传感信息量为:
因此,对一个完整的网页而言,网页的传感信息量为:
2.根据权利要求1所述的一种基于传感信息量的网页内容评价方法,其特征在于;所述步骤3中,设置T=86400s,表示一天的时长,表示一天内的更新次数,定义传感信息块的更新时间间隔为因此有:
CN201610737560.4A 2016-08-26 2016-08-26 一种基于传感信息量的网页内容评价方法 Active CN106326445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610737560.4A CN106326445B (zh) 2016-08-26 2016-08-26 一种基于传感信息量的网页内容评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610737560.4A CN106326445B (zh) 2016-08-26 2016-08-26 一种基于传感信息量的网页内容评价方法

Publications (2)

Publication Number Publication Date
CN106326445A CN106326445A (zh) 2017-01-11
CN106326445B true CN106326445B (zh) 2019-09-17

Family

ID=57790935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610737560.4A Active CN106326445B (zh) 2016-08-26 2016-08-26 一种基于传感信息量的网页内容评价方法

Country Status (1)

Country Link
CN (1) CN106326445B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944104A (zh) * 2010-08-19 2011-01-12 百度在线网络技术(北京)有限公司 一种网页分块的重要度评估方法和设备
CN103020129A (zh) * 2012-11-20 2013-04-03 中兴通讯股份有限公司 一种文本内容提取方法和装置
CN103514234A (zh) * 2012-06-30 2014-01-15 北京百度网讯科技有限公司 一种页面信息提取方法和装置
CN103927365A (zh) * 2014-04-21 2014-07-16 武汉大学 一种基于能量函数的网页时间敏感性度量方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944104A (zh) * 2010-08-19 2011-01-12 百度在线网络技术(北京)有限公司 一种网页分块的重要度评估方法和设备
CN103514234A (zh) * 2012-06-30 2014-01-15 北京百度网讯科技有限公司 一种页面信息提取方法和装置
CN103020129A (zh) * 2012-11-20 2013-04-03 中兴通讯股份有限公司 一种文本内容提取方法和装置
CN103927365A (zh) * 2014-04-21 2014-07-16 武汉大学 一种基于能量函数的网页时间敏感性度量方法

Also Published As

Publication number Publication date
CN106326445A (zh) 2017-01-11

Similar Documents

Publication Publication Date Title
CN104038738B (zh) 一种提取人体关节点坐标的智能监控***及方法
CN105608467B (zh) 基于Kinect的无接触式学生体质测评方法
CN105374033B (zh) 基于脊波反卷积网络和稀疏分类的sar图像分割方法
CN108172301A (zh) 一种基于梯度提升树的蚊媒传染病疫情预测方法及***
CN107977671A (zh) 一种基于多任务卷积神经网络的舌象分类方法
CN103714349B (zh) 一种基于颜色和纹理特征的图像识别方法
CN107680678A (zh) 基于多尺度卷积神经网络甲状腺超声图像结节自动诊断***
CN108537215A (zh) 一种基于图像目标检测的火焰检测方法
CN107918780A (zh) 一种基于关键点检测的衣服种类和属性分类方法
CN107122787A (zh) 一种基于特征融合的图像缩放质量评价方法
CN104573359A (zh) 一种基于任务难度与标注者能力的众包标注数据整合方法
JP2014508333A5 (zh)
CN104866831B (zh) 特征加权的人脸识别算法
CN104216974B (zh) 基于词汇树分块聚类的无人机航拍图像匹配的方法
CN109919135A (zh) 基于深度学习的行为检测方法、装置
CN106651871A (zh) 一种深度图像空洞的自动填充方法
CN109492665A (zh) 水稻生育期的检测方法、装置及电子设备
CN104036493B (zh) 一种基于多重分形谱的无参考图像质量评价方法
CN111598081A (zh) 一种七步洗手法操作规范性自动检测方法
CN106023151A (zh) 一种开放环境下中医舌象目标检测方法
CN106169083A (zh) 基于视觉特征的电影推荐方法和***
CN109191460A (zh) 一种对于色调映射图像的质量评价方法
CN107403180A (zh) 一种数字类型设备检测识别方法和***
CN107767416A (zh) 一种低分辨率图像中行人朝向的识别方法
CN106295585A (zh) 一种兼顾实时性及人脸质量的过滤选择方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant