CN106326445A - 一种基于传感信息量的网页内容评价方法 - Google Patents
一种基于传感信息量的网页内容评价方法 Download PDFInfo
- Publication number
- CN106326445A CN106326445A CN201610737560.4A CN201610737560A CN106326445A CN 106326445 A CN106326445 A CN 106326445A CN 201610737560 A CN201610737560 A CN 201610737560A CN 106326445 A CN106326445 A CN 106326445A
- Authority
- CN
- China
- Prior art keywords
- heat transfer
- transfer agent
- webpage
- block
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的目的在于提供一种基于传感信息量的网页内容评价方法。首先对网页内容进行分析,根据网页数据块的内容,以及其是否具有空间描述特性和时间变化特性,对其是否为传感器信息块进行判断;接着,依据传感信息块的大小,分布位置情况,依次计算所有传感器信息块的视觉信息量;利用网页的差值图像,计算传感信息块的更新时间间隔,并通过更新频率得到信息块的时间信息量;将所有传感信息块的视觉信息量和时间信息量依次相乘并进行累加,即得到网页内容的传感信息量。本发明可以实现对针对传感信息内容的网页评价,评价结果将为物联网的设备和数据搜索提供研究支撑。
Description
技术领域
本发明属于物联网信息搜索领域,具体涉及一种基于传感信息量的网页内容评价方法。
背景技术
随着物联网技术的普及与发展,传感器的数量日益增长,面对其源源不断产生的海量数据,物联网搜索技术的研究已成为当前亟待解决的热点问题。与传统互联网中的数据相比,传感器所产生的数据兼具内容、时间和空间三维属性。与此同时,出于对隐私安全和传输负荷等问题的考虑,目前大量传感器采用了将数据传输至互联网,以网页的形式来展示数据内容,供用户自由访问。
网页通过视频、图片、表格和曲线等多种方式来向用户展示传感器所采集的数据内容,那么,如何评价网页所包含的传感数据量的大小,对网页传感信息搜索的研究而言,具有极高的价值。目前网页评价研究的相关工作,大都依靠视觉特性、链接内容等作为参照条件,对网页的复杂度,可靠性等指标进行考察,而针对网页中传感信息的分析内容成果尚少,而简单的依据视觉特性和链接等网页内容进行分析,又不具代表性和针对性。
发明内容
针对背景技术存在的问题,本发明提供一种基于传感信息量的网页评价方法,目的在于依据网页中的传感信息量,为物联网搜索中的网页传感信息搜索技术提供数据支撑。
本发明的目的是这样实现的:
(1)传感数据与其他数据块内容相比,多出时间和空间维度的属性。对网页传感信息块的判断将从这两个条件入手,对于同时具有时间变化特性,和空间描述特性的网页内容,称之为传感信息。
(2)由于数据空间信息量的大小不可表述,因此,对空间描述特性的分析仅用于协助判断网页数据块是否为传感信息块。而从时间变化特性的角度分析,为网页数据块定义时间信息量的概念,一般而言,时效性内的传感信息块,其时间信息量大于0。同时,从用户体验的角度出发,为每一个网页数据块定义视觉信息量的概念。对每一个网页数据块而言,其传感信息量表征为时间信息量和视觉信息量的乘积。而对每一个网页而言,其传感信息量表征为所有传感信息块的传感信息量之和。
(3)根据研究发现,用户对网页不同区域的内容往往呈现出不同的视觉关注度。根据用户视觉关注度的差异,针对网页中的不同数据内容的分布情况,提出了位置权重的视觉评价方法。以左上角至右下角的连接线为分界,网页数据块的位置越接近分界线,用户关注度越高,数据块的位置权重也越高大同时,随着时间推移,用户对内容的关注点呈现自左上角至中间逐渐分散开的特点,因此,位置权重与数据块到网页左上顶点距离成反比。
(4)针对网页不同数据块的视觉区域大小,结合位置权重的概念,定义了有效面积来表征每一个网页数据块的视觉信息量,视觉信息量分别与网页数据块的面积和位置权重成正比。
(5)传感器数据具有时间属性,显然,实时性越高的数据越具有查询价值。考虑网页数据块的更新频率,频率高的传感数据块具有更大的时间信息量。
本发明采用如下技术方案实现:
一种基于传感信息量的网页内容评价方法,包括以下步骤:
步骤1:统计网页中所有传感信息块的数量;
步骤2:依次计算传感信息块的视觉信息量;
步骤3:利用语义判别与差值图片结合分析的方法,获取传感信息块的更新频率,计算传感信息块的时间信息量;
步骤4:依次计算每一个传感信息块的信息量,并累加得到网页的整体信息量。
所述步骤1统计网页中所有传感信息块的数量具体过程如下:
网页经过分割,得到不同数据块内容,经过对网页内容的语义和更新情况分析,判断分割后的数据块是否包含传感信息,定义包含传感信息的数据块为传感数据块,统计所有传感信息块的数量;令Φ表示网页中所有传感信息块的集合。
所述步骤2,计算传感信息块的视觉信息量过程如下:
以ABCD代表整个网页,EFGH代表网页中的传感信息块bi,O与O’分别代表网页和信息块bi的质心,r表示AO的距离,代表AO’的距离,代表AO与AO’的夹角;那么,网页信息块bi的位置权重为:
以有效面积来表征网页的视觉信息量,因此,网页的有效面积为:
其中,表示信息块bi的面积,Sp表示网页的整体面积。
所述步骤3,计算传感信息块的时间信息量过程如下:
首先对获取的传感信息块的网页源代码进行预处理,得到正文内容;通过对正文内容的更新模板匹配,抽取出网页文本表述的更新信息;依据抽取出的更新信息获取差值图像,通过对图像像素值的分析,实现差值图像结果检测,若差值图像存在不为0的像素点,则更新信息匹配成功,反之,若文本抽取过程发现不存在更新信息或差值图检测结果与更新信息不符,则利用图像差值寻找更新频率;
设传感信息块bi的更新时间间隔为取最先出现的两幅非零差值图像出现时刻t1,t2,则
因此,计算传感信息块bi的时间信息量为:
所述步骤3中,设置T=86400s,表示一天的时长,表示一天内的更新次数,定义传感信息块的更新时间间隔为因此有:
所述步骤4中,计算网页的整体信息量过程如下:
对网页中的每一个传感信息块bi,定义其传感信息量为:
因此,对一个完整的网页而言,网页的传感信息量为:
与现有技术相比,本发明的优势在于:
第一次针对网页中的传感信息的包含情况,为网页给出一种评价方法;从传感信息的维度特性入手,结合对用户视觉感知特性的考虑,提出了用传感信息量来度量网页中所表征传感信息的情况;传统的网页评价手段往往采用人为打分或星级评价,本方法将网页信息的各项指标量化,通过计算给出评价结果。通过本发明所设计的评价指数,能够有效地将包含不同数量,不同类型,不同视觉强度以及不同实时性程度的传感信息的网页区分开来,未来可以为物联网中感知信息搜索结果的网页排名提供参考依据。
附图说明
图1是两张网页传感信息块示意说明图,其中,图1(a)是混合类传感信息网页信息块示意图,图1(b)是单一图表类传感信息网页信息块示意图;
图2是本发明中视觉信息参数的空间示意图;
图3是本发明中网页更新频率的计算流程图;
图4是本发明中差值图像计算更新频率的时间分析图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述。
图2矩形ABCD代表整个网页,EFGH代表已识别出的传感信息块。本发明的主要评价方法包括以下几部分内容:
步骤1:统计网页中所有传感信息块的数量。
步骤2:依次计算传感信息块的视觉信息量。
步骤3:利用语义判别或差值图片分析的方法,获取传感信息块的更新频率,计算传感信息块的时间信息量。
步骤4:依次计算每一个传感信息块的信息量,并累加得到网页的整体信息量。
具体实施方案包括:
1、统计网页中所有传感信息块的数量
如图1a、图1b中所示,网页经过分割,分别得到了以粗线条矩形框内所示的不同数据块内容,经过对网页内容的语义和更新情况分析,可以判断图中所示两个网页都包含传感信息,且传感信息块分别如图中标记指出,图1a的四个数据块中,有两个传感数据块,分别展示了摄像头和温度传感器所采集的Toronto某地区的视频信息和温度信息结果;图1b来自站点thingspeak.com,图中标出的四个传感信息块分别展示的是由用户自主注册上传的某地土壤监测情况,包括土壤所含的石膏厚度,***电压以及温度的信息。
令Φ表示网页中所有传感信息块的集合。
2、信息块视觉信息量的计算
如图2所示,以ABCD代表整个网页,EFGH代表网页中的某个信息块bi。O与O’分别代表网页和信息块bi的质心。r表示AO的距离,代表AO’的距离,代表AO与AO’的夹角。那么,网页信息块bi的位置权重为:
以的有效面积来表征网页的视觉信息量,那么,网页的有效面积为:
其中,表示信息块bi的面积,而Sp表示网页的整体面积。
3、获取传感信息块的时间信息量
如图3所示,更新频率的抽取流程中,将语义分析与差值图像分析的方法相结合,提高频率抽取的准确率和效率。首先对获取的网页源代码进行预处理,得到正文内容。通过对正文内容的更新模板匹配,抽取出网页文本表述的更新信息。依据抽取出的更新信息获取差值图像,通过对图像像素值的分析,实现差值图像结果检测,若差值图像存在不为0的像素点,则更新信息匹配成功,反正,若文本抽取过程发现不存在更新信息或差值图检测结果与更新信息不符,则利用图像差值寻找更新频率。
如图4所示,设数据块bi的更新时间间隔为由于网页截取开始的时候可能发生在任意时刻点,因此,取最先出现的两幅非零差值图像出现时刻t1,t2,则
因此,可以计算传感信息块bi的时间信息量为:
由于大部分网页中信息块在一天之内更新多次,且对大部分传感器信息而言,当天采集的数据内容更为有效,因此,定义数据的时效性最多为一天。默认设置T=86400s,表示一天的时长,因而表示一天内的更新次数。又由于对视频类传感器数据而言,当前常用的流媒体传输协议使用的帧速率通常在20~30fbps的范围内。因此我们定义视频类传感信息块的更新时间间隔为由此,我们有
4、计算网页的传感信息量
对网页中的每一个传感信息块bi,定义其传感信息量为:
因此,对一个完整的网页而言,网页的传感信息量为:
Claims (6)
1.一种基于传感信息量的网页内容评价方法,其特征在于;包括以下步骤:
步骤1:统计网页中所有传感信息块的数量;
步骤2:依次计算传感信息块的视觉信息量;
步骤3:利用语义判别与差值图片结合分析的方法,获取传感信息块的更新频率,计算传感信息块的时间信息量;
步骤4:依次计算每一个传感信息块的信息量,并累加得到网页的整体信息量。
2.根据权利要求1所述的一种基于传感信息量的网页内容评价方法,其特征在于;所述步骤1统计网页中所有传感信息块的数量具体过程如下:
网页经过分割,得到不同数据块内容,经过对网页内容的语义和更新情况分析,判断分割后的数据块是否包含传感信息,定义包含传感信息的数据块为传感数据块,统计所有传感信息块的数量;令Φ表示网页中所有传感信息块的集合。
3.根据权利要求2所述的一种基于传感信息量的网页内容评价方法,其特征在于;所述步骤2,计算传感信息块的视觉信息量过程如下:
以ABCD代表整个网页,EFGH代表网页中的传感信息块bi,O与O’分别代表网页和信息块bi的质心,r表示AO的距离,代表AO’的距离,代表AO与AO’的夹角;那么,网页信息块bi的位置权重为:
以有效面积来表征网页的视觉信息量,因此,网页的有效面积为:
其中,表示信息块bi的面积,Sp表示网页的整体面积。
4.根据权利要求3所述的一种基于传感信息量的网页内容评价方法,其特征在于;所述步骤3,计算传感信息块的时间信息量过程如下:
首先对获取的传感信息块的网页源代码进行预处理,得到正文内容;通过对正文内容的更新模板匹配,抽取出网页文本表述的更新信息;依据抽取出的更新信息获取差值图像,通过对图像像素值的分析,实现差值图像结果检测,若差值图像存在不为0的像素点,则更新信息匹配成功,反之,若文本抽取过程发现不存在更新信息或差值图检测结果与更新信息不符,则利用图像差值寻找更新频率;
设传感信息块bi的更新时间间隔为取最先出现的两幅非零差值图像出现时刻t1,t2,则
因此,计算传感信息块bi的时间信息量为:
5.根据权利要求4所述的一种基于传感信息量的网页内容评价方法,其特征在于;所述步骤3中,设置T=86400s,表示一天的时长,表示一天内的更新次数,定义传感信息块的更新时间间隔为因此有:
6.根据权利要求4所述的一种基于传感信息量的网页内容评价方法,其特征在于;所述步骤4中,计算网页的整体信息量过程如下:
对网页中的每一个传感信息块bi,定义其传感信息量为:
因此,对一个完整的网页而言,网页的传感信息量为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610737560.4A CN106326445B (zh) | 2016-08-26 | 2016-08-26 | 一种基于传感信息量的网页内容评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610737560.4A CN106326445B (zh) | 2016-08-26 | 2016-08-26 | 一种基于传感信息量的网页内容评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106326445A true CN106326445A (zh) | 2017-01-11 |
CN106326445B CN106326445B (zh) | 2019-09-17 |
Family
ID=57790935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610737560.4A Active CN106326445B (zh) | 2016-08-26 | 2016-08-26 | 一种基于传感信息量的网页内容评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106326445B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944104A (zh) * | 2010-08-19 | 2011-01-12 | 百度在线网络技术(北京)有限公司 | 一种网页分块的重要度评估方法和设备 |
CN103020129A (zh) * | 2012-11-20 | 2013-04-03 | 中兴通讯股份有限公司 | 一种文本内容提取方法和装置 |
CN103514234A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种页面信息提取方法和装置 |
CN103927365A (zh) * | 2014-04-21 | 2014-07-16 | 武汉大学 | 一种基于能量函数的网页时间敏感性度量方法 |
-
2016
- 2016-08-26 CN CN201610737560.4A patent/CN106326445B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944104A (zh) * | 2010-08-19 | 2011-01-12 | 百度在线网络技术(北京)有限公司 | 一种网页分块的重要度评估方法和设备 |
CN103514234A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种页面信息提取方法和装置 |
CN103020129A (zh) * | 2012-11-20 | 2013-04-03 | 中兴通讯股份有限公司 | 一种文本内容提取方法和装置 |
CN103927365A (zh) * | 2014-04-21 | 2014-07-16 | 武汉大学 | 一种基于能量函数的网页时间敏感性度量方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106326445B (zh) | 2019-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bocchi et al. | Measuring the quality of experience of web users | |
CN103605794B (zh) | 一种网站分类方法 | |
Rajsekhar et al. | Multivariate drought index: An information theory based approach for integrated drought assessment | |
Chen et al. | A spectral gradient difference based approach for land cover change detection | |
CN104199822B (zh) | 一种识别搜索对应的需求分类的方法和*** | |
Bartolo et al. | Regional ecological risk assessment for Australia's tropical rivers: Application of the relative risk model | |
US11003738B2 (en) | Dynamically non-gaussian anomaly identification method for structural monitoring data | |
CN105337987B (zh) | 一种网络用户身份认证方法及*** | |
Pini et al. | Test–retest reliability measures for curve data: An overview with recommendations and supplementary code | |
CN103795723A (zh) | 一种分布式物联网安全态势感知方法 | |
CN105975596A (zh) | 一种搜索引擎查询扩展的方法及*** | |
CN103778262A (zh) | 基于叙词表的信息检索方法及装置 | |
Vaughan et al. | Using fractal analysis to compare the characteristic complexity of nature and architecture: re-examining the evidence | |
CN113836999A (zh) | 基于探地雷达的隧道施工风险智能识别方法及*** | |
CN109740654A (zh) | 一种基于深度学习的舌体自动检测方法 | |
Mathur et al. | Thermal fronts and attracting lagrangian coherent structures in the north bay of bengal during december 2015–march 2016 | |
CN106126883A (zh) | 油套管质量水平评价方法 | |
CN105913064B (zh) | 一种图像视觉显著性检测拟合优化方法 | |
CN102654861A (zh) | 网页抽取准确性计算方法及*** | |
Lepak et al. | Where do qualitative assessments fit in an era of increasingly quantitative monitoring? Perspectives from Interpreting Indicators of Rangeland Health | |
CN103678709B (zh) | 一种基于时序数据的推荐***攻击检测方法 | |
CN103942224B (zh) | 一种获取网页分块的标注规则的方法及装置 | |
CN103186777B (zh) | 基于非负矩阵分解的人体检测方法 | |
CN106326445A (zh) | 一种基于传感信息量的网页内容评价方法 | |
CN115905524B (zh) | 融合句法和语义信息的情感分析方法、装置以及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |