CN107203748B - 一种基于内容的网页笔记存储、匹配和还原的方法和装置 - Google Patents

一种基于内容的网页笔记存储、匹配和还原的方法和装置 Download PDF

Info

Publication number
CN107203748B
CN107203748B CN201710350594.2A CN201710350594A CN107203748B CN 107203748 B CN107203748 B CN 107203748B CN 201710350594 A CN201710350594 A CN 201710350594A CN 107203748 B CN107203748 B CN 107203748B
Authority
CN
China
Prior art keywords
webpage
stroke group
stroke
web page
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710350594.2A
Other languages
English (en)
Other versions
CN107203748A (zh
Inventor
贝佳
任桐炜
张衡
杨宇洁
徐强明
佘黎明
蔡浩伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201710350594.2A priority Critical patent/CN107203748B/zh
Publication of CN107203748A publication Critical patent/CN107203748A/zh
Application granted granted Critical
Publication of CN107203748B publication Critical patent/CN107203748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • G06V30/387Matching; Classification using human interaction, e.g. selection of the best displayed recognition candidate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于内容的网页笔记存储、匹配和还原的方法和装置。其中,方法步骤如下:首先获取用户在网页浏览页面上输入的笔划,将笔划组合成笔划组,计算笔划组所对应的网页元素。然后按网页地址存储笔记信息。当显示网页时,根据网页地址检索查找对应的笔记信息,将找到的笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素进行匹配;最后根据匹配的结果从所找到的笔记信息中提取相应的笔划组进行还原。本发明方法之下,当网页内容发生变化时,只要笔记所对应的内容未发生变化,即可再现笔记,由此无视其他网页内容的变化。

Description

一种基于内容的网页笔记存储、匹配和还原的方法和装置
技术领域
本发明涉及网页笔记。
背景技术
随着平板电脑、触屏笔记本、智能手机等移动终端的普及,人们在电脑上做笔记变得越来越方便。倘若能够在浏览网页时,直接在网页上做笔记;笔记内容保存在网络上,当用户下一次再访问该网页时,笔记内容能够重现,这将大大方便用户。但目前各种各样的网站通常使用动态网页,网页的结构和内容经常发生变化,此时,笔记和网页内容不能一致对应。特别是某些带有广告的网页,每一次访问网页,广告内容都会发生变化。但是广告内容的变化不会对网页的正文内容产生影响,也不应该影响笔记。在这种情况下,需要对笔记和网页进行一致性判断和比较,并基于内容完成网页笔记的存储、匹配和还原。
发明内容
本发明所要解决的问题是网页笔记中当网页内容发生变化时,网页和笔记的匹配。
为解决上述问题,本发明采用的方案如下:
根据本发明的一种基于内容的网页笔记存储、匹配和还原的方法,包括以下步骤:
S1:获取用户在网页浏览页面上输入的笔划,将笔划组合成笔划组;
S2:计算笔划组所对应的网页元素;
S3:按网页地址存储笔记信息;所述笔记信息包括笔划快照的集合;所述笔划快照包括笔划组和笔划组所对应的网页元素;
S4:当显示网页时,根据网页地址检索查找对应的笔记信息;
S5:将找到的笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素进行匹配;
S6:根据匹配的结果从所找到的笔记信息中提取相应的笔划组进行还原。
进一步,根据本发明的基于内容的网页笔记存储、匹配和还原的方法,所述步骤S6中所述匹配的结果为笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素的总匹配度;所述笔记信息还包括原网页快照;所述步骤S6以如下方式处理:
当总匹配度低于低阈值时,提示用户网页变化太多无法还原笔记;
当总匹配度高于高阈值时,在当前网页页面上还原笔划组;
当总匹配度位于低阈值和高阈值之间时,用另一窗口显示所述原网页快照和各个笔划组,并且在当前网页页面上同步还原笔划组。
进一步,根据本发明的基于内容的网页笔记存储、匹配和还原的方法,所述步骤S6中所述匹配的结果为笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素的总匹配度;所述步骤S5包括:
S511:提取查找到的笔记中各个笔划组中的网页元素组成结合网页元素集合F1;
S512:将查找到的笔记中的各个笔划组坐标映射后放入当前网页,采用步骤S2的方法,确定各个笔划组在当前网页中对应的网页元素组成网页元素集合F2;
S513:计算网页元素集合F1和F2的交集得到网页元素集合X;
S514:计算X中元素个数和F1中元素个数的比值作为总匹配度。
进一步,根据本发明的基于内容的网页笔记存储、匹配和还原的方法,所述笔记信息还包括原网页的高宽比;所述步骤S6中所述匹配的结果为笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素的总匹配度;所述步骤S5还包括比较当前网页的高宽比和笔记信息中的原网页高宽比,判断两者是否差异过大,如果两者差异过大,则总匹配度设为0。
进一步,根据本发明的基于内容的网页笔记存储、匹配和还原的方法,所述在当前网页页面上还原笔划组时,将每个笔划组坐标映射后放入当前网页,根据步骤S2的方法,计算每个笔划组在当前网页中对应的网页元素;提取每个笔划组在原网页中对应的网页元素;判定每个笔划组在当前网页和原网页中对应的网页元素是否匹配;对于匹配的笔划组进行正常显示,否则以提示方式进行显示。
根据本发明的一种基于内容的网页笔记存储、匹配和还原的装置,包括以下模块:
M1,用于:获取用户在网页浏览页面上输入的笔划,将笔划组合成笔划组;
M2,用于:计算笔划组所对应的网页元素;
M3,用于:按网页地址存储笔记信息;所述笔记信息包括笔划快照的集合;所述笔划快照包括笔划组和笔划组所对应的网页元素;
M4,用于:当显示网页时,根据网页地址检索查找对应的笔记信息;
M5,用于:将找到的笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素进行匹配;
M6,用于:根据匹配的结果从所找到的笔记信息中提取相应的笔划组进行还原。
进一步,根据本发明的基于内容的网页笔记存储、匹配和还原的装置,所述模块M6中所述匹配的结果为笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素的总匹配度;所述笔记信息还包括原网页快照;所述模块M6以如下方式处理:
当总匹配度低于低阈值时,提示用户网页变化太多无法还原笔记;
当总匹配度高于高阈值时,在当前网页页面上还原笔划组;
当总匹配度位于低阈值和高阈值之间时,用另一窗口还原所述原网页快照和各个笔划组,并且在当前网页页面上同步还原笔划组。
进一步,根据本发明的基于内容的网页笔记存储、匹配和还原的装置,所述模块M6中所述匹配的结果为笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素的总匹配度;所述模块M5包括:
M511,用于:提取查找到的笔记中各个笔划组中的网页元素组成结合网页元素集合F1;
M512,用于:将查找到的笔记中的各个笔划组坐标映射后放入当前网页,通过模块M2确定各个笔划组在当前网页中对应的网页元素组成网页元素集合F2;
M513,用于:计算网页元素集合F1和F2的交集得到网页元素集合X;
M514,用于:计算X中元素个数和F1中元素个数的比值作为总匹配度。
进一步,根据本发明的基于内容的网页笔记存储、匹配和还原的装置,所述笔记信息还包括原网页的高宽比;所述模块M6中所述匹配的结果为笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素的总匹配度;所述模块M5还包括比较当前网页的高宽比和笔记信息中的原网页高宽比,判断两者是否差异过大,如果两者差异过大,则总匹配度设为0。
进一步,根据本发明的基于内容的网页笔记存储、匹配和还原的装置,所述在当前网页页面上还原笔划组时,将每个笔划组坐标映射后放入当前网页,通过模块M2计算每个笔划组在当前网页中对应的网页元素;提取每个笔划组在原网页中对应的网页元素;判定每个笔划组在当前网页和原网页中对应的网页元素是否匹配;对于匹配的笔划组进行正常显示,否则以提示方式进行显示。
本发明的技术效果如下:本发明通过存储笔记时存储网页元素,还原笔记时,通过存储的网页元素和当前网页内容进行比较匹配,然后根据匹配的结果再现笔记。在这种方法下,当网页内容发生变化时,只要笔记所对应的内容未发生变化,即可再现笔记,由此无视其他网页内容的变化。
具体实施方式
下面对本发明做进一步详细说明。
本实施例涉及客户端、云存储服务器和网页服务器。客户端可以是台式个人电脑,也可以是笔记本、平板电脑甚至智能手机等移动终端。客户端上安装网页浏览器。本实施例是网页浏览器上实现的一种笔记插件。当用户通过网页浏览器连接网页服务器,显示网页时,用户能够通过笔记插件在网页浏览器上实现网页笔记的功能。该笔记插件连接云存储服务器,将客户端网页浏览器上所记录的网页笔记存入云存储服务器。该笔记插件包括:笔记编辑模块、网络元素对照模块、笔记存储模块、笔记检索模块、笔记匹配模块和笔记还原模块。笔记编辑模块用于向用户提供网页笔记编辑的UI界面,在当前网页上显示用户输入的笔划和笔划组,并且提供了笔划组的增删改功能。网络元素对照模块用于根据笔划组确定笔划组所对应的网页元素。笔记存储模块用于将用户输入的笔划组和笔划组所对应的网页元素组成的笔记保存至云存储服务器中。笔记检索模块用于根据当前网页的地址在云存储服务器中查找对应的笔记。笔记匹配模块将找到的笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素进行匹配。笔记还原模块根据匹配的结果从所找到的笔记信息中提取相应的笔划组进行还原。笔记编辑模块对应于前述的步骤S1和模块M1,也即,“步骤S1和模块M1”中的“获取”的“笔划”和“笔划组”是用户在UI界面中操作手写笔或鼠标编辑所形成的。这是本领域技术人员所熟悉的技术,本说明书不再赘述。需要指出的是,“笔划组”是个逻辑的概念,由用户确定。比如,一个括号由左括号和右括号组成,左括号和右括号均为笔划,单独保存左括号和右括号的笔划缺乏意义,需要将左括号和右括号两个笔划组成括号才能表示一定的逻辑含义,这个由两个笔划组成的括号就是“笔划组”。
下面对网络元素对照模块、笔记存储模块、笔记检索模块、笔记匹配模块和笔记还原模块作进一步详细描述。
一、网络元素对照模块
网络元素对照模块对应于前述的步骤S2和模块M2。网页元素是HTML标签所标记的对象,通常为文本类型,为本领域所熟悉。笔划组所对应的网页元素可以是叶子节点的网页元素,也可以是非叶子节点的网页元素。
确定笔划组与网页元素对应关系最为简单的实施方式是由用户指定。也就是在用户需要对每个笔划组指定该笔划组所对应的网页元素。当用户生成笔划组后,笔记编辑模块要求用户指定至少一个网页元素作为网页元素,假如用户不指定网页元素则该笔划组生成失败。
确定笔划组与网页元素对应关系可以采用半自动方式。该实施方式下,用户在笔记编辑模块中编辑笔划组时,需要指定该笔划组的类型。然后根据笔划组的类型和笔划组所对应的坐标确定定位区域,再以定位区域所覆盖的网页元素作为该笔划组所对应的网页元素。确定定位区域以及根据定位区域确定笔划组对应的网页元素过程是由计算机执行程序所进行的自动处理过程,而笔划组的类型则需要用户介入,因此是一种半自动的方式。
本实施例中确定笔划组与网页元素对应关系采用的是全自动的方式,包括以下步骤:
S21:通过笔划组自身形状的分析判断出笔划组的类型;
S22:然后根据笔划组的类型和笔划组所对应的坐标确定定位区域;
S23:以定位区域所覆盖的网页元素作为该笔划组所对应的网页元素。
上述步骤S21、S22、S23的过程中,笔划组的类型分为:闭合类型、下划线类型、删除线类型、括号类型、引号类型、连接线类型、文本类型。对于闭合类型的笔划组。定位区域可以是笔划组的所覆盖的区域,也可以是笔划组的所覆盖的区域向外延伸一定距离所形成的区域。对于下划线类型的笔划组,定位区域是笔划向上延伸一定距离的所覆盖的区域。对于删除线类型的笔划组,定位区域是笔划上下延伸一定距离的所覆盖的区域。对于括号类型的笔划组,定位区域是括号间顶部水平线和底部水平线所覆盖的区域。对于引号类型的笔划组,定位区域是括号间水平线向下延伸一定距离所覆盖的区域。对于连接线类型的笔划组,定位区域是以连接线终点为圆心、以一定距离为半径的圆形区域。对于文本类型的笔划组,定位区域是文本区域向外延伸一定距离所覆盖的区域。
上述步骤S21通过笔划组自身形状的分析判断出笔划组的类型包括以下步骤:
S211:通过分析笔划组是否构成封闭判断是否为闭合类型,如果为闭合类型则返回;
S212:通过计算笔划的最大最小Y轴坐标差值和最大最小X轴坐标差值是否超过限值判断是否为下划线类型或删除线类型;假如未超过限值,则通过分析笔划组是否位于某网页元素的下方判断是下划线类型还是删除线类型;
S213:通过分析笔划组中是否存在左括号和右括号的笔划判断笔划组是否为括号类型;
S214:通过分析笔划组中是否存在两个双引号判断笔划组是否引号类型;
S215:通过分析笔划组中是否存在带箭头的线条判断笔划组是否为连接线类型;
S216:如果笔划组上述类型都不能满足,则认定该笔划组为文本类型。
需要指出的是,笔划组所对应的网页元素是网页元素的集合,说明笔划组能够对应于多个网页元素。
二、笔记存储模块
笔记存储模块对应前述的步骤S3和模块M3。本实施例中,笔记信息存储在云储存服务器中。本领域技术人员理解,笔记信息也可以存储客户端本地。存储方式可以通过文件方式,也可以通过数据库方式。笔记信息按网页地址存储,由此笔记检索的时候能够方便检索到。具体来说,当以数据库方式存储时,以网页地址作为关键检索字;当文件方式存储时,可以网页地址作为文件名。笔记信息包括网页元信息、网页快照和笔划快照的集合。网页元信息包括网页标题、访问时间、网页高宽比。网页快照可以是网页截图,也可以是HTML文档。考虑到HTML文档下考虑大CSS文件的处理方式比较繁琐,因此本实施例优先选用网页截图作为网页快照。笔划快照包括笔划组、时间戳、笔划组对应的网页元素。
三、笔记检索模块
笔记检索模块对应前述的步骤S4和模块M4。即根据网页地址查找是否存在对应的笔记信息。笔记检索依赖于前述的笔记存储模块对笔记信息的存储方式,是本领域技术人员所熟悉的,本说明书不再赘述。
四、笔记匹配模块和笔记还原模块
笔记匹配模块对应前述的步骤S5和模块M5。笔记还原模块对应前述的步骤S6和模块M6。笔记还原依赖于笔记匹配的结果,两者关联性很强,也可以合为一个步骤或模块,匹配还原模块。匹配还原模块的具体实现有很多种方式。最为简单的方式是笔记匹配模块直接匹配出相匹配的笔划组,匹配的结果就是相匹配的笔划组,然后在笔记还原模块中显示这些相匹配的笔划组。本实施例中,匹配的结果是总匹配度,笔记匹配模块即为计算总匹配度,笔记还原模块则是根据总匹配度从所找到的笔记信息中提取相应的笔划组显示。计算总匹配度的具体方法如下:首先比较网页基本信息,即通过笔记信息中所保存的网页基本信息和当前网页的基本信息比较,具体来说比较笔记信息中高宽比和当前网页的高宽比,假如笔记信息中的高宽比与当前网页的高宽比的比值超过1.5或小于0.7,则认为当前网页与原网页差距过大,设总匹配度为0返回,否则继续后面的总匹配度计算步骤。
总匹配度计算步骤可以采用以下几种实施方式。第一种实施方式的具体实现如下:
S511:提取查找到的笔记中各个笔划组中的网页元素组成结合网页元素集合F1;
S512:将查找到的笔记中的各个笔划组坐标映射后放入当前网页,采用步骤S2的方法,确定各个笔划组在当前网页中对应的网页元素组成网页元素集合F2;
S513:计算网页元素集合F1和F2的交集得到网页元素集合X;
S514:计算X中元素个数和F1中元素个数的比值作为总匹配度。
第二种实施方式的具体实现如下:
S521:计算查找到的笔记中各个笔划组中的网页元素与网页请求所对应的网页内容中的网页元素完全相匹配的笔划组个数Nk;
S522:计算Nk和Nm的比值作为总匹配度,其中Nm为查找到的笔记中笔划组的个数。
第三种实施方式的具体实现如下:
S531:提取查找到的笔记中各个笔划组中的网页元素组成结合网页元素集合F;
S532:计算当前网页中的网页元素与F的交集得到网页元素集合X;
S533:计算X中元素个数和F中元素个数的比值作为总匹配度。
本实施例优先使用上述第一种实施方式。
根据上述几种实施方式可知,总匹配度是介于0和1之间的数值。根据总匹配度从所找到的笔记信息中提取相应的笔划组显示的方法也有很多种,最为简单的方式是,给定一个阈值,比如0.5,判断总匹配度是否大于该阈值,假如匹配度大于该阈值则在当前网页页面上显示笔划组,否则不显示或提示用户网页变化太多无法还原笔记。
本实施例采用了双阈值的方式。该方式下,预先给定了两个阈值:高阈值和低阈值。当总匹配度低于低阈值时,提示用户网页变化太多无法还原笔记;当总匹配度高于高阈值时,在当前网页页面上显示笔划组;当总匹配度位于低阈值和高阈值之间时,用另一窗口显示所述原网页快照和各个笔划组,并且在当前网页页面上显示笔划组。也就是,当总匹配度位于低阈值和高阈值之间时,通过对照的方式显示笔划组,方便用户对照。
上述当前网页页面上还原笔划组时本实施例采用如下的方法:将每个笔划组坐标映射后放入当前网页,通过模块M2计算每个笔划组在当前网页中对应的网页元素;提取每个笔划组在原网页中对应的网页元素;判定每个笔划组在当前网页和原网页中对应的网页元素是否匹配;对于匹配的笔划组进行正常显示,否则以提示方式进行显示。比如,正常显示笔划组时采用黑色,而提示方式下笔划组采用灰色或者红色黄色等其他方式显示。由此用户能够区分笔划组所对应的网页元素是否和原网页的网页元素对应。

Claims (8)

1.一种基于内容的网页笔记存储、匹配和还原的方法,其特征在于,包括以下步骤:
S1:获取用户在网页浏览页面上输入的笔划,将笔划组合成笔划组;
S2:计算笔划组所对应的网页元素;
S3:按网页地址存储笔记信息;所述笔记信息包括笔划快照的集合;所述笔划快照包括笔划组和笔划组所对应的网页元素;
S4:当显示网页时,根据网页地址检索查找对应的笔记信息;
S5:将找到的笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素进行匹配;
S6:根据匹配的结果从所找到的笔记信息中提取相应的笔划组进行还原;
所述步骤S2包括如下步骤:
S21:通过笔划组自身形状的分析判断出笔划组的类型;
S22:然后根据笔划组的类型和笔划组所对应的坐标确定定位区域;
S23:以定位区域所覆盖的网页元素作为该笔划组所对应的网页元素;
所述笔划组的类型分为:笔划组的类型分为:闭合类型、下划线类型、删除线类型、括号类型、引号类型、连接线类型、文本类型;
所述步骤S21包括如下步骤:
S211:通过分析笔划组是否构成封闭判断是否为闭合类型,如果为闭合类型则返回;
S212:通过计算笔划的最大最小Y轴坐标差值和最大最小X轴坐标差值是否超过限值判断是否为下划线类型或删除线类型;假如未超过限值,则通过分析笔划组是否位于某网页元素的下方判断是下划线类型还是删除线类型;
S213:通过分析笔划组中是否存在左括号和右括号的笔划判断笔划组是否为括号类型;
S214:通过分析笔划组中是否存在两个双引号判断笔划组是否引号类型;
S215:通过分析笔划组中是否存在带箭头的线条判断笔划组是否为连接线类型;
S216:如果笔划组上述类型都不能满足,则认定该笔划组为文本类型;
所述步骤S6中所述匹配的结果为笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素的总匹配度;所述笔记信息还包括原网页快照;所述步骤S6以如下方式处理:
当总匹配度低于低阈值时,提示用户网页变化太多无法还原笔记;
当总匹配度高于高阈值时,在当前网页页面上还原笔划组;
当总匹配度位于低阈值和高阈值之间时,用另一窗口显示所述原网页快照和各个笔划组,并且在当前网页页面上同步还原笔划组。
2.如权利要求1所述的基于内容的网页笔记存储、匹配和还原的方法,其特征在于,所述步骤S6中所述匹配的结果为笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素的总匹配度;所述步骤S5包括:
S511:提取查找到的笔记中各个笔划组中的网页元素组成网页元素集合F1;
S512:将查找到的笔记中的各个笔划组坐标映射后放入当前网页,采用步骤S2的方法,确定各个笔划组在当前网页中对应的网页元素,组成网页元素集合F2;
S513:计算网页元素集合F1和F2的交集得到网页元素集合X;
S514:计算X中元素个数和F1中元素个数的比值作为总匹配度。
3.如权利要求1所述的基于内容的网页笔记存储、匹配和还原的方法,其特征在于,所述笔记信息还包括原网页的高宽比;所述步骤S6中所述匹配的结果为笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素的总匹配度;所述步骤S5还包括比较当前网页的高宽比和笔记信息中的原网页高宽比,判断两者是否差异过大,如果两者差异过大,则总匹配度设为0。
4.如权利要求1所述的基于内容的网页笔记存储、匹配和还原的方法,其特征在于,在当前网页页面上还原笔划组时,将每个笔划组坐标映射后放入当前网页,并根据步骤S2的方法,计算每个笔划组在当前网页中对应的网页元素;提取每个笔划组在原网页中对应的网页元素;判定每个笔划组在当前网页和原网页中对应的网页元素是否匹配;对于匹配的笔划组进行正常显示,否则以提示方式进行显示。
5.一种基于内容的网页笔记存储、匹配和还原的装置,其特征在于,包括以下模块:
M1,用于:获取用户在网页浏览页面上输入的笔划,将笔划组合成笔划组;
M2,用于:计算笔划组所对应的网页元素;
M3,用于:按网页地址存储笔记信息;所述笔记信息包括笔划快照的集合;所述笔划快照包括笔划组和笔划组所对应的网页元素;
M4,用于:当显示网页时,根据网页地址检索查找对应的笔记信息;
M5,用于:将找到的笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素进行匹配;
M6,用于:根据匹配的结果从所找到的笔记信息中提取相应的笔划组进行还原;所述模块M2包括模块:
M21,用于:通过笔划组自身形状的分析判断出笔划组的类型;
M22,用于:然后根据笔划组的类型和笔划组所对应的坐标确定定位区域;
M23,用于:以定位区域所覆盖的网页元素作为该笔划组所对应的网页元素;
所述笔划组的类型分为:笔划组的类型分为:闭合类型、下划线类型、删除线类型、括号类型、引号类型、连接线类型、文本类型;
所述模块M21包括以下模块:
M211,用于:通过分析笔划组是否构成封闭判断是否为闭合类型,如果为闭合类型则返回;
M212,用于:通过计算笔划的最大最小Y轴坐标差值和最大最小X轴坐标差值是否超过限值判断是否为下划线类型或删除线类型;假如未超过限值,则通过分析笔划组是否位于某网页元素的下方判断是下划线类型还是删除线类型;
M213,用于:通过分析笔划组中是否存在左括号和右括号的笔划判断笔划组是否为括号类型;
M214,用于:通过分析笔划组中是否存在两个双引号判断笔划组是否引号类型;
M215,用于:通过分析笔划组中是否存在带箭头的线条判断笔划组是否为连接线类型;
M216,用于:如果笔划组上述类型都不能满足,则认定该笔划组为文本类型;
所述模块M6中所述匹配的结果为笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素的总匹配度;所述笔记信息还包括原网页快照;所述模块M6以如下方式处理:
当总匹配度低于低阈值时,提示用户网页变化太多无法还原笔记;
当总匹配度高于高阈值时,在当前网页页面上显示笔划组;
当总匹配度位于低阈值和高阈值之间时,用另一窗口显示所述原网页快照和各个笔划组,并且在当前网页页面上同步还原笔划组。
6.如权利要求5所述的基于内容的网页笔记存储、匹配和还原的装置,其特征在于,所述模块M6中所述匹配的结果为笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素的总匹配度;所述模块M5包括:
M511,用于:提取查找到的笔记中各个笔划组中的网页元素组成结合网页元素集合F1;
M512,用于:将查找到的笔记中的各个笔划组坐标映射后放入当前网页,通过模块M2确定各个笔划组在当前网页中对应的网页元素,组成网页元素集合F2;
M513,用于:计算网页元素集合F1和F2的交集得到网页元素集合X;
M514,用于:计算X中元素个数和F1中元素个数的比值作为总匹配度。
7.如权利要求5所述的基于内容的网页笔记存储、匹配和还原的装置,其特征在于,所述笔记信息还包括原网页的高宽比;所述模块M6中所述匹配的结果为笔记信息中各个笔划组所对应的网页元素与当前网页中的网页元素的总匹配度;所述模块M5还包括比较当前网页的高宽比和笔记信息中的原网页高宽比,判断两者是否差异过大,如果两者差异过大,则总匹配度设为0。
8.如权利要求5所述的基于内容的网页笔记存储、匹配和还原的装置,其特征在于,所述在当前网页页面上显示笔划组时,将每个笔划组坐标映射后放入当前网页,通过模块M2计算每个笔划组在当前网页中对应的网页元素;提取每个笔划组在原网页中对应的网页元素;判定每个笔划组在当前网页和原网页中对应的网页元素是否匹配;对于匹配的笔划组进行正常显示,否则以提示方式进行显示。
CN201710350594.2A 2017-05-18 2017-05-18 一种基于内容的网页笔记存储、匹配和还原的方法和装置 Active CN107203748B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710350594.2A CN107203748B (zh) 2017-05-18 2017-05-18 一种基于内容的网页笔记存储、匹配和还原的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710350594.2A CN107203748B (zh) 2017-05-18 2017-05-18 一种基于内容的网页笔记存储、匹配和还原的方法和装置

Publications (2)

Publication Number Publication Date
CN107203748A CN107203748A (zh) 2017-09-26
CN107203748B true CN107203748B (zh) 2020-12-22

Family

ID=59905719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710350594.2A Active CN107203748B (zh) 2017-05-18 2017-05-18 一种基于内容的网页笔记存储、匹配和还原的方法和装置

Country Status (1)

Country Link
CN (1) CN107203748B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112486532B (zh) * 2020-11-25 2024-04-09 中移(杭州)信息技术有限公司 配置文件的管理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441644A (zh) * 2007-11-19 2009-05-27 英福达科技股份有限公司 网页批注***与方法
CN101551800A (zh) * 2008-03-31 2009-10-07 富士通株式会社 标注信息生成装置、查询装置及共享***
CN102609401A (zh) * 2011-12-26 2012-07-25 北京大学 一种网页批注方法
CN104615601A (zh) * 2013-11-04 2015-05-13 英业达科技有限公司 基于网页的记录***及其方法
CN104794174A (zh) * 2015-04-01 2015-07-22 百度在线网络技术(北京)有限公司 用于显示网页标记信息的方法与装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPS020302A0 (en) * 2002-01-31 2002-02-21 Silverbrook Research Pty. Ltd. Methods and systems (npw007)
US11232250B2 (en) * 2013-05-15 2022-01-25 Microsoft Technology Licensing, Llc Enhanced links in curation and collaboration applications

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441644A (zh) * 2007-11-19 2009-05-27 英福达科技股份有限公司 网页批注***与方法
CN101551800A (zh) * 2008-03-31 2009-10-07 富士通株式会社 标注信息生成装置、查询装置及共享***
CN102609401A (zh) * 2011-12-26 2012-07-25 北京大学 一种网页批注方法
CN104615601A (zh) * 2013-11-04 2015-05-13 英业达科技有限公司 基于网页的记录***及其方法
CN104794174A (zh) * 2015-04-01 2015-07-22 百度在线网络技术(北京)有限公司 用于显示网页标记信息的方法与装置

Also Published As

Publication number Publication date
CN107203748A (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
CN108268582B (zh) 信息查询方法及装置
CN109783651B (zh) 提取实体相关信息的方法、装置、电子设备和存储介质
Guo et al. Mining touch interaction data on mobile devices to predict web search result relevance
US20020059333A1 (en) Display text modification for link data items
CN103399885B (zh) 兴趣点代表图片的挖掘方法、装置和服务器
US20130339840A1 (en) System and method for logical chunking and restructuring websites
CN101452463A (zh) 定向抓取页面资源的方法和装置
CN111813905B (zh) 语料生成方法、装置、计算机设备及存储介质
WO2015026750A1 (en) Presenting fixed format documents in reflowed format
CN102664925B (zh) 一种展现搜索结果的方法及装置
WO2022105119A1 (zh) 意图识别模型的训练语料生成方法及其相关设备
US9280522B2 (en) Highlighting of document elements
US11520835B2 (en) Learning system, learning method, and program
CN103942211B (zh) 一种正文页的识别方法及装置
CN109977337A (zh) 一种网页设计对比方法、装置、设备及可读存储介质
CN104090904A (zh) 一种用于提供目标搜索结果的方法与设备
CN104881428A (zh) 一种信息图网页的信息图提取、检索方法和装置
CN107203748B (zh) 一种基于内容的网页笔记存储、匹配和还原的方法和装置
CN102257490A (zh) 文档信息选择方法和计算机程序产品
WO2015074455A1 (zh) 一种计算关联网页URL模式pattern的方法和装置
CN108363711B (zh) 一种网页中的暗链的检测方法和装置
CN110191124B (zh) 基于web前端开发数据的网站鉴别方法、装置及存储设备
WO2015077501A1 (en) Processing page
CN111783786A (zh) 图片的识别方法、***、电子设备及存储介质
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant