CN103324668A - 一种在网页上标记文本的标记*** - Google Patents

一种在网页上标记文本的标记*** Download PDF

Info

Publication number
CN103324668A
CN103324668A CN2013101868407A CN201310186840A CN103324668A CN 103324668 A CN103324668 A CN 103324668A CN 2013101868407 A CN2013101868407 A CN 2013101868407A CN 201310186840 A CN201310186840 A CN 201310186840A CN 103324668 A CN103324668 A CN 103324668A
Authority
CN
China
Prior art keywords
html code
webpage
marking
code snippet
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013101868407A
Other languages
English (en)
Inventor
吴涛军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2013101868407A priority Critical patent/CN103324668A/zh
Publication of CN103324668A publication Critical patent/CN103324668A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种在网页上标记文本的标记***,用户选择文本内容标记后,***分析网页结构,在用户选择的文本内容对应的html代码中抽取出不含网页标签的最大字符串的集合,对集合中每一个字符串加上标记标签以生成带有标记效果的html代码片段集合,并分别替代原网页中的文本内容,形成新的带有标记效果的网页文档后通过浏览器显示。与现有技术相比,本发明可以使用户在包含复杂网页标签组合的网页上实施标记行为,保持网页的结构稳定,并保证标记前网页具备的功能和样式在用户标记行为实施后不发生变化。

Description

一种在网页上标记文本的标记***
技术领域
本发明属于web网页技术领域,特别涉及一种在网页上标记文本的标记***。
背景技术
现有技术中实现对网页内文本进行标记的主要方法如下:
将用户选择的文本内容加上标记标签以形成含有标记效果的html代码片段;找出用户选择的文本内容在原网页中对应的html代码片段后,将其直接替换成生成的含有标记效果的html代码片段,以形成新的带有标记效果的网页文档;通过浏览器显示生成的带有标记效果的网页文档。
由于用户选择的文本内容在html代码中并不一定连续,中间可能包含多个网页标签,这种简单的拼接方法可能会让含有标记效果的html代码片段失效,甚至可能会使原有的网页结构变形或者崩溃。
发明内容
本发明所要解决的技术问题是针对背景技术中指出的问题,提供了一种在网页上标记文本的标记***,可以有效避免含有标记效果的html代码片段的失效以及原网页结构的变形和功能的缺失。
本发明为解决上述技术问题采用以下技术方案:
一种在网页上标记文本的标记***,用户选择文本内容标记后***进行如下动作:
步骤1),对网页进行解析获得网页的DOM树结构,取得用户选择的文本内容;
步骤2),对用户选择的文本内容对应的html代码进行分析,以递归的方式抽取出不含网页标签的最大的字符串集合,并对抽取出的每一个字符串加上标记标签以生成带有标记效果的html代码片段集合;
步骤3),将生成的含有标记效果的html代码片段分别替代网页中所对应的文本内容,形成新的带有标记效果的网页文档,并通过浏览器显示。
作为本发明一种在网页上标记文本的标记***进一步的方案,步骤2)所述的生成带有标记效果的html代码片段集合的具体步骤如下:
步骤a),判断html代码是否含有网页标签,如果不含网页标签,则直接加上标记标签生成带有标记效果的html代码片段;如果含有网页标签,则进入步骤b);
步骤b),判断html代码的首尾部分是否存在残缺的网页标签;如果存在,则剔除首尾部分残缺的网页标签后重新从步骤a)开始执行;如果不存在,则进入步骤c);
步骤c),以html代码中最外层的网页标签为界限,将html代码分割形成html代码片段的集合;
步骤d),对html代码片段集合中的每一段html代码片段重复步骤a)至步骤c),直至html代码中所有网页标签被剔除,并生成带有标记效果的html代码片段集合。
本发明采用以上技术方案,与现有技术相比具有以下技术效果:
本发明可以使得用户对网页上包含复杂网页标签组合的文本内容进行准确标记,并使标记后的网页的结构和功能保持稳定,避免含有标记效果的html代码片段失效。
附图说明
图1是标记***流程图;
图2是生成带有标记效果的html代码片段集合的流程图;
图3是实施例1的示意图;
图4是实施例2的示意图;
图5是实施例3的示意图;
图6是实施例4的示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
如图1所示,本发明提出一种在网页上标记文本的标记***,具体分以下几步:
第一步,用户在网页上选择文本内容进行标记;
第二步,***对网页进行解析获得网页的DOM树结构并得到用户所选文本内容对应的html代码;
第三步,在对应的html代码中抽取出不含网页标签的最大字符串集合;
第四步,对集合中每一个字符串加上标记标签以生成带有标记效果的html代码片段集合,并分别替代原网页中的文本内容,形成新的带有标记效果的网页文档;
第五步,在浏览器中显示带有标记效果的网页文档。
如图2所示,其中生成带有标记效果的html代码片段集合的具体步骤如下:
步骤a),判断html代码是否含有网页标签,如果不含网页标签,则直接加上标记标签生成带有标记效果的html代码片段;如果含有网页标签,则进入步骤b);
步骤b),判断html代码的首尾部分是否存在残缺的网页标签;如果存在,则剔除首尾部分残缺的网页标签后重新从步骤a)开始执行;如果不存在,则进入步骤c);
步骤c),以html代码中最外层的网页标签为界限,将html代码分割成html代码片段的集合;
步骤d),对html代码片段的集合中的每一段html代码片段重复步骤a)至步骤c),直至html代码中所有网页标签被剔除,并生成带有标记效果的html代码片段集合。
以下实施例中以“<span></span>”作为标记标签,实际应用中,可使用其他标签作为标记标签。
实施例1:如图3所示,用户选择在网页上选择了“执笔,物是”进行标记。
***分析其选择内容对应的html代码是 “执笔,物是”,不含有网页标签,直接加上标记标签“<span></span>”生成带有标记效果的html代码片段“<span>执笔,物是</span>”,并替代网页中所对应的文本内容“执笔,物是”, 形成新的带有标记效果的网页文档后通过浏览器显示。 
实施例2:如图4所示, 用户选择在网页上选择了“物是人非”进行标记。
***分析其选择内容对应的html代码是“物是人非</p>”,在代码尾部含有网页标签“</p>”,剔除后剩下的“物是人非”不再含有网页标签,则加上标记标签“<span></span>”生成带有标记效果的html代码片段“<span>物是人非</span>”, 并替代网页中所对应的文本内容“物是人非”, 形成新的带有标记效果的网页文档后通过浏览器显示。
实施例3:如图5所示, 用户选择在网页上选择了“执笔hello物是”进行标记。
***分析其选择内容对应的html代码是 “执<p>笔<p><i>hello</i></p></p>物是”,首尾部不含有残缺网页标签,代码中包含网页标签。***以最外层标签“<p></p>”为界限将代码分解成html代码片段集合{执,笔<p><i>hello</i></p>,物是}。***判断“执”“物是”不包含网页标签,对其分别加上标记标签生成带有标记效果的html代码片段:“<span>执</span>”、“<span>物是</span>”。
***继续分析html代码片段“笔<p><i>hello</i></p>”,以其最外层标签“<p></p>”为界限将代码分解成html代码片段的集合{笔,<i>hello</i>},***判断“笔”不包含网页标签,对其加上标记标签生成带有标记效果的html代码片段“<span>笔</span>”。
***继续分析html代码片段“<i>hello</i>”,以其最外层标签“<i></i>”为界限将代码分解成html代码片段的集合{hello},对其加上标记标签生成带有标记效果的html代码片段“<span>hello</span>”。
最终***得到带有标记效果的html代码片段集合{<span>执</span>,<span>笔</span>,<span>hello</span>,<span>物是</span>},并分别替代网页中所对应的文本内容“执”“、笔”、“hello”、“物是”, 形成新的带有标记效果的网页文档后通过浏览器显示。
实施例4:如图6所示, 用户选择在网页上选择了“执笔hello物是”进行标记。
***分析其选择内容对应的html代码是 “执<p>笔<p><i>hello</i></p></p><div>物</div>是”,首尾部不含有残缺网页标签,代码中包含网页标签,最外层标签为并列标签“<p></p>”、“<div></div>”。***以最外层标签“<p></p>”、“<div></div>”为界限将代码分解成html代码片段集合{执,笔<p><i>hello</i></p>、物,是}。***判断“执”、“物”、“是”不包含网页标签,对其分别加上标记标签生成带有标记效果的html代码片段:“<span>执</span>”、“<span>物</span>”、“<span>是</span>”。
***继续分析html代码片段“笔<p><i>hello</i></p>”,以其最外层标签“<p></p>”为界限将代码分解成html代码片段的集合{笔,<i>hello</i>},***判断“笔”不包含网页标签,对其加上标记标签生成带有标记效果的html代码片段“<span>笔</span>”。
***继续分析html代码片段“<i>hello</i>”,以其最外层标签“<i></i>”为界限将代码分解成html代码片段集合{hello},对其加上标记标签生成带有标记效果的html代码片段“<span>hello</span>”。
最终***得到带有标记效果的html代码片段集合{<span>执</span>,<span>笔</span>,<span>hello</span>,<span>物</span>,<span>是</span>},并分别替代网页中所对应的文本内容“执”“、笔”、“hello”、“物”,“是”, 形成新的带有标记效果的网页文档后通过浏览器显示。

Claims (2)

1.一种在网页上标记文本的标记***,其特征在于,用户选择文本内容标记后***进行如下动作:
步骤 1),对网页进行解析获得网页的DOM树结构,取得用户选择的文本内容;
步骤2),对用户选择的文本内容对应的html代码进行分析,以递归的方式抽取出不含网页标签的最大的字符串集合,并对抽取出的每一个字符串加上标记标签以生成带有标记效果的html代码片段集合;
步骤3),将生成的含有标记效果的html代码片段分别替代网页中所对应的文本内容,形成新的带有标记效果的网页文档,并通过浏览器显示。
2.根据权利要求1所述的一种在网页上标记文本的标记***,其特征在于,步骤2)所述的生成带有标记效果的html代码片段集合的具体步骤如下:
步骤a),判断html代码是否含有网页标签,如果不含网页标签,则直接加上标记标签生成带有标记效果的html代码片段;如果含有网页标签,则进入步骤b);
步骤b),判断html代码的首尾部分是否存在残缺的网页标签;如果存在,则剔除首尾部分残缺的网页标签后重新从步骤a)开始执行;如果不存在,则进入步骤c);
步骤c),以html代码中最外层的网页标签为界限,将html代码分割形成html代码片段的集合;
步骤d),对html代码片段集合中的每一段html代码片段重复步骤a)至步骤c),直至html代码中所有网页标签被剔除,并生成带有标记效果的html代码片段集合。
CN2013101868407A 2013-05-20 2013-05-20 一种在网页上标记文本的标记*** Pending CN103324668A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013101868407A CN103324668A (zh) 2013-05-20 2013-05-20 一种在网页上标记文本的标记***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013101868407A CN103324668A (zh) 2013-05-20 2013-05-20 一种在网页上标记文本的标记***

Publications (1)

Publication Number Publication Date
CN103324668A true CN103324668A (zh) 2013-09-25

Family

ID=49193411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013101868407A Pending CN103324668A (zh) 2013-05-20 2013-05-20 一种在网页上标记文本的标记***

Country Status (1)

Country Link
CN (1) CN103324668A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530430A (zh) * 2013-11-06 2014-01-22 焦点科技股份有限公司 一种含格式的html富文本数据的跨标签处理方法及***
CN106372232A (zh) * 2016-09-09 2017-02-01 北京百度网讯科技有限公司 基于人工智能的信息挖掘方法和装置
CN110457616A (zh) * 2019-07-24 2019-11-15 万达信息股份有限公司 一种异构cpu体系下网页一致性展示的方法
CN111680247A (zh) * 2020-04-28 2020-09-18 平安国际智慧城市科技股份有限公司 网页字符串的本地调用方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010042082A1 (en) * 2000-04-13 2001-11-15 Toshiaki Ueguri Information processing apparatus and method
CN101183354A (zh) * 2007-12-12 2008-05-21 腾讯科技(深圳)有限公司 彩虹文本实现方法及装置
CN101490676A (zh) * 2006-05-10 2009-07-22 谷歌公司 Web笔记本工具
CN101739415A (zh) * 2008-11-25 2010-06-16 华中师范大学 一种面向浏览器的网页标注***
CN102637193A (zh) * 2012-02-23 2012-08-15 北京航空航天大学 一种基于dom与xmpp的网页即时协同浏览方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010042082A1 (en) * 2000-04-13 2001-11-15 Toshiaki Ueguri Information processing apparatus and method
CN101490676A (zh) * 2006-05-10 2009-07-22 谷歌公司 Web笔记本工具
CN101183354A (zh) * 2007-12-12 2008-05-21 腾讯科技(深圳)有限公司 彩虹文本实现方法及装置
CN101739415A (zh) * 2008-11-25 2010-06-16 华中师范大学 一种面向浏览器的网页标注***
CN102637193A (zh) * 2012-02-23 2012-08-15 北京航空航天大学 一种基于dom与xmpp的网页即时协同浏览方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530430A (zh) * 2013-11-06 2014-01-22 焦点科技股份有限公司 一种含格式的html富文本数据的跨标签处理方法及***
CN103530430B (zh) * 2013-11-06 2016-05-25 焦点科技股份有限公司 一种含格式的html富文本数据的跨标签处理方法及***
CN106372232A (zh) * 2016-09-09 2017-02-01 北京百度网讯科技有限公司 基于人工智能的信息挖掘方法和装置
CN106372232B (zh) * 2016-09-09 2020-01-10 北京百度网讯科技有限公司 基于人工智能的信息挖掘方法和装置
CN110457616A (zh) * 2019-07-24 2019-11-15 万达信息股份有限公司 一种异构cpu体系下网页一致性展示的方法
CN110457616B (zh) * 2019-07-24 2024-02-13 万达信息股份有限公司 一种异构cpu体系下网页一致性展示的方法
CN111680247A (zh) * 2020-04-28 2020-09-18 平安国际智慧城市科技股份有限公司 网页字符串的本地调用方法、装置、设备及存储介质
CN111680247B (zh) * 2020-04-28 2024-04-05 深圳赛安特技术服务有限公司 网页字符串的本地调用方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN102184189B (zh) 基于dom节点文本密度的网页核心块确定方法
CN102253979B (zh) 基于视觉的web页面萃取方法
CN104461484B (zh) 前端模板的实现方法和装置
CN101984434B (zh) 基于可扩展标记语言查询的网页数据抽取方法
CN104598577B (zh) 一种网页正文的提取方法
CN105022803B (zh) 一种提取网页正文内容的方法及***
CN102479181B (zh) 基于div位置的网页正文抽取方法和装置
CN104217036B (zh) 一种网页内容提取方法和设备
CN102591612B (zh) 一种基于标点连续性的通用网页正文提取方法及其***
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN102096787B (zh) 一种基于word2007文本切分的信息隐藏方法及其装置
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN103714176A (zh) 基于最大文本密度的网页正文抽取方法
CN103853760A (zh) 一种网页正文内容提取方法和装置
CN101872350A (zh) 网页正文抽取方法和装置
CN102314494B (zh) 一种用于处理网页内容的方法和设备
CN101609399A (zh) 基于建模的智能化网站开发***及方法
CN103324668A (zh) 一种在网页上标记文本的标记***
CN103810251A (zh) 一种文本提取方法及装置
CN103064845B (zh) 网页信息处理装置和网页信息处理方法
CN103838823A (zh) 一种基于网页模板的网站内容无障碍检测方法
CN105320734A (zh) 一种网页核心内容提取方法
CN105740355B (zh) 基于聚集文本密度的网页正文提取方法及装置
CN104657347A (zh) 一种面向新闻优化阅读类移动应用的自动摘要方法
CN106528509A (zh) 网页信息提取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130925