CN103324668A

CN103324668A - 一种在网页上标记文本的标记***

Info

Publication number: CN103324668A
Application number: CN2013101868407A
Authority: CN
Inventors: 吴涛军
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-05-20
Filing date: 2013-05-20
Publication date: 2013-09-25

Abstract

本发明公开了一种在网页上标记文本的标记***，用户选择文本内容标记后，***分析网页结构，在用户选择的文本内容对应的html代码中抽取出不含网页标签的最大字符串的集合，对集合中每一个字符串加上标记标签以生成带有标记效果的html代码片段集合，并分别替代原网页中的文本内容，形成新的带有标记效果的网页文档后通过浏览器显示。与现有技术相比，本发明可以使用户在包含复杂网页标签组合的网页上实施标记行为，保持网页的结构稳定，并保证标记前网页具备的功能和样式在用户标记行为实施后不发生变化。

Description

一种在网页上标记文本的标记***

技术领域

本发明属于web网页技术领域，特别涉及一种在网页上标记文本的标记***。

背景技术

现有技术中实现对网页内文本进行标记的主要方法如下：

将用户选择的文本内容加上标记标签以形成含有标记效果的html代码片段；找出用户选择的文本内容在原网页中对应的html代码片段后，将其直接替换成生成的含有标记效果的html代码片段，以形成新的带有标记效果的网页文档；通过浏览器显示生成的带有标记效果的网页文档。

由于用户选择的文本内容在html代码中并不一定连续，中间可能包含多个网页标签，这种简单的拼接方法可能会让含有标记效果的html代码片段失效，甚至可能会使原有的网页结构变形或者崩溃。

发明内容

本发明所要解决的技术问题是针对背景技术中指出的问题，提供了一种在网页上标记文本的标记***，可以有效避免含有标记效果的html代码片段的失效以及原网页结构的变形和功能的缺失。

本发明为解决上述技术问题采用以下技术方案：

一种在网页上标记文本的标记***，用户选择文本内容标记后***进行如下动作：

步骤1），对网页进行解析获得网页的DOM树结构，取得用户选择的文本内容；

步骤2），对用户选择的文本内容对应的html代码进行分析，以递归的方式抽取出不含网页标签的最大的字符串集合，并对抽取出的每一个字符串加上标记标签以生成带有标记效果的html代码片段集合；

步骤3），将生成的含有标记效果的html代码片段分别替代网页中所对应的文本内容，形成新的带有标记效果的网页文档，并通过浏览器显示。

作为本发明一种在网页上标记文本的标记***进一步的方案，步骤2）所述的生成带有标记效果的html代码片段集合的具体步骤如下：

步骤a），判断html代码是否含有网页标签，如果不含网页标签，则直接加上标记标签生成带有标记效果的html代码片段；如果含有网页标签，则进入步骤b）；

步骤b），判断html代码的首尾部分是否存在残缺的网页标签；如果存在，则剔除首尾部分残缺的网页标签后重新从步骤a）开始执行；如果不存在，则进入步骤c）；

步骤c)，以html代码中最外层的网页标签为界限，将html代码分割形成html代码片段的集合；

步骤d），对html代码片段集合中的每一段html代码片段重复步骤a）至步骤c），直至html代码中所有网页标签被剔除，并生成带有标记效果的html代码片段集合。

本发明采用以上技术方案，与现有技术相比具有以下技术效果：

本发明可以使得用户对网页上包含复杂网页标签组合的文本内容进行准确标记，并使标记后的网页的结构和功能保持稳定，避免含有标记效果的html代码片段失效。

附图说明

图1是标记***流程图；

图2是生成带有标记效果的html代码片段集合的流程图；

图3是实施例1的示意图；

图4是实施例2的示意图；

图5是实施例3的示意图；

图6是实施例4的示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

如图1所示，本发明提出一种在网页上标记文本的标记***，具体分以下几步：

第一步，用户在网页上选择文本内容进行标记；

第二步，***对网页进行解析获得网页的DOM树结构并得到用户所选文本内容对应的html代码；

第三步，在对应的html代码中抽取出不含网页标签的最大字符串集合；

第四步，对集合中每一个字符串加上标记标签以生成带有标记效果的html代码片段集合，并分别替代原网页中的文本内容，形成新的带有标记效果的网页文档；

第五步，在浏览器中显示带有标记效果的网页文档。

如图2所示，其中生成带有标记效果的html代码片段集合的具体步骤如下：

步骤c)，以html代码中最外层的网页标签为界限，将html代码分割成html代码片段的集合；

步骤d），对html代码片段的集合中的每一段html代码片段重复步骤a）至步骤c），直至html代码中所有网页标签被剔除，并生成带有标记效果的html代码片段集合。

以下实施例中以“”作为标记标签，实际应用中，可使用其他标签作为标记标签。

实施例1：如图3所示，用户选择在网页上选择了“执笔，物是”进行标记。

***分析其选择内容对应的html代码是 “执笔，物是”，不含有网页标签，直接加上标记标签“”生成带有标记效果的html代码片段“执笔，物是”，并替代网页中所对应的文本内容“执笔，物是”，形成新的带有标记效果的网页文档后通过浏览器显示。

实施例2：如图4所示, 用户选择在网页上选择了“物是人非”进行标记。

***分析其选择内容对应的html代码是“物是人非”，在代码尾部含有网页标签“”，剔除后剩下的“物是人非”不再含有网页标签，则加上标记标签“”生成带有标记效果的html代码片段“物是人非”，并替代网页中所对应的文本内容“物是人非”，形成新的带有标记效果的网页文档后通过浏览器显示。

实施例3：如图5所示, 用户选择在网页上选择了“执笔hello物是”进行标记。

***分析其选择内容对应的html代码是 “执笔hello物是”，首尾部不含有残缺网页标签，代码中包含网页标签。***以最外层标签“”为界限将代码分解成html代码片段集合｛执，笔hello，物是｝。***判断“执”“物是”不包含网页标签，对其分别加上标记标签生成带有标记效果的html代码片段：“执”、“物是”。

***继续分析html代码片段“笔hello”，以其最外层标签“”为界限将代码分解成html代码片段的集合{笔，hello}，***判断“笔”不包含网页标签，对其加上标记标签生成带有标记效果的html代码片段“笔”。

***继续分析html代码片段“hello”，以其最外层标签“”为界限将代码分解成html代码片段的集合{hello}，对其加上标记标签生成带有标记效果的html代码片段“hello”。

最终***得到带有标记效果的html代码片段集合{执，笔，hello，物是｝，并分别替代网页中所对应的文本内容“执”“、笔”、“hello”、“物是”，形成新的带有标记效果的网页文档后通过浏览器显示。

实施例4：如图6所示, 用户选择在网页上选择了“执笔hello物是”进行标记。

***分析其选择内容对应的html代码是 “执笔hello<div>物</div>是”，首尾部不含有残缺网页标签，代码中包含网页标签,最外层标签为并列标签“”、“<div></div>”。***以最外层标签“”、“<div></div>”为界限将代码分解成html代码片段集合｛执，笔hello、物，是｝。***判断“执”、“物”、“是”不包含网页标签，对其分别加上标记标签生成带有标记效果的html代码片段：“执”、“物”、“是”。

***继续分析html代码片段“hello”，以其最外层标签“”为界限将代码分解成html代码片段集合{hello}，对其加上标记标签生成带有标记效果的html代码片段“hello”。

最终***得到带有标记效果的html代码片段集合{执，笔，hello，物,是｝，并分别替代网页中所对应的文本内容“执”“、笔”、“hello”、“物”,“是”，形成新的带有标记效果的网页文档后通过浏览器显示。

Claims

1.一种在网页上标记文本的标记***，其特征在于，用户选择文本内容标记后***进行如下动作：

步骤 1），对网页进行解析获得网页的DOM树结构，取得用户选择的文本内容；

2.根据权利要求1所述的一种在网页上标记文本的标记***，其特征在于，步骤2）所述的生成带有标记效果的html代码片段集合的具体步骤如下：

步骤c），以html代码中最外层的网页标签为界限，将html代码分割形成html代码片段的集合；