CN109948095A - 显示网页内容的方法、装置、终端及存储介质 - Google Patents
显示网页内容的方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN109948095A CN109948095A CN201711202503.7A CN201711202503A CN109948095A CN 109948095 A CN109948095 A CN 109948095A CN 201711202503 A CN201711202503 A CN 201711202503A CN 109948095 A CN109948095 A CN 109948095A
- Authority
- CN
- China
- Prior art keywords
- webpage
- web page
- content
- node
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种显示网页内容的方法、装置及存储介质,属于网络技术领域。方法包括:获取待显示的第一网页的网页元素;根据所述网页元素的标签,从所述第一网页的网页内容中确定所述第一网页的非文本内容和文本内容;显示符合预设格式的第二网页,所述第二网页包括所述第一网页的非文本内容和文本内容。由于能够从第一网页的网页内容中确定文本内容和非文本内容,因此,在显示第二网页时,不仅能够显示第一网页的文本内容,还能够显示第一网页的非文本内容,从而避免了过滤掉非文本内容导致的排版前后内容差别较大的问题,提高了准确性。
Description
技术领域
本发明涉及网络技术领域,特别涉及一种显示网页内容的方法、装置、终端及存储介质。
背景技术
用户在阅读资讯类网页内容时,为了便于用户在下次查阅该网页内容,很多应用软件(APP)增加了收藏功能。应用软件的收藏功能不仅能够收藏本应用软件中的网页内容,还能够收藏其他应用软件中的网页内容。由于各个应用软件的网页的排版风格不同,为了实现统一风格,在用户在该应用软件中查看某个网页的网页内容时,终端对该网页内容进行重新排版,显示排版后的网页内容。
目前,由该应用的服务器对该网页内容进行排版,该过程可以为:当用户阅读已收藏的某个网页的网页内容时,终端向服务器发送该网页的网页地址;服务器根据该网页地址,拉取该网页的网页内容;提取该网页内容的文本内容,根据预设格式,对提取的文本内容进行排版,将排版后的文本内容发送至终端。终端接收并显示排版后的文本内容。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
上述方法中服务器只能提取出该网页内容中的文本内容,对文本内容进行排版。由于仅提取了文本内容,而过滤掉了非文本内容,从而导致排版后的网页内容和排版前的网页内容差别较大,也即准确性差。
发明内容
本发明提供了一种显示网页内容的方法、装置、终端及存储介质,可以解决显示准确性差的问题。技术方案如下:
一方面,本发明提供了一种显示网页内容的方法,所述方法包括:
获取待显示的第一网页的网页元素;
根据所述网页元素的标签,从所述第一网页的网页内容中确定所述第一网页的非文本内容和文本内容;
显示符合预设格式的第二网页,所述第二网页包括所述第一网页的非文本内容和文本内容。
一方面,本发明提供了一种显示收藏网页内容的方法,所述方法包括:
显示收藏的至少一个网页的收藏条目,任一网页的收藏条目中包括所述任一网页的网页地址;
根据被选中的第一网页的网页地址,获取所述第一网页的网页元素;
根据所述网页元素的标签,从所述第一网页的网页内容中确定所述第一网页的非文本内容和文本内容;
显示符合预设格式的第二网页,所述第二网页包括所述第一网页的非文本内容和文本内容。
一方面,本发明提供了一种显示网页内容的装置,所述装置包括:
获取模块,用于获取待显示的第一网页的网页元素;
确定模块,用于根据所述网页元素的标签,从所述第一网页的网页内容中确定所述第一网页的非文本内容和文本内容;
显示模块,用于显示符合预设格式的第二网页,所述第二网页包括所述第一网页的非文本内容和文本内容。
一方面,本发明提供了一种显示收藏网页内容的装置,所述装置包括:
显示模块,用于显示收藏的至少一个网页的收藏条目,任一网页的收藏条目中包括所述任一网页的网页地址;
获取模块,用于根据被选中的第一网页的网页地址,获取所述第一网页的网页元素;
确定模块,用于根据所述网页元素的标签,从所述第一网页的网页内容中确定所述第一网页的非文本内容和文本内容;
所述显示模块,还用于显示符合预设格式的第二网页,所述第二网页包括所述第一网页的非文本内容和文本内容。
一方面,本发明提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述所述的显示网页内容的方法中所执行的操作。
一方面,本发明提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述所述的显示收藏网页内容的方法中所执行的操作。
一方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现上述所述的显示网页内容的方法中所执行的操作。
一方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现上述所述的显示收藏网页内容的方法中所执行的操作。
在本发明实施例所提供的显示网页内容的方法中,获取待显示的第一网页的网页元素;根据该网页元素的标签,从第一网页的网页内容中确定第一网页的非文本内容和文本内容。由于能够从第一网页的网页内容中确定文本内容和非文本内容,因此,在显示第二网页时,不仅能够显示第一网页的文本内容,还能够显示第一网页的非文本内容,从而避免了过滤掉非文本内容导致的排版前后内容差别较大的问题,提高了准确性。
附图说明
图1A是本发明实施例提供的一种实施环境的示意图;
图1B是本发明实施例提供的一种显示分享界面的示意图;
图1C是本发明实施例提供的一种收藏网页的网页地址的示意图;
图1D是本发明实施例提供的一种显示提示信息的示意图;
图2A是本发明实施例提供的一种显示网页内容的方法流程图;
图2B是本发明实施例提供的一种显示收藏界面的示意图;
图2C是本发明实施例提供的一种显示第一网页的网页内容的示意图;
图3是本发明实施例提供的一种显示收藏网页内容的方法流程图;
图4A是本发明实施例提供的一种显示网页内容的装置结构示意图;
图4B是本发明实施例提供的一种确定模块的结构示意图;
图4C是本发明实施例提供的一种显示网页内容的装置结构示意图;
图4D是本发明实施例提供的一种显示模块的结构示意图;
图5是本发明实施例提供的一种显示收藏网页内容的装置结构示意图;
图6是本发明实施例提供的一种终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种实施环境,参见图1A,该实施环境中包括终端101和资源服务器102;终端101可以为手机终端、PAD(Portable Android Device,平板电脑)终端或者电脑终端等任一安装具有收藏功能的应用的设备。该终端101可以通过网络来访问资源服务器102,从而获取资源服务器102所提供的服务,该服务可以为网页内容服务。例如,新闻服务、公众号服务等等。
该终端101对资源服务器102的访问可以通过终端101上所安装的任一应用实现,而在对资源服务器102所提供的网页内容进行访问时,该终端101可以通过具有收藏功能的任一应用对所访问的内容进行收藏,以备在下次需要查阅时可以通过该收藏内容的收藏夹进行快速调阅和使用。收藏是指将待收藏的网页内容的地址和/或内容数据存储至应用客户端对应的服务器上。其中,该具有收藏功能的任一应用与上述进行网页内容访问的应用可以是同一个应用,例如,当在应用客户端上显示网页内容时,可以通过对该应用客户端上的收藏功能的触发,来实现将网页内容的网页地址和/或内容数据存储至应用客户端对应的服务器上,以完成对该网页内容的收藏。当然,该具有收藏功能的任一应用与上述进行网页内容访问的应用可以是不同应用,例如,当通过终端101在其第一应用客户端上阅览资讯、网页、公众号文章等内容时,可以通过对第一应用客户端上的快捷功能例如收藏功能的触发来调用或触发另一个具有收藏功能的应用客户端(第二应用客户端)的接口,从而在两个应用客户端(第一应用客户端与第二应用客户端)之间建立信息或数据传输通讯/通信连接,或向另一个具有收藏功能的应用客户端(第二应用客户端)发送一个预设触发信号,或通过该快捷功能的触发生成一个预设信号以被另一个具有收藏功能的应用客户端(第二应用客户端)所捕捉或接收到。对应的,另一个具有收藏功能的应用客户端(第二应用客户端)可以通过该接口与第一应用客户端建立通讯/通信连接;或者第二应用客户端捕捉、搜寻或接收第一应用客户端通过其快捷功能触发或生成的预设信号,对第一应用客户端上展示的资讯、网页、公众号等内容进行收藏处理。当然,也可以是,第一应用客户端将网页内容的网页地址和/或内容数据传递给该另一应用客户端(第二应用客户端),从而存储至第二应用客户端对应的服务器上,以完成对该网页内容的收藏。本发明实施例对上述具体如何实现收藏功能以及应用的具体表现进行限定。并且,终端完成对该网页内容的收藏时,显示提示消息,该提示消息用于指示已收藏成功。
当终端101的第二应用客户端收藏第一应用客户端中显示的网页内容时,终端101前台运行第一应用客户端,且第一应用客户端显示某个网页的网页内容,该网页中显示分享按钮。当用户想要收藏该网页内容时,用户可以点击该分享按钮。终端101检测到该分享按钮被触发时,显示至少一个分享接口;至少一个分享接口中包括调用第二应用客户端的收藏接口,该收藏接口可以为复制链接或者分享链接等。当用户想收藏该网页时,用户可以点击该收藏接口。终端101检测到该收藏接口被触发时,在前台运行第二应用客户端,并将该网页的网页地址和/或内容数据存储至第二应用客户端对应的服务器上。
例如,参见图1B,展示的是用户通过终端101(本实施例中为手机终端)阅览一篇关于“三分钟读懂:从产品经理的全世界路过”的网页内容时,当用户对该内容感兴趣想进行收藏时,可通过触发快捷功能以触发分享指令给终端101。终端101检测到用户触发的分享指令时,显示至少一个分享接口,至少一个分享方式包括收藏接口,该收藏接口用于收藏该网页。例如,至少一个分享接口包括:生成图片分享、通过社交应用分享给好友、复制链接和分享到信息展示平台中。其中,复制链接为收藏接口。当用户想要收藏该网页内容时,用户点击复制链接。终端101检测到收藏接口被触发时,获取该网页的网页地址和/或内容数据,并该网页的网页地址和/或内容数据存储至应用客户端对应的服务器上,以完成对该网页内容的收藏,参见图1C。并且,终端101完成对该网页内容的收藏时,终端101显示提示消息,该提示信息可以为“收藏成功”,参见图1D。
在终端101将网页内容的网页地址和/或内容数据存储至应用客户端对应的服务器上时,终端101生成该网页的收藏条目,该收藏条目中至少包括该网页的网页地址,该收藏条目中还可以包括该网页的摘要信息、网页标题和/或该网页的来源应用的应用标识等信息。其中,应用标识可以为应用名称等。
需要说明的是,通过任一应用收藏的网页内容可以由应用客户端中处理以显示,还可以由应用客户端通过与其对应服务器之间进行交互,由服务器在处理后返回给应用客户端进行显示。另外,上述收藏的网页内容等信息可以通过服务器基于用户进行保存,从而使得同一个用户可以通过任一个终端101登录应用客户端后,通过使用该收藏功能来浏览在任一终端101上收藏的信息。
本发明实施例提供了一种显示网页内容的方法,该方法的执行主体可以为终端。参见图2A,该方法包括:
201、终端获取待显示的第一网页的网页元素。
该第一网页为终端已收藏的网页,本发明实施例仅以对已收藏的网页内容进行查看为例进行说明,而对该已收藏网页的来源应用不做限定。终端可以预先已经存储有该已收藏网页的网页地址或是网页内容,如果以存储有网页地址,则可以根据网页地址进一步获取第一网页的网页元素,以避免对终端存储空间的过度占用,而如果存储的是网页内容,则可以根据预先存储的网页内容来获取第一网页的网页元素。
其中,在存储有网页地址的实施方式中,终端通过以下步骤(1)至(3)获取待显示的第一网页的网页元素,第一网页的网页元素可以为网页HTML(HyperText MarkupLanguage,超级文本标记语言)元素。
(1)终端响应于查看指令,根据该查看指令,显示收藏的至少一个网页的网页地址。
终端当前显示的网页内容的主界面中包括查看按钮;当用户想要查看某个网页的网页内容时,用户可以通过触发该查看按钮以向终端触发查看指令。终端检测到该查看按钮被触发时,响应于该查看指令,根据该查看指令,显示收藏的至少一个网页的网页地址。
终端显示收藏的至少一个网页的网页地址时,终端可以显示至少一个网页的收藏条目,每个网页的收藏条目中至少包括该网页的网页地址,还可以包括该网页的摘要信息、网页标题和/或该网页的来源应用的应用标识等信息。用户可以根据显示的至少一个网页的收藏条目,在至少一个网页的网页地址中选中待显示的网页的网页地址,并将选中的网页地址提交给终端,执行步骤(2)。
例如,参见图2B,终端显示已收藏的两个网页的网页地址,分别为“三分钟读懂:从产品经理的全世界路过”和“HTML_百度百科”。
(2)终端从多个网页的网页地址中,获取被选中的第一网页的网页地址。
例如,用户从终端已收藏的两个网页的网页地址中选择“三分钟读懂:从产品经理的全世界路过”,终端获取“三分钟读懂:从产品经理的全世界路过”的网页地址。
(3)终端从第一网页的网页地址中,获取第一网页的网页元素。
终端通过WebView(网络视图)加载第一网页的网页地址,以访问该第一网页的来源服务器,从第一网页的网页地址中获取第一网页的网页元素。第一网页的网页元素可以为第一网页的源代码。
在本发明实施例中,终端获取到第一网页的网页元素之后,终端可以直接通过以下步骤202-205,根据该网页元素的标签,从第一网页的网页内容中确定第一网页的非文本内容和文本内容,然后对非文本内容和文本内容进行排版。终端也可以将第一网页的网页元素中的非内容元素删除,然后才从第一网页的网页内容中确定第一网页的非文本内容和文本内容。
终端将第一网页的网页元素中的非内容元素删除的步骤可以为:终端在该网页元素中确定非内容网页元素,在该网页元素中将非内容网页元素删除,得到内容网页元素。然后基于该内容网页元素,执行步骤202。
其中,非内容网页元素可以为第三类标签对应的网页元素,第三类标签包括样式标签、风格标签和/或脚本标签。相应的,终端在该网页元素中确定非内容网页元素的步骤可以为:终端根据网页元素的标签,在网页元素中确定第三类标签对应的网页元素,将第三类标签对应的网页元素作为非内容网页元素。
例如,第三类标签包括样式标签、风格标签和脚本标签。样式标签可以为CSS(Casading Style Sheets,层叠样式表),风格标签可以为style标签,脚本标签可以为script标签。终端根据网页元素的标签,在网页元素中确定CSS标签对应的网页元素,style标签对应的网页元素,script标签对应的网页元素,将CSS标签对应的网页元素、style标签对应的网页元素和script标签对应的网页元素组成非内容网页元素。
在本发明实施例中,终端将第一网页的网页元素中的非内容网页元素删除,从而后续在第一网页的网页内容中确定非文本内容和文本内容时,不受这些非内容网页元素(例如样式、风格和/或者脚本)的影响,提高了排版的准确性。
202、终端根据第一网页的网页元素,构建第一网页的拓扑结构,拓扑结构的每个元素节点对应于一个网页元素。
终端确定第一网页的每个网页元素之间的层次关系,根据每个网页之间的层次关系,构建第一网页的拓扑结构。其中,拓扑结构可以为DOM(Document Object Model,文档对象化模型)tree(树)。DOM tree是指通过DOM将第一网页的网页元素进行解析,并生成网页元素的树形结构,一个树形结构的一个元素节点对应一个网页元素,且该元素节点的节点标签中存储该网页元素的网页内容。
在一个可能的实现方式中,终端在构建第一网页的拓扑结构之前,终端也可以不将第一网页的网页元素中的非内容元素删除,而在根据第一网页的网页元素,构建第一网页的拓扑结构时,忽略第一网页的非内容元素,而仅根据第一网页的内容元素构建拓扑结构。
在本发明实施例中,终端构建第一网页的拓扑结构,从而基于该拓扑结构进行后续处理,从而提高了后续的排版效率。
203、终端在该拓扑结构中确定第一元素节点,第一元素节点为非文本内容的元素节点。
元素节点对应的网页元素中包括标签,并且文本内容的标签和非文本内容的标签不同。终端可以通过网页元素的标签,在该拓扑结构中确定第一元素节点。相应的,本步骤可以为:终端在该拓扑结构中确定第一类标签对应的元素节点,和/或,在该拓扑结构中确定第二类标签对应的元素节点,第一类标签包括引用标签、表格标签和/或代码块标签,第二类标签包括自定义标签;将第一类标签对应的元素节点和/或第二类标签对应的元素节点作为第一元素节点。
终端遍历该拓扑结构中的每个元素节点对应的网页元素,在每个元素节点对应的网页元素中确定标签为第一类标签的网页元素,将确定出的网页元素对应的元素节点确定为第一类标签对应的元素节点。同样,终端遍历该拓扑结构中的每个元素节点对应的网页元素,在每个元素节点对应的网页元素中确定标签为第二类标签的网页元素,将确定出的网页元素对应的元素节点确定为第二类标签对应的元素节点。
例如,第一类标签包括引用标签、表格标签和代码块标签。引用标签为<blockquote>、表格标签为<table>、代码块标签为<code>和<pre>等。终端在该拓扑结构中确定标签为<blockquote>、<table>、<code>和<pre>的元素节点,将确定出的元素节点作为第一元素节点。第二类标签包括自定义标签,例如,音频标签、视频标签、图片标签等。
由于不同的应用程序的编码方式不同,因此不同应用程序可以对应不同的第一类标签和第二类标签,在本步骤之前,终端需要确定第一类标签和/或第二类标签,该过程可以为:终端获取第一网页的来源应用的应用标识;根据该应用标识,确定与该应用标识对应的第一类标签和/或第二类标签。
终端在收藏第一网页时,终端存储第一网页的收藏条目,该收藏条目中包括第一网页的来源应用的应用标识。因此,终端直接从第一网页的收藏条目中获取第一网页的来源应用的应用标识。
不同的应用程序对应不同的第一类标签。在本步骤之前,终端获取多个来源应用的应用标识和每个应用的第一类标签,并存储每个来源应用的应用标识和第一类标签的对应关系。相应的,终端根据该应用标识,确定与该应用标识对应的第一类标签的步骤可以为:终端根据该应用标识,从应用标识和第一类标签的对应关系中获取与该应用标识对应的第一类标签。
同样,不同的应用程序对应不同的第二类标签。在本步骤之前,终端获取多个来源应用的应用标识和每个其他应用的第二类标签,并存储每个来源应用的应用标识和第二类标签的对应关系。相应的,终端根据该应用标识,确定与该应用标识对应的第二类标签的步骤可以为:终端根据该应用标识,从应用标识和第二类标签的对应关系中获取与该应用标识对应的第二类标签。
在本发明实施例中,终端在该拓扑结构中确定出第一元素节点之后,存储第一网页的网页地址和第一元素节点的对应关系,以便于后续终端再次显示第一网页的网页内容时,直接根据第一网页的网页地址,从第一网页的网页地址和第一元素节点的对应关系中获取第一网页的第一元素节点,不需要再次进行上述识别过程,从而提高了识别效率,进而提高了后续排版效率。
204、终端在该拓扑结构中确定第二元素节点,第二元素节点为文本内容的元素节点。
元素节点对应的网页元素中包括标签,并且文本内容的标签和非文本内容的标签不同。终端可以通过网页元素的标签,在该拓扑结构中确定第二元素节点。相应的,本步骤可以为:终端在该拓扑结构中确定第四类标签对应的元素节点,将第四类标签对应的元素节点作为第二元素节点。第四类标签为文本标签。
例如,第四类标签包括文本标签,文本标签为<class>等。终端在该拓扑结构中确定标签为<class>的元素节点,将确定出的元素节点作为第二元素节点。
由于不同的应用程序的编码方式不同,因此不同应用程序可以对应不同的第四类标签,终端也可以按照上述获取第一类标签和/或第二类标签的方式,获取第一网页的来源应用的应用标识对应的第四类标签。
由于该拓扑结构中包括第一元素节点和第二元素节点。在终端已经确定出第一元素节点的情况下,终端可以将该拓扑结构中除第一元素节点以外的其他元素节点作为第二元素节点。
同样,终端在该拓扑结构中确定出第二元素节点之后,存储第一网页的网页地址和第二元素节点的对应关系,以便于后续终端再次显示第一网页的网页内容时,直接根据第一网页的网页地址,从第一网页的网页地址和第二元素节点的对应关系中获取第一网页的第二元素节点,不需要再次进行上述识别过程,从而提高了识别效率,进而提高了后续排版效率。
需要说明的是,步骤203和204没有严格的时间先后顺序,可以先执行步骤203,再执行步骤204;也可以先执行步骤204,再执行步骤203;还可以通过两个进程同时执行步骤203和204,本发明实施例对此不做限定。
205、终端从第一元素节点的节点标签中获取非文本内容,从第二元素节点的节点标签中获取文本内容。
元素节点的节点标签中包括网页内容,终端从第一元素节点的节点标签中获取非文本内容,从第二元素节点的节点标签中获取文本内容,执行步骤206对非文本内容和文本内容进行排版。
206、终端显示符合预设格式的第二网页,第二网页包括第一网页的非文本内容和文本内容。
终端可以直接对非文本内容和文本内容进行排版,也即以下第一种实现方式;终端也可以从非文本内容和文本内容中识别出正文内容,仅对正文内容进行排版,也即以下第二种实现方式。
对于第一种实现方式,本步骤可以为:终端将非文本内容和文本内容组成第二网页的网页内容,显示符合第一预设格式的第二网页的网页内容。
第一预设格式包括第一非文本内容显示格式和第一文本内容显示格式,第一文本内容显示格式包括第一段落格式和/或第一字体格式。第一非文本内容显示格式包括第一引用显示格式、第一表格显示格式和/或第一代码块显示格式。
在本发明实施例中,终端识别出非文本内容和文本内容之后,直接对文本内容和非文本内容进行排版,提高了排版的效率。并且,由于没有过滤掉非文本内容,从而提高了第二网页的网页内容的可读性。另外,终端在对第二网页的网页内容进行排版时,不会对原文进行编辑,不改变原文意思,充分尊重原文作者。
例如,图2C中的图A是排版前的第一网页的网页内容,第一网页的网页内容的字体格式为宋体,标题的字体大小和推荐信息的字体大小均为14号,正文内容的字体大小为12号。终端对第一网页的网页内容的字体格式和大小进行调整,将第一网页的网页内容的字体格式修改为了楷体,且将推荐信息的字体大小设置为8号,得到第二网页的网页内容,参见图2C中的图B。
对于第二种实现方式,本步骤可以通过以下步骤(1)至(3)实现,包括:
(1)终端将该非文本内容和文本内容组成第二网页的网页内容。
(2)终端从第二网页的网页内容中识别出正文内容。
终端可以通过第一预设正则表达式识别出第二网页的网页内容中的正文内容,第一预设正则表达式用于识别网页内容中的正文内容;也即以下第一种方式;终端也可以通过第二预设正则表达式识别出第二网页的网页内容中的正文内容,第二预设正则表达式用于识别网页内容中的非正文内容,也即以下第二种方式;终端还可以根据正文内容所在的区域,识别出第二网页的网页内容中的正文内容,也即以下第三种方式。终端还可以根据元素节点的标签,识别出第二网页的网页内容中的正文内容,也即以下第四种方式。
第一种方式,步骤(2)可以为:终端通过第一预设正则表达式,从第二网页的网页内容中识别出正文内容。
终端通过第一预设正则表达式,从第二网页的元素节点中识别出第二指定元素节点;从第二网页的网页内容中确定第二指定元素节点对应的第二节点内容,将第二节点内容作为正文内容。
第一预设正则表达式中包括至少一个第一标签,其中,第一标签为正文内容对应的标签。相应的,终端通过第一预设正则表达式,从第二网页的每个元素节点中识别出第二指定元素节点的步骤可以为:终端通过第一预设正则表达式,遍历第二网页的每个元素节点的标签,确定标签与第一预设正则表达式匹配的第二指定元素节点。
例如,第一标签为标签A、标签B和标签C;则第一预设正则表达式可以为标签A or标签B or标签C。
第二种方式,步骤(2)可以为:终端通过第二预设正则表达式,从第二网页的网页内容中识别出非正文内容,将第二网页的网页内容中除非正文内容之外的内容确定为正文内容。其中,第二预设正则表达式用于识别网页内容中的非正文内容。非正文内容包括推荐链接(例如广告)、等。
第二预设正则表达式包括至少一个第二标签;终端通过第二预设正则表达式,从第二网页的元素节点中识别出第三指定元素节点;从第二网页的网页内容中确定第三指定元素节点对应的第三节点内容,将第三节点内容作为非正文内容。其中,第二标签为非正文内容对应的标签。相应的,终端通过第二预设正则表达式,从第二网页的元素节点中识别出第三指定元素节点的步骤可以为:终端通过第二预设正则表达式,遍历第二网页的每个元素节点的标签,确定标签与第二预设正则表达式匹配的第三指定元素节点。
在一个可能的实现方式中,第二预设正则表达式还可以包括至少一个关键字,每个关键字为非正文内容对应的关键字。例如,关键字可以为“猜您喜欢”、“购买”等。相应的,终端通过第二预设正则表达式,从第二网页的网页内容中识别出非正文内容的步骤可以为:终端将第二网页的网页内容划分为多个内容块,确定每个内容块与第二预设正则表达式之间的匹配度;根据每个内容块与第二预设正则表达式之间的匹配度,从多个内容块中选择匹配度超过预设阈值的内容块,将匹配度超过预设阈值的内容块确定为非正文内容。其中,终端可以将网页内容中的一个段落作为一个内容块。
预设阈值可以根据需要进行设置并更改,在本发明实施例中对预设阈值不作具体限定。例如,预设阈值可以为80%或者85%等。
第三种方式,由于正文内容一般位于网页的正中间区域,终端可以根据预设的正文所在区域,从第二网页的网页内容中识别出正文内容。相应的,步骤(2)可以为:终端在第二网页中确定指定区域,将指定区域内的网页内容作为正文内容。
由于不同应用的网页排版不同,相应的,终端在第二网页中确定指定区域的步骤可以为:终端获取第一网页的来源应用的应用标识;根据该应用标识确定与该应用标识对应的指定区域,在第二网页中确定该指定区域。
第四种方式,步骤(2)可以为:终端确定第二网页的每个元素节点的权重,根据每个元素节点的权重,确定第一指定元素节点,从第二网页的网页内容中确定第一指定元素节点对应的第一节点内容,将第一节点内容作为正文内容。
在本发明实施例中,终端可以结合元素节点的标签和节点内容确定元素节点的权重。相应的,终端确定第二网页的每个元素节点的权重的步骤可以通过以下步骤(2-1)至(2-4)实现,包括:
(2-1)终端确定每个元素节点的标签类型和每个元素节点对应的节点内容包括的字数。
(2-2)终端根据每个元素节点的标签类型,确定每个元素节点的第一权重。
终端中存储每个标签类型和权重的对应关系;相应的,本步骤可以为:终端根据每个元素节点的标签类型,从标签类型和权重的对应关系中获取每个元素节点的第一权重。
(2-3)终端根据每个元素节点对应的节点内容包括的字数,确定每个元素节点的第二权重。
终端中存储字数和权重的对应关系;相应的,本步骤可以为:终端根据每个元素节点对应的节点内容包括的字数,从字数和权重的对应关系中获取每个元素节点的第二权重。
在本发明实施例中,终端存储字数和权重的对应关系,终端根据每个元素对应的节点内容包括的字数,从字数和权重的对应关系中获取每个元素节点的第二权重,从而提高了确定出的每个元素节点的第二权重的准确性。
终端中还可以存储字数范围和权重的对应关系;相应的,本步骤可以为:终端根据每个元素节点对应的节点内容包括的字数和已存储的字数范围,确定每个元素节点对应的节点内容包括的字数所在的字数范围,根据每个元素节点对应的字数范围,从字数范围和权重的对应关系中获取每个元素节点的第二权重。
在本发明实施例中,终端中存储字数范围和权重的对应关系,终端根据每个元素节点对应的节点内容包括的字数以及该字数范围和权重的对应关系,确定每个元素节点的第二权重。从而终端中不需要存储每个字数和权重的对应关系,节省了存储空间。
(2-4)终端根据每个元素节点的第一权重和第二权重,确定每个元素节点的权重。
对于每个元素节点,终端确定第一权重的第一系数和第二权重的第二系数,确定该元素节点的第一权重和第一系数的乘积得到第一数值,确定该元素节点的第二权重和第二系数的乘积得到第二数值,将第一数值和第二数值之和作为该元素节点的权重。
(3)终端显示符合第二预设格式的第二网页的正文内容。
第二预设格式和第一预设格式可以相同,也可以不相同。并且,第二预设格式包括第二非文本内容显示格式和第二文本内容显示格式,第二文本内容显示格式包括第二段落格式和/或第二字体格式。第二非文本内容显示格式包括第二引用显示格式、第二表格显示格式和/或第二代码块显示格式。
例如,参见图2C中的图C,终端将图2C中的图B中的非正文内容过滤掉了,只显示第二网页内容的正文内容。
在本发明实施例中,终端从第二网页的网页内容中识别出正文内容,从而过滤掉广告内容和/或推荐内容等非正文内容,从而避免了非中文内容对用户的打扰,提高了用户粘度。并且,通过终端对网页内容进行排版,从而减轻了服务器的并发能力。
终端显示第二网页之后,终端存储第一网页的网页地址和排版后的第二网页的网页内容,以便于后续终端再次显示第二网页时,直接根据第一网页的网页地址,从第一网页的网页地址和第二网页的网页内容的对应关系中获取第二网页的网页内容,显示第二网页的网页内容,不需要再次进行上述排版过程,提高了排版效率。
在本发明实施例所提供的显示网页内容的方法中,终端获取待显示的第一网页的网页元素;根据该网页元素的标签,从第一网页的网页内容中确定第一网页的非文本内容和文本内容。由于能够从第一网页的网页内容中确定文本内容和非文本内容,因此,在显示第二网页时,不仅能够显示第一网页的文本内容,还能够显示第一网页的非文本内容,从而避免了过滤掉非文本内容导致的排版前后内容差别较大的问题,提高了准确性。
本发明实施例提供了一种显示收藏网页内容的方法,该方法的执行主体为终端,参见图3,该方法包括:
301、终端显示收藏的至少一个网页的收藏条目,任一网页的收藏条目中包括任一网页的网页地址。
终端当前显示的网页内容的主界面中包括查看按钮;当用户想要查看某个网页的网页内容时,用户可以通过触发该查看按钮以向终端触发查看指令。终端检测到该查看按钮被触发时,响应于该查看指令,根据该查看指令,显示至少一个网页的收藏条目,每个网页的收藏条目中至少包括该网页的网页地址,还可以包括该网页的摘要信息、网页标题和/或该网页的来源应用的应用标识等信息。用户可以根据显示的至少一个网页的收藏条目,在至少一个网页的网页地址中选中待显示的网页的网页地址,并将选中的网页地址提交给终端。
302、终端根据被选中的第一网页的网页地址,获取第一网页的网页元素。
本步骤和步骤201中的获取第一网页的网页元素的过程相同,在此不再赘述。
303、终端根据网页元素的标签,从第一网页的网页内容中确定第一网页的非文本内容和文本内容。
本步骤可以通过以上步骤202-205实现,在此不再赘述。
304、终端显示符合预设格式的第二网页,第二网页包括第一网页的非文本内容和文本内容。
本步骤和步骤206相同,在此不再赘述。
在本发明实施例所提供的显示收藏网页内容的方法中,终端显示收藏的至少一个网页的收藏条目,任一网页的收藏条目中包括任一网页的网页地址。当用户想要阅读某个网页的网页内容时,用户可以点击某个网页的网页地址。终端根据被选中的第一网页的网页地址,获取第一网页的网页元素;根据该网页元素的标签,从第一网页的网页内容中确定第一网页的非文本内容和文本内容。由于能够从第一网页的网页内容中确定文本内容和非文本内容,因此,在显示第二网页时,不仅能够显示第一网页的文本内容,还能够显示第一网页的非文本内容,从而避免了过滤掉非文本内容导致的排版前后内容差别较大的问题,提高了准确性。
本发明实施例提供了一种显示网页内容的装置,该装置应用在终端中,用于执行上述显示网页内容的方法中的终端执行的步骤。参见图4A,该装置包括:
获取模块401,用于获取待显示的第一网页的网页元素;
确定模块402,用于根据该网页元素的标签,从第一网页的网页内容中确定第一网页的非文本内容和文本内容;
显示模块403,用于对该非文本内容和该文本内容进行排版,显示第二网页。
在一个可能的实现方式中,参见图4B,确定模块402,包括:
构建单元4021,用于根据该网页元素,构建第一网页的拓扑结构,该拓扑结构的每个元素节点对应于一个网页元素;
确定单元4022,用于在该拓扑结构中确定第一元素节点,第一元素节点为非文本内容的元素节点;
确定单元4022,还用于在该拓扑结构中确定第二元素节点,第二元素节点为文本内容的元素节点;
获取单元4023,用于从第一元素节点的节点标签中获取该非文本内容,从第二元素节点的节点标签中获取该文本内容。
在一个可能的实现方式中,确定单元4022,还用于在该拓扑结构中确定第一类标签对应的元素节点,和/或,在该拓扑结构中确定第二类标签对应的元素节点,第一类标签包括引用标签、表格标签和/或代码块标签,第二类标签包括自定义标签;将第一类标签对应的元素节点和/或第二类标签对应的元素节点作为第一元素节点。
在一个可能的实现方式中,确定单元4022,还用于获取第一网页的来源应用的应用标识;根据该应用标识,确定与该应用标识对应的第一类标签和/或第二类标签。
在一个可能的实现方式中,参见图4C,该装置还包括:
删除模块404,用于在该网页元素中确定非内容网页元素,在该网页元素中将非内容网页元素删除。
在一个可能的实现方式中,参见图4D,显示模块403,包括:
组成单元4031,用于将该非文本内容和该文本内容组成该第二网页的网页内容;
识别单元4032,用于从该第二网页的网页内容中识别出正文内容;
显示单元4033,用于显示符合预设格式的第二网页,第二网页包括第一网页的非文本内容和文本内容。
在一个可能的实现方式中,识别单元4032,还用于通过预设正则表达式,从第二网页的网页内容中识别出该正文内容,该预设正则表达式用于识别网页内容中的正文内容;和/或,
识别单元4032,还用于确定第二网页的每个元素节点的权重,根据每个元素节点的权重,确定第一指定元素节点,从第二网页的网页内容中确定第一指定元素节点对应的第一节点内容,将第一节点内容作为正文内容。
在一个可能的实现方式中,识别单元4032,还用于确定每个元素节点的标签类型和每个元素节点对应的节点内容包括的字数;根据每个元素节点的标签类型,确定每个元素节点的第一权重;根据每个元素节点对应的节点内容包括的字数,确定每个元素节点的第二权重;根据每个元素节点的第一权重和第二权重,确定每个元素节点的权重。
在一个可能的实现方式中,识别单元4032,还用于通过预设正则表达式,从第二网页的元素节点中识别出第二指定元素节点;从第二网页的网页内容中确定第二指定元素节点对应的第二节点内容,将第二节点内容作为正文内容。
在一个可能的实现方式中,获取模块401,还用于响应于查看指令,根据该查看指令,显示收藏的至少一个网页的网页地址;从至少一个网页的网页地址中,获取被选中的第一网页的网页地址;从第一网页的网页地址中,获取第一网页的网页元素。
在本发明实施例所提供的显示网页内容的方法中,获取待显示的第一网页的网页元素;根据该网页元素的标签,从第一网页的网页内容中确定第一网页的非文本内容和文本内容。由于能够从第一网页的网页内容中确定文本内容和非文本内容,因此,在显示第二网页时,不仅能够显示第一网页的文本内容,还能够显示第一网页的非文本内容,从而避免了过滤掉非文本内容导致的排版前后内容差别较大的问题,提高了准确性。
本发明实施例提供了一种显示收藏网页内容的装置,参见图5,该装置包括:
显示模块501,用于显示收藏的至少一个网页的收藏条目,任一网页的收藏条目中包括任一网页的网页地址;
获取模块502,用于根据被选中的第一网页的网页地址,获取第一网页的网页元素;
确定模块503,用于根据网页元素的标签,从第一网页的网页内容中确定第一网页的非文本内容和文本内容;
显示模块501,还用于显示符合预设格式的第二网页,第二网页包括第一网页的非文本内容和文本内容。
在本发明实施例所提供的显示收藏网页内容的方法中,终端显示收藏的至少一个网页的收藏条目,任一网页的收藏条目中包括任一网页的网页地址。当用户想要阅读某个网页的网页内容时,用户可以点击某个网页的网页地址。终端根据被选中的第一网页的网页地址,获取第一网页的网页元素;根据该网页元素的标签,从第一网页的网页内容中确定第一网页的非文本内容和文本内容。由于能够从第一网页的网页内容中确定文本内容和非文本内容,因此,在显示第二网页时,不仅能够显示第一网页的文本内容,还能够显示第一网页的非文本内容,从而避免了过滤掉非文本内容导致的排版前后内容差别较大的问题,提高了准确性。
需要说明的是:上述实施例提供的显示网页内容的装置在显示网页内容时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的显示网页内容的装置与显示网页内容的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6示出了本发明一个示例性实施例提供的终端600的结构框图。该终端600可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端600包括有:处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的显示网页内容的方法。
在一些实施例中,终端600还可选包括有:***设备接口603和至少一个***设备。处理器601、存储器602和***设备接口603之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口603相连。具体地,***设备包括:射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。
***设备接口603可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和***设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和***设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置终端600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在终端600的不同表面或呈折叠设计;在再一些实施例中,显示屏605可以是柔性显示屏,设置在终端600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
定位组件608用于定位终端600的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。
电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。
加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器612可以检测终端600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时,可以检测用户对终端600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时,由处理器601根据用户对触摸显示屏605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器614用于采集用户的指纹,由处理器601根据指纹传感器614采集到的指纹识别用户的身份,或者,由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时,指纹传感器614可以与物理按键或厂商Logo集成在一起。
光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制触摸显示屏605的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏605的显示亮度;当环境光强度较低时,调低触摸显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
接近传感器616,也称距离传感器,通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时,由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时,由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图6中示出的结构并不构成对终端600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质应用于终端,该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该指令、该程序、该代码集或该指令集由处理器加载并执行以实现上述实施例的显示网页内容的方法中终端所执行的操作。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质应用于终端,该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该指令、该程序、该代码集或该指令集由处理器加载并执行以实现上述实施例的显示收藏网页内容的方法中终端所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (15)
1.一种显示网页内容的方法,其特征在于,所述方法包括:
获取待显示的第一网页的网页元素;
根据所述网页元素的标签,从所述第一网页的网页内容中确定所述第一网页的非文本内容和文本内容;
显示符合预设格式的第二网页,所述第二网页包括所述第一网页的非文本内容和文本内容。
2.根据权利要求1所述的方法,其特征在于,所述根据所述网页元素的标签,从所述第一网页的网页内容中确定所述第一网页的非文本内容和文本内容,包括:
根据所述网页元素,构建所述第一网页的拓扑结构,所述拓扑结构的每个元素节点对应于一个网页元素;
在所述拓扑结构中确定第一元素节点,所述第一元素节点为非文本内容的元素节点;
在所述拓扑结构中确定第二元素节点,所述第二元素节点为文本内容的元素节点;
从所述第一元素节点的节点标签中获取所述非文本内容,从所述第二元素节点的节点标签中获取所述文本内容。
3.根据权利要求2所述的方法,其特征在于,所述在所述拓扑结构中确定第一元素节点,包括:
在所述拓扑结构中确定第一类标签对应的元素节点,和/或,在所述拓扑结构中确定第二类标签对应的元素节点,所述第一类标签包括引用标签、表格标签和/或代码块标签,所述第二类标签包括自定义标签;
将所述第一类标签对应的元素节点和/或所述第二类标签对应的元素节点作为所述第一元素节点。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述第一网页的来源应用的应用标识;
根据所述应用标识,确定与所述应用标识对应的第一类标签和/或第二类标签。
5.根据权利要求1所述的方法,其特征在于,所述根据所述网页元素的标签,从所述第一网页的网页内容中确定所述第一网页的非文本内容和文本内容之前,所述方法还包括:
在所述网页元素中确定非内容网页元素,在所述网页元素中将所述非内容网页元素删除。
6.根据权利要求1所述的方法,其特征在于,所述显示符合预设格式的第二网页,所述第二网页包括所述第一网页的非文本内容和文本内容,包括:
将所述非文本内容和所述文本内容组成所述第二网页的网页内容;
从所述第二网页的网页内容中识别出正文内容;
显示符合预设格式的所述第二网页的正文内容。
7.根据权利要求6所述的方法,其特征在于,所述从所述第二网页的网页内容中识别出正文内容,包括:
通过预设正则表达式,从所述第二网页的网页内容中识别出所述正文内容,所述预设正则表达式用于识别网页内容中的正文内容;和/或,
确定所述第二网页的每个元素节点的权重,根据所述每个元素节点的权重,确定第一指定元素节点,从所述第二网页的网页内容中确定所述第一指定元素节点对应的第一节点内容,将所述第一节点内容作为所述正文内容。
8.根据权利要求7所述的方法,其特征在于,所述确定所述第二网页的网页内容的每个元素节点的权重,包括:
确定所述每个元素节点的标签类型和每个元素节点对应的节点内容包括的字数;
根据所述每个元素节点的标签类型,确定所述每个元素节点的第一权重;
根据所述每个元素节点对应的节点内容包括的字数,确定所述每个元素节点的第二权重;
根据所述每个元素节点的第一权重和第二权重,确定所述每个元素节点的权重。
9.根据权利要求7所述的方法,其特征在于,所述通过预设正则表达式,从所述第二网页的网页内容中识别出所述正文内容,包括:
通过预设正则表达式,从所述第二网页的元素节点中识别出第二指定元素节点;
从所述第二网页的网页内容中确定所述第二指定元素节点对应的第二节点内容,将所述第二节点内容作为所述正文内容。
10.根据权利要求1-9任一所述的方法,其特征在于,所述获取待显示的第一网页的网页元素,包括:
响应于查看指令,根据所述查看指令,显示收藏的至少一个网页的网页地址;
从所述至少一个网页的网页地址中,获取被选中的第一网页的网页地址;
从所述第一网页的网页地址中,获取所述第一网页的网页元素。
11.一种显示收藏网页内容的方法,其特征在于,所述方法包括:
显示收藏的至少一个网页的收藏条目,任一网页的收藏条目中包括所述任一网页的网页地址;
根据被选中的第一网页的网页地址,获取所述第一网页的网页元素;
根据所述网页元素的标签,从所述第一网页的网页内容中确定所述第一网页的非文本内容和文本内容;
显示符合预设格式的第二网页,所述第二网页包括所述第一网页的非文本内容和文本内容。
12.一种显示网页内容的装置,其特征在于,所述装置包括:
获取模块,用于获取待显示的第一网页的网页元素;
确定模块,用于根据所述网页元素的标签,从所述第一网页的网页内容中确定所述第一网页的非文本内容和文本内容;
显示符合预设格式的第二网页,所述第二网页包括所述第一网页的非文本内容和文本内容。
13.一种显示收藏网页内容的装置,其特征在于,所述装置包括:
显示模块,用于显示收藏的至少一个网页的收藏条目,任一网页的收藏条目中包括所述任一网页的网页地址;
获取模块,用于根据被选中的第一网页的网页地址,获取所述第一网页的网页元素;
确定模块,用于根据所述网页元素的标签,从所述第一网页的网页内容中确定所述第一网页的非文本内容和文本内容;
所述显示模块,还用于显示符合预设格式的第二网页,所述第二网页包括所述第一网页的非文本内容和文本内容。
14.一种终端,其特征在于,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至10任一权利要求所述的显示网页内容的方法中所执行的操作,或者实现如权利要求11所述的显示收藏网页内容的方法中所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至10任一权利要求所述的显示网页内容的方法中所执行的操作,或者实现如权利要求11所述的显示收藏网页内容的方法中所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711202503.7A CN109948095B (zh) | 2017-11-27 | 2017-11-27 | 显示网页内容的方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711202503.7A CN109948095B (zh) | 2017-11-27 | 2017-11-27 | 显示网页内容的方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109948095A true CN109948095A (zh) | 2019-06-28 |
CN109948095B CN109948095B (zh) | 2022-09-30 |
Family
ID=67003973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711202503.7A Active CN109948095B (zh) | 2017-11-27 | 2017-11-27 | 显示网页内容的方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109948095B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508284A (zh) * | 2020-12-10 | 2021-03-16 | 网易(杭州)网络有限公司 | 展示物料预处理方法、投放方法、***、装置与设备 |
CN114020987A (zh) * | 2022-01-06 | 2022-02-08 | 北京微步在线科技有限公司 | 基于网页的样本数据获取方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477564A (zh) * | 2009-01-21 | 2009-07-08 | 北京千家悦网络科技有限公司 | 一种在窄屏幕设备上显示宽网页的智能布局方法 |
CN103150389A (zh) * | 2013-03-21 | 2013-06-12 | 北京奇虎科技有限公司 | 对网页文本内容匹配设置进行处理的方法和装置 |
CN103345532A (zh) * | 2013-07-26 | 2013-10-09 | 人民搜索网络股份公司 | 一种网页信息抽取方法及装置 |
CN106095985A (zh) * | 2016-06-20 | 2016-11-09 | 网际傲游(北京)科技有限公司 | 一种动态收集并聚合网页信息的方法 |
US20170052994A1 (en) * | 2015-08-18 | 2017-02-23 | Samsung Electronics Co., Ltd. | Method and system for bookmarking a webpage |
CN107329985A (zh) * | 2017-05-31 | 2017-11-07 | 北京安云世纪科技有限公司 | 一种页面的收藏方法、装置和移动终端 |
-
2017
- 2017-11-27 CN CN201711202503.7A patent/CN109948095B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477564A (zh) * | 2009-01-21 | 2009-07-08 | 北京千家悦网络科技有限公司 | 一种在窄屏幕设备上显示宽网页的智能布局方法 |
CN103150389A (zh) * | 2013-03-21 | 2013-06-12 | 北京奇虎科技有限公司 | 对网页文本内容匹配设置进行处理的方法和装置 |
CN103345532A (zh) * | 2013-07-26 | 2013-10-09 | 人民搜索网络股份公司 | 一种网页信息抽取方法及装置 |
US20170052994A1 (en) * | 2015-08-18 | 2017-02-23 | Samsung Electronics Co., Ltd. | Method and system for bookmarking a webpage |
CN106095985A (zh) * | 2016-06-20 | 2016-11-09 | 网际傲游(北京)科技有限公司 | 一种动态收集并聚合网页信息的方法 |
CN107329985A (zh) * | 2017-05-31 | 2017-11-07 | 北京安云世纪科技有限公司 | 一种页面的收藏方法、装置和移动终端 |
Non-Patent Citations (2)
Title |
---|
KAMPS J: "Language Models for Searching in Web Corpora", 《THIRTEENTH TEXT RETRIEVAL CONFERENCE》 * |
孙莉娜: "基于超链接信息的Web文本聚类方法研究", 《电脑知识与技术(学术交流)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508284A (zh) * | 2020-12-10 | 2021-03-16 | 网易(杭州)网络有限公司 | 展示物料预处理方法、投放方法、***、装置与设备 |
CN114020987A (zh) * | 2022-01-06 | 2022-02-08 | 北京微步在线科技有限公司 | 基于网页的样本数据获取方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109948095B (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11250090B2 (en) | Recommended content display method, device, and system | |
CN110019929B (zh) | 网页内容的处理方法、装置及计算机可读存储介质 | |
CN111064655B (zh) | 模板消息的推送方法、装置、设备及存储介质 | |
WO2021008334A1 (zh) | 小程序的数据绑定方法、装置、设备及存储介质 | |
CN108920515A (zh) | 网页显示过程的信息推荐方法、装置、设备及存储介质 | |
CN109918669A (zh) | 实体确定方法、装置及存储介质 | |
CN110502308A (zh) | 页面样式切换方法、装置、计算机设备及存储介质 | |
CN111028071B (zh) | 账单处理方法、装置、电子设备及存储介质 | |
CN112632445A (zh) | 网页播放方法、装置、设备及存储介质 | |
CN112464052A (zh) | 反馈信息的处理方法、显示方法、装置及电子设备 | |
CN109413098A (zh) | 网页元素展示的方法、装置、终端及存储介质 | |
CN111428162A (zh) | 一种页面截图方法及装置 | |
CN109902089A (zh) | 利用异构索引的查询方法、装置、电子设备及介质 | |
CN109933594A (zh) | 获取数据的方法、装置、电子设备及介质 | |
CN113987326B (zh) | 资源推荐方法、装置、计算机设备及介质 | |
WO2022033432A1 (zh) | 内容推荐方法、电子设备和服务器 | |
WO2022057889A1 (zh) | 一种对应用程序的界面进行翻译的方法及相关设备 | |
CN109948095A (zh) | 显示网页内容的方法、装置、终端及存储介质 | |
CN109726379A (zh) | 内容项编辑方法、装置、电子设备及存储介质 | |
CN111709843B (zh) | 一种客户画像的生成方法、装置及电子设备 | |
CN109995804A (zh) | 目标资源信息的显示方法、信息提供方法及装置 | |
WO2024113161A1 (zh) | 一种界面显示方法、装置、设备及可读存储介质 | |
CN106776634A (zh) | 一种用于网络访问的方法、装置及终端设备 | |
WO2022057764A1 (zh) | 广告显示方法及电子设备 | |
CN114707075A (zh) | 一种冷启动推荐方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |