CN102314497B - 一种用于识别标记语言文件主体内容的方法和设备 - Google Patents

一种用于识别标记语言文件主体内容的方法和设备 Download PDF

Info

Publication number
CN102314497B
CN102314497B CN201110249348.0A CN201110249348A CN102314497B CN 102314497 B CN102314497 B CN 102314497B CN 201110249348 A CN201110249348 A CN 201110249348A CN 102314497 B CN102314497 B CN 102314497B
Authority
CN
China
Prior art keywords
body matter
file
making language
node
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110249348.0A
Other languages
English (en)
Other versions
CN102314497A (zh
Inventor
李伟刚
秦玄铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110249348.0A priority Critical patent/CN102314497B/zh
Publication of CN102314497A publication Critical patent/CN102314497A/zh
Application granted granted Critical
Publication of CN102314497B publication Critical patent/CN102314497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明的目的是提供一种用于识别标记语言文件主体内容的方法与设备。其中,模板提供设备获取待处理的多个标记语言文件;根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点;根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板。与现有技术相比,本发明不依赖于标记语言文件中的具体内容而根据该标记语言文件的结构信息获取主体内容,从而保证对不同类型网页的主体内容识别的准确率。

Description

一种用于识别标记语言文件主体内容的方法和设备
技术领域
本发明涉及互联网技术,尤其涉及用于识别标记语言文件主体内容的技术。
背景技术
随着移动互联网技术的发展及广泛应用,越来越多的用户通过移动终端,如智能手机等,访问互联网网页,但因移动终端的屏幕尺寸的限制,当在计算机中浏览的HTML网页在移动终端的屏幕上显示前,需将其网页内容进行过滤,只保留网页的主体内容,以便于用户浏览。现有技术中,识别HTML网页中主体内容的方法通常利用关键字对该网页内容中进行匹配而获得,其中,主体内容意指该网页中携带的区别于其他同类网页的内容,例如新闻网页中包括新闻标题、新闻内容、其他新闻的链接、友情链接、广告等,但该网页的主体内容为新闻标题和新闻内容,该方法的缺点在于其对识别网页的主体内容不具有通用性,即其正则表达式需根据具体的网页类型进行定制,否则识别的准确率将降低。
因此,如何利用一种通用方法来识别如HTML等标记语言文件主体内容成为亟待解决的问题。
发明内容
本发明的目的是提供一种用于识别标记语言文件主体内容的方法与设备。
根据本发明的一个方面,提供一种计算机实现的用于识别标记语言文件主体内容的方法,其中,该方法包括以下步骤:
a获取待处理的多个标记语言文件;
b根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;
c对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点;
d根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板。
根据本发明的另一个方面,还提供一种用于识别标记语言文件主体内容的设备,其中,该设备包括:
文件获取装置,用于获取待处理的多个标记语言文件;
第一获取装置,用于根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;
比较分析装置,用于对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点;
模板获取装置,用于根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板。
如上所述,与现有技术相比,本发明通过提供一种通用的方法来获取用于识别某类标记语言文件的主体内容的内容标识模板,该方法不依赖于标记语言文件中的具体内容而根据该标记语言文件的结构信息获取主体内容,并据此将该内容标识模板应用于提取该类标记语言文件的主体内容,从而保证对不同类型网页的主体内容识别的准确率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明一个方面的用于识别标记语言文件主体内容的设备示意图;
图2为根据本发明用于识别标记语言文件主体内容的示例图;
图3为根据本发明用于识别标记语言文件主体内容的示例图;
图3A为根据本发明用于识别标记语言文件主体内容的示例图;
图3B为根据本发明用于识别标记语言文件主体内容的示例图;
图4为根据本发明一个优选实施例的用于识别标记语言文件主体内容的设备示意图;
图5为根据本发明另一个方面的用于识别标记语言文件主体内容的方法流程图;
图6为根据本发明一个优选实施例的用于识别标记语言文件主体内容的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为根据本发明一个方面的用于识别标记语言文件主体内容的设备示意图。模板提供设备1包括文件获取装置11、第一获取装置12、比较分析装置13和模板获取装置14。在此,模板提供设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
如图1所示,文件获取装置11获取待处理的多个标记语言文件。
具体地,文件获取装置11按照预定文件获取规则从模板提供设备1的网页库中获取互联网网页所对应的多个标记语言文件,其中所述预定文件获取规则包括但不限于:
1)获取历史点击量超过某点击阈值的网页所对应的标记语言文件;
2)获取通过移动终端进行访问的累计访问次数超过预定数量的网页所对应的标记语言文件;
其中,所述网页库用于存储网页所对应的标记语言文件以及该网页的历史访问信息,该网页库包括但不限于关系数据库、内存存储器、磁盘存储器等。
可选地,文件获取装置11受预定条件或事件触发地、或定期地通过约定的通信方式直接从第三方设备读取该多个标记语言文件。
在此,所述标记语言意指一种将文本以及文本相关的其他信息结合起来,展现出关于文档结构和数据处理细节的计算机文字编码,所述标记语言文件包括但不限于:
-超文本标记语言(HTML)文件;
-可扩展超文本标记语言(XHTML)文件;
-可扩展标记语言(XML)文件。
在一个示例中,文件获取装置11通过对模板提供设备1的网页库中的网页相关信息进行统计分析,获得各网页被用户通过移动终端访问的次数,并据此获得该次数超过预定访问数量的网页所对应的HTML文件,该预定访问数量应随着实际需求及具体应用而变化,例如在用户数量较少的具体应用中,该预定访问数量可为数万至数十万,而在用户数量较多的具体应用中,该预定访问数量可为数十万至数百万,这应是本领域技术人员根据实际需求及具体应用可以确定的。
在另一示例中,文件获取装置11定期地通过调用设定的应用编程接口(API)向第三方设备发送获取标记语言文件的请求,并接收该第三方设备基于该请求返回的多个标记语言文件。
本领域技术人员应能理解上述获取多个标记语言文件的方式仅为举例,其他现有的或今后可能出现的获取多个标记语言文件的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
随后,第一获取装置12根据文件获取装置11获取的所述多个标记语言文件的相关信息,获得一组或多组标记语言文件。
具体地,第一获取装置12根据文件获取装置11获取的多个标记语言文件,例如,获取所述多个标记语言文件的相关信息,并据此对该些标记语言文件进行聚类,以获得一组或多组标记语言文件;或者,获取所述标记语言文件中部分文件的相关信息,并对该部分文件进行聚类,以获得一组或多组标记语言文件。其中,所述多个标记语言文件的相关信息包括但不限于:
1)标记语言文件的文档对象模型(DOM)树的相关信息;其中,所述DOM树意指通过对标记语言文件进行解析而获得的树结构数据,该树中的各节点与标记语言文件中的标签以及标签内容相对应,通过该DOM树可操作标记语言文件中的数据;其中,所述多个标记语言文件的相关信息包括但不限于:
a)所述多个标记语言文件所对应的DOM树的相关信息;具体地,当该多个标记语言文件的相关信息包括该多个标记语言文件所对应的DOM树的相关信息,则第一获取装置12可根据该DOM树的相关信息对该多个标记语言文件进行聚类,以获得一组或多组标记语言文件;其中,所述DOM树的相关信息包括但不限于:
i)所述DOM树的节点数量;具体地,当DOM树的相关信息包括该DOM树的节点数量,则第一获取装置12可根据该节点数量对该多个标记语言文件进行聚类,例如将其中具有相同节点数量,或者节点数量在某预定的数量区间内的标记语言文件聚类为同一组标记语言文件,
ii)所述DOM树的拓扑结构信息;具体地,当DOM树的相关信息包括该DOM树的拓扑结构信息,其中,该拓扑结构信息包括但不限于DOM树中各树节点的分布,则第一获取装置12将具有相同树节点分布的标记语言文件聚类到同一组中。
本领域技术人员应能理解,上述各项DOM树的相关信息不仅可以单独用于第一获取装置12获取一组或多组标记语言文件,还可以将其中多项结合用于第一获取装置12获取一组或多组标记语言文件。
本领域技术人员还应能理解上述DOM树的相关信息仅为举例,其他现有的或今后可能出现的DOM树的相关信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
b)所述多个标记语言文件中的资源信息;具体地,当该多个标记语言文件的相关信息包括该多个标记语言文件中的资源信息,其中,该资源信息包括但不限于:
i)标记语言文件中的链接信息,包括但不限于链接的数量,该多个标记语言文件中链接锚文本的相似度;
ii)标记语言文件中的图片信息,包括但不限于图片的数量,该多个标记语言文件中图片名称、描述信息的相似度;
若此,则第一获取装置12可根据该资源信息对该多个标记语言文件进行聚类,以获得一组或多组标记语言文件。
本领域技术人员应能理解,上述各项标记语言文件的相关信息不仅可以单独用于第一获取装置12获取一组或多组标记语言文件,还可以将其中多项结合用于第一获取装置12获取一组或多组标记语言文件。
本领域技术人员还应能理解上述标记语言文件的相关信息仅为举例,其他现有的或今后可能出现的标记语言文件的相关信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在一个示例中,第一获取装置12对多个HTML文件分别进行解析并生成与其相对应的DOM树,然后根据各DOM树的拓扑结构信息,对该多个HTML文件进行聚类,该DOM的拓扑结构信息包括但不限于DOM树各树节点的分布。
以图2、图3为例,上述第一获取装置12聚类获得的一部分HTML文件所对应的DOM树具有如图2所示的拓扑结构,而其他HTML文件所对应的DOM树具有如图3所示的拓扑结构,由此,第一获取装置12获得2组HTML文件,G1组和G2组,其中G1组中的HTML文件具有如图2所示的拓扑结构,G2组中的HTML文件具有如图3所示的拓扑结构。优选地,聚类至一组中的HTML文件的DOM树的拓扑结构可不完全一致,只需其DOM树的主干节点分布一致即可,例如HTML文件F 1对应的DOM树T1如图3A所示,HTML文件F2所对应的DOM树T2如图3B所示,由图可见,T1与T2都具有如图3所示的DOM树拓扑结构,因此F1与F2将被聚类至G2组中。
在另一个示例中,第一获取装置12通过分别统计多个HTML文件中的标签<a>,以获得各HTML文件中超文本链接的数量,并据此对该些HTML文件聚类。优选地,还可结合该超文本链接的锚文本内容的相似度,对该些HTML进行聚类,以获得若干组HTML文件,其中,每组中的HTML文件具有相同的超文本链接数量,并且其锚文本的内容相似度超过预定相似度阈值。
本领域技术人员应能理解上述获取标记语言文件组的方式仅为举例,其他现有的或今后可能出现的获取标记语言文件组的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,比较分析装置13对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点。
具体地,比较分析装置13根据第一获取装置12获取一组或多组标记语言文件中的至少一组标记语言文件,例如分别获取每组中的标记语言文件,并对该些标记语言文件进行解析,以获得其相对应的DOM树,并对各DOM树中相对应的节点及其子树节点中的内容进行比较分析,来获得包含该组标记语言文件主体内容的主体内容节点,其中所述比较分析的方法包括但不限于:
1)根据各DOM树相应节点及其子树节点内容中的非链接文本的字符数,若在超过预置数量比例的DOM树中,该相应节点及其子树节点内容的非链接文本的字符数量超过某字符数量阈值,则比较分析装置13判断该节点为包含主体内容的主体内容节点;
2)根据各DOM树相应节点内容在显示时所占用的全部内容显示空间比例,若在超过预置数量比例的DOM树中,该相应节点内容所占用的显示空间比例均超过某比例阈值,则比较分析装置13判断该节点为包含主体内容的主体内容节点;
3)根据各DOM树相应节点及其子树节点内容的相似度,若在各DOM树中,该相应节点及其子树节点内容彼此的相似度都低于某相似度阈值,则比较分析装置13判断该节点为包含主体内容的主体内容节点。
在一个示例中,比较分析装置13获取一组HTML文件,并对该组HTML文件中的2个HTML文件进行解析,获得两棵DOM树T3和T4,其中T3如图3A所示,T4如图3B所示;
接着,比较分析装置13对该两棵DOM树进行遍历并对相应节点及其子树节点的内容进行比较分析,如获取T3中的节点N4及其子树节点N6、N7中的内容中字符的数量,如2500个,并获取T4中的相应节点N4’及其子树节点N6’中的内容中字符的数量,如2000个,其字符数量均超过预定的字符数量阈值1500个,因此,比较分析装置13将该节点作为包含该组HTML文件主体内容的主体内容节点。
在另一个示例中,比较分析装置13获取一组HTML文件,并对该组HTML文件中的2个HTML文件进行解析,获得两棵DOM树T3和T4,其中T3如图3A所示,T4如图3B所示,接着,比较分析装置13对两棵DOM树进行遍历并对相应节点及其子树节点的内容进行比较分析,如获取T3中的节点N3中设置的其内容显示的高度与宽度,以及该HTML文件所对应的网页显示的高度与宽度,并据此获得该节点内容在网页中所占用的显示空间为30%,同理,获得T4中的相应节点N3’的内容所占用的显示空间为35%,该等比例均超过预定的比例阈值20%,因此,比较分析装置13将该节点作为包含该组HTML文件主体内容的主体内容节点。
本领域技术人员应能理解上述比较分析的方式仅为举例,其他现有的或今后可能出现的比较分析的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,需要说明的是,上述举例中的各项数值仅为说明作用的示例,以供读者理解本发明,并非实际应用时的真实数据,不应视为对本专利申请保护范围的任何限制。如无特别说明,本文中其他地方出现的数值的功用与此处相同,为简明起见,不再赘述。
在此,还需要说明的是,上述举例中的标记语言文件所对应的具体DOM树仅为说明作用的示例,以供理解本发明,并非实际应用时的真实DOM树,不应视为对本专利申请保护范围的任何限制。如无特别说明,本文中其他地方出现的DOM树的功用与此处相同,为简明起见,不再赘述。
随后,模板获取装置14根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板。
具体地,模板获取装置14根据比较分析装置13所获得的包含该组标记语言文件的主体内容的各主体内容节点,例如,将预先约定的该主体内容节点在DOM树中所对应的编号;或者,将该主体内容节点在DOM树中的路径信息,写入与该组标记语言文件相对应的内容标识模板中,在此,该路径信息例如可为XPath,其中,所述XPath为一种路径表达式,通过该路径表达式可在DOM树中找寻相应的树节点。在此,所述内容标识模板用于描述包含主体内容的各主体内容节点信息,该内容标识模板可作为模板文件存储在文件***中,或可作为数据表存储在关系数据库中。
在一个示例中,如图3A所示,比较分析装置13获得包含某组标记语言文件主体内容的主体内容节点为N1、N4和N5,并且主体内容节点的编号规则为对DOM树中的树节点按照从上之下,从左至右的顺序进行编号,由此,模板获取装置14根据该编号规则确定N1、N4和N5所对应的编号依次为:1、4和5,并将其写入到内容标识模板文件中。
在另一个示例中,如图3A所示,比较分析装置13获得包含某组标记语言文件主体内容的主体内容节点为N3和N4,由此,模板获取装置14根据该些主体内容节点,在DOM树中获得其相应的XPath分别为:N3的XPath为“/R0/N1/N3”;N4的XPath为“/R0/N2/N4”,并将该些XPath写入到与该组标记语言文件相对应的内容标识模板所在的关系数据库中。
本领域技术人员应能理解上述获得内容标识模板的方式仅为举例,其他现有的或今后可能出现的获得内容标识模板的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,文件获取装置11、第一获取装置12、比较分析装置13和模板获取装置14之间是持续不断地工作。具体地,文件获取装置11持续地获取待处理的多个标记语言文件;随后,第一获取装置12也持续地根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;接着,比较分析装置13也持续地对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点;接着,模板获取装置14也持续地根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板;在此,本领域技术人员应理解“持续”是指各装置分别不断进行标记语言文件的获取、标记语言文件组的获取、对每组标记语言文件进行比较分析以及获得用于识别标记语言文件主体内容的内容标识模板,直至满足预定停止条件,例如文件获取装置11在较长时间内停止对标记语言文件的获取。
在一个优选实施例中(参照图1),比较分析装置13包括相似度获取单元(未示出)和节点获取单元(未示出),其中,相似度获取单元对所述每组中的标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得所述内容的相似度;随后,节点获取单元根据所述相似度来确定所述主体内容节点。
以下参照图1对该优选实施例进行详细描述,其中,文件获取装置11获取待处理的多个标记语言文件;第一获取装置12根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;模板获取装置14根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板。其具体过程与前述参照图1所描述的实施例中文件获取装置11、第一获取装置12与模板获取装置14所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,相似度获取单元对第一获取装置12获取的至少一组标记语言文件中的每组中的标记语言文件所对应的各DOM树中相应节点及其子树节点的内容进行比较分析,以获得所述内容的相似度,其中,获得所述内容相似度的方法包括但不限于:
1)对各DOM树的相应节点及其子树节点的文字内容进行字符串比较,来确定该内容的相似度,其中,字符串匹配的程度越高,则内容的相似度越高,反之,则该内容的相似度越低;
2)对各DOM树的相应节点及其子树节点的文字内容进行分词,并通过对各相应节点文字内容中相同分词数量进行统计,来确定该内容的相似度,其中,相同分词的数量越少,则内容的相似度越低,反之,则该内容的相似度越高;在此,所述分词算法包括但不限于正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等;随后,节点获取单元根据相似度获取单元获取的节点及其子树节点内容的相似度,例如按照相似度低于预设的相似度阈值,则该内容为主体内容,反之,该内容为非主体内容的规则,确定该节点是否文包含主体内容的主体内容节点。
在一个示例中,相似度获取单元获取某组HTML文件所对应的各DOM树中相应节点及其子树节点中的文字内容,利用正向最大匹配算法对各文字内容分别进行分词处理,获得3000个不同的分词,并通过对获得的每个分词在各文字内容中的分布进行统计分析,确定超过某预置数量,如1500个,的分词在所有各文字内容中均有出现,则节点获取单元据此获得该各文字内容的相似度,如0.7;随后,节点获取单元根据相似度获取单元获取的节点及其子树节点内容的相似度,其相似度高于预设的相似度阈值0.4,确定该节点中未包含该组HTML文件的主体内容。
本领域技术人员应能理解上述获得节点内容相似度和获得包含主体内容的主体内容节点的方式仅为举例,其他现有的或今后可能出现的获得节点内容相似度或获得包含主体内容的主体内容节点的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在另一个优选实施例中(参照图1),模板获取装置14包括路径信息获取单元(未示出)和模板生成单元(未示出),其中,路径信息获取单元根据所述主体内容节点,获取与所述主体内容节点相对应的路径信息;随后,模板生成单元将所述路径信息添加到所述内容标识模板中,以获得所述内容标识模板。
以下参照图1对该优选实施例进行详细描述,其中,文件获取装置11获取待处理的多个标记语言文件;第一获取装置12根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;比较分析装置13对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点;其具体过程与前述参照图1所描述的实施例中文件获取装置11、第一获取装置12与比较分析装置13所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,路径信息获取单元根据比较分析装置13获得的包含某组标记语言文件主体内容的主体内容节点,从该节点所在的DOM树获取该节点的路径信息,其中,该路径信息的表示方式包括但不限于:
-XPath;
-XPath与正则表达式的结合,其中所述正则表达式意指用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串;
随后,模板生成单元将路径信息获取单元获得的路径信息写入到用于识别该组标记语言文件主体内容的内容标识模板中,以获得该内容标识模板。
在一个示例中,如图3A所示,比较分析装置13获得的包含某组标记语言文件主体内容的主体内容节点为N6和N7,路径信息获取单元根据该些主体内容节点,获得其对应的路径信息为“/R0/N2/N4/N[6-7]{1}”,随后,模板生成单元将该路径信息写入某内容标识模板文件中,以获得用于识别该组标记语言文件主体内容的模板。
本领域技术人员应能理解上述获得路径信息和获得内容标识模板的方式仅为举例,其他现有的或今后可能出现的获得路径信息或获得内容标识模板的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在再一个优选实施例中(参照图1),模板提供设备1还包括第二获取装置(未示出),其中,第二获取装置根据预定规则,获取所述一组或多组标记语言文件中的至少一组标记语言文件;接着,比较分析装置13对获取的所述至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得所述主体内容节点。以下参照图1对该优选实施例进行详细描述,其中,文件获取装置11获取待处理的多个标记语言文件;第一获取装置12根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;模板获取装置14根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板;其具体过程与前述参照图1所描述的实施例中文件获取装置11、第一获取装置12与模板获取装置14所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,第二获取装置按照预定规则来获取所述标记语言文件组,例如获取第一获取装置12提供的所有标记语言文件组,或者仅获取其中的标记语言文件数量超过预定数量的若干标记语言文件组;接着,比较分析装置13对第二获取装置获得的各组标记语言文件分别进行所述的比较分析,为每组标记语言文件获得包含该组标记语言文件主体内容的主体内容节点;其中,所述预定规则包括基于以下至少任一项来获取所述标记语言文件组:
1)该组中标记语言文件的数量;
具体地,当预定规则基于该组标记语言文件中标记语言文件的数量,其中,仅当该组中的标记语言文件的数量较多时,如超过某文件数量阈值,才能够通过对各标记语言文件的主体内容节点内容进行比较分析,来更准确地获得该包含组标记语言文件的主体内容的主体内容节点,否则该主体内容节点的获得将不准确,故此,第二获取装置仅获取标记语言文件数量超过该文件数量阈值的标记语言文件组;
2)标记语言文件所对应的DOM树的节点数量等;
具体地,当预定规则基于该组标记语言文件中标记语言文件所对应的DOM树的节点数量,其中,若该各DOM树的节点数量都很少,如低于某节点数量阈值,则代表其所对应的标记语言文件的内容也很少,无需再对其主体内容进行提取,故此,第二获取装置仅获取各DOM树的节点数量超过该节点数量阈值的标记语言文件组。
本领域技术人员应能理解,上述所举各项不仅可以单独用于第二获取装置获取标记语言文件组,还可以将其中多项结合用于第二获取装置获取标记语言文件组。
本领域技术人员还应能理解上述预定规则仅为举例,其他现有的或今后可能出现的预定规则如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在一个示例中,第一获取装置12获取3组HTML文件,则第二获取装置直接提取该3组HTML文件。在另一个示例中,第一获取装置12获取4组标记语言文件,G3、G4、G5和G6,其中各组的标记语言文件数量依次为120、50、5、150,则第二获取装置提取标记语言文件数量超过预定数量的2个标记语言文件组,G3和G6,在此,该预定数量例如可设为100。
本领域技术人员应能理解上述获取标记语言文件组的方式仅为举例,其他现有的或今后可能出现的获取标记语言文件组的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在又一个优选实施例中(参照图1),模板提供设备1还包括模板标注装置(未示出),其中,模板标注装置根据所述主体内容节点包含的所述主体内容,在所述内容标识模板中标注与所述主体内容节点相对应的主体内容相关信息;其中,所述主体内容相关信息包括以下至少任一项:
-所述主体内容的类型信息;
-所述主体内容的展示优先级。
以下参照图1对该优选实施例进行详细描述,其中,文件获取装置11获取待处理的多个标记语言文件;第一获取装置12根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;比较分析装置13对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点;模板获取装置14根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板;其具体过程与前述参照图1所描述的实施例中文件获取装置11、第一获取装置12、比较分析装置13与模板获取装置14所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,模板标注装置根据比较分析装置13获得的主体内容节点及其子树节点所包含的主体内容,例如按照预定标注规则,在该主体内容节点所在的内容标识模板中标注与该主体内容节点相对应的主体内容相关信息;其中,该主体内容相关信息包括以下至少任一项:
1)所述主体内容的类型信息,其中,该类型信息包括但不限于标题内容块、正文内容块、导航内容块等;
2)所述主体内容的展示优先级,例如,具有较高展现优先级的主体内容将会在网页中靠前优先展现。
在一个示例中,某主体内容节点所包含的主体内容中纯文字内容的字符数量超过5000个,并且该纯文字内容的显示在该主体内容显示中所占有的显示比例为85%,则模板标注装置根据以上信息确定该主体内容的类型信息为正文内容块,并根据该类型信息,确定该主体内容为高展现优先级的内容,然后,模板标注装置将该主体内容的相关信息相应地写入该主体内容节点所在的内容标识模板文件中,如下表1所示。
表1
  内容节点信息   内容类型信息   展现优先级
  /R0/N1/N3   T1   高
  /R0/N1/N9/N20   T3   低
  /R0/N1/N[6-7]{1}   T6   中
优选地,所述模板文件中也可标注非主体内容节点信息,以及与该非主体内容节点信息相对应的非主体内容的内容类型信息、展现优先级等。
本领域技术人员还应能理解上述内容相关信息和标注内容相关信息的方式仅为举例,其他现有的或今后可能出现的内容相关信息或标注内容相关信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图4为根据本发明一个优选实施例的用于识别标记语言文件主体内容的设备示意图,其中,第一获取装置12’中还包括筛选单元121’和聚类单元122’。在此,图4中所示装置11’、13’与前面参照图1所描述的装置11、13的内容相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,筛选单元121’按照预定筛选条件,对所述多个标记语言文件进行筛选,以获得满足所述预定筛选条件的至少一个标记语言文件;接着,聚类单元122’根据所述至少一个标记语言文件所对应的DOM树的相关信息,对所述至少一个标记语言文件进行聚类,以获得所述一组或多组标记语言文件;最后,模板获取装置14’根据所获得的主体内容节点,来获得与该预定筛选条件相对应的所述内容标识模板。
更具体地,筛选单元121’基于预定筛选条件,对文件获取装置11’获取的多个标记语言文件进行筛选,以获得满足该预定筛选条件的至少一个标记语言文件。优选地,该预定筛选条件包括但不限于以下至少任一项:
1)所述标记语言文件的网络地址;
具体地,若该预定筛选条件基于标记语言文件的网络地址,其中该网络地址包括但不限于URL地址,IP地址等,则筛选单元121’可根据标记语言文件的网络地址或网络地址的正则表达式,对该些标记语言文件进行筛选;
2)所述标记语言文件所属的网站;
具体地,若该预定筛选条件基于标记语言文件所属的网站,例如标记语言文件是否来自同一网站,或者来自相同类型的网站,则筛选单元121’例如可根据HTML文件是否来自新闻类型的网站对该些HTML文件进行筛选。
本领域技术人员应能理解,上述各项预定筛选条件不仅可以单独用于筛选单元121’对多个标记语言文件进行筛选,还可以将其中多项结合用于筛选单元121’对多个标记语言文件进行筛选。
本领域技术人员还应能理解上述筛选条件仅为举例,其他现有的或今后可能出现的筛选条件如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,聚类单元122’根据筛选单元121’获取的标记语言文件所对应的DOM树的相关信息,对该些标记语言文件进行聚类,以获得与该预定筛选条件相对应的所述一组或多组标记语言文件;
最后,模板获取装置14’根据比较分析装置13’为该一组或多组标记语言文件中每组所获得的主体内容节点,获得与该各组标记语言文件一一对应的一个或多个内容标识模板,并将该一个或多个内容标识模板作为与该预定筛选条件相对应的内容标识模板。
在一个示例中,一个预定筛选条件C1为HTML文件的统一资源定位符(URL)地址满足正则表达式http://www.abc.com/news*.*html,则筛选单元121’根据该预定筛选条件在文件获取装置11’获取的150个HTML文件中进行筛选,以获得其URL地址满足该正则表达式的70个HTML文件,接着,聚类单元122’根据该70个HTML文件的DOM树相关信息对将该70个HTML文件进行聚类,以获得与该预定筛选条件C 1相对应的3组HTML文件;模板获取装置14’根据比较分析装置13’为该3组标记语言文件中每组所获得的主体内容节点,获得与该3组标记语言文件相对应的3个内容标识模板文件,并将该3个内容标识模板文件作为与预定筛选条件C1相对应的内容标识模板。
本领域技术人员还应能理解上述标记语言文件筛选和标记语言文件聚类的方式仅为举例,其他现有的或今后可能出现的标记语言文件筛选或标记语言文件聚类的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,模板提供设备1还包括筛选条件获取装置(未示出)、模板选择装置(未示出)和主体内容识别装置(未示出),其中,筛选条件获取装置获取待识别主体内容的其他标记语言文件所满足的预定筛选条件;接着,模板选择装置选择该其他标记语言文件所满足的预定筛选条件所对应的内容标识模板;接着,主体内容识别装置根据所选择的内容标识模板来识别所述其他标记语言文件的主体内容。
具体地,筛选条件获取装置例如受预定条件或事件触发地、或定期地从第三方设备获取待识别主体内容的其他标记语言文件,并将其在各预定筛选条件中进行匹配,以获的该标记语言文件所满足的筛选条件;接着,模板选择装置根据筛选条件获取装置获取的该筛选条件,从模板获取装置14’中获得其所对应的一个或多个内容标识模板,并分别提取每个内容标识模板中的主体内容节点信息,如XPath,并根据该节点信息,按照预定的匹配规则在该其他标记语言文件所对应的DOM树中进行匹配,以获得与该其他标记语言文件所对应的内容标识模板,其中,该匹配规则包括但不限于:
1)若根据内容标识模板中的每一个主体内容节点信息,在该其他标记语言文件的DOM树中均能查找到相应的树节点,则该其他标记语言文件与该内容标识模板匹配,
2)若根据内容标识模板中标注为必选的主体内容节点信息,在该其他标记语言文件的DOM树中均能查找到相应的树节点,则该其他标记语言文件与该内容标识模板匹配;
接着,主体内容识别装置根据模板选择装置获得的内容标识模板,从该内容标识模板中提取各主体内容节点信息,并根据该些主体内容节点信息在该其他标记语言文件的DOM树中进行查找其主体内容节点,并从该节点及其子树节点中获取主体内容。
本领域技术人员还应能理解上述获取筛选条件、选择模板和获取主体内容的方式仅为举例,其他现有的或今后可能出现的获取筛选条件、选择模板或获取主体内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本领域技术人员还应能理解,上述第一获取装置和第二获取装置仅为示例,在实践中,它们可以是二个独立的模块,也可集成在一个模块中。
图5为根据本发明一个方面的用于识别标记语言文件主体内容的方法流程图。模板提供设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
如图5所示,在步骤S1中,模板提供设备1获取待处理的多个标记语言文件。
具体地,在步骤S1中,模板提供设备1按照预定文件获取规则从模板提供设备1的网页库中获取互联网网页所对应的多个标记语言文件,其中所述预定文件获取规则包括但不限于:
1)获取历史点击量超过某点击阈值的网页所对应的标记语言文件;
2)获取通过移动终端进行访问的累计访问次数超过预定数量的网页所对应的标记语言文件;
其中,所述网页库用于存储网页所对应的标记语言文件以及该网页的历史访问信息,该网页库包括但不限于关系数据库、内存存储器、磁盘存储器等。
可选地,在步骤S1中,模板提供设备1受预定条件或事件触发地、或定期地通过约定的通信方式直接从第三方设备读取该多个标记语言文件。
在此,所述标记语言意指一种将文本以及文本相关的其他信息结合起来,展现出关于文档结构和数据处理细节的计算机文字编码,所述标记语言文件包括但不限于:
-超文本标记语言(HTML)文件;
-可扩展超文本标记语言(XHTML)文件;
-可扩展标记语言(XML)文件。
在一个示例中,在步骤S1中,模板提供设备1通过对模板提供设备1的网页库中的网页相关信息进行统计分析,获得各网页被用户通过移动终端访问的次数,并据此获得该次数超过预定访问数量的网页所对应的HTML文件,该预定访问数量应随着实际需求及具体应用而变化,例如在用户数量较少的具体应用中,该预定访问数量可为数万至数十万,而在用户数量较多的具体应用中,该预定访问数量可为数十万至数百万,这应是本领域技术人员根据实际需求及具体应用可以确定的。
在另一示例中,在步骤S1中,模板提供设备1定期地通过调用设定的应用编程接口(API)向第三方设备发送获取标记语言文件的请求,并接收该第三方设备基于该请求返回的多个标记语言文件。
本领域技术人员应能理解上述获取多个标记语言文件的方式仅为举例,其他现有的或今后可能出现的获取多个标记语言文件的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
随后,在步骤S2中,模板提供设备1根据其在步骤S1中获取的所述多个标记语言文件的相关信息,获得一组或多组标记语言文件。
具体地,在步骤S2中,模板提供设备1根据其在步骤S1中获取的多个标记语言文件,例如,获取所述多个标记语言文件的相关信息,并据此对该些标记语言文件进行聚类,以获得一组或多组标记语言文件;或者,获取所述标记语言文件中部分文件的相关信息,并对该部分文件进行聚类,以获得一组或多组标记语言文件。其中,所述多个标记语言文件的相关信息包括但不限于:
1)标记语言文件的文档对象模型(DOM)树的相关信息;其中,所述DOM树意指通过对标记语言文件进行解析而获得的树结构数据,该树中的各节点与标记语言文件中的标签以及标签内容相对应,通过该DOM树可操作标记语言文件中的数据;其中,所述多个标记语言文件的相关信息包括但不限于:
a)所述多个标记语言文件所对应的DOM树的相关信息;具体地,当该多个标记语言文件的相关信息包括该多个标记语言文件所对应的DOM树的相关信息,则在步骤S2中,模板提供设备1可根据该DOM树的相关信息对该多个标记语言文件进行聚类,以获得一组或多组标记语言文件;其中,所述DOM树的相关信息包括但不限于:
i)所述DOM树的节点数量;具体地,当DOM树的相关信息包括该DOM树的节点数量,则在步骤S2中,模板提供设备1可根据该节点数量对该多个标记语言文件进行聚类,例如将其中具有相同节点数量,或者节点数量在某预定的数量区间内的标记语言文件聚类为同一组标记语言文件,
ii)所述DOM树的拓扑结构信息;具体地,当DOM树的相关信息包括该DOM树的拓扑结构信息,其中,该拓扑结构信息包括但不限于DOM树中各树节点的分布,则在步骤S2中,模板提供设备1将具有相同树节点分布的标记语言文件聚类到同一组中。
本领域技术人员应能理解,上述各项DOM树的相关信息不仅可以单独用于模板提供设备1获取一组或多组标记语言文件,还可以将其中多项结合用于模板提供设备1获取一组或多组标记语言文件。
本领域技术人员还应能理解上述DOM树的相关信息仅为举例,其他现有的或今后可能出现的DOM树的相关信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
b)所述多个标记语言文件中的资源信息;具体地,当该多个标记语言文件的相关信息包括该多个标记语言文件中的资源信息,其中,该资源信息包括但不限于:
i)标记语言文件中的链接信息,包括但不限于链接的数量,该多个标记语言文件中链接锚文本的相似度;
ii)标记语言文件中的图片信息,包括但不限于图片的数量,该多个标记语言文件中图片名称、描述信息的相似度;
若此,则在步骤S2中,模板提供设备1可根据该资源信息对该多个标记语言文件进行聚类,以获得一组或多组标记语言文件。
本领域技术人员应能理解,上述各项标记语言文件的相关信息不仅可以单独用于模板提供设备1获取一组或多组标记语言文件,还可以将其中多项结合用于模板提供设备1获取一组或多组标记语言文件。
本领域技术人员还应能理解上述标记语言文件的相关信息仅为举例,其他现有的或今后可能出现的标记语言文件的相关信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在一个示例中,在步骤S2中,模板提供设备1对多个HTML文件分别进行解析并生成与其相对应的DOM树,然后根据各DOM树的拓扑结构信息,对该多个HTML文件进行聚类,该DOM的拓扑结构信息包括但不限于DOM树各树节点的分布。
以图2、图3为例,在步骤S2中,模板提供设备1聚类获得的一部分HTML文件所对应的DOM树具有如图2所示的拓扑结构,而其他HTML文件所对应的DOM树具有如图3所示的拓扑结构,由此,模板提供设备1获得2组HTML文件,G1组和G2组,其中G1组中的HTML文件具有如图2所示的拓扑结构,G2组中的HTML文件具有如图3所示的拓扑结构。优选地,聚类至一组中的HTML文件的DOM树的拓扑结构可不完全一致,只需其DOM树的主干节点分布一致即可,例如HTML文件F 1对应的DOM树T1如图3A所示,HTML文件F2所对应的DOM树T2如图3B所示,由图可见,T1与T2都具有如图3所示的DOM树拓扑结构,因此F1与F2将被聚类至G2组中。
在另一个示例中,在步骤S2中,模板提供设备1通过分别统计多个HTML文件中的标签<a>,以获得各HTML文件中超文本链接的数量,并据此对该些HTML文件聚类。优选地,还可结合该超文本链接的锚文本内容的相似度,对该些HTML进行聚类,以获得若干组HTML文件,其中,每组中的HTML文件具有相同的超文本链接数量,并且其锚文本的内容相似度超过预定相似度阈值。
本领域技术人员应能理解上述获取标记语言文件组的方式仅为举例,其他现有的或今后可能出现的获取标记语言文件组的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S3中,模板提供设备1对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点。
具体地,在步骤S3中,模板提供设备1根据其在步骤S2中获取一组或多组标记语言文件中的至少一组标记语言文件,例如分别获取每组中的标记语言文件,并对该些标记语言文件进行解析,以获得其相对应的DOM树,并对各DOM树中相对应的节点及其子树节点中的内容进行比较分析,来获得包含该组标记语言文件主体内容的主体内容节点,其中所述比较分析的方法包括但不限于:
1)根据各DOM树相应节点及其子树节点内容中的非链接文本的字符数,若在超过预置数量比例的DOM树中,该相应节点及其子树节点内容的非链接文本的字符数量超过某字符数量阈值,则在步骤S3中,模板提供设备1判断该节点为包含主体内容的主体内容节点;
2)根据各DOM树相应节点内容在显示时所占用的全部内容显示空间比例,若在超过预置数量比例的DOM树中,该相应节点内容所占用的显示空间比例均超过某比例阈值,则在步骤S3中,模板提供设备1判断该节点为包含主体内容的主体内容节点;
3)根据各DOM树相应节点及其子树节点内容的相似度,若在各DOM树中,该相应节点及其子树节点内容彼此的相似度都低于某相似度阈值,则在步骤S3中,模板提供设备1判断该节点为包含主体内容的主体内容节点。
在一个示例中,在步骤S3中,模板提供设备1获取一组HTML文件,并对该组HTML文件中的2个HTML文件进行解析,获得两棵DOM树T3和T4,其中T3如图3A所示,T4如图3B所示;
接着,在步骤S3中,模板提供设备1对该两棵DOM树进行遍历并对相应节点及其子树节点的内容进行比较分析,如获取T3中的节点N4及其子树节点N6、N7中的内容中字符的数量,如2500个,并获取T4中的相应节点N4’及其子树节点N6’中的内容中字符的数量,如2000个,其字符数量均超过预定的字符数量阈值1500个,因此,在步骤S3中,模板提供设备1将该节点作为包含该组HTML文件主体内容的主体内容节点。
在另一个示例中,在步骤S3中,模板提供设备1获取一组HTML文件,并对该组HTML文件中的2个HTML文件进行解析,获得两棵DOM树T3和T4,其中T3如图3A所示,T4如图3B所示,接着,在步骤S3中,模板提供设备1对两棵DOM树进行遍历并对相应节点及其子树节点的内容进行比较分析,如获取T3中的节点N3中设置的其内容显示的高度与宽度,以及该HTML文件所对应的网页显示的高度与宽度,并据此获得该节点内容在网页中所占用的显示空间为30%,同理,获得T4中的相应节点N3’的内容所占用的显示空间为35%,该等比例均超过预定的比例阈值20%,因此,在步骤S3中,模板提供设备1将该节点作为包含该组HTML文件主体内容的主体内容节点。
本领域技术人员应能理解上述比较分析的方式仅为举例,其他现有的或今后可能出现的比较分析的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,需要说明的是,上述举例中的各项数值仅为说明作用的示例,以供读者理解本发明,并非实际应用时的真实数据,不应视为对本专利申请保护范围的任何限制。如无特别说明,本文中其他地方出现的数值的功用与此处相同,为简明起见,不再赘述。
在此,还需要说明的是,上述举例中的标记语言文件所对应的具体DOM树仅为说明作用的示例,以供理解本发明,并非实际应用时的真实DOM树,不应视为对本专利申请保护范围的任何限制。如无特别说明,本文中其他地方出现的DOM树的功用与此处相同,为简明起见,不再赘述。
随后,在步骤S4中,模板提供设备1根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板。
具体地,在步骤S4中,模板提供设备1根据其在步骤S3中所获得的包含该组标记语言文件的主体内容的各主体内容节点,例如,将预先约定的该主体内容节点在DOM树中所对应的编号;或者,将该主体内容节点在DOM树中的路径信息,写入与该组标记语言文件相对应的内容标识模板中,在此,该路径信息例如可为XPath,其中,所述XPath为一种路径表达式,通过该路径表达式可在DOM树中找寻相应的树节点。在此,所述内容标识模板用于描述包含主体内容的各主体内容节点信息,该内容标识模板可作为模板文件存储在文件***中,或可作为数据表存储在关系数据库中。
在一个示例中,如图3A所示,在步骤S3中,模板提供设备1获得包含某组标记语言文件主体内容的主体内容节点为N1、N4和N5,并且主体内容节点的编号规则为对DOM树中的树节点按照从上之下,从左至右的顺序进行编号,由此,在步骤S4中,模板提供设备1根据该编号规则确定N1、N4和N5所对应的编号依次为:1、4和5,并将其写入到内容标识模板文件中。
在另一个示例中,如图3A所示,在步骤S3中,模板提供设备1获得包含某组标记语言文件主体内容的主体内容节点为N3和N4,由此,在步骤S4中,模板提供设备1根据该些主体内容节点,在DOM树中获得其相应的XPath分别为:N3的XPath为“/R0/N1/N3”;N4的XPath为“/R0/N2/N4”,并将该些XPath写入到与该组标记语言文件相对应的内容标识模板所在的关系数据库中。
本领域技术人员应能理解上述获得内容标识模板的方式仅为举例,其他现有的或今后可能出现的获得内容标识模板的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,上述各步骤之间是持续不断地工作。具体地,在步骤S1中,模板提供设备1持续地获取待处理的多个标记语言文件;随后,在步骤S2中,模板提供设备1也持续地根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;接着,在步骤S3中,模板提供设备1也持续地对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点;接着,在步骤S4中,模板提供设备1也持续地根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板;在此,本领域技术人员应理解“持续”是指各步骤分别不断进行标记语言文件的获取、标记语言文件组的获取、对每组标记语言文件进行比较分析以及获得用于识别标记语言文件主体内容的内容标识模板,直至满足预定停止条件,例如模板提供设备1在较长时间内停止对标记语言文件的获取。
在一个优选实施例中(参照图5),步骤S3包括步骤S31(未示出)和步骤S32(未示出),其中,在步骤S31中,模板提供设备1对所述每组中的标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得所述内容的相似度;随后,在步骤S32中,模板提供设备1根据所述相似度来确定所述主体内容节点。
以下参照图5对该优选实施例进行详细描述,其中,在步骤S 1中,模板提供设备1获取待处理的多个标记语言文件;在步骤S2中,模板提供设备1根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;在步骤S4中,模板提供设备1根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板。其具体过程与前述参照图5所描述的实施例中步骤S1、S2与S4所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,在步骤S31中,模板提供设备1对其在步骤S2中获取的至少一组标记语言文件中的每组中的标记语言文件所对应的各DOM树中相应节点及其子树节点的内容进行比较分析,以获得所述内容的相似度,其中,获得所述内容相似度的方法包括但不限于:
1)对各DOM树的相应节点及其子树节点的文字内容进行字符串比较,来确定该内容的相似度,其中,字符串匹配的程度越高,则内容的相似度越高,反之,则该内容的相似度越低;
2)对各DOM树的相应节点及其子树节点的文字内容进行分词,并通过对各相应节点文字内容中相同分词数量进行统计,来确定该内容的相似度,其中,相同分词的数量越少,则内容的相似度越低,反之,则该内容的相似度越高;在此,所述分词算法包括但不限于正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等;随后,在步骤S32中,模板提供设备1根据其在步骤S31中获取的节点及其子树节点内容的相似度,例如按照相似度低于预设的相似度阈值,则该内容为主体内容,反之,该内容为非主体内容的规则,确定该节点是否文包含主体内容的主体内容节点。
在一个示例中,在步骤S31中,模板提供设备1获取某组HTML文件所对应的各DOM树中相应节点及其子树节点中的文字内容,利用正向最大匹配算法对各文字内容分别进行分词处理,获得3000个不同的分词,并通过对获得的每个分词在各文字内容中的分布进行统计分析,确定超过某预置数量,如1500个,的分词在所有各文字内容中均有出现,则在步骤S32中,模板提供设备1据此获得该各文字内容的相似度,如0.7;随后,在步骤S32中,模板提供设备1根据其在步骤S31中获取的节点及其子树节点内容的相似度,其相似度高于预设的相似度阈值0.4,确定该节点中未包含该组HTML文件的主体内容。
本领域技术人员应能理解上述获得节点内容相似度和获得包含主体内容的主体内容节点的方式仅为举例,其他现有的或今后可能出现的获得节点内容相似度或获得包含主体内容的主体内容节点的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在另一个优选实施例中(参照图5),步骤S4包括步骤S41(未示出)和步骤S42(未示出),其中,在步骤S41中,模板提供设备1根据所述主体内容节点,获取与所述主体内容节点相对应的路径信息;随后,在步骤S42中,模板提供设备1将所述路径信息添加到所述内容标识模板中,以获得所述内容标识模板。
以下参照图5对该优选实施例进行详细描述,其中,在步骤S1中,模板提供设备1获取待处理的多个标记语言文件;在步骤S2中,模板提供设备1根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;在步骤S3中,模板提供设备1对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点;其具体过程与前述参照图5所描述的实施例中步骤S1、S2与S3所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,在步骤S41中,模板提供设备1根据其在步骤S3中获得的包含某组标记语言文件主体内容的主体内容节点,从该节点所在的DOM树获取该节点的路径信息,其中,该路径信息的表示方式包括但不限于:
-XPath;
-XPath与正则表达式的结合,其中所述正则表达式意指用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串;
随后,在步骤S42中,模板提供设备1将其在步骤S41中获得的路径信息写入到用于识别该组标记语言文件主体内容的内容标识模板中,以获得该内容标识模板。
在一个示例中,如图3A所示,在步骤S3中,模板提供设备1获得的包含某组标记语言文件主体内容的主体内容节点为N6和N7,在步骤S41中,模板提供设备1根据该些主体内容节点,获得其对应的路径信息为“/R0/N2/N4/N[6-7]{1}”,随后,在步骤S42中,模板提供设备1将该路径信息写入某内容标识模板文件中,以获得用于识别该组标记语言文件主体内容的模板。
本领域技术人员应能理解上述获得路径信息和获得内容标识模板的方式仅为举例,其他现有的或今后可能出现的获得路径信息或获得内容标识模板的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在再一个优选实施例中(参照图5),该过程还包括步骤S5(未示出),其中,在步骤S5中,模板提供设备1根据预定规则,获取所述一组或多组标记语言文件中的至少一组标记语言文件;接着,在步骤S3中,模板提供设备1对获取的所述至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得所述主体内容节点。以下参照图5对该优选实施例进行详细描述,其中,在步骤S1中,模板提供设备1获取待处理的多个标记语言文件;在步骤S2中,模板提供设备1根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;在步骤S4中,模板提供设备1根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板;其具体过程与前述参照图5所描述的实施例中步骤S1、S2与S4所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,在步骤S5中,模板提供设备1按照预定规则来获取所述标记语言文件组,例如获取在步骤S2中,模板提供设备1提供的所有标记语言文件组,或者仅获取其中的标记语言文件数量超过预定数量的若干标记语言文件组;接着,在步骤S3中,模板提供设备1对其在步骤S5中获得的各组标记语言文件分别进行所述的比较分析,为每组标记语言文件获得包含该组标记语言文件主体内容的主体内容节点;其中,所述预定规则包括基于以下至少任一项来获取所述标记语言文件组:
1)该组中标记语言文件的数量;
具体地,当预定规则基于该组标记语言文件中标记语言文件的数量,其中,仅当该组中的标记语言文件的数量较多时,如超过某文件数量阈值,才能够通过对各标记语言文件的主体内容节点内容进行比较分析,来更准确地获得该包含组标记语言文件的主体内容的主体内容节点,否则该主体内容节点的获得将不准确,故此,在步骤S5中,模板提供设备1仅获取标记语言文件数量超过该文件数量阈值的标记语言文件组;
2)标记语言文件所对应的DOM树的节点数量等;
具体地,当预定规则基于该组标记语言文件中标记语言文件所对应的DOM树的节点数量,其中,若该各DOM树的节点数量都很少,如低于某节点数量阈值,则代表其所对应的标记语言文件的内容也很少,无需再对其主体内容进行提取,故此,在步骤S5中,模板提供设备1仅获取各DOM树的节点数量超过该节点数量阈值的标记语言文件组。
本领域技术人员应能理解,上述所举各项不仅可以单独用于模板提供设备1获取标记语言文件组,还可以将其中多项结合用于模板提供设备1获取标记语言文件组。
本领域技术人员还应能理解上述预定规则仅为举例,其他现有的或今后可能出现的预定规则如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在一个示例中,在步骤S2中,模板提供设备1获取3组HTML文件,则在步骤S5中,模板提供设备1直接提取该3组HTML文件。在另一个示例中,在步骤S2中,模板提供设备1获取4组标记语言文件,G3、G4、G5和G6,其中各组的标记语言文件数量依次为120、50、5、150,则在步骤S5中,模板提供设备1提取标记语言文件数量超过预定数量的2个标记语言文件组,G3和G6,在此,该预定数量例如可设为100。
本领域技术人员应能理解上述获取标记语言文件组的方式仅为举例,其他现有的或今后可能出现的获取标记语言文件组的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在又一个优选实施例中(参照图5),该过程还包括步骤S6(未示出),其中,在步骤S6中,模板提供设备1根据所述主体内容节点包含的所述主体内容,在所述内容标识模板中标注与所述主体内容节点相对应的主体内容相关信息;其中,所述主体内容相关信息包括以下至少任一项:
-所述主体内容的类型信息;
-所述主体内容的展示优先级。
以下参照图5对该优选实施例进行详细描述,其中,在步骤S1中,模板提供设备1获取待处理的多个标记语言文件;在步骤S2中,模板提供设备1根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;在步骤S3中,模板提供设备1对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点;在步骤S4中,模板提供设备1根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板;其具体过程与前述参照图5所描述的实施例中在步骤S1、S2、S3与S4所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,在步骤S6中,模板提供设备1根据其在步骤S3中获得的主体内容节点及其子树节点所包含的主体内容,例如按照预定标注规则,在该主体内容节点所在的内容标识模板中标注与该主体内容节点相对应的主体内容相关信息;其中,该主体内容相关信息包括以下至少任一项:
1)所述主体内容的类型信息,其中,该类型信息包括但不限于标题内容块、正文内容块、导航内容块等;
2)所述主体内容的展示优先级,例如,具有较高展现优先级的主体内容将会在网页中靠前优先展现。
在一个示例中,某主体内容节点所包含的主体内容中纯文字内容的字符数量超过5000个,并且该纯文字内容的显示在该主体内容显示中所占有的显示比例为85%,则在步骤S6中,模板提供设备1根据以上信息确定该主体内容的类型信息为正文内容块,并根据该类型信息,确定该主体内容为高展现优先级的内容,然后,在步骤S6中,模板提供设备1将该主体内容的相关信息相应地写入该主体内容节点所在的内容标识模板文件中,如下表2所示。
表2
  内容节点信息   内容类型信息   展现优先级
  /R0/N1/N3   T1   高
  /R0/N1/N9/N20   T3   低
  /R0/N1/N[6-7]{1}   T6   中
优选地,所述模板文件中也可标注非主体内容节点信息,以及与该非主体内容节点信息相对应的非主体内容的内容类型信息、展现优先级等。
本领域技术人员还应能理解上述内容相关信息和标注内容相关信息的方式仅为举例,其他现有的或今后可能出现的内容相关信息或标注内容相关信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图6为根据本发明一个优选实施例的用于识别标记语言文件主体内容的方法流程图,其中,步骤S2’中还包括步骤S21’和步骤S22’。在此,图6中所示步骤S1’、S3’与前面参照图5所描述的步骤S1、S3的内容相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,在步骤S21’中,模板提供设备1按照预定筛选条件,对所述多个标记语言文件进行筛选,以获得满足所述预定筛选条件的至少一个标记语言文件;接着,在步骤S22’中,模板提供设备1根据所述至少一个标记语言文件所对应的DOM树的相关信息,对所述至少一个标记语言文件进行聚类,以获得所述一组或多组标记语言文件;最后,在步骤S4’中,模板提供设备1根据所获得的主体内容节点,来获得与该预定筛选条件相对应的所述内容标识模板。
更具体地,在步骤S21’中,模板提供设备1基于预定筛选条件,对其在步骤S1’中获取的多个标记语言文件进行筛选,以获得满足该预定筛选条件的至少一个标记语言文件。优选地,该预定筛选条件包括但不限于以下至少任一项:
1)所述标记语言文件的网络地址;
具体地,若该预定筛选条件基于标记语言文件的网络地址,其中该网络地址包括但不限于URL地址,IP地址等,则在步骤S21’中,模板提供设备1可根据标记语言文件的网络地址或网络地址的正则表达式,对该些标记语言文件进行筛选;
2)所述标记语言文件所属的网站;
具体地,若该预定筛选条件基于标记语言文件所属的网站,例如标记语言文件是否来自同一网站,或者来自相同类型的网站,则在步骤S21’中,模板提供设备1例如可根据HTML文件是否来自新闻类型的网站对该些HTML文件进行筛选。
本领域技术人员应能理解,上述各项预定筛选条件不仅可以单独用于在步骤S21’中,模板提供设备1对多个标记语言文件进行筛选,还可以将其中多项结合用于在步骤S21’中,模板提供设备1对多个标记语言文件进行筛选。
本领域技术人员还应能理解上述筛选条件仅为举例,其他现有的或今后可能出现的筛选条件如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S22’中,模板提供设备1根据其在步骤S21’中获取的标记语言文件所对应的DOM树的相关信息,对该些标记语言文件进行聚类,以获得与该预定筛选条件相对应的所述一组或多组标记语言文件;
最后,在步骤S4’中,模板提供设备1根据其在步骤S3’中为该一组或多组标记语言文件中每组所获得的主体内容节点,获得与该各组标记语言文件一一对应的一个或多个内容标识模板,并将该一个或多个内容标识模板作为与该预定筛选条件相对应的内容标识模板。
在一个示例中,一个预定筛选条件C1为HTML文件的统一资源定位符(URL)地址满足正则表达式http://www.abc.com/news*.*html,则在步骤S21’中,模板提供设备1根据该预定筛选条件在模板提供设备1获取的150个HTML文件中进行筛选,以获得其URL地址满足该正则表达式的70个HTML文件,接着,在步骤S22’中,模板提供设备1根据该70个HTML文件的DOM树相关信息对将该70个HTML文件进行聚类,以获得与该预定筛选条件C 1相对应的3组HTML文件;在步骤S4’中,模板提供设备1根据其在步骤S3’中为该3组标记语言文件中每组所获得的主体内容节点,获得与该3组标记语言文件相对应的3个内容标识模板文件,并将该3个内容标识模板文件作为与预定筛选条件C1相对应的内容标识模板。
本领域技术人员还应能理解上述标记语言文件筛选和标记语言文件聚类的方式仅为举例,其他现有的或今后可能出现的标记语言文件筛选或标记语言文件聚类的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,该过程还包括步骤S7’(未示出)、步骤S8’(未示出)和步骤S9’(未示出),其中,在步骤S7’中,模板提供设备1获取待识别主体内容的其他标记语言文件所满足的预定筛选条件;接着,在步骤S8’中,模板提供设备1选择该其他标记语言文件所满足的预定筛选条件所对应的内容标识模板;接着,在步骤S9’中,模板提供设备1根据所选择的内容标识模板来识别所述其他标记语言文件的主体内容。
具体地,在步骤S7’中,模板提供设备1例如受预定条件或事件触发地、或定期地从第三方设备获取待识别主体内容的其他标记语言文件,并将其在各预定筛选条件中进行匹配,以获的该标记语言文件所满足的筛选条件;接着,在步骤S8’中,模板提供设备1根据其在步骤S7’中获取的该筛选条件,从其在步骤S4’中获得其所对应的一个或多个内容标识模板,并分别提取每个内容标识模板中的主体内容节点信息,如XPath,并根据该节点信息,按照预定的匹配规则在该其他标记语言文件所对应的DOM树中进行匹配,以获得与该其他标记语言文件所对应的内容标识模板,其中,该匹配规则包括但不限于:
1)若根据内容标识模板中的每一个主体内容节点信息,在该其他标记语言文件的DOM树中均能查找到相应的树节点,则该其他标记语言文件与该内容标识模板匹配,
2)若根据内容标识模板中标注为必选的主体内容节点信息,在该其他标记语言文件的DOM树中均能查找到相应的树节点,则该其他标记语言文件与该内容标识模板匹配;
接着,在步骤S9’中,模板提供设备1根据其在步骤S8’中获得的内容标识模板,从该内容标识模板中提取各主体内容节点信息,并根据该些主体内容节点信息在该其他标记语言文件的DOM树中进行查找其主体内容节点,并从该节点及其子树节点中获取主体内容。
本领域技术人员还应能理解上述获取筛选条件、选择模板和获取主体内容的方式仅为举例,其他现有的或今后可能出现的获取筛选条件、选择模板或获取主体内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (20)

1.一种计算机实现的用于识别标记语言文件主体内容的方法,其中,该方法包括以下步骤:
a获取待处理的多个标记语言文件;
b1按照预定筛选条件,对所述多个标记语言文件进行筛选,以获得满足所述预定筛选条件的至少一个标记语言文件;
b2根据所述至少一个标记语言文件所对应的DOM树的相关信息,对所述至少一个标记语言文件进行聚类,以获得一组或多组标记语言文件;
c对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点;
d根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板,进而获得与所述预定筛选条件相对应的一个或多个内容标识模板,以用于识别满足所述预定筛选条件的其他标记语言文件的主体内容。
2.根据权利要求1所述的方法,其中,所述DOM树的相关信息包括以下至少任一项:
-所述DOM树的节点数量;
-所述DOM树的拓扑结构信息。
3.根据权利要求1所述的方法,其中,所述步骤c具体包括:
-对所述每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得所述内容的相似度;
-根据所述相似度来确定所述主体内容节点。
4.根据权利要求1所述的方法,其中,所述步骤d中所述获得用以识别该组标记语言文件主体内容的内容标识模板的步骤具体包括:
-获取所述主体内容节点在所述DOM树中的路径信息;
-将所述路径信息添加到该组标记语言文件所对应的内容标识模板中,以获得用以识别该组标记语言文件主体内容的内容标识模板。
5.根据权利要求1所述的方法,其中,该方法还包括:
-根据预定规则,获取所述一组或多组标记语言文件中的至少一组标记语言文件;
其中,所述步骤c具体包括:
-对获取的所述至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得所述主体内容节点。
6.根据权利要求5所述的方法,其中,所述预定规则包括基于以下至少任一项获取所述至少一组标记语言文件:
-该组标记语言文件中标记语言文件的数量;
-该组标记语言文件中标记语言文件所对应的DOM树的节点数量。
7.根据权利要求1至6中任一项所述的方法,其中,该方法还包括:
-根据所述主体内容节点包含的所述主体内容,在用以识别该组标记语言文件主体内容的内容标识模板中标注与所述主体内容节点相对应的主体内容相关信息;
其中,所述主体内容相关信息包括以下至少任一项:
-所述主体内容的类型信息;
-所述主体内容的展示优先级。
8.根据权利要求1所述的方法,其中,所述预定筛选条件基于以下至少任一项对所述多个标记语言文件进行筛选:
-所述标记语言文件的网络地址;
-所述标记语言文件所属的网站。
9.根据权利要求8所述的方法,其中,该方法还包括:
-获取待识别主体内容的其他标记语言文件所满足的预定筛选条件;
-选择所述其他标记语言文件所满足的预定筛选条件所对应的内容标识模板;
-根据所选择的内容标识模板来识别所述其他标记语言文件的主体内容。
10.根据权利要求1所述的方法,其中,所述标记语言文件包括以下至少任一项:
-HTML文件;
-XHTML文件;
-XML文件。
11.一种用于识别标记语言文件主体内容的设备,其中,该设备包括:
文件获取装置,用于获取待处理的多个标记语言文件;
第一获取装置,用于:
-按照预定筛选条件,对所述多个标记语言文件进行筛选,以获得满足所述预定筛选条件的至少一个标记语言文件;
-根据所述至少一个标记语言文件所对应的DOM树的相关信息,对所述至少一个标记语言文件进行聚类,以获得一组或多组标记语言文件;
比较分析装置,用于对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点;
模板获取装置,用于根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板,进而获得与所述预定筛选条件相对应的一个或多个内容标识模板,以用于识别满足所述预定筛选条件的其他标记语言文件的主体内容。
12.根据权利要求11所述的设备,其中,所述DOM树的相关信息包括以下至少任一项:
-所述DOM树的节点数量;
-所述DOM树的拓扑结构信息。
13.根据权利要求11所述的设备,其中,所述比较分析装置包括:
相似度获取单元,用于对所述每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得所述内容的相似度;
节点获取单元,用于根据所述相似度来确定所述主体内容节点。
14.根据权利要求11所述的设备,其中,所述模板获取装置所执行的所述获得用以识别该组标记语言文件主体内容的内容标识模板的操作具体包括:
-获取所述主体内容节点在所述DOM树中的路径信息;
-将所述路径信息添加到该组标记语言文件所对应的内容标识模板中,以获得用以识别该组标记语言文件主体内容的内容标识模板。
15.根据权利要求11所述的设备,其中,该设备还包括:
第二获取装置,用于根据预定规则,获取所述一组或多组标记语言文件中的至少一组标记语言文件;
其中,所述比较分析装置具体用于:
-对获取的所述至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得所述主体内容节点。
16.根据权利要求15所述的设备,其中,所述预定规则包括基于以下至少任一项获取所述至少一组标记语言文件:
-该组标记语言文件中标记语言文件的数量;
-该组标记语言文件中标记语言文件所对应的DOM树的节点数量。
17.根据权利要求11至16中任一项所述的设备,其中,该设备还包括:
模板标注装置,用于根据所述主体内容节点包含的所述主体内容,在用以识别该组标记语言文件主体内容的内容标识模板中标注与所述主体内容节点相对应的主体内容相关信息;
其中,所述主体内容相关信息包括以下至少任一项:
-所述主体内容的类型信息;
-所述主体内容的展示优先级。
18.根据权利要求11所述的设备,其中,所述预定筛选条件基于以下至少任一项对所述多个标记语言文件进行筛选:
-所述标记语言文件的网络地址;
-所述标记语言文件所属的网站。
19.根据权利要求18所述的设备,其中,该设备还包括:
筛选条件获取装置,用于获取待识别主体内容的其他标记语言文件所满足的预定筛选条件;
模板选择装置,用于选择所述其他标记语言文件所满足的预定筛选条件所对应的内容标识模板;
主体内容识别装置,用于根据所选择的内容标识模板来识别所述其他标记语言文件的主体内容。
20.根据权利要求11所述的设备,其中,所述标记语言文件包括以下至少任一项:
-HTML文件;
-XHTML文件;
-XML文件。
CN201110249348.0A 2011-08-26 2011-08-26 一种用于识别标记语言文件主体内容的方法和设备 Active CN102314497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110249348.0A CN102314497B (zh) 2011-08-26 2011-08-26 一种用于识别标记语言文件主体内容的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110249348.0A CN102314497B (zh) 2011-08-26 2011-08-26 一种用于识别标记语言文件主体内容的方法和设备

Publications (2)

Publication Number Publication Date
CN102314497A CN102314497A (zh) 2012-01-11
CN102314497B true CN102314497B (zh) 2014-12-10

Family

ID=45427662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110249348.0A Active CN102314497B (zh) 2011-08-26 2011-08-26 一种用于识别标记语言文件主体内容的方法和设备

Country Status (1)

Country Link
CN (1) CN102314497B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902749B (zh) * 2012-09-19 2016-03-09 北京易云剪客科技有限公司 一种网页内容识别方法和装置
CN103020179A (zh) * 2012-11-28 2013-04-03 北京小米科技有限责任公司 一种网页内容的提取方法、装置和设备
CN104598462B (zh) * 2013-10-30 2018-08-07 深圳市国信互联科技有限公司 提取结构化数据的方法及装置
CN104820722B (zh) * 2015-05-26 2018-05-25 广州神马移动信息科技有限公司 页面展示方法和装置
CN106708828A (zh) * 2015-07-31 2017-05-24 北京国双科技有限公司 友情链接的获取方法和装置
TWI611308B (zh) * 2016-11-03 2018-01-11 財團法人資訊工業策進會 網頁資料擷取裝置及其網頁資料擷取方法
CN107153716B (zh) * 2017-06-06 2021-01-01 百度在线网络技术(北京)有限公司 网页内容提取方法和装置
CN108763235A (zh) * 2018-02-13 2018-11-06 阿里巴巴集团控股有限公司 一种文件处理方法、装置及设备
CN110795931B (zh) * 2018-07-17 2022-10-21 福建天泉教育科技有限公司 一种web网站页面语言的检测方法及终端
CN111400491A (zh) * 2018-12-27 2020-07-10 北大方正集团有限公司 公式主体定位方法、装置、设备及计算机可读存储介质
CN110110293A (zh) * 2019-03-21 2019-08-09 平安普惠企业管理有限公司 H5工程文件的说明文档生成方法、装置和计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193571A (ja) * 2008-02-18 2009-08-27 Ricoh Co Ltd ウェブ・ページ・コンテンツを抽出するために用いられる方法および装置
CN101727498A (zh) * 2010-01-15 2010-06-09 西安交通大学 一种基于web结构的网页信息自动提取方法
CN101833554A (zh) * 2009-03-09 2010-09-15 富士通株式会社 产生抽取模板的方法、设备和抽取网页内容的方法和设备
CN101944094A (zh) * 2009-07-06 2011-01-12 富士通株式会社 网页信息提取方法和装置
CN102073654A (zh) * 2009-11-20 2011-05-25 富士通株式会社 生成与维护网页内容抽取模板的方法和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193571A (ja) * 2008-02-18 2009-08-27 Ricoh Co Ltd ウェブ・ページ・コンテンツを抽出するために用いられる方法および装置
CN101833554A (zh) * 2009-03-09 2010-09-15 富士通株式会社 产生抽取模板的方法、设备和抽取网页内容的方法和设备
CN101944094A (zh) * 2009-07-06 2011-01-12 富士通株式会社 网页信息提取方法和装置
CN102073654A (zh) * 2009-11-20 2011-05-25 富士通株式会社 生成与维护网页内容抽取模板的方法和设备
CN101727498A (zh) * 2010-01-15 2010-06-09 西安交通大学 一种基于web结构的网页信息自动提取方法

Also Published As

Publication number Publication date
CN102314497A (zh) 2012-01-11

Similar Documents

Publication Publication Date Title
CN102314497B (zh) 一种用于识别标记语言文件主体内容的方法和设备
AU2013337686B2 (en) Adjusting content delivery based on user submissions
CA2610208C (en) Learning facts from semi-structured text
CN102171689B (zh) 用于提供搜索结果的方法、***
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN100547593C (zh) 在web爬取过程期间给网站排优先级的***和方法
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析***及方法
CN110059282A (zh) 一种交互类数据的获取方法及***
Peters et al. Content extraction using diverse feature sets
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
US20130086035A1 (en) Method and apparatus for generating extended page snippet of search result
CN105550241A (zh) 多维数据库查询方法及装置
Coletta et al. Public data integration with websmatch
CN103246719B (zh) 一种基于Web的网络信息资源整合方法
CN103970753A (zh) 关联知识的推送方法和装置
CN106874502A (zh) 一种视频搜索的方法、装置及终端
CN103164423A (zh) 一种用于确定渲染网页的浏览器内核类型的方法与设备
US20110184956A1 (en) Accessing digitally published content using re-indexing of search results
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
CN112395418A (zh) 网页中的目标对象提取方法、装置、电子设备
CN106874368B (zh) 一种rtb竞价广告位价值分析方法及***
CN106776640A (zh) 一种股票资讯信息展示方法和装置
CN105589918B (zh) 一种提取页面信息的方法及装置
CN102257490A (zh) 文档信息选择方法和计算机程序产品
Gali et al. Extracting representative image from web page

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant