CN102270206A - 一种有效网页内容的抓取方法及装置 - Google Patents
一种有效网页内容的抓取方法及装置 Download PDFInfo
- Publication number
- CN102270206A CN102270206A CN2010101963643A CN201010196364A CN102270206A CN 102270206 A CN102270206 A CN 102270206A CN 2010101963643 A CN2010101963643 A CN 2010101963643A CN 201010196364 A CN201010196364 A CN 201010196364A CN 102270206 A CN102270206 A CN 102270206A
- Authority
- CN
- China
- Prior art keywords
- label
- text
- title
- content
- effective
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种有效网页内容的抓取方法及装置,所述方法包括以下步骤:步骤S1:导入超文本链接标示语言HTML网页;步骤S2:将所述HTML网页转换成相应的文档树结构;步骤S3:根据所述文档树结构找出有效内容的标题标签,将找出的标题标签内的文本内容作为标题;步骤S4:在所述文档树结构的<body>标签中,按照与所述标题标签由小到大的标签距离依次查找文本标签,将包含有与正文有关的特定字符并具有大于预定长度的文本长度的文本标签作为正文文本标签,然后将所述正文文本标签的文本内容作为正文。本发明能够简单、方便地实现对通用的HTML结构网页进行有效信息的抽取。
Description
技术领域
本发明涉及互联网信息处理领域,尤其涉及一种有效网页内容的抓取方法及装置。
背景技术
目前互联网上存有目前人类所知的最大的信息库,其中绝大部分信息都是以HTML(Hyper Text Mark-up Lanugage,超文本链接标记语言)格式网页存在。HTML被用来结构化信息——例如标题、段落和列表,能够丰富的表现文本,图片以及其他多媒体信息。结合HTML阅读工具“浏览器”人们能够很方便地查看在HTML结构中的信息。但是从信息记录方面,HTML网页包含了大量的用来结构化信息的标签,同时网页中可能包含很多无用的信息。并且,随着各种移动终端的蓬勃发展,移动终端对上网的需求越来越高,若直接通过移动终端访问HTML页面时,由于移动终端设备本身的性能限制,会使每次访问HTML的连接时间较长,速度较慢,并且由于大量无用信息的存在会导致数据传输流量较大,使用户获取网页的时间和费用都会较高,因而如何把有用信息从HTML格式网页中准确快速地抽取出来对移动终端设备来说变得非常重要。
目前的文本信息抽取技术只能通过HTML标签信息对特定HTML标签内的内容进行获取,针对于目标处理网页需要事先考察网页HTML标签结构,事先定制抽取模板。而对于事先无法获知HTML结构的网页,文本信息抽取将无法进行。
发明内容
为了解决上述问题,本发明主要目的是提供一种有效网页内容的抓取方法及装置,使其能够简单、方便地实现对通用HTML结构的网页进行有效信息的抽取。
为了实现上述目的,本发明提供了一种有效网页内容的抓取方法,所述方法包括以下步骤:
步骤S1:导入超文本标示语言HTML网页;
步骤S2:将所述HTML网页转换成相应的文档树结构;
步骤S3:根据所述文档树结构找出有效内容的标题标签,将找出的标题标签内的文本内容作为标题;
步骤S4:在所述文档树结构的<body>标签中,按照与所述标题标签由小到大的标签距离依次查找文本标签,将包含有与正文有关的特定字符并具有大于预定长度的文本长度的文本标签作为正文文本标签,然后将所述正文文本标签的文本内容作为正文。
根据本发明的一个实施例,在所述步骤S2中,所述生成相应的文档树只包括与所述有效网页内容有关的标签,将其它无关的标签删除。
根据本发明的一个实施例,所述步骤S3可具体为:
在所述文档树结构中找出<title>标签;
在所述<title>标签中查找与所述文档树中<body>标签中相同或者编辑距离相近的文本内容,若查找到,则将所述文本内容确定为标题,否则,在所述<title>标签中查找距离所述<body>标签最近的有效文本标签,将所述有效文本标签内的文本作为标题;
其中所述有效文本标签为标签<h1>、<h2>或者所述有效文本标签内的文本内容字体大于预定字体号,其中所述预定字体号优选为5号,并且所述有效文本标签内孩子文本标签中的不间断文本超过另一预定值,其中所述另一预定值优选为5个字。
根据本发明的一个实施例,在步骤S3中找出<title>标签之后,还包括过滤处理步骤:对所述<title>标签内的文本标签进行连字符拆分和/或停用词处理,将其中的广告词或者不是标题的其它信息过滤掉。
根据本发明的另一个实施例,所述步骤S4还包括过滤步骤S41:在查找文本标签过程中,将具有与广告信息有关的另一些特定字符而不包括所述与正文有关的特定字符的文本标签删除掉,然后再查找下个文本标签。其中所述与正文有关的特定字符优选包括<p>、<br>、<div>或<table>等,所述预定长度优选为50个字。
根据本发明的另一个实施例,所述步骤S4还包括步骤S42:在查找文本标签过程中,根据链接文本长度和非链接文本长度的占比来判断所述文本标签内的文本内容是否为正文,若所述占比大于0并小于1,则直接判断该文本标签内的文本内容为正文;否则判断所述文本标签内的文本内容不是正文。
根据本发明的另一个实施例,所述在步骤S3和S4之间还包括时间抽取步骤S31:首先定义时间信息的正则表达式:根据步骤S3中已经获得的标题标签,查找距离所述标题标签最近的符合所述时间信息正则表达式的标签,将查找到的所述标签中的内容作为时间。
根据本发明的再一个实施例,在步骤S4之后包括图片抽取步骤S5:将步骤S4中获得正文标签中的孩子标签进行排序,记录第一个孩子标签和最后一个孩子标签;在所述第一孩子标签和所述最后一个孩子标签中寻找<img>标签,将查找到的<img>标签中的内容作为有效内容的图片。
本发明还提供一种有效网页内容的抓取装置,所述装置包括:
导入模块,用于导入超文本链接标示语言HTML网页;
生成模块,用于将所述HTML网页生成相应的文档树结构;
标题抽取模块,用于根据所述文档树结构找出有效内容的标题标签,将找出的标题标签内的文本内容作为标题;
文本抽取模块,用于在所述文档树结构的<body>标签中,按照与所述标题标签由小到大的标签距离依次查找文本标签,将包含有与正文有关的特定字符和具有大于预定长度的文本长度的文本标签作为正文文本标签,然后将所述正文文本标签的文本内容作为正文。
进一步地,所述标题抽取模块包括:
Title标签查找单元:用于在所述文档树结构中找出<title>标签;
标题确定单元,用于在所述<title>标签中查找与所述文档树中<body>标签中相同或者编辑距离相近的文本内容,若查找到,则将所述文本内容确定为标题,否则,在所述<title>标签中查找距离所述<body>标签最近的有效文本标签,将所述有效文本标签内的文本作为新闻标题。
其中在所述标题确定单元中的所述有效文本标签为标签<h1>、<h2>或者所述有效文本标签内的文本内容字体大于预定字体号,并且所述有效文本标签内孩子文本标签中的不间断文本超过另一预定值。
进一步地,在所述Title标签查找单元和标题确定单元之间还包括过滤处理模块,用于对所述<title>标签内的文本标签进行连字符拆分和/或停用词处理,将其中的广告词或者不是标题的其它信息过滤掉。
进一步地,所述文本抽取模块还包括过滤模块,用于在查找文本标签过程中,将具有与广告信息有关的另一些特定字符而不包括所述与正文有关的特定字符的文本标签删除掉,然后再查找下个文本标签。
进一步地,所述文本抽取模块还包括占比判断单元,用于在查找文本标签过程中,根据链接文本长度和非链接文本长度的占比来判断所述文本标签内的文本内容是否为正文,若所述占比大于0并小于1,则直接判断该文本标签内的文本内容为正文;否则判断所述文本标签内的文本内容不是正文。
进一步地,所述装置还包括时间抽取模块,用于先定义时间信息的正则表达式,再根据所述标题抽取模块中已经获得的标题标签,查找距离所述标题标签最近的符合所述时间信息正则表达式的标签,将查找到的所述标签中的内容作为时间。
进一步地,所述装置还包括图片抽取模块,用于对所述文本抽取模块中所获得正文标签中的孩子标签进行排序,并记录第一个孩子标签和最后一个孩子标签,在所述第一孩子标签和所述最后一个孩子标签中寻找<img>标签,将查找到的<img>标签中的内容作为有效内容的图片。
本发明通过上述步骤处理,能够自动的从HTML新闻网页中抽取出文章标题、文章时间、文章正文、文章图片链接等信息。能够避免目前抽取技术所需要的对于每种网页进行预先模板设置的步骤。提高了对HTML网页抽取的自动化程度。
附图说明
图1为本发明的一种有效网页内容的抓取方法流程示意图;
图2为本发明的一种HTML文档树的示意性组织结构图;
图3为本发明的一种HTML文档树中标签距离示意图;
图4为根据本发明的一种实施例的抓取新闻网页的示意性流程图;
图5为本发明的一种有效网页内容的抓取装置结构示意图。
具体实施方式
下面将详细描述本发明的具体实施例。应当注意,这里描述的实施例只用于举例说明,并不用于限制本发明。
本发明针对所要抽取的有效内容网页的整体结构入手考察各种文本实体在网页中的位置信息,特有结果信息以及标签信息,能够实现网页文本实体的自动提取功能。由于网页文件符合HTML DOM(Document ObjectModel)树状结构。对于一个具有有效内容的网页,比如说新闻网页,网页中有许多种类的标签,从逻辑意义上一般分为,页面功能标签,广告标签,新闻内容标签。网页信息抽取就是需要从网页中抽取出有效内容如新网内容标签。仅从HTML标签名称和标签属性上无法判断标签的功能,需要借助其他信息判断标签功能。因而本发明从标签中文本标签文本长度以及标签在整个HTML的文档DOM树(Document Object Model)的位置判断标签的逻辑功能,从而实现通用的网页有效内容文本的抽取功能。本发明适用于新闻网页以及blog网页等具有有效内容网页的抽取,并可过滤掉广告或者其他无用的文本内容。
如图1所示,本发明采用如下步骤进行有效内容网页抽取:
步骤S1:导入HTML网页;
步骤S2:将所述导入的HTML网页生成相应的HTML DOM树结构;
步骤S3:根据所述HTML DOM树结构找出有效内容的标题标签,将找出的标题标签内的文本内容作为标题;
步骤S4:在所述文档树结构的<body>标签中,按照与所述标题标签由小到大的标签距离依次查找文本标签,将包含有与正文有关的特定字符并具有大于预定长度的文本长度的文本标签作为正文文本标签,然后将所述正文文本标签的文本内容作为正文。
下面结合附图将详细描述上述各个步骤。
在步骤S1中,首先要导入HTML网页,由于本发明是帮助移动设备处理互联网上的HTML网页信息,以使提高诸如手机之类的移动终端上网速度和快捷获取所需要信息的能力,因此,本发明需要对输入到移动终端之前的网页做一次筛选处理,过滤掉广告等无用信息,获取所需要的有效内容,比如说新闻网页。
在步骤S2中,将所述导入的HTML网页生成相应的HTML DOM树结构。由于HTML是一种格式化的语言,其中文本信息需要被放在HTML标签中,由标签提供对信息位置、显示方式等修饰。HTML格式文件中,标签由顶向下组成树状DOM结构。根据W3C DOM规范对HTML标签和文本内容有如下的规定:
●整个文档是一个文档节点
●每个HTML标签是一个元素节点
●包含在HTML元素中的文本是文本节点
●每一个HTML属性是一个属性节点
如图2所示,HTML的DOM结构是由文本节点和标签节点组成一个树状组织结构,在根标签下还具有<head>、<body>以及<table>等标签。其中在一对<head>标签中一般存放关于网页标题、关键字的内容,比如在如下所示的html样例图中,一对<head>标签中还具有一对<title>标签,在<title>标签中存放的内容就是有效内容的标题,如新闻网页的标题。其中在一对<body>标签下存放的是有效内容的正文或图片等。
以下是一个HTML标签样例图:
<html>
<head>
<title>
标题文本
</title>
</head>
<body>
<a herf>
超链接文本
</a>
<h1>
正文文本
</h1>
</body>
</html>
在生成HTML DOM树结构时,可以针对性的构建DOM树,如,如果只是新闻网页范围内内容的抽取,只需考虑和新闻内容有关的标签,而其他跟新闻内容无关的标签都可直接舍弃掉。
在生成HTML DOM树之后,进行步骤S3来抽取有效内容的标题,也即在上述HTML DOM树结构找出<title>标签,将找出的标题标签内的文本内容作为标题。
具体地,在找出<title>标签之后,可以对<title>标签内的文本标签(h1或h2)进行过滤处理,因为正规的新闻网页会在<title>标签会存在新闻标题字符串,有些网站会用中用h1或h2子标签对新闻标题字符串进行修饰,可以对<title>标签中的文字进行处理以获得新闻标题。比如说进行连字符拆分和/或停用词处理将其中的广告词或者不是标题的其它信息过滤掉。例如网页http://news.xinhuanet.com/world/2010-04/26/c_1255760.html中,<title>标签中的字符串为“世博服务能经受住7000万人次考验吗?_国际频道_新华网”。其中“世博服务能经受住7000万人次考验吗?”为所要新闻;连字符为“_”下划线;停用词为“国际频道”和“新华网”。然后在<title>标签内寻找与<body>文本标签中相同或者编辑距离相近的文本内容,将其确定为标题。这里需要解释说明的是,所谓的编辑距离是两个字符串之间相似度的度量。是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,***一个字符,删除一个字符。两个字符串的编辑距离越小,两个字符串越相似。
如果上述在<title>标签内寻找匹配失败,则还可以另一种方法来获取标题,该方法为寻找距离<body>标签具有最近标签距离的有效文本标签,该有效文本标签内的文本作为新闻标题。
由于在HTML网页中文本标签是文字信息最主要的载体,在网页的展示意义上看来,文本信息的最主要的表现形式包括不间断的文本段的长度和文字展示的字体大小,因此这里所述有效文本标签需要满足下述任一条件:1)在非<a>超链接标签中的文本内容中,其不间断文本超过一预定值,如25个字(汉字或者外文单词);2)标签为<h1>、<h2>或者其标签内的文本内容字体大于5号,并且这些标签内嵌套的孩子文本标签中不间断文本超过另一预定值,比如5个字(汉字或者外文单词)。
在计算有效文本标签与其它标签的标签距离时,要基于它们在DOM树结构中的展示位置关系来进行,而两个标签之间的位置关系可分为下述三种情况,如图3和表1所示:
情况1:其中一个标签为孩子节点标签,另一个标签为父节点标签,孩子节点标签与其父节点标签之间的标签距离为0,如标签A和B之间的距离为0;
情况2:同层的两标签,其具有相同的父节点,它们的标签距离等于其在相同的父节点的孩子节点列表中顺序的差值,如标签C和D,其标签距离为-1;
情况3:拥有不同父节点的两标签,其之间的标签距离等于其在相同层次祖先的标签距离。比如说A和D的标签距离等于其父字节B和E之间的标签距离,而B和E之间的标签距离等于-1,因此A和D的标签距离也为-1。
表1
开始标签 | 结束标签 | 标签距离 | 应用规则 |
标签A | 标签B | 0 | 情况1 |
标签B | 标签A | 0 | 情况1 |
标签A | 标签A | 0 | 情况2 |
标签C | 标签D | -1 | 情况2 |
标签D | 标签C | 1 | 情况2 |
标签A | 标签E | -1 | 情况3 |
标签E | 标签A | 1 | 情况3 |
标签A | 标签D | -1 | 情况3 |
标签D | 标签A | 1 | 情况3 |
在上述寻找距离<body>标签具有最近标签距离的有效文本标签时,就采用上述三种情况计算出的标签距离进行比较,判断出哪个有效文本标签距离<body>标签最短,那么这个有效文本标签内的文本就作为标题内容。
接下来,在步骤S4中,进行有效内容的正文文本的抽取,在所述HTMLDOM树结构的<body>标签中,按照与所述标题标签由小到大的标签距离依次查找文本标签,将包含有特定字符和其标签内具有大于一定长度(比如为50字)的文本长度的文本标签作为正文文本标签,然后将该正文文本标签内的文本内容作为正文。
其中在步骤S4中,所述特定字符可为<p>、<br>、<div>或<table>等,这些特定字符内的内容都与正文文本有关。而在步骤S4中还可包括有关广告信息的过滤步骤S41,在步骤S41中,如果在寻找到的有效文本标签中具有另一些特定字符而不包括上述特定字符,那么可以直接判断该有效文本标签内的内容为广告信息,然后将其删除掉,进行下个有效标签内容的判定。比如,在某个有效文本标签中包含有<a>,同时又不包含<br>,该有效文本标签中的内容可以直接判断为广告信息,因而将其删除掉。由于在这个过程中删除掉了涉及到广告信息的标签,从而在接下来的寻找判断正文过程中避免了对该广告信息的再次判断,加快了正文抽取的过程。
在步骤S4中还采用了另一种判断方法用于正文文本判断。该判断方法为通过链接文本长度和非链接文本长度的占比来判断该有效文本标签内的文本内容是否为正文,若该占比很小(大于0并小于1),表明文本中的非链接文本远多于链接文本,则可以直接判断该有效文本标签内的文本内容为正文,若该占比很大(大于1),表明文本中的非链接文本远少于链接文本,则直接判断该有效文本标签内的文本内容不是正文。
在本发明中,除了可以进行有效内容的标题和正文的抽取之外,还可进行有效内容时间的抽取和图片的抽取。
如,在步骤S3和S4之间还包括时间抽取步骤S31,在该时间抽取步骤S31中,首先定义时间信息的正则表达式,根据步骤S3中已经获得的标题标签,查找距离所述标题标签最近的符合所述时间信息正则表达式的标签,将寻找到的该标签中的内容作为时间。若如果没有确定的标题标签,查找距离<body>标签最近的符合时间信息正则表达式定义的文本标签为新闻时间标签,然后将该标签中的内容作为时间。
还可在步骤S4之后包括图片抽取步骤S5,在步骤S5中,将步骤S4中获得有效正文标签中的孩子标签进行排序,记录第一个孩子标签和最后一个孩子标签,在该第一孩子标签和该最后一个孩子标签中寻找<img>标签,将查找到的<img>标签中的内容作为有效内容的图片。
下面以抓取新闻内容为例来更清楚地说明本发明所述的方法,如图4所示,首先导入门户网站HTML网页,然后将所述HTML网页转换成相应的DOM树结构,然后再进行新闻标题和新闻正文的抽取,由于对于新闻来说,时效性是非常重要的,因而,在抽取过程中还需包括新闻时间的抽取,并且在新闻中一般都是图文并茂的形式来说明时事,因而还包括对新闻图片的抽取,下面将具体描述对新闻内容各部分抽取的具体方法。
1、新闻标题抽取方法
1)判断网页<title>标签。如果<title>标签内的文本标签经过连字符拆分处理,并且经过停用词处理后能够在<body>正文标签中找到相同或者编辑距离相近的文本标签则确定为新闻标题。
2)如果规则1)匹配失败,寻找距离<body>标签具有最近标签距离的有效文本标签。有效文本标签内的文本作为新闻标题
2、新闻时间抽取方法
1)定义时间信息的正则表达式表示。
2)如果已经得到新闻标题标签,查找距离新闻标题标签距离最近的符合时间信息正则表达式定义的文本标签为新闻时间标签。
3)如果没有确定的新闻标题标签,查找距离<body>标签最近的符合时间信息正则表达式定义的文本标签为新闻时间标签。
3、新闻正文抽取方法
1)在<body>标签中找到层次深度距离有效文本标签最近并且标签有效文本估计值大于50的标签作为新闻正文根标签。
2)抽取新闻正文根标签中的所有的文本标签中的文本内容,为新闻正文。
4、新闻图片抽取方法
1)对新闻正文根标签的孩子有效文本标签进行排序,记录开始有效文本标签和结束有效文本标签。
2)寻找开始有效文本标签和结束有效文本标签之间的<img>标签,即为有效的新闻图片。
经过上述步骤,可以对所有的新闻网页进行信息抽取,不需要提前针对每一种网页结构设置信息抓取模板设计,提高了网页信息抓取的自动化程度,减少了网页信息抓取工程的开发工作量。
本发明还提供一种有效网页内容的抓取装置,所述装置包括:
导入模块,用于导入超文本链接标示语言HTML网页;
生成模块,用于将所述HTML网页生成相应的文档树结构;
标题抽取模块,用于根据所述文档树结构找出有效内容的标题标签,将找出的标题标签内的文本内容作为标题;
文本抽取模块,用于在所述文档树结构的<body>标签中,按照与所述标题标签由小到大的标签距离依次查找文本标签,将包含有与正文有关的特定字符和具有大于预定长度的文本长度的文本标签作为正文文本标签,然后将所述正文文本标签的文本内容作为正文。
进一步地,所述标题抽取模块包括:
Title标签查找单元:用于在所述文档树结构中找出<title>标签;
标题确定单元,用于在所述<title>标签中查找与所述文档树中<body>标签中相同或者编辑距离相近的文本内容,若查找到,则将所述文本内容确定为标题,否则,在所述<title>标签中查找距离所述<body>标签最近的有效文本标签,将所述有效文本标签内的文本作为新闻标题。
其中在所述标题确定单元中的所述有效文本标签为标签<h1>、<h2>或者所述有效文本标签内的文本内容字体大于预定字体号,并且所述有效文本标签内孩子文本标签中的不间断文本超过另一预定值。
进一步地,在所述Title标签查找单元和标题确定单元之间还包括过滤处理模块,用于对所述<title>标签内的文本标签进行连字符拆分和/或停用词处理,将其中的广告词或者不是标题的其它信息过滤掉。
进一步地,所述文本抽取模块还包括过滤模块,用于在查找文本标签过程中,将具有与广告信息有关的另一些特定字符而不包括所述与正文有关的特定字符的文本标签删除掉,然后再查找下个文本标签。
进一步地,所述文本抽取模块还包括占比判断模块,用于在查找文本标签过程中,根据链接文本长度和非链接文本长度的占比来判断所述文本标签内的文本内容是否为正文,若所述占比大于0并小于1,则直接判断该文本标签内的文本内容为正文;否则判断所述文本标签内的文本内容不是正文。
进一步地,所述装置还包括时间抽取模块,用于先定义时间信息的正则表达式,再根据所述标题抽取模块中已经获得的标题标签,查找距离所述标题标签最近的符合所述时间信息正则表达式的标签,将查找到的所述标签中的内容作为时间。
进一步地,所述装置还包括图片抽取模块,用于对所述文本抽取模块中所获得正文标签中的孩子标签进行排序,并记录第一个孩子标签和最后一个孩子标签,在所述第一孩子标签和所述最后一个孩子标签中寻找<img>标签,将查找到的<img>标签中的内容作为有效内容的图片。
虽然已参照几个典型实施例描述了本发明,但应当理解,所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质,所以应当理解,上述实施例不限于任何前述的细节,而应在随附权利要求所限定的精神和范围内广泛地解释,因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。
Claims (17)
1.一种有效网页内容的抓取方法,其特征在于,所述方法包括以下步骤:
步骤S1:导入超文本链接标示语言HTML网页;
步骤S2:将所述HTML网页转换成相应的文档树结构;
步骤S3:根据所述文档树结构找出有效内容的标题标签,将找出的标题标签内的文本内容作为标题;
步骤S4:在所述文档树结构的<body>标签中,按照与所述标题标签由小到大的标签距离依次查找文本标签,将包含有与正文有关的特定字符并具有大于预定长度的文本长度的文本标签作为正文文本标签,然后将所述正文文本标签的文本内容作为正文。
2.根据权利要求1所述的抓取方法,其特征在于,所述步骤S2中,所述生成相应的文档树包括与所述有效网页内容有关的标签,将其它无关的标签删除。
3.根据权利要求1所述的抓取方法,其特征在于,所述步骤S3具体为:
在所述文档树结构中找出<title>标签;
在所述<title>标签中查找与所述文档树中<body>标签中文本相同或者编辑距离相近的文本内容,若查找到,则将所述文本内容确定为标题,否则,在所述<title>标签中查找距离所述<body>标签最近的有效文本标签,将所述有效文本标签内的文本作为标题;
其中所述有效文本标签为标签<h1>、<h2>或者所述有效文本标签内的文本内容字体大于预定字体号,并且所述有效文本标签内孩子文本标签中的不间断文本超过另一预定值。
4.根据权利要求3所述的抓取方法,其特征在于,所述预定字体号为5号,所述另一预定值为5个字。
5.根据权利要求3所述的抓取方法,其特征在于,在找出<title>标签之后,还包括过滤处理步骤:
对所述<title>标签内的文本标签进行连字符拆分和/或停用词处理,将其中的广告词或者不是标题的其它信息过滤掉。
6.根据权利要求1所述的抓取方法,其特征在于,所述步骤S4还包括过滤步骤S41:在查找文本标签过程中,将具有与广告信息有关的另一些特定字符而不包括所述与正文有关的特定字符的文本标签删除掉,然后再查找下个文本标签。
7.根据权利要求1所述的抓取方法,其特征在于,步骤S4中,所述与正文有关的特定字符包括<p>、<br>、<div>或<table>,所述预定长度为50个字。
8.根据权利要求1所述的抓取方法,其特征在于,所述步骤S4还包括步骤S42:在查找文本标签过程中,根据链接文本长度和非链接文本长度的占比来判断所述文本标签内的文本内容是否为正文,若所述占比大于0并小于1,则直接判断该文本标签内的文本内容为正文;否则判断所述文本标签内的文本内容不是正文。
9.根据权利要求1所述的抓取方法,其特征在于,在所述步骤S3和S4之间还包括时间抽取步骤S31:首先定义时间信息的正则表达式:根据步骤S3中已经获得的标题标签,查找距离所述标题标签最近的符合所述时间信息的正则表达式的标签,将查找到的所述标签中的内容作为时间。
10.根据权利要求1所述的抓取方法,其特征在于,在步骤S4之后包括图片抽取步骤S5:将步骤S4中获得正文标签中的孩子标签进行排序,记录第一个孩子标签和最后一个孩子标签;在所述第一孩子标签和所述最后一个孩子标签中寻找<img>标签,将查找到的<img>标签中的内容作为有效内容的图片。
11.一种有效网页内容的抓取装置,其特征在于,所述装置包括:
导入模块,用于导入超文本链接标示语言HTML网页;
生成模块,用于将所述HTML网页生成相应的文档树结构;
标题抽取模块,用于根据所述文档树结构找出有效内容的标题标签,将找出的标题标签内的文本内容作为标题;
文本抽取模块,用于在所述文档树结构的<body>标签中,按照与所述标题标签由小到大的标签距离依次查找文本标签,将包含有与正文有关的特定字符和具有大于预定长度的文本长度的文本标签作为正文文本标签,然后将所述正文文本标签的文本内容作为正文。
12.根据权利要求11所述的抓取装置,其特征在于,所述标题抽取模块包括:
Title标签查找单元:用于在所述文档树结构中找出<title>标签;
标题确定单元,用于在所述<title>标签中查找与所述文档树中<body>标签中相同或者编辑距离相近的文本内容,若查找到,则将所述文本内容确定为标题,否则,在所述<title>标签中查找距离所述<body>标签最近的有效文本标签,将所述有效文本标签内的文本作为新闻标题。
其中在所述标题确定单元中的所述有效文本标签为标签<h1>、<h2>或者所述有效文本标签内的文本内容字体大于预定字体号,并且所述有效文本标签内孩子文本标签中的不间断文本超过另一预定值。
13.根据权利要求12所述的抓取装置,其特征在于,在所述Title标签查找单元和标题确定单元之间还包括过滤处理模块,用于对所述<title>标签内的文本标签进行连字符拆分和/或停用词处理,将其中的广告词或者不是标题的其它信息过滤掉。
14.根据权利要求11所述的抓取装置,其特征在于,所述文本抽取模块还包括过滤模块,用于在查找文本标签过程中,将具有与广告信息有关的另一些特定字符而不包括所述与正文有关的特定字符的文本标签删除掉,然后再查找下个文本标签。
15.根据权利要求11所述的抓取装置,其特征在于,所述文本抽取模块还包括占比判断单元,用于在查找文本标签过程中,根据链接文本长度和非链接文本长度的占比来判断所述文本标签内的文本内容是否为正文,若所述占比大于0并小于1,则直接判断该文本标签内的文本内容为正文;否则判断所述文本标签内的文本内容不是正文。
16.根据权利要求11所述的抓取装置,其特征在于,所述装置还包括时间抽取模块,用于先定义时间信息的正则表达式,再根据所述标题抽取模块中已经获得的标题标签,查找距离所述标题标签最近的符合所述时间信息正则表达式的标签,将查找到的所述标签中的内容作为时间。
17.根据权利要求11所述的抓取方法,其特征在于,所述装置还包括图片抽取模块,用于对所述文本抽取模块中所获得正文标签中的孩子标签进行排序,并记录第一个孩子标签和最后一个孩子标签,在所述第一孩子标签和所述最后一个孩子标签中寻找<img>标签,将查找到的<img>标签中的内容作为有效内容的图片。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101963643A CN102270206A (zh) | 2010-06-03 | 2010-06-03 | 一种有效网页内容的抓取方法及装置 |
US13/079,881 US20110302486A1 (en) | 2010-06-03 | 2011-04-05 | Method and apparatus for obtaining the effective contents of web page |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101963643A CN102270206A (zh) | 2010-06-03 | 2010-06-03 | 一种有效网页内容的抓取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102270206A true CN102270206A (zh) | 2011-12-07 |
Family
ID=45052513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101963643A Pending CN102270206A (zh) | 2010-06-03 | 2010-06-03 | 一种有效网页内容的抓取方法及装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20110302486A1 (zh) |
CN (1) | CN102270206A (zh) |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955852A (zh) * | 2012-11-01 | 2013-03-06 | 北京小米科技有限责任公司 | 一种网页资源处理方法、装置及设备 |
CN102981852A (zh) * | 2012-11-15 | 2013-03-20 | 北京奇虎科技有限公司 | 长文本提交方法和装置 |
CN103049536A (zh) * | 2012-11-01 | 2013-04-17 | 广州汇讯营销咨询有限公司 | 提取网页正文内容的方法和*** |
CN103186532A (zh) * | 2011-12-27 | 2013-07-03 | 腾讯科技(北京)有限公司 | 网页中关键图片的抓取方法和装置 |
CN103353842A (zh) * | 2013-06-20 | 2013-10-16 | 北京小米科技有限责任公司 | 一种网页的加载方法和装置 |
CN103514234A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种页面信息提取方法和装置 |
CN103546498A (zh) * | 2012-07-09 | 2014-01-29 | 百度在线网络技术(北京)有限公司 | 一种为移动终端提供访问网页的方法与设备 |
CN103559199A (zh) * | 2013-09-29 | 2014-02-05 | 北京航空航天大学 | 网页信息抽取方法和装置 |
CN103729382A (zh) * | 2012-10-16 | 2014-04-16 | 腾讯科技(深圳)有限公司 | Wap页面的结构化显示方法及装置 |
CN103793509A (zh) * | 2014-01-27 | 2014-05-14 | 北京奇虎科技有限公司 | 组图抓取方法与装置 |
CN104077273A (zh) * | 2013-03-27 | 2014-10-01 | 腾讯科技(深圳)有限公司 | 一种对网页内容抽取的方法及装置 |
CN104504016A (zh) * | 2014-12-10 | 2015-04-08 | 河海大学 | 一种面向用户的web信息自动提取方法 |
CN104598468A (zh) * | 2013-10-30 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 一种网页图片的显示方法及装置 |
CN104750668A (zh) * | 2015-03-27 | 2015-07-01 | 语联网(武汉)信息技术有限公司 | 一种统计表格有效内容的方法 |
WO2015188431A1 (zh) * | 2014-06-10 | 2015-12-17 | 中兴通讯股份有限公司 | 资源的下载方法及装置 |
CN105183801A (zh) * | 2015-08-25 | 2015-12-23 | 北京信息科技大学 | 网页正文抽取方法及装置 |
CN105550165A (zh) * | 2015-12-23 | 2016-05-04 | 深圳市八零年代网络科技有限公司 | 可将网页文章导入网页文本编辑器的插件及方法 |
CN105550179A (zh) * | 2014-10-29 | 2016-05-04 | 腾讯科技(深圳)有限公司 | 一种网页收藏方法和浏览器插件 |
CN105740417A (zh) * | 2016-01-29 | 2016-07-06 | 青岛海信移动通信技术股份有限公司 | 一种基于网页的目标数据搜索方法、模块、浏览器及终端 |
CN106033428A (zh) * | 2015-03-11 | 2016-10-19 | 北大方正集团有限公司 | 统一资源定位符的选择方法和统一资源定位符的选择装置 |
CN106354749A (zh) * | 2016-08-15 | 2017-01-25 | 北京小米移动软件有限公司 | 信息显示方法及装置 |
CN106446139A (zh) * | 2016-09-20 | 2017-02-22 | 微梦创科网络科技(中国)有限公司 | 一种提取网页内容的方法及装置 |
CN106547895A (zh) * | 2016-11-03 | 2017-03-29 | 北京锐安科技有限公司 | 一种网页信息的提取方法及装置 |
CN106874346A (zh) * | 2016-12-26 | 2017-06-20 | 微梦创科网络科技(中国)有限公司 | 网页中的页面正文提取方法和装置 |
CN107145591A (zh) * | 2017-05-17 | 2017-09-08 | 广州瞬速信息科技有限公司 | 一种基于标题的网页有效元数据内容提取方法 |
CN107357496A (zh) * | 2017-07-19 | 2017-11-17 | 掌阅科技股份有限公司 | 注释处理方法、电子设备及计算机存储介质 |
CN107391655A (zh) * | 2017-07-18 | 2017-11-24 | 北京京东尚科信息技术有限公司 | 一种抽取试读文件的方法和装置 |
CN108491536A (zh) * | 2018-03-30 | 2018-09-04 | 北京智慧正安科技有限公司 | 法律条文提取方法、装置及计算机可读存储介质 |
CN108920434A (zh) * | 2018-06-06 | 2018-11-30 | 武汉酷犬数据科技有限公司 | 一种通用的网页主题内容提取方法和*** |
CN109543126A (zh) * | 2018-11-19 | 2019-03-29 | 四川长虹电器股份有限公司 | 基于块文字占比的网页正文信息提取方法 |
CN109710833A (zh) * | 2018-12-29 | 2019-05-03 | 上海蜜度信息技术有限公司 | 用于确定内容节点的方法与设备 |
CN110163654A (zh) * | 2019-04-15 | 2019-08-23 | 上海基分文化传播有限公司 | 一种广告投放数据追踪方法和*** |
CN110837614A (zh) * | 2019-11-05 | 2020-02-25 | 上海嘉道信息技术有限公司 | 一种高效地生成网页信息抽取规则的方法及*** |
CN111966901A (zh) * | 2020-08-17 | 2020-11-20 | 山东亿云信息技术有限公司 | 政策类网页正文提取方法、***、设备及存储介质 |
WO2022179128A1 (zh) * | 2021-02-25 | 2022-09-01 | 深圳壹账通智能科技有限公司 | 基于爬虫的数据抓取方法、装置、计算机设备及存储介质 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5820770B2 (ja) * | 2012-05-21 | 2015-11-24 | 日本電信電話株式会社 | 本文抽出装置及び方法及びプログラム |
US9448979B2 (en) | 2013-04-10 | 2016-09-20 | International Business Machines Corporation | Managing a display of results of a keyword search on a web page by modifying attributes of DOM tree structure |
CN103530429B (zh) * | 2013-11-04 | 2017-01-18 | 北京中搜网络技术股份有限公司 | 一种网页正文抽取的方法 |
US9361635B2 (en) * | 2014-04-14 | 2016-06-07 | Yahoo! Inc. | Frequent markup techniques for use in native advertisement placement |
CN103927397B (zh) * | 2014-05-05 | 2017-02-22 | 湖北文理学院 | 一种基于区块树的Web页面链接块的识别方法 |
CN105354292A (zh) * | 2015-10-30 | 2016-02-24 | 东莞酷派软件技术有限公司 | 一种页面输出方法及装置 |
CN107451167B (zh) * | 2016-05-30 | 2021-08-20 | 北京京东尚科信息技术有限公司 | 站内点击位的点击数据获取方法、装置和*** |
US20180113583A1 (en) * | 2016-10-20 | 2018-04-26 | Samsung Electronics Co., Ltd. | Device and method for providing at least one functionality to a user with respect to at least one of a plurality of webpages |
CN107092625B (zh) * | 2016-12-28 | 2020-10-09 | 北京星选科技有限公司 | 数据配置方法、数据处理方法及装置 |
CN108874870A (zh) * | 2018-04-24 | 2018-11-23 | 北京中科闻歌科技股份有限公司 | 一种数据抽取方法、设备及计算机可存储介质 |
CN111079043B (zh) * | 2019-12-05 | 2023-05-12 | 北京数立得科技有限公司 | 一种关键内容定位方法 |
CN111126050B (zh) * | 2019-12-25 | 2023-05-05 | 杭州安恒信息技术股份有限公司 | 一种网站标题提取方法、***及相关设备 |
CN111444452B (zh) * | 2020-02-21 | 2023-06-23 | 广州杰赛科技股份有限公司 | 网页页面的转换方法、装置及存储介质 |
CN112487220A (zh) * | 2020-11-30 | 2021-03-12 | 广东小天才科技有限公司 | 一种笔记生成方法、智能终端及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010084702A (ko) * | 2000-02-28 | 2001-09-06 | 황병훈 | 웹 정보 검색 및 처리방법 |
CN101094194A (zh) * | 2006-06-19 | 2007-12-26 | 腾讯科技(深圳)有限公司 | 一种提取Web页面中用户所需Web信息的方法 |
CN101251855A (zh) * | 2008-03-27 | 2008-08-27 | 腾讯科技(深圳)有限公司 | 一种互联网网页清洗方法、***及设备 |
CN101702160A (zh) * | 2009-10-28 | 2010-05-05 | 深圳市同洲电子股份有限公司 | 一种互联网主题信息采集方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7469251B2 (en) * | 2005-06-07 | 2008-12-23 | Microsoft Corporation | Extraction of information from documents |
US7739254B1 (en) * | 2005-09-30 | 2010-06-15 | Google Inc. | Labeling events in historic news |
US20070106644A1 (en) * | 2005-11-08 | 2007-05-10 | International Business Machines Corporation | Methods and apparatus for extracting and correlating text information derived from comment and product databases for use in identifying product improvements based on comment and product database commonalities |
US7752204B2 (en) * | 2005-11-18 | 2010-07-06 | The Boeing Company | Query-based text summarization |
US8051372B1 (en) * | 2007-04-12 | 2011-11-01 | The New York Times Company | System and method for automatically detecting and extracting semantically significant text from a HTML document associated with a plurality of HTML documents |
TWI387890B (zh) * | 2008-12-01 | 2013-03-01 | Esobi Inc | A method of converting a hypertext label language file into a plain text file |
US8577829B2 (en) * | 2009-09-11 | 2013-11-05 | Hewlett-Packard Development Company, L.P. | Extracting information from unstructured data and mapping the information to a structured schema using the naïve bayesian probability model |
US8819028B2 (en) * | 2009-12-14 | 2014-08-26 | Hewlett-Packard Development Company, L.P. | System and method for web content extraction |
-
2010
- 2010-06-03 CN CN2010101963643A patent/CN102270206A/zh active Pending
-
2011
- 2011-04-05 US US13/079,881 patent/US20110302486A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010084702A (ko) * | 2000-02-28 | 2001-09-06 | 황병훈 | 웹 정보 검색 및 처리방법 |
CN101094194A (zh) * | 2006-06-19 | 2007-12-26 | 腾讯科技(深圳)有限公司 | 一种提取Web页面中用户所需Web信息的方法 |
CN101251855A (zh) * | 2008-03-27 | 2008-08-27 | 腾讯科技(深圳)有限公司 | 一种互联网网页清洗方法、***及设备 |
CN101702160A (zh) * | 2009-10-28 | 2010-05-05 | 深圳市同洲电子股份有限公司 | 一种互联网主题信息采集方法及装置 |
Cited By (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186532B (zh) * | 2011-12-27 | 2019-05-10 | 腾讯科技(北京)有限公司 | 网页中关键图片的抓取方法和装置 |
CN103186532A (zh) * | 2011-12-27 | 2013-07-03 | 腾讯科技(北京)有限公司 | 网页中关键图片的抓取方法和装置 |
CN103514234B (zh) * | 2012-06-30 | 2018-10-16 | 北京百度网讯科技有限公司 | 一种页面信息提取方法和装置 |
CN103514234A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种页面信息提取方法和装置 |
CN103546498A (zh) * | 2012-07-09 | 2014-01-29 | 百度在线网络技术(北京)有限公司 | 一种为移动终端提供访问网页的方法与设备 |
CN103546498B (zh) * | 2012-07-09 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 一种为移动终端提供访问网页的方法与设备 |
CN103729382A (zh) * | 2012-10-16 | 2014-04-16 | 腾讯科技(深圳)有限公司 | Wap页面的结构化显示方法及装置 |
CN103729382B (zh) * | 2012-10-16 | 2018-08-03 | 腾讯科技(深圳)有限公司 | Wap页面的结构化显示方法及装置 |
CN103049536A (zh) * | 2012-11-01 | 2013-04-17 | 广州汇讯营销咨询有限公司 | 提取网页正文内容的方法和*** |
CN102955852A (zh) * | 2012-11-01 | 2013-03-06 | 北京小米科技有限责任公司 | 一种网页资源处理方法、装置及设备 |
CN102981852A (zh) * | 2012-11-15 | 2013-03-20 | 北京奇虎科技有限公司 | 长文本提交方法和装置 |
CN102981852B (zh) * | 2012-11-15 | 2015-11-25 | 北京奇虎科技有限公司 | 长文本提交方法和装置 |
CN104077273A (zh) * | 2013-03-27 | 2014-10-01 | 腾讯科技(深圳)有限公司 | 一种对网页内容抽取的方法及装置 |
WO2014154033A1 (en) * | 2013-03-27 | 2014-10-02 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for extracting web page content |
US9934206B2 (en) | 2013-03-27 | 2018-04-03 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for extracting web page content |
CN103353842A (zh) * | 2013-06-20 | 2013-10-16 | 北京小米科技有限责任公司 | 一种网页的加载方法和装置 |
CN103559199A (zh) * | 2013-09-29 | 2014-02-05 | 北京航空航天大学 | 网页信息抽取方法和装置 |
CN103559199B (zh) * | 2013-09-29 | 2016-09-28 | 北京航空航天大学 | 网页信息抽取方法和装置 |
CN104598468A (zh) * | 2013-10-30 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 一种网页图片的显示方法及装置 |
CN103793509A (zh) * | 2014-01-27 | 2014-05-14 | 北京奇虎科技有限公司 | 组图抓取方法与装置 |
CN103793509B (zh) * | 2014-01-27 | 2018-01-19 | 北京奇虎科技有限公司 | 组图抓取方法与装置 |
WO2015188431A1 (zh) * | 2014-06-10 | 2015-12-17 | 中兴通讯股份有限公司 | 资源的下载方法及装置 |
CN105279215A (zh) * | 2014-06-10 | 2016-01-27 | 中兴通讯股份有限公司 | 资源的下载方法及装置 |
US10262341B2 (en) | 2014-06-10 | 2019-04-16 | Zte Corporation | Resource downloading method and device |
CN105550179A (zh) * | 2014-10-29 | 2016-05-04 | 腾讯科技(深圳)有限公司 | 一种网页收藏方法和浏览器插件 |
CN104504016A (zh) * | 2014-12-10 | 2015-04-08 | 河海大学 | 一种面向用户的web信息自动提取方法 |
CN106033428A (zh) * | 2015-03-11 | 2016-10-19 | 北大方正集团有限公司 | 统一资源定位符的选择方法和统一资源定位符的选择装置 |
CN106033428B (zh) * | 2015-03-11 | 2019-08-30 | 北大方正集团有限公司 | 统一资源定位符的选择方法和统一资源定位符的选择装置 |
CN104750668A (zh) * | 2015-03-27 | 2015-07-01 | 语联网(武汉)信息技术有限公司 | 一种统计表格有效内容的方法 |
CN104750668B (zh) * | 2015-03-27 | 2017-10-17 | 武汉传神信息技术有限公司 | 一种统计表格有效内容的方法 |
CN105183801B (zh) * | 2015-08-25 | 2018-07-06 | 北京信息科技大学 | 网页正文抽取方法及装置 |
CN105183801A (zh) * | 2015-08-25 | 2015-12-23 | 北京信息科技大学 | 网页正文抽取方法及装置 |
CN105550165A (zh) * | 2015-12-23 | 2016-05-04 | 深圳市八零年代网络科技有限公司 | 可将网页文章导入网页文本编辑器的插件及方法 |
CN105740417A (zh) * | 2016-01-29 | 2016-07-06 | 青岛海信移动通信技术股份有限公司 | 一种基于网页的目标数据搜索方法、模块、浏览器及终端 |
CN106354749A (zh) * | 2016-08-15 | 2017-01-25 | 北京小米移动软件有限公司 | 信息显示方法及装置 |
CN106354749B (zh) * | 2016-08-15 | 2020-06-02 | 北京小米移动软件有限公司 | 信息显示方法及装置 |
CN106446139A (zh) * | 2016-09-20 | 2017-02-22 | 微梦创科网络科技(中国)有限公司 | 一种提取网页内容的方法及装置 |
CN106547895B (zh) * | 2016-11-03 | 2020-07-03 | 北京锐安科技有限公司 | 一种网页信息的提取方法及装置 |
CN106547895A (zh) * | 2016-11-03 | 2017-03-29 | 北京锐安科技有限公司 | 一种网页信息的提取方法及装置 |
CN106874346A (zh) * | 2016-12-26 | 2017-06-20 | 微梦创科网络科技(中国)有限公司 | 网页中的页面正文提取方法和装置 |
CN106874346B (zh) * | 2016-12-26 | 2020-10-30 | 微梦创科网络科技(中国)有限公司 | 网页中的页面正文提取方法和装置 |
CN107145591B (zh) * | 2017-05-17 | 2020-10-16 | 广州瞬速信息科技有限公司 | 一种基于标题的网页有效元数据内容提取方法 |
CN107145591A (zh) * | 2017-05-17 | 2017-09-08 | 广州瞬速信息科技有限公司 | 一种基于标题的网页有效元数据内容提取方法 |
CN107391655A (zh) * | 2017-07-18 | 2017-11-24 | 北京京东尚科信息技术有限公司 | 一种抽取试读文件的方法和装置 |
CN107357496B (zh) * | 2017-07-19 | 2019-03-26 | 掌阅科技股份有限公司 | 注释处理方法、电子设备及计算机存储介质 |
CN107357496A (zh) * | 2017-07-19 | 2017-11-17 | 掌阅科技股份有限公司 | 注释处理方法、电子设备及计算机存储介质 |
CN108491536A (zh) * | 2018-03-30 | 2018-09-04 | 北京智慧正安科技有限公司 | 法律条文提取方法、装置及计算机可读存储介质 |
CN108920434A (zh) * | 2018-06-06 | 2018-11-30 | 武汉酷犬数据科技有限公司 | 一种通用的网页主题内容提取方法和*** |
CN108920434B (zh) * | 2018-06-06 | 2022-08-30 | 武汉酷犬数据科技有限公司 | 一种通用的网页主题内容提取方法和*** |
CN109543126A (zh) * | 2018-11-19 | 2019-03-29 | 四川长虹电器股份有限公司 | 基于块文字占比的网页正文信息提取方法 |
CN109543126B (zh) * | 2018-11-19 | 2022-04-29 | 四川长虹电器股份有限公司 | 基于块文字占比的网页正文信息提取方法 |
CN109710833A (zh) * | 2018-12-29 | 2019-05-03 | 上海蜜度信息技术有限公司 | 用于确定内容节点的方法与设备 |
CN109710833B (zh) * | 2018-12-29 | 2021-07-16 | 上海蜜度信息技术有限公司 | 用于确定内容节点的方法与设备 |
CN110163654A (zh) * | 2019-04-15 | 2019-08-23 | 上海基分文化传播有限公司 | 一种广告投放数据追踪方法和*** |
CN110837614A (zh) * | 2019-11-05 | 2020-02-25 | 上海嘉道信息技术有限公司 | 一种高效地生成网页信息抽取规则的方法及*** |
CN111966901A (zh) * | 2020-08-17 | 2020-11-20 | 山东亿云信息技术有限公司 | 政策类网页正文提取方法、***、设备及存储介质 |
WO2022179128A1 (zh) * | 2021-02-25 | 2022-09-01 | 深圳壹账通智能科技有限公司 | 基于爬虫的数据抓取方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20110302486A1 (en) | 2011-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102270206A (zh) | 一种有效网页内容的抓取方法及装置 | |
CN104598577B (zh) | 一种网页正文的提取方法 | |
CN101251855B (zh) | 一种互联网网页清洗方法、***及设备 | |
CN102156737B (zh) | 一种中文网页主题内容的提取方法 | |
CN103294781B (zh) | 一种用于处理页面数据的方法与设备 | |
CN101246494B (zh) | 一种互联网网页转换方法、***及设备 | |
CN102663023A (zh) | 一种提取网页内容的实现方法 | |
CN101593200A (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN109492177B (zh) | 一种基于网页语义结构的网页分块方法 | |
CN101620608A (zh) | 信息采集方法及*** | |
CN102609427A (zh) | 舆情垂直搜索分析***及方法 | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及*** | |
CN103617174A (zh) | 一种基于云计算的分布式搜索方法 | |
CN103678412A (zh) | 一种文档检索的方法及装置 | |
CN103324622A (zh) | 一种自动生成首页摘要的方法及装置 | |
CN103166981A (zh) | 一种无线网页转码方法及装置 | |
CN109165373B (zh) | 一种数据处理方法及装置 | |
CN102306201A (zh) | 一种网页标题分析的方法和*** | |
CN105740355B (zh) | 基于聚集文本密度的网页正文提取方法及装置 | |
CN107145591B (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
CN103440315A (zh) | 一种基于主题的Web页面清洗方法 | |
CN103942211A (zh) | 一种正文页的识别方法及装置 | |
CN106372232B (zh) | 基于人工智能的信息挖掘方法和装置 | |
CN106528509A (zh) | 网页信息提取方法及装置 | |
CN106897287B (zh) | 网页发布时间抽取方法和用于网页发布时间抽取的装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20111207 |