CN102651002A - 一种网页信息抽取方法及其*** - Google Patents

一种网页信息抽取方法及其*** Download PDF

Info

Publication number
CN102651002A
CN102651002A CN2011100477430A CN201110047743A CN102651002A CN 102651002 A CN102651002 A CN 102651002A CN 2011100477430 A CN2011100477430 A CN 2011100477430A CN 201110047743 A CN201110047743 A CN 201110047743A CN 102651002 A CN102651002 A CN 102651002A
Authority
CN
China
Prior art keywords
webpage
template
content
content blocks
dom tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100477430A
Other languages
English (en)
Other versions
CN102651002B (zh
Inventor
王传刚
杨巍
张立明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201110047743.0A priority Critical patent/CN102651002B/zh
Publication of CN102651002A publication Critical patent/CN102651002A/zh
Application granted granted Critical
Publication of CN102651002B publication Critical patent/CN102651002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页信息抽取方法及其***,该方法包括:将待抽取网页解析为文档对象模型DOM树,获取与待抽取网页对应的模板;根据所述模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为内容块;根据所述模板定义的输出规则,将所述内容块的内容和类型信息进行输出。采用本发明可提高网页信息抽取精度。

Description

一种网页信息抽取方法及其***
技术领域
本发明涉及计算机技术领域,特别是涉及一种网页信息抽取方法及其***。
背景技术
Web信息抽取是指从网页中抽取目标信息,是搜索引擎中一个基本的环节。网页本身是结构化的数据,所以有很多特征可以用来提取其中的信息。例如浏览器,可以通过网页中的结构信息把网页源码渲染成漂亮的网页。对于搜索引擎来说,不但要利用结构化信息来抽取其中的信息,还要对提取出的信息做进一步的处理,例如将抽取的内容进行分类和标注。
面对海量的***的数据,目前的网页抽取方法主流是基于机器学习的自动抽取和分类。机器学习的方法可以处理大部分的问题,部分网页机器学习方法处理效果比较差,或者达不到特别精细化的需求,从而需要模板抽取的方法。人工配置模板的模板抽取方法大多是基于网页源码的,这种方法是对网页做文字模式匹配,从而抽取匹配的信息,并识别成相关类型。这类方法的模板配置比较简单,能够较好的抽取网页信息,对于结构简单单一的网页抽取效果非常好。
对于大的站点,可能有多套模板,同一个模板内部结构也非常复杂,给模板的配置带来很大的困难,这将导致网页信息可能存在遗漏。而且站点的模板的局部变动是比较频繁的,配置的模板需要经常变动才能保证网元信息抽取的准确性,而对于站点模板的变动并不太好监控。可见,现有网页信息抽取方法不方便检测网页信息,对于某些类型的站点的网页的处理效果不是很好。尤其对于垂直搜索,需要精确抽取网页中的信息,需要对抽取出的信息类型做精确的分类,而现有的通过机器学习的自动抽取方法变得难以应用,或者效果较差。
由此可见,现有网页信息抽取技术对于较大型站点网页的抽取准确率有待提高,对抽取信息的召回率也有待提高。
发明内容
本发明提供一种网页信息抽取方法及其***,用以提高网页信息抽取精度,为此,本发明实施例采用如下技术方案:
一种网页信息抽取方法,包括以下步骤:
将待抽取网页解析为文档对象模型DOM树,获取与待抽取网页对应的模板;
根据所述模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为内容块;
根据所述模板定义的输出规则,将所述内容块的内容和类型信息进行输出。
一种网页信息抽取***,包括:
解析模块,用于将待抽取网页解析为文档对象模型DOM树;
获取模块,用于获取与待抽取网页对应的模板;
遍历模块,用于根据所述模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为内容块;
输出模块,用于根据所述模板定义的输出规则,将所述内容块的内容和类型信息进行输出。
本发明的上述实施例中,定义了用于进行网页信息抽取的模板,并将待抽取网页解析为DOM树,在进行网页信息抽取时,根据所述模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为内容块,根据所述模板定义的输出规则,将划分得到的内容块的内容和内容块的类型信息进行输出,从而一方面通过遍历DOM树完成了信息抽取的操作,另一方面得到了抽取结果的类型信息,与现有技术相比,提高了网页信息抽取精度。
附图说明
图1A和图1B为本发明实施例中的网页实例示意图;
图1C为图1A和图1B所示网页框架对应的DOM树结构示意图;
图2为本发明实施例提供的网页信息抽取流程示意图之一;
图3为本发明实施例提供的网页信息抽取流程示意图之二;
图4为本发明实施例提供的网页信息抽取***的结构示意图。
具体实施方式
本发明实施例提供一种通过配置模板、利用DOM(Document Object Model,文档对象模型)树来精确抽取网页中不同类型信息的技术方案,用以解决网站的网页自动抽取效果差的问题,尤其可以解决垂直搜索中的精确抽取问题。
本发明实施例中,可预先针对不同的网站定义对应的模板集合,模板集合中可包括一个或多个模板。所定义的模板可以采用XML(Extensible Markup Language,可扩展标记语言)文件格式或其他文件格式,用于进行网页抽取,不同的模板对应于不同的网页信息组织结构(或称网页框架,即frame),通过模板可从基于相应网页框架的网页中抽取内容块。所抽取出的内容块可以是一个或多个,可相邻也可不相邻。
为了提高信息抽取粒度,可在模板中针对某个或某些内容块的信息组织结构进一步进行定义,即可通过模板在从基于相应网页框架的页面中提取内容块后,进一步根据该模板对于某个或某些内容块进行更细粒度的信息抽取。
在实际应用中,为简化网页信息抽取技术的实现,便于后续网页信息抽取,可先根据网页源码将待抽取网页解析为DOM树,在进行网页信息抽取时,利用该DOM树中的各级节点结构(即分层对象模型)实现相应粒度的内容块信息抽取。
为了进一步说明DOM树的结构,下面以一个具体的网页框架实例进行说明。
图1A和图1B示出了一个具体的网页,针对该网页框架结构,图1C示出了一种DOM树结构。如图1A所示,该网页可划分为以下内容块:头部搜索框块11、站内导航块12、二级导航块13、提问块14、答案块15、回复框块16、相关内容块17、求助块18、版权块19。各内容块还可进一步进行划分,如图1B所示,答案块15可进一步划分为:答案标志块151、答案内容块152、答案作者块153、答案时间块154。其中,答案作者块153还可进一步划分为:图标块1531、作者名称块1532、编辑人数块1533等。
相应的,DOM树的结构可如图1C所示。其中,“SOSO问问”为根节点,对应于整个网页;根节点下的各级对象节点分别表示图1所示网页框架中的各对象,即对应于相应名称的内容块,如“答案”节点对应于答案块15,“答案内容”对应于答案内容块152等,以此类推。
图2示出了对图1A和图1B所示的网页进行信息抽取的流程示意图。该流程可基于网页的框架来划分网页结构,再基于局部结构并根据相匹配的模板进行精确的信息抽取。
网页信息抽取流程通常由相应的应用程序***执行。在启动该***时或者启动该***的网页信息抽取功能时,首先进行***初始化过程。在该初始化过程中,***可加载预先定义的用于进行网页信息抽取的模板,如将模板加载到内存。模板中可定义有划分规则,以控制内容块的划分和网页划分粒度;还可定义有输出规则,如定义有内容块的类型信息,该类型信息即为需要从网页中抽取的内容对应的类型信息。
如图2所示,本发明实施例提供的网页信息抽取流程可包括:
步骤201,将待抽取网页解析为DOM树,获取与待抽取网页对应的模板;
步骤202,根据该模板定义的网页划分粒度遍历该DOM树,将对应网页划分为内容块;
步骤203,根据该模板定义的输出规则,将所述内容块的内容和类型信息进行输出。
为了更进一步对上述流程进行详细说明,如图3所示,本发明实施例提供的网页信息抽取流程可包括:
步骤301,根据待进行信息抽取的网页源码建立DOM树。
该步骤中,根据如图1A和图1B所示的网页,建立如图1C所示的DOM树。
步骤302,查找与待进行信息抽取的网页对应的模板或模板集合,如果查找到,则转入步骤303,否则结束本流程。
该步骤中,可根据网页URL(Uniform Resource Locator,统一资源定位符)找到与之对应的模板或模板集合。本实施例中,在定义模板或模板集合时,可在每个模板集合前面定义匹配这个模板集合的子域名和目录名。如果网页的URL与某个模板集合中定义的子域名和目录名都匹配,那么匹配的模板集合用于对该URL进行信息抽取。
本实施例中,针对有些网站的网页框架类型比较多的情况,模板集合中会存在多个模板,分别用于对不同框架的网页进行信息抽取,这种情况下,还需要在找到与网页URL对应的模板集合后,进一步从该集合中找到与待抽取网页的框架结构对应的模板。即使模板集合中只有一个模板,也需要进行模板匹配(即通过上述方式找到对应的模板集合),以防止抽取与模板不匹配的网页,例如索引页URL,虽然通过URL命中了模板集合,但是没有配置抽取索引页的正文内容的模板,这种情况下则无法使用本发明实施例提供的方式对索引页正文内容进行信息抽取。
步骤303,根据选取的模板遍历DOM树,以便将网页划分为内容块。
该步骤中,可根据选取的模板,通过遍历DOM树,提取DOM上节点的整***置特征、标签特征、文字特征来和模板中的模式(即网页划分粒度匹配条件)进行匹配,从而将整个网页划分成若干个块。如图1A所示,本次遍历后,网页被划分成多个内容块,依次为头部搜索框块11、站内导航块12、二级导航块13、提问块14、答案块15、回复框块16、相关内容块17、求助块18、版权块19。
步骤304,根据选取的模板再次遍历DOM树,以便得到内容块中更细粒度的内容块。
该步骤中,可通过遍历DOM树中指定内容块对应的对象节点,利用内容块中的局部位置特征、标签特征、文字特征,对内容块中的信息进行进一步划分。例如,本次遍历后,答案块15被细分为:答案标志块151、答案内容块152、答案作者块153、答案时间块154。当然,不同的模板所设置的需要进一步进行划分的内容块也可能不同,例如可在模板中定义对每个内容块进行进一步划分,也可如本实施例仅定义对答案块15进行进一步划分。
步骤305,根据选取的模板输出内容块的内容。
内容块中的内容被划分后,其中的每个内容的类型也确定了。可以预先在模板中指定类型名称,这样在上述流程划分出内容块的内容后(如根据步骤304划分得到的内容块或在此基础上根据步骤305划分得到的更细粒度的内容块),可根据模板中指定的类型,输出该类型的内容,还可进一步输出该类型的名称。例如,模板中指定的需要输出的内容类型为“答案内容”,图1B中的答案内容块152的类型为“答案内容”,因此在划分出类型为“答案内容”的内容块后,可对外直接输出该内容块的内容,以及进一步输出类型名称“答案内容”,从而无需后期分类处理。
上述流程中,DOM树遍历过程中,内容块细分的粒度是通过模板中定义的网页划分粒度匹配条件来控制的,在遍历DOM树的过程中,逐个匹配模板中定义的网页划分粒度匹配条件,从而得到模板所定义的网页划分粒度的内容块。以图1A和图1B所示的网页框架以及对应的模板为例,对于重要的内容块(或称对象),例如类型为“答案”的对象节点(对应答案块15),可在模板中定义需要对该类型的对象节点的下一级节点进行遍历,以便得到该对象节点所包含的更细粒度的对象节点及其类型,如对“答案”类型的对象节点的下一级节点中的类型为“答案内容”、“答案作者”、“答案时间”的对象节点进行遍历;而对于类型为“求助”的对象节点,则可以不再设置需要进一步遍历下一级对象节点的匹配条件。相应的,在根据模板设置的匹配条件遍历DOM树时,可根据设置的匹配条件对答案块15进行进一步的细分,从而抽取出答案内容、答案作者、答案时间;对于不重要的内容块,例如求助块18则可不进行细分,而是将整个求助块18看作一个整体。如果有特殊需要,例如想抽取回答作者的名称,则还可以进一步对答案块15中的答案作者块153进行更进一步的划分,以得到作者名称块1532,从而可输出该块的具体内容(即作者名称)。
通过以上描述可以看出,本发明提出了一种通过配置模板,基于DOM树来精确抽取网页不同类型信息的方法。通过两次遍历DOM树将整个网页不断细分,从而抽取细分后的各部分内容,并能确定其类型。根据需要调整模板配置,不重要的内容可以划分的很粗略,重要的或者有需求的内容可以尽量细分,以做到根据需求精确抽取。
本发明实施例应用到网页搜索过程中,可以使自动抽取效果比较差的站点网页能够比较好的抽取相关信息,可以将抽取的信息做其他的展示,还可以提供打分因子供相关性排序时使用。本发明应用到垂直搜索中,可以实现站点信息的精确抽取,精确判断类型,提高了准确率,方便后期对信息做进一步的加工处理。
以上流程可通过软件编程方式实现,通过软件编程方式实现的用于执行上述流程的网页信息抽取***的结构可如图4所示,包括:
解析模块401,用于将待抽取网页解析为文档对象模型DOM树;
获取模块402,用于获取与待抽取网页对应的模板;
遍历模块403,用于根据所述模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为内容块;
输出模块404,用于根据所述模板定义的输出规则,将所述内容块的内容和类型信息进行输出。
上述***中,获取模块402具体用于:获取与待抽取网页的URL对应的模板集合,从所述模板集合中选取与待抽取网页的框架对应的模板。
上述***中,遍历模块403具体用于:根据所述模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为不同的内容块;根据所述模板定义的网页划分粒度遍历所述DOM树中指定内容块对应的对象节点,将该内容块划分为更细粒度的内容块。进一步的,遍历模块403还可根据所述模板定义的网页划分粒度遍历所述DOM树中所述更细粒度的内容块对应的对象节点,得到所述更细粒度的内容块中包含的内容块。
上述***中,输出模块404具体用于:据模板定义的内容类型,将划分得到的各类型内容块中相应内容进行输出,并相应输出该内容的类型信息。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (10)

1.一种网页信息抽取方法,其特征在于,包括以下步骤:
将待抽取网页解析为文档对象模型DOM树,获取与待抽取网页对应的模板;
根据所述模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为内容块;
根据所述模板定义的输出规则,将所述内容块的内容和类型信息进行输出。
2.如权利要求1所述的方法,其特征在于,所述获取与待抽取网页对应的模板,具体为:
获取与待抽取网页的统一资源定位符URL对应的模板集合;
从所述模板集合中选取与待抽取网页的框架对应的模板。
3.如权利要求1所述的方法,其特征在于,所述根据模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为内容块,具体为:
根据所述模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为不同的内容块;
根据所述模板定义的网页划分粒度遍历所述DOM树中指定内容块对应的对象节点,将该内容块划分为更细粒度的内容块。
4.如权利要求3所述的方法,其特征在于,将所述内容块划分为更细粒度的内容块后,还包括:
根据所述模板定义的网页划分粒度遍历所述DOM树中所述更细粒度的内容块对应的对象节点,得到所述更细粒度的内容块中包含的内容块。
5.如权利要求1所述的方法,其特征在于,所述根据模板定义的输出规则,将所述内容块的内容和类型信息进行输出,具体为:
根据模板定义的内容类型,将划分得到的各类型内容块中相应内容进行输出,并相应输出该内容的类型信息。
6.一种网页信息抽取***,其特征在于,包括:
解析模块,用于将待抽取网页解析为文档对象模型DOM树;
获取模块,用于获取与待抽取网页对应的模板;
遍历模块,用于根据所述模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为内容块;
输出模块,用于根据所述模板定义的输出规则,将所述内容块的内容和类型信息进行输出。
7.如权利要求6所述的***,其特征在于,所述获取模块具体用于,获取与待抽取网页的统一资源定位符URL对应的模板集合,从所述模板集合中选取与待抽取网页的框架对应的模板。
8.如权利要求6所述的***,其特征在于,所述遍历模块具体用于,根据所述模板定义的网页划分粒度遍历所述DOM树,将对应网页划分为不同的内容块;根据所述模板定义的网页划分粒度遍历所述DOM树中指定内容块对应的对象节点,将该内容块划分为更细粒度的内容块。
9.如权利要求8所述的***,其特征在于,所述遍历模块还用于,根据所述模板定义的网页划分粒度遍历所述DOM树中所述更细粒度的内容块对应的对象节点,得到所述更细粒度的内容块中包含的内容块。
10.如权利要求6所述的***,其特征在于,所述输出模块具体用于,据模板定义的内容类型,将划分得到的各类型内容块中相应内容进行输出,并相应输出该内容的类型信息。
CN201110047743.0A 2011-02-28 2011-02-28 一种网页信息抽取方法及其*** Active CN102651002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110047743.0A CN102651002B (zh) 2011-02-28 2011-02-28 一种网页信息抽取方法及其***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110047743.0A CN102651002B (zh) 2011-02-28 2011-02-28 一种网页信息抽取方法及其***

Publications (2)

Publication Number Publication Date
CN102651002A true CN102651002A (zh) 2012-08-29
CN102651002B CN102651002B (zh) 2017-08-11

Family

ID=46693010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110047743.0A Active CN102651002B (zh) 2011-02-28 2011-02-28 一种网页信息抽取方法及其***

Country Status (1)

Country Link
CN (1) CN102651002B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294781A (zh) * 2013-05-14 2013-09-11 百度在线网络技术(北京)有限公司 一种用于处理页面数据的方法与设备
CN103559202A (zh) * 2013-10-08 2014-02-05 北京奇虎科技有限公司 一种网页内容抽取装置和方法
CN103970898A (zh) * 2014-05-27 2014-08-06 重庆大学 一种基于多级规则库的信息提取方法及装置
CN104217036A (zh) * 2014-10-08 2014-12-17 广州华多网络科技有限公司 一种网页内容提取方法和设备
CN104216904A (zh) * 2013-06-03 2014-12-17 腾讯科技(深圳)有限公司 监控网站模板变化的方法及装置
CN104572874A (zh) * 2014-12-19 2015-04-29 北京锐安科技有限公司 一种网页信息的抽取方法及装置
CN105677764A (zh) * 2015-12-30 2016-06-15 百度在线网络技术(北京)有限公司 信息提取方法和装置
CN103793461B (zh) * 2013-12-02 2017-05-31 北京奇虎科技有限公司 网页信息的解析方法及装置
CN106802899A (zh) * 2015-11-26 2017-06-06 北京搜狗科技发展有限公司 网页正文抽取方法及装置
CN108090076A (zh) * 2016-11-22 2018-05-29 北京国双科技有限公司 页面文字处理方法及装置
CN108804140A (zh) * 2018-06-15 2018-11-13 中国建设银行股份有限公司 一种批量指令解析方法、装置及设备
CN109165332A (zh) * 2018-09-13 2019-01-08 郑州云海信息技术有限公司 一种网页信息获取方法、装置以及设备
CN110764781A (zh) * 2019-10-29 2020-02-07 厦门市美亚柏科信息股份有限公司 一种自动解析论坛网站数据的方法
CN111125589A (zh) * 2018-10-31 2020-05-08 北大方正集团有限公司 数据采集方法及装置、计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127044A (zh) * 2007-06-08 2008-02-20 北京大学 动态网页的分块方法
US20090300111A1 (en) * 2001-04-09 2009-12-03 Aol Llc, A Delaware Limited Liability Company Server-based browser system
CN101872350A (zh) * 2009-04-24 2010-10-27 富士通株式会社 网页正文抽取方法和装置
CN101944094A (zh) * 2009-07-06 2011-01-12 富士通株式会社 网页信息提取方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090300111A1 (en) * 2001-04-09 2009-12-03 Aol Llc, A Delaware Limited Liability Company Server-based browser system
CN101127044A (zh) * 2007-06-08 2008-02-20 北京大学 动态网页的分块方法
CN101872350A (zh) * 2009-04-24 2010-10-27 富士通株式会社 网页正文抽取方法和装置
CN101944094A (zh) * 2009-07-06 2011-01-12 富士通株式会社 网页信息提取方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘冠军: "Web对象提取检索***的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294781A (zh) * 2013-05-14 2013-09-11 百度在线网络技术(北京)有限公司 一种用于处理页面数据的方法与设备
CN104216904B (zh) * 2013-06-03 2018-09-04 腾讯科技(深圳)有限公司 监控网站模板变化的方法及装置
CN104216904A (zh) * 2013-06-03 2014-12-17 腾讯科技(深圳)有限公司 监控网站模板变化的方法及装置
CN103559202A (zh) * 2013-10-08 2014-02-05 北京奇虎科技有限公司 一种网页内容抽取装置和方法
CN103793461B (zh) * 2013-12-02 2017-05-31 北京奇虎科技有限公司 网页信息的解析方法及装置
CN103970898A (zh) * 2014-05-27 2014-08-06 重庆大学 一种基于多级规则库的信息提取方法及装置
CN104217036A (zh) * 2014-10-08 2014-12-17 广州华多网络科技有限公司 一种网页内容提取方法和设备
CN104217036B (zh) * 2014-10-08 2019-01-15 广州华多网络科技有限公司 一种网页内容提取方法和设备
CN104572874B (zh) * 2014-12-19 2019-03-05 北京锐安科技有限公司 一种网页信息的抽取方法及装置
CN104572874A (zh) * 2014-12-19 2015-04-29 北京锐安科技有限公司 一种网页信息的抽取方法及装置
CN106802899A (zh) * 2015-11-26 2017-06-06 北京搜狗科技发展有限公司 网页正文抽取方法及装置
WO2017113645A1 (zh) * 2015-12-30 2017-07-06 百度在线网络技术(北京)有限公司 信息提取方法和装置
CN105677764A (zh) * 2015-12-30 2016-06-15 百度在线网络技术(北京)有限公司 信息提取方法和装置
US10679051B2 (en) 2015-12-30 2020-06-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for extracting information
CN108090076A (zh) * 2016-11-22 2018-05-29 北京国双科技有限公司 页面文字处理方法及装置
CN108804140A (zh) * 2018-06-15 2018-11-13 中国建设银行股份有限公司 一种批量指令解析方法、装置及设备
CN109165332A (zh) * 2018-09-13 2019-01-08 郑州云海信息技术有限公司 一种网页信息获取方法、装置以及设备
CN111125589A (zh) * 2018-10-31 2020-05-08 北大方正集团有限公司 数据采集方法及装置、计算机可读存储介质
CN111125589B (zh) * 2018-10-31 2023-09-05 新方正控股发展有限责任公司 数据采集方法及装置、计算机可读存储介质
CN110764781A (zh) * 2019-10-29 2020-02-07 厦门市美亚柏科信息股份有限公司 一种自动解析论坛网站数据的方法
CN110764781B (zh) * 2019-10-29 2022-06-14 厦门市美亚柏科信息股份有限公司 一种自动解析论坛网站数据的方法

Also Published As

Publication number Publication date
CN102651002B (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
CN102651002A (zh) 一种网页信息抽取方法及其***
CN101025738B (zh) 一种免模板动态网站生成方法
CN103294781B (zh) 一种用于处理页面数据的方法与设备
CN101551800B (zh) 标注信息生成装置、查询装置及共享***
CN103955529B (zh) 一种互联网信息搜索聚合呈现方法
CN102831121A (zh) 一种网页信息抽取的方法和***
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN103309806B (zh) 一种快速开发测试的装置及方法
CN102279894A (zh) 基于语义的查找、集成和提供评论信息的方法及搜索***
CN103020295B (zh) 一种问题标签标注方法及装置
CN103198074A (zh) 一种动态发布网站页面的设计方法及***
CN103389895A (zh) 一种前端页面的生成方法及***
CN104598577A (zh) 一种网页正文的提取方法
JP2014527660A (ja) レイアウトファイルにおける構造化情報の取得方法及び装置
CN106503211A (zh) 面向信息发布类网站的移动版自动生成的方法
CN107590288B (zh) 用于抽取网页图文块的方法和装置
CN103853770B (zh) 一种抽取论坛网页中帖子内容的方法及***
CN105740355A (zh) 基于聚集文本密度的网页正文提取方法及装置
CN105204806A (zh) 移动终端网页个性化显示方法及装置
CN107357810A (zh) 一种用于输出专题落地页的方法及***
CN105589918A (zh) 一种提取页面信息的方法及装置
US20090182759A1 (en) Extracting entities from a web page
JP2011096078A (ja) 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
CN106339381A (zh) 一种信息处理方法及装置
CN107491524B (zh) 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131017

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20131017

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518057 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant