CN102360368A - 基于抽取模板可视化定制的Web数据抽取方法 - Google Patents

基于抽取模板可视化定制的Web数据抽取方法 Download PDF

Info

Publication number
CN102360368A
CN102360368A CN2011103017759A CN201110301775A CN102360368A CN 102360368 A CN102360368 A CN 102360368A CN 2011103017759 A CN2011103017759 A CN 2011103017759A CN 201110301775 A CN201110301775 A CN 201110301775A CN 102360368 A CN102360368 A CN 102360368A
Authority
CN
China
Prior art keywords
page
data
template
extraction
data item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103017759A
Other languages
English (en)
Other versions
CN102360368B (zh
Inventor
李庆忠
闫中敏
彭朝晖
蔡益清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201110301775.9A priority Critical patent/CN102360368B/zh
Publication of CN102360368A publication Critical patent/CN102360368A/zh
Application granted granted Critical
Publication of CN102360368B publication Critical patent/CN102360368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于抽取模板可视化定制的Web数据抽取方法,它包括以下步骤A.模板页面预处理;B.抽取模板可视化定制;C.对页面批量抽取频率进行设置;D.页面批量抽取。所述步骤A模板页面预处理,即模板页面源代码的转换及展示;所述步骤B抽取模板可视化定制是指在用户界面上提供拖拽选中功能,由用户自行设定模板页面上的属性标签和数据值与领域模型中属性的对应关系,建立抽取模板。所述步骤C页面批量抽取频率设置按每隔8小时对爬取获得的HTML页面进行批量抽取一次。所述步骤D页面批量抽取是指使用相应的抽取模板对爬取获得的大量HTML页面进行批量抽取,将其中的半结构化数据转合成结构化数据保存至本地数据库。

Description

基于抽取模板可视化定制的Web数据抽取方法
技术领域
本发明涉及一种涉及Web页面的抽取,属于计算机应用领域,尤其涉及一种基于抽取模板可视化定制的Web数据抽取方法。
背景技术
随着互联网技术的飞速发展,Web上的网站和网页数量以***性的趋势增长,从而使Web成为一个巨大的、分布广泛的数据源。文本、表格和多媒体文件如图片、视频等是Web信息的主要表现形式,Web数据抽取即是按照一定的规则,从Web数据中抽取语义一致性的、结构化的数值知识,建立数值知识元库,满足用户数据查询、数据分析需求。为了自动化地将输入的Web页面转化成结构化数据,在数据抽取领域已经展开了很多工作。Web数据抽取主要用于产生结构化数据,这些结构化数据便于后续分析和挖掘处理。Web数据抽取对于众多Web数据分析和挖掘应用具有至关重要的作用和意义。
一个Web数据抽取任务在形式上可以定义为输入和输出。输入可以是非结构化数据,例如自由文本,也可以是在Web中普遍存在的半结构化文档。
由于存在以上技术上的要求,当前在Web页面数据抽取方面,还存在以下不足之处:
1由于Web上数据的异构性和结构的缺失,导致面向分析和挖掘的Web数据应用,例如市场情报分析等,需要花费大量的代价去处理不同格式的Web数据源。
2一个Web数据抽取任务的输出可以是一个具有多条记录的关系表或者是具有复杂结构的数据对象。对于一些Web数据抽取任务,属性可以缺失或者在一条记录中某个属性具有多个属性值,另外,当Web页面中的半结构化数据存在属性顺序不唯一或拼写错误的时候,Web数据抽取任务将变得更加复杂和困难。
发明内容
本发明的目的就是为了解决上述问题,提供一种基于抽取模板可视化定制的Web数据抽取方法,它具有可视化、友好的用户交互能力优点。
为了实现上述目的,本发明采用如下技术方案:
一种基于抽取模板可视化定制的Web数据抽取方法,包括以下步骤:
A.模板页面预处理。
B.抽取模板可视化定制。
C.页面批量抽取频率设置。
D、页面批量抽取。
所述模板页面预处理即模板页面源代码的转换及展示:通过分析模板页面的HTML源代码,解析其DOM树结构,并将其转化为XML格式,并在用户界面中展示;
所述抽取模板可视化定制是指在用户界面上提供拖拽选中功能,由用户自行设定模板页面上的属性标签和数据值与领域模型中属性的对应关系,建立抽取模板;
所述页面批量抽取频率设置按每隔一段时间(如8小时)对爬取获得的HTML页面进行批量抽取一次;
所述页面批量抽取是指使用相应的抽取模板对爬取获得的大量HTML页面进行批量抽取,将其中的半结构化数据转合成结构化数据保存至本地数据库。
所述步骤A中模板页面源代码的转换及展示具体包括以下步骤:
A1.对提供的模板页面进行HTML源代码分析,转化成符合XML规范的页面文件。
A2.对页面分析其完整的文档对象模型DOM结构,并展示在用户界面。
A3.对转化后的页面,在不破坏页面原有结构的条件下,添加必要的Js控制代码,用以实现页面标注。
A4.将经过以上步骤处理过的XML格式的页面在用户界面中展示出来提供给用户进行模板可视化定制使用。
所述步骤B中抽取模板可视化定制具体包括以下步骤:
B1.用户打开模板页面之后,用鼠标拖选中要抽取的数据项,程序会根据用户拖选出的数据项,分析这个数据项的XPATH路径并记录下来。
B2.若该数据项在页面中还有对应的页面标签,则将该数据标签也拖选出,程序会记录下该数据标签的XPATH路径和该标签的文本内容,并与选出的数据项XPATH共同组合一条抽取规则。若该数据项没有对应的数据标签,则不用选择。
B3.用户依据领域模型,为通过上述B1、B2步后形成的抽取规则选择一个属性标签,这个标签是包含在事先已经建立好的领域模型中,且符合这条抽取规则对应数据项语义,该属性标签标示这条抽取规则对应的数据项的语义,其本质为完成了页面数据项对数据表中列的映射。
B4.重复以上B1至B3步,直到所有要抽取的数据被标注出来,将经过以上步骤得到的抽取规则集合保存为一个页面抽取模板。
所述步骤C中页面批量抽取具体包括以下步骤:
C1.将当前要抽取的页面转化成规范的XML文件。
C2.利用抽取模板中记录的抽取规则,其本质为XPATH路径,抽取出所需要的数据项。
C3.根据每条抽取规则对应的数据标签,将抽取出的数据项保存到数据库表相应的列中。
其中第C2步还可以细分成以下步骤:
C2-1.选择一条还未使用过的抽取规则。
C2-2.若这条抽取规则没有记录对应的页面标签信息,则根据数据项对应的XPATH路径直接读取出对应的文本内容,并将这条抽取规则标记为已使用,转到步骤C2-8。若这条抽取规则有记录对应的页面标签信息,转到步骤C2-3。
C2-3.根据该页面标签对应的XPATH路径抽取出对应的文本。若抽取成功,转到步骤C2-4。若抽取失败,则说明在当前页面中,该页面标签对应的数据项可能被缺省或移位,转到步骤C2-7。
C2-4.将抽取出的文本与这条抽取规则中记录的页面标签文本进行比对。若匹配,根据抽取规则中记录的数据项的XPATH,抽取出对应数据,并将这条抽取规则标记为已使用,转到步骤C2-8。若不匹配,则说明在当前页面中,该页面标签对应的数据项可能被缺省或移位,则转到步骤C2-5。
C2-5.检查该文本是否匹配某条未使用过的抽取规则中的页面标签。如果存在对应的抽取规则,则这个文本可能也是一个页面标签,转到步骤C2-6,否则转到步骤C2-7。
C2-6.根据抽规则中记录的页面标签与数据项的XPATH,计算出当这个文本为页面标签时,对应数据项的XPATH,并抽取相应数据,若抽取出数据非空,则将对应的抽取规则标记为已使用,转到步骤C2-7。
C2-7.根据原有的页面标签的XPATH路径在页面中进行扩展搜索,寻找该页面标签。若最终没有找到,则可能在当前页中该标签对应的数据项被缺省。若找到,则根据抽规则中记录的页面标签与数据项的XPATH,计算出该页面标签对应数据项的XPATH,抽取相应数据。最后将原抽取规则标记为已使用,转到步骤C2-8。
C2-8.重复以上步骤,直到所有的抽取规则都被使用。
步骤C2-3是为防止Web页面中的半结构化数据存在属性顺序不唯一或拼写错误的情况。通过一个扩展搜索保证不会出现数据丢失的情况。
本发明的有益效果:
1、本发明针对每个数据源,采用可视化用户定制方法,设计参数化、可配置的包装器,使之具备可视化的、友好的用户交互能力,对采集的大规模Web页面依据包装器实施自动抽取。
2、由于Web页面上的内容和结构经常发生变化,导致已产生的抽取规则失效,对如何有效地提高Web数据抽取的自适应能力进行了研究,使之能够根据目标网页发生的变化自动做出调整,更新相应的抽取规则。
3、本发明的数据抽取方法适用性强,精度高,能够自适应网页变化,可大大提高抽取效率。
附图说明
图1为基于抽取模板可视化定制的Web数据抽取方法流程;
图2为模板页面预处理流程;
图3为页面抽取模板可视化定制流程;
图4为页面抽取总体流程;
图5为抽取过程细化流程;
图6为某网站详细页面作为模板页示意图;
图7为对网站的网页进行抽取过程示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
图1中,一种基于抽取模板可视化定制的Web数据抽取方法,它包括以下步骤
A.模板页面预处理;
B.抽取模板可视化定制;
C.对页面批量抽取频率进行设置;
D、页面批量抽取。
所述步骤A模板页面预处理,即模板页面源代码的转换及展示:它通过分析内存程序中模板页面的HTML源代码,解析其DOM树结构,并将其转化为XML格式,并在显示器的用户界面中展示。
所述步骤B抽取模板可视化定制是指在用户界面上提供拖拽选中功能,由用户自行设定模板页面上的属性标签和数据值与领域模型中属性的对应关系,建立抽取模板。
所述步骤C页面批量抽取频率设置按每隔8小时对爬取获得的HTML页面进行批量抽取一次。
所述步骤D页面批量抽取是指使用相应的抽取模板对爬取获得的大量HTML页面进行批量抽取,将其中的半结构化数据转合成结构化数据保存至本地数据库。
图2中,所述步骤A中模板页面源代码的转换及展示具体包括以下步骤:
A1.对提供的模板页面进行HTML源代码分析,转化成符合XML规范的页面文件;
A2.对页面分析其完整的DOM结构,并展示在用户界面;
A3.对转化后的页面,在满足页面原有结构的条件下,添加必要的Js控制代码,用以实现页面标注;
A4.将经过以上步骤处理过得XML格式的页面在用户界面中展示出来提供给用户进行模板可视化定制使用。
图3中,所述步骤B中抽取模板可视化定制具体包括以下步骤:
B1.用户打开显示器显示的模板页面之后,用鼠标拖选中要抽取的数据项,程序会根据用户拖选出的数据项,分析这个数据项的XPATH路径并记录下来;
B2.若该数据项在页面中还有对应的页面标签,则将该数据标签也拖选出,程序会记录下该数据标签的XPATH路径和该标签的文本内容,并与选出的数据项XPATH共同组合一条抽取规则;若该数据项没有对应的数据标签,则不用选择;
B3.用户依据领域模型,为通过上述B2、B3步后形成的抽取规则选择一个属性标签,这个标签是包含在事先已经建立好的领域模型中,且符合这条抽取规则对应数据项语义,该属性标签标示这条抽取规则对应的数据项的语义,其实质就是完成了页面数据项对数据表中列的映射;
B4.重复以上B2至B4步,直到所有要抽取的数据被标注出来,将经过以上步骤得到的抽取规则集合保存为一个页面抽取模板。
图4中,所述步骤C中抽取模板可视化定制具体包括以下步骤:
C1.将当前要抽取的页面转化成规范的XML文件;
C2.利用抽取模板中记录的抽取规则,其本质就是XPATH路径,抽取出所需要的数据项;
C3.根据每条抽取规则对应的数据标签,将抽取出的数据项保存到数据库表相应的列中。
图5中,所述步骤C2具体包括以下步骤:
C2-1选择一条还未使用过的抽取规则;
C2-2若这条抽取规则没有记录对应的页面标签信息,则根据数据项对应的XPATH路径直接读取出对应的文本内容,并将这条抽取规则标记为已使用,转到步骤C2-8;若这条抽取规则有记录对应的页面标签信息,转到步骤C2-3;
C2-3根据该页面标签对应的XPATH路径抽取出对应的文本;若抽取成功,转到步骤C2-4;若抽取失败,则说明在当前页面中,该页面标签对应的数据项存在被缺省或移位的情况,则转到步骤C2-7;
C2-4将抽取出的文本与这条抽取规则中记录的页面标签文本进行比对;若匹配,根据抽取规则中记录的数据项的XPATH,抽取出对应数据,并将这条抽取规则标记为已使用,转到步骤C2-8;若不匹配,则说明在当前页面中,该页面标签对应的数据项存在被缺省或移位的情况,则转到步骤C2-5;
C2-5检查该文本是否匹配某条未使用过的抽取规则中的页面标签;如果存在对应的抽取规则,则这个文本将作为一个页面标签,转到步骤C2-6,否则转到步骤C2-7;
C2-6根据抽规则中记录的页面标签与数据项的XPATH,计算出当这个文本为页面标签时,对应数据项的XPATH,并抽取相应数据,若抽取出数据非空,则将对应的抽取规则标记为已使用,转到步骤C2-7;
C2-7根据原有的页面标签的XPATH路径在页面中进行扩展搜索,寻找该页面标签;若最终没有找到,则说明存在在当前页中该标签对应的数据项被缺省的情况;若找到,则根据抽规则中记录的页面标签与数据项的XPATH,计算出该页面标签对应数据项的XPATH,抽取相应数据;最后将原抽取规则标记为已使用,转到步骤C2-8;
C2-8重复以上步骤,直到所有的抽取规则都被使用。
所述步骤C2-3是为实现当Web页面中的半结构化数据出现属性顺序不唯一或者拼写错误的情况,通过一个扩展搜索保证不会出现数据丢失的情况。
本发明的另一个实施实例,我们选择采用某网站作为数据源。详细页面作为模板页,用于定制模板,页面主要数据区域截图如附图6。
假设用户手工标注的要抽取的数据如图中被矩形框包围的部分。
则我们可以获得以下10条抽取规则:
1.数据标签:职位名称;
页面标签:空;
数据项XPATH:/HTML/BODY[1]/DIV[2]/DIV[1]/DIV[2]/TABLE[3]/TBODY[1]/TR[3]/TD[2];
2.数据标签:招聘公司;
页面标签:空;
数据项XPAHT:/HTML/BODY[1]/DIV[2]/DIV[1]/DIV[2]/TABLE[1]/TBODY[1]/TR[2]/TD[1]/TABLE[1]/TBODY[1]/TR[1]/TD[1]/STRONG[1]
3.数据标签:发布日期;
页面标签:发布日期;
页面标签XPATH:/HTML/BODY[1]/DIV[2]/DIV[1]/DIV[2]/TABLE[3]/TBODY[1]/TR[1]/TD[1]
数据项XPATH:/HTML/BODY[1]/DIV[2]/DIV[1]/DIV[2]/TABLE[3]/TBODY[1]/TR[1]/TD[2]
4.数据标签:工作地点;
页面标签:工作地点;
页面标签XPATH:/HTML/BODY[1]/DIV[2]/DIV[1]/DIV[2]/TABLE[3]/TBODY[1]/TR[1]/TD[3]
数据项XPATH:/HTML/BODY[1]/DIV[2]/DIV[1]/DIV[2]/TABLE[3]/TBODY[1]/TR[1]/TD[4]
5.数据标签:招聘人数;
页面标签:招聘人数;
页面标签XPATH:/HTML/BODY[1]/DIV[2]/DIV[1]/DIV[2]/TABLE[3]/TBODY[1]/TR[1]/TD[5]
数据项XPATH:/HTML/BODY[1]/DIV[2]/DIV[1]/DIV[2]/TABLE[3]/TBODY[1]/TR[1]/TD[6]
6.数据标签:工作经验;
页面标签:工作年限;
页面标签XPATH:/HTML/BODY[1]/DIV[2]/DIV[1]/DIV[2]/TABLE[3]/TBODY[1]/TR[2]/TD[1]
数据项XPATH:/HTML/BODY[1]/DIV[2]/DIV[1]/DIV[2]/TABLE[3]/TBODY[1]/TR[2]/TD[2]
7.数据标签:语言要求;
页面标签:语言要求;
页面标签XPATH:/HTML/BODY[1]/DIV[2]/DIV[1]/DIV[2]/TABLE[3]/TBODY[1]/TR[2]/TD[3]
数据项XPATH:/HTML/BODY[1]/DIV[2]/DIV[1]/DIV[2]/TABLE[3]/TBODY[1]/TR[2]/TD[4]
8.数据标签:学历;
页面标签:学历要求;
页面标签XPATH:/HTML/BODY[1]/DIV[2]/DIV[1]/DIV[2]/TABLE[3]/TBODY[1]/TR[2]/TD[5]
数据项XPATH:/HTML/BODY[1]/DIV[2]/DIV[1]/DIV[2]/TABLE[3]/TBODY[1]/TR[2]/TD[6]
9.数据标签:薪金水平;
页面标签:薪水范围;
页面标签XPATH:/HTML/BODY[1]/DIV[2]/DIV[1]/DIV[2]/TABLE[3]/TBODY[1]/TR[2]/TD[5]
数据项XPATH:/HTML/BODY[1]/DIV[2]/DIV[1]/DIV[2]/TABLE[3]/TBODY[1]/TR[2]/TD[6]
利用这9条抽取规则构成的抽取模板,我们可以对来源于该网站的同类网页进行批量。
假设我们对同一网站的网页(附图7)进行抽取:
我们可以发现这页中缺少我们要抽取的2个数据项:语言要求和薪金水平。其中通过页面代码分析我们可以发现1~6条抽取规则然后有效可以直接利用。当我们使用第7条抽取规则“语言要求”时,我们会发现当前页相应标签XPATH位置上的文本是学历,和抽取规则中记录的语言要求不符,但是学历这个页面标签在抽取规则8中存在,因此将学历后的数据项“大专”抽取出来,并在页面中根扩展搜索“语言要求”这个页面标签,由于页面中不存在该标签,因此搜索不到。这样虽然被抽取页面结构与创建模板的结构有所不同,但是页面上的数据依然会被正确的识别并抽取出来。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于抽取模板可视化定制的Web数据抽取方法,其特征是,它包括以下步骤:
A.模板页面预处理;
B.抽取模板可视化定制;
C.对页面批量抽取频率进行设置;
D.页面批量抽取。
2.如权利要求书1所述的基于抽取模板可视化定制的Web数据抽取方法,其特征是,所述步骤A模板页面预处理,即模板页面源代码的转换及展示:它通过分析内存程序中模板页面的HTML源代码,解析其DOM树结构,并将其转化为XML格式,并在显示器的用户界面中展示。
3.如权利要求书1所述的基于抽取模板可视化定制的Web数据抽取方法,其特征是,所述步骤B抽取模板可视化定制是指在用户界面上提供拖拽选中功能,由用户自行设定模板页面上的属性标签和数据值与领域模型中属性的对应关系,建立抽取模板。
4.如权利要求书1所述的基于抽取模板可视化定制的Web数据抽取方法,其特征是,所述步骤C页面批量抽取频率设置按每隔8小时对爬取获得的HTM L页面进行批量抽取一次。
5.如权利要求书1所述的基于抽取模板可视化定制的Web数据抽取方法,其特征是,所述步骤D页面批量抽取是指使用相应的抽取模板对爬取获得的大量HTML页面进行批量抽取,将其中的半结构化数据转合成结构化数据保存至本地数据库。
6.如权利要求书1或2所述的基于抽取模板可视化定制的Web数据抽取方法,其特征是,所述步骤A中模板页面源代码的转换及展示具体包括以下步骤:
A1.对提供的模板页面进行HTML源代码分析,转化成符合XML规范的页面文件;
A2.对页面分析其完整的DOM结构,并展示在用户界面;
A3.对转化后的页面,在满足页面原有结构的条件下,添加必要的JS控制代码,用以实现页面标注;
A4.将经过以上步骤处理过得XML格式的页面在用户界面中展示出来提供给用户进行模板可视化定制使用。
7.如权利要求书1或3所述的基于抽取模板可视化定制的Web数据抽取方法,其特征是,所述步骤B中抽取模板可视化定制具体包括以下步骤:
B1.用户打开显示器显示的模板页面之后,用鼠标拖选中要抽取的数据项,程序会根据用户拖选出的数据项,分析这个数据项的XPATH路径并记录下来;
B2.若该数据项在页面中还有对应的页面标签,则将该数据标签也拖选出,程序会记录下该数据标签的XPATH路径和该标签的文本内容,并与选出的数据项XPATH共同组合一条抽取规则;若该数据项没有对应的数据标签,则不用选择;
B3.用户依据领域模型,为通过上述B2、B3步后形成的抽取规则选择一个属性标签,这个标签是包含在事先已经建立好的领域模型中,且符合这条抽取规则对应数据项语义,该属性标签标示这条抽取规则对应的数据项的语义,其实质就是完成了页面数据项对数据表中列的映射;
B4.重复以上B2至B4步,直到所有要抽取的数据被标注出来,将经过以上步骤得到的抽取规则集合保存为一个页面抽取模板。
8.如权利要求书1或4所述的基于抽取模板可视化定制的Web数据抽取方法,其特征是,所述步骤C中抽取模板可视化定制具体包括以下步骤:
C1.将当前要抽取的页面转化成规范的XML文件;
C2.利用抽取模板中记录的抽取规则,其本质就是XPATH路径,抽取出所需要的数据项;
C3.根照每条抽取规则对应的数据标签,将抽取出的数据项保存到数据库表相应的列中。
9.如权利要求书8所述的基于抽取模板可视化定制的Web数据抽取方法,其特征是,所述步骤C2具体包括以下步骤:
C2-1选择一条还未使用过的抽取规则;
C2-2若这条抽取规则没有记录对应的页面标签信息,则根据数据项对应的XPATH路径直接读取出对应的文本内容,并将这条抽取规则标记为已使用,转到步骤C2-8;若这条抽取规则有记录对应的页面标签信息,转到步骤C2-3;
C2-3根据该页面标签对应的XPATH路径抽取出对应的文本;若抽取成功,转到步骤C2-4;若抽取失败,则说明在当前页面中,该页面标签对应的数据项存在被缺省或移位的情况,则转到步骤C2-7;
C2-4将抽取出的文本与这条抽取规则中记录的页面标签文本进行比对;若匹配,根据抽取规则中记录的数据项的XPATH,抽取出对应数据,并将这条抽取规则标记为已使用,转到步骤C2-8;若不匹配,则说明在当前页面中,该页面标签对应的数据项存在被缺省或移位的情况,则转到步骤C2-5;
C2-5检查该文本是否匹配某条未使用过的抽取规则中的页面标签;如果存在对应的抽取规则,则这个文本将作为一个页面标签,转到步骤C2-6,否则转到步骤C2-7;
C2-6根据抽规则中记录的页面标签与数据项的XPATH,计算出当这个文本为页面标签时,对应数据项的XPATH,并抽取相应数据,若抽取出数据非空,则将对应的抽取规则标记为已使用,转到步骤C2-7;
C2-7根据原有的页面标签的XPATH路径在页面中进行扩展搜索,寻找该页面标签;若最终没有找到,则说明存在在当前页中该标签对应的数据项被缺省的情况;若找到,则根据抽规则中记录的页面标签与数据项的XPATH,计算出该页面标签对应数据项的XPATH,抽取相应数据;最后将原抽取规则标记为已使用,转到步骤C2-8;
C2-8重复以上步骤,直到所有的抽取规则都被使用。
10.如权利要求书9所述的基于抽取模板可视化定制的Web数据抽取方法,其特征是,所述步骤C2-3是为实现当Web页面中的半结构化数据出现属性顺序不唯一或者拼写错误的情况,通过一个扩展搜索保证不会出现数据丢失的情况。
CN201110301775.9A 2011-10-09 2011-10-09 基于抽取模板可视化定制的Web数据抽取方法 Active CN102360368B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110301775.9A CN102360368B (zh) 2011-10-09 2011-10-09 基于抽取模板可视化定制的Web数据抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110301775.9A CN102360368B (zh) 2011-10-09 2011-10-09 基于抽取模板可视化定制的Web数据抽取方法

Publications (2)

Publication Number Publication Date
CN102360368A true CN102360368A (zh) 2012-02-22
CN102360368B CN102360368B (zh) 2014-07-02

Family

ID=45585697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110301775.9A Active CN102360368B (zh) 2011-10-09 2011-10-09 基于抽取模板可视化定制的Web数据抽取方法

Country Status (1)

Country Link
CN (1) CN102360368B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020189A (zh) * 2012-12-03 2013-04-03 深圳中兴网信科技有限公司 数据处理装置和数据处理方法
CN103116448A (zh) * 2013-01-30 2013-05-22 浪潮电子信息产业股份有限公司 一种可视化信息的抽取方法
CN104182412A (zh) * 2013-05-24 2014-12-03 ***通信集团安徽有限公司 一种网页爬取方法及***
CN104350493A (zh) * 2012-06-08 2015-02-11 微软公司 将数据变换成可消费的内容
CN105447184A (zh) * 2015-12-15 2016-03-30 北京百分点信息科技有限公司 信息抓取方法及装置
CN106021485A (zh) * 2016-05-19 2016-10-12 中国传媒大学 一种多元属性电影数据可视化***
CN106202348A (zh) * 2016-07-04 2016-12-07 中山大学 一种网页表格信息抽取方法
US9595298B2 (en) 2012-07-18 2017-03-14 Microsoft Technology Licensing, Llc Transforming data to create layouts
CN106648677A (zh) * 2016-12-28 2017-05-10 中国科学院南京地理与湖泊研究所 一种水环境领域模型集成模板的可视化定制方法
CN106980921A (zh) * 2017-03-02 2017-07-25 上海歌略软件科技有限公司 一种自定义风险分析方法
CN107437158A (zh) * 2016-05-26 2017-12-05 北京京东尚科信息技术有限公司 基于浏览器插件的数据查询方法和装置
CN107608949A (zh) * 2017-10-16 2018-01-19 北京神州泰岳软件股份有限公司 一种基于语义模型的文本信息抽取方法及装置
CN107609144A (zh) * 2017-09-21 2018-01-19 浪潮软件股份有限公司 一种分析结果处理方法、装置及***
CN108121743A (zh) * 2016-11-30 2018-06-05 中移(苏州)软件技术有限公司 一种通用网页模版的生成和使用方法、***
CN108334634A (zh) * 2018-02-27 2018-07-27 北京中关村科金技术有限公司 一种提取数据信息的方法、装置、设备及存储介质
CN108984683A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 结构化数据的提取方法、***、设备及存储介质
CN109753596A (zh) * 2018-12-29 2019-05-14 中国科学院计算技术研究所 用于大规模网络数据采集的信源管理与配置方法和***
US10380228B2 (en) 2017-02-10 2019-08-13 Microsoft Technology Licensing, Llc Output generation based on semantic expressions
CN110309364A (zh) * 2018-03-02 2019-10-08 腾讯科技(深圳)有限公司 一种信息抽取方法及装置
TWI682287B (zh) * 2018-10-25 2020-01-11 財團法人資訊工業策進會 知識圖譜產生裝置、方法及其電腦程式產品
CN111782737A (zh) * 2020-08-12 2020-10-16 中国工商银行股份有限公司 信息处理方法、装置、设备及存储介质
CN112199960A (zh) * 2020-11-12 2021-01-08 北京三维天地科技股份有限公司 一种标准知识元粒度解析***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588371A (zh) * 2004-09-08 2005-03-02 孟小峰 包装器的生成方法
CN101582075A (zh) * 2009-06-24 2009-11-18 大连海事大学 Web信息抽取***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588371A (zh) * 2004-09-08 2005-03-02 孟小峰 包装器的生成方法
CN101582075A (zh) * 2009-06-24 2009-11-18 大连海事大学 Web信息抽取***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李 朝等: "基于DOM 树的可适应性Web 信息抽取", 《计算机科学》 *
郝爱峰: "网页结构化信息抽取技术方法研究", 《山西电子技术》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104350493A (zh) * 2012-06-08 2015-02-11 微软公司 将数据变换成可消费的内容
CN104350493B (zh) * 2012-06-08 2017-08-25 微软技术许可有限责任公司 将数据变换成可消费的内容
US9595298B2 (en) 2012-07-18 2017-03-14 Microsoft Technology Licensing, Llc Transforming data to create layouts
CN103020189B (zh) * 2012-12-03 2016-08-10 深圳中兴网信科技有限公司 数据处理装置和数据处理方法
CN103020189A (zh) * 2012-12-03 2013-04-03 深圳中兴网信科技有限公司 数据处理装置和数据处理方法
CN103116448A (zh) * 2013-01-30 2013-05-22 浪潮电子信息产业股份有限公司 一种可视化信息的抽取方法
CN104182412A (zh) * 2013-05-24 2014-12-03 ***通信集团安徽有限公司 一种网页爬取方法及***
CN104182412B (zh) * 2013-05-24 2017-08-04 ***通信集团安徽有限公司 一种网页爬取方法及***
CN105447184B (zh) * 2015-12-15 2019-06-11 北京百分点信息科技有限公司 信息抓取方法及装置
CN105447184A (zh) * 2015-12-15 2016-03-30 北京百分点信息科技有限公司 信息抓取方法及装置
CN106021485A (zh) * 2016-05-19 2016-10-12 中国传媒大学 一种多元属性电影数据可视化***
CN106021485B (zh) * 2016-05-19 2019-05-14 中国传媒大学 一种多元属性电影数据可视化***
CN107437158B (zh) * 2016-05-26 2021-08-10 北京京东尚科信息技术有限公司 数据查询方法、装置和计算机可读存储介质
CN107437158A (zh) * 2016-05-26 2017-12-05 北京京东尚科信息技术有限公司 基于浏览器插件的数据查询方法和装置
CN106202348A (zh) * 2016-07-04 2016-12-07 中山大学 一种网页表格信息抽取方法
CN108121743A (zh) * 2016-11-30 2018-06-05 中移(苏州)软件技术有限公司 一种通用网页模版的生成和使用方法、***
CN106648677A (zh) * 2016-12-28 2017-05-10 中国科学院南京地理与湖泊研究所 一种水环境领域模型集成模板的可视化定制方法
CN106648677B (zh) * 2016-12-28 2019-08-02 中国科学院南京地理与湖泊研究所 一种水环境领域模型集成模板的可视化定制方法
US10380228B2 (en) 2017-02-10 2019-08-13 Microsoft Technology Licensing, Llc Output generation based on semantic expressions
CN106980921A (zh) * 2017-03-02 2017-07-25 上海歌略软件科技有限公司 一种自定义风险分析方法
CN107609144A (zh) * 2017-09-21 2018-01-19 浪潮软件股份有限公司 一种分析结果处理方法、装置及***
CN107608949A (zh) * 2017-10-16 2018-01-19 北京神州泰岳软件股份有限公司 一种基于语义模型的文本信息抽取方法及装置
CN107608949B (zh) * 2017-10-16 2019-04-16 北京神州泰岳软件股份有限公司 一种基于语义模型的文本信息抽取方法及装置
CN108334634A (zh) * 2018-02-27 2018-07-27 北京中关村科金技术有限公司 一种提取数据信息的方法、装置、设备及存储介质
CN110309364A (zh) * 2018-03-02 2019-10-08 腾讯科技(深圳)有限公司 一种信息抽取方法及装置
CN110309364B (zh) * 2018-03-02 2023-03-28 腾讯科技(深圳)有限公司 一种信息抽取方法及装置
CN108984683A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 结构化数据的提取方法、***、设备及存储介质
TWI682287B (zh) * 2018-10-25 2020-01-11 財團法人資訊工業策進會 知識圖譜產生裝置、方法及其電腦程式產品
US11250035B2 (en) 2018-10-25 2022-02-15 Institute For Information Industry Knowledge graph generating apparatus, method, and non-transitory computer readable storage medium thereof
CN109753596A (zh) * 2018-12-29 2019-05-14 中国科学院计算技术研究所 用于大规模网络数据采集的信源管理与配置方法和***
CN109753596B (zh) * 2018-12-29 2021-05-25 中国科学院计算技术研究所 用于大规模网络数据采集的信源管理与配置方法和***
CN111782737A (zh) * 2020-08-12 2020-10-16 中国工商银行股份有限公司 信息处理方法、装置、设备及存储介质
CN111782737B (zh) * 2020-08-12 2024-05-28 中国工商银行股份有限公司 信息处理方法、装置、设备及存储介质
CN112199960A (zh) * 2020-11-12 2021-01-08 北京三维天地科技股份有限公司 一种标准知识元粒度解析***
CN112199960B (zh) * 2020-11-12 2021-05-25 北京三维天地科技股份有限公司 一种标准知识元粒度解析***

Also Published As

Publication number Publication date
CN102360368B (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
CN102360368B (zh) 基于抽取模板可视化定制的Web数据抽取方法
Liu et al. Vide: A vision-based approach for deep web data extraction
Mühleisen et al. Web Data Commons-Extracting Structured Data from Two Large Web Corpora.
TWI290698B (en) System and method for updating and displaying patent citation information
CN107423391B (zh) 网页结构化数据的信息提取方法
CN103678509B (zh) 生成网页模板的方法及装置
US20130326333A1 (en) Mobile Content Management System
CN103678511B (zh) 根据可视化模板进行网页内容抽取的方法及装置
JP7395475B2 (ja) ウェブサイト構築システムにおけるテキストコンテンツの生成及び編集のためのシステム及び方法
US20110087708A1 (en) Business object based operational reporting and analysis
CN100444591C (zh) 获取网页关键字的方法及其应用***
CN101727498A (zh) 一种基于web结构的网页信息自动提取方法
CN104881488A (zh) 基于关系表的可配置信息抽取方法
Kongdenfha et al. Rapid development of spreadsheet-based web mashups
CN104021198A (zh) 基于本体语义索引的关系数据库信息检索方法及装置
CN103559234A (zh) RESTful Web服务的自动化语义标注***和方法
CN103678510B (zh) 对网页提供可视化标注的方法及装置
Vercoustre et al. A descriptive language for information object reuse through virtual documents
CN105653522A (zh) 一种针对植物领域的非分类关系识别方法
US10776351B2 (en) Automatic core data service view generator
CN109101520A (zh) 一种电子手册和电子手册的显示方法
JP2001014166A (ja) オントロジー対応付け情報生成装置
CN102236713A (zh) 一种数字电视交互服务页面的信息提取方法及其装置
CN113849718A (zh) 互联网烟草科技情报信息自动采集装置、方法与存储介质
Della Penna et al. Visual extraction of information from web pages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant