CN107590219A - 网页人物主题相关信息提取方法 - Google Patents

网页人物主题相关信息提取方法 Download PDF

Info

Publication number
CN107590219A
CN107590219A CN201710783655.4A CN201710783655A CN107590219A CN 107590219 A CN107590219 A CN 107590219A CN 201710783655 A CN201710783655 A CN 201710783655A CN 107590219 A CN107590219 A CN 107590219A
Authority
CN
China
Prior art keywords
text
node
webpage
web page
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710783655.4A
Other languages
English (en)
Inventor
费高雷
周成阳
胡光岷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201710783655.4A priority Critical patent/CN107590219A/zh
Publication of CN107590219A publication Critical patent/CN107590219A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页人物主题相关信息提取方法。其包括获取HTML网页文档,构建HTML网页文档对应的DOM树,对HTML网页文档进行预处理,计算每个DOM节点的文本节点率并对HTML网页文档进行文本分块处理,网页正文文本块筛选,人物信息提取处理及人物信息判断。本发明有效的解决了各式各样网页中人物相关信息抽取的问题,能够得到完整的结构化的人物信息。

Description

网页人物主题相关信息提取方法
技术领域
本发明属于web信息抽取技术领域,尤其涉及一种网页人物主题相关信息提取方法。
背景技术
随着互联网技术的高速发展,各种各样的网页数量呈***式增长。这些网页根据内容的不同大致可分为展示型,内容型,电子商务型,门户型等类型的网页。如何从这些种类繁杂的网站中高效准确的提取到关键有用的信息变得至关重要,同时也存在相当大的挑战。由于网页中的内容极其丰富,既有用户想要浏览的主题信息,也有一些例如广告条,页面导航条,产品推荐,链接,网站版权说明等信息,这些噪声信息往往是用户不希望看到的,同时这些噪声信息也对面向网页的大数据处理诸如网页分类和聚类,话题检测,知识挖掘等任务造成很大的干扰。因此如何去除这些噪声信息,以及如何较为完整的提取网页主题信息成为了现今web信息检索乃至web信息挖掘的一个重要的数据预处理工作。
从网页中提取这些主题信息属于web信息抽取技术的范畴,web信息抽取是指从半结构化的web文档中抽取数据,并将其转换成更为结构化,语义更为清晰的数据表示。网页主题信息抽取主要围绕在以下几个方面的处理上:一,基于模板匹配的方法。这种方法主要基于网站中页面共享的模板,通过将网站的模板识别出来,然后利用模板对页面进行匹配以识别网页主题信息;二,基于启发式规则的方法。这个方面包含有各种各样不同的处理方法,大致又可细分为基于HTML结构特征,基于HTML内容特征和基于HTML视觉特征来构建启发式规则的方法;三,基于机器学习的方法。这种方法主要适用于大规模网页数据集的处理,首先利用人工标注的网页数据训练出网页主题信息分类模型,然后利用分类器来识别网页中的主题和非主题信息。
超文本标记语言(HyperText Markup Language,简称HTML)是网页编写的基本语言。“超文本”就是指页面内可以包含图片,链接,甚至音乐,程序等非文字元素。网页也称HTML文档,通过结合使用其他web技术(如:脚本语言,公共网关接口,组件等),可以创造出功能强大的网页。这些HTML文档以.htm或.html作为扩展名,包含HTML标签和纯文本。标准的HTML文档都具有一个基本的整体结构,HTML标签是由尖括号包围的关键词,如<html>。标记一般成对出现,比如<b>和</b>,这些标签对中的第一个标签是开始标签,第二个标签是结束标签。通常我们通过浏览器看到的网页是经过浏览器解析html文档后显示的,浏览器不会显示HTML标签,而是使用标签来解释页面内容。
在对网页进行主题信息提取过程中,由于获得的原始数据就是HTML文档,因此需要对HTML语法结构有个清楚的认识。能从网页中提取到的重要信息一般来源于<head>和<body>标签内。
文档对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展标志语言的标准编程接口。在网页上,组织页面(或文档)的对象被组织在一个树形结构中,用来表示文档中对象的标准模型就称为DOM。DOM提供了访问页面中各个元素属性与方法的接口。每一个网页都对应了一个DOM树,通过对DOM树遍历,可以对页面中每一个元素进行处理。树的每个结点是一个对象。DOM模型不仅描述了文档的结构,还定义了结点对象的行为,利用对象的方法和属性,可以方便地访问,修改,添加和删除DOM树的结点和内容。
基于模板的网页主题提取方法的核心思想是把网页中重复出现的内容看作模板,并认为这些内容是噪声信息,然后将待处理的网页与训练网页集网页生成的模板进行匹配,匹配结果中不在模板之列的内容即被认为是网页主题。
Bar-Yossef等人将网页具有独立布局并且风格单一的区域块当作pagelet,基于DOM树的采用pagelet来对网页进行分割以及检测模板.如导航栏,核心内容块,广告等就各自为一个pagelet,通过删除掉以页面模板形式存在的噪声数据来达到网页去噪的效果。这是网页去噪比较早的尝试。Shian-Hua Lin等人提出利用<TABLE>标签和信息熵的方法,通过利用<TABLE>来划分网页,通过计算每个页面块的信息熵来将网页分为内容块和噪声块,最后通过比较信息熵的高低来去除噪声。这种方法的一个不足是过于依赖<TABLE>标签,而随着HTML的发展,网页设计也逐渐摒弃使用<TABLE>来布局的做法。Lochovsky等人提出DSE(Data-rich Section Extraction)算法,针对同一个网站中的页面,自顶向下匹配模板相同的页面的DOM树,将匹配结果中重叠或相同的结构看作非主题信息,将处于叶子节点的内容看作主题内容,并提取出来。Liu等人提出风格树SST(Site Style Tree),算法基本思想跟DSE类似:首先针对一个网站构建一个页面级别的风格树,风格树中的每个节点依据其内容特征和视觉特征来计算出节点的复合重要度,最后通过比较重要度来识别噪声节点和主题信息节点。本方法最后被用于网页的分类和聚类任务,实验结果表明该方法能够实现较好的提取效果,但是缺陷在于针对不同的网站要建立对应的风格树。Gupta等人提出使用机器自主学习自动识别网页模板的方法,开发了一个网页代理工具——ContentExtraction,用于过滤网页中的噪声,并且可以通过调整规则集来控制过滤内容的颗粒大小。欧建文等人提出基于机器学习的回归算法生成模板,通过检测链接之间的关系,识别锚文本的特征来建立页面的模板以及提取规则,最后应用模板进行正文内容的提取。Chen等人在提出将模板检测集成到搜索引擎的索引的建立过程,首先对网页分块,然后利用样式等视觉信息对分块进行聚类,将不同网页中布局表现类似的块判定为网页的模板。
由于基于模板的网页主题信息抽取方法需要被处理的网页具有某种特殊的结构或者需要事先学习到目标网页的结构特点才能进行很好地处理,因此一部分学者也提出了不需要预先处理或学习目标网页的网页主题信息提取方法。如Weninger等人提出了一种基于文本标签比率(TR)的内容提取方法。通过计算html文档每一行中非标签字符个数与标签个数的比值来构建整个html文档的TR分布直方图,然后利用阈值分割技术来确定网页主题部分与非主题部分的最佳分隔阈值来提取网页主题信息。
但当html文本分布比较稀疏时,同时由于html页眉或页脚含有的文字较多时,这种方法确定的文本主体往往就失效了。
目前,由于基于模板的网页主题信息提取主要是针对互联网上存在着大量的通过读取数据库数据然后填充到统一模板的方式自动生成的网页来进行考虑的,这类网页一般来源于同一网站且HTML结构较为相似。而且这些方法普遍把<div>标签中的文本作为网页主体部分,通过学习这些网页的HTML标签结构来生成网页模板,同时人工标注一些具有主题信息的标签,当输入一个相似模板的网页时就可以根据这些标注的主体信息标签来对主题信息进行提取。可以明显的发现,当遇到的网页来源于各种各样的网站时,由于各种网页模板的不同,导致提取到的网页模板不具有普适性。同时,由于现在的网页的结构信息来源已从<div>标签转变为从样式表(CSS)中获得,所以这些方法就失效了。
因此,在面对各式各样的网页时,如何准确,高效的进行网页主题信息的提取已成为当今研究的重点和难点。
发明内容
本发明的发明目的是:为了解决现有技术中存在的以上问题,本发明针对这种网页结构类型复杂的情况,提出了一种非模板化的网页人物主题相关信息提取方法。
本发明的技术方案是:一种网页人物主题相关信息提取方法,包括以下步骤:
A、获取一个包含人物主题相关信息的HTML网页文档;
B、构建步骤A中HTML网页文档对应的DOM树;
C、对步骤A中HTML网页文档进行预处理;
D、根据步骤B中的DOM树计算每个DOM节点的文本节点率,对HTML网页文档进行文本分块处理;
E、根据步骤D中得到的文本节点率和文本分块进行网页正文文本块筛选;
F、对步骤E中得到的正文文本块进行人物信息提取处理;
G、判断步骤F中提取得到的信息中是否包含人物信息;若是,则对步骤F中提取得到的人物信息进行结构化处理;若否,则返回步骤A。
进一步地,所述步骤C对步骤A中HTML网页文档进行预处理具体为删除HTML网页文档中可忽略标签集合,所述可忽略标签集合包括<script>标签、<style>标签、<br>标签、<select>标签、<input>标签、<label>标签、<comment>标签和<nav>标签。
进一步地,所述步骤D根据步骤B中的DOM树计算每个DOM节点的文本节点率具体为以<body>标签作为起始根节点,递归计算DOM树下各个DOM节点的文本节点率。
进一步地,所述计算每个DOM节点的文本节点率的计算公式为
其中,CNR(n)为节点n的文本节点率,CountText(n)为节点n下所有文本字符数,CountNode(n)为节点n下所有DOM节点数。
进一步地,所述步骤E根据步骤D中对HTML网页文档进行文本分块处理具体为将<body>标签下第一级孩子节点作为聚合的父节点,把父节点下文本节点率为0的节点删除,把不等于0的节点聚合到文本节点率较大的节点下。
进一步地,所述步骤E根据步骤E中得到的文本节点率和文本分块进行网页正文文本块筛选具体为根据文本分块所属的节点的文本节点率,选取文本节点率最大且文本字符最多的文本分块作为网页正文文本块。
进一步地,所述步骤F对步骤E中得到的正文文本块进行人物信息提取处理具体为对步骤E中得到的正文文本块进行分词,并将切分得到的单词进行正规化处理,再提取反映人物主题相关信息的关键词并进行分类标注,计算各类标注权重。
进一步地,所述对步骤F中提取得到的人物信息进行结构化处理具体为对非结构化人物信息进行结构化处理和对半结构化人物信息进行结构化处理。
进一步地,所述对非结构化人物信息进行结构化处理具体为首先对非结构化人物信息进行分句处理,再针对每个句子进行词性标注和语法分析,确定句中的主语、谓语、宾语关系,提取宾语中的名词性短语并与主语组成结构化人物信息。
进一步地,所述对半结构化人物信息进行结构化处理具体为采用基于人物属性词典出发匹配规则的方法提取半结构化人物信息中的人物信息,组成结构化人物信息。
本发明的有益效果是:本发明采用DOM技术将HTML文档解析成DOM树,利用DOM树提供的API对HTML文档进行预处理,再对网页中的正文信息进行抽取,运用自然语言处理中的分词、词性标注、命名实体识别等技术对提取后的正文文本信息进行人物相关信息抽取及判断,最后通过制定人物属性相关规则将半结构化或非结构化的人物信息转化为结构化的人物信息,有效的解决了各式各样网页中人物相关信息抽取的问题,能够得到完整的结构化的人物信息。
附图说明
图1是本发明的网页人物主题相关信息提取方法的流程示意图。
图2是本发明实施例中HTML网页文档DOM树构建示意图。
图3是本发明实施例中标记化状态转移示意图。
图4是本发明实施例中树构建状态转移示意图。
图5是本发明实施例中节点n的DOM树结构示意图。
图6是本发明实施例中DOM树各节点分布示意图。
图7是本发明实施例中经过文本分块后的DOM树示意图。
图8是本发明实施例中非结构化人物信息提取示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,为本发明的网页人物主题相关信息提取方法的流程示意图。一种网页人物主题相关信息提取方法,包括以下步骤:
A、获取一个包含人物主题相关信息的HTML网页文档;
B、构建步骤A中HTML网页文档对应的DOM树;
C、对步骤A中HTML网页文档进行预处理;
D、根据步骤B中的DOM树计算每个DOM节点的文本节点率,对HTML网页文档进行文本分块处理;
E、根据步骤D中得到的文本节点率和文本分块进行网页正文文本块筛选;
F、对步骤E中得到的正文文本块进行人物信息提取处理;
G、判断步骤F中提取得到的信息中是否包含人物信息;若是,则对步骤F中提取得到的人物信息进行结构化处理;若否,则返回步骤A。
本发明主要针对英文网页进行人物信息抽取,使用到的一些词库均是针对英文文本。
在步骤B中,本发明构建步骤A中HTML网页文档对应的DOM树,即将HTML网页文档转换成DOM树结构。首先对输入的HTML网页文档进行解析,生成DOM树。DOM文档对象模型(Document Object Model)是W3C的标准,是基于浏览器编程的一套API接口。本发明采用的是HTML DOM,其定义了所有HTML元素的对象和属性,以及访问他们的方法。将HTML文档解析生成HTML DOM树的解析过程主要分两个算法进行实现,分为标记化(Tokeniser)和树构建(Tree Construction)。标记化算法是词法分析过程,将输入内容解析成多个标记。HTML标记包括起始标记、结束标记、属性名称和属性值。标记生成器识别标记,传递给树构造器,然后接受下一个字符以识别下一个标记,直到输入的结束。如图2所示,为本发明实施例中HTML网页文档DOM树构建示意图。
标记生成器采用的标记化算法的输入结果是HTML标记,使用状态机表示。状态机一共有4个状态:数据状态(Data)、标记打开状态(Tag open)、标记名称状态(Tag name)、关闭标记打开状态(Close tag open state)。如图3所示,为本发明实施例中标记化状态转移示意图。
DOM树构建是在进行标记化算法的同时进行创建的。在树构建阶段,以Document为根节点的DOM树也会不断进行修改,添加各种元素。标记生成器发送的每个节点都会由树构建器进行处理。每个标记都有对应的DOM元素,这些元素会在接收到标记时创建。同时DOM树中的元素也会添加到一个称为开放元素的堆栈中,用于纠正嵌套错误和处理未关闭的标记。树构建算法同样可以用状态机来描述,通过不断接收HTML标签来完成相应的状态转移及DOM节点创建工作。如图4所示,为本发明实施例中树构建状态转移示意图。
在步骤C中,本发明考虑到网页HTML文档中的一些修饰性标签对于正文提取来说可以忽略不计,这些标签内通常不含有文本信息,因此利用DOM提供的API对步骤A中HTML网页文档进行预处理,提前去除这些可忽略标签。
本发明对步骤A中HTML网页文档进行预处理具体为删除HTML网页文档中可忽略标签集合,所述可忽略标签集合包括<script>标签、<style>标签、<br>标签、<select>标签、<input>标签、<label>标签、<comment>标签和<nav>标签。下面对上述可忽略标签举例说明:
(1)<script>标签,用于定义客户端脚本,比如JavaScript;
(2)<style>标签,用于为HTML文档定义样式信息;
(3)<select>标签,用于创建单选或多选菜单;
(4)<input>标签,用于规定可以在其中输入数据的字段;
(5)<label>标签,为input元素定义标注;
(6)<nav>标签,定义导航链接的部分。
在步骤D中,本发明根据步骤B中的DOM树计算每个DOM节点的文本节点率,对HTML网页文档进行文本分块处理,即利用DOM树结构特点对网页中的文本进行挖掘和分块。在对HTML文档进行预处理后,该HTML中存在的已基本是<div>,<table>,<li>等可能含有文本的容器类型标签,要完成对这些标签内可能存在的文本提取,本专利提出了一种新的基于DOM文本节点率(CNR)的方法来对这些文本进行提取,同时达到文本分块的目的(目的是将网页正文信息,广告信息,导航条信息,页脚网站版权信息等文本分别置于不同分块内)。
DOM节点文本节点率简称为(CNR,chars nodes ratio),其计算方法为该节点下所含的文本字符总数与该节点下的节点总数之比,表示为
其中,CNR(n)为节点n的文本节点率,CountText(n)为节点n下所有文本字符数,CountNode(n)为节点n下所有DOM节点数。
如图5所示,为本发明实施例中节点n的DOM树结构示意图。节点n Dom树及其子树的CNR值计算为:
包含“Hello”和“World!”共计11个文本字符,其包含有4个节点(n,n1,t1,t2)。
包含“Hello”共计5个字符,其包含2个节点(n1,t1)。
同理可得
对于节点内部含文本的节点n的CNR值有两个重要的性质:
(1)若n只含1个子节点nc,则有CNR(n)<CNR(nc);
(2)若n含有多个子节点n1,n2,n3…nk且这些子节点中均含有文本信息,则有CNR(n)>CNR(ni),i∈k。
由于HTML文档都具有DOM树结构,且网页文本都位于<body>标签之内(<head>标签定义文档头部信息,为搜索引擎提供网页的基本信息,不会在浏览器中显示),所以在该部分进行DCNR计算时,将<body>标签作为该算法的起始起点。根据DOM树计算每个DOM节点的文本节点率具体为以<body>标签作为起始根节点,递归计算DOM树下各个DOM节点的文本节点率。
在得到每个节点的CNR值后,根据上面关于CNR的性质,就可以把属于同一个父节点下文本节点的文本进行聚合。具体规则是在<body>标签下第一级孩子节点作为聚合的父节点,把这些节点下DCNR等于0的节点删除,把不等于0的节点聚合到较大DCNR的节点下,这样完成了网页中不同区域的文本分块操作。如图6所示,为本发明实施例中DOM树各节点分布示意图,圆圈节点表示Html容器型标签节点,方框节点表示Html中的文本段。如图7所示,为本发明实施例中经过文本分块后的DOM树示意图。
在步骤E中,本发明根据步骤D中得到的文本节点率和文本分块进行网页正文文本块筛选,即从已分好块的网页文本块中进一步筛选出网页正文信息文本块。在完成网页文本分块后,网页中的文本被划分为4个文本主块,分别为块1,块2,块3,和块4.这些文本主块都分别属于<div>1,<div>2,<div>3,<div>4节点下,该部分对网页正文文本块的判别依据是根据这些节点的CNR值,选取CNR值最大且文本字符最多的块作为网页正文文本块。通常块1和块2中的文本多是网页导航条,搜索栏中的文本内容,块4中的文本内容多是网页页脚诸如版权,网站联系地址等文本信息。根据以上提到的判别依据,可以确定该网页中的正文信息块为块3。经过该方法的处理,可以较好地提取出网页中的正文文本信息。
在步骤F中,本发明对步骤E中得到的正文文本块进行人物信息提取处理,即从已获取的正文文本中抽取出人物相关信息,并通过判定确定是否该网页中存在人物信息,如果存在则将这些非结构化或半结构化的人物信息表示成结构化的人物信息。通过对步骤E中得到的正文文本块进行分词,并将切分得到的单词进行正规化处理,再提取反映人物主题相关信息的关键词并进行分类标注,计算各类标注权重。
(1)分词及正规化处理
分词及正规化处理是指从网页正文文本信息中对文本进行分词以切分出单词同时对这些单词进行正规化处理。分词处理采用了基于规则的方法,运用Python正则表达式对文本中的单词与各标点符号进行切分;然后对这些单词进行正规化处理操作,如统一单词大小写,部分标点符号去除等处理。
(2)关键词匹配及权重计算
关键词匹配及权重计算是指从文本中提取出能够反映人物信息的关键词并对其进行相关权重计算。在对文本进行分词后,对文本进行命名实体识别处理,利用了StanfordNLP小组开发的命名实体识别器对文本进行标注。采用人物(Person),地名(Location),机构组织(Organization),其他(Misc)四类模型对该命名实体识别器进行训练。由于本专利着重考虑对网页人物信息的抽取工作,因此对这四类标签分别赋予不同的权重,如人物标注权重最大,机构组织权重次之,地名权重再次之,其他标注权重最小。
在步骤G中,本发明通过对这些文本块中关键词匹配及权重之和计算,与事先经过实验统计得到的关键词阈值进行比较,判断该文本块是否含有人物信息。如果含有则进一步结构化该人物信息,如果不含有则退出处理流程或重新输入一个新的HTML文档进行处理
结构化人物信息是指在确定某个网页含有人物信息后,从该网页中进一步抽取出人物相关信息并将这些信息表示成结构化人物信息的过程。网页上的人物信息大多以非结构化或半结构化形态出现。由于非结构化信息和半结构化信息之间具有较大差异,因此本发明针对这两种情况提出了两种不同策略来进行处理。
针对半结构化人物信息的提取,由于此类文本人物属性已经与人物相关信息有部分对应的关系,本专利采用了一种基于人物属性词典触发匹配规则的方法,同时利用命名实体标注的结果来对网页中的人物信息进行提取及结构化。如下表1为部分属性词对应在不同同义词下的提取规则示例。
表1、部分人物属性词及提取规则对照表
针对非结构化人物信息的提取,由于这些人物信息都在一段长文本中,因此不能单单依靠半结构化人物信息提取所设立的规则来进行提取。本专利采用了一种非结构化的提取算法,该算法包括一系列处理手段来对该非结构化文本中的人物信息进行提取。首先对长文本进行分句处理,以文本中出现的句号为标志进行断句处理。然后分别针对每个句子进行词性标注以及语法分析,确定该句中的主语,谓语,宾语关系。然后着重关注以人物相关属性同义词为主语,以名词性短语为宾语的句子。对主语和宾语之间的动词等谓语结构进行判断是否从属于该主语词汇,如果是则对宾语的名词性短语进行提取。如图8所示,为本发明实施例中非结构化人物信息提取示意图。
本发明首先通过对网页进行解析,生成对应的DOM树结构,然后通过计算文本标签节点率的方式,从网页中过滤出网页正文,由于该网页正文中已去除掉一些诸如网页导航条,网站广告,网站版权信息等噪声信息,故该网页正文可以作为各种文本数据挖掘的优质数据来源;通过对网页正文文本信息的分析,对与人物相关属性相关的关键词进行匹配及权重计算,从而可以较好的分辨出该网页是否含人物信息;对于含有人物信息的网页正文文本,采用了两种不同的处理策略来对非结构化文本信息和半结构化文本信息进行处理,较好的从中提取出人物信息,并将其转化为结构化的人物信息。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (10)

1.一种网页人物主题相关信息提取方法,其特征在于,包括以下步骤:
A、获取一个包含人物主题相关信息的HTML网页文档;
B、构建步骤A中HTML网页文档对应的DOM树;
C、对步骤A中HTML网页文档进行预处理;
D、根据步骤B中的DOM树计算每个DOM节点的文本节点率,对HTML网页文档进行文本分块处理;
E、根据步骤D中得到的文本节点率和文本分块进行网页正文文本块筛选;
F、对步骤E中得到的正文文本块进行人物信息提取处理;
G、判断步骤F中提取得到的信息中是否包含人物信息;若是,则对步骤F中提取得到的人物信息进行结构化处理;若否,则返回步骤A。
2.如权利要求1所述的网页人物主题相关信息提取方法,其特征在于,所述步骤C对步骤A中HTML网页文档进行预处理具体为删除HTML网页文档中可忽略标签集合,所述可忽略标签集合包括<script>标签、<style>标签、<br>标签、<select>标签、<input>标签、<label>标签、<comment>标签和<nav>标签。
3.如权利要求1所述的网页人物主题相关信息提取方法,其特征在于,所述步骤D根据步骤B中的DOM树计算每个DOM节点的文本节点率具体为以<body>标签作为起始根节点,递归计算DOM树下各个DOM节点的文本节点率。
4.如权利要求3所述的网页人物主题相关信息提取方法,其特征在于,所述计算每个DOM节点的文本节点率的计算公式为
<mrow> <mi>C</mi> <mi>N</mi> <mi>R</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>C</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mi>T</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>C</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mi>N</mi> <mi>o</mi> <mi>d</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,CNR(n)为节点n的文本节点率,CountText(n)为节点n下所有文本字符数,CountNode(n)为节点n下所有DOM节点数。
5.如权利要求4所述的网页人物主题相关信息提取方法,其特征在于,所述步骤E根据步骤D中对HTML网页文档进行文本分块处理具体为将<body>标签下第一级孩子节点作为聚合的父节点,把父节点下文本节点率为0的节点删除,把不等于0的节点聚合到文本节点率较大的节点下。
6.如权利要求1所述的网页人物主题相关信息提取方法,其特征在于,所述步骤E根据步骤E中得到的文本节点率和文本分块进行网页正文文本块筛选具体为根据文本分块所属的节点的文本节点率,选取文本节点率最大且文本字符最多的文本分块作为网页正文文本块。
7.如权利要求1所述的网页人物主题相关信息提取方法,其特征在于,所述步骤F对步骤E中得到的正文文本块进行人物信息提取处理具体为对步骤E中得到的正文文本块进行分词,并将切分得到的单词进行正规化处理,再提取反映人物主题相关信息的关键词并进行分类标注,计算各类标注权重。
8.如权利要求1所述的网页人物主题相关信息提取方法,其特征在于,所述对步骤F中提取得到的人物信息进行结构化处理具体为对非结构化人物信息进行结构化处理和对半结构化人物信息进行结构化处理。
9.如权利要求8所述的网页人物主题相关信息提取方法,其特征在于,所述对非结构化人物信息进行结构化处理具体为首先对非结构化人物信息进行分句处理,再针对每个句子进行词性标注和语法分析,确定句中的主语、谓语、宾语关系,提取宾语中的名词性短语并与主语组成结构化人物信息。
10.如权利要求8所述的网页人物主题相关信息提取方法,其特征在于,所述对半结构化人物信息进行结构化处理具体为采用基于人物属性词典出发匹配规则的方法提取半结构化人物信息中的人物信息,组成结构化人物信息。
CN201710783655.4A 2017-09-04 2017-09-04 网页人物主题相关信息提取方法 Pending CN107590219A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710783655.4A CN107590219A (zh) 2017-09-04 2017-09-04 网页人物主题相关信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710783655.4A CN107590219A (zh) 2017-09-04 2017-09-04 网页人物主题相关信息提取方法

Publications (1)

Publication Number Publication Date
CN107590219A true CN107590219A (zh) 2018-01-16

Family

ID=61050702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710783655.4A Pending CN107590219A (zh) 2017-09-04 2017-09-04 网页人物主题相关信息提取方法

Country Status (1)

Country Link
CN (1) CN107590219A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520007A (zh) * 2018-03-15 2018-09-11 江河瑞通(北京)技术有限公司 万维网网页信息提取方法、存储介质及计算机设备
CN108829696A (zh) * 2018-04-18 2018-11-16 西安理工大学 面向地铁设计规范中知识图谱节点自动构建方法
CN108920434A (zh) * 2018-06-06 2018-11-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和***
CN109325197A (zh) * 2018-08-17 2019-02-12 百度在线网络技术(北京)有限公司 用于提取信息的方法和装置
CN109710833A (zh) * 2018-12-29 2019-05-03 上海蜜度信息技术有限公司 用于确定内容节点的方法与设备
CN109977370A (zh) * 2019-03-19 2019-07-05 河海大学常州校区 一种基于文档结构树的问答对自动构建方法
CN110110193A (zh) * 2019-04-24 2019-08-09 北京百炼智能科技有限公司 一种信息处理方法、装置及计算机可读存储介质
CN110232125A (zh) * 2019-06-11 2019-09-13 吉林大学 一种进行学术人物信息抽取和聚合的方法
JP2020027649A (ja) * 2018-08-15 2020-02-20 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド エンティティ関係データ生成方法、装置、機器、及び記憶媒体
CN111625749A (zh) * 2020-06-01 2020-09-04 深圳市小满科技有限公司 参会公司网站详情页信息提取方法、装置、设备及介质
CN111698364A (zh) * 2020-06-19 2020-09-22 深圳市小满科技有限公司 联系人信息提取方法及相关设备
CN111966932A (zh) * 2019-05-20 2020-11-20 富士通株式会社 信息处理方法和信息处理设备
CN112287273A (zh) * 2020-10-27 2021-01-29 中国科学院计算技术研究所 一种网站列表页面的分类方法、***及存储介质
CN113836368A (zh) * 2021-09-27 2021-12-24 山东亿云信息技术有限公司 一种人物信息抽取方法及***
CN113988623A (zh) * 2021-10-28 2022-01-28 广东电网有限责任公司 一种基于潜在用电需求的供电方案制定方法及相关装置
CN114201971A (zh) * 2021-12-13 2022-03-18 海南港航控股有限公司 一种从网页中提取人物属性的方法及***
CN114398578A (zh) * 2021-12-23 2022-04-26 网易有道信息技术(北京)有限公司 用于对html字符串进行预处理的方法及其相关产品
CN116127079A (zh) * 2023-04-20 2023-05-16 中电科大数据研究院有限公司 一种文本分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN106202259A (zh) * 2016-06-29 2016-12-07 合肥民众亿兴软件开发有限公司 一种基于本体思想的网页信息提取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN106202259A (zh) * 2016-06-29 2016-12-07 合肥民众亿兴软件开发有限公司 一种基于本体思想的网页信息提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
苏小鲁: "基于DOM的HTML网页正文信息抽取模块的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520007B (zh) * 2018-03-15 2021-09-28 江河瑞通(北京)技术有限公司 万维网网页信息提取方法、存储介质及计算机设备
CN108520007A (zh) * 2018-03-15 2018-09-11 江河瑞通(北京)技术有限公司 万维网网页信息提取方法、存储介质及计算机设备
CN108829696B (zh) * 2018-04-18 2019-10-25 西安理工大学 面向地铁设计规范中知识图谱节点自动构建方法
CN108829696A (zh) * 2018-04-18 2018-11-16 西安理工大学 面向地铁设计规范中知识图谱节点自动构建方法
CN108920434A (zh) * 2018-06-06 2018-11-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和***
CN108920434B (zh) * 2018-06-06 2022-08-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和***
US11321421B2 (en) 2018-08-15 2022-05-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus and device for generating entity relationship data, and storage medium
JP2020027649A (ja) * 2018-08-15 2020-02-20 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド エンティティ関係データ生成方法、装置、機器、及び記憶媒体
CN109325197B (zh) * 2018-08-17 2022-07-15 百度在线网络技术(北京)有限公司 用于提取信息的方法和装置
CN109325197A (zh) * 2018-08-17 2019-02-12 百度在线网络技术(北京)有限公司 用于提取信息的方法和装置
CN109710833A (zh) * 2018-12-29 2019-05-03 上海蜜度信息技术有限公司 用于确定内容节点的方法与设备
CN109710833B (zh) * 2018-12-29 2021-07-16 上海蜜度信息技术有限公司 用于确定内容节点的方法与设备
CN109977370B (zh) * 2019-03-19 2023-06-16 河海大学常州校区 一种基于文档结构树的问答对自动构建方法
CN109977370A (zh) * 2019-03-19 2019-07-05 河海大学常州校区 一种基于文档结构树的问答对自动构建方法
CN110110193A (zh) * 2019-04-24 2019-08-09 北京百炼智能科技有限公司 一种信息处理方法、装置及计算机可读存储介质
CN111966932A (zh) * 2019-05-20 2020-11-20 富士通株式会社 信息处理方法和信息处理设备
CN110232125A (zh) * 2019-06-11 2019-09-13 吉林大学 一种进行学术人物信息抽取和聚合的方法
CN110232125B (zh) * 2019-06-11 2020-10-02 吉林大学 一种进行学术人物信息抽取和聚合的方法
CN111625749A (zh) * 2020-06-01 2020-09-04 深圳市小满科技有限公司 参会公司网站详情页信息提取方法、装置、设备及介质
CN111625749B (zh) * 2020-06-01 2023-08-11 深圳市小满科技有限公司 参会公司网站详情页信息提取方法、装置、设备及介质
CN111698364A (zh) * 2020-06-19 2020-09-22 深圳市小满科技有限公司 联系人信息提取方法及相关设备
CN112287273A (zh) * 2020-10-27 2021-01-29 中国科学院计算技术研究所 一种网站列表页面的分类方法、***及存储介质
CN112287273B (zh) * 2020-10-27 2022-09-30 中国科学院计算技术研究所 一种网站列表页面的分类方法、***及存储介质
CN113836368A (zh) * 2021-09-27 2021-12-24 山东亿云信息技术有限公司 一种人物信息抽取方法及***
CN113988623A (zh) * 2021-10-28 2022-01-28 广东电网有限责任公司 一种基于潜在用电需求的供电方案制定方法及相关装置
CN114201971A (zh) * 2021-12-13 2022-03-18 海南港航控股有限公司 一种从网页中提取人物属性的方法及***
CN114398578A (zh) * 2021-12-23 2022-04-26 网易有道信息技术(北京)有限公司 用于对html字符串进行预处理的方法及其相关产品
CN116127079A (zh) * 2023-04-20 2023-05-16 中电科大数据研究院有限公司 一种文本分类方法
CN116127079B (zh) * 2023-04-20 2023-06-20 中电科大数据研究院有限公司 一种文本分类方法

Similar Documents

Publication Publication Date Title
CN107590219A (zh) 网页人物主题相关信息提取方法
Gatterbauer et al. Towards domain-independent information extraction from web tables
CN102737013B (zh) 基于依存关系来识别语句情感的设备和方法
Zheng et al. Template-independent news extraction based on visual consistency
CN101727498A (zh) 一种基于web结构的网页信息自动提取方法
CN105975454A (zh) 一种网页文本的中文分词方法和装置
US8577887B2 (en) Content grouping systems and methods
CN112101004B (zh) 基于条件随机场与句法分析的通用网页人物信息提取方法
CN108009135A (zh) 生成文档摘要的方法和装置
Cardoso et al. An efficient language-independent method to extract content from news webpages
CN114997288A (zh) 一种设计资源关联方法
JP2007047974A (ja) 情報抽出装置および情報抽出方法
CN110020024B (zh) 一种科技文献中链接资源的分类方法、***、设备
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
CN112711666B (zh) 期货标签抽取方法及装置
CN107145591A (zh) 一种基于标题的网页有效元数据内容提取方法
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
CN111814476A (zh) 一种实体关系的抽取方法和装置
Sirsat et al. Pattern matching for extraction of core contents from news web pages
CN110019814B (zh) 一种基于数据挖掘与深度学习的新闻信息聚合方法
You Automatic summarization and keyword extraction from web page or text file
Souza et al. ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF
Pembe et al. A tree-based learning approach for document structure analysis and its application to web search
Bauer et al. Fiasco: Filtering the internet by automatic subtree classification, osnabruck
JP7227705B2 (ja) 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180116