CN111104624A

CN111104624A - 内容提取方法和设备以及存储介质

Info

Publication number: CN111104624A
Application number: CN201811249799.2A
Authority: CN
Inventors: 陈炎; 夏迎炬; 孟遥
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2020-05-05
Anticipated expiration: 2038-10-25
Also published as: CN111104624B

Abstract

本申请公开了一种内容提取方法和设备以及计算机可读存储介质。该内容提取方法包括：基于HTML标签生成HTML页面的树；检测所述树中的每个节点所包含的特定内容特征的数目和文本长度特征的数目；滤除所述树中的特定内容特征的数目小于第一阈值或文本长度特征的数目小于第二阈值的节点；和确定所述树的剩余节点之中的、在相应分支上位于最底层的一个或更多个目标节点。

Description

内容提取方法和设备以及存储介质

技术领域

本公开内容涉及信息检索和抽取领域，并且具体涉及网页内容的提取。

背景技术

目前，已有的网页信息抽取工具主要是从HTML表格和HTML列表中提取数据。特别地，这些工具可以提取存在于HTML表格或列表中的历史事件数据。然而，历史事件数据也有可能出现在其他HTML标签中。在这种情况下，现有的网页信息抽取工具会造成历史事件数据丢失。

发明内容

在下文中给出了关于本公开内容的简要概述，以便提供关于本公开内容的某些方面的基本理解。应当理解，这个概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分，也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

根据本发明的一个方面，提供了一种内容提取方法，包括以下步骤：基于HTML标签生成HTML页面的树；检测所述树中的每个节点所包含的特定内容特征的数目和文本长度特征的数目；滤除所述树中的特定内容特征的数目小于第一阈值或文本长度特征的数目小于第二阈值的节点；和确定所述树的剩余节点之中的、在相应分支上位于最底层的一个或更多个目标节点。

根据本发明的另一个方面，提供了一种内容提取设备，包括：生成单元，其被配置成基于HTML标签生成HTML页面的树；检测单元，其被配置成检测所述树中的每个节点所包含的特定内容特征的数目和文本长度特征的数目；滤除单元，其被配置成滤除所述树中的特定内容特征的数目小于第一阈值或文本长度特征的数目小于第二阈值的节点；和确定单元，其被配置成确定所述树的剩余节点之中的、在相应分支上位于最底层的一个或更多个目标节点。

根据本发明的又另一方面，还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。

通过本发明的内容提取方法和设备，使得能够从不同类型的网页中自动获取历史事件，并且能够确保较高的分类准确性、良好的泛化能力和更佳的容忍度。

通过以下结合附图对本发明的优选实施方式的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

为了进一步阐述本公开内容的以上和其它优点和特征，下面结合附图对本公开内容的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解，这些附图仅描述本公开内容的典型示例，而不应看作是对本公开内容的范围的限定。在附图中：

图1是根据本发明的一个实施方式的内容提取方法的流程图；

图2A示意性地示出了所生成的HTML页面的树；

图2B示意性地示出了滤除一部分节点后的树；

图3是根据本发明的另一实施方式的内容提取方法的流程图；

图4A是根据本发明的实施方式的内容提取设备的框图；

图4B是根据本发明的另一实施方式的内容提取设备的框图；和

图5是其中可以实现根据本发明的实施方式的方法和/或设备的通用个人计算机的示例性结构的框图。

具体实施方式

在下文中将结合附图对本公开的示范性实施方式进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与***及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤，而省略了与本公开关系不大的其他细节。

企业历史事件是企业发展的重要历史依据和档案资料。历史事件包括公司名称变更、子公司设立、与其他公司合并、董事变更、企业的经营情况等。企业的历史事件是企业情报的重要组成部分，也是构建企业知识图谱的必要步骤。

在利用搜索引擎收集了数百万个企业的历史事件页面之后，如何从这些页面中自动提取历史事件就显得尤为重要。现有方法使得可以提取存在于HTML表格或列表中的历史事件数据。然而，历史事件数据也有可能出现在其他HTML标签中。

本发明的内容提取方法使得能够从不同类型的网页中自动提取企业历史事件，在保证较高准确性的同时，具有良好的泛化能力。

下面结合图1、图2A和2B说明根据本发明的实施方式的内容提取方法。

如图1所示，方法开始于步骤S1。在步骤S1中，基于HTML标签生成HTML页面的树。具体地，在本实施方式中，例如，对于记录有公司历史事件的HTML页面的源码，可以利用HTML标签(<xxx>…</xxx>)生成该页面的树。以下给出了HTML页面的源码的一个示例：

对于以上源码，可以生成如图2A所示的树。图2A所示的树中的各节点V₁至V₁₂与以上源码的对应关系如以下表1所示：

表1

接着，在步骤S2中，检测树中的每个节点所包含的特定内容特征的数目和文本长度特征的数目。具体地，在本实施方式中，特定内容特征例如是树中的每个节点及其所有子节点所包含的日期，而文本长度特征例如是每个节点及其所有子节点所包含的、长度大于预定阈值的文本，其中，该预定阈值是正整数并且可以根据需要任意设置，例如可以设为10以上的整数。

在本实施方式中，日期的数目可以例如通过正则表达式来获取，而文本则是对应于上述日期的一个或更多个历史事件。

以下表2展示了与图2A所示的树相对应的日期数目v^d和文本数目v^l的检测结果。

V	v<sup>d</sup>	v<sup>l</sup>	V	v<sup>d</sup>	v<sup>l</sup>
						v<sub>1</sub>	12	13	v<sub>7</sub>	4	4
v<sub>2</sub>	0	10	v<sub>8</sub>	0	0
						v<sub>3</sub>	12	12	v<sub>9</sub>	2	1
v<sub>4</sub>	0	1	v<sub>10</sub>	4	4
						v<sub>5</sub>	0	1	v<sub>11</sub>	0	0
v<sub>6</sub>	2	1	v<sub>12</sub>	1	0

表2

然后，在步骤S3中，滤除树中的特定内容特征的数目小于第一阈值或文本长度特征的数目小于第二阈值的节点。应指出，第一阈值和第二阈值是正整数并且可以根据需要任意设置。在本实施方式中，为了便于说明，将第一阈值和第二阈值例如均设为2。然而，在实践中，第一阈值通常可以设为10至15之间，而第二阈值可以根据需要设为大于或等于第一阈值的任何正整数。

本领域技术人员应理解，第一阈值和第二阈值可以例如通过基于统计的分类器得到，例如决策树。

如图2B所示，在第一阈值和第二阈值均取2的情况下，滤除后的树中剩下节点V₁、V₃、V₇和V₁₀。

接着，在步骤S4中，确定剩余节点之中的、在相应分支上位于最底层的一个或更多个目标节点。具体地，在本实施方式中，如图2B所示，滤除后的树中存在两个分支，即V₁-V₃-V₇和V₁-V₃-V₁₀。这两个分支中的最底层的节点包括V₇和V₁₀。因此，可以将V₇和V₁₀确定为目标节点。

以下表3展示了分别从目标节点V₇和V₁₀中提取的日期和文本结果。

表3

图3示出了根据本发明的另一实施方式的内容提取方法的流程图。图3中的步骤S1-S3与图1相同，因此在此不再赘述。

在步骤S41中，将树中的剩余节点之中具有最小特定内容特征数目或文本长度特征数目的节点确定为第一目标节点。具体地，在本实施方式中，将图2B所示的剩余节点V₁、V₃、V₇和V₁₀中的具有最小日期数目v^d或最小文本数目v^l的节点确定为第一目标节点。根据表2，具有最小日期数目v^d或最小文本数目v^l的节点包括V₇和V₁₀。在这种情况下，可以将第一目标节点确定为V₇。

接着，在步骤S42中，将所述第一目标节点及其所有父节点从剩余节点中滤除，具体地，在本实施方式中，第一目标节点及其所有父节点包括V₁、V₃和V₇。

然后，在步骤S43中，判定在步骤S42中滤除后剩下的节点数目是否为零，如果是，则方法结束；如果不是，则方法返回步骤S41。具体地，在本实施方式中，如图2B所示，在步骤S42的滤除后剩下节点V₁₀。

由于剩余节点数目不为零，因此再次执行步骤S41，并且将节点V₁₀确定为第一目标节点。接着，在步骤S42中将节点V₁₀滤除，并且在步骤S43中判定剩余节点的数目为零，该方法结束。

最终，节点V₇和V₁₀均被确定为目标节点。因此，可以分别从V₇和V₁₀中提取日期和文本结果，如以上表3所示。

本领域技术人员应理解，虽然以上针对网页中的历史事件而描述了根据本发明的方法，但是本发明不限于此。例如，本发明的方法可以扩展至对具有列表形式的各种内容的提取，例如产品型号和对应于型号的参数或性能描述等。

以上所讨论的方法可以完全由计算机可执行的程序来实现，也可以部分地或完全地使用硬件和/或固件来实现。当其用硬件和/或固件实现时，或者将计算机可执行的程序载入可运行程序的硬件设备时，则实现了下文将要描述的内容提取设备。下文中，在不重复上文中已经讨论的一些细节的情况下给出这些设备的概要，但是应当注意，虽然这些设备可以执行前文所描述的方法，但是所述方法不一定采用所描述的设备的那些部件或不一定由那些部件执行。

图4A示出了根据本发明的一个实施方式的内容提取设备400，其包括生成单元401、检测单元402、滤除单元403和确定单元404。其中，生成单元401用于基于HTML标签生成HTML页面的树；检测单元402用于检测树中的每个节点所包含的特定内容特征的数目和文本长度特征的数目；滤除单元403用于滤除树中的特定内容特征的数目小于第一阈值或文本长度特征的数目小于第二阈值的节点；以及确定单元404用于确定所述树的剩余节点之中的、在相应分支上位于最底层的一个或更多个目标节点。

图4B示出了根据本发明的另一个实施方式的内容提取设备410，其包括生成单元411、检测单元412、第一滤除单元413、确定单元414、第二滤除单元415和判定单元416，其中，生成单元411、检测单元412和第一滤除单元413分别对应于图4A中的生成单元401、检测单元402和滤除单元403，因此在此不再赘述。确定单元414用于将树中的剩余节点之中具有最小特定内容特征数目或文本长度特征数目的节点确定为第一目标节点；第二滤除单元415用于将所述第一目标节点及其所有父节点从剩余节点中滤除；以及判定单元416用于判定由第二滤除单元415滤除后剩下的节点数目是否为零，其中，如果判定单元416判定不为零，则确定单元414和第二滤除单元415重复执行其功能，直到判定单元416判定为零为止。

图4A和4B所示的内容提取设备400和410分别对应于图1和图3所示的方法。因此，内容提取设备400和410中的各单元的相关细节已经在对图1和图3的内容提取方法的描述中详细给出，在此不再赘述。

上述设备中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

图5是其中可以实现根据本发明的实施方式的方法和/或设备的通用个人计算机的示例性结构的框图。如图5所示，中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中，也根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM503经由总线504彼此连接。输入/输出接口505也连接到总线504。

下述部件连接到输入/输出接口505：输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要，驱动器510也可连接到输入/输出接口505。可移除介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上，使得从中读出的计算机程序根据需要被安装到存储部分508中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可移除介质511安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可移除介质511。可移除介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 502、存储部分508中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出了相应的计算机程序代码、一种存储有机器可读取的指令代码的计算机程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施方式的方法。

相应地，被配置为承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

通过以上描述，本公开的实施方式提供了以下的技术方案，但不限于此。

附记1.一种内容提取方法，包括以下步骤：

基于HTML标签生成HTML页面的树；

检测所述树中的每个节点所包含的特定内容特征的数目和文本长度特征的数目；

滤除所述树中的特定内容特征的数目小于第一阈值或文本长度特征的数目小于第二阈值的节点；和

确定所述树的剩余节点之中的、在相应分支上位于最底层的一个或更多个目标节点。

附记2.如附记1所述的内容提取方法，还包括分别提取所述一个或更多个目标节点所包含的内容。

附记3.如附记1或2所述的内容提取方法，其中，确定所述一个或更多个目标节点的步骤进一步包括：

a)将所述剩余节点之中的具有最小特定内容特征数目或文本长度特征数目的节点确定为第一目标节点；

b)将所述第一目标节点及其所有父节点从所述剩余节点中滤除；和

c)如果所述剩余节点的数目在执行步骤b)后不为零，则重复进行上述步骤a)和b)。

附记4.如附记1或2所述的内容提取方法，其中，所述特定内容特征是每个节点及其所有子节点所包含的日期。

附记5.如附记4所述的内容提取方法，其中，所述文本长度特征是每个节点及其所有子节点所包含的、长度大于第三阈值的文本。

附记6.如附记5所述的内容提取方法，其中，所述文本是对应于所述日期的一个或更多个历史事件。

附记7.如附记1或2所述的内容提取方法，其中，所述第一阈值和所述第二阈值是正整数。

附记8.如附记7所述的内容提取方法，其中，所述第一阈值为10至15之间的整数。

附记9.如附记7所述的内容提取方法，其中，所述第二阈值为大于或等于第一阈值的整数。

附记10.如附记5所述的内容提取方法，其中，所述第三阈值是正整数。

附记11.如附记10所述的内容提取方法，其中，所述第三阈值为大于10的整数。

附记12.如附记1或2所述的内容提取方法，其中，所述特定内容特征利用正则表达式来确定。

附记13.如附记7所述的内容提取方法，其中，所述第一阈值与所述第二阈值相等。

附记14.如附记7所述的内容提取方法，其中，所述第一阈值与所述第二阈值不相等并且小于所述第二阈值。

附记15.一种内容提取设备，包括：

生成单元，其被配置成基于HTML标签生成HTML页面的树；

检测单元，其被配置成检测所述树中的每个节点所包含的特定内容特征的数目和文本长度特征的数目；

滤除单元，其被配置成滤除所述树中的特定内容特征的数目小于第一阈值或文本长度特征的数目小于第二阈值的节点；和

确定单元，其被配置成确定所述树的剩余节点之中的、在相应分支上位于最底层的一个或更多个目标节点。

附记16.如附记15所述的内容提取设备，还包括提取单元，其被配置成分别提取所述一个或更多个目标节点所包含的内容。

附记17.如附记15或16所述的内容提取设备，其中，所述确定单元包括：

第二确定单元，其被配置成将所述剩余节点之中的具有最小特定内容特征数目或文本长度特征数目的节点确定为第一目标节点；

第二滤除单元，其被配置成将所述第一目标节点及其所有父节点从所述剩余节点中滤除；和

判定单元，其被配置成在由所述第二滤除单元滤除后判定所述剩余节点的数目是否为零，

其中，如果所述判定单元在由所述第二滤除单元滤除后判定所述剩余节点的数目不为零，则第二确定单元和第二滤除单元重复执行其功能。

附记18.如附记15或16所述的内容提取设备，其中，所述特定内容特征是每个节点及其所有子节点所包含的日期，并且所述文本长度特征是每个节点及其所有子节点所包含的、长度大于第三阈值的文本。

附记19.如附记18所述的内容提取设备，其中，所述第一阈值、所述第二阈值和所述第三阈值是正整数。

附记20.一种计算机可读存储介质，所述计算机可读存储介质存储有能够由处理器运行来执行以下操作的程序：

基于HTML标签生成HTML页面的树；

最后，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上虽然结合附图详细描述了本发明的实施方式，但是应当明白，上面所描述的实施方式只是被配置为说明本发明，而并不构成对本发明的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此，本发明的范围仅由所附的权利要求及其等效含义来限定。

Claims

1.一种内容提取方法，包括以下步骤：

基于HTML标签生成HTML页面的树；

2.根据权利要求1所述的内容提取方法，还包括分别提取所述一个或更多个目标节点所包含的内容。

3.根据权利要求1或2所述的内容提取方法，其中，确定所述一个或更多个目标节点的步骤进一步包括：

4.根据权利要求1或2所述的内容提取方法，其中，所述特定内容特征是每个节点及其所有子节点所包含的日期，并且所述文本长度特征是每个节点及其所有子节点所包含的、长度大于第三阈值的文本。

5.根据权利要求4所述的内容提取方法，其中，所述文本是对应于所述日期的一个或更多个历史事件。

6.根据权利要求4所述的内容提取方法，其中所述第一阈值、所述第二阈值和所述第三阈值是正整数。

7.根据权利要求6所述的内容提取方法，其中，所述第一阈值与所述第二阈值相等。

8.根据权利要求6所述的内容提取方法，其中，所述第一阈值与所述第二阈值不相等并且小于所述第二阈值。

9.一种内容提取设备，包括：

生成单元，其被配置成基于HTML标签生成HTML页面的树；

10.一种计算机可读存储介质，所述计算机可读存储介质存储有能够由处理器运行来执行以下操作的程序：

基于HTML标签生成HTML页面的树；