CN105389338B

CN105389338B - 一种采购中标数据的解析方法

Info

Publication number: CN105389338B
Application number: CN201510683420.9A
Authority: CN
Inventors: 陈国强; 姬永杰; 朱培冬
Original assignee: BEIJING UFIDA SOFTWARE CO LTD
Current assignee: Beijing UYU Government Software Co.,Ltd.
Priority date: 2015-10-20
Filing date: 2015-10-20
Publication date: 2018-09-04
Anticipated expiration: 2035-10-20
Also published as: CN105389338A

Abstract

本发明公开了一种采购中标数据的解析方法，涉及数据仓库技术中的ETL(数据抽取、转换和加载)领域。该方法包括：分离出待解析的Html采购中标公告文本中的标准表格数据和非标准表格数据；根据采购中标公告文本的中标公告属性分别对标准表格数据和非标准表格数据进行解析，得到中标记录；将解析得到的中标记录存储到数据库中。本发明所提供的解析方法，通过将采购中标公告文本中的标准表格数据和非标准表格数据进行分离处理，实现了对采购中标数据的高效、准确的解析，为采购中标数据的深度挖掘和利用提供了基础。

Description

一种采购中标数据的解析方法

技术领域

本发明涉及数据仓库技术中的ETL(数据抽取、转换和加载)领域，具体涉及一种采购中标数据的解析方法。

背景技术

随着互联网技术的快速发展，每天各类互联网用户都在网上发布大量的 Html(超文本标记语言)文档、图片和视频等文件，各种各样的爬虫引擎不停地从各类网站上抓取、分析和应用这些数据。目前，各类搜索引擎通过对 Html文本进行分词等处理来支持网页检索。

在政府采购领域，随着各级政府部门进一步加大政府信息公开力度，政府网站发布数据更加频繁、包含信息更加丰富，但由于缺乏特定业务模型和解析方法的支撑，各级部门的政府采购公告缺少统一格式、表述方式各异，现有的搜索引擎只是将这些公告完整复制下来，通过全文检索提供基本的查询服务，由于没有建立结构化模型，无法对抓取的中标公告Html文档进行深度的挖掘和利用，中标公告全文检索的结果往往与用户需求差距很大。

中标记录是政府采购业务中最有价值的数据，包含：供应商、中标金额、子包号、采购人、项目名称、专家等属性。现有通用的政府采购中标公告Html 文档的解析方法是提前维护好一组关键字用于匹配，如：供应商的关键字包括“中标人”、“供应商”、“中标候选人”、“报价人”等。依据关键字定位供应商、中标金额、第一候选人、子包号等主要属性所在位置，用常规的关键字匹配方法进行解析，成功解析率往往不到50％，需要采用更先进的解析方法来提升解析率。

发明内容

针对现有技术中存在的缺陷和实际应用的需要，本发明的目的在于提供一种采购中标数据高效、准确的解析方法。

为实现上述目的，本发明采用的技术方案如下：

一种采购中标数据的解析方法，包括以下步骤：

(1)分离出待解析的Html采购中标公告文本中的标准表格数据和非标准表格数据；

(2)根据采购中标公告文本的中标公告属性分别对标准表格数据和非标准表格数据进行解析，得到中标记录；

(3)将解析得到的中标记录存储到数据库中。

进一步，如上所述的一种采购中标数据的解析方法，步骤(2)中，所述中标公告属性包括项目名称、供应商、中标金额、采购人和第一中标候选人标志。

进一步，如上所述的一种采购中标数据的解析方法，步骤(1)中，所述标准表格数据是指表格数据中指定的中标公告属性位于表格中同一行、不同列的数据；所述指定的中标公告属性包括供应商和中标金额。

进一步，如上所述的一种采购中标数据的解析方法，步骤(1)中，分离出待解析的Html采购中标公告文本中的标准表格数据和非标准表格数据，包括：

1)根据Html文本的表格标签table分离出Html采购中标公告文本中的所有表格；所有表格包括表格中嵌套的子表格；

2)判断表格中所述指定的中标公告属性是否满足位于表格的同一行且不同列，若是，则确定表格为标准表格，若否，则确定表格为非标准表格。

进一步，如上所述的一种采购中标数据的解析方法，步骤(2)中，对标准表格数据进行解析，包括：

①获取标准表格数据中各中标公告属性的列号；

②循环处理表格中的每一行，根据各中标公告属性的列号，获取每一行的各中标公告属性的值，得到每一行的中标记录。

进一步，如上所述的一种采购中标数据的解析方法，步骤(2)中，采用文本串解析方法对非标准表格数据进行解析，包括：

对于一个非标准表格数据，以中标公告属性或者中标公告属性的关联前缀或后缀为关键字在非标准表格数据中进行检索，得到各中标公告属性的属性值，根据各中标公告属性及其属性值得到中标记录。

进一步，如上所述的一种采购中标数据的解析方法，步骤(2)中，对标准表格数据和非标准表格数据进行解析时，根据表格的嵌套顺序从最内层嵌套表格的数据进行解析，完成一层表格数据的解析后，删除对应层的表格数据。

进一步，如上所述的一种采购中标数据的解析方法，步骤(1)中，在分离出待解析的Html采购中标公告文本中的标准表格数据和非标准表格数据之前，还包括：

对待解析的Html采购中标公告文本进行预处理，删除Html采购中标公告文本中的与中标内容无关的数据。

再进一步，如上所述的一种采购中标数据的解析方法，步骤(3)中，将解析得到的中标记录存储到数据库之前，还包括：

根据中标公告属性的属性值，判断中标记录是否有效，若是，则保留该中标记录，若否，则删除该中标记录。

更进一步，如上所述的一种采购中标数据的解析方法，步骤(3)中，将解析得到的中标记录存储到数据库之前，还包括：

根据中标记录所属表格的标识和其中标公告属性的属性值判断中标记录中的重复记录，并进行去重处理；判断方式为：若两个中标记录所属表格的标识相同且其中标公告属性的属性值相同，则判定两个中标记录重复。

本发明的有益效果在于：本发明提供的采购中标数据的解析方法，能够将非结构化的Html格式采购中标公告转化为结构化的中标记录，该解析方法通过将标准表格数据和非标准表格数据采用不同的解析方式进行分离解析，有效提高了解析率，为采购中标公告数据的深度挖掘和利用提供了基础。

附图说明

图1为具体实施方式中一种采购中标数据的解析方法的流程图；

图2为具体实施方式中标准表格数据的解析流程图；

图3为具体实施方式中非标准表格数据的解析流程图；

图4为标准表格数据的示意图；

图5为非标准表格数据的示意图。

具体实施方式

下面结合说明书附图与具体实施方式对本发明做进一步的详细说明。

图1示出了本发明具体实施方式中一种采购中标数据的解析方法的流程图，该方法可以包括以下步骤：

步骤S100：分离出待解析的Html采购中标公告文本中的表格数据和非标准表格数据；

首先对待解析的Html采购中标公告文本进行预处理，删除采购中标公告文本中与中标内容的无关的数据。在实际的Html采购中标公告文本中，会有很多与实际的中标内容无关的数据，如与文本显示有关(文本的字体、尺寸、颜色等等)的数据或其它不涉及实质中标数据的内容，因此可以提前进行这些数据的删除，以提高后续数据处理的效率。

在实际应用中，可以根据Html文本中的显示类标签查找出Html采购中标公告文本中的只与数据显示有关、与中标内容无关的数据，删除Html采购中标公告文本中的与中标内容无关的数据。其中，所述显示类标签包括但不限于用于定义文字的字体、尺寸和颜色的<font>标签、用于定义文档中的节的<span>标签、以及无含义空格等。

本实施方式中，所述表格数据包括标准表格数据和非标准表格数据；所述标准表格数据是指表格数据中指定的中标公告属性位于表格中同一行、不同列的数据，指定的中标公告属性包括但不限于供应商和中标金额。如图4 中所示的表格数据即为标准表格数据，该表格中报价人名称即供应商和报价金额即中标金额位于位于表格的同一行且不同列。非标准表格数据即标准表格数据之外的数据。

本实施方式中，所述中标公告属性包括项目名称、供应商、中标金额、采购人和第一中标候选人标志等，需要说明的是，在不同的中标公告中，中标公告属性的名称可能会有所不同，可以根据实际情况命名中标公告属性，如供应商也可能称为报价人，中标金额可能称为报价金额。

本实施方式中，分离出待解析的Html采购中标公告文本中的标准表格数据和标准表格数据的具体方式为：

2)判断表格中所述指定的中标公告属性是否满足位于表格的同一行且不同列，若是，则确定表格为标准表格，标准表格中的数据即为标准表格数据，若否，则确定表格为非标准表格，非标准表格中的数据即为非标准表格数据。

在实际应用中，将嵌套的<table>(<table>含<table>)分离为独立的N个子<table>。每个子<table>标签都是以“<table”开头以“</table>”结束，通过关键字“<table>”和“</table>”定位和计数，依次找出嵌套的子<table> 标签，逐一进行分离，获得每一个子<table>标签的完整字符串(表格数据)，作为入口参数递归调用数据解析递归算法。

所有的(内嵌的和不包含嵌套的)<table>标签处理完毕后，完成了中标公共文本中标准表格数据和非标准表格数据的分离，如图4所示的标准表格数据，如图5中所示的非标准表格数据。在实际应用中，具体根据哪些指定的中标公告属性来确定标准表格和非标准表格可以根据需要进行选择，本实施方式中，通过判断供应商和中标金额是否在同一行来判断是否是标准表格，是否在同一行的两个必要条件为：

1)在不同列：供应商的位置A与报价金额的位置B之间包含单元格标签“</td>”；

2)在同一行：供应商的位置A与报价金额的位置B之间不包含行标签“</tr>”。

如图4中所示的表格，其中报价人名称(供应商)和报价金额符合上述两个必要条件，则判断图4中的表格数据为标准表格数据。

步骤S200：根据采购中标公告文本的中标公告属性分别对标准表格数据和非标准表格数据进行解析，得到中标记录；

分离出文本中的标准表格数据和非标准表格数据后，分别对标准表格数据和非标准表格数据进行解析。由于表格数据中存在嵌套关系，对标准表格数据和非标准表格数据进行解析时，根据表格的嵌套顺序从最内层嵌套表格的数据进行解析，完成一层表格数据的解析后，删除对应层的表格数据，之后再解析该层的外层表格数据。采用由里到外的解析方式，能够保证外层表格标签处理时不受嵌套表格标签的干扰，以更加准确获取中标记录。

本实施方式中，对标准表格数据进行解析的具体方式如图2所示，包括以下步骤：

①获取标准表格数据中各中标公告属性的列号；以中标公告属性的名称为关键字在表格数据中检索定位出各属性所处的准确利号，如图4中所示的表格数据，供应商列号为2，第一候选人标志的列号为5；

②循环处理表格中的每一行，根据各中标公告属性的列号，获取每一行的各中标公告属性的值，得到每一行的中标记录。标准表格数据中的每一行对应一条中标记录。

如图4中所述的标准表格数据中的第二行，解析得到的中标记录为：供应商：广州市新谷电子科技有限公司，中标金额为246000，该供应商为第一候选人。

本实施方式中，采用文本串解析方法对非标准表格数据进行解析，解析的流程如图3所示，具体包括：

对于一个非标准表格数据，以中标公告属性或者中标公告属性的关联前缀或后缀为关键字在非标准表格数据中进行检索，得到各中标公告属性的属性值，根据各中标公告属性及其属性值得到一条中标记录。

在实际应用中，首先需要定位出供应商的名称，可以以“供应商”或者“报价人”、“报价公司”等为关键字在子包数据中进行检索，如果找不到，则可以根据供应商的关联前缀或后缀进行匹配查找，例如，在供应商的名称前一般会有“：”等特殊前缀或者在名称中一般会有“公司”等后缀，可以根据这些前缀或后缀进行供应商的检索定位。完成供应商的定位后，再进一步解析出中标金额及其它中标公告属性，与供应商定位相似，可以以中标公告属性为的名称(如“中标金额”)为关键字直接检索，如果检索不到，可以在根据相关的关联前缀或后缀进行查找(如“中标金额”的关联后缀“额”、“元”、“价”等)。

在完成标准表格数据和非标准表格数据的解析，得到中标记录后，为了保证中标记录的完整性，在实际应用中，还可以通过常规的关键字匹配方法获取中标记录的项目名称、专家等其它相关信息。

步骤S300：将解析得到的中标记录存储到数据库中。

在通过步骤S200中的解析，完成中标记录的获取后，将中标数据存储到数据库中。

在实际存储之前，为了避免中标数据中存在描述重复的现象，需要对中标记录的有效性进行判断，以及进行中标记录的去重处理。

本实施方式中，在进行中标记录的有效性判断时，可以根据中标公告属性的属性值，判断中标记录是否有效，若是，则保留该中标记录，若否，则删除该中标记录。例如，通过判断供应商验证是否有效或中标金额是否为0 或是否为第一候选供应商等方式来判断记录是否有效，一般，如果供应商和中标金额没有明显问题，则可以认为一条中标记录是有效中标记录。

本实施方式中，在进行中标记录的去重处理时，根据中标记录所属表格的标识和其中标公告属性的属性值判断中标记录中的重复记录，并进行去重处理；判断方式为：若两个中标记录所属表格的标识相同且其中标公告属性的属性值相同，则判定两个中标记录重复。其中，所述表格的标识用于唯一识别一个表格，如图5 中所示的非标准表格数据中，包括了三条非标准表格数据，三条非标准表格数据所属的表格标识非别为“包一”、“包二”和“包三”，一般的，在Html格式的中标公告文本中，每个表格都带有其标识，如果没有，本实施方式中会默认的为每一表格分配一个唯一的标识号。

在完成中标记录的有效性及去重处理后，将有效的中标记录的相关信息保存到数据库中。

本实施方式中所提供的采购中标数据的解析方法能够将非结构化的采购中标公告(Html中标文本)转化为结构化的中标记录进行存储，该方法尤其适用于政府采购中标公告的解析，在实践中，采用该方法能够有效识别90％以上的政府采购中标记录，大大提高中标数据解析的效率和准确率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种采购中标数据的解析方法，包括以下步骤：

(1)分离出待解析的Htm l采购中标公告文本中的标准表格数据和非标准表格数据，所述标准表格数据是指表格数据中指定的中标公告属性位于表格中同一行、不同列的数据；

步骤(1)中，分离出待解析的Htm l采购中标公告文本中的标准表格数据和非标准表格数据，包括：

1)根据Htm l文本的表格标签tab l e分离出Htm l采购中标公告文本中的所有表格；所有表格包括表格中嵌套的子表格；

2)判断表格中所述指定的中标公告属性是否满足位于表格的同一行且不同列，若是，则确定表格为标准表格，若否，则确定表格为非标准表格；

步骤(2)中，对标准表格数据进行解析，包括：

①获取标准表格数据中各中标公告属性的列号；

②循环处理表格中的每一行，根据各中标公告属性的列号，获取每一行的各中标公告属性的值，得到每一行的中标记录；

步骤(2)中，采用文本串解析方法对非标准表格数据进行解析，包括：

对于一个非标准表格数据，以中标公告属性或者中标公告属性的关联前缀或后缀为关键字在非标准表格数据中进行检索，得到各中标公告属性的属性值，根据各中标公告属性及其属性值得到中标记录；

(3)将解析得到的中标记录存储到数据库中。

2.根据权利要求1所述的一种采购中标数据的解析方法，其特征在于：步骤(2)中，所述中标公告属性包括项目名称、供应商、中标金额、采购人和第一中标候选人标志。

3.根据权利要求2所述的一种采购中标数据的解析方法，其特征在于：步骤(1)中，所述指定的中标公告属性包括供应商和中标金额。

4.根据权利要求1所述的一种采购中标数据的解析方法，其特征在于：步骤(2)中，对标准表格数据和非标准表格数据进行解析时，根据表格的嵌套顺序从最内层嵌套表格的数据进行解析，完成一层表格数据的解析后，删除对应层的表格数据。

5.根据权利要求1所述的一种采购中标数据的解析方法，其特征在于：步骤(1)中，在分离出待解析的Htm l采购中标公告文本中的标准表格数据和非标准表格数据之前，还包括：

对待解析的Htm l采购中标公告文本进行预处理，删除Htm l采购中标公告文本中的与中标内容无关的数据。

6.根据权利要求1所述的一种采购中标数据的解析方法，其特征在于：步骤(3)中，将解析得到的中标记录存储到数据库之前，还包括：

7.根据权利要求1所述的一种采购中标数据的解析方法，其特征在于：步骤(3)中，将解析得到的中标记录存储到数据库之前，还包括：