CN111368019A - 一种文档数据结构化处理方法 - Google Patents

一种文档数据结构化处理方法 Download PDF

Info

Publication number
CN111368019A
CN111368019A CN201811487817.0A CN201811487817A CN111368019A CN 111368019 A CN111368019 A CN 111368019A CN 201811487817 A CN201811487817 A CN 201811487817A CN 111368019 A CN111368019 A CN 111368019A
Authority
CN
China
Prior art keywords
data
class
descriptions
subclass
supplier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811487817.0A
Other languages
English (en)
Inventor
王卫卫
景晓松
刘乙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Information and Telecommunication Co Ltd
Beijing Guodiantong Network Technology Co Ltd
Original Assignee
State Grid Information and Telecommunication Co Ltd
Beijing Guodiantong Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Information and Telecommunication Co Ltd, Beijing Guodiantong Network Technology Co Ltd filed Critical State Grid Information and Telecommunication Co Ltd
Priority to CN201811487817.0A priority Critical patent/CN111368019A/zh
Publication of CN111368019A publication Critical patent/CN111368019A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种文档数据结构化处理方法,其特征在于,包括步骤如下:A、建立了主数据清单,物料主数据清单中包含物料编码、物料短描述、物料长描述、物料大类编码、物料大类描述、物料中类编码、物料中类描述、物料小类编码、物料小类描述,物料主数据存储在国网公司的物料主数据平台上;B、根据物料主数据,每一个物料都有类别归属,物料小类是最后一层类别划分,提报采购需求、寻找供应商、制定采购计划的时候都是以物料小类为基本单位开展的,将“一纸证明”信息结构化,将重要信息变为结构化数据,大大提高了办公效率。

Description

一种文档数据结构化处理方法
技术领域
本发明涉及数据处理领域,特别是指一种文档数据结构化处理方法。
背景技术
目前国内外有较多的文本挖掘工具,用于分析文本数据、处理非结构化数据,将文本文字提炼为固定的标签、分类维度或者结构化字段。有些成熟的文本挖掘工具可以通过HTTP接口,帮助应用方有效分析大量的文本数据,提高应用方的处理效率,主要的文本挖掘功能包括以下四种:第一是针对文本文件自动进行标签提取,从文本数据中通过自然语言分析,提取较为重要的关键词标签;第二是对文本进行分类,通过算法自动判别文章的所属类别,并给出相应的置信度,比如判断一篇文章是属于娱乐八卦、时事政治还是数码科技等;第三是对文件进行自动审核,判别文章内容是否政治违规或者是否情色违规,同时给出违规的严重程度;第四是自动判断文本是否属于垃圾文本,对于垃圾数据自动过滤,但整个处理的流程和过程都过于繁琐,需要人工进行整理和甄别,影响整个办公的效率。
发明内容
有鉴于此,本发明的目的在于提出一种文档数据结构化处理方法。
基于上述目的本发明提供的一种文档数据结构化处理方法,其特征在于,包括步骤如下:
A、建立主数据清单,物料主数据清单中包含物料编码、物料短描述、物料长描述、物料大类编码、物料大类描述、物料中类编码、物料中类描述、物料小类编码、物料小类描述,物料主数据存储在物料主数据平台上;
B、根据物料主数据,每一个物料都有类别归属,物料小类是最后一层类别划分,提报采购需求、寻找供应商、制定采购计划的时候都是以物料小类为基本单位开展;
C、针对统一实施采购的物料小类,通过集中招标的方式完成的,将采购物资分包,公开招标、评标,最终确定各标包的供应商;
D、针对重要的、采购金额较大的物料小类建立统一模板,允许投标参与者按照模板填报企业资质和销售供应业绩信息,随后由物资部质量监督处审核后,出具一纸证明说明投标参与者的资质业绩;
F、物资采购、合同签订、供应计划、废旧物资处置、供应商管理等业务均在ECP***上进行管理和数据记录,其中所述一纸证明即以.doc格式保存ECP***;
G、进行评审。
优选的,所述步骤B中根据物料小类所涉及的“一纸证明”设计二维数据表结构,确定二维表名称、在文件中的位置、每张表中包含哪些字段,定义各字段的数据格式;
优选的,所述步骤D中物资小类梳理所有具有“一纸证明”的供应商清单,且供应商全称与其他二维表中的供应商名称一一对应,完全对应,且供应商名称可以作为主键实现各二维表之间的匹配。
优选的,所述一纸证明”设计二维数据表的文本数据提取到既定的二维表中,并填写到相应的位置,
优选的,所述二维表中各个字段的数据格式和单位进行定义。
优选的,所述步骤G具体为:
G1、初评,根据招标文件逐项审查投标文件中的技术偏差。
G2、详评,对投标书的技术部分、***分、投标人的企业资质和供应能力进行综合比较。
优选的,所述二维数据表定义基础商务信息表,其中包含供应商名称企业全称、企业简称、成立时间、注册资金、注册所在地、厂房所在地、法定代表人、企业类别、单位类型、企业性质等字段
优选的,所述二维数据表中各个字段的数据格式和单位,以程序一次性读取为基本原则,避免二次处理。
从上面所述可以看出,本发明提供的一种文档数据结构化处理方法,针对ECP***中存储的一纸证明文本文件进行结构化处理,提取大量文本文件中的关键信息,以投标企业为对象,构建基本信息、财务状况、既有业绩、人员构成、设计软件、设计图纸、专利、认证证书、型式试验、制造装备、试验设备、制造工艺、生产环境、产品产能等二维数据表,将“一纸证明”信息结构化,将重要信息变为结构化数据,大大提高办公行政效率。
附图说明
图1为本发明实施例的步骤流程图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
如图1所述本发明的一种文档数据结构化处理方法,包括步骤如下:A、建立主数据清单,物料主数据清单中包含物料编码、物料短描述、物料长描述、物料大类编码、物料大类描述、物料中类编码、物料中类描述、物料小类编码、物料小类描述,物料主数据存储在物料主数据平台上;B、根据物料主数据,每一个物料都有类别归属,物料小类是最后一层类别划分,提报采购需求、寻找供应商、制定采购计划的时候都是以物料小类为基本单位开展;步骤B中根据物料小类所涉及的一纸证明设计二维数据表结构,确定二维表名称、在文件中的位置、每张表中包含哪些字段,定义各字段的数据格式,优选的,所述二维数据表定义基础商务信息表,其中包含供应商名称企业全称、企业简称、成立时间、注册资金、注册所在地、厂房所在地、法定代表人、企业类别、单位类型、企业性质等字段,所述二维数据表中各个字段的数据格式和单位,以程序一次性读取为基本原则,避免二次处理,一纸证明设计二维数据表的文本数据提取到既定的二维表中,并填写到相应的位置,二维表中各个字段的数据格式和单位进行定义;C、针对统一实施采购的物料小类,通过集中招标的方式完成的,将采购物资分包,公开招标、评标,最终确定各标包的供应商;D、针对重要的、采购金额较大的物料小类建立统一模板,允许投标参与者按照模板填报企业资质和销售供应业绩信息,随后由物资部质量监督处审核后,出具一纸证明说明投标参与者的资质业绩;步骤D中物资小类梳理所有具有“一纸证明”的供应商清单,且供应商全称与其他二维表中的供应商名称一一对应,完全对应,且供应商名称可以作为主键实现各二维表之间的匹配;F、物资采购、合同签订、供应计划、废旧物资处置、供应商管理等业务均在ECP***上进行管理和数据记录,其中所述一纸证明即以.doc格式保存ECP***;G、进行评审,步骤G具体为:G1、初评,根据招标文件逐项审查投标文件中的技术偏差;G2、详评,对投标书的技术部分、***分、投标人的企业资质和供应能力进行综合比较,选择综合表现最佳的投标方。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种文档数据结构化处理方法,其特征在于,包括步骤如下:
A、建立主数据清单,物料主数据清单中包含物料编码、物料短描述、物料长描述、物料大类编码、物料大类描述、物料中类编码、物料中类描述、物料小类编码、物料小类描述,物料主数据存储在物料主数据平台上;
B、根据物料主数据,每一个物料都有类别归属,物料小类是最后一层类别划分,提报采购需求、寻找供应商、制定采购计划的时候都是以物料小类为基本单位开展;
C、针对统一实施采购的物料小类,是通过集中招标的方式完成,将采购物资分包,公开招标、评标,最终确定各标包的供应商;
D、针对重要的、采购金额较大的物料小类建立统一模板,允许投标参与者按照模板填报企业资质和销售供应业绩信息,随后由国网物资公司、物资部质量监督处审核后,出具一纸证明说明投标参与者的资质业绩;
F、物资采购、合同签订、供应计划、废旧物资处置、供应商管理等业务均在ECP***上进行管理和数据记录,其中所述一纸证明即以.doc格式保存ECP***;
G、进行评审。
2.根据权利要求1所述的方法,其特征在于,所述步骤B中根据物料小类所涉及的一纸证明设计二维数据表结构,确定二维表名称、在文件中的位置、每张表中包含哪些字段,定义各字段的数据格式。
3.根据权利要求1所述的方法,其特征在于,所述步骤D中物资小类梳理所有具有一纸证明的供应商清单,且供应商全称与其他二维表中的供应商名称一一对应,完全对应,且供应商名称可以作为主键实现各二维表之间的匹配。
4.根据权利要求2所述的方法,其特征在于,所述一纸证明”设计二维数据表的文本数据提取到既定的二维表中,并填写到相应的位置。
5.根据权利要求1所述的,其特征在于,所述二维表中各个字段的数据格式和单位进行定义。
6.根据权利要求1所述的方法,其特征在于,所述步骤G具体为:
G1、初评,根据招标文件逐项审查投标文件中的技术偏差;
G2、详评,对投标书的技术部分、***分、投标人的企业资质和供应能力进行综合比较。
7.根据权利要求2所述的方法,其特征在于,所述二维数据表定义基础商务信息表,其中包含供应商名称企业全称、企业简称、成立时间、注册资金、注册所在地、厂房所在地、法定代表人、企业类别、单位类型、企业性质等字段。
8.根据权利要求2所述的方法,其特征在于,所述二维数据表中各个字段的数据格式和单位,以程序一次性读取为基本原则,避免二次处理。
CN201811487817.0A 2018-12-06 2018-12-06 一种文档数据结构化处理方法 Pending CN111368019A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811487817.0A CN111368019A (zh) 2018-12-06 2018-12-06 一种文档数据结构化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811487817.0A CN111368019A (zh) 2018-12-06 2018-12-06 一种文档数据结构化处理方法

Publications (1)

Publication Number Publication Date
CN111368019A true CN111368019A (zh) 2020-07-03

Family

ID=71203955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811487817.0A Pending CN111368019A (zh) 2018-12-06 2018-12-06 一种文档数据结构化处理方法

Country Status (1)

Country Link
CN (1) CN111368019A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573877A (zh) * 2024-01-17 2024-02-20 安徽省优质采科技发展有限责任公司 一种供应链协同管理平台物资数据处理方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573877A (zh) * 2024-01-17 2024-02-20 安徽省优质采科技发展有限责任公司 一种供应链协同管理平台物资数据处理方法及***
CN117573877B (zh) * 2024-01-17 2024-03-22 安徽省优质采科技发展有限责任公司 一种供应链协同管理平台物资数据处理方法及***

Similar Documents

Publication Publication Date Title
CN110069623B (zh) 摘要文本生成方法、装置、存储介质和计算机设备
CN109062881A (zh) 采购招标文件制作方法和***
CN110798567A (zh) 短信分类显示方法及装置、存储介质、电子设备
CN110879939A (zh) 一种应标文件生成方法及装置
CN110717754A (zh) 商品的交易方法、服务器、用户端、实验室端及***
CN113205402A (zh) 对账方法、装置、电子设备及计算机可读介质
CN112214508A (zh) 数据处理方法及装置
CN112800755A (zh) 一种数据治理方法及***
CN110879808B (zh) 一种信息处理方法和装置
CN111951081B (zh) 一种让每个材料都附上信息属性用数据构建场景的***
CN111368019A (zh) 一种文档数据结构化处理方法
CN116701506A (zh) 融合非结构化数据的需求计划合规性检验方法
CN115982241A (zh) 一种数据处理方法、装置、电子设备及计算机可读介质
CN105809453A (zh) 一种基于电子单据的全程供应链信息追溯控制方法
Symeonidis et al. Unsupervised consumer intention and sentiment mining from microblogging data as a business intelligence tool
CN112612817B (zh) 数据处理方法、装置、终端设备及计算机可读存储介质
CN111026705B (zh) 建筑工程文件管理方法、***及终端设备
CN112990713A (zh) 一种全过程工程咨询服务评估方法、***及存储介质
CN113763143A (zh) 审计处理方法、计算机设备及存储装置
CN113626655A (zh) 提取文件中信息的方法、计算机设备及存储装置
US20140270575A1 (en) Methods and systems for capture processing
CN112765448A (zh) 一种用户标签挖掘方法、装置、服务器及存储介质
CN110990397A (zh) 一种征信数据提取方法及设备
CN115618120B (zh) 一种公众号信息推送方法、***、终端设备及存储介质
CN113360652B (zh) 一种企业级电力用户智能分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200703

WD01 Invention patent application deemed withdrawn after publication