CN112463791A - 核电站文档数据获取方法、装置、计算机设备及存储介质 - Google Patents

核电站文档数据获取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112463791A
CN112463791A CN202011308653.8A CN202011308653A CN112463791A CN 112463791 A CN112463791 A CN 112463791A CN 202011308653 A CN202011308653 A CN 202011308653A CN 112463791 A CN112463791 A CN 112463791A
Authority
CN
China
Prior art keywords
document
data
document data
page number
nuclear power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011308653.8A
Other languages
English (en)
Inventor
刘文可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China General Nuclear Power Corp
CGN Power Co Ltd
Daya Bay Nuclear Power Operations and Management Co Ltd
Lingdong Nuclear Power Co Ltd
Guangdong Nuclear Power Joint Venture Co Ltd
Lingao Nuclear Power Co Ltd
Original Assignee
China General Nuclear Power Corp
CGN Power Co Ltd
Daya Bay Nuclear Power Operations and Management Co Ltd
Lingdong Nuclear Power Co Ltd
Guangdong Nuclear Power Joint Venture Co Ltd
Lingao Nuclear Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China General Nuclear Power Corp, CGN Power Co Ltd, Daya Bay Nuclear Power Operations and Management Co Ltd, Lingdong Nuclear Power Co Ltd, Guangdong Nuclear Power Joint Venture Co Ltd, Lingao Nuclear Power Co Ltd filed Critical China General Nuclear Power Corp
Priority to CN202011308653.8A priority Critical patent/CN112463791A/zh
Publication of CN112463791A publication Critical patent/CN112463791A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及核电站信息化建设技术领域,尤其涉及一种核电站文档数据获取方法、装置、计算机设备及存储介质,该方法通过接收包含文件路径以及关键词的设备数据获取指令;根据所述文件路径以及所述关键词,自核电站设备数据缓存区中获取目标文档;自所述目标文档中获取包含所述关键词的关键页码,并检测所述关键页码中是否包含预设表格;在所述关键页码中包含预设表格时,获取所述预设表格中的第一文档数据;所述第一文档数据为非结构化数据;将所述第一文档数据转换成结构化数据存储至核电站文档数据库中。本发明提高文档分类存储效率,并且可以减少人工方式进行摘录整理可能导致的遗漏或者错误。

Description

核电站文档数据获取方法、装置、计算机设备及存储介质
技术领域
本发明涉及核电站信息化建设技术领域,尤其涉及一种核电站文档数据获取方法、装置、计算机设备及存储介质。
背景技术
随着核电站技术的日益发展,各个核电站电厂设备中需要记录的设备数据也越来越多,例如维修数据、运行数据等。
目前,核电站电厂设备的设备数据是通过工作文档形式存储的,且工作文档中的设备数据都是以非结构化的文本形式进行记录的,如此,在需要利用该设备数据时,需要首先将通过文件读取程序对工作文档进行读取,进而通过人工方式将读取识别出来的设备数据进行摘录整理,该过程需要耗费大量人力以及时间,导致了对以工作文档形式记录的设备数据的后续使用极为不便。
发明内容
本发明实施例提供一种核电站文档数据获取方法、装置、计算机设备及存储介质,以解决人工摘录整理设备数据导致后续使用设备数据极为不便的问题。
一种核电站文档数据获取方法,包括:
接收包含文件路径以及关键词的设备数据获取指令;
根据所述文件路径以及所述关键词,自核电站设备数据缓存区中获取目标文档;
自所述目标文档中获取包含所述关键词的关键页码,并检测所述关键页码中是否包含预设表格;
在所述关键页码中包含预设表格时,获取所述预设表格中的第一文档数据;所述第一文档数据为非结构化数据;
将所述第一文档数据转换成结构化数据存储至核电站文档数据库中。
一种核电站文档数据获取装置,包括:
数据获取指令接收模块,用于接收包含文件路径以及关键词的设备数据获取指令;
目标文档获取模块,用于根据所述文件路径以及所述关键词,自核电站设备数据缓存区中获取目标文档;
关键页码获取模块,用于自所述目标文档中获取包含所述关键词的关键页码,并检测所述关键页码中是否包含预设表格;
第一文档数据获取模块,用于在所述关键页码中包含预设表格时,获取所述预设表格中的第一文档数据;所述第一文档数据为非结构化数据;
数据存储模块,用于将所述第一文档数据转换成结构化数据存储至核电站文档数据库中。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述核电站文档数据获取方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述核电站文档数据获取方法。
上述核电站文档数据获取方法、装置、计算机设备及存储介质,该方法通过接收包含文件路径以及关键词的设备数据获取指令;根据所述文件路径以及所述关键词,自核电站设备数据缓存区中获取目标文档;自所述目标文档中获取包含所述关键词的关键页码,并检测所述关键页码中是否包含预设表格;在所述关键页码中包含预设表格时,获取所述预设表格中的第一文档数据;所述第一文档数据为非结构化数据;将所述第一文档数据转换成结构化数据存储至核电站文档数据库中。
本发明通过在接收到设备数据获取指令之后,自动检测并获取与文件路径以及关键词关联的文档数据,并将原始非结构化的文档数据转换成结构化文档数据之后,再存储至核电站文档数据库中,使得后续需要查找利用数据亦或者查找与该数据相关的文档时,可以快速找到该数据的原始路径,节省了人力,提高文档分类存储效率,并且可以减少人工方式进行摘录整理可能导致的遗漏或者错误。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中核电站文档数据获取方法的一应用环境示意图;
图2是本发明一实施例中核电站文档数据获取方法的一流程图;
图3是本发明一实施例中核电站文档数据获取方法中步骤S20的一流程图;
图4是本发明一实施例中核电站文档数据获取方法中步骤S50的一流程图;
图5是本发明一实施例中核电站文档数据获取装置的一原理框图;
图6是本发明一实施例中核电站文档数据获取装置中目标文档获取模块的一原理框图;
图7是本发明一实施例中核电站文档数据获取装置中数据存储模块的一原理框图;
图8是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的核电站文档数据获取方法,该核电站文档数据获取方法可应用如图1所示的应用环境中。具体地,该核电站文档数据获取方法应用在核电站文档数据获取***中,该核电站文档数据获取***包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决人工摘录整理设备数据导致后续使用设备数据极为不便的。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种核电站文档数据获取方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:接收包含文件路径以及关键词的设备数据获取指令。
其中,设备数据获取指令可以由相关工作人员通过移动终端亦或者云服务器发送的指令,也可以是在相关工作人员在本方法应用的应用程序上键入文件路径以及关键词时自动生成的指令。文件路径指的是需要获取的目标文档存储的地址。关键词指的是需要获取的目标文档中存在的字词,进而可以通过指定的文件路径以及指定的关键词,获取到对应的目标文档。
进一步地,在接收到多个包含文件路径以及关键词的设备数据获取指令时,可以根据接收到指令的时间顺序,将较晚时间接收到的指令存储在指令缓存区中,进而可以循环批量执行这些指令。
S20:根据所述文件路径以及所述关键词,自核电站设备数据缓存区中获取目标文档。
可以理解地,目标文档即为在核电站设备数据缓存区的文件路径下,包含关键词的文档;可选地,本实施例中的目标文档均是以word文档形式存储在核电站设备数据缓存区中,并且可能仅有一个在文件路径下包含关键词的目标文档,也可能存在多个目标文档。进一步地,本实施例中指出的核电站设备数据缓存区仅仅是一个示例,该目标文档还可以存储在其它个人计算机中等。核电站设备数据缓存区用于存储暂未整理结构化数据的非结构化文档。
在一具体实施例中,如图3所示,步骤S20中包括:
S201:自所述核电站设备数据缓存区中,获取在所述文件路径下的所有文档。
可以理解地,对于每一个文档的存储区域,均对应一个文件路径,进而在接收到包含文件路径以及关键词的设备数据获取指令之后,自核电站设备数据缓存区中,追溯到该文件路径下,获取该文件路径下所有文档。
S202:检测所述所有文档中是否包含所述关键词。
S203:将包含所述关键词的所述文档记录为所述目标文档。
可选地,在自所述核电站设备数据缓存区中,获取在所述文件路径下的所有文档之后,可以采用TextRank、LDA或者TPR算法模型对所有文档进行关键词检测,以将包含关键词的文档记录为目标文档。
进一步地,在检测所有文档中是否包含关键词之后,若所有文档均不包含关键词,则发送设备数据获取失败指令至预设接收方,以令所述预设接收方检测所述文件路径和/或所述关键词是否存在错误。其中,预设接收方可以为核电站相关人员,亦或者发送设备数据获取指令的对象。
S30:自所述目标文档中获取包含所述关键词的关键页码,并检测所述关键页码中是否包含预设表格。
可以理解地,虽然目标文档是包含关键词的文档,但是该目标文档中不一定所有页码中的内容均包含关键词,因此只需要检测包含关键词的关键页码中是否存在需要获取的数据即可,节省***运行时间以及减轻计算机***的负担,提高计算机***运行速率。预设表格可以为任意形式的表格,该预设表格中存储设备数据。
一般地,对于核电站的具体数据,一般会存储在目标文档中的表格中,但是表格中的数据均是未分类的非结构化数据,进而在根据所述文件路径以及所述关键词,自核电站设备数据缓存区中获取目标文档之后,自所述目标文档中获取包含所述关键词的关键页码,并检测所述关键页码中是否包含预设表格,以获取预设表格中的设备数据。
S40:在所述关键页码中包含预设表格时,获取所述预设表格中的第一文档数据;所述第一文档数据为非结构化数据。
可以理解地,第一文档数据以不规则或者不完整的数据格式存储在目标文档的关键页面的预设表格中,不方便用数据库二维逻辑表来表现的数据,因此无法直接存储进入数据库中,进而表征第一文档数据为非结构化数据。
具体地,在自所述目标文档中获取包含所述关键词的关键页码,并检测所述关键页码中是否包含预设表格之后,一般地,预设表格中第一行均为标题行,该标题行的内容对数据存储没有意义,因此在在关键页码中包含预设表格时,自动剔除该预设表格中行数为第一行的表格内容;在提出第一行的表格内容之后,通过循环遍历方法自动获取自预设表格中第二行起所有列数据,并在循环遍历到最后一行之后,自动跳转至步骤S30中,检测下一关键页码中是否包含预设表格。
S50:将所述第一文档数据转换成结构化数据存储至核电站文档数据库中。
其中,核电站文档数据库中存储的数据均为结构化数据,因此,在将非结构数据的第一文档数据存储至核电站文档数据库之前,还需要将第一文档数据转换成结构化数据之后,再存储至核电站文档数据库中。
在一实施例中,步骤S50之前,也即所述将所述第一文档数据转换成结构化数据存储至核电站文档数据库中之前,还包括:
(1)检测所述文档数据中是否包含预设横线字符。
其中,预设横线字符可以为衔接文档数据的横线,亦或者是文档数据自身具有的横线,因为该横线字符不会影响文档数据的具体意义,因此可以剔除该横线字符。
(2)在所述文档数据中包含所述预设横线字符时,剔除所述预设横线字符,并检测剔除所述预设横线字符后各文档数据的标识位长度。
具体地,在检测所述文档数据中是否包含预设横线字符之后,在所述文档数据中包含所述预设横线字符时,剔除所述预设横线字符,并检测剔除所述预设横线字符后各文档数据的标识位长度。其中,标识位长度指的是各文档数据在剔除横线字符之后的标识位位数。
(3)在所述文档数据的标识位长度等于第一预设标识位长度时,将该文档数据记录为电站文档数据。
优选地,第一预设标识位长度为两位。可以理解地,在文档数据的标识位长度等于第一预设标识位长度时,表征该文档数据为核电站设备的位置信息,进而将该文档数据记录为电站文档数据。
(4)在所述文档数据的标识位长度大于或等于第二预设标识位长度时,将该文档数据记录为设备文档数据。
优选地,第二预设标识位长度为九位。可以理解地,在文档数据的标识位长度大于或等于第二预设标识位长度时,表征该文档数据为核电站设备的具体设备信息,进而将该文档数据记录为设备文档数据。
(5)在所述文档数据的标识位长度小于所述第一预设标识位长度,或者大于所述第一预设标识位长度且小于所述第二预设标识位长度时,将该文档数据记录为待校验数据,并将所述待校验数据发送至预设接收方。
可以理解地,在文档数据的标识位长度小于第一预设标识位长度,或者大于所述第一预设标识位长度且小于所述第二预设标识位长度时,表征该文档数据没有办法直接确定为电站文档数据或者是设备文档数据,需要将该文档数据记录为待校验数据,并将待校验数据发送至预设接收方,以指示预设接收方对该待校验数据进行人工校验,在确定待校验数据的具体分类(如电站文档数据或者设备文档数据)之后,可以将该待校验数据以及与其对应的分类反馈至服务器中,进而对其进行分类存储。示例性地,在目标文档记录数据时,可能由于记录时存在遗漏,将本属于电站文档数据的文档数据少记录一个标识位,进而使得该文档数据的标识位长度小于第一预设标识位长度。
在一实施例中,如图4所示,步骤S50中,一个目标文档关联一个也即所述将所述第一文档数据转换成结构化数据存储至核电站文档数据库中,包括:
S501:根据与所述电站文档数据对应的关键页码,以及与该关键页码对应的目标文档,确定与所述电站文档数据对应的电站文档标签。
S502:将所述电站文档数据以及所述电站文档标签关联存储至所述核电站文档数据库中的电站字段中,以令所述电站文档数据转换成结构化数据。
其中,电站字段指的是核电站数据库中一类数据,该电站字段下仅存储电站文档数据。
可以理解地,在所述文档数据的标识位长度等于第一预设标识位长度时,将该文档数据记录为电站文档数据之后,为了使得该电站文档数据从非结构化数据转换成结构化数据,也即使得该电站文档数据可以通过数据库二维逻辑来表现的数据,进而根据与所述电站文档数据对应的关键页码,以及与该关键页码对应的目标文档,确定与所述电站文档数据对应的电站文档标签;进而使得每一个电站文档数据均存在一个关联的电站文档标签,使得存储至核电站文档数据库之后,在需要查询该电站文档数据时,可以通过解析与其关联的电站文档标签,即可获取与其关联的其它数据信息,进而表征该电站文档数据已经从非结构化数据转换成结构化数据。
S503:根据与所述设备文档数据对应的关键页码,以及与该关键页码对应的目标文档,确定与所述设备文档数据对应的设备文档标签。
S504:将所述设备文档数据以及所述设备文档标签关联存储至所述核电站文档数据库中的设备字段中,以令所述设备文档数据转换成结构化数据。
可以理解地,在所述文档数据的标识位长度大于第一预设标识位长度,且小于第二预设标识位长度时,将该文档数据记录为设备文档数据之后,为了使得该设备文档数据从非结构化数据转换成结构化数据,也即使得该设备文档数据可以通过数据库二维逻辑来表现的数据,进而根据与所述设备文档数据对应的关键页码,以及与该关键页码对应的目标文档,确定与所述设备文档数据对应的设备文档标签;进而使得每一个设备文档数据均存在一个关联的设备文档标签,使得存储至核电站文档数据库之后,在需要查询该设备文档数据时,可以通过解析与其关联的设备文档标签,即可获取与其关联的其它数据信息,进而表征该设备文档数据已经从非结构化数据转换成结构化数据。
在本实施例中,在接收到设备数据获取指令之后,自动检测并获取与文件路径以及关键词关联的文档数据,并将原始非结构化的文档数据转换成结构化文档数据之后,再存储至核电站文档数据库中,使得后续需要查找利用数据亦或者查找与该数据相关的文档时,可以快速找到该数据的原始路径,节省了人力,提高文档分类存储效率,并且可以减少人工方式进行摘录整理可能导致的遗漏或者错误。
在一实施例中,步骤S30之后,也即所述检测所述关键页码中是否包含预设表格之后,还包括:
S60:在所述关键页码中不包含预设表格时,检测与所述关键页码相邻的下一页码中是否包含预设表格。
S70:在与所述关键页码相邻的下一页码中包含所述预设表格时,获取下一页码中包含的所述预设表格中的第二文档数据,并将所述第二文档数据存储至核电站文档数据库中。
可以理解地,由于文档中一个页码的显示内容有限,因此可能在当前关键页码中包含关键词但是该关键词在当前关键页面中末尾处才出现,进而对应的预设表格无法在当前关键页码中显示,因此,在关键页码中不包含预设表格时,检测与所述关键页码相邻的下一页码中是否包含预设表格。
进一步地,在与所述关键页码相邻的下一页码中包含所述预设表格时,获取下一页码中包含的所述预设表格中的第二文档数据,并将所述第二文档数据存储至核电站文档数据库中。
在一具体实施例中,步骤S60之后,也即所述检测与所述关键页码相邻的下一页码中是否包含预设表格之后,还包括:
S80:在与所述关键页码相邻的下一页码中不包含预设表格时,则提示该关键页码不包含预设表格,并检测下一个关键页码中是否包含预设表格。
S90:在所述下一个关键页码中包含预设表格时,获取所述预设表格中的第三文档数据,并将所述第三文档数据存储至核电站文档数据库中。
可以理解地,在所述关键页码中不包含预设表格时,检测与所述关键页码相邻的下一页码中是否包含预设表格之后,若在与关键页码相邻的下一页码中不包含预设表格时,表征该关键页码以及相邻的下一页码中均不存在需要获取的数据,进而跳过该关键页码,检测下一个关键页码中是否包含预设表格,在下一个关键页码中包含预设表格时,获取所述预设表格中的第三文档数据,并将所述第三文档数据存储至核电站文档数据库中,并继续检测下一个关键页码是否包含预设表格,直至所有关键页码均检测完毕之后停止检测。
在一实施例中,步骤S50之后,也即将所述第一文档数据转换成结构化数据存储至核电站文档数据库中之后,还包括:
(1)接收包含目标字段的设备数据获取指令之后,解析所述目标字段,得到与所述目标字段对应的目标标识向量。
其中,设备数据获取指令可以为核电站相关工作人员发送的指令,也可以为相关工作人员在服务器中键入目标字段之后触发生成的指令。目标字段为待获取与其相关的文档数据的字段。
可以理解地,当核电站相关人员需要获取某个数据的相关文档亦或者关联数据时,其可以发送包含目标字段的设备数据获取指令至服务器中,服务器在接收包含目标字段的设备数据获取指令之后,解析该目标字段,得到与目标字段对应的目标标识向量,进而根据该目标标识向量,在核电站文档数据库中查询与其相关的文档。
(2)检测所述目标标识向量的标识位长度。
(3)在所述标识位长度等于所述第一预设标识位长度时,自所述核电站文档数据库的电站字段中,获取与所述目标标识向量匹配的电站文档数据以及与该电站文档数据关联的电站文档标签。
其中,标识位长度指的是目标标识向量的字符数量。
可以理解地,在上述实施例中已经指出,在所述文档数据的标识位长度等于第一预设标识位长度时,将该文档数据记录为电站文档数据,且将电站文档数据以及与其对应的电站文档标签关联存储至所述核电站文档数据库中的电站字段中,进而在标识位长度等于第一预设标识位长度时,自核电站文档数据库的电站字段中,即可获取与所述目标标识向量匹配的电站文档数据。
进一步地,在上述实施例中还指出,在所述文档数据的标识位长度大于或等于第二预设标识位长度时,将该文档数据记录为设备文档数据且将设备文档数据以及所述设备文档标签关联存储至所述核电站文档数据库中的设备字段中,进而在目标标识向量的标识位长度大于或等于第二预设标识位长度自核电站文档数据库的设备字段中,获取与所述目标标识向量匹配的设备文档数据。
将所述电站文档数据以及与其关联的电站文档标签发送至预设接收方。
具体地,在自所述核电站文档数据库的电站字段中,获取与所述目标标识向量匹配的电站文档数据以及与该电站文档数据关联的电站文档标签之后,将电站文档数据以及与其关联的电站文档标签发送至预设接收方,以令预设接收方解析电站文档标签之后,获取电站文档标签中与该电站文档数据关联的目标文档以及关键页码,进而可以从核电站设备数据缓存区中查询该目标文档中的关键页码,以获取与目标字段(也即电站文档数据)相关的数据,提高了数据获取的便利性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种核电站文档数据获取装置,该核电站文档数据获取装置与上述实施例中核电站文档数据获取方法一一对应。如图5所示,该核电站文档数据获取装置包括数据获取指令接收模块10、目标文档获取模块20、关键页码获取模块30、第一文档数据获取模块40和数据存储模块50。各功能模块详细说明如下:
数据获取指令接收模块10,用于接收包含文件路径以及关键词的设备数据获取指令;
目标文档获取模块20,用于根据所述文件路径以及所述关键词,自核电站设备数据缓存区中获取目标文档;
关键页码获取模块30,用于自所述目标文档中获取包含所述关键词的关键页码,并检测所述关键页码中是否包含预设表格;
第一文档数据获取模块40,用于在所述关键页码中包含预设表格时,获取所述预设表格中的第一文档数据;所述第一文档数据为非结构化数据;
数据存储模块50,用于将所述第一文档数据转换成结构化数据存储至核电站文档数据库中。
优选地,如图6所示,目标文档获取模块20包括如下单元:
文档获取单元201,用于自所述核电站设备数据缓存区中,获取在所述文件路径下的所有文档;
关键词检测单元202,用于检测所述所有文档中是否包含所述关键词;
目标文档记录单元203,用于将包含所述关键词的所述文档记录为所述目标文档。
优选地,核电站文档数据获取装置还包括:
第一预设表格检测模块,用于在所述关键页码中不包含预设表格时,检测与所述关键页码相邻的下一页码中是否包含预设表格;
第二文档数据获取模块,用于在与所述关键页码相邻的下一页码中包含所述预设表格时,获取下一页码中包含的所述预设表格中的第二文档数据,并将所述第二文档数据存储至核电站文档数据库中。
优选地,核电站文档数据获取装置还包括:
第二预设表格检测模块,用于在与所述关键页码相邻的下一页码中不包含预设表格时,则提示该关键页码不包含预设表格,并检测下一个关键页码中是否包含预设表格;
第三文档数据获取模块,用于在所述下一个关键页码中包含预设表格时,获取所述预设表格中的第三文档数据,并将所述第三文档数据存储至核电站文档数据库中。
优选地,核电站文档数据获取装置还包括:
横线字符检测模块,用于检测所述文档数据中是否包含预设横线字符;
横线字符剔除模块,用于在所述文档数据中包含所述预设横线字符时,剔除所述预设横线字符,并检测剔除所述预设横线字符后各文档数据的标识位长度;
电站文档数据记录模块,用于在所述文档数据的标识位长度等于第一预设标识位长度时,将该文档数据记录为电站文档数据;
设备文档数据记录模块,用于在所述文档数据的标识位长度大于或等于第二预设标识位长度时,将该文档数据记录为设备文档数据;
数据发送模块,用于在所述文档数据的标识位长度小于所述第一预设标识位长度,或者大于所述第一预设标识位长度且小于所述第二预设标识位长度时,将该文档数据记录为待校验数据,并将所述待校验数据发送至预设接收方。
优选地,如图7所示,数据存储模块50包括:
电站文档标签记录单元501,用于根据与所述电站文档数据对应的关键页码,以及与该关键页码对应的目标文档,确定与所述电站文档数据对应的电站文档标签;
电站文档数据存储单元502,用于将所述电站文档数据以及所述电站文档标签关联存储至所述核电站文档数据库中的电站字段中,以令所述电站文档数据转换成结构化数据;
设备文档标签记录单元503,用于根据与所述设备文档数据对应的关键页码,以及与该关键页码对应的目标文档,确定与所述设备文档数据对应的设备文档标签;
设备文档数据存储单元504,用于将所述设备文档数据以及所述设备文档标签关联存储至所述核电站文档数据库中的设备字段中,以令所述设备文档数据转换成结构化数据。
优选地,核电站文档数据获取装置还包括:
目标字段解析模块,用于接收包含目标字段的设备数据获取指令之后,解析所述目标字段,得到与所述目标字段对应的目标标识向量;
标识位长度检测模块,用于检测所述目标标识向量的标识位长度;
电站文档数据获取模块,用于在所述标识位长度等于所述第一预设标识位长度时,自所述核电站文档数据库的电站字段中,获取与所述目标标识向量匹配的电站文档数据以及与该电站文档数据关联的电站文档标签;
数据发送模块,用于将所述电站文档数据以及与其关联的电站文档标签发送至预设接收方。
关于核电站文档数据获取装置的具体限定可以参见上文中对于核电站文档数据获取方法的限定,在此不再赘述。上述核电站文档数据获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中核电站文档数据获取方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种核电站文档数据获取方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中核电站文档数据获取方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中核电站文档数据获取方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (12)

1.一种核电站文档数据获取方法,其特征在于,包括:
接收包含文件路径以及关键词的设备数据获取指令;
根据所述文件路径以及所述关键词,自核电站设备数据缓存区中获取目标文档;
自所述目标文档中获取包含所述关键词的关键页码,并检测所述关键页码中是否包含预设表格;
在所述关键页码中包含预设表格时,获取所述预设表格中的第一文档数据;所述第一文档数据为非结构化数据;
将所述第一文档数据转换成结构化数据存储至核电站文档数据库中。
2.如权利要求1所述的核电站文档数据获取方法,其特征在于,所述根据所述文件路径以及所述关键词,自核电站设备数据缓存区中获取目标文档,包括:
自所述核电站设备数据缓存区中,获取在所述文件路径下的所有文档;
检测所述所有文档中是否包含所述关键词;
将包含所述关键词的所述文档记录为所述目标文档。
3.如权利要求1所述的核电站文档数据获取方法,其特征在于,所述检测所述关键页码中是否包含预设表格之后,包括:
在所述关键页码中不包含预设表格时,检测与所述关键页码相邻的下一页码中是否包含预设表格;
在与所述关键页码相邻的下一页码中包含所述预设表格时,获取下一页码中包含的所述预设表格中的第二文档数据,并将所述第二文档数据存储至核电站文档数据库中。
4.如权利要求3所述的核电站文档数据获取方法,其特征在于,所述检测与所述关键页码相邻的下一页码中是否包含预设表格之后,还包括:
在与所述关键页码相邻的下一页码中不包含预设表格时,则提示该关键页码不包含预设表格,并检测下一个关键页码中是否包含预设表格;
在所述下一个关键页码中包含预设表格时,获取所述预设表格中的第三文档数据,并将所述第三文档数据存储至核电站文档数据库中。
5.如权利要求1所述的核电站文档数据获取方法,其特征在于,所述将所述第一文档数据转换成结构化数据存储至核电站文档数据库中之前,包括:
检测所述文档数据中是否包含预设横线字符;
在所述文档数据中包含所述预设横线字符时,剔除所述预设横线字符,并检测剔除所述预设横线字符后各文档数据的标识位长度;
在所述文档数据的标识位长度等于第一预设标识位长度时,将该文档数据记录为电站文档数据;
在所述文档数据的标识位长度大于或等于第二预设标识位长度时,将该文档数据记录为设备文档数据;
在所述文档数据的标识位长度小于所述第一预设标识位长度,或者大于所述第一预设标识位长度且小于所述第二预设标识位长度时,将该文档数据记录为待校验数据,并将所述待校验数据发送至预设接收方。
6.如权利要求5所述的核电站文档数据获取方法,其特征在于,一个所述目标文档关联一个文档标签;所述将所述第一文档数据转换成结构化数据存储至核电站文档数据库中,包括:
根据与所述电站文档数据对应的关键页码,以及与该关键页码对应的目标文档,确定与所述电站文档数据对应的电站文档标签;
将各所述电站文档数据以及与其对应的电站文档标签关联存储至所述核电站文档数据库中的电站字段中,以令所述电站文档数据转换成结构化数据;
根据与所述设备文档数据对应的关键页码,以及与该关键页码对应的目标文档,确定与所述设备文档数据对应的设备文档标签;
将所述设备文档数据以及所述设备文档标签关联存储至所述核电站文档数据库中的设备字段中,以令所述设备文档数据转换成结构化数据。
7.如权利要求6所述的核电站文档数据获取方法,其特征在于,所述将所述第一文档数据转换成结构化数据存储至核电站文档数据库中之后,还包括:
接收包含目标字段的设备数据获取指令之后,解析所述目标字段,得到与所述目标字段对应的目标标识向量;
检测所述目标标识向量的标识位长度;
在所述标识位长度等于所述第一预设标识位长度时,自所述核电站文档数据库的电站字段中,获取与所述目标标识向量匹配的电站文档数据以及与该电站文档数据关联的电站文档标签;
将所述电站文档数据以及与其关联的电站文档标签发送至预设接收方。
8.一种核电站文档数据获取装置,其特征在于,包括:
数据获取指令接收模块,用于接收包含文件路径以及关键词的设备数据获取指令;
目标文档获取模块,用于根据所述文件路径以及所述关键词,自核电站设备数据缓存区中获取目标文档;
关键页码获取模块,用于自所述目标文档中获取包含所述关键词的关键页码,并检测所述关键页码中是否包含预设表格;
第一文档数据获取模块,用于在所述关键页码中包含预设表格时,获取所述预设表格中的第一文档数据;所述第一文档数据为非结构化数据;
数据存储模块,用于将所述第一文档数据转换成结构化数据存储至核电站文档数据库中。
9.如权利要求8所述的核电站文档数据获取装置,其特征在于,所述目标文档获取模块包括:
文档获取单元,用于自所述核电站设备数据缓存区中,获取在所述文件路径下的所有文档;
关键词检测单元,用于检测所述所有文档中是否包含所述关键词;
目标文档记录单元,用于将包含所述关键词的所述文档记录为所述目标文档。
10.如权利要求8所述的核电站文档数据获取装置,其特征在于,所述核电站文档数据获取装置,还包括:
第一表格检测模块,用于在所述关键页码中不包含预设表格时,检测与所述关键页码相邻的下一页码中是否包含预设表格;
第二文档数据获取模块,用于在与所述关键页码相邻的下一页码中包含所述预设表格时,获取下一页码中包含的所述预设表格中的第二文档数据,并将所述第二文档数据存储至核电站文档数据库中。
11.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述核电站文档数据获取方法。
12.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述核电站文档数据获取方法。
CN202011308653.8A 2020-11-20 2020-11-20 核电站文档数据获取方法、装置、计算机设备及存储介质 Pending CN112463791A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011308653.8A CN112463791A (zh) 2020-11-20 2020-11-20 核电站文档数据获取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011308653.8A CN112463791A (zh) 2020-11-20 2020-11-20 核电站文档数据获取方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN112463791A true CN112463791A (zh) 2021-03-09

Family

ID=74837121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011308653.8A Pending CN112463791A (zh) 2020-11-20 2020-11-20 核电站文档数据获取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112463791A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377950A (zh) * 2021-06-02 2021-09-10 浪潮软件股份有限公司 一种实现非结构化文档扁平化存储及实时预览的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377950A (zh) * 2021-06-02 2021-09-10 浪潮软件股份有限公司 一种实现非结构化文档扁平化存储及实时预览的方法

Similar Documents

Publication Publication Date Title
CN111506498B (zh) 测试用例的自动生成方法、装置、计算机设备及存储介质
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
CN110795919B (zh) 一种pdf文档中的表格抽取方法、装置、设备及介质
CN109508352B (zh) 一种报表数据的输出方法、装置、设备和存储介质
CN109992601B (zh) 待办事项信息的推送方法、装置和计算机设备
CN111176996A (zh) 测试用例生成方法、装置、计算机设备及存储介质
CN103455475B (zh) 排版方法、设备及***
CN113220782B (zh) 多元测试数据源生成方法、装置、设备及介质
CN110737818B (zh) 网络发布数据处理方法、装置、计算机设备和存储介质
CN111191079B (zh) 一种文档内容获取方法、装置、设备及存储介质
CN110866491A (zh) 目标检索方法、装置、计算机可读存储介质和计算机设备
CN109325118B (zh) 不平衡样本数据预处理方法、装置和计算机设备
CN112286934A (zh) 数据库表导入方法、装置、设备及介质
CN110955608B (zh) 测试数据处理方法、装置、计算机设备和存储介质
CN110990390A (zh) 数据协同处理方法、装置、计算机设备和存储介质
CN110659297A (zh) 数据处理方法、装置、计算机设备和存储介质
CN112559526A (zh) 数据表导出方法、装置、计算机设备及存储介质
CN110362478B (zh) 应用升级测试方法、装置、计算机设备和存储介质
CN109656474B (zh) 数据存储方法、装置、计算机设备和存储介质
CN112463791A (zh) 核电站文档数据获取方法、装置、计算机设备及存储介质
CN111125748A (zh) 越权查询的判断方法、装置、计算机设备和存储介质
US10664340B2 (en) Failure analysis program, failure analysis device, and failure analysis method
CN112528832A (zh) 对pdf格式的继电保护定值单进行处理的方法和***
CN111460268A (zh) 数据库查询请求的确定方法、装置和计算机设备
CN108460116B (zh) 搜索方法、装置、计算机设备、存储介质及搜索***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination