CN117076474B - 离线多模态文献数据的更新方法、装置、设备和介质 - Google Patents

离线多模态文献数据的更新方法、装置、设备和介质 Download PDF

Info

Publication number
CN117076474B
CN117076474B CN202311336095.XA CN202311336095A CN117076474B CN 117076474 B CN117076474 B CN 117076474B CN 202311336095 A CN202311336095 A CN 202311336095A CN 117076474 B CN117076474 B CN 117076474B
Authority
CN
China
Prior art keywords
metadata
document
new
data
full text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311336095.XA
Other languages
English (en)
Other versions
CN117076474A (zh
Inventor
陆矜菁
严笑然
厉燕
刘洋
陈一家
侯炜华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202311336095.XA priority Critical patent/CN117076474B/zh
Publication of CN117076474A publication Critical patent/CN117076474A/zh
Application granted granted Critical
Publication of CN117076474B publication Critical patent/CN117076474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及数据处理领域,特别是涉及一种离线多模态文献数据的更新方法、装置、设备和介质。所述方法包括:采集新文献全文数据,并提取所述新文献全文数据的第二文献元数据;对所述结构化数据库进行检索以判断所述结构化数据库中是否存在该第二文献元数据、判断所述分布式文件***中是否存在该新文献全文数据及判断所述第二文献元数据是否和所述第一文献元数据存在不同,并生成文献更新表;基于所述文献更新表,将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件***,和/或将所述第二文献元数据以及所述第二图像数据的第二图像元数据更新至所述结构化数据库。本发明实现分布式存储***的多模态文献数据的更新。

Description

离线多模态文献数据的更新方法、装置、设备和介质
技术领域
本申请涉及数据处理领域,特别是涉及一种离线多模态文献数据的更新方法、装置、设备和介质。
背景技术
文献数据库均有大量且在不断增多的科研文献资源,但是各大文献数据库都相对封闭。因此,根据需求整合各大平台的文献数据是极有意义的,构建多模态文献数据存储、查询***是第一步,对***中存储的多模态文献数据进行更新则是与之相辅相成的又一部分,将对紧跟科研动向、为高质量数据集规模的扩大都有很大意义。
现有的各大文献数据库基本没有开源其对于多模态文献数据的更新的方法,因此亟需提出一种多模态文献数据更新方法很具意义。
发明内容
基于此,有必要针对上述技术问题,提供一种离线多模态文献数据的更新方法、装置、计算机设备和存储介质。
第一方面,本发明实施例提出一种离线多模态文献数据的更新方法,应用于分布式存储***,所述分布式存储***包括用于存储文献全文数据以及所述文献全文数据中的第一图像数据的分布式文件***、用于存储所述文献全文数据的第一文献元数据以及所述第一图像数据的第一图像元数据的结构化数据库,所述方法包括:
采集新文献全文数据,并提取所述新文献全文数据的第二文献元数据;
对所述结构化数据库进行检索以判断所述结构化数据库中是否存在该第二文献元数据、判断所述分布式文件***中是否存在该新文献全文数据及判断所述第二文献元数据是否和所述第一文献元数据存在不同,并生成文献更新表;
基于所述文献更新表,将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件***,和/或将所述第二文献元数据以及所述第二图像数据的第二图像元数据更新至所述结构化数据库。
在一实施例中,所述提取所述新文献全文数据的第二文献元数据包括:
提取所述新文献全文数据的全文元数据;及
提取所述新文献全文数据的引文元数据;
基于所述全文元数据和所述引文元数据生成新文献元数据表,所述新文献元数据表用于记录所述第二文献元数据。
在一实施例中,所述对所述结构化数据库进行检索以判断所述结构化数据库中是否存在该第二文献元数据、判断所述分布式文件***中是否存在该新文献全文数据及判断所述第二文献元数据是否和所述第一文献元数据存在不同,并生成文献更新表包括:
读取所述新文献元数据表以及所述结构化数据库中的文献元数据表;
基于所述新文献元数据表以及所述文献元数据表,检索所述文献元数据表中是否存在所述新文献元数据,若不存在,则标注为第一更新类别;若存在,则检索所述分布式文件***中是否存在该新文献全文数据,若不存在,则标注为第二更新类别;若存在,则判断所述第二文献元数据是否和所述第一文献元数据存在不同,并标注为第三更新类别;
基于所述检索的结果,生成所述文献更新表。
在一实施例中,若不存在所述新文献全文数据,则提取所述新文献全文数据的第二图像数据及所述第二图像数据的第二图像元数据。
在一实施例中,所述基于所述文献更新表,将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件***,和/或将所述第二文献元数据以及所述第二图像数据的第二图像元数据更新至所述结构化数据库包括:
基于所述文献更新表,确定更新类别;
若为第一更新类别,则将所述第二文献元数据更新至所述文献元数据表中、将所述第二图像数据的第二图像元数据更新至所述结构化数据库中的图像元数据表中及将所述新文献全文数据更新至所述分布式文件***;
若为第二更新类别,则将所述第二文献元数据更新至所述文献元数据表中,及将所述第二图像数据的第二图像元数据更新至所述结构化数据库中的图像元数据表中,及将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件***;
若为第三更新类别,则基于所述第二文献元数据修正所述文献元数据表中的第一文献元数据。
在一实施例中,所述将所述第二文献元数据更新至所述文献元数据表中包括:
采用直接更新法或拉链表更新法将所述第二文献元数据更新至所述文献元数据表中。
在一实施例中,在所述基于所述全文元数据和所述引文元数据生成新文献元数据表之前,还包括:
对所述全文元数据和所述引文元数据进行标注;
对标注后的所述全文元数据和所述引文元数据进行标准化处理;
设定标准化处理后的所述全文元数据和所述引文元数据的第一标识符,生成新文献元数据表。
第二方面,本发明实施例提出一种离线多模态文献数据的更新装置,应用于分布式存储***,所述分布式存储***包括用于存储文献全文数据以及所述文献全文数据中的第一图像数据的分布式文件***、用于存储所述文献全文数据的第一文献元数据以及所述第一图像数据的第一图像元数据的结构化数据库,所述装置包括:
提取模块,用于采集新文献全文数据,并提取所述新文献全文数据的第二文献元数据;
检索模块,用于对所述结构化数据库进行检索以判断所述结构化数据库中是否存在该第二文献元数据、判断所述分布式文件***中是否存在该新文献全文数据及判断所述第二文献元数据是否和所述第一文献元数据存在不同,并生成文献更新表;
更新模块,用于基于所述文献更新表,将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件***,和/或将所述第二文献元数据以及所述第二图像数据的第二图像元数据更新至所述结构化数据库。
第三方面,本发明实施例提出一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行第一方面所述的步骤。
第四方面,本发明实施例提出一种计算机可读存储介质,其上存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的步骤。
相比于现有技术,上述方法、装置、计算机设备和存储介质,采集新文献全文数据,并提取所述新文献全文数据的第二文献元数据;对所述结构化数据库进行检索以判断所述结构化数据库中是否存在该第二文献元数据、判断所述分布式文件***中是否存在该新文献全文数据及判断所述第二文献元数据是否和所述第一文献元数据存在不同,并生成文献更新表;基于所述文献更新表,将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件***,和/或将所述第二文献元数据以及所述第二图像数据的第二图像元数据更新至所述结构化数据库,从而实现分布式存储***的多模态文献数据的更新。
附图说明
图1为一实施例中分布式存储***的结构示意图;
图2为一实施例中离线多模态文献数据的更新方法的流程示意图;
图3为一实施例中新文献元数据表生成方法的流程示意图;
图4为另一实施例中新文献元数据表生成方法的流程示意图;
图5为一实施例中文献更新表生成的流程示意图;
图6为一实施例中步骤S206的具体流程示意图;
图7为一实施例中离线多模态文献数据的更新装置的模块连接示意图;
图8为一实施例中计算机设备的结构示意图。
具体实施方式
为了更清楚地说明本发明的实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本发明应用于其他类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
如本发明和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本发明对根据本发明的实施例的装置中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在计算设备和/或处理器上。模块仅是说明性的,并且装置和方法的不同方面可以使用不同模块。
应当理解的是,当单元或模块被描述为“连接”、“耦接”其它单元、模块或块时,其可以指直接连接或耦接,或者与其它单元、模块或块通信,或者可以存在中间的单元、模块或块,除非上下文明确指明其它方式。本文所使用的术语“和/或”可包括一个或多个相关列出项目的任意与所有组合。
本申请提供的离线多模态文献数据的更新方法,可以应用于如图1所示的分布式存储***中。如图1所示,所述分布式存储***包括用于存储文献全文数据以及所述文献全文数据中的图像数据的分布式文件***102、用于存储所述文献全文数据的文献元数据以及所述图像数据的第一图像元数据的结构化数据库104。所述分布式存储***还包括检索查询接口,具体为第一检索查询接口106,用于多模态数据的检索查询。
如图2所示,本发明实施例提供了一种离线多模态文献数据的更新方法,以该方法应用于图1中的***为例进行说明,包括以下步骤:
S202:采集新文献全文数据,并提取所述新文献全文数据的第二文献元数据。
新文献全文数据采集方式主要是利用自动化程序进行开源学术网站文献的批量爬取、下载,对于部分难以自动化爬取,如由于反爬虫机制等原因限制下载的,但确实有特定需求的文献,则采用人工下载的方式下载到本地,记录本地文件夹路径local_path。
S204:对所述结构化数据库进行检索以判断所述结构化数据库中是否存在该第二文献元数据、判断所述分布式文件***中是否存在该新文献全文数据及判断所述第二文献元数据是否和所述第一文献元数据存在不同,并生成文献更新表;
S206:基于所述文献更新表,将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件***,和/或将所述第二文献元数据以及所述第二图像数据的第二图像元数据更新至所述结构化数据库。
基于上述步骤S202-S206,采集新文献全文数据,并提取所述新文献全文数据的第二文献元数据;对所述结构化数据库进行检索以判断所述结构化数据库中是否存在该第二文献元数据、判断所述分布式文件***中是否存在该新文献全文数据及判断所述第二文献元数据是否和所述第一文献元数据存在不同,并生成文献更新表;基于所述文献更新表,将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件***,和/或将所述第二文献元数据以及所述第二图像数据的第二图像元数据更新至所述结构化数据库,从而实现分布式存储***的多模态文献数据的更新。
在步骤S202中,如图3所示,具体包括以下步骤:
S302:提取所述新文献全文数据的全文元数据;及提取所述新文献全文数据的引文元数据。
采用程序批量提取的方式,主要采用PyPDF2等Python库对新文献全文数据的全文元数据及其引文元数据进行批量提取,提取内容主要包括文献标题、作者、所属学科、日期等,同时记录新文献全文数据的名称pdf_name。
S304:基于所述全文元数据和所述引文元数据生成新文献元数据表,所述新文献元数据表用于记录所述第二文献元数据。
在进一步的实施例中,在所述基于所述全文元数据和所述引文元数据生成新文献元数据表之前,如图4所示,还包括以下步骤:
S402:对所述全文元数据和所述引文元数据进行标注。
标注分为批量标注和人工标注。批量标注主要内容是,新增“全文数据”列,对采集到的全文元数据标注1,对所提取的引文元数据则标注0。人工标注主要内容是对于程序提取的元数据关键信息缺失的(例如缺少标题、作者)进行人工标注,对于较少的非pdf格式的文献(CAJ文件等)进行人工标注。
S404:对标注后的所述全文元数据和所述引文元数据进行标准化处理。
例如采用数据归一化,对于不同来源的新文献全文数据,提取的第二文献元数据可能存在大小写不一致、空格个数不一致等问题,需要对不同的数据格式进行归一化工作,使其重要信息达成一致,例如title格式与原始的文献数据结构化表paper_info中的title格式达成一致。
S406:设定标准化处理后的所述全文元数据和所述引文元数据的第一标识符,生成新文献元数据表。
由于是批量采集的新文献全文数据,存在部分文献重复、引文重复的问题。采取主要方式是,根据归一化后的数据的文献标题进行去重,其中对于S402所述“全文数据”列则是采用以下公式判断:
P = P1∨P2∨P3……Pn ,
其中P即“全文数据”列的值,Pn即各重复行的元数据的“文献全文数据是否存在”(pdf_existed)列的值。对于其他列,采用互相补足的方法留取数据,如同一篇文献,第a行数据中“所属学科”缺失,但第b行数据中存在则取其数据,其他情况如数据相同、相异,则取首行数据。
最后,对于去重完成的数据标定唯一标识符new_paper_id。
第二文献元数据导入结构化数据库进行存储,对于经过数据处理的第二文献元数据,在结构化数据库中建新文献元数据表new_paper_info,并导入存储。
新文献元数据表new_paper_info的格式如下所示:
步骤S204主要目的在于通过对现有的分布式存储***进行检索,根据第二文献元数据、新文献全文数据判断文献需要更新的类别,生成新文献更新表,以便于对多模态的数据进行分类更新。如图5所示,具体包括以下步骤:
S502:读取所述新文献元数据表以及所述结构化数据库中的文献元数据表。
连接结构化数据库,读取原始的文献元数据表paper_info和新文献元数据表new_paper_info表,其中原始的文献元数据表paper_info格式如下:
并将结果保存为临时表tmp.csv,为了作区分,标注其来源表,新文献元数据表new_paper_info为T1,原始的文献元数据表paper_info为T2,临时表tmp.csv的格式如下:
临时表tmp.csv的行数与T1表行数一致,若原始的文献元数据表不存在所需更新的文献,则T2表所有属性都为null值。
S504:基于所述新文献元数据表以及所述文献元数据表,检索所述文献元数据表中是否存在所述新文献元数据,若不存在,则标注为第一更新类别;若存在,则检索所述分布式文件***中是否存在该新文献全文数据,若不存在,则标注为第二更新类别;若存在,则判断所述第二文献元数据是否和所述第一文献元数据存在不同,并标注为第三更新类别;
例如,第一更新类别标注为A,第二更新类别标注为B,第三更新类别标注为C。
S506:基于所述检索的结果,生成所述文献更新表。
提取临时表tmp.csv表中所需文献属性的数据列,主要提取T1表的属性,T2表仅提取T2.Paper_id。获得新表,然后连接结构化数据库替换输出的新文献元数据表new_paper_info,更新后的new_paper_info格式如下表所示:
基于更新后的new_paper_info表,对更新种类与更新方式进行确认,主要由Update_type和pdf_existed两列确定,输出文献更新表update_info。
如下,文献更新表update_info所示,表格内标明了对应的更新内容,D1、D2、D3分别表示三种模态的数据,更新方式将在后续分别进行说明。其中“元数据”表示***一条新的文献元数据到原始的文献元数据表paper_info,“元数据补充”、“元数据中的pdf信息列”表示改变原始的文献元数据表paper_info中该原数据某属性列的值。pdf_existed表示新文献全文数据是否存在,pdf_existed =1大部分是采集的新文献全文数据,pdf_existed =0的是提取的引文文献,也有部分引文文献恰存在于采集的新文献全文数据之中,这部分pdf_existed=1。
在一实施例中,若不存在所述新文献全文数据,则提取所述新文献全文数据的第二图像数据及所述第二图像数据的第二图像元数据。
第一步,根据文献更新表update_info和更新后的新文献元数据表new_paper_info,提取所需数据。
第二步,连接分布式结构化数据库,读取更新后的新文献元数据表new_paper_info,提取所需数据,根据新文献元数据表new_paper_info提供的pdf_name,从全文数据存储地址local_path/pdf_name读取新文献全文数据。
第三步,批量提取新文献全文数据的第二图像数据,采用程序批量提取的方法,具体来说利用PyMuPDF的fitz库进行批量抽取。第二图像数据作为非结构化数据存储在本地,存储路径为image_local_path。
第四步,生成第二图像数据的第二图像元数据,作为结构化数据,将导入结构化数据库的新图像元数据表new_image_info进行存储。
第二图像元数据生成过程需要对图像进行编号,编号将作为第二图像元数据的唯一标识符,并将图像命名为{new_image_id}.png,图像的元数据格式如下,其中new_paper_id由读取的新文献元数据表new_paper_info获取:
在步骤S206中,如图6所示,具体包括以下步骤:
S602:基于所述文献更新表,确定更新类别;
S604:若为第一更新类别,则将所述第二文献元数据更新至所述文献元数据表中、将所述第二图像数据的第二图像元数据更新至所述结构化数据库中的图像元数据表中及将所述新文献全文数据更新至所述分布式文件***;
S604:若为第二更新类别,则将所述第二文献元数据更新至所述文献元数据表中,及将所述第二图像数据的第二图像元数据更新至所述结构化数据库中的图像元数据表中,及将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件***;
S608:若为第三更新类别,则基于所述第二文献元数据修正所述文献元数据表中的第一文献元数据。
其中,第一更新类别A代表原始的文献元数据表中不存在本篇新文献,需***其第二文献元数据、新文献全文数据、第二图像数据;第二更新类别B代表原始的文献元数据表中存在第二文献元数据,但不存在新文献全文数据,所以需要更新新文献全文数据、更新第二文献元数据中的pdf信息列、图像数据、修正或补充部分第二文献元数据等;第三更新类别C代表第二文献元数据、新文献全文数据均存在,所以无须更新或利用第二文献元数据补充原始的第一文献元数据中缺失部分、修正第一文献元数据等。
在一实施例中,对于结构化数据的更新,即第二文献元数据及第二图像元数据的更新可以采用直接更新法和拉链表更新法。拉链表更新法的优势在于便于后续可以根据更新日期查询、删除、更改数据等,同时,拉链表和全量表相比,可大大节省存储空间。另外,直接更新法需要人工的方式来分别判断文献是否进行“元数据修正”的操作,拉链表更新法可以保留原始的元数据的同时进行补充或修正,无需人工判断。
对于直接更新法,具体如下:
对于Update_type = A的数据,结构化数据更新需求为***第二文献元数据。,这部分数据在原始数据中不存在,paper_id均为null值,利用python等从新文献元数据表new_papar_info中进行提取所需列,并标注paper_id、构造pdf_path列,然后采用Insertinto的方式直接***第二文献元数据。
其中,标注paper_id,是对选取得到的数据顺序编号n+1,n+2,……,n+m,其中n是原始的文献元数据表paper_info的数据量,m是提取数据的条数,并将paper_id的信息更新到新文献元数据表new_paper_info。构造pdf_path列,值为{hdfs_path}/{pdf_name},hdfs_path即新文献全文数据保存在分布式文件***上的文件夹。
对于Update=B或C的数据,有“元数据补充”或“元数据中的pdf信息列”更新需求,通过命令提取新文献元数据表new_paper_info中对应数据,则可以将所提取数据与原始的文献元数据表paper_info根据paper_id进行匹配。对于“元数据修正”的需求,则采用人工核对判断的方法进行替换原始的第一文献元数据。
对于拉链表更新法,具体如下:
对原始的文献元数据表paper_info新增两列,start_time和to_time,通过这两列记录数据更新日期。
初始状况下,start_time是当日日期,to_time是9999/12/31,假设2023/01/01是初始数据导入的时间;对新文献元数据表new_paper_info新增时间列Update_Date列,赋值数据更新的时间,假设为2023/02/01。原始的文献元数据表paper_info更改后如下所示:
Update_type = A时,结构化数据更新需求是***第二文献元数据。对于 Update_type = A的数据, paper_id均为null值,利用python等从新文献元数据表new_papar_info中提取Update_type= A的数据所需列,并标注paper_id、构造pdf_path列,并将paper_id的信息更新到新文献元数据表new_paper_info。
与直接更新法不同点在于拉链表有日期列。假设***新数据到文献元数据表paper_info的***日期是2023/02/01,N为原始元数据数量,***后的结构化数据表paper_info为:
Update_type = B或C时,首先获取所需列的数据,对于Update_type=B的数据还需填充pdf_path,即{hdfs_path}/{pdf_name};其次根据其更新需求,对某些属性值进行更新,采用匹配后更改数据的方法,将匹配文献元数据表paper_info对应的原始数据中的To_time改为前一天,新数据Start_time为当天2023/02/01,To_time为9999/12/31。
具体举例来说,若paper1补充更新pdf_path属性值,paper2修正更新Subject属性值,则更新后的paper_info如下:
对于非结构化数据的更新,主要是批量上传新文献全文数据、第二图像数据到分布式文件***。
其中,新文献全文数据上传到分布式文件***,主要步骤是:
由文献更新表可知所需上传新文献全文数据的数据类别,从新文献元数据表new_paper_info提取pdf_existed =1 and(Update=A or B)的pdf_name列数据,获取所有需要上传的新文献全文数据的名称,记为pdf_name_list。
程序批量上传新文献全文数据到分布式文件***有两种方法。
第一种方法:新文献全文数据的存储路径为local_path,可用程序循环执行shell命令上传到{hdfs_path}/。
第二种方法:也可以将所有pdf_name_list中的新文献全文数据转移到新的文件夹local_path_new,shell命令直接上传。
对于第二图像数据更新到分布式存储***,需要将第二图像数据(png等格式)上传到分布式文件***,将第二图像元数据更新到结构化数据库。主要步骤如下:
第一步,基于更新后的新文献元数据表new_paper_info、原始的图像元数据表image_info、新图像元数据表new_image_info,提取所需更新图像的信息,并保存为image_tmp表,为之后上传第二图像数据、更新第二图像元数据提供基础。主要步骤是:
基于新文献元数据表new_paper_info匹配获得第二图像数据对应文献的paper_id。
具体来说,由文献更新表可知所需上传第二图像数据的是pdf_existed=1 and(update_type = A or B)的数据,在更新后的新文献元数据表new_paper_info表包含所有新文献全文数据的paper_id和new_paper_id。因此提取出新文献元数据表new_paper_info中pdf_existed=1 and (update_type = A or B)的数据,并与生成的新图像元数据表根据new_paper_id进行join操作,结果为image_tmp表,格式如下:
根据原始的图像元数据表image_info标注第二图像数据的image_id。
对image_tmp表新增image_id列,读取原始文献元数据表image_info,记录其条数m,根据此顺序标注新文献元数据表new_image_info的image_id,第二图像数据的image_id为:m+1,m+2,……,将作为其后续更新到图像元数据表的唯一标识符。
image_tmp表格式如下:
第二步,上传本地存储的第二图像数据到分布式文件***,完成第二图像数据的更新。
第二图像数据为{new_image_id}.png,本地存储路径为Image_local_path,读取image_tmp表后批量上传{image_local_path}/{new_image_id}.png到分布式文件***,分布式文件***上的路径记为image_path。
第三步,提取生成的image_tmp表所需列***原始的图像元数据表中,完成第二图像元数据的更新。
首先,基于提取image_tmp表新增列image_path列,值为所上传的分布式文件***的路径。
其次,对图像元数据表image_info进行更新,主要上述的直接更新法或拉链表更新法,在此不加以赘述,直接更新法更新后的图像元数据表image_info格式和原始的一样,格式如下:
拉链表更新法更新后的图像元数据表image_info格式如下:
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一实施例中,如图7所示,本发明提供了一种离线多模态文献数据的更新装置,所述装置包括:
提取模块702,用于采集新文献全文数据,并提取所述新文献全文数据的第二文献元数据;
检索模块704,用于对所述结构化数据库进行检索以判断所述结构化数据库中是否存在该第二文献元数据及判断所述分布式文件***中是否存在该新文献全文数据,并生成文献更新表;
更新模块706,用于基于所述文献更新表,将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件***,和/或将所述第二文献元数据以及所述第二图像数据的第二图像元数据更新至所述结构化数据库。
关于离线多模态文献数据的更新装置的具体限定可以参见上文中对于离线多模态文献数据的更新方法的限定,在此不再赘述。上述离线多模态文献数据的更新装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,本发明实施例提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过装置总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作装置、计算机程序和数据库。该内存储器为非易失性存储介质中的操作装置和计算机程序的运行提供环境。该计算机设备的数据库用于存储动作检测数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一项离线多模态文献数据的更新方法实施例中的步骤。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一实施例中,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项离线多模态文献数据的更新方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(DynamicRandom Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种离线多模态文献数据的更新方法,应用于分布式存储***,所述分布式存储***包括用于存储文献全文数据以及所述文献全文数据中的第一图像数据的分布式文件***、用于存储所述文献全文数据的第一文献元数据以及所述第一图像数据的第一图像元数据的结构化数据库,其特征在于,所述方法包括:
采集新文献全文数据,并提取所述新文献全文数据的第二文献元数据;其包括:提取所述新文献全文数据的全文元数据;及提取所述新文献全文数据的引文元数据;基于所述全文元数据和所述引文元数据生成新文献元数据表,所述新文献元数据表用于记录所述第二文献元数据;
对所述结构化数据库进行检索以判断所述结构化数据库中是否存在该第二文献元数据、判断所述分布式文件***中是否存在该新文献全文数据及判断所述第二文献元数据是否和所述第一文献元数据存在不同,并生成文献更新表;其包括:读取所述新文献元数据表以及所述结构化数据库中的文献元数据表;基于所述新文献元数据表以及所述文献元数据表,检索所述文献元数据表中是否存在所述新文献元数据,若不存在,则标注为第一更新类别;若存在,则检索所述分布式文件***中是否存在该新文献全文数据,若不存在,则标注为第二更新类别;若存在,则判断所述第二文献元数据是否和所述第一文献元数据存在不同,并标注为第三更新类别;基于所述检索的结果,生成所述文献更新表;
基于所述文献更新表,将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件***,和/或将所述第二文献元数据以及所述第二图像数据的第二图像元数据更新至所述结构化数据库。
2.根据权利要求1所述的离线多模态文献数据的更新方法,其特征在于,若不存在所述新文献全文数据,则提取所述新文献全文数据的第二图像数据及所述第二图像数据的第二图像元数据。
3.根据权利要求2所述的离线多模态文献数据的更新方法,其特征在于,所述基于所述文献更新表,将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件***,和/或将所述第二文献元数据以及所述第二图像数据的第二图像元数据更新至所述结构化数据库包括:
基于所述文献更新表,确定更新类别;
若为第一更新类别,则将所述第二文献元数据更新至所述文献元数据表中、将所述第二图像数据的第二图像元数据更新至所述结构化数据库中的图像元数据表中及将所述新文献全文数据更新至所述分布式文件***;
若为第二更新类别,则将所述第二文献元数据更新至所述文献元数据表中,及将所述第二图像数据的第二图像元数据更新至所述结构化数据库中的图像元数据表中,及将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件***;
若为第三更新类别,则基于所述第二文献元数据修正所述文献元数据表中的第一文献元数据。
4.根据权利要求3所述的离线多模态文献数据的更新方法,其特征在于,所述将所述第二文献元数据更新至所述文献元数据表中包括:
采用直接更新法或拉链表更新法将所述第二文献元数据更新至所述文献元数据表中。
5.根据权利要求1所述的离线多模态文献数据的更新方法,其特征在于,在所述基于所述全文元数据和所述引文元数据生成新文献元数据表之前,还包括:
对所述全文元数据和所述引文元数据进行标注;
对标注后的所述全文元数据和所述引文元数据进行标准化处理;
设定标准化处理后的所述全文元数据和所述引文元数据的第一标识符,生成新文献元数据表。
6.一种离线多模态文献数据的更新装置,应用于分布式存储***,所述分布式存储***包括用于存储文献全文数据以及所述文献全文数据中的第一图像数据的分布式文件***、用于存储所述文献全文数据的第一文献元数据以及所述第一图像数据的第一图像元数据的结构化数据库,其特征在于,所述装置包括:
提取模块,用于采集新文献全文数据,并提取所述新文献全文数据的第二文献元数据;其包括:提取所述新文献全文数据的全文元数据;及提取所述新文献全文数据的引文元数据;基于所述全文元数据和所述引文元数据生成新文献元数据表,所述新文献元数据表用于记录所述第二文献元数据;
检索模块,用于对所述结构化数据库进行检索以判断所述结构化数据库中是否存在该第二文献元数据、判断所述分布式文件***中是否存在该新文献全文数据及判断所述第二文献元数据是否和所述第一文献元数据存在不同,并生成文献更新表;其包括:读取所述新文献元数据表以及所述结构化数据库中的文献元数据表;基于所述新文献元数据表以及所述文献元数据表,检索所述文献元数据表中是否存在所述新文献元数据,若不存在,则标注为第一更新类别;若存在,则检索所述分布式文件***中是否存在该新文献全文数据,若不存在,则标注为第二更新类别;若存在,则判断所述第二文献元数据是否和所述第一文献元数据存在不同,并标注为第三更新类别;基于所述检索的结果,生成所述文献更新表;
更新模块,用于基于所述文献更新表,将所述新文献全文数据以及所述新文献全文数据的第二图像数据更新至所述分布式文件***,和/或将所述第二文献元数据以及所述第二图像数据的第二图像元数据更新至所述结构化数据库。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至权利要求5中任一项所述的方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至权利要求5中任一项所述的方法的步骤。
CN202311336095.XA 2023-10-16 2023-10-16 离线多模态文献数据的更新方法、装置、设备和介质 Active CN117076474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311336095.XA CN117076474B (zh) 2023-10-16 2023-10-16 离线多模态文献数据的更新方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311336095.XA CN117076474B (zh) 2023-10-16 2023-10-16 离线多模态文献数据的更新方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN117076474A CN117076474A (zh) 2023-11-17
CN117076474B true CN117076474B (zh) 2024-03-12

Family

ID=88706427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311336095.XA Active CN117076474B (zh) 2023-10-16 2023-10-16 离线多模态文献数据的更新方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN117076474B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273481A (zh) * 2017-06-10 2017-10-20 苏州唯亚信息科技股份有限公司 适用于企业用户研发数据库的维护方法
CN108280085A (zh) * 2017-01-06 2018-07-13 工业和信息化部电信研究院 数据去重的方法及装置
CN114048269A (zh) * 2022-01-12 2022-02-15 北京奥星贝斯科技有限公司 在分布式数据库中同步更新元数据的方法及装置
CN115455131A (zh) * 2022-08-22 2022-12-09 华中科技大学 基于多源异构的数据存储方法、***、设备及存储介质
CN116126997A (zh) * 2023-04-04 2023-05-16 北京洞悉网络有限公司 一种文献去重存储方法、***、设备及存储介质
CN116303427A (zh) * 2023-01-12 2023-06-23 长鑫存储技术有限公司 数据处理方法及装置、电子设备和存储介质
CN116737130A (zh) * 2023-08-15 2023-09-12 之江实验室 面向模态中间表示的编译方法、***、设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010084754A1 (ja) * 2009-01-26 2010-07-29 日本電気株式会社 データベースシステム、データベース管理方法、データベース構造および記憶媒体
US20110196900A1 (en) * 2010-02-09 2011-08-11 Alexandre Drobychev Storage of Data In A Distributed Storage System
US9405802B2 (en) * 2011-05-05 2016-08-02 Reversinglabs International, Gmbh Database system and method
US10726039B2 (en) * 2016-11-29 2020-07-28 Salesforce.Com, Inc. Systems and methods for updating database indexes
CN109144994B (zh) * 2017-06-19 2022-04-29 华为技术有限公司 索引更新方法、***及相关装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280085A (zh) * 2017-01-06 2018-07-13 工业和信息化部电信研究院 数据去重的方法及装置
CN107273481A (zh) * 2017-06-10 2017-10-20 苏州唯亚信息科技股份有限公司 适用于企业用户研发数据库的维护方法
CN114048269A (zh) * 2022-01-12 2022-02-15 北京奥星贝斯科技有限公司 在分布式数据库中同步更新元数据的方法及装置
CN115455131A (zh) * 2022-08-22 2022-12-09 华中科技大学 基于多源异构的数据存储方法、***、设备及存储介质
CN116303427A (zh) * 2023-01-12 2023-06-23 长鑫存储技术有限公司 数据处理方法及装置、电子设备和存储介质
CN116126997A (zh) * 2023-04-04 2023-05-16 北京洞悉网络有限公司 一种文献去重存储方法、***、设备及存储介质
CN116737130A (zh) * 2023-08-15 2023-09-12 之江实验室 面向模态中间表示的编译方法、***、设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种领域专家文献自动收集***;廖晓锋;王永吉;周津慧;关贝;;计算机***应用(第06期);117-122 *
大规模科技文献深度解析和检索平台构建;吴素研;吴江瑞;李文波;;现代情报(第01期);112-117 *

Also Published As

Publication number Publication date
CN117076474A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN111259006A (zh) 一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法及***
CN109284273B (zh) 一种采用后缀数组索引的海量小文件查询方法及***
CN104933020A (zh) 基于模板生成目标文档的方法及装置
US7720885B2 (en) Generating a word-processing document from database content
CN112015900B (zh) 医学属性知识图谱构建方法、装置、设备及介质
US10664514B2 (en) Media search processing using partial schemas
CN110287192B (zh) 搜索应用数据处理方法、装置、计算机设备和存储介质
CN116028653B (zh) 一种可视化配置多源异构数据构建图谱的方法及***
CN106255962B (zh) 用于改进数据结构存储的***和方法
JP6645850B2 (ja) 情報管理装置、情報管理方法及び情報管理プログラム
CN102110102A (zh) 数据处理方法及装置、文件识别方法及工具
CN1684065A (zh) 用于处理元数据的方法和设备
CN117076474B (zh) 离线多模态文献数据的更新方法、装置、设备和介质
CN110795520B (zh) 一种数字化地质资料包目录与文件关联关系自动识别方法
CN113407538B (zh) 一种多源异构关系型数据库数据的增量采集方法
Myntti et al. Use existing data first: Reconcile metadata before creating new controlled vocabularies
CN113535962B (zh) 数据入库方法、装置、电子装置、程序产品及存储介质
CN114218347A (zh) 多个文件内容的快速索引查找方法
US10853177B2 (en) Performant process for salvaging renderable content from digital data sources
CN117076495B (zh) 面向多模态文献数据的分布式存储方法、装置和设备
US8417736B2 (en) Method, server extension and database management system for storing non XML documents in a XML database
CN116955300B (zh) 一种基于标签技术的文件生成方法及***
CN108121719A (zh) 一种实现数据抽取转换加载etl的方法及装置
JP5399988B2 (ja) 重要日時表現判定方法、重要日時表現判定装置、重要日時表現判定プログラム
CN111061863B (zh) 期刊目录展示方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant