CN109636303B - 一种半自动提取和结构化文档信息的存储方法及*** - Google Patents

一种半自动提取和结构化文档信息的存储方法及*** Download PDF

Info

Publication number
CN109636303B
CN109636303B CN201811262115.2A CN201811262115A CN109636303B CN 109636303 B CN109636303 B CN 109636303B CN 201811262115 A CN201811262115 A CN 201811262115A CN 109636303 B CN109636303 B CN 109636303B
Authority
CN
China
Prior art keywords
information
document
extraction
module
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811262115.2A
Other languages
English (en)
Other versions
CN109636303A (zh
Inventor
李瑞轩
熊梦婷
李玉华
辜希武
刘洋
张纯鹏
李相臣
苑雨萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201811262115.2A priority Critical patent/CN109636303B/zh
Publication of CN109636303A publication Critical patent/CN109636303A/zh
Application granted granted Critical
Publication of CN109636303B publication Critical patent/CN109636303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种半自动提取和结构化文档信息的存储方法及***,主要实现对文档信息的半自动分类提取和结构化。***中WebUI模块提供的Web界面用于支撑项目管理模块、提取项收集模块和用户管理模块;项目管理模块导入待分析的PDF文档;提取项收集模块对待提取列表中的信息进行人工校准和保存;用户管理模块是对用户权限的管理;采用存储模块保存文档元信息和提取项信息;实现对文档信息的自动化提取和结构化,核心采用自动化提取算法模块,用于将上传的文档扫描后自动检测生成提取项的页面预测,同时对提取项收集模块得到的信息进行结构化;本***实现了对文档信息半自动提取和结构化,使存储的信息更合理化,同时提升了***的速度和效率。

Description

一种半自动提取和结构化文档信息的存储方法及***
技术领域
本发明属于信息检索技术领域,更具体地,涉及一种半自动提取和结构化文档信息的存储方法及***。
背景技术
目前,随着信息时代的飞速发展,对文档信息的检索需求也越来越高,诸多行业的检索***成为核心竞争的指标,其中较为突出的表现在金融领域。
以证劵公司为例,有效利用大量公开披露的资产购买报告书信息来提高竞争力非常重要,大部分上市公司的信息以PDF文档的形式在网上公开披露,以供个人或组织下载使用。通常金融领域内构建知识库采用以下两种方案:第一种,依靠互联网上零碎的资料和负责小组的经验,针对网上公告的内容进行解读、整理和归纳,这种方法很大程度依靠从业人员的经历和经验,有着极高的从业门槛,难以规模化应用到其他领域;第二种,可通过现有的交易检索***获取交易的概览信息,但是这种检索***提供的金融分析报告是公告的原始文本或简单处理后的文本,对于多维度的信息解读还没有有效的手段,智能化程度较低,因此存在交易缺失或者不准确的情况。
总体而言,以上两种方案建立的文档信息抽取及结构存储化***存在信息数据来源混杂、检索能力有限和提取繁杂等问题,同时由于文本及表格自动结构化困难导致理解难度较大。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种半自动化提取和结构化文档信息的存储方法及***,旨在解决现有文档信息的存储化***存在的抽取项自动定位难题和特定文本及表格结构化的问题。
为实现上述目的,一方面,本发明提供了一种半自动化提取及结构化文档信息的存储方法,具体步骤如下:
(1)用户通过WebUI模块上传文档到项目管理模块;
(2)项目管理模块在上传文档过程中将文档元信息存入存储模块的数据库和文件***中,同时建立项目元信息用来记录文档与用户的一对一关联关系,并存入模块的数据库中;
(3)项目管理模块启动自动化提取算法模块的构建文档树流程,即扫描全文的文档内容,自动检测生成提取项的页面预测,存入存储模块的文件***中;
(4)用户通过WebUI模块点击开始具体的提取项流程,具体步骤如下:
(4.1)提取项收集模块调取存储模块的文件***中的预测结果;
(4.2)WebUI模块根据预测结果定位提取项内容在文档中的具体页面;
(4.3)调取提取项内容,进行人工核验定位的位置;
(4.4)提取项收集模块调用自动化提取算法模块,对核验后文档内容里的文本内容和表格内容分别进行的识别和还原,完成对文档内容的结构化操作;
(4.5)将结构化后的提取项结果传回提取项收集模块;
(4.6)用户在提取项收集模块对提取项内容再次进行核验;
(5)提取项内容传回存储模块存储;
综上所述,上述方法能够对上传的各类文档进行算法扫描,自动构建文档的树形结构,针对需要提取的关键信息给出位置预测,协助人工整理提取数据,对提取后的部分内容项进行结构化操作,使得内容更加容易被机器理解,从而得到所需文档的相关关键信息。
另一方面,本发明提供了一种半自动化提取及结构化文档信息的存储***,整个***包括:项目管理模块、自动化提取算法模块、提取项收集模块、用户管理模块、WebUI模块和存储模块。
所述WebUI模块基于B/S架构提供***与操作人员交互的Web界面,支撑项目管理模块、提取项收集模块和用户管理模块三个子模块。
优选地,WebUI模块对项目管理模块的支撑是通过文件上传操作及上传进度条显示的方式呈现,方便用户查看算法分析的过程及项目的管理;对提取项收集模块的支撑体现在提取树的展示及待提取项的提取流程引导上,针对不同类型的提取项,采用一致的提取流程,分别设计不同内页结构来与之适应;对用户管理模块的支撑体现在对于登陆的不同用户,***的界面不同,严格控制用户的操作权限。
所述项目管理模块,用于管理项目的文档元信息及内容信息。
优选地,项目管理模块具体用于管理和调度整个项目的工作周期,在文档上传过程中构建独立的项目空间,提取并记录文档元信息到文件***以及数据库,方便用户查看和管理自己账户下的所有项目内容,并启动算法模块的工作任务。
所述提取项收集模块,用于对待提取列表中的信息进行人工校准和保存。
优选地,所述提取项收集模块具体用于对每个项目文档的提取层级树管理,包括内容的展示,增加,更新,删除等。在这个过程中针对不同类型的提取项设计不同的提取流程。对于文本类型的提取项,设计直接读取PDF内的文档信息,自动化提取算法进行格式优化后展示给用户进行核对和编辑。对于表格类型的抽取项,我们先用表格抽取工具获得csv格式的表格,再利用自动化提取算法进行格式优化后展示给用户进行核对和编辑,编辑采用的在线协作表格编辑工具确保在多用户情况下表格的一致性。对于图片类型的提取项,由用户确定图片边界后自动截取保存到对应的文件***,并保留元信息到数据库。
所述用户管理模块,用于不同权限用户的管理。
优选地,用户管理模块用于管理员对普通用户的账号进行管理和进度监督,针这两种不同的用户设置不同的项目权限和功能选项,管理员对于普通用户的所有项目进度可以进行全局监控,方便其掌握整个工作的进展情况,也可以修正任意普通用户的提取项内容,使得提取***的容错性更好;对于普通用户,仅给予个人项目管理的权限。
所述自动化提取算法模块是本项目的核心模块,采用文本分析算法和专家规则结合来完成构建文档树的过程,即对在项目管理模块上传的文档进行全文扫描,自动检测生成关键提取项的页面预测,此外对提取项收集模块提取内容的结果,包括文本和表格,进行结构化的功能;
优选地,所述自动化提取算法模块包括两个部分,一是生成提取项预测结果的子模块;二是文本与表格自动结构化的子模块。
生成提取项预测结果子模块的具体过程是,在文档上传过程中对文档进行全文扫描,得到文档每页的图片形式和文字内容,针对文字内容进行文档树的构建,通常,针对文档内容构造不同子类章节对应表,确定整个文档树与提取项类目树的对应关系。进一步对每一个子类的子项进行章节内检索,根据提取子项构造特征,检索对应的特征并确定该子项的物理页码。最后将所有的检索结果存入文件内,以供后续模块使用。
文本与表格自动结构化的子模块的具体内容是针对提取出的文本内容和表格内容用算法进行优化,对于文本内容,采用规则加条件随机融合的方法对文本的时间,主体客体及对应关系内容进行识别,达到结构化的目的。对于表格内容,采用对表格构造特定的结构优化算法协助解决表格结构还原性的问题,使得整个过程人工干预较少,结果准确率更高。
所述存储模块,用于保存上述文档信息和提取项的文本、表格及图表信息。
优选地,所述存储模块具体用来存储文档元信息及提取内容信息,分为文件存储和数据库存储。文件存储部分用来存储文档的元信息、缩略图信息、预测结果文件及提取到的表格和图片文件。数据库则记录项目元信息、提取树、提取项的文本信息,提取表格和图片的元信息和用户信息。
通过本发明所构思的以上技术方案,与现有技术相比,由于本***实现了自动提取和结构化文档的存储,能够取得以下有益效果:
(1)本发明能够准确建立上传文档的文档树形结构,并针对每个文档与待提取层级树构造相应的物理联系,能高效支撑人工核验的算法。
(2)本发明会针对各个领域的文档设计完整的信息提取项框架,以多层级树的形式组织整理,部分树节点可根据实际情况人为增加删减,部分树节点内容也可以联动,使得信息的组织更加合理,查询更加高效。
(3)自动化提取算法模块对提取出的内容项进行自动结构化操作,用于有效解决文档信息的表格提取和文本结构化难题。
(4)基于B/S的架构设计可以完成多终端形式的提取任务,方便水平拓展,使得整个过程并行化程度更高。相对于传统的手工搜集或单机任务,在***的速度、效率方面有极大的提升。
附图说明
图1是本发明提供的***结构示意图;
图2是本发明提供的工作机制图;
图3是本发明提供的文档信息半自动提取和结构化流程示意图;
图4是本发明提供的文档信息提取层级树的架构形式;
图5是本发明提供的文档信息提取层级树具体实例示意图;
图6为本发明提供的文档信息提取层级树的叶子节点类型图;
图7为本发明公开的一种各种类型提取项的提取存储流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1是整个***的结构示意图,从图1可以看出本***包括项目管理模块100、自动化提取算法模块200、提取项收集模块300、用户管理模块400、WebUI模块500、存储模块600。WebUI模块500支撑项目管理模块100、提取项收集模块300、用户管理模块400三个模块的可视化及交互。自动化提取算法模块200为核心算法,负责提取过程中智能化的部分。存储模块600为最后的结果存储模块。
图2是整个***的工作机制如图2所示,WebUI模块500通过B/S机制可以运行在多个个人电脑的浏览器上,通过互联网或者局域网访问主机服务(项目管理模块100,自动化提取算法模块200,提取项收集模块300,用户管理模块400),主机服务通过前后端操作将结果分别存到存储模块600的文件***服务器和数据库上。
优选地,所述WebUI模块对项目管理模块的支撑是通过文件上传操作及上传进度条显示的方式呈现,方便用户查看算法分析的过程及项目的管理;对提取项收集模块的支撑体现在提取树的展示及待提取项的提取流程引导上,针对不同类型的提取项,采用一致的提取流程,分别设计不同内页结构来与之适应;对用户管理模块的支撑体现在对于登陆的不同用户,***的界面不同,严格控制用户的操作权限。
优选地,所述项目管理模块具体用于管理和调度整个项目的工作周期,在文档上传过程中构建独立的项目空间,提取并记录文档元信息到文件***以及数据库,方便用户查看和管理自己账户下的所有项目内容,并启动算法模块的工作任务。
优选地,所述自动化提取算法模块包括两个部分,一是生成提取项预测结果的子模块;二是文本与表格自动结构化的子模块。
生成提取项预测结果的子模块具体过程是,在文档上传过程中对文档进行全文扫描,得到文档每页的图片形式和文字内容,针对文字内容进行文档树的构建,通常,针对文档内容构造不同子类章节对应表,确定整个文档树与提取项类目树的对应关系。进一步对于每一个子类的子项进行章节内检索,根据提取子项构造特征,检索对应的特征并确定该子项的物理页码。最后将所有的检索结果存入文件内,以供后续模块使用。
文本与表格自动结构化的子模块的具体内容是针对提取出的文本内容和表格内容用算法进行优化,对于文本内容采用规则加条件随机场融合的方法对文本的时间,主体客体及对应关系内容进行识别,达到结构化的目的。对于表格内容,采用对表格构造特定的结构优化算法协助解决表格结构还原性的问题,使得整个过程人工干预较少,结果准确率更高。
优选地,所述提取项收集模块具体用于对每个项目文档的提取层级树管理,包括内容的展示,增加,更新,删除等。在这个过程中针对不同类型的提取项设计不同的提取流程。对于文本类型的提取项,设计直接读取PDF内的文档信息,自动化提取算法进行格式优化后展示给用户进行核对和编辑。对于表格类型的抽取项,先用表格抽取工具获得csv格式的表格,再利用自动化提取算法进行格式优化后展示给用户进行核对和编辑,编辑采用的在线协作表格编辑工具确保在多用户情况下表格的一致性。对于图片类型的提取项,由用户确定图片边界后自动截取保存到对应的文件***,并保留元信息到数据库。
存储模块具体用来存储文档元信息及提取内容信息,分为文件存储和数据库存储。文件存储部分用来存储文档的元信息,缩略图信息,预测结果文件及提取到的表格和图片文件。数据库则记录项目元信息、提取树、提取项的文本信息、提取表格和图片的元信息、用户信息。
用户管理模块400的目的是方便管理员管理所有项目的进度并对普通用户的结果进行核验,此外作为一个封闭的***,管理员负责进行账号的分配。
图3是本发明提供的文档信息半自动提取和结构化流程示意图,具体步骤如下:
S101,用户通过WebUI模块上传文档到项目管理模块。
S102,项目管理模块在上传文档过程中将文档元信息存入存储模块的文件***中,建立项目元信息用来记录文档与用户的一对一关联关系,并存入模块的数据库中。
S103,项目管理模块启动自动化提取算法模块的构建文档树流程,即扫描全文自动监测生成提取项的页面预测,存入存储模块的文件***中。
S104,用户通过WebUI模块点击开始具体的提取项流程,具体步骤如下:
(S1)提取项收集模块调取存储模块的文件***中的预测结果;
(S2)WebUI模块根据预测结果定位提取项内容在文档中的具体页面;
(S3)根据提取项内容,人工核验定位的位置;
(S4)提取项收集模块调用自动化提取算法模块,对核验后文档内容里的文本内容和表格内容分别进行的识别和还原,完成对文档内容的结构化操作;
(S5)将结构化后的提取项结果传回提取项收集模块;
S105,用户在提取项收集模块对提取项内容再次进行核验,最后将提取项内容传回存储模块。
如图4所示,上述的提取项为树形层级结构的信息组织架构,叶子节点为真正需要提取的内容。特别指明,该提取树可能存在多个完全相同的子树。以图5披露的交易报告书为例,信息包括交易概况、标的资产情况、财务会计信息及相关中介机构的声明,其中标的资产涉及多个子树,具体多少个子树需要根据用对户标的内容判断自行添加,此外,添加完多个标的资产之后有多处其他的子树涉及联动,也就是说,主树上有多少个标的资产,其他对应子树自动就会有几个子树对应这些标的子树的属性。
图6涉及的提取项有五种基本类型,即文字,表格,图片,固定表头的表格和文字表格混排;对于文字表格的混排,通常只是在显示上会有所区别,本质上是文字和表格的提取。
不同的提取项类型有不同的提取存储方式,图7是具体的提取存储流程,对于每个提取项,算法预测和人工核准之后,确定最终的定位坐标,根据提取项的类型得到最终的提取结果。图片类型将图片元信息存入数据库,图片文件存入文件***;文本类型和固定表头表格可以对结果进行自动结构化及在线编辑后存入数据库;表格类型先进行自动结构化然后可以通过表格在线编辑工具进行修正后将元信息存入数据库,表格文件存入文件***。
本发明提供了一种半自动提取和结构化文档信息的存储方法及***,该发明采用由项目管理模块、自动化提取算法模块、提取项收集模块、用户管理模块、WebUI模块和存储模块组成的***,使文档信息能够供多终端使用,从多个角度优化信息提取操作流程,并得到结构化的内容信息,极大的减轻了人工操作的负担。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种半自动提取和结构化文档信息的存储方法,其特征在于,包括:
(1)在文档上传的过程中获取包括文档元信息和文档内容的文档信息,根据识别的文档内容生成提取项的页面预测信息;所述提取项为树形层级结构的信息组织架构;
(2)存储文档元信息和生成的页面预测信息;
(3)根据保存的文档元信息和页面预测信息,核准提取项的物理页码并对提取项的文档内容进行结构化操作;
所述步骤(3)具体包括如下步骤:(3.1)调取保存的文档元信息和生成的页面预测信息;(3.2)根据预测的信息定位提取项内容在文档中的具***置;(3.3)通过上述位置显示的文档内容,核验定位的位置是否正确;(3.4)核验后对文档内容里的文本内容和表格内容分别进行识别和还原,完成对文档内容的结构化操作;(3.5)将上述提取项的结构化结果传回***;
(4)对上述提取的文档内容核验存储。
2.如权利要求1所述的方法,其特征在于,所述提取项包括五种基本类型:文字,表格,图片,固定表头的表格和文字表格混排。
3.如权利要求2所述的方法,其特征在于,所述提取项类型采用三种提取存储方法,具体情况如下:
所述的图片类型将图片元信息存入数据库,图片文件存入文件***;
所述的文本类型和固定表头表格先进行结构化操作和在线编辑,再存入数据库;
所述的表格类型先进行结构化操作,再通过表格在线编辑工具修正,最后表格的元信息存入数据库,表格文件存入文件***。
4.一种半自动提取和结构化文档信息的存储***,其特征在于,包括:
WebUI模块提供***与操作人员交互的Web界面,用于支撑项目管理模块和提取项收集模块;
项目管理模块,接收端与WebUI模块交互,输出端与存储模块交互;所述项目管理模块用于管理项目的文档元信息及内容信息,将接收的文档元信息存入存储模块,并在文档上传的过程中启动自动化提取算法模块构建文档树流程的功能;
提取项收集模块,接收端与WebUI模块交互,输出端与存储模块交互;所述提取项收集模块用于对待提取列表中的信息进行校准和保存,并启动自动化提取算法模块对提取项结构化文本和表格的功能;
自动化提取算法模块,接收端与项目管理模块和提取项收集模块交互;所述自动化提取算法模块用于对项目管理模块传送的文档构建文档树及对提取项收集模块提取的内容结构化;
所述自动化提取算法模块包括生成提取项预测信息的子模块和文本与表格自动结构化子模块;所述生成提取项预测信息的子模块在文档上传过程中对文档内容进行全文扫描,得到文档每页的图片形式和文字内容,针对文字内容进行文档树的构建;所述文本与表格自动结构化的子模块针对提取出的文本内容和表格内容分别进行识别和还原;
存储模块,接收端与项目管理模块和提取项收集模块交互,所述存储模块用于保存文档信息和提取项的内容信息。
5.如权利要求4所述的***,其特征在于,所述***还包括用户管理模块,接收端与WebUI模块交互,输出端与存储模块交互;用于对不同权限用户的管理。
6.如权利要求4所述的***,其特征在于,所述存储模块包括文件存储和数据库存储;
所述文件存储用来存储文档的元信息、缩略图信息、预测结果文件及提取到的表格和图片文件;
所述数据库记录项目元信息、提取树、提取项的文本信息、提取表格和图片的元信息以及用户信息。
7.如权利要求4或5所述的***,其特征在于文档信息为金融文档信息。
CN201811262115.2A 2018-10-27 2018-10-27 一种半自动提取和结构化文档信息的存储方法及*** Active CN109636303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811262115.2A CN109636303B (zh) 2018-10-27 2018-10-27 一种半自动提取和结构化文档信息的存储方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811262115.2A CN109636303B (zh) 2018-10-27 2018-10-27 一种半自动提取和结构化文档信息的存储方法及***

Publications (2)

Publication Number Publication Date
CN109636303A CN109636303A (zh) 2019-04-16
CN109636303B true CN109636303B (zh) 2020-12-08

Family

ID=66066621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811262115.2A Active CN109636303B (zh) 2018-10-27 2018-10-27 一种半自动提取和结构化文档信息的存储方法及***

Country Status (1)

Country Link
CN (1) CN109636303B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449173A (zh) * 2021-07-12 2021-09-28 雷飞仪 一种基于特征采样的信息技术提取***
CN114399774A (zh) * 2022-01-19 2022-04-26 润申标准化技术服务(上海)有限公司 文件处理方法、装置和电子设备
CN117556784A (zh) * 2024-01-11 2024-02-13 成都怡康科技有限公司 一种从Excel文档中提取自定义图片的方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1801147A (zh) * 2004-11-03 2006-07-12 国际商业机器公司 用于自动和动态地构建文件管理应用程序的方法和***
CN103218374A (zh) * 2012-01-21 2013-07-24 国际商业机器公司 用于电子文档定位的方法和***
CN105260727A (zh) * 2015-11-12 2016-01-20 武汉大学 基于图像处理与序列标注的学术文献语义再结构化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8355186B2 (en) * 2009-02-10 2013-01-15 Fuji Xerox Co., Ltd. Systems and methods for interactive semi-automatic document scanning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1801147A (zh) * 2004-11-03 2006-07-12 国际商业机器公司 用于自动和动态地构建文件管理应用程序的方法和***
CN103218374A (zh) * 2012-01-21 2013-07-24 国际商业机器公司 用于电子文档定位的方法和***
CN105260727A (zh) * 2015-11-12 2016-01-20 武汉大学 基于图像处理与序列标注的学术文献语义再结构化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向个人简历的事件抽取和检索框架;李劲等;《计算机科学》;20120731;第39卷(第7期);第154-160,174页 *

Also Published As

Publication number Publication date
CN109636303A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
US11868717B2 (en) Multi-page document recognition in document capture
CN104866426B (zh) 软件测试综合控制方法及***
CN110321113B (zh) 以项目批次为标准的一体化流水线***及其工作方法
WO2018051233A1 (en) Electronic document management using classification taxonomy
JP5570608B2 (ja) エクセル基盤の分析レポート作成システム及び方法
US20090172024A1 (en) Systems and methods for collecting and analyzing business intelligence data
KR20120011987A (ko) 세금계산서 자료입력처리시스템 및 방법
CN109636303B (zh) 一种半自动提取和结构化文档信息的存储方法及***
CN111639480A (zh) 基于人工智能的文本标签化方法、电子装置及存储介质
TWI453608B (zh) System and method for managing a large number of multiple data
CN111553137B (zh) 报告生成方法、装置、存储介质及计算机设备
CN110990403A (zh) 业务数据的存储方法、***、计算机设备及存储介质
CN111143370B (zh) 用于分析多个数据表之间关系的方法、设备和计算机可读存储介质
CN110737432A (zh) 一种基于词根表的脚本辅助设计方法及装置
CN108304291B (zh) 测试输入信息检索装置和方法
JP2019211805A (ja) データベースマイグレーション支援システム及びプログラム
JP5845961B2 (ja) 情報処理装置及び情報処理プログラム
CN112184164A (zh) 租赁物信息的管理方法、装置、电子设备及存储介质
Monaco Methods for in-sourcing authority control with MarcEdit, SQL, and regular expressions
CN110837365A (zh) 一种基于词根表的脚本辅助设计方法及装置
Banush et al. Rehabilitating killer serials: An automated strategy for maintaining E-journal metadata
US11816112B1 (en) Systems and methods for automated process discovery
US20020178140A1 (en) Method for characterizing and storing data analyses in an analysis database
Bäcklund et al. Data storage for a small lumberprocessing company in Sweden
CN115934864A (zh) 数据资产管理方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant