CN108197119A - 基于知识图谱的纸质档案数字化方法 - Google Patents
基于知识图谱的纸质档案数字化方法 Download PDFInfo
- Publication number
- CN108197119A CN108197119A CN201810111488.3A CN201810111488A CN108197119A CN 108197119 A CN108197119 A CN 108197119A CN 201810111488 A CN201810111488 A CN 201810111488A CN 108197119 A CN108197119 A CN 108197119A
- Authority
- CN
- China
- Prior art keywords
- archives
- paper quality
- data
- knowledge
- carried out
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于知识图谱的纸质档案数字化方法。其包括获取纸质档案图片信息,分析得到标准化文本数据,抽取关键实体的实体信息,构建标准字典表将实体信息进行数据融合,形成结构化数据,将结构化数据作为知识条目构建知识图谱,根据知识图谱获取纸质档案内容数据并生成电子文件。本发明提高了纸质档案数字化的工作效率,同时降低了误操率。
Description
技术领域
本发明属于电子信息技术领域,尤其涉及一种基于知识图谱的纸质档案数字化方法。
背景技术
纸质档案数字化作业是档案大数据库建设最基础的工作,其操作流程包括档案的分类整理、图像扫描、文字录入以及整理入库等步骤。目前纸质档案数字化的表象,是将实物纸质档案,变成电子文档(JPG、PDF或TFF等格式)的档案进行存储,其目的是为信息化服务,因此必须能被相关软件***读取和使用。
为此在建立电子档案数据库时,针对每一张纸质档案,必须生成二个电子文档:一个是该纸质档案的图片,另二个是与该图片一一对应的信息。目前的解决方法是制作成电子图片加EXCEL条目。如1张实物纸质档案,经扫描后,生成图片名为"031-053-01-019-01.jpg的电子图片,但仅仅从"031-053-01-019-01.GIF"基本不能全面了解其所有内容信息,因此,需要将这张纸质档案上涵盖的信息(如档案号、类号、年份、档案类别、页名、填制单位、部门、属于哪一类、有几页等内容)输入到EXCEL文件的对应条目中。由此可见,为完成一张纸质档案的数字化需要做二件事:一是扫描纸质档案,二是输入档案内容到EXCEL文件的对应条日厅中,其工作量是非常庞大的。
虽然目前市面上普通的扫描仪(高拍仪)能对扫描的图片做一些处理,但普遍缺少对内容信息的抓取并生成到EXCEL文件的对应条日厅中。当然随着技术进步,也出现了带有光学字符识别(Optical Character Recognition,简称OCR)的高档扫描仪,但是至今的误操率不能满足国家档案数字化规定的低于0.5%的要求:即使采用进口的高档扫描仪,虽然误操率可以降低几个数量级,但还是不能满足要求,而且此类进口的高档扫描仪价格昂贵,动辄几十万甚至上百万一台,其成本过于高昂。所以至今社会上一般公司档案数字化工作程序,都是要么同一人二次作业,要么流水线二人前后作业,其工作程序复杂,导致效率低下,且人员成本过高。
发明内容
本发明的发明目的是:为了解决现有技术中纸质档案数字化程序复杂、导致效率低下等问题,本发明提出了一种基于知识图谱的纸质档案数字化方法。
本发明的技术方案是:一种基于知识图谱的纸质档案数字化方法,包括
A、获取需要进行数字化的纸质档案图片信息;
B、对步骤A中纸质档案图片信息进行词法、语法和/或语义分析,得到标准化文本数据;
C、从步骤B的标准化文本数据中抽取关键实体的实体信息;
D、构建标准字典表,根据标准字典表将步骤C中实体信息进行数据融合,形成结构化数据;
E、根据步骤D中结构化数据作为知识条目,构建知识图谱;
F、根据步骤E中知识图谱获取纸质档案图片信息中的内容数据并生成电子文件。
进一步地,所述步骤B对步骤A中纸质档案图片信息进行词法、语法和/或语义分析,得到标准化文本数据具体为:
采用预先训练的段落分类器模型对步骤A中纸质档案图片信息的段落进行文档结构分类,根据分类结果对所述纸质档案图片信息进行段落结构划分;
若所述纸质档案图片信息为中文资源时,对划分出的各段落结构进行分词、词性标注以及短语识别,并去除段落结构中的标点符号;
若所述纸质档案图片信息为外语资源时,对划分出的各段落结构进行词干处理、词形还原以及短语识别,并去除段落结构中的标点符号。
进一步地,所述步骤C从步骤B的标准化文本数据中抽取关键实体的实体信息具体为:
采用预先训练的名词分类器模型对所述标准化文本数据中的词语进行分类,根据分类结果识别并抽取各类别的名词以及各名词之间的关系。
进一步地,所述步骤D中构建标准字典表具体为:
根据通用数据标准建立知识图谱的基础架构;
将步骤C中关键实体的实体属性转换成三元组数据;
根据三元组数据将所述实体属性与所述关键实体的关系类型和命名规则进行统一规范,得到具有标准规范的标准字典表。
进一步地,所述步骤D中根据标准字典表将步骤C中实体信息进行数据融合,形成结构化数据具体为:
将所述关键实体与构建的标准字典表中的内容进行对照映射,同时保留所述关键实体的属性关系,形成结构化数据。
本发明的有益效果是:本发明通过获取纸质档案图片信息并进行处理得到标准化文本数据,再抽取关键实体的实体信息,通过构建标准字典表将实体信息进行数据融合,形成结构化数据,利用结构化数据作为知识条目构建知识图谱,根据知识图谱获取纸质档案内容,提高了纸质档案数字化的工作效率,同时降低了误操率。
附图说明
图1是本发明的基于知识图谱的纸质档案数字化方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,为本发明的基于知识图谱的纸质档案数字化方法的流程示意图。一种基于知识图谱的纸质档案数字化方法,包括
A、获取需要进行数字化的纸质档案图片信息。
本实施例中,将需要进行数字化的纸质档案通过扫描仪进行扫描,以获取该纸质档案扫描后的图片。
B、对步骤A中纸质档案图片信息进行词法、语法和/或语义分析,得到标准化文本数据。
本实施例中,词法、语法和/或语义分析是指对指定领域的原始文本数据基于词法、语法和/或语义分析进行结构化处理以及分词处理等操作。
C、从步骤B的标准化文本数据中抽取关键实体的实体信息。
本实施例中,实体是指命名实体词和事件名等;属性是指命名实体修饰的名词,如年龄、性别、人物关系等。其中,实体属性的关系主要靠计算共现的概率,提取实体共有的,概率最大的属性词。实体之间的关系,一方面根据在句子中的共现概率,另一方面根据识别出的实体属性关系提取实体关系。
D、构建标准字典表,根据标准字典表将步骤C中实体信息进行数据融合,形成结构化数据;
E、根据步骤D中结构化数据作为知识条目,构建知识图谱;
F、根据步骤E中知识图谱获取纸质档案图片信息中的内容数据并生成电子文件。
在本发明的一个可选实施例中,上述实施例中的步骤B进一步包括:
采用预先训练的段落分类器模型对步骤A中纸质档案图片信息的段落进行文档结构分类,根据分类结果对所述纸质档案图片信息进行段落结构划分;
为了快速、准确地实现原始文本数据的段落结构划分,本发明实施例中,通过将原始文本数据进行结构化,区分出标题、正文、作者、时间、分类等段落,实现原始文本数据的段落结构划分。具体的。具体的,可根据文档结构分布特征,例如:文本的位置、长度、词语内容等方面特征,确定所述原始文本数据的文档结构。或人工标注少许训练语料,根据上述特征构建段落分类器模型对段落进行分类,以分类预测结果作为段落属性。
若所述纸质档案图片信息为中文资源时,对划分出的各段落结构进行分词、词性标注以及短语识别,并去除段落结构中的标点符号;
若所述纸质档案图片信息为外语资源时,对划分出的各段落结构进行词干处理、词形还原以及短语识别,并去除段落结构中的标点符号。
为了快速、准确地实现原始文本数据的段落结构划分,本发明实施例,通过判断原始文本数据的语言,若原始文本数据为中文资源时,则对中文资源进行中文分词、词性标注、短语识别等。具体的可用开源工具对中文进行词法、语法和/或语义分析。若所述文本数据为外语资源时,按照对应语言工具对中文资源进行词法、语法和/或语义分析,例如,对英语资源进行词干处理、词形还原、短语识别等,指去除时态、词后缀并还原成原词。具体的也可以用开源工具对英语资源进行词法、语法和/或语义分析。
在本发明的一个可选实施例中,上述实施例中的步骤C进一步包括:
采用预先训练的名词分类器模型对所述标准化文本数据中的词语进行分类,根据分类结果识别并抽取各类别的名词以及各名词之间的关系。具体的,名词之间的关系可根据在句子中的共现概率确定。
为了快速、准确地实现标准化文本数据的知识抽取,本发明实施例,通过对已有数据的观察,对名词的开始字、结束字、词长度等特点确定各类别的名词的结构特征,并根据各类别的名词的结构特征从标准化文本数据中抽取相应类别的名词以及各名词之间的关系,进而得到实体信息。
在本发明的一个可选实施例中,上述实施例中的步骤D进一步包括:
根据通用数据标准建立知识图谱的基础架构;
将步骤C中关键实体的实体属性转换成三元组数据;
根据三元组数据将所述实体属性与所述关键实体的关系类型和命名规则进行统一规范,得到具有标准规范的标准字典表;
将所述关键实体与构建的标准字典表中的内容进行对照映射,同时保留所述关键实体的属性关系,形成结构化数据,具体为:
判断实体信息是否符合标准规范;若是,则根据标准字典表将实体信息进行数据融合,即将实体名称与标准字典表中的内容进行映射,得到相同实体名称以及相同实体名称的属性信息,形成结构化数据;若否,则根据专业知识分类对实体信息进行关系映射,形成结构化数据;这里实体信息包括实体名称和实体属性信息,将实体名称作为索引,与标准字典表中的内容进行映射,得到相同实体名称以及相同实体名称的属性信息,根据标准字典表中实体命名及实体间关系的统一规范,将实体名称的属性信息与相同实体名称的属性信息融合到一起。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (5)
1.一种基于知识图谱的纸质档案数字化方法,其特征在于,包括
A、获取需要进行数字化的纸质档案图片信息;
B、对步骤A中纸质档案图片信息进行词法、语法和/或语义分析,得到标准化文本数据;
C、从步骤B的标准化文本数据中抽取关键实体的实体信息;
D、构建标准字典表,根据标准字典表将步骤C中实体信息进行数据融合,形成结构化数据;
E、根据步骤D中结构化数据作为知识条目,构建知识图谱;
F、根据步骤E中知识图谱获取纸质档案图片信息中的内容数据并生成电子文件。
2.如权利要求1所述的基于知识图谱的纸质档案数字化方法,其特征在于,所述步骤B对步骤A中纸质档案图片信息进行词法、语法和/或语义分析,得到标准化文本数据具体为:
采用预先训练的段落分类器模型对步骤A中纸质档案图片信息的段落进行文档结构分类,根据分类结果对所述纸质档案图片信息进行段落结构划分;
若所述纸质档案图片信息为中文资源时,对划分出的各段落结构进行分词、词性标注以及短语识别,并去除段落结构中的标点符号;
若所述纸质档案图片信息为外语资源时,对划分出的各段落结构进行词干处理、词形还原以及短语识别,并去除段落结构中的标点符号。
3.如权利要求2所述的基于知识图谱的纸质档案数字化方法,其特征在于,所述步骤C从步骤B的标准化文本数据中抽取关键实体的实体信息具体为:
采用预先训练的名词分类器模型对所述标准化文本数据中的词语进行分类,根据分类结果识别并抽取各类别的名词以及各名词之间的关系。
4.如权利要求3所述的基于知识图谱的纸质档案数字化方法,其特征在于,所述步骤D中构建标准字典表具体为:
根据通用数据标准建立知识图谱的基础架构;
将步骤C中关键实体的实体属性转换成三元组数据;
根据三元组数据将所述实体属性与所述关键实体的关系类型和命名规则进行统一规范,得到具有标准规范的标准字典表。
5.如权利要求4所述的基于知识图谱的纸质档案数字化方法,其特征在于,所述步骤D中根据标准字典表将步骤C中实体信息进行数据融合,形成结构化数据具体为:
将所述关键实体与构建的标准字典表中的内容进行对照映射,同时保留所述关键实体的属性关系,形成结构化数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810111488.3A CN108197119A (zh) | 2018-02-05 | 2018-02-05 | 基于知识图谱的纸质档案数字化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810111488.3A CN108197119A (zh) | 2018-02-05 | 2018-02-05 | 基于知识图谱的纸质档案数字化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108197119A true CN108197119A (zh) | 2018-06-22 |
Family
ID=62592760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810111488.3A Pending CN108197119A (zh) | 2018-02-05 | 2018-02-05 | 基于知识图谱的纸质档案数字化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108197119A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458471A (zh) * | 2019-08-19 | 2019-11-15 | 绍兴数纺科技有限公司 | 标准化染料信息管理*** |
CN110675121A (zh) * | 2019-09-23 | 2020-01-10 | 珠海市新德汇信息技术有限公司 | 图片类案卷材料的采集方法 |
CN111144123A (zh) * | 2018-10-16 | 2020-05-12 | 工业互联网创新中心(上海)有限公司 | 一种工业互联网标识解析数据字典构建方法 |
CN111737471A (zh) * | 2020-06-28 | 2020-10-02 | 中国农业科学院农业信息研究所 | 一种基于知识图谱的档案管理模型构建方法及*** |
CN112686262A (zh) * | 2020-12-28 | 2021-04-20 | 广州博士信息技术研究院有限公司 | 一种基于图像识别技术的手册提取结构化数据并快速归档的方法 |
CN116090560A (zh) * | 2023-04-06 | 2023-05-09 | 北京大学深圳研究生院 | 基于教材的知识图谱建立方法、装置及*** |
CN116737945A (zh) * | 2023-05-10 | 2023-09-12 | 百洋智能科技集团股份有限公司 | 一种患者emr知识图谱映射方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156365A (zh) * | 2016-08-03 | 2016-11-23 | 北京智能管家科技有限公司 | 一种知识图谱的生成方法及装置 |
CN106529386A (zh) * | 2016-08-31 | 2017-03-22 | 苏州市千尺浪信息科技服务有限公司 | 纸质档案数字化的方法及*** |
CN107491555A (zh) * | 2017-09-01 | 2017-12-19 | 北京纽伦智能科技有限公司 | 知识图谱构建方法和*** |
-
2018
- 2018-02-05 CN CN201810111488.3A patent/CN108197119A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156365A (zh) * | 2016-08-03 | 2016-11-23 | 北京智能管家科技有限公司 | 一种知识图谱的生成方法及装置 |
CN106529386A (zh) * | 2016-08-31 | 2017-03-22 | 苏州市千尺浪信息科技服务有限公司 | 纸质档案数字化的方法及*** |
CN107491555A (zh) * | 2017-09-01 | 2017-12-19 | 北京纽伦智能科技有限公司 | 知识图谱构建方法和*** |
Non-Patent Citations (2)
Title |
---|
宋淑琴: "大数据视野下档案管理思维方式的转变", 《档案学研究》 * |
田萍芳: "《面向云出版的语义关键技术》", 30 April 2015, 武汉大学出版社 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144123A (zh) * | 2018-10-16 | 2020-05-12 | 工业互联网创新中心(上海)有限公司 | 一种工业互联网标识解析数据字典构建方法 |
CN111144123B (zh) * | 2018-10-16 | 2024-02-02 | 工业互联网创新中心(上海)有限公司 | 一种工业互联网标识解析数据字典构建方法 |
CN110458471A (zh) * | 2019-08-19 | 2019-11-15 | 绍兴数纺科技有限公司 | 标准化染料信息管理*** |
CN110458471B (zh) * | 2019-08-19 | 2022-05-20 | 绍兴数纺科技有限公司 | 标准化染料信息管理*** |
CN110675121A (zh) * | 2019-09-23 | 2020-01-10 | 珠海市新德汇信息技术有限公司 | 图片类案卷材料的采集方法 |
CN111737471A (zh) * | 2020-06-28 | 2020-10-02 | 中国农业科学院农业信息研究所 | 一种基于知识图谱的档案管理模型构建方法及*** |
CN111737471B (zh) * | 2020-06-28 | 2023-10-13 | 中国农业科学院农业信息研究所 | 一种基于知识图谱的档案管理模型构建方法及*** |
CN112686262A (zh) * | 2020-12-28 | 2021-04-20 | 广州博士信息技术研究院有限公司 | 一种基于图像识别技术的手册提取结构化数据并快速归档的方法 |
CN116090560A (zh) * | 2023-04-06 | 2023-05-09 | 北京大学深圳研究生院 | 基于教材的知识图谱建立方法、装置及*** |
CN116090560B (zh) * | 2023-04-06 | 2023-08-01 | 北京大学深圳研究生院 | 基于教材的知识图谱建立方法、装置及*** |
CN116737945A (zh) * | 2023-05-10 | 2023-09-12 | 百洋智能科技集团股份有限公司 | 一种患者emr知识图谱映射方法 |
CN116737945B (zh) * | 2023-05-10 | 2024-05-07 | 百洋智能科技集团股份有限公司 | 一种患者emr知识图谱映射方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197119A (zh) | 基于知识图谱的纸质档案数字化方法 | |
US11501061B2 (en) | Extracting structured information from a document containing filled form images | |
US5748805A (en) | Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information | |
JP3282860B2 (ja) | 文書上のテキストのデジタル画像を処理する装置 | |
JP3292388B2 (ja) | 文書画像の復号なしに文書を要約するための方法と装置 | |
US6353840B2 (en) | User-defined search template for extracting information from documents | |
CA2661902C (en) | Automated classification of document pages | |
CN106502991B (zh) | 出版物处理方法和装置 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
CN110866116A (zh) | 政策文档的处理方法、装置、存储介质及电子设备 | |
CN113761377B (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
Coelho et al. | Structured literature image finder: extracting information from text and images in biomedical literature | |
Wiedemann et al. | Page stream segmentation with convolutional neural nets combining textual and visual features | |
Puri et al. | A technical study and analysis of text classification techniques in N-lingual documents | |
CN112464907A (zh) | 一种文档处理***及方法 | |
CN112036330A (zh) | 一种文本识别方法、文本识别装置及可读存储介质 | |
CN100444194C (zh) | 文章标题及关联信息的自动抽取装置和抽取方法 | |
Lin et al. | Multilingual corpus construction based on printed and handwritten character separation | |
Naïve et al. | Efficient accreditation document classification using naïve bayes classifier | |
Batomalaque et al. | Image to text conversion technique for anti-plagiarism system | |
CN113065316A (zh) | 将方正小样文件动态转换成html并录入题库、从题库选题组稿并生成小样文件的方法 | |
JP4334068B2 (ja) | イメージ文書のキーワード抽出方法及び装置 | |
Vafaie et al. | Improvements in Handwritten and Printed Text Separation in Historical Archival Documents | |
Gautam et al. | The Dataset for Printed Brahmi Word Recognition | |
US10990338B2 (en) | Information processing system and non-transitory computer readable medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180622 |
|
RJ01 | Rejection of invention patent application after publication |