CN117808085B - 学科知识框架自动构建方法、装置、设备及存储介质 - Google Patents
学科知识框架自动构建方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117808085B CN117808085B CN202410224999.1A CN202410224999A CN117808085B CN 117808085 B CN117808085 B CN 117808085B CN 202410224999 A CN202410224999 A CN 202410224999A CN 117808085 B CN117808085 B CN 117808085B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- framework
- metadata
- subject
- discipline
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 23
- 230000008520 organization Effects 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 36
- 230000004927 fusion Effects 0.000 claims abstract description 34
- 230000001149 cognitive effect Effects 0.000 claims abstract description 4
- 238000010606 normalization Methods 0.000 claims abstract 2
- 238000002372 labelling Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 238000000547 structure data Methods 0.000 claims description 13
- 239000013589 supplement Substances 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013467 fragmentation Methods 0.000 claims description 6
- 238000006062 fragmentation reaction Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 239000000463 material Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 230000002349 favourable effect Effects 0.000 abstract 1
- 230000009897 systematic effect Effects 0.000 abstract 1
- 230000003628 erosive effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012876 topography Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种学科知识框架自动构建方法,所述方法包括:1)基于学科逻辑搭建符合认知思维的学科通用知识框架;2)获取具体学科领域的专业图书;3)自动提取专业图书的知识组织逻辑与结构;4)基于学科通用知识框架重构专业图书的知识组织结构,获得多个初始的知识框架;5)融合初始知识框架,构建出具有完整性、规范性、一致性、逻辑性的学科知识框架,实现全局视角下对学科知识的组织。本发明提供了一种构建全面且***的学科知识框架的方法,并依据新知识框架融合而动态扩充,有利于学科知识不断完善、关联性检索与新知识的发现,为学科知识组织与管理提供了一种具有全局视角的方法。
Description
技术领域
本发明涉及学科知识管理技术领域,特别是涉及一种学科知识框架自动构建方法、自动构建装置、设备及存储介质。
背景技术
一门独立的学科拥有与其他学科明显不同的知识研究范围和边界,形成复杂而独特的知识结构,常涉及相关的主题、概念、理论、方法与实例等要素。这些知识以不同形式存在,如专业教材、专业图书、学术期刊和数据资源,构建起学科的知识结构,即学科知识体系。
现有学科知识组织与管理技术,无法兼顾人类阅读习惯与机器理解方式。随着智能的发展,机器难以准确理解学科知识中的高度关联性。为解决这一问题,迫切需要一个具有全局视角的学科知识结构,以全面而科学的方式展示一个链接了完整学科知识的骨架。在此背景下,知识框架作为一种符合认知逻辑的学习认知策略与学科知识组织方式,不仅为学科知识的全面性组织管理提供了方法支持,同时有助于新知识的发现和知识的关联性检索。最为重要的是,知识框架使机器能够以人类认知逻辑理解学科知识,为机器在学科领域的深入参与和应用提供了更大的可能性。
发明内容
本发明公开了一种学科知识框架自动构建方法,有利于机器在全局视角下组织管理学科知识与主动发现新知识。该方法能解决学科专业图书的知识组织视角单一和知识粒度划分主观性强的问题,将之汇聚与体系化得到完善的学科知识框架,从而跟进学科知识演化过程,为实现机器识别、管理、检索与新知识发现提供基础条件。
为达到上述目的,本发明第一方面实施例提供一种学科知识框架自动构建方法,该方法解决了学科理论知识无统一检索框架问题,有利于学科全局视角下机器组织管理学科知识与主动发现新知识,主要步骤如下:
步骤1) 构建通用知识框架:基于学科逻辑构建符合认知逻辑的通用知识框架。
该通用知识框架即学科知识框架的基础模板,是具体学科构建知识框架过程时不脱离的基准。其基本结构如图2,包含但不限于:学科基本概念、学科基本方法、学科基本原理、学科特征知识、学科其他具体知识主题。其中,学科基本概念、基本方法、基本原理是每类学科知识框架区别于其他学科知识框架的根本核心。学科的其他具体知识主题是补充,是每一类学科知识框架区别于其余学科知识框架的特色体现。学科的特征知识包括学科的发展历史、学科的前沿研究方向。各部分按主题、子主题、子子主题等进行层级化以保持知识组织的逻辑性。
步骤2) 获取具体专业图书:收集并数字化该学科领域的专业教材、学术著作、图书、期刊等数据源,并获取专业图书元数据。
数据源收录该学科领域涉及的专业教材、学术著作、图书、期刊等国内外公认权威性的专业图书。专业图书元数据包括3部分,分别是普通元数据、背景元数据、结构元数据。其中普通元数据包含了其余两种元数据。普通元数据,参照图书元数据标准获取,包括:正式名称、编者、出版社、出版时间等内容;背景元数据,用于单独表示可以判别专业图书的编写背景、编写目的的元数据;结构元数据,用于单独表示图书知识具体的组织逻辑的元数据。该步骤得到原始数据集与元数据集。
步骤3) 提取原始知识结构:基于数字化数据源提取知识组织逻辑与具体知识组织结构。
逐个提取具体专业图书的知识组织逻辑,完善其结构元数据内容。专业教材与学术著作等数据源从前言与序以及目录中获取全文的组织逻辑,学术期刊从摘要中获取组织逻辑。逐个提取具体专业图书的原始知识结构,从目录中提取基本的板块、章节级别划分与标题命名等内容,同时提取最小级别标题下的正文,作为知识组织粒度细化的依据。该步骤得到多个原始知识结构的数据集。
步骤4) 重构知识结构:在原始知识结构中,逐级标注其主体概念,逐段落标注最小级别知识主题下正文的主体概念,依据对主体概念的相似度判断,提炼与重构知识结构;
标注主体概念,即在待标注语料中标注作为描述主体出现的学科概念。对步骤3提取的原始知识结构,采用自定义学科概念词典的自然语言处理分词方法来标注主体概念,逐级标注原始知识结构中的主体概念,逐段落标注最小级别标题下正文的主体概念;基于主体概念的异同来判断原始知识组织逻辑的完善性,判断知识组织的粒度是否适宜;若主体概念相似度过低,则增设最小标题级,若主体概念相似度高或一致,则不予补充。据此重构知识结构,达到对原内容的精炼与完善,得到具体专业图书对应的知识框架。该步骤得到知识结构标注数据集与包含多个待融合的知识框架的数据集。
步骤5) 更新学科知识框架:融合知识框架前,选定一个综合理论性的学科知识框架作为基础;再通过逐个融合重构后的知识结构更新该学科的现有知识框架。
逐个融合重构后的知识结构至学科知识框架,该过程包括三个部分:初始判断、框架融合、约束更新。知识框架融合数量越多,学科知识框架的完善性、稳定性越高。
1)知识框架初始判断,根据学科专业图书背景元数据呈现出的著作类别、学科主题、著作目的、著作知识背景/时代背景等内容进行知识主题重合度与差异性判断。
2)知识框架结构融合,根据两个知识框架的相似度判断结果对知识框架的一级与二级进行融合。
3)知识框架约束更新:对知识框架进行具体知识的融合操作,包括知识内容融合、框架结构更新、概念术语统一等其他融合操作;迭代更新过程完成不同时期不同知识主题侧重的多个知识框架的融合操作,核验与标准化融合后知识框架,需要保持知识组织的逻辑性、提高知识结构的完整性、增加知识组织的规范性、保证知识结构的一致性。
本发明第二方面实施例提供的学科知识框架构建装置,包括:
存储模块,用于管理学科知识框架构建过程中产生的所有数据集,存储原始数据源、数字化数据集、专业图书元数据集、标注数据集、原始知识结构数据集、重构后知识框架数据集、更新后知识框架版本集。
数字化模块,用于得到数字化的数据源,对数据源进行图片化、文本化与碎片化等预处理操作。数据源图片化过程用于将不可编辑版本的数据源转换为图片,数据源文本化过程用于对数据源进行文本识别,作为自然语言处理语料的前提。数据源碎片化用于对数据源进行书籍正文的剥离与书籍正文内部的链接,对知识结构进行编码、定位等操作,作为原始知识结构提取的前提。
提取模块,用于提取专业图书元数据与原始知识结构。逐个对数字化的数据源进行专业图书的元数据提取,分为普通元数据、背景元数据、结构元数据,构成专业图书元数据集,于存储模块存储。逐个对专业图书的原始知识结构进行提取,对原始知识结构按知识等级编码,构成原始知识结构数据集,于存储模块存储。逐个对知识结构中最小级别下的正文内容进行提取,并通过编码链接于知识结构中,构成原始知识结构数据集的补充,于存储模块存储,作为标注主体概念与获取重构后知识框架的前提。
标注模块,用于标注原始知识结构与最小级别结构下正文中的主体概念,获得带有标注的知识结构与对应正文数据集与主体概念集,共同构成标注数据集于存储模块存储,作为重构获取知识框架的前提。
重构模块,用于判断标注数据集中的主体概念的相似性,通过相似性判断结果自动重构原始知识结构,通过细化知识主题粒度得到重构后的知识框架数据集,于存储模块存储,作为融合知识框架的前提。
融合模块,用于融合多个知识框架,通过元数据集中背景元数据选定一个综合性知识框架作为基础,作为更新后知识框架的初始版本,再逐个把重构后知识框架数据集中其余知识框架与现有初始版本知识框架进行融合操作,获取更新后的知识框架版本集,于存储模块存储。
本发明第三方面实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如上任一实施例所述的学科知识框架构建方法。
本发明第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一实施例所述的学科知识框构建方法。
本发明提出了一种学科知识框架的自动构建方法、装置、设备及存储介质,解决了学科理论知识无统一检索框架问题,旨在支撑机器以全局视角更有效地组织和管理学科知识,并主动发现新知识。该方法的优势在于解决了具体学科中专业图书存在的知识组织视角单一和知识粒度划分主观性强的问题。通过汇聚和***化学科知识结构,该方法能够跟进学科知识的不断演化,根据数据源的增加不断扩充知识框架,能更便于机器识别、管理、检索和发现新知识。这种创新的方法有望为学科知识的全面整合和机器智能化的知识处理提供有力支持。
本发明的优势具体可以表述为以下几点:(1)提供一种基于组织策略的学科知识统一检索框架,在学科知识的组织与管理上更为全面和科学;(2)提供了一种基于精加工策略的不断建立学科知识链接、更新学科知识结构的方法,在知识的组织与更新上更为灵活和敏捷;(3)提供了一种能够便于机器识别、学习、管理学科知识的方式,有利于该学科新知识的主动发现。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明公开的一种学科知识框架自动构建方法的核心步骤图;
图2是本发明公开的一种学科知识框架自动构建方法的通用知识框架结构示意图;
图3是本发明实施例的重构知识组织结构为知识框架示意图;
图4是本发明公开的一种学科知识框架自动构建的装置结构示意图;
图5是本发明公开的一种电子设备的架构示意图。
具体实施方式
为了加深对本发明的认识和理解,以下结合附图与实施例对本发明的技术方案做进一步说明。
实施例1:本发明的整体流程如图1所示,具体分析实施方式见下文。本发明以地貌学科知识框架的自动构建为实施例说明,包括:
S101,构建通用知识框架:学科领域确定为地貌学,通用知识框架的内容则包括地貌学基本概念、地貌学基本原理、地貌学基本方法、地貌学科特征知识、地貌学其他具体知识主题等。知识按主题、子主题、子子主题等进行层级化以保持知识组织的逻辑性,如图2。
S102,获取具体专业图书:收集并数字化该学科领域的专业图书,获得专业图书元数据。
S103,提取原始知识结构:基于数字化数据源提取知识组织逻辑与具体的知识组织结构。
S104,重构知识结构:在原始知识结构中,逐级标注其主体概念,逐段落标注最小级别标题下正文的主体概念,依据对主体概念的相似度判断,提炼与重构知识结构。
S105,更新学科知识框架:对多个知识框架进行融合操作,获得融合更新后的学科知识框架。
进一步的,步骤2)中地貌学科专业图书元数据包括三部分,分别是地貌学科专业图书普通元数据、地貌学科专业图书背景元数据、地貌学科专业图书结构元数据,主要内容如表1所示。其中地貌学科专业图书普通元数据包含其余两种元数据:
1)普通元数据,参照图书元数据标准获取,包括:书名、编者、出版社、出版时间、语种、国际标准书号项、检索数据、CIP核字号、前言等内容;
2)背景元数据,用于单独表示可以判别专业图书的知识主题词、编写目的、编写背景等的元数据,一般从前言与书籍推荐上架栏目获取;
3)结构元数据,用于单独表示图书知识组织逻辑的元数据,在前言、内容简介与目录结构等说明中获取。
表 1 地貌学科专业图书元数据主要元数据项
进一步的,步骤3)逐个提取具体地貌学科专业图书的知识组织逻辑,完善其结构元数据内容。专业教材与学术著作等从前言与序以及目录中获取全文的组织逻辑,学术期刊从摘要中获取组织逻辑。逐个提取具体专业图书的原始知识结构,从目录中提取基本的板块、章节级别划分与原始标题等内容,同时逐段提取知识结构最小级别下的正文,作为知识组织粒度细化的依据。
进一步的,步骤4)重构学科知识框架,首先,采用自定义地貌学概念词典的自然语言处理技术,逐个标注并抽取原始知识结构的地貌学主体概念;其次,逐段标注当前知识结构最小级知识主题下链接的正文知识内容的主体概念;再基于主体概念的异同来判断原始知识组织逻辑的完善性,判断知识组织的粒度是否适宜;若主体概念相似度过低,则增设最小标题级,若主体概念相似度高或一致,则不予补充。据此重构知识结构,达到对原内容的精炼与完善。以喀斯特地貌章节作为示例,重构后的部分知识框架如图3。
进一步的,步骤5)融合知识框架,包括三个部分:初始判断、二级融合、约束更新。
对知识框架进行初始判断,根据地貌学科专业图书背景元数据与结构元数据呈现出的著作类别、学科分类、主题词、著作目的、著作知识背景/时代背景等内容对知识主题重合度与差异性进行判断,如表2;
表2为知识框架初始判断的依据;
对知识框架进行知识主题的融合,以初始判断的结果作为整体依据,将融合过程划分为整体融合或部分融合。整体融合需要逐个知识主题逐个知识子主题的融合新知识框架与现有知识框架,不断补充知识框架各个知识主题的子主题;部分融合需要先确定新知识框架融入现有知识框架的具体知识主题,在该具体主题下逐个子主题的将新知识框架融入到现有知识框架。判别新知识框架与现有知识框架的知识主题的相似度是融合的前提。在新知识框架中不被涵盖的现有知识框架的知识主题,其内容不予补充与变更。新知识框架与现有知识框架有重叠的知识主题再进行主体概念相似度的判别,其中完全不同的知识主题作为补充与新增知识主题融入现有知识框架中,其中相似度高的知识主题则暂且融入知识框架。该融合过程中所有更小级别的知识主题须跟随比其更大一级别的知识主题一起融入。
如表3-4,新知识框架中的“喀斯特地貌及其综合”在与现有知识框架的“喀斯特地貌”进行融合时,新知识框架中的知识主题“喀斯特地貌的形成”与“喀斯特地貌的基本形态”都与现有知识框架中的知识主题存在极高相似度,则分别与现有知识框架中的“喀斯特地形发育的条件和因素”“喀斯特地形形态”互为补充,暂且融入知识框架中以便于进行后续更具体的融合。而新知识框架中的知识主题“喀斯特地貌的综合(制图)”相比现有知识框架则为全新知识主题,则直接作为新知识主题融入知识框架中。
表3为待融合的知识框架局部(喀斯特地貌);
表 4 现有的知识框架局部(喀斯特地貌)
对知识框架进行知识子主题下的融合,涉及到对知识融合、结构更新、框架术语更新、概念术语统一等操作。
对暂时融入的知识主题下的知识子主题、知识子主题逐个进行相似度判断,新的知识子主题或子子主题作为新增补充融入知识框架,高相似度知识子主题或子子主题进行合并补充,完全重复的知识子主题或子子主题从知识框架中删除。同时,对知识框架中涉及的指称同种概念的术语进行更新。审查知识框架结构的逻辑性,通过概念间关系判断知识主题、知识子主题、知识子子主题之间的逻辑关系正确与否,修正逻辑错误的主题至适当的位置,实现对知识框架的结构更新。融合完成后对所有涉及的地貌学概念术语进行统一处理,并据融合后的知识框架的主体概念更新该学科概念术语库。
表5待融合操作的知识主题(喀斯特地貌示例);
表 6为现有的知识框架中对应的知识主题(喀斯特地貌示例)
如表5、6,将待融合的知识主题“喀斯特地貌的基本形态”下的知识子子主题“喀斯特溶斗”“喀斯特盆地”、“溶蚀槽谷”、“盲谷”、“溶洞”、“地下河段”、“峰丛和峰林”、“残丘陵”逐个与现有知识框架中的知识主题“喀斯特地形形态”下的知识子主题进行主体概念的判断与融合操作。“溶蚀槽谷”与“残丘”为新的知识子子主题直接融合至知识框架中。“喀斯特溶斗”“溶蚀盆地”“盲谷”“溶洞”“地下河段”为重复的知识子子主题则删去。“溶蚀形态”与“溶蚀残余形态”知识子主题则是从分类角度出发得到的,从逻辑一致性上判断其与现有知识框架不一致而删去。最后依据地貌学科概念进行框架术语的统一更新,如对于“地下河段”更新为“地下河道”,而“溶蚀盆地”则更新为“喀斯特盆地”。逐个融合知识子主题下的具体知识,更新地貌学科知识框架。
实施例2:本发明申请第二方面实施例提供的一种学科知识框架自动构建装置,如图4所示,包括:
S201,存储模块,用于管理地貌学科知识框架构建过程中产生的所有数据集,支撑各个模块对于数据集的调用需求。包括:存储地貌学原始的数据源、数字化数据集、专业图书元数据集、标注数据集、原始知识结构数据集、重构后知识框架数据集、更新后知识框架版本集等。
S202,数字化模块,用于得到数字化的数据源,对数据源进行图片化、文本化与碎片化等预处理操作。数据源图片化过程用于将不可编辑版本的数据源转换为图片,数据源文本化过程用于对数据源进行文本识别,作为自然语言处理语料的前提。数据源碎片化用于对数据源进行书籍正文的剥离与书籍正文内部的链接,对知识结构进行编码、定位等操作,作为原始知识结构提取的前提。
S203,提取模块,用于提取地貌专业图书元数据与原始知识结构。逐个对数字化的数据源进行专业图书的元数据提取,分为普通元数据、背景元数据、结构元数据,构成专业图书元数据集,于存储模块存储。逐个对专业图书的原始知识结构进行提取,对原始知识结构按知识等级编码,构成原始知识结构数据集,于存储模块存储。逐个对知识结构中最小级别下的正文内容进行提取,并通过编码链接于知识结构中,构成原始知识结构数据集的补充,于存储模块存储,作为标注主体概念与获取重构后知识框架的前提。
S204,标注模块,用于标注原始地貌知识结构与最小级别结构下正文中的主体概念,获得带有标注的知识结构与对应正文数据集与主体概念集,共同构成标注数据集于存储模块存储,作为重构获取知识框架的前提。
S205,重构模块,用于判断标注数据集中的主体概念的相似性,通过相似性判断结果自动重构原始知识结构,通过细化知识主题粒度得到重构后的地貌知识框架数据集,于存储模块存储,作为融合地貌知识框架的前提。
S206,融合模块,用于融合多个地貌学科知识框架,通过元数据集中背景元数据选定一个综合性知识框架作为基础,作为更新后知识框架的初始版本,再逐个把重构后知识框架数据集中其余知识框架与现有初始知识框架进行融合操作,获取更新后的地貌学科知识框架版本集,于存储模块存储。
实施例3:本发明第三方面实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如上任一实施例所述的学科知识框架构建方法。
实施例4:本发明第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一实施例所述的学科知识框构建方法。
计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM、内存、只读存储器(ROM、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。以上所述的具体实施方式,对本发明的目的、技术方案进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种学科知识框架自动构建方法,其特征在于,所述方法包括以下步骤:
步骤1) 构建通用知识框架:基于学科逻辑构建符合认知逻辑的通用知识框架;
步骤2) 获取具体专业图书:收集并数字化该学科领域的专业图书,包括专业教材、学术著作、图书、期刊数据源,并录入专业图书元数据;
步骤3) 提取原始知识结构:基于数字化数据源逐个提取专业图书的知识组织逻辑与具体的知识组织结构;
步骤4) 重构学科知识结构:在原始知识组织结构中标注主体概念,对知识组织结构对应的具体内容同样标注出主体概念,基于对主体概念的异同判断,重构得到学科知识框架;
步骤5) 更新学科知识框架:对多个知识框架进行融合操作,获得融合更新后的学科知识框架;
其中,步骤1)构建通用知识框架,内容包括:学科基本概念、学科基本原理、学科基本方法、学科基本特征以及学科其他知识主题,学科具体知识主题依据不同学科具体组织与构建,是知识框架的核心板块,知识框架中的学科知识按主题、子主题、子子主题进行层级化以保持知识组织的逻辑性;
步骤2)具体学科领域的专业图书主要指该学科领域涉及的专业教材、学术著作、图书、期刊有公认权威性的数据源,专业图书元数据包括三部分,分别是普通元数据、背景元数据、结构元数据,普通元数据,参照图书元数据标准获取,包括:正式名称、编者、出版社、出版时间内容;背景元数据,用于单独表示判别专业图书的编写背景、编写目的的元数据;结构元数据,用于单独表示图书知识具体的组织逻辑的元数据,
步骤3)中提取的原始知识结构按编写主题划分为综合理论性、部门理论性与技术实践性3类,3类知识结构之间互有知识主题的关联,并不完全对立分割,
步骤4)中重构学科知识结构,包括:采用自定义学科概念词典的自然语言处理技术,标注并抽取该原始知识结构中的所有主体概念;另外,逐段标注最小级别知识主题下正文内容的主体概念;基于主体概念的异同来判断原始知识结构的完善性与逻辑性,对知识主题进行增加、删除或修改操作后,重构得到学科知识框架,
步骤5)中融合更新后的学科知识框架,包括三个步骤,分别是初始判断、框架融合以及约束更新,知识框架初始判断,根据专业图书背景元数据呈现出的学科分类、编写主题、编写目的、编写时代背景内容对知识主题重合度与差异性判断;知识框架结构融合,根据判断结果在现有学科知识框架基础上融合新构建的初始知识框架的一级与二级结构;知识框架约束更新:对知识框架进行具体知识主题的融合操作,包括知识子主题融合、框架结构更新、概念术语统一及其他融合操作;迭代更新过程完成不同知识背景、不同知识主题侧重的多个知识框架的融合操作,核验与标准化过程确保学科知识框架的知识组织的逻辑性得到保持、知识组织的规范性得到增加、知识结构的完整性得到提高、知识结构的一致性得到保证。
2.一种学科知识框架自动构建装置,其特征在于,用于实现权利要求1所述学科知识框架自动构建方法,
所述装置包括:
存储模块,用于管理学科知识框架构建过程中产生的所有数据集,存储原始数据源、数字化数据集、专业图书元数据集、标注数据集、原始知识结构数据集、重构后知识框架集、更新后知识框架版本集,
数字化模块,用于得到数字化的数据源,对数据源进行图片化、文本化与碎片化预处理操作,数据源图片化过程用于将不可编辑版本的数据源转换为图片,数据源文本化过程用于对数据源进行文本识别,作为自然语言处理语料的前提,数据源碎片化用于对数据源进行书籍正文的剥离与书籍正文内部的链接,对知识结构进行编码、定位操作,作为原始知识结构提取的前提,
提取模块,用于提取专业图书元数据与原始知识结构,逐个对数字化的数据源进行专业图书的元数据提取,分为普通元数据、背景元数据、结构元数据,构成专业图书元数据集,于存储模块存储,逐个对专业图书的原始知识结构进行提取,对原始知识结构按知识等级编码,构成原始知识结构数据集,于存储模块存储,逐个对知识结构中最小级别下的正文内容进行提取,并通过编码链接于知识结构中,构成原始知识结构数据集的补充,于存储模块存储,作为标注主体概念与获取重构后知识框架的前提,
标注模块,用于标注原始知识结构与最小级别结构下正文中的主体概念,获得带有标注的知识结构与对应正文数据集与主体概念集,共同构成标注数据集于存储模块存储,作为重构获取知识框架的前提,
重构模块,用于判断标注数据集中的主体概念的相似性,通过相似性判断结果自动重构原始知识结构,通过对知识主题粒度的合理补充得到重构后的知识框架数据集,于存储模块存储,作为融合知识框架的前提,
融合模块,用于融合多个知识框架,通过元数据集中背景元数据选定一个综合性知识框架作为基础,作为更新后知识框架的初始版本,再逐个把重构后知识框架数据集中其余知识框架与知识框架的初始版本进行融合操作,获取更新后的知识框架版本集,于存储模块存储。
3.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序所述计算机程序被处理器执行时实现如权利要求1所述的学科知识框架自动构建方法。
4.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1所述的学科知识框架自动构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410224999.1A CN117808085B (zh) | 2024-02-29 | 2024-02-29 | 学科知识框架自动构建方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410224999.1A CN117808085B (zh) | 2024-02-29 | 2024-02-29 | 学科知识框架自动构建方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117808085A CN117808085A (zh) | 2024-04-02 |
CN117808085B true CN117808085B (zh) | 2024-05-07 |
Family
ID=90428091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410224999.1A Active CN117808085B (zh) | 2024-02-29 | 2024-02-29 | 学科知识框架自动构建方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117808085B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377747A (zh) * | 2019-06-10 | 2019-10-25 | 河海大学 | 一种面向百科网站的知识库融合方法 |
CN111241293A (zh) * | 2019-12-28 | 2020-06-05 | 上海骥灏网络股份有限公司 | 一种基于学术文献构建的知识图谱算法 |
CN111737495A (zh) * | 2020-06-28 | 2020-10-02 | 福州数据技术研究院有限公司 | 基于领域自分类的中高端人才智能推荐***及其方法 |
CN117371523A (zh) * | 2023-10-24 | 2024-01-09 | 重庆邮电大学 | 基于人机混合增强的教育知识图谱构建方法与*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11151324B2 (en) * | 2019-02-03 | 2021-10-19 | International Business Machines Corporation | Generating completed responses via primal networks trained with dual networks |
-
2024
- 2024-02-29 CN CN202410224999.1A patent/CN117808085B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377747A (zh) * | 2019-06-10 | 2019-10-25 | 河海大学 | 一种面向百科网站的知识库融合方法 |
CN111241293A (zh) * | 2019-12-28 | 2020-06-05 | 上海骥灏网络股份有限公司 | 一种基于学术文献构建的知识图谱算法 |
CN111737495A (zh) * | 2020-06-28 | 2020-10-02 | 福州数据技术研究院有限公司 | 基于领域自分类的中高端人才智能推荐***及其方法 |
CN117371523A (zh) * | 2023-10-24 | 2024-01-09 | 重庆邮电大学 | 基于人机混合增强的教育知识图谱构建方法与*** |
Also Published As
Publication number | Publication date |
---|---|
CN117808085A (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Meroño-Peñuela et al. | Semantic technologies for historical research: A survey | |
CN111488465A (zh) | 一种知识图谱构建方法及相关装置 | |
Folaron | Technology, technical translation and localization | |
CN105975597B (zh) | 一种东巴经典古籍传承体系数字化国际共享平台 | |
CN109446526B (zh) | 一种隐式篇章关系语料库的构建方法、装置和存储介质 | |
CN110245350B (zh) | 文案改写与更新方法、装置及设备 | |
Sousa | From field notebooks to automatic mapping: the ‘Atlas Lingüístico Galego’database | |
Nowroozi et al. | The comparison of thesaurus and ontology: Case of ASIS&T web-based thesaurus and designed ontology | |
CN117808085B (zh) | 学科知识框架自动构建方法、装置、设备及存储介质 | |
Bonch-Osmolovskaya et al. | Tolstoy semanticized: Constructing a digital edition for knowledge discovery | |
CN117725895A (zh) | 文档生成方法、装置、设备及介质 | |
US20080015843A1 (en) | Linguistic Image Label Incorporating Decision Relevant Perceptual, Semantic, and Relationships Data | |
Viola et al. | Machine Learning to Geographically Enrich Understudied Sources: A Conceptual Approach. | |
CN111309867B (zh) | 一种知识库动态更新方法 | |
Izquierdo Alonso et al. | Perspectives of studies on document abstracting: Towards an integrated view of models and theoretical approaches | |
Alonso et al. | Perspectives of studies on document abstracting: Towards an integrated view of models and theoretical approaches | |
CN112800778B (zh) | 一种基于词串长度的意图识别方法、***及存储介质 | |
Scheithauer et al. | Which TEI representation for the output of automatic transcriptions and their metadata? An illustrated proposition | |
Yu et al. | A capability-oriented method for integration of liberal arts knowledge graph in primary education | |
Cyras et al. | Visualization as a tertium comparationis within multilingual communities | |
WO2009156527A1 (es) | Procedimiento y sistema para generar automáticamente meta-datos de geodatos | |
Fraga et al. | ANNOTATING UNSTRUCTURED TEXTS FOR ENHANCING SEMANTIC ANALYSIS PROCESSES. | |
Ginige et al. | Next generation hypermedia authoring systems | |
Aleman et al. | Why Can’t I Find You? A User-Centric Study and Recommendations for Location Archival Information | |
Monteil et al. | Archaeological contents: from open access to open data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |