CN110162591B - 一种面向数字教育资源的实体对齐方法及*** - Google Patents

一种面向数字教育资源的实体对齐方法及*** Download PDF

Info

Publication number
CN110162591B
CN110162591B CN201910431436.9A CN201910431436A CN110162591B CN 110162591 B CN110162591 B CN 110162591B CN 201910431436 A CN201910431436 A CN 201910431436A CN 110162591 B CN110162591 B CN 110162591B
Authority
CN
China
Prior art keywords
entity
digital education
similarity
resources
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910431436.9A
Other languages
English (en)
Other versions
CN110162591A (zh
Inventor
季一木
刘艳兰
刘强
刘尚东
尧海昌
李奎
许正阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910431436.9A priority Critical patent/CN110162591B/zh
Publication of CN110162591A publication Critical patent/CN110162591A/zh
Application granted granted Critical
Publication of CN110162591B publication Critical patent/CN110162591B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向数字教育资源的实体对齐方法及***,首先通过学科主题树对已有教育资源库进行学科分块,并在每个教育资源块内构建分区索引体系;然后SKE算法提取待对齐数字教育资源的知识点标签,通过索引筛选出实体对齐候选集;接着计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度;最后通过将计算得到的实体对相似性数据作为特征值输入构建好的决策树,判定其对齐结果。采用本方法进行数字教育资源的实体对齐,能够大幅度降低实体对齐计算复杂度,提高对齐效率;提升数字教育资源的文本相似度计算精度,从而提高实体对齐准确率。

Description

一种面向数字教育资源的实体对齐方法及***
技术领域
本发明涉及一种数字教育资源实体对齐的方法及***,属于数字教育资源领域。
背景技术
随着当今技术的发展,基于网络的数字教育资源变得愈加丰富,人们可以通过网络不受地域限制得方便获取大量符合自身需求的优质教育资源,极大得提高了自身的主观能动性。如今,个性化的数字教育资源服务已成为传统教育模式的有力补充,成为一种不可忽视的有效教育渠道。
然而随着数据量的增长,现有的数字化教育资源服务暴露出一些缺点:1)可获取的资源总量过多,导致学生可能需要消耗大量时间进行信息筛选,无法快速获取有效资源;2)网络数字教育资源有着标准不统一、结构不一致,内容分散片面等问题,导致资源分发用户体验不佳。因此,加强数字教育资源整合力度,提高信息资源的融合水平,构建高质量的数字教育资源库,从而进一步提高知用户体验是数字教育资源服务中亟待解决的重要问题之一。
实体对齐是知识融合的关键技术支撑。实体对齐相关问题从数据库诞生之日起就被人们所重视,从20世纪六七十年代提出到现在,实体匹配技术也经历了一系列的发展变化。知识库实体对齐是实体匹配发展到Web3.0后,在不同知识库的链接过程中提出的一种问题,这个问题可以通过将经典的实体匹配技术应用到知识库领域,结合知识库的特点进行实体匹配来解决。
实体对齐算法可以分为成对实体对齐和集体实体对齐。成对实体对齐方法,即将实体对齐问题看作是根据属性相似性评分判断待匹配实体对匹配与否的分类问题,Fellegi和Sunter在1969年就提出了该类实体对齐分类方法的概率模型。后来,Winkler等人在此基础上进行大量研究,构建出一种实体对齐概率模型,在实体对齐中取得较好匹配效果。该模型使用属性值的近似比较代替相等与否的二值比较,将待匹配属性值出现的频率代入到属性值相等概率的计算中,并结合贝叶斯网络对属性的相关性建模,并使用最大估计算法对参数进行估计。随着基于Fellegi-Sunter模型的概率实体对齐方法取得的大量的研究成果,机器学习及统计学习的快速发展,很多机器学习方法也应用到实体对齐领域,并取得了巨大的进展,但仍属于成对实体对齐。集体实体对齐,是在成对实体对齐基础上将实体间关系考虑在内,计算实体对间的结构相似性,综合考虑属性相似性与结构相似性来匹配实体对。Suchanek等人提出了一种新型的基于概率的全局算法,PARIS算法。该算法在不需要任何参数调节的条件下不仅能够有效对齐实体还对齐了实体的类别、属性和关系。常规实体对齐做法需要遍历两个知识库中所有实体对,计算复杂度随着知识库规模二次增长,因此,现有知识库实体对齐研究中存在知识库实体量大,实体对齐复杂度高的挑战。当前提高对齐效率的主要方法是引入数据库中分区技术构建知识库实体的分区索引体系,有效加快实体对齐速度,提高效率。
在语义万维网发展的推动下,针对多源知识库实体对齐国内外开展了很多相关工作,但是大多适用于英文知识库,对于中文知识库的研究较少。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种面向数字教育资源的实体对齐方法及***,首先通过学科主题树对已有教育资源库进行学科分块,并在每个教育资源块内构建分区索引体系;然后SKE算法提取待对齐数字教育资源的知识点标签,通过索引筛选出实体对齐候选集;接着计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度;最后通过将计算得到的实体对相似性数据作为特征值输入构建好的决策树,判定其对齐结果。采用本方法进行数字教育资源的实体对齐,能够大幅度降低实体对齐计算复杂度,提高对齐效率;提升数字教育资源的文本相似度计算精度,从而提高实体对齐准确率。本发明实体对齐方法准确高效,对海量的网络数字教育资源进行有效融合,解决了数字教育资源重复冗余、分布散乱等问题,提高数字教育资源服务质量。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种面向数字教育资源的实体对齐方法,包括以下步骤:
步骤1,对数字化教育资源进行分块。
步骤2,构建分区索引体系,采用hash索引对每一个学科类别下的数字教育资源的知识点标签分别构建相应索引体系。
步骤3,提取待对齐数字教育资源的知识点标签,对待融合的教育资源数据进行简单清洗,只保留文本数据,并使用jieba分词工具对其进行分词、词性标注并去除停用词,得到词语集。然后使用SKE算法计算词语集中每个词汇的关健度,并选出关健度高的前5位作为该教育资源的知识点标签。
步骤4,筛选候选实体对,根据步骤3中得到的教育资源的知识点标签,分别在步骤2中构建的hash索引中进行搜索,若有该知识点,则获取该知识点所关联的数字化教育资源ID,即局部实体对齐候选集,将局部Ei:{e1,e2…ej}。最后将局部候选集合并,去掉重复资源,得到最终实体对齐候选集E=E1∪E2∪E3∪E4∪E5={e1,e2…en},则候选实体对集记为{e0_e1,e0_e2…e0_en}。若E={},则将该资源直接加入资源库。
步骤5,计算实体对知识点标签相似性。使用Jaccard相似系数来计算两实体间知识点相似性:
其中,A表示实体e1的知识点集合,B表示实体e2的知识点集合,J(A,B)则表示两知识点集合的交集与并集的比值,记为Sam(table)。
步骤6,计算实体对属性值相似度。依次取出候选实体集E中的资源与待对齐资源进行对比,先根据映射规则匹配两个资源的属性名,当指向同一属性时,再根据编辑距离计算属性值相似度,最后累加所有属性相似度得到两个教育资源实体之间的属性相似度Sam(attribute)。
步骤7,计算实体对中文本资源相似度。获取教育资源简介信息,先对信息文本进行分词、去除停用词的处理,使用构建好的LDA主题模型计算两个文本的主题分布概率,并依次作为该文本的向量表示。可选定合适的主题数k作为向量维度,则art1=(TM11,TM12…TM1k),art2=(TM21,TM22…TM2k),其中art代表文本,TM代表某一主题词在文本中出现的概率值。最后使用余弦相似度计算两个文本间相似度,Sam(art1,art2)=Cos(art1,art2)。
步骤8,构建判断实体对齐的决策树。前期通过计算实体对间标签相似度Sam(table)、属性相似度Sam(attribute)、文本相似度Sam(art1,art2),人工标记对齐情况,获取一定数量的训练集。以Sam(table)、Sam(attribute)、Sam(art1,art2)及相应取值作为实体对的特征与特征值输入,通过训练构建判定实体对是否对齐的决策树。
步骤9,判定候选实体对是否匹配。通过步骤8构建好的决策树判定候选实体对集记{e0_e1,e0_e2…e0_en}中实体对是否对齐。若有对齐实体对,则生成新的对齐实体,加入数字教育资源库中。若无对齐实体对,则将待对齐实体作为独立实体加入数字教育资源库中,并将其与相应知识标签做好链接。
优选的:步骤1中参照高质量知识库中的学科分类体系,构建一个粗分类的学科主题树。然后根据数字教育资源库中资源的学科标签,按照学科主题树中的学科分类将数字教育资源进行聚簇。
优选的:步骤2中以资源实体的知识点标签为索引键值,构建关于知识点标签的hash函数,将具有相同索引键值的资源实体分配到同一桶内。
一种采用面向数字教育资源的实体对齐方法制成的***,包括对数字化教育资源进行分块模块、构建分区索引体系模块、提取待对齐数字教育资源的知识点标签模块、筛选候选实体对模块、计算实体对知识点标签相似性模块、计算实体对属性值相似度模块、计算实体对中文本资源相似度模块、构建判断实体对齐的决策树模块、判定候选实体对是否匹配模块。
本发明相比现有技术,具有以下有益效果:
本发明所提出的基于教育资源的实体对齐方法,能够有效解决数字教育资源重复冗余、分布散乱等问题。通过对海量数字教育资源进行学科分块,采用hash索引构建分区索引体系,能够有效提高实体对齐速度,降低实体对齐复杂度;使用LDA主题模型与余弦相似度计算公式计算两个文本间相似度,提高语义相似度计算精度;结合决策树判定实体对是否对齐,充分考虑实体对间不同特征值对实体对相似性影响权重不同,能够提高实体对齐准确性。
附图说明
图1数字教育资源实体对齐方法流程图
图2知识点标签抽取方法流程图
图3候选实体对集筛选流程图
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种面向数字教育资源的实体对齐方法,首先对已有教育资源库进行分块并构建分区索引体系;然后提取待对齐数字教育资源的知识点标签,通过索引筛选实体对齐候选集;接着计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度;最后通过决策树判定实体对对齐结果,如图1-3所示,具体包括以下步骤:
步骤1.对海量的数字化教育资源进行分块。参照高质量知识库中的学科分类体系,构建一个粗分类的学科主题树。然后根据数字教育资源库中资源的学科标签,按照学科主题树中的学科分类将数字教育资源进行聚簇,减少不必要实体对候选集的产生。
将步骤1中的方法进行封装,得到对海量的数字化教育资源进行分块模块,用来运行步骤1中的方法。
步骤2.构建分区索引体系。在步骤1基础上,采用hash索引对每一个学科类别下的数字教育资源的知识点标签分别构建相应索引体系。在本专利中以资源实体的知识点标签为索引键值,构建一个关于知识点标签的hash函数,将具有相同索引键值的资源实体分配到同一桶内,有效提高知识点标签匹配速度。并且实体对齐工作只在该桶内进行,大幅度降低实体对齐复杂度。
将步骤2中的方法进行封装,得到构建分区索引体系模块,用来运行步骤2中的方法。
步骤3.提取待对齐数字教育资源的知识点标签。对待融合的教育资源数据进行简单清洗,只保留文本数据,并使用jieba分词工具对其进行分词、词性标注并去除停用词,得到词语集。然后使用SKE算法计算词语集中每个词汇的关健度,并选出关健度高的前5位作为该教育资源的知识点标签。
将步骤3中的方法进行封装,得到提取待对齐数字教育资源的知识点标签模块,用来运行步骤3中的方法。
步骤4.筛选候选实体对。根据第三步中得到的教育资源的知识点标签,分别在第二步中构建的hash索引中进行搜索,若有该知识点,则获取该知识点所关联的数字化教育资源ID,即局部实体对齐候选集,将局部Ei:{e1,e2…ej}。最后将局部候选集合并,去掉重复资源,得到最终实体对齐候选集E=E1∪E2∪E3∪E4∪E5={e1,e2…en},则候选实体对集记为{e0_e1,e0_e2…e0_en}。若E={},则将该资源直接加入资源库。
将步骤4中的方法进行封装,得到筛选候选实体对模块,用来运行步骤4中的方法。
步骤5.计算实体对知识点标签相似性。使用Jaccard相似系数来计算两实体间知识点相似性。
A表示实体e1的知识点集合,B表示实体e2的知识点集合,J(A,B)则表示两知识点集合的交集与并集的比值,记为Sam(table)。
将步骤5中的方法进行封装,得到计算实体对知识点标签相似性模块,用来运行步骤5中的方法。
步骤6.计算实体对属性值相似度。不同于通用知识库,在教育资源领域实体属性较为简单,可以通过人工编订映射规则。依次取出候选实体集E中的资源与待对齐资源进行对比,先根据映射规则匹配两个资源的属性名,当指向同一属性时,再根据编辑距离(Jaro距离)计算属性值相似度,最后累加所有属性相似度得到两个教育资源实体之间的属性相似度Sam(attribute)。
将步骤6中的方法进行封装,得到计算实体对属性值相似度模块,用来运行步骤6中的方法。
步骤7.计算实体对中文本资源相似度。获取教育资源简介信息,先对信息文本进行分词、去除停用词的处理,使用构建好的LDA主题模型计算两个文本的主题分布概率,并依次作为该文本的向量表示。可选定合适的主题数k作为向量维度,则art1=(TM11,TM12…TM1k),art2=(TM21,TM22…TM2k),其中art代表文本,TM代表某一主题词在文本中出现的概率值。最后使用余弦相似度计算两个文本间相似度,Sam(art1,art2)=Cos(art1,art2)。
将步骤7中的方法进行封装,得到计算实体对中文本资源相似度模块,用来运行步骤7中的方法。
步骤8.构建判断实体对齐的决策树。前期通过计算实体对间标签相似度Sam(table)、属性相似度Sam(attribute)、文本相似度Sam(art1,art2),人工标记对齐情况,获取一定数量的训练集。以Sam(table)、Sam(attribute)、Sam(art1,art2)及相应取值作为实体对的特征与特征值输入,通过训练构建判定实体对是否对齐的决策树。
将步骤8中的方法进行封装,得到构建判断实体对齐的决策树模块,用来运行步骤8中的方法。
步骤9.判定候选实体对是否匹配。通过步骤8构建好的决策树判定候选实体对集记{e0_e1,e0_e2…e0_en}中实体对是否对齐。若有对齐实体对,则生成新的对齐实体,加入数字教育资源库中;若无对齐实体对,则将待对齐实体作为独立实体加入数字教育资源库中,并将其与相应知识标签做好链接。
将步骤9中的方法进行封装,得到判定候选实体对是否匹配模块,用来运行步骤9中的方法。
一种面向数字教育资源的实体对齐***,包括对数字化教育资源进行分块模块、构建分区索引体系模块、提取待对齐数字教育资源的知识点标签模块、筛选候选实体对模块、计算实体对知识点标签相似性模块、计算实体对属性值相似度模块、计算实体对中文本资源相似度模块、构建判断实体对齐的决策树模块、判定候选实体对是否匹配模块。
数字教育资源实体对齐过程具体步骤如下所示:
1.按照学科类别将数字教育资源进行聚簇,对海量的数字化教育资源进行分块。
2.在每个资源块内以数字教育资源的知识点标签为键值构建hash索引。
3.利用SKE算法提取待对齐数字教育资源的知识点标签。
4.根据第四步中得到的知识点标签在对应资源块中进行hash索引搜索,筛选得到实体对候选集。
5.依次计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度。
6.将计算得到的知识点标签相似性、属性值相似度和文本资源相似度作为实体对的特征值输入,通过构建好的决策树自动判定对齐结果,并依据结果对待对齐资源做相应处理。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种面向数字教育资源的实体对齐方法,其特征在于,包括以下步骤:
步骤1,对数字化教育资源进行分块:获取数字教育资源库中数字教育资源及其对应学科标签;参照知识库中的学科分类体系,构建一个粗分类的学科主题树;然后根据数字教育资源及其对应学科标签,按照学科主题树中的学科分类将数字教育资源进行聚簇;
步骤2,构建分区索引体系:在步骤1基础上,采用hash索引对每一个学科类别下的数字教育资源的知识点标签分别构建相应索引体系;以数字教育资源实体的知识点标签为索引键值,构建一个关于知识点标签的hash索引函数,将具有相同索引键值的数字教育资源实体分配到同一桶内,并且数字教育资源实体对齐工作只在该桶内进行;
步骤3,提取待对齐数字教育资源的知识点标签:对待融合的数字教育资源进行清洗,得到词语集;然后使用SKE算法计算词语集中每个词汇的关健度,并选出关健度高的前n位作为该数字教育资源的知识点标签;
步骤4,筛选候选实体对:根据步骤3中得到的数字教育资源的知识点标签,分别在步骤 2中构建的hash索引函数中进行搜索,若有该知识点标签,则获取该知识点标签所关联的数 字化教育资源ID,即局部实体对齐候选集
Figure 532859DEST_PATH_IMAGE001
;最后将局部候选集合并,并去掉 重复资源,得到最终实体对齐候选集
Figure 250280DEST_PATH_IMAGE002
,则候选 实体对集记为{e0_e1, e0_e2…e0_en};若
Figure 832440DEST_PATH_IMAGE003
,则将该资源直接加入资源库;
步骤5,计算实体对知识点标签相似性:使用Jaccard相似系数来计算两实体间知识点相似性;
Figure 318916DEST_PATH_IMAGE004
其中,A表示实体一的知识点集合,B表示实体二的知识点集合,J(A,B)则表示两知识点集合的交集与并集的比值,记为Sam(table);
步骤6,计算实体对属性值相似度:通过编订映射规则,依次取出候选实体集E中的资源与待对齐资源进行对比,先根据映射规则匹配两个资源的属性名,当指向同一属性时,再根据编辑距离计算属性值相似度,最后累加所有属性相似度得到两个教育资源实体之间的属性相似度Sam(attribute);
步骤7,计算实体对中文本资源相似度:获取教育资源简介信息,先对信息文本进行分词、去除停用词的处理,使用构建好的LDA主题模型计算两个文本的主题分布概率,并依次作为该文本的向量表示;选定主题数k作为向量维度,则art1=(TM11, TM12…TM1k), art2=(TM21, TM22…TM2k),其中,art代表文本,TM代表某一主题词在文本中出现的概率值;最后使用余弦相似度计算两个文本间相似度,Sam(art1,art2)=Cos(art1,art2);
步骤8,构建判断实体对齐的决策树:前期通过计算实体对间标签相似度Sam(table)、属性相似度Sam(attribute)、文本相似度Sam(art1,art2),人工标记对齐情况,获取训练集;以Sam(table)、Sam(attribute)、Sam(art1,art2)及相应取值作为实体对的特征与特征值输入,通过训练构建判定实体对是否对齐的决策树;
步骤9,判定候选实体对是否匹配:通过步骤8构建好的决策树判定候选实体对集记{e0_e1, e0_e2…e0_en}中实体对是否对齐;若有对齐实体对,则生成新的对齐实体,加入数字教育资源库中;若无对齐实体对,则将待对齐实体作为独立实体加入数字教育资源库中,并将其与相应知识标签做好链接。
2.根据权利要求1所述面向数字教育资源的实体对齐方法,其特征在于:步骤3中对待融合的数字教育资源进行清洗,只保留文本数据,并使用jieba分词工具对其进行分词、词性标注并去除停用词,得到词语集。
3.根据权利要求2所述面向数字教育资源的实体对齐方法,其特征在于:步骤3中选出关健度高的前5位作为该数字教育资源的知识点标签。
4.一种基于根据权利要求1所述面向数字教育资源的实体对齐方法的对齐***,其特征在于:包括对数字化教育资源进行分块模块、构建分区索引体系模块、提取待对齐数字教育资源的知识点标签模块、筛选候选实体对模块、计算实体对知识点标签相似性模块、计算实体对属性值相似度模块、计算实体对中文本资源相似度模块、构建判断实体对齐的决策树模块、判定候选实体对是否匹配模块,其中:
所述对数字化教育资源进行分块模块用于对数字教育资源的聚簇;
所述构建分区索引体系模块用于将聚簇好的数字教育资源构建关于知识点标签的hash索引函数,将具有相同索引键值的数字教育资源实体分配到同一桶内,并且数字教育资源实体对齐工作只在该桶内进行;
提取待对齐数字教育资源的知识点标签模块用于对待融合的数字教育资源进行清洗,得到词语集,并获取该数字教育资源的知识点标签;
筛选候选实体对模块将得到的词语集和知识点标签在构建分区索引体系模块中搜索得到实体对齐候选集和候选实体对集;
计算实体对知识点标签相似性模块用于计算两实体间知识点相似性;
计算实体对属性值相似度模块用于计算两个教育资源实体之间的属性相似度;
计算实体对中文本资源相似度模块用于计算两个文本间相似度;
构建判断实体对齐的决策树模块用于训练构建判定实体对是否对齐的决策树;
判定候选实体对是否匹配模块用于根据构建好的决策树判定候选实体对集记{e0_e1,e0_e2…e0_en}中实体对是否对齐;若有对齐实体对,则生成新的对齐实体,加入数字教育资源库中;若无对齐实体对,则将待对齐实体作为独立实体加入数字教育资源库中,并将其与相应知识标签做好链接。
CN201910431436.9A 2019-05-22 2019-05-22 一种面向数字教育资源的实体对齐方法及*** Active CN110162591B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910431436.9A CN110162591B (zh) 2019-05-22 2019-05-22 一种面向数字教育资源的实体对齐方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910431436.9A CN110162591B (zh) 2019-05-22 2019-05-22 一种面向数字教育资源的实体对齐方法及***

Publications (2)

Publication Number Publication Date
CN110162591A CN110162591A (zh) 2019-08-23
CN110162591B true CN110162591B (zh) 2022-08-19

Family

ID=67632035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910431436.9A Active CN110162591B (zh) 2019-05-22 2019-05-22 一种面向数字教育资源的实体对齐方法及***

Country Status (1)

Country Link
CN (1) CN110162591B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674311A (zh) * 2019-09-05 2020-01-10 国家电网有限公司 一种基于知识图谱的电力资产异构数据融合方法
CN110750588A (zh) * 2019-10-29 2020-02-04 珠海格力电器股份有限公司 面向多源异构的数据融合方法、***、装置及存储介质
CN110928894B (zh) * 2019-11-18 2023-05-02 北京秒针人工智能科技有限公司 实体对齐的方法及装置
CN110909533B (zh) * 2019-11-19 2023-07-18 浙江蓝鸽科技有限公司 资源主题判定方法和***
CN111930792B (zh) * 2020-06-23 2024-04-12 北京大米科技有限公司 数据资源的标注方法、装置、存储介质及电子设备
CN112417163B (zh) * 2020-11-13 2024-07-09 中译语通科技股份有限公司 基于实体线索片段的候选实体对齐方法及装置
CN112650821A (zh) * 2021-01-20 2021-04-13 济南浪潮高新科技投资发展有限公司 一种融合Wikidata的实体对齐方法
CN113297213B (zh) * 2021-04-29 2023-09-12 军事科学院***工程研究院网络信息研究所 一种实体对象的动态多属性匹配方法
CN113722509B (zh) * 2021-09-07 2022-03-01 中国人民解放军32801部队 一种基于实体属性相似度的知识图谱数据融合方法
CN113934866B (zh) * 2021-12-17 2022-03-08 鲁班(北京)电子商务科技有限公司 一种基于集合相似度的商品实体匹配方法及装置
CN114329003A (zh) * 2021-12-27 2022-04-12 北京达佳互联信息技术有限公司 媒体资源数据处理方法、装置、电子设备及存储介质
CN115906796A (zh) * 2022-09-23 2023-04-04 北京市应急管理科学技术研究院 一种安全生产隐患实体的对齐方法和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045863A (zh) * 2015-07-13 2015-11-11 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及***
WO2017079217A1 (en) * 2015-11-05 2017-05-11 Microsoft Technology Licensing, Llc Techniques for digital entity correlation
CN109359172A (zh) * 2018-08-02 2019-02-19 浙江大学 一种基于图划分的实体对齐优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9665643B2 (en) * 2011-12-30 2017-05-30 Microsoft Technology Licensing, Llc Knowledge-based entity detection and disambiguation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045863A (zh) * 2015-07-13 2015-11-11 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及***
WO2017079217A1 (en) * 2015-11-05 2017-05-11 Microsoft Technology Licensing, Llc Techniques for digital entity correlation
CN109359172A (zh) * 2018-08-02 2019-02-19 浙江大学 一种基于图划分的实体对齐优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Decision tree based rules for entity identification";Shirin Salim等;《 2016 International Conference on Communication Systems and Networks (ComNet)》;20170119;第1-5页 *
"基于半监督协同训练的百科知识库实体对齐";张伟莉等;《计算机与现代化》;20171231;第88-93页 *

Also Published As

Publication number Publication date
CN110162591A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
CN110162591B (zh) 一种面向数字教育资源的实体对齐方法及***
CN109189901B (zh) 一种智能客服***中自动发现新分类以及对应语料的方法
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN105956053B (zh) 一种基于网络信息的搜索方法及装置
CN111414479A (zh) 基于短文本聚类技术的标签抽取方法
CN116166782A (zh) 一种基于深度学习的智能问答方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN110222172B (zh) 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN111651566B (zh) 基于多任务的小样本学习的裁判文书争议焦点提取方法
CN109492168B (zh) 一种基于旅游照片的可视化旅游兴趣推荐信息生成方法
US20160170993A1 (en) System and method for ranking news feeds
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及***
CN103778206A (zh) 一种网络服务资源的提供方法
CN114997288A (zh) 一种设计资源关联方法
CN107133274B (zh) 一种基于图知识库的分布式信息检索集合选择方法
CN103136221B (zh) 一种生成需求模板的方法、需求识别的方法及其装置
CN110347812A (zh) 一种面向司法文本的搜索排序方法及***
CN117093670A (zh) 一种论文智能推荐专家的实现方法
CN115438141B (zh) 一种基于知识图谱模型的信息检索方法
CN113641788B (zh) 一种基于无监督的长短影评细粒度观点挖掘方法
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN113849639A (zh) 一种城市级数据仓库主题模型类别的构建方法及***
CN114298020A (zh) 一种基于主题语义信息的关键词向量化方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant