CN110502640A - 一种基于建构的概念词义发展脉络的提取方法 - Google Patents
一种基于建构的概念词义发展脉络的提取方法 Download PDFInfo
- Publication number
- CN110502640A CN110502640A CN201910694294.5A CN201910694294A CN110502640A CN 110502640 A CN110502640 A CN 110502640A CN 201910694294 A CN201910694294 A CN 201910694294A CN 110502640 A CN110502640 A CN 110502640A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- word
- keyword
- evolution
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000011161 development Methods 0.000 title claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 4
- 230000018109 developmental process Effects 0.000 claims description 26
- 239000000284 extract Substances 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 11
- 238000005295 random walk Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 3
- 210000000988 bone and bone Anatomy 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000008595 infiltration Effects 0.000 claims description 3
- 238000001764 infiltration Methods 0.000 claims description 3
- 230000035515 penetration Effects 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005303 weighing Methods 0.000 claims description 3
- 241001269238 Data Species 0.000 claims description 2
- 230000019771 cognition Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000004069 differentiation Effects 0.000 abstract 1
- 230000010429 evolutionary process Effects 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 6
- 210000001367 artery Anatomy 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 210000003462 vein Anatomy 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 210000001520 comb Anatomy 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机技术领域,涉及一种基于建构的概念词义发展脉络的提取方法。本发明首先将领域知识以建构知识网络形式表征,分析知识间的具有解释性的认知语义关系,生成知识建构关系,获取知识的解释支撑集。然后在不同时空域下,挖掘知识对之间演化关系,基于建构知识网络,对不同时间域内的知识采用聚类算法进行演变融合,最终抽取出知识的演化脉络,帮助用户准确理解知识间关系,弥补知识缺陷。本发明所述方法能够作为领域知识***的一个重要服务内容,智能高效地帮助用户梳理知识的演化过程,获取知识之间的关系,分析领域知识发展的关键知识节点,使用户更容易发现优质知识资源。
Description
技术领域
本发明属于计算机技术领域,涉及一种基于建构的概念词义发展脉络的提取方法。
背景技术
领域知识是一个随时间扩展的体系,那些重要的理论定律不断被引用,新颖的思想和观点不断产生,新旧知识之间始终保持动态的知识增长。在这个过程中,学科领域逐步细化,知识框架也将发生改变,但科学知识始终保持一个整体,这其中体现了知识的演化。
知识之间存在一种建构的关系,任何新知识不可能凭空产生,必然基于现有的知识经验,可以说新知识是现有知识的演化和创新。知识演化体现了知识之间传承和发展的关系,提取知识间的这种演化关系具有十分重要的意义:一方面,科学知识的增长,知识数量的膨胀,给用户准确有效地获取所需知识带来了巨大的挑战,知识演化分析能够帮助用户有效地梳理复杂的知识关系,获悉领域研究热点及发展动向。另一方面,目前网络个性化知识服务已相当成熟,然而能体现时空上演化的知识服务却少有研究。
发明内容
本发明旨在弥补上述知识演化脉络提取方法的不足,提供了一种基于建构的概念词义发展脉络的提取方法,通过基于建构解释关系的知识网络来抽取不同时空域内联合知识网络间的词义发展脉络。
本发明提供的一种基于建构的概念词义发展脉络的提取方法,是从网上抓取领域知识,构建建构知识网络,抽取知识间贴合认知智能的语义关系。针对不同时空域知识,构建时空域联合知识网络,再利用骨架聚类抽取知识的词义发展演化脉络。
本发明的技术方案如下:
一种基于建构的概念词义发展脉络的提取方法,包括以下步骤:
第一步,领域知识抽取:爬取不同领域知识数据,进行数据清洗,去重去噪,分词,基于tfidf、loc、wordvec等特征抽取关键知识,按适当时间段先后顺序整理合成一个时空域知识文档。使用词向量工具,将关键词映射到高维空间,计算关键词词向量之间余弦距离,利用近邻距离定义知识间语义关系,形成初始近邻知识网络,网络节点代表知识,节点间的边权重表征为语义距离。
1.1批量爬取不同领域的知识数据:按照不同领域的划分,爬取不同领域知识,按适当时间段先后顺序整理合成一个时空域知识文档;
1.2知识数据去噪:去除当前获取到的结构化/非结构化知识数据的噪声,包括符号、链接、乱码等;
1.3分词:采用分词算法将经过去噪处理的时空域知识文档进行分词处理;
1.4分词结果去噪:去除分词结果中的噪声;
1.5关键词分析:运用TF-IDF算法计算关键词的权重,在此基础上引入关键词出现的位置、关键词所在句子长度、关键词词向量、知识网络中关键词节点的建构渗透深度和广度,最终得出一组带有权重的候选关键词。
1.6关键词抽取:按候选关键词的权重大小给关键词排序,取权重大的top-k个关键词,表示不同时空内的关键领域知识。
1.7关键词近邻关系抽取:使用词向量工具,将关键词映射到高维空间向量,计算词向量之间余弦距离,选取与目标知识距离最近的top-n个词作为其近邻词,余弦距离作为边权重,形成初始近邻知识网络。
第二步,知识建构关系生成:在初始近邻知识网络中,定义其他知识到目标知识的联想语义支撑度来解释建构关系,联想语义支撑度反映了一个知识是如何被其他知识界定的。基于初始近邻知识网络,引入网络节点间的随机游走思想,基于主题模型原理的扩展,定义并描述联想语义生成模型,对基于联想随机游走机制的语料文本知识有序词序列的语义生成过程进行建模,并对联想语义生成模型进行模型训练和参数估计,从而学习出概念词分布和实现建构语义关系的抽取。
2.1联想随机游走计算:将语料文本的句子关键词映射到近邻知识网络中,句子便表征为一条网络路径,即词序列。计算词序列相邻节点间的跳转次数和跳转距离,跳转距离取最短路径的距离值。
2.2联想语义生成模型描述:
2.2.1对每篇文档d,在主题分布中抽取一个主题θd;
2.2.2对抽到的主题所对应的主题分布中随机抽取一个单词w;
2.2.3根据参数τ的取值,主题词z由主题分布θ生成或者由2.1步结果z′生成,其中由2.1步结果z′生成时,基于步骤2.1的跳转概率;
2.2.4重复2.2.1~2.2.3直至遍历整篇文档中的每个单词。
2.3联想语义生成模型训练和参数估计:通过与观测到的语料库文本进行最优耦合,使用吉布斯采样算法迭代训练出所有联想语义生成模型的未知的隐变量,并习得概念词分布关系,根据词分布获得主题概念与主题描述词之间的建构联想权重,从而得到知识间的建构关系,并将主题描述词在建构知识网络中加以标注。
2.3.1对指示器变量τ抽样;
2.3.2对主题z抽样;
2.3.3估算词分布
第三步,建构知识网络:第一步和第二步骤实现了建构知识网络的构建,将知识的解释知识标记在建构知识网络中,从中发现目标知识词义发展密切相关的其它知识,即为知识演化可能需要的知识。
第四步,知识对演化关系挖掘:先对文档进行分词、合并重复词等预处理,基于文档中的一对关键词的语义距离和共现频率来定义建构知识网络中的两个知识的演化距离,距离越小频率越高则演化强度越大。设定语义距离阈值ε,当知识对在共现序列中位置差小于给定阈值时认为两个知识存在演化关系,否则认为没有关系。在建构知识网络中这种演化关系体现为两个节点之间的一条关联路径。以知识作为网络节点,以演化距离作为网络边的权重,逐年构建知识网络,并根据相邻年份重复节点自动形成时空域联合知识网络。
4.1分词:提取的关键词导入NLPIR分词工具,作为用户自定义词典,使分词工具能够实现粒度较大的分词。对单篇文档进行分词,筛选分词结果中的用户自定义词,初步得到文档关键词序列S。
4.2合并重复词:合并序列中相邻重复出现的关键词,得到相邻关键词不重复的新序列S'。
4.3统计序列S'中两两关键词对的关系:按{sij,dij,nij}的格式进行存储;
其中,sij表示该关系,dij表示关系在文档中的语义距离,nij表示关系出现的次数。
统计所有文档中出现的关系,重复出现的关系,dij值累加,nij值累加。最终得到每一对关系的平均语义距离及出现的次数。计算每一对关系的演化距离,作为知识网络边的权重。
第五步,知识流融合聚类:时空域联合知识网络中,针对不同知识流的渗入,采用骨架聚类方法进行局部聚合,将不同时空域中的知识网络进行聚类划分,相邻节点簇以骨架节点为聚类中心构成一个知识主题。聚类系数值最小的节点是主题聚类中心骨架。节点尽可能的分布在不同的知识主题中。
5.1骨架节点聚类:相邻节点簇以骨架节点为聚类中心构成一个知识主题,计算节点聚类系数,聚类系数值最小,则节点s是主题聚类中心,即骨架节点。
5.2整条骨架主题聚类:计算整条骨架的主题聚类系数,根据骨架节点聚类系数平均值来选取最优的骨架,骨架的聚类系数平均值最小,则认为该最短路径对应的骨架是一条理想演化路径。
第六步,知识演化脉络抽取:将所有的骨架节点进行连接,整合成一条完整的骨架,整条骨架尽可能全面的覆盖知识网络。通过计算整条骨架的主题聚类系数,如果骨架的聚类系数平均值最小,则认为该路径对应的骨架是一条理想演化路径。其中采用最短路径作为知识间的最优的演化路径,选取不同的演化起点和演化终点对应不同的最短路径,通过骨架聚类来分析不同最短路径对整个网络结构的演化重要性。使用不同时空域中知识网络之间存在重叠的知识来连接知识网络。
6.1构建知识网络:根据每一年的文本语料生成该年的知识网络G,获取相邻年份知识交集作为相邻年份演化路径的衔接知识,使得上一年演化路径的终点为下一年演化路径的起点。
6.2确立时空域演化起始点:演化第一年以当前年份知识网络G中任意节点为演化起点,以相邻年份知识网络交集中的节点为演化终点,提取所有可能的最短路径集合S'作为该年候选的演化路径。演化第二年开始,上一年所提取top-k条最优演化路径的演化终点VT作为下一年演化起点。演化最后一年,不存在与下一年知识网络知识交集,故演化终点即为该年知识网络中的任意节点。
6.3骨架聚类抽取演化路径:对于S'中的任何一条最短路径,以该路径上的节点作为网络的聚类中心,路径包含的节点数作为聚类数,计算每一条最短路径的聚类系数Cv,根据Cv值对S'中的所有路径进行排序,选择聚类系数最小的k条路径作为该年演化路径。完整的演化路径则将连续年份的演化路径进行连接,形成一条覆盖领域发展所有年份的演化脉络。
第七步,演化知识库:将抽取的知识演化路径作为知识的词义发展脉络进行保存,不同的知识词义发展脉络存在交叉,交织成词义发展脉络时空图。
本发明的效果和益处:
本发明中所描述的方法能够作为互联网中认知智能的一个功能模块,也能作为以文本为主的学习网站的核心实现方法,旨在给用户生成具有时间上连续的演化知识序列,辅助用户进行领域知识的理解与学习,对个性化知识推荐具有显著的价值意义。
附图说明
图1本发明所述方法流程图。
图2领域知识获取流程图。
图3近邻约束生成知识网络图。
图4联想随机游走机制图。
图5联想语义生成模型图。
图6演化关系抽取流程图。
图7词义发展脉络时空图。
图8语料分类关系图。
图9建构关系图。
具体实施方式
以下结合技术方案和附图详细叙述本发明的具体实施方式。
如图1所示,一种基于建构的概念词义发展脉络的提取方法,包括如下步骤:
领域知识抽取:爬取不同领域知识,进行数据清洗,去重去噪,分词,基于tfidf、loc、wordvec等特征抽取关键知识,按适当时间段先后顺序整理合成一个时空域知识文档。使用词向量工具,将关键词映射到高维空间,计算关键词词向量之间的余弦距离,利用近邻距离定义知识间语义关系,形成初步近邻知识网络,如图2所示,领域知识获取步骤包括:
(1)批量爬取不同领域的知识数据:利用爬虫从网络上抓取大量的语料,将语料按所属的知识领域分成几类。如图8所示,图中每一个虚线圆圈代表一个知识领域。按照不同领域的划分,按适当时间段先后顺序整理合成一个时空域知识文档;
(2)知识数据去噪:去除当前获取到的结构化/非结构化知识数据的噪声,包括符号、链接、乱码等;
(3)分词:采用Ansj分词算法将经过去噪处理的文档进行分词处理;
(4)分词结果去噪:去除分词结果中的形容词,副词,停用词等无效信息,获得一组有效的关键词(每一个有效的关键词对应一个相关知识点)
(5)关键词分析:运用TF-IDF算法计算每一个关键词的权重,对文档中的第i个关键词权重Wi计算公式如下式:
其中,tfi表示文档中第i个关键词出现的词频,maxtfi表示文档中重复出现最多的关键词,N表示语料库的文档总数,ni表示语料库中包含该关键词的文档数,D表示整篇文档的长度,di表示第i个关键词首次出现的位置距离文档开头的长度。
TF-IDF算法的思想包括两点:第一点,关键词出现的词频越高,其权重越大;第二点,关键词越常见,其权重越小。如果一个关键词很少在其他文档中出现,而在该文档中频繁出现,则代表这个关键词很能反映该文档的特征。
在此基础上,本发明结合引入关键词出现的位置、关键词所在句子长度、关键词词向量、知识网络中关键词节点的建构渗透深度和广度,利用最大熵模型训练出一组带有不同特征权重的候选关键词,其概率公式如下:
其中,λk为不同特征函数上的影响权重,也可理解为不同特征量对关键词的驱动强度。λk的求解可通过(Generalized Iterative Scaling)GIS算法实现。相应的迭代求解公式为
(6)关键词抽取:通过以上步骤最终获得一组带权重的关键词,通过不同特征权重调整关键词权重,按综合权重大小给关键词排序,取权重大的top-k个关键词,表示不同时空内的关键领域知识。
(7)关键词近邻关系抽取:使用词向量Word2vec工具,将关键词映射到高维空间向量,计算向量之间余弦距离,然后如图3所示,选取与目标知识距离最近的top-n个词作为其近邻词,余弦距离作为边权重,形成初始近邻知识网络。
建构关系生成:在知识网络中,定义其他知识到目标知识的联想语义支撑度来解释建构关系,基于初始近邻知识网络,引入网络节点间的随机游走思想,定义联想语义生成模型,对基于联想随机游走机制的语料文本知识有序词序列的语义生成过程进行建模,进行模型训练和参数估计,学习出概念词分布和实现建构语义关系的抽取,其主要步骤如下:
(1)联想随机游走计算:将语料文本的句子关键词映射到近邻知识网络中,句子便表征为一条网络路径,即词序列。计算词序列相邻节点间的跳转次数和跳转距离,跳转距离取最短路径的距离值。如图4原理图所示,这里,假定有一个主题概念序列<Nod1,Nod2,Nod3,Nod4,Nod5,Nod6>,所有细线条灰色指向箭头表示从源节点到目标节点的正向联想关系。所有粗线条实线和粗线条虚线箭头分别表示两个连续主题概念节点之间的直接跳转和间接跳转。
其中,直接相连表示在CKN中连续两个主题概念间有直接的正向联想关系,像从Nod1跳转到Nod2,从Nod3跳转到Nod4,从Nod4跳转到Nod5。间接相连表示连续两个主题概念可以通过一些中间节点建立一条游走路径,就像从Nod2到Nod3,还有从Nod5到Nod6。这里,从Nod2回溯至Nod1便是反向向联想关系。
(2)定义联想语义生成模型,原理图如图5所示:
a.对每篇文档d而言,该模型可以生成一个在一些先验主题上的分布,这些主题分布服从θ~Dir(α);
b.对文档d中第n个有序文档词语wd,n而言,根据相应的主题概念分布wd,n由它的主题概念zd,l←n生成;
c.如果τ=0,zd,l由相应文档主题分布θd生成,如果τ=1,zd,l由其前一步结果zd,l-1生成。
p(zl|θ)=Mult(θl)
其中,J是归一化因子。Hop(zl,zl-1)表示在CKN中从zl-1到zl的最佳游走路径的跳转次数。
d.重复上述过程直至遍历整篇文档中的每个单词;
(3)联想语义生成模型训练和参数估计:通过与观测到的语料库文本进行最优耦合,使用吉布斯采样算法迭代训练出所有联想语义生成模型的未知的隐变量,并习得概念词分布关系,根据词分布获得主题概念与主题描述词之间的建构联想权重,从而得到知识间的建构关系,并将主题描述词在建构知识网络中加以标注。
a.对指示器变量{τd,n}抽样。
b.根据下面概率公式对潜在的主题概念分配{zd,n}进行抽样。
c.使用下面和标准LDA一样的公式估算词分布
是概念词t在主题k中出现次数。在指示器变量τ=j的情况下,Cd,j表示文档d中的概念词的全部词频。Nd,k是主题k的所有概念词的词频,即分配给节点k的词数。需要补充说明的是,先初始化变量zd,n决定马尔科夫链的初始状态,接着进行迭代马尔科夫链,每次迭代都由指定公式的分布进行抽样得到zd,n,在得到每个概念词的主题赋值z之后,就能够估计主题的多项式分布和每个文档的主题分布。
建构知识网络:以上2个步骤实现了建构知识网络的构建,在此基础上将知识的解释知识标记在建构知识网络中并加以存储,以便从中发现目标知识词义发展密切相关的其它知识,即为知识演化可能需要的知识。步骤如下:
(1)标记不同领域习得的建构知识和建构关系:如图8所示,蓝色的虚线代表建构解释关系分层,从图中可以看出外层的知识是从内层的知识建构生成的。图中每一个黑色的小圆圈都表示一个知识点,小圆圈之间的连线表示知识点之间存在的建构关系。
(2)存储习得的建构关系:如图9所示,将每一个知识领域的关键词以树形结构的形式展现。不同的关键词覆盖的知识面范围不同。根结点(第一层)的关键词覆盖了整个知识领域的知识面;由根结点继承的子结点(第二层)的关键词,其作为父节点的建构解释词语,将该知识领域概念具象成几个知识块;同理,从不同的知识块继承的子结点(关键词)将每一个知识块划分成一系列更详细的知识点(第三层);依次按层往下细分,直到知识点不能再细分,由此得到一个有层级方向的能表示某一知识领域的树形结构的关键词组。
知识对演化关系挖掘:基于文档中的一对关键词的语义距离和共现频率来定义建构知识网络中的两个知识的演化距离,距离越小频率越高则演化强度越大。设定语义距离阈值ε,当知识对在共现序列中位置差小于给定阈值时认为两个知识存在演化关系,其步骤如图6所示:
(1)分词:提取的关键词导入NLPIR分词工具,作为用户自定义词典,使分词工具能够实现粒度较大的分词。对单篇文档进行分词,筛选分词结果中的用户自定义词,初步得到文档关键词序列S。
(2)合并重复词:合并序列中相邻重复出现的关键词,得到相邻关键词不重复的新序列S'。
(3)统计序列S'中两两关键词对的关系:按{sij,dij,nij}的格式进行存储,sij表示该关系,dij表示关系在文档中的语义距离,nij表示关系出现的次数。进一步,统计所有文档中出现的关系,重复出现的关系,dij值累加,nij值累加。最终得到每一对关系的平均语义距离及出现的次数。计算每一对关系的演化距离,作为知识网络边的权重。语义距离和演化距离计算公式分别为:
知识流融合聚类:时空域联合知识网络中,针对不同知识流的渗入,采用骨架聚类方法进行局部聚合,将不同时空域中的知识网络进行聚类划分,相邻节点簇以骨架节点为聚类中心构成一个知识主题。聚类系数值最小的节点是主题聚类中心骨架。节点尽可能的分布在不同的知识主题中,其步骤如下。
(1)骨架节点聚类:相邻节点簇以骨架节点为聚类中心构成一个知识主题,计算节点聚类系数,聚类系数值最小,则节点s是主题聚类中心,即骨架节点。
(2)整条骨架主题聚类:计算整条骨架的主题聚类系数,根据骨架节点聚类系数平均值来选取最优的骨架,骨架的聚类系数平均值最小,则认为该最短路径对应的骨架是一条理想演化路径。
知识演化脉络抽取:将所有的骨架节点进行连接,整合成一条完整的骨架,通过计算整条骨架的主题聚类系数,聚类系数平均值最小的骨架则为一条理想演化路径。其中采用最短路径作为知识间的最优的演化路径,使用不同时空域中知识网络之间存在重叠的知识来连接知识网络,步骤如下:
(1)构建知识网络:根据每一年的文本语料生成该年的知识网络G,获取相邻年份知识交集作为相邻年份演化路径的衔接知识,使得上一年演化路径的终点为下一年演化路径的起点。
(2)确立时空域演化起始点:演化第一年以当前年份知识网络G中任意节点为演化起点,以相邻年份知识网络交集中的节点为演化终点,提取所有可能的最短路径集合S'作为该年候选的演化路径。演化第二年开始,上一年所提取top-k条最优演化路径的演化终点VT作为下一年演化起点。演化最后一年,不存在与下一年知识网络知识交集,故演化终点即为该年知识网络中的任意节点。
(3)骨架聚类抽取演化路径:对于S'中的任何一条最短路径,以该路径上的节点作为网络的聚类中心,路径包含的节点数作为聚类数,计算每一条最短路径的聚类系数Cv,根据Cv值对S'中的所有路径进行排序,选择聚类系数最小的k条路径作为该年演化路径。完整的演化路径则将连续年份的演化路径进行连接,形成一条覆盖领域发展所有年份的演化脉络。其中节点的聚类系数和整条骨架的主题聚类系数计算公式分别如下:
演化知识库:如图7所示,将抽取的知识演化路径作为知识的词义发展脉络进行保存,不同的知识词义发展脉络或交叉或重叠,交织成词义发展脉络时空图。
本发明提出一种基于建构的概念词义发展脉络的提取方法,从不同时空域的领域知识中,通过建构联想关系抽取确立建构知识网络,利用骨架聚类发现不同时空域的知识网络间知识的演化路径,最终生成知识词义发展脉络时空图,为用户生成具有时间上连续的演化知识序列,对个性化知识服务的改进具有一定的价值现。
Claims (5)
1.一种基于建构的概念词义发展脉络的提取方法,其特征在于,包括以下步骤:
第一步,领域知识抽取
1.1批量爬取不同领域的知识数据:按照不同领域的划分,爬取不同领域知识,按适当时间段先后顺序整理合成一个时空域知识文档;
1.2知识数据去噪:去除时空域知识文档内获取到的结构化/非结构化知识数据的噪声,包括符号、链接和乱码;
1.3分词:采用分词算法将经过去噪处理的时空域知识文档进行分词处理;
1.4分词结果去噪:去除分词结果中的噪声;
1.5关键词分析:运用TF-IDF算法计算关键词的权重,引入关键词出现的位置、关键词所在句子长度、关键词词向量、知识网络中关键词节点的建构渗透深度和广度,最终得出一组带有权重的候选关键词;
1.6关键词抽取:按候选关键词的权重大小给关键词排序,取权重大的top-k个关键词,表示不同时空内的关键领域知识;
1.7关键词近邻关系抽取:使用词向量工具,将关键词映射到高维空间向量,计算词向量之间余弦距离,选取与目标知识距离最近的top-n个词作为其近邻词,余弦距离作为边权重,形成初始近邻知识网络,网络节点代表知识,节点间的边权重表征为语义距离;
第二步,知识建构关系生成
在初始近邻知识网络中,定义其他知识到目标知识的联想语义支撑度来解释建构关系,基于初始近邻知识网络,引入网络节点间的随机游走思想,基于主题模型原理的扩展,定义并描述联想语义生成模型,对基于联想随机游走机制的语料文本知识有序词序列的语义生成过程进行建模,并对联想语义生成模型进行模型训练和参数估计,从而学习出概念词分布和实现建构语义关系的抽取;
第三步,建构知识网络
第一步和第二步骤实现了建构知识网络的构建,将知识的解释知识标记在建构知识网络中;
第四步,知识对演化关系挖掘
4.1分词:对文档提取的关键词导入NLPIR分词工具,作为用户自定义词典,使分词工具能够实现粒度较大的分词;对单篇文档进行分词,筛选分词结果中的用户自定义词,初步得到文档关键词序列S;
4.2合并重复词:合并序列中相邻重复出现的关键词,得到相邻关键词不重复的新序列S';
4.3统计序列S'中两两关键词对的关系,按{sij,dij,nij}的格式进行存储;
其中,sij表示该关系,dij表示关系在文档中的语义距离,nij表示关系出现的次数;
统计所有文档中出现的关系,重复出现的关系,dij值累加,nij值累加;最终得到每一对关系的平均语义距离及出现的次数;计算每一对关系的演化距离,作为知识网络边的权重;以知识作为网络节点,以演化距离作为网络边的权重,逐年构建知识网络,并根据相邻年份重复节点自动形成时空域联合知识网络;
第五步,知识流融合聚类
时空域联合知识网络中,针对不同知识流的渗入,采用骨架聚类方法进行局部聚合,将不同时空域中的知识网络进行聚类划分,相邻节点簇以骨架节点为聚类中心构成一个知识主题;聚类系数值最小的节点是主题聚类中心骨架;节点分布在不同的知识主题中;
5.1骨架节点聚类:相邻节点簇以骨架节点为聚类中心构成一个知识主题,计算节点聚类系数,聚类系数值最小,则节点s是主题聚类中心,即骨架节点;
5.2整条骨架主题聚类:计算整条骨架的主题聚类系数,根据骨架节点聚类系数平均值来选取最优的骨架,骨架的聚类系数平均值最小,则认为该最短路径对应的骨架是一条理想演化路径;
第六步,知识演化脉络抽取
将所有的骨架节点进行连接,整合成一条完整的骨架,整条骨架全面覆盖知识网络;通过计算整条骨架的主题聚类系数,当骨架的聚类系数平均值最小,则认为该路径对应的骨架是一条理想演化路径;其中采用最短路径作为知识间的最优的演化路径,选取不同的演化起点和演化终点对应不同的最短路径,通过骨架聚类来分析不同最短路径对整个网络结构的演化重要性;使用不同时空域中知识网络之间存在重叠的知识来连接知识网络;
第七步,演化知识库:将抽取的知识演化路径作为知识的词义发展脉络进行保存,不同的知识词义发展脉络存在交叉,交织成词义发展脉络时空图。
2.如权利要求1所述的基于建构的概念词义发展脉络的提取方法,其特征在于,所述的第二步具体步骤如下:
2.1联想随机游走计算:将语料文本的句子关键词映射到近邻知识网络中,句子便表征为一条网络路径,即词序列;计算词序列相邻节点间的跳转次数和跳转距离,跳转距离取最短路径的距离值;
2.2联想语义生成模型描述:
2.2.1对每篇文档d,在主题分布中抽取一个主题θd;
2.2.2对抽到的主题所对应的主题分布中随机抽取一个单词w;
2.2.3根据参数τ的取值,主题词z由主题分布θ生成或者由2.1步结果z′生成,其中由2.1步结果z′生成时,基于步骤2.1的跳转概率;
2.2.4重复2.2.1~2.2.3直至遍历整篇文档中的每个单词;
2.3联想语义生成模型训练和参数估计:通过与观测到的语料库文本进行最优耦合,使用吉布斯采样算法迭代训练出所有联想语义生成模型的未知的隐变量,并习得概念词分布关系,根据词分布获得主题概念与主题描述词之间的建构联想权重,从而得到知识间的建构关系,并将主题描述词在建构知识网络中加以标注;
2.3.1对指示器变量τ抽样;
2.3.2对主题z抽样;
2.3.3估算词分布
3.如权利要求1或2所述的基于建构的概念词义发展脉络的提取方法,其特征在于,所述的第六步具体步骤如下:
6.1构建知识网络:根据每一年的文本语料生成该年的知识网络G,获取相邻年份知识交集作为相邻年份演化路径的衔接知识,使得上一年演化路径的终点为下一年演化路径的起点;
6.2确立时空域演化起始点:演化第一年以当前年份知识网络G中任意节点为演化起点,以相邻年份知识网络交集中的节点为演化终点,提取所有最短路径集合S'作为该年候选的演化路径;演化第二年开始,上一年所提取top-k条最优演化路径的演化终点VT作为下一年演化起点;演化最后一年,不存在与下一年知识网络知识交集,故演化终点即为该年知识网络中的任意节点;
6.3骨架聚类抽取演化路径:对于S'中的任何一条最短路径,以该路径上的节点作为网络的聚类中心,路径包含的节点数作为聚类数,计算每一条最短路径的聚类系数Cv,根据Cv值对S'中的所有路径进行排序,选择聚类系数最小的k条路径作为该年演化路径;完整的演化路径则将连续年份的演化路径进行连接,形成一条覆盖领域发展所有年份的演化脉络。
4.如权利要求1或2所述的基于建构的概念词义发展脉络的提取方法,其特征在于,所述的步骤1.5关键词分析,步骤如下:
计算每一个关键词的权重,对文档中的第i个关键词权重Wi计算公式如下式:
其中,tfi表示文档中第i个关键词出现的词频,max tfi表示文档中重复出现最多的关键词,N表示语料库的文档总数,ni表示语料库中包含该关键词的文档数,D表示整篇文档的长度,di表示第i个关键词首次出现的位置距离文档开头的长度;
利用最大熵模型训练出一组带有不同特征权重的候选关键词,其概率公式如下:
其中,λk为不同特征函数上的影响权重;λk的求解可通过GIS算法实现;相应的迭代求解公式为
5.如权利要求3所述的基于建构的概念词义发展脉络的提取方法,其特征在于,所述的步骤1.5关键词分析,步骤如下:
计算每一个关键词的权重,对文档中的第i个关键词权重Wi计算公式如下式:
其中,tfi表示文档中第i个关键词出现的词频,max tfi表示文档中重复出现最多的关键词,N表示语料库的文档总数,ni表示语料库中包含该关键词的文档数,D表示整篇文档的长度,di表示第i个关键词首次出现的位置距离文档开头的长度;
利用最大熵模型训练出一组带有不同特征权重的候选关键词,其概率公式如下:
其中,λk为不同特征函数上的影响权重;λk的求解可通过GIS算法实现;相应的迭代求解公式为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910694294.5A CN110502640A (zh) | 2019-07-30 | 2019-07-30 | 一种基于建构的概念词义发展脉络的提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910694294.5A CN110502640A (zh) | 2019-07-30 | 2019-07-30 | 一种基于建构的概念词义发展脉络的提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110502640A true CN110502640A (zh) | 2019-11-26 |
Family
ID=68587783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910694294.5A Pending CN110502640A (zh) | 2019-07-30 | 2019-07-30 | 一种基于建构的概念词义发展脉络的提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110502640A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353050A (zh) * | 2019-12-27 | 2020-06-30 | 北京合力亿捷科技股份有限公司 | 一种电信客服垂直领域的词库构建方法及工具 |
CN112328928A (zh) * | 2020-11-27 | 2021-02-05 | 山东省计算中心(国家超级计算济南中心) | 一种基于结构序列的文本脉络抽取方法及*** |
CN112633011A (zh) * | 2020-12-30 | 2021-04-09 | 清华大学 | 融合词语义与词共现信息的研究前沿识别方法及设备 |
CN112733527A (zh) * | 2020-12-15 | 2021-04-30 | 上海建工四建集团有限公司 | 建筑工程文档知识网络的构建方法及*** |
CN112836993A (zh) * | 2021-03-06 | 2021-05-25 | 东南大学 | 一种基于知识网络的知识质量评估方法 |
CN112883187A (zh) * | 2019-11-29 | 2021-06-01 | 武汉渔见晚科技有限责任公司 | 一种用户知识概念网络的构建方法及装置、用户知识的评价方法 |
CN114417865A (zh) * | 2022-01-24 | 2022-04-29 | 平安科技(深圳)有限公司 | 灾害事件的描述文本处理方法、装置、设备及存储介质 |
CN114880477A (zh) * | 2022-06-02 | 2022-08-09 | 江南大学 | 一种专利技术演化脉络的提取方法 |
CN115168600A (zh) * | 2022-06-23 | 2022-10-11 | 广州大学 | 一种个性化定制下的价值链知识发现方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193803A (zh) * | 2017-05-26 | 2017-09-22 | 北京东方科诺科技发展有限公司 | 一种基于语义的特定任务文本关键词提取方法 |
WO2018019289A1 (zh) * | 2016-07-29 | 2018-02-01 | 万云数码媒体有限公司 | 基于结构化网络知识自动生成中文本体库的方法、***、计算机设备和计算机可读介质 |
-
2019
- 2019-07-30 CN CN201910694294.5A patent/CN110502640A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018019289A1 (zh) * | 2016-07-29 | 2018-02-01 | 万云数码媒体有限公司 | 基于结构化网络知识自动生成中文本体库的方法、***、计算机设备和计算机可读介质 |
CN107193803A (zh) * | 2017-05-26 | 2017-09-22 | 北京东方科诺科技发展有限公司 | 一种基于语义的特定任务文本关键词提取方法 |
Non-Patent Citations (1)
Title |
---|
金晨: "基于建构学习的个性化即时学习支持方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883187A (zh) * | 2019-11-29 | 2021-06-01 | 武汉渔见晚科技有限责任公司 | 一种用户知识概念网络的构建方法及装置、用户知识的评价方法 |
CN112883187B (zh) * | 2019-11-29 | 2022-08-05 | 武汉渔见晚科技有限责任公司 | 一种用户知识概念网络的构建方法及装置、用户知识的评价方法 |
CN111353050A (zh) * | 2019-12-27 | 2020-06-30 | 北京合力亿捷科技股份有限公司 | 一种电信客服垂直领域的词库构建方法及工具 |
CN112328928A (zh) * | 2020-11-27 | 2021-02-05 | 山东省计算中心(国家超级计算济南中心) | 一种基于结构序列的文本脉络抽取方法及*** |
CN112733527B (zh) * | 2020-12-15 | 2024-05-10 | 上海建工四建集团有限公司 | 建筑工程文档知识网络的构建方法及*** |
CN112733527A (zh) * | 2020-12-15 | 2021-04-30 | 上海建工四建集团有限公司 | 建筑工程文档知识网络的构建方法及*** |
CN112633011A (zh) * | 2020-12-30 | 2021-04-09 | 清华大学 | 融合词语义与词共现信息的研究前沿识别方法及设备 |
CN112836993A (zh) * | 2021-03-06 | 2021-05-25 | 东南大学 | 一种基于知识网络的知识质量评估方法 |
CN112836993B (zh) * | 2021-03-06 | 2024-05-14 | 东南大学 | 一种基于知识网络的知识质量评估方法 |
CN114417865A (zh) * | 2022-01-24 | 2022-04-29 | 平安科技(深圳)有限公司 | 灾害事件的描述文本处理方法、装置、设备及存储介质 |
CN114417865B (zh) * | 2022-01-24 | 2023-05-26 | 平安科技(深圳)有限公司 | 灾害事件的描述文本处理方法、装置、设备及存储介质 |
CN114880477A (zh) * | 2022-06-02 | 2022-08-09 | 江南大学 | 一种专利技术演化脉络的提取方法 |
CN115168600A (zh) * | 2022-06-23 | 2022-10-11 | 广州大学 | 一种个性化定制下的价值链知识发现方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502640A (zh) | 一种基于建构的概念词义发展脉络的提取方法 | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN105393263B (zh) | 计算机‑人交互式学习中的特征完成 | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答***构建方法 | |
CN108376131A (zh) | 基于seq2seq深度神经网络模型的关键词抽取方法 | |
CN109190117A (zh) | 一种基于词向量的短文本语义相似度计算方法 | |
CN110020189A (zh) | 一种基于中文相似性计算的文章推荐方法 | |
CN106537370A (zh) | 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和*** | |
CN103778227A (zh) | 从检索图像中筛选有用图像的方法 | |
CN110888991B (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN106484764A (zh) | 基于人群画像技术的用户相似度计算方法 | |
CN113065003B (zh) | 一种基于多指标的知识图谱生成方法 | |
CN112256939B (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN103544242A (zh) | 面向微博的情感实体搜索*** | |
CN113761893B (zh) | 一种基于模式预训练的关系抽取方法 | |
CN110134792A (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN109992784A (zh) | 一种融合多模态信息的异构网络构建和距离度量方法 | |
CN110222172A (zh) | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 | |
CN107092605A (zh) | 一种实体链接方法及装置 | |
CN110990718A (zh) | 一种公司形象提升***的社会网络模型构建模块 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN116304066A (zh) | 一种基于提示学习的异质信息网络节点分类方法 | |
KR102091633B1 (ko) | 연관법령 제공 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191126 |
|
RJ01 | Rejection of invention patent application after publication |