CN107908650A

CN107908650A - 基于海量数字图书的知识脉络自动构建方法

Info

Publication number: CN107908650A
Application number: CN201710945019.7A
Authority: CN
Inventors: 鲁伟明; 马朋坤; 魏宝刚; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2018-04-13
Anticipated expiration: 2037-10-12
Also published as: CN107908650B

Abstract

本发明公开了一种基于海量数字图书的知识脉络自动构建方法；将数字图书的元数据信息存储到Lucene索引文件中，如果用户检索主题q，则可获得q相关的图书集合；通过加权的word2vec方法计算目录标题之间的相似度，通过自底向上的凝聚型层次聚类算法对q相关教科书的一级目录进行聚类得到知识单元集合；根据图书中章节之间的偏序关系构建知识单元之间的连接关系，最终构建完整的知识图；从知识图中挖掘出TOP K条重要、有序且冗余小的学习路径，将学习路径构成的知识脉络仿照地铁图的形式进行可视化展示。本发明首次提出了一个基于海量数字图书的摘要提取框架，该框架提取出的知识脉络能够综合考虑信息度、流畅度和覆盖度，能够方便用户快速高效地进行知识学习。

Description

基于海量数字图书的知识脉络自动构建方法

技术领域

本发明涉及基于海量数字图书的知识挖掘方法，尤其涉及一种基于海量数字图书的知识脉络自动构建方法。

背景技术

图书是老师和学生之间传递知识的重要媒介。最近十年间，一些项目，例如“谷歌图书”和“百万图书”项目，开始进行大规模的图书数字化工作。这为用户寻找并阅读图书提供了极大的帮助。但是，图书数量的丰富也造成了一定的干扰，当学习一个主题时，我们往往会陷入到成千上万本图书中。因此，把这成千上万本图书综合进一个简洁但又全面的图片中将会极大地方便知识的学习。

目前有一些研究者开始研究如何进行新闻、科学文献、用户生成内容和专利领域的摘要抽取和可视化来避免信息过载。但是，还没有相关工作对有相同主题的书籍进行合成，形成全面的知识脉络图来帮助用户有效地学习。而且，上述领域的摘要提取技术也不适用于大量图书的合成摘要处理，原因有以下几点：首先，文本相似度计算可以方便进行文章的链接，从而生成具有故事情节的文章摘要。但是，图书往往具有非常丰富且冗长的文本信息，依靠文本相似度来进行图书之间的相似度计算是不可取的。其次，图书缺少时态信息和引用信息，这导致用来对新闻、科学文献和专利的摘要技术在图书领域不适用。

因此，我们考虑仿照地铁图的样式来构造具有相同主题的书籍的知识脉络图，这个知识脉络图包含了该主题相关的几条具有丰富知识点、流畅度高、覆盖度高的学习路径，从而帮助用户高效地进行知识学习。

发明内容

本发明为了解决用户学习某个主题的知识时陷入大量相似图书而无法高效学习的问题，提出了一种基于海量数字图书的知识脉络自动构建方法，能够极大地方便用户进行高效的知识学习。

本发明解决其技术问题采用的技术方案如下：一种基于海量数字图书的知识脉络自动构建方法，包括以下步骤：

1)图书预处理：将数字图书的元数据信息(包括标题、作者、出版社、目录等)存储到Lucene索引文件中；用XML解析器将目录(目录按照XML结构存储)的结构解析出来，并清洗目录标题中的冗余信息；

2)知识单元构建：对于用户检索主题q，从步骤1)中构建的Lucene索引中查询出相关图书集合，将相关图书的所有一级目录标题进行分词处理，通过word2vec方法得到词语的向量表示，对目录标题中的主题词和描述词分别赋予不同的权重，最终用加权的方式计算目录标题之间的相似度；通过自底向上的凝聚型层次聚类算法对q相关图书的目录进行聚类得到知识单元集合；

3)知识图构建：用步骤2)中构建的知识单元作为结点，用图书中章节之间的偏序关系构建结点之间的邻接关系构成有向图，即知识图；

4)学习路径选择：使用动态规划算法遍历步骤3)得到的知识图，得到所有的学习路径，引入信息度和流畅度计算公式，信息度衡量路径中是否包含重要的结点和重要的结点对，知识单元对{o_i,o_i+1}的信息度w(o_i,o_i+1)计算公式如下：

其中，freq(o_i)指知识单元o_i中包含的目录数，dif(b,i)指知识单元o_i和o_i+1中同属于书b中的两个目录之间的距离，如果两个目录和在同一本书b中，且它们又分别属于知识单元o_i和o_i+1，那么表示目录在书b中的相对位置，否则，dif(b,i)＝∞；B_q表示用户检索主题q相关的图书集合；

路径的信息度I(p_i)计算公式如下：

其中，|p_i|为路径p_i的长度，s为路径开始，e为路径结束；

流畅度衡量学习路径中知识单元之间顺序的质量，对于路径使用语言模型来计算其流畅度F(p_i)，计算公式如下：

其中，p(o_i|o_i-2o_i-1)指给定o_i-2o_i-1的情况下出现o_i的概率， c(o_i-2o_i-1o_i)指知识单元o_i-2，o_i-1，o_i同时出现的次数；

路径p_i的打分s(p_i)＝I(p_i)·F(p_i)，用整数线性规划(ILP)优化框架选择最好的TOP K条学习路径，求解器的目标函数如下：

其中，|P_q|表示用户检索主题q相关的路径集合P_q的数量，d_i是一个二进制变量，取值为0或1，取决于路径p_i是否被选择；

约束条件如下：

a)确保只有不超过K条路径被选择：

b)如果两条路径的相似度sim(p_i,p_j)大于等于阈值那么只有一条可以被选择，即：

其中，sim(p_i,p_j)使用jaccard相似度公式计算；

最终，从知识图中挖掘出TOP K条重要、有序且冗余小的学习路径；

5)知识脉络可视化：将步骤4)选择出的学习路径构成的知识脉络进行可视化展示。

进一步地，所述的步骤1)中，数字图书馆中的数字图书都遵从都柏林元数据标准(DC)和开放电子书标准(OEB)，图书元数据包括标题、作者、出版商和目录等；为了能够快速地收集关于用户检索主题q相关的图书集合，我们将图书的这些元数据信息存储到Lucene索引文件中；

数字图书的目录是按照章节的层级结构组织的XML格式文档。我们用XML解析器将一本书的目录结构解析出来，并清洗掉章节标题中的冗余信息，这里的冗余信息是指章节号，比如：第一章、1.1、(一)；这些冗余信息会干扰后续的目录标题相似度计算，所以需要进行清洗，可以使用正则表达式对其进行清洗。

进一步地，所述的步骤2)中，知识单元是指学习某一特定知识点时的图书目录集合，集合中每一个目录来自不同的图书，但是它们讲述的都是该知识点相关的内容；例如，“定积分概述”和“定积分介绍”虽然来自不同图书，但是讲述的内容相同，则它们属于同一个知识单元；知识单元构建主要包括两部分：目录标题之间的相似度计算和文本聚类；

目录标题之间的相似度计算：对于图书目录，通过观察可以发现，句子中词语的重要度并不相同；例如，目录“不定积分的概述”中“概述”和“不定积分”不应该相等对待；因此，将标题中的词语分为两个类型：主题词和描述词；主题词指的是标题的主题，描述词指的是标题中修饰主题的词；举例来说，章节“不定积分概述”中“不定积分”是主题词，“概述”是描述词；很明显，标题中的主题词在计算两个目录之间相似度时的重要度更高。因此，在计算目录之间的相似度时，根据主题词和描述词之间的重要度区分分别赋予不同的权重来予以细化，使用来表示一个目录标题，其中tw和aw是标题t中的主题词集合和描述词集合，每一个词都可以用word2vec得到它们的向量表示：和最终，标题t可以用主题词集合中词的平均向量v_tw(t)和描述词集合中词的平均向量v_aw(t)来表示：

那么，目录t_x和t_y的相似度sim(t_x,t_y)可以通过加权word2vec方法来计算：

如果v_aw(t_x)＝v_aw(t_y)＝0，那么sim(t_x,t_y)＝cos(v_tw(t_x),v_tw(t_y))；

如果v_aw(t_x)＝0or v_aw(t_y)＝0，那么sim(t_x,t_y)＝α*cos(v_tw(t_x),v_tw(t_y))；如果cos(v_tw(t_x),v_tw(t_y))≥ρand cos(v_aw(t_x),v_aw(t_y))≥δ，那么

sim(t_x,t_y)＝βcos(v_tw(t_x),v_tw(t_y))+(1-β)cos(v_aw(t_x),v_aw(t_y))；

其中，α＝0.9,β＝0.8,ρ＝0.8,δ＝0.6

主题词和描述词的识别方法如下：首先，统计出所有科技图书目录分词中每个词的词频(Term Frequency，缩写为TF)，一般情况下，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征。但是，推及到我们的问题上可能正好相反，如果一个词在所有目录中出现的频率越高，那它很可能是描述词。基于这个原则，统计出所有科技图书目录分词中的高频词(例如出现频率Top5000的词)，然后人工判断是否属于描述词，最终保留下来的词构建描述词库；当查询一条目录中词的类别时，首先到描述词库中查询，如果存在，则该词为描述词，否则，将其默认为主题词(默认数据预处理时已经将无关词语清除)。

文本聚类采用的是自底向上的凝聚型层次聚类算法。凝聚型层次聚类的策略是先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有对象都在一个簇中，或者某个终结条件被满足。假设有N个待聚类的样本，对于凝聚型层次聚类来说，基本步骤如下：

a)、(初始化)把每个样本归为一类，计算每两个类之间的距离，也就是样本与样本之间的相似度；

b)、寻找各个类之间最近的两个类，把他们归为一类(这样类的总数就少了一个)；

c)、重新计算新生成的这个类与各个旧类之间的相似度；

d)、重复步骤b)和c)直到所有样本点都归为一类，或者某个终结条件被满足(比如类之间的相似度小于设定的阈值)，则结束。

为了避免个别偏离样本对结果的干扰，取簇间结点两两距离的中位数作为簇间相似度。终结条件是设定了一个簇间相似度阈值δ，δ＝0.9。当所有簇之间的相似度均小于阈值δ时，则聚类结束。

进一步地，所述的步骤3)具体为：

3.1)知识图是用步骤2)中构建的知识单元作为结点，用图书中章节之间的偏序关系构建结点之间的邻接关系构成的有向图；

由于每一个知识单元是由多个来自不同图书的相似目录组成，而同一本图书的目录之间天然存在一个偏序关系，我们以此寻找并统计知识单元之间的前后序关系，最终，得到一个包含所有知识单元以及之间关系的有向图，我们称之为知识图。假如某一主题的相似图书包含的所有目录经过聚类得到N个知识单元，则通过遍历每一本书中目录之间的偏序关系，我们可以得到目录所在知识单元之间的偏序关系，将其存入一个转移矩阵Graph[N][N]中，如果Graph[i][j]＞0(0≤i,j＜N,i≠j)则代表存在从第i个知识单元到第j个知识单元的边。需要注意的是，我们构建的有向图中可能会存在环路，但是不允许有指向自身的环路。

3.2)为了方便路径遍历，需要构造知识图的起始结点和结束结点。起始结点一般是指那些有出无进的结点，它一般来自图书的第一章组成的知识单元，但是由于聚类存在误差，所以规定，如果一个知识单元中的目录有超过一半的目录属于图书的第一章，或该知识单元只出不进，则该知识单元为起始结点。如果一个知识单元只进不出，则该知识单元为结束结点。一个知识图可能存在多个起始结点和多个结束结点。

进一步地，所述的步骤4)中，学习路径集合P_q的获取方法如下：将最短路径长度数即结点数设为L，从起始结点开始遍历到结束结点，如果路径长度小于L则舍弃，保存下来的是大于等于L个结点的路径；同时，为了降低路径遍历的复杂度，在路径遍历时，过滤掉权重等于1的边(知识图中存在很多这种边，但是它们包含的信息量很少，故而舍弃)，同时剔除环路，从而获得一个学习路径集合P_q。

进一步地，所述的步骤5)包括：将选择出的TOP K条重要、有序且冗余小的学习路径仿照地铁图的形式进行可视化展示，构成给定主题的知识脉络图，为用户提供直观高效的知识学习方式。

本发明方法与现有技术相比具有的有益效果：

1.该方法首次提出了一个应用于海量数字图书的摘要框架，该框架能够综合某一主题大量的相似图书来生成该主题的知识脉络图，让用户不再陷入大量相似图书而无法高效学习，能够极大地提升用户学习的效率；

2.该方法提出了一种加权word2vec方法，能够解决非常短的文本相似度计算问题，达到细粒度的区分；

3.该方法综合考虑信息度、流畅度和覆盖度，挖掘出的学习路径具有知识点密集、学习顺序良好、覆盖度广等优点，针对大量图书生成的摘要——知识脉络图直观、简介、综合性强，有效提升了知识学习的效率。

附图说明

图1是本发明的总体流程图；

图2是根据大量“计算机网络”相关图书挖掘出的知识脉络图(地铁图样式)。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

如图1、图2所示，本发明提供的一种基于海量数字图书的知识脉络自动构建方法，包括以下步骤：

4)学习路径选择：使用动态规划算法遍历步骤3)得到的知识图可以得到所有的学习路径，然后引入信息度和流畅度计算公式，使用整数线性规划算法从知识图中挖掘出TOPK条重要、有序且冗余小的学习路径；

5)知识脉络可视化：在步骤4)的基础上，将选择出的学习路径构成的知识脉络仿照地铁图的形式进行可视化展示；

所述的步骤1)包括：

1.1)数字图书馆中的数字图书都遵从都柏林元数据标准(DC)和开放电子书标准(OEB)，图书元数据包括标题、作者、出版商和目录等。为了能够快速地收集关于用户检索主题q相关的图书集合，我们将图书的这些元数据信息存储到Lucene索引文件中。

1.2)数字图书的目录是按照章节的层级结构组织的XML格式文档。我们用XML解析器将一本书的目录结构解析出来，并清洗掉章节标题中的冗余信息，这里的冗余信息是指章节号，比如：第一章、1.1、(一)。这些冗余信息会干扰后续的目录标题相似度计算，所以需要进行清洗，我们使用正则表达式对其进行清洗。

所述的步骤2)包括：

2.1)知识单元是指学习某一特定知识点时的图书章节集合，集合中每一个章节来自不同的图书，但是它们讲述的都是该知识点相关的内容。例如，“定积分概述”和“定积分介绍”虽然来自不同图书，但是讲述的内容相同，则它们属于同一个知识单元。

知识单元构建主要包括两部分：短文本相似度计算和文本聚类。对于用户检索主题q，从步骤1)中构建的Lucene索引中查询出相关图书集合，接下来，通过加权的word2vec方法计算目录标题之间的相似度，通过自底向上的凝聚型层次聚类算法对q相关教科书的目录(一级目录)进行聚类得到知识单元集合。

2.2)短文本相似度计算是一个十分具有挑战性的任务，我们提出了一种无监督的加权word2vec方法来计算目录之间的相似度。对于图书目录，通过观察可以发现，句子中词语的重要度并不相同。例如，目录“不定积分的概述”中“概述”和“不定积分”不应该相等对待。因此，我们将标题中的词语分为两个类型：主题词和描述词。主题词指的是标题的主题，描述词指的是标题中修饰主题的词。举例来说，章节“不定积分概述”中“不定积分”是主题词，“概述”是描述词。很明显，标题中的主题词在计算两个目录之间相似度时的重要度更高。因此，在计算目录之间的相似度时，可以根据主题词和描述词之间的重要度区分分别赋予不同的权重来予以细化。我们使用来表示一个目录标题，其中tw和aw是标题t中的主题词集合和描述词集合，每一个词都可以用词嵌入模型(word2vec)得到它们的向量表示：和最终，标题t可以用主题词集合中词的平均向量和描述词集合中词的平均向量来表示：

那么，目录t_x和t_y的相似度可以通过加权word2vec方法来计算：

如果v_aw(t_x)＝0or v_aw(t_y)＝0，那么sim(t_x,t_y)＝α*cos(v_tw(t_x),v_tw(t_y))；

如果cos(v_tw(t_x),v_tw(t_y))≥ρand cos(v_aw(t_x),v_aw(t_y))≥δ，那么

sim(t_x,t_y)＝βcos(v_tw(t_x),v_tw(t_y))+(1-β)cos(v_aw(t_x),v_aw(t_y))；

其中，α＝0.9,β＝0.8,ρ＝0.8,δ＝0.6

主题词和描述词的识别我们采用了一种简单的方法。首先，我们统计出所有科技图书目录分词中每个词的词频(Term Frequency，缩写为TF)，一般情况下，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征。但是，推及到我们的问题上可能正好相反，如果一个词在所有目录中出现的频率越高，那它很可能是描述词。基于这个原则，我们统计出所有目录中出现频率Top5000的词，然后人工判断是否属于描述词，最终保留下来的词构建描述词库。当查询一条目录中词的类别时，首先到描述词库中查询，如果存在，则该词为描述词，否则，我们将其默认为主题词(默认数据预处理时已经将无关词语清除)。

2.3)文本聚类采用的是自底向上的凝聚型层次聚类算法。凝聚型层次聚类的策略是先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有对象都在一个簇中，或者某个终结条件被满足。假设有N个待聚类的样本，对于凝聚型层次聚类来说，基本步骤如下：

c)、重新计算新生成的这个类与各个旧类之间的相似度；

为了避免个别偏离样本对结果的干扰，我们取簇间结点两两距离的中位数作为簇间相似度。终结条件是设定了一个簇间相似度阈值δ，δ＝0.9。当所有簇之间的相似度均小于阈值δ时，则聚类结束。

所述的步骤3)包括：

3.1)知识图是用步骤2)中构建的知识单元作为结点，用图书中章节之间的偏序关系构建结点之间的邻接关系构成的有向图。

3.2)为了方便路径遍历，我们需要构造知识图的起始结点和结束结点。起始结点一般是指那些有出无进的结点，它一般来自图书的第一章组成的知识单元，但是由于聚类存在误差，所以我们规定，如果一个知识单元中的目录有超过一半的目录属于图书的第一章，或该知识单元只出不进，则该知识单元为起始结点。如果一个知识单元只进不出，则该知识单元为结束结点。一个知识图可能存在多个起始结点和多个结束结点。

所述的步骤4)包括：

4.1)经过步骤3)，我们已经成功构建了给定主题的知识图，也确定了知识图中的起始结点和结束结点。我们可以利用动态规划算法很方便地遍历知识图中所有的路径。但是由于每个图中有100个左右的结点，由这些结点构成的知识图十分复杂，从起始结点到结束结点完全遍历至少可以得到成千上万条路径。如果将所有的路径都推荐给用户是十分不负责任的，而且会包含很多冗余信息。如何得到TOP K条包含重要结点、重要顺序且冗余又少的路径推荐给用户是知识脉络自动构建***的关键。

4.2)首先，我们将最短路径长度数(结点数)设为6，从起始结点开始遍历到结束结点，如果路径长度小于6则舍弃，保存下来的是大于等于6个结点的路径。同时，为了降低路径遍历的复杂度，我们在路径遍历时，会过滤掉权重等于1的边(知识图中存在很多这种边，但是它们包含的信息量很少，故而舍弃)。此外，在路径遍历时，为了剔除环路，我们确保在每条路径中不会出现相同的结点。这样，我们获得了一个学习路径集合P_q，我们的目标就是从P_q中选取最好的TOP K条学习路径来构建知识脉络图。

为此，我们引入了两个影响因素——信息度和流畅度。

信息度衡量了一条学习路径是否是知识密集的，即路径中是否包含了重要的结点和重要的关系对(结点对)。我们用w(o_i,o_i+1)来代表一个知识单元对{o_i,o_i+1}的信息度，计算公式如下：

其中，freq(o_i)指的是知识单元o_i中包含的章节数目，dif(b,i)指的是知识单元o_i和o_i+1中同属于书b中的两个章节之间的距离，例如，如果两个章节和在同一本书b中，而且它们又分别属于知识单元o_i和o_i+1，那么否则，dif(b,i)＝∞。

那么，P_q中的一条路径的信息度可以用下面的公式来表达：

流畅度衡量了一条学习路径中知识单元之间顺序的质量。对于P_q中的一条路径我们使用语言模型来计算其流畅度，计算公式如下：

其中，p(o_i|o_i-2o_i-1)指的是给定o_i-2o_i-1的情况下出现o_i的概率，

c(o_i-2o_i-1o_i)指的是知识单元o_i-2，o_i-1，o_i同时出现的次数。

最后，我们将信息度I(p_i)和流畅度F(p_i)均除以它们的最大值来归一化。

为了选择最好的TOP K条学习路径，我们将信息度和流畅度与一个整数线性规划(ILP)优化框架结合起来。首先，一条路径p_i的打分用s(p_i)＝I(p_i)·F(p_i)表示，然后，我们最大化下面的目标函数：

其中，d_i是一个二进制变量，取值为0或1，取决于路径p_i是否被选择。针对这个问题我们还添加了两个约束条件：首先，我们确保只有不超过K条路径被选择，即其次，如果两条路径是相似的，那么只有一条可以被选择，即

这里，我们使用jaccard相似度公式来计算两条路径之间的相似度：是一个调整知识脉络中路径之间冗余度的超参数，经过大量实验，我们设置这个约束条件表示如果两个路径之间的相似度超过那么至多一条路径可以被选择。

我们使用IBM CPLEX优化器来优化上面的目标函数得出最优解。最终可以选择出TOP K条重要、有序且冗余小的学习路径来构建知识脉络。

所述的步骤5)包括：在步骤4)的基础上，将选择出的TOP K条重要、有序且冗余小的学习路径进行可视化展示，我们仿照地铁图的形式将选择出的学习路径进行可视化展示，构成给定主题的知识脉络图，为用户提供直观高效的知识学习方式。

实施例

下面结合本技术的方法详细说明该实例实施的具体步骤，如下：

(1)如图1所示，获取“计算机网络”相关的大量电子图书，解析其目录结构，并对章节标题进行清洗；

(2)如图1所示，接下来通过加权word2vec方法获取目录之间的相似度，然后根据聚类算法构建知识单元。紧接着，根据图书目录之间的偏序关系获取知识单元之间的连接关系，然后构建知识图；

(3)如图1所示，在获得知识图之后，根据提出的路径选择方法，选择出TOP K条重要、有序且冗余小的学习路径来构建知识脉络；

(4)由步骤(3)构建的知识脉络，仿照地铁图的样式，进行可视化展示。

本实例的运行结果在附图2中展示，图中展示了“计算机网络”的知识脉络图，图中每一个结点都代表了一个知识单元，它是由来自不同图书的相似目录构成，每一条边都代表了学习“计算机网络”的一条路径，用户可以按照知识脉络图展示的路径进行“计算机网络”相关知识的学习，解决了用户学习某个主题的知识时陷入大量相似图书而无法高效学习的问题，能够极大地提升知识学习的效率，这种基于海量数字图书的知识脉络自动构建方法具有良好的使用价值和应用前景。

Claims

1.一种基于海量数字图书的知识脉络自动构建方法，其特征在于，包括以下步骤：

1)图书预处理：将数字图书的元数据信息存储到Lucene索引文件中；用XML解析器将目录的结构解析出来，并清洗目录标题中的冗余信息；

<mrow> <mi>w</mi> <mrow> <mo>(</mo> <msub> <mi>o</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>o</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>&lsqb;</mo> <mfrac> <mrow> <mi>f</mi> <mi>r</mi> <mi>e</mi> <mi>q</mi> <mrow> <mo>(</mo> <msub> <mi>o</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>f</mi> <mi>r</mi> <mi>e</mi> <mi>q</mi> <mrow> <mo>(</mo> <msub> <mi>o</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mn>2</mn> </mfrac> <mo>&rsqb;</mo> <mo>&CenterDot;</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>b</mi> <mo>&Element;</mo> <msub> <mi>B</mi> <mi>q</mi> </msub> </mrow> </munder> <mi>d</mi> <mi>i</mi> <mi>f</mi> <msup> <mrow> <mo>(</mo> <mi>b</mi> <mo>,</mo> <mi>i</mi> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> </mrow>

路径的信息度I(p_i)计算公式如下：

<mrow> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mi>w</mi> <mrow> <mo>(</mo> <msub> <mi>o</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>o</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </mfrac> </mrow>

其中，|p_i|为路径p_i的长度，s为路径开始，e为路径结束；

<mrow> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>3</mn> </mrow> <mrow> <mo>|</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </msubsup> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>o</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>o</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>2</mn> </mrow> </msub> <msub> <mi>o</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>/</mo> <mrow> <mo>(</mo> <mo>|</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>-</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

路径p_i的打分s(p_i)＝I(p_i)·F(p_i)，用整数线性规划优化框架选择最好的TOP K条学习路径，求解器的目标函数如下：

<mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <msub> <mi>P</mi> <mi>q</mi> </msub> <mo>|</mo> </mrow> </munderover> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msub> <mi>d</mi> <mi>i</mi> </msub> </mrow>

约束条件如下：

a)确保只有不超过K条路径被选择：

<mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <msub> <mi>P</mi> <mi>q</mi> </msub> <mo>|</mo> </mrow> </msubsup> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>&le;</mo> <mi>K</mi> </mrow>

其中，sim(p_i,p_j)使用jaccard相似度公式计算；

2.根据权利要求1所述的基于海量数字图书的知识脉络自动构建方法，其特征在于，所述的步骤1)中，冗余信息指章节号，使用正则表达式对其进行清洗。

3.根据权利要求1所述的基于海量数字图书的知识脉络自动构建方法，其特征在于，所述的步骤2)中，知识单元是指学习某一特定知识点时的图书目录集合，集合中每一个目录来自不同的图书，但是它们讲述的都是该知识点相关的内容；知识单元构建主要包括两部分：目录标题之间的相似度计算和文本聚类；

目录标题之间的相似度计算：将标题中的词语分为两个类型：主题词和描述词；主题词指的是标题的主题，描述词指的是标题中修饰主题的词；在计算目录之间的相似度时，根据主题词和描述词之间的重要度区分分别赋予不同的权重来予以细化，使用来表示一个目录标题，其中tw和aw是标题t中的主题词集合和描述词集合，每一个词都可以用word2vec得到它们的向量表示：和最终，标题t可以用主题词集合中词的平均向量v_tw(t)和描述词集合中词的平均向量v_aw(t)来表示：

<mrow> <mi>t</mi> <mo>=</mo> <mo>{</mo> <msub> <mi>v</mi> <mrow> <mi>t</mi> <mi>w</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mi>i</mi> </msub> <msub> <mi>v</mi> <mrow> <msub> <mi>tw</mi> <mi>i</mi> </msub> </mrow> </msub> <mo>/</mo> <mo>|</mo> <mi>t</mi> <mi>w</mi> <mo>|</mo> <mo>,</mo> <msub> <mi>v</mi> <mrow> <mi>a</mi> <mi>w</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mi>i</mi> </msub> <msub> <mi>v</mi> <mrow> <msub> <mi>aw</mi> <mi>i</mi> </msub> </mrow> </msub> <mo>/</mo> <mo>|</mo> <mi>a</mi> <mi>w</mi> <mo>|</mo> <mo>}</mo> </mrow>

如果v_aw(t_x)＝0 or v_aw(t_y)＝0，那么sim(t_x,t_y)＝α*cos(v_tw(t_x),v_tw(t_y))；

如果cos(v_tw(t_x),v_tw(t_y))≥ρand cos(v_aw(t_x),v_aw(t_y))≥δ，那么

sim(t_x,t_y)＝βcos(v_tw(t_x),v_tw(t_y))+(1-β)cos(v_aw(t_x),v_aw(t_y))；

其中，α＝0.9,β＝0.8,ρ＝0.8,δ＝0.6

<mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mn>1</mn> <mi>n</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>&times;</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mn>1</mn> <mi>n</mi> </msubsup> <msubsup> <mi>A</mi> <mi>i</mi> <mn>2</mn> </msubsup> </mrow> </msqrt> <mo>&times;</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mn>1</mn> <mi>n</mi> </msubsup> <msubsup> <mi>B</mi> <mi>i</mi> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> </mfrac> </mrow>

主题词和描述词的识别方法如下：首先，统计出所有科技图书目录分词中的高频词，然后人工判断是否属于描述词，最终保留下来的词构建描述词库；当查询一条目录中词的类别时，首先到描述词库中查询，如果存在，则该词为描述词，否则，将其默认为主题词。

4.根据权利要求1所述的基于海量数字图书的知识脉络自动构建方法，其特征在于，所述的步骤3)中，需要构造知识图的起始结点和结束结点，如果一个知识单元中的目录有超过一半的目录属于图书的第一章，或该知识单元只出不进，则该知识单元为起始结点；如果一个知识单元只进不出，则该知识单元为结束结点；一个知识图可能存在多个起始结点和多个结束结点。

5.根据权利要求1所述的基于海量数字图书的知识脉络自动构建方法，其特征在于，所述的步骤4)中，学习路径集合P_q的获取方法如下：将最短路径长度数即结点数设为L，从起始结点开始遍历到结束结点，如果路径长度小于L则舍弃，保存下来的是大于等于L个结点的路径；同时，在路径遍历时，过滤掉权重等于1的边，同时剔除环路，从而获得一个学习路径集合P_q。

6.根据权利要求1所述的基于海量数字图书的知识脉络自动构建方法，其特征在于，所述的步骤5)包括：将选择出的TOP K条重要、有序且冗余小的学习路径仿照地铁图的形式进行可视化展示，构成给定主题的知识脉络图，为用户提供直观高效的知识学习方式。