CN104978320A

CN104978320A - 一种基于相似度的知识推荐方法和设备

Info

Publication number: CN104978320A
Application number: CN201410132402.7A
Authority: CN
Inventors: 王彬
Original assignee: Dong Hua Software Co Shares
Current assignee: Dong Hua Software Co Shares; DHC Software Co Ltd
Priority date: 2014-04-02
Filing date: 2014-04-02
Publication date: 2015-10-14
Anticipated expiration: 2034-04-02
Also published as: CN104978320B

Abstract

本发明公开了一种基于相似度的知识推荐方法和设备。该方法包括：获取一知识，该知识包括标题部分和内容部分；分别对内容部分和标题部分进行分词处理，确定各分词的权重，根据该权重分别确定内容部分和标题部分的特征词；根据这两部分的特征词来确定所获取的知识的特征词集合；将该特征词集合与知识库中存储的另一知识的特征词集合组成一个特征词集合，分别确定所组成的特征词集合中的每个特征词在两条知识中的频度，得出两条知识的词频向量；基于两条知识的词频向量确定两条知识之间的相似度；在相似度大于或等于一阈值的情况下，向用户推荐所述另一知识。由此，可提高相似度的准确性和真实性，实现为用户推荐最匹配的知识。

Description

一种基于相似度的知识推荐方法和设备

技术领域

本发明涉及信息检索领域，具体地，涉及一种基于相似度的知识推荐方法和设备。

背景技术

知识推荐方法通常是指根据用户输入的当前知识，来从知识库中存储的现有知识中找出与用户输入的知识相匹配的知识来推荐给用户。

在现有的知识推荐方法中，一些方法是基于知识类别来进行知识匹配的。这种方法仅采用类别作为知识是否相似的唯一匹配标准，因而可能导致知识内容的相关度不高，匹配准确率差。利用这种方法推荐给用户的知识大都不是用户真正感兴趣的知识。

还有一些方法是基于知识内容来进行知识匹配的。这种方法通常是从知识的内容部分中确定出几个关键词，然后利用这些关键词来从知识库中存储的现有知识中找出相匹配的知识，并推荐给用户。由于这种方法是基于知识内容来进行匹配的，因此，相较于基于知识类别进行匹配的方法，匹配准确率更高，能在一定程度上满足用户需求。然而，这种方法同样存在一定缺陷，那就是忽略了知识的标题部分的重要性。知识的标题部分在整个知识中占有极为重要的作用。但有时有的知识的标题部分中的关键词在该知识的内容部分中出现的次数并不多。这就可能导致最终提取出的关键词未包括标题部分的关键词，从而造成关键词（也可称为“特征词”）的选取不准确、不具备真实代表性，最终可能导致不能为用户推荐最匹配的知识。

发明内容

本发明的目的是提供一种基于相似度的知识推荐方法和设备，以提高提取的特征词集合的准确性，从而能够真实地反映出知识之间的相似度，保证将最匹配（即，具有高相似度）的知识推荐给用户。

为了实现上述目的，本发明提供一种基于相似度的知识推荐方法，该方法包括：获取一知识，该知识包括标题部分和内容部分；对所述内容部分进行分词处理，确定各分词的权重，并根据该权重确定所述内容部分的特征词；对所述标题部分进行分词处理，确定各分词的权重，并根据该权重确定所述标题部分的特征词；根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合；将所获取的知识的特征词集合与知识库中存储的另一知识的特征词集合组成一个特征词集合，分别确定所组成的特征词集合中的每个特征词在两条知识中的频度，并得出两条知识的词频向量；基于所述两条知识的词频向量确定两条知识之间的相似度；以及在所述相似度大于或等于一阈值的情况下，向用户推荐所述知识库中存储的所述另一知识。

本发明还提供一种基于相似度的知识推荐设备，该设备包括：用于获取一知识的装置，该知识包括标题部分和内容部分；用于对所述内容部分进行分词处理，确定各分词的权重，并根据该权重确定所述内容部分的特征词的装置；用于对所述标题部分进行分词处理，确定各分词的权重，并根据该权重确定所述标题部分的特征词的装置；用于根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合的装置；用于将所获取的知识的特征词集合与知识库中存储的另一知识的特征词集合组成一个特征词集合，分别确定所组成的特征词集合中的每个特征词在两条知识中出现的频度，并得出两条知识的词频向量的装置；用于基于所述两条知识的词频向量确定两条知识之间的相似度的装置；以及用于在所述相似度大于或等于一阈值的情况下，向用户推荐所述知识库中存储的所述另一知识的装置。

通过上述技术方案，可以综合知识的标题部分和内容部分来确定该知识的特征词集合，避免由于标题部分的特征词在知识的内容部分中出现次数较少，而可能漏掉标题部分中关键的特征词，从而确保所确定出的特征词集合中的特征词能够更加真实、全面地反映该知识。利用通过上述方法确定出的特征词集合来确定两条知识之间的相似度，可以提高所确定出的相似度的准确性和真实性，从而保证基于该相似度能够为用户推荐最匹配的知识。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是根据本发明的实施方式的基于相似度的知识推荐方法的流程图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

图1示出了根据本发明的实施方式的基于相似度的知识推荐方法的流程图。如图1所示，该方法可以包括：步骤S101，获取一知识，该知识包括标题部分和内容部分；步骤S102，对所述内容部分进行分词处理，确定各分词的权重，并根据该权重确定所述内容部分的特征词；步骤S103，对所述标题部分进行分词处理，确定各分词的权重，并根据该权重确定所述标题部分的特征词；步骤S104，根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合；步骤S105，将所获取的知识的特征词集合与知识库中存储的另一知识的特征词集合组成一个特征词集合，分别确定所组成的特征词集合中的每个特征词在两条知识中的频度，并得出两条知识的词频向量；步骤S106，基于所述两条知识的词频向量确定两条知识之间的相似度；以及步骤S107，在所述相似度大于或等于一阈值的情况下，向用户推荐所述知识库中存储的所述另一知识。

在上述方法中，在步骤S102和步骤S103，分别针对获取的知识的内容部分和标题部分来确定特征词。之后，在步骤S104，综合内容部分的特征词和标题部分的特征词，来共同确定所获取的知识的特征词集合。这样，可以避免由于标题部分的特征词在内容部分中出现次数较少，而可能漏掉标题部分中关键的特征词，从而确保所确定出的特征词集合中的特征词能够更加真实、全面地反映该知识。

具体地，针对知识的内容部分，可首先对所述内容部分进行分词处理。为了不干扰特征词确定，在分词处理过程中要过滤掉一些没有意义的词，例如“的”、“了”等。在进行分词处理之后，知识的内容部分被分成若干个分词。

下一步，就是确定各分词的权重。计算分词的权重的方法有很多。在本发明中，针对知识的内容部分，可通过词频-逆文档频率（TF-IDF）算法来确定各分词的权重。其中，TF是指某个分词在知识的内容部分中出现的频率，IDF是指某个分词在整个知识库中出现的频率。TF-IDF算法的过程如下所示：

对于某个分词，首先计算TF值：TF=该分词在知识的内容部分中出现的次数/知识的内容部分中总的词数；

之后，计算IDF值：IDF=log（知识库中所有知识的数量/知识库中包含该分词的知识的数量）；

最后，计算TF-IDF值：TF-IDF=TF×IDF。

所计算出的TF-IDF值即为该分词的权重。

在计算出内容部分的各分词的权重之后，可以按照该权重来确定出所述内容部分的特征词。例如，可选择权重排在前10位的分词作为该内容部分的特征词。

针对知识的标题部分，可以采用上述相同的方法来进行分词处理。在分词处理之后，确定各分词的权重。由于标题中的分词基本上在标题中只出现一次，因此，在本发明中，可采用简化的TF-IDF算法来确定标题部分中的各分词的权重。这种简化的TF-IDF算法就是只计算分词的IDF值，其计算方法同上面计算内容部分中的分词的IDF值的方法一样，此处便不再赘述。

在确定出标题部分中的分词权重之后，可以按照该权重来确定标题部分的特征词。例如，可选择权重排在前2位的分词作为该标题部分的特征词。

在确定出内容部分的特征词和标题部分的特征词之后，在步骤S104，可根据这两部分的特征词来确定所获取的知识的特征词集合。例如，可通过如下方式来确定所获取的知识的特征词集合：

首先，比较所述内容部分的特征词和所述标题部分的特征词，以判断所述标题部分的特征词是否被包括在所述内容部分的特征词中。在所述标题部分的特征词未被全部包括在所述内容部分的特征词的情况下，利用所述标题部分中未被包括在所述内容部分的特征词中的特征词来替换所述内容部分的特征词中同等数量的特征词，替换方向从所述内容部分的特征词中权重最低的特征词开始。

例如，假设内容部分的特征词分别为C₁、C₂、…、C₁₀，每个特征词可按照权重进行排序，即，C₁的权重最大，C₁₀的权重最小。标题部分的特征词分别为T₁、T₂。若出现情况1：T₁或T₂与C₁、C₂、…、C₁₀中的任一者均不同，那么，利用所述T₁或T₂来替换特征词C₁₀，因为该特征词C₁₀的权重最低。若出现情况2：T₁和T₂均与C₁、C₂、…、C₁₀中的任一者不同，那么，利用所述T₁和T₂来替换特征词C₁₀和C₉，因为特征词C₁₀和C₉是内容部分中权重最低的两个特征词。由此可见，在本发明中，在利用标题部分的特征词来替换内容部分的特征词时，替换数量等于所述标题部分中未被包括在所述内容部分的特征词中的特征词的数量，而替换方向从所述内容部分的特征词中权重最低的特征词开始。

之后，可根据替换后的所述内容部分的特征词得出所获取的知识的特征词集合。例如，假设利用特征词T₁替换了特征词C₁₀，那么，最终的所获取的知识的特征词集合可以为[C₁，C₂，…，C₉，T₁]。

而在所述标题部分的特征词被全部包括在所述内容部分的特征词的情况下，可以根据所述内容部分的特征词得出所获取的知识的特征词集合。例如，若出现情况3：T₁和T₂均与C₁、C₂、…、C₁₀中的一者相同，那么，可不如上进行特征词替换操作，而是直接按照内容部分的特征词C₁、C₂、…、C₁₀来得出所获取的知识的特征词集合。例如，特征词集合可以为[C₁，C₂，…，C₁₀]。

此外，在所述标题部分的特征词被全部或部分包括在所述内容部分的特征词的情况下（例如，上述情况1或情况3），为了进一步增强这些被包括的特征词的重要性，在本发明的优选实施方式中，可以将所述标题部分中被包括在所述内容部分的特征词中的特征词在所述内容部分中的频度加1，以得出这些特征词在整个知识中的频度。所述频度是指该特征词出现的次数。下面将举例描述这一过程。

假设，标题部分的特征词T₁与内容部分的特征词C₁相同，特征词T₂与内容部分的特征词C₂相同。那么，在确定出知识的特征词集合为[C₁，C₂，…，C₁₀]之后，还应将特征词C₁和C₂在所述内容部分中的频度加1，以得出这两个特征词在整个知识中的频度。至于其他特征词C₃、…、C₁₀，可以将其在所述内容部分中的频度作为其在整个知识中的频度。

具体地，如上所述，在步骤S102中确定内容部分的特征词的过程中，会计算各分词的TF-IDF值。要想计算各分词的TF-IDF值，就得先确定各分词在知识的内容部分中出现的次数（即，在所述内容部分中的频度）。也就是说，在确定出内容部分的特征词之后，每个特征词在内容部分中的频度是确定的。假设，特征词C₁、C₂、C₃、…、C₁₀中的每个特征词在所述内容部分中的频度分别为F₁、F₂、F₃、…、F₁₀。由于标题部分的特征词T₁与内容部分的特征词C₁相同，特征词T₂与内容部分的特征词C₂相同，因此，在确定每个特征词在整个知识中的频度时，可将特征词C₁和C₂在所述内容部分中的频度加1，其余特征词C₃、…、C₁₀的频度保持不变。也就是说，对于上面确定出的特征词集合[C₁，C₂，…，C₁₀]而言，每个特征词在整个知识中的频度可以分别为F₁+1、F₂+1、F₃、…、F₁₀。

如图1所示，在步骤S104之后，在步骤S105，可以将所获取的知识的特征词集合与知识库中存储的另一知识的特征词集合组成一个特征词集合，分别确定所组成的特征词集合中的每个特征词在两条知识中的频度，并得出两条知识的词频向量。

仍以上述示例为例，假设所获取的知识的特征词集合为[C₁，C₂，C₃，…，C₁₀]，并且每个特征词在该知识中的频度分别为F₁+1、F₂+1、F₃、…、F₁₀。此外，还假设知识库中存储的另一知识的特征词集合为[C’₁，C’₂，C’₃，…，C’₁₀]，并且每个特征词在该知识中的频度分别为F’₁、F’₂、F’₃、…、F’₁₀。可通过取这两个特征词集合的并集来实现将这两个特征词集合组成一个特征词集合。假设，特征词C’₁～C’₈与特征词C₁～C₈相同，那么，通过上述方式所组成的特征词集合可以为[C₁，C₂，C₃，…，C₁₀，C’₉，C’₁₀]。

在组成一个特征词集合之后，分别确定所组成的特征词集合中的每个特征词在两条知识中的频度。例如，对于所组成的特征词集合[C₁，C₂，C₃，…，C₁₀，C’₉，C’₁₀]而言，由于特征词C₁～C₁₀在所获取的知识中的频度已在之前被确定出，因此，无需再确定这些特征词在获取的知识中的频度，只需要确定特征词C’₉、C’₁₀在获取的知识中的频度F_x9、F_x10。例如，所组成的特征词集合[C₁，C₂，C₃，…，C₁₀，C’₉，C’₁₀]中的每个特征词在所获取的知识中的频度分别为F₁+1、F₂+1、F₃、…、F₁₀、F_x9、F_x10。

由于特征词C’₁～C’₈与特征词C₁～C₈相同，而特征词C’₁～C’₁₀在所述知识库中存储的所述另一知识中的频度已在之前被确定出，因此，无需再确定这些特征词在所述另一知识中的频度，只需要确定特征词C₉、C₁₀在所述另一知识中的频度F’_x9、F’_x10。例如，所组成的特征词集合[C₁，C₂，C₃，…，C₁₀，C’₉，C’₁₀]中的每个特征词在所述另一知识中的频度分别为F’₁、F’₂、F’₃、…、F’_x9、F’_x10、F’₉、F’₁₀。

在确定出所组成的特征词集合中的每个特征词在两条知识中的频度之后，可以得出两条知识的词频向量。仍以上述示例为例，所述两条知识的词频向量可以分别为：A=[F₁+1、F₂+1、F₃、…、F₁₀、F_x9、F_x10]，B=[F’₁、F’₂、F’₃、…、F’_x9、F’_x10、F’₉、F’₁₀]，其中，A表示所获取的知识的词频向量，B表示所述另一知识的词频向量。

之后，在步骤S106，可以基于所述两条知识的词频向量来确定两条知识之间的相似度。计算相似度的方法有很多。在本发明中，可采用余弦相似度算法来计算两条知识之间的相似度，如下所示：

\cos θ = \frac{Σ_{i = 1}^{n} (A_{i} \times B_{i})}{\sqrt{Σ_{i = 1}^{n} {(A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(B_{i})}^{2}}} = \frac{A \cdot B}{| A | \times | B |}

等式（1）

其中，A表示所获取的知识的词频向量，并且A＝[A₁,A₂,...,A_n]；A_i表示所组成的特征词集合中的第i个特征词在所获取的知识中的频度，并且i=1,…,n；B表示所述另一知识的词频向量，并且B＝[B₁,B₂,...,B_n]；B_i表示所组成的特征词集合中的第i个特征词在所述另一知识中的频度，并且i=1,…,n；n表示所组成的特征词集合中的特征词的总数；以及cosθ表示所获取的知识与所述另一知识之间的相似度。

通过等式（1）计算出的结果越接近1，说明两条知识之间越相似。反之，越接近0，说明两条知识之间越无关。

在计算出两条知识之间的相似度之后，可以基于该相似度来为用户进行知识推荐。例如，在步骤S107，在所述相似度大于或等于一阈值（该阈值可由用户设定）的情况下，向用户推荐所述知识库中存储的所述另一知识。

可针对知识库中存储的每一个知识来进行上述操作。这样，可以从知识库中找出所有与所获取的知识相似的知识，并将这些知识推荐给用户，以便用户进行查看。

由此，通过本发明提供的上述方法计算出的知识之间的相似度，具有更高的可准确性和真实性，从而保证基于该相似度能够为用户推荐最匹配的知识。

其中，所述内容部分的各分词的权重是各分词的TF-IDF值；以及所述标题部分的各分词的权重是各分词的IDF值。

优选地，用于根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合的装置可以包括：用于比较所述内容部分的特征词和所述标题部分的特征词的装置；用于在所述标题部分的特征词未被全部包括在所述内容部分的特征词的情况下，利用所述标题部分中未被包括在所述内容部分的特征词中的特征词来替换所述内容部分的特征词中同等数量的特征词的装置，替换方向从所述内容部分的特征词中权重最低的特征词开始；以及用于根据替换后的所述内容部分的特征词得出所获取的知识的特征词集合的装置。

用于根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合的装置还可以包括：用于在所述标题部分的特征词被全部包括在所述内容部分的特征词的情况下，根据所述内容部分的特征词得出所获取的知识的特征词集合的装置。

所述设备还可以包括：用于在所述标题部分的特征词被全部或部分包括在所述内容部分的特征词的情况下，将所述标题部分中被包括在所述内容部分的特征词中的特征词在所述内容部分中的频度加1，以得出所述标题部分中被包括在所述内容部分的特征词中的特征词在所获取的知识中的频度的装置。

优选地，所组成的特征词集合是所获取的知识的特征词集合与所述知识库中存储的所述另一知识的特征词集合的并集。此外，可以通过等式（1）来计算两条知识之间的相似度。

通过本发明提供的基于相似度的知识推荐方法和设备，可以综合知识的标题部分和内容部分来确定该知识的特征词集合，避免由于标题部分的特征词在知识的内容部分中出现次数较少，而可能漏掉标题部分中关键的特征词，从而确保所确定出的特征词集合中的特征词能够更加真实、全面地反映该知识。利用通过上述方法确定出的特征词集合来确定两条知识之间的相似度，可以提高所确定出的相似度的准确性和真实性，从而保证基于该相似度能够为用户推荐最匹配的知识。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种基于相似度的知识推荐方法，其特征在于，该方法包括：

获取一知识，该知识包括标题部分和内容部分；

对所述内容部分进行分词处理，确定各分词的权重，并根据该权重确定所述内容部分的特征词；

对所述标题部分进行分词处理，确定各分词的权重，并根据该权重确定所述标题部分的特征词；

根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合；

将所获取的知识的特征词集合与知识库中存储的另一知识的特征词集合组成一个特征词集合，分别确定所组成的特征词集合中的每个特征词在两条知识中的频度，并得出两条知识的词频向量；

基于所述两条知识的词频向量确定两条知识之间的相似度；以及

在所述相似度大于或等于一阈值的情况下，向用户推荐所述知识库中存储的所述另一知识。

2.根据权利要求1所述的方法，其特征在于，所述内容部分的各分词的权重是各分词的词频-逆文档频率（TF-IDF）值；以及所述标题部分的各分词的权重是各分词的逆文档频率（IDF）值。

3.根据权利要求1所述的方法，其特征在于，根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合这一步骤包括：

比较所述内容部分的特征词和所述标题部分的特征词；

在所述标题部分的特征词未被全部包括在所述内容部分的特征词的情况下，利用所述标题部分中未被包括在所述内容部分的特征词中的特征词来替换所述内容部分的特征词中同等数量的特征词，替换方向从所述内容部分的特征词中权重最低的特征词开始；以及

根据替换后的所述内容部分的特征词得出所获取的知识的特征词集合。

4.根据权利要求3所述的方法，其特征在于，根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合这一步骤还包括：在所述标题部分的特征词被全部包括在所述内容部分的特征词的情况下，根据所述内容部分的特征词得出所获取的知识的特征词集合。

5.根据权利要求3或4所述的方法，其特征在于，该方法还包括：在所述标题部分的特征词被全部或部分包括在所述内容部分的特征词的情况下，将所述标题部分中被包括在所述内容部分的特征词中的特征词在所述内容部分中的频度加1，以得出所述标题部分中被包括在所述内容部分的特征词中的特征词在所获取的知识中的频度。

6.根据权利要求1所述的方法，其特征在于，通过以下方式计算所述相似度：

\cos θ = \frac{Σ_{i = 1}^{n} (A_{i} \times B_{i})}{\sqrt{Σ_{i = 1}^{n} {(A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(B_{i})}^{2}}} = \frac{A \cdot B}{| A | \times | B |}

其中，

A表示所获取的知识的词频向量，并且A＝[A₁,A₂,...,A_n]；

B表示所述另一知识的词频向量，并且B＝[B₁,B₂,...,B_n]；

A_i表示所组成的特征词集合中的第i个特征词在所获取的知识中的频度，并且i=1,…,n；

B_i表示所组成的特征词集合中的第i个特征词在所述另一知识中的频度，并且i=1,…,n；

n表示所组成的特征词集合中的特征词的总数；以及

cosθ表示所获取的知识与所述另一知识之间的相似度。

7.一种基于相似度的知识推荐设备，其特征在于，该设备包括：

用于获取一知识的装置，该知识包括标题部分和内容部分；

用于对所述内容部分进行分词处理，确定各分词的权重，并根据该权重确定所述内容部分的特征词的装置；

用于对所述标题部分进行分词处理，确定各分词的权重，并根据该权重确定所述标题部分的特征词的装置；

用于根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合的装置；

用于将所获取的知识的特征词集合与知识库中存储的另一知识的特征词集合组成一个特征词集合，分别确定所组成的特征词集合中的每个特征词在两条知识中出现的频度，并得出两条知识的词频向量的装置；

用于基于所述两条知识的词频向量确定两条知识之间的相似度的装置；以及

用于在所述相似度大于或等于一阈值的情况下，向用户推荐所述知识库中存储的所述另一知识的装置。

8.根据权利要求7所述的设备，其特征在于，所述内容部分的各分词的权重是各分词的词频-逆文档频率（TF-IDF）值；以及所述标题部分的各分词的权重是各分词的逆文档频率（IDF）值。

9.根据权利要求7所述的设备，其特征在于，用于根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合的装置包括：

用于比较所述内容部分的特征词和所述标题部分的特征词的装置；

用于在所述标题部分的特征词未被全部包括在所述内容部分的特征词的情况下，利用所述标题部分中未被包括在所述内容部分的特征词中的特征词来替换所述内容部分的特征词中同等数量的特征词的装置，替换方向从所述内容部分的特征词中权重最低的特征词开始；以及

用于根据替换后的所述内容部分的特征词得出所获取的知识的特征词集合的装置。

10.根据权利要求9所述的设备，其特征在于，用于根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合的装置还包括：用于在所述标题部分的特征词被全部包括在所述内容部分的特征词的情况下，根据所述内容部分的特征词得出所获取的知识的特征词集合的装置。

11.根据权利要求9或10所述的设备，其特征在于，该设备还包括：用于在所述标题部分的特征词被全部或部分包括在所述内容部分的特征词的情况下，将所述标题部分中被包括在所述内容部分的特征词中的特征词在所述内容部分中的频度加1，以得出所述标题部分中被包括在所述内容部分的特征词中的特征词在所获取的知识中的频度的装置。

12.根据权利要求7所述的设备，其特征在于，通过以下方式计算所述相似度：

\cos θ = \frac{A \cdot B}{| A | \times | B |} = \frac{Σ_{i = 1}^{n} (A_{i} \times B_{i})}{\sqrt{Σ_{i = 1}^{n} {(A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(B_{i})}^{2}}}

其中，

A表示所获取的知识的词频向量，并且A＝[A₁,A₂,...,A_n]；

B表示所述另一知识的词频向量，并且B＝[B₁,B₂,...,B_n]；

n表示所组成的特征词集合中的特征词的总数；以及

cosθ表示所获取的知识与所述另一知识之间的相似度。