CN104978320A - 一种基于相似度的知识推荐方法和设备 - Google Patents

一种基于相似度的知识推荐方法和设备 Download PDF

Info

Publication number
CN104978320A
CN104978320A CN201410132402.7A CN201410132402A CN104978320A CN 104978320 A CN104978320 A CN 104978320A CN 201410132402 A CN201410132402 A CN 201410132402A CN 104978320 A CN104978320 A CN 104978320A
Authority
CN
China
Prior art keywords
feature words
knowledge
content part
title division
described content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410132402.7A
Other languages
English (en)
Other versions
CN104978320B (zh
Inventor
王彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dong Hua Software Co Shares
DHC Software Co Ltd
Original Assignee
Dong Hua Software Co Shares
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dong Hua Software Co Shares filed Critical Dong Hua Software Co Shares
Priority to CN201410132402.7A priority Critical patent/CN104978320B/zh
Publication of CN104978320A publication Critical patent/CN104978320A/zh
Application granted granted Critical
Publication of CN104978320B publication Critical patent/CN104978320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于相似度的知识推荐方法和设备。该方法包括:获取一知识,该知识包括标题部分和内容部分;分别对内容部分和标题部分进行分词处理,确定各分词的权重,根据该权重分别确定内容部分和标题部分的特征词;根据这两部分的特征词来确定所获取的知识的特征词集合;将该特征词集合与知识库中存储的另一知识的特征词集合组成一个特征词集合,分别确定所组成的特征词集合中的每个特征词在两条知识中的频度,得出两条知识的词频向量;基于两条知识的词频向量确定两条知识之间的相似度;在相似度大于或等于一阈值的情况下,向用户推荐所述另一知识。由此,可提高相似度的准确性和真实性,实现为用户推荐最匹配的知识。

Description

一种基于相似度的知识推荐方法和设备
技术领域
本发明涉及信息检索领域,具体地,涉及一种基于相似度的知识推荐方法和设备。
背景技术
知识推荐方法通常是指根据用户输入的当前知识,来从知识库中存储的现有知识中找出与用户输入的知识相匹配的知识来推荐给用户。
在现有的知识推荐方法中,一些方法是基于知识类别来进行知识匹配的。这种方法仅采用类别作为知识是否相似的唯一匹配标准,因而可能导致知识内容的相关度不高,匹配准确率差。利用这种方法推荐给用户的知识大都不是用户真正感兴趣的知识。
还有一些方法是基于知识内容来进行知识匹配的。这种方法通常是从知识的内容部分中确定出几个关键词,然后利用这些关键词来从知识库中存储的现有知识中找出相匹配的知识,并推荐给用户。由于这种方法是基于知识内容来进行匹配的,因此,相较于基于知识类别进行匹配的方法,匹配准确率更高,能在一定程度上满足用户需求。然而,这种方法同样存在一定缺陷,那就是忽略了知识的标题部分的重要性。知识的标题部分在整个知识中占有极为重要的作用。但有时有的知识的标题部分中的关键词在该知识的内容部分中出现的次数并不多。这就可能导致最终提取出的关键词未包括标题部分的关键词,从而造成关键词(也可称为“特征词”)的选取不准确、不具备真实代表性,最终可能导致不能为用户推荐最匹配的知识。
发明内容
本发明的目的是提供一种基于相似度的知识推荐方法和设备,以提高提取的特征词集合的准确性,从而能够真实地反映出知识之间的相似度,保证将最匹配(即,具有高相似度)的知识推荐给用户。
为了实现上述目的,本发明提供一种基于相似度的知识推荐方法,该方法包括:获取一知识,该知识包括标题部分和内容部分;对所述内容部分进行分词处理,确定各分词的权重,并根据该权重确定所述内容部分的特征词;对所述标题部分进行分词处理,确定各分词的权重,并根据该权重确定所述标题部分的特征词;根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合;将所获取的知识的特征词集合与知识库中存储的另一知识的特征词集合组成一个特征词集合,分别确定所组成的特征词集合中的每个特征词在两条知识中的频度,并得出两条知识的词频向量;基于所述两条知识的词频向量确定两条知识之间的相似度;以及在所述相似度大于或等于一阈值的情况下,向用户推荐所述知识库中存储的所述另一知识。
本发明还提供一种基于相似度的知识推荐设备,该设备包括:用于获取一知识的装置,该知识包括标题部分和内容部分;用于对所述内容部分进行分词处理,确定各分词的权重,并根据该权重确定所述内容部分的特征词的装置;用于对所述标题部分进行分词处理,确定各分词的权重,并根据该权重确定所述标题部分的特征词的装置;用于根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合的装置;用于将所获取的知识的特征词集合与知识库中存储的另一知识的特征词集合组成一个特征词集合,分别确定所组成的特征词集合中的每个特征词在两条知识中出现的频度,并得出两条知识的词频向量的装置;用于基于所述两条知识的词频向量确定两条知识之间的相似度的装置;以及用于在所述相似度大于或等于一阈值的情况下,向用户推荐所述知识库中存储的所述另一知识的装置。
通过上述技术方案,可以综合知识的标题部分和内容部分来确定该知识的特征词集合,避免由于标题部分的特征词在知识的内容部分中出现次数较少,而可能漏掉标题部分中关键的特征词,从而确保所确定出的特征词集合中的特征词能够更加真实、全面地反映该知识。利用通过上述方法确定出的特征词集合来确定两条知识之间的相似度,可以提高所确定出的相似度的准确性和真实性,从而保证基于该相似度能够为用户推荐最匹配的知识。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是根据本发明的实施方式的基于相似度的知识推荐方法的流程图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1示出了根据本发明的实施方式的基于相似度的知识推荐方法的流程图。如图1所示,该方法可以包括:步骤S101,获取一知识,该知识包括标题部分和内容部分;步骤S102,对所述内容部分进行分词处理,确定各分词的权重,并根据该权重确定所述内容部分的特征词;步骤S103,对所述标题部分进行分词处理,确定各分词的权重,并根据该权重确定所述标题部分的特征词;步骤S104,根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合;步骤S105,将所获取的知识的特征词集合与知识库中存储的另一知识的特征词集合组成一个特征词集合,分别确定所组成的特征词集合中的每个特征词在两条知识中的频度,并得出两条知识的词频向量;步骤S106,基于所述两条知识的词频向量确定两条知识之间的相似度;以及步骤S107,在所述相似度大于或等于一阈值的情况下,向用户推荐所述知识库中存储的所述另一知识。
在上述方法中,在步骤S102和步骤S103,分别针对获取的知识的内容部分和标题部分来确定特征词。之后,在步骤S104,综合内容部分的特征词和标题部分的特征词,来共同确定所获取的知识的特征词集合。这样,可以避免由于标题部分的特征词在内容部分中出现次数较少,而可能漏掉标题部分中关键的特征词,从而确保所确定出的特征词集合中的特征词能够更加真实、全面地反映该知识。
具体地,针对知识的内容部分,可首先对所述内容部分进行分词处理。为了不干扰特征词确定,在分词处理过程中要过滤掉一些没有意义的词,例如“的”、“了”等。在进行分词处理之后,知识的内容部分被分成若干个分词。
下一步,就是确定各分词的权重。计算分词的权重的方法有很多。在本发明中,针对知识的内容部分,可通过词频-逆文档频率(TF-IDF)算法来确定各分词的权重。其中,TF是指某个分词在知识的内容部分中出现的频率,IDF是指某个分词在整个知识库中出现的频率。TF-IDF算法的过程如下所示:
对于某个分词,首先计算TF值:TF=该分词在知识的内容部分中出现的次数/知识的内容部分中总的词数;
之后,计算IDF值:IDF=log(知识库中所有知识的数量/知识库中包含该分词的知识的数量);
最后,计算TF-IDF值:TF-IDF=TF×IDF。
所计算出的TF-IDF值即为该分词的权重。
在计算出内容部分的各分词的权重之后,可以按照该权重来确定出所述内容部分的特征词。例如,可选择权重排在前10位的分词作为该内容部分的特征词。
针对知识的标题部分,可以采用上述相同的方法来进行分词处理。在分词处理之后,确定各分词的权重。由于标题中的分词基本上在标题中只出现一次,因此,在本发明中,可采用简化的TF-IDF算法来确定标题部分中的各分词的权重。这种简化的TF-IDF算法就是只计算分词的IDF值,其计算方法同上面计算内容部分中的分词的IDF值的方法一样,此处便不再赘述。
在确定出标题部分中的分词权重之后,可以按照该权重来确定标题部分的特征词。例如,可选择权重排在前2位的分词作为该标题部分的特征词。
在确定出内容部分的特征词和标题部分的特征词之后,在步骤S104,可根据这两部分的特征词来确定所获取的知识的特征词集合。例如,可通过如下方式来确定所获取的知识的特征词集合:
首先,比较所述内容部分的特征词和所述标题部分的特征词,以判断所述标题部分的特征词是否被包括在所述内容部分的特征词中。在所述标题部分的特征词未被全部包括在所述内容部分的特征词的情况下,利用所述标题部分中未被包括在所述内容部分的特征词中的特征词来替换所述内容部分的特征词中同等数量的特征词,替换方向从所述内容部分的特征词中权重最低的特征词开始。
例如,假设内容部分的特征词分别为C1、C2、…、C10,每个特征词可按照权重进行排序,即,C1的权重最大,C10的权重最小。标题部分的特征词分别为T1、T2。若出现情况1:T1或T2与C1、C2、…、C10中的任一者均不同,那么,利用所述T1或T2来替换特征词C10,因为该特征词C10的权重最低。若出现情况2:T1和T2均与C1、C2、…、C10中的任一者不同,那么,利用所述T1和T2来替换特征词C10和C9,因为特征词C10和C9是内容部分中权重最低的两个特征词。由此可见,在本发明中,在利用标题部分的特征词来替换内容部分的特征词时,替换数量等于所述标题部分中未被包括在所述内容部分的特征词中的特征词的数量,而替换方向从所述内容部分的特征词中权重最低的特征词开始。
之后,可根据替换后的所述内容部分的特征词得出所获取的知识的特征词集合。例如,假设利用特征词T1替换了特征词C10,那么,最终的所获取的知识的特征词集合可以为[C1,C2,…,C9,T1]。
而在所述标题部分的特征词被全部包括在所述内容部分的特征词的情况下,可以根据所述内容部分的特征词得出所获取的知识的特征词集合。例如,若出现情况3:T1和T2均与C1、C2、…、C10中的一者相同,那么,可不如上进行特征词替换操作,而是直接按照内容部分的特征词C1、C2、…、C10来得出所获取的知识的特征词集合。例如,特征词集合可以为[C1,C2,…,C10]。
此外,在所述标题部分的特征词被全部或部分包括在所述内容部分的特征词的情况下(例如,上述情况1或情况3),为了进一步增强这些被包括的特征词的重要性,在本发明的优选实施方式中,可以将所述标题部分中被包括在所述内容部分的特征词中的特征词在所述内容部分中的频度加1,以得出这些特征词在整个知识中的频度。所述频度是指该特征词出现的次数。下面将举例描述这一过程。
假设,标题部分的特征词T1与内容部分的特征词C1相同,特征词T2与内容部分的特征词C2相同。那么,在确定出知识的特征词集合为[C1,C2,…,C10]之后,还应将特征词C1和C2在所述内容部分中的频度加1,以得出这两个特征词在整个知识中的频度。至于其他特征词C3、…、C10,可以将其在所述内容部分中的频度作为其在整个知识中的频度。
具体地,如上所述,在步骤S102中确定内容部分的特征词的过程中,会计算各分词的TF-IDF值。要想计算各分词的TF-IDF值,就得先确定各分词在知识的内容部分中出现的次数(即,在所述内容部分中的频度)。也就是说,在确定出内容部分的特征词之后,每个特征词在内容部分中的频度是确定的。假设,特征词C1、C2、C3、…、C10中的每个特征词在所述内容部分中的频度分别为F1、F2、F3、…、F10。由于标题部分的特征词T1与内容部分的特征词C1相同,特征词T2与内容部分的特征词C2相同,因此,在确定每个特征词在整个知识中的频度时,可将特征词C1和C2在所述内容部分中的频度加1,其余特征词C3、…、C10的频度保持不变。也就是说,对于上面确定出的特征词集合[C1,C2,…,C10]而言,每个特征词在整个知识中的频度可以分别为F1+1、F2+1、F3、…、F10
如图1所示,在步骤S104之后,在步骤S105,可以将所获取的知识的特征词集合与知识库中存储的另一知识的特征词集合组成一个特征词集合,分别确定所组成的特征词集合中的每个特征词在两条知识中的频度,并得出两条知识的词频向量。
仍以上述示例为例,假设所获取的知识的特征词集合为[C1,C2,C3,…,C10],并且每个特征词在该知识中的频度分别为F1+1、F2+1、F3、…、F10。此外,还假设知识库中存储的另一知识的特征词集合为[C’1,C’2,C’3,…,C’10],并且每个特征词在该知识中的频度分别为F’1、F’2、F’3、…、F’10。可通过取这两个特征词集合的并集来实现将这两个特征词集合组成一个特征词集合。假设,特征词C’1~C’8与特征词C1~C8相同,那么,通过上述方式所组成的特征词集合可以为[C1,C2,C3,…,C10,C’9,C’10]。
在组成一个特征词集合之后,分别确定所组成的特征词集合中的每个特征词在两条知识中的频度。例如,对于所组成的特征词集合[C1,C2,C3,…,C10,C’9,C’10]而言,由于特征词C1~C10在所获取的知识中的频度已在之前被确定出,因此,无需再确定这些特征词在获取的知识中的频度,只需要确定特征词C’9、C’10在获取的知识中的频度Fx9、Fx10。例如,所组成的特征词集合[C1,C2,C3,…,C10,C’9,C’10]中的每个特征词在所获取的知识中的频度分别为F1+1、F2+1、F3、…、F10、Fx9、Fx10
由于特征词C’1~C’8与特征词C1~C8相同,而特征词C’1~C’10在所述知识库中存储的所述另一知识中的频度已在之前被确定出,因此,无需再确定这些特征词在所述另一知识中的频度,只需要确定特征词C9、C10在所述另一知识中的频度F’x9、F’x10。例如,所组成的特征词集合[C1,C2,C3,…,C10,C’9,C’10]中的每个特征词在所述另一知识中的频度分别为F’1、F’2、F’3、…、F’x9、F’x10、F’9、F’10
在确定出所组成的特征词集合中的每个特征词在两条知识中的频度之后,可以得出两条知识的词频向量。仍以上述示例为例,所述两条知识的词频向量可以分别为:A=[F1+1、F2+1、F3、…、F10、Fx9、Fx10],B=[F’1、F’2、F’3、…、F’x9、F’x10、F’9、F’10],其中,A表示所获取的知识的词频向量,B表示所述另一知识的词频向量。
之后,在步骤S106,可以基于所述两条知识的词频向量来确定两条知识之间的相似度。计算相似度的方法有很多。在本发明中,可采用余弦相似度算法来计算两条知识之间的相似度,如下所示:
cos θ = Σ i = 1 n ( A i × B i ) Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2 = A · B | A | × | B |    等式(1)
其中,A表示所获取的知识的词频向量,并且A=[A1,A2,...,An];Ai表示所组成的特征词集合中的第i个特征词在所获取的知识中的频度,并且i=1,…,n;B表示所述另一知识的词频向量,并且B=[B1,B2,...,Bn];Bi表示所组成的特征词集合中的第i个特征词在所述另一知识中的频度,并且i=1,…,n;n表示所组成的特征词集合中的特征词的总数;以及cosθ表示所获取的知识与所述另一知识之间的相似度。
通过等式(1)计算出的结果越接近1,说明两条知识之间越相似。反之,越接近0,说明两条知识之间越无关。
在计算出两条知识之间的相似度之后,可以基于该相似度来为用户进行知识推荐。例如,在步骤S107,在所述相似度大于或等于一阈值(该阈值可由用户设定)的情况下,向用户推荐所述知识库中存储的所述另一知识。
可针对知识库中存储的每一个知识来进行上述操作。这样,可以从知识库中找出所有与所获取的知识相似的知识,并将这些知识推荐给用户,以便用户进行查看。
由此,通过本发明提供的上述方法计算出的知识之间的相似度,具有更高的可准确性和真实性,从而保证基于该相似度能够为用户推荐最匹配的知识。
本发明还提供一种基于相似度的知识推荐设备,该设备包括:用于获取一知识的装置,该知识包括标题部分和内容部分;用于对所述内容部分进行分词处理,确定各分词的权重,并根据该权重确定所述内容部分的特征词的装置;用于对所述标题部分进行分词处理,确定各分词的权重,并根据该权重确定所述标题部分的特征词的装置;用于根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合的装置;用于将所获取的知识的特征词集合与知识库中存储的另一知识的特征词集合组成一个特征词集合,分别确定所组成的特征词集合中的每个特征词在两条知识中出现的频度,并得出两条知识的词频向量的装置;用于基于所述两条知识的词频向量确定两条知识之间的相似度的装置;以及用于在所述相似度大于或等于一阈值的情况下,向用户推荐所述知识库中存储的所述另一知识的装置。
其中,所述内容部分的各分词的权重是各分词的TF-IDF值;以及所述标题部分的各分词的权重是各分词的IDF值。
优选地,用于根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合的装置可以包括:用于比较所述内容部分的特征词和所述标题部分的特征词的装置;用于在所述标题部分的特征词未被全部包括在所述内容部分的特征词的情况下,利用所述标题部分中未被包括在所述内容部分的特征词中的特征词来替换所述内容部分的特征词中同等数量的特征词的装置,替换方向从所述内容部分的特征词中权重最低的特征词开始;以及用于根据替换后的所述内容部分的特征词得出所获取的知识的特征词集合的装置。
用于根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合的装置还可以包括:用于在所述标题部分的特征词被全部包括在所述内容部分的特征词的情况下,根据所述内容部分的特征词得出所获取的知识的特征词集合的装置。
所述设备还可以包括:用于在所述标题部分的特征词被全部或部分包括在所述内容部分的特征词的情况下,将所述标题部分中被包括在所述内容部分的特征词中的特征词在所述内容部分中的频度加1,以得出所述标题部分中被包括在所述内容部分的特征词中的特征词在所获取的知识中的频度的装置。
优选地,所组成的特征词集合是所获取的知识的特征词集合与所述知识库中存储的所述另一知识的特征词集合的并集。此外,可以通过等式(1)来计算两条知识之间的相似度。
通过本发明提供的基于相似度的知识推荐方法和设备,可以综合知识的标题部分和内容部分来确定该知识的特征词集合,避免由于标题部分的特征词在知识的内容部分中出现次数较少,而可能漏掉标题部分中关键的特征词,从而确保所确定出的特征词集合中的特征词能够更加真实、全面地反映该知识。利用通过上述方法确定出的特征词集合来确定两条知识之间的相似度,可以提高所确定出的相似度的准确性和真实性,从而保证基于该相似度能够为用户推荐最匹配的知识。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (12)

1.一种基于相似度的知识推荐方法,其特征在于,该方法包括:
获取一知识,该知识包括标题部分和内容部分;
对所述内容部分进行分词处理,确定各分词的权重,并根据该权重确定所述内容部分的特征词;
对所述标题部分进行分词处理,确定各分词的权重,并根据该权重确定所述标题部分的特征词;
根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合;
将所获取的知识的特征词集合与知识库中存储的另一知识的特征词集合组成一个特征词集合,分别确定所组成的特征词集合中的每个特征词在两条知识中的频度,并得出两条知识的词频向量;
基于所述两条知识的词频向量确定两条知识之间的相似度;以及
在所述相似度大于或等于一阈值的情况下,向用户推荐所述知识库中存储的所述另一知识。
2.根据权利要求1所述的方法,其特征在于,所述内容部分的各分词的权重是各分词的词频-逆文档频率(TF-IDF)值;以及所述标题部分的各分词的权重是各分词的逆文档频率(IDF)值。
3.根据权利要求1所述的方法,其特征在于,根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合这一步骤包括:
比较所述内容部分的特征词和所述标题部分的特征词;
在所述标题部分的特征词未被全部包括在所述内容部分的特征词的情况下,利用所述标题部分中未被包括在所述内容部分的特征词中的特征词来替换所述内容部分的特征词中同等数量的特征词,替换方向从所述内容部分的特征词中权重最低的特征词开始;以及
根据替换后的所述内容部分的特征词得出所获取的知识的特征词集合。
4.根据权利要求3所述的方法,其特征在于,根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合这一步骤还包括:在所述标题部分的特征词被全部包括在所述内容部分的特征词的情况下,根据所述内容部分的特征词得出所获取的知识的特征词集合。
5.根据权利要求3或4所述的方法,其特征在于,该方法还包括:在所述标题部分的特征词被全部或部分包括在所述内容部分的特征词的情况下,将所述标题部分中被包括在所述内容部分的特征词中的特征词在所述内容部分中的频度加1,以得出所述标题部分中被包括在所述内容部分的特征词中的特征词在所获取的知识中的频度。
6.根据权利要求1所述的方法,其特征在于,通过以下方式计算所述相似度:
cos θ = Σ i = 1 n ( A i × B i ) Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2 = A · B | A | × | B |
其中,
A表示所获取的知识的词频向量,并且A=[A1,A2,...,An];
B表示所述另一知识的词频向量,并且B=[B1,B2,...,Bn];
Ai表示所组成的特征词集合中的第i个特征词在所获取的知识中的频度,并且i=1,…,n;
Bi表示所组成的特征词集合中的第i个特征词在所述另一知识中的频度,并且i=1,…,n;
n表示所组成的特征词集合中的特征词的总数;以及
cosθ表示所获取的知识与所述另一知识之间的相似度。
7.一种基于相似度的知识推荐设备,其特征在于,该设备包括:
用于获取一知识的装置,该知识包括标题部分和内容部分;
用于对所述内容部分进行分词处理,确定各分词的权重,并根据该权重确定所述内容部分的特征词的装置;
用于对所述标题部分进行分词处理,确定各分词的权重,并根据该权重确定所述标题部分的特征词的装置;
用于根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合的装置;
用于将所获取的知识的特征词集合与知识库中存储的另一知识的特征词集合组成一个特征词集合,分别确定所组成的特征词集合中的每个特征词在两条知识中出现的频度,并得出两条知识的词频向量的装置;
用于基于所述两条知识的词频向量确定两条知识之间的相似度的装置;以及
用于在所述相似度大于或等于一阈值的情况下,向用户推荐所述知识库中存储的所述另一知识的装置。
8.根据权利要求7所述的设备,其特征在于,所述内容部分的各分词的权重是各分词的词频-逆文档频率(TF-IDF)值;以及所述标题部分的各分词的权重是各分词的逆文档频率(IDF)值。
9.根据权利要求7所述的设备,其特征在于,用于根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合的装置包括:
用于比较所述内容部分的特征词和所述标题部分的特征词的装置;
用于在所述标题部分的特征词未被全部包括在所述内容部分的特征词的情况下,利用所述标题部分中未被包括在所述内容部分的特征词中的特征词来替换所述内容部分的特征词中同等数量的特征词的装置,替换方向从所述内容部分的特征词中权重最低的特征词开始;以及
用于根据替换后的所述内容部分的特征词得出所获取的知识的特征词集合的装置。
10.根据权利要求9所述的设备,其特征在于,用于根据所述内容部分的特征词和所述标题部分的特征词来确定所获取的知识的特征词集合的装置还包括:用于在所述标题部分的特征词被全部包括在所述内容部分的特征词的情况下,根据所述内容部分的特征词得出所获取的知识的特征词集合的装置。
11.根据权利要求9或10所述的设备,其特征在于,该设备还包括:用于在所述标题部分的特征词被全部或部分包括在所述内容部分的特征词的情况下,将所述标题部分中被包括在所述内容部分的特征词中的特征词在所述内容部分中的频度加1,以得出所述标题部分中被包括在所述内容部分的特征词中的特征词在所获取的知识中的频度的装置。
12.根据权利要求7所述的设备,其特征在于,通过以下方式计算所述相似度:
cos θ = A · B | A | × | B | = Σ i = 1 n ( A i × B i ) Σ i = 1 n ( A i ) 2 × Σ i = 1 n ( B i ) 2
其中,
A表示所获取的知识的词频向量,并且A=[A1,A2,...,An];
B表示所述另一知识的词频向量,并且B=[B1,B2,...,Bn];
Ai表示所组成的特征词集合中的第i个特征词在所获取的知识中的频度,并且i=1,…,n;
Bi表示所组成的特征词集合中的第i个特征词在所述另一知识中的频度,并且i=1,…,n;
n表示所组成的特征词集合中的特征词的总数;以及
cosθ表示所获取的知识与所述另一知识之间的相似度。
CN201410132402.7A 2014-04-02 2014-04-02 一种基于相似度的知识推荐方法和设备 Active CN104978320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410132402.7A CN104978320B (zh) 2014-04-02 2014-04-02 一种基于相似度的知识推荐方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410132402.7A CN104978320B (zh) 2014-04-02 2014-04-02 一种基于相似度的知识推荐方法和设备

Publications (2)

Publication Number Publication Date
CN104978320A true CN104978320A (zh) 2015-10-14
CN104978320B CN104978320B (zh) 2018-11-02

Family

ID=54274835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410132402.7A Active CN104978320B (zh) 2014-04-02 2014-04-02 一种基于相似度的知识推荐方法和设备

Country Status (1)

Country Link
CN (1) CN104978320B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512101A (zh) * 2015-11-30 2016-04-20 北大方正集团有限公司 一种自动构建主题词的方法及装置
CN105528419A (zh) * 2015-11-30 2016-04-27 合肥工业大学 一种考虑用户-作者关系建模的个性化搜索方法
CN105589847A (zh) * 2015-12-22 2016-05-18 北京奇虎科技有限公司 带权重的文章标识方法和装置
CN106933878A (zh) * 2015-12-30 2017-07-07 腾讯科技(北京)有限公司 一种信息处理方法及装置
CN108960058A (zh) * 2018-05-31 2018-12-07 平安科技(深圳)有限公司 ***校验方法、装置、计算机设备及存储介质
CN109446410A (zh) * 2018-09-19 2019-03-08 平安科技(深圳)有限公司 知识点推送方法、装置及计算机可读存储介质
CN111274355A (zh) * 2020-01-15 2020-06-12 广东电网有限责任公司 一种基于lucene的主厂站遥信信号自动对比方法
CN112257438A (zh) * 2020-10-22 2021-01-22 上海英方软件股份有限公司 一种具有关联机制的语言知识处理方法及装置
CN113220905A (zh) * 2021-05-27 2021-08-06 哈尔滨理工大学 一种融合知识图谱的服务推荐方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
US20120096029A1 (en) * 2009-06-26 2012-04-19 Nec Corporation Information analysis apparatus, information analysis method, and computer readable storage medium
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索***
CN103207899A (zh) * 2013-03-19 2013-07-17 新浪网技术(中国)有限公司 文本文件推荐方法及***
CN103226576A (zh) * 2013-04-01 2013-07-31 杭州电子科技大学 基于语义相似度的垃圾评论过滤方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
US20120096029A1 (en) * 2009-06-26 2012-04-19 Nec Corporation Information analysis apparatus, information analysis method, and computer readable storage medium
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索***
CN103207899A (zh) * 2013-03-19 2013-07-17 新浪网技术(中国)有限公司 文本文件推荐方法及***
CN103226576A (zh) * 2013-04-01 2013-07-31 杭州电子科技大学 基于语义相似度的垃圾评论过滤方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512101B (zh) * 2015-11-30 2018-06-26 北大方正集团有限公司 一种自动构建主题词的方法及装置
CN105528419A (zh) * 2015-11-30 2016-04-27 合肥工业大学 一种考虑用户-作者关系建模的个性化搜索方法
CN105512101A (zh) * 2015-11-30 2016-04-20 北大方正集团有限公司 一种自动构建主题词的方法及装置
CN105528419B (zh) * 2015-11-30 2017-05-17 合肥工业大学 一种考虑用户‑作者关系建模的个性化搜索方法
CN105589847B (zh) * 2015-12-22 2019-02-15 北京奇虎科技有限公司 带权重的文章标识方法和装置
WO2017107696A1 (zh) * 2015-12-22 2017-06-29 北京奇虎科技有限公司 带权重的文章标识方法和装置
CN105589847A (zh) * 2015-12-22 2016-05-18 北京奇虎科技有限公司 带权重的文章标识方法和装置
CN106933878A (zh) * 2015-12-30 2017-07-07 腾讯科技(北京)有限公司 一种信息处理方法及装置
CN106933878B (zh) * 2015-12-30 2021-02-05 腾讯科技(北京)有限公司 一种信息处理方法及装置
CN108960058A (zh) * 2018-05-31 2018-12-07 平安科技(深圳)有限公司 ***校验方法、装置、计算机设备及存储介质
CN108960058B (zh) * 2018-05-31 2019-12-03 平安科技(深圳)有限公司 ***校验方法、装置、计算机设备及存储介质
CN109446410A (zh) * 2018-09-19 2019-03-08 平安科技(深圳)有限公司 知识点推送方法、装置及计算机可读存储介质
CN111274355A (zh) * 2020-01-15 2020-06-12 广东电网有限责任公司 一种基于lucene的主厂站遥信信号自动对比方法
CN112257438A (zh) * 2020-10-22 2021-01-22 上海英方软件股份有限公司 一种具有关联机制的语言知识处理方法及装置
CN112257438B (zh) * 2020-10-22 2023-07-04 上海英方软件股份有限公司 一种具有关联机制的语言知识处理方法及装置
CN113220905A (zh) * 2021-05-27 2021-08-06 哈尔滨理工大学 一种融合知识图谱的服务推荐方法

Also Published As

Publication number Publication date
CN104978320B (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN104978320A (zh) 一种基于相似度的知识推荐方法和设备
CN103514304B (zh) 一种项目推荐方法和装置
CN104935963B (zh) 一种基于时序数据挖掘的视频推荐方法
CN102193936B (zh) 一种数据分类的方法及装置
CN106471491A (zh) 一种时变的协同过滤推荐方法
US11349680B2 (en) Method and apparatus for pushing information based on artificial intelligence
Ljubešic et al. Tweet-cat: a tool for building twitter corpora of smaller languages
CN103810299A (zh) 基于多特征融合的图像检索方法
CN105354300A (zh) 一种信息推荐方法及装置
CN103235812B (zh) 查询多意图识别方法和***
CN104462383A (zh) 一种基于用户多种行为反馈的电影推荐方法
WO2016009419A1 (en) System and method for ranking news feeds
CN105138653A (zh) 一种基于典型度和难度的题目推荐方法及其推荐装置
Bojnordi et al. A novel collaborative filtering model based on combination of correlation method with matrix completion technique
CN103530416A (zh) 项目数据预测评分库的生成、项目数据的推送方法和***
CN104462327A (zh) 语句相似度的计算、搜索处理方法及装置
CN104636407A (zh) 参数取值训练及搜索请求处理方法和装置
CN103678513B (zh) 一种交互式的检索式生成方法及***
CN105095188A (zh) 句子相似度计算方法及装置
CN103218419B (zh) 网络标签聚类方法和***
CN110851577A (zh) 一种电力领域的知识图谱扩充方法及装置
CN103744929A (zh) 目标用户对象的确定方法
CN105224954A (zh) 一种基于Single-pass去除小话题影响的话题发现方法
CN105808602A (zh) 一种垃圾信息的检测方法及装置
CN104572899A (zh) 处理文章的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Bin

Inventor after: Hou Zhiguo

Inventor before: Wang Bin