CN110457461A

CN110457461A - 基于隐语义主题的专利推荐方法及装置

Info

Publication number: CN110457461A
Application number: CN201910620204.8A
Authority: CN
Inventors: 欧中洪; 吴金盛; 谭言信; 宋美娜; 宋俊德
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-11-15

Abstract

本发明公开了一种基于隐语义主题的专利推荐方法及装置，其中，方法包括以下步骤：根据专利摘要和标题获取多个专利关键词；根据多个专利关键词利用开源词向量库进行词向量转换，并基于k‑means构建隐语义主题树；通过隐语义主题树获取每个专利的主体分布，并构建主题召回列表，及根据余弦公式得到主体分布相似度，以根据主体分相似度进行专利推荐。该方法可以通过利用包含外部知识的词向量库，引入专利的语义主题信息，能更加语义化匹配用户目标，获得更加精准的推荐结果，并通过构建隐语义主题树，基于语义上的近邻主题召回进行主题相似度排序，达到进行多层次语义精准推荐。

Description

基于隐语义主题的专利推荐方法及装置

技术领域

本发明涉及专利推荐技术领域，特别涉及一种基于隐语义主题的专利推荐方法及装置。

背景技术

随着科技的迅速发展和经济的全球化，专利的作用越来越得到人们的重视，每年国家专利局受理国内外专利申请超160万件，专利信息快速增长带来了信息超载，使得科技研发人员从海量的专利信息里寻找感兴趣的专利成为一件不轻松的工作。专利推荐算法作为一种信息过滤的重要手段，是解决专利信息超载的一种重要的、有潜力的方法.目前主流的专利推荐算法主要包含以下几大类：

(1)基于内容的推荐。它主要是根据推荐专利的元数据，发现专利之间的相关性，然后基于用户以往的喜好记录，推荐给用户相似的专利。

(2)协同过滤的推荐。它主要是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的专利，个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选推荐专利。

(3)基于知识的推荐。它主要是是根据用户指定的需求，***给出设计方案，利用已有的知识，根据不同的相似度衡量方法检索出相似的专利，或依据明确定义的推荐规则的集合获取推荐专利集合进行推荐。

如上所述，目前针对专利的推荐方式主要有：1)利用专利的元数据发现专利之间的相关性进行专利内容推荐；2)基于相似用户群体的喜好筛选过滤专利进行协同过滤推荐；3)根据用户指定需求，利用已有知识检索或筛选相应专利进行知识推荐。方法1简单易于实现，但是未能考虑专利内容本身的语义关联性，结果稀疏且无法按语义主题层次进行精准推荐；方法2推荐结果新颖扩展性强，但是由于用户评分行为信息较难以获得，存在数据稀疏和冷启动问题，同时由于用户之间的差异性，结果中可能出现一些与用户目标不相关的推荐结果，推荐结果不精准；方法3精准捕获用户需求能获得较好的推荐效果，但是用户本身需求存在不确定性和广泛性，无法对所有用户需求进行分析处理，导致方法难以实现和局限性。

综上，当前针对专利推荐的方案，大多是基于用户专利使用数据的协同过滤推荐，基于专利元数据的内容推荐以及基于用户需求的知识推荐，未能考虑外部知识引入，推荐结果与用户目标的语义关联性较低，推荐结果不精准，同时专利数据本身较难获取用户使用数据，传统协同过滤具有数据稀疏性，冷启动问题。

发明内容

本申请是基于发明人对以下问题的认识和发现做出的：

基于背景技术所述，本发明通过引入开源词向量库外部知识，扩展专利间的语义联系，基于用户访问专利本身获取需求信息，无需明确用户需求模式，避免了使用方法2的用户数据稀疏性问题和方法3方法难以实施及扩展问题，可为用户推荐专利标题以及摘要中不包含用户已访问专利的共现词，但其在内容上又和用户访问专利存在一定语义关联的专利，提供更加精准的推荐结果。

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于隐语义主题的专利推荐方法，该方法可以通过利用包含外部知识的词向量库，引入专利的语义主题信息，能更加语义化匹配用户目标，获得更加精准的推荐结果，并通过构建隐语义主题树，基于语义上的近邻主题召回进行主题相似度排序，达到进行多层次语义精准推荐。

本发明的另一个目的在于提出一种基于隐语义主题的专利推荐装置。

为达到上述目的，本发明一方面实施例提出了一种基于隐语义主题的专利推荐方法，包括以下步骤：根据专利摘要和标题获取多个专利关键词；根据所述多个专利关键词利用开源词向量库进行词向量转换，并基于k-means构建隐语义主题树；通过所述隐语义主题树获取每个专利的主体分布，并构建主题召回列表，及根据余弦公式得到主体分布相似度，以根据所述主体分相似度进行专利推荐。

本发明实施例的基于隐语义主题的专利推荐方法，通过引入开源词向量库构建隐语义主题树的方法，为多层次推荐召回及专利主题相似度匹配提供知识支撑，并基于当前专利主题使用近邻度量公式获取近邻主题，进行层次主题召回，使语义精准推荐的技术重点，从而可以通过利用包含外部知识的词向量库，引入专利的语义主题信息，能更加语义化匹配用户目标，获得更加精准的推荐结果，并通过构建隐语义主题树，基于语义上的近邻主题召回进行主题相似度排序，达到进行多层次语义精准推荐。

另外，根据本发明上述实施例的基于隐语义主题的专利推荐方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述根据说明书摘要和发明名称获取专利关键词，包括：通过分组正则表达式提取标题主干，并使用分词工具分词获取第一名词属性的单词，得到所述标题的至少一个专利关键词；使用所述分词工具分词获取第二名词属性的单词，并使用TF-IDF算法无监督获取所述专利摘要的至少一个专利关键词。

进一步地，在本发明的一个实施例中，所述根据所述多个专利关键词利用开源库进行词向量转换，包括：利用所述开源词向量库查询每个专利关键词对应的词向量，构建关键词ID映射表、专利关键词列表和关键词词向量映射表。

进一步地，在本发明的一个实施例中，所述基于k-means构建隐语义主题树，包括：通过词向量转换获得所有专利关键词对应的词向量样本；设置第一目标主题数使用k-means进行关键词词向量的聚类，获得聚类簇并以簇中心表示主题，以作为叶子主题；以簇中心作为新词向量样本，设置第二目标主题数，并使用k-means聚类，获得新聚类簇并使用簇中心表示主题，作为更高一层主题，并通过同一词向量关联上下主题，直至构成一棵完整主题树，并为每个主题树每个节点设置相应主题ID，得到所述隐语义主题树。

进一步地，在本发明的一个实施例中，其中，根据当前专利主题使用近邻度量公式获取近邻主题，以进行层次主题召回。

为达到上述目的，本发明另一方面实施例提出了一种基于隐语义主题的专利推荐装置，包括：关键词获取模块，用于根据专利摘要和标题获取多个专利关键词；词向量转换模块，用于根据所述多个专利关键词利用开源词向量库进行词向量转换；隐语义主题树构建模块，用于基于k-means构建隐语义主题树；主题分布获取模块，用于通过所述隐语义主题树获取每个专利的主体分布；层次主题召回模块，用于构建主题召回列表；主题相似度排序模块，用于根据余弦公式得到主体分布相似度，以根据所述主体分相似度进行专利推荐。

本发明实施例的基于隐语义主题的专利推荐装置，通过引入开源词向量库构建隐语义主题树的方法，为多层次推荐召回及专利主题相似度匹配提供知识支撑，并基于当前专利主题使用近邻度量公式获取近邻主题，进行层次主题召回，使语义精准推荐的技术重点，从而可以通过利用包含外部知识的词向量库，引入专利的语义主题信息，能更加语义化匹配用户目标，获得更加精准的推荐结果，并通过构建隐语义主题树，基于语义上的近邻主题召回进行主题相似度排序，达到进行多层次语义精准推荐。

另外，根据本发明上述实施例的基于隐语义主题的专利推荐装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述关键词获取模块进一步用于通过分组正则表达式提取标题主干，并使用分词工具分词获取第一名词属性的单词，得到所述标题的至少一个专利关键词，并使用所述分词工具分词获取第二名词属性的单词，并使用TF-IDF算法无监督获取所述专利摘要的至少一个专利关键词。

进一步地，在本发明的一个实施例中，所述词向量转换模块进一步用于利用所述开源词向量库查询每个专利关键词对应的词向量，构建关键词ID映射表、专利关键词列表和关键词词向量映射表。

进一步地，在本发明的一个实施例中，所述隐语义主题树构建模块进一步用于通过词向量转换获得所有专利关键词对应的词向量样本，并设置第一目标主题数使用k-means进行关键词词向量的聚类，获得聚类簇并以簇中心表示主题，以作为叶子主题，并以簇中心作为新词向量样本，设置第二目标主题数，并使用k-means聚类，获得新聚类簇并使用簇中心表示主题，作为更高一层主题，并通过同一词向量关联上下主题，直至构成一棵完整主题树，并为每个主题树每个节点设置相应主题ID，得到所述隐语义主题树。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于隐语义主题的专利推荐方法的流程图；

图2为根据本发明一个实施例的基于隐语义主题的专利推荐方法的流程图；

图3为根据本发明实施例的主题召回流程图；

图4为根据本发明实施例的基于隐语义主题的专利推荐装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于隐语义主题的专利推荐方法及装置，首先将参照附图描述根据本发明实施例提出的基于隐语义主题的专利推荐方法。

图1是本发明一个实施例的基于隐语义主题的专利推荐方法的流程图。

如图1所示，该基于隐语义主题的专利推荐方法包括以下步骤：

在步骤S101中，根据专利摘要和标题获取多个专利关键词。

其中，在本发明的一个实施例中，根据说明书摘要和发明名称获取专利关键词，包括：通过分组正则表达式提取标题主干，并使用分词工具分词获取第一名词属性的单词，得到标题的至少一个专利关键词；使用分词工具分词获取第二名词属性的单词，并使用TF-IDF算法无监督获取专利摘要的至少一个专利关键词。

具体而言，如图2所示，关键词获取分标题关键词和摘要两部分，由于专利正文部分数据比较冗杂，包含许多不跟主题相关的词，所以为了关键词提取效果只取标题和摘要做关键词提取。

标题关键词提取使用分组正则表达式提取标题主干，再使用分词工具分词获取名词属性的单词，去除常用停用词之后获取关键词。常用的停用词使用开源中文停用词表，具体的分组匹配正则表达式如下所示：

正则表达式＝[一种，基于]*(.*)[的]+(.*)[方法，装置，***，设备，平台]+。

摘要关键词提取先使用分词工具分词，获取名词属性的单词，去除常见的停用词之后，使用TF-IDF算法无监督获取所有专利关键词。TF-IDF计算一个词的重要性表达式为：Score＝TF*IDF，其中TF为词频(Term Frequency)表示词在文档中出现的频率，IDF为反文档频率(Inverse Document Frequency)表示包含词的文档频率的倒数对数，同时使用加1平滑，其中，

其中，Score_i(j)表示专利i的j词的评分，n_i，j表示专利i，j词的词频

D表示专利总数，D_j表示包含词j的专利数。

在步骤S102中，根据多个专利关键词利用开源词向量库进行词向量转换，并基于k-means构建隐语义主题树。

可以理解的是，本发明实施例基于专利关键词，结合开源词向量库，获取专利的语义主题词向量，利用k-means分层主题聚类构建隐语义主题树。其中，词向量是一种把词处理成向量的技术，它把词或短语映射成实数向量，把特征从词汇表大小的高维度空间降低到一个相对低的维度空间，并且保证向量间的相对相似度和语义相似度的相关性。

进一步地，在本发明的一个实施例中，如图2所示，根据多个专利关键词利用开源库进行词向量转换，包括：利用开源词向量库查询每个专利关键词对应的词向量，构建关键词ID映射表、专利关键词列表和关键词词向量映射表。

进一步地，在本发明的一个实施例中，基于k-means构建隐语义主题树，包括：通过词向量转换获得所有专利关键词对应的词向量样本；设置第一目标主题数使用k-means进行关键词词向量的聚类，获得聚类簇并以簇中心表示主题，以作为叶子主题；以簇中心作为新词向量样本，设置第二目标主题数，并使用k-means聚类，获得新聚类簇并使用簇中心表示主题，作为更高一层主题，并通过同一词向量关联上下主题，直至构成一棵完整主题树，并为每个主题树每个节点设置相应主题ID，得到隐语义主题树。

具体而言，如图2所示，在专利领域已构建了全面的分类体系，每个专利都具有相应的IPC分类号，分属分类体系的某一个叶子类别，但由于每个专利涵盖主题不唯一，使用分类体系做多层次主题的召回进行推荐会丢失专利其它主题信息，为了覆盖专利的所有主题进行多层次的语义主题推荐，需要挖掘专利所有主题信息构建隐语义主题树。构建方法如下：

(1)基于词向量转换模块获得所有专利关键词对应的词向量样本；

(2)设置合适主题数使用k-means进行关键词词向量的聚类，获得聚类簇并以簇中心表示主题，作为叶子主题；

(3)以簇中心作为新词向量样本，设置合适主题数，再次使用k-means聚类，获得新聚类簇并使用簇中心表示主题，作为更高一层主题，并通过同一词向量关联上下主题；

(4)重复(3)直到构成一棵完整主题树，为每个主题树每个节点设置相应主题ID。

由于IPC四层分类体系的分类覆盖全面，对于主题数的选取，根据分类体系不同层次的子类统计数决定。

在步骤S103中，通过隐语义主题树获取每个专利的主体分布，并构建主题召回列表，及根据余弦公式得到主体分布相似度，以根据主体分相似度进行专利推荐。

可以理解的是，本发明实施例通过主题树扩展召回不同层次主题的专利，基于专利主题相似度排序，最终获取具有隐语义主题扩展的分层次的精准专利推荐结果。其中，本发明实施例根据当前专利主题使用近邻度量公式获取近邻主题，以进行层次主题召回。

具体而言，如图2所示，步骤S103包括主题分布获取、层次主题召回、主题相似度排序，下面将分别进行详细阐述。

1、主题分布获取

根据已有的隐语义主题树，将专利所有的关键词划分到各个叶子主题之下，每个专利基于关键词获得相应的主题，同时基于关键词词向量与父主题簇中心或祖先主题簇中心的距离计算专利的主题概率分布。每个关键词属于某主题的概率与当前关键词对应词向量到主题簇中心的距离成反比，具体公式如下：

X，Y分别表示主题词向量，Dis表示向量距离，

表示主题中心，X_i表示当前主题簇下的其他主题词，

基于以上概率计算公式，计算每个专利关键词所属的主题的概率，组合所有关键词主题概率生成每个专利的主题概率分布，构建专利主题库。

2、层次主题召回

根据当前用户访问的专利，获取其标题及摘要关键词，通过隐语义主题树可召回其同层次或其它层次的语义近邻主题下的相关专利，如图3所示，具体流程如下：

(1)获取用户访问专利关键词及词向量；

(2)基于隐语义主题树获得专利及对应的主题及主题概率分布；

(3)基于设置的主题层次及主题相似度阈值，获取邻近主题；

(4)获取邻近主题的专利，构建召回列表，获取主题分布。

近邻主题的定义包含两个方面，第一个方面是两者主题在隐语义主题树的层次距离定义，使用两个主题到最小公共祖先的路径距离及最小公共祖先到根节点的路径距离作为衡量，路径距离越大说明两个主题隐语义抽象越少，语义含义越具体；第二方面是两者主题中心的距离，两者距离越近说明语义越相似。具体近邻度量公式如下：

其中，N1和N2分别表示主题t₁、t₂与最近公共父节点主题t间的最短路径，H表示从最近公共父节点t到根节点的最短路径，Dis(t₁，t₂)表示主题距离。通过相似度度量公式，选择相关度高于阈值的主题作为当前主题的关联主题。

3、主题相似度排序

基于层次主题召回结果，通过计算当前用户访问专利与召回列表专利的主题分布的相似性进排序，获得最终top-k推荐。其中主题分布相似性度量使用余弦公式，具体公式如下：

X，Y表示主题分布，i表示主题向量维度，|X|，|Y|表示向量模。

综上，(1)本发明实施例通过利用包含外部知识的词向量库，引入专利的语义主题信息，能更加语义化匹配用户目标，获得更加精准的推荐结果，从而有效解决了现有的协同过滤技术需要利用较难获取的用户专利使用数据，数据稀疏性，具有冷启动问题，同时未能考虑外部知识引入，推荐结果与用户目标的语义关联性较低，推荐结果不精准的问题。(2)本发明实施例通过构建隐语义主题树，基于语义上的近邻主题召回进行主题相似度排序，达到进行多层次语义精准推荐，从而有效解决现有的基于内容推荐技术通常只包含专利的元信息和文本词信息，没有考虑文本词间的语义信息，推荐结果不精准同时无法从语义主题层面多层次进行推荐的问题。

根据本发明实施例提出的基于隐语义主题的专利推荐方法，通过引入开源词向量库构建隐语义主题树的方法，为多层次推荐召回及专利主题相似度匹配提供知识支撑，并基于当前专利主题使用近邻度量公式获取近邻主题，进行层次主题召回，使语义精准推荐的技术重点，从而可以通过利用包含外部知识的词向量库，引入专利的语义主题信息，能更加语义化匹配用户目标，获得更加精准的推荐结果，并通过构建隐语义主题树，基于语义上的近邻主题召回进行主题相似度排序，达到进行多层次语义精准推荐。

其次参照附图描述根据本发明实施例提出的基于隐语义主题的专利推荐装置。

图4是本发明一个实施例的基于隐语义主题的专利推荐装置的结构示意图。

如图4所示，该基于隐语义主题的专利推荐装置10包括：关键词获取模块100、词向量转换模块200、隐语义主题树构建模块300、主题分布获取模块400、层次主题召回模块500和主题相似度排序模块600。

其中，关键词获取模块100用于根据专利摘要和标题获取多个专利关键词。词向量转换模块200用于根据多个专利关键词利用开源词向量库进行词向量转换。隐语义主题树构建模块300用于基于k-means构建隐语义主题树。主题分布获取模块400用于通过隐语义主题树获取每个专利的主体分布。层次主题召回模块500用于构建主题召回列表。主题相似度排序模块600用于根据余弦公式得到主体分布相似度，以根据主体分相似度进行专利推荐。本发明实施例的装置10可以通过利用包含外部知识的词向量库，引入专利的语义主题信息，能更加语义化匹配用户目标，获得更加精准的推荐结果，并通过构建隐语义主题树，基于语义上的近邻主题召回进行主题相似度排序，达到进行多层次语义精准推荐。

进一步地，在本发明的一个实施例中，关键词获取模块100进一步用于通过分组正则表达式提取标题主干，并使用分词工具分词获取第一名词属性的单词，得到标题的至少一个专利关键词，并使用分词工具分词获取第二名词属性的单词，并使用TF-IDF算法无监督获取专利摘要的至少一个专利关键词。

进一步地，在本发明的一个实施例中，词向量转换模块200进一步用于利用开源词向量库查询每个专利关键词对应的词向量，构建关键词ID映射表、专利关键词列表和关键词词向量映射表。

进一步地，在本发明的一个实施例中，隐语义主题树构建模块300进一步用于通过词向量转换获得所有专利关键词对应的词向量样本，并设置第一目标主题数使用k-means进行关键词词向量的聚类，获得聚类簇并以簇中心表示主题，以作为叶子主题，并以簇中心作为新词向量样本，设置第二目标主题数，并使用k-means聚类，获得新聚类簇并使用簇中心表示主题，作为更高一层主题，并通过同一词向量关联上下主题，直至构成一棵完整主题树，并为每个主题树每个节点设置相应主题ID，得到隐语义主题树。

需要说明的是，前述对基于隐语义主题的专利推荐方法实施例的解释说明也适用于该实施例的基于隐语义主题的专利推荐装置，此处不再赘述。

根据本发明实施例提出的基于隐语义主题的专利推荐装置，通过引入开源词向量库构建隐语义主题树的方法，为多层次推荐召回及专利主题相似度匹配提供知识支撑，并基于当前专利主题使用近邻度量公式获取近邻主题，进行层次主题召回，使语义精准推荐的技术重点，从而可以通过利用包含外部知识的词向量库，引入专利的语义主题信息，能更加语义化匹配用户目标，获得更加精准的推荐结果，并通过构建隐语义主题树，基于语义上的近邻主题召回进行主题相似度排序，达到进行多层次语义精准推荐。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于隐语义主题的专利推荐方法，其特征在于，包括以下步骤：

根据专利摘要和标题获取多个专利关键词；

根据所述多个专利关键词利用开源词向量库进行词向量转换，并基于k-means构建隐语义主题树；以及

通过所述隐语义主题树获取每个专利的主体分布，并构建主题召回列表，及根据余弦公式得到主体分布相似度，以根据所述主体分相似度进行专利推荐。

2.根据权利要求1所述的方法，其特征在于，所述根据说明书摘要和发明名称获取专利关键词，包括：

通过分组正则表达式提取标题主干，并使用分词工具分词获取第一名词属性的单词，得到所述标题的至少一个专利关键词；

使用所述分词工具分词获取第二名词属性的单词，并使用TF-IDF算法无监督获取所述专利摘要的至少一个专利关键词。

3.根据权利要求1所述的方法，其特征在于，所述根据所述多个专利关键词利用开源库进行词向量转换，包括：

利用所述开源词向量库查询每个专利关键词对应的词向量，构建关键词ID映射表、专利关键词列表和关键词词向量映射表。

4.根据权利要求1所述的方法，其特征在于，所述基于k-means构建隐语义主题树，包括：

通过词向量转换获得所有专利关键词对应的词向量样本；

设置第一目标主题数使用k-means进行关键词词向量的聚类，获得聚类簇并以簇中心表示主题，以作为叶子主题；

以簇中心作为新词向量样本，设置第二目标主题数，并使用k-means聚类，获得新聚类簇并使用簇中心表示主题，作为更高一层主题，并通过同一词向量关联上下主题，直至构成一棵完整主题树，并为每个主题树每个节点设置相应主题ID，得到所述隐语义主题树。

5.根据权利要求1所述的方法，其特征在于，其中，根据当前专利主题使用近邻度量公式获取近邻主题，以进行层次主题召回。

6.一种基于隐语义主题的专利推荐装置，其特征在于，包括：

关键词获取模块，用于根据专利摘要和标题获取多个专利关键词；

词向量转换模块，用于根据所述多个专利关键词利用开源词向量库进行词向量转换；

隐语义主题树构建模块，用于基于k-means构建隐语义主题树；

主题分布获取模块，用于通过所述隐语义主题树获取每个专利的主体分布；

层次主题召回模块，用于构建主题召回列表；以及

主题相似度排序模块，用于根据余弦公式得到主体分布相似度，以根据所述主体分相似度进行专利推荐。

7.根据权利要求6所述的装置，其特征在于，所述关键词获取模块进一步用于通过分组正则表达式提取标题主干，并使用分词工具分词获取第一名词属性的单词，得到所述标题的至少一个专利关键词，并使用所述分词工具分词获取第二名词属性的单词，并使用TF-IDF算法无监督获取所述专利摘要的至少一个专利关键词。

8.根据权利要求6所述的装置，其特征在于，所述词向量转换模块进一步用于利用所述开源词向量库查询每个专利关键词对应的词向量，构建关键词ID映射表、专利关键词列表和关键词词向量映射表。

9.根据权利要求6所述的装置，其特征在于，所述隐语义主题树构建模块进一步用于通过词向量转换获得所有专利关键词对应的词向量样本，并设置第一目标主题数使用k-means进行关键词词向量的聚类，获得聚类簇并以簇中心表示主题，以作为叶子主题，并以簇中心作为新词向量样本，设置第二目标主题数，并使用k-means聚类，获得新聚类簇并使用簇中心表示主题，作为更高一层主题，并通过同一词向量关联上下主题，直至构成一棵完整主题树，并为每个主题树每个节点设置相应主题ID，得到所述隐语义主题树。

10.根据权利要求6所述的装置，其特征在于，其中，根据当前专利主题使用近邻度量公式获取近邻主题，以进行层次主题召回。