CN110457461A - 基于隐语义主题的专利推荐方法及装置 - Google Patents

基于隐语义主题的专利推荐方法及装置 Download PDF

Info

Publication number
CN110457461A
CN110457461A CN201910620204.8A CN201910620204A CN110457461A CN 110457461 A CN110457461 A CN 110457461A CN 201910620204 A CN201910620204 A CN 201910620204A CN 110457461 A CN110457461 A CN 110457461A
Authority
CN
China
Prior art keywords
theme
term vector
keyword
subject
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910620204.8A
Other languages
English (en)
Inventor
欧中洪
吴金盛
谭言信
宋美娜
宋俊德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910620204.8A priority Critical patent/CN110457461A/zh
Publication of CN110457461A publication Critical patent/CN110457461A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于隐语义主题的专利推荐方法及装置,其中,方法包括以下步骤:根据专利摘要和标题获取多个专利关键词;根据多个专利关键词利用开源词向量库进行词向量转换,并基于k‑means构建隐语义主题树;通过隐语义主题树获取每个专利的主体分布,并构建主题召回列表,及根据余弦公式得到主体分布相似度,以根据主体分相似度进行专利推荐。该方法可以通过利用包含外部知识的词向量库,引入专利的语义主题信息,能更加语义化匹配用户目标,获得更加精准的推荐结果,并通过构建隐语义主题树,基于语义上的近邻主题召回进行主题相似度排序,达到进行多层次语义精准推荐。

Description

基于隐语义主题的专利推荐方法及装置
技术领域
本发明涉及专利推荐技术领域,特别涉及一种基于隐语义主题的专利推荐方法及装置。
背景技术
随着科技的迅速发展和经济的全球化,专利的作用越来越得到人们的重视,每年国家专利局受理国内外专利申请超160万件,专利信息快速增长带来了信息超载,使得科技研发人员从海量的专利信息里寻找感兴趣的专利成为一件不轻松的工作。专利推荐算法作为一种信息过滤的重要手段,是解决专利信息超载的一种重要的、有潜力的方法.目前主流的专利推荐算法主要包含以下几大类:
(1)基于内容的推荐。它主要是根据推荐专利的元数据,发现专利之间的相关性,然后基于用户以往的喜好记录,推荐给用户相似的专利。
(2)协同过滤的推荐。它主要是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的专利,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选推荐专利。
(3)基于知识的推荐。它主要是是根据用户指定的需求,***给出设计方案,利用已有的知识,根据不同的相似度衡量方法检索出相似的专利,或依据明确定义的推荐规则的集合获取推荐专利集合进行推荐。
如上所述,目前针对专利的推荐方式主要有:1)利用专利的元数据发现专利之间的相关性进行专利内容推荐;2)基于相似用户群体的喜好筛选过滤专利进行协同过滤推荐;3)根据用户指定需求,利用已有知识检索或筛选相应专利进行知识推荐。方法1简单易于实现,但是未能考虑专利内容本身的语义关联性,结果稀疏且无法按语义主题层次进行精准推荐;方法2推荐结果新颖扩展性强,但是由于用户评分行为信息较难以获得,存在数据稀疏和冷启动问题,同时由于用户之间的差异性,结果中可能出现一些与用户目标不相关的推荐结果,推荐结果不精准;方法3精准捕获用户需求能获得较好的推荐效果,但是用户本身需求存在不确定性和广泛性,无法对所有用户需求进行分析处理,导致方法难以实现和局限性。
综上,当前针对专利推荐的方案,大多是基于用户专利使用数据的协同过滤推荐,基于专利元数据的内容推荐以及基于用户需求的知识推荐,未能考虑外部知识引入,推荐结果与用户目标的语义关联性较低,推荐结果不精准,同时专利数据本身较难获取用户使用数据,传统协同过滤具有数据稀疏性,冷启动问题。
发明内容
本申请是基于发明人对以下问题的认识和发现做出的:
基于背景技术所述,本发明通过引入开源词向量库外部知识,扩展专利间的语义联系,基于用户访问专利本身获取需求信息,无需明确用户需求模式,避免了使用方法2的用户数据稀疏性问题和方法3方法难以实施及扩展问题,可为用户推荐专利标题以及摘要中不包含用户已访问专利的共现词,但其在内容上又和用户访问专利存在一定语义关联的专利,提供更加精准的推荐结果。
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于隐语义主题的专利推荐方法,该方法可以通过利用包含外部知识的词向量库,引入专利的语义主题信息,能更加语义化匹配用户目标,获得更加精准的推荐结果,并通过构建隐语义主题树,基于语义上的近邻主题召回进行主题相似度排序,达到进行多层次语义精准推荐。
本发明的另一个目的在于提出一种基于隐语义主题的专利推荐装置。
为达到上述目的,本发明一方面实施例提出了一种基于隐语义主题的专利推荐方法,包括以下步骤:根据专利摘要和标题获取多个专利关键词;根据所述多个专利关键词利用开源词向量库进行词向量转换,并基于k-means构建隐语义主题树;通过所述隐语义主题树获取每个专利的主体分布,并构建主题召回列表,及根据余弦公式得到主体分布相似度,以根据所述主体分相似度进行专利推荐。
本发明实施例的基于隐语义主题的专利推荐方法,通过引入开源词向量库构建隐语义主题树的方法,为多层次推荐召回及专利主题相似度匹配提供知识支撑,并基于当前专利主题使用近邻度量公式获取近邻主题,进行层次主题召回,使语义精准推荐的技术重点,从而可以通过利用包含外部知识的词向量库,引入专利的语义主题信息,能更加语义化匹配用户目标,获得更加精准的推荐结果,并通过构建隐语义主题树,基于语义上的近邻主题召回进行主题相似度排序,达到进行多层次语义精准推荐。
另外,根据本发明上述实施例的基于隐语义主题的专利推荐方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述根据说明书摘要和发明名称获取专利关键词,包括:通过分组正则表达式提取标题主干,并使用分词工具分词获取第一名词属性的单词,得到所述标题的至少一个专利关键词;使用所述分词工具分词获取第二名词属性的单词,并使用TF-IDF算法无监督获取所述专利摘要的至少一个专利关键词。
进一步地,在本发明的一个实施例中,所述根据所述多个专利关键词利用开源库进行词向量转换,包括:利用所述开源词向量库查询每个专利关键词对应的词向量,构建关键词ID映射表、专利关键词列表和关键词词向量映射表。
进一步地,在本发明的一个实施例中,所述基于k-means构建隐语义主题树,包括:通过词向量转换获得所有专利关键词对应的词向量样本;设置第一目标主题数使用k-means进行关键词词向量的聚类,获得聚类簇并以簇中心表示主题,以作为叶子主题;以簇中心作为新词向量样本,设置第二目标主题数,并使用k-means聚类,获得新聚类簇并使用簇中心表示主题,作为更高一层主题,并通过同一词向量关联上下主题,直至构成一棵完整主题树,并为每个主题树每个节点设置相应主题ID,得到所述隐语义主题树。
进一步地,在本发明的一个实施例中,其中,根据当前专利主题使用近邻度量公式获取近邻主题,以进行层次主题召回。
为达到上述目的,本发明另一方面实施例提出了一种基于隐语义主题的专利推荐装置,包括:关键词获取模块,用于根据专利摘要和标题获取多个专利关键词;词向量转换模块,用于根据所述多个专利关键词利用开源词向量库进行词向量转换;隐语义主题树构建模块,用于基于k-means构建隐语义主题树;主题分布获取模块,用于通过所述隐语义主题树获取每个专利的主体分布;层次主题召回模块,用于构建主题召回列表;主题相似度排序模块,用于根据余弦公式得到主体分布相似度,以根据所述主体分相似度进行专利推荐。
本发明实施例的基于隐语义主题的专利推荐装置,通过引入开源词向量库构建隐语义主题树的方法,为多层次推荐召回及专利主题相似度匹配提供知识支撑,并基于当前专利主题使用近邻度量公式获取近邻主题,进行层次主题召回,使语义精准推荐的技术重点,从而可以通过利用包含外部知识的词向量库,引入专利的语义主题信息,能更加语义化匹配用户目标,获得更加精准的推荐结果,并通过构建隐语义主题树,基于语义上的近邻主题召回进行主题相似度排序,达到进行多层次语义精准推荐。
另外,根据本发明上述实施例的基于隐语义主题的专利推荐装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述关键词获取模块进一步用于通过分组正则表达式提取标题主干,并使用分词工具分词获取第一名词属性的单词,得到所述标题的至少一个专利关键词,并使用所述分词工具分词获取第二名词属性的单词,并使用TF-IDF算法无监督获取所述专利摘要的至少一个专利关键词。
进一步地,在本发明的一个实施例中,所述词向量转换模块进一步用于利用所述开源词向量库查询每个专利关键词对应的词向量,构建关键词ID映射表、专利关键词列表和关键词词向量映射表。
进一步地,在本发明的一个实施例中,所述隐语义主题树构建模块进一步用于通过词向量转换获得所有专利关键词对应的词向量样本,并设置第一目标主题数使用k-means进行关键词词向量的聚类,获得聚类簇并以簇中心表示主题,以作为叶子主题,并以簇中心作为新词向量样本,设置第二目标主题数,并使用k-means聚类,获得新聚类簇并使用簇中心表示主题,作为更高一层主题,并通过同一词向量关联上下主题,直至构成一棵完整主题树,并为每个主题树每个节点设置相应主题ID,得到所述隐语义主题树。
进一步地,在本发明的一个实施例中,其中,根据当前专利主题使用近邻度量公式获取近邻主题,以进行层次主题召回。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于隐语义主题的专利推荐方法的流程图;
图2为根据本发明一个实施例的基于隐语义主题的专利推荐方法的流程图;
图3为根据本发明实施例的主题召回流程图;
图4为根据本发明实施例的基于隐语义主题的专利推荐装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于隐语义主题的专利推荐方法及装置,首先将参照附图描述根据本发明实施例提出的基于隐语义主题的专利推荐方法。
图1是本发明一个实施例的基于隐语义主题的专利推荐方法的流程图。
如图1所示,该基于隐语义主题的专利推荐方法包括以下步骤:
在步骤S101中,根据专利摘要和标题获取多个专利关键词。
其中,在本发明的一个实施例中,根据说明书摘要和发明名称获取专利关键词,包括:通过分组正则表达式提取标题主干,并使用分词工具分词获取第一名词属性的单词,得到标题的至少一个专利关键词;使用分词工具分词获取第二名词属性的单词,并使用TF-IDF算法无监督获取专利摘要的至少一个专利关键词。
具体而言,如图2所示,关键词获取分标题关键词和摘要两部分,由于专利正文部分数据比较冗杂,包含许多不跟主题相关的词,所以为了关键词提取效果只取标题和摘要做关键词提取。
标题关键词提取使用分组正则表达式提取标题主干,再使用分词工具分词获取名词属性的单词,去除常用停用词之后获取关键词。常用的停用词使用开源中文停用词表,具体的分组匹配正则表达式如下所示:
正则表达式=[一种,基于]*(.*)[的]+(.*)[方法,装置,***,设备,平台]+。
摘要关键词提取先使用分词工具分词,获取名词属性的单词,去除常见的停用词之后,使用TF-IDF算法无监督获取所有专利关键词。TF-IDF计算一个词的重要性表达式为:Score=TF*IDF,其中TF为词频(Term Frequency)表示词在文档中出现的频率,IDF为反文档频率(Inverse Document Frequency)表示包含词的文档频率的倒数对数,同时使用加1平滑,其中,
其中,Scorei(j)表示专利i的j词的评分,ni,j表示专利i,j词的词频
D表示专利总数,Dj表示包含词j的专利数。
在步骤S102中,根据多个专利关键词利用开源词向量库进行词向量转换,并基于k-means构建隐语义主题树。
可以理解的是,本发明实施例基于专利关键词,结合开源词向量库,获取专利的语义主题词向量,利用k-means分层主题聚类构建隐语义主题树。其中,词向量是一种把词处理成向量的技术,它把词或短语映射成实数向量,把特征从词汇表大小的高维度空间降低到一个相对低的维度空间,并且保证向量间的相对相似度和语义相似度的相关性。
进一步地,在本发明的一个实施例中,如图2所示,根据多个专利关键词利用开源库进行词向量转换,包括:利用开源词向量库查询每个专利关键词对应的词向量,构建关键词ID映射表、专利关键词列表和关键词词向量映射表。
进一步地,在本发明的一个实施例中,基于k-means构建隐语义主题树,包括:通过词向量转换获得所有专利关键词对应的词向量样本;设置第一目标主题数使用k-means进行关键词词向量的聚类,获得聚类簇并以簇中心表示主题,以作为叶子主题;以簇中心作为新词向量样本,设置第二目标主题数,并使用k-means聚类,获得新聚类簇并使用簇中心表示主题,作为更高一层主题,并通过同一词向量关联上下主题,直至构成一棵完整主题树,并为每个主题树每个节点设置相应主题ID,得到隐语义主题树。
具体而言,如图2所示,在专利领域已构建了全面的分类体系,每个专利都具有相应的IPC分类号,分属分类体系的某一个叶子类别,但由于每个专利涵盖主题不唯一,使用分类体系做多层次主题的召回进行推荐会丢失专利其它主题信息,为了覆盖专利的所有主题进行多层次的语义主题推荐,需要挖掘专利所有主题信息构建隐语义主题树。构建方法如下:
(1)基于词向量转换模块获得所有专利关键词对应的词向量样本;
(2)设置合适主题数使用k-means进行关键词词向量的聚类,获得聚类簇并以簇中心表示主题,作为叶子主题;
(3)以簇中心作为新词向量样本,设置合适主题数,再次使用k-means聚类,获得新聚类簇并使用簇中心表示主题,作为更高一层主题,并通过同一词向量关联上下主题;
(4)重复(3)直到构成一棵完整主题树,为每个主题树每个节点设置相应主题ID。
由于IPC四层分类体系的分类覆盖全面,对于主题数的选取,根据分类体系不同层次的子类统计数决定。
在步骤S103中,通过隐语义主题树获取每个专利的主体分布,并构建主题召回列表,及根据余弦公式得到主体分布相似度,以根据主体分相似度进行专利推荐。
可以理解的是,本发明实施例通过主题树扩展召回不同层次主题的专利,基于专利主题相似度排序,最终获取具有隐语义主题扩展的分层次的精准专利推荐结果。其中,本发明实施例根据当前专利主题使用近邻度量公式获取近邻主题,以进行层次主题召回。
具体而言,如图2所示,步骤S103包括主题分布获取、层次主题召回、主题相似度排序,下面将分别进行详细阐述。
1、主题分布获取
根据已有的隐语义主题树,将专利所有的关键词划分到各个叶子主题之下,每个专利基于关键词获得相应的主题,同时基于关键词词向量与父主题簇中心或祖先主题簇中心的距离计算专利的主题概率分布。每个关键词属于某主题的概率与当前关键词对应词向量到主题簇中心的距离成反比,具体公式如下:
X,Y分别表示主题词向量,Dis表示向量距离,
表示主题中心,Xi表示当前主题簇下的其他主题词,
基于以上概率计算公式,计算每个专利关键词所属的主题的概率,组合所有关键词主题概率生成每个专利的主题概率分布,构建专利主题库。
2、层次主题召回
根据当前用户访问的专利,获取其标题及摘要关键词,通过隐语义主题树可召回其同层次或其它层次的语义近邻主题下的相关专利,如图3所示,具体流程如下:
(1)获取用户访问专利关键词及词向量;
(2)基于隐语义主题树获得专利及对应的主题及主题概率分布;
(3)基于设置的主题层次及主题相似度阈值,获取邻近主题;
(4)获取邻近主题的专利,构建召回列表,获取主题分布。
近邻主题的定义包含两个方面,第一个方面是两者主题在隐语义主题树的层次距离定义,使用两个主题到最小公共祖先的路径距离及最小公共祖先到根节点的路径距离作为衡量,路径距离越大说明两个主题隐语义抽象越少,语义含义越具体;第二方面是两者主题中心的距离,两者距离越近说明语义越相似。具体近邻度量公式如下:
其中,N1和N2分别表示主题t1、t2与最近公共父节点主题t间的最短路径,H表示从最近公共父节点t到根节点的最短路径,Dis(t1,t2)表示主题距离。通过相似度度量公式,选择相关度高于阈值的主题作为当前主题的关联主题。
3、主题相似度排序
基于层次主题召回结果,通过计算当前用户访问专利与召回列表专利的主题分布的相似性进排序,获得最终top-k推荐。其中主题分布相似性度量使用余弦公式,具体公式如下:
X,Y表示主题分布,i表示主题向量维度,|X|,|Y|表示向量模。
综上,(1)本发明实施例通过利用包含外部知识的词向量库,引入专利的语义主题信息,能更加语义化匹配用户目标,获得更加精准的推荐结果,从而有效解决了现有的协同过滤技术需要利用较难获取的用户专利使用数据,数据稀疏性,具有冷启动问题,同时未能考虑外部知识引入,推荐结果与用户目标的语义关联性较低,推荐结果不精准的问题。(2)本发明实施例通过构建隐语义主题树,基于语义上的近邻主题召回进行主题相似度排序,达到进行多层次语义精准推荐,从而有效解决现有的基于内容推荐技术通常只包含专利的元信息和文本词信息,没有考虑文本词间的语义信息,推荐结果不精准同时无法从语义主题层面多层次进行推荐的问题。
根据本发明实施例提出的基于隐语义主题的专利推荐方法,通过引入开源词向量库构建隐语义主题树的方法,为多层次推荐召回及专利主题相似度匹配提供知识支撑,并基于当前专利主题使用近邻度量公式获取近邻主题,进行层次主题召回,使语义精准推荐的技术重点,从而可以通过利用包含外部知识的词向量库,引入专利的语义主题信息,能更加语义化匹配用户目标,获得更加精准的推荐结果,并通过构建隐语义主题树,基于语义上的近邻主题召回进行主题相似度排序,达到进行多层次语义精准推荐。
其次参照附图描述根据本发明实施例提出的基于隐语义主题的专利推荐装置。
图4是本发明一个实施例的基于隐语义主题的专利推荐装置的结构示意图。
如图4所示,该基于隐语义主题的专利推荐装置10包括:关键词获取模块100、词向量转换模块200、隐语义主题树构建模块300、主题分布获取模块400、层次主题召回模块500和主题相似度排序模块600。
其中,关键词获取模块100用于根据专利摘要和标题获取多个专利关键词。词向量转换模块200用于根据多个专利关键词利用开源词向量库进行词向量转换。隐语义主题树构建模块300用于基于k-means构建隐语义主题树。主题分布获取模块400用于通过隐语义主题树获取每个专利的主体分布。层次主题召回模块500用于构建主题召回列表。主题相似度排序模块600用于根据余弦公式得到主体分布相似度,以根据主体分相似度进行专利推荐。本发明实施例的装置10可以通过利用包含外部知识的词向量库,引入专利的语义主题信息,能更加语义化匹配用户目标,获得更加精准的推荐结果,并通过构建隐语义主题树,基于语义上的近邻主题召回进行主题相似度排序,达到进行多层次语义精准推荐。
进一步地,在本发明的一个实施例中,关键词获取模块100进一步用于通过分组正则表达式提取标题主干,并使用分词工具分词获取第一名词属性的单词,得到标题的至少一个专利关键词,并使用分词工具分词获取第二名词属性的单词,并使用TF-IDF算法无监督获取专利摘要的至少一个专利关键词。
进一步地,在本发明的一个实施例中,词向量转换模块200进一步用于利用开源词向量库查询每个专利关键词对应的词向量,构建关键词ID映射表、专利关键词列表和关键词词向量映射表。
进一步地,在本发明的一个实施例中,隐语义主题树构建模块300进一步用于通过词向量转换获得所有专利关键词对应的词向量样本,并设置第一目标主题数使用k-means进行关键词词向量的聚类,获得聚类簇并以簇中心表示主题,以作为叶子主题,并以簇中心作为新词向量样本,设置第二目标主题数,并使用k-means聚类,获得新聚类簇并使用簇中心表示主题,作为更高一层主题,并通过同一词向量关联上下主题,直至构成一棵完整主题树,并为每个主题树每个节点设置相应主题ID,得到隐语义主题树。
进一步地,在本发明的一个实施例中,其中,根据当前专利主题使用近邻度量公式获取近邻主题,以进行层次主题召回。
需要说明的是,前述对基于隐语义主题的专利推荐方法实施例的解释说明也适用于该实施例的基于隐语义主题的专利推荐装置,此处不再赘述。
根据本发明实施例提出的基于隐语义主题的专利推荐装置,通过引入开源词向量库构建隐语义主题树的方法,为多层次推荐召回及专利主题相似度匹配提供知识支撑,并基于当前专利主题使用近邻度量公式获取近邻主题,进行层次主题召回,使语义精准推荐的技术重点,从而可以通过利用包含外部知识的词向量库,引入专利的语义主题信息,能更加语义化匹配用户目标,获得更加精准的推荐结果,并通过构建隐语义主题树,基于语义上的近邻主题召回进行主题相似度排序,达到进行多层次语义精准推荐。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于隐语义主题的专利推荐方法,其特征在于,包括以下步骤:
根据专利摘要和标题获取多个专利关键词;
根据所述多个专利关键词利用开源词向量库进行词向量转换,并基于k-means构建隐语义主题树;以及
通过所述隐语义主题树获取每个专利的主体分布,并构建主题召回列表,及根据余弦公式得到主体分布相似度,以根据所述主体分相似度进行专利推荐。
2.根据权利要求1所述的方法,其特征在于,所述根据说明书摘要和发明名称获取专利关键词,包括:
通过分组正则表达式提取标题主干,并使用分词工具分词获取第一名词属性的单词,得到所述标题的至少一个专利关键词;
使用所述分词工具分词获取第二名词属性的单词,并使用TF-IDF算法无监督获取所述专利摘要的至少一个专利关键词。
3.根据权利要求1所述的方法,其特征在于,所述根据所述多个专利关键词利用开源库进行词向量转换,包括:
利用所述开源词向量库查询每个专利关键词对应的词向量,构建关键词ID映射表、专利关键词列表和关键词词向量映射表。
4.根据权利要求1所述的方法,其特征在于,所述基于k-means构建隐语义主题树,包括:
通过词向量转换获得所有专利关键词对应的词向量样本;
设置第一目标主题数使用k-means进行关键词词向量的聚类,获得聚类簇并以簇中心表示主题,以作为叶子主题;
以簇中心作为新词向量样本,设置第二目标主题数,并使用k-means聚类,获得新聚类簇并使用簇中心表示主题,作为更高一层主题,并通过同一词向量关联上下主题,直至构成一棵完整主题树,并为每个主题树每个节点设置相应主题ID,得到所述隐语义主题树。
5.根据权利要求1所述的方法,其特征在于,其中,根据当前专利主题使用近邻度量公式获取近邻主题,以进行层次主题召回。
6.一种基于隐语义主题的专利推荐装置,其特征在于,包括:
关键词获取模块,用于根据专利摘要和标题获取多个专利关键词;
词向量转换模块,用于根据所述多个专利关键词利用开源词向量库进行词向量转换;
隐语义主题树构建模块,用于基于k-means构建隐语义主题树;
主题分布获取模块,用于通过所述隐语义主题树获取每个专利的主体分布;
层次主题召回模块,用于构建主题召回列表;以及
主题相似度排序模块,用于根据余弦公式得到主体分布相似度,以根据所述主体分相似度进行专利推荐。
7.根据权利要求6所述的装置,其特征在于,所述关键词获取模块进一步用于通过分组正则表达式提取标题主干,并使用分词工具分词获取第一名词属性的单词,得到所述标题的至少一个专利关键词,并使用所述分词工具分词获取第二名词属性的单词,并使用TF-IDF算法无监督获取所述专利摘要的至少一个专利关键词。
8.根据权利要求6所述的装置,其特征在于,所述词向量转换模块进一步用于利用所述开源词向量库查询每个专利关键词对应的词向量,构建关键词ID映射表、专利关键词列表和关键词词向量映射表。
9.根据权利要求6所述的装置,其特征在于,所述隐语义主题树构建模块进一步用于通过词向量转换获得所有专利关键词对应的词向量样本,并设置第一目标主题数使用k-means进行关键词词向量的聚类,获得聚类簇并以簇中心表示主题,以作为叶子主题,并以簇中心作为新词向量样本,设置第二目标主题数,并使用k-means聚类,获得新聚类簇并使用簇中心表示主题,作为更高一层主题,并通过同一词向量关联上下主题,直至构成一棵完整主题树,并为每个主题树每个节点设置相应主题ID,得到所述隐语义主题树。
10.根据权利要求6所述的装置,其特征在于,其中,根据当前专利主题使用近邻度量公式获取近邻主题,以进行层次主题召回。
CN201910620204.8A 2019-07-10 2019-07-10 基于隐语义主题的专利推荐方法及装置 Pending CN110457461A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910620204.8A CN110457461A (zh) 2019-07-10 2019-07-10 基于隐语义主题的专利推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910620204.8A CN110457461A (zh) 2019-07-10 2019-07-10 基于隐语义主题的专利推荐方法及装置

Publications (1)

Publication Number Publication Date
CN110457461A true CN110457461A (zh) 2019-11-15

Family

ID=68482633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910620204.8A Pending CN110457461A (zh) 2019-07-10 2019-07-10 基于隐语义主题的专利推荐方法及装置

Country Status (1)

Country Link
CN (1) CN110457461A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105041A (zh) * 2019-12-02 2020-05-05 成都四方伟业软件股份有限公司 一种用于智慧数据碰撞的机器学习方法及装置
CN116304016A (zh) * 2022-12-29 2023-06-23 太和康美(北京)中医研究院有限公司 一种文献的共性分析方法及装置
CN117875262A (zh) * 2024-03-12 2024-04-12 青岛天一红旗软控科技有限公司 基于管理平台的数据处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933239A (zh) * 2015-06-09 2015-09-23 江苏大学 一种基于混合模型的个性化职位信息推荐***及实现方法
US20180268015A1 (en) * 2015-09-02 2018-09-20 Sasha Sugaberry Method and apparatus for locating errors in documents via database queries, similarity-based information retrieval and modeling the errors for error resolution
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
CN109101620A (zh) * 2018-08-08 2018-12-28 广州神马移动信息科技有限公司 相似度计算方法、聚类方法、装置、存储介质及电子设备
CN109189942A (zh) * 2018-09-12 2019-01-11 山东大学 一种专利数据知识图谱的构建方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933239A (zh) * 2015-06-09 2015-09-23 江苏大学 一种基于混合模型的个性化职位信息推荐***及实现方法
US20180268015A1 (en) * 2015-09-02 2018-09-20 Sasha Sugaberry Method and apparatus for locating errors in documents via database queries, similarity-based information retrieval and modeling the errors for error resolution
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
CN109101620A (zh) * 2018-08-08 2018-12-28 广州神马移动信息科技有限公司 相似度计算方法、聚类方法、装置、存储介质及电子设备
CN109189942A (zh) * 2018-09-12 2019-01-11 山东大学 一种专利数据知识图谱的构建方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105041A (zh) * 2019-12-02 2020-05-05 成都四方伟业软件股份有限公司 一种用于智慧数据碰撞的机器学习方法及装置
CN111105041B (zh) * 2019-12-02 2022-12-23 成都四方伟业软件股份有限公司 一种用于智慧数据碰撞的机器学习方法及装置
CN116304016A (zh) * 2022-12-29 2023-06-23 太和康美(北京)中医研究院有限公司 一种文献的共性分析方法及装置
CN116304016B (zh) * 2022-12-29 2023-10-10 太和康美(北京)中医研究院有限公司 一种文献的共性分析方法及装置
CN117875262A (zh) * 2024-03-12 2024-04-12 青岛天一红旗软控科技有限公司 基于管理平台的数据处理方法
CN117875262B (zh) * 2024-03-12 2024-06-04 青岛天一红旗软控科技有限公司 基于管理平台的数据处理方法

Similar Documents

Publication Publication Date Title
US9971974B2 (en) Methods and systems for knowledge discovery
Tseng Automatic thesaurus generation for Chinese documents
Parameswaran et al. Towards the web of concepts: Extracting concepts from large datasets
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
US20090019034A1 (en) Media discovery and playlist generation
WO2003098396A2 (en) System and method for automatically discovering a hierarchy of concepts from a corpus of documents
CN108319583B (zh) 从中文语料库提取知识的方法与***
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN110457461A (zh) 基于隐语义主题的专利推荐方法及装置
Hu et al. Enhancing accessibility of microblogging messages using semantic knowledge
Liu et al. Information retrieval and Web search
US20140089246A1 (en) Methods and systems for knowledge discovery
Roy et al. Discovering and understanding word level user intent in web search queries
Celikyilmaz et al. Leveraging web query logs to learn user intent via bayesian latent variable model
CN102117285B (zh) 一种基于语义索引的检索方法
Yang et al. Automatic generation of English/Chinese thesaurus based on a parallel corpus in laws
Wang et al. Constructing a comprehensive events database from the web
CN111259136B (zh) 一种基于用户偏好自动生成主题评价摘要的方法
Tan et al. Placing videos on a semantic hierarchy for search result navigation
Bellini et al. Optimization of information retrieval for cross media contents in a best practice network
Tohalino et al. Using citation networks to evaluate the impact of text length on the identification of relevant concepts
Siemiński Fast algorithm for assessing semantic similarity of texts
Gheni et al. Suggesting new words to extract keywords from title and abstract

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191115

RJ01 Rejection of invention patent application after publication