CN111090743A - 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置 - Google Patents

一种基于词嵌入和多值形式概念分析的论文推荐方法及装置 Download PDF

Info

Publication number
CN111090743A
CN111090743A CN201911169957.8A CN201911169957A CN111090743A CN 111090743 A CN111090743 A CN 111090743A CN 201911169957 A CN201911169957 A CN 201911169957A CN 111090743 A CN111090743 A CN 111090743A
Authority
CN
China
Prior art keywords
keyword
vector
concept
user
formal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911169957.8A
Other languages
English (en)
Other versions
CN111090743B (zh
Inventor
蒋运承
朱星图
詹捷宇
马文俊
刘宇东
李亚扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN201911169957.8A priority Critical patent/CN111090743B/zh
Publication of CN111090743A publication Critical patent/CN111090743A/zh
Application granted granted Critical
Publication of CN111090743B publication Critical patent/CN111090743B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于词嵌入和多值形式概念分析的论文推荐方法及装置,包括建立对象为论文、属性为所有论文的关键词的形式概念背景表;从所述形式概念背景表中,抽取形式概念的内涵和外延,得到若干形式概念;计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量;获取用户关键词,计算所述用户关键词的第二中心向量;计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。相对于现有技术,本发明更好地描述了论文与关键词的关联性,提高了论文推荐的效率和精准性。

Description

一种基于词嵌入和多值形式概念分析的论文推荐方法及装置
技术领域
本发明涉及推荐技术领域,特别是涉及一种基于词嵌入和多值形式概念分析的论文推荐方法及装置。
背景技术
随着互联网技术的高速发展,越来越多的学术网站出现并被科研工作者所使用,比如著名的中国知网、百度学术、万方数据库等。在用户进行搜索时,提供相关的搜索语句,网站就会从大量的论文数据中快速的获取相关论文,并推荐给用户,这无疑使科研人员之间的交流和获取信息变得格外容易和方便。但学术网站在提供极大便利的同时,信息过载已经成为科研工作者所面临的主要困境之一,科研工作者难以快速从大量的推荐论文中获取有效信息,因此如何提高推荐的精准度和效率成为了难题。
目前,现有技术中有大量通过词嵌入实现论文推荐的聚类算法,主要是利用Word2Vec、GloVe等通过浅层神经网络实现词嵌入的工具,将论文中的关键信息映射到带有语义关系的向量,并通过层次聚类、密度聚类等聚类算法进行词向量聚类,获取推荐论文。但是,上述方法在处理大量文本时有非常高的时空复杂度,并且不能全面地描述论文与关键词之间的关系,导致论文的推荐效率和精准度均较低。
发明内容
为克服相关技术中存在的问题,本发明实施例提供了一种基于词嵌入和多值形式概念分析的论文推荐方法及装置。
根据本发明实施例的第一方面,提供一种论文推荐方法,包括如下步骤:
建立对象为论文、属性为所有论文的关键词的形式概念背景表,所述形式概念背景表中的关系指示每篇论文与每个关键词之间的对应关系;
从所述形式概念背景表中,抽取形式概念的内涵和外延,得到若干形式概念,其中,每个形式概念中外延里的论文都与内涵里的每个关键词有相同的对应关系;
计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量;
获取用户关键词,计算所述用户关键词的第二中心向量;
计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。
相对于现有技术,本发明(申请)实施例利用形式概念分析的原理进行形式概念的提取,将具有相同的对应关系的论文和关键词进行整合,更全面地描述了论文与关键词的关联性,并且,避免了形式概念分析中概念格的生成,降低了算法的时空复杂度,提高了推荐效率。同时,通过词向量技术将关键词转换为词向量,能够更好地计算出用户关键词与形式概念中关键词的相似度,进一步提高了论文推荐的精准性。
在一个可选的实施例中,所述对应关系包括:
每篇所述论文具有该关键词的概率;
所述相同的对应关系包括:每篇所述论文具有该关键词的概率大于第一阈值。
通过引入概率的计算,实现了多值形式概念分析,使得在论文推荐的过程中,不仅仅关注论文原有的关键词,也同时关注论文具有该关键词概率较高的关键词,提高论文推荐的精准度。
在一个可选的实施例中,获取每篇论文中具有每个关键词的概率的步骤包括:
将所有关键词转换为词向量;
计算每篇所述论文中不具有的每个关键词的词向量与该篇论文中具有的每个关键词的词向量之间的余弦相似度;
获取每篇所述论文中不具有的每个关键词的词向量与该篇论文中具有的每个关键词的词向量之间的最大余弦相似度,得到每篇所述论文具有该关键词的概率。
通过计算余弦相似度作为论文具有关键词的概率,能够更好地反映了关键词的词向量之间的相似度,进一步提高论文推荐的精准度。
在一个可选的实施例中,每个形式概念中内涵里的关键词数量和外延里的论文数量都至少大于1,且每个形式概念中的内涵里的关键词数量和外延里的论文数量的乘积大于第二阈值。
通过对关键词数量、论文数量、以及关键词数量与论文数量的乘积值的限定,使得抽取的形式概念更具有代表性,更能够反应论文的共性特征。
在一个可选的实施例中,所述计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量,包括步骤:
计算每个所述形式概念中每个所述关键词的词向量;
根据如下公式计算每个所述形式概念的第一中心向量:
Figure BDA0002288412340000021
其中,若vi表示关键词的词向量,n表示关键词的数量,则Vcenter1表示每个形式概念的第一中心向量。
通过计算形式概念内关键词的词向量的第一中心向量,实现了将多个关键词用统一的向量表示,降低了算法复杂度,提高了推荐效率。
在一个可选的实施例中,所述获取用户关键词,计算该用户关键词的第二中心向量,包括步骤:
获取用户关键词;
计算每个所述用户关键词的词向量;
根据每个所述用户关键词的词向量,通过如下公式计算出所述用户关键词的第二中心向量:
Figure BDA0002288412340000031
其中,vi表示用户关键词的词向量,n表示用户关键词的数量,Vcenter2表示用户关键词的第二中心向量。
通过计算用户关键词的词向量的第二中心向量,实现了将多个用户关键词用统一的向量表示,降低了算法复杂度,提高了推荐效率。
在一个可选的实施例中,所述获取用户关键词,包括步骤:
获取用户的个人信息文档、行为偏好文档和检索要求文档;
将所述个人信息文档、所述行为偏好文档和所述检索要求文档进行结巴分词,得到初始用户关键词;
根据所述初始用户关键词,通过关键度计算公式计算出所述初始用户关键词的关键度;
获取所述初始用户关键词的关键度大于第三阈值的初始用户关键词作为所述用户关键词。
相较于仅根据用户检索词进行论文推荐的方法,通过获取用户的个人信息、行为偏好、检索要求等,更全面地确定了当前用户的初始用户关键词,并通过计算初始用户关键词的关键度,获取用户关键词,使得最终获取的用户关键词更能够反应用户的检索需求,从而能够为用户提供更精准的论文推荐。
在一个可选的实施例中,根据所述初始用户关键词,通过如下关键度计算公式,计算出所述初始用户关键词的关键度:
Figure BDA0002288412340000032
Figure BDA0002288412340000033
TF-IDFi=TFi×IDFi
|wi|表示初始用户关键词wi在文档中出现的次数,
Figure BDA0002288412340000041
示所有初始用户关键词出现的次数之和;|D|表示文档的总数,|{j:wi∈D}|表示出现初始用户关键词wi的文档数。
通过上述关键度计算公式,能够使关键度的计算更为准确,更能够反应初始用户关键词的关键程度。
在一个可选的实施例中,所述计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文,包括步骤:
根据如下距离公式计算所述第二中心向量与每个第一中心向量之间的距离:
Figure BDA0002288412340000042
其中,若第一中心向量表示为(x11,x12,x13...x1m),第二中心向量表示为(x21,x22,x23...x2m),m表示第一中心向量和第二中心向量的维度,则d表示第一中心向量与第二中心向量的距离。
根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。
通过引入欧式距离的计算中心向量的距离,从而更精准地反应第一中心向量与第二中心向量的相似度。
根据本发明实施例的第二方面,提供一种基于嵌入和多值形式概念分析的论文推荐装置,包括:
构建单元,用于建立对象为论文、属性为所有论文的关键词的形式概念背景表,所述形式概念背景表中的关系指示每篇论文与每个关键词之间的对应关系;
抽取单元,用于从所述形式概念背景表中,抽取形式概念的内涵和外延,得到若干形式概念,其中,每个形式概念中外延里的论文都与内涵里的每个关键词有相同的对应关系;
第一运算单元,用于计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量;
第二运算单元,用于获取用户关键词,计算所述用户关键词的第二中心向量;
推荐单元,计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明一个示例性实施例示出的基于词嵌入和多值形式概念分析的论文推荐方法的流程示意图;
图2为本发明一个示例性实施例示出的形式概念背景表;
图3为本发明一个示例性实施例示出的多值形式概念背景表;
图4为本发明一个示例性实施例示出的基于词嵌入和多值形式概念分析的论文推荐方法中S101的流程示意图;
图5为本发明一个示例性实施例示出的基于词嵌入和多值形式概念分析的论文推荐方法中S102的流程示意图;
图6为本发明一个示例性实施例示出的基于词嵌入和多值形式概念分析的论文推荐方法中S103的流程示意图;
图7为本发明一个示例性实施例示出的基于词嵌入和多值形式概念分析的论文推荐方法中S104的流程示意图;
图8为本发明一个示例性实施例示出的基于词嵌入和多值形式概念分析的论文推荐方法中S105的流程示意图;
图9为本发明一个示例性实施例示出的基于词嵌入和多值形式概念分析的论文推荐装置的结构示意图;
图10为本发明一个示例性实施例示出的论文推荐设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。
请参阅图1,图1为本发明一个示例性实施例示出的基于词嵌入和多值形式概念分析的论文推荐方法的流程示意图,所述方法由论文推荐设备执行包括如下步骤:
S101:建立对象为论文、属性为所有论文的关键词的形式概念背景表,所述形式概念背景表中的关系指示每篇论文与每个关键词之间的对应关系。
形式概念分析是一种数据分析和规则提取的方法,常用于机器学习、数据挖掘和知识发现等领域。形式概念背景表是进行形式概念分析的基础,它能够表示对象、属性以及它们之间的二元对应关系。
请参阅图2,图2为本发明第一个示例性实施例示出的形式概念背景表,在该表中对象为pa1,pa2和pa3,属性为Kw1至Kw5,二元对应关系指示了对象pa1至pa3中是否具有属性Kw1至Kw5。
在本申请实施例中,论文推荐设备基于论文库中的所有论文以及所有论文的关键词,建立以对象为论文、属性为所有论文的关键词的形式概念背景表,通过形式概念背景表中的关系指示每篇论文与每个关键词之间的对应关系。具体地,每篇论文与每个关键词之间的对应关系可以是每篇论文是否具有每个关键词,也可以是每篇论文具有每个关键词的概率。
在一个示例性实施例中,每篇论文与每个关键词之间的对应关系是每篇论文是否具有每个关键词,值为1则表示该论文具有该关键词,值为0则表示该论文不具有该关键词,通过该种方式建立的形式概念背景表为单值形式概念背景表,其能够体现论文文本中所记载的关键词。
在另一个示例性实施例中,每篇论文与每个关键词之间的对应关系在指示每篇论文是否具有每个关键词的基础上,还包括每篇论文具有每个关键词的概率,概率值指示了该篇论文具有的关键词与该不具有的关键词之间的相似度。
具体地,请参阅图3,图3为本发明第一个示例性实施例示出的多值形式概念背景表,在该多值形式概念背景表中,对象为论文pa1,pa2和pa3,属性为关键词Kw1至Kw5,二元对应关系不但指示了论文pa1至pa3文本中所记载的关键词,还指示了论文pa1至pa3中具有关键词Kw1至Kw5的概率。多值形式概念背景表不仅能够体现论文文本所明确记载的关键词,也能够反应其他未记载的关键词可能在论文文本中体现的概率,进一步扩充了原有形式概念背景表,形成了多值形式概念背景,使在论文推荐过程,不再仅仅关注论文文本内明确记载的关键词。
进一步地,为了更准确地获取每篇论文中具有每个关键词的概率,在一个示例性实施例中S101可以包括S1011~S1013,如图4所示,S1011~S1013具体如下:
S1011:将所有关键词转换为词向量。
词嵌入是自然语言处理的一种方法,其是指将词语在预定义的向量空间中被表示为实数向量,从而实现将词语映射到一个带有语义关系的词向量上,目前有众多浅层神经网络实现词嵌入的工具,例如Word2Vec、GloVe等。在本示例性实施例中,选用Word2Vec作为词向量转化的工具,将Word2Vec进行预训练,得到已经经过预训练的词嵌入模型,避免了训练模型带来的复杂度,一定程度上加快了推荐的效率。
在本申请实施例中,论文推荐设备将所有关键词输入至经过预训练的词嵌入模型,得到所有关键词对应的词向量。例如:在一个论文中包含“聚类”“分类”“食品”等若干词语,而这若干单词映射到向量空间中,“聚类”对应的向量为(0.1 0.2 0.3),“分类”对应的向量为(0.2 0.2 0.4),“食品”对应的映射为(-0.4 -0.5 -0.2)。这种将词语X{x1,x2,x3,x4,x5……xn}映射到多维向量空间Y{y1,y2,y3,y4,y5……yn}的过程,即为词嵌入过程。
S1012:计算每篇所述论文中不具有的每个关键词的词向量与该篇论文中具有的每个关键词的词向量之间的余弦相似度。
在推荐***所在的技术领域中,有许多相似度计算方法,例如:欧几里得距离、皮尔逊相关系数以及余弦相似度等,相似度的计算能够精准地反应在向量空间中,词向量之间的相似程度,具有相似意义的词语对应的词向量在向量空间中的距离会更小,相似度也会更小。
在一个示例性实施例中,通过计算关键词的词向量的余弦相似度表示关键词的相似程度。具体地,论文推荐设备计算每篇论文中不具有的每个关键词的词向量与该篇论文中具有的每个关键词的词向量之间的余弦相似度。其中,不具有的关键词为论文文本内未记载的关键词,通过计算不具有的关键词的词向量与论文中具有的每个关键词的词向量之间的余弦相似度,能够获知不具有的关键词与具有的关键词之间是否带有相似意义,从而得知不具有的关键词的相似意义的表达是否可能出现在该论文中。
具体地,余弦相似度计算公式如下:
Figure BDA0002288412340000071
通过该公式可知余弦相似度公式计算了两个词向量之间的夹角,夹角越小,两个词向量对应的关键词之间越相似。例如:将“聚类”对应的向量(0.1 0.2 0.3),“分类”对应的向量(0.2 0.2 0.4),“食品”对应的映射(-0.4 -0.5 -0.2)代入余弦相似度计算公式,基于余弦相似度数值可知,“聚类”和“分类”两个词向量之间的夹角更小,对应的词语之间越相似。
S1013:获取每篇所述论文中不具有的每个关键词的词向量与该篇论文中具有的每个关键词的词向量之间的最大余弦相似度,得到每篇所述论文具有该关键词的概率。
在本申请实施例中,论文推荐设备获取每篇所述论文中不具有的每个关键词的词向量与该篇论文中具有的每个关键词的词向量之间的最大余弦相似度,得到每篇所述论文具有该关键词的概率。例如:当前论文具有的关键词的词向量a1和a2,论文不具有的关键词的词向量为b1和b2,b1与a1的余弦相似度为0.8,b1与a2的余弦相似度为0.6,该最大余弦相似度0.8即为该论文具有关键体t1的概率,更大的余弦相似度能够更好地反应出该不具有的关键词与论文具有的关键词之间具有相似意义的程度,提高后续论文推荐的精准度。
S102:从所述形式概念背景表中,抽取形式概念的内涵和外延,得到若干形式概念,其中,每个形式概念中外延里的论文都与内涵里的每个关键词有相同的对应关系;
在建立形式概念背景表后通常会进行概念格的生成,然而概念格的生成会造成极大的空间复杂度,降低推荐效率。并且,推荐***并不需要概念格的层次关系,只需进行内涵和外延的抽取,因此,在本实施例中仅进行内涵和外延的抽取,不进行概念格的生成,从而提高论文推荐方法的执行效率。
在本申请实施例中,在该形式概念内,内涵为关键词集,外延为论文集,同一形式概念内的内涵和外延具有关联性。具体地,论文推荐设备从所述形式概念背景表中,抽取形式概念的内涵和外延,得到若干形式概念;其中,每个形式概念中外延里的论文都与内涵里的每个关键词有相同的对应关系。
在一个示例性实施例中,该相同的对应关系为外延里的论文均具有内涵里的关键词,例如形式概念c1=(E(pa1,pa3),I(kw2,kw3,kw4)),外延包括论文pa1,pa3,内涵包括关键词kw2,kw3,kw4,相同的对应关系为外延里的论文pa1和pa3均具有内涵里的关键词kw2,kw3,kw4。
在另一个示例性实施例中,该相同的对应关系为外延里的每篇论文具有内涵里的关键词的概率大于第一阈值。例如形式概念c1=(E(pa1,pa3),I(kw2,kw3,kw4)),外延包括论文pa1,pa3,内涵包括关键词kw2,kw3,kw4,相同的对应关系为外延里的论文pa1和pa3均具有内涵里的关键词kw2,kw3,kw4的概率大于第一阈值。该第一阈值在本实施例中为0.6,第一阈值可根据实际情况而设定,在此不做限制。
进一步地,为了更保证抽取的若干形式概念的有效性,在一个示例性实施例中S102可以包括S1021,如图5所示,S1021具体如下:
S1021:每个形式概念中内涵里的关键词数量和外延里的论文数量都至少大于1,且每个形式概念中的内涵里的关键词数量和外延里的论文数量的乘积大于第二阈值。
论文推荐设备仅抽取形式概念中内涵里的关键词数量和外延里的论文数量都至少大于1的形式概念,并且每个形式概念中的内涵里的关键词数量和外延里的论文数量的乘积大于第二阈值。其中,该第二阈值在本实施例中为6,第二阈值可以根据实际情况设定,在此不做限制。通过上述设置,能够保证抽取的若干形式概念均有效,同一概念的外延和内涵都具备关联。
S103:计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量。
在本申请实施例中,论文推荐设备计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量。具体地,论文推荐设备将每个形式概念中的每个关键词输入至经过预训练的词嵌入模型,得到形式概念中每个关键词的词向量,再执行中心向量的计算方法,计算得出形式概念的第一中心向量。其中,该中心向量的计算方法在一个示例性的实施例中可以是将形式概念中的每个关键词的词向量代入平行四边形法则进行计算,该中心向量的计算方法在一个示例性的实施例中还可以是将形式概念中的每个关键词的词向量代入词向量均值计算公式进行计算。
进一步地,为更准确地计算形式概念的第一中心向量,在一个示例性的实施例中,S103可以包括S1031~S1032,如图6所示,S1031~S1032具体如下:
S1031:计算每个所述形式概念中每个所述关键词的词向量。
论文推荐设备计算每个所述形式概念中每个所述关键词的词向量。
S1032:根据如下公式计算每个所述形式概念的第一中心向量:
Figure BDA0002288412340000091
其中,若vi表示关键词的词向量,n表示关键词的数量,则V1表示每个形式概念的第一中心向量。
论文推荐设备将每个形式概念中的每个关键词的词向量代入公式
Figure BDA0002288412340000092
得到每个形式概念的第一中心向量。例如,形式概念V中具有关键词v1,v2和v3,v1的词向量表示为(1,3,5),v2的词向量表示为(2,2,7),v3的词向量表示为(3,1,6),最终会得到Vcenter1为(2,2,6),Vcenter1中各维度的数值为关键词v1,v2和v3中相对应维度的数值的均值。通过该公式进行第一向量中心的计算实现了将多个关键词用统一的向量表示,降低了后续算法复杂度,同时也能够准确代表多个关键词的信息。
S104:获取用户关键词,计算所述用户关键词的第二中心向量。
在本申请实施例中,论文推荐设备获取用户关键词,计算用户关键词的第二中心向量。其中,第二中心向量的计算方法可以是将每个用户关键词的词向量代入平行四边形法则进行计算,还可以是将用户关键词的词向量代入词向量均值计算公式进行计算。
进一步地,为计算用户关键词的第二中心向量,在一个示例性实施例中,S104可以包括S1041~S1043,如图7所示,S1041~S1043具体如下:
S1041:获取用户关键词。
论文推荐设备获取用户关键词。其中,该用户关键词可以通过如下方式获取:(1)根据当前用户在检索框内输入的检索关键词;(2)根据当前用户的检索记录、检索习惯、个人信息进行聚类;(3)通过分词算法对用户的个人信息文档、行为偏好文档和检索要求文档进行分词,得到关键度较高的分词后的词语。
在一个示例性实施例中,论文推荐设备获取用户的个人信息文档、行为偏好文档和检索要求文档;将所述个人信息文档、所述行为偏好文档和所述检索要求文档进行结巴(jieba)分词,得到初始用户关键词;根据所述初始用户关键词,通过关键度计算公式计算出所述初始用户关键词的关键度;获取所述初始用户关键词的关键度大于第三阈值的初始用户关键词作为所述用户关键词。其中,关键度计算公式可以为统计初始用户关键词的出现次数,根据出现次数确认初始用户关键词的关键度,得到用户关键词。相较于仅根据用户检索词进行论文推荐的方法,通过获取用户的个人信息、行为偏好、检索要求等,更全面地确定了当前用户的初始用户关键词,并通过计算初始用户关键词的关键度,获取用户关键词,使得最终获取的用户关键词更能够反应用户的检索需求,从而能够为用户提供更精准的论文推荐。
在一个示例性实施例中,该关键度计算公式为:
Figure BDA0002288412340000101
Figure BDA0002288412340000102
TF-IDFi=TFi×IDFi
|wi|表示初始用户关键词wi在文档中出现的次数,
Figure BDA0002288412340000103
示所有初始用户关键词出现的次数之和;|D|表示文档的总数,|{j:wi∈D}|表示出现初始用户关键词wi的文档数。通过该关键度计算公式,能够使关键度的计算更为准确,更能够反应初始用户关键词的关键程度。
S1042:计算每个所述用户关键词的词向量。
论文推荐设备将每个用户关键词的词向量输入至经过预训练的词嵌入模型,得到每个用户关键词的词向量。
S1043:根据每个所述用户关键词的词向量,通过如下公式计算出所述用户关键词的第二中心向量:
Figure BDA0002288412340000111
其中,vi表示用户关键词的词向量,n表示用户关键词的数量,Vcenter2表示用户关键词的第二中心向量。论文推荐设备将每个用户关键词的词向量代入公式
Figure BDA0002288412340000112
得到用户关键词的第二中心向量。通过该公式进行第二向量中心的计算实现了将多个用户关键词用统一的向量表示,降低了后续算法复杂度,同时也能够准确代表多个用户关键词的信息。
S105:计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。
在本申请实施例中,论文推荐设备计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。其中,第二中心向量和第一中心向量的距离可以通过欧式距离、标准欧式距离或马氏距离等距离计算方法得到。
进一步地,为更精准地反应第一中心向量与第二中心向量的相似度,在一个示例性实施例中,S105可以包括S1051~S1052,如图8所示,S1051~S1052具体如下:
S1051:根据如下距离公式计算所述第二中心向量与每个第一中心向量之间的距离:
Figure BDA0002288412340000113
其中,若第一中心向量表示为(x11,x12,x13...x1m),第二中心向量表示为(x21,x22,x23...x2m),m表示第一中心向量和第二中心向量的维度,则d表示第一中心向量与第二中心向量的距离。通过引入欧式距离的计算中心向量的距离,从而更精准地反应第一中心向量与第二中心向量的相似度。
S1052:根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。
论文推荐设备将距离输入排序算法,得到距离的排序结果,并根据距离的排序结果向用户推荐距离较小的形式概念中的论文。
在一个示例性的实施例中,论文推荐设备向用户推荐距离较小的论文集中的论文,该论文集中的论文是以乱序向用户推荐。
在另一个示例性的实施例中,论文推荐设备向用户推荐距离较小的论文集中的论文,该论文集中的论文是根据论文在若干个形式概念中出现次数由大到小的顺序,向用户推荐。通过上述方式,使得在原有的推荐基础上,进一步优先向用户推荐出现次数较高的论文,使得本论文推荐方法所推荐的论文不仅精准而且更具有代表性。
请参见图9,图9为本发明一个示例性实施例示出的基于词嵌入和多值形式概念分析的论文推荐装置的结构示意图。包括的各单元用于执行图1、图4~图8对应的实施例中的各步骤,具体请参阅图1、图4~图8各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图9,基于词嵌入和多值形式概念分析的论文推荐装置9包括:
构建单元21,用于建立对象为论文、属性为所有论文的关键词的形式概念背景表,所述形式概念背景表中的关系指示每篇论文与每个关键词之间的对应关系;
抽取单元22,用于从所述形式概念背景表中,抽取形式概念的内涵和外延,得到若干形式概念,其中,每个形式概念中外延里的论文都与内涵里的每个关键词有相同的对应关系;
第一运算单元23,用于计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量;
第二运算单元24,用于获取用户关键词,计算所述用户关键词的第二中心向量;
推荐单元25,计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。
请参见图10,图10是本发明一个示例性实施例提供的论文推荐设备的示意图。如图10所示,该实施例的论文推荐设备3包括:处理器30、存储器31以及存储在所述存储器31中并可在所述处理器30上运行的计算机程序32,例如基站调配程序。所述处理器30执行所述计算机程序32时实现上述各个基于词嵌入和多值形式概念分析的论文推荐方法实施例中的步骤,例如图1所示的步骤S101至S105。或者,所述处理器30执行所述计算机程序32时实现上述各装置实施例中各模块/单元的功能,例如图9所示单元21至25的功能。
示例性的,所述计算机程序32可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述处理器30执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序32在所述论文推荐设备3中的执行过程。例如,所述计算机程序32可以被分割成构建单元、抽取单元、第一运算单元、第二运算单元和推荐单元,各单元具体功能如下:
构建单元,用于建立对象为论文、属性为所有论文的关键词的形式概念背景表,所述形式概念背景表中的关系指示每篇论文与每个关键词之间的对应关系;
抽取单元,用于从所述形式概念背景表中,抽取形式概念的内涵和外延,得到若干形式概念,其中,每个形式概念中外延里的论文都与内涵里的每个关键词有相同的对应关系;
第一运算单元,用于计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量;
第二运算单元,用于获取用户关键词,计算所述用户关键词的第二中心向量;
推荐单元,计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。
所述论文推荐设备3可包括,但不仅限于,处理器30、存储器31。本领域技术人员可以理解,图10仅仅是论文推荐设备3的示例,并不构成对论文推荐设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述论文推荐设备3还可以包括输入输出设备、网络接入设备、总线等。
所称处理器30可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器31可以是所述论文推荐设备3的内部存储单元,例如论文推荐设备3的硬盘或内存。所述存储器31也可以是所述论文推荐设备3的外部存储设备,例如所述论文推荐设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器81还可以既包括所述论文推荐设备3的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机程序以及所述论文推荐设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。
在本申请说明书中描述的参考“一个实施例”或“一个示例性实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个示例性实施例中”、“在另一个示例性实施例中”、“在一个实施例中”、“在其他实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。
本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。

Claims (10)

1.一种基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于,包括步骤:
建立对象为论文、属性为所有论文的关键词的形式概念背景表,所述形式概念背景表中的关系指示每篇论文与每个关键词之间的对应关系;
从所述形式概念背景表中,抽取形式概念的内涵和外延,得到若干形式概念,其中,每个形式概念中外延里的论文都与内涵里的每个关键词有相同的对应关系;
计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量;
获取用户关键词,计算所述用户关键词的第二中心向量;
计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。
2.根据权利要求1所述的基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于:
所述对应关系包括:每篇所述论文具有该关键词的概率;
所述相同的对应关系包括:每篇所述论文具有该关键词的概率大于第一阈值。
3.根据权利要求2所述的基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于,获取每篇论文中具有每个关键词的概率的步骤包括:
将所有关键词转换为词向量;
计算每篇所述论文中不具有的每个关键词的词向量与该篇论文中具有的每个关键词的词向量之间的余弦相似度;
获取每篇所述论文中不具有的每个关键词的词向量与该篇论文中具有的每个关键词的词向量之间的最大余弦相似度,得到每篇所述论文具有该关键词的概率。
4.根据权利要求1所述的基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于:
每个形式概念中内涵里的关键词数量和外延里的论文数量都至少大于1,且每个形式概念中的内涵里的关键词数量和外延里的论文数量的乘积大于第二阈值。
5.根据权利要求1至4任意一条所述的基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于,所述计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量,包括步骤:
计算每个所述形式概念中每个所述关键词的词向量;
根据如下公式计算每个所述形式概念的第一中心向量:
Figure FDA0002288412330000011
其中,若vi表示关键词的词向量,n表示关键词的数量,则Vcenter1表示每个形式概念的第一中心向量。
6.根据权利要求1所述的基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于,所述获取用户关键词,计算该用户关键词的第二中心向量,包括步骤:
获取用户关键词;
计算每个所述用户关键词的词向量;
根据每个所述用户关键词的词向量,通过如下公式计算出所述用户关键词的第二中心向量:
Figure FDA0002288412330000021
其中,vi表示用户关键词的词向量,n表示用户关键词的数量,Vcenter2表示用户关键词的第二中心向量。
7.根据权利要求6所述的基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于,所述获取用户关键词,包括步骤:
获取用户的个人信息文档、行为偏好文档和检索要求文档;
将所述个人信息文档、所述行为偏好文档和所述检索要求文档进行结巴分词,得到初始用户关键词;
根据所述初始用户关键词,通过关键度计算公式计算出所述初始用户关键词的关键度;
获取所述初始用户关键词的关键度大于第三阈值的初始用户关键词作为所述用户关键词。
8.根据权利要求7所述的基于嵌入和多值形式概念分析的论文推荐方法,其特征在于,根据所述初始用户关键词,通过如下关键度计算公式,计算出所述初始用户关键词的关键度:
Figure FDA0002288412330000022
Figure FDA0002288412330000023
TF-IDFi=TFi×IDFi
|wi|表示初始用户关键词wi在文档中出现的次数,
Figure FDA0002288412330000024
示所有初始用户关键词出现的次数之和;|D|表示文档的总数,|{j:wi∈D}|表示出现初始用户关键词wi的文档数。
9.根据权利要求1所述的基于词嵌入和多值形式概念分析的论文推荐方法,其特征在于,所述计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文,包括步骤:
根据如下距离公式计算所述第二中心向量与每个第一中心向量之间的距离:
Figure FDA0002288412330000031
其中,若第一中心向量表示为(x11,x12,x13...x1m),第二中心向量表示为(x21,x22,x23...x2m),m表示第一中心向量和第二中心向量的维度,则d表示第一中心向量与第二中心向量的距离;
根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。
10.一种基于嵌入和多值形式概念分析的论文推荐装置,其特征在于,包括:
构建单元,用于建立对象为论文、属性为所有论文的关键词的形式概念背景表,所述形式概念背景表中的关系指示每篇论文与每个关键词之间的对应关系;
抽取单元,用于从所述形式概念背景表中,抽取形式概念的内涵和外延,得到若干形式概念,其中,每个形式概念中外延里的论文都与内涵里的每个关键词有相同的对应关系;
第一运算单元,用于计算每个所述形式概念中每个所述关键词的词向量,并根据每个所述词向量,计算所述形式概念的第一中心向量;
第二运算单元,用于获取用户关键词,计算所述用户关键词的第二中心向量;
推荐单元,计算所述第二中心向量与每个所述形式概念的第一中心向量之间的距离,根据所述距离的大小向用户推荐所述距离较小的形式概念中的论文。
CN201911169957.8A 2019-11-26 2019-11-26 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置 Active CN111090743B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911169957.8A CN111090743B (zh) 2019-11-26 2019-11-26 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911169957.8A CN111090743B (zh) 2019-11-26 2019-11-26 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置

Publications (2)

Publication Number Publication Date
CN111090743A true CN111090743A (zh) 2020-05-01
CN111090743B CN111090743B (zh) 2023-05-09

Family

ID=70393797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911169957.8A Active CN111090743B (zh) 2019-11-26 2019-11-26 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置

Country Status (1)

Country Link
CN (1) CN111090743B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116756431A (zh) * 2023-08-14 2023-09-15 西南石油大学 不完备形式背景下基于近似概念的信息或物品推荐方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678418A (zh) * 2012-09-25 2014-03-26 富士通株式会社 信息处理方法和信息处理设备
CN103761264A (zh) * 2013-12-31 2014-04-30 浙江大学 基于商品评论文档集的概念层次创建方法
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法
CN107423348A (zh) * 2017-05-17 2017-12-01 东莞市华睿电子科技有限公司 一种基于关键词的精确检索方法
CN109271633A (zh) * 2018-09-17 2019-01-25 北京神州泰岳软件股份有限公司 一种单语义监督的词向量训练方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678418A (zh) * 2012-09-25 2014-03-26 富士通株式会社 信息处理方法和信息处理设备
CN103761264A (zh) * 2013-12-31 2014-04-30 浙江大学 基于商品评论文档集的概念层次创建方法
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法
CN107423348A (zh) * 2017-05-17 2017-12-01 东莞市华睿电子科技有限公司 一种基于关键词的精确检索方法
CN109271633A (zh) * 2018-09-17 2019-01-25 北京神州泰岳软件股份有限公司 一种单语义监督的词向量训练方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116756431A (zh) * 2023-08-14 2023-09-15 西南石油大学 不完备形式背景下基于近似概念的信息或物品推荐方法
CN116756431B (zh) * 2023-08-14 2023-10-31 西南石油大学 不完备形式背景下基于近似概念的信息或物品推荐方法

Also Published As

Publication number Publication date
CN111090743B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
CN107679144B (zh) 基于语义相似度的新闻语句聚类方法、装置及存储介质
CN110162695B (zh) 一种信息推送的方法及设备
US10482146B2 (en) Systems and methods for automatic customization of content filtering
CN110390044B (zh) 一种相似网络页面的搜索方法及设备
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
CN110162754B (zh) 一种岗位描述文档的生成方法及设备
CN111460090A (zh) 基于向量的文档检索方法、装置、计算机设备及存储介质
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
CN107679208A (zh) 一种图片的搜索方法、终端设备及存储介质
CN112328759A (zh) 自动问答方法、装置、设备及存储介质
CN112783825A (zh) 数据归档方法、装置、计算机装置及存储介质
CN112328655A (zh) 文本标签挖掘方法、装置、设备及存储介质
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN113315851A (zh) 域名检测方法、装置及存储介质
KR20120047622A (ko) 디지털 콘텐츠 관리 시스템 및 방법
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
CN111143400A (zh) 一种全栈式检索方法、***、引擎及电子设备
CN111090743B (zh) 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置
JP6017277B2 (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法
CN112270189A (zh) 一种提问式的分析节点生成方法、***及存储介质
Yin et al. Content‐Based Image Retrial Based on Hadoop

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant