CN110888964A - 基于改进PageRank算法的专家二次推荐方法及装置 - Google Patents

基于改进PageRank算法的专家二次推荐方法及装置 Download PDF

Info

Publication number
CN110888964A
CN110888964A CN201910659891.4A CN201910659891A CN110888964A CN 110888964 A CN110888964 A CN 110888964A CN 201910659891 A CN201910659891 A CN 201910659891A CN 110888964 A CN110888964 A CN 110888964A
Authority
CN
China
Prior art keywords
expert
recommended
author
name
weight coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910659891.4A
Other languages
English (en)
Other versions
CN110888964B (zh
Inventor
李一博
桑宏报
李雨柔
赵笑
黄陈健
冯永芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910659891.4A priority Critical patent/CN110888964B/zh
Publication of CN110888964A publication Critical patent/CN110888964A/zh
Application granted granted Critical
Publication of CN110888964B publication Critical patent/CN110888964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了基于改进PageRank算法的专家二次推荐方法及装置,包括:根据各作者关联信息集,确定各待推荐专家和与其关联的作者之间的科研关联关系式,待推荐专家为一次专家推荐结果;将科研关联关系式引入原始PageRank公式得到新PageRank公式,基于改进PageRank算法得到各待推荐专家的PR值,并将各待推荐专家的PR值作为各待推荐专家的科研关联关系值;根据申请人与作者集的所属关系,确定各待推荐专家的加权科研关联关系值;将各待推荐专家的加权科研关联关系值作为各待推荐专家的关联关系值,并根据关联关系值,确定推荐专家。本发明实施例提高了专家推荐结果的公平性和公正性。

Description

基于改进PageRank算法的专家二次推荐方法及装置
技术领域
本发明实施例涉及数据处理领域,尤其涉及一种基于改进PageRank算法的专家二次推荐方法、 装置、设备及存储介质。
背景技术
随着大数据、云计算、人工智能和物联网的到来,科学技术得到迅速发展。在此情况下,科 研基金项目申报和论文投稿等的数量也日渐增多。为此,需要选择大量的专家对申报的科研基金 项目和论文投稿进行评审。科研基金项目和论文投稿的评审结果是否公正,在很大程度上取决于 推荐的专家是否合理。
目前,在评审专家推荐方面,主要采用半手工的方法,具体的:采用评审专家推荐算法,例 如TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文件频率)算法,从专家推荐库 中获得待推荐专家,用户对待推荐专家进行筛选,从而确定出推荐专家。
然而,现有技术中至少存在如下问题:一方面,由于评审专家推荐算法是基于匹配专家资料 和申请项目的项目名称、关键词和所属领域等之间的相似度来确定待推荐专家,而没有考虑或很 少考虑申请人和待推荐专家之间的关系远近,通常评审专家很容易偏向关系亲近的申请人,则采 用上述方法确定出的待推荐专家给出的评审结果可能存在一定的偏向性,因此,将降低项目评审 结果的公平性和合理性;另一方面,由于用户判断存在主观局限性,并有可能产生管理上的漏洞, 筛选结果的不公平性可能会进一步增加。上述表明,采用现有方法从待推荐专家中确定出的推荐 专家会降低专家推荐结果的公平性和公正性,进而导致项目和论文投稿的评审结果的准确性和合 理性也不高。
发明内容
本发明实施例提供一种基于改进PageRank算法的专家二次推荐方法、装置、设备及存储介质, 以提高专家推荐结果的公平性和公正性,进而提高项目和论文投稿的评审结果的准确性和合理性。
第一方面,本发明实施例提供了一种基于改进PageRank算法的专家二次推荐方法,该方法包 括:
获得作者集和与所述作者集对应的作者关联信息集,每个所述作者集包括待推荐专家和与所述 待推荐专家关联的作者,所述待推荐专家为经一次专家推荐后得到的推荐结果,每个所述作者关 联信息集包括依托机构名称和出版来源名称,所述依托机构名称包括待推荐专家依托机构名称和 所述作者依托机构名称,所述出版来源名称包括所述待推荐专家所属出版来源名称和所述作者所 属出版来源名称;
根据各作者关联信息集,确定各待推荐专家和与各待推荐专家关联的作者之间的科研关联关系 式;
将所述科研关联关系式引入原始PageRank公式得到新PageRank公式,基于改进PageRank算 法对所述新PageRank公式进行计算,得到各待推荐专家的网页级别PR值,并将各待推荐专家的 PR值作为各待推荐专家的科研关联关系值;
针对每个所述作者集,如果申请人属于所述作者集,则将第一系数与待推荐专家的科研关联值 相乘作为待推荐专家的加权科研关联关系值;如果申请人不属于所述作者集,则将第二系数与待 推荐专家的PR值相乘作为待推荐专家的加权科研关联关系值;所述第一系数大于所述第二系数;
将各待推荐专家的加权科研关联关系值作为各待推荐专家的关联关系值,所述各待推荐专家的 关联关系值表示各待推荐专家与申请人之间的关联关系,并根据各待推荐专家的关联关系值,确 定推荐专家。
第二方面,本发明实施例还提供了一种基于改进PageRank算法的专家二次推荐装置,该装置 包括:
信息集获得模块,用于获得作者集和与所述作者集对应的作者关联信息集,每个所述作者集包 括待推荐专家和与所述待推荐专家关联的作者,所述待推荐专家为经一次专家推荐后得到的推荐 结果,每个所述作者关联信息集包括依托机构名称和出版来源名称,所述依托机构名称包括待推 荐专家依托机构名称和所述作者依托机构名称,所述出版来源名称包括所述待推荐专家所属出版 来源名称和所述作者所属出版来源名称;
科研关联关系式确定模块,用于根据各作者关联信息集,确定各待推荐专家和与各待推荐专家 关联的作者之间的科研关联关系式;
科研关联关系值获得模块,用于将所述科研关联关系式引入原始PageRank公式得到新 PageRank公式,基于改进PageRank算法对所述新PageRank公式进行计算,得到各待推荐专家的 网页级别PR值,并将各待推荐专家的PR值作为各待推荐专家的科研关联关系值;
加权科研关联关系值确定模块,用于针对每个所述作者集,如果申请人属于所述作者集,则将 第一系数与待推荐专家的科研关联值相乘作为待推荐专家的加权科研关联关系值;如果申请人不 属于所述作者集,则将第二系数与待推荐专家的PR值相乘作为待推荐专家的加权科研关联关系值; 所述第一系数大于所述第二系数;
推荐专家确定模块,用于将各待推荐专家的加权科研关联关系值作为各待推荐专家的关联关系 值,所述各待推荐专家的关联关系值表示各待推荐专家与申请人之间的关联关系,并根据各待推 荐专家的关联关系值,确定推荐专家。
第三方面,本发明实施例还提供了一种设备,该设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发 明实施例第一方面所述的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序 被处理器执行时实现如本发明实施例第一方面所述的方法。
本发明实施例通过获得作者集和与所述作者集对应的作者关联信息集,每个作者集包括待推荐 专家和与待推荐专家关联的作者,待推荐专家为经一次专家推荐后得到的推荐结果,根据各作者 关联信息集,确定各待推荐专家和与各待推荐专家关联的作者之间的科研关联关系式,将科研关 联关系式引入原始PageRank公式得到新PageRank公式,基于改进PageRank算法对新PageRank 公式进行计算,得到各待推荐专家的PR值,并将各待推荐专家的PR值作为各待推荐专家的科研 关联关系值,针对每个作者集,如果申请人属于作者集,则将第一系数与待推荐专家的科研关联 值相乘作为待推荐专家的加权科研关联关系值,如果申请人不属于作者集,则将第二系数与待推 荐专家的科研关联关系值相乘作为待推荐专家的加权科研关联关系值,将各待推荐专家的加权科 研关联关系值作为各待推荐专家的关联关系值,并根据各待推荐专家的关联关系值,确定推荐专 家。上述通过将科研关联关系式引入原始PageRank公式得到新PageRank公式,并基于改进 PageRank算法对新PageRank公式进行计算,得到各待推荐专家的PR值,实现了将待推荐专家和 申请人之间的关联关系引入专家推荐方法中,使得确定出的推荐专家与申请人的关联关系较为疏 远,并且减少了用户判断的主观局限性,提高了专家推荐结果的公平性和公正性,进而提高了项目和论文投稿的评审结果的准确性和合理性。
附图说明
图1是本发明实施例中的一种基于改进PageRank算法的专家二次推荐方法的流程图;
图2是本发明实施例中的一种各文章下作者之间的关联有向图;
图3是本发明实施例中的一种专家推荐库的显示界面示意图;
图4是本发明实施例中的另一种基于改进PageRank算法的专家二次推荐方法的流程图;
图5是本发明实施例中的一种基于改进PageRank算法的专家二次推荐装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实 施例仅仅用于解释本发明,而非对本发明的限定,实施例中记载的各个特征可进行组合,形成多 个可选方案。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全 部结构。
图1为本发明实施例提供的一种基于改进PageRank算法的专家二次推荐方法的流程图,本实 施例可适用于提高专家推荐结果的公平性和公正性,进而提高项目评审结果的准确性和合理性的 情况,该方法可以由基于改进PageRank算法的专家二次推荐装置来执行,该装置可以采用软件和 /或硬件的方式实现,该装置可以配置于设备中,例如典型的是计算机等。如图1所示,该方法具 体包括如下步骤:
步骤110、获得作者集和与作者集对应的作者关联信息集,每个作者集包括待推荐专家和与待 推荐专家关联的作者,待推荐专家为经一次专家推荐后得到的推荐结果,每个作者关联信息集包 括依托机构名称和出版来源名称,依托机构名称包括待推荐专家依托机构名称和作者依托机构名 称,出版来源名称包括待推荐专家所属出版来源名称和作者所属出版来源名称。
在本发明的实施例中,待推荐专家可作如下理解:当某申请人申请某项目时,根据该项目的 项目信息,项目信息可以包括项目名称、关键词、所属学科领域和所属专业领域等内容,可基于 推荐算法,从专家推荐库中,确定出的专家即可作为待推荐专家。上述可理解为一次专家推荐的 过程。相应的,经一次专家推荐后得到的推荐结果即是待推荐专家。后续再从待推荐专家中,确 定出推荐专家,以使推荐专家对该项目进行评审。项目可以包括科研基金项目和论文投稿等。
获得作者集,可作如下理解:在获得待推荐专家后,可根据待推荐专家,获得与该待推荐专 家关联的作者。该待推荐专家和与该待推荐专家关联的作者可组成作者集。可以理解到,作者集 的个数与获得的待推荐专家的个数相同。换句话说,每个作者集与一个待推荐专家对应。如果待 推荐专家的个数为至少三个,则作者集的个数也为至少三个。每个作者集所包括的与待推荐专家 关联的作者的个数需根据实际情况确定。还可以理解到,由于申请人也为作者,因此,申清人可 能属于某个或某几个作者集。换句话说,某个或某几个作者集中与待推荐专家关联的作者中包括 该申请人。示例性的,如获得五个待推荐专家,分别为待推荐专家U1,待推荐专家U2,待推荐 专家U3,待推荐专家U4和待推荐专家U5。与待推荐专家U1关联的作者包括两个,分别为作者U11和作者U12。与待推荐专家U2关联的作者包括三个,分别为作者U21、作者U22和作者U23。与待 推荐专家U3关联的作者包括一个,为作者U31。与待推荐专家U4关联的作者包括两个,分别为作 者U41和作者U42。与待推荐专家U5关联的作者包括四个,分别为作者U51、作者U52、作者U53和作者U54。相应的,作者集的个数为五个,分别为作者集
Figure RE-GDA0002229237140000045
作者集
Figure RE-GDA0002229237140000041
作者集
Figure RE-GDA0002229237140000042
作者集
Figure RE-GDA0002229237140000043
和 作者集
Figure RE-GDA0002229237140000044
为了确定申请人与待推荐专家之间的关联关系,可根据作者集,确定与作者集对应的作者关 联信息集。作者关联信息集可包括依托机构名称和出版来源名称。其中,依托机构名称可以包括 待推荐专家依托机构名称和与该待推荐专家关联的作者依托机构名称。出版来源名称可以包括待 推荐专家所属出版来源名称和与该待推荐专家关联的作者所属出版来源名称。其中,待推荐专家 依托机构名称可理解为该待推荐专家发表文章的文章著录项信息中所包括的依托机构名称。同样 的,与该待推荐专家关联的作者依托机构名称可理解为作者发表文章的文章著录项信息中所包括 的依托机构名称。待推荐专家所属出版来源名称可理解为待推荐专家发表文章的文章著录项信息 中所包括的所属出版来源名称。与该待推荐专家关联的作者所属出版来源名称可理解为作者发表 文章的文章著录项信息中所包括的所属出版来源名称。文章著录项信息可以包括依托机构名称和 所属出版来源名称等。需要说明的是,作者集和作者关联信息集一一对应。还需要说明的是,每 个作者关联信息集中与该待推荐专家关联的作者依托机构名称个数以及所属出版来源名称个数均 与该作者关联集对应的作者集中所包括的作者的个数相同。即每个作者均有与其对应的依托机构 名称和所属出版来源名称。可以理解到,同一作者关联信息集中待推荐专家依托机构名称可能与 作者依托机构名称相同,待推荐专家所属出版来源名称也可能与作者依托机构名称相同。通常如 果待推荐专家与作者出现在同一篇文章,则可认为待推荐专家与作者依托机构名称相同。即同一 篇文章下,全部作者依托机构名称相同。可以理解到,如果待推荐专家与作者出现在同一篇文章, 则待推荐专家与作者所属出版来源名称相同。如果与某作者关联信息集对应的作者集中作者的个 数为至少两个,则满足上述情况的作者的个数可能为一个,也可能为两个或两个以上。还可以理 解到,每个待推荐专家依托机构名称的个数可能为两个或两个以上,每个待推荐专家所属出版来 源名称的个数也可能为两个或两个以上。同样的,每个作者依托机构名称的个数也可能为两个或 两个以上,每个作者所属出版来源名称的个数也可能为两个或两个以上。
示例性的,如作者集
Figure BDA0002138172120000051
与待推荐专家U1关联的作者包括两个,分别为 作者U11和作者U12。待推荐专家U1所发表的文章为两篇,两篇文章依托机构名称不同,所属出 版来源名称相同。作者U11所发表的文章为两篇,两篇文章依托机构名称相同,所属出版来源名称 不同。作者U12所发表的文章为三篇,三篇文章依托机构名称不同,所属出版来源名称不完全相同。 其中,待推荐专家U1依托机构名称的个数为两个,分别为A和B;待推荐专家U1所属出版来源 名称的个数为一个,为a。作者U11依托机构名称的个数为一个,为A;作者U11所属出版来源名 称的个数为两个,分别为b和c。作者U12依托机构名称的个数为三个,分别为A、C和D;作者U12所属出版来源名称的个数为两个,分别为a和c。
步骤120、根据各作者关联信息集,确定各待推荐专家和与各待推荐专家关联的作者之间的科 研关联关系式。
在本发明的实施例中,科研关联关系式可用于表示待推荐专家和与该待推荐专家关联的作者 之间的科研关联关系。其中,针对与该待推荐专家关联的每个作者,对应得到一个科研关联关系 式。根据各作者关联信息集,确定各待推荐专家和与各待推荐专家对应关联的作者之间的科研关 联关系式,可作如下理解:针对每个作者关联信息集,分别确定待推荐专家和与该待推荐专家关 联的各作者之间的科研关联关系式。更为具体的:针对与每个待推荐专家关联的每个作者,可根 据该待推荐专家依托机构名称与该作者依托机构名称,确定该待推荐专家与该作者所属的依托机 构总数,以及,该待推荐专家与该作者所属的重复依托机构总数,根据该依托机构总数和该重复 依托机构总数,确定该待推荐专家与该作者之间的机构关联关系式,根据该待推荐专家所属出版 来源名称与该作者所属出版来源名称,确定该待推荐专家与该作者所属的出版来源总数,以及, 该待推荐专家与该作者所属的重复出版来源总数,根据该出版来源总数和该重复出版来源总数, 确定该待推荐专家与该作者之间的出版来源关联关系式,根据该机构关联关系值和该出版来源关 联关系式,确定该待推荐专家与该作者之间的科研关联关系式。基于上述方式,得到每个待推荐 专家和与该待推荐专家关联的各作者之间的科研关联关系式。
示例性的,如作者集
Figure BDA0002138172120000061
与待推荐专家U1关联的作者包括两个,分别为 作者U11和作者U12。针对作者U11,根据待推荐专家U1依托机构名称与作者U11依托机构名称, 确定待推荐专家U1与作者U11所属的依托机构总数,以及,待推荐专家U1与作者U11所属的重复 依托机构总数,根据该依托机构总数和该重复依托机构总数,确定待推荐专家U1与作者U11之间 的机构关联关系式,根据待推荐专家U1所属出版来源名称与作者U11所属出版来源名称,确定待 推荐专家U1与作者U11所属的出版来源总数,以及,待推荐专家U1与作者U11所属的重复出版来 源总数,根据该出版来源总数和该重复出版来源总数,确定待推荐专家U1与作者U11之间的出版 来源关联关系式,根据该机构关联关系式和该出版来源关联关系式,确定待推荐专家U1与作者U11之间的科研关联关系式。基于同样的方式,得到待推荐专家U1与作者U12之间的科研关联关系式。
步骤130、将科研关联关系式引入原始PageRank公式得到新PageRank公式,基于改进网页级 别PageRank算法对新网页级别PageRank公式进行计算,得到各待推荐专家的网页级别PR值,并 将各待推荐专家的PR值作为各待推荐专家的科研关联关系值。
在本发明的实施例中,PageRank(网页级别)算法是由谷歌的创始人拉里·佩奇和谢尔盖·布 林提出的一种处理网页之间链接的算法,其是幂法在网络节点排序任务中的一个应用,可用于评 价网页的重要性。其中,网页的重要性可用PR值(网页级别值)大小来体现,具体的:PageRank 值越大,则网页的重要性越高;PageRank值越小,则网页的重要性越低。PageRank算法的基本思 想是将单个网页视作有向图中的一个节点,网页之间如果具有链接关系,则在相应节点之间生成 一条从源节点指向目标节点的有向边。PageRank算法将整个互联网的全部或部分网页视为一个有 向图,以单个网页为节点,节点之间的边为网页之间的链接,通过Von Mises迭代计算最终生成表 示全部或部分网页的向量空间模型而进行排序。PageRank算法主要基于以下前提:其一、如果一 个网页被很多网页链接,则可说明这个网页相对比较重要,即这个网页的PR值相对较高;其二、 如果一个网页没有被许多其他网页所链接,但却被某一个或某几个具有很高PR值的网页所链接, 则可说明这个被链接到的网页的PR值也会得到提高。示例性的,如网页B由网页A链接而来, 如果网页A的PR值越大,则网页B的PR值也越大。PageRank算法的基本原理是:首先,为每 个网页设置一个初始PR值,初始PR值用于表示初始状态下网页的重要性;其次,通过不断的迭 代递归运算来实时的更新每个网页的PR值,如此反复,直至PR值收敛为止。网页的PR值的计 算一般是根据此网页的链入链接数量,链入此网页的PR值,以及,链入此网页的链出链接数量。
可将科研关联关系式引入原始网页级别PageRank公式,以得到新网页级别PageRank公式, 并基于改进网页级别PageRank算法对新网页级别PageRank公式进行计算,具体的:针对每个待 推荐专家,给该待推荐专家和与该待推荐专家关联的各作者赋予初始PR值,通过不断的迭代递归 运算来实时的更新每个PR值,如此反复,直至马尔科夫迭代收敛为止。将最终得到的PR值作为 该待推荐专家的PR值,并将该待推荐专家的PR值作为该待推荐专家的科研关联关系值。改进 PageRank算法与传统技术中的PageRank算法主要不同在于:改进PageRank算法所采用的公式为 新PageRank公式,而传统技术中的PageRank算法所采用的公式为原始PageRank公式。
步骤140、针对每个作者集,申请人是否属于作者集;若是,则执行步骤150;若否,则执行 步骤160。
步骤150、将第一系数与待推荐专家的科研关联值相乘作为待推荐专家的加权科研关联关系值, 并执行步骤170。
步骤160、将第二系数与待推荐专家的科研关联关系值相乘作为待推荐专家的加权科研关联关 系值,并执行步骤170。
步骤170、将各待推荐专家的加权科研关联关系值作为各待推荐专家的关联关系值,各待推荐 专家的关联关系值表示各待推荐专家与申请人之间的关联关系,并根据各待推荐专家的关联关系 值,确定推荐专家。
在本发明的实施例中,针对每个作者集,申请人可能属于作者集,也可能不属于作者集。如 果申请人属于该作者集,即申请人属于与待推荐专家关联的作者,则申请人与该待推荐专家之间 的关联关系将较为亲密。相应的,如果申请人不属于该作者集,即申请人不属于与待推荐专家关 联的作者,则申请人与该推荐专家之间的关联关系将较为疏远。基于此,针对每个作者集,如果 申请人属于该作者集,则可将第一系数与待推荐专家的科研关联关系值相乘作为待推荐专家的加 权科研关联关系值。如果申请人不属于作者集,则可将第二系数与待推荐专家的科研关联关系值 相乘作为待推荐专家的加权科研关联关系值。其中,第一系数大于第二系数,第一系数和第二系 数可以用二值变量来体现,即C(ω1,ω2)。其中,ω1可表示第一系数,ω2可表示第二系数。如 果申请人属于作者集,则C(ω1,ω2)=ω1。如果申请人不属于作者集,则C(ω1,ω2)=ω2。如果 C(ω1,ω2)=ω1,则可说明申请人属于作者集。如果C(ω1,ω2)=ω2,则可说明申请人不属于作 者集。示例性的,如ω1=1第一系数为1,ω2=10-6第二系数为10-6,C(ω1,ω2)=C(1,10-6)C(1,10-6)。
针对每个待推荐专家的加权科研关联关系值,可将该待推荐专家的加权科研关联关系值作为 该待推荐专家的关联关系值,该待推荐专家的关联关系值可用于表示该待推荐专家与申请人之间 的关联关系。上述待推荐专家的关联关系值可用于表示该待推荐专家与申请人之间的关联关系, 可作如下理解:针对每个待推荐专家,由于申请人可能属于与该待推荐专家关联的作者,即申请 人可能属于该待推荐专家所在的作者集,而该待推荐专家的关联关系值是由该待推荐专家和与该 待推荐专家关联的各作者之间的加权科研关联关系值所确定,加权科研关联关系值可用于表示该 待推荐专家与该待推荐专家关联的各作者之间的科研关联关系,科研关联关系是关联关系的一种 体现,因此,该待推荐专家的关联关系值可用于表示该待推荐专家与申请人之间的关联关系。
在得到各待推荐专家的关联关系值后,可根据各待推荐专家的关联关系值,从各待推荐专家 中确定出推荐专家,以使推荐专家对项目进行评审。根据各待推荐专家的关联关系值,确定推荐 专家,可作如下理解:通常待推荐专家的关联关系值越小,则可说明该待推荐专家与申请人之间 的关联关系越为疏远。基于此,可选择关联关系值相对小的待推荐专家作为推荐专家。具体存在 如下两种方式:方式一、根据各待推荐专家的关联关系值,对待推荐专家进行排序,根据排序结 果,确定推荐专家;方式二、将待推荐专家的关联关系值小于等于关联关系阈值的待推荐专家, 作为推荐专家。其中,关联关系阈值可用于作为确定推荐专家的依据。针对方式一,根据排序方 式的不同,更为具体的存在如下方式:根据各待推荐专家的关联关系值,对待推荐专家按升序方 式进行排序,得到排序结果。根据排序结果,选取前T个待推荐专家作为推荐专家,T≥2。或者, 根据各待推荐专家的关联关系值,对待推荐专家按降序方式进行排序,得到排序结果。根据排序 结果,选取后前T个待推荐专家作为推荐专家,T≥2。此外,还可对待推荐专家的关联关系值进 行处理,如对待推荐专家的关联关系值取倒数,根据待推荐专家的处理后关联关系值,确定推荐 专家。以对待推荐专家的关联关系值取倒数得到待推荐专家的处理后关联关系值为例,根据各待 推荐专家的关联关系值,确定推荐专家,可作如下理解:通常待推荐专家的关联关系值越小,则 可说明该待推荐专家与申请人之间的关联关系越为疏远。基于此,可选择关联关系值相对小的待 推荐专家作为推荐专家。由于各待推荐专家的处理后关联关系值是对各待推荐专家的关联关系值 取倒数后得到的,因此,在此情况下,可选择处理后关联关系值相对大的待推荐专家作为推荐专 家。具体存在如下两种方式:方式一、根据各待推荐专家的处理后关联关系值,对待推荐专家进 行排序,根据排序结果,确定推荐专家;方式二、将待推荐专家的处理后关联关系值大于等于处 理后关联关系阈值的待推荐专家,作为推荐专家。其中,处理后关联关系阈值可用于作为确定推 荐专家的依据。针对方式一,根据排序方式的不同,更为具体的存在如下方式:根据各待推荐专 家的处理后关联关系值,对待推荐专家按降序方式进行排序,得到排序结果。根据排序结果,选 取前T个待推荐专家作为推荐专家,T≥2。或者,根据各待推荐专家的处理后关联关系值,对待 推荐专家按升序方式进行排序,得到排序结果。根据排序结果,选取后T个待推荐专家作为推荐 专家,T≥2。需要说明的是,如果采用根据待推荐专家的处理后关联关系值的方式,确定推荐专 家,由于待推荐专家的处理后关联关系值是由该待推荐专家的关联关系值取倒数后得到的,而该 待推荐专家的关联关系值可能为零,在此情况下,将无法对该待推荐专家的关联关系值取倒数, 因此,为了避免上述情况的发生,可将该待推荐专家的关联关系值与调节值之和作为该待推荐专 家的关联关系值,调节值可为一个数值小于等于调节阈值的数值。上述可通过如下公式表示,具体的:Rtotal(Ui)=R(Ui),
Figure BDA0002138172120000081
其 中,Ui可表示待推荐专家,i∈{1,2,3,......};R(Ui)可表示待推荐专家Ui的PR值;Rtotal(Ui)可表示待推荐专家Ui的科研关联关系值;C(ω1,ω2)Rtotal(Ui)可表示待推荐专家Ui的关联关系值;
Figure BDA0002138172120000082
可表示待推荐专家Ui的处理后关联关系值;ε可表示调节值。
采用对待推荐专家的关联关系值取倒数的方式,得到待推荐专家的处理后关联关系值。根据 申请人与待推荐专家所属作者集的关系,对待推荐专家的处理后关联关系值进行处理,得到待推 荐专家的处理后加权关联关系值,根据各待推荐专家的处理后加权关联关系值,对待推荐专家按 降序方式进行排序,得到排序结果。根据排序结果,选取排序前T个待推荐专家作为推荐专家。 上述可通过如下公式表示,具体的:
Figure BDA0002138172120000083
其中,
Figure BDA0002138172120000084
可 表示待推荐专家Ui的处理后加权关联关系值。
针对根据各待推荐专家的加权关联关系值,确定推荐专家,可参照上述所述的根据各待推荐 专家的关联关系值,确定推荐专家。示例性的,如获得五个待推荐专家,分别为待推荐专家Ui, i∈{1,2,3,4,5}。待推荐专家Ui的关联关系值为Rtotal(Ui),待推荐专家Ui的处理后加权关联关系 值为
Figure RE-GDA0002229237140000086
其中,Rtotal(U1)<Rtotal(U2)<Rtotal(U3)<Rtotal(U5)<Rtotal(U4)。调节值为ε,ω1=1,ω2=10-6。 申请人属于待推荐专家U1所属的作者集
Figure RE-GDA0002229237140000092
和属于待推荐专家U2所属的作者集
Figure RE-GDA0002229237140000093
而不属于其 它待推荐专家所属的作者集。即针对待推荐专家U1,C11,ω2)=1;针对待推荐专家U2, C21,ω2)=1;针对待推荐专家U3,C31,ω2)=10-6;针对待推荐专家U4, C41,ω2)=10-6;针对待推荐专家U5,C51,ω2)=10-6。基于此,由于 Rtotal(U1)<Rtotal(U2)<Rtotal(U3)<Rtotal(U5)<Rtotal(U4),C11,ω2)=C21,ω2)=1, C31,ω2)=C41,ω2)=C51,ω2)=10-6,因此,
Figure RE-GDA0002229237140000091
由此可得,将待推荐专家U1,待推荐专家U2和待推荐专家U3作为推荐专家。
本实施例的技术方案,通过获得作者集和与所述作者集对应的作者关联信息集,每个作者集 包括待推荐专家和与待推荐专家关联的作者,待推荐专家为经一次专家推荐后得到的推荐结果, 根据各作者关联信息集,确定各待推荐专家和与各待推荐专家关联的作者之间的科研关联关系式, 将科研关联关系式引入原始PageRank公式得到新PageRank公式,基于改进PageRank算法对新 PageRank公式进行计算,得到各待推荐专家的PR值,并将各待推荐专家的PR值作为各待推荐专 家的科研关联关系值,针对每个作者集,如果申请人属于作者集,则将第一系数与待推荐专家的 科研关联值相乘作为待推荐专家的加权科研关联关系值,如果申请人不属于作者集,则将第二系 数与待推荐专家的科研关联关系值相乘作为待推荐专家的加权科研关联关系值,将各待推荐专家 的加权科研关联关系值作为各待推荐专家的关联关系值,并根据各待推荐专家的关联关系值,确 定推荐专家。上述通过将科研关联关系式引入原始PageRank公式得到新PageRank公式,并基于 改进PageRank算法对新PageRank公式进行计算,得到各待推荐专家的PR值,实现了将待推荐专家和申请人之间的关联关系引入专家推荐方法中,使得确定出的推荐专家与申请人的关联关系较 为疏远,并且减少了用户判断的主观局限性,提高了专家推荐结果的公平性和公正性,进而提高 了项目和论文投稿的评审结果的准确性和合理性。
可选的,在上述技术方案的基础上,获得作者集和与作者集对应的作者关联信息集之后,具 体还可以包括:获得申请人的空间因素信息和各待推荐专家的空间因素信息,空间因素信息包括 毕业学校、当前工作单位、曾工作单位、当前工作学习城市和曾工作学习城市中的至少一种。根 据各待推荐专家的空间因素信息和申请人的空间因素信息,分别确定各待推荐专家的空间关联关 系值,各待推荐专家的空间关联关系值表示各待推荐专家与申请人之间的空间关联关系。相应的, 将各待推荐专家的加权科研关联关系值作为各待推荐专家的关联关系值,各待推荐专家的关联关 系值表示各待推荐专家与申请人之间的关联关系,并根据各待推荐专家的关联关系值,确定推荐 专家,具体可以包括:根据各待推荐专家的加权科研关联关系值和各待推荐专家的空间关联关系 值,确定各待推荐专家的关联关系值,各待推荐专家的关联关系值表示各待推荐专家与申请人之 间的关联关系。根据各待推荐专家的关联关系值,确定推荐专家。
在本发明的实施例中,为了进一步提高专家推荐结果的公平性和公正性,可将待推荐专家与 申请人在空间上的关联关系作为另一个判断标准。可将待推荐专家与申请人在空间上的关联关系 称为空间关联关系。待推荐专家与申请人之间的空间关联关系可根据两者的空间因素信息来确定。 空间因素信息可以包括毕业学校、当前工作单位、曾工作单位、当前工作学习城市和曾工作学习 城市中的至少一种。上述待推荐专家与申请人之间的空间关联关系可作为另一个判断标准的原因 在于:如果待推荐专家与申请人的空间因素信息中毕业学校和/或当前工作单位一致,则可说明待 推荐专家与申请人之间的关联关系较密切。基于此,可将根据空间因素信息确定的待推荐专家与 申请人之间的空间关联关系作为另一个判断标准。
获得申请人的空间因素信息和各待推荐专家的空间因素信息,空间因素信息可以包括毕业学 校和当前工作单位。根据各待推荐专家的空间因素信息和申请人的空间因素信息,分别确定各待 推荐专家的空间关联关系值,可作如下理解:针对每个待推荐专家,根据该待推荐专家的空间因 素信息和申请人的空间因素信息,确定该待推荐专家的空间关联关系值,该待推荐专家的空间关 联关系值可表示该待推荐专家与申请人之间的空间关联关系。针对每个待推荐专家,根据该待推 荐专家的空间因素信息和申请人的空间因素信息,确定该待推荐专家的空间关联关系值,可作如 下理解:针对每个待推荐专家,如果该待推荐专家的毕业学校与申请人的毕业学校一致,则可标 记为第一数值;如果该待推荐专家的毕业学校与申请人的毕业学校不一致,则可标记为第二数值。 如果该待推荐专家的当前工作单位与申请人的当前工作单位一致,则可标记为第三数值;如果该 待推荐专家的当前工作单位与申请人的当前工作单位不一致,则可标记为第四数值。如果该待推 荐专家的曾工作单位与申请人的曾工作单位一致,则可标记为第五数值;如果该待推荐专家的曾 工作单位与申请人的曾工作单位不一致,则可标记为第六数值。如果该待推荐专家的当前工作学 习城市与申请人的当前工作学习城市一致,则可标记为第七数值;如果该待推荐专家的当前工作 学习城市与申请人的当前工作学习城市不一致,则可标记为第八数值。如果该待推荐专家的曾工 作学习城市与申请人的曾工作学习城市一致,则可标记为第九数值;如果该待推荐专家的曾工作 学习城市与申请人的当前工作学习城市不一致,则可标记为第十数值。将上述得到的各数值相加 之和作为待推荐专家的空间关联关系值。其中,第一数值大于第二数值,第三数值大于第四数值, 第五数值大于第六数值,第七数值大于第八数值,第九数值大于第十数值。第一数值、第三数值、 第五数值、第七数值和第九数值可以相等,也可以不等,具体可根据实际情况进行设定,在此不 作具体限定。第二数值、第四数值、第六数值、第八数值和第十数值也可以相等,也可以不等, 具体也可根据实际情况进行设定,在此不作具体限定。通常第二数值、第四数值、第六数值、第 八数值和第十数值相等。上述如果第一数值、第三数值、第五数值、第七数值和第九数值均不相 等,则可体现毕业学校、当前工作单位、曾工作单位、当前工作学习城市和曾工作学习城市对应 的重要性不同。重要性可由权重系数表示,上述也即可体现毕业学校、当前工作单位、曾工作单 位、当前工作学习城市和曾工作学习城市对应的权重系数不同。
需要说明的是,针对毕业学校,由于待推荐专家与申请人均可能经历了不同的学习阶段,学 习阶段可以包括本科阶段、硕士阶段、博士阶段和博士后阶段等,而不同学习阶段对应的学校可 能相同,也可能部分相同,还可能完全不同,即待推荐专家在不同学习阶段对应的学校可能相同, 也可能部分相同,还可能完全不同;申请人在不同学习阶段对应的学校可能相同,也可能部分相 同,还可能完全不同,因此,上述所述的如果该待推荐专家的毕业学校与申请人的毕业学校一致, 可标记为第一数值;如果该待推荐专家的毕业学校与申请人的毕业学校不一致,则可标记为第二 数值,可作如下理解:无论待推荐专家与申请人经历了多少个学习阶段,每个学习阶段对应的学 校是否相同,只要待推荐专家的毕业学校与申请人的毕业学校存在一致的部分,则可确定该待推 荐专家的毕业学校与申请人的毕业学校一致,即可标记为第一数值。只有待推荐专家的毕业学校 与申请人的毕业学校不存在一致的部分,则可确定该待推荐专家的毕业学校与申请人的毕业学校 不一致,即可标记为第二数值。这里所述的存在一致的部分可以包括完全一致和部分一致,并且 并不要求相同学习阶段的毕业学校一致。示例性的,如待推荐专家的学习阶段包括本科阶段、硕士阶段、博士阶段和博士后阶段,相应的,毕业学校分别为X大学、Y大学、Y大学和Y大学; 申请人的学习阶段包括本科阶段和硕士阶段,相应的,毕业学校分别为Z大学和X大学。在此情况下,由于待推荐专家与申请人存在一致的毕业学校,即X大学,因此,可确定待推荐专家的毕 业学校和申请人的毕业学校一致。又如待推荐专家的学习阶段包括本科阶段、硕士阶段、博士阶 段和博士后阶段,相应的,毕业学校分别为X大学、Y大学、Y大学和Y大学;申请人的学习阶 段包括本科阶段和硕士阶段,相应的,毕业学校分别为W大学和Z大学。在此情况下,由于待推 荐专家与申请人不存在一致的毕业学校,因此,可确定待推荐专家的毕业学校和申请人的毕业学 校不一致。
针对曾工作单位,由于待推荐专家与申请人均可能存在不止一个曾工作单位,因此,上述所 述的如果该待推荐专家的曾工作单位与申请人的曾工作单位一致,可标记为第五数值;如果该待 推荐专家的曾工作单位与申请人的曾工作单位不一致,则可标记为第六数值,可作如下理解:只 要待推荐专家的曾工作单位与申请人的曾工作单位存在一致的部分,则可确定该待推荐专家的曾 工作单位与申请人的曾工作单位一致,即可标记为第五数值。只有待推荐专家的曾工作单位与申 请人的曾工作单位不存在一致的部分,则可确定该待推荐专家的曾工作单位与申请人的曾工作单 位不一致,即可标记为第六数值。这里所述的存在一致的部分可以包括完全一致和部分一致。此 外,如果申请人处于还未毕业状态,则可认为待推荐专家的曾工作单位与申请人的曾工作单位不 一致,即可标记为第六数值。示例性的,如待推荐专家的曾工作单位包括U单位和V单位,申请 人的曾工作单位包括U单位和W单位。在此情况下,由于待推荐专家与申请人的曾工作单位存在 一致的部分,即U单位,因此,可确定待推荐专家的曾工作单位与申请人的曾工作单位一致。又 如,待推荐专家的曾工作单位包括U单位和V单位,申请人的曾工作单位包括W单位。在此情况 下,由于待推荐专家与申请人的曾工作单位不存在一致的部分,因此,可确定待推荐专家的曾工 作单位与申请人的曾工作单位不一致。再如,待推荐专家的曾工作单位包括U单位和V单位,申 请人处于博士未毕业阶段。在此情况下,可确定待推荐专家的曾工作单位与申请人的曾工作单位 不一致。
针对当前工作学习城市,如果申请人还处于未毕业状态,则针对申请人而言,当前工作学习 城市可理解为当前学习城市;如果申请人仅在城市工作未在城市学习,则当前工作学习城市可理 解为当前工作城市。通常待推荐专家处于工作状态,针对待推荐专家而言,如果待推荐专家不仅 在城市工作还在城市学习,则当前工作学习城市即为当前工作学习城市;如果待推荐专家仅在城 市工作未在城市学习,则当前工作学习城市可理解为当前工作城市。无论是当前学习城市,当前 工作城市,还是当前工作学习城市,只要待推荐专家的当前工作学习城市与申请人的当前工作学 习城市一致,则可确定待推荐专家的当前工作学习城市与申请人的当前工作学习城市一致,即可 标记为第七数值。相反的,可确定待推荐专家的当前工作学习城市与申请人的当前工作学习城市 不一致,即可标记为第八数值。
针对曾工作学习城市,如果待推荐专家仅在城市学习未在城市工作,则针对待推荐专家而言, 曾工作学习城市可理解为曾学习城市;如果待推荐专家仅在城市工作未在城市学习,则针对待推 荐专家而言,曾工作学习城市可理解为曾工作城市;如果待推荐专家不仅在城市学习还在城市工 作,则针对待推荐专家而言,曾工作学习城市即是曾工作学习城市。同样的,针对申请人,曾工 作学习城市可能为曾学习城市,也可能为曾工作城市,还可能为曾工作学习城市。此外,由于待 推荐专家与申请人均可能存在不止一个曾工作学习城市,因此,上述所述的如果该待推荐专家的 曾工作学习城市与申请人的曾工作学习城市一致,可标记为第九数值;如果该待推荐专家的曾工 作学习城市与申请人的曾工作学习城市不一致,则可标记为第十数值,可作如下理解:无论是曾 学习城市,曾工作城市,还是曾工作学习城市,只要待推荐专家的曾工作学习城市与申请人的曾 工作学习城市存在一致的部分,则可确定该待推荐专家的曾工作学习城市与申请人的曾工作学习 城市一致,即可标记为第九数值。只有待推荐专家的曾工作学习城市与申请人的曾工作学习城市 不存在一致的部分,则可确定该待推荐专家的曾工作学习城市与申请人的曾工作学习城市不一致, 即可标记为第十数值。
基于上述,将各待推荐专家的加权科研关联关系值作为各待推荐专家的关联关系值,待推荐 专家的关联关系值表示各待推荐专家与申请人之间的关联关系,并根据各待推荐专家的关联关系 值,确定推荐专家,可作如下理解:根据各待推荐专家的加权科研关联关系值和各待推荐专家的 空间关联关系值,确定各待推荐专家的关联关系值,待推荐专家的关联关系值表示各待推荐专家 与申请人之间的关联关系。根据各待推荐专家的关联关系值,确定推荐专家。根据各待推荐专家 的加权科研关联关系值和各待推荐专家的空间关联关系值,确定各待推荐专家的关联关系值,可 作如下理解:针对每个待推荐专家,根据该待推荐专家的加权科研关联关系值和该待推荐专家的 空间关联关系值,确定该待推荐专家的关联关系值。根据该待推荐专家的加权科研关联关系值和 该待推荐专家的空间关联关系值,确定该待推荐专家的关联关系值,可作如下理解:根据该待推 荐专家的加权科研关联关系值和该待推荐专家的空间关联关系值之和,得到该待推荐专家的关联 关系值。
可选的,在上述技术方案的基础上,根据各待推荐专家的空间因素信息和申请人的空间因素 信息,分别确定各待推荐专家与申请人之间的空间关联关系值,具体可以包括:根据空间因素信 息权重系数、各待推荐专家的空间因素信息和申请人的空间因素信息,分别确定各待推荐专家与 申请人之间的空间关联关系值,空间因素信息权重系数包括毕业学校权重系数、当前工作单位权 重系数、曾工作单位权重系数、当前工作学习城市权重系数和曾工作学习城市权重系数中的至少 一种,所述当前工作单位权重系数、所述毕业学校权重系数、所述曾工作单位权重系数、所述当 前工作学习城市权重系数和所述曾工作学习城市权重系数依次减小。
在本发明的实施例中,为了进一步提高专家推荐结果的公平性和公正性,可为空间因素信息 设置对应的空间因素信息权重系数。空间因素信息权重系数可用于作为确定空间因素信息重要性 的依据。不同空间因素信息的空间因素信息权重系数不同。通常空间因素信息重要性越高,则空 间因素信息权重系数越大。空间因素信息重要性越低,则空间因素信息权重系数越小。空间因素 信息可以包括毕业学校和当前工作单位。相应的,空间因素信息权重系数可以包括毕业学校权重 系数、当前工作单位权重系数、曾工作单位权重系数、当前工作学习城市权重系数和曾工作学习 城市权重系数中的至少一种。当前工作单位权重系数、毕业学校权重系数、曾工作单位权重系数、 当前工作学习城市权重系数和曾工作学习城市权重系数依次减小。
根据各待推荐专家的空间因素信息和申请人的空间因素信息,分别确定各待推荐专家与申请 人之间的空间关联关系值,可作如下理解:根据空间因素信息权重系数、各待推荐专家的空间因 素信息和申请人的空间因素信息,分别确定各待推荐专家与申请人之间的空间关联关系值。根据 空间因素信息权重系数、各待推荐专家的空间因素信息和申请人的空间因素信息,分别确定各待 推荐专家与申请人之间的空间关联关系值,可作如下理解:针对每个待推荐专家,根据空间因素 信息权重系数、该待推荐专家的空间因素信息和申请人的空间因素信息,确定该待推荐专家与申 请人之间的空间关联关系值。根据空间因素信息权重系数、该待推荐专家的空间因素信息和申请 人的空间因素信息,确定该待推荐专家与申请人之间的空间关联关系值,可理解为:针对每个待 推荐专家,如果该待推荐专家的毕业学校与申请人的毕业学校一致,则可标记为第一数值;如果 该待推荐专家的毕业学校与申请人的毕业学校不一致,则可标记为第二数值。如果该待推荐专家 的当前工作单位与申请人的当前工作单位一致,则可标记为第三数值;如果该待推荐专家的当前 工作单位与申请人的当前工作单位不一致,则可标记为第四数值。如果该待推荐专家的曾工作单位与申请人的曾工作单位一致,则可标记为第五数值;如果该待推荐专家的曾工作单位与申请人 的曾工作单位不一致,则可标记为第六数值。如果该待推荐专家的当前工作学习城市与申请人的 当前工作学习城市一致,则可标记为第七数值;如果该待推荐专家的当前工作学习城市与申请人 的当前工作学习城市不一致,则可标记为第八数值。如果该待推荐专家的曾工作学习城市与申请 人的曾工作学习城市一致,则可标记为第九数值;如果该待推荐专家的曾工作学习城市与申请人 的当前工作学习城市不一致,则可标记为第十数值。将第一数值或第二数值与毕业学校权重系数 相乘,第三数值或第四数值与当前工作单位权重系数相乘,将第五数值或第六数值与曾工作单位 权重系数相乘,将第七数值或第八数值与当前工作学习城市权重系数相乘,以及,将第九数值或 第十数值与曾工作学习城市权重系数相乘,并将各相乘结果相加之和作为该待推荐专家的空间关 联关系值。其中,当前工作单位权重系数、毕业学校权重系数、曾工作单位权重系数、当前工作 学习城市权重系数和曾工作学习城市权重系数依次减小。需要说明的是,空间因素信息权重系数 可设置为1。相应的,如果空间因素信息权重系数包括毕业学校权重系数、当前工作单位权重系数、 曾工作单位权重系数、当前工作学习城市权重系数和曾工作学习城市权重系数,则毕业学校权重 系数、当前工作单位权重系数、曾工作单位权重系数、当前工作学习城市权重系数和曾工作学习 城市权重系数之和为1。
可选的,在上述技术方案的基础上,各待推荐专家与申请人之间的空间关联关系值可通过如 下公式计算:
Figure BDA0002138172120000141
其中,t∈{1,2,3,4,5};βt表示空间因素信息权重系数, β1表示当前工作单位权重系数,β2表示毕业学校权重系数,β3表示当前工作学习城市权重系数, β4表示曾工作单位权重系数,β5表示曾工作学习城市权重系数,β5<β3<β4<β2<β1; C1(1,0)=1表示待推荐专家的当前工作单位与申请人的当前工作单位一致,C1(1,0)=0表示待推荐 专家的当前工作单位与申请人的当前工作单位不一致;C2(1,0)=1表示待推荐专家的毕业学校与申 请人的毕业学校一致,C2(1,0)=0表示待推荐专家的毕业学校与申请人的毕业学校不一致; C3(1,0)=1表示待推荐专家的当前工作学习城市与申请人的当前工作学习城市一致,C3(1,0)=0 表示待推荐专家的当前工作学习城市与申请人的当前工作学习城市不一致;C4(1,0)=1表示待推荐 专家的曾工作单位与申请人的曾工作单位一致,C4(1,0)=0表示待推荐专家的曾工作单位与申请 人的曾工作单位不一致;C5(1,0)=1表示待推荐专家的曾工作学习城市与申请人的曾工作学习城市 一致,C5(1,0)=0表示待推荐专家的曾工作学习城市与申请人的曾工作学习城市不一致; Rspace(Ui)表示待推荐专家Ui与申请人之间的空间关联关系值。
在本发明的实施例中,针对每个待推荐专家Ui,均可采用公式
Figure BDA0002138172120000142
来计 算待推荐专家Ui与申请人之间的空间关联关系值。
示例性的,如针对待推荐专家U1,待推荐专家U1的空间因素信息包括毕业学校为e、当前工 作单位为f、曾工作单位为g、当前工作学习城市为h和曾工作学习城市为l。申请人的空间因素信 息包括毕业学校为q、当前工作单位为f、曾工作单位为s、当前工作学习城市为h和曾工作学习 城市为l。当前工作单位权重系数为β1=0.3、毕业学校权重系数为β2=0.25、当前工作学习城 市权重系数为β3=0.15、曾工作单位权重系数为β4=0.2和曾工作学习城市权重系数为β5=0.1。 基于上述,可以得到,待推荐专家U1与申请人的当前工作单位一致,则C1(1,0)=1;待推荐专家U1与申请人的毕业学校不一致,则C2(1,0)=0;待推荐专家U1与申请人的当前工作学习城市一致, 则C3(1,0)=1;待推荐专家U1与申请人的曾工作单位不一致,则C4(1,0)=0;待推荐专家U1与申 请人的曾工作学习城市一致,则C5(1,0)=1。基于此,待推荐专家U1与申请人之间的空间关联关 系值
Figure BDA0002138172120000151
可选的,在上述技术方案的基础上,根据各作者关联信息集,确定各待推荐专家和与各待推 荐专家关联的作者之间的科研关联关系式,具体可以包括:针对与每个待推荐专家关联的每个作 者,根据待推荐专家依托机构名称与作者依托机构名称,确定待推荐专家与作者所属的依托机构 总数,以及,待推荐专家与作者所属的重复依托机构总数。根据依托机构总数和重复依托机构总 数,确定待推荐专家与作者之间的机构关联关系式。根据待推荐专家所属出版来源名称与作者所 属出版来源名称,确定待推荐专家与作者所属的出版来源总数,以及,待推荐专家与作者所属的 重复出版来源总数。根据出版来源总数与重复出版来源总数,确定待推荐专家与作者之间的出版 来源关联关系式。根据机构关联关系式和出版来源关联关系式,确定待推荐专家与作者之间的科 研关联关系式。
在本发明的实施例中,针对与每个待推荐专家关联的每个作者,根据待推荐专家依托机构名 称与作者依托机构名称,确定待推荐专家与作者所属的依托机构总数,以及,待推荐专家与作者 所属的重复依托机构总数,可作如下理解:针对与每个待推荐专家关联的每个作者,根据该待推 荐专家依托机构名称与该作者依托机构名称,确定该待推荐专家与该作者所属的依托机构总数。 以及,确定该待推荐专家与该作者所属的重复依托机构总数。该待推荐专家与该作者所属的依托 机构总数,可作如下理解:根据该待推荐专家依托机构名称,确定该待推荐专家所属的依托机构 总数。根据该作者依托机构名称,确定该作者所属的依托机构总数。将该待推荐专家所属的依托 机构总数和该作者所属的依托机构总数相加之和作为该待推荐专家与该作者所属的依托机构总数。 该待推荐专家与该作者所属的重复依托机构总数可作如下理解:根据该待推荐专家依托机构名称 和该作者依托机构名称,确定同属于该待推荐专家与该作者的机构名称,统计上述机构名称的个 数作为该待推荐专家与该作者所属的重复依托机构总数。
示例性的,如作者集
Figure BDA0002138172120000161
与待推荐专家U1关联的作者包括两个,分别为 作者U11和作者U12。其中,待推荐专家U1依托机构名称的个数为两个,分别为A和B。作者U11依托机构名称的个数为一个,为A。作者U12依托机构名称的个数为三个,分别为A、C和D。基 于此,则待推荐专家U1与作者U11所属的依托机构总数为3个,所属的重复依托机构总数为1个。 待推荐专家U1与作者U12所属的依托机构总数为5个,所属的重复依托机构总数为1个。
根据依托机构总数和重复依托机构总数,确定待推荐专家与作者之间的机构关联关系式,可 作如下理解:针对与每个待推荐专家关联的每个作者,计算该待推荐专家所属的重复依托机构总 数与该待推荐专家所属的依托机构总数的比值,将比值作为该待推荐专家与该作者之间的机构关 联关系式。
针对与每个待推荐专家关联的每个作者,根据待推荐专家所属出版来源名称与作者所属出版 来源名称,确定待推荐专家与作者所属的出版来源总数,以及,待推荐专家与作者所属的重复出 版来源总数,可作如下理解:针对与每个待推荐专家关联的每个作者,根据该待推荐专家依托机 构名称与该作者所属出版来源名称,确定该待推荐专家与该作者所属的出版来源总数。以及,确 定该待推荐专家与该作者所属的重复出版来源总数。该待推荐专家与该作者所属的出版来源总数, 可作如下理解:根据该待推荐专家所属出版来源名称,确定该待推荐专家所属的出版来源总数。 根据该作者所属出版来源名称,确定该作者所属的出版来源总数。将该待推荐专家所属的出版来 源总数和该作者所属的出版来源总数相加之和作为该待推荐专家与该作者所属的出版来源总数。 该待推荐专家与该作者所属的重复出版来源总数可作如下理解:根据该待推荐专家所属出版来源 名称和该作者所属出版来源名称,确定同属于该待推荐专家与该作者的出版来源名称,统计上述 出版来源名称的个数作为该待推荐专家与该作者所属的重复出版来源总数。
示例性的,如作者集
Figure BDA0002138172120000162
与待推荐专家U1关联的作者包括两个,分别为 作者U11和作者U12。其中,待推荐专家U1所属出版来源名称的个数为一个,为a。作者U11所属 出版来源名称的个数为两个,分别为b和c。作者U12所属出版来源名称的个数为两个,分别为a 和c。基于此,则待推荐专家U1与作者U11所属的出版来源总数为3个,所属的重复出版来源总数 为0个。待推荐专家U1与作者U12所属的出版来源总数为3个,所属的重复出版来源总数为1个。
根据出版来源总数与重复出版来源总数,确定待推荐专家与作者之间的出版来源关联关系式, 可作如下理解:针对与每个待推荐专家关联的每个作者,计算该待推荐专家所属的重复出版来源 总数与该待推荐专家所属的出版来源总数的比值,将比值作为该待推荐专家与该作者之间的出版 来源关联关系式。
根据机构关联关系值和出版来源关联关系式,确定待推荐专家与作者之间的科研关联关系式, 可作如下理解:针对与每个待推荐专家关联的每个作者,计算该待推荐专家的机构关联关系式和 出版来源关联关系式之和作为该待推荐专家与该作者之间的科研关联关系式。
可选的,在上述技术方案的基础上,根据出版来源总数和重复出版来源总数,确定待推荐专 家与作者之间的出版来源关联关系式,具体可以包括:根据出版来源类型权重系数和重复出版来 源总数,确定加权重复出版来源总数,出版来源类型权重系数可以包括期刊类型权重系数和非期 刊类型权重系数,期刊类型权重系数可以包括一般期刊权重系数、核心期刊权重系数、工程索引 (The Engineering Index,EI)期刊权重系数和科学引文索引(Science Citation Index,SCI)期刊重 系数中的至少一种,非期刊类型权重系数、一般期刊权重系数、核心期刊权重系数、EI期刊权重 系数和SCI期刊权重系数依次减小。根据出版来源总数和加权重复出版来源总数,确定待推荐专 家与作者之间的出版来源关联关系式。
在本发明的实施例中,为了进一步提高专家推荐结果的公平性和公正性,在确定出版来源关 联关系式时,可引入出版来源类型权重系数,即对每类出版来源设置对应的权重系数。具体的: 出版来源类型可以包括期刊类型和非期刊类型,期刊类型可以包括一般期刊、核心期刊、EI期刊 和SCI期刊。非期刊类型可以包括专利、学位论文、会议论文和科技成果等。相应的,期刊类型 权重系数可以包括一般期刊权重系数、核心期刊权重系数、EI期刊权重系数和SCI期刊权重系数。 不同非期刊类型的非期刊类型权重系数可以相同,也可以不同,可根据实际情况进行设定,在此 不作具体限定。由于考虑到推荐专家是关联程度低且学术能力强的专家,因此,设置非期刊类型 权重系数、一般期刊权重系数、核心期刊权重系数、EI期刊权重系数和SCI期刊权重系数依次减 小。需要说明的是,可设置出版来源类型权重系数为1。如果出版来源类型权重系数包括非期刊类 型权重系数、一般期刊权重系数、核心期刊权重系数、EI期刊权重系数和SCI期刊权重系数,则 非期刊类型权重系数、一般期刊权重系数、核心期刊权重系数、EI期刊权重系数和SCI期刊权重 系数相加之和为1。
根据出版来源类型权重系数和重复出版来源总数,确定加权重复出版来源总数,可作如下理 解:针对与每个待推荐专家关联的每个作者,根据该待推荐专家所属出版来源名称和该作者所属 出版来源名称,确定每类型出版来源的重复出版来源总数。根据该类型出版来源的重复出版来源 总数和该类型出版来源的出版来源类型权重系数,确定该类型出版来源的加权重复出版来源总数。 根据各类型出版来源的加权重复出版来源总数,确定该待推荐专家与该作者所属的加权重复出版 来源总数。其中,根据该类型出版来源的重复出版来源总数和该类型出版来源的出版来源类型权 重系数,确定该类型出版来源的加权重复出版来源总数,可作如下理解:将该类型的重复出版来 源总数与该类型出版来源的出版来源类型权重系数相乘,乘积结果作为该类型出版来源的加权重 复出版来源总数。根据各类型出版来源的加权重复出版来源总数,确定该待推荐专家与该作者所 属的加权重复出版来源总数,可作如下理解:将各类型出版来源的加权重复出版来源总数相加之 和作为该待推荐专家与该作者所属的加权重复出版来源总数。
示例性的,如作者集
Figure BDA0002138172120000171
与待推荐专家U1关联的作者包括两个,分别为 作者U11和作者U12。出版来源类型权重系数包括期刊类型权重系数和非期刊类型权重系数,期刊 类型权重系数包括一般期刊权重系数η1、核心期刊权重系数η2、EI期刊权重系数η3和SCI期刊 权重系数η4。非期刊类型权重系数为η5。其中,待推荐专家U1所属出版来源名称的个数为一个, 为a,出版来源a属于一般期刊,相应的,出版来源a对应的出版来源类型权重系数为一般期刊权 重系数η1。作者U11所属出版来源名称的个数为两个,分别为b和c,出版来源b属于核心期刊, 出版来源c属于EI期刊,相应的,出版来源b对应的出版来源类型权重系数为核心期刊权重系数η2, 出版来源c对应的出版来源类型权重系数为EI期刊权重系数η3。作者U12所属出版来源名称的个 数为两个,分别为a和c,出版来源a属于一般期刊,出版来源c属于EI期刊,相应的,出版来 源a对应的出版来源类型权重系数为一般期刊权重系数η1,出版来源c对应的出版来源类型权重 系数为EI期刊权重系数η3。基于此,则待推荐专家U1与作者U11所属的出版来源总数为3个, 所属的加权重复出版来源总数为0个。待推荐专家U1与作者U12所属的出版来源总数为3个,所 属的加权重复出版来源总数为(η1×1)个。
根据出版来源总数和加权重复出版来源总数,确定待推荐专家与作者之间的出版来源关联关 系式,可作如下理解:针对与每个待推荐专家关联的每个作者,计算该待推荐专家所属的加权重 复出版来源总数与该待推荐专家所属的出版来源总数的比值,将比值作为该待推荐专家与该作者 之间的出版来源关联关系式。
可选的,在上述技术方案的基础上,根据机构关联关系式和出版来源关联关系式,确定待推 荐专家与作者之间的科研关联关系式,具体可以包括:根据机构权重系数和机构关联关系值,确 定加权机构关联关系式,以及,根据出版来源权重系数和出版来源关联关系式,确定加权出版来 源关联关系式。根据加权机构关联关系式和加权出版来源关联关系式,确定待推荐专家与作者之 间的科研关联关系式。
在本发明的实施例中,为了进一步提高专家推荐结果的公平性和公正性,可设置机构权重系 数和出版来源权重系数。具体的:根据机构权重系数和机构关联关系式,确定加权机构关联关系 式,可作如下理解:将机构权重系数和机构关联关系式相乘,并将乘积结果作为加权机构关联关 系式。根据出版来源权重系数和出版来源关联关系式,确定加权出版来源关联关系式,可作如下 理解:将出版来源权重系数和出版来源关联关系式相乘,并将乘积结果作为加权出版来源关联关 系式。其中,机构权重系数和出版来源权重系数之和可设置为1。机构权重系数和出版来源权重系 数的具体数值可根据实际情况进行设定,在此不作具体限定。根据加权机构关联关系式和加权出 版来源关联关系式,确定待推荐专家与作者之间的科研关联关系式,可作如下理解:将加权机构 关联关系式和加权出版来源关联关系式相加之和作为待推荐专家与作者之间的科研关联关系式。
可选的,在上述技术方案的基础上,待推荐专家与作者之间的科研关联关系式为:
Figure BDA0002138172120000181
其中,Ui表示待推荐专家,Uij表示与待推荐专家作者Ui关联的作者,i∈{1,2,3,......};Nij表示待推荐专家Ui与作者Uij所属的依托机构总数;Kij表示待推荐 专家Ui与作者Uij所属的重复依托机构总数;Mij表示待推荐专家Ui与作者Uij所属的出版来源总 数;pk表示待推荐专家Ui与作者Uij所属的第k类出版来源重复总数,ηk表示第k类出版来源的 出版来源类型权重系数,k∈{1,2,3,4,5},k=1表示一般期刊,k=2表示核心期刊,k=3表示EI期刊,k=4表示SCI期刊,k=5表示非期刊,η1表示一般期刊权重系数,η2表示核心期刊 权重系数,η3表示EI期刊权重系数,η4表示SCI期刊权重系数,η5表示非期刊类型权重系数, η5>η1>η2>η3>η4;μ表示机构权重系数,γ表示出版来源权重系数;G(Ui,Uij)表示待 推荐专家Ui与作者Uij之间的科研关联关系式。
在本发明的实施例中,针对与每个待推荐专家Ui关联的作者Uij,均可采用公式
Figure BDA0002138172120000191
来计算待推荐专家Ui与作者Uij之间的科研关联关系值。其中, 可设置μ+γ=1,μ∈(0,1),γ∈(0,1)。
示例性的,如作者集
Figure BDA0002138172120000192
与待推荐专家U1关联的作者包括两个,分别为 作者U11和作者U12。其中,待推荐专家U1依托机构名称的个数为两个,分别为A和B。作者U11依托机构名称的个数为一个,为A。作者U12依托机构名称的个数为三个,分别为A、C和D。基 于此,则待推荐专家U1与作者U11所属的依托机构总数为N11=3个,所属的重复依托机构总数为 K11=1个。待推荐专家U1与作者U12所属的依托机构总数为N12=5个,所属的重复依托机构总 数为K12=1个。
出版来源类型权重系数包括期刊类型权重系数和非期刊类型权重系数,期刊类型权重系数包 括一般期刊权重系数η1、核心期刊权重系数η2、EI期刊权重系数η3和SCI期刊权重系数η4。 非期刊类型权重系数可表示为η5。其中,待推荐专家U1所属出版来源名称的个数为一个,为a, 出版来源a属于一般期刊,相应的,出版来源a对应的出版来源类型权重系数为一般期刊权重系数 η1。作者U11所属出版来源名称的个数为两个,分别为b和c,出版来源b属于核心期刊,出版来 源c属于EI期刊,相应的,出版来源b对应的出版来源类型权重系数为核心期刊权重系数η2, 出版来源c对应的出版来源类型权重系数为EI期刊权重系数η3。作者U12所属出版来源名称的个 数为两个,分别为a和c,出版来源a属于一般期刊,出版来源c属于EI期刊,相应的,出版来 源a对应的出版来源类型权重系数为一般期刊权重系数η1,出版来源c对应的出版来源类型权重 系数为EI期刊权重系数η3。基于此,则待推荐专家U1与作者U11所属的出版来源总数为M11=3 个,所属的加权重复出版来源总数为(η1×0)个。待推荐专家U1与作者U12所属的出版来源总数 为M12=3个,所属的加权重复出版来源总数为(η1×1)个。
可选的,在上述技术方案的基础上,原始PageRank公式如下:
Figure BDA0002138172120000193
新PageRank公式如下:
Figure BDA0002138172120000201
其中,
Figure BDA0002138172120000202
表示待推荐专 家Ui所属的作者集;N表示待推荐专家Ui所属的作者集
Figure BDA0002138172120000203
的总人数;L(Uij)表示作者Uij的出 链总数;α表示PageRank算法的阻尼系数;R(Ui)表示待推荐专家Ui的PR值;R(Uij)表示作 者Uij的PR值;G(Ui,Uij)表示待推荐专家Ui与作者Uij之间的科研关联关系式。
在本发明的实施例中,α表示PageRank算法的阻尼系数,可设置为α=0.85。L(Uij)表示 作者Uij的出链总数,即作者Uij文章的全部作者总数。可以理解到,如果出链到待推荐专家Ui的 个数越多,则待推荐专家Ui与作者Uij的关联关系越密切。
示例性的,如图2所示,给出了一种各文章下作者之间的关联有向图。图2中的N1表示待推 荐专家,N2-N9表示与该待推荐专家关联的作者。有向线段表示指向该所属作者文章下的其他作 者,例如N1→N2、N1→N3、N1→N4表示待推荐专家N1的某篇文章中关联的作者为作者N2、 作者N3和作者N4。可通过作者N2、作者N3和作者N4的作者链接跳转到这些作者的文章信息, 例如N2→N1、N2→N8和N2→N9表示作者N2的某篇文章关联的作者为待推荐专家N1、作 者N8和作者N9。通过有向图的方式将待推荐专家和作者,以及,作者和作者关联起来。进而上 述L(Uij)可通过有向图提供的关系得到。上述G(Ui,Uij)可将有向图提供的关系作为计算的依据。
基于此,针对每个待推荐专家Ui,其加权关联关系式可通过如下公式计算: Rtotal(Ui)=Rspace(Ui)+C(ω1,ω2)R(Ui)。
可选的,在上述技术方案的基础上,获得作者集和与作者集合对应的作者关联信息集,具体 可以包括:根据项目信息,基于推荐算法,从专家推荐库中,获得各待推荐专家和各待推荐专家 所属出版来源名称和依托机构名称。根据各待推荐专家,从专家推荐库中,获得与各待推荐专家 关联的作者,根据作者获得作者所属出版来源名称和依托机构名称。针对每个待推荐专家,将待 推荐专家和与待推荐专家关联的作者组成作者集,将待推荐专家依托机构名称和作者依托机构名 称组成依托机构名称,将待推荐专家所属出版来源名称和作者所属出版来源名称组成出版来源名 称,将依托机构名称和出版来源名称组成作者关联信息集。
在本发明的实施例中,推荐算法可以包括基于内容推荐算法、协同过滤推荐算法、基于规则 推荐算法、基于效用推荐算法和基于知识推荐算法。更为具体的,推荐算法可以为TF-IDF算法。 TF-IDF算法是一种用于评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。 TF-IDF的值是词频和逆文件频率的乘积。如果一个词的TF-IDF的值越高,则可说明其在文件中 的重要性越大。TF是指某个词在文件中出现的频率。IDF是指一个词的权重度量。在词频的基础 上,如果一个词在多个文件中TF较低,即表示其是一个比较少见的词,但在某一个文件中却出现 了多次,则这个词的IDF越大。
项目信息可以包括根据项目名称、关键词、所属学科领域和所属专业领域等内容。可基于推 荐算法,从专家推荐库中,确定出的专家即可作为待推荐专家。通常从专家推荐库中,确定出的 待推荐专家的个数为至少三个。需要说明的是,上述基于推荐算法,从专家推荐库中确定待推荐 专家的过程可理解为一次专家推荐过程。相应的,经一次专家推荐后得到的推荐结果即为待推荐 专家。从专家推荐库中获得待推荐专家依托机构名称和所属出版来源名称。根据每个待推荐专家, 从专家推荐库中,获得与该待推荐专家关联的作者,根据与该待推荐专家关联的作者获得作者所 属出版来源名称和依托机构名称。针对每个待推荐专家,将该待推荐专家和与该待推荐专家关联 的作者组成作者集,将该待推荐专家依托机构名称和各作者所属机构信名称组成依托机构名称, 将该待推荐专家所属出版来源名称和各作者所属出版来源名称组成出版来源名称,将依托机构名 称和出版来源名称组成作者关联信息集。
可选的,在上述技术方案的基础上,专家推荐库可通过如下方式生成:根据推荐专家的专家 名称和当前工作单位,从文献数据库中获得推荐专家发表文章的专家文章著录项信息,专家文章 著录项信息包括文章名称、推荐专家名称、作者名称、所属出版来源名称、依托机构名称和作者 网页链接,并将专家文章著录项信息存储至第一数据表。根据作者网页链接,从文献数据库中获 得作者发表文章的作者文章著录项信息,作者文章著录项信息包括文章名称、作者名称、其他作 者名称、所属出版来源名称和依托机构名称,并将作者文章著录项信息存储至第二数据表。根据 专家文章著录项信息中的所属出版来源名称,确定第一出版来源次数,以及,根据专家文章著录 项信息中的依托机构名称,确定第一机构次数。根据作者文章著录项信息中的所属出版来源名称, 确定第二出版来源次数,以及,根据作者文章著录项信息中的依托机构名称,确定第二机构次数。 将专家文章著录项信息中的所属出版来源名称、第一出版来源次数、专家文章著录项信息中的依 托机构名称和第一机构次数关联存储至第三数据表,以及,将作者文章著录项信息中的所属出版 来源名称、第二出版来源次数、作者文章著录项信息中的依托机构名称和第二机构次数关联存储至所述第三数据表。将原始专家推荐库、第一数据表、第二数据表和第三数据表组成专家推荐库。
在本发明的实施例中,由于传统技术中原始专家推荐库中并不存储待推荐专家与申请人所发 表文章信息,而为了提高专家推荐结果的公平性和公正性,需要考虑待推荐专家与申请人之间的 关联关系,而建立待推荐专家与申请人之间的关联关系的基础即是待推荐专家与申请人所发表文 章信息,因此,需要对原始专家推荐库进行改进。具体的:根据推荐专家的专家名称和当前工作 单位,可从文献数据库中获得推荐专家发表文章的专家文章著录项信息,专家文章著录项信息包 括文章名称、推荐专家名称、作者名称、所属出版来源名称、依托机构名称和作者网页链接,并 将专家文章著录项信息存储至第一数据表。文献数据库可以包括但不限于中国知网、SCI和EI等。 第一数据表可命名为info_expert_article。
示例性的,如图3所示,给出了一种专家推荐库的显示界面示意图。图3中,在推荐专家名 称处输入张三,在当前工作单位处输入A大学,选择中国知网作为文献数据库。通过点击确定, 输出与推荐专家张三发表文章的专家文章著录项信息,专家文章著录项信息包括文章名称、推荐 专家名称和作者名称等,并将专家文章著录项信息存储至第一数据表。作者名称包括李四、王五、 赵六、刘二、黄一、田七、曹八和穆十。
针对每个作者网页链接,可从文献数据库中获得该作者发表文章的作者文章著录项信息,该 作者文章著录项信息包括文章名称、作者名称、其他作者名称、所属出版来源名称和依托机构名 称,并将该作者文章著录项信息存储至第二数据表。其中,第二数据表可命名为info_other_author。 示例性的,这里的作者名称即为图3中的作者名称李四、王五、赵六、刘二、黄一、田七、曹八 和穆十。需要说明的是,针对每个作者网页链接均将得到一个与之对应的作者著录项信息。
在得到专家文章著录项信息和作者文章著录项信息后,可进一步对依托机构名称和出版来源 名称进行统计,具体的:可根据专家文章著录项信息中的所属出版来源名称,确定第一出版来源 次数,第一出版来源次数表示专家文章著录项信息中每类出版来源名称出现的次数。根据专家文 章著录项信息中的依托机构名称,确定第一机构次数,第一机构次数表示专家文章著录项信息中 每个依托机构名称出现的次数。
根据作者文章著录项信息中的所属出版来源名称,确定第二出版来源次数,第二出版来源次 数表示作者文章著录项信息中每类出版来源名称出现的次数。根据作者文章著录项信息中的依托 机构名称,确定第二机构次数,第二机构次数表示作者文章著录项信息中每个依托机构名称出现 的次数。
将专家文章著录项信息中的所属出版来源名称、第一出版来源次数、专家文章著录项信息中 的依托机构名称和第一机构次数关联存储至第三数据表。以及,将作者文章著录项信息中的所属 出版来源名称、第二出版来源次数、作者文章著录项信息中的依托机构名称和第二机构次数关联 存储至所述第三数据表。其中,第三数据表可命名为author。
需要说明的是,还可对出版来源类型进行等级划分,出版来源类型可以包括一般出版来源、 核心出版来源、工程索引出版来源和科学引文索引出版来源。相应的,在存储第一出版来源次数 和第二出版来源次数时,还可将出版来源类型关联存储。即第三数据表中还可存储有每类出版来 源的出版来源类型。
还需要说明的是,可设置在同一文章著录项信息中,全部作者依托机构名称一致,这里所述 作者也包括推荐专家。不同文章著录项信息中,如果作者依托机构名称有重复的情况,则可统计 重复次数。此外,不同文章著录项信息中,如果作者所属出版来源名称有重复的情况,则可统计 重复次数。
在得到第一数据表、第二数据表和第三数据表后,可将原始专家推荐库、第一数据表、第二 数据表和第三数据表组成专家推荐库。其中,原始专家推荐库可以包括推荐专家名称、所属学科 领域、所属专业领域、当前工作单位、曾工作单位、毕业学校、参与项目和获得荣誉等。
需要说明的是,可通过网络爬虫,从文献数据库中获得上述第一数据表和第二数据表的内容。 网络爬虫也被称为网络蜘蛛,其是一个程序或脚本,主要是根据特定的规则自动抓取来自互联网 中的信息。网络爬虫可分为通用网络爬虫和主题网络爬虫。通过网络爬虫搜集数据,克服了人工 搜集数据的不方便性,提高了数据搜集的效率,丰富了原始专家推荐库的内容,并可作为建立待 推荐专家与申请人之间的关联关系的数据来源。
图4为本发明实施例提供的另一种基于改进PageRank算法的专家二次推荐方法的流程图,本 实施例可适用于提高专家推荐结果的公平性和公正性,进而提高项目评审结果的准确性和合理性 的情况,该方法可以由基于改进PageRank算法的专家二次推荐装置来执行,该装置可以采用软件 和/或硬件的方式实现,该装置可以配置于设备中,例如典型的是计算机等。如图4所示,该方法 具体包括如下步骤:
步骤201、获得作者集和与作者集对应的作者关联信息集,作者集的个数为至少三个,每个作 者集包括待推荐专家和与待推荐专家关联的作者,待推荐专家为经一次专家推荐后得到的推荐结 果,每个作者关联信息集包括依托机构名称和出版来源名称,依托机构名称包括待推荐专家依托 机构名称和作者依托机构名称,出版来源名称包括待推荐专家所属出版来源名称和作者所属出版 来源名称。
步骤202、根据各作者关联信息集,确定各待推荐专家和与各待推荐专家关联的作者之间的科 研关联关系式。
步骤203、将科研关联关系式引入原始PageRank公式得到新PageRank公式,基于改进网页级 别PageRank算法对新网页级别PageRank公式进行计算,得到各待推荐专家的PR值,并将各待推 荐专家的PR值作为各待推荐专家的科研关联关系值。
步骤204、针对每个作者集,申请人是否属于作者集;若是,则执行步骤205;若否,则执行 步骤206。
步骤205、将第一系数与待推荐专家的科研关联值相乘作为待推荐专家的加权科研关联关系值, 并执行步骤209。
步骤206、将第二系数与待推荐专家的科研关联关系值相乘作为待推荐专家的加权科研关联关 系值,并执行步骤209。
步骤207、获得申请人的空间因素信息和各待推荐专家的空间因素信息,空间因素信息包括毕 业学校、当前工作单位、曾工作单位、当前工作学习城市和曾工作学习城市中的至少一种。
步骤208、根据各待推荐专家的空间因素信息和申请人的空间因素信息,分别确定各待推荐专 家的空间关联关系值,各待推荐专家的空间关联关系值表示各待推荐专家与申请人之间的空间关 联关系。
步骤209、根据各待推荐专家的加权科研关联关系值和各待推荐专家的空间关联关系值,确定 各待推荐专家的关联关系值,各待推荐专家的关联关系值表示各待推荐专家与申请人之间的关联 关系。
步骤210、根据各待推荐专家的关联关系值,确定推荐专家。
在本发明的实施例中,步骤201-步骤206,与,步骤207和步骤208可同时执行,也可先执行 步骤201-步骤206再执行步骤207和步骤208,还可先执行步骤207和步骤208再执行步骤201- 步骤206,步骤201-步骤206,与,步骤207和步骤208执行的先后顺序可根据实际情况进行设定, 在此不作具体限定。
本实施例的技术方案,通过将科研关联关系值和空间关联关系值引入专家推荐方法中,使得 确定出的推荐专家与申请人的关联关系较为疏远,并且减少了用户判断的主观局限性,提高了专 家推荐结果的公平性和公正性,进而提高了项目和论文投稿的评审结果的准确性和合理性。
图5为本发明实施例提供的一种基于改进PageRank算法的专家二次推荐装置的结构示意图, 本实施例可适用于提高专家推荐结果的公平性和公正性,进而提高项目评审结果的准确性和合理 性的情况,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于设备中,例如典型的是 计算机等。如图5所示,该装置具体包括:
信息集获得模块310,用于获得作者集和与作者集对应的作者关联信息集,每个作者集包括待 推荐专家和与待推荐专家关联的作者,待推荐专家为经一次专家推荐后得到的推荐结果,每个作 者关联信息集包括依托机构名称和出版来源名称,依托机构名称包括待推荐专家依托机构名称和 作者依托机构名称,出版来源名称包括待推荐专家所属出版来源名称和作者所属出版来源名称。
科研关联关系式确定模块320,用于根据各作者关联信息集,确定各待推荐专家和与各待推荐 专家关联的作者之间的科研关联关系式。
科研关联关系值获得模块330,用于将科研关联关系式引入原始PageRank公式得到新 PageRank公式,基于改进PageRank算法对新PageRank公式进行计算,得到各待推荐专家的PR 值,并将各待推荐专家的PR值作为各待推荐专家的科研关联关系值。
加权科研关联关系值确定模块340,用于针对每个作者集,如果申请人属于作者集,则将第一 系数与待推荐专家的科研关联值相乘作为待推荐专家的加权科研关联关系值。如果申请人不属于 作者集,则将第二系数与待推荐专家的科研关联关系值相乘作为待推荐专家的加权科研关联关系 值。第一系数大于第二系数。
推荐专家确定模块350,用于将各待推荐专家的加权科研关联关系值作为各待推荐专家的关联 关系值,各待推荐专家的关联关系值表示各待推荐专家与申请人之间的关联关系,并根据各待推 荐专家的关联关系值,确定推荐专家。
本实施例的技术方案,通过获得作者集和与所述作者集对应的作者关联信息集,每个作者集 包括待推荐专家和与待推荐专家关联的作者,待推荐专家为经一次专家推荐后得到的推荐结果, 根据各作者关联信息集,确定各待推荐专家和与各待推荐专家关联的作者之间的科研关联关系式, 将科研关联关系式引入原始PageRank公式得到新PageRank公式,基于改进PageRank算法对新 PageRank公式进行计算,得到各待推荐专家的PR值,并将各待推荐专家的PR值作为各待推荐专 家的科研关联关系值,针对每个作者集,如果申请人属于作者集,则将第一系数与待推荐专家的 科研关联值相乘作为待推荐专家的加权科研关联关系值,如果申请人不属于作者集,则将第二系 数与待推荐专家的科研关联关系值相乘作为待推荐专家的加权科研关联关系值,将各待推荐专家 的加权科研关联关系值作为各待推荐专家的关联关系值,并根据各待推荐专家的关联关系值,确 定推荐专家。上述通过将科研关联关系式引入原始PageRank公式得到新PageRank公式,并基于 改进PageRank算法对新PageRank公式进行计算,得到各待推荐专家的PR值,实现了将待推荐专家和申请人之间的关联关系引入专家推荐方法中,使得确定出的推荐专家与申请人的关联关系较 为疏远,并且减少了用户判断的主观局限性,提高了专家推荐结果的公平性和公正性,进而提高 了项目和论文投稿的评审结果的准确性和合理性。
可选的,在上述技术方案的基础上,该装置具体还可以包括:
空间因素信息获得模块,用于获得申请人的空间因素信息和各待推荐专家的空间因素信息, 空间因素信息包括毕业学校、当前工作单位、曾工作单位、当前工作学习城市和曾工作学习城市 中的至少一种。
空间关联关系值确定模块,用于根据各待推荐专家的空间因素信息和申请人的空间因素信息, 分别确定各待推荐专家的空间关联关系值,各待推荐专家的空间关联关系值表示各待推荐专家与 申请人之间的空间关联关系。
相应的,推荐专家确定模块350,具体可以包括:
关联关系值确定子模块,用于根据各待推荐专家的加权科研关联关系值和各待推荐专家的空 间关联关系值,确定各待推荐专家的关联关系值,待推荐专家的关联关系值表示各待推荐专家与 申请人之间的关联关系。
推荐专家确定子模块,用于根据各待推荐专家的关联关系值,确定推荐专家。
可选的,在上述技术方案的基础上,空间关联关系值确定模块,具体可以包括:
空间关联关系值确定单元,用于根据空间因素信息权重系数、各待推荐专家的空间因素信息 和申请人的空间因素信息,分别确定各待推荐专家与申请人之间的空间关联关系值,空间因素信 息权重系数包括毕业学校权重系数、当前工作单位权重系数、曾工作单位权重系数、当前工作学 习城市权重系数和曾工作学习城市权重系数中的至少一种,当前工作单位权重系数、毕业学校权 重系数、曾工作单位权重系数、当前工作学习城市权重系数和曾工作学习城市权重系数。
可选的,在上述技术方案的基础上,各待推荐专家与申请人之间的空间关联关系值可通过如 下公式计算:
Figure BDA0002138172120000251
其中,t∈{1,2,3,4,5};βt表示空间因素信息权重系数, β1表示当前工作单位权重系数,β2表示毕业学校权重系数,β3表示当前工作学习城市权重系数, β4表示曾工作单位权重系数,β5表示曾工作学习城市权重系数,β5<β3<β4<β2<β1; C1(1,0)=1表示待推荐专家的当前工作单位与申请人的当前工作单位一致,C1(1,0)=0表示待推荐 专家的当前工作单位与申请人的当前工作单位不一致;C2(1,0)=1表示待推荐专家的毕业学校与申 请人的毕业学校一致,C2(1,0)=0表示待推荐专家的毕业学校与申请人的毕业学校不一致; C3(1,0)=1表示待推荐专家的当前工作学习城市与申请人的当前工作学习城市一致,C3(1,0)=0 表示待推荐专家的当前工作学习城市与申请人的当前工作学习城市不一致;C4(1,0)=1表示待推荐 专家的曾工作单位与申请人的曾工作单位一致,C4(1,0)=0表示待推荐专家的曾工作单位与申请 人的曾工作单位不一致;C5(1,0)=1表示待推荐专家的曾工作学习城市与申请人的曾工作学习城市 一致,C5(1,0)=0表示待推荐专家的曾工作学习城市与申请人的曾工作学习城市不一致; Rspace(Ui)表示待推荐专家Ui与申请人之间的空间关联关系值。
可选的,在上述技术方案的基础上,科研关联关系式确定模块320,具体可以包括:
机构数量信息确定子模块,用于针对与每个待推荐专家关联的每个作者,根据待推荐专家依 托机构名称与作者依托机构名称,确定待推荐专家与作者所属的依托机构总数,以及,待推荐专 家与作者所属的重复依托机构总数。
机构关联关系式确定子模块,用于根据依托机构总数和重复依托机构总数,确定待推荐专家 与作者之间的机构关联关系式。
出版来源数量信息确定子模块,用于根据待推荐专家所属出版来源名称与作者所属出版来源 名称,确定待推荐专家与作者所属的出版来源总数,以及,待推荐专家与作者所属的重复出版来 源总数。
出版来源关联关系式确定子模块,用于根据出版来源总数与重复出版来源总数,确定待推荐 专家与作者之间的出版来源关联关系式。
科研关联关系式确定子模块,用于根据机构关联关系式和出版来源关联关系式,确定待推荐 专家与作者之间的科研关联关系式。
可选的,在上述技术方案的基础上,出版来源关联关系式确定子模块,具体可以包括:
加权重复出版来源总数确定单元,用于根据出版来源类型权重系数和重复出版来源总数,确 定加权重复出版来源总数,出版来源权重系数包括期刊类型权重系数和非期刊类型权重系数,期 刊类型权重系数可以包括一般期刊权重系数、核心期刊权重系数、EI期刊权重系数和SCI期刊重 系数中的至少一种,非期刊类型权重系数、一般期刊权重系数、核心期刊权重系数、EI期刊权重 系数和SCI期刊权重系数依次减小。
出版来源关联关系式确定单元,用于根据出版来源总数和加权重复出版来源总数,确定待推 荐专家与作者之间的出版来源关联关系式。
可选的,在上述技术方案的基础上,科研关联关系式确定子模块,具体可以包括:
加权关联关系式确定单元,用于根据机构权重系数和机构关联关系时,确定加权机构关联关 系式,以及,根据出版来源权重系数和出版来源关联关系式,确定加权出版来源关联关系式。
科研关联关系式确定单元,用于根据加权机构关联关系式和加权出版来源关联关系式,确定 待推荐专家与作者之间的科研关联关系式。
可选的,在上述技术方案的基础上,待推荐专家与作者之间的科研关联关系式为:
Figure BDA0002138172120000271
其中,Ui表示待推荐专家,Uij表示与待推荐专家作者Ui关联的作者,i∈{1,2,3,......};Nij表示待推荐专家Ui与作者Uij所属的依托机构总数;Kij表示待推荐 专家Ui与作者Uij所属的重复依托机构总数;Mij表示待推荐专家Ui与作者Uij所属的出版来源总 数;pk表示待推荐专家Ui与作者Uij所属的第k类出版来源重复总数,ηk表示第k类出版来源的 出版来源类型权重系数,k∈{1,2,3,4,5},k=1表示一般期刊,k=2表示核心期刊,k=3表示 EI期刊,k=4表示SCI期刊,k=5表示非期刊,η1表示一般期刊权重系数,η2表示核心期刊 权重系数,η3表示EI期刊权重系数,η4表示SCI期刊权重系数,η5表示非期刊类型权重系数, η5>η1>η2>η3>η4;μ表示机构权重系数,γ表示出版来源权重系数;G(Ui,Uij)表示待 推荐专家Ui与作者Uij之间的科研关联关系式。
可选的,在上述技术方案的基础上,原始PageRank公式如下:
Figure BDA0002138172120000272
新PageRank公式如下:
Figure BDA0002138172120000273
其中,其中,
Figure BDA0002138172120000274
表示待 推荐专家Ui所属的作者集;N表示待推荐专家Ui所属的作者集
Figure BDA0002138172120000275
的总人数;L(Uij)表示作者Uij的出链总数;α表示PageRank算法的阻尼系数;R(Ui)表示待推荐专家Ui的PR值;R(Uij)表 示作者Uij的PR值;G(Ui,Uij)表示待推荐专家Ui与作者Uij之间的科研关联关系式。
可选的,在上述技术方案的基础上,信息集获得模块310,具体可以包括:
待推荐专家信息获得子模块,用于根据项目信息,基于推荐算法,从专家推荐库中,获得各 待推荐专家和各待推荐专家所属出版来源名称和依托机构名称。
作者信息获得子模块,用于根据各待推荐专家,从专家推荐库中,获得与各待推荐专家关联 的作者,根据作者获得作者所属出版来源名称和依托机构名称。
信息集获得子模块,用于针对每个待推荐专家,将待推荐专家和与待推荐专家关联的作者组 成作者集,将待推荐专家依托机构名称和作者所属机构信名称组成依托机构名称,将待推荐专家 所属出版来源名称和作者所属出版来源名称组成出版来源名称,将依托机构名称和所述出版来源 名称组成作者关联信息集。
可选的,在上述技术方案的基础上,专家推荐库可通过如下方式生成:根据推荐专家的专家 名称和当前工作单位,从文献数据库中获得推荐专家发表文章的专家文章著录项信息,专家文章 著录项信息包括文章名称、推荐专家名称、作者名称、所属出版来源名称、依托机构名称和作者 网页链接,并将专家文章著录项信息存储至第一数据表。根据作者网页链接,从文献数据库中获 得作者发表文章的作者文章著录项信息,作者文章著录项信息包括文章名称、作者名称、其他作 者名称、所属出版来源名称和依托机构名称,并将作者文章著录项信息存储至第二数据表。根据 专家文章著录项信息中的所属出版来源名称,确定第一出版来源次数,以及,根据专家文章著录 项信息中的依托机构名称,确定第一机构次数。根据作者文章著录项信息中的所属出版来源名称, 确定第二出版来源次数,以及,根据作者文章著录项信息中的依托机构名称,确定第二机构次数。 将专家文章著录项信息中的所属出版来源名称、第一出版来源次数、专家文章著录项信息中的依 托机构名称和第一机构次数关联存储至第三数据表,以及,将作者文章著录项信息中的所属出版 来源名称、第二出版来源次数、作者文章著录项信息中的依托机构名称和第二机构次数关联存储至所述第三数据表。将原始专家推荐库、第一数据表、第二数据表和第三数据表组成专家推荐库。
本发明实施例所提供的配置于设备的基于改进PageRank算法的专家二次推荐装置可执行本发 明任意实施例所提供的应用于设备的基于改进PageRank算法的专家二次推荐方法,具备执行方法 相应的功能模块和有益效果。
本发明实施例还提供了一种设备,该设备具体可以包括一个或多个处理器。存储器,用于存 储一个或多个程序。当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如 本发明实施例所述的基于改进PageRank算法的专家二次推荐方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器 执行时实现如本发明实施例所述基于改进PageRank算法的专家二次推荐方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之 内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于改进PageRank算法的专家二次推荐方法,其特征在于,包括:
获得作者集和与所述作者集对应的作者关联信息集,每个所述作者集包括待推荐专家和与所述待推荐专家关联的作者,所述待推荐专家为经一次专家推荐后得到的推荐结果,每个所述作者关联信息集包括依托机构名称和出版来源名称,所述依托机构名称包括待推荐专家依托机构名称和所述作者依托机构名称,所述出版来源名称包括所述待推荐专家所属出版来源名称和所述作者所属出版来源名称;
根据各作者关联信息集,确定各待推荐专家和与各待推荐专家关联的作者之间的科研关联关系式;
将所述科研关联关系式引入原始PageRank公式得到新PageRank公式,基于改进PageRank算法对所述新PageRank公式进行计算,得到各待推荐专家的网页级别PR值,并将各待推荐专家的PR值作为各待推荐专家的科研关联关系值;
针对每个所述作者集,如果申请人属于所述作者集,则将第一系数与待推荐专家的科研关联值相乘作为待推荐专家的加权科研关联关系值;如果申请人不属于所述作者集,则将第二系数与待推荐专家的科研关联关系值相乘作为待推荐专家的加权科研关联关系值;所述第一系数大于所述第二系数;
将各待推荐专家的加权科研关联关系值作为各待推荐专家的关联关系值,所述各待推荐专家的关联关系值表示各待推荐专家与申请人之间的关联关系,并根据各待推荐专家的关联关系值,确定推荐专家。
2.根据权利要求1所述的方法,其特征在于,所述获得作者集和与所述作者集对应的作者关联信息集之后,还包括:
获得申请人的空间因素信息和各待推荐专家的空间因素信息,所述空间因素信息包括毕业学校、当前工作单位、曾工作单位、当前工作学习城市和曾工作学习城市中的至少一种;
根据各待推荐专家的空间因素信息和所述申请人的空间因素信息,分别确定各待推荐专家的空间关联关系值,所述各待推荐专家的空间关联关系值表示各待推荐专家与所述申请人之间的空间关联关系;
相应的,所述将各待推荐专家的加权科研关联关系值作为各待推荐专家的关联关系值,所述各待推荐专家的关联关系值表示各待推荐专家与申请人之间的关联关系,并根据各待推荐专家的关联关系值,确定推荐专家,包括:
根据各待推荐专家的加权科研关联关系值和各待推荐专家的空间关联关系值,确定各待推荐专家的关联关系值,所述各待推荐专家的关联关系值表示各待推荐专家与所述申请人之间的关联关系;
根据各待推荐专家的关联关系值,确定推荐专家。
3.根据权利要求2所述的方法,其特征在于,所述根据各待推荐专家的空间因素信息和所述申请人的空间因素信息,分别确定各待推荐专家与所述申请人之间的空间关联关系值,包括:
根据空间因素信息权重系数、各待推荐专家的空间因素信息和所述申请人的空间因素信息,分别确定各待推荐专家与所述申请人之间的空间关联关系值,所述空间因素信息权重系数包括毕业学校权重系数、当前工作单位权重系数、曾工作单位权重系数、当前工作学习城市权重系数和曾工作学习城市权重系数中的至少一种,所述当前工作单位权重系数、所述毕业学校权重系数、所述曾工作单位权重系数、所述当前工作学习城市权重系数和所述曾工作学习城市权重系数依次减小。
4.根据权利要求3所述的方法,其特征在于,各待推荐专家与所述申请人之间的空间关联关系值通过如下公式计算:
Figure FDA0002138172110000021
其中,t∈{1,2,3,4,5};βt表示空间因素信息权重系数,β1表示当前工作单位权重系数,β2表示毕业学校权重系数,β3表示当前工作学习城市权重系数,β4表示曾工作单位权重系数,β5表示曾工作学习城市权重系数,β5<β3<β4<β2<β1;C1(1,0)=1表示待推荐专家的当前工作单位与申请人的当前工作单位一致,C1(1,0)=0表示待推荐专家的当前工作单位与申请人的当前工作单位不一致;C2(1,0)=1表示待推荐专家的毕业学校与申请人的毕业学校一致,C2(1,0)=0表示待推荐专家的毕业学校与申请人的毕业学校不一致;C3(1,0)=1表示待推荐专家的当前工作学习城市与申请人的当前工作学习城市一致,C3(1,0)=0表示待推荐专家的当前工作学习城市与申请人的当前工作学习城市不一致;C4(1,0)=1表示待推荐专家的曾工作单位与申请人的曾工作单位一致,C4(1,0)=0表示待推荐专家的曾工作单位与申请人的曾工作单位不一致;C5(1,0)=1表示待推荐专家的曾工作学习城市与申请人的曾工作学习城市一致,C5(1,0)=0表示待推荐专家的曾工作学习城市与申请人的曾工作学习城市不一致;Rspace(Ui)表示待推荐专家Ui与申请人之间的空间关联关系值。
5.根据权利要求1所述的方法,其特征在于,所述根据各作者关联信息集,确定各待推荐专家和与各待推荐专家关联的作者之间的科研关联关系式,包括:
针对与每个待推荐专家关联的每个作者,根据所述待推荐专家依托机构名称与所述作者依托机构名称,确定所述待推荐专家与所述作者所属的依托机构总数,以及,所述待推荐专家与所述作者所属的重复依托机构总数;
根据所述依托机构总数和所述重复依托机构总数,确定所述待推荐专家与所述作者之间的机构关联关系式;
根据所述待推荐专家所属出版来源名称与所述作者所属出版来源名称,确定所述待推荐专家与所述作者所属的出版来源总数,以及,所述待推荐专家与所述作者所属的重复出版来源总数;
根据出版来源类型权重系数和所述重复出版来源总数,确定加权重复出版来源总数,所述出版来源类型权重系数包括期刊类型权重系数和非期刊类型权重系数,所述期刊类型权重系数包括一般期刊权重系数、核心期刊权重系数、工程索引EI期刊权重系数和科学引文索SCI引期刊权重系数中的至少一种,所述非期刊类型权重系数、所述一般期刊权重系数、所述核心期刊权重系数、所述工程索引期刊权重系数和所述科学引文索引期刊权重系数依次减小;
根据所述出版来源总数和所述加权重复出版来源总数,确定所述待推荐专家与所述作者之间的出版来源关联关系式;
根据机构权重系数和所述机构关联关系式,确定加权机构关联关系式,以及,根据出版来源权重系数和所述出版来源关联关系式,确定加权出版来源关联关系式;
根据所述加权机构关联关系式和所述加权出版来源关联关系式,确定所述待推荐专家与所述作者之间的科研关联关系式。
6.根据权利要求5所述的方法,其特征在于,所述待推荐专家与所述作者之间的科研关联关系式为:
Figure FDA0002138172110000031
其中,Ui表示待推荐专家,Uij表示与待推荐专家作者Ui关联的作者,i∈{1,2,3,......};Nij表示待推荐专家Ui与作者Uij所属的依托机构总数;Kij表示待推荐专家Ui与作者Uij所属的重复依托机构总数;Mij表示待推荐专家Ui与作者Uij所属的出版来源总数;pk表示待推荐专家Ui与作者Uij所属的第k类出版来源重复总数,ηk表示第k类出版来源的出版来源类型权重系数,k∈{1,2,3,4,5},k=1表示一般期刊,k=2表示核心期刊,k=3表示工程索引期刊,k=4表示科学引文索引期刊,k=5表示非期刊,η1表示一般期刊权重系数,η2表示核心期刊权重系数,η3表示EI期刊权重系数,η4表示SCI期刊权重系数,η5表示非期刊类型权重系数,η5>η1>η2>η3>η4;μ表示机构权重系数,γ表示出版来源权重系数;G(Ui,Uij)表示待推荐专家Ui与作者Uij之间的科研关联关系式。
7.根据权利要求6所述的方法,其特征在于,所述原始PageRank公式如下:
Figure FDA0002138172110000032
所述新PageRank公式如下:
Figure FDA0002138172110000033
其中,
Figure FDA0002138172110000034
表示待推荐专家Ui所属的作者集;N表示待推荐专家Ui所属的作者集
Figure FDA0002138172110000035
的总人数;L(Uij)表示作者Uij的出链总数;α表示PageRank算法的阻尼系数;R(Ui)表示待推荐专家Ui的PR值;R(Uij)表示作者Uij的PR值;G(Ui,Uij)表示待推荐专家Ui与作者Uij之间的科研关联关系式。
8.根据权利要求1-7任一所述的方法,其特征在于,所述获得作者集和与所述作者集合对应的作者关联信息集,包括:
根据项目信息,基于推荐算法,从专家推荐库中,获得各待推荐专家和各待推荐专家所属出版来源名称和依托机构名称;
根据各待推荐专家,从所述专家推荐库中,获得与各待推荐专家关联的作者,根据所述作者获得所述作者所属出版来源名称和依托机构名称;
针对每个待推荐专家,将所述待推荐专家和与所述待推荐专家关联的作者组成作者集,将所述待推荐专家依托机构名称和所述作者所属机构信名称组成依托机构名称,将所述待推荐专家所属出版来源名称和所述作者所属出版来源名称组成出版来源名称,将所述依托机构名称和所述出版来源名称组成作者关联信息集。
9.根据权利要求8所述的方法,其特征在于,所述专家推荐库通过如下方式生成:
根据推荐专家的专家名称和当前工作单位,从文献数据库中获得所述推荐专家发表文章的专家文章著录项信息,所述专家文章著录项信息包括文章名称、推荐专家名称、作者名称、所属出版来源名称、依托机构名称和作者网页链接,并将所述专家文章著录项信息存储至第一数据表;
根据所述作者网页链接,从所述文献数据库中获得所述作者发表文章的作者文章著录项信息,所述作者文章著录项信息包括文章名称、作者名称、其他作者名称、所属出版来源名称和依托机构名称,并将所述作者文章著录项信息存储至第二数据表;
根据所述专家文章著录项信息中的所属出版来源名称,确定第一出版来源次数,以及,根据所述专家文章著录项信息中的依托机构名称,确定第一机构次数;
根据所述作者文章著录项信息中的所属出版来源名称,确定第二出版来源次数,以及,根据所述作者文章著录项信息中的依托机构名称,确定第二机构次数;
将所述专家文章著录项信息中的所属出版来源名称、所述第一出版来源次数、所述专家文章著录项信息中的依托机构名称和所述第一机构次数关联存储至第三数据表,以及,将所述作者文章著录项信息中的所属出版来源名称、所述第二出版来源次数、所述作者文章著录项信息中的依托机构名称和所述第二机构次数关联存储至所述第三数据表;
将所述原始专家推荐库、所述第一数据表、所述第二数据表和所述第三数据表组成所述专家推荐库。
10.一种基于改进PageRank算法的专家二次推荐装置,其特征在于,包括:
信息集获得模块,用于获得作者集和与所述作者集对应的作者关联信息集,每个所述作者集包括待推荐专家和与所述待推荐专家关联的作者,所述待推荐专家为经一次专家推荐后得到的推荐结果,每个所述作者关联信息集包括依托机构名称和出版来源名称,所述依托机构名称包括待推荐专家依托机构名称和所述作者依托机构名称,所述出版来源名称包括所述待推荐专家所属出版来源名称和所述作者所属出版来源名称;
科研关联关系式确定模块,用于根据各作者关联信息集,确定各待推荐专家和与各待推荐专家关联的作者之间的科研关联关系式;
科研关联关系值获得模块,用于将所述科研关联关系式引入原始PageRank公式得到新PageRank公式,基于改进PageRank算法对所述新PageRank公式进行计算,得到各待推荐专家的PR值,并将各待推荐专家的PR值作为各待推荐专家的科研关联关系值;
加权科研关联关系值确定模块,用于针对每个所述作者集,如果申请人属于所述作者集,则将第一系数与待推荐专家的科研关联值相乘作为待推荐专家的加权科研关联关系值;如果申请人不属于所述作者集,则将第二系数与待推荐专家的科研关联关系值相乘作为待推荐专家的加权科研关联关系值;所述第一系数大于所述第二系数;
推荐专家确定模块,用于将各待推荐专家的加权科研关联关系值作为各待推荐专家的关联关系值,所述各待推荐专家的关联关系值表示各待推荐专家与申请人之间的关联关系,并根据各待推荐专家的关联关系值,确定推荐专家。
CN201910659891.4A 2019-07-22 2019-07-22 基于改进PageRank算法的专家二次推荐方法及装置 Active CN110888964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910659891.4A CN110888964B (zh) 2019-07-22 2019-07-22 基于改进PageRank算法的专家二次推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910659891.4A CN110888964B (zh) 2019-07-22 2019-07-22 基于改进PageRank算法的专家二次推荐方法及装置

Publications (2)

Publication Number Publication Date
CN110888964A true CN110888964A (zh) 2020-03-17
CN110888964B CN110888964B (zh) 2023-09-01

Family

ID=69745820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910659891.4A Active CN110888964B (zh) 2019-07-22 2019-07-22 基于改进PageRank算法的专家二次推荐方法及装置

Country Status (1)

Country Link
CN (1) CN110888964B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080288324A1 (en) * 2005-08-31 2008-11-20 Marek Graczynski Computer system and method for evaluating scientific institutions, professional staff and work products
US20110119264A1 (en) * 2009-11-18 2011-05-19 International Business Machines Corporation Ranking expert responses and finding experts based on rank
CN104361102A (zh) * 2014-11-24 2015-02-18 清华大学 一种基于群组匹配的专家推荐方法及***
CN106997383A (zh) * 2017-03-22 2017-08-01 山东大学 基于PageRank算法的问题推荐方法及***
CN108287875A (zh) * 2017-12-29 2018-07-17 东软集团股份有限公司 人物共现关系确定方法、专家推荐方法、装置及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080288324A1 (en) * 2005-08-31 2008-11-20 Marek Graczynski Computer system and method for evaluating scientific institutions, professional staff and work products
US20110119264A1 (en) * 2009-11-18 2011-05-19 International Business Machines Corporation Ranking expert responses and finding experts based on rank
CN104361102A (zh) * 2014-11-24 2015-02-18 清华大学 一种基于群组匹配的专家推荐方法及***
CN106997383A (zh) * 2017-03-22 2017-08-01 山东大学 基于PageRank算法的问题推荐方法及***
CN108287875A (zh) * 2017-12-29 2018-07-17 东软集团股份有限公司 人物共现关系确定方法、专家推荐方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ABEER EL-KORANY: ""Integrated Expert Recommendation Model for Online Communities"" *
HAO WU.ET: ""On improving aggregate recommendation diversity and novelty in folksonomy-based social systems"" *

Also Published As

Publication number Publication date
CN110888964B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
Zhang et al. Group decision making with heterogeneous preference structures: An automatic mechanism to support consensus reaching
Pennington et al. Glove: Global vectors for word representation
US9449096B2 (en) Identifying influencers for topics in social media
Christakopoulou et al. Collaborative ranking with a push at the top
CN110020176A (zh) 一种资源推荐方法、电子设备以及计算机可读存储介质
CN112905891A (zh) 基于图神经网络的科研知识图谱人才推荐方法及装置
WO2021128158A1 (zh) 一种基于网络表征和语义表征的同名作者消歧方法
Xue et al. Optimizing Ontology Alignments by using NSGA-II.
WO2015051481A1 (en) Determining collection membership in a data graph
Xue et al. Using MOEA/D for optimizing ontology alignments
He et al. Using Artificial Bee Colony Algorithm for Optimizing Ontology Alignment.
Zhao et al. Side information fusion for recommender systems over heterogeneous information network
Meng et al. CrowdTC: crowdsourced taxonomy construction
Lal et al. A Proposed Ranked Clustering Approach for Unstructured Data from Dataspace using VSM
Kardkovács et al. The ferrety algorithm for the KDD Cup 2005 problem
Li et al. Exploit latent Dirichlet allocation for collaborative filtering
CN110888964B (zh) 基于改进PageRank算法的专家二次推荐方法及装置
Yang et al. Recommendation model based on enhanced graph convolution that fuses review properties
Brochier et al. New datasets and a benchmark of document network embedding methods for scientific expert finding
Manjunatha et al. Citation prediction using time series approach kdd cup 2003 (task 1)
Xu et al. Query recommendation based on improved query flow graph
Ochieng et al. Ontologies’ mappings validation and annotation enrichment through tagging
Sen et al. Evaluation method of user comprehensive influence based on analytic hierarchy process
TWM459464U (zh) 學術期刊投稿推薦系統
Agarwal et al. Votesumm: A multi-document summarization scheme using influential nodes of multilayer weighted sentence network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant