CN112988951A

CN112988951A - 一种科研项目评审专家精准推荐方法和存储设备

Info

Publication number: CN112988951A
Application number: CN202110281677.7A
Authority: CN
Inventors: 石宝玉; 黄丽丽; 游河仁; 姚智振
Original assignee: Fuzhou Institute Of Data Technology Co ltd
Current assignee: Fuzhou Institute Of Data Technology Co ltd
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-06-18

Abstract

本发明涉及数据处理技术领域，特别涉及一种科研项目评审专家精准推荐方法和存储设备。所述一种科研项目评审专家精准推荐方法，包括步骤：构建关键词词库，并计算生成各关键词与各学科的对应关系；获取目标文件，对所述目标文件进行预处理操作；对所述目标文件进行分节处理，并确定各分节的关键词；确定各分节的各关键词权重，根据所述各分节的各关键词权重确定各分节的学科分布，整合所述各分节的学科分布得整个目标文件的学科分布；在所述整个目标文件的学科分布内确定最相似的专家；将所述最相似的专家进行展示。通过以上步骤，即便是小领域项目，以可以精准推荐对应的专家人选。

Description

一种科研项目评审专家精准推荐方法和存储设备

技术领域

本发明涉及数据处理技术领域，特别涉及一种科研项目评审专家精准推荐方法和存储设备。

背景技术

2002年，Kreiner等人提出同行评审环节中，那些难以被编纂、直接表达出来的隐性知识是无法被复制、取代的，所以评审专家在学术文献中的重要作用无可取代。因此，基于计算机庞大算力，为各学科科研项目寻找合适的评审专家已逐渐成为国际专家评审推荐工作的主流趋势。

公开号为US20110184926A1的美国专利通过分析专家库中专家与各个关键词之间的语义相关性，实现生成输入提案的对应领域推荐专家列表。公开号为US20110184926A1的美国专利在进行关键词关联与学者学科定位时，主要是基于***下的学科层次分布对关键词进行关联度分析，缺少对于各个专家文本的实际分析考察，由此对专家进行学科领域分类还存在一定不确定性，存在针对小领域专家推荐不精准的可能性。

公开号为CN110909236A的中国专利通过建立专家数据库，对专家信息进行分析建模，实现根据具体项目需求调配对应学科专家，实现“基于大数据的专家推荐方法”。公开号为CN110909236A的中国专利，该方法的缺陷在于其主要关注的是被推荐专家的职称与其在实际评审中的工作经验，在大科学时代背景下需要根据细分学科、交叉学科项目特点，精准推荐小领域专家，这是此方法目前还较为欠缺的地方。

发明内容

为此，需要提供一种科研项目评审专家精准推荐方法，用以解决现有技术中小领域专家推荐不精准的问题。具体技术方案如下：

一种科研项目评审专家精准推荐方法，包括步骤：

构建关键词词库，并计算生成各关键词与各学科的对应关系；

获取目标文件，对所述目标文件进行预处理操作；

对所述目标文件进行分节处理，并确定各分节的关键词；

确定各分节的各关键词权重，根据所述各分节的各关键词权重确定各分节的学科分布，整合所述各分节的学科分布得整个目标文件的学科分布；

在所述整个目标文件的学科分布内确定最相似的专家；

将所述最相似的专家进行展示。

进一步的，所述“并计算生成各关键词与各学科的对应关系”，具体还包括步骤：

对于专家库中的每位专家，生成关键词-学科共现矩阵C_k：

C_ki，j＝|{D|w_i∈D，d_j∈D}|，k＝1，2，3

其中k为学科级别，w为关键词，D是这位专家所写的文章，d为学科；

对于每个关键词，根据以下公式计算得出这个词对于所有学科的共现系数：

式子中，p为共现矩阵元素的值，即特定关键词w_i在特定学科d_j中出现的概率，f为两个目标对象d_j和w_i共现的次数。

进一步的，所述“对所述目标文件进行预处理操作”，具体还包括步骤：

通过IF-IDF加权技术对所述目标文件进行预处理操作。

进一步的，所述“并确定各分节的关键词”，具体还包括步骤：

根据预设算法抽取初步关键词，并根据预先建立好的关键词网对所述初步关键词进行去噪确定各分节最终对应的关键词。

进一步的，所述“在所述整个目标文件的学科分布内确定最相似的专家”，具体还包括步骤：

在学科内根据预设数值K选取对应数值专家，将每个抽取出的关键词进行向量化，对所有向量进行平均化得目标文件的向量；

对每位专家的所有扩充关键词进行向量化，根据所述目标文件的向量与所述每位专家的扩充关键词的向量在向量空间内的余弦相似度确定最相似的专家。

为解决上述技术问题，还提供了一种存储设备，具体技术方案如下：

一种存储设备，其中存储有指令集，所述指令集用于执行：

获取目标文件，对所述目标文件进行预处理操作；

对所述目标文件进行分节处理，并确定各分节的关键词；

在所述整个目标文件的学科分布内确定最相似的专家；

将所述最相似的专家进行展示。

进一步的，所述指令集还用于执行：

所述“并计算生成各关键词与各学科的对应关系”，具体还包括步骤：

对于专家库中的每位专家，生成关键词-学科共现矩阵C_k：

C_kij＝|{D|w_i∈D，d_j∈D}|，k＝l，2，3

进一步的，所述指令集还用于执行：所述“对所述目标文件进行预处理操作”，具体还包括步骤：

通过IF-IDF加权技术对所述目标文件进行预处理操作。

进一步的，所述指令集还用于执行：所述“并确定各分节的关键词”，具体还包括步骤：

进一步的，所述指令集还用于执行：所述“在所述整个目标文件的学科分布内确定最相似的专家”，具体还包括步骤：

本发明的有益效果是：通过构建关键词词库，并计算生成各关键词与各学科的对应关系；获取目标文件，对所述目标文件进行预处理操作，减少目标文件中不必要的数据的噪音影响；对所述目标文件进行分节处理，并确定各分节的关键词；确定各分节的各关键词权重，根据所述各分节的各关键词权重确定各分节的学科分布，整合所述各分节的学科分布得整个目标文件的学科分布；在所述整个目标文件的学科分布内确定最相似的专家；将所述最相似的专家进行展示。通过以上步骤，即便是小领域项目，以可以精准推荐对应的专家人选。

附图说明

图1为具体实施方式所述一种科研项目评审专家精准推荐方法的流程图；

图2为具体实施方式所述专项指南关键词提取的流程示意图；

图3为具体实施方式所述学科分布分析示意图；

图4为具体实施方式所述专家选取示意图；

图5为具体实施方式所述可视化展现关键词及关键词对应专家示意图；

图6为具体实施方式所述对专家名单进行约束和过滤示意图；

图7为具体实施方式所述一种存储设备的模块示意图。

附图标记说明：

700、存储设备。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1至图6，在本实施方式中，一种科研项目评审专家精准推荐方法可应用在一种存储设备上，所述存储设备包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端等。

需要说明的是，在本实施方式中，前期会针对具体需求形成专家库，以此作为备选专家池。以下所提及的方法便是在此专家池内来推荐专家学者。

因不同的关键词在不同的语境中所指向的含义也会不同，如：语法，可能指的是中文语法，可能英文语法，也可能对应的是计算机。故此在本实施方式中，针对关键词有预先建立了关键词网，可借助关键词网找到更准确对应的学科和专家。具体关键词网的建立过程如下：

使用深度学习工具将关键词间相似度依据其所处上下文语境得出，进行关键词间联想，具体可如下：使用深度学习工具word2vec将每一个关键词转化成N维空间的词向量，之后根据两个向量在N维空间中的cosine值大小作为其相似度的衡量，进行关键词间的联想。同时进一步补充关键词，完善关键词网。

在关键词抽取时，本实施方式取用n-gram(n取3-10)的统计语言模型，抽取较为完整的、频次较高的有效关键词，作为最终生成关键词网的核心关键词。保证所取关键词在“常用”的基础之上，可更为清晰地表达文本语义；

按照之前得出的相似度值，有层次地对关键词进行聚类。具体可如下：根据关键词联想时所用word2vec方法得到的相似度值，按相似度由高到低排序，逐步重新连接个节点，从而可清晰得出关键词之间的关联关系。关键词的聚类使用层次聚类，该方法描述如下：

输入：类数K，关键词组W；

(1)初始状态设置每一个节点(关键词)为一个类；

(2)找出当前类中相似度最高的一对，将其合并；

(3)计算当前新生成的类和其余类两两之间的相似度；

(4)查看当前类数，若当前类数小于等于K，则结束，否则循环(2)，(3)；

(5)其中，类之间的相似度算法采用Average Linkage clustering，即

式中，A、B为两个节点即两个类，其中a，b为A,B中的关键词元素，sim为a，b的相似度(similarity)，d(a，b)为计算a、b两关键词相似度的函数会得到a、b间的相似度。节点相似度采用word2vec方法计算出的关键词相似度。

本申请的大致流程可概述为：外部人员确定评审项目或课题，并将其输入计算机；应用大数据技术，在专家所填信息数据库内抽取信息，进行关键词联想、抽取、聚类，由此生成关键词网；对应课题在关键词网内智能筛选专家信息，从专家池中得出推荐人选名单并进行展示；提供专家个人简历，可供用户查看推荐人选的详细信息。

具体实施方式如下：

步骤S101：构建关键词词库，并计算生成各关键词与各学科的对应关系。具体可如下：对中国知网中专家们的科研成果的关键词作处理形成有效关键词词库，再对关键词依据概率分布公式计算得出各关键词与各个学科间的对应关系和紧密程度。

对于专家库中的每位专家，生成关键词-学科共现矩阵C_k：

C_kij＝|{D|w_i∈D，d_j∈D}|，k＝123

由此，可以得出关键词-学科概率分布情况。

而对于没有在专家库扩充词中直接出现的词，采用关键词联想的方式，选出与其相似的在库词进行计算。

步骤S102：获取目标文件，对所述目标文件进行预处理操作。在本实施方式中，目标文件以项目指南文本为例，在其它实施方式中，目标文件可以是任意形式的文档。具体可如下：从官方网站获取可转换格式的对应项目指南文本，转换后存储。对转换后的文本内容进行去噪、去除常用词/停用词，同时应用IF-IDF方法去除区分度低的词，对所得数据还会进行其他处理。，转换为适用于计算机处理的格式。

步骤S103：对所述目标文件进行分节处理，并确定各分节的关键词。在本实施方式中，通过正则表达式对目标文件的文本进行分节，

所述“并确定各分节的关键词”，具体还包括步骤：

根据预设算法抽取初步关键词(在本实施方式中，可取用n-gram(n取3-10)的统计语言模型，抽取较为完整的、频次较高的有效关键词)，并根据预先建立好的关键词网对所述初步关键词进行去噪确定各分节最终对应的关键词。具体可如图2所示。

步骤S104：确定各分节的各关键词权重，根据所述各分节的各关键词权重确定各分节的学科分布，整合所述各分节的学科分布得整个目标文件的学科分布。具体可如下：据文章不同文段位置确定各关键词权重，据此再生成各小节的学科分布，整合后得出全文学科分布概率，找到项目的学科覆盖情况，为最终抽取专家学者提供基础。整个流程可如图3所示。

步骤S105：在所述整个目标文件的学科分布内确定最相似的专家。具体还包括步骤：

具体可如下：在学科分布的基础上，确定主要及次要学科及其分布。在学科内依照人工设定数值K来选取对应数值专家，再使用word2vec将每个抽取出的关键词进行向量化，所有向量进行平均化，得到可以表示该段文本的向量。对每一位专家的所有扩充关键词采用同样的方式产生向量。则可依据其在向量空间内的余弦相似度，从中抽取最相似的专家。具体向量化示意图可见图4。

步骤S106：将所述最相似的专家进行展示。具体可如下：按照不同学科，将得到的推荐专家进行分类。放入以辐射图方式展示的关键词图谱的下分学科内，可人工对专家名单添加有限性排序、条件约束和条件过滤或人数分配等策略对人员进行再筛选。过滤后的名单将以列表形式呈现，并可以查看、导出专家详细信息。

本申请的方法应用在实际中，如图5所示，可以界面的形式呈现，如：在界面中输入指南文本后，点击关键字生成，即可以可视化的方式展现抽取出的关键词，以及关键词对应的专家。词与词之间的关联关系以灰色实线表示，且以粗细表示关联强度，可以拖动控件，过滤不同权重的关键词，匹配与当前关键词对应的专家。同时，操作者可以对关键词进行人工调整，包括增加删除关键词，或更改关键词的权重。

图6展示了本申请可依据哪些指标对所得人选们进行约束和过滤，人工对专家名单添加有限性排序，条件约束和条件过滤或人数分配等。本申请所构建的集成算法可在机器初筛方面辅助评审专家智能指派，帮助研究工作顺利开展。减少了专家筛选匹配工作量，为项目节约人力及时间成本。本申请将优先且尽量多地抽取主要学科内的专家。主要学科可有多个。给定小节的学科分布，倚靠人工定的数量阈值、百分比阈值及百分比差值阈值来选取专家。同时，本申请可人工干预，进一步按要求选取专家。得到结果可按需求再依据各类指标对人员进行筛选。即便是小领域的专家，通过本方法，亦可以精准匹配到。

在本申请中，对数据库中专家无规范填写的关键词进行联想、抽取、聚类处理，生成完备的关键词网。

基于指南文本生成项目学科概率分布，加权定向寻找合适专家，辅助人工指标，并确定专家人数及专家组成。

本申请具备很好的移植性，可适用于为不同方向各个学科项目推荐专家学者。

本申请可根据社会网络挖掘结果，智能回避关联专家，提高专家筛选的效率及客观性。

请参阅图2至图7，在本实施方式中，一种存储设备700的具体实施方式如下：

同样地，需要预先建立备选专家池和预先建立关键词网，建立方法与一种科研项目评审专家精准推荐方法中的相同，在此不做重复说明。

一种存储设备700，其中存储有指令集，所述指令集用于执行：

构建关键词词库，并计算生成各关键词与各学科的对应关系。具体可如下：对中国知网中专家们的科研成果的关键词作处理形成有效关键词词库，再对关键词依据概率分布公式计算得出各关键词与各个学科间的对应关系和紧密程度。所述指令集还用于执行：

对于专家库中的每位专家，生成关键词-学科共现矩阵C_k：

C_kij＝|{D|w_i∈D，d_j∈D}|，k＝1，2，3

由此，可以得出关键词-学科概率分布情况。

获取目标文件，对所述目标文件进行预处理操作。在本实施方式中，目标文件以项目指南文本为例，在其它实施方式中，目标文件可以是任意形式的文档。具体可如下：从官方网站获取可转换格式的对应项目指南文本，转换后存储。对转换后的文本内容进行去噪、去除常用词/停用词，同时应用IF-IDF方法去除区分度低的词，对所得数据还会进行其他处理。，转换为适用于计算机处理的格式。

对所述目标文件进行分节处理，并确定各分节的关键词。在本实施方式中，通过正则表达式对目标文件的文本进行分节，

所述指令集还用于执行：所述“并确定各分节的关键词”，具体还包括步骤：

确定各分节的各关键词权重，根据所述各分节的各关键词权重确定各分节的学科分布，整合所述各分节的学科分布得整个目标文件的学科分布。具体可如下：据文章不同文段位置确定各关键词权重，据此再生成各小节的学科分布，整合后得出全文学科分布概率，找到项目的学科覆盖情况，为最终抽取专家学者提供基础。整个流程可如图3所示。

在所述整个目标文件的学科分布内确定最相似的专家。具体还包括步骤：

将所述最相似的专家进行展示。具体可如下：按照不同学科，将得到的推荐专家进行分类。放入以辐射图方式展示的关键词图谱的下分学科内，可人工对专家名单添加有限性排序、条件约束和条件过滤或人数分配等策略对人员进行再筛选。过滤后的名单将以列表形式呈现，并可以查看、导出专家详细信息。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种科研项目评审专家精准推荐方法，其特征在于，包括步骤：

获取目标文件，对所述目标文件进行预处理操作；

对所述目标文件进行分节处理，并确定各分节的关键词；

在所述整个目标文件的学科分布内确定最相似的专家；

将所述最相似的专家进行展示。

2.根据权利要求1所述的一种科研项目评审专家精准推荐方法，其特征在于，所述“并计算生成各关键词与各学科的对应关系”，具体还包括步骤：

对于专家库中的每位专家，生成关键词-学科共现矩阵C_k：

C_ki，j＝|{D|w_i∈D，d_j∈D}|，k＝1，2，3

式子中，p为共现矩阵元素的值，即特定关键词w_i在特定学科d_j中出现的概率，f为两个目标对象d_i和w_i共现的次数。

3.根据权利要求1所述的一种科研项目评审专家精准推荐方法，其特征在于，所述“对所述目标文件进行预处理操作”，具体还包括步骤：

通过IF-IDF加权技术对所述目标文件进行预处理操作。

4.根据权利要求1所述的一种科研项目评审专家精准推荐方法，其特征在于，所述“并确定各分节的关键词”，具体还包括步骤：

5.根据权利要求1所述的一种科研项目评审专家精准推荐方法，其特征在于，所述“在所述整个目标文件的学科分布内确定最相似的专家”，具体还包括步骤：

6.一种存储设备，其中存储有指令集，其特征在于，所述指令集用于执行：

获取目标文件，对所述目标文件进行预处理操作；

对所述目标文件进行分节处理，并确定各分节的关键词；

在所述整个目标文件的学科分布内确定最相似的专家；

将所述最相似的专家进行展示。

7.根据权利要求6所述的一种存储设备，其特征在于，所述指令集还用于执行：

对于专家库中的每位专家，生成关键词-学科共现矩阵C_k：

C_ki，j＝|{D|w_i∈D，d_j∈D}|，k＝1，2，3

8.根据权利要求6所述的一种存储设备，其特征在于，所述指令集还用于执行：所述“对所述目标文件进行预处理操作”，具体还包括步骤：

通过IF-IDF加权技术对所述目标文件进行预处理操作。

9.根据权利要求6所述的一种存储设备，其特征在于，所述指令集还用于执行：所述“并确定各分节的关键词”，具体还包括步骤：

10.根据权利要求6所述的一种存储设备，其特征在于，所述指令集还用于执行：所述“在所述整个目标文件的学科分布内确定最相似的专家”，具体还包括步骤：