CN108229684A

CN108229684A - 构建专家知识向量模型的方法、装置及终端设备

Info

Publication number: CN108229684A
Application number: CN201810079085.5A
Authority: CN
Inventors: 苏成; 潘云涛; 赵筱媛; 程薛柯
Original assignee: INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Current assignee: INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2018-06-29
Anticipated expiration: 2038-01-26
Also published as: CN108229684B

Abstract

本发明实施例提供了一种构建专家知识向量模型的方法、装置及终端设备，其中，构建专家知识向量模型的方法包括：根据预设数量的成果文本，构建成果知识向量；依据预设数量的成果文本的时间信息及作者信息，确定专家‑成果集；基于成果知识向量及专家‑成果集，构建专家知识向量模型。本发明实施例提供的方法，构建了一种结合时间因素的专家知识向量模型，动态反映专家的兴趣变化，不仅保证了专家研究兴趣的时效性，而且提高了专家遴选的准确性，能够更好地满足专家遴选的要求。

Description

构建专家知识向量模型的方法、装置及终端设备

技术领域

本发明涉及信息处理技术领域，具体而言，本发明涉及一种构建专家知识向量模型的方法、装置及终端设备。

背景技术

随着科技项目申报管理***在我国的迅速普及，科技项目的评审工作从以往的集中会议模式发展到当前的网络模式。评审专家根据领域知识和资助机构的资助标准，对项目申请书进行评议，资助机构依据评审专家的评议情况决定是否资助。科技项目管理***的规模越来越大，形成大量的专家库信息。由于科技项目评审必须做到客观性、公正性和权威性，可见，如何快速准确地、智能地检索并遴选出与待审项目领域相匹配的评审专家，变得十分重要和关键。

而且，目前在对评审专家进行遴选的过程中，基本上都是基于预先建立的专家信息模型来进行，于是，如何构建准确、时效性强的专家信息模型成为本领域技术人员亟待解决的技术问题。

发明内容

本发明的目的旨在至少能解决上述的技术缺陷之一，特别是无法构建时效性强的专家信息模型的技术缺陷。

本发明的实施例根据一个方面，提供了一种构建专家知识向量模型的方法，包括：

根据预设数量的成果文本，构建成果知识向量；

依据所述预设数量的成果文本的时间信息及作者信息，确定专家-成果集；

基于所述成果知识向量及所述专家-成果集，构建专家知识向量模型。

优选地，所述根据预设数量的成果文本，构建成果知识向量，包括：

根据预设提取方式，从每个成果文本中提取表征成果研究主题的至少一项特征项；

对所述至少一项特征项进行文本分词，得到至少一个主题词；

确定每个主题词在其对应的成果文本中的第一权重值；

基于所述至少一个主题词及所述第一权重值，构建所述成果知识向量。

优选地，所述基于所述至少一个主题词及所述第一权重值，构建所述成果知识向量，包括：

将每个主题词及其对应的第一权重值映射成相应的向量；

基于所述向量，确定每个成果文本的空间向量；

根据所述每个成果文本的空间向量，构建所述成果知识向量。

优选地，所述基于所述成果知识向量及所述专家-成果集，构建专家知识向量模型，包括：

将所述成果知识向量按照与所述专家-成果集的预设映射关系匹配分组，得到相应的专家-成果向量集；

基于所述专家-成果向量集，构建所述专家知识向量模型。

优选地，所述基于所述专家-成果向量集，构建所述专家知识向量模型，包括：

通过依据每个成果文本的时间信息，对每个主题词在其对应的成果文本中的第一权重值进行权重合并，构建所述专家知识向量模型。

优选地，所述通过依据每个成果文本的时间信息，对每个主题词在其对应的成果文本中的第一权重值进行权重合并，构建所述专家知识向量模型，包括：

依据所述每个成果文本的时间信息，确定所述每个成果文本的年份加权因子；

根据所述年份加权因子及所述第一权重值，确定所述每个主题词在相应领域中的第二权重值；

通过将所述每个主题词及其对应的第二权重值映射成相应的向量，构建所述专家知识向量模型。

本发明的实施例根据另一个方面，还提供了一种构建专家知识向量模型的装置，包括：

成果知识向量构建模块，用于根据预设数量的成果文本，构建成果知识向量；

确定模块，用于依据所述预设数量的成果文本的时间信息及作者信息，确定专家-成果集；

专家知识向量模型构建模块，用于基于所述成果知识向量及所述专家-成果集，构建专家知识向量模型。

优选地，所述成果知识向量构建模块包括提取子模块、分词子模块、权重确定子模块与第一构建子模块；

所述提取子模块，用于根据预设提取方式，从每个成果文本中提取表征成果研究主题的至少一项特征项；

所述分词子模块，用于对所述至少一项特征项进行文本分词，得到至少一个主题词；

所述权重确定子模块，用于确定每个主题词在其对应的成果文本中的第一权重值；

所述第一构建子模块，用于基于所述至少一个主题词及所述第一权重值，构建所述成果知识向量。

优选地，所述第一构建子模块包括映射子单元、空间向量确定子单元与第一构建子单元；

所述映射子单元，用于将每个主题词及其对应的第一权重值映射成相应的向量；

所述空间向量确定子单元，用于基于所述向量，确定每个成果文本的空间向量；

所述第一构建子单元，用于根据所述每个成果文本的空间向量，构建所述成果知识向量。

优选地，所述专家知识向量模型构建模块包括匹配子模块与第二构建子模块；

所述匹配子模块，用于将所述成果知识向量按照与所述专家-成果集的预设映射关系匹配分组，得到相应的专家-成果向量集；

所述第二构建子模块，用于基于所述专家-成果向量集，构建所述专家知识向量模型。

优选地，所述第二构建子模块具体用于通过依据每个成果文本的时间信息，对每个主题词在其对应的成果文本中的第一权重值进行权重合并，构建所述专家知识向量模型。

优选地，所述第二构建子模块包括第一确定子单元、第二确定子单元与第二构建子单元；

所述第一确定子单元，用于依据所述每个成果文本的时间信息，确定所述每个成果文本的年份加权因子；

所述第二确定子单元，用于根据所述年份加权因子及所述第一权重值，确定所述每个主题词在相应领域中的第二权重值；

所述第二构建子单元，用于通过将所述每个主题词及其对应的第二权重值映射成相应的向量，构建所述专家知识向量模型。

本发明的实施例根据另一个方面，还提供了一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的构建专家知识向量模型的方法。

本发明实施例提供的方法，根据预设数量的成果文本，构建成果知识向量，构建成果知识向量为后续构建专家知识向量模型提供了必要保障；依据所述预设数量的成果文本的时间信息及作者信息，确定专家-成果集，将时间信息作为确定专家-成果集的因素之一，从而能够及时确定专家研究兴趣随时间的变化情况，利于后续构建准确、时效性强的专家知识向量模型；基于所述成果知识向量及所述专家-成果集，构建专家知识向量模型，从而构建一种结合时间因素的专家知识向量模型，动态反映专家的兴趣变化，不仅保证了专家研究兴趣的时效性，而且提高了专家遴选的准确性，能够更好地满足专家遴选的要求。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明一实施例的构建专家知识向量模型的方法的流程示意图；

图2为本发明一实施例的构建专家知识向量模型的方法的过程图；

图3为本发明另一实施例的构建专家知识向量模型的装置的基本结构示意图；

图4为本发明另一实施例的构建专家知识向量模型的装置的详细结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信***)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位***)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本发明的一实施例提供了一种构建专家知识向量模型的方法，如图1所示，包括步骤110，根据预设数量的成果文本，构建成果知识向量；步骤120，依据预设数量的成果文本的时间信息及作者信息，确定专家-成果集；步骤130，基于成果知识向量及专家-成果集，构建专家知识向量模型。

下面对本发明实施的构建专家知识向量模型的方法进行详细介绍，具体如下所示：

在步骤110中，根据预设数量的成果文本，构建成果知识向量。

优选地，根据预设数量的成果文本，构建成果知识向量，包括：根据预设提取方式，从每个成果文本中提取表征成果研究主题的至少一项特征项；对至少一项特征项进行文本分词，得到至少一个主题词；确定每个主题词在其对应的成果文本中的第一权重值；基于至少一个主题词及第一权重值，构建成果知识向量。

优选地，基于至少一个主题词及第一权重值，构建成果知识向量，包括：将每个主题词及其对应的第一权重值映射成相应的向量；基于向量，确定每个成果文本的空间向量；根据每个成果文本的空间向量，构建成果知识向量。

具体地，在构建专家知识向量模型的过程中，需要预先根据一定数量的相关科研成果文件，例如图书、期刊论文、学位论文、专利、标准、会议录、科技报告等，构建若干位专家的科研成果的成果知识向量，其中，在构建成果知识向量的过程中，需要对每一成果文本构建相应的成果知识向量，下面以单篇成果文本为例，介绍成果文本知识向量的构建过程，具体如下：

提取表征成果文本的研究主题的特征项内容(即至少一项特征项)，接着对该至少一项特征项进行文本分词，得到至少一个成果主题词，接着，计算每个成果主题词在该成果文本中的权重值，然后将每个成果主题词及其在该成果文本中的权利值映射成向量，从而构建用于表征单篇成果文本(例如第i篇成果文本)的成果知识向量，其中，构建过程可以参考图2，该单篇成果文本的成果知识向量，可以用公式表示为：

Vector(Lw_i)＝{<t₁,w₁(lw_i)>,…,<t_k,w_k(lw_i)>,…,<t_n,w_n(lw_i)>}

其中，t_k是成果主题词，w_k(lw_i)是成果主题词t_k在成果文本lw_i中的权重值。

需要说明的是，上述构建的仅是单篇成果文本的成果知识向量，对于所有的成果文本来说，均需要重复执行上述的成果知识向量的构建过程，从而得到每一篇成果文本所对应的成果知识向量，然后再将每一篇成果文本的成果知识向量按一定规则排序，最终得到预设数量的成果文本的成果知识向量(即各篇成果文本的成果知识分量的集合)。

步骤120，依据预设数量的成果文本的时间信息及作者信息，确定专家-成果集。

具体地，在确定专家-成果集的过程中，可以将预设数量的成果文本按作者信息进行分组，并加入成果文本的发表时间(例如年、月等)，即依据预设数量的成果文本的时间信息及作者信息，确定专家-成果集。

步骤130，基于成果知识向量及专家-成果集，构建专家知识向量模型

优选地，基于成果知识向量及专家-成果集，构建专家知识向量模型，包括：将成果知识向量按照与专家-成果集的预设映射关系匹配分组，得到相应的专家-成果向量集；基于专家-成果向量集，构建专家知识向量模型。

优选地，基于专家-成果向量集，构建专家知识向量模型，包括：通过依据每个成果文本的时间信息，对每个主题词在其对应的成果文本中的第一权重值进行权重合并，构建专家知识向量模型。

优选地，通过依据每个成果文本的时间信息，对每个主题词在其对应的成果文本中的第一权重值进行权重合并，构建专家知识向量模型，包括：依据每个成果文本的时间信息，确定每个成果文本的年份加权因子；根据年份加权因子及第一权重值，确定每个主题词在相应领域中的第二权重值；通过将每个主题词及其对应的第二权重值映射成相应的向量，构建专家知识向量模型。

具体地，由于在构建专家-成果向量集的过程中，需要将成果知识向量按照专家人名实体进行分组，所以将成果知识向量按照专家-成果集映射关系进行匹配分组，即将成果知识向量按照与专家-成果集的预设映射关系匹配分组，得到相应的专家-成果向量集，图2给出了构建过程的基本示意图，其中，具体的构建过程，可以用公式表示为：

其中，Sp_i为某一领域的专家-成果向量集，AU_ID_m为专家m的唯一标识，代表着某位专家，Lw₁_id、Lw₂_id为成果知识向量，t_k为主题词，w_k(Lw_i)为主题词t_k在成果文本中的权重值，Py为成果文本的发表年份。

进一步地，通过按照成果发表年份对每个成果主题词进行权重合并，来构建出专家知识的向量空间模型，也即通过依据每个成果文本的时间信息，对每个主题词在其对应的成果文本中的第一权重值进行权重合并，构建专家知识向量模型。其中，具体的构建过程为：

首先，依据每个成果文本的时间信息，确定每个成果文本的年份加权因子δ，具体的说，可以根据下述公式计算年份加权因子δ：

其中，δ表示文档的年份加权因子，PubYear表示当前年份，PubYear表示论文发表年，TimeSpan表示语料集论文发表年跨度。

接着，根据年份加权因子及每个主题词在其对应的成果文本中的第一权重值，确定每个主题词在相应领域中的第二权重值具体的确定过程，可以根据下述公式计算第二权重值

其中，δ表示文档的年份加权因子，W_t,d为主题词t在成果文本d中的权重，为主题词t在专家相关知识体系领域Sp_i中的权重。

最后，通过将每个主题词及其对应的第二权重值映射成相应的向量，来构建专家知识向量模型，具体的构建过程，可以用公式表示为：

Vector(Sp_i)＝{<t₁,w₁(Sp_i)>,…,<t_k,w_k(Sp_i)>,…,<t_n,w_n(Sp_i)>}

其中，t_k是主题关键词，w_k(Sp_i)是关键词t_k在专家相关知识体系领域Sp_i中的权重值，Vector(Sp_i)即为构建的某一领域的专家知识向量模型。

需要说明的是，对于任一领域的专家知识向量模型的构建，均可采用上述构建方法。

本发明另一实施例提供了一种构建专家知识向量模型的装置，如图3所示，包括：成果知识向量构建模块31、确定模块32与专家知识向量模型构建模块33，其中，成果知识向量构建模块31用于根据预设数量的成果文本，构建成果知识向量；确定模块32用于依据预设数量的成果文本的时间信息及作者信息，确定专家-成果集；专家知识向量模型构建模块33用于基于成果知识向量及专家-成果集，构建专家知识向量模型。

具体地，成果知识向量构建模块31包括提取子模块311、分词子模块312、权重确定子模块313与第一构建子模块314，如图4所示，各模型的作用分别如下：

提取子模块311用于根据预设提取方式，从每个成果文本中提取表征成果研究主题的至少一项特征项；分词子模块312用于对至少一项特征项进行文本分词，得到至少一个主题词；权重确定子模块313用于确定每个主题词在其对应的成果文本中的第一权重值；第一构建子模块314用于基于至少一个主题词及所述第一权重值，构建成果知识向量。

进一步地，第一构建子模块314包括映射子单元3141、空间向量确定子单元3142与第一构建子单元3143，如图4所示，其中，映射子单元3141用于将每个主题词及其对应的第一权重值映射成相应的向量；空间向量确定子单元3142用于基于所述向量，确定每个成果文本的空间向量；第一构建子单元3143用于根据每个成果文本的空间向量，构建成果知识向量。

进一步地，专家知识向量模型构建模块33包括匹配子模块331与第二构建子模块332，如图4所示，其中，匹配子模块331用于将成果知识向量按照与专家-成果集的预设映射关系匹配分组，得到相应的专家-成果向量集；第二构建子模块332用于基于专家-成果向量集，构建专家知识向量模型。

进一步地，第二构建子模块332具体用于通过依据每个成果文本的时间信息，对每个主题词在其对应的成果文本中的第一权重值进行权重合并，构建专家知识向量模型。

进一步地，第二构建子模块332包括第一确定子单元3321、第二确定子单元3322与第二构建子单元3323，如图4所示，其中，第一确定子单元3321用于依据每个成果文本的时间信息，确定每个成果文本的年份加权因子；第二确定子单元3322用于根据年份加权因子及第一权重值，确定每个主题词在相应领域中的第二权重值；第二构建子单元3323用于通过将每个主题词及其对应的第二权重值映射成相应的向量，构建专家知识向量模型。

本发明的实施例提供，根据预设数量的成果文本，构建成果知识向量，构建成果知识向量为后续构建专家知识向量模型提供了必要保障；依据所述预设数量的成果文本的时间信息及作者信息，确定专家-成果集，将时间信息作为确定专家-成果集的因素之一，从而能够及时确定专家研究兴趣随时间的变化情况，利于后续构建准确、时效性强的专家知识向量模型；基于所述成果知识向量及所述专家-成果集，构建专家知识向量模型，从而构建一种结合时间因素的专家知识向量模型，动态反映专家的兴趣变化，不仅保证了专家研究兴趣的时效性，而且提高了专家遴选的准确性，能够更好地满足专家遴选的要求。

本发明另一实施例提供了一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述的构建专家知识向量模型的方法。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种构建专家知识向量模型的方法，其特征在于，包括：

根据预设数量的成果文本，构建成果知识向量；

2.根据权利要求1所述的方法，其特征在于，所述根据预设数量的成果文本，构建成果知识向量，包括：

确定每个主题词在其对应的成果文本中的第一权重值；

3.根据权利要求2所述的方法，其特征在于，所述基于所述至少一个主题词及所述第一权重值，构建所述成果知识向量，包括：

将每个主题词及其对应的第一权重值映射成相应的向量；

基于所述向量，确定每个成果文本的空间向量；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述基于所述成果知识向量及所述专家-成果集，构建专家知识向量模型，包括：

基于所述专家-成果向量集，构建所述专家知识向量模型。

5.根据权利要求4所述的方法，其特征在于，所述基于所述专家-成果向量集，构建所述专家知识向量模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述通过依据每个成果文本的时间信息，对每个主题词在其对应的成果文本中的第一权重值进行权重合并，构建所述专家知识向量模型，包括：

通过将所述每个主题词及其对应的第二权重值映射成相应的向量，来构建所述专家知识向量模型。

7.一种构建专家知识向量模型的装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述成果知识向量构建模块包括提取子模块、分词子模块、权重确定子模块与第一构建子模块；

9.根据权利要求8所述的装置，其特征在于，所述第一构建子模块包括映射子单元、空间向量确定子单元与第一构建子单元；

10.根据权利要求7-9任一项所述的装置，其特征在于，所述专家知识向量模型构建模块包括匹配子模块与第二构建子模块；

11.根据权利要求10所述的装置，其特征在于，所述第二构建子模块具体用于通过依据每个成果文本的时间信息，对每个主题词在其对应的成果文本中的第一权重值进行权重合并，构建所述专家知识向量模型。

12.根据权利要求11所述的装置，其特征在于，所述第二构建子模块包括第一确定子单元、第二确定子单元与第二构建子单元；

13.一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-6任一项所述的构建专家知识向量模型的方法。