CN111737495B

CN111737495B - 基于领域自分类的中高端人才智能推荐***及其方法

Info

Publication number: CN111737495B
Application number: CN202010595817.3A
Authority: CN
Inventors: 黄丽丽; 姚智振; 游河仁; 石宝玉; 王绍兰
Original assignee: Fuzhou Institute Of Data Technology Co ltd
Current assignee: Fuzhou Institute Of Data Technology Co ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2022-12-06
Anticipated expiration: 2040-06-28
Also published as: CN111737495A

Abstract

本发明公开基于领域自分类的中高端人才智能推荐***及其方法，采用知识图谱技术，通过对科技大数据的挖掘和分析，大规模多领域科技知识图谱构建、基于知识图谱的领域匹配等关键步骤，建立中高端人才画像与多级科技知识图谱的自动关联关系，从而实现海量人才数据的领域自动分类与基于“小领域”的人才检索推荐，为引才机构开展人才引进、人才情报汇聚、检索提供有效工具。

Description

基于领域自分类的中高端人才智能推荐***及其方法

技术领域

本发明涉及人才推荐***领域，尤其涉及基于领域自分类的中高端人才智能推荐***及其方法。

背景技术

科技人才是科技创新经济发展的首要驱动力。如何发现、培养、留住、吸引、使用人才，是在当今日趋严峻的国际竞争中取得优势的重要课题。随着产业调整引起的产业结构变化，社会对人才的需求发生了结构性变化，在人才供给不足和相对滞后条件下，对特定领域人才的需求增加使人才的稀缺程度增加；经济发展对人才所应具备的素质要求更高，从而具有高学历、高素质、高技能的中高端人才更加难得。

由于人才竞争的加剧，各个引才机构为了触达目标人才采取猎头招聘、招聘会、高校合作等多种方式，引才成本高昂，通过大数据分析挖掘的手段提前发掘各领域的中高端人才，建立中高端人才引进储备库，实现领域人才推荐所需的成本则低得多。目前国内已有人才推荐***相关的发明专利。

例如，专利号201510109074.3公开了“基于知识库的职位推荐***”，该专利通过对人力资源相关知识的爬取与实体分析，构建人力智源专有知识库，同时结合互联网信息抽取融合建立人才专有档案与职位信息，基于职位和用户需求映射建模，从而实现推荐。该方案的人力资源知识库主要用于人才与职位信息的补充，缺少人才领域的精准分析与定位，无法建立快速有效的特定小领域人才扩展与匹配推荐路径。

例如，专利号201610329208.7公开了“一种工业设计人才水平评测方法及***”，该专利利用文本分词技术从人才简历、人才问卷、人才***登陆日志获取人才属性特征，同时基于设定好的工业设计领域，用自动分类算法对人才进行领域划分，依据分类结果与属性进行人才价格与能力计算，从而实现推荐。该方案只是基于最基本的人才简历相关信息，并未挖掘融合如文献成果、新闻博客等互联网信息，并且领域划分基于设定好的类别，已经不能满足用户对于细粒度领域人才的需求。

发明内容

本发明的目的在于提供基于领域自分类的中高端人才智能推荐***及其方法。

本发明采用的技术方案是：

基于领域自分类的中高端人才智能推荐***，其包括以下模块：

人才信息挖掘融合模块：采集获取多源异构人才数据，进行人才数据的融合以及排名；

科技领域自动分类模块：构建全领域科技知识图谱，并在全领域科技知识图谱的基础上利用机器学习对人才数据进行专家领域的自动分类；

人才能力岗位评价画像模块：为每位专家建立丰富细致的人才评价画像形成人才领域能力分析评价、运用舆情大数据对拟引进人才的安全性进行分析评估形成基于舆情大数据的评价、根据人才信息综合建立人才-岗位匹配评价指标形成人才岗位适配性评价；

人才检索与智能推荐模块：提供基于知识图谱的检索查询、根据用户的需求进行细分领域挖掘并推荐细分领域的专家人才、向引才机构推荐领域中高端人才订阅信息以及领域顶尖专家的最新动态。

进一步地，人才信息挖掘融合模块采用基于最小风险的本体映射模型RiMOM模型进行数据集成。该模型集成了多种映射策略，包括基于名称相似度的映射策略、基于实例的机器学习策略、基于结构的映射策略等，实现元数据映射，进而达到专家信息融合。

基于领域自分类的中高端人才智能推荐方法，其包括以下步骤：

步骤1：人才信息挖掘融合：采集获取多源异构人才数据，进行人才数据的融合以及排名形成中高端人才数据库；

步骤2：科技领域自动分类：构建全领域科技知识图谱，并在全领域科技知识图谱的基础上利用机器学习对人才数据进行专家领域的自动分类；

步骤3：人才能力岗位评价画像：为每位专家建立丰富细致的人才评价画像形成人才领域能力分析评价、运用舆情大数据对拟引进人才的安全性进行分析评估形成基于舆情大数据的评价、根据人才信息综合建立人才-岗位匹配评价指标形成人才岗位适配性评价；

步骤4：人才检索与智能推荐：获取引才机构输入的检索文本与全学科领域知识图谱进行关联扩展，以对领域查询结果进行修正；同时根据岗位需求文本挖掘细分领域并从人才储备库推荐该细分领域的专家人才，同时向引才机构推送高端人才订阅信息以及领域顶尖专家最新动态。

提供基于知识图谱的检索查询、根据用户的需求进行细分领域挖掘并推荐细分领域的专家人才、向引才机构推荐领域中高端人才订阅信息以及领域顶尖专家的最新动态。

进一步地，步骤1应用爬虫和并行策略从各领域顶级期刊会议上获取领域学术专家基本信息；从领域知名网站(知名企业、学会、协会官网)上获取领域产业专家基本信息；为了丰富人才画像维度，从各类开放知识库、科技论坛、新闻博客等渠道获取这些专家项目成果、获奖头衔、科技新闻等动态信息，建立多维度领域专家基础数据。

进一步地，步骤1中采用基于动态图结构的条件随机场模型的语义信息抽取方法，从专家或学者个人主页中提取其背景资料，从成果信息中提取专家合作关系及成果的文本信息；根据对实例节点的不同标注结果，动态生成依赖边，有效融合用户的先验知识，提高语义信息的标注精度，以解决了传统手工标注和半自动标注的不足。

进一步地，步骤2中全领域科技知识图谱构建方法为：将利用科技人才、科技文献、活动新闻等科技大数据，完成文本关键词、术语、概念、实体名称等抽取，完成概念分类体系、概念和实体关系的抽取，结合机器学***衡且对齐的知识图谱；其具体步骤包括：

步骤2-11，大规模学科关键词抽取：利用无监督学习的关键词抽取工具，从大规模科技文献中提取大规模科技关键词；

步骤2-12，关键词关系抽取：使用Word Embedding词嵌入技术获取关键词的向量表示，进而进行关键词语义联想和聚类分析生成大规模关键词的量化语义关系；作为实施例的一种，关键词联想采用word2vec方法，同样地，关键词的聚类可使用层次聚类(Agglomerative Hierarchical clustering)。

步骤2-13，基于关键词语义关系抽取结果和外部知识源进行术语概念的自动化扩展，以发掘更多概念术语以及概念间的语义关系，从而实现图谱的自动扩展更新；

步骤2-14，利用现有图谱表示学习方法对扩展后的图谱进行大规模跨学学习，并利用学习结果对图谱上的链接预测任务提供支持。

进一步地，步骤2中基于机器学习的领域自动分类的具体步骤为：

步骤2-21，预处理：对人才数据文本进行文本分词处理以及去除停用词和去除无意义字符；

步骤2-22，专家信息文本标注：对全领域科技知识图谱中的小类学科对专家信息文本进行标注。在具体标注过程中，先确定专家的大类学科，然后再基于知识图谱确定关联的小类学科。但在保存标签时，仅记录小类学科作为标签。

步骤2-23，专家信息文本向量化：文本数据在输入到模型之前进行文本向量化的操作将文本数据转化为数值数据；文本向量化由文本分词处理和词向量转化两个阶段组成。本模块使用的是TorchText软件库来进行词向量转化操作。

步骤2-24，领域分类模型构建：构建基于卷积神经网络的分类模型，分类模型分为四层：输入层、卷积层、池化层，全连接层；

输入层本质上是一个查找表，输入词汇在词典中的位置下标，得到该词汇对应的词向量。输入层通过torch.nn.Embedding(V,D)来实现。这里的V为词典中的词汇量个数，D为词向量的维度,并通过from_pretrained(vectors)导入预训练的词向量。

卷积层通过torch.nn.Conv2d(Ci,Co,(K,D))实现。Ci为输入通道数,Co为输出通道数，对应卷积核的个数。K为卷积核的尺寸。D为词向量的维度。在卷积操作后，使用Relu线性整流单元作为激活函数。

池化层使用max_pool1d()函数实现，其本质上是一维的池化，即选择每行的最大值表达此行的特征。

将三个卷积层的结果合并成为一个层，通过全连接层连接到最后一层，用来预测文本的领域学科，其神经元的个数为预测的种类个数(知识图谱小类学科)。全连接层使用torch.nn.Linear()实现，dropout使用torch.nn.Dropout()实现。最终构成的卷积神经网络模型。

步骤2-25，分类模型训练：导入批样本数据并分别设置训练集和验证集，使用Adam优化器经正向传播和反向传播训练得到优化的分类模型，并利用优化的分类模型进行领域自动分类。

进一步地，步骤3中人才评价画像包含专家的基本信息、教育背景、工作经历、研究领域与兴趣、获奖清单、成果信息(论文、专利、项目等)、学术评价、关系网络和实时动态，专家动态展示该专家实时新闻动态资讯，专家实时新闻动态资讯包括专家参与的学术活动、会议论坛以及重要成果获奖等科技资讯动态，掌握专家最新情报，追踪专家发展路径。

进一步地，步骤3中运用舆情大数据对拟引进人才(尤其海外人才)的安全性进行分析评估，监测引进人员犯罪记录、社交平台发表的暴力言论、文化背景等信息，发现拟引进海外人才政治、宗教、违法等情况，提早预警其犯罪、诈骗、泄密、离职等风险，将其排除在人才引进名单之外，建立人才风险等级指标，形成预警机制，实现人才情报深度洞察。

进一步地，步骤3中根据人才研究领域、工作技能、工作年限、工作单位、项目成果、文化差异、获奖头衔等信息综合建立人才-岗位匹配评价指标，主要包括岗位匹配度分析指标与引进难度分析指标。

进一步地，步骤4中将引才机构输入的文本信息与全学科领域知识图谱进行关联扩展，以对领域查询结果进行修正。

进一步地，步骤4中岗位需求文本的推荐该细分领域的专家的具体步骤为：

步骤4-1，从岗位需求文本出，在跨领域可计算语义空间内构建表示岗位核心问题或技术语义内容的表示模型，并实现针对单个岗位需求文本准确提取其语义表示；

步骤4-2，科技知识图谱以及专家领域自动分类结果快速确定专家所属领域及技能，

步骤4-3，将岗位需求文本学科关键词与专家档案向量化，计算在同一向量空间内的余弦相似度，对候选专家的相似度由高至低的量化排序形成专家推荐名单；

依据图谱和关键词向量自动匹配相关的专家后生成专家推荐名单。可对名单进行进一步筛选，筛选条件包括：优先性排序、过滤条件、约束条件，并且根据过滤条件和约束条件进行统计和显示。在完成筛选后，可以生成最终的推荐专家名单。

进一步地，步骤4-1中岗位需求文本的关键词抽取的具体步骤为：

步骤4-1-1，首先对需求文本进行分词处理。对于文本中的每一个n-gram(n取3-10)，若该n-gram在知识图谱实体库中，则将其抽出；

步骤4-1-2，为需求文本不同部分抽取出的关键词赋予不同的权重，按照不同权重抽取出的关键词进行合并后，进行关键词-学科映射关系分析，生成学科概率分布；具体表达算式如下：

其中，D为需求文档库，dj为具体的需求文本，wi为抽取的关键词，k为学科类别数，在具体操作中k一般设定为关键词总数的4/5。

本发明采用以上技术方案，为了解决全领域中高端人才库快速构建以及小领域人才智能检索推荐的问题，采用知识图谱技术，通过对科技大数据的挖掘和分析，大规模多领域科技知识图谱构建、基于知识图谱的领域匹配等关键步骤，建立中高端人才画像与多级科技知识图谱的自动关联关系，从而实现海量人才数据的领域自动分类与基于“小领域”的人才检索推荐，为引才机构开展人才引进、人才情报汇聚、检索提供有效工具。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1为本发明基于领域自分类的中高端人才智能推荐***的结构示意图；

图2为动态条件随机场模型的依赖图结构示意图；

图3为使用torchtext进行文本向量化的操作流程示意图；

图4卷积神经网络模型示例图；

图5为专家多维画像示意图；

图6为基于知识图谱的领域扩展显示图；

图7为基于语义相似度的专家智能推荐示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。

为了解决全领域中高端人才库快速构建以及小领域人才智能检索推荐的问题，采用知识图谱技术，通过对科技大数据的挖掘和分析，大规模多领域科技知识图谱构建、基于知识图谱的领域匹配等关键步骤，建立中高端人才画像与多级科技知识图谱的自动关联关系，从而实现海量人才数据的领域自动分类与基于“小领域”的人才检索推荐，为引才机构开展人才引进、人才情报汇聚、检索提供有效工具。如图1至7之一所示，本发明公开了基于领域自分类的中高端人才智能推荐***及其方法，

为了实现上述目标，本发明所提出的基于领域自分类的中高端人才情报***包含以下几个模块，***流程图见图1：

1、人才信息挖掘融合模块：实现如下几大功能；

1)多源异构人才信息数据采集

中高端人才引进储备库是领域专家信息的数据集合，应用高效准确的爬虫和并行策略从各领域顶级期刊会议上获取领域学术专家基本信息，从领域知名企业、学会、协会官网上获取领域产业专家基本信息；为了丰富人才画像维度，从各类开放知识库、科技论坛、新闻博客等渠道获取这些专家项目成果、获奖头衔、科技新闻等动态信息，建立多维度领域专家基础数据。

本模块具体采用基于动态图结构的条件随机场模型的语义信息抽取方法，从专家或学者个人主页中提取其相关背景资料，从成果信息中提取专家合作关系及成果的文本信息。模型根据对实例节点的不同标注结果，动态生成依赖边，可以有效融合用户的先验知识，提高语义信息的标注精度，以解决了传统手工标注和半自动标注的不足，结构见图2。

2)数据融合与同名排歧

不同互联网数据源获得专家信息，因此构成的专家数据具有多源性特点，如何将多源异构的专家信息集成完整画像，实现在知识和专家之上的知识融合是首先需要解决的关键问题。

元数据集成是不同元数据描述的异构知识之间的共享与交互，元数据映射是知识融合的关键。本模块采用基于最小风险的本体映射模型RiMOM模型进行数据集成。该模型集成了多种映射策略，包括基于名称相似度的映射策略、基于实例的机器学习策略、基于结构的映射策略等，实现元数据映射，进而达到专家信息融合。

同时，从人才基础信息中提取人才相关背景资料，从论文专利中提取人才的项目成果信息，从媒体资讯中提取人才新闻动态信息，需要利用网络语义关系信息来解决同名实体的歧义性(从不同数据源得到的同名实体，但分别具有不同意思)。作为数据提取层中关键环节和核心技术，本模块采用基于概率图模型方法对专家信息进行同名消歧，以得到一个精确的人才画像数据库。

2、科技领域自动分类模块：实现如下几大功能；

2-1)全领域科技知识图谱构建

全领域科技知识图谱构建将利用科技人才、科技文献、活动新闻等科技大数据，完成文本关键词、术语、概念、实体名称等抽取，完成概念分类体系、概念和实体关系的抽取，结合机器学***衡且对齐的知识图谱。该科技知识图谱构建挖掘了细粒度的全领域学科分类，并且支持拓展子节点与边，可以动态扩充细分子领域，实现科技领域的细粒度刻画。具体如下：

2-11.大规模学科关键词抽取

利用无监督学习的关键词抽取工具，从大规模科技文献中提取大规模科技关键词，在通用常见关键词提取的基础上，实现复杂词组、实体长词、前沿新词的发现和提取。

2-12.关键词关系抽取

使用Word Embedding词嵌入技术获取这些关键词的向量表示。在此基础上实现关键词语义联想、聚类分析等功能，提供大规模关键词的量化语义关系。

关键词联想采用word2vec方法：使用深度学习工具word2vec将每一个关键词转化成N 维空间的词向量，之后根据两个向量在N维空间中的cosine值大小作为其相似度的衡量。 Word2vec采用的是层次化的Log-Bilinear语言模型，其中一种是CBOW模型。根据上下文预测下一个词为w_t的公式如下，结合层次softmax算法可以进行高效的计算。

p(w_t|context)＝p(w_t|w_t-k,w_t-k+1,…,w_t-1,w_t+1,…,w_t+k)

关键词的聚类使用层次聚类(Agglomerative Hierarchical clustering)，该方法描述如下：

输入：类数K，关键词组W

I.初始状态设置每一个节点(关键词)为一个类

II.找出当前类中相似度最高的一对，将其合并

III.计算当前新生成的类和其余类两两之间的相似度

IV.查看当前类数，若当前类数小于等于K，则结束，否则循环II,III

其中，类之间的相似度算法采用Average Linkage clustering，即

节点相似度采用word2vec方法计算出的关键词相似度。

在实际应用中，K值取总关键词数的约4/5.

2-13.术语概念扩展

基于关键词关系抽取结果和外部知识源(例如***、搜索引擎等)实现术语概念的自动化扩展，以发掘更多概念术语，以及概念间的语义关系，从而实现图谱的自动扩展更新。

2-14.图谱表示学习

基于目前的图谱表示学习方法，例如TransE系列，MultDist,ConvE等，研发针对大规模跨学科知识图谱表示学习算法工具，并利用学习结果对图谱上的链接预测等任务提供支持。

2-2)基于机器学习的领域自动分类：

本模块将利用上述构建的科技知识图谱，采用基于机器学习的算法来构建分类模型，从而实现专家专业领域的自动化分类的目的。经过多源异构人才数据采集、清洗、融合、排歧后获得的专家信息文本数据将经过预处理、文本标注、文本向量化、分类模型的构建与训练等步骤，智能训练匹配科技知识图谱中的领域，进行自动归类。具体步骤如下：

2-21.预处理过程

需要文本分词处理以及去除停用词和去除无意义字符。使用的文本分词工具为jieba分词工具，该工具可以对中文文本进行分词、词性标注、关键词抽取等功能，并且支持自定义词典。对文本分词后会产生很多无意义的字词，比如“主要”、“与”、“等”。本模块采用哈工大终止词表，百度停止词表和四川大学机器智能实验室停用词库作为停用词表，判断分词结果是否在停用词表中，如果匹配到停用词，则去除该词。

2-22.专家信息文本标注

卷积神经网络是一种监督学习算法，需要大量的带标签的数据集作为训练数据。利用网络爬虫爬取到的数据只是单纯的文本，并没有标签，需要进行人工标注。本模块应用上述构建的全领域科技知识图谱中的小类学科对部分专家信息文本进行标注。在具体标注过程中，先确定专家的大类学科，然后再基于知识图谱确定关联的小类学科。但在保存标签时，仅记录小类学科作为标签。

2-23.专家信息文本向量化

文本数据在输入到模型之前，需要进行文本向量化的操作将文本数据转化为数值数据。文本向量化由文本分词处理和词向量转化两个阶段组成。本模块使用的是TorchText软件库来进行词向量转化操作，使用torchtext进行文本向量化的操作流程见图3。

2-24.领域分类模型构建

使用Pytorch构建基于卷积神经网络的分类模型，该模型分为四层：输入层、卷积层、池化层，全连接层。

通过torch.nn.Conv2d(Ci,Co,(K,D))实现。Ci为输入通道数,Co为输出通道数，对应卷积核的个数。K为卷积核的尺寸。D为词向量的维度。在卷积操作后，使用Relu线性整流单元作为激活函数。

将三个卷积层的结果合并成为一个层，通过全连接层连接到最后一层，用来预测文本的领域学科，其神经元的个数为预测的种类个数(知识图谱小类学科)。全连接层使用torch.nn.Linear()实现，dropout使用torch.nn.Dropout()实现。最终构成的卷积神经网络模型示例如图4。

2-25.分类模型训练

在Pytorch中，模型的训练数据往往是通过一个个batch(批数据)输送进去的，需要将多条数据打包成一个batch，一个batch使用的数据个数为batch size(批大小)。模型训练流程大致包括导入批样本数据，正向传播和反向传播三个阶段。在导入数据集时，随机地将90％的数据设置为训练集，剩下的10％数据设置为验证集。只有训练集参与模型的训练，验证集用于评估模型的正确率。模型训练过程中使用的优化器为Adam优化器，流程大致包括导入批样本数据，正向传播和反向传播三个阶段。

2-26，利用优化的分类模型对专家信息文本进行领域自动分类。

3、人才能力-岗位评价画像模块：实现如下几大功能；

1)人才领域能力分析评价

人才储备库为每位专家建立丰富细致的人才评价画像，画像包含专家的基本信息、教育背景、工作经历、研究领域与兴趣、获奖清单、成果信息(论文、专利、项目等)、学术评价、关系网络和实时动态等，见图5。专家动态展示该专家实时新闻动态资讯，包括专家参与的学术活动、会议论坛以及重要成果获奖等科技资讯动态，掌握专家最新情报，追踪专家发展路径。

2)基于舆情大数据的智能评价

运用舆情大数据对拟引进人才(尤其海外人才)的安全性进行分析评估，监测引进人员犯罪记录、社交平台发表的暴力言论、文化背景等信息，发现拟引进海外人才政治、宗教、违法等情况，提早预警其犯罪、诈骗、泄密、离职等风险，将其排除在人才引进名单之外，建立人才风险等级指标，形成预警机制，实现人才情报深度洞察。

3)人才-岗位适配性评价

根据人才研究领域、工作技能、工作年限、工作单位、项目成果、文化差异、获奖头衔等信息综合建立人才-岗位匹配评价指标，主要包括岗位匹配度分析指标与引进难度分析指标。

4、人才检索与智能推荐模块：实现如下几大功能；

1)基于知识图谱的检索查询

用户查询人才时的输入仍然以自然语言文本为主，可能是一个或多个关键词，有可能是一位专家姓名等。这时候理解用户的查询意图就非常的关键。本***底层构建了一个覆盖全学科领域知识的大规模知识图谱。通过这个知识图谱，用户的查询输入可以被***所理解，进行实时的智能扩展和提示，并与相关的知识领域进行关联和对齐，进而对领域查询结果进行修正。见图6。

2)基于语义分析的智能推荐

已关联科技知识图谱的中高端人才储备库是支撑推荐***的数据基础。***根据用户的需求进行细分领域挖掘，从而智能推荐细分领域的专家人才。这种推荐可以基于用户查询细分领域关键词而推送相关专家人才，也可以基于对用户的技术需求文本进行语义分析，智能挖掘需求关键词，根据细分领域与关键词的语义相似度，自动匹配推荐专家人才，提高专家筛选的效率及客观性。

岗位需求文本包含了大量准确描述岗位所属科技领域，以及具体技术细节的语义信息。 ***可基于给定的岗位需求文本、候选专家信息及其他相关条件，通过岗位和专家语义表示建模和学习以及专家智能推荐算法等核心关键技术，为引才单位自动推荐最匹配的专家，同时可根据舆情大数据分析结果智能回避高风险专家。具体如下：

4-1，岗位内容语义表示建模及学习

从岗位需求文本出发，在跨领域可计算语义空间内构建能够表示岗位核心问题或技术语义内容的表示模型，并实现针对单个岗位需求文本准确提取其语义表示。具体步骤为关键词抽取与学科分布映射。

关键词抽取分为两个步骤：分词与抽取。首先对需求文本进行分词处理。对于文本中的每一个n-gram(n取3-10)，若该n-gram在知识图谱实体库中，则将其抽出。由于抽取最优关键词组合在计算上很费时，因此优先抽取长度较长的n-gram(贪心算法)。由于长度较长的关键词能够更为清晰表达文本语义，因此相比直接分词为一系列的短词，优先选取长词能够更好的表达文本意图。例如：自然灾害监测vs自然灾害。

学科分布映射是指依据需求关键词内容，给出大致的学科概率分布，便于确定所需人才的主要领域学科。为需求文本不同部分抽取出的关键词赋予不同的权重，按照不同权重抽取出的关键词进行合并后，进行关键词-学科映射关系分析，生成学科概率分布：

其中，D为需求文档库，dj为具体的需求文本，wi为抽取的关键词，k为学科类别数，

在具体操作中k一般设定为关键词总数的4/5。

4-2，专家语义表示建模及学习

与项目内容语义表示建模及学习任务类似，所不同的是，专家除个人简要信息外，还有众多的项目成果数据，有可能存在同时跨多个研究领域的情况。本***所构建的科技知识图谱以及专家领域自动分类算法可以快速确定专家所属领域及相关技能，有助于实现专家的精确筛选。

4-3，基于语义相似度的专家智能推荐方法

在前两个任务的基础上，将岗位需求文本学科关键词与专家档案向量化，计算在同一向量空间内的余弦相似度，从而实现对候选专家的量化排序。相似度越高，则排序越靠前。使用word2vec将每个抽取出的关键词进行向量化，并将所有向量进行平均化，得到一个可以表示该段文本的向量。对每一位专家的所有扩充关键词采用同样的方式产生向量。则可依据其在向量空间内的余弦相似度，抽取最相似的专家，见图7。

3)领域高端人才订阅与推荐

引才机构可通过输入感兴趣的领域技能关键词，同时设置人才工作年限、学历学位、学校、职称等筛选条件，获取关注领域中高端人才订阅信息，同时***智能推荐领域顶尖专家最新动态，帮助引才机构追踪领域高端人才，获得第一手情报。

显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

Claims

1.基于领域自分类的中高端人才智能推荐***实现中高端人才智能推荐的方法，其特征在于：所述***包括以下模块：

人才能力岗位评价画像模块：为每位专家建立人才评价画像形成人才领域能力分析评价、运用舆情大数据对拟引进人才的安全性进行分析评估形成基于舆情大数据的评价、根据人才信息建立人才-岗位匹配评价指标形成人才岗位适配性评价；

人才检索与智能推荐模块：提供基于知识图谱的检索查询、根据用户的需求进行细分领域挖掘并推荐细分领域的专家人才、向引才机构推荐领域中高端人才订阅信息以及领域顶尖专家的最新动态；所述方法包括以下步骤：

步骤3：人才能力岗位评价画像：为每位专家建立人才评价画像形成人才领域能力分析评价、运用舆情大数据对拟引进人才的安全性进行分析评估形成基于舆情大数据的评价、根据人才信息建立人才-岗位匹配评价指标形成人才岗位适配性评价；

步骤4：人才检索与智能推荐：获取引才机构输入的检索文本与全学科领域知识图谱进行关联扩展，以对领域查询结果进行修正；根据岗位需求文本挖掘细分领域并从人才储备库推荐该细分领域的专家人才；同时向引才机构推送高端人才订阅信息以及领域顶尖专家最新动态；步骤4中岗位需求文本的推荐该细分领域的专家的具体步骤为：

步骤4-1，从岗位需求文本出发，在跨领域可计算语义空间内构建表示岗位核心问题或技术语义内容的表示模型，并实现针对单个岗位需求文本准确提取其语义表示；步骤4-1中岗位需求文本的关键词抽取的具体步骤为：

步骤4-1-1，首先对需求文本进行分词处理:对于文本中的每一个n-gram,n取值范围3-10，若该n-gram在知识图谱实体库中，则将其抽出；

其中，D为需求文档库，d_j为具体的需求文本，w_i为抽取的关键词，k为学科类别数；

步骤4-2，通过科技知识图谱以及专家领域自动分类结果快速确定专家所属领域及技能，

步骤4-3，将岗位需求文本学科关键词与专家档案向量化，计算在同一向量空间内的余弦相似度，对候选专家的相似度由高至低的量化排序形成专家推荐名单。

2.根据权利要求1所述的基于领域自分类的中高端人才智能推荐***实现中高端人才智能推荐的方法，其特征在于：人才信息挖掘融合模块采用基于最小风险的本体映射模型RiMOM模型进行数据集成,并进行元数据映射达到专家信息融合。

3.根据权利要求1所述的基于领域自分类的中高端人才智能推荐***实现中高端人才智能推荐的方法，其特征在于：步骤1应用爬虫和并行策略从各领域顶级期刊会议上获取领域学术专家基本信息，从领域知名网站上获取领域产业专家基本信息；从各类开放知识库、科技论坛、新闻博客渠道获取专家项目成果、获奖头衔、科技新闻动态信息，以建立多维度领域专家基础数据；并采用基于动态图结构的条件随机场模型的语义信息抽取方法，从专家或学者个人主页中提取其背景资料，从成果信息中提取专家合作关系及成果的文本信息，进而根据对实例节点的不同标注结果，动态生成依赖边，有效融合用户的先验知识。

4.根据权利要求1所述的基于领域自分类的中高端人才智能推荐***实现中高端人才智能推荐的方法，其特征在于：步骤2中全领域科技知识图谱构建方法具体步骤包括：

步骤2-11，学科关键词抽取：利用无监督学习的关键词抽取工具，从科技文献中提取科技关键词；

步骤2-12，关键词关系抽取：使用Word Embedding词嵌入技术获取关键词的向量表示，进而进行关键词语义联想和聚类分析生成关键词的量化语义关系；

步骤2-14，利用图谱表示学习方法对扩展后的图谱进行跨学科学习，并利用学习结果对图谱上的链接预测任务提供支持。

5.根据权利要求1所述的基于领域自分类的中高端人才智能推荐***实现中高端人才智能推荐的方法，其特征在于：步骤2中基于机器学习的领域自动分类的具体步骤为：

步骤2-21，预处理：对人才数据文本进行文本分词处理以及去除停用词和去除无意义字符；步骤2-22，专家信息文本标注：对全领域科技知识图谱中的小类学科对专家信息文本进行标注；

步骤2-23，专家信息文本向量化：文本数据在输入到模型之前进行文本向量化的操作将文本数据转化为数值数据；文本向量化由文本分词处理和词向量转化两个阶段组成；

步骤2-24，领域分类模型构建：构建基于卷积神经网络的分类模型，分类模型分为依次设置的四层：输入层、卷积层、池化层，全连接层；在输入层输入词汇在词典中的位置下标得到该词汇对应的词向量；卷积层为三个，每个卷积层通过卷积层卷积操作后使用Relu线性整流单元作为激活函数；每个卷积层的输出分别连接一池化层，池化层选择每行的最大值表达此行的特征；将三个卷积层的结果合并成为一个层，通过全连接层连接到最后一层，用来预测文本的领域学科，其神经元的个数为预测的知识图谱小类学科种类个数；

步骤2-25，分类模型训练：导入批量样本数据并分别设置训练集和验证集，使用Adam优化器经正向传播和反向传播训练得到优化的分类模型，

步骤2-26，利用优化的分类模型对专家信息文本进行领域自动分类。

6.根据权利要求1所述的基于领域自分类的中高端人才智能推荐***实现中高端人才智能推荐的方法，其特征在于：步骤3具体包括为：

人才评价画像包含专家的基本信息、教育背景、工作经历、研究领域与兴趣、获奖清单、成果信息、学术评价、关系网络和实时动态，展示该专家实时新闻动态资讯，专家实时新闻动态资讯包括专家参与的学术活动、会议论坛以及重要成果获奖的科技资讯动态；

运用舆情大数据对拟引进人才的安全性进行分析评估，监测引进人员犯罪记录、社交平台发表的暴力言论、文化背景信息，发现拟引进人才政治、宗教、违法情况，提早预警其犯罪、诈骗、泄密、离职的风险，建立人才风险等级指标形成预警机制，实现人才情报深度洞察；根据人才研究领域、工作技能、工作年限、工作单位、项目成果、文化差异、获奖头衔信息建立人才-岗位匹配评价指标，包括岗位匹配度分析指标与引进难度分析指标。

7.根据权利要求1所述的基于领域自分类的中高端人才智能推荐***实现中高端人才智能推荐的方法，其特征在于：步骤4中将引才机构输入的文本信息与全学科领域知识图谱进行关联扩展，以对领域查询结果进行修正。