CN106447285B

CN106447285B - 基于多维度领域关键知识的招聘信息匹配方法

Info

Publication number: CN106447285B
Application number: CN201610816684.1A
Authority: CN
Inventors: 李戈; 金芝; 兰铮
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2016-09-12
Filing date: 2016-09-12
Publication date: 2020-06-12
Anticipated expiration: 2036-09-12
Also published as: CN106447285A

Abstract

本发明公布了一种基于多维度领域关键知识的招聘信息匹配方法，通过抽取关键词、简历关键词与职位之间进行直接匹配、简历与职位关键词之间进行相关匹配，实现多维度的简历与职位的精准匹配；包括：抽取职位信息与简历信息中的关键词，用向量表示职位信息与简历信息；直接匹配得到直接匹配所得文本相似度分值；相关匹配得到相关匹配所得文本相似度分值；获得预测差异性的衡量指标；通过加权计算得到最终简历和职位的文本相似度分值，作为信息匹配结果，完成招聘信息匹配。本发明方法能够全面体现关键词之间、关键词组合所表达的信息和知识；有效提高职位与简历的匹配精度，降低招聘中HR的人力成本。

Description

基于多维度领域关键知识的招聘信息匹配方法

技术领域

本发明涉及数据挖掘和信息获取方法，尤其涉及一种基于多维度领域关键知识的招聘信息匹配方法。

背景技术

现实生活中，企业每天都会发布数以万计的职位，对于企业和求职者，从海量的职位信息和简历信息中挖掘出对各自有用的信息，通常需要花费大量的时间和精力。

职位信息通常包括结构化信息(如公司名称、职位名称、工作地点、薪资、学历等标签)和半结构化信息(如职位描述、职位要求)。简历信息通常包括结构化信息(如姓名、学历、意愿职位)和半结构化信息部分(如工作经历、项目经验)。现有方法中，基于向量空间模型匹配方法采用关键词向量空间模型算法，具体将职位信息中的半结构化部分看成文档集合D＝{d₁,d₂,d₃…d_N}，所有关键词构建为词典T＝{t₁,t₂,t₃…t_n}，职位描述文档d_j＝{w_1j,w_2j,w_3j…w_nj}，其中w_kj是关键词k在文档j中的权重，通过信息检索模型的余弦归一化TF-IDF计算，公式如式1：

其中，f_kj为t_k在文档d_k中出现的频数；N为文档总数；n_k为出现t_k的文档频数。

对于简历信息中的半结构化部分做相同的处理，用R＝{r₁,r₂,r₃…r_N}表示。

简历与职位之间的匹配关系就可以通过文档之间的余弦相似度得到，表示为式2：

采用上述基于向量空间模型匹配方法进行招聘信息匹配存在两方面不足：

(一)没有衡量关键词之间、关键词组合所表达的信息和知识；

(二)计算维度单一，匹配精度较差，因此仍然需要大量的人工筛选。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于多维度领域关键知识的招聘信息匹配方法，是一种多维度的简历与职位的匹配方法，多维度体现在：关键词与职位之间的关系、关键词之间的关系、关键词组合所表达的信息；本发明能够实现在招聘服务中，根据多维度领域关键知识(包括职位与简历的半结构化文本中关键词与职位之间、关键词之间、关键词组合所表达的信息)，对简历与职位进行精准匹配。

本发明约定如下术语定义：

领域关键知识包括：关键词(关键词关键词、职位类别关键词)、关键词与职位的关系、关键词之间的关系等。

隐含职位类别：给定求职简历或职位描述文本中所提供的关键词组合，如果该组合最有可能是某一特定类别职位的要求，这一职位所属类别即为求职简历或职位描述的隐含职位类别。

本发明提供的技术方案是：

一种基于多维度领域关键知识的招聘信息匹配方法，通过抽取关键词、简历关键词与职位之间进行直接匹配、简历与职位关键词之间进行相关匹配，实现多维度的简历与职位的精准匹配；具体包括如下步骤：

1)抽取职位信息与简历信息中的关键词，用向量表示职位信息与简历信息；

2)进行简历关键词与职位之间的直接匹配，计算得到直接匹配所得文本相似度分值；

3)进行简历与职位关键词之间的相关匹配，计算得到相关匹配所得文本相似度分值；

4)计算职位与简历的KL散度均值，获得预测差异性的衡量指标；

5)通过加权计算得到最终简历和职位的文本相似度分值，作为信息匹配结果，完成招聘信息匹配。

针对上述招聘信息匹配方法，进一步地，步骤1)所述用向量表示职位信息与简历信息具体包括如下步骤：

11)从职位描述中统计不同关键词的频数，从职位标题中统计不同职位类别关键词的频数，按照出现频数的排名，分别对每一项关键词和每一个职位类别赋予一个整型全局标识；

12)令s^p _ij表示第j项关键词，#s^p _ij表示第j项关键词在第i份职位文件中出现的频数，采用式3表示职位文件P_i：

其中，p_i为该职位的类别标识；N_s为关键词总数；

13)通过式4向量化表示简历文件C_i：

其中，#s^c _ij表示第j项关键词在第i份简历C_i中出现的频数；

由此完成职位信息与简历信息的向量化表示。

针对上述招聘信息匹配方法，进一步地，步骤2)所述直接匹配方法反映在职位文本和简历文本中同时出现的关键词对匹配程度的影响；当第j项关键词s_j在简历向量和职位向量中的出现次数均大于零时，在当前分值上增加该项关键词对职位的权重系数与线性调整系数的乘积；具体地，设直接匹配的关键词集合为M，通过式5表示M：

M＝{s_j|s^c _j>0＆＆s^p _j>0,1≤j≤N_s} (式5)

s^c _j表示第j项关键词s_j在简历c中出现的频数；s^p _j为第j项关键词s_j在职位p中出现的频数；

再将线性调整系数β(s^c _j,s^p _j)定义为式6：

式6中，β(s^c _j,s^p _j)为线性调整系数；

然后，通过式7计算得到文本相似度分值，作为直接匹配所得文本相似度分值：

式7中，Score(M)为直接匹配所得到的文本相似度分值；w_j(q)'为经过调整的第j项s^p _j技能对于第q类职位的权重系数。

针对上述招聘信息匹配方法，进一步地，步骤3)所述相关匹配具体反映在职位中出现而未在简历中出现的关键词对匹配程度的影响；当第j项关键词s_j在职位向量的出现次数大于零、而在简历向量中的出现次数为零时，在当前分值上增加出现在简历向量中并且与该项关键词最相似的关键词对职位的权重系数与线性调整系数的乘积；具体地，设相关匹配的关键词集合为U，U通过式8表示：

U＝{s_j|s^c _j＝0＆＆s^p _j>0,1≤j≤N_s} (式8)

再以s^c _j'表示与s^p _j最相似的关键词，满足：

r(s^c _j',s^p _j)≥r(s^c _j”,s^p _j)，任意j”，1≤j”≤N_s (式9)

r(x,y)表示关键词(x,y)之间的相关系数；

将线性调整系数定义为式10：

通过式11计算得到相关匹配所得文本相似度分值：

式11中，Score(U)为相关匹配所得文本相似度分值。

针对上述招聘信息匹配方法，进一步地，所述直接匹配所得文本相似度分值和所述相关匹配所得文本相似度分值，均进一步映射到[0,1]区间，由此得到文本相似度分值。

更进一步地，将所述直接匹配所得文本相似度分值和所述相关匹配所得文本相似度分值，均除以最大可能得分，从而将各自所得的文本相似度分值映射到[0,1]区间如下；具体通过式12实现：

I(x)为示性函数

式12中，maxScore为最大可能得分；Score(M)为直接匹配所得到的文本相似度分值；Score(U)为相关匹配所得文本相似度分值；[Score(M)+Score(U)]_[0,1]为将两部分的分值映射到[0,1]区间；N_s为关键词总数；w_j(q)'为经过调整的第j项s^p _j技能对于第q类职位的权重系数。

针对上述招聘信息匹配方法，进一步地，步骤4)所述计算KL散度均值具体为：将简历向量和职位向量作为输入，利用职位类别分类器，得到隐含职位类别概率分布PD(C)和PD(P)，然后计算PD(C)和PD(P)的KL散度均值A(PD(C),PD(P))，作为预测差异性的衡量指标，并将其映射到[0,1]区间，得到差异性分值。

本发明具体实施中，使用了训练完成的多项Logti分类器(β为已经训练得到的参数)，将职位向量和简历向量作为输入(公式中的x)，得到简历与职位属于各个隐含职位类别的概率分布PD(C)和PD(P)，概率预测函数如下：

…

上述概率预测函数中，J表示相应的职位类别。之后由公式13、13-1、13-2计算KL散度均值和映射[0,1]区间的KL散度均值。

更进一步地，所述职位类别分类器为多项Logit模型；也可使用SVM多分类模型作为职位类别分类器。

针对上述招聘信息匹配方法，进一步地，步骤4)可采用互信息均值模型代替KL散度均值模型。

针对上述招聘信息匹配方法，进一步地，步骤5)所述加权计算具体通过式14进行加权平均，计算得到简历和职位的文本相似度分值S(C,P)：

S(C,P)＝α*[Score(M)+Score(U)]_[0,1]+(1-KLScore(C,P)_[0,1])*(1-α) (式14)

式14中，S(C,P)为简历和职位的文本相似度分值；α为可调节权重参数，根据模型训练结果取值；KLScore(C,P)_[0,1]为映射[0,1]区间的KL散度均值，通过式13得到：

A(PD(C),PD(P))为PD(C)和PD(P)的KL散度均值。

通过上述步骤，得到信息匹配结果，完成招聘信息匹配。

与现有技术相比，本发明的有益效果是：

本发明提供一种基于多维度领域关键知识的招聘信息匹配方法，是一种多维度的简历与职位的匹配方法，多维度体现在：关键词与职位之间的关系、关键词之间的关系、关键词组合所表达的信息；本发明能够实现在招聘服务中，根据多维度领域关键知识，对简历与职位进行精准匹配。本方法具有以下优点：

(一)能够全面地刻画关键词之间、关键词组合所表达的信息和知识；

(二)能够有效提高职位与简历的匹配精度，在招聘服务中降低HR的人力成本。

附图说明

图1是本发明提供的招聘信息匹配方法的流程框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于多维度领域关键知识的招聘信息匹配方法，是一种多维度的简历与职位的匹配方法，多维度领域关键知识体现在：关键词与职位之间的关系、关键词之间的关系、关键词组合所表达的信息；本发明根据多维度领域关键知识(职位与简历的半结构化文本中关键词与职位之间、关键词之间、关键词组合所表达的信息)，通过抽取关键词、简历关键词与职位之间进行直接匹配、简历与职位关键词之间进行相关匹配，从而实现对简历与职位进行精准匹配。

以下实施例针对给定的职位文件P和简历文件C，采用本发明提供的基于多维度领域关键知识的招聘信息匹配方法，对职位和简历信息进行匹配；具体过程如下：

1)首先需要抽取职位信息与简历信息中的关键词，用向量表示职位信息与简历信息。

职位文件P表示为(取前20维为例)，职位文件P的每一维度表示的关键词为：

(java,android,web,c,javascript,mysql,linux,php,html,oracle,css,ios,sql,c++,ajax,jquery,xml,sqlserver,spring,j2ee)；每一维度关键词出现的频数为(2,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,1,0)。

简历文件C表示为(取前20维举例)，每一维度表示的关键词为

(java,android,web,c,javascript,mysql,linux,php,html,oracle,css,ios,sql,c++,ajax,jquery,xml,sqlserver,spring,j2ee)；每一维度关键词出现的频数(2,1,0,0,0,3,1,0,1,0,0,0,0,0,1,0,0,0,1,1)。

2)简历关键词与职位之间的直接匹配

应用公式5-公式7，计算得到直接匹配分值Score(M)为0.3305；

3)简历与职位关键词之间的相关匹配

应用公式8-公式11，计算得到相关匹配分值Score(U)为0.0070；

再应用最大可能得分公式，计算得到最大可能得分maxScore为0.3642；

应用公式12将Score(M)和Score(U)映射到[0,1]区间，计算得到值为0.9268。

4)计算得到职位与简历的KL散度均值

使用多项Logit模型，将职位向量和简历向量作为输入，得到隐含职位类别概率分布。

如表1所示，行表示隐含职位类别，列表示相应的预测概率。

表1职位向量隐含职位类别概率分布PD(P)：

隐含职位类别	预测概率
		java	0.873778
php	0.000499
		android	0.000354
c	0.000995
		web	0.064365
.net	0.001496
		ios	0.000066
linux	0.012910
		c++	0.000529
c#	0.000177
		javascript	0.020757
oracle	0.006453
		mysql	0.006180
sql	0.002080
		html	0.009360

简历向量隐含职位类别概率分布PD(C)的计算方式同上，如表2所示，行表示隐含职位类别，列表示相应的预测概率。

表2简历向量隐含职位类别概率分布PD(C)：

由KL散度均值公式(式13-2)计算概论分布的KL散度均值A(PD(C),PD(P))，并由公式13将值映射到[0,1]区间，得到KL散度均值为0.3263；

5)计算加权匹配结果

由公式14计算简历和职位的文本相似度分值S(C,P)为0.7876。

具体包括如下步骤：

从职位描述中统计不同关键词的频数，从职位标题中统计不同职位类别关键词的频数，按照出现频数的排名，我们分别对每一项关键词和每一个职位类别赋予一个整型全局标识，如表3：

表3关键词、职位类别和相应赋予的整型全局标识

关键词	关键词全局标识	职位类别	职位类别全局标识
				java	1	java	1
android	2	php	2
				web	3	android	3
c	4	c	4
				javascript	5	web	5
mysql	6	.net	6
				linux	7	ios	7
php	8	linux	8

令s^p _ij表示第j项关键词，#s^p _ij表示第j项关键词在第i份职位文件中出现的频数，那么职位文件P_i可以表示为：

其中，p_i为该职位的类别标识，N_s为关键词总数。对于简历文件C_i，同样可以进行向量化表示：

其中，#s^c _ij表示第j项关键词在第i份简历中出现的频数。至此，我们完成了职位信息与简历信息的向量化表示。

2)简历关键词与职位之间的直接匹配

直接匹配考虑同时在职位和简历文本中出现的关键词对匹配程度的影响。如果第j项关键词s_j在简历向量和职位向量中的出现次数均大于零，则在当前分值上增加该项关键词对职位的权重系数与线性调整系数的乘积。设直接匹配的关键词集合为M，则：

M＝{s_j|s^c _j>0&＆s^p _j>0,1≤j≤N_s} (式5)

s^c _j表示第j项关键词s_j在简历向量c中出现的频数；s^p _j为第j项关键词s_j在职位p中出现的频数。

线性调整系数定义为：

直接匹配所得文本相似度分值为：

w_j(q)'为经过调整的第j项s^p _j技能对于第q类职位的权重系数。

专业技能对职位类别的权重系数用于衡量技能相对于职位的重要性。具体地，给定n个职位文件的样本，对于第q类职位，第j项技能s^p _j出现的频数记为式7-1：

第j项s^p _j技能对于第q类职位的权重系数由式7-2计算：

由职位信息向量化模块提取结果可以看出，技能的出现频数呈现为指数分布，非热门技能的s^p _j在多数职位中很有可能为零，直接使用式7-2计算会得到稀疏的权重系数矩阵。因此，需要将式7-2调整为式7-3：

3)简历与职位关键词之间的相关匹配

相关匹配考虑在职位中出现而未在简历中出现的关键词对匹配程度的影响，如果第j项关键词s_j在职位向量的出现次数大于零，而在简历向量中的出现次数为零，则在当前分值上增加出现在简历向量中、并且与该项关键词最相似的关键词对职位的权重系数与线性调整系数的乘积。设相关匹配的关键词集合为U，则：

U＝{s_j|s^c _j＝0&&s^p _j>0,1≤j≤N_s} (式8)

以s^c _j'表示与s^p _j最相似的关键词，满足：

r(s^c _j',s^p _j)≥r(s^c _j”,s^p _j)，任意j”，1≤j”≤N_s (式9)

r(x,y)为4.2.2节定义的关键词之间的相关系数，线性调整系数定义为：

相关匹配所得文本相似度分值为：

直接匹配和相关匹配的分值需要映射到[0,1]区间，最简单的方法是将其除以最大可能得分(最大可能得分maxScore通过如下公式计算得到)，得到的文本相似度分值。

I(x)为示性函数

4)职位与简历的KL散度均值

通过以上两步得到的简历和职位的文本相似度分值在某些极端情况下会失去衡量效果。例如，技能出现次数均为1次，每种技能对职位的权重系数均为0.2，简历提取的技能为{“html、”，“css”，“javascript”，“jQuery”，“c++”}，职位1要求的技能为{“c++”}，职位2要求的技能为{“html”，“css”，“javascript”，“jsp”}，则职位1的文本相似度分值为1.0，职位2的文本相似度分值小于0.8。一方面，职位2要求的技能较多，即使不能完全符合要求，也应该给予较高的分值；另一方面，从用户的简历信息来看，用户应该更能胜任web/前端开发方面的职位。因此，需要考虑简历和职位的隐含职位类别概率分布，如果隐含职位类别概率分布差异性较大，应该对文本相似度分值给予适当的降低。

职位与简历的KL散度均值模型(Average Kullback–Leibler Divergence，中文为KL散度均值或平均相对熵)中，隐含职位类别指的是：给定求职简历或职位描述文本中所提供的关键词组合，如果该组合最有可能是某一特定类别职位的要求，这一职位所属类别即为求职简历或职位描述的隐含职位类别。

我们利用职位类别分类器(本实施例采用多项Logit模型)将简历向量和职位向量作为输入，得到隐含职位类别概率分布PD(C)和PD(P)，然后计算二者的KL散度均值A(PD(C),PD(P))作为预测差异性的衡量指标，并将其映射到[0,1]区间得到差异性分值。

具体地，使用训练完成的多项Logti分类器(β为已经训练得到的参数)，将职位向量和简历向量作为输入(公式中的x)，得到简历与职位属于各个隐含职位类别的概率分布PD(C)和PD(P)，概率预测函数如下：

…

其中，J表示相应的职位类别。

然后，通过式13将KL散度均值A(PD(C),PD(P))映射到[0,1]区间，得到差异性分值：

其中，概率分布P和Q的KL散度定义为：

通过式13-1计算得到概率分布P和Q的KL散度D(P||Q)；

概率分布P和Q的KL散度均值定义为：

通过式13-2计算得到KL散度均值A(PD(C),PD(P))。

5)计算加权匹配结果

最终简历和职位的文本相似度分值S(C,P)是将以上两部分进行加权平均的结果：

S(C,P)＝α*[Score(M)+Score(U)]_[0,1]+(1-KLScore(C,P)_[0,1])*(1-α) (式14)

至此，我们实现了简历与职位匹配模型。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于多维度领域关键知识的招聘信息匹配方法，通过抽取关键词、简历关键词与职位之间进行直接匹配、简历与职位关键词之间进行相关匹配，实现多维度的简历与职位的精准匹配；具体包括如下步骤：

3)进行简历与职位关键词之间的相关匹配，计算得到相关匹配所得文本相似度分值；步骤3)所述相关匹配具体反映在职位中出现而未在简历中出现的关键词对匹配程度的影响；当第j项关键词sj在职位向量的出现次数大于零、而在简历向量中的出现次数为零时，在当前分值上增加出现在简历向量中并且与该项关键词最相似的关键词对职位的权重系数与线性调整系数的乘积；

5)通过加权计算得到最终简历和职位的文本相似度分值，作为信息匹配结果，完成招聘信息匹配，所述直接匹配所得文本相似度分值和所述相关匹配所得文本相似度分值，均进一步映射到[0,1]区间，由此得到文本相似度分值；

步骤5)所述加权计算具体通过式14进行加权平均，计算得到最终简历和职位的文本相似度分值S(C,P)：

S(C,P)＝α*[Score(M)+Score(U)]_[0,1]+(1-KLScore(C,P)_[0,1])*(1-α) (式14)

式14中，S(C,P)为简历和职位的文本相似度分值；α为可调节权重参数；Score(M)为直接匹配所得到的文本相似度分值；Score(U)为相关匹配所得文本相似度分值；[Score(M)+Score(U)]_[0,1]为将两部分的分值映射到[0,1]区间，KLScore(C,P)_[0,1]为映射[0,1]区间的KL散度均值，通过式13得到：

A(PD(C),PD(P))为PD(C)和PD(P)的KL散度均值；PD(C)和PD(P)分别为隐含职位类别概率分布；概率分布的预测函数如下：

…

其中，J表示相应的职位类别；x为职位向量和简历向量；β为分类器训练得到的参数。

2.如权利要求1所述招聘信息匹配方法，其特征是，步骤1)所述用向量表示职位信息与简历信息具体包括如下步骤：

12)令s^pij表示第j项关键词，#s^pij表示第j项关键词在第i份职位文件中出现的频数，采用式3表示职位文件P_i：

其中，p_i为该职位的类别标识；Ns为关键词总数；

13)通过式4向量化表示简历文件C_i：

其中，#s^cij表示第j项关键词在第i份简历Ci中出现的频数；

由此完成职位信息与简历信息的向量化表示。

3.如权利要求2所述招聘信息匹配方法，其特征是，步骤2)所述直接匹配方法反映在职位文本和简历文本中同时出现的关键词对匹配程度的影响；当第j项关键词sj在简历向量和职位向量中的出现次数均大于零时，在当前分值上增加该项关键词对职位的权重系数与线性调整系数的乘积；具体地，设直接匹配的关键词集合为M，通过式5表示M：

M＝{sj|s^cj＞0&&s^pj＞0,1≤j≤Ns} (式5)

s^cj表示第j项关键词sj在简历c中出现的频数；s^pj为第j项关键词sj在职位p中出现的频数，Ns为关键词总数；

再将线性调整系数定义为式6：

式6中，β(s^cj,s^pj)为线性调整系数；

式7中，Score(M)为直接匹配所得到的文本相似度分值；wj(q)′为经过调整的第j项s^pj技能对于第q类职位的权重系数，由式7-3计算得到，给定n个职位文件的样本，对于第q类职位，第j项技能s^pj出现的频数记为s^pj(q)，其中，

I(x)为示性函数。

4.如权利要求3所述招聘信息匹配方法，其特征是，设相关匹配的关键词集合为U，U通过式8表示：

U＝{sj|s^cj＝0&&s^pj＞0,1≤j≤Ns} (式8)

再以s^cj′表示与s^pj最相似的关键词，满足：

r(s^cj′,s^pj)≥r(s^cj″,s^pj)，任意j″，1≤j″≤Ns (式9)

r(x,y)表示关键词(x,y)之间的相关系数；

将线性调整系数定义为式10：

通过式11计算得到相关匹配所得文本相似度分值：

式11中，wj(q)′为经过调整的第j项s^pj技能对于第q类职位的权重系数，Score(U)为相关匹配所得文本相似度分值。

5.如权利要求3所述招聘信息匹配方法，其特征是，将所述直接匹配所得文本相似度分值和所述相关匹配所得文本相似度分值，均除以最大可能得分，从而将各自所得的文本相似度分值映射到[0,1]区间如下；具体通过式12实现：

I(x)为示性函数

式12中，maxScore为最大可能得分；Score(M)为直接匹配所得到的文本相似度分值；Score(U)为相关匹配所得文本相似度分值；[Score(M)+Score(U)]_[0,1]为将两部分的分值映射到[0,1]区间；Ns为关键词总数；w^j(q)′为经过调整的第j项s^pj技能对于第q类职位的权重系数。

6.如权利要求1所述招聘信息匹配方法，其特征是，步骤4)所述计算KL散度均值具体为：将简历向量和职位向量作为输入，利用职位类别分类器，得到隐含职位类别概率分布PD(C)和PD(P)，然后计算PD(C)和PD(P)的KL散度均值A(PD(C),PD(P))，作为预测差异性的衡量指标，并将其映射到[0,1]区间，得到差异性分值。

7.如权利要求6所述招聘信息匹配方法，其特征是，所述职位类别分类器采用多项Logit模型或SVM多分类模型。

8.如权利要求1所述招聘信息匹配方法，其特征是，步骤4)采用互信息均值模型代替KL散度均值模型。