CN106447285B - 基于多维度领域关键知识的招聘信息匹配方法 - Google Patents

基于多维度领域关键知识的招聘信息匹配方法 Download PDF

Info

Publication number
CN106447285B
CN106447285B CN201610816684.1A CN201610816684A CN106447285B CN 106447285 B CN106447285 B CN 106447285B CN 201610816684 A CN201610816684 A CN 201610816684A CN 106447285 B CN106447285 B CN 106447285B
Authority
CN
China
Prior art keywords
matching
resume
score
keywords
text similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610816684.1A
Other languages
English (en)
Other versions
CN106447285A (zh
Inventor
李戈
金芝
兰铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201610816684.1A priority Critical patent/CN106447285B/zh
Publication of CN106447285A publication Critical patent/CN106447285A/zh
Application granted granted Critical
Publication of CN106447285B publication Critical patent/CN106447285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公布了一种基于多维度领域关键知识的招聘信息匹配方法,通过抽取关键词、简历关键词与职位之间进行直接匹配、简历与职位关键词之间进行相关匹配,实现多维度的简历与职位的精准匹配;包括:抽取职位信息与简历信息中的关键词,用向量表示职位信息与简历信息;直接匹配得到直接匹配所得文本相似度分值;相关匹配得到相关匹配所得文本相似度分值;获得预测差异性的衡量指标;通过加权计算得到最终简历和职位的文本相似度分值,作为信息匹配结果,完成招聘信息匹配。本发明方法能够全面体现关键词之间、关键词组合所表达的信息和知识;有效提高职位与简历的匹配精度,降低招聘中HR的人力成本。

Description

基于多维度领域关键知识的招聘信息匹配方法
技术领域
本发明涉及数据挖掘和信息获取方法,尤其涉及一种基于多维度领域关键知识的招聘信息匹配方法。
背景技术
现实生活中,企业每天都会发布数以万计的职位,对于企业和求职者,从海量的职位信息和简历信息中挖掘出对各自有用的信息,通常需要花费大量的时间和精力。
职位信息通常包括结构化信息(如公司名称、职位名称、工作地点、薪资、学历等标签)和半结构化信息(如职位描述、职位要求)。简历信息通常包括结构化信息(如姓名、学历、意愿职位)和半结构化信息部分(如工作经历、项目经验)。现有方法中,基于向量空间模型匹配方法采用关键词向量空间模型算法,具体将职位信息中的半结构化部分看成文档集合D={d1,d2,d3…dN},所有关键词构建为词典T={t1,t2,t3…tn},职位描述文档dj={w1j,w2j,w3j…wnj},其中wkj是关键词k在文档j中的权重,通过信息检索模型的余弦归一化TF-IDF计算,公式如式1:
Figure GDA0002319150510000011
其中,fkj为tk在文档dk中出现的频数;N为文档总数;nk为出现tk的文档频数。
对于简历信息中的半结构化部分做相同的处理,用R={r1,r2,r3…rN}表示。
简历与职位之间的匹配关系就可以通过文档之间的余弦相似度得到,表示为式2:
Figure GDA0002319150510000012
采用上述基于向量空间模型匹配方法进行招聘信息匹配存在两方面不足:
(一)没有衡量关键词之间、关键词组合所表达的信息和知识;
(二)计算维度单一,匹配精度较差,因此仍然需要大量的人工筛选。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于多维度领域关键知识的招聘信息匹配方法,是一种多维度的简历与职位的匹配方法,多维度体现在:关键词与职位之间的关系、关键词之间的关系、关键词组合所表达的信息;本发明能够实现在招聘服务中,根据多维度领域关键知识(包括职位与简历的半结构化文本中关键词与职位之间、关键词之间、关键词组合所表达的信息),对简历与职位进行精准匹配。
本发明约定如下术语定义:
领域关键知识包括:关键词(关键词关键词、职位类别关键词)、关键词与职位的关系、关键词之间的关系等。
隐含职位类别:给定求职简历或职位描述文本中所提供的关键词组合,如果该组合最有可能是某一特定类别职位的要求,这一职位所属类别即为求职简历或职位描述的隐含职位类别。
本发明提供的技术方案是:
一种基于多维度领域关键知识的招聘信息匹配方法,通过抽取关键词、简历关键词与职位之间进行直接匹配、简历与职位关键词之间进行相关匹配,实现多维度的简历与职位的精准匹配;具体包括如下步骤:
1)抽取职位信息与简历信息中的关键词,用向量表示职位信息与简历信息;
2)进行简历关键词与职位之间的直接匹配,计算得到直接匹配所得文本相似度分值;
3)进行简历与职位关键词之间的相关匹配,计算得到相关匹配所得文本相似度分值;
4)计算职位与简历的KL散度均值,获得预测差异性的衡量指标;
5)通过加权计算得到最终简历和职位的文本相似度分值,作为信息匹配结果,完成招聘信息匹配。
针对上述招聘信息匹配方法,进一步地,步骤1)所述用向量表示职位信息与简历信息具体包括如下步骤:
11)从职位描述中统计不同关键词的频数,从职位标题中统计不同职位类别关键词的频数,按照出现频数的排名,分别对每一项关键词和每一个职位类别赋予一个整型全局标识;
12)令sp ij表示第j项关键词,#sp ij表示第j项关键词在第i份职位文件中出现的频数,采用式3表示职位文件Pi
Figure GDA0002319150510000021
其中,pi为该职位的类别标识;Ns为关键词总数;
13)通过式4向量化表示简历文件Ci
Figure GDA0002319150510000031
其中,#sc ij表示第j项关键词在第i份简历Ci中出现的频数;
由此完成职位信息与简历信息的向量化表示。
针对上述招聘信息匹配方法,进一步地,步骤2)所述直接匹配方法反映在职位文本和简历文本中同时出现的关键词对匹配程度的影响;当第j项关键词sj在简历向量和职位向量中的出现次数均大于零时,在当前分值上增加该项关键词对职位的权重系数与线性调整系数的乘积;具体地,设直接匹配的关键词集合为M,通过式5表示M:
M={sj|sc j>0&&sp j>0,1≤j≤Ns} (式5)
sc j表示第j项关键词sj在简历c中出现的频数;sp j为第j项关键词sj在职位p中出现的频数;
再将线性调整系数β(sc j,sp j)定义为式6:
Figure GDA0002319150510000032
式6中,β(sc j,sp j)为线性调整系数;
然后,通过式7计算得到文本相似度分值,作为直接匹配所得文本相似度分值:
Figure GDA0002319150510000033
Figure GDA0002319150510000034
式7中,Score(M)为直接匹配所得到的文本相似度分值;wj(q)'为经过调整的第j项sp j技能对于第q类职位的权重系数。
针对上述招聘信息匹配方法,进一步地,步骤3)所述相关匹配具体反映在职位中出现而未在简历中出现的关键词对匹配程度的影响;当第j项关键词sj在职位向量的出现次数大于零、而在简历向量中的出现次数为零时,在当前分值上增加出现在简历向量中并且与该项关键词最相似的关键词对职位的权重系数与线性调整系数的乘积;具体地,设相关匹配的关键词集合为U,U通过式8表示:
U={sj|sc j=0&&sp j>0,1≤j≤Ns} (式8)
再以sc j'表示与sp j最相似的关键词,满足:
r(sc j',sp j)≥r(sc j”,sp j),任意j”,1≤j”≤Ns (式9)
r(x,y)表示关键词(x,y)之间的相关系数;
将线性调整系数定义为式10:
Figure GDA0002319150510000041
通过式11计算得到相关匹配所得文本相似度分值:
Figure GDA0002319150510000042
式11中,Score(U)为相关匹配所得文本相似度分值。
针对上述招聘信息匹配方法,进一步地,所述直接匹配所得文本相似度分值和所述相关匹配所得文本相似度分值,均进一步映射到[0,1]区间,由此得到文本相似度分值。
更进一步地,将所述直接匹配所得文本相似度分值和所述相关匹配所得文本相似度分值,均除以最大可能得分,从而将各自所得的文本相似度分值映射到[0,1]区间如下;具体通过式12实现:
Figure GDA0002319150510000043
I(x)为示性函数
Figure GDA0002319150510000044
式12中,maxScore为最大可能得分;Score(M)为直接匹配所得到的文本相似度分值;Score(U)为相关匹配所得文本相似度分值;[Score(M)+Score(U)][0,1]为将两部分的分值映射到[0,1]区间;Ns为关键词总数;wj(q)'为经过调整的第j项sp j技能对于第q类职位的权重系数。
针对上述招聘信息匹配方法,进一步地,步骤4)所述计算KL散度均值具体为:将简历向量和职位向量作为输入,利用职位类别分类器,得到隐含职位类别概率分布PD(C)和PD(P),然后计算PD(C)和PD(P)的KL散度均值A(PD(C),PD(P)),作为预测差异性的衡量指标,并将其映射到[0,1]区间,得到差异性分值。
本发明具体实施中,使用了训练完成的多项Logti分类器(β为已经训练得到的参数),将职位向量和简历向量作为输入(公式中的x),得到简历与职位属于各个隐含职位类别的概率分布PD(C)和PD(P),概率预测函数如下:
Figure GDA0002319150510000051
Figure GDA0002319150510000052
Figure GDA0002319150510000053
上述概率预测函数中,J表示相应的职位类别。之后由公式13、13-1、13-2计算KL散度均值和映射[0,1]区间的KL散度均值。
更进一步地,所述职位类别分类器为多项Logit模型;也可使用SVM多分类模型作为职位类别分类器。
针对上述招聘信息匹配方法,进一步地,步骤4)可采用互信息均值模型代替KL散度均值模型。
针对上述招聘信息匹配方法,进一步地,步骤5)所述加权计算具体通过式14进行加权平均,计算得到简历和职位的文本相似度分值S(C,P):
S(C,P)=α*[Score(M)+Score(U)][0,1]+(1-KLScore(C,P)[0,1])*(1-α) (式14)
式14中,S(C,P)为简历和职位的文本相似度分值;α为可调节权重参数,根据模型训练结果取值;KLScore(C,P)[0,1]为映射[0,1]区间的KL散度均值,通过式13得到:
Figure GDA0002319150510000054
A(PD(C),PD(P))为PD(C)和PD(P)的KL散度均值。
通过上述步骤,得到信息匹配结果,完成招聘信息匹配。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于多维度领域关键知识的招聘信息匹配方法,是一种多维度的简历与职位的匹配方法,多维度体现在:关键词与职位之间的关系、关键词之间的关系、关键词组合所表达的信息;本发明能够实现在招聘服务中,根据多维度领域关键知识,对简历与职位进行精准匹配。本方法具有以下优点:
(一)能够全面地刻画关键词之间、关键词组合所表达的信息和知识;
(二)能够有效提高职位与简历的匹配精度,在招聘服务中降低HR的人力成本。
附图说明
图1是本发明提供的招聘信息匹配方法的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于多维度领域关键知识的招聘信息匹配方法,是一种多维度的简历与职位的匹配方法,多维度领域关键知识体现在:关键词与职位之间的关系、关键词之间的关系、关键词组合所表达的信息;本发明根据多维度领域关键知识(职位与简历的半结构化文本中关键词与职位之间、关键词之间、关键词组合所表达的信息),通过抽取关键词、简历关键词与职位之间进行直接匹配、简历与职位关键词之间进行相关匹配,从而实现对简历与职位进行精准匹配。
以下实施例针对给定的职位文件P和简历文件C,采用本发明提供的基于多维度领域关键知识的招聘信息匹配方法,对职位和简历信息进行匹配;具体过程如下:
1)首先需要抽取职位信息与简历信息中的关键词,用向量表示职位信息与简历信息。
职位文件P表示为(取前20维为例),职位文件P的每一维度表示的关键词为:
(java,android,web,c,javascript,mysql,linux,php,html,oracle,css,ios,sql,c++,ajax,jquery,xml,sqlserver,spring,j2ee);每一维度关键词出现的频数为(2,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0,1,0)。
简历文件C表示为(取前20维举例),每一维度表示的关键词为
(java,android,web,c,javascript,mysql,linux,php,html,oracle,css,ios,sql,c++,ajax,jquery,xml,sqlserver,spring,j2ee);每一维度关键词出现的频数(2,1,0,0,0,3,1,0,1,0,0,0,0,0,1,0,0,0,1,1)。
2)简历关键词与职位之间的直接匹配
应用公式5-公式7,计算得到直接匹配分值Score(M)为0.3305;
3)简历与职位关键词之间的相关匹配
应用公式8-公式11,计算得到相关匹配分值Score(U)为0.0070;
再应用最大可能得分公式,计算得到最大可能得分maxScore为0.3642;
应用公式12将Score(M)和Score(U)映射到[0,1]区间,计算得到值为0.9268。
4)计算得到职位与简历的KL散度均值
使用多项Logit模型,将职位向量和简历向量作为输入,得到隐含职位类别概率分布。
如表1所示,行表示隐含职位类别,列表示相应的预测概率。
表1职位向量隐含职位类别概率分布PD(P):
隐含职位类别 预测概率
java 0.873778
php 0.000499
android 0.000354
c 0.000995
web 0.064365
.net 0.001496
ios 0.000066
linux 0.012910
c++ 0.000529
c# 0.000177
javascript 0.020757
oracle 0.006453
mysql 0.006180
sql 0.002080
html 0.009360
简历向量隐含职位类别概率分布PD(C)的计算方式同上,如表2所示,行表示隐含职位类别,列表示相应的预测概率。
表2简历向量隐含职位类别概率分布PD(C):
Figure GDA0002319150510000071
Figure GDA0002319150510000081
由KL散度均值公式(式13-2)计算概论分布的KL散度均值A(PD(C),PD(P)),并由公式13将值映射到[0,1]区间,得到KL散度均值为0.3263;
5)计算加权匹配结果
由公式14计算简历和职位的文本相似度分值S(C,P)为0.7876。
具体包括如下步骤:
1)首先需要抽取职位信息与简历信息中的关键词,用向量表示职位信息与简历信息。
从职位描述中统计不同关键词的频数,从职位标题中统计不同职位类别关键词的频数,按照出现频数的排名,我们分别对每一项关键词和每一个职位类别赋予一个整型全局标识,如表3:
表3关键词、职位类别和相应赋予的整型全局标识
关键词 关键词全局标识 职位类别 职位类别全局标识
java 1 java 1
android 2 php 2
web 3 android 3
c 4 c 4
javascript 5 web 5
mysql 6 .net 6
linux 7 ios 7
php 8 linux 8
令sp ij表示第j项关键词,#sp ij表示第j项关键词在第i份职位文件中出现的频数,那么职位文件Pi可以表示为:
Figure GDA0002319150510000091
其中,pi为该职位的类别标识,Ns为关键词总数。对于简历文件Ci,同样可以进行向量化表示:
Figure GDA0002319150510000092
其中,#sc ij表示第j项关键词在第i份简历中出现的频数。至此,我们完成了职位信息与简历信息的向量化表示。
2)简历关键词与职位之间的直接匹配
直接匹配考虑同时在职位和简历文本中出现的关键词对匹配程度的影响。如果第j项关键词sj在简历向量和职位向量中的出现次数均大于零,则在当前分值上增加该项关键词对职位的权重系数与线性调整系数的乘积。设直接匹配的关键词集合为M,则:
M={sj|sc j>0&&sp j>0,1≤j≤Ns} (式5)
sc j表示第j项关键词sj在简历向量c中出现的频数;sp j为第j项关键词sj在职位p中出现的频数。
线性调整系数定义为:
Figure GDA0002319150510000093
直接匹配所得文本相似度分值为:
Figure GDA0002319150510000094
wj(q)'为经过调整的第j项sp j技能对于第q类职位的权重系数。
专业技能对职位类别的权重系数用于衡量技能相对于职位的重要性。具体地,给定n个职位文件的样本,对于第q类职位,第j项技能sp j出现的频数记为式7-1:
Figure GDA0002319150510000095
第j项sp j技能对于第q类职位的权重系数由式7-2计算:
Figure GDA0002319150510000096
由职位信息向量化模块提取结果可以看出,技能的出现频数呈现为指数分布,非热门技能的sp j在多数职位中很有可能为零,直接使用式7-2计算会得到稀疏的权重系数矩阵。因此,需要将式7-2调整为式7-3:
Figure GDA0002319150510000101
3)简历与职位关键词之间的相关匹配
相关匹配考虑在职位中出现而未在简历中出现的关键词对匹配程度的影响,如果第j项关键词sj在职位向量的出现次数大于零,而在简历向量中的出现次数为零,则在当前分值上增加出现在简历向量中、并且与该项关键词最相似的关键词对职位的权重系数与线性调整系数的乘积。设相关匹配的关键词集合为U,则:
U={sj|sc j=0&&sp j>0,1≤j≤Ns} (式8)
以sc j'表示与sp j最相似的关键词,满足:
r(sc j',sp j)≥r(sc j”,sp j),任意j”,1≤j”≤Ns (式9)
r(x,y)为4.2.2节定义的关键词之间的相关系数,线性调整系数定义为:
Figure GDA0002319150510000102
相关匹配所得文本相似度分值为:
Figure GDA0002319150510000103
直接匹配和相关匹配的分值需要映射到[0,1]区间,最简单的方法是将其除以最大可能得分(最大可能得分maxScore通过如下公式计算得到),得到的文本相似度分值。
Figure GDA0002319150510000104
I(x)为示性函数
Figure GDA0002319150510000105
4)职位与简历的KL散度均值
通过以上两步得到的简历和职位的文本相似度分值在某些极端情况下会失去衡量效果。例如,技能出现次数均为1次,每种技能对职位的权重系数均为0.2,简历提取的技能为{“html、”,“css”,“javascript”,“jQuery”,“c++”},职位1要求的技能为{“c++”},职位2要求的技能为{“html”,“css”,“javascript”,“jsp”},则职位1的文本相似度分值为1.0,职位2的文本相似度分值小于0.8。一方面,职位2要求的技能较多,即使不能完全符合要求,也应该给予较高的分值;另一方面,从用户的简历信息来看,用户应该更能胜任web/前端开发方面的职位。因此,需要考虑简历和职位的隐含职位类别概率分布,如果隐含职位类别概率分布差异性较大,应该对文本相似度分值给予适当的降低。
职位与简历的KL散度均值模型(Average Kullback–Leibler Divergence,中文为KL散度均值或平均相对熵)中,隐含职位类别指的是:给定求职简历或职位描述文本中所提供的关键词组合,如果该组合最有可能是某一特定类别职位的要求,这一职位所属类别即为求职简历或职位描述的隐含职位类别。
我们利用职位类别分类器(本实施例采用多项Logit模型)将简历向量和职位向量作为输入,得到隐含职位类别概率分布PD(C)和PD(P),然后计算二者的KL散度均值A(PD(C),PD(P))作为预测差异性的衡量指标,并将其映射到[0,1]区间得到差异性分值。
具体地,使用训练完成的多项Logti分类器(β为已经训练得到的参数),将职位向量和简历向量作为输入(公式中的x),得到简历与职位属于各个隐含职位类别的概率分布PD(C)和PD(P),概率预测函数如下:
Figure GDA0002319150510000111
Figure GDA0002319150510000112
Figure GDA0002319150510000113
其中,J表示相应的职位类别。
然后,通过式13将KL散度均值A(PD(C),PD(P))映射到[0,1]区间,得到差异性分值:
Figure GDA0002319150510000121
其中,概率分布P和Q的KL散度定义为:
Figure GDA0002319150510000122
通过式13-1计算得到概率分布P和Q的KL散度D(P||Q);
概率分布P和Q的KL散度均值定义为:
Figure GDA0002319150510000123
通过式13-2计算得到KL散度均值A(PD(C),PD(P))。
5)计算加权匹配结果
最终简历和职位的文本相似度分值S(C,P)是将以上两部分进行加权平均的结果:
S(C,P)=α*[Score(M)+Score(U)][0,1]+(1-KLScore(C,P)[0,1])*(1-α) (式14)
至此,我们实现了简历与职位匹配模型。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (8)

1.一种基于多维度领域关键知识的招聘信息匹配方法,通过抽取关键词、简历关键词与职位之间进行直接匹配、简历与职位关键词之间进行相关匹配,实现多维度的简历与职位的精准匹配;具体包括如下步骤:
1)抽取职位信息与简历信息中的关键词,用向量表示职位信息与简历信息;
2)进行简历关键词与职位之间的直接匹配,计算得到直接匹配所得文本相似度分值;
3)进行简历与职位关键词之间的相关匹配,计算得到相关匹配所得文本相似度分值;步骤3)所述相关匹配具体反映在职位中出现而未在简历中出现的关键词对匹配程度的影响;当第j项关键词sj在职位向量的出现次数大于零、而在简历向量中的出现次数为零时,在当前分值上增加出现在简历向量中并且与该项关键词最相似的关键词对职位的权重系数与线性调整系数的乘积;
4)计算职位与简历的KL散度均值,获得预测差异性的衡量指标;
5)通过加权计算得到最终简历和职位的文本相似度分值,作为信息匹配结果,完成招聘信息匹配,所述直接匹配所得文本相似度分值和所述相关匹配所得文本相似度分值,均进一步映射到[0,1]区间,由此得到文本相似度分值;
步骤5)所述加权计算具体通过式14进行加权平均,计算得到最终简历和职位的文本相似度分值S(C,P):
S(C,P)=α*[Score(M)+Score(U)][0,1]+(1-KLScore(C,P)[0,1])*(1-α) (式14)
式14中,S(C,P)为简历和职位的文本相似度分值;α为可调节权重参数;Score(M)为直接匹配所得到的文本相似度分值;Score(U)为相关匹配所得文本相似度分值;[Score(M)+Score(U)][0,1]为将两部分的分值映射到[0,1]区间,KLScore(C,P)[0,1]为映射[0,1]区间的KL散度均值,通过式13得到:
Figure FDA0002319150500000011
A(PD(C),PD(P))为PD(C)和PD(P)的KL散度均值;PD(C)和PD(P)分别为隐含职位类别概率分布;概率分布的预测函数如下:
Figure FDA0002319150500000021
Figure FDA0002319150500000022
Figure FDA0002319150500000023
其中,J表示相应的职位类别;x为职位向量和简历向量;β为分类器训练得到的参数。
2.如权利要求1所述招聘信息匹配方法,其特征是,步骤1)所述用向量表示职位信息与简历信息具体包括如下步骤:
11)从职位描述中统计不同关键词的频数,从职位标题中统计不同职位类别关键词的频数,按照出现频数的排名,分别对每一项关键词和每一个职位类别赋予一个整型全局标识;
12)令spij表示第j项关键词,#spij表示第j项关键词在第i份职位文件中出现的频数,采用式3表示职位文件Pi
Figure FDA0002319150500000024
其中,pi为该职位的类别标识;Ns为关键词总数;
13)通过式4向量化表示简历文件Ci
Figure FDA0002319150500000025
其中,#scij表示第j项关键词在第i份简历Ci中出现的频数;
由此完成职位信息与简历信息的向量化表示。
3.如权利要求2所述招聘信息匹配方法,其特征是,步骤2)所述直接匹配方法反映在职位文本和简历文本中同时出现的关键词对匹配程度的影响;当第j项关键词sj在简历向量和职位向量中的出现次数均大于零时,在当前分值上增加该项关键词对职位的权重系数与线性调整系数的乘积;具体地,设直接匹配的关键词集合为M,通过式5表示M:
M={sj|scj>0&&spj>0,1≤j≤Ns} (式5)
scj表示第j项关键词sj在简历c中出现的频数;spj为第j项关键词sj在职位p中出现的频数,Ns为关键词总数;
再将线性调整系数定义为式6:
Figure FDA0002319150500000031
式6中,β(scj,spj)为线性调整系数;
然后,通过式7计算得到文本相似度分值,作为直接匹配所得文本相似度分值:
Figure FDA0002319150500000032
Figure FDA0002319150500000033
式7中,Score(M)为直接匹配所得到的文本相似度分值;wj(q)′为经过调整的第j项spj技能对于第q类职位的权重系数,由式7-3计算得到,给定n个职位文件的样本,对于第q类职位,第j项技能spj出现的频数记为spj(q),其中,
Figure FDA0002319150500000034
I(x)为示性函数。
4.如权利要求3所述招聘信息匹配方法,其特征是,设相关匹配的关键词集合为U,U通过式8表示:
U={sj|scj=0&&spj>0,1≤j≤Ns} (式8)
再以scj′表示与spj最相似的关键词,满足:
r(scj′,spj)≥r(scj″,spj),任意j″,1≤j″≤Ns (式9)
r(x,y)表示关键词(x,y)之间的相关系数;
将线性调整系数定义为式10:
Figure FDA0002319150500000035
通过式11计算得到相关匹配所得文本相似度分值:
Figure FDA0002319150500000036
式11中,wj(q)′为经过调整的第j项spj技能对于第q类职位的权重系数,Score(U)为相关匹配所得文本相似度分值。
5.如权利要求3所述招聘信息匹配方法,其特征是,将所述直接匹配所得文本相似度分值和所述相关匹配所得文本相似度分值,均除以最大可能得分,从而将各自所得的文本相似度分值映射到[0,1]区间如下;具体通过式12实现:
Figure FDA0002319150500000041
I(x)为示性函数
Figure FDA0002319150500000042
式12中,maxScore为最大可能得分;Score(M)为直接匹配所得到的文本相似度分值;Score(U)为相关匹配所得文本相似度分值;[Score(M)+Score(U)][0,1]为将两部分的分值映射到[0,1]区间;Ns为关键词总数;wj(q)′为经过调整的第j项spj技能对于第q类职位的权重系数。
6.如权利要求1所述招聘信息匹配方法,其特征是,步骤4)所述计算KL散度均值具体为:将简历向量和职位向量作为输入,利用职位类别分类器,得到隐含职位类别概率分布PD(C)和PD(P),然后计算PD(C)和PD(P)的KL散度均值A(PD(C),PD(P)),作为预测差异性的衡量指标,并将其映射到[0,1]区间,得到差异性分值。
7.如权利要求6所述招聘信息匹配方法,其特征是,所述职位类别分类器采用多项Logit模型或SVM多分类模型。
8.如权利要求1所述招聘信息匹配方法,其特征是,步骤4)采用互信息均值模型代替KL散度均值模型。
CN201610816684.1A 2016-09-12 2016-09-12 基于多维度领域关键知识的招聘信息匹配方法 Active CN106447285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610816684.1A CN106447285B (zh) 2016-09-12 2016-09-12 基于多维度领域关键知识的招聘信息匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610816684.1A CN106447285B (zh) 2016-09-12 2016-09-12 基于多维度领域关键知识的招聘信息匹配方法

Publications (2)

Publication Number Publication Date
CN106447285A CN106447285A (zh) 2017-02-22
CN106447285B true CN106447285B (zh) 2020-06-12

Family

ID=58167586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610816684.1A Active CN106447285B (zh) 2016-09-12 2016-09-12 基于多维度领域关键知识的招聘信息匹配方法

Country Status (1)

Country Link
CN (1) CN106447285B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844771B (zh) * 2017-02-28 2018-05-11 海南职业技术学院 一种基于文本匹配的信息处理方法及装置
CN108537610B (zh) * 2017-03-01 2021-12-10 广州大学 一种基于受限玻尔兹曼机的物品相似度计算方法
CN106980961A (zh) * 2017-03-02 2017-07-25 中科天地互联网科技(苏州)有限公司 一种简历筛选匹配方法及***
US11238363B2 (en) * 2017-04-27 2022-02-01 Accenture Global Solutions Limited Entity classification based on machine learning techniques
CN107391547B (zh) * 2017-06-01 2020-03-20 武汉威克睿特科技有限公司 一种人力对象数据匹配方法及***
CN107392143B (zh) * 2017-07-20 2019-12-27 中国科学院软件研究所 一种基于svm文本分类的简历精确解析方法
CN107818134A (zh) * 2017-09-26 2018-03-20 北京纳人网络科技有限公司 一种职位相似度计算方法、客户端以及服务器
CN107729532A (zh) * 2017-10-30 2018-02-23 北京拉勾科技有限公司 一种简历匹配方法及计算设备
CN108062657A (zh) * 2017-11-30 2018-05-22 朱学松 人才招聘面试方法及***
CN108665242A (zh) * 2018-05-09 2018-10-16 北京邦邦共赢网络科技有限公司 一种简历匹配方法和装置
CN110472647B (zh) * 2018-05-10 2022-06-24 百度在线网络技术(北京)有限公司 基于人工智能的辅助面试方法、装置及存储介质
CN108829676A (zh) * 2018-06-11 2018-11-16 安徽引航科技有限公司 基于文本分析技术的人才专业能力评估方法
CN109582704B (zh) * 2018-10-17 2019-10-25 龙马智芯(珠海横琴)科技有限公司 招聘信息和求职简历匹配的方法
CN109522511B (zh) * 2018-10-22 2021-04-20 大连理工大学 一种基于复盘的面试计分方法
CN109740046A (zh) * 2018-11-22 2019-05-10 北京网聘咨询有限公司 基于互联网招聘的空中双选会平台
CN109684472A (zh) * 2018-12-20 2019-04-26 深圳价值在线信息科技股份有限公司 一种证券资讯的行业分类方法及***
CN109829500B (zh) * 2019-01-31 2023-05-02 华南理工大学 一种职位构图和自动聚类方法
CN110059923A (zh) * 2019-03-13 2019-07-26 平安科技(深圳)有限公司 岗位画像和简历信息的匹配方法、装置、设备及存储介质
CN109978498B (zh) * 2019-03-15 2020-06-09 河北冀联人力资源服务集团有限公司 任务信息处理方法及装置
CN110032681B (zh) * 2019-04-17 2022-03-15 北京网聘咨询有限公司 基于简历内容的职位推荐方法
CN111105203A (zh) * 2019-11-19 2020-05-05 平安金融管理学院(中国·深圳) 简历筛选控制方法、装置、计算机设备及存储介质
CN111105209B (zh) * 2019-12-17 2023-07-21 上海沃锐企业发展有限公司 适用于人岗匹配推荐***的职位简历匹配方法及装置
CN113268560A (zh) * 2020-02-17 2021-08-17 北京沃东天骏信息技术有限公司 用于文本匹配的方法和装置
CN111598462B (zh) * 2020-05-19 2022-07-12 厦门大学 一种面向校园招聘的简历筛选方法
CN112612961B (zh) * 2020-12-28 2024-02-02 完美世界(北京)软件科技发展有限公司 信息搜索方法、装置、存储介质及计算机设备
CN112966966A (zh) * 2021-03-25 2021-06-15 上海柏观数据科技有限公司 一种用于引进人才匹配的人才可引进指数控制方法
CN114239901A (zh) * 2021-10-15 2022-03-25 成都精诚睿软件有限责任公司 一种用于干部动议的人岗适配度预估方法
CN115511014B (zh) * 2022-11-23 2023-04-07 联仁健康医疗大数据科技股份有限公司 信息匹配方法、装置、设备及存储介质
CN116362589B (zh) * 2023-02-23 2023-08-25 中国标准化研究院 一种质量工作考核评价方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933239A (zh) * 2015-06-09 2015-09-23 江苏大学 一种基于混合模型的个性化职位信息推荐***及实现方法
CN105045857A (zh) * 2015-07-09 2015-11-11 中国科学院计算技术研究所 一种社交网络谣言识别方法及***
CN105488662A (zh) * 2016-01-07 2016-04-13 北京歌利沃夫企业管理有限公司 一种基于双向推荐的在线招聘***
CN105608477A (zh) * 2016-03-01 2016-05-25 吕云 一种人物画像与职位匹配的方法及***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8527510B2 (en) * 2005-05-23 2013-09-03 Monster Worldwide, Inc. Intelligent job matching system and method
US8375067B2 (en) * 2005-05-23 2013-02-12 Monster Worldwide, Inc. Intelligent job matching system and method including negative filtration
US20130036065A1 (en) * 2011-08-04 2013-02-07 Jobvite, Inc. Method and system for identifying job candidates, social networks, and recruiters to facilitate the recruiting process
CN105159962B (zh) * 2015-08-21 2018-08-17 北京全聘致远科技有限公司 职位推荐方法与装置、简历推荐方法与装置、招聘平台
CN105117863A (zh) * 2015-09-28 2015-12-02 北京橙鑫数据科技有限公司 简历职位匹配方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933239A (zh) * 2015-06-09 2015-09-23 江苏大学 一种基于混合模型的个性化职位信息推荐***及实现方法
CN105045857A (zh) * 2015-07-09 2015-11-11 中国科学院计算技术研究所 一种社交网络谣言识别方法及***
CN105488662A (zh) * 2016-01-07 2016-04-13 北京歌利沃夫企业管理有限公司 一种基于双向推荐的在线招聘***
CN105608477A (zh) * 2016-03-01 2016-05-25 吕云 一种人物画像与职位匹配的方法及***

Also Published As

Publication number Publication date
CN106447285A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN106447285B (zh) 基于多维度领域关键知识的招聘信息匹配方法
EP3716165A1 (en) Esg criteria-based enterprise evaluation device and operation method thereof
CN109885768A (zh) 工单处理方法、装置及***
CN106446089B (zh) 一种多维度领域关键知识的提取和存储方法
CN106557462A (zh) 命名实体识别方法和***
CN111104466A (zh) 一种海量数据库表快速分类的方法
CN112632989B (zh) 一种合同文本中风险信息的提示方法、装置及设备
CN104361102A (zh) 一种基于群组匹配的专家推荐方法及***
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及***
CN104484380A (zh) 个性化搜索方法及装置
CN109241446B (zh) 一种职位推荐方法及***
CN107895303B (zh) 一种基于ocean模型的个性化推荐的方法
CN111680225B (zh) 基于机器学习的微信金融消息分析方法及***
CN113704599A (zh) 营销转化用户的预测方法、装置及计算机设备
CN116739541B (zh) 一种基于ai技术的智能人才匹配方法及***
CN104317837A (zh) 一种基于主题模型的跨模态检索方法
Ransing et al. Screening and Ranking Resumes using Stacked Model
CN111507528A (zh) 一种基于cnn-lstm的股票长期趋势预测方法
CN111090985A (zh) 一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
US11809980B1 (en) Automatic classification of data sensitivity through machine learning
Alsultanny Selecting a suitable method of data mining for successful forecasting
Khadilkar et al. Predictive model on employability of applicants and job hopping using machine learning
CN104462215B (zh) 一种基于时间序列的科技文献被引用数目预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant