CN107665383A

CN107665383A - 一种简历处理延时模型的构建方法和计算设备

Info

Publication number: CN107665383A
Application number: CN201711017300.0A
Authority: CN
Inventors: 王小丽
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2017-10-26
Filing date: 2017-10-26
Publication date: 2018-02-06

Abstract

本发明公开了一种简历处理延时模型的构建方法，适于在计算设备中执行，计算设备与数据存储装置连接，数据存储装置中存储有多个职位信息、各职位的简历投递者信息和HR对各职位的简历处理记录，该方法包括：获取预定期间的多个职位信息、各职位的简历投递者信息以及HR对各职位的简历处理记录；将HR对某职位的某个简历的处理视为完成一个订单，根据从数据存储装置中获取到的内容分别计算各订单的多个处理特征值，并统计HR对各订单的实际处理延时值；以及以各订单的多个处理特征值为输入、以其实际处理延时值为输出，采用预定算法对该输入和输出进行训练，得到简历处理延时模型。本发明还公开了对应的计算设备。

Description

一种简历处理延时模型的构建方法和计算设备

技术领域

本发明涉及互联网技术领域，尤其涉及一种简历处理延时模型的构建方法和计算设备。

背景技术

随着互联网技术的发展，网络应聘/招聘已经成了求职者应聘工作、用人单位招聘员工的主要途径。用人单位和求职者在第三方的人才招聘网站上注册账号，相互之间进行搜索和交流，以寻求最满意的对象。而在求职者进行职位搜索时，如果能将处理简历比较及时的职位排在比较靠前的位置，使其获得更多的展现，则可有效提高求职效率，进而提高求职双方的满意度。因此需要有一种模型能准确地预测出HR收到新的简历后大约多长时间可以处理，而目前业界针对hr的处理简历的能力预估还没太多技术介绍。

发明内容

为此，本发明提供一种简历处理延时模型的构建方法和计算设备，以力图解决或至少缓解上面存在的问题。

根据本发明的一个方面，提供了一种简历处理延时模型的构建方法，适于在计算设备中执行，计算设备与数据存储装置连接，数据存储装置中存储有多个职位信息、各职位的简历投递者信息以及HR对各职位的简历处理记录，该方法包括：从数据存储装置中获取预定期间的多个职位信息、各职位的简历投递者信息以及HR对各职位的简历处理记录；将HR对某职位的某个简历的处理视为完成一个订单，根据从数据存储装置中获取到的内容分别计算各订单的多个处理特征值，并统计HR对各订单的实际处理延时值；以及以各订单的多个处理特征值为输入、以其实际处理延时值为输出，采用预定算法对该输入和输出进行训练，得到简历处理延时模型。

可选地，在根据本发明的简历处理延时模型的构建方法中，职位信息包括职位标识、职位发布时间、职位最近刷新时间、职位薪资、职位城市和职位所属行业的至少一种。

可选地，在根据本发明的简历处理延时模型的构建方法中，简历投递者信息包括投递者的期望职位、期望薪资、期望城市和期望行业的至少一种。

可选地，在根据本发明的简历处理延时模型的构建方法中，HR对各职位的简历处理记录包括多种简历处理操作及其操作时间，简历处理操作包括过滤简历、接收简历、阅读简历、查看联系方式、***拒绝简历、人工拒绝简历和通知面试中的至少一种。

可选地，在根据本发明的简历处理延时模型的构建方法中，HR对某职位的简历处理记录包括HR操作记录和职位操作记录，在这两种操作记录中均将HR对该职位的所有简历的简历处理操作按照操作时间的先后顺序依次罗列。

可选地，在根据本发明的简历处理延时模型的构建方法中，某订单的多个处理特征值包括以下特征值中的一种或多种：简历投递当天是周几、简历投递日期、投递时刻和职位发布时间的间隔天数、投递时刻和职位最后刷新时刻的间隔天数、投递时刻和HR最后登录时刻的间隔天数、HR实时登陆频次、HR在预定时段的登陆频次、HR在预定时段的简历处理率、HR在预定时段的简历处理行为延时、截止到某预定时刻该HR的待阅读简历份数、截止到某预定时刻该HR有多少份待查看联系方式的简历、截止到某预定时刻该HR的待处理简历份数、职位近N天的投递次数、职位近N天的***自动拒绝率、职位近N天的简历处理率、职位所在城市和投递用户期望城市的匹配度、职位和投递用户期望职位的匹配度、职位所在行业和投递用户期望行业的匹配度、职位薪资和投递用户期望薪资的匹配度、职位近N天所收简历的平均处理延时率、职位近N天所收简历的平均阅读延时、截止到某预定时刻该职位的待阅读简历份数、截止到某预定时刻该职位有多少份待查看联系方式的简历、截止到某预定时刻该职位的待处理简历份数。

可选地，在根据本发明的简历处理延时模型的构建方法中，预定期间为最近60天内，预定时刻为前一天的18点，预定时段包括前1天、前3天和前七天中的至少一种。

可选地，在根据本发明的简历处理延时模型的构建方法中，HR在预定时段的简历处理行为延时和职位近N天所收简历的平均阅读延时采用时间衰减因子进行校正，所述时间衰减因子＝base^{interval_days}，其中，base为基数，interval_days为简历投递时间和处理时间的间隔天数。

可选地，在根据本发明的简历处理延时模型的构建方法中，base＝0.98，所述简历投递时间和处理时间的间隔天数包括加班日、不包括双休日和法定节假日。

可选地，在根据本发明的简历处理延时模型的构建方法中，处理率＝(人工拒绝简历总数+已阅读简历总数)/投递总数；平均处理延时率＝(人工拒绝延时总和+阅读简历延时总和)/(人工拒绝简历次数+已阅读简历次数)。

可选地，在根据本发明的简历处理延时模型的构建方法中，以各订单的多个处理特征值为输入、以其实际处理延时值为输出，采用预定算法对该输入和输出进行训练，得到简历处理延时模型的步骤包括：将各订单的多个处理特征值及其实际处理延时值构造为样本集，并按照预定比例将该样本集划分为训练集和测试集；以及以训练集中各订单的多个处理特征值为输入、以其实际处理延时值为输出，采用预定算法对该输入和输出进行训练，得到简历处理延时模型。

可选地，在根据本发明的简历处理延时模型的构建方法中，还包括步骤：将测试集中各订单的多个处理特征值输入到简历处理延时模型中，得到测试集中各订单的预测处理延时值；以及将各预测处理延时值与其实际处理延时值作比较，以评估简历处理延时模型的准确度。

可选地，在根据本发明的简历处理延时模型的构建方法中，简历处理延时模型的准确度适于根据测试集中各订单的预测处理延时值与实际处理延时值之间的皮尔森相关系数、平均方差和召回率来评估。

可选地，在根据本发明的简历处理延时模型的构建方法中，预定算法为随机森林回归算法。

根据本发明的另一方面，提供了一种计算设备，包括：一个或多个处理器；存储器；和一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行如上所述的用简历处理延时模型的构建方法的指令。

根据本发明的再一方面，提供了一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行如上所述的简历处理延时模型的构建方法。

根据本发明的技术方案，计算设备从数据库中获取HR近期发布的多个职位信息、各职位所接收到的简历信息、简历投递者信息以及HR对各职位的简历处理记录。之后，根据所获取到的信息计算每个职位的每个简历的多个特征值，以及HR对每个简历是实际处理延时值，并将前者作为输入、后者作为输出，对该输入和输出进行训练得到简历处理延时模型。

简历处理延时模型的特征工程主要和职位属性、HR行为相关，其中简历处理延时特征对节假日进行了特殊处理(在计算延时时去除节假日的影响)，并添加了时间衰减因子等，更全面合理地构建特征工程。然后选择主流的随机森林回归算法通过调参获得最优模型，并通过测试集获取预测延时，通过对比测试集中各订单处理延时的预测值和实际值来评估模型的鲁棒性。采用本方案所构建的模型能够快速评估HR处理简历的进度，提高简历处理***的整体效率，而且模型采用多项特征值进行训练，提高了模型预测的准确度。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的计算设备100的示意图；

图2示出了根据本发明一个实施例的简历处理延时模型的构建方法200的流程图；以及

图3中示出了根据本发明一个实施例的五种回归模型的效果对比图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括***存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和***存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，***存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。***存储器106可以包括操作***120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作***上利用程序数据124进行操作。程序数据124包括指令，在根据本发明的计算设备100中，程序数据124包含用于执行简历处理延时模型的构建方法200的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中，计算设备100被配置为执行根据本发明的简历处理延时模型的构建方法200。

此外，计算设备100还可以与数据存储装置连接，该数据存储装置中存储有HR所发布的多个职位信息、各职位所接收到的简历信息、简历投递者信息以及HR对各职位的简历处理记录。其中，该数据存储装置可以是数据库，多个职位信息可以以职位详情列表的方式存储。

图2示出了根据本发明一个实施例的简历处理延时模型的构建方法200的流程图。如图2所述，该方法始于步骤S220。

在步骤S220中，从数据存储装置中获取预定期间的多个职位信息、各职位的简历投递者信息以及HR对各职位的简历处理记录。其中，预定期间可以是最近60天，当然也可以设定其他数值期间，本发明对此不作限制。

具体地，职位信息可以包括职位标识(pid)、职位发布时间(generateTime)、职位最近刷新时间(refreshTime)、职位薪资(salary)、职位城市(city)、职位行业(industry)中的一种或多种。这些职位信息可以以下数据格式存储：

pid1 generateTime，refreshTime，salary，city，industry

pid2 generateTime，refreshTime，salary，city，industry

……

简历投递者(user)信息可以包括投递者的期望职位(expectJob)、期望薪资(expectSalary)、期望城市(expectCity)、期望行业(expectIndustry)中的一种或多种。这些简历投递者信息可以以下数据格式存储：

user1 expectJob，expectSalary，expectCity，expectIndustry

user2 expectJob，expectSalary，expectCity，expectIndustry

……

HR对各职位的简历处理记录可以包括多种简历处理操作及其操作时间，其中，简历处理操作(op)包括过滤简历、接收简历、阅读简历、查看联系方式、***拒绝简历、人工拒绝简历和通知面试中的至少一种。也就是，简历处理记录中包含了对不同简历的过滤简历操作和过滤时间、接收简历操作和接收时间，等等。这里，处理简历是指HR收到简历后的第一次操作简历：，如第一次阅读、人工拒绝简历，而后续的重复操作(如再次阅读)不计入简历操作。阅读简历是指HR点开简历以阅读简历详细内容，此时求职者的联系方式对HR是隐藏的，本发明中所提到的阅读简历均指第一次查看并阅读简历。看联系方式是当HR觉得该简历需要进一步沟通时，点击“查看联系按钮”，查看求职者的电话和邮箱。***拒绝简历是指HR长时间没有处理该简历时，***会在预定天数(如7天)后自动拒绝该简历。人工拒绝简历是指HR觉得求职者不合适目标职位从而拒绝该简历。

进一步地，HR(每个HR均有HR标识，即hrid)对某职位的简历处理记录包括HR操作记录和职位操作记录，在这两种操作记录中均将HR对该职位的所有简历的简历处理操作按照操作时间的先后顺序依次罗列。也就是，分别统计每个hrid下的所有简历的简历处理操作及操作时间，并将所有处理操作按照操作时间的先后顺序罗列。另外，再分别统计每个pid下的所有简历的简历处理操作及操作时间，并将所有处理操作按照操作时间的先后顺序罗列。这里，若将HR对某职位的某个简历的处理视为完成一个订单，则一个订单id(orderid)可以采取userid+hrid+pid的复合形式，并通过MapReduce按照hrid/pid分组汇总对应的行为操作，并按照时间操作顺序统计如下：

hrid1 op1：time1，op2：time2,op3：time3…

hrid2 op1：time1，op2：time2,op3：time3…

…

pid1 op1：time1，op2：time2,op3：time3…

pid2 op1：time1，op2：time2,op3：time3…

…

应当理解，一个HR可以发布并处理多个职位，即hrid:position＝1:n；而一个职位用户一般只能投递一次，也就是userid:pid＝1:1；这样ordereid可以间接关联userid和pid，以及pid和hrid。另外，在进行数据获取时，可以从数据存储装置中获取职位详情列表中的一部分近期职位信息，这些职位所接收到的简历的投递者信息以及HR对这些职位的简历处理记录，并将这些数据来进行后续模型训练。当然，也可以完整获取所有近期职位的职位信息，所有近期有过投递行为的简历投递信息，以及HR对近期所有职位的简历处理记录，并用这所有数据来进行模型训练。第一种方法数据较少，第二种方法可提高模型准确度，实际应用中可以根据需要进行选择。实际上，考虑到其他职位数据在后续的模型实际预测时也会用到，因此在步骤S220可以采取第二种方法，即获取所有职位信息和简历投递者信息等。

随后，在步骤S240中，将HR对某职位的某个简历的处理视为完成一个订单，根据从数据存储装置中获取到的内容分别计算各订单的多个处理特征值，并统计HR对各订单的实际处理延时值。这里，多个处理特征值可以根据步骤S220中所获取的数据，通过python脚本统计得到；HR对各订单的实际处理延时值是指从简历成功投递到该简历首次被HR处理之间的时间差(如这两者之间的分钟数)，其中，首次处理即把那些二次查看或转发查看的排除掉，而差值可以根据步骤S220中所获取到的数据统计得到。

根据本发明的一个实施例，对于某个订单(HR处理某职位的某个简历)，其多个处理特征值可以是下表特征值中的一种或多种，表中所指的简历、职位和HR均指该订单所对应的简历、职位和HR。需要说明的是，下表中虽然列出了22个特征，但这些特征只是一些示例性说明，实际应用中还可以加入其他特征，如日简历处理率、过去N天简历平均处理延时、日简历处理延时，等等。通常可扩展为44个特征。将以上这些特征进行综合分析后可以选取其中几种最重要的特征进行模型训练，或者选取所有特征进行模型训练，本发明对此不作限制。

具体地，HR实时登录频次例如可以是HR最近一天或几个小时的实时登录频次，每登录一次则登录频次加1。当然这只是示例性说明，本发明对此不作此不作限制。间隔天数的计算可以按照各操作的准确时刻来计算间隔准确天数，也可以采取模糊计算进行四舍五入取整，本发明对此不作限制。预定时段的登录频次可以是前1天的登录频次、前3天的登录频次，或前7天的登录频次，当然也可以根据需要设置其他时段，本发明对此不作限制。预定时段的简历处理率和简历处理行为延时也可按照该方法计算。截止到某预定时刻可以截止到前一天的18点，当然也可以根据需要设置为其他时刻，本发明对此不作限制。近N天可以根据需要设置为相关数值，如近7天、近60天等等，本发明对此不作限制。

根据一个实施例，处理率＝(人工拒绝简历总数+已阅读简历总数)/投递总数；平均处理延时率＝(人工拒绝延时总和+阅读简历延时总和)/(人工拒绝简历次数+已阅读简历次数)。另外，***自动拒绝率＝***自动拒绝次数/投递总数；日简历处理率＝当天处理的简历总数/(截止当日0点尚未处理的简历总数+当日新接收到的简历总数)；日简历处理延时＝当日首次处理的简历延时总和/当日首次处理处理的简历份数。关于匹配度的计算，本领域技术人员可以根据需要自行设置相关匹配算法进行计算，本发明对此不作限制。当计算HR近N日的简历处理延时平均值时，如果有1天HR没有待处理的简历，那就自然无法计算其当日的简历处理延时，此时平均值就等于N-1天的处理延时之和除以N-1天；而计算N日简历处理率的平均值时也采用此种方法。应当理解，上述这些特征值都是针对一个订单的一个职位而言，相应地，人工拒绝简历总数、已阅读简历总数、投递总数、人工拒绝延时总和、阅读简历延时总和、人工拒绝简历次数、已阅读简历次数项等都是针对该职位所收到的简历而言的。

此外，在对与延时相关的特征统计(如HR在预定时段的简历处理行为延时、职位近N天所收简历的平均阅读延时、日简历处理延时等)中，会增加时间衰减因子进行校正，如将统计得到的延时值乘以时间衰减因子。这里，主要是考虑节假日期间几乎没有hr会对简历处理，对应统计指标会大幅度变化，不利于模型训练，而引入时间衰减因子则可增强HR最近的操作行为的影响。根据一个实施例，时间衰减因子weight＝base^{interval_days}，其中，base为基数，interval_days为简历投递时间和处理时间的间隔天数。进一步地，在计算间隔天数时需去除双休日和法定节假日，并添加加班日，即按照HR的真实工作时间来计算，这样才更接近实际处理周期。其中，加班日可以包括国家规定的调休日，而对于HR自主加班的加班日，则可以根据需要将该加班日计入计算，本发明对此不作限制。基数可以设置为0.98，当然也可以为其他数值，本发明对此不作限制。这样，加入了节假日和时间衰减后的简历处理延时＝真实的简历处理延时*时间衰减因子，其中真实的简历处理延时就是按照实际时间统计出的延时，即未考虑休息日和加班日的延时。

随后，在步骤S260中，以各订单的多个处理特征值为输入、以其实际处理延时值为输出，采用预定算法对该输入和输出进行训练，得到所述简历处理延时模型。

具体地，可以将各订单的输入和输出构建为如下语料格式，通常可按天统计近一周的简历处理延时特征数据，其中，orderid1_deal_delay代表订单1的实际处理延时值，f_i对应上表中的第i个特征：

orderid1_deal_delay1f₁，f₂,……f₄₄

orderid2_deal_delay2f₁，f₂,……f₄₄

根据本发明的一个实施例，还可将各订单的多个处理特征值和实际处理延时值构造为特征向量，如存储为libsvm格式向量，也就是每一个样本都由实际处理延时值和对应的多个处理特征值组成。之后，对该特征向量进行训练即可得到上述简历处理延时模型。

另外，在进行模型训练时，还可以将各订单的多个处理特征值及其实际处理延时值构造为样本集，并按照预定比例(如按照7:3的比例)将该样本集划分为训练集和测试集；以及以训练集中各订单的多个处理特征值为输入、以其实际处理延时值为输出，采用预定算法对该输入和输出进行训练，得到简历处理延时模型。

预定算法可以是现有的任意回归算法，如AdaBoost、ExtraTrees、GBDT、RF、XGBoostRegression等，本发明对于这5种算法的训练操作过程一致，具体选择需要结合业务场景数据而定，各算法所需要的参数等可以由本领域技术人员自行设置，本发明对此不做限制。根据一个实施例，预定算法可以采取随机森林回归算法，以下以该算法为例介绍模型训练过程：输入训练集、从训练集M中有放回地重复随机抽取m个样本生成新的训练样本集合训练决策树，然后按以下随机森林步骤生成m棵决策树组成随机森林，新数据的分类结果按分类树投票多少形成的分数而定。其实质是对决策树算法的一种改进，将多个决策树合并在一起，每棵树的建立依赖于独立抽取的样本。单棵树的分类能力可能很小，但在随机产生大量的决策树后，一个训练样本可以通过每一棵树的分类结果经统计后选择最可能的分类。随机森林大致过程如下：从样本集中有放回随机采样选出m个样本；从所有特征中随机选择k个特征，对选出的样本利用这些特征建立决策树；重复前面两个步骤p次，即生成p棵决策树，形成随机森林；对于新数据，经过每棵树决策后投票确认分到哪一类。

根据本发明的一个实施例，还可以采用测试集对训练后的模型进行评估，即将测试集中各订单的多个处理特征值输入到简历处理延时模型中，模型会自动回归拟合，得到测试集中各订单的预测处理延时，并将各预测处理延时值与其实际处理延时值作比较，以评估简历处理延时模型的准确度。其中，可以通过计算测试集中各订单的预测处理延时值与实际处理延时值之间的皮尔森pearson相关系数、平均方差或召回率中的一种或多种来评估简历处理延时模型的准确度。

模型在测试集上的输出结果即订单处理延时预估列表Y，其中包括各测试集中各订单的预测处理延时值。通过比较订单处理延时预估列表Y与真实统计的订单延时处理列表X之间的皮尔森相关系数ρ_X,Y、平均方差cov(X,Y)和召回率，可以评估模型的鲁棒性。其中，这三种参数的计算方法可以采用现有公式进行计算，本发明对此不作限制。通常，皮尔森相关系数越接近1，平均方差接近0，准确预测召回率接近1，对应的算法训练出的模型更鲁棒。因此，通过对比训练到的模型在测试集上的表现，可以选择合适的算法。

例如，图3中示出了根据本发明一个实施例的五种回归模型的效果对比图，包括AdaBoost、ExtraTrees、GBDT、RF、XGBoostRegression模型，其采用直方图的直观了这五种模型的在测试集上的表现。通过综合对比，本发明选择选择随机森林算法RF做回归。模型在测试集上的评估指标除了能帮助选择最优的算法模型，还能帮助选出该最优算法模型的最优参数组合，即选取哪些特征参数项训练出的模型最优。具体地，通过对多组特征参数采用随机自由组合的方式轮回训练模型，最终根据模型在测试集合上的评估指标来挑选对应的最优参数组合。

此外，在评估模型在测试集上的表现时，还可以将预测出的各延时值进行归一化处理，方便对数据进行直观分析。一般地，可根据预测出的延时数据列表Y，计算Y列表中各预测延时值的均值Y₀和标准差σ_Y，然后将每一个预测延时值Yi带入到归一化函数中。对于计算得到的score值，如果socre<0，则认为score＝0，从而把延时数据映射为0-1之间的数值。根据一个实施例，归一化函数可以为score＝1.0-1.0*((Yi-Y₀)/σ_Y+3)/6，当然也可以选取其他公式，本发明对此不作限制。

简历处理延时模型构建好之后，即可利用该模型预测HR对其他简历的处理延时。每一份简历都有对应的投递者、投递职位和简历处理者，这样就可得到该简历对应订单的多个特征值，将该多个特征值输入到简历处理延时模型中，即可得到HR对该简历的预测处理延时。另外，在进行模型应用时，通常每接收到一份简历，即可预测该简历的预测处理延时值，也就是对简历的一种实时处理，这就需要计算设备能够实时获取新简历的简历特征。而上文中采用Mapreduce统计HR对投递简历的操作数据是一种离线处理日志信息方案，但若要进行实时处理，通常会有较大延迟。因此，本发明中可以不断接收kafka消息来获取这些简历特征，现有的kafka消息(队列)***能够很好的处理实时或者近似实时的应用，能够很好地在线应用。通过读取kafka消息，可以实时获取订单的最新操作数据，实现特征实时更新，减少延迟，提高模型的准确度。

在实际项目应用中，可以在每天的固定时刻定时读取当日之前的2个月所有相关数据，第一次为全量读取，随后为增量读取。从所选取的所有相关数据中选取出部分样本，构建语料后进行模型训练。训练好的模型即可用于当天的简历处理延时预测，即当天每收到一份简历即可用该模型预测该简历的预测处理延时值。这些预测值从另一方面能够反映某HR的整体简历处理效率。当天训练的模型只用于当天预测，之后每天都会重新进行模型训练。这样就可大致得到HR对各职位的简历处理效率，用户在进行职位搜索时，对于多个同类职位，可将简历处理比较快的职位排在靠前位置；或者，采用本发明训练好的模型对各HR的简历处理效率进行评估，然后将处理效率较快的HR发布的职位排在靠前位置，从而可有效提高求职招聘效率，继而提高求职者的满意度。

根据本发明的技术方案，从历史数据中构建特征集，进而确定最优RF模型，并通过输入测试集对模型进行预测和评估。本发明能够快速评估HR处理简历的进度，提高简历处理***的整体效率。而且，简历处理延时模型还对节假日进行了特殊处理，并添加了时间衰减因子等，从而能够更全面合理地构建特征工程，以提高模型预测的准确度。

A9、如A8所述的方法，其中，base＝0.98，所述简历投递时间和处理时间的间隔天数包括加班日、不包括双休日和法定节假日。

A10、如A6所述的方法，其中，处理率＝(人工拒绝简历总数+已阅读简历总数)/投递总数；平均处理延时率＝(人工拒绝延时总和+阅读简历延时总和)/(人工拒绝简历次数+已阅读简历次数)。

A11、如A1所述的方法，其中，所述以各订单的多个处理特征值为输入、以其实际处理延时值为输出，采用预定算法对该输入和输出进行训练，得到所述简历处理延时模型的步骤包括：将各订单的多个处理特征值及其实际处理延时值构造为样本集，并按照预定比例将该样本集划分为训练集和测试集；以及以训练集中各订单的多个处理特征值为输入、以其实际处理延时值为输出，采用预定算法对该输入和输出进行训练，得到简历处理延时模型。

A12、如A11所述的方法，其中，还包括步骤：将测试集中各订单的多个处理特征值输入到所述简历处理延时模型中，得到测试集中各订单的预测处理延时值；以及将各预测处理延时值与其实际处理延时值作比较，以评估所述简历处理延时模型的准确度。

A13、如A12所述的方法，其中，所述简历处理延时模型的准确度适于根据测试集中各订单的预测处理延时值与实际处理延时值之间的皮尔森相关系数、平均方差和召回率来评估。

A14、如A1所述的方法，所述预定算法为随机森林回归算法。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的简历处理延时模型的构建方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与本发明的示例一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种简历处理延时模型的构建方法，适于在计算设备中执行，所述计算设备与数据存储装置连接，所述数据存储装置中存储有多个职位信息、各职位的简历投递者信息以及HR对各职位的简历处理记录，该方法包括：

从所述数据存储装置中获取预定期间的多个职位信息、各职位的简历投递者信息以及HR对各职位的简历处理记录集；

将HR对某职位的某个简历的处理视为完成一个订单，根据从数据存储装置中获取到的内容分别计算各订单的多个处理特征值，并统计HR对各订单的实际处理延时值；以及

以各订单的多个处理特征值为输入、以其实际处理延时值为输出，采用预定算法对该输入和输出进行训练，得到所述简历处理延时模型。

2.如权利要求1所述的方法，其中，所述职位信息包括职位标识、职位发布时间、职位最近刷新时间、职位薪资、职位城市和职位所属行业的至少一种。

3.如权利要求1所述的方法，其中，所述简历投递者信息包括投递者的期望职位、期望薪资、期望城市和期望行业的至少一种。

4.如权利要求1所述的方法，其中，所述HR对各职位的简历处理记录包括多种简历处理操作及其操作时间，所述简历处理操作包括过滤简历、接收简历、阅读简历、查看联系方式、***拒绝简历、人工拒绝简历和通知面试中的至少一种。

5.如权利要求4所述的方法，其中，HR对某职位的简历处理记录包括HR操作记录和职位操作记录，在这两种操作记录中均将HR对该职位的所有简历的简历处理操作按照操作时间的先后顺序依次罗列。

6.如权利要求1所述的方法，其中，某订单的多个处理特征值包括以下特征值中的一种或多种：

简历投递当天是周几、简历投递日期、投递时刻和职位发布时刻的间隔天数、投递时刻和职位最后刷新时刻的间隔天数、投递时刻和HR最后登录时刻的间隔天数、HR实时登陆频次、HR在预定时段的登陆频次、HR在预定时段的简历处理率、HR在预定时段的简历处理行为延时、截止到某预定时刻该HR的待阅读简历份数、截止到某预定时刻该HR有多少份待查看联系方式的简历、截止到某预定时刻该HR的待处理简历份数、职位近N天的投递次数、职位近N天的***自动拒绝率、职位近N天的简历处理率、职位所在城市和投递用户期望城市的匹配度、职位和投递用户期望职位的匹配度、职位所在行业和投递用户期望行业的匹配度、职位薪资和投递用户期望薪资的匹配度、职位近N天所收简历的平均处理延时率、职位近N天所收简历的平均阅读延时、截止到某预定时刻职位的待阅读简历份数、截止到某预定时刻职位有多少份待查看联系方式的简历、截止到某预定时刻该职位的待处理简历份数。

7.如权利要求6所述的方法，其中，所述预定期间为最近60天内，所述预定时刻为前一天的18点，所述预定时段包括前1天、前3天和前7天中的至少一种。

8.如权利要求6所述的方法，其中，所述HR在预定时段的简历处理行为延时和职位近N天所收简历的平均阅读延时采用时间衰减因子进行校正，所述时间衰减因子＝base^interval ^_days，其中，base为基数，interval_days为简历投递时间和处理时间的间隔天数。

9.一种计算设备，包括：

至少一个处理器；和

存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1-8中任一项所述的方法的指令。

10.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-8中任一项所述的方法。