CN106022708A

CN106022708A - 一种预测员工离职的方法

Info

Publication number: CN106022708A
Application number: CN201610300752.9A
Authority: CN
Inventors: 陈包容
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-05-09
Filing date: 2016-05-09
Publication date: 2016-10-12

Abstract

本发明提供了一种预测员工离职的方法，通过采集训练样本的与预先设定的离职属性条目对应的用户行为数据，并基于获得的用户行为数据提取训练样本的特征向量，以及基于提取的特性向量训练用于预测待预测员工是否有离职意向的离职预测模型，解决了如何预测员工离职的技术问题，实现了根据待预测员工的用户行为数据就能对其是否有离职意向进行预测，有利于企业及早知晓员工是否有离职意向，并采取相应措施减少企业离职率，从而大大节约了企业重新招聘所花费的人力或金钱成本以及保障了企业的正常运作或工作进展。

Description

一种预测员工离职的方法

技术领域

本发明涉及通信技术领域，具体涉及一种预测员工离职的方法。

背景技术

尽管员工离职现象在企业中司空见惯，但或多或少企业会由于预先不知道员工有离职意向而处于相对被动的境况。一方面，对于一些优秀的技术或管理人员，企业不能及早进行合理的安抚或挽留；另一方面，面对员工的突然离职，企业可能没法立马招聘到合适的员工或安排相应岗位的人员进行工作交接。所以亟需提供一种能预测员工离职的方法。

发明内容

本发明提供了一种预测员工离职的方法，以解决如何预测员工离职的技术问题。

根据本发明的一方面，提供了一种预测员工离职的方法，包括：

预先设定离职属性条目；

采集训练样本的与离职属性条目对应的用户行为数据，其中，训练样本包括有离职意向员工和无离职意向员工的训练样本；

基于用户行为数据，提取训练样本的特征向量；

根据特征向量训练分类器，获得离职预测模型；

根据离职预测模型，确定待预测员工是否有离职意向。

进一步地，离职属性条目包括：

历史聊天数据、工作绩效、工作任期、收入水平、最近一次升职时间间隔、上班路程、登录招聘求职网频率条目中的一种或多种组合。

进一步地，采集训练样本的与历史聊天数据条目对应的用户行为数据包括：

采集训练样本的手机短信历史记录和/或即时通讯历史记录，作为训练样本的与历史聊天数据条目对应的用户行为数据。

进一步地，基于用户行为数据，提取训练样本的特征向量包括：

采用词频逆文本算法获取与历史聊天数据条目对应的用户行为数据的特征向量；

按照预先定义的标识规则，对除历史聊天数据条目外的其他离职属性条目对应的用户行为数据进行定量标识，获得其他离职属性条目对应的用户行为数据的特征向量；

根据与历史聊天数据条目对应的用户行为数据的特征向量以及其他离职属性条目对应的用户行为数据的特征向量，获得训练样本的特征向量。

进一步地，采用词频逆文本算法获取与历史聊天数据条目对应的用户行为数据的特征向量包括：

将与历史聊天数据条目对应的用户行为数据转换成文本格式的字符串，获得历史聊天文本；

对历史聊天文本进行分词、语义消歧、去除停用词操作，获得分词文本；

采用词频逆文本算法获得分词文本中与预设的离职特征词匹配的分词文本的权重值，并将权重值作为与历史聊天数据条目对应的用户行为数据的特征向量。

进一步地，根据离职预测模型，确定待预测员工是否有离职意向包括：

采集待预测员工的与离职属性条目对应的待预测用户行为数据；

基于待预测用户行为数据，提取待预测用户行为数据的特征向量；

根据待预测用户行为数据的特征向量以及离职预测模型，确定待预测员工是否有离职意向。

进一步地，分类器包括：

支持向量机分类器、贝叶斯分类器、最大熵分类器中的任意一种。

本发明具有以下有益效果：

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的预测员工离职的方法流程图；

图2是本发明优选实施例针对第一个精简实施例预测员工离职的的方法流程图；

图3是本发明优选实施例针对第二个精简实施例预测员工离职的的方法流程图；

图4是本发明优选实施例针对第三个精简实施例预测员工离职的的方法流程图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

参照图1，本发明的优选实施例提供了一种预测员工离职的方法，包括：

步骤S101，预先设定离职属性条目；

步骤S102，采集训练样本的与离职属性条目对应的用户行为数据，其中，训练样本包括有离职意向员工和无离职意向员工的训练样本；

步骤S103，基于用户行为数据，提取训练样本的特征向量；

步骤S104，根据特征向量训练分类器，获得离职预测模型；

步骤S105，根据离职预测模型，确定待预测员工是否有离职意向。

现有人力资源预测员工是否有离职意向，通常是通过与员工进行面谈的结果并结合员工平常的工作表现，进行主观预测。采用这种主观预测员工是否有离职意向的准确度不高，并且主观预测的方法没有很好的推广适用性，也即预测员工是否有离职意向没有统一及客观的方法，从而导致针对每一个员工都需要由人力资源单独进行主观预测，工作量较大，效率较低。

针对该问题，本实施例将预测员工是否有离职意向的问题转换为模式识别中的分类问题。具体地，本实施例首先训练出用于预测待预测员工是否有离职意向的离职预测模型，离职预测模型的输出结果分为两种，分别是有离职意向和没有离职意向，然后根据训练好的离职预测模型对待预测员工是否有离职意向进行预测。在具体的实施过程中，本实施例可以选取已经离职的员工的训练样本作为有离职意向的员工的训练样本，而选取在职的员工的训练样本作为没有离职意向的员工的训练样本。需要说明的是，为了保证训练得到的离职预测模型具有相对较高的预测精度，本实施例获取的训练样本的数量应当尽可能大，且针对有离职意向和无离职意向员工的训练样本的数量应当相当。

本实施例较新颖地提出根据员工的用户行为数据建立用于预测员工是否有离职意向的离职预测模型，并采用该离职预测模型预测待预测员工是否有离职意向，相对现有采用主观预测员工是否有离职意向的方法的准确度更高，而且通过离职预测模型预测员工是否有离职意向的预测效率高，具有较大的推广适用性。

可选地，离职属性条目包括：历史聊天数据、工作绩效、工作任期、收入水平、最近一次升职时间间隔、上班路程、登录招聘求职网频率条目中的一种或多种组合。

现有影响员工离职的因素较多，例如工作绩效、工作任期、收入水平、最近一次升职时间间隔、上班路程(具体还包括距离、交通时间成本、转车次数成本、费用成本等)等等因素，故本实施例从离职因素或其他用户行为数据(例如历史聊天数据或登录招聘求职网数据)出发，分别采集针对每一种离职属性条目对应的用户行为数据，并根据采集的用户行为数据进行后续分析。当然，本实施例中的离职属性条目不限于上述这些，例如还可以包括企业发展条目、行业发展条目等等。

本实施例根据现有生活中影响员工离职的因素或其他用户行为数据(例如历史聊天数据或登录招聘求职网数据)，设置离职属性条目，从而实现了从各个维度对训练样本的用户行为数据进行采集，为提高预测模型的准确度和预测精度提供重要的数据来源基础。

可选地，采集训练样本的与历史聊天数据条目对应的用户行为数据包括：

具体地，本实施例中将训练样本的手机短信历史记录和/或即时通讯历史记录作为训练样本的与历史聊天数据条目对应的用户行为数据。在实际的实施过程中，本实施例不限于只将手机短信历史记录和/或即时通讯历史记录作为训练样本的与历史聊天数据条目对应的用户行为数据，例如还可以获取微博、论坛等平台对应的历史聊天数据作为训练样本的与历史数据条目对应的用户行为数据。

可选地，基于用户行为数据，提取训练样本的特征向量包括：

由于采集的与离职属性条目对应的用户行为数据的格式不一样，特别是与历史聊天数据条目对应的用户行为数据格式与其他离婚属性条目对应的用户行为数据格式区别较大。故本实施例针对与历史聊天数据条目对应的用户行为数据，以及除历史聊天数据条目外的其他离职属性条目对应的用户行为数据采取不同的特征向量提取方法。

具体地，提取与历史聊天数据条目对应的用户行为数据的特征向量时，本实施例采取词频逆文本算法实现。而提取与除历史聊天数据条目外的其他离职属性条目对应的用户行为数据的特征向量时，本实施例首先设置标识规则，然后对与除历史聊天数据条目外的其他离职属性条目对应的用户行为数据进行定量标识，从而最终获得其他离职属性条目对应的用户行为数据的特征向量。本实施例中的标识规则由用户自定义，例如当采集到训练样本的与工作绩效条目对应的用户行为数据为“中等”，而与工作任期条目对应的用户行为数据为“三年”，则可以根据工作绩效的等级分别设置与其对应的定量标识值，例如将工作绩效为“优秀”等级设置与其对应的定量标识值范围为“80-100”，而“良好”等级对应“60-79”，“中等”等级对应“40-59”，依次类推，从而能将获得的与工作绩效条目对应的用户行为数据进行定量标识。同样地，当采集到与训练样本的工作任期条目对应的用户行为数据为“三年”，则可以根据工作任期的时间分别设置与其对应的定量标识值，例如将工作任期为“0-5”年设置与其对应的定量标识值范围为“80-100”，将工作任期为“6-10”年设置与其对应的定量标识值范围为“60-79”，依此类推，从而能将与工作任期对应的用户行为数据进行定量标识。需要说明的是，本实施例针对用户行为数据设置的定量标识值并非固定，具体由用户根据需要自定义。

本实施例在提取不同的离职属性条目对应的用户行为数据的特征向量后，将其进行组合后获得最终的训练样本的特征向量。具体地，当获取的不同的离职属性条目对应的用户行为数据的特征向量的维数不一样时，本实施例统一将不同维数的特征向量的维数转换成与最大维数的特征向量的维数相同。例如，当根据与历史聊天数据条目对应的用户行为数据提取的特征向量的维数为10，而根据其他离职属性条目对应的用户行为数据提取的特征向量的维数均小于10时，则将根据其他离职属性条目对应的用户行为数据提取的特征向量的维数均转换成10维，具体可以采用“0”填充的方式完成。

在具体的实施过程中，本实施例也可以采取其他特征向量提取方式获取训练样本的特征性向量，或者也可以采取相同的特征向量提取方法同时提取不同的离职属性条目对应的用户行为数据的特征向量，具体由用户自定义。

本实施例通过对与不同的离职属性条目对应的用户行为数据采取不同的特征向量提取方式，能结合不同离职属性条目对应的用户行为数据的具体形式分别采取不同的特征向量提取方式，从而获得与离职属性条目对应的用户行为数据的特征向量，使获得的特征向量与离职属性条目对应的用户行为数据相匹配，以及更具有代表性。故本实施例不仅能将采集的用户行为数据进行定量标识，从而获得标准规范的用于训练分类模型的特征向量，而且通过将与除历史聊天数据条目外的其他离职属性条目对应的用户行为数据进行定量标识，充分利用各种类型和多个维度获取的用户行为数据，从而为后续训练分类器奠定规范统一的数据基础。

可选地，采用词频逆文本算法获取与历史聊天数据条目对应的用户行为数据的特征向量包括：

具体地，本实施例预先设置在聊天过程中体现有离职意向的离职特征词列表，例如“换工作”、“求职”、“招聘”、“找工作”、“离职”、“辞职”等等，然后再采用词频逆文本算法获得分词文本中与预设的离职特征词匹配的分词文本的权重值，并将权重值作为与历史聊天数据条目对应的用户行为数据的特征向量。其中，本实施例的词频-逆文本算法采用TF-IDF函数计算分词文本中与预设的离职特征词匹配的分词文本的权重值的计算公式为：

w(t_k,T_j)＝tf(t_k,T_j)×idf(t_k)，

其中w(t_k,T_j)为历史聊天文本T_j中与预设的离职特征词t_k匹配的分词文本的权重值，tf(t_k,T_j)为t_k在历史聊天文本T_j中的词频数；表示t_k在训练集中的逆文本频率，N为训练样本中历史聊天文本总数目，N_K为训练样本中的历史聊天文本包含t_k的历数目。

可选地，根据离职预测模型，确定待预测员工是否有离职意向包括：

具体地，当需要预测待预测员工是否有离职意向时，本实施例首先采集待预测员工的与离职属性条目对应的待预测用户行为数据，然后基于待预测用户行为数据，提取待预测用户行为数据的特征向量，且提取待预测用户行为数据的特征向量的方式和训练分类器前提取训练样本的特征向量的方法一致，最后将提取的待预测用户行为数据的特征向量输入离职预测模型，并根据训练好的离职预测模型的输出结果判断待预测员工是否有离职意向。

可选地，分类器包括：支持向量机分类器、贝叶斯分类器、最大熵分类器中的任意一种。

需要说明的是，本实施例预先训练的分类模型不限于包括SVM分类模型、贝叶斯分类模型、最大熵分类模型，也即本实施例也可以采用其他预先训练好的分类模型作为预测员工是否有离职意向的预测模型。

下面以三个精简的实施例对本实施例预测员工离职的方法进行更进一步具体的说明。

精简实施例一

参照图2，本实施例预测员工离职的方法包括：

步骤S201，预先设定离职属性条目。

具体地，本实施例假设设置的离职属性条目只有一个，具体为历史聊天数据条目。

步骤S202，采集训练样本的与离职属性条目对应的用户行为数据，其中，训练样本包括有离职意向员工和无离职意向员工的训练样本。

具体地，本实施例分别采集已离职员工的训练样本和在职员工的训练样本的与历史聊天数据条目对应的用户行为数据。也即采集训练样本的手机短信历史记录和/或即时通讯历史记录，作为训练样本的与历史聊天数据条目对应的用户行为数据。在具体的实施过程中，本实施例可以获取待训练样本在某一时间段内的手机短信历史记录和/或即时通讯历史记录，例如最近一个月时间内的手机短信历史记录和/或即时通讯历史记录，或最近半年内的手机短信历史记录和/或即时通讯历史记录等等，具有由用户自定义。

步骤S203，采用词频逆文本算法获取与历史聊天数据条目对应的用户行为数据的特征向量。

具体地，本实施例采用词频逆文本算法获取与历史聊天数据条目对应的用户行为数据的特征向量包括：

步骤S2031，将与历史聊天数据条目对应的用户行为数据转换成文本格式的字符串，获得历史聊天文本。具体地，由于本实施例采集的与历史聊天数据条目对应的用户行为数据可能包括多种形式，例如文本、图片、视频、音频、语音等等，故在获取到与历史聊天数目对应的用户行为数据后，先将其转换成文本格式的字符串，从而为后续提取与历史聊天数据条目对应的用户行为数据的特征向量奠定基础。

步骤S2032，对历史聊天文本进行分词、语义消歧、去除停用词操作，获得分词文本。在具体的实施过程中，本实施例对历史聊天文本进行预处理，从而获得分词文本，不限于只包括分词、语义消歧、去除停用词操作，例如还可以包括词性标注等操作。且本实施例对历史聊天文本进行分词的方法可以采用最大正向匹配法或最大逆向匹配法等多种分词方法。

步骤S2033，采用词频逆文本算法获得分词文本中与预设的离职特征词匹配的分词文本的权重值，并将权重值作为与历史聊天数据条目对应的用户行为数据的特征向量。

具体地，本实施例假设预先设置的离职特征词列表为{“换工作”、“求职”、“招聘”、“找工作”、“离职”、“辞职”}，然后再采用词频逆文本算法获得分词文本中与预设的离职特征词匹配的分词文本的权重值，并将权重值作为与历史聊天数据条目对应的用户行为数据的特征向量。也即本实施例分别统计与历史聊天文本对应的分词文本中包含离职特征词列表中的离职特征词的权重值，例如，假设本实施例统计与历史聊天文本T_j对应的分词文本中包含离职特征词(“换工作”)的权重值的计算公式为：

w(t_k,T_j)＝tf(t_k,T_j)×idf(t_k)，

其中w(t_k,T_j)为历史聊天文本T_j中与预设的离职特征词(“换工作”)t_k匹配的分词文本的权重值，tf(t_k,T_j)为t_k在历史聊天文本T_j中的词频数，也即历史聊天文本T_j中出现离职特征词“换工作”的词频数；表示t_k在训练集中的逆文本频率，N为训练样本中历史聊天文本总数目，N_K为训练样本中的历史聊天文本包含离职特征词(“换工作”)t_k的历数目。根据上述公式，不难计算出历史聊天文本中与离职特征词列表中每一个离职特征词分别对应的权重值，假设本实施例获取到历史聊天文本T_j中与离职特征词列表为{“换工作”、“求职”、“招聘”、“找工作”、“离职”、“辞职”}中的离职特征词分别对应的权重值为w(t₁,T_j)～w(t₆,T_j)，则本实施例将{w(t₁,T_j)、w(t₂,T_j)、w(t₃,T_j)、w(t₄,T_j)、w(t₅,T_j)、w(t₆,T_j)}作为训练样本T_j的与历史聊天数据条目对应的用户行为数据的特征向量。

步骤S204，根据特征向量训练分类器，获得离职预测模型。具体地，假设本实施例的训练样本总数为N，则分别将每一个训练样本的特征向量输入分类器进行训练，从而获得离职预测模型，需要说明的是，为了获得相对较高的分类准确率和预测精度，本实施例选取的训练样本的数量应当尽量大。

步骤S205，根据离职预测模型，确定待预测员工是否有离职意向。

具体地，当需要预测待预测员工是否有离职意向时，本实施例首先采集待预测员工的与离职属性条目对应的待预测用户行为数据，即采集待预测员工的与历史聊天数据条目对应的用户行为数据，也即待预测员工的手机短信历史记录和/或即时通讯历史记录；然后基于待预测用户行为数据，提取待预测用户行为数据的特征向量，且提取待预测用户行为数据的特征向量的方式和训练分类器前提取训练样本的特征向量的方法一致，最后将提取的待预测用户行为数据的特征向量输入离职预测模型，并根据训练好的离职预测模型的输出结果判断待预测员工是否有离职意向。

本实施例通过获取待预测员工的与历史聊天数据条目对应的用户行为数据，也即待预测员工的手机短信历史记录和/或即时通讯历史记录，以及通过词频逆文本算法提取与历史聊天数据条目对应的用户行为数据的特征向量，训练出用于预测员工是否有离职意向的离职预测模型，解决了如何预测员工离职的技术问题，实现了根据待预测员工的手机短信历史记录和/或即时通讯历史记录就能对其是否有离职意向进行预测，有利于企业及早知晓员工是否有离职意向，并采取相应措施减少企业离职率，从而大大节约了企业重新招聘所花费的人力或金钱成本以及保障了企业的正常运作或工作进展。

精简实施例二

参照图3，本实施例预测员工离职的方法包括：

步骤S301，预先设定离职属性条目。

具体地，本实施例假设设置的离职属性条目包括5个，分别为工作绩效条目、工作任期条目、收入水平条目、上班路程条目、登录招聘求职网频率条目。

步骤S302，采集训练样本的与离职属性条目对应的用户行为数据，其中，训练样本包括有离职意向员工和无离职意向员工的训练样本。

具体地，本实施例分别采集已离职员工的训练样本和在职员工的训练样本的与上述五个离职属性条目对应的用户行为数据。假设本实施例采集的针对上述五个离职属性条目对应的用户行为数据如表1所示：

表1

步骤S303，按照预先定义的标识规则，对除历史聊天数据条目外的其他离职属性条目对应的用户行为数据进行定量标识，获得其他离职属性条目对应的用户行为数据的特征向量。

具体地，由于本实施例中的离职属性条目不包括历史聊天数据条目，故按照预先定义的标识规则，对除历史聊天数据条目外的其他离职属性条目对应的用户行为数据进行定量标识。本实施例针对除历史聊天数据条目外的其他离职属性条目对应的用户行为数据进行定量标识的标识规则由用户自定义，本实施例为了统一定量标识范围，将针对用户行为数据进行定量标识的范围均设置在范围0-100之间，具体参照表2。

表2

根据表2，本实施例假设针对表1获取的用户行为数据进行定量标识后获得的与五个离职属性条目对应的用户行为数据的标识值分别为{50,95,65,59,70}，由于本实施例的离职属性条目不包括历史聊天数据条目，则直接将向量{50,95,65,59,70}作为训练样本的特征向量。

步骤S304，根据特征向量训练分类器，获得离职预测模型。具体地，假设本实施例的训练样本总数为N，则分别将每一个训练样本的特征向量输入分类器进行训练，从而获得离职预测模型，需要说明的是，为了获得相对较高的分类准确率和预测精度，本实施例选取的训练样本的数量应当尽量大。

步骤S305，根据离职预测模型，确定待预测员工是否有离职意向。

具体地，当需要预测待预测员工是否有离职意向时，本实施例首先采集待预测员工的与离职属性条目对应的待预测用户行为数据，即采集待预测员工的与步骤S301中设定的五个离职属性条目对应的用户行为数据；然后基于待预测用户行为数据，提取待预测用户行为数据的特征向量，且提取待预测用户行为数据的特征向量的方式和训练分类器前提取训练样本的特征向量的方法一致，最后将提取的待预测用户行为数据的特征向量输入离职预测模型，并根据训练好的离职预测模型的输出结果判断待预测员工是否有离职意向。

本实施例通过获取待预测员工的与离职属性条目对应的用户行为数据，以及通过预先定义的标识规则对除历史聊天数据条目外的其他离职属性条目对应的用户行为数据进行定量标识，从而获得其他离职属性条目对应的用户行为数据的特征向量，并基于获得的用户行为数据的特征向量训练出用于预测员工是否有离职意向的离职预测模型，解决了如何预测员工离职的技术问题，实现了根据待预测员工的用户行为数据就能对其是否有离职意向进行预测，有利于企业及早知晓员工是否有离职意向，并采取相应措施减少企业离职率，从而大大节约了企业重新招聘所花费的人力或金钱成本以及保障了企业的正常运作或工作进展。此外，本实施例将采集的用户行为数据进行定量标识，从而可以获得标准规范的用于训练分类模型的特征向量，而且通过设置多个离职属性条目，能从多个维度对用户行为数据进行数据采集，有助于提高分类模型的准确度和离职预测模型的预测精度。

精简实施例三

参照图4，本实施例预测员工离职的方法包括：

步骤S401，预先设定离职属性条目。

具体地，本实施例假设设置的离职属性条目包括6个，分别为历史聊天数据条目、工作绩效条目、工作任期条目、收入水平条目、上班路程条目、登录招聘求职网频率条目。

步骤S402，采集训练样本的与离职属性条目对应的用户行为数据，其中，训练样本包括有离职意向员工和无离职意向员工的训练样本。

具体地，本实施例通过采集训练样本的手机短信历史记录和/或即时通讯历史记录，获得训练样本的与历史聊天数据条目对应的用户行为数据。且假设本实施例采集的除历史聊天数据条目外的另外5个离职属性条目对应的用户行为数据具体如表1所示。

步骤S403，采用词频逆文本算法获取与历史聊天数据条目对应的用户行为数据的特征向量。具体地，假设本实施例预先设置的离职特征词列表为{“换工作”、“求职”、“招聘”、“找工作”、“离职”、“辞职”}，且参照精简实施例一中获取的与历史聊天数据条目对应的用户行为数据(历史聊天文本T_j)的特征向量为W＝{w(t₁,T_j)、w(t₂,T_j)、w(t₃,T_j)、w(t₄,T_j)、w(t₅,T_j)、w(t₆,T_j)}。

步骤S404，按照预先定义的标识规则，对除历史聊天数据条目外的其他离职属性条目对应的用户行为数据进行定量标识，获得其他离职属性条目对应的用户行为数据的特征向量。具体地，参照精简实施例二中获取除历史聊天数据条目外的其他离职属性条目对应的用户行为数据的特征向量的方法，假设本实施例获取到与另外五个离职属性条目(工作绩效条目、工作任期条目、收入水平条目、上班路程条目、登录招聘求职网频率条目)对应的用户行为数据的标识值分别为{50,95,65,59,70}。

步骤S405，根据与历史聊天数据条目对应的用户行为数据的特征向量以及其他离职属性条目对应的用户行为数据的特征向量，获得训练样本的特征向量。

根据步骤S403可知，本实施例针对历史聊天数据条目获得的用户行为数据的特征向量为W＝{w(t₁,T_j)、w(t₂,T_j)、w(t₃,T_j)、w(t₄,T_j)、w(t₅,T_j)、w(t₆,T_j)}，而针对工作绩效条目、工作任期条目、收入水平条目、上班路程条目、登录招聘求职网频率条目获得的用户行为数据的特征向量分别为{50}、{95}、{65}、{59}、{70}。因此本实施例采用“0”填充的方法将针对工作绩效条目、工作任期条目、收入水平条目、上班路程条目、登录招聘求职网频率条目获得的用户行为数据的特征向量的维数分别扩充到针对历史聊天数据条目获得的用户行为数据的特征向量的维数，也即将低于六维的特征向量，均采用“0”填充的方法将其扩充到六维，从而最终可获得训练样本的特征向量为6*6维。

步骤S406，根据特征向量训练分类器，获得离职预测模型。具体地，假设本实施例的训练样本总数为N，则分别将每一个训练样本的特征向量输入分类器进行训练，从而获得离职预测模型，需要说明的是，为了获得相对较高的分类准确率和预测精度，本实施例选取的训练样本的数量应当尽量大。

步骤S407，根据离职预测模型，确定待预测员工是否有离职意向。

本实施例的预测员工离职的方法，通过采集训练样本的与预先设定的离职属性条目对应的用户行为数据，并基于获得的用户行为数据提取训练样本的特征向量，以及基于提取的特性向量训练用于预测待预测员工是否有离职意向的离职预测模型，解决了如何预测员工离职的技术问题，实现了根据待预测员工的用户行为数据就能对其是否有离职意向进行预测，有利于企业及早知晓员工是否有离职意向，并采取相应措施减少企业离职率，从而大大节约了企业重新招聘所花费的人力或金钱成本以及保障了企业的正常运作或工作进展。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种预测员工离职的方法，其特征在于，包括：

预先设定离职属性条目；

采集训练样本的与所述离职属性条目对应的用户行为数据，其中，所述训练样本包括有离职意向员工和无离职意向员工的训练样本;

基于所述用户行为数据，提取所述训练样本的特征向量；

根据所述特征向量训练分类器，获得离职预测模型；

根据所述离职预测模型，确定待预测员工是否有离职意向。

2.根据权利要求1所述的预测员工离职的方法，其特征在于，所述离职属性条目包括：

3.根据权利要求2所述的预测员工离职的方法，其特征在于，采集训练样本的与所述历史聊天数据条目对应的用户行为数据包括：

采集训练样本的手机短信历史记录和/或即时通讯历史记录，作为训练样本的与所述历史聊天数据条目对应的用户行为数据。

4.根据权利要求3所述的预测员工离职的方法，其特征在于，基于所述用户行为数据，提取所述训练样本的特征向量包括：

采用词频逆文本算法获取与所述历史聊天数据条目对应的用户行为数据的特征向量；

按照预先定义的标识规则，对除所述历史聊天数据条目外的其他离职属性条目对应的用户行为数据进行定量标识，获得其他离职属性条目对应的用户行为数据的特征向量；

根据与所述历史聊天数据条目对应的用户行为数据的特征向量以及其他离职属性条目对应的用户行为数据的特征向量，获得所述训练样本的特征向量。

5.根据权利要求4所述的预测员工离职的方法，其特征在于，采用词频逆文本算法获取与所述历史聊天数据条目对应的用户行为数据的特征向量包括：

将与所述历史聊天数据条目对应的用户行为数据转换成文本格式的字符串，获得历史聊天文本；

对所述历史聊天文本进行分词、语义消歧、去除停用词操作，获得分词文本；

采用词频逆文本算法获得所述分词文本中与预设的离职特征词匹配的分词文本的权重值，并将所述权重值作为与所述历史聊天数据条目对应的用户行为数据的特征向量。

6.根据权利要求5所述的预测员工离职的方法，其特征在于，根据所述离职预测模型，确定待预测员工是否有离职意向包括：

采集待预测员工的与所述离职属性条目对应的待预测用户行为数据;

基于所述待预测用户行为数据，提取所述待预测用户行为数据的特征向量；

根据所述待预测用户行为数据的特征向量以及所述离职预测模型，确定所述待预测员工是否有离职意向。

7.根据权利要求6所述的预测员工离职的方法，其特征在于，所述分类器包括：