CN112183092B

CN112183092B - 简历查重方法、装置、设备及介质

Info

Publication number: CN112183092B
Application number: CN202011191596.XA
Authority: CN
Inventors: 黎奉薪; 曾蓉; 罗晓生; 钱勇
Original assignee: Shenzhen Pingan Zhihui Enterprise Information Management Co ltd
Current assignee: Shenzhen Pingan Zhihui Enterprise Information Management Co ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2023-08-15
Anticipated expiration: 2040-10-30
Also published as: CN112183092A

Abstract

本申请涉及人工智能技术领域，揭示了一种简历查重方法、装置、设备及介质，其中方法包括：获取待查重简历；根据待查重简历进行分词及对分词结果进行哈希签名矩阵计算，得到待查重哈希签名矩阵；根据待查重哈希签名矩阵从简历库中按信息分类进行相似简历查询，得到候选简历集合；将待查重简历与候选简历集合中的每一个简历分别构建简历对特征向量，得到多个待预测简历对特征向量；分别将待预测简历对特征向量输入分类预测模型进行相似概率预测，得到多个待预测简历对特征向量的概率预测值；根据多个待预测简历对特征向量的概率预测值，确定目标重复简历对。从而提高了查重效率，不需要人工设定相似规则，保证了确定目标重复简历对的准确性。

Description

简历查重方法、装置、设备及介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种简历查重方法、装置、设备及介质。

背景技术

在企业招聘场景中，为了防止同一候选人同时投递不同岗位，导致存在多个招聘流程，浪费企业招聘成本，需要对投递的简历和流程中的简历进行重复判断；同时企业在购买多个渠道简历的过程中，为了防止出现重复购买的情况，对需要购买的简历在企业内部简历库中进行重复判断也是有必要的。

简历相比于一般的文本，简历文本比较多变。比如，同一个人在不同时期的简历可能使用不一样的模板；又比如，同一个人投递不同岗位时简历会做针对性的修改，公司名称、职位名称、项目名称也会存在些微差异。

现有文本查重方法主要是基于哈希算法的查重和基于语义向量化的查重方法方法；基于哈希算法的查重方法只会使用到了词语信息，没有利用语义信息，并不适合简历查重场景；而基于语义向量化的查重方法利用了语义信息因此可以查询出词语变化比较大的相似文档，但是由于计算比较复杂，通常需要计算出语句相似度后才能得到文本之间的相似度，导致查重速度相对较慢。

发明内容

本申请的主要目的为提供一种简历查重方法、装置、设备及介质，旨在解决现有技术因简历文本多变导致现有的文本查重方法难以适用于简历查重的技术问题。

为了实现上述发明目的，本申请提出一种简历查重方法，所述方法包括：

获取待查重简历；

根据所述待查重简历进行分词及对分词结果进行哈希签名矩阵计算，得到待查重哈希签名矩阵；

根据所述待查重哈希签名矩阵从简历库中按信息分类进行相似简历查询，得到候选简历集合；

将所述待查重简历与所述候选简历集合中的每一个简历分别构建简历对特征向量，得到多个待预测简历对特征向量；

分别将所述待预测简历对特征向量输入分类预测模型进行相似概率预测，得到多个所述待预测简历对特征向量的概率预测值；

根据多个所述待预测简历对特征向量的概率预测值，确定目标重复简历对。

进一步的，所述根据所述待查重简历进行分词及对分词结果进行哈希签名矩阵计算，得到待查重哈希签名矩阵的步骤，包括：

采用预设需提取教育经历字段从所述分词结果中进行教育经历字段提取，得到待计算教育经历字段集合；

采用预设需提取工作经历字段从所述分词结果中进行工作经历字段提取，得到待计算工作经历字段集合；

采用预设需提取项目经历字段从所述分词结果中进行项目经历字段提取，得到待计算项目经历字段集合；

对所述待计算教育经历字段集合进行哈希签名矩阵计算，得到待查重教育经历哈希签名矩阵；

对所述待计算工作经历字段集合进行哈希签名矩阵计算，得到待查重工作经历哈希签名矩阵；

对所述待计算项目经历字段集合进行哈希签名矩阵计算，得到待查重项目经历哈希签名矩阵；

将所述待查重教育经历哈希签名矩阵、所述待查重工作经历哈希签名矩阵、所述待查重项目经历哈希签名矩阵作为所述待查重哈希签名矩阵。

进一步的，所述采用预设需提取教育经历字段从所述分词结果中进行教育经历字段提取，得到待计算教育经历字段集合的步骤之前，还包括：

获取多个待训练简历样本；

从所述多个待训练简历样本中获取任意两个所述待训练简历样本，得到待训练简历对样本；

分别对每一个所述待训练简历对样本进行构建简历对特征向量及进行相似标定，得到所述待训练简历对样本的简历对样本特征向量及简历对相似性标定值；

分别将每一个所述简历对样本特征向量输入待训练分类模型进行相似概率计算，得到简历对相似性训练概率；

根据所述简历对相似性标定值、所述简历对相似性训练概率进行训练，训练结束得到目标分类模型；

从所述目标分类模型的参数中找出大于预设参数的值，将找出的值作为目标参数；

根据所述目标参数对应的简历信息字段，确定所述预设需提取教育经历字段、所述预设需提取工作经历字段、所述预设需提取项目经历字段。

进一步的，所述获取多个待训练简历样本的步骤，包括：

获取多个待提取简历样本；

分别对每一个所述待提取简历样本进行分词及字段提取，得到所述多个待训练简历样本。

进一步的，所述根据所述待查重哈希签名矩阵从简历库中按信息分类进行相似简历查询，得到候选简历集合的步骤，包括：

将所述待查重哈希签名矩阵的所述待查重教育经历哈希签名矩阵在所述简历库中进行相似简历查询，得到第一简历标识；

将所述待查重哈希签名矩阵的所述待查重工作经历哈希签名矩阵在所述简历库中进行相似简历查询，得到第二简历标识；

将所述待查重哈希签名矩阵的所述待查重项目经历哈希签名矩阵在所述简历库中进行相似简历查询，得到第三简历标识；

将所述第一简历标识、所述第二简历标识、所述第三简历标识放在同一个集合中，得到待去重复简历标识集合；

对所述待去重复简历标识集合进行简历标识去重复处理，得到去重复后简历标识集合；

根据所述去重复后简历标识集合，确定所述候选简历集合。

进一步的，所述将所述待查重简历与所述候选简历集合中的每一个简历分别构建简历对特征向量，得到多个待预测简历对特征向量的步骤，包括：

将所述待查重简历与所述候选简历集合中每一个简历进行配对，得到多个待查重简历对；

分别对每一个所述待查重简历对构建简历对特征向量，得到多个所述待预测简历对特征向量。

进一步的，所述分别将所述待预测简历对特征向量输入分类预测模型进行相似概率预测，得到多个所述待预测简历对特征向量的概率预测值的步骤之前，还包括：

获取多个训练样本，所述训练样本包括：简历对特征向量样本值、简历对标定值；

分别将每一个所述简历对特征向量样本值输入待训练分类预测模型进行相似概率计算，得到简历对相似性训练值，其中，所述待训练分类预测模型采用lightgbm模型；

根据所述简历对标定值、所述简历对相似性训练值进行训练，将训练结束的所述待训练分类预测模型作为所述分类预测模型。

本申请还提出了一种简历查重装置，所述装置包括：

简历获取模块，用于获取待查重简历；

哈希签名矩阵计算模块，用于根据所述待查重简历进行分词及对分词结果进行哈希签名矩阵计算，得到待查重哈希签名矩阵；

候选简历集合确定模块，用于根据所述待查重哈希签名矩阵从简历库中按信息分类进行相似简历查询，得到候选简历集合；

简历对特征向量构建模块，用于将所述待查重简历与所述候选简历集合中的每一个简历分别构建简历对特征向量，得到多个待预测简历对特征向量；

相似概率预测模块，用于分别将所述待预测简历对特征向量输入分类预测模型进行相似概率预测，得到多个所述待预测简历对特征向量的概率预测值；

重复简历对确定模块，用于根据多个所述待预测简历对特征向量的概率预测值，确定目标重复简历对。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的简历查重方法、装置、设备及介质，通过根据待查重简历进行分词及哈希签名矩阵计算，得到待查重哈希签名矩阵，然后将待查重哈希签名矩阵从简历库中按信息分类进行相似简历查询，得到候选简历集合，实现按信息分类进行分段处理，可以将计算的哈希签名矩阵应用于少量字段的查重，提高了查重效率；再通过将待查重简历与候选简历集合中的每一个简历分别构建简历对特征向量，得到多个待预测简历对特征向量，分别将待预测简历对特征向量输入分类预测模型进行相似概率预测，得到多个待预测简历对特征向量的概率预测值，根据多个待预测简历对特征向量的概率预测值，确定目标重复简历对，通过分类预测模型实现机器学习算法学习大量样本学习到特征向量的规则，不需要人工设定相似规则，保证了确定目标重复简历对的准确性。

附图说明

图1为本申请一实施例的简历查重方法的流程示意图；

图2为本申请一实施例的简历查重装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了解决现有技术因简历文本多变导致现有的文本查重方法难以适用于简历查重的技术问题，本申请提出了一种简历查重方法，所述方法应用于人工智能技术领域。所述简历查重方法通过先对简历进行分词及哈希签名矩阵计算，然后根据计算的哈希签名矩阵确定候选简历集合，将待查重简历和候选简历集合构建简历对特征向量，根据构建的简历对特征向量进行相似概率预测及确定重复简历对，提高了查重效率，不需要人工设定相似规则，保证了确定目标重复简历对的准确性。

参照图1，本申请实施例中提供一种简历查重方法，所述方法包括：

S1：获取待查重简历；

S2：根据所述待查重简历进行分词及对分词结果进行哈希签名矩阵计算，得到待查重哈希签名矩阵；

S3：根据所述待查重哈希签名矩阵从简历库中按信息分类进行相似简历查询，得到候选简历集合；

S4：将所述待查重简历与所述候选简历集合中的每一个简历分别构建简历对特征向量，得到多个待预测简历对特征向量；

S5：分别将所述待预测简历对特征向量输入分类预测模型进行相似概率预测，得到多个所述待预测简历对特征向量的概率预测值；

S6：根据多个所述待预测简历对特征向量的概率预测值，确定目标重复简历对。

本实施例通过根据待查重简历进行分词及哈希签名矩阵计算，得到待查重哈希签名矩阵，然后将待查重哈希签名矩阵从简历库中按信息分类进行相似简历查询，得到候选简历集合，实现按信息分类进行分段处理，可以将计算的哈希签名矩阵应用于少量字段的查重，提高了查重效率；再通过将待查重简历与候选简历集合中的每一个简历分别构建简历对特征向量，得到多个待预测简历对特征向量，分别将待预测简历对特征向量输入分类预测模型进行相似概率预测，得到多个待预测简历对特征向量的概率预测值，根据多个待预测简历对特征向量的概率预测值，确定目标重复简历对，通过分类预测模型实现机器学习算法学习大量样本学习到特征向量的规则，不需要人工设定相似规则，保证了确定目标重复简历对的准确性。

对于S1，可以从数据库中获取待查重简历，也可以直接获取用户输入的待查重简历，还可以接收其他应用***发送的待查重简历。

待查重简历，是指待查询是否存在重复的简历。

简历包括但不限于：基本信息、教育经历、工作经历、项目经历。

优选的，所述获取待查重简历的步骤，包括：

S11：获取待导入简历；

待导入简历的格式包括但不限于：pdf、docx、doc。

S12：将所述待导入简历输入简历解析器进行解析及格式转换，得到所述待查重简历。

其中，将所述待导入简历输入简历解析器进行解析及JSON格式转换，得到JSON格式的所述待查重简历。也就是说，所述待查重简历的格式是JSON格式。

进行解析，是解析出基本信息、教育经历、工作经历、项目经历。

对于S2，采用分词工具对所述待查重简历进行分词，对分词结果采用Minhash(最小哈希)算法进行哈希签名矩阵计算，得到所述待查重哈希签名矩阵。

优选的，当所述待查重简历是中文简历时，采用中文分词工具对所述待查重简历进行分词；当所述待查重简历是英文简历时，采用英文分词工具对所述待查重简历进行分词。

中文分词工具可以从现有技术中选择，在此不做赘述。

英文分词工具可以从现有技术中选择，在此不做赘述。

对于S3，根据所述待查重哈希签名矩阵从简历库中按信息分类分别进行相似简历查询，将查询得到的简历放入一个集合，得到候选简历集合。也就是说，简历库存放的简历信息也是哈希签名矩阵。

信息分类包括但不限于：教育经历类、工作经历类、项目经历类。

所述将所述待查重哈希签名矩阵从简历库中按信息分类分别进行相似简历查询的步骤，包括：将所述待查重哈希签名矩阵从简历库中按教育经历类进行相似简历查询，然后将所述待查重哈希签名矩阵从简历库中按工作经历类进行相似简历查询，最后将所述待查重哈希签名矩阵从简历库中按项目经历类进行相似简历查询。

优选的，简历库存储在Redis的LSH(局部敏感度哈希)桶中。LSH桶(哈希桶)也就是LSH索引。

Redis，是一个key-value存储***，和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set--有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作，而且这些操作都是原子性的。在此基础上，Redis支持各种不同方式的排序。与memcached一样，为了保证效率，数据都是缓存在内存中。区别的是Redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件，并且在此基础上实现了master-slave(主从)同步。

LSH的基本思想是将原始数据空间中的两个相邻数据点通过相同的映射或投影变换(projection)后，这两个数据点在新的数据空间中仍然相邻的概率很大，而不相邻的数据点被映射到同一个桶的概率很小。也就是说，如果我们对原始数据进行一些hash映射后，我们希望原先相邻的两个数据能够被hash到相同的桶内，具有相同的桶号。对原始数据集合中所有的数据都进行hash映射后，我们就得到了一个hash table(哈希桶)，这些原始数据集被分散到了hash table的桶内，每个桶会落入一些原始数据，属于同一个桶内的数据就有很大可能是相邻的，当然也存在不相邻的数据被hash到了同一个桶内。因此，如果我们能够找到这样一些hash functions，使得经过它们的哈希映射变换后，原始空间中相邻的数据落入相同的桶内的话，那么我们在该数据集合中进行近邻查找就变得容易了，我们只需要将查询数据进行哈希映射得到其桶号，然后取出该桶号对应桶内的所有数据，再进行线性匹配即可查找到与查询数据相邻的数据。

对于S4，依次从所述候选简历集合中提取简历，将提取的简历与所述待查重简历构建简历对特征向量，将构建的简历对特征向量作为待预测简历对特征向量。也就是说，多个待预测简历对特征向量的具体数量与所述候选简历集合中简历的数量相同。

对于S5，分别将所述待预测简历对特征向量输入分类预测模型进行相似概率预测，也就是说，每次只进行一个所述待预测简历对特征向量的相似概率预测。

每个所述待预测简历对特征向量对应一个概率预测值。

优选的，所述待预测简历对特征向量的概率预测值是一个0-1的概率值(也就是大于等于0并且小于等于1的概率值)。

对于S6，根据多个所述待预测简历对特征向量的概率预测值，也就是根据所述待预测简历对特征向量的相似概率，确定目标重复简历对。

目标重复简历对中包括两个简历，两个简历是重复的简历。

可以理解的是，目标重复简历的数量可以为零个，也可以一个，还可以为多个。

在一个实施例中，上述根据所述待查重简历进行分词及对分词结果进行哈希签名矩阵计算，得到待查重哈希签名矩阵的步骤，包括：

S21：根据所述待查重简历进行分词，得到分词结果；

S22：采用预设需提取教育经历字段从所述分词结果中进行教育经历字段提取，得到待计算教育经历字段集合；

S23：采用预设需提取工作经历字段从所述分词结果中进行工作经历字段提取，得到待计算工作经历字段集合；

S24：采用预设需提取项目经历字段从所述分词结果中进行项目经历字段提取，得到待计算项目经历字段集合；

S25：对所述待计算教育经历字段集合进行哈希签名矩阵计算，得到待查重教育经历哈希签名矩阵；

S26：对所述待计算工作经历字段集合进行哈希签名矩阵计算，得到待查重工作经历哈希签名矩阵；

S27：对所述待计算项目经历字段集合进行哈希签名矩阵计算，得到待查重项目经历哈希签名矩阵；

S28：将所述待查重教育经历哈希签名矩阵、所述待查重工作经历哈希签名矩阵、所述待查重项目经历哈希签名矩阵作为所述待查重哈希签名矩阵。

本实施例实现了对所述待查重简历分词及哈希签名矩阵计算，从而实现根据哈希签名矩阵进行查重，提高了查重效率。

可以理解的是，步骤S22至步骤S24可以同时进行，也可以采用其他顺序依次执行。

对于S21，采用分词工具对所述待查重简历进行分词，得到分词结果。

对于S22，采用预设需提取教育经历字段从分词结果中提取教育经历字段，将提取到的字段放入集合，得到待计算教育经历字段集合。

对于S23，采用预设需提取工作经历字段从分词结果中提取工作经历字段，将提取到的字段放入集合，得到待计算工作经历字段集合。

对于S24，采用预设需提取项目经历字段从分词结果中提取项目经历字段，将提取到的字段放入集合，得到待计算项目经历字段集合。

对于S25，采用Minhash算法对所述待计算教育经历字段集合中的字段进行哈希签名矩阵计算，将计算得到的哈希签名矩阵作为待查重教育经历哈希签名矩阵。

对于S26，采用Minhash算法对所述待计算工作经历字段集合中的字段进行哈希签名矩阵计算，将计算得到的哈希签名矩阵作为待查重工作经历哈希签名矩阵。

对于S27，采用Minhash算法对所述待计算项目经历字段集合中的字段进行哈希签名矩阵计算，将计算得到的哈希签名矩阵作为待查重项目经历哈希签名矩阵。

在一个实施例中，上述采用预设需提取教育经历字段从所述分词结果中进行教育经历字段提取，得到待计算教育经历字段集合的步骤之前，还包括：

S0211：获取多个待训练简历样本；

S0212：从所述多个待训练简历样本中获取任意两个所述待训练简历样本，得到待训练简历对样本；

S0213：分别对每一个所述待训练简历对样本进行构建简历对特征向量及进行相似标定，得到所述待训练简历对样本的简历对样本特征向量及简历对相似性标定值；

S0214：分别将每一个所述简历对样本特征向量输入待训练分类模型进行相似概率计算，得到简历对相似性训练概率；

S0215：根据所述简历对相似性标定值、所述简历对相似性训练概率进行训练，训练结束得到目标分类模型；

S0216：从所述目标分类模型的参数中找出大于预设参数的值，将找出的值作为目标参数；

S0217：根据所述目标参数对应的简历信息字段，确定所述预设需提取教育经历字段、所述预设需提取工作经历字段、所述预设需提取项目经历字段。

本实施例实现了确定预设需提取字段，从而找出对查重最相关的字段，有利于减少本申请需要处理的数据量，提升了查重的效率。

对于S0211，从数据库中获取多个待训练简历样本。

待训练简历样本包括但不限于：基本信息样本数据、教育经历样本数据、工作经历样本数据、项目经历样本数据。

教育经历样本数据中包括的教育经历段数少于预设教育经历段数。预设教育经历段数包括但不限于3段、4段、5段、6段。

工作经历样本数据中包括的工作经历段数少于预设工作经历段数。预设工作经历段数包括但不限于3段、4段、5段、6段。

项目经历样本数据中包括的项目经历段数少于预设项目经历段数。预设项目经历段数包括但不限于3段、4段、5段、6段。

基本信息样本数据中包括多个字段。教育经历样本数据包括多个字段。工作经历样本数据包括多个字段。项目经历样本数据包括多个字段。

对于S0212，依次从所述多个待训练简历样本中获取所述待训练简历样本，将获取的样本作为第一个待训练简历样本，然后再将第一个待训练简历样本与所述多个待训练简历样本中所述第一个待训练简历样本之后的待训练简历样本分别配对，将每一对待训练简历样本作为一个待训练简历对样本。

对于S0213，对所述待训练简历对样本进行构建简历对特征向量及进行相似标定，得到简历对样本特征向量及简历对相似性标定值。也就是说，每个所述待训练简历对样本对应一个简历对样本特征向量和一个简历对相似性标定值。

对所述待训练简历对样本分别进行样本基本信息特征向量、样本教育经历特征向量、样本工作经历特征向量、样本项目经历特征向量构建，得到所述简历对样本特征向量。

其中，对所述待训练简历对样本中两份待训练简历样本的基本信息样本数据的字段进行比较，相同则对应的样本基本信息特征向量向量元素为1，不相同则对应的样本基本信息特征向量为0。基本信息样本数据的字段包括但不限于：出生年月、籍贯，基本信息样本数据就是字段进行比较，比如，比较出生年月是否相同、籍贯是否相同，最后得到的是0、1组成的向量。

样本教育经历特征向量包括：所述待训练简历对样本的两份待训练简历样本中教育经历相似的条数、不相似的条数、以及每个待训练简历样本的教育经历的条数。比如，所述待训练简历对样本的第一份待训练简历样本的教育经历样本数据包括：M学校B专业、N学校C专业、P学校D专业，所述待训练简历对样本的第二份待训练简历样本的教育经历样本数据包括：M学校B专业、N学校C专业、K学校D专业，则所述待训练简历对样本的第一份待训练简历样本与所述待训练简历对样本的第二份待训练简历样本相似教育经历字段包括M学校B专业、N学校C专业，则样本教育经历特征向量表述的是：2个教育经历相似、1个教育经历不相似、第一份待训练简历样本的教育经历的条数为3、第二份待训练简历样本的教育经历的条数为3，在此举例不做具体限定。

样本工作经历特征向量包括：所述待训练简历对样本的两份待训练简历样本中工作经历相似的条数、不相似的条数、以及每个待训练简历样本的工作经历的条数。

样本项目经历特征向量包括：所述待训练简历对样本的两份待训练简历样本中项目经历相似的条数、不相似的条数、以及每个待训练简历样本的项目经历的条数。

对于S0214，分别将每一个所述简历对样本特征向量输入待训练分类模型进行相似概率计算，也就是每次只对一个所述简历对样本特征向量进行相似概率计算。

优选的，所述待训练分类模型可以采用lightgbm(基于决策树算法的分布式梯度提升框架)模型。

对于S0215，将所述简历对相似性标定值、所述简历对相似性训练概率输入第一损失函数进行计算，得到所述待训练分类模型的损失值，根据所述损失值更新所述待训练分类模型的参数，更新后的所述待训练分类模型被用于下一次计算所述简历对相似性训练概率；

重复执行上述方法步骤直至所述损失值达到第一收敛条件或迭代次数达到第二收敛条件，将所述损失值达到第一收敛条件或迭代次数达到第二收敛条件的所述待训练分类模型，确定为目标分类模型。

所述第一收敛条件是指相邻两次计算的损失的大小满足lipschitz条件(利普希茨连续条件)。

所述迭代次数达到第二收敛条件是指所述待训练分类模型被用于计算所述简历对相似性训练概率的次数，也就是说，计算一次，迭代次数增加1。

所述第一损失函数可以根据训练lightgbm模型的要求从现有技术中选择，在此不做赘述。

所述据所述损失值更新所述待训练分类模型的参数，可以根据lightgbm模型的要求从现有技术中选择，在此不做赘述。

对于S0216，从所述目标分类模型中找出教育经历字段、工作经历字段、项目经历字段对应的参数作为待筛选参数，从待筛选参数中找出大于预设参数的值，将找出的值作为目标参数。

对于S0217，简历信息字段包括教育经历字段、工作经历字段、项目经历字段。

在一个实施例中，上述获取多个待训练简历样本的步骤，包括：

S02111：获取多个待提取简历样本；

S02112：分别对每一个所述待提取简历样本进行分词及字段提取，得到所述多个待训练简历样本。

本实施例实现了获取待训练简历样本。

对于02111，可以从数据库中获取多个待提取简历样本。

对于02112，对所述待提取简历样本进行分词，得到分词结果，然后再对分词结果进行教育经历字段、工作经历字段、项目经历字段提取，得到待训练简历样本。也就是说，待训练简历样本是字段的集合。

在一个实施例中，上述根据所述待查重哈希签名矩阵从简历库中按信息分类进行相似简历查询，得到候选简历集合的步骤，包括：

S31：将所述待查重哈希签名矩阵的所述待查重教育经历哈希签名矩阵在所述简历库中进行相似简历查询，得到第一简历标识；

S32：将所述待查重哈希签名矩阵的所述待查重工作经历哈希签名矩阵在所述简历库中进行相似简历查询，得到第二简历标识；

S33：将所述待查重哈希签名矩阵的所述待查重项目经历哈希签名矩阵在所述简历库中进行相似简历查询，得到第三简历标识；

S34：将所述第一简历标识、所述第二简历标识、所述第三简历标识放在同一个集合中，得到待去重复简历标识集合；

S35：对所述待去重复简历标识集合进行简历标识去重复处理，得到去重复后简历标识集合；

S36：根据所述去重复后简历标识集合，确定所述候选简历集合。

本实施例按信息分类进行相似简历查询，从而实现了针对不同信息分类查询相似简历，从而实现了找到更多的相似简历，有利于提高查重的准确性。

对于S31，将所述待查重哈希签名矩阵的所述待查重教育经历哈希签名矩阵从Redis的LSH桶存储的所述简历库中进行相似简历查询，将查找到的相似简历的简历标识作为第一简历标识。也就是说，第一简历标识对应的简历的教育经历与所述待查重哈希签名矩阵对应的教育经历相似。

所述第一简历标识的数量可以为零个，也可以为一个，还可以为多个。

所述第一简历标识，也就是简历标识。

简历标识可以是简历ID、简历名称等唯一标识一个简历的标识。

对于S32，将所述待查重哈希签名矩阵的所述待查重工作经历哈希签名矩阵从Redis的LSH桶存储的所述简历库中进行相似简历查询，将查找到的相似简历的简历标识作为第一简历标识。也就是说，第一简历标识对应的简历的工作经历与所述待查重哈希签名矩阵对应的工作经历相似。

所述第二简历标识的数量可以为零个，也可以为一个，还可以为多个。

所述第二简历标识，也就是简历标识。

对于S33，将所述待查重哈希签名矩阵的所述待查重项目经历哈希签名矩阵从Redis的LSH桶存储的所述简历库中进行相似简历查询，将查找到的相似简历的简历标识作为第一简历标识。也就是说，第一简历标识对应的简历的项目经历与所述待查重哈希签名矩阵对应的项目经历相似。

所述第三简历标识的数量可以为零个，也可以为一个，还可以为多个。

所述第三简历标识，也就是简历标识。

对于S35，将所述待去重复简历标识集合中的简历标识进行去重复处理，将去重复处理后的所述待去重复简历标识集合作为去重复后简历标识集合。

所述去重复处理，就是只保留为一个值，删除其它重复项。比如，所述待去重复简历标识集合中包括A1、A2、A3、A1、A1共计五个简历标识，其中，三个A1重复，去重复处理删除两个A1，最终得到去重复后简历标识集合中包括A1、A2、A3共计三个简历标识，在此举例不做具体限定。

对于S36，根据所述去重复后简历标识集合中的简历标识从数据库中获取简历，将获取的简历放入集合中，得到所述候选简历集合。

在一个实施例中，上述将所述待查重简历与所述候选简历集合中的每一个简历分别构建简历对特征向量，得到多个待预测简历对特征向量的步骤，包括：

S41：将所述待查重简历与所述候选简历集合中每一个简历进行配对，得到多个待查重简历对；

S42：分别对每一个所述待查重简历对构建简历对特征向量，得到多个所述待预测简历对特征向量。

本实施例实现了构建简历对特征向量，从而为进行相似概率预测提供了数据基础。

对于S41，多个待查重简历对的具体数量与所述候选简历集合中简历的数量相同。

对于S42，对所述待查重简历对分别进行基本信息特征向量、教育经历特征向量、工作经历特征向量、项目经历特征向量构建，得到所述待预测简历对特征向量。

其中，对所述待查重简历对中两份简历的基本信息的字段进行比较，相同则对应的基本信息特征向量向量元素为1，不相同则对应的基本信息特征向量为0。基本信息的字段包括但不限于：出生年月、籍贯，基本信息就是字段进行比较，比如，比较出生年月是否相同、籍贯是否相同，最后得到的是0、1组成的向量。

教育经历特征向量包括：两份简历中教育经历相似的条数、不相似的条数、以及每个简历的教育经历的条数。比如，所述待查重简历对的第一份简历的教育经历数据包括：X学校B专业、Y学校C专业、Z学校D专业，所述待查重简历对的第二份简历的教育经历数据包括：X学校B专业、Y学校C专业、M学校D专业，则所述待查重简历对的第一份简历与所述待查重简历对的第二份简历相似教育经历字段包括M学校B专业、N学校C专业，则教育经历特征向量表述的是：2个教育经历相似、1个教育经历不相似、第一份简历的教育经历的条数为3、第二份简历的教育经历的条数为3，在此举例不做具体限定。

工作经历特征向量包括：两份简历中工作经历相似的条数、不相似的条数、以及每个简历的工作经历的条数。

项目经历特征向量包括：两份简历中项目经历相似的条数、不相似的条数、以及每个简历的项目经历的条数。

在一个实施例中，上述分别将所述待预测简历对特征向量输入分类预测模型进行相似概率预测，得到多个所述待预测简历对特征向量的概率预测值的步骤之前，还包括：

S051：获取多个训练样本，所述训练样本包括：简历对特征向量样本值、简历对标定值；

S052：分别将每一个所述简历对特征向量样本值输入待训练分类预测模型进行相似概率计算，得到简历对相似性训练值，其中，所述待训练分类预测模型采用lightgbm模型；

S053：根据所述简历对标定值、所述简历对相似性训练值进行训练，将训练结束的所述待训练分类预测模型作为所述分类预测模型。

本实施例实现了基于lightgbm模型训练得到分类预测模型。

对于S051，从数据库中获取多个训练样本。每个训练样本包括一个简历对特征向量样本值和一个简历对标定值。

对于S052，分别将每一个所述简历对特征向量样本值输入待训练分类预测模型进行相似概率计算，也就是每次只对一个所述述简历对特征向量样本值进行相似概率计算。

对于S053，将所述简历对标定值、所述简历对相似性训练值输入第二损失函数进行计算，得到所述待训练分类预测模型的损失值，根据所述损失值更新所述待训练分类预测模型的参数，更新后的所述待训练分类预测模型被用于下一次计算所述简历对相似性训练值；

重复执行上述方法步骤直至所述损失值达到第三收敛条件或迭代次数达到第四收敛条件，将所述损失值达到第三收敛条件或迭代次数达到第四收敛条件的所述待训练分类预测模型，确定为所述分类预测模型。

所述第三收敛条件是指相邻两次计算的损失的大小满足lipschitz条件(利普希茨连续条件)。

所述迭代次数达到第四收敛条件是指所述待训练分类模型被用于计算所述简历对相似性训练值的次数，也就是说，计算一次，迭代次数增加1。

所述第二损失函数可以根据训练lightgbm模型的要求从现有技术中选择，在此不做赘述。

所述根据所述损失值更新所述待训练分类预测模型的参数，可以根据lightgbm模型的要求从现有技术中选择，在此不做赘述。

参照图2，本申请还提出了一种简历查重装置，所述装置包括：

简历获取模块100，用于获取待查重简历；

哈希签名矩阵计算模块200，用于根据所述待查重简历进行分词及对分词结果进行哈希签名矩阵计算，得到待查重哈希签名矩阵；

候选简历集合确定模块300，用于根据所述待查重哈希签名矩阵从简历库中按信息分类进行相似简历查询，得到候选简历集合；

简历对特征向量构建模块400，用于将所述待查重简历与所述候选简历集合中的每一个简历分别构建简历对特征向量，得到多个待预测简历对特征向量；

相似概率预测模块500，用于分别将所述待预测简历对特征向量输入分类预测模型进行相似概率预测，得到多个所述待预测简历对特征向量的概率预测值；

重复简历对确定模块600，用于根据多个所述待预测简历对特征向量的概率预测值，确定目标重复简历对。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于储存简历查重方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种简历查重方法。所述简历查重方法，包括：获取待查重简历；根据所述待查重简历进行分词及对分词结果进行哈希签名矩阵计算，得到待查重哈希签名矩阵；根据所述待查重哈希签名矩阵从简历库中按信息分类进行相似简历查询，得到候选简历集合；将所述待查重简历与所述候选简历集合中的每一个简历分别构建简历对特征向量，得到多个待预测简历对特征向量；分别将所述待预测简历对特征向量输入分类预测模型进行相似概率预测，得到多个所述待预测简历对特征向量的概率预测值；根据多个所述待预测简历对特征向量的概率预测值，确定目标重复简历对。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种简历查重方法，包括步骤：获取待查重简历；根据所述待查重简历进行分词及对分词结果进行哈希签名矩阵计算，得到待查重哈希签名矩阵；根据所述待查重哈希签名矩阵从简历库中按信息分类进行相似简历查询，得到候选简历集合；将所述待查重简历与所述候选简历集合中的每一个简历分别构建简历对特征向量，得到多个待预测简历对特征向量；分别将所述待预测简历对特征向量输入分类预测模型进行相似概率预测，得到多个所述待预测简历对特征向量的概率预测值；根据多个所述待预测简历对特征向量的概率预测值，确定目标重复简历对。

上述执行的简历查重方法，通过根据待查重简历进行分词及哈希签名矩阵计算，得到待查重哈希签名矩阵，然后将待查重哈希签名矩阵从简历库中按信息分类进行相似简历查询，得到候选简历集合，实现按信息分类进行分段处理，可以将计算的哈希签名矩阵应用于少量字段的查重，提高了查重效率；再通过将待查重简历与候选简历集合中的每一个简历分别构建简历对特征向量，得到多个待预测简历对特征向量，分别将待预测简历对特征向量输入分类预测模型进行相似概率预测，得到多个待预测简历对特征向量的概率预测值，根据多个待预测简历对特征向量的概率预测值，确定目标重复简历对，通过分类预测模型实现机器学习算法学习大量样本学习到特征向量的规则，不需要人工设定相似规则，保证了确定目标重复简历对的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种简历查重方法，其特征在于，所述方法包括：

获取待查重简历；

根据多个所述待预测简历对特征向量的概率预测值，确定目标重复简历对；

所述根据所述待查重简历进行分词及对分词结果进行哈希签名矩阵计算，得到待查重哈希签名矩阵的步骤，包括：

根据所述待查重简历进行分词，得到分词结果；

将所述待查重教育经历哈希签名矩阵、所述待查重工作经历哈希签名矩阵、所述待查重项目经历哈希签名矩阵作为所述待查重哈希签名矩阵；

所述采用预设需提取教育经历字段从所述分词结果中进行教育经历字段提取，得到待计算教育经历字段集合的步骤之前，还包括：

获取多个待训练简历样本；

根据所述目标参数对应的简历信息字段，确定所述预设需提取教育经历字段、所述预设需提取工作经历字段、所述预设需提取项目经历字段；

所述根据所述待查重哈希签名矩阵从简历库中按信息分类进行相似简历查询，得到候选简历集合的步骤，包括：

根据所述去重复后简历标识集合，确定所述候选简历集合。

2.根据权利要求1所述的简历查重方法，其特征在于，所述获取多个待训练简历样本的步骤，包括：

获取多个待提取简历样本；

3.根据权利要求1所述的简历查重方法，其特征在于，所述将所述待查重简历与所述候选简历集合中的每一个简历分别构建简历对特征向量，得到多个待预测简历对特征向量的步骤，包括：

4.根据权利要求1所述的简历查重方法，其特征在于，所述分别将所述待预测简历对特征向量输入分类预测模型进行相似概率预测，得到多个所述待预测简历对特征向量的概率预测值的步骤之前，还包括：

5.一种简历查重装置，用于实现权利要求1至4中任一项所述的方法，其特征在于，所述装置包括：

简历获取模块，用于获取待查重简历；

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。