CN106126589B

CN106126589B - 简历搜索方法及装置

Info

Publication number: CN106126589B
Application number: CN201610445551.8A
Authority: CN
Inventors: 李贤�
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2016-06-17
Filing date: 2016-06-17
Publication date: 2018-05-22
Anticipated expiration: 2036-06-17
Also published as: WO2017215242A1; CN106126589A

Abstract

本发明公开了一种简历搜索方法，包括：接收用于从简历数据库中进行简历搜索的关键词；根据所述关键词，分别从词条数据库中获取相关词集和所述相关词集中每一相关词的相关度；根据每一个相关词的相关度，计算出在进行简历搜索时所述关键词所占的权重值和所述每一个相关词所占的权重值；将所述关键词、所述关键词所占的权重值、所述每一个相关词和所述每一个相关词所占的权重值提交给搜索引擎，以从所述简历数据库中搜索出简历。相应地，本发明还公开了一种简历搜索装置。采用本发明实施例，为用户提供准确的相关词，提高简历搜索的准确度。

Description

简历搜索方法及装置

技术领域

本发明涉及计算机信息检索领域，尤其涉及一种简历搜索方法及装置。

背景技术

在以往对简历的搜索匹配过程中，存在两种方法：一种是直接关键词检索；另一种是关键词+相关词检索；但是发明人在实施过程发现上述方案存在以下问题：

对于第一种方案，仅考虑关键词的检索过程中出现的词频来获取检索结果，即，偏向与该关键词相关的技能的简历排序在前，难以综合考虑简历的综合技能，不便于综合评估简历本人的综合技能。

对于第二种方案，一方面是由用户提供相关词，增加用户输入的词量，用户体验差；另一方面由于相关词是由用户提供的，则相关词会存在一种可能性：随着语言被人们使用和拓展，词的拓展也会随着时间的变化，则关键词拓展出来的相关词也会跟随着变化，若相关词存在时效上的延时，且相关词与关键的相关程度也是会随时间的变化而变化的，则用该相关词检索出的简历很有可能不符合当前雇主对人才的需求。

发明内容

本发明实施例提出一种简历搜索方法，为用户提供准确的相关词，提高简历搜索的准确度。

本发明实施例提供的一种简历搜索方法，包括：

接收用于从简历数据库中进行简历搜索的关键词；

根据所述关键词，分别从词条数据库中获取所述关键词的待验相关词集和所述待验相关词集中每一个待验相关词的对照词集，并将所述每一个待验相关词的对照词集与所述待验相关词集进行比较获取相关词集和所述相关词集中每一相关词的相关度；其中，所述相关度表示为相关词与所述关键词的相关程度；

根据基准分值公式计算出所述相关词集中第i个相关词的基准分值S_i；其中，r_i为所述相关词集中的第i个相关词的相关度；r_min为在所述相关词集中的所有相关词的相关度的最小值；r_max为在所述相关词集中的所有相关词的相关度的最大值；

对所述所有相关词的基准分值进行求和，获得基准分值总值sum；

根据第一权重公式W_A＝5+log_1.5(sum+1)，计算出所述关键词在进行简历搜索时所占的权重值W_A；其中，A为所述关键词；

判断所述第i个相关词的基准分值是否大于W_A/n；若是，则根据第二权重公式计算出所述第i个相关词在进行简历搜索时所占的权重值W_i；若否，则根据第三权重公式计算出所述第i个相关词在进行简历搜索时所占的权重值W_i；其中，n为权重系数，k为所述相关词集中的相关词的数量。

将所述关键词、所述关键词所占的权重值、所述每一个相关词和所述每一个相关词所占的权重值提交给搜索引擎，以从所述简历数据库中搜索出简历。

进一步地，根据所述关键词，分别从词条数据库中获取所述关键词的待验相关词集和所述待验相关词集中每一个待验相关词的对照词集，并将所述每一个待验相关词的对照词集与所述待验相关词集进行比较获取相关词集和所述相关词集中每一相关词的相关度，具体为：

根据所述关键词从词条数据库中获取包含所述关键词的词条，并对所述词条进行分词和筛选，获得待验相关词集；

对于所述待验相关词集中的每一个待验相关词，根据所述待验相关词从所述词条数据库中获取包含所述待验相关词的词条，并对所述待验相关词的词条进行分词和筛选，获得所述待验相关词的对照词集；

当判定所述待验相关词的对照词集与所述待验相关词集的交集的绝对值大于筛选阈值时，所述待验相关词为所述关键词的相关词，获得相关词集；其中，所述绝对值作为所述相关词与所述关键词的相关度。

进一步地，

在所述判断所述第i个相关词的基准分值是否大于W_A/n之前，还包括：

根据均值公式计算基准分值均值；其中，为所述相关词集中的所有相关词的相关度的平均值；

对于所述相关词集中的第i个相关词，判断所述第i个相关词的基准分值S_i是否大于所述基准分值均值

若是，通过更新公式更新所述第i个相关词的基准分值S_i。更进一步地，所述将所述关键词、所述关键词所占的权重值、所述每一个相关词和所述每一个相关词所占的权重值提交给搜索引擎，以从所述简历数据库中搜索出简历，具体为：

根据搜索引擎的权重关联格式，将所述关键词所占的权重值和所述关键词相关联作为第一组合，以及将所述每一个相关词所占的权重值与其对应的相关词相关联作为第二组合；

将所述第一组合和所述第二组合提交给搜索引擎，以供所述搜索引擎从所述简历数据库中搜索出简历，并根据所述搜索引擎内置的排序算法显示搜索出的简历；其中，所述简历中包含的所述关键词和所述每一个相关词以高亮形式显示。

相应地，本发明实施例还提供一种简历搜索装置，包括：

接收模块，用于接收用于从简历数据库中进行简历搜索的关键词；

相关词集获取模块，用于根据所述关键词，分别从词条数据库中获取所述关键词的待验相关词集和所述待验相关词集中每一个待验相关词的对照词集，并将所述每一个待验相关词的对照词集与所述待验相关词集进行比较获取相关词集和所述相关词集中每一相关词的相关度；其中，所述相关度表示为相关词与所述关键词的相关程度；

权重计算模块，用于根据每一个相关词的相关度，计算出在进行简历搜索时所述关键词所占的权重值和所述每一个相关词所占的权重值；

搜索模块，用于将所述关键词、所述关键词所占的权重值、所述每一个相关词和所述每一个相关词所占的权重值提交给搜索引擎，以从所述简历数据库中搜索出简历；

所述权重计算模块具体包括：

基准分值计算单元，用于根据基准分值公式计算出所述相关词集中第i个相关词的基准分值S_i；其中，r_i为所述相关词集中的第i个相关词的相关度；r_min为在所述相关词集中的所有相关词的相关度的最小值；r_max为在所述相关词集中的所有相关词的相关度的最大值；

求和计算单元，用于对所述所有相关词的基准分值进行求和，获得基准分值总值sum；

关键词权重计算单元，用于根据第一权重公式W_A＝5+log_1.5(sum+1)，计算出所述关键词在进行简历搜索时所占的权重值W_A；其中，A为所述关键词；

相关词权重计算单元，用于判断所述第i个相关词的基准分值是否大于W_A/n；若是，则根据第二权重公式计算出所述第i个相关词在进行简历搜索时所占的权重值W_i；若否，则根据第三权重公式计算出所述第i个相关词在进行简历搜索时所占的权重值W_i；其中，n为权重系数，k为所述相关词集中的相关词的数量。

进一步地，所述相关词集获取模块具体包括：

待验相关词集单元，用于根据所述关键词从词条数据库中获取包含所述关键词的词条，并对所述词条进行分词和筛选，获得待验相关词集；

对照词集单元，用于对于所述待验相关词集中的每一个待验相关词，根据所述待验相关词从所述词条数据库中获取包含所述待验相关词的词条，并对所述待验相关词的词条进行分词和筛选，获得所述待验相关词的对照词集；

判断获取单元，用于当判定所述待验相关词的对照词集与所述待验相关词集的交集的绝对值大于筛选阈值时，所述待验相关词为所述关键词的相关词，获得相关词集；其中，所述绝对值作为所述相关词与所述关键词的相关度。

再进一步地，所述权重计算模块还包括：

均值计算单元，用于在所述判断所述第i个相关词的基准分值是否大于W_A/n之前，根据均值公式计算基准分值均值其中，为所述相关词集中的所有相关词的相关度的平均值；

判断单元，用于对于所述相关词集中的第i个相关词，判断所述第i个相关词的基准分值S_i是否大于所述基准分值均值；

更新单元，用于当判断所述第i个相关词的基准分值S_i是大于所述基准分值均值时，通过更新公式更新所述第i个相关词的基准分值S_i。

更进一步地，所述搜索模块具体包括：

权重相联单元，用于根据搜索引擎的权重关联格式，将所述关键词所占的权重值和所述关键词相关联作为第一组合，以及将所述每一个相关词所占的权重值与其对应的相关词相关联作为第二组合；

搜索显示单元，用于将所述第一组合和所述第二组合提交给搜索引擎，以供所述搜索引擎从所述简历数据库中搜索出简历，并根据所述搜索引擎内置的排序算法显示搜索出的简历；其中，所述简历中包含的所述关键词和所述每一个相关词以高亮形式显示。

实施本发明实施例，具有如下有益效果：

本发明实施例提供的简历搜索方法和装置，用户只需输入关键词，即可获得与该关键词相关的相关词，并确定相关词与该关键词的相关程度，满足相关词对时效性要求，能在检索简历过程避免出现与该关键词对应领域的过时的技能对应的简历。另外，通过计算出关键词和相关词在搜索简历过程中所占的权重值，在检索过程中可以更准确地找到与关键词对应领域下匹配的简历，使得检索出来的简历更为合理，即提高简历搜索的准确度。

附图说明

图1是本发明提供的简历搜索方法的一个实施例的流程示意图；

图2是图1提供的简历搜索方法的步骤S2的一个实施例的流程示意图；

图3是本发明提供的简历搜索装置的一个实施例的结构示意图；

图4是本发明提供的简历搜索装置的相关词集获取模块的一个实施例的结构示意图；

图5是本发明提供的简历搜索装置的权重计算模块的一个实施例的结构示意图；

图6是本发明提供的简历搜索装置的搜索模块的一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明提供的简历搜索方法的一个实施例的流程示意图，该方法包括步骤S1至S4，具体如下：

S1，接收用于从简历数据库中进行简历搜索的关键词；

S2，根据所述关键词，分别从词条数据库中获取所述关键词的待验相关词集和所述待验相关词集中每一个待验相关词的对照词集，并将所述每一个待验相关词的对照词集与所述待验相关词集进行比较获取相关词集和所述相关词集中每一相关词的相关度；其中，所述相关度表示为相关词与所述关键词的相关程度；

S3，根据每一个相关词的相关度，计算出在进行简历搜索时所述关键词所占的权重值和所述每一个相关词所占的权重值；

S4，将所述关键词、所述关键词所占的权重值、所述每一个相关词和所述每一个相关词所占的权重值提交给搜索引擎，以从所述简历数据库中搜索出简历。

进一步地，下面将以关键词Java为例，结合图2，图2是图1提供的简历搜索方法的步骤S2的一个实施例的流程示意图，具体描述上述步骤S2的实施方式：

S21，根据所述关键词Java从词条数据库(优选为包含论文的数据库，例如知网)中获取包含所述关键词Java的词条，并对所述词条进行分词和筛选，获得待验相关词集；此S21步骤具体实施过程如下：

利用搜索引擎，根据所述关键词Java，从论文数据库中获取包含所述关键词Java且排序在第M位前的词条，例如，前50页论文摘要作为词条，或者，在维基中搜索关键词Java的前500条摘要；

根据标准词条格式对所述词条进行格式调整；例如，将词条中的小写统一成大写、对词条中多余的空格删除、统一词条中的标点符号、将词条的全角格式或半角格式统一为一种等。

调用分词工具；优选地，所述分词工具为jieba分词工具，但不限于为此分词工具。

利用所述分词工具对格式调整后的词条进行分词，获得第一词语集；

从所述第一词语集中提取属于用户词典的核心词的词语作为待验相关词{a₁,…,a_n}，获得待验相关词集A＝{a₁,…,a_n}。需要说明的是，可通过分词工具或通过本简历搜索装置添加用户词典，利用词典提供的核心词，从所述第一词语集中提取核心词作为待验相关词。

S22，对于所述待验相关词集A＝{a₁,…,a_n}中的每一个待验相关词，根据所述待验相关词，从所述词条数据库中获取包含所述待验相关词的词条，并对所述待验相关词的词条进行分词和筛选，获得所述待验相关词的对照词集；

需要说明的是，此步骤S22与上一个步骤S21的具体实施过程相同，只是区别在于步骤S21中的关键词变为待验相关词{a₁,…,a_n}，然后将所获得待验相关词a_i的待验相关词集B_ai＝{b_i1,…,b_in}作为待验相关词a_i的对照词集，因而在此不再赘述。

S23，当判定所述待验相关词a_i的对照词集B_ai＝{b_i1,…,b_in}与所述待验相关词集A＝{a₁,…,a_n}的交集的绝对值r大于筛选阈值p时，所述待验相关词a_i为所述关键词的相关词，获得相关词集A′＝{a_j},且j∈{1,…,n}、|A′|≤n、|A∩B_aj|>p；其中，所述绝对值r作为所述相关词在所述相关词集中具有的相关度。

需要说明的是，通过上述步骤S21、S22和S23来获取关键词的相关词集，即利用通关键词的相关词与该相关词的相关词进行比较匹配来选取相关词，并根据匹配值(上述绝对值)来确定选取相关词的相关度，能滤除与关键词无关的噪音词，提高获取下位相关词的效率。另一方面，由于词条数据库，优选为论文数据库，是即时更新的，则从词条数据库中获得的相关词既具有即时性，又能围绕关键词进行拓展描述。

进一步地，上述步骤S3的具体实施方式为：

需要说明的是，计算相关词集中每个相关词的基准分值的目的是将相关词的相关度基于同一个基准，以一个分值的形式，表示该相关词与关键词的相关程度，该基准值优选为r_max-r_min+1；第一权重公式采用对数形式的公式，在基准分值总值增长过快时，关键词的权重值仍保持缓和增长，因而，可以在相关词相对较多的情况下，避免关键词所占权重过大这种情况的出现；在进行相关词的权重计算时，分别采用第二权重公式和第三权重公式进行计算，是考虑到当相关词的基准分值过大和过小这两种情况出现时，避免计算出该相关词的权重值大于关键词的权重值，或者是大大小于关键词的权重值，也就是说在检索简历过程中，能避免相关词过多把关键词淹没、以及出现关键词过于突出的情况；对于权重系数的设置，可由实际情况决定，一般取值为2或4。

再进一步地，上述步骤S3的具体实施方式中的“在所述判断所述第i个相关词的基准分值是否大于W_A/n”之前，还包括：

根据均值公式计算基准分值均值其中，为所述相关词集中的相关词的相关度的平均值；

若是，通过更新公式更新所述第i个相关词的基准分值S_i。

需要说明的是，将该相关词集中的相关词的相关度均值基于同一个基准，且该基准与上述基准相同，目的是以一个分值的形式，表示该相关词集与关键词的平均相关程度；当一个相关词与关键词的相关程度(即基准分值)大于该相关词集与关键词的平均相关程度(平均分值)时，可将该相关词与关键词的相关程度，与该相关词集与关键词的平均相关程度这两个相关程度之间的差异值放大10倍，作为该相关词与关键词的相关程度的基准分值；反之，则保持该相关词与关键词的相关程度的原基准分值，这种方式更能确切地表达该相关词与关键词的相关程度，使得相关词与关键词之间的关系更为合理。

更进一步地，上述步骤S4的具体实施方式为：

需要说明的是，一般采用的搜索引擎为solr搜索引擎，则上述权重关联格式，可依据如下格式进行关联：关键词^关键词权重、相关词1^相关词1权重、相关词2^相关词2权重……

实施本发明实施例的简历搜索方法，用户只需输入关键词，即可获得与该关键词相关的相关词，并确定相关词与该关键词的相关程度，满足相关词的时效性要求，能在检索简历过程避免出现与该关键词对应领域的过时的技能对应的简历。另外，通过计算出关键词和相关词在搜索简历过程中所占的权重值，则在搜索过程中可以更准确地找到与关键词对应领域下匹配的简历，使得检索出来的简历更为合理，即提高简历搜索的准确度。

参见图3，是本发明提供的简历搜索装置的一个实施例的结构示意图，该简历搜索装置能实现上述简历搜索方法的全部流程，其结构具体如下：

接收模块10，用于接收用于从简历数据库中进行简历搜索的关键词；

相关词集获取模块20，用于根据所述关键词，分别从词条数据库中获取所述关键词的待验相关词集和所述待验相关词集中每一个待验相关词的对照词集，并将所述每一个待验相关词的对照词集与所述待验相关词集进行比较获取相关词集和所述相关词集中每一相关词的相关度；其中，所述相关度表示为相关词与所述关键词的相关程度；

权重计算模块30，用于根据每一个相关词的相关度，计算出在进行简历搜索时所述关键词所占的权重值和所述每一个相关词所占的权重值；

搜索模块40，用于将所述关键词、所述关键词所占的权重值、所述每一个相关词和所述每一个相关词所占的权重值提交给搜索引擎，以从所述简历数据库中搜索出简历。

进一步地，参见图4，是本发明提供的简历搜索装置的相关词集获取模块的一个实施例的结构示意图；该相关词集获取模块20具体包括：

待验相关词集单元21，用于根据所述关键词从词条数据库中获取包含所述关键词的词条，并对所述词条进行分词和筛选，获得待验相关词集；

对照词集单元22，用于对于所述待验相关词集中的每一个待验相关词，根据所述待验相关词从所述词条数据库中获取包含所述待验相关词的词条，并对所述待验相关词的词条进行分词和筛选，获得所述待验相关词的对照词集；

判断获取单元23，用于当判定所述待验相关词的对照词集与所述待验相关词集的交集的绝对值大于筛选阈值时，所述待验相关词为所述关键词的相关词，获得相关词集；其中，所述绝对值作为所述相关词与所述关键词的相关度。

再进一步地，参见图5，是本发明提供的简历搜索装置的权重计算模块的一个实施例的结构示意图；该权重计算模块30具体包括：

基准分值计算单元31，用于根据基准分值公式计算出所述相关词集中第i个相关词的基准分值S_i；其中，r_i为所述相关词集中的第i个相关词的相关度；r_min为在所述相关词集中的所有相关词的相关度的最小值；r_max为在所述相关词集中的所有相关词的相关度的最大值；

求和计算单元32，用于对所述所有相关词的基准分值进行求和，获得基准分值总值sum；

关键词权重计算单元33，用于根据第一权重公式W_A＝5+log_1.5(sum+1)，计算出所述关键词在进行简历搜索时所占的权重值W_A；其中，A为所述关键词；

相关词权重计算单元34，用于判断所述第i个相关词的基准分值是否大于W_A/n；若是，则根据第二权重公式计算出所述第i个相关词在进行简历搜索时所占的权重值W_i；若否，则根据第三权重公式计算出所述第i个相关词在进行简历搜索时所占的权重值W_i；其中，n为第二权重系数，k为所述相关词集中的相关词的数量。

再进一步地，所述权重计算模块30还包括：

均值计算单元35，用于在所述判断所述第i个相关词的基准分值是否大于W_A/n之前，根据均值公式计算基准分值均值其中，为所述相关词集中的所有相关词的相关度的平均值；

判断单元36，用于对于所述相关词集中的第i个相关词，判断所述第i个相关词的基准分值S_i是否大于所述基准分值均值

更新单元37，用于当判断所述第i个相关词的基准分值S_i是大于所述基准分值均值时，通过更新公式更新所述第i个相关词的基准分值S_i。

更进一步地，参见图6，是本发明提供的简历搜索装置的搜索模块的一个实施例的结构示意图，该搜索模块40具体包括：

权重相联单元41，用于根据搜索引擎的权重关联格式，将所述关键词所占的权重值和所述关键词相关联作为第一组合，以及将所述每一个相关词所占的权重值与其对应的相关词相关联作为第二组合；

搜索显示单元42，用于将所述第一组合和所述第二组合提交给搜索引擎，以供所述搜索引擎从所述简历数据库中搜索出简历，并根据所述搜索引擎内置的排序算法显示搜索出的简历；其中，所述简历中包含的所述关键词和所述每一个相关词以高亮形式显示。

实施本发明实施例提供的简历搜索装置，能用户只需输入关键词，即可获得与该关键词相关的相关词，并确定相关词与该关键词的相关程度，满足相关词的时效性要求，能在检索简历过程避免出现与该关键词对应领域的过时的技能对应的简历。另外，通过区分关键词和相关词在简历搜索过程中所占的权重值，在检索过程中可以更准确地找到与关键词对应领域下匹配的简历，使得检索出来的简历更为合理，提高简历搜索的准确度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种简历搜索方法，其特征在于，包括：

接收用于从简历数据库中进行简历搜索的关键词；

判断所述第i个相关词的基准分值是否大于W_A/n；若是，则根据第二权重公式计算出所述第i个相关词在进行简历搜索时所占的权重值W_i；若否，则根据第三权重公式计算出所述第i个相关词在进行简历搜索时所占的权重值W_i；其中，n为权重系数，k为所述相关词集中的相关词的数量；

2.如权利要求1所述的简历搜索方法，其特征在于，所述根据所述关键词，分别从词条数据库中获取所述关键词的待验相关词集和所述待验相关词集中每一个待验相关词的对照词集，并将所述每一个待验相关词的对照词集与所述待验相关词集进行比较获取相关词集和所述相关词集中每一相关词的相关度，具体为：

3.如权利要求1所述的简历搜索方法，其特征在于，在所述判断所述第i个相关词的基准分值是否大于W_A/n之前，还包括：

根据均值公式计算基准分值均值其中，为所述相关词集中的所有相关词的相关度的平均值；

若是，通过更新公式更新所述第i个相关词的基准分值S_i。

4.如权利要求1所述的简历搜索方法，其特征在于，所述将所述关键词、所述关键词所占的权重值、所述每一个相关词和所述每一个相关词所占的权重值提交给搜索引擎，以从所述简历数据库中搜索出简历，具体为：

5.一种简历搜索装置，其特征在于，包括：

其中，所述权重计算模块具体包括：

6.如权利要求5所述的简历搜索装置，其特征在于，所述相关词集获取模块具体包括：

7.如权利要求5所述的简历搜索装置，其特征在于，所述权重计算模块还包括：

判断单元，用于对于所述相关词集中的第i个相关词，判断所述第i个相关词的基准分值S_i是否大于所述基准分值均值

8.如权利要求5所述的简历搜索装置，其特征在于，所述搜索模块具体包括：