CN112115705B - 一种电子简历的筛选方法及装置 - Google Patents
一种电子简历的筛选方法及装置 Download PDFInfo
- Publication number
- CN112115705B CN112115705B CN202011008492.0A CN202011008492A CN112115705B CN 112115705 B CN112115705 B CN 112115705B CN 202011008492 A CN202011008492 A CN 202011008492A CN 112115705 B CN112115705 B CN 112115705B
- Authority
- CN
- China
- Prior art keywords
- resume
- data
- preset
- screened
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012216 screening Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 73
- 238000012545 processing Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000009826 distribution Methods 0.000 claims description 30
- 238000004458 analytical method Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000007115 recruitment Effects 0.000 abstract description 8
- 239000013598 vector Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012067 mathematical method Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012797 qualification Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种电子简历的筛选方法及装置,通过对待筛选电子简历进行解析,得到待筛选电子简历对应的目标岗位以及多个预设字段数据,多个预设字段可以被配置为最反映招聘需求的字段。通过根据每个预设字段数据的类型,分别对每个预设字段数据进行结构化特征提取和/或半结构化特征提取和/或非结构化特征提取,进一步得到全面、准确反映应聘人特征的特征数据,然后将待筛选电子简历的特征数据输入到以通过目标岗位筛选的电子简历的特征数据为正样本、以未通过目标岗位筛选的电子简历的特征数据为负样本训练得到的简历筛选模型中进行处理,根据简历筛选模型的处理结果实现对电子简历的快速、准确筛选,提高了电子简历的筛选效率。
Description
技术领域
本发明涉及计算机技术领域,更具体的,涉及一种电子简历的筛选方法及装置。
背景技术
近年来,随着信息化技术的发展,职位招聘的过程变得互联网化和数字化,借助网络技术和相应招聘平台,各组织通过发布招聘信息可以迅速获得大量电子简历。
但是,面对海量的电子简历,若采用人工筛选的方式,工作量大且效率低下。因此,如何从海量电子简历中快速、准确的筛选出满足岗位要求的电子简历成为本领域亟待解决的技术问题。
发明内容
有鉴于此,本发明提供了一种电子简历的筛选方法及装置,提高了电子简历的筛选效率。
为了实现上述发明目的,本发明提供的具体技术方案如下:
一种电子简历的筛选方法,包括:
获取待筛选电子简历;
对所述待筛选电子简历进行解析,得到所述待筛选电子简历对应的目标岗位以及多个预设字段数据;
根据每个所述预设字段数据的类型对应的特征提取方式,分别对每个所述预设字段数据进行特征提取,得到所述待筛选电子简历的特征数据,所述特征提取方式包括:结构化特征提取、半结构化特征提取和非结构化特征提取;
将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果,所述目标岗位对应的简历筛选模型的训练数据中的正样本为通过所述目标岗位筛选的电子简历的特征数据,负样本为未通过所述目标岗位筛选的电子简历的特征数据。
可选的,所述对所述待筛选电子简历进行解析,得到所述待筛选电子简历对应的目标岗位以及多个预设字段数据,包括:
提取所述待筛选电子简历的文本信息;
从所述文本信息中提取岗位数据,确定所述待筛选电子简历对应的所述目标岗位;
判断所述文本信息的格式是否满足预设简历格式;
若满足所述预设简历格式,根据所述预设简历格式中预设字段与位置之间的对应关系,从所述文本信息中提取多个所述预设字段数据;
若不满足所述预设简历格式,采用基于规则与关键字的方式从所述文本信息中提取多个所述预设字段数据。
可选的,当所述预设字段数据的类型为结构化数据时,对所述预设字段数据进行结构化特征提取,包括:
提取所述预设字段数据中的预设属性特征数据;
对所述预设属性特征数据进行特征编码,得到所述预设字段数据的特征数据。
可选的,当所述预设字段数据的类型为半结构化数据时,对所述预设字段数据进行半结构化特征提取,包括:
对所述预设字段数据进行命名实体识别,得到多个实体;
根据预先设定的实体与特征名称的对应关系以及实体与特征值的对应关系,确定每个特征名称对应的特征值;
对每个特征名称对应的特征值进行特征编码,得到所述预设字段数据的特征数据。
可选的,当所述预设字段数据的类型为非结构化数据时,对所述预设字段数据进行非结构化特征提取,包括:
对所述预设字段进行分词处理、新词发现处理和去停用词处理,得到多个成词;
对多个成词进行聚类处理,得到多个词类;
对每个词类进行正负样本上的分布统计,根据每个词类的分布统计结果剔除低区分度词;
根据JS散度算法,计算剔除低区分度词后的每个词类的JS散度,并将JS散度大于预设值的词类确定为待提取词类;
分别计算每个待提取词类的词频得分,得到所述预设字段的特征数据。
可选的,所述将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果,包括:
判断所述待筛选电子简历的特征数据是否符合预先设定的前置规则;
若符合所述前置规则,将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果。
一种电子简历的筛选装置,包括:
简历获取单元,用于获取待筛选电子简历;
简历解析单元,用于对所述待筛选电子简历进行解析,得到所述待筛选电子简历对应的目标岗位以及多个预设字段数据;
特征提取单元,用于根据每个所述预设字段数据的类型对应的特征提取方式,分别对每个所述预设字段数据进行特征提取,得到所述待筛选电子简历的特征数据,所述特征提取方式包括:结构化特征提取、半结构化特征提取和非结构化特征提取;
简历筛选单元,用于将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果,所述目标岗位对应的简历筛选模型的训练数据中的正样本为通过所述目标岗位筛选的电子简历的特征数据,负样本为未通过所述目标岗位筛选的电子简历的特征数据。
可选的,所述简历解析单元,具体用于:
提取所述待筛选电子简历的文本信息;
从所述文本信息中提取岗位数据,确定所述待筛选电子简历对应的所述目标岗位;
判断所述文本信息的格式是否满足预设简历格式;
若满足所述预设简历格式,根据所述预设简历格式中预设字段与位置之间的对应关系,从所述文本信息中提取多个所述预设字段数据;
若不满足所述预设简历格式,采用基于规则与关键字的方式从所述文本信息中提取多个所述预设字段数据。
可选的,当所述预设字段数据的类型为结构化数据时,所述特征提取单元,具体用于:
提取所述预设字段数据中的预设属性特征数据;
对所述预设属性特征数据进行特征编码,得到所述预设字段数据的特征数据。
可选的,当所述预设字段数据的类型为半结构化数据时,所述特征提取单元,具体用于:
对所述预设字段数据进行命名实体识别,得到多个实体;
根据预先设定的实体与特征名称的对应关系以及实体与特征值的对应关系,确定每个特征名称对应的特征值;
对每个特征名称对应的特征值进行特征编码,得到所述预设字段数据的特征数据。
可选的,当所述预设字段数据的类型为非结构化数据时,所述特征提取单元,具体用于:
对所述预设字段进行分词处理、新词发现处理和去停用词处理,得到多个成词;
对多个成词进行聚类处理,得到多个词类;
对每个词类进行正负样本上的分布统计,根据每个词类的分布统计结果剔除低区分度词;
根据JS散度算法,计算剔除低区分度词后的每个词类的JS散度,并将JS散度大于预设值的词类确定为待提取词类;
分别计算每个待提取词类的词频得分,得到所述预设字段的特征数据。
可选的,所述简历筛选单元,具体用于:
判断所述待筛选电子简历的特征数据是否符合预先设定的前置规则;
若符合所述前置规则,将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果。
相对于现有技术,本发明的有益效果如下:
本发明公开的一种电子简历的筛选方法,通过对待筛选电子简历进行解析,得到待筛选电子简历对应的目标岗位以及多个预设字段数据,多个预设字段可以被配置为最反映招聘需求的字段。通过根据每个预设字段数据的类型,分别对每个预设字段数据进行结构化特征提取和/或半结构化特征提取和/或非结构化特征提取,进一步得到全面、准确反映应聘人特征的特征数据,然后将待筛选电子简历的特征数据输入到以通过目标岗位筛选的电子简历的特征数据为正样本、以未通过目标岗位筛选的电子简历的特征数据为负样本训练得到的简历筛选模型中进行处理,根据简历筛选模型的处理结果实现对电子简历的快速、准确筛选,提高了电子简历的筛选效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种电子简历的筛选方法的流程示意图;
图2为本发明实施例公开的一种电子简历解析方法的流程示意图;
图3为本发明实施例公开的一种非结构化特征提取方法的流程示意图;
图4为本发明实施例公开的某金融岗位正负样本简历在“银行类”相关词语上的得分分布示意图;
图5为本发明实施例公开的去除0分数据后的分布结果示意图;
图6为本发明实施例公开的一种电子简历的筛选装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本方明实施例公开了一种电子简历的筛选方法,请参阅图1,该电子简历的筛选方法包括以下步骤:
S101:获取待筛选电子简历;
待筛选电子简历可以为doc、docx、PDF、HTML等格式。
S102:对待筛选电子简历进行解析,得到待筛选电子简历对应的目标岗位以及多个预设字段数据;
请参阅图2,对待筛选电子简历进行解析具体包括以下步骤:
S201:提取待筛选电子简历的文本信息;
具体的,若待筛选电子简历为doc、docx等文本格式,直接提取待筛选电子简历的文本信息,若待筛选电子简历为PDF、HTML等非文本格式,需要首先将待筛选电子简历转换为文本信息,再提取该文本信息。
S202:从文本信息中提取岗位数据,确定待筛选电子简历对应的目标岗位;
S203:判断文本信息的格式是否满足预设简历格式;
若满足预设简历格式,S204:根据预设简历格式中预设字段与位置之间的对应关系,从文本信息中提取多个预设字段数据;
预设简历格式可以为预先设定的包括预设字段的简历格式,每个预设字段通过标识文字进行标识,预设字段与位置之间具有对应关系。
若不满足预设简历格式,S205:采用基于规则与关键字的方式从文本信息中提取多个预设字段数据。
预设字段数据可以为基本数据、教育经历数据、工作经历数据、专业技能数据、资质证书数据、奖励荣誉数据等。
具体来说,例如工作经历数据部分,大多数简历都会以“工作经验”、“工作经历”等字符标识此部分内容,标识文字相对固定,因此可以通过总结正负样本中相应标识文字集合来构建识别规则,可以比较准确地提取出相应信息。下表为某销售岗位简历各字段标识文字集合示例。
此外,基本数据在有些简历中并没有单独划分为一个段落,而是直接列举了各项人口学特征,如姓名、性别、年龄、出生日期、民族、籍贯、住址、政治面貌、在职状态、最高学历、最高学位等信息。这些信息同样具有各自的前置标识文本,如出生日期信息之前通常标识有“出生年月”、“生日”等文字,因此这些信息也可以直接提取。
同样的,我们可以基于样本数据总结其他各部分的标识文字来构建相应的识别规则,用于定位相应信息。
S103:根据每个预设字段数据的类型对应的特征提取方式,分别对每个预设字段数据进行特征提取,得到待筛选电子简历的特征数据,特征提取方式包括:结构化特征提取、半结构化特征提取和非结构化特征提取;
以下分别介绍结构化特征提取、半结构化特征提取和非结构化特征提取。
一、结构化特征提取
结构化数据主要包括基本信息,此类内容主要包括个人信息等人口学数据,结构明显,可以提取出姓名、性别、年龄、出生日期、民族、籍贯、住址、政治面貌、在职状态、最高学历、最高学位等属性信息,并进行格式统一。
根据目标岗位需要,可以选择其中的部分属性特征数据作为预设属性特征数据。
二、半结构化特征提取
半结构化数据主要包括教育经历信息。该类信息通常会包括学校名称、专业名称、起止年限、学历学位、绩点、所学课程等等。通常此部分信息会具有一定的结构性,可以通过规则方法或命名实体识别方法提取出学校名称、专业名称和相应学历等预先设定的特征名称相关信息,具体的,对半结构化字段数据进行命名实体识别,得到多个实体,再根据预先设定的实体与特征名称的对应关系以及实体与特征值的对应关系,确定每个特征名称对应的特征值,最后对每个特征名称对应的特征值进行特征编码,得到半结构化字段数据的特征数据。
下表为一个示例的教育经历信息对应特征表,可根据需要进行特征衍生和特征值调整。
三、非结构化特征提取
非结构化数据典型代表为工作经历数据,通常此类数据包含大段自然语言表述的工作内容描述,很难通过规则方法识别其中的特征。目前业界的一些方法是利用字、词向量直接对这些自然语言文本进行语义向量编码,但受限于语义编码技术的能力,尤其是长文本语义编码的能力所限,该方法很难达到人类的语义理解水平,且容易被冗余的信息描述所干扰,解释性也不强。本发明实施例将提供一种针对此部分非结构化数据进行特征分析和提取的方法,可以较好地捕获特征,并具备较强的解释性。
本特征提取方法的总体思路是从样本空间触发,通过对正负样本简历文字进行数学模型分析,从词一级通过数学方法发现能够区分正负样本的关键词语集合,即能够区分可通过筛选简历和应被拒绝简历的关键词或短语,作为所提取的特征,最终用于提取电子简历的特征。请参阅图3,本发明实施例公开的一种非结构化特征提取方法具体包括以下步骤:
S301:对预设字段进行分词处理、新词发现处理和去停用词处理,得到多个成词;
将电子简历中的非结构化数据使用分词工具进行分词,并去除常用的无意义的停用词。考虑到通用的分词工具对于简历中可能涉及到的专有名词术语不能很好切分,此处还需要进行新词发现。新词发现采用基于互信息和左右信息熵的方法来实现。
互信息(PMI)主要考虑相邻两个字词之间的凝聚度,通过比较相邻两个字词共现的概率和两个字词单独出现的概率,来判断这两个字词是否是一个成词,计算公式如下所示:
其中A、B是相邻的两个词,P(A,B)为两者共现的概率,P(A)、P(B)分别为两者单独出现的概率,概率可以通过样本空间中的词频来拟合。计算出结果后,与预先设定好的阈值进行比较,大于这个阈值,则表示可能为新词,否则为两个单独的词。
除互信息外,还需要考虑左右信息熵,其侧重于词语组合的自由程度。一个固定的新词,其与前后文字的组合应该是非常丰富的,若出现了非常固定的组合,则表明该词应该进一步合并。例如成词“金融学”其上文(左侧)组合可以是“学习”、“研究”、“应用”等多种词语,下文(右侧)组合则可能包括“方向”、“专业”、“领域”等许多词语,因此该词语适合作为一个成词;反之,“人工智”三个字左侧可以与“学习”、“利用”等很多词语进行组合,但右侧通常只能搭配“能”字,右侧组合自由度很低,需要进一步合并形成新词。具体来说,可以通过下述条件熵公式来计算比较:
其中A是候选词,B为其相邻的所有上文(左词)或所有下文(右词),P(B|A)为条件概率,可通过样本空间的词频进行拟合。按上述公式分别计算出左熵和右熵后,通常取两者的较小值,与事先定义的阈值进行比较,大于阈值则表明A是一个成词,小于则说明还可以继续合并。
例如在金融类高级销售岗位招聘的简历中,可以通过新词发现得到下述新词:
“高净值,尽职调查,私募基金,商业计划书,置业顾问,私募股权,区块链,开发新客户,维护客户关系,公募基金,海外置业,维护老客户,风险管控,从业资格证,综合柜员,招拍挂,新三板,固收类…”
通过以上的分词、新词发现、去停用词之后,可以对样本空间的简历样本,其非结构化数据进行切分成词。
S302:对多个成词进行聚类处理,得到多个词类;
分词得到的词表维度很高,其中还包括了近义词、同领域词等内容,因此直接用这些词来构建分布统计工作量很大,且效果不明显,因此,此处先将各词进行聚类,将词语划分成几个主要特征域进行后续分析。
词聚类操作主要依赖于基于词向量的无监督聚类算法。首先可以基于word2vec(可选fastText、GloVe)词向量模型,在通用语料上进行训练后,在专业领域数据和电子简历数据上进行进一步训练,得到各词的词向量表达。
然后使用Kmeans算法对词语进行聚类,对于类目数即初始值K的选择,设定范围为10-30,分别聚类,并使用轮廓系数进行聚类效果评价,将上一步分词得到结果聚成多个词类,每类词语以能共同表述某方面特征为宜。例如,金融高级销售职位样本简历工作经历部分词语聚类后部分结果如下:
S303:对每个词类进行正负样本上的分布统计,根据每个词类的分布统计结果剔除低区分度词;
在聚类处理得到词类后,可以统计每类词语在正负样本上分布的情况,供后续评价分布的差异性。
词类分布统计过程如下:
在每个词类上,剔除正负样本分布差异不大的词(可记为无区分度词),和小概率词,统称为低区分度词,以期得到高区分度词,这样对后续分析来说,起到了去除噪音的作用。
具体做法为:每个类别上,分别对正负样本统计出每个词的词频数、词频率、样本覆盖数、样本覆盖率,剔除掉正负样本覆盖率差值比小于t1且词频率小于t2或样本覆盖率小于t3的词。其中t1、t2、t3为预设的阈值,例如,可令t1=0.5,t2=0.0001,t3=0.008。
对每一类词,给出其在每一个样本上的得分S,表明该电子简历中涉及到此类词所代表特征的程度。此处的分值计算方法采用了基于词频统计的方法,第i个样本xi在第k类词ck上的词频得分的具体计算方式如下:
其中count(a)表示a中词的数量,xi∩ck表示样本xi中,属于第k类词ck的词的集合。该分数映射到0~10分之间。
对每一类词,计算出该类词分别在正样本集合上每个样本的得分、正样本集合上每个样本的得分,并进行分箱,归纳到0~10区间内的整数分值上。之后,分别统计正样本和负样本的“分数-样本占比”分布情况,绘制成图进行可视化分析。
实例如图4所示,为某金融销售岗位正负样本简历在“银行类”相关词语上的得分分布。横轴为得分,纵轴为对应样本在正、负样本集合上的占比。
可选地,如图4实例所示,显然0分数据较多,因此为便于分析,我们可将0分数据去除来进行细致分析。图5即为去除0分数据后的分布结果,显然更便于分析。
S304:根据JS散度算法,计算剔除低区分度词后的每个词类的JS散度,并将JS散度大于预设值的词类确定为待提取词类;
词类在正负样本上分布的不同代表了该词类特征对于区分正负样本的能力。从图像上一定程度可以发现那些区分能力强的词类特征,但使用数学方法来进行科学分析显然更具说服力。
此处通常采用基于KL散度的算法来衡量样本分布的差异性,KL散度对于两个概率分布P(正样本)和Q(负样本)的计算公式如下:
注意KL散度是不对称的,即交换P和Q的位置将得到不一样的结果,因此本发明实施例使用基于KL散度的JS散度来衡量正负样本分布的差异性。JS散度的公式如下:
其中,JS散度的取值范围在0-1之间,完全相同时为0,且JS散度是对称的。因此算出各类词在正负样本上分布的JS散度后,其值越大,表示该词类越具备将正负样本分开的能力。可以选作特征。可预先设定相应的阈值来进行比较判断,大于该阈值的词类确定为待提取词类。
例如两组分布数据(0.65,0.25,0.07,0.03)、(0.1,0.2,0.3,0.4)其JS散度约为0.247,具备一定的区分性。
S305:分别计算每个待提取词类的词频得分,得到预设字段的特征数据。
每个待提取词类的词频得分的计算方法如下:
其中count(a)表示a中词的数量,xi∩ck表示样本xi中,属于第k类词ck的词的集合。该分数映射到0~10分之间。
S104:将待筛选电子简历的特征数据输入到目标岗位对应的简历筛选模型中进行处理,得到表示待筛选电子简历是否通过筛选的处理结果,目标岗位对应的简历筛选模型的训练数据中的正样本为通过目标岗位筛选的电子简历的特征数据,负样本为未通过目标岗位筛选的电子简历的特征数据。
具体的,简历筛选模型为统计学习模型,如逻辑回归模型,相比较于神经网络模型或其他集成学习模型而言,其模型简单、稳定,样本需求量少,并具备良好的解释性,各特征对应的参数权重很好地表征了该特征的重要程度,在进行预测的同时更方便对业务环节进行深入分析,比较符合简历分析业务的数据基础和业务需求。
可选地,在追求准确度的目的下,可选择XgBoost等集成模型;若具备较多的样本,亦可选择神经网络模型。
确定下模型后,使用正负样本特征进行训练,得到最终预测模型。目标岗位对应的简历筛选模型的训练数据中的正样本为通过目标岗位筛选的电子简历的特征数据,负样本为未通过目标岗位筛选的电子简历的特征数据。正负样本的特征提取方法同上,在此不再赘述。模型通常将输出0~1之间的一个评分。可预先设定一个阈值来对评分进行业务判断,大于等于该阈值表示通过简历筛选,小于则表示未通过简历筛选。阈值默认情况下为0.5,但可根据实际情况调整该值:阈值降低,通过的候选简历增多,但可能混有更多低匹配的简历;阈值提高,简历筛选更准确,但通过的候选简历减少。
优选的,在模型训练阶段,基于每类特征分析相应的正负样本比,大于一定阈值或小于一定阈值的特征可提取出作为前置规则。
例如,若教育经历中专业特征不在{统计学,数学,计算机科学}集合内的样本占正样本比例低于2%,那么我们可以推测本岗位招聘专业限定在{统计学,数学,计算机科学}集合之中,因此可以提炼出一条前置规则。
此外,除了从样本数据中分析出的前置规则,实际使用中业务人员可以随时利用先验知识构建新的前置规则,加入规则集中,以充分满足实际业务需求。
在此基础上,判断待筛选电子简历的特征数据是否符合预先设定的前置规则,若不符合前置规则,排除该电子简历;若符合前置规则,将待筛选电子简历的特征数据输入到目标岗位对应的简历筛选模型中进行处理,得到表示待筛选电子简历是否通过筛选的处理结果。由此,本发明提高了电子简历的筛选效率。
基于上述实施例公开的一种电子简历的筛选方法,本实施例对应公开了一种电子简历的筛选装置,请参阅图6,该装置包括:
简历获取单元100,用于获取待筛选电子简历;
简历解析单元200,用于对所述待筛选电子简历进行解析,得到所述待筛选电子简历对应的目标岗位以及多个预设字段数据;
特征提取单元300,用于根据每个所述预设字段数据的类型对应的特征提取方式,分别对每个所述预设字段数据进行特征提取,得到所述待筛选电子简历的特征数据,所述特征提取方式包括:结构化特征提取、半结构化特征提取和非结构化特征提取;
简历筛选单元400,用于将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果,所述目标岗位对应的简历筛选模型的训练数据中的正样本为通过所述目标岗位筛选的电子简历的特征数据,负样本为未通过所述目标岗位筛选的电子简历的特征数据。
可选的,所述简历解析单元200,具体用于:
提取所述待筛选电子简历的文本信息;
从所述文本信息中提取岗位数据,确定所述待筛选电子简历对应的所述目标岗位;
判断所述文本信息的格式是否满足预设简历格式;
若满足所述预设简历格式,根据所述预设简历格式中预设字段与位置之间的对应关系,从所述文本信息中提取多个所述预设字段数据;
若不满足所述预设简历格式,采用基于规则与关键字的方式从所述文本信息中提取多个所述预设字段数据。
可选的,当所述预设字段数据的类型为结构化数据时,所述特征提取单元300,具体用于:
提取所述预设字段数据中的预设属性特征数据;
对所述预设属性特征数据进行特征编码,得到所述预设字段数据的特征数据。
可选的,当所述预设字段数据的类型为半结构化数据时,所述特征提取单元300,具体用于:
对所述预设字段数据进行命名实体识别,得到多个实体;
根据预先设定的实体与特征名称的对应关系以及实体与特征值的对应关系,确定每个特征名称对应的特征值;
对每个特征名称对应的特征值进行特征编码,得到所述预设字段数据的特征数据。
可选的,当所述预设字段数据的类型为非结构化数据时,所述特征提取单元300,具体用于:
对所述预设字段进行分词处理、新词发现处理和去停用词处理,得到多个成词;
对多个成词进行聚类处理,得到多个词类;
对每个词类进行正负样本上的分布统计,根据每个词类的分布统计结果剔除低区分度词;
根据JS散度算法,计算剔除低区分度词后的每个词类的JS散度,并将JS散度大于预设值的词类确定为待提取词类;
分别计算每个待提取词类的词频得分,得到所述预设字段的特征数据。
可选的,所述简历筛选单元400,具体用于:
判断所述待筛选电子简历的特征数据是否符合预先设定的前置规则;
若符合所述前置规则,将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果。
本实施例公开的一种电子简历的筛选装置,通过对待筛选电子简历进行解析,得到待筛选电子简历对应的目标岗位以及多个预设字段数据,多个预设字段可以被配置为最反映招聘需求的字段。通过根据每个预设字段数据的类型,分别对每个预设字段数据进行结构化特征提取和/或半结构化特征提取和/或非结构化特征提取,进一步得到全面、准确反映应聘人特征的特征数据,然后将待筛选电子简历的特征数据输入到以通过目标岗位筛选的电子简历的特征数据为正样本、以未通过目标岗位筛选的电子简历的特征数据为负样本训练得到的简历筛选模型中进行处理,根据简历筛选模型的处理结果实现对电子简历的快速、准确筛选,提高了电子简历的筛选效率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种电子简历的筛选方法,其特征在于,包括:
获取待筛选电子简历;
对所述待筛选电子简历进行解析,得到所述待筛选电子简历对应的目标岗位以及多个预设字段数据;
根据每个所述预设字段数据的类型对应的特征提取方式,分别对每个所述预设字段数据进行特征提取,得到所述待筛选电子简历的特征数据,所述特征提取方式包括:结构化特征提取、半结构化特征提取和非结构化特征提取;
其中,当所述预设字段数据的类型为非结构化数据时,对所述预设字段数据进行非结构化特征提取,包括:对所述预设字段进行分词处理、新词发现处理和去停用词处理,得到多个成词;对多个成词进行聚类处理,得到多个词类;对每个词类进行正负样本上的分布统计,根据每个词类的分布统计结果剔除低区分度词,所述剔除低区分度词包括剔除正负样本分布差异不大的词和小概率词;根据JS散度算法,计算剔除低区分度词后的每个词类的JS散度,并将JS散度大于预设值的词类确定为待提取词类;分别计算每个待提取词类的词频得分,得到所述预设字段的特征数据;
将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果,所述目标岗位对应的简历筛选模型的训练数据中的正样本为通过所述目标岗位筛选的电子简历的特征数据,负样本为未通过所述目标岗位筛选的电子简历的特征数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述待筛选电子简历进行解析,得到所述待筛选电子简历对应的目标岗位以及多个预设字段数据,包括:
提取所述待筛选电子简历的文本信息;
从所述文本信息中提取岗位数据,确定所述待筛选电子简历对应的所述目标岗位;
判断所述文本信息的格式是否满足预设简历格式;
若满足所述预设简历格式,根据所述预设简历格式中预设字段与位置之间的对应关系,从所述文本信息中提取多个所述预设字段数据;
若不满足所述预设简历格式,采用基于规则与关键字的方式从所述文本信息中提取多个所述预设字段数据。
3.根据权利要求1所述的方法,其特征在于,当所述预设字段数据的类型为结构化数据时,对所述预设字段数据进行结构化特征提取,包括:
提取所述预设字段数据中的预设属性特征数据;
对所述预设属性特征数据进行特征编码,得到所述预设字段数据的特征数据。
4.根据权利要求1所述的方法,其特征在于,当所述预设字段数据的类型为半结构化数据时,对所述预设字段数据进行半结构化特征提取,包括:
对所述预设字段数据进行命名实体识别,得到多个实体;
根据预先设定的实体与特征名称的对应关系以及实体与特征值的对应关系,确定每个特征名称对应的特征值;
对每个特征名称对应的特征值进行特征编码,得到所述预设字段数据的特征数据。
5.根据权利要求1所述的方法,其特征在于,所述将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果,包括:
判断所述待筛选电子简历的特征数据是否符合预先设定的前置规则;
若符合所述前置规则,将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果。
6.一种电子简历的筛选装置,其特征在于,包括:
简历获取单元,用于获取待筛选电子简历;
简历解析单元,用于对所述待筛选电子简历进行解析,得到所述待筛选电子简历对应的目标岗位以及多个预设字段数据;
特征提取单元,用于根据每个所述预设字段数据的类型对应的特征提取方式,分别对每个所述预设字段数据进行特征提取,得到所述待筛选电子简历的特征数据,所述特征提取方式包括:结构化特征提取、半结构化特征提取和非结构化特征提取;
其中,所述特征提取单元当所述预设字段数据的类型为非结构化数据时,具体用于:对所述预设字段进行分词处理、新词发现处理和去停用词处理,得到多个成词;对多个成词进行聚类处理,得到多个词类;对每个词类进行正负样本上的分布统计,根据每个词类的分布统计结果剔除低区分度词,所述剔除低区分度词包括剔除正负样本分布差异不大的词和小概率词;根据JS散度算法,计算剔除低区分度词后的每个词类的JS散度,并将JS散度大于预设值的词类确定为待提取词类;分别计算每个待提取词类的词频得分,得到所述预设字段的特征数据;
简历筛选单元,用于将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果,所述目标岗位对应的简历筛选模型的训练数据中的正样本为通过所述目标岗位筛选的电子简历的特征数据,负样本为未通过所述目标岗位筛选的电子简历的特征数据。
7.根据权利要求6所述的装置,其特征在于,所述简历解析单元,具体用于:
提取所述待筛选电子简历的文本信息;
从所述文本信息中提取岗位数据,确定所述待筛选电子简历对应的所述目标岗位;
判断所述文本信息的格式是否满足预设简历格式;
若满足所述预设简历格式,根据所述预设简历格式中预设字段与位置之间的对应关系,从所述文本信息中提取多个所述预设字段数据;
若不满足所述预设简历格式,采用基于规则与关键字的方式从所述文本信息中提取多个所述预设字段数据。
8.根据权利要求6所述的装置,其特征在于,当所述预设字段数据的类型为结构化数据时,所述特征提取单元,具体用于:
提取所述预设字段数据中的预设属性特征数据;
对所述预设属性特征数据进行特征编码,得到所述预设字段数据的特征数据。
9.根据权利要求6所述的装置,其特征在于,当所述预设字段数据的类型为半结构化数据时,所述特征提取单元,具体用于:
对所述预设字段数据进行命名实体识别,得到多个实体;
根据预先设定的实体与特征名称的对应关系以及实体与特征值的对应关系,确定每个特征名称对应的特征值;
对每个特征名称对应的特征值进行特征编码,得到所述预设字段数据的特征数据。
10.根据权利要求6所述的装置,其特征在于,所述简历筛选单元,具体用于:
判断所述待筛选电子简历的特征数据是否符合预先设定的前置规则;
若符合所述前置规则,将所述待筛选电子简历的特征数据输入到所述目标岗位对应的简历筛选模型中进行处理,得到表示所述待筛选电子简历是否通过筛选的处理结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011008492.0A CN112115705B (zh) | 2020-09-23 | 2020-09-23 | 一种电子简历的筛选方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011008492.0A CN112115705B (zh) | 2020-09-23 | 2020-09-23 | 一种电子简历的筛选方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115705A CN112115705A (zh) | 2020-12-22 |
CN112115705B true CN112115705B (zh) | 2024-06-18 |
Family
ID=73800686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011008492.0A Active CN112115705B (zh) | 2020-09-23 | 2020-09-23 | 一种电子简历的筛选方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115705B (zh) |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9886670B2 (en) * | 2014-06-30 | 2018-02-06 | Amazon Technologies, Inc. | Feature processing recipes for machine learning |
US11562286B2 (en) * | 2015-02-06 | 2023-01-24 | Box, Inc. | Method and system for implementing machine learning analysis of documents for classifying documents by associating label values to the documents |
CN106354872B (zh) * | 2016-09-18 | 2020-02-07 | 广州视源电子科技股份有限公司 | 文本聚类的方法及*** |
CN106934220B (zh) * | 2017-02-24 | 2019-07-19 | 黑龙江特士信息技术有限公司 | 面向多数据源的疾病类实体识别方法及装置 |
CN107220311B (zh) * | 2017-05-12 | 2020-12-08 | 北京理工大学 | 一种利用局部嵌入话题建模的文本表示方法 |
CN107452369B (zh) * | 2017-09-28 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN109308317A (zh) * | 2018-09-07 | 2019-02-05 | 浪潮软件股份有限公司 | 一种基于聚类的非结构化文本的热点词提取方法 |
CN109960720B (zh) * | 2019-03-21 | 2020-12-25 | 于建岗 | 针对半结构化文本的信息抽取方法 |
CN110647626B (zh) * | 2019-07-30 | 2022-05-03 | 浙江工业大学 | 基于互联网服务域的rest数据服务聚类方法 |
CN110765759B (zh) * | 2019-10-21 | 2023-05-19 | 普信恒业科技发展(北京)有限公司 | 意图识别方法及装置 |
CN110941703A (zh) * | 2019-12-03 | 2020-03-31 | 南京烽火星空通信发展有限公司 | 一种基于机器学习和模糊规则的集成简历信息抽取方法 |
CN110931128B (zh) * | 2019-12-05 | 2023-04-07 | 中国科学院自动化研究所 | 非结构化医疗文本无监督症状自动识别方法、***、装置 |
CN111242565A (zh) * | 2019-12-31 | 2020-06-05 | 广州轩辕研究院有限公司 | 一种基于智能人事模型的简历优化方法及装置 |
CN111311180B (zh) * | 2020-02-10 | 2023-03-24 | 腾讯云计算(北京)有限责任公司 | 简历筛选方法及装置 |
CN111339273A (zh) * | 2020-02-23 | 2020-06-26 | 马宇驰 | 一种对话语料的热点抽取方法 |
CN111428488A (zh) * | 2020-03-06 | 2020-07-17 | 平安科技(深圳)有限公司 | 简历数据信息解析及匹配方法、装置、电子设备及介质 |
-
2020
- 2020-09-23 CN CN202011008492.0A patent/CN112115705B/zh active Active
Non-Patent Citations (2)
Title |
---|
LDA模型在微博用户推荐中的应用;邸亮等;计算机工程;第40卷(第5期);第1页-11页 * |
基于NRL和k-means的舆情事件聚类研究;田世海等;情报科学;第39卷(第2期);第129页-136页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112115705A (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108376151B (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
Stein et al. | Intrinsic plagiarism analysis | |
WO2020062660A1 (zh) | 企业信用风险评估方法、装置、设备及存储介质 | |
US10827981B2 (en) | System and method for evaluating a cognitive load on a user corresponding to a stimulus | |
WO2018184518A1 (zh) | 微博数据处理方法、装置、计算机设备及存储介质 | |
Kiefer | Assessing the Quality of Unstructured Data: An Initial Overview. | |
CN109710766B (zh) | 一种工单数据的投诉倾向分析预警方法及装置 | |
US20200250212A1 (en) | Methods and Systems for Searching, Reviewing and Organizing Data Using Hierarchical Agglomerative Clustering | |
CN110162754B (zh) | 一种岗位描述文档的生成方法及设备 | |
CN110046264A (zh) | 一种面向手机文档的自动分类方法 | |
CN114491034B (zh) | 一种文本分类方法及智能设备 | |
CN116882414B (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
JP2010272004A (ja) | 判別装置及び判別方法、並びにコンピューター・プログラム | |
US20210117448A1 (en) | Iterative sampling based dataset clustering | |
CN116610592A (zh) | 基于自然语言处理技术的可定制软件测试评价方法及*** | |
Fritsche et al. | Deciphering professional forecasters' stories: Analyzing a corpus of textual predictions for the German economy | |
CN111222032A (zh) | 舆情分析方法及相关设备 | |
CN112115705B (zh) | 一种电子简历的筛选方法及装置 | |
JP6026036B1 (ja) | データ分析システム、その制御方法、プログラム、及び、記録媒体 | |
Kanchinadam et al. | Graph neural networks to predict customer satisfaction following interactions with a corporate call center | |
CN116205296A (zh) | 一种融合自顶向下与自底向上的abac策略工程方法 | |
CN111341404B (zh) | 一种基于ernie模型的电子病历数据组解析方法及*** | |
KR102155692B1 (ko) | 소셜 네트워크 서비스 메시지의 감정 분석을 위한 POS(part of speech) 특징기반의 감정 분석 방법 및 이를 수행하는 감정 분석 장치 | |
JP6509391B1 (ja) | 計算機システム | |
JP5946949B1 (ja) | データ分析システム、その制御方法、プログラム、および、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |