CN113627182A - 数据匹配方法、装置、计算机设备及存储介质 - Google Patents
数据匹配方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113627182A CN113627182A CN202110912447.6A CN202110912447A CN113627182A CN 113627182 A CN113627182 A CN 113627182A CN 202110912447 A CN202110912447 A CN 202110912447A CN 113627182 A CN113627182 A CN 113627182A
- Authority
- CN
- China
- Prior art keywords
- resume
- candidate
- file
- processed
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims description 68
- 230000011218 segmentation Effects 0.000 claims description 62
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 230000007115 recruitment Effects 0.000 abstract description 13
- 238000012216 screening Methods 0.000 abstract description 10
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000012827 research and development Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据匹配方法、装置、计算机设备及存储介质,方法包括:获取待处理简历文件,并确定所述待处理简历文件与所述目标岗位之间的匹配度;根据所述匹配度,确定至少一个所述待处理简历文件为所述候选简历文件;获取与目标岗位相同属性的历史岗位对应的历史录用简历文件;确定候选简历文件与所述历史录用简历文件之间的相似度;根据所述相似度,确定至少一个所述候选简历文件为目标简历文件。本发明在结合简历与岗位的匹配度以及简历与历史录用简历的相似度,确保更精确的简历筛选结果,实现招聘岗位与投递简历智能匹配,使人岗匹配更为准确,提高招聘者人才筛选效率。
Description
技术领域
本发明涉及人工智能的技术领域,尤其涉及一种数据匹配方法、装置、计算机设备及存储介质。
背景技术
现有技术中,招聘业务通常由公司内部经验丰富的招聘同事负责。随着互联网快速发展,求职与招聘的需求剧增,面对海量的求职简历文件,人工分类处理往往带有主观因素,且容易出现信息重复录入或信息缺失的情况。由算法驱动的人岗匹配辅助***应运而生,这种基于人工智能的人岗匹配程序可以减少招聘同事的简历筛选工作量,从而降低公司人工成本。
然而,目前人工智能的人岗匹配程序仅仅关注当前的需要匹配的简历和岗位信息,忽略了相同岗位历史录用的简历文件,而历史录用信息可以对当前人岗匹配具有一定的指导作用,忽略掉这些信息可能导致人岗匹配结果不够准确。
因此,如何实现在当前简历和岗位信息匹配基础上,进一步对当前简历和历史录用信息进行匹配,确保人岗匹配精准,是目前需要解决的一大难题。
发明内容
本发明的目的是提供一种数据匹配方法、装置、计算机设备及存储介质,用于解决现有技术存在的问题。
为实现上述目的,本发明提供一种数据匹配方法,包括:
获取与目标岗位相同属性的历史岗位对应的历史录用简历文件;
将候选简历文件及历史录用简历文件分别输入预设的分词模型,得到分词处理后的候选分词文本及历史分词文本;
根据所述候选分词文本及历史分词文本分别构建共现矩阵,并基于所述共现矩阵确定所述候选分词文本的第一关键词及所述历史分词文本的第二关键词;
将所述第一关键词及第二关键词分别转换为第一向量及第二向量,并获取所述第一向量与所述第二向量的相似值;
根据所述相似值,确定候选简历文件与所述历史录用简历文件之间的相似度;
根据所述相似度,确定至少一个所述候选简历文件为目标简历文件。
优选地,在所述获取与目标岗位相同属性的历史岗位对应的历史录用简历文件之前,还包括:
获取待处理简历文件,并确定所述待处理简历文件与所述目标岗位之间的匹配度;
根据所述匹配度,确定至少一个所述待处理简历文件为候选简历文件。
优选地,获取待处理简历文件,并确定所述待处理简历文件与所述目标岗位之间的匹配度,包括:
提取所述待处理简历文件的特征信息及所述目标岗位的需求信息;
将所述特征信息与需求信息输入至预设的匹配模型中进行匹配度识别;所述匹配模型中预先存储有多个匹配列表,多个所述匹配列表分别对应不同的目标岗位,且所述匹配列表中存储有各个需求信息、评分及权重值的对应关系;
根据所述匹配模型输出结果确定所述特征信息与需求信息之间的匹配分数;
根据所述匹配分数及对应所述需求信息的权重值,得到对应所述待处理简历文件与所述目标岗位的匹配度。
优选地,所述提取所述待处理简历文件的特征信息及所述目标岗位的需求信息,包括:
判断所述待处理简历文件的格式是否满足预设格式;
若满足所述预设格式,则读取所述待处理简历文件中的文本信息,从所述文本信息中提取所述特征信息;
若不满足所述预设格式,则读取所述待处理简历文件中的简历信息,生成预设格式的转换文件,并从所述转换文件中读取转换文本信息,从所述转换文本信息中提取所述特征信息。
优选地,所述根据所述匹配度,确定至少一个所述待处理简历文件为候选简历文件,包括:
将大于匹配度阈值对应的待处理简历文件作为候选简历文件。
优选地,所述根据所述候选分词文本及历史分词文本分别构建共现矩阵,并基于所述共现矩阵确定所述候选分词文本的第一关键词及所述历史分词文本的第二关键词,包括:
根据所述候选分词文本及历史分词文本中每个分词出现的次数分别构建所述共现矩阵;
根据所述共现矩阵,提取所述候选分词文本及历史分词文本中每个分词的词频及度;
根据所述词频及度获取所述候选分词文本及历史分词文本中每个分词的得分;
根据所述得分对所述候选分词文本及历史分词文本中每个分词进行降序输出,得到所述候选分词文本的第一关键词及所述历史分词文本的第二关键词。
优选地,所述将所述第一关键词及第二关键词分别转换为第一向量及第二向量,并获取所述第一向量与所述第二向量的相似值,,包括:
计算所述第一向量与所述第二向量的余弦距离;
根据所述余弦距离确定所述第一向量与所述第二向量的相似值。
为实现上述目的,本发明还提供一种数据匹配装置,包括:
获取模块,用于获取与目标岗位相同属性的历史岗位对应的历史录用简历文件;
分词模块,用于将候选简历文件及历史录用简历文件分别输入预设的分词模型,得到分词处理后的候选分词文本及历史分词文本;
构建模块,用于根据所述候选分词文本及历史分词文本分别构建共现矩阵,并基于所述共现矩阵确定所述候选分词文本的第一关键词及所述历史分词文本的第二关键词;
转换模块,用于将所述第一关键词及第二关键词分别转换为第一向量及第二向量,并获取所述第一向量与所述第二向量的相似值;
第一确定模块,用于根据所述相似值,确定候选简历文件与所述历史录用简历文件之间的相似度;
第二确定模块,根据所述相似度,确定至少一个所述候选简历文件为目标简历文件。
为实现上述目的,本发明还提供一种计算机设备,包括:
存储器,存储至少有计算机程序;及
处理器,执行所述存储器中存储的计算机程序以实现上述任意一项所述的数据匹配方法。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时以实现上述任意一项所述的数据匹配方法。
上述技术方案的有益效果:
本发明提供的数据匹配方法、装置、计算机设备及存储介质,通过提取待处理简历文件的特征信息及目标岗位的需求信息,确定所述待处理简历文件的特征信息与所述目标岗位的需求信息的匹配度,通过匹配度确定与所述目标岗位匹配度较高的候选简历文件。通过获取所述目标岗位相同属性的历史岗位的历史录用简历文件,确定所述候选简历文件与所述历史录用简历文件的相似度,根据所述匹配度及相似度,从多个处理过的所述候选简历文件中选择至少一个作为目标简历文件。本发明在结合简历与岗位的匹配度以及简历与历史录用简历的相似度,确保更精确的简历筛选结果,实现招聘岗位与投递简历智能匹配,使人岗匹配更为准确,提高招聘者人才筛选效率。
附图说明
图1为本发明实施例一匹配度确定的流程示意图;
图2为本发明实施例一特征信息提取的流程示意图;
图3本本发明实施例一相似度确定的流程示意图;
图4为本发明实施例二数据匹配装置的功能模块图;
图5为本发明实施例三数据匹配方法的计算机设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
结合图1和图2所示,从图中可以看出,具体包括以下步骤:
S001:获取待处理简历文件,并确定待处理简历文件与目标岗位之间的匹配度。
在示例性的实施例中,服务器通过大数据平台收集各个招聘渠道所接收到的求职者的求职请求,并将求职者所投递的求职简历信息整理成为文档集合,从而得到待处理简历文件,将所述待处理简历文件以doc、docx、PDF、HTML等格式保存至简历库中。其中,所述待处理简历文件包括多个特征信息,例如:人才基本信息(姓名、年龄、联系方式、居住地等)、教育经历(学校、专业、在校经历等)、工作经历(公司、工作时间、岗位、项目经历及工作内容等)、期望薪资、期望工作地点等。本实施例中,所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
进一步的,所述目标岗位用于表征招聘者的招聘请求中的招聘岗位。招聘者向服务器中发送招聘请求时,会附带需求信息以对招聘岗位添加任职要求进而限定求职者范围。其中,所述需求信息包括但不限于:性别、年龄、学历、工作年限、工作职责、工作技能等。
通过匹配识别所述待处理简历文件中的特征信息与所述目标岗位的需求信息,确定待处理简历文件与目标岗位之间的匹配度。
如图1所示,其为本实施例一匹配度确定的流程示意图,具体如下:
S01:提取所述待处理简历文件的特征信息及所述目标岗位的需求信息。
服务器接收到招聘者的招聘请求时,可从所述简历库中获取多个待处理简历文件,待服务器从所述简历库中获取待处理简历文件后,提取所述待处理简历文件的特征信息。
结合图2所示,其为本实施例一特征信息提取的流程示意图,具体如下:
S01A:判断所述待处理简历文件的格式是否满足预设格式。
在获取所述待处理简历文件时,读取所述待处理简历文件的扩展名,并将所述待处理简历文件的扩展名与预设格式的扩展名对比,判断所述待处理简历文件的格式是否为预设格式。例如:预先设定json(JavaScript Object Notation、JavaScript对象表示法)格式作为本实施例的预设格式,并将所述预设格式的扩展名设定为.json。若读取的所述待处理简历文件为扩展名为.doc,则将.doc和.json对比,通过两者的一致性来判断所述待处理简历文件的格式是否为预设格式。
S01B:若满足所述预设格式,则读取所述待处理简历文件中的文本信息,从所述文本信息中提取所述特征信息。
当所述待处理简历文件的格式与预设格式一致时,则直接读取所述待处理简历文件的文本信息,所述文本信息用于表征所述待处理简历文件中的人才基本信息、教育经历及工作经历等特征信息,并从所述文本信息中对多个特征信息进行提取。例如:所述待处理简历文件及预设格式的格式均为json格式,json格式中的信息均以键值对(key-value)的形式存在,对于所述待处理简历文件中的键key存在有对应的值value。如:对应键key姓名的值value为王某,则人才基本信息中的姓名特征信息为王某,对应键key年龄的值value为25,则人才基本信息中的年龄特征信息为25,即所提取的各个特征信息均以类型和信息本身的对应关系的形式存在。
S01C:若不满足所述预设格式,则读取所述待处理简历文件中的简历信息,生成预设格式的转换文件,并从所述转换文件中读取转换文本信息,从所述转换文本信息中提取所述特征信息。
当所述待处理简历文件的格式与预设格式不一致时,则先读取所述待处理简历文件中的简历信息,所述简历信息相同用于表征所述待处理简历文件中的人才基本信息、教育经历及工作经历等特征信息,只是所述简历信息不是以类型和信息本身的键值对的对应关系存在。读取所述简历信息的过程可以是对简历文件中所具有信息的识别过程。例如:通过OCR(Optical Character Recognition,光学字符识别)识别所述待处理简历文件中的信息,将所识别到的信息作为简历信息。此外,预先设置有与预设格式一致的预设模板,将所述简历信息先形成键值对,再将所形成的键值对输入至预设模板中,生成具有预设格式的转换文件进行存储。例如:通过OCR所识别到的信息包括有年龄:35,性别:女,则将年龄作为键key,35作为值value,形成键值对,同时将性别作为键key,女作为值value,形成键值对,将所形成的各个键值对保存到具有预设格式的预设模板中,生成转换文件,以使所形成的转换文件中各类信息均以键值对的形式存在。可知,所述转换文本信息其实质为文本信息,通过读取所述转换文本信息即可确定与各个类型特征信息对应的信息本身。
S02:将所述特征信息与所述需求信息输入至预设的匹配模型中进行匹配度识别。
在示例性的实施例中,所述匹配模型中预先存储有多个匹配列表,多个所述匹配列表分别对应不同的目标岗位,且所述匹配列表中存储有各个需求信息、评分及权重值的对应关系。根据所述目标岗位从所述匹配模型中查询对应的匹配列表。例如:预先将所述目标岗位作为键key,与所述目标岗位对应的匹配列表作为值value,形成键值对,将各个键值对存储于所述匹配模型中。通过查询key,以获得所述目标岗位对应的值value(匹配列表)。
S03:根据所述匹配模型输出结果确定所述特征信息与所述需求信息之间的匹配分数。
在示例性的实施例中,根据所述匹配列表中存储的对应关系,获取所述待处理简历文件的任一特征信息与所述需求信息之间的匹配分数。例如:需求信息中年龄项:26-30岁为10分、31-35岁为8分、36-40岁为6分;学历项:博士为10分、硕士为8分、学士为6分;工作年限项:大于10年为10分、6-10年为8分、3-5年为6分。所述待处理简历文件中所提取到的特征信息有:李某、29岁、硕士、工作年限5年。则26岁对应匹配分数为10分、硕士对应匹配分数为8分、工作年限5年对应匹配分数为6分。其中,所述需求信息的分值由招聘者根据业务需求进行预先设定,且通常特征信息得分越高,说明对应的特征信息与目标岗位的匹配度越高。
S04:根据所述匹配分数及对应所述需求信息的权重值,得到对应所述待处理简历文件与所述目标岗位的匹配度。
在示例性的实施例中,根据所述匹配列表中存储的对应关系,获取所述待处理简历文件与所述目标岗位的匹配度。例如:年龄项的权重值为0.3、学历项的权重值为0.5、工作年限项的权重值为0.6,所述待处理简历文件中所提取到的年龄特征信息的匹配分数为10分,学历特征信息的匹配分数为8分,工作年限特征信息的匹配分数为6分。则所述待处理简历文件的匹配度为10*0.3+8*0.5+6*0.6=10.6分,所述待处理简历文件的匹配度数值越高,说明对应的所述待处理简历文件与目标岗位的匹配度越高。
S002:根据所述匹配度,确定至少一个所述待处理简历文件为所述候选简历文件。
在示例性的实施例中,获取预设的约束条件,将满足约束条件的所述匹配度对应的所述待处理简历文件作为候选简历文件,所述约束条件用于表征适用于所述待处理简历文件的匹配度的阈值。
所述阈值可为多个处理过的待处理简历文件的匹配度的均值,或由招聘者根据业务需求进行设定。例如:获取多个处理过待处理简历文件的匹配度,并确定全部待处理简历文件的匹配度的均值,将所述均值设定为阈值,选取大于所述阈值的匹配度对应的所述待处理简历文件作为候选简历文件;又例如:对所述匹配度进行降序排序,将排序位于前20%的匹配度设定为阈值,选取大于所述阈值的匹配度(即排序前20%)对应的所述待处理简历文件作为候选简历文件。
具体的,在确定待处理简历文件与目标岗位的匹配度的基础上,进一步确定待处理简历文件与目标岗位相同属性历史岗位对应的历史录用简历文件的相似度,提高简历筛选精确度。同时,进行待处理简历文件与历史录用简历文件相似度确定之前先对所述待处理简历文件进行筛选,筛除在匹配度确定过程中匹配度较低的待处理简历文件,将筛选出来的匹配度较高的待处理简历文件作为候选简历文件,与历史录用简历文件进行相似度匹配,提高相似度确定时服务器处理效率。
如图3所示,其为本实施例一相似度确定的流程示意图,具体如下:
S100:获取与目标岗位相同属性的历史岗位对应的历史录用简历文件。
在示例性的实施例中,提取所述目标岗位的属性信息,根据所述属性信息查询与所述目标岗位相同属性的历史岗位,所述属性信息用于表征所述目标岗位的类型、职能及级别。
服务器在接收到招聘者的发布招聘请求后,会对招聘请求中的招聘岗位进行类型、职能及级别的划分,并将划分后得到的类型、职能及级别以标签的形式附加在招聘岗位上,作为招聘岗位的属性信息。例如:根据工作职责将招聘岗位的类型分为行政类、研发类、销售类等,根据工作技能将研发类的招聘岗位分为开发类、测试类、运营类等,根据工作年限将研发类中测试类的招聘岗位分为初级、中级、高级等。提取所述目标岗位的属性信息,通过标签查询即可获得与所述属性信息相同属性的历史岗位。
其中,若招聘者确定录用简历文件,服务器会接收到招聘者的录用请求,并将所述录用请求以及对应的简历文件进行缓存。获取与目标岗位相同属性的历史岗位,并查询每个所述历史岗位的招聘状态,即所述历史岗位是否携带有录用请求,若有则提取所述历史岗位的录用请求中对应的历史录用简历文件,若无则将所述历史岗位从获取名单中删除。
S200:将所述候选简历文件及历史录用简历文件分别输入预设的分词模型,得到分词处理后的候选分词文本及历史分词文本。
在示例性的实施例中,所述分词模型可以包括前缀词典及自定义词典。所述前缀词典包括统计词典中每一个分词的前缀,例如:“北京大学”的前缀分别是“北”、“北京”、“北京大”,“大学”的前缀是“大”;所述自定义词典可以理解为专业名词词典,在统计词典中不存在,用于表征某领域特定、转悠的词,例如:简历、工作经历等。
S300:根据所述候选分词文本及历史分词文本分别构建共现矩阵,并基于所述共现矩阵确定所述候选分词文本的第一关键词及所述历史分词文本的第二关键词。
在示例性的实施例中,所述共现矩阵是通过统计一个预先指定大小的窗口内的词语的共现次数,以词语周边的共现词的次数作为当前词语的向量。例如:所述候选简历文本中包括有文本:“我擅长研究。”(文本中包括分词:“我”、“擅长”、“研究”及“。”);“我擅长编程。”(文本中包括分词:“我”、“擅长”、“编程”及“。”)。根据所述候选简历文本中的文本,构建7*7大小的共现矩阵。
根据所述候选分词文本中分词出现的次数构建所述共现矩阵,并从所述共现矩阵中提取每个分词的词频(freq)及度(deg),根据每个分词的词频及度得到每个分词的得分,同时根据每个分词的得分对每个分词进行降序输出,得到所述候选简历文本的第一关键词。例如:根据每个分词的得分对每个分词降序输出,得到前n个词语,按照降序输出的前1/3的词语作为所述候选简历文本的第一关键词。
优选地,当有两个所述第一关键词在候选分词文本中相邻的次数大于预设值时,将所述两个关键词合并为新的关键词,以将相似的关键词进一步合并,避免出现冗余关键词。其中,所述预设值由业务员预先设定,如所述预设值可以是2次。本实施例以所述候选分词文本为例进行解释说明,所述历史分词文本相同原理。
S400:将所述第一关键词及第二关键词分别转换为第一向量及第二向量,并获取所述第一向量与所述第二向量的相似值。
在示例性的实施例中,获取所述第一关键词的字序列,并通过正向读取所述字序列生成包含所述字序列以及所述字序列上文信息的向量a,及通过反向读取所述字序列生成包含所述字序列及所述字序列的下文信息的向量b,连接所述向量a和向量b,得到所述字序列及所述字序列的上下文信息的向量c,及所述第一关键词的第一向量。本实施例以所述第一关键词转换第一向量为例进行解释说明,所述第二关键词转换第二向量相同原理。
进一步的,获取所述第一向量及第二向量的余弦距离,通过所述余弦距离确定二者的相似值。所述余弦距离用于表征向量空间中两个向量夹角的余弦值,利用余弦值作为衡量两个个体间差异的大小的度量。且余弦值越接近1,就表明夹角越接近0度,说明两个向量相似值越高。
优选地,本实施例余弦距离采用以下公式获得:
其中,X用于表征第一向量,Xi用于表征所述候选简历文件中的第i个第一向量,Y用于表征第一向量,Yi用于表征所述历史录用简历文件中的第i个第二向量。
所述余弦值范围在(-1,1),-1表征两个向量指向的方向正好截然相反,1表征两个向量指向完全相同,0表征两个向量之间是相互独立的,而范围内其他值则表征两个向量的相似值。
S500:根据所述相似值,确定候选简历文件与所述历史录用简历文件之间的相似度。
在示例性的实施例中,采用所述余弦值作为对应所述所述候选简历文件与所述历史录用简历文件的相似度,且相似度数值越大,表征对应所述所述候选简历文件与所述历史录用简历文件的相似度越高。
S600:根据所述相似度,确定至少一个所述候选简历文件为目标简历文件。
在示例性的实施例中,将所述相似度进行降序排序,优选排序第一的候选简历文件作为目标简历文件推送给招聘者,也可将排序前十的候选简历文件均作为目标简历文件依次推送给招聘者。
优选地,还可根据所述相似度及匹配度,确定至少一个所述候选简历文件为目标简历文件。
将所述匹配度与所述相似度相加并将相加结果进行降序排序,优选排序第一的候选简历文件作为目标简历文件推送给招聘者,也可将排序前十的候选简历文件均作为目标简历文件依次推送给招聘者。
本发明在结合简历与岗位的匹配度以及简历与历史录用简历的相似度,确保更精确的简历筛选结果,实现招聘岗位与投递简历智能匹配,使人岗匹配更为准确,提高招聘者人才筛选效率。
实施例二
如图4所示,为本实施例二的数据匹配装置的功能模块图。
所述数据匹配装置30包括获取模块31、分词模块32、构建模块33、转换模块34、第一确定模块35及第二确定模块36。本发明所称的模块是指一种能够被处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
获取模块31用于获取与目标岗位相同属性的历史岗位对应的历史录用简历文件。
分词模块32用于将候选简历文件及历史录用简历文件分别输入预设的分词模型,得到分词处理后的候选分词文本及历史分词文本。
构建模块33用于根据所述候选分词文本及历史分词文本分别构建共现矩阵,并基于所述共现矩阵确定所述候选分词文本的第一关键词及所述历史分词文本的第二关键词。
在示例性的实施例中,根据所述候选分词文本及历史分词文本中每个分词出现的次数分别构建所述共现矩阵;根据所述共现矩阵,提取所述候选分词文本及历史分词文本中每个分词的词频及度;根据所述词频及度获取所述候选分词文本及历史分词文本中每个分词的得分;根据所述得分对所述候选分词文本及历史分词文本中每个分词进行降序输出,得到所述候选分词文本的第一关键词及所述历史分词文本的第二关键词。
转换模块34用于将所述第一关键词及第二关键词分别转换为第一向量及第二向量,并获取所述第一向量与所述第二向量的相似值。
在示例性的实施例中,计算所述第一向量与所述第二向量的余弦距离;根据所述余弦距离确定所述第一向量与所述第二向量的相似值。
第一确定模块35用于根据所述相似值,确定候选简历文件与所述历史录用简历文件之间的相似度。
第二确定模块36根据所述相似度,确定至少一个所述候选简历文件为目标简历文件。
实施例三
如图5所示,为本实施例三数据匹配方法的计算机设备的结构示意图。
在示例性的实施例中,所述计算机设备40包括但不限于:存储器41、处理器42以及存储在所述存储器41中并可在所述处理器上运行的计算机程序,例如数据匹配程序。本领域技术人员可以理解,所述示意图仅仅是计算机设备的示例,并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所述存储器41至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器41可以是计算机设备的内部存储模块,例如该计算机设备的硬盘或内存。在另一些实施例中,存储器41也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器41还可以既包括计算机设备的内部存储模块也包括其外部存储设备。本实施例中,存储器41通常用于存储安装于计算机设备的操作***和各类应用软件。此外,存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42可以是中央处理模块(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器42是所述计算机设备的运算核心和控制中心,利用各种接口和线路连接整个计算机设备的各个部分,及执行所述计算机设备的操作***以及安装的各类应用程序、程序代码等。
所述处理器42执行所述计算机设备的操作***以及安装的各类应用程序。所述处理器42执行所述应用程序以实现上述各个数据匹配方法实施例中的步骤,例如图3所示的步骤S100、S200、S300、S400、S500、S600。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储实现所述数据匹配方法的计算机程序,被处理器42执行时实现实施例一或二或三的数据匹配方法。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本申请可用于众多通用或专用的计算机***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据匹配方法,其特征在于,包括:
获取与目标岗位相同属性的历史岗位对应的历史录用简历文件;
将候选简历文件及历史录用简历文件分别输入预设的分词模型,得到分词处理后的候选分词文本及历史分词文本;
根据所述候选分词文本及历史分词文本分别构建共现矩阵,并基于所述共现矩阵确定所述候选分词文本的第一关键词及所述历史分词文本的第二关键词;
将所述第一关键词及第二关键词分别转换为第一向量及第二向量,并获取所述第一向量与所述第二向量的相似值;
根据所述相似值,确定候选简历文件与所述历史录用简历文件之间的相似度;
根据所述相似度,确定至少一个所述候选简历文件为目标简历文件。
2.根据权利要求1所述的数据匹配方法,其特征在于,在所述获取与目标岗位相同属性的历史岗位对应的历史录用简历文件之前,还包括:
获取待处理简历文件,并确定所述待处理简历文件与所述目标岗位之间的匹配度;
根据所述匹配度,确定至少一个所述待处理简历文件为所述候选简历文件。
3.根据权利要求2所述的数据匹配方法,其特征在于,所述获取待处理简历文件,并确定所述待处理简历文件与所述目标岗位之间的匹配度,包括:
提取所述待处理简历文件的特征信息及所述目标岗位的需求信息;
将所述特征信息与需求信息输入至预设的匹配模型中进行匹配度识别;所述匹配模型中预先存储有多个匹配列表,多个所述匹配列表分别对应不同的目标岗位,且所述匹配列表中存储有各个需求信息、评分及权重值的对应关系;
根据所述匹配模型输出结果确定所述特征信息与需求信息之间的匹配分数;
根据所述匹配分数及对应所述需求信息的权重值,得到对应所述待处理简历文件与所述目标岗位的匹配度。
4.根据权利要求3所述的数据匹配方法,其特征在于,所述提取所述待处理简历文件的特征信息及所述目标岗位的需求信息,包括:
判断所述待处理简历文件的格式是否满足预设格式;
若满足所述预设格式,则读取所述待处理简历文件中的文本信息,从所述文本信息中提取所述特征信息;
若不满足所述预设格式,则读取所述待处理简历文件中的简历信息,生成预设格式的转换文件,并从所述转换文件中读取转换文本信息,从所述转换文本信息中提取所述特征信息。
5.根据权利要求2所述的数据匹配方法,其特征在于,所述根据所述匹配度,确定至少一个所述待处理简历文件为所述候选简历文件,包括:
将大于匹配度阈值对应的待处理简历文件作为候选简历文件。
6.根据权利要求1所述的数据匹配方法,其特征在于,所述根据所述候选分词文本及历史分词文本分别构建共现矩阵,并基于所述共现矩阵确定所述候选分词文本的第一关键词及所述历史分词文本的第二关键词,包括:
根据所述候选分词文本及历史分词文本中每个分词出现的次数分别构建所述共现矩阵;
根据所述共现矩阵,提取所述候选分词文本及历史分词文本中每个分词的词频及度;
根据所述词频及度获取所述候选分词文本及历史分词文本中每个分词的得分;
根据所述得分对所述候选分词文本及历史分词文本中每个分词进行降序输出,得到所述候选分词文本的第一关键词及所述历史分词文本的第二关键词。
7.根据权利要求1所述的数据匹配方法,其特征在于,所述将所述第一关键词及第二关键词分别转换为第一向量及第二向量,并获取所述第一向量与所述第二向量的相似值,包括:
计算所述第一向量与所述第二向量的余弦距离;
根据所述余弦距离确定所述第一向量与所述第二向量的相似值。
8.一种数据匹配装置,其特征在于,包括:
获取模块,用于获取与目标岗位相同属性的历史岗位对应的历史录用简历文件;
分词模块,用于将候选简历文件及历史录用简历文件分别输入预设的分词模型,得到分词处理后的候选分词文本及历史分词文本;
构建模块,用于根据所述候选分词文本及历史分词文本分别构建共现矩阵,并基于所述共现矩阵确定所述候选分词文本的第一关键词及所述历史分词文本的第二关键词;
转换模块,用于将所述第一关键词及第二关键词分别转换为第一向量及第二向量,并获取所述第一向量与所述第二向量的相似值;
第一确定模块,用于根据所述相似值,确定候选简历文件与所述历史录用简历文件之间的相似度;
第二确定模块,根据所述相似度,确定至少一个所述候选简历文件为目标简历文件。
9.一种计算机设备,其特征在于,包括:
存储器,存储至少有计算机程序;及
处理器,执行所述存储器中存储的计算机程序以实现如权利要求1至7中任意一项所述的数据匹配方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行以实现如权利要求1至7任意一项所述的数据匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110912447.6A CN113627182B (zh) | 2021-08-10 | 2021-08-10 | 数据匹配方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110912447.6A CN113627182B (zh) | 2021-08-10 | 2021-08-10 | 数据匹配方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113627182A true CN113627182A (zh) | 2021-11-09 |
CN113627182B CN113627182B (zh) | 2024-07-26 |
Family
ID=78383905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110912447.6A Active CN113627182B (zh) | 2021-08-10 | 2021-08-10 | 数据匹配方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627182B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114819924A (zh) * | 2022-06-28 | 2022-07-29 | 杭银消费金融股份有限公司 | 一种基于画像分析的企业信息推送处理方法及设备 |
CN117709916A (zh) * | 2024-02-01 | 2024-03-15 | 武汉厚溥数字科技有限公司 | 一种就业信息的处理方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851598A (zh) * | 2019-10-30 | 2020-02-28 | 深圳价值在线信息科技股份有限公司 | 文本分类方法、装置、终端设备及存储介质 |
CN111428488A (zh) * | 2020-03-06 | 2020-07-17 | 平安科技(深圳)有限公司 | 简历数据信息解析及匹配方法、装置、电子设备及介质 |
CN112699232A (zh) * | 2019-10-17 | 2021-04-23 | 北京京东尚科信息技术有限公司 | 文本标签提取方法、装置、设备和存储介质 |
CN112988980A (zh) * | 2021-05-12 | 2021-06-18 | 太平金融科技服务(上海)有限公司 | 目标产品查询方法、装置、计算机设备和存储介质 |
-
2021
- 2021-08-10 CN CN202110912447.6A patent/CN113627182B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699232A (zh) * | 2019-10-17 | 2021-04-23 | 北京京东尚科信息技术有限公司 | 文本标签提取方法、装置、设备和存储介质 |
CN110851598A (zh) * | 2019-10-30 | 2020-02-28 | 深圳价值在线信息科技股份有限公司 | 文本分类方法、装置、终端设备及存储介质 |
CN111428488A (zh) * | 2020-03-06 | 2020-07-17 | 平安科技(深圳)有限公司 | 简历数据信息解析及匹配方法、装置、电子设备及介质 |
CN112988980A (zh) * | 2021-05-12 | 2021-06-18 | 太平金融科技服务(上海)有限公司 | 目标产品查询方法、装置、计算机设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114819924A (zh) * | 2022-06-28 | 2022-07-29 | 杭银消费金融股份有限公司 | 一种基于画像分析的企业信息推送处理方法及设备 |
CN117709916A (zh) * | 2024-02-01 | 2024-03-15 | 武汉厚溥数字科技有限公司 | 一种就业信息的处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113627182B (zh) | 2024-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021169111A1 (zh) | 简历筛选方法、装置、计算机设备和存储介质 | |
CN108829681B (zh) | 一种命名实体提取方法及装置 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN111475617A (zh) | 事件主体抽取方法、装置及存储介质 | |
CN110162754B (zh) | 一种岗位描述文档的生成方法及设备 | |
CN113627182B (zh) | 数据匹配方法、装置、计算机设备及存储介质 | |
CN112365202B (zh) | 一种多目标对象的评价因子筛选方法及其相关设备 | |
CN111767375A (zh) | 语义召回方法、装置、计算机设备及存储介质 | |
CN114647741A (zh) | 工艺自动决策和推理方法、装置、计算机设备及存储介质 | |
CN112395875A (zh) | 一种关键词提取方法、装置、终端以及存储介质 | |
CN116028722B (zh) | 一种基于词向量的岗位推荐方法、装置及计算机设备 | |
CN112085091A (zh) | 基于人工智能的短文本匹配方法、装置、设备及存储介质 | |
CN111581193A (zh) | 数据处理方法、设备、计算机***及存储介质 | |
CN111062803A (zh) | 一种金融业务查询查复方法及*** | |
CN113268560A (zh) | 用于文本匹配的方法和装置 | |
CN113868391A (zh) | 基于知识图谱的法律文书生成方法、装置、设备及介质 | |
CN111582932A (zh) | 场景间信息推送方法、装置、计算机设备及存储介质 | |
CN113516094B (zh) | 一种用于为文档匹配评议专家的***以及方法 | |
CN113157757A (zh) | 一种数据推荐方法、装置、电子设备及存储介质 | |
CN110597977B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN113204696A (zh) | 一种基于文本图谱的智能搜索引擎的检索方法 | |
CN113656545A (zh) | 智能面试方法、装置、计算机设备及存储介质 | |
CN112434889A (zh) | 一种专家行业分析方法、装置、设备及存储介质 | |
CN110750976A (zh) | 语言模型构建方法、***、计算机设备及可读存储介质 | |
CN114706927B (zh) | 基于人工智能的数据批量标注方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |