CN107145584A

CN107145584A - 一种基于n‑gram模型的简历解析方法

Info

Publication number: CN107145584A
Application number: CN201710325550.4A
Authority: CN
Inventors: 杨春明; 张晖; 李建飞; 李波; 赵旭剑
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2017-05-10
Filing date: 2017-05-10
Publication date: 2017-09-08
Anticipated expiration: 2037-05-10
Also published as: CN107145584B

Abstract

本发明公开了一种基于n‑gram模型的简历解析方法，该方法为：预先收集简历样本，将常用字段关键词划分为不同类别形成分类词典，采用n‑gram模型统计出每一常用字段关键词转变到各样本关联词的转移概率，查找待解析简历中与常用字段关键词相匹配的目标关键词，如果目标关键词对应的转移概率大于预定阈值，根据目标关键词更新每一常用字段关键词对应的转移概率，并对待解析简历中的有效关键词增加前缀标注和后缀标注，对待解析简历的文本内容进行分段提取并输出。本发明能够基于n‑gram模型与词典分段技术进行自动化的简历解析，能够提高信息抽取准确率并支持不同文件格式，可为招聘网站、公司HR部门提供丰富的人才资源库。

Description

一种基于n-gram模型的简历解析方法

技术领域

本发明涉及计算机科学技术领域，特别是涉及一种基于n-gram模型的简历解析方法。

背景技术

随着互联网技术的迅速发展，网络中容纳了海量的、类型各异的原始数据信息。在日常生活中，简历是一类十分常见而又重要的文本，它包含了作者的基本情况、工作经验等信息。因此，如何从海量的简历中自动、迅速、准确地抽取有用的信息，成为各大招聘网站、公司和企业的HR部门迫切需求。

简历解析本质上是文本信息抽取的应用体现。目前的文本信息抽取模型主要有3种：基于词典的抽取模型、基于规则的抽取模型和基于隐马尔可夫模型的抽取模型。

现有的应用上述3种文本信息抽取模型的简历解析方案多采用简单的关键字匹配方法，对自由格式的文本适应性弱、信息抽取准确率低，只能处理特定格式的简历。

发明内容

本发明主要解决的技术问题是提供一种基于n-gram模型的简历解析方法，能够提高信息抽取准确率并支持不同文件格式。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于n-gram模型的简历解析方法，包括：S1：收集预定数量的简历样本；S2：统计所述简历样本中的常用字段关键词，并将常用字段关键词按照不同描述类型划分为不同类别，形成分类词典；S3：将所述简历样本中紧邻每一常用字段关键词之后出现的非关键词记为样本关联词，并采用n-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率；S4：将待解析简历的文件格式转换为纯文本格式；S5：采用最大匹配算法在所述待解析简历中查找与分类词典中的常用字段关键词相匹配的目标关键词；S6：判断所述目标关键词对应的转移概率是否大于预定阈值，如果大于预定阈值，则将目标关键词判定为有效关键词；S7：将所述待解析简历中紧邻每一有效关键词之后出现的非关键词记为有效关联词，并根据所述有效关联词更新每一常用字段关键词对应的转移概率；S8：利用所述分类词典对待解析简历中的有效关键词增加前缀标注和后缀标注；S9：根据所述前缀标注和后缀标注对待解析简历的文本内容进行分段提取，并将分段提取后的文本内容按照预定格式进行输出。

优选的，所述非关键词为连续两个字符，所述步骤S3具体为；采用tri-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率。

优选的，所述步骤S5具体包括：将所述待解析简历的文本内容按照预定长度进行切分，形成待分词文本；扫描所述待分词文本，当扫描到与分类词典中的常用字段关键词相匹配的第一个字符时，从所述第一个字符开始记录，直到扫描不到与分类词典中的常用字段关键词相匹配的字符为止；将记录下的所有字符组成目标关键词。

优选的，所述根据所述有效关联词更新每一常用字段关键词对应的转移概率的步骤具体为：判断所述各样本关联词中是否存在与有效关联词相同的样本关联词；如果存在与有效关联词相同的样本关联词，则更新每一常用字段关键词转变到有效关联词的转移概率；如果不存在与有效关联词相同的样本关联词，则统计每一常用字段关键词转变到有效关联词的转移概率。

优选的，所述步骤S8具体包括：查询所述有效关键词在所述分类词典中所属的类别；按照所属的类别对待解析简历中的有效关键词增加前缀标注和后缀标注。

优选的，所述步骤S9具体包括：将所述待解析简历中当前有效关键词的后缀标注与下一个有效关键词的前缀标注之间或者与所述待解析简历的文本结束符之间的文本内容作为当前有效关键词的描述信息；依次提取每一有效关键词及其对应的描述信息；将每一有效关键词及其对应的描述信息按照预定格式进行输出。

优选的，所述预定格式为Json格式。

优选的，所述待解析简历的文件格式至少包括doc格式、pdf格式或html格式。

优选的，所述简历样本的语言为中文。

与现有技术相比，本发明可以获得以下技术效果：

1)由于基于n-gram模型，具有对不同格式的简历适应性好、准确率高的优点。

2)可以为不同文件格式、自由排版的简历提取所有关键字，不但方便求职者快速投递简历，提高求职效率；也方便招聘网站、单位实现自动化抽取信息并存储为人才资源库，同时提高了招聘网站、单位对简历的筛选效率，具有很强的实用性。

附图说明

图1是本发明实施例提供的简历解析方法的流程示意图。

具体实施例

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，是本发明实施例提供的简历解析方法的流程示意图。本实施例的简历解析方法包括以下步骤：

S1：收集预定数量的简历样本。

其中，简历样本可以从各类招聘网站上收集。述简历样本的语言为中文，也可以为英文或其他语言。简历样本的文件格式可以是doc格式、pdf格式或html格式。预订数量可以根据实际需要设定，例如是300份。

S2：统计简历样本中的常用字段关键词，并将常用字段关键词按照不同描述类型划分为不同类别，形成分类词典。

其中，常用字段关键词是预先设定的关键字。不同描述类型用于区分常用字段关键词表述的类别，常用字段关键词的类别划分举例如下：

(1)姓名、性别、年龄等信息的描述类型为基本信息类，因此将姓名、性别、年龄等信息划分为类别I；

(2)工作经验、工作经历、就业经历等信息的描述类型为工作经验类，因此将作经验、工作经历、就业经历等信息划分为类别W；

(3)教育经历、学历等信息的描述类型为教育经验类，因此将教育经历、学历等信息划分为类别E；

(4)外语水平、计算机水平等信息的描述类型为其他技能类，因此将外语水平、计算机水平等信息划分为类别S。

分类词典结构如下所示：

姓名I
	性别I
年龄I
	......
教育经历E
	学历E
......
	工作经验W
工作经历W
	.......
技能S
	外语水平S
.......

S3：将简历样本中紧邻每一常用字段关键词之后出现的非关键词记为样本关联词，并采用n-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率。

其中，非关键词的字符个数与n的取值有关，在本实施例中，非关键词为连续两个字符，则n的取值为3，步骤S3具体为；采用tri-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率。

转移概率可以采用五元组来表示，五元组的数据形式为(常用字段关键词，字符1，字符2，出现频数，转移概率)。例如对于“工作经验：有20年日用品行业销售…”这样的序列，需要统计常用字段关键词“工作经验”转变到样本关联词“：有”的转移概率，则转移概率保存为如下五元组：

("工作经验"，"："，"有"，"23"，"0.0241")。

S4：将待解析简历的文件格式转换为纯文本格式。

其中，可以采用已有的文件格式转换包，将待解析简历的文件格式转换为纯文本格式。

S5：采用最大匹配算法在待解析简历中查找与分类词典中的常用字段关键词相匹配的目标关键词。

其中，最终查找到的目标关键词可能为多个，也可能没有。在本实施例中，步骤S5具体包括：

将待解析简历的文本内容按照预定长度进行切分，形成待分词文本；

扫描待分词文本，当扫描到与分类词典中的常用字段关键词相匹配的第一个字符时，从第一个字符开始记录，直到扫描不到与分类词典中的常用字段关键词相匹配的字符为止；

将记录下的所有字符组成目标关键词转变到各样本关联词的转移概率。

举例而言，假设预定长度为一个字符，待分词文本为sentence[]＝{"工"，"作"，"经"，"验"，"："，"有"，"2"，"0"，"年"}，分类词典中的常用字段关键词为工作和工作经验，那么扫描过程如下：

(1)从sentence[1]开始扫描，当扫描到sentence[2]的时候，发现"工作"与常用字段关键词“工作”相匹配。但此时还不能将字符“工作”切分出来，因为还不能确定“工作”是否已经是最长的常用字段关键词。

(2)继续扫描sentence[3]，发现"工作经"并不是分类词典中的常用字段关键词。但是还不能确定"工作经"是否已经是最长的目标关键词，因为"工作经"是常用字段关键词“工作经验”的前缀。

(3)继续扫描sentence[4]，发现"工作经验"是分类词典中的常用字段关键词，记录下继续扫描下去：

(4)当扫描sentence[5]的时候，发现"工作经验："并不是分类词典中的常用字段关键词，也不是常用字段关键词的前缀。因此可以切分出前面最大的词——"工作经验"，即进行最大匹配。

由此可见，最大匹配出的目标关键词必须保证下一个扫描不是常用字段关键词或常用字段关键词的前缀才可以结束。

S6：判断目标关键词对应的转移概率是否大于预定阈值，如果大于预定阈值，则将目标关键词判定为有效关键词。

其中，预定阈值可以根基实际需要设定。目标关键词对应的转移概率即为与目标关键词匹配的常用字段关键词。

S7：将待解析简历中紧邻每一有效关键词之后出现的非关键词记为有效关联词，并根据有效关联词更新每一常用字段关键词对应的转移概率。

其中，在本实施例中，根据有效关联词更新每一常用字段关键词对应的转移概率的步骤具体包括：

判断各样本关联词中是否存在与有效关联词相同的样本关联词；

如果存在与有效关联词相同的样本关联词，则更新每一常用字段关键词转变到有效关联词的转移概率；

如果不存在与有效关联词相同的样本关联词，则统计每一常用字段关键词转变到有效关联词的转移概率。

其中，有效关联词确定后，如果有效关联词存在于常用字段关键词对应的各样本关联词中，则先将对应的五元组中的出现频数和总频数增加一，再将对应的五元组中的出现频数除以总频数即可得到新的转移概率，将新的转移概率写入五元组中；如果有效关联词没有存在于常用字段关键词对应的各样本关联词中，则建立一个新的五元组，新的五元组的出现频数为一，将出现频数除以总频数即可得到转移概率，将转移概率写入新的五元组中。

S8：利用分类词典对待解析简历中的有效关键词增加前缀标注和后缀标注。

其中，在本实施例中，步骤S8具体包括：

查询有效关键词在分类词典中所属的类别；

按照所属的类别对待解析简历中的有效关键词增加前缀标注和后缀标注。

其中，增加前缀标注和后缀标注，有效关键词的数据结构变为类别_S+有效关键词+类别_E。举例而言，例如查找到有效关键词为姓名，姓名属于基本信息类，增加前缀标注和后缀标注后，变为I_S姓名I_E。

其中，经过步骤S8处理后，待解析简历的文本内容变为：

类别_S+有效关键词1+类别_E+描述信息+

类别_S+有效关键词2+类别_E+描述信息+

……

文本结束符。

S9：根据前缀标注和后缀标注对待解析简历的文本内容进行分段提取，并将分段提取后的文本内容按照预定格式进行输出。

其中，在本实施例中，步骤S9具体包括：

将待解析简历中当前有效关键词的后缀标注与下一个有效关键词的前缀标注之间或者与待解析简历的文本结束符之间的文本内容作为当前有效关键词的描述信息；

依次提取每一有效关键词及其对应的描述信息；

将每一有效关键词及其对应的描述信息按照预定格式进行输出。

其中，提取描述信息后，当前有效关键词的后缀标注类别_E到下一个有效关键词的前缀标注类别_S之间的文本内容，即为当前有效关键词对应的描述信息，对于最后一个有效关键词，其对应的描述信息为最后一个有效关键词的后缀标注类别_E与文本结束符之前的文本内容。

每一有效关键词及其对应的描述信息可以输出到统一的数据表中，并且预定格式可以是Json格式。

通过上述方式，本发明实施例的简历解析方法通过预先收集简历样本，将常用字段关键词划分为不同类别形成分类词典，采用n-gram模型统计出每一常用字段关键词转变到各样本关联词的转移概率，需要处理待解析简历时，首先查找待解析简历中与常用字段关键词相匹配的目标关键词，如果目标关键词对应的转移概率大于预定阈值，则根据目标关键词更新每一常用字段关键词对应的转移概率，并对待解析简历中的有效关键词增加前缀标注和后缀标注，再对待解析简历的文本内容进行分段提取并输出，从而能够提高信息抽取准确率并支持不同文件格式。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于n-gram模型的简历解析方法，其特征在于，包括：

S1：收集预定数量的简历样本；

S2：统计所述简历样本中的常用字段关键词，并将常用字段关键词按照不同描述类型划分为不同类别，形成分类词典；

S3：将所述简历样本中紧邻每一常用字段关键词之后出现的非关键词记为样本关联词，并采用n-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率；

S4：将待解析简历的文件格式转换为纯文本格式；

S5：采用最大匹配算法在所述待解析简历中查找与分类词典中的常用字段关键词相匹配的目标关键词；

S6：判断所述目标关键词对应的转移概率是否大于预定阈值，如果大于预定阈值，则将目标关键词判定为有效关键词；

S7：将所述待解析简历中紧邻每一有效关键词之后出现的非关键词记为有效关联词，并根据所述有效关联词更新每一常用字段关键词对应的转移概率；

S8：利用所述分类词典对待解析简历中的有效关键词增加前缀标注和后缀标注；

S9：根据所述前缀标注和后缀标注对待解析简历的文本内容进行分段提取，并将分段提取后的文本内容按照预定格式进行输出。

2.根据权利要求1所述的简历解析方法，其特征在于，所述非关键词为连续两个字符，所述步骤S3具体为；采用tri-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率。

3.根据权利要求1所述的简历解析方法，其特征在于，所述步骤S5具体包括：

将所述待解析简历的文本内容按照预定长度进行切分，形成待分词文本；

扫描所述待分词文本，当扫描到与分类词典中的常用字段关键词相匹配的第一个字符时，从所述第一个字符开始记录，直到扫描不到与分类词典中的常用字段关键词相匹配的字符为止；

将记录下的所有字符组成目标关键词。

4.根据权利要求1所述的简历解析方法，其特征在于，所述根据所述有效关联词更新每一常用字段关键词对应的转移概率的步骤具体为：

判断所述各样本关联词中是否存在与有效关联词相同的样本关联词；

5.根据权利要求1所述的简历解析方法及***，其特征在于，所述步骤S8具体包括：

查询所述有效关键词在所述分类词典中所属的类别；

6.根据权利要求5所述的简历解析方法，其特征在于，所述步骤S9具体包括：

将所述待解析简历中当前有效关键词的后缀标注与下一个有效关键词的前缀标注之间或者与所述待解析简历的文本结束符之间的文本内容作为当前有效关键词的描述信息；

依次提取每一有效关键词及其对应的描述信息；

7.根据权利要求1、5或6所述的简历解析方法，其特征在于，所述预定格式为Json格式。

8.根据权利要求1所述的简历解析方法，其特征在于，所述待解析简历的文件格式至少包括doc格式、pdf格式或html格式。

9.根据权利要求1所述的简历解析方法，其特征在于，所述简历样本的语言为中文。