CN107423280A

CN107423280A - 一种语句判别方法与***

Info

Publication number: CN107423280A
Application number: CN201710258869.XA
Authority: CN
Inventors: 王鹏
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2017-04-19
Filing date: 2017-04-19
Publication date: 2017-12-01

Abstract

本发明涉及一种语句判别方法与***，所述方法包括：对一待判别语句进行归一化处理后进行分值计算以得到一当前分值；将所述当前分值与一预设分值进行比较，若所述当前分值大于所述预设分值，则确定所述待判别语句为所述获奖描述性语句。本发明的语句判别方法与***在实际应用中可同时对大量简历中的获奖描述语句进行准确判别，从而更快地对简历进行筛选，在很大程度上提高了数据处理效率，满足了实际应用需求。

Description

一种语句判别方法与***

技术领域

本发明涉及语句判别技术领域，特别涉及一种语句判别方法与***。

背景技术

众所周知的，在职场求职的过程中，简历被公认为求职成功的“敲门砖”。具体的，简历就是对个人学历、经历、特长、爱好及获奖情况等所作的简明扼要的书面介绍，是一种有针对性的自我介绍的规范化、逻辑化的书面表达。

在简历的筛选过程中，常常需要对简历进行整体评分。而进行评分时求职者的获奖情况是一个十分重要的评分指标。获奖情况一般通过获奖描述性语句来进行详细描述。例如，常见的获奖描述性语句可以为“第八届全国信息技术应用水平大赛，获得“中兴杯”安卓智能终端创意团体赛全国二等奖，作品《水果忍者》手机UI主题。”在进行简历评分的过程中，识别简历中的一段文本是否为获奖描述性文本对简历的最终得分有着直接影响。

一般的，现有的对简历进行评分一般采用人工的方式进行，通过人工查询简历中的获奖描述语句(例如语句中包含“大赛”以及“二等奖”词汇即可判断该语句为获奖描述语句)进而对简历进行评分。但是此方法仅适用于数据工作量较小的情况，当所需要处理的简历量非常大时，通过人工查阅评分的方法无疑费时费力，尤其在当前大数据的环境下，无法满足实际应用需求。

发明内容

基于此，本发明的目的是提出一种新型的语句判别方法与***，可同时对大量简历中的获奖描述语句进行准确判别，在很大程度上提高了数据处理效率，满足了实际应用需求。

本发明提出一种语句判别方法，其中，所述方法包括如下步骤:

对一待判别语句进行归一化处理后进行分值计算以得到一当前分值；

将所述当前分值与一预设分值进行比较，若所述当前分值大于所述预设分值，则确定所述待判别语句为所述获奖描述性语句。

所述语句判别方法，其中，对所述待判别语句进行归一化处理后进行分值计算的模型为N-gram获奖判别模型，其中所述N-gram获奖判别模型为将预设获奖描述性语句经分词处理后再根据N-gram算法运算所建立，当所述N-gram获奖判别模型中N的值为3时，所述N-gram获奖判别模型为trigram获奖判别模型，所述trigram获奖判别模型的表达式具体为：

其中，P(w_i|w_i-2w_i-1)为已知第i-1以及第i-2个词的情况下，第i个词出现的概率，P(w_i|w_i-1)为已知第i-1个词的情况下，第i个词出现的概率，P(w_i)为第i个词单独出现的概率，C(w_i-2w_i-1w_i)＞0为第i、第i-1以及第i-2个词同时出现的次数，C(w_i-2w_i-1w_i)＝0且C(w_i- ₁w_i)＞0为第i以及第i-1个词同时出现的次数，αP(w_i),C(w_i-1w_i)＝0且C(w_i)＞0为第i个词单独出现的次数，α为回溯权值，对应的值为0.45。

所述语句判别方法，其中，对一待判别语句进行归一化处理后进行分值计算以得到一当前分值的步骤包括：

基于所述trigram获奖判别模型对所述待判别语句的长度进行归一化处理；

根据公式对所述待判别语句进行分值计算以得到所述当前分值，其中Score(S_new)为所述待判别语句的所述当前分值，L(S)为所述待判别语句中词的个数。

所述语句判别方法，其中，所述将预设获奖描述性语句经分词处理的步骤包括：

将所述预设获奖描述性语句以词汇为基本单位进行拆分以得到依次排列的多个所述词汇；

在经拆分后的所述预设获奖性描述性语句的句首以及句末分别***标志性字符。

所述语句判别方法，其中，所述预设分值为-5。

本发明还提出一种语句判别***，其中，所述***包括：

分值计算模块，用于对一待判别语句进行归一化处理后进行分值计算以得到一当前分值；

获奖判别模块，用于将所述当前分值与一预设分值进行比较，若所述当前分值大于所述预设分值，则确定所述待判别语句为所述获奖描述性语句。

所述语句判别***，其中，对所述待判别语句进行归一化处理后进行分值计算的模型为N-gram获奖判别模型，其中所述N-gram获奖判别模型为将预设获奖描述性语句经分词处理后再根据N-gram算法运算所建立，当所述N-gram获奖判别模型中N的值为3时，所述N-gram获奖判别模型为trigram获奖判别模型，所述trigram获奖判别模型的表达式具体为：

所述语句判别***，其中，所述分值计算模块包括：

归一化单元，用于基于所述trigram获奖判别模型对所述待判别语句的长度进行归一化处理；

分值计算单元，用于根据公式对所述待判别语句进行分值计算以得到所述当前分值，其中Score(S_new)为所述待判别语句的所述当前分值，L(S)为所述待判别语句中词的个数。

所述语句判别***，其中，所述分值计算模块还包括一分词模块，所述分词模块包括：

分词单元，用于将所述预设获奖描述性语句以词汇为基本单位进行拆分以得到依次排列的多个所述词汇；

字符***单元，用于在经拆分后的所述预设获奖性描述性语句的句首以及句末分别***标志性字符。

所述语句判别***，其中，所述预设分值为-5。

本发明提出的一种语句判别方法与***，在实际应用中先将待判别语句输入到N-gram获奖判别模型中，然后该N-gram获奖判别模型对待判别语句进行评分作业，将所得到的分值与预设分值进行比较便可判定该待判别语句是否为获奖描述语句。本发明的语句判别方法与***可同时对大量简历中的获奖描述语句进行准确判别，从而更快地对简历进行筛选，在很大程度上提高了数据处理效率，满足了实际应用需求。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明第一实施例中语句判别方法的原理框图；

图2为本发明第二实施例中语句判别方法的流程图；

图3为本发明第三实施例中语句判别***的的结构示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参阅图1，对于第一实施例中的语句判别方法，用于判断一语句是否为获奖描述性语句，其中，所述方法包括如下步骤：

S101，对一待判别语句进行归一化处理后进行分值计算以得到一当前分值。

具体的，在本发明中，首先需要根据预设获奖描述性语句根据N-gram算法建立对应的N-gram获奖判别模型。例如，假设预设获奖描述性语句为“第十二届全国研究生数学建模竞赛三等奖”，经分词处理之后得“<bos>第十二届全国研究生数学建模竞赛三等奖<eos>”，同理，如果所述预设获奖描述语句为“获第五届数学竞赛浙江赛区一等奖”，同样经分词处理之后可以得到“<bos>获第五届数学竞赛浙江赛区一等奖<eos>”。在对预设获奖描述性语句进行分词处理之后，将经过分词处理之后所得到的词汇根据N-gram算法进行运算以得到所述N-gram获奖判别模型(训练语言模型)。具体的，由于一个句子S包含多个词汇w，写成序列的形成可以为：S＝w₁w₂w₃......w_i，其中i表示句子中词汇的个数。对于任一个句子S而言，以概率的方式进行表示可以写成：

P(S)＝P(w₁、w₂、w₃......w_i)

将该公式展开可以写成：

其中，P(w₁)代表第一个词w₁出现的概率，P(w₂|w₁)代表已知第一个词w₁的情况下第二个词w₂出现的概率，P(w_i|w₁...w_i-1)代表已知前面第一至第i-1个词出现的情况下第i个词出现的概率。

在N-gram(N＝1，2，3......)模型中，基于马尔科夫假设：任意一个词的出现的概率仅仅与它前面出现的有限的一个或者几个词有关。为了减少参数的搜索空间，因此需要对上述展开后的公式作一定的条件独立性假设。对应的加入条件独立性假设之后的公式为：

其中，该公式指代的为当前词的概率值依赖于前面的N-1个词，而不是所有的词。当N＝1时，模型称为unigram；当N＝2时，模型称为bigram；当N＝3时，模型称为trigram。在本实施例中，N的值为3，也即本实施例中的N-gram模型为trigram。值得指出的是，在训练语言模型的过程中，不可避免地会碰到数据稀疏的问题。也即若某个N-gram在训练语料中没有出现，则该N-gram对应的概率为0，这样会导致整个语句出现的概率为0。为了避免这种情况的发生，必须对训练数据进行平滑处理，在本实施例中所选用的平滑算法为katz平滑算法，结合katz平滑算法，本发明的最终的trigram模型表达式为：

在确定了N-gram获奖判别模型的表达式之后(在本实施例中，N-gram获奖判别模型为trigram模型)，此时可以根据上述trigram模型对待判别语句进行统一处理。具体的，对于一个待处理语句，在输入trigram模型之前同样需要进行分词处理。例如，待处理语句为“2014年重庆邮电大学模拟招聘会”，经分词处理并***标志性字符之后得到“<bos>2014年重庆邮电大学模拟招聘会<eos>”。

与此同时，由于一个句子的概率是多个N-gram相乘所得的结果，此种情况有可能导致短句子偏向于得到更高的概率，而长句子相对得到更低的概率。因此为了解决句子长度为概率的影响，需要基于所述trigram获奖判别模型对所述待判别语句的长度进行归一化处理。

在对待判别语句进行归一化处理之后，根据下述公式对所述待判别语句进行分值计算以得到所述当前分值：

其中Score(S_new)为所述待判别语句的所述当前分值，L(S)为所述待判别语句中词的个数。例如对上述待处理语句“2014年重庆邮电大学模拟招聘会”进行分值计算后最终得到的当前分值为-11.9185813481。

S102，将所述当前分值与一预设分值进行比较，若所述当前分值大于所述预设分值，则确定所述待判别语句为所述获奖描述性语句。

在通过分值计算得到了待判别语句的当前分值之后，此时将当前分值与预设分值进行比较，在本实施例中，所述预设分值为-5，判断所述当前分值与所述预设分值-5之间的大小，若所述当前分值大于所述预设分值-5，则确定所述待判别语句为获奖描述性语句。如上所述，针对“2014年重庆邮电大学模拟招聘会”语句，其对应的当前分值为-11.9185813481，很明显其值小于-5，因此判定该语句为非获奖描述性语句。

请参阅图2，对于第二实施例中的语句判别方法，具体的，首先提取一获奖文本语料，例如，所提取的获奖文本语料为“获第五届数学竞赛浙江赛区一等奖”，然后对该获奖文本语料以词汇为基本单位进行拆分以得到依次排列的多个词汇，再在经过拆分后的多个词汇的句首以及句末分别***标志性字符，在本实施例中，***<bos>以及<eos>字符，最终得到“<bos>获第五届数学竞赛浙江赛区一等奖<eos>”。

此后，将经过分词处理之后的获奖文本语料输入到N-gram算法中进行运算以最终建立一N-gram获奖判别模型。具体的，由于一个句子S包含多个词汇w，写成序列的形成可以为：S＝w₁w₂w₃......w_i，其中i表示句子中词汇的个数。对于任一个句子S而言，以概率的方式进行表达：

P(S)＝P(w₁、w₂、w₃......w_i)

展开后得到：

其中，P(w₁)代表第一个词w₁出现的概率，P(w₂|w₁)代表已知第一个词w₁的情况下第二个词w₂出现的概率，P(w_i|w₁...w_i-1)代表前面第一至第i-1个词出现的情况下第i个词出现的概率。

在确定了上述trigram模型之后，此时可以根据该trigram模型对待判别语句进行处理。具体的，对于一个新来的待判别语句，同样需要先对该待判别语句进行分词处理。例如，该待判别语句为“电子设计大赛中我负责电路板的绘制和程序的调试”，以词汇为单位进行分词处理之后得到“<bos>电子设计大赛中我负责电路板的绘制和程序的调试<eos>”。

其中Score(S_new)为所述待判别语句的所述当前分值，L(S)为所述待判别语句中词的个数。

例如通过计算得到上述待判别语句“电子设计大赛中我负责电路板的绘制和程序的调试”的当前分值为-8.2089242287。在本实施例中，所述预设分值为-5，判断所述当前分值与所述预设分值-5之间的大小，若所述当前分值大于所述预设分值-5，则确定所述待判别语句为获奖描述性语句，若所述当前分值小于所述预设分值-5，则确定所述待判别语句为非获奖性语句。如上所述，针对“电子设计大赛中我负责电路板的绘制和程序的调试”语句，其对应的当前分值为-8.2089242287，很明显其值小于-5，因此判定该语句为非获奖描述性语句。

此外，根据上述语句判别方法在实际语句判别中的应用情况，给出部分获奖描述语句以及非获奖描述语句各自对应的分值表如下：

获奖描述语句及得分：

非获奖描述语句及得分：

从上表可以看出，在本实施例中，以预设分值-5为临界判断点，获奖描述语句的得分均大于-5，非获奖描述语句的得分均小于-5，且获奖描述语句的得分要明显高于非获奖描述语句。

请参阅图3，对于第三实施例提出的语句判别***，包括相互连接的语句输入模块、分值计算模块以及获奖判别模块，其中所述语句输入模块用于将一待判别语句输入到一N-gram获奖判别模型中，所述N-gram获奖判别模型为将预设获奖描述性语句经分词处理后再根据N-gram算法运算所建立；所述分值计算模块用于基于所述N-gram获奖判别模型对一待判别语句进行归一化处理后进行分值计算以得到一当前分值；所述获奖判别模块用于将所述当前分值与一预设分值进行比较，若所述当前分值大于所述预设分值，则确定所述待判别语句为所述获奖描述性语句。

其中，对所述N-gram获奖判别模型而言，在本实施例中，所述N-gram获奖判别模型中N的值为3，也即所述N-gram获奖判别模型为trigram模型，其具体表达式为：

此外，对所述分值计算模块而言，所述分值计算模块包括相互连接的归一化单元以及分值计算单元，其中所述归一化单元用于基于所述trigram获奖判别模型对所述待判别语句的长度进行归一化处理，所述分值计算单元用于根据公式对所述待判别语句进行分值计算以得到所述当前分值，其中Score(S_new)为所述待判别语句的所述当前分值，L(S)为所述待判别语句中词的个数。

对所述获奖判别模块而言，所述获奖判别模块包括相互连接的判别单元以及确认单元，其中所述判别单元用于判断所述当前分值与所述预设分值-5之间的大小，所述确认单元用于若所述当前分值大于所述预设分值-5，则确定所述待判别语句为获奖描述性语句。

与此同时，在所述语句输入模块中还包括一分词模块，所述分词模块包括相互连接的分词单元以及字符***单元，其中所述分词单元用于将所述预设获奖描述性语句以词汇为基本单位进行拆分以得到依次排列的多个所述词汇，所述字符***单元用于在经拆分后的所述预设获奖性描述性语句的句首以及句末分别***标志性字符，在本实施例中，所述标志性字符为<bos>以及<eos>字符。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成。所述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，包括上述方法所述的步骤。所述的存储介质，包括：ROM/RAM、磁碟、光盘等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语句判别方法，其特征在于，包括如下步骤:

2.根据权利要求1所述的语句判别方法，其特征在于，对所述待判别语句进行归一化处理后进行分值计算的模型为N-gram获奖判别模型，其中所述N-gram获奖判别模型为将预设获奖描述性语句经分词处理后再根据N-gram算法运算所建立，当所述N-gram获奖判别模型中N的值为3时，所述N-gram获奖判别模型为trigram获奖判别模型，所述trigram获奖判别模型的表达式具体为：

其中，P(w_i|w_i-2w_i-1)为已知第i-1以及第i-2个词的情况下，第i个词出现的概率，P(w_i|w_i-1)为已知第i-1个词的情况下，第i个词出现的概率，P(w_i)为第i个词单独出现的概率，C(w_i-2w_i-1w_i)＞0为第i、第i-1以及第i-2个词同时出现的次数，C(w_i-2w_i-1w_i)＝0且C(w_i-1w_i)＞0为第i以及第i-1个词同时出现的次数，αP(w_i),C(w_i-1w_i)＝0且C(w_i)＞0为第i个词单独出现的次数，α为回溯权值，对应的值为0.45。

3.根据权利要求2所述的语句判别方法，其特征在于，所述对一待判别语句进行归一化处理后进行分值计算以得到一当前分值的步骤包括：

4.根据权利要求2所述的语句判别方法，其特征在于，所述将预设获奖描述性语句经分词处理的步骤包括：

5.根据权利要求1所述的语句判别方法，其特征在于，所述预设分值为-5。

6.一种语句判别***，其特征在于，包括：

7.根据权利要求6所述的语句判别***，其特征在于，对所述待判别语句进行归一化处理后进行分值计算的模型为N-gram获奖判别模型，其中所述N-gram获奖判别模型为将预设获奖描述性语句经分词处理后再根据N-gram算法运算所建立，当所述N-gram获奖判别模型中N的值为3时，所述N-gram获奖判别模型为trigram获奖判别模型，所述trigram获奖判别模型的表达式具体为：

8.根据权利要求7所述的语句判别***，其特征在于，所述分值计算模块包括：

9.根据权利要求7所述的语句判别***，其特征在于，所述分值计算模块还包括一分词模块，所述分词模块包括：

10.根据权利要求6所述的语句判别***，其特征在于，所述预设分值为-5。