CN113886604A

CN113886604A - 一种职位知识图谱生成方法和***

Info

Publication number: CN113886604A
Application number: CN202111220412.2A
Authority: CN
Inventors: 戴圣骐; 林自达; 俞希林
Original assignee: Qianjin Network Information Technology (shanghai) Co ltd
Current assignee: Qianjin Network Information Technology (shanghai) Co ltd
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-01-04

Abstract

本发明涉及一种职位知识图谱生成方法和***，其中所述方法包括以下步骤：基于职位描述数据集、个人简历数据集和百科知识数据集建立具有不同数据状态的语料库；通过实体召回模型从所述语料库召回实体以得到图谱实体，其中，所述实体为名词或名词性词组；通过关系抽取模型从百科知识数据集中抽取实体之间的关系，其中，所述实体之间的关系为包含或相似；以及根据实体之间的关系建立实体与实体之间的映射关系。利用本发明的图谱，以求职用户的简历、招聘用户的职位描述为基础信息，通过语义提取出基础信息的关键词，并为关键词匹配本发明提供的图谱中的实体，从而可以深层理解用户的需求，获得需求信息中的隐含信息。

Description

一种职位知识图谱生成方法和***

技术领域

本发明涉及知识图谱，特别地涉及一种应用于招聘平台的职位知识图谱生成方法和***。

背景技术

招聘平台是在现代信息社会中被人们广泛使用的一个信息平台。一方面，求职者可通过招聘平台中的搜索引擎查询与其预期相符的职位，通常，搜索引擎提供单一选项或多个选项来确定搜索条件。这些搜索选项通常为求职者最为关心的一些选项。例如，“行业”、“职能”、“薪酬范围”、“公司性质”“工作地点”等等。而实际上，由这些已确定的搜索选项确定的搜索条件相应于海量信息来说过于宽范，首先可能会搜索得到大量的职位信息，对于这些大量的职位信息需要求职者自己手动筛选，或者再进行二次搜索。其次是现有的有限几个搜索选项并不能很好地体现求职者的真正意愿，因而搜索结果并不能满足求职者的搜索目的。为了使求职者能够输入其特定的搜索词条，通常在搜索选项中包括一项关键词选项，求职者可以在此选项中输入关键词进行搜索。由于求职者的个体表达差异，对于同一个意思，求职者输入的关键词可能是多种多样，这使得搜索引擎无法正确理解关键词，从而在搜索时出现偏差。在另一方面，大部分的招聘平台具有职位推荐功能，基于求职者的简历和招聘者招聘信息，对求职者和招聘者进行匹配以得到符合求职者需求的职位。然而，由于求职者在其简历或相关求职需求等文件中和招聘者在其招聘信息中对职位、技能等关键信息的描述多种多样，同样的意思可能采用不同的词汇、不同的语式，这为职位的搜索和匹配增加了难度。

发明内容

针对现有技术中存在的技术问题，本发明提出了一种职位知识图谱生成方法和***，用于提供与职位相关的同一维度上多个不同详细程度的内容。

为了解决上述技术问题，根据本发明的一个方面，本发明提供了一种职位知识图谱生成方法，其中包括以下步骤：基于职位描述数据集、个人简历数据集和百科知识数据集建立语料库；通过实体召回模型从所述语料库召回实体以得到图谱实体，其中，所述实体为名词或名词性词组；通过关系抽取模型从百科知识数据集中抽取实体之间的关系，其中，所述实体之间的关系为包含或相似；以及根据实体之间的关系建立实体与实体之间的映射关系。

根据本发明的另一个方面，本发明还提供了一种职位知识图谱生成***，其中包括语料模块、实体召回模块、关系抽取模块以及图谱生成模块；其中，所述语料模块经配置以基于职位描述数据集、个人简历数据集和百科知识数据集建立语料库；所述实体召回模块经配置以通过实体召回模型从所述语料库召回实体以得到图谱实体，其中，所述实体为名词或名词性词组；所述关系抽取模块与所述实体召回模块相连接，经配置以通过关系抽取模型从百科知识数据集中抽取实体之间的关系，其中，所述实体之间的关系为包含或相似；所述图谱生成模块与所述实体召回模块和关系抽取模块相连接，经配置以实体为节点，以根据实体之间的关系建立节点之间的连接从而生成职位知识图谱。

本发明利用平台中用户上传的数据，如职位描述数据、个人简历以及公共百科数据获得与职位相关的名词或名词性词组作为实体，每个实体具有一至多个属性，基于职位搜索、推荐等业务需求，将实体之间的关系设置为包含和相似关系，通过百科数据可自动获取这些实体在关于某个属性之间的包含或相似关系。当已知一个实体时，通过该实体的属性可以找到同一属性的多个实体，这些实体根据包含关系可表达的语义从详细到抽象，而且所述图谱与职位分类表相匹配，因而，通过本发明的图谱，以求职用户的简历、招聘用户的职位描述为基础信息，通过语义提取出基础信息的关键词，并为关键词匹配本发明提供的图谱中的实体，从而可以深层理解用户的需求，获得需求信息中的隐含信息。

附图说明

下面，将结合附图对本发明的优选实施方式进行进一步详细的说明，其中：

图1是根据本发明的一个实施例的所述职位知识图谱生成的方法流程图；

图2是根据本发明的一个实施例的实体召回的方法流程图；

图3是根据本发明的一个实施例的得到用于实体召回的数据集的方法流程图；

图4是根据本发明的一个实施例的采用Excel的单字格进行标记的数据展示图；

图5是根据本发明的一个实施例实体关系抽取方法流程图；

图6是根据本发明的一个实施例的所述职位知识图谱生成***原理框图；

图7是根据本发明的一个实施例的语料模块原理框图；

图8是根据本发明的一个实施例的实体召回模块原理框图；

图9是根据本发明的一个实施例的关系抽取模块的原理框图；

图10是根据本发明的一个实施例的知识图谱中的部分实体及其关系展示图；

图11是根据本发明的一个应用实施例的职位推荐方法流程图；以及

图12是根据本发明的一个应用实施例的生成求职用户第一标签的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在以下的详细描述中，可以参看作为本申请一部分用来说明本申请的特定实施例的各个说明书附图。在附图中，相似的附图标记在不同图式中描述大体上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述，使得具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当理解，还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性的改变。

知识图谱是一种揭示实体之间关系的语义网络，每条知识表示为一个SPO三元组(Subject-Predicate-Object)，更接近于人类的认知思维，并为互联网上海量、异构和动态的数据的表达、组织、管理以及利用提供了一种有效的方式。本发明提供的应用于招聘平台的知识图谱***构从招聘平台内部的招聘信息、简历和一些公用数据库中的职位列表、简历等文件中召回实体，并利用从互联网上抓取的百科词条组成的通用百科知识库抽取出实体间关系，从而建立了求职、招聘领域中的职位知识图谱，所述职位知识图谱的生成的过程如图1所示，该方法包括以下步骤：

步骤S1，建立语料库。

步骤S2，实体召回。

步骤S3，抽取实体关系。

步骤S4，图谱维护。

在步骤S1中，首先确定数据来源。本发明以招聘平台内部的招聘信息、简历和一些公用数据库中的职位列表、简历等文件中的数据、百科知识(WIKI)数据(包括从中文***Wikipedia网页抓取的语料、从百度百科非隐藏网页抓取的三元组语料、从2015年版本7Lore公开发布全网抓取的三元组语料和基于30k拼接词抓取的百度百科完全语料)作为语料库的数据来源，主要分为招聘者发布的职位描述数据集、个人简历数据集和WIKI数据集，并对这三种数据集中的数据进行处理以得到具有标准格式、易于使用的语料库。具体包括以下步骤：

首先对确定的上述三种语料数据进行数据筛选与清洗。主要包括：删除影响语料后续分析的不必要信息，如长段外语、电话、邮箱或地址等；规整数据格式，最大限度的缩小不同语料之间因格式、符号与编码等外部因素造成的异质性；统计条目字段内容，对字段合法性进行初步判断，删除诸如过长、过短、数据溢出或明显不合常理的条目。

然后对语料数据进行合并、拆分。在本发明中，对三种数据集中的数据进行拆分处理，根据后续对语料的不同需求，根据最终拆分结果分为五种状态的数据集：

1)raw数据集：未经过清洗的原始数据集；

2)clean数据集，经过前述数据清洗后的数据集；

3)paragrah数据集，经过条目、段落尺度去重的数据集；

4)sentence数据集，在paragraph基础上进一步分句、去重、排序后形成的以句子为单位的预料数据集；

5)针对WIKI数据集生成title数据集，其为选取符合指定目标的WIKI代表条目生成的词表，多用于后续步骤筛选和统计。

在本步骤中，以上述语料清洗结果为框架，分别对职位描述数据集、个人简历数据集和WIKI数据集在条目和语句层面进行拆分。其中，在经过筛选和清洗后的clean文件的基础上，进行条目、段落尺度的去重操作，可以很好地应用应对职位的重复发布、简历重复投递、WIKI段落间相互复制等客观因素对语料库中语料多样性的影响。为实现更加可靠的去重效果，可以采取排序、计算Levenshtein相似比例归并等方法。

在一个实施例中，语料库中每行仅存储一个条目，每个条目的格式定义如下：

<主键>|<描述>|...|<描述>|<描述>

其中"|"符号为字段分隔标记(该标记左右无空格)，<主键>与<描述>分别代表不同字段内容。一个合法条目可以不包含任何描述字段，但每个条目必须包含主键作为索引。任意字段中仅包含繁简中文、小写英文、数字与指定英文符号[,.；！？/+-#@]，特别的，使用空格作为非法符号替换符。任意字段不包含连续符号。第一字段必定为职位或简历独特标号作为键值，最末字段必须为职位或简历描述(即用于语义分析时的核心字段)。值得注意的是，简历条目中有包括工作经验、项目经验与自我介绍等多个描述字段。描述字段段首不带任何形式的标号(1、二、III.等)，任意句子以[,；.！？]五种符号分隔，句内并列分隔以[/]符号作为替代(统一顿号与/表示并列的情况)。语料库中的各种数据集以文件形式存储，作为一个具体例子，语料文件以不带签名的utf-8编码格式存储，文件中的最末条目后以不带内容的换行符(\n)作为结尾，以便于拼接。

在本***的知识图谱生成的任务中，基础实体召回是最关键的步骤之一。图谱中实体的数量与质量直接决定了最终知识图谱本身以及使用该图谱的后续业务的质量。在本发明中，将实体定义为名词或名词性组合词，既能体现出招聘平台的各种信息，又方便后续业务对图谱使用时的搜索与匹配。所述实体召回的步骤如图2所示，包括：

步骤S21，按照由特定词语或模式构成的特征句式及各种词典初步筛选句子得到用于实体召回的数据集。由于不同应用环境所关心的信息不同，例如，对职位推荐***而言，对其有用的信息通常符合一定的特定句型，如以储如熟悉、精通、了解、负责等动词开头接名词构成的动宾句型，以此类句式作为特征句式，从语料库中筛选出包含此类句式的句子构成第一初选数据集。另外，在一些实施例中，还包括有通过业务积累出的实体词典，所述词典中记录有职位搜索中常用的句词，如职位名称、技能名称、级别名称等等，其可以直接用于本图谱中的实体，基于实体词典从语料库中提取出包括实体词典中实体的句子，构成第二初选数据集。在本发明的一个实施例中，还利用推荐***中使用的标签字典中标签，对其进行拆分、得到新词，再从语料库中提取出包括有该新词的句子构成第三初选数据集。在一个实施例中，采用AC(Aho–Corasick)自动机将实体词典中的实体和拆分出的标签语素映射到语料库，从中得到包括实体、标签语素的句子，将上述三种初选数据集合并构成初筛数据集。具体过程如图3所示，包括：

步骤S211，利用特征句式从语料库中筛选出包含此类句式的句子构成第一初选数据集。

步骤S212，针对已有的实体词典，采用AC自动机将实体词典中的实体映射到语料库，从中得到包括词典实体的句子，第二初选数据集。

步骤S213，对标签字典中的标签进行拆分得到标签语素集。本步骤对于已有的一些数据加以利用，例如标签词典中的数据。语素能够自底向上组成新词语或短语，因而可以成为知识图谱实体的重要来源。所述的标签词典中包含有推荐***中积累的标签，所述标签由前缀语素和后缀语素构成，前缀语素或后缀语素通常为两字词或三字词。为了获得更多的知识图谱实体，本实施例还对所述标签字典进行扩充。

步骤S214，采用AC自动机将标签语素集中的内容映射到语料库，从中提取出包括标签语素的句子。

步骤S215，从得到的包含有标签语素的句子中提取出新的词汇。其中，通过逐句对每个句子进行分词，分析语法结构，确定出可以与标签语素组合在一起的语素，则得到了包括原标签语素的新词。当根据标签语素得到新词时，查询所述新词的词频，并过滤掉词频小于10的新词。为了提高新词质量，在本发明中限制新词的长度，将短于语素本身长度(两字)或过长的新词(十字)删除。

步骤S216，从语料库中提取出包含合适新词的句子，构成第三初选数据集。

步骤S217，合并前述第一初选数据集、第二初选数据集和第三初选数据集得到初筛数据集。

步骤S218，对初筛数据集进行标注。在一个实施例中，引入Excel的单字格进行待标记数据展示，即每行一个句子，每列一个字；不同种类的标记使用不同颜色的背景标记，该操作可以使用格式刷快速完成，极大方便了标记人员并提高了标记速度，如图4所示。标注完成后，使用Excel合成多来源的原始标注数据，随后使用python将该数据转换为模型可以使用的BIOE格式。

步骤S219，语料调校。主要是对标注完成的初筛数据集进行调整和校对，目的是扩展未完全召回的短语、缩减过度召回的短语和添加部分遗漏的短语，从而得到用于实体召回的语料数据集。

步骤S22，基于标注完的语料数据库，以句子为处理单位，通过命名实体识别(NER)模型作为实体召回模型进行实体的召回得到候选实体。一般来说，命名实体识别的任务是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。从识别的过程来看，通常包括两个部分：1)实体边界识别；2)确定实体类别。在本发明中，知识图谱的实体抽取更重视实体边界的识别。

对于各种算法而言，相应字词在语句中位置与字词周围的字词种类或其他特征(Features)是判断该字词是否为有效实体短语的重要依据。特别的，相对于隐式马尔科夫模型(HMM)在中文分词中的优异表现，条件随机场算法(CRF)是命名实体识别任务中更常用的算法，其可以有效完成序列标注任务。CRF的目标函数不仅考虑输入的状态特征函数，而且还包含了标签转移特征函数，训练时使用多种梯度下降方法(SGD，拟牛顿法等)最优化模型参数。训练完成模型能够对输入序列预测输出使目标函数最大化的最优序列，对该序列可以使用Viterbi算法解码来得到最优标签序列。因此，CRF的优点在于其为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息。

在CRF算法框架下的序列粒度、编码初始化、编码方式是影响命名实体识别模型精度和正确性的主要因素。因此，针对于图谱实体召回，本发明选择如下：

首先在序列粒度方面，由于本发明希望召回的词语或短语具备良好的扩展性，对分词带来的不确定性比较敏感，加之可能出现的多语言环境和部分特殊标号影响，因此本发明选择字粒度序列表示。

在编码初始化方面，知识图谱的召回着重于更通用的字词含义，需要更复杂的编码结构来存储信息，因此可以选择通用的固定词向量编码(Word2Vec,FastText，维度100d)，亦可选择变化向量表示，如BERT模型提供了优质的768d预训练字向量，该向量具备优秀的语义预训练特征和字符覆盖度。

在编码算法方面，知识图谱召回任务具备需求更高的召回率且可以线下运行，对及时性要求不高，因此本发明选择使用BiLSTM和IDCNN两个深度网络模型来更完全的提取字词、序列、分词甚至词性信息。更多地本发明使用了可变学习率的Adam算法作为梯度下降算法来同时优化神经网络和CRF状态转移矩阵。

综上所述，本发明针对命名实体识别模型包括的三个阶段：输入的分布式表示、语义编码和标签解码分别作如下处理：输入的分布式表示阶段采用字粒度序列，以固定词向量编码(如Word2Vec,FastText，维度100d)或变化词向量编码(如BERT模型，维度768d)形式提供的模型将输入的句子转化为词向量表示。在语义编码阶段，由于本模型是为了召回知识图谱的实体，要求高召回率且可以线下运行，并对及时性要求不高，因此本发明使用BiLSTM和IDCNN两个深度网络模型对输入的词向量表示进行字词提取、生成序列、分词甚至词性信息，从而转化为上下文相关的表示。在标签解码阶段采用条件随机场(CRF)算法，以上下文相关的表示作为输入，对整个模型的输入预测得到相应的标签序列。其中，使用可变学习率的Adam算法作为梯度下降算法同时优化神经网络和CRF状态转移矩阵。

本发明将标注完、经过调校的语料分为两部分，一小部分作为模型训练数据，剩余的做为实体预测数据。利用前述训练数据对所述实体召回模型进行训练，并通过模型-数据反复的迭代的方式训练、优化所述实体召回模型和所述训练数据集，直到所述实体召回模型符合要求，得到理想的实体召回模型。

利用训练好的实体召回模型基于所述预测数据进行实体预测，从而得到候选实体列表。其中，训练好的实体召回模型以句尺度对预测数据进行预测，得到的候选实体为名词或名词性短语。

步骤S23，对候选实体进行过滤，过滤后得到实体集合。对候选实体进行过滤时，从中识别出人名、地名、书籍名称、游戏名称、天体名称等不相关领域内容的名词，并从候选实体集合中删除。类似地，删除纯数字(如110、119等)、纯符号(如@、￥等)或包括不合法符号的候选实体(如C※开发)。另外，候选实体的长度不能过大和过小，如不能少于两个字，不能多于十个字，删除少于字数不在2-10范围内的候选实体。如果已存在知识图谱的实体，与已有实体相比较，去除与已有实体相重复的实体。在一个较佳的实施例中，在进行完上述过滤操作后，针对现存的候选实体，在百科语料库中对其进行标题搜索，筛选掉无搜索结果或搜索结果存在歧义的候选实体，从而保证实体的真实性和通用性。

在一个更好的实施例中，还包括步骤S24，利用分类表对得到的实体集合中的实体再次筛选。在一个实施例中，所述的分类表例如为招聘平台中的职位分类表，如行业分类、职能分类等。例如，每种分类表中都包括多个不同的大类，在大类下面又包括小类，如行业分类表中包括“计算机/互联网/通信/电子”、“会计/金融/银行/保险”等。其中在“计算机/互联网/通信/电子”又包括“计算机软件”、“计算机硬件”、“网络游戏”等等的多个小类。为了使图谱能够在应用时为职位搜索、匹配提供优质地服务，应使图谱中的实体符合实际应用中的职位分类表，因而，在本步骤中，判断步骤S24中得到的实体是否属于分类表中的分类。例如对于实体“Java”，按照职位分类表，可以为在职能分类表中其匹配到“Java研发工程师”，并且其属于“计算机/互联网/通信/电子”行业，因而其是有效候选实体，对于实体“U盘”，虽然没有为其匹配到相应的职能分类及直接的行业分类，但由于其属于计算机硬件的一种，因而，可以将其匹配到行业分类表中的“计算机硬件”小类中。为了使图谱中的实体得到普遍认知并接受，能够为业务提供既专业又不缺乏常识的推断信息，因而知识图谱中实体在语料中应具备足够的流行度但又不能是每篇文档中都有的常用词，在一个实施例中，本发明为了满足这一要求，为实体设置了流行度阈值，其表现为在语料库中出现的次数阈值。在确定了一个实体为有效候选实体时，如“Java”、“U盘”，候选实体集合中搜索所述有效候选实体，统计该有效候选实体符合所述分类表时出现的次数，例如，当“Java”符合职能分类表的出现次数大于所述次数阈值时，确认所述“Java”属于实体，将其归入实体集合。而对于“U盘”，其符合职能分类表的出现次数小于所述次数阈值，确认所述“U盘”不属于本发明中所称的实体，不能将其归入实体集合。

步骤S25，为实体标注分类维度。为了确定实体之间的关联关系，本发明根据招聘平台中需要考虑的角度，为实体设置相应的分类维度。所述分类维度例如为行业、职能、技能、语言、学历、职位级别、工作类型等，通过设置的分类维度，使实体可以体现出一个或多个角度的信息。每一个实体包括一个或多个分类维度，例如，实体“娱乐管理”既包含了行业信息也包含了职能信息。

在步骤S3中，根据职位推荐的需要，本发明中的实体关系分为两类：一类是相似关系(is_similar)；一类是包含关系(is_included)。当为包含关系时，两个实体之间的包含关系存在方向性，一类前向包含(forward_included)，即后面的实体包含前面的实体，另一类为后向包含(backward_included)，即前面的实体包含后面的实体，根据前向或后向包含关系，可以确定出两个实体的指向关系。抽取实体关系所使用的数据为前述未进行清洗的百科(WIKI)数据，其为一个百科知识库，其由从互联网上抓取的百科词条组成，来源涉及百度百科、互动百科与中文***，抓取内容涉及词条标题、首段简介、词条标签与词条间链接。具体抽取过程如图5所示，包括以下步骤：

步骤S31，在百科数据中标注出实体集合中的实体。在一个实施例中，采用位置标识符从百科数据中标注出实体。

步骤S32，使用特定规则筛选出具有两个实体的句子。所述特定规则例如为：在一个句子带有“包含”“含有”等表示包含关系的词语，并且带有该词语的句子中具有并列关系的两个或多个实体；或者，在一个句子中，两个实体之间以“是”、“即”、“又称为”等词连接。按照步骤S32对语料库进行筛选后得到一个关系抽取数据集，在该集合中，每条数据包括实体一、实体二和包括实体一和实体二的句子。如下表-1所示的实施例：

表-1

步骤S33，利用关系抽取模型以句尺度的关系抽取数据集中预测出两个实体之间的关系。其中，本发明采用关系抽取模型得到实体关系。首先，本实施例采用监督分类的深度学习算法来解决实体间关系抽取问题，对两个实***置使用位置标识符表征，采用BiGRU模型(一种RNN模型变种)实现对训练数据语句进行字尺度向量映射，与此同时引入单头注意力机制修正序列向量在字尺度上的权重，最终将关系抽取问题转化为序列分类问题解决。

从按照步骤S32筛选出的数据集中取出小部分数据，如10000个包括两个实体的句子。将这些语句生成训练语料格式：

x(实体一)y(实体二)relation(实体关系)包含实体和关系的语句。

所述的实体关系为包含关系和相似关系，当两个实体共现但不存在包含和相似的实体关系时，将其标记为unknown(未知)关系。

采取模型-训练数据相互迭代的方法不断优化、训练数据质量及所述实体关系抽取模型，直到所述实体关系抽取模型达到要求。

利用所述关系抽取模型对步骤S32筛选出的剩余数据按照句尺度逐句预测该句子中的两个实体之间的关系。

其中，在一个句子中，实体一和实体二在共同的分类维度上具有包含关系或相似关系，如果是包含关系，还确定出前向包含或后向包含关系，如果在当前没有确定出是包含或相似的关系，则暂定为未知关系(unknown)。如下表-2所示：

表-2

实体一	实体二	实体关系
			白酒	茅台酒	包含(backward_included)
豆花	豆腐花	相似
			天然气	管道	未知
计算机	办公设备	包含(forward_included)
			app	手机软件	相似
肝脏疾病	肝炎	包含(backward_included)

具有包含关系的两个实体，根据前向或后向的关系，可使二者具有指向性，方向出发的节点为父节点，方向到达的节点为子节点，因而，父节点包含子节点。如表-2中的实施例，“白酒”向后包含“茅台酒”，所述“白酒”为父节点，“茅台酒”为子节点，二者的指向关系是由“白酒”指向“茅台酒”。具有相似关系的两个节点没有指向关系。

基于前述步骤S2和S3得到的实体及实体间的关系以每个实体作为节点，以实体间的关系作为边，从而建立知识图谱。所述知识图谱库包括多个相关联的节点，所述节点包括节点标签及对应的一个或多个分类维度(或称为属性)，所述节点根据不同属性连接与其具有包含关系或相似关系等映射关系的节点。知识图谱中的每一个知识节点的同一个属性按照包含关系既可以连接有上一级节点，也可以连接有下一级节点，因而，一个属性的映射关系为一个多级链条。在这个映射关系的多级链条上的节点，从根节点开始，表达的意思由抽象到具体。

在一个实施例中，将实体之间的映射关系存储起来作为配置文件，为了查询、匹配操作的方便，为实体设置序号，并为分类维度设置序号，通过实体的序号化，可提高搜索效率。

为了使图谱能够满足日益增加的业务需求，需要实时或定期维护图谱。即当语料库中有新的语料增加时，从新增加的语料中按照步骤S2召回新的实体，而后抽取实体关系。在本步骤中，为了键立与原来图谱中的实体的关系，在一个实施例中，首先按照步骤S31将新的实体标注回语料库，然后按照S32获取到新的具有两个实体的句子，所述至少其中一个实体为新的实体，从而得到新的关系抽取数据集合，在按照步骤S33在新的关系抽取数据集合获取到新实体的实体关系、新实体与已有实体的关系，并将这些新实体及新的关系增加到原来图谱中。

图6是根据本发明的一个实施例的所述职位知识图谱生成***原理框图。在本实施例中，所述职位知识图谱生成***包括语料模块1、实体召回模块2、关系抽取模块3和图谱生成模块4。其中，所述语料模块1用以基于职位描述数据集、个人简历数据集和百科知识数据集建立具有不同数据状态的语料库。本实施例的原数语料数据分别来自于三类数据：来自于平台数据库中的职位描述数据集和个人简历数据集，还有通过网络爬虫模块6得到的百科知识数据集。

如图7所示，语料模块1至少包括数据清洗单元11和数据合并拆分单元12，数据清洗单元11将原始三个数据集进行筛选与清洗，包括：删除不必要的数据，如电话、邮箱或地址等；规整数据格式；统计条目字段内容并删除诸如过长、过短、数据溢出或明显不合常理的条目。数据合并拆分单元12将清洗后的三个数据集分别进行合并、拆分。在一个实施例中，根据实体召回、关系抽取的需要，将数据集分为四种状态：原始数据集、清洗后的数据集、经过条目、段落尺度去重的数据集、在paragraph基础上进一步分句、去重、排序后形成的以句子为单位的预料数据集。每一个数据集中都包括这四种状态的数据，以满足后续的使用需求。

如图8所示，所述实体召回模块2包括第一数据制备单元21、实体获取单元22和实体过滤单元23，其中，在一个实施例中，所述第一数据制备单元21从三种数据集中按照图3所示流程从语料库中筛选出可用于实体召回的数据集，其中包括供实体召回模型进行实体预测的预测数据集。实体获取单元22利用命名实体识别模型作为实体召回模型基于所述预测数据集进行实体预测，以得到候选实体。所述体过滤单元23与所述实体获取单元22相连接，按照过滤规则对所述候选实体进行过滤以得到包括多个候选实体构成候选实体列表(也可以称为候选实体集合)。其中，所述过滤规则包括过滤掉其他领域的名词或句词性词组，如人名、地句等；过滤掉一些纯数字、纯符号等；过滤掉字数少于两个、大于十个的名词或句词性词组。另外，当已经存在知识图谱，当前获得的实体是从新语料中得到的实体时，与现在的旧实体进行比较，以过滤掉已有的实体。

为了使得到的实体能够更好地适应职位搜索需求，在一个更好的实施例中，还包括实体筛选单元24，其利用职位分类表对得到的实体集合中的实体进行筛选，筛除不符合所述职位分类表和/或在语料库中出现的符合职位分类表的次数小于阈值的实体。所述的职位分类表例如为职位数据库，其中存储了平台中所有的职位数据。实体筛选单元24以所述的候选实体列表中的实体为搜索目标，在职位数据库***中进行搜索，如果在其中搜索到了所述候选实体，且搜索到的数量大于一定的阈值，如10个，则认为该候选实体应予以保留，否则该候选实体没有实际意义，则将其从候选实体列表中删除，经过以上筛选之后得到了图谱的实体集合。为了确定实体与其他实体的关系，还需要确定每个实体的分类维度。在一个实施例中，根据职位的特点，***中存储有分类维度配置文件，其中定义了职位所关心的各个角度，如行业、技能、职能、职位级别、学历、工作类型等等。每个实体具有至少一个分类维度。因而所述实体召回模块2还包括分类维度标注单元25，在实体筛选单元24筛选完后，发送通知给所述分类维度标注单元25，所述分类维度标注单元25为实体集合中的实体标注分类维度。

本发明可以使用现有已经训练好的命名实体识别模型作为实体召回模型进行实体召回。在没有训练好的命名实体识别模型时，所述实体召回模块2还包括实体召回模型单元26，从该数据集中分离出一定数量的数据作为模型的训练集。实体召回模型单元26基于所述训练数据集按照模型-数据迭代的方式训练、优化所述实体召回模型和所述训练数据集，直到所述实体召回模型符合要求。关于实体召回模型及其训练请见前述方法中的相关说明，在此不再赘述。

图9是根据本发明一个实施例的所述关系抽取模块的原理框图。所述关系抽取模块3与所述实体召回模块2和语料库1相连接，经配置以通过关系抽取模型从百科知识数据集中抽取实体之间的关系，其中，所述实体之间的关系为包含或相似。其中所述关系抽取模块3包括：实体标注单元31、第二数据制备单元32和关系抽取单元33。所述实体标注单元31与所述实体召回模块2相连接，在语料库10中的百科知识数据集中标注出实体集合中的实体。第二数据制备单元32使用特定规则从百科知识数据集筛选出具有两个实体的句子以构成关系抽取数据集。在当前***处于图谱维护阶段时，实体召回模块2召回的是新的实体，因而，实体标注单元31也需要在百科知识数据集中把新的实体标注出来，第二数据制备单元32需要从百科知识数据集筛选出新的句子作为新的关系抽取数据集，其中新的句子中的两个实体至少有一个是新的实体。

所述关系抽取单元33与所述第二数据制备单元32相连接，经配置以利用关系抽取模型从所述关系抽取数据集中预测出两个实体之间的关系。如果没有已训练好的模型，所述关系抽取模块3还包括训练语料生成单元34和关系抽取模型单元35。其中，所述训练语料生成单元34从所述关系抽取数据集中取出预置数量的句子并将其转化为训练语料格式。关系抽取模型单元35基于所述训练语料按照模型-数据迭代的方式训练、优化所述关系抽取模型和训练语料，直到所述关系抽取模型符合要求。在当前***处于图谱维护阶段时，所述关系抽取单元33从新的关系抽取数据集中抽取到两个新实体的关系，新实体与已有实体的关系。得到新的关系后通知所述图谱生成模块4，将新的实体和新的实体关系增加到原来的图谱中。通过定期或实时的图谱维护可以使图谱包括越来越多的知识节点及相互的关系，从而可以覆盖

图谱生成模块4以实体为节点，实体之间的关系作为连接依据，从而建立起知识图谱。如图10所示，为图谱中的部分节点的连接示意图。其中，图谱可以采用表格、文本的形式呈现，也可以采用可视化界面以图形的方式呈现。

应用实施例

由于招聘平台上汇集了大量的信息，如果单纯依赖求职者及招聘者手工搜索，在海量信息中找到适合自已的职位或个人将是一件既耗时又非常困难的事情。因而，为了增加招聘平台上的求职或招聘的成功率，帮助求职者及招聘者提高效率，招聘平台可以动为求职者推荐职位，或为招聘者推荐人才。在本实施例中，以求职者作为目标推荐用户。通常，求职者会将求职简历上传到招聘平台，或者求职者按照平台的格式要求填写简历，并会在招聘平台上进行搜索、查看等操作。同样，招聘者将招聘信息发送到招聘平台，或者按照平台的格式要求填写招聘信息并搜索、查看一些求职信息。平台根据求职者上传或填写的简历得到求职者的需求信息；根据招聘者上传或填写的招聘信息得到招聘者的需求信息。本实施例根据招聘者、求职者各自的需求信息，及其在招聘平台上的搜索、查看等行为数据向求职者推荐招聘者。参见图11，为推荐流程图。

步骤S1a，获取求职者的第一标签和招聘者的第二标签。其中，以求职者的简历、招聘者的招聘信息作为二者的需求信息，从中得到求职者的第一标签和招聘者的第二标签。获取第一标签的流程如图12所示：

步骤S11a，从目标推荐用户的需求信息中提取出多个关键词并得到对应的语义标签。例如读取求职者的简历中的所有文字内容，对其进行语义识别，从而得到多个关键词，如“Java工程师”、“软件开发”、“精通Java”、“C++开发”等等，或者“语文老师”、“教授小学阶段的语文”、“语文辅导”、“兼职教授作文”或者“服装销售”、“女装导购”等等。其中，关键词由前缀词和后缀词构成，***中设置有前缀词表和后缀词表，每个前缀词和后缀词具有与其对应的标准词，通过将前缀词和后缀词替换为对应的标准词从而构成语义标签。

步骤S12a，利用知识图谱库为每一个语义标签匹配相应的知识节点。通过运用知识图谱库，为每一个语义标签确定出多个节点。例如，将关键词“Hibernate开发”输出到知识图谱库中，可以得到职能属性的“工程师”节点；技能属性的“Hibernate”节点、“Java”节点；以及行业属性的“软件”节点。

步骤S13a，根据匹配得到的一个或多个节点生成一个或多个第一标签。具体地，标签包括前缀词和后缀词，其中前缀词的属性为行业、技能，后缀词的属性为职能，因而，将属性为前行业、技能等的节点与属性为职能的节点进行两两组合，从而得到一个标签。例如，当由关键词“Java开发”得到职能节点“工程师”、技能节点“Java”和行业节点“软件”时，可以两两组合后得到两个标签{职业方向：“软件工程师”}；{职业方向：“Java工程师”}，由于两个标签属于同类，合并后得到更加精准的标签{职业方向：“Java工程师”}。再例如，根据与关键词“软件开发”、“精通C++”对应的语义标签匹配得到的节点组合并合后得到标签{“职业方向”：“C++工程师”}。

同理得到招聘者的多个第二标签。

步骤S2a，对多个招聘者进行过滤。其中，使用目标推荐用户(一个具体的求职者)的第一标签与多个招聘者的第二标签进行匹配，从而过滤掉与第一标签不匹配的招聘者，最后剩下的为符合目标推荐用户的第一标签的招聘者。

步骤S3a，对所述多个招聘者排序。其中，对所述多个招聘者分别按照预置维度进行排序，每一个招聘者分别得到对应维度的排序，在一个实施例中，所述的维度与标签种类相对应，以每一种标签种类作为一个维度对多个招聘者进行排序得到一个排序值Vi。例如，经过过滤后一共得到20个招聘者，对应于“薪酬”这一维度，以种类为“薪酬”的标签中的值作为基础值，分别与20个招聘者提供的薪酬进行比较，按照差值从小到大排序对20个招聘者进行排序，每一个招聘者在“薪酬”维度得到一个排序值V_m。在“距离家的距离(D)”这个维度进行排序时，以求职者住址为坐标，计算每一个招聘者到求职者住址的距离D，按照距离D由小到大的顺序对20个招聘者进行排序，每一个招聘者在“距离家的距离(D)”维度得到一个排序值V_D。根据目标推荐用户在每个维度的权重及每个招聘者在每个维度的排序值计算每个招聘者的最终排序V。即

其中，v_i为第i个维度的排序值，q_i为目标推荐用户在第i个维度的权重。

步骤S4a，根据排序在前的预置数量的招聘者生成推荐信息并推送给目标推荐用户。其中推荐信息包括招聘公司名称、招聘职位名称、招聘者发布的招聘信息页面链接、招聘信息的职位工作地点、职位薪资范围等信息。再通过弹出窗口或邮件的方式将其推送给求职者。

在本实施例中，在从用户需求信息中得到关键词后，又采用知识图谱进行匹配，得到与关键词信息类型相似但又不同的标签，从而可以挖掘出用户需求信息中的隐含信息，推荐精度高，推荐的职位与用户需求匹配度好，可以节省求职者和/或招聘者的时间，增加了求职者的求职成功率和招聘者的招聘成功率。

上述实施例仅供说明本发明之用，而并非是对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明范围的情况下，还可以做出各种变化和变型，因此，所有等同的技术方案也应属于本发明公开的范畴。

Claims

1.一种职位知识图谱生成方法，其中包括：

基于职位描述数据集、个人简历数据集和百科知识数据集建立语料库；

通过实体召回模型从所述语料库召回实体以得到图谱实体，其中，所述实体为名词或名词性词组；

通过关系抽取模型从百科知识数据集中抽取实体之间的关系，其中，所述实体之间的关系为包含或相似；以及

根据实体之间的关系建立实体与实体之间的映射关系以生成所述职位知识图谱。

2.根据权利要求1所述的方法，进一步包括基于语料库制备用于实体召回的数据集的步骤：

利用特征句式和特定词典从语料库中提取出初筛数据集；

对初筛数据集进行标注；以及

对语料进行调校以得到实体召回数据集。

3.根据权利要求2所述的方法，其中，所述特定词典包括实体词典和标签字典，所述利用特征句式和特定词典从语料库中提取出初筛数据集的步骤包括：

利用特征句式从语料库中提取出符合所述特征句式的句子构成第一初选数据集；

基于实体词典从语料库中提取出包括实体词典中实体的句子构成第二初选数据集；

对标签字典中的标签进行拆分得到标签语素集；

将标签语素集中的语素映射到语料库，从中提取出包括标签语素的句子；

从包含有标签语素的句子中提取出新的词汇；

从语料库中提取出包含新的词汇的句子构成第三初选数据集；以及

合并所述第一初选数据集、第二初选数据集和第三初选数据集作为初筛数据集。

4.根据权利要求2所述的方法，在对初筛数据集进行标注时，标注出句子中的名词或名词性词组。

5.根据权利要求2所述的方法，其中进一步包括：从所述实体召回数据集中分离出预置数量的数据作为训练数据集，剩余数据为预测数据集；所述方法进一步包括：

构建实体召回模型；

按照模型-数据迭代的方式训练、优化所述实体召回模型和所述训练数据集，直到所述实体召回模型符合要求；

利用所述实体召回模型基于所述预测数据集进行实体预测，以得到候选实体；以及

按照过滤规则对所述候选实体进行过滤以得到包括多个实体的实体集合。

6.根据权利要求5所述的方法，其中进一步包括：利用职位分类表对得到的实体集合中的实体进行筛选，筛除不符合所述职位分类表和/或符合所述职位分类表、用在语料库中出现的次数小于阈值的实体。

7.根据权利要求6所述的方法，其中进一步包括：为实体集合中的实体标注分类维度。

8.根据权利要求1所述的方法，其中进一步包括：

在百科知识数据集中标注出实体；

使用特定规则从百科知识数据集筛选出具有两个实体的句子以构成关系抽取数据集，所述特定规则用于表达两个实体具有包含或相似关系；以及

利用关系抽取模型从所述关系抽取数据集中预测出两个实体之间的关系。

9.根据权利要求8所述的方法，其中进一步包括：

从所述关系抽取数据集取出预置数量的句子作为训练数据集；

将所述训练数据集中的句子转化为训练语料格式；所述训练语料格式为：x，y，relation，包含实体和关系的语句；

其中，x为实体一，y为实体二，relation为实体一和实体二的实体关系，其为包含关系、相似关系或未知关系；以及

按照模型-数据相互迭代的方式训练、优化所述关系抽取模型和训练数据集，直到所述关系抽取模型符合要求。

10.根据权利要求1所述的方法，其中，在所述图谱生成后得到新的语料时，还包括以下步骤：

通过实体召回模型从所述新的语料中召回新的实体；

通过关系抽取模型从百科知识数据集中抽取新的实体之间、新的实体与已有实体之间的关系；以及

在原有图谱中增加新的实体以及新的实体之间、新的实体与已有实体之间的映射关系。

11.一种职位知识图谱生成***，其中包括：

语料模块，经配置以基于职位描述数据集、个人简历数据集和百科知识数据集建立语料库；

实体召回模块，经配置以通过实体召回模型从所述语料库召回实体以得到图谱实体，其中，所述实体为名词或名词性词组；

关系抽取模块，其与所述实体召回模块相连接，经配置以通过关系抽取模型从百科知识数据集中抽取实体之间的关系，其中，所述实体之间的关系为包含或相似；以及

图谱生成模块，其与所述实体召回模块和关系抽取模块相连接，经配置以根据实体之间的关系建立实体与实体之间的映射关系以生成职位知识图谱。

12.根据权利要求11所述的***，其中所述实体召回模块包括：

第一数据制备单元，经配置以基于语料库制备用于实体召回的数据集，其中包括预测数据集；

实体获取单元，经配置以利用实体召回模型基于所述预测数据集进行实体预测，以得到候选实体；以及

实体过滤单元，其与所述实体获取单元相连接，按照过滤规则对所述候选实体进行过滤以得到包括多个实体的实体集合。

13.根据权利要求12所述的***，其中所述实体过滤单元进一步从候选实体中过滤掉已有的实体。

14.根据权利要求12所述的***，其中还包括实体筛选单元，经配置与所述实体过滤单元相连接，利用职位分类表对得到的实体集合中的实体进行筛选，筛除不符合所述职位分类表和/或符合所述职位分类表且在语料库中出现次数小于阈值的实体。

15.根据权利要求14所述的***，其中还包括分类维度标注单元，经配置为实体集合中的实体标注分类维度。

16.根据权利要求12所述的***，其中用于实体召回的数据集中还包括训练数据集，所述实体召回模块还包括实体召回模型单元，经配置以基于所述训练数据集按照模型-数据迭代的方式训练、优化实体召回模型和所述训练数据集，直到所述实体召回模型符合要求。

17.根据权利要求11所述的***，其中所述关系抽取模块包括：

实体标注单元，其与所述实体召回模块相连接，经配置以在百科知识数据集中标注出实体；

第二数据制备单元，经配置以使用特定规则从百科知识数据集筛选出具有两个实体的句子以构成关系抽取数据集，其中所述特定规则用于表达两个实体具有包含或相似关系；以及

关系抽取单元，经配置以利用关系抽取模型从所述关系抽取数据集中预测出两个实体之间的关系。

18.根据权利要求17所述的***，其中在根据新语料得到新实体时，第二数据制备单元筛选出的句子中的两个实体中，至少一个实体为新实体；关系抽取单元预测出两个实体之间的关系为两个新实体之间的关系和新实体与旧实体之间的关系。

19.根据权利要求17所述的***，其中所述关系抽取模块还包括：

训练语料生成单元，其与所述第二数据制备单元，经配置以从所述关系抽取数据集取出预置数量的句子并将其转化为训练语料格式；以及

关系抽取模型单元，经配置以生成关系抽取模型模型，基于所述训练语料按照模型-数据迭代的方式训练、优化所述关系抽取模型和训练语料，直到所述关系抽取模型符合要求。