CN106776575A

CN106776575A - 一种实时语义搜索工作机会的***及方法

Info

Publication number: CN106776575A
Application number: CN201611239045.XA
Authority: CN
Inventors: 周宝舟; 赵泛舟; 钟永生; 卢奕; 张有聪; 周赖靖竞
Original assignee: Shenzhen Ipin Information Technology Co Ltd
Current assignee: Shenzhen Ipin Information Technology Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-05-31

Abstract

本发明涉及一种实时语义的工作机会搜索***及方法，通过动态实时的采集、聚合各个招聘门户的招聘信息，将其进行实时分析处理，并且建立索引；对于检索查询请求，会进行语义分析，与所有工作机会根据语义计算一个匹配度，然后按照匹配度排序，并返回最匹配用户需求的工作机会，大大减少了筛选成本，提高了用户找工作的效率。

Description

一种实时语义搜索工作机会的***及方法

技术领域

本发明涉及一种工作机会搜索引擎***，更具体的，涉及一种实时语义搜索工作机会的***及方法。

背景技术

实时语义搜索工作机会的主要技术是对工作机会进行实时建立语义索引，然后用户可以通过上传简历或者填写工作经历的方式，然后***进行语义分析，然后从海量的招聘信息中，进行语义相关性计算，返回更匹配用户的工作机会。

现有的招聘网站如前程无忧、智联招聘、58同城招聘等都是采用传统的搜索引擎技术，通过关键词匹配的方式来搜索工作机会。实现方式是通过对招聘信息的文本进行分词，然后建立倒排索引；在用户查询的时候，通过对用户查询文本进行分词得到词组，然后通过词组来拉取对应的倒排拉链，然后进行合并，得到满足查询要求的工作机会。现有基于关键词匹配的传统工作机会搜索引擎实现方式，具有如下的弊端：

1）召回率低（不全）：由于自然语言的表达方式多种多样，对于同一个职位，会有多种相近的表达方式；传统的工作机会搜索引擎，由于无法理解文本的语义，所以只能按照关键词进行严格匹配，导致很多表示同一职位的工作机会，由于描述方式不同而不能有效召回，以至于用户错失很多工作机会。

2）准确率低（不准）：传统工作机会搜索引擎，由于输入的信息非常有限，例如“JAVA开发工程师”会命中成千上万的工作机会，需要用户进行大量的人工筛选，耗时耗力，同时非常容易错失一些相关性非常高的机会。

3）运算能力不足（不快）：传统搜索引擎的实现是基于CPU来做数据处理的，由于CPU计算能力的限制，在查询匹配过程中，会对一些过长的倒排拉链进行截断，导致只能查询到一部分匹配的结果，影响召回率以及准确率。

4）数据分散：现有各大招聘平台都是各自实现、维护一套工作机会搜索引擎，对于用户来说需要分别从多个平台搜索工作机会，导致找工作效率非常低下，时间成本高。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

为此，本发明的目的在于，提供一种基于语义的实时工作机会搜索引擎，通过实时采集、聚合各个招聘门户的招聘信息，然后进行实时分析处理，通过语义分析匹配处理，得到最匹配用户需求的工作机会。通过语义匹配的方式，使用GPU并行计算，达到“更快、更准、更全”的目的，大大提高了用户找工作的效率。

为实现上述目的，本发明提供了一种实时语义搜索工作机会的***，该***包括：数据处理层和服务层，

数据处理层用于动态的探测并获取各个招聘渠道的工作机会，并对工作机会进行实时的数据分析处理，具体包括Spider集群模块、数据实时流处理集群模块、结构化数据DB集群模块；所述Spider集群模块用于从全网的招聘页面中实时采集招聘信息，并入库保存；所述数据实时流处理集群模块对于所述Spider集群模块保存的信息，进行实时处理，包括信息抽取、量化、标准化、向量化；所述结构化数据DB集群模块将所述数据实时流处理集群模块处理后的数据保存在一个DB集群中，作为所有线上模块的原始数据；

服务层用于对用户的查询信息，进行分析处理，然后与所述数据处理层所述DB集群中保存的招聘信息进行实时匹配，并返回与用户最匹配的工作机会，具体包括查询网关、语义检索服务模块、KVDB模块；所述查询网关提供对外查询接口，并对用户输入的查询信息进行预处理，包括信息提取、量化、向量化，调用所述语义检索服务模块返回的工作机会id列表，最后查询KVDB模块得到完整的工作机会信息；所述语义检索服务模块对于用户提交的查询，进行筛选匹配，计算匹配度，并返回匹配的工作机会id列表；所述KVDB模块，用于存储与工作机会对应的详细工作机会信息，并用于前端页面展示。

更具体的，所述Spider集群模块具体实现为通过分析各个招聘网站各个频道、各个招聘列表页的页面更新周期，预估出每个招聘列表页的更新周期，然后根据更新周期进行实时的抓取节点，并保存到网页库中。

更具体的，所述信息抽取是指将非结构化文本生成结构化数据，所述量化是指将可数值化的字段量化，所述标准化是将实体信息标准化，所述向量化是指将文本类的信息向量化为对应的语义向量。

更具体的，所述语义检索服务模块包括GPU加速层，用于加速语义计算，对于用户提交的查询，根据查询筛选条件进行筛选，计算出语义向量相似度，然后计算匹配度，排序，并返回最匹配的id列表。

本发明还提供了一种实时语义搜索工作机会的方法，该方法包括如下步骤：

步骤1，动态的探测并获取各个招聘渠道的工作机会，对所述工作机会进行实时的抓取、数据分析处理，并入库保存；实时处理流程包括：信息抽取、量化、标准化、向量化；将所述实时处理后的数据保存在DB集群中，作为所有线上的原始数据；

步骤2，用户通过查询网关输入查询信息，对用户输入的查询信息进行预处理，包括信息抽取、量化、向量化，然后调用语义检索服务；

步骤3，通过语义检索服务对用户提交的所述预处理后的查询信息，进行查询条件筛选匹配，计算语义匹配度，并返回匹配的工作机会id列表；

步骤4，所述查询网关根据语义检索服务返回的工作机会id列表，查询KVDB中存储的与工作机会对应的详细工作机会信息，最后得到完整的工作机会信息，并展示到前端页。

更具体的，所述步骤1所述的动态的探测并获取各个招聘渠道的工作机会，对所述工作机会进行实时的数据分析处理，并入库保存具体实现为：

通过分析各个招聘网站各个频道、各个招聘列表页的页面更新周期，预估出每个招聘列表页的更新周期，然后根据更新周期进行实时的抓取节点信息，并保存到网页库中。

更具体的，所述步骤1中的信息抽取、量化、标准化、向量化具体实现为通过所述信息抽取将非结构化文本生成结构化数据，将可数值化的字段量化，将实体信息标准化，并将文本类的信息向量化为对应的语义向量。

更具体的，所述步骤2中的信息抽取、量化、向量化具体实现为通过所述信息抽取将非结构化文本生成结构化数据，将可数值化的字段量化，并将文本类的信息向量化为对应的语义向量。

更具体的，所述语义检索服务包括通过GPU加速层，加速语义计算，对于用户提交的查询，根据查询筛选条件进行筛选，计算出语义向量相似度，然后计算匹配度，排序，并返回最匹配的id列表。

本发明提出的实时语义搜索工作机会***，相比于传统的工作搜索引擎，具有如下有益的技术效果：

1）更高的召回率以及准确率，以“前端工程师”为例子，通过语义检索的方式，可以召回“WEB工程师”、“WEB开发工程师”、“WEB开发”、“前端开发工程师”、“前端开发”等职位的工作机会；相对于传统的关键词检索方式，同样的查询会返回多达几倍甚至几十倍的工作机会。同时，通过用户上传的简历或者工作经历描述，语义匹配的搜索方式，与所有工作机会（千万级别）计算一个匹配度，然后按照匹配度排序返回最匹配的工作机会，筛选效率提高了几倍到几十倍。

2）高时效性，通过引入了实时Spider集群，动态的探测各个招聘渠道的工作机会更新，在第一时间抓取新增的工作机会，然后在秒级别内对工作机会进行实时的分析处理并入库，然后实时分发到各个服务模块，建立索引，提供查询。

3）更全面的工作机会分析

由于语义计算涉及到海量的浮点运算，传统的CPU处理能力非常有限，导致查询中会对查询过程进行截断，仅仅查询部分数据后返回查询结果；本***通过引入GPU计算的方式，用于加速语义计算，达到了几十倍的加速效果；同时每个查询都可以进行全量的全库数据分析计算，对工作机会分析更全面准确。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了根据本发明一种实时语义搜索工作机会的***的整体框架图；

图2示出了本发明一实施例的一种实时语义搜索工作机会的***框架图；

图3示出了本发明一种实时语义搜索工作机会的方法流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明一种实时语义搜索工作机会的***的整体框架图。

如图1所示，根据本发明的一个具体实施例提供了一种实时语义搜索工作机会的***，该***包括：数据处理层和服务层两大部分，

数据处理层用于动态的探测并获取各个招聘渠道的工作机会，并对工作机会进行实时的数据分析处理，具体包括Spider集群模块、数据实时流处理集群模块、结构化数据DB集群模块；所述Spider集群模块用于从全网的招聘页面中实时采集招聘信息，并入库保存；所述数据实时流处理集群模块对于所述Spider集群模块保存的信息，进行实时处理，包括信息抽取、量化、标准化、向量化；所述结构化数据DB集群模块将所述数据实时流处理集群模块处理后的数据保存在一个DB集群中，作为所有线上模块的原始数据。

具体而言，Spider集群模块通过分析各个招聘网站各个频道、各个招聘列表页的页面更新周期，预估出每个招聘列表页的更新周期，然后根据更新周期进行实时的抓取节点信息，并保存到网页库中。

数据实时流处理集群模块对于Spider抓取的原始招聘信息页面，通过实时流集群进行实时处理，包括：信息抽取、量化、标准化、向量化。

更具体的，招聘信息、以及用户的简历通常是一种非结构化或者半结构化的文本，需要转化成结构化的数据后才能进行后续的查询处理，信息抽取就是通过从非结构化或半结构化的页面中提取招聘公司名称、招聘职位、招聘人数、职位学历要求、工作经验要求，薪酬待遇、职位要求等基本元素从而将非结构化或半结构化文本生成结构化数据。然后，对可以数值化的字段，例如工作年薪、专业等进行量化；将例如公司、职位等实体信息进行标准化；而对于文本类的信息，例如职位描述，则根据语义模型，通过向量化生成对应的语义向量，如通过机器学习，使用神经网络，训练出针对该业务的模型，然后把一段文本转换为一个高维向量，用来表述文本的语义。

服务层用于对用户的查询信息，进行分析处理，然后与数据处理层所述DB集群中保存的招聘信息进行实时匹配，并返回与用户最匹配的工作机会，具体包括查询网关、语义检索服务模块、KVDB模块；所述查询网关提供对外查询接口，并对用户输入的查询信息进行预处理，包括信息抽取、量化、向量化，调用所述语义检索服务模块返回的工作机会id列表，最后查询KVDB模块得到完整的工作机会信息；所述语义检索服务模块对于用户提交的查询，进行筛选匹配，计算匹配度，并返回匹配的工作机会id列表；所述KVDB模块，用于存储与工作机会对应的详细工作机会信息，并用于前端页面展示。

更具体的，语义检索服务模块由于需要进行语义计算而涉及到海量的浮点运算，传统的CPU处理能力非常有限，本***引入GPU加速层，用于加速语义计算，对于用户提交的查询，根据查询筛选条件进行筛选，计算出语义向量相似度，然后计算匹配度，排序，并返回最匹配的id列表。因此，本***通过引入了GPU计算，对于用户每个查询，我们可以在20毫秒左右分析用户的简历，然后与千万级别的招聘信息进行实时匹配，计算匹配度然后返回最匹配用户的工作机会，大大提高了工作机会检索的效率。

图2示出了本发明一实施例的一种实时语义搜索工作机会的***框架图。

如图2所示，Spider集群模块通过分析各个招聘网站各个频道、各个招聘列表页的页面更新周期，预估出每个招聘列表页的更新周期，然后根据更新周期进行实时的抓取节点信息，然后通过Spider集群调度器调度任务，并将信息保存到网页库中。

数据实时流处理集群模块对于所述Spider集群模块保存的原始数据信息信息，进行实时处理，包括特征提取、量化、标准化、向量化生成语义向量，然后将结构化数据储存到结构化数据DB集群模块的DB集群中，再将结构化数据DB集群模块中的数据加载到语义检索服务模块。语义检索服务模块通过GPU加速层，加速语义计算，对用户提交的查询，根据查询筛选条件进行筛选，计算出语义向量相似度，然后计算匹配度，排序，并返回最匹配的工作机会id列表。查询网关提供对外查询接口，并对用户输入的查询信息进行预处理，包括信息抽取、量化、向量化，调用所述语义检索服务模块返回的工作机会id列表，最后查询KVDB模块得到完整的工作机会信息。同时，用户可以通过查询网管填充工作机会信息。KVDB模块，用于加载存储与工作机会对应的详细工作机会信息，并用于前端页面展示。

根据本发明的另一方面提供了一种实时语义搜索工作机会的方法，图3示出了本发明一种实时语义搜索工作机会的方法流程图。该方法包括如下步骤：

步骤1，动态的探测并获取各个招聘渠道的工作机会，对所述工作机会进行实时的数据分析处理，并入库保存；对所述保存的信息，进行实时处理，包括信息抽取、量化、标准化、向量化；将所述实时处理后的数据保存在DB集群中，作为所有线上的原始数据。

步骤2，用户通过查询网关输入查询信息，对用户输入的查询信息进行预处理，包括信息抽取、量化、向量化，然后调用语义检索服务。

步骤3，通过语义检索服务对用户提交的所述预处理后的查询信息，进行筛选匹配，计算匹配度，并返回匹配的工作机会id列表。

更具体的，所述步骤1中所述的动态的探测并获取各个招聘渠道的工作机会，对所述工作机会进行实时的数据分析处理，并入库保存具体实现为：通过分析各个招聘网站各个频道、各个招聘列表页的页面更新周期，预估出每个招聘列表页的更新周期，然后根据更新周期进行实时的抓取节点信息，并保存到网页库中。

更具体的，语义检索服务由于需要进行语义计算而涉及到海量的浮点运算，传统的CPU处理能力非常有限，本***引入GPU加速层，用于加速语义计算，对于用户提交的查询，根据查询筛选条件进行筛选，计算出语义向量相似度，然后计算匹配度，排序，并返回最匹配的id列表。因此，本***通过引入了GPU计算，对于用户每个查询，我们可以在20毫秒左右分析用户的简历，然后与千万级别的招聘信息进行实时匹配，计算匹配度然后返回最匹配用户的工作机会，大大提高了工作机会检索的准确率、召回率、以及查询效率。

本发明的基于语义的实时工作机会搜索引擎，通过动态实时的采集、聚合各个招聘门户的招聘信息，将其进行实时分析处理，然后通过语义分析匹配处理，与所有工作机会（千万级别）计算一个匹配度，然后按照匹配度排序返回最匹配用户需求的工作机会，减少了筛选成本，大大提高了用户找工作的效率。

本发明可应用各种搜索引擎领域，在任何需要利用语义搜索并进行数据处理的应用场景下都可以使用。

在本说明书的描述中，术语“一个实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实时语义搜索工作机会的***，其特征在于，该***包括：数据处理层和服务层，

数据处理层用于动态的探测并获取各个招聘渠道的工作机会，并对工作机会进行实时的数据分析处理，具体包括Spider集群模块、数据实时流处理集群模块、结构化数据DB集群模块；所述Spider集群模块用于从全网的招聘页面中实时采集招聘信息，并入库保存；所述数据实时流处理集群模块对于所述Spider集群模块保存的信息，进行实时处理，包括信息抽取、量化、标准化、向量化；所述结构化数据DB集群模块将所述数据实时流处理集群模块处理后的数据，然后实时分发到线上各个服务模块；

服务层会实时加载数据处理层处理后的结构化信息，并建立索引；对用户的查询信息，先进行语义分析处理，然后与索引进行相似度计算，返回与用户查询最匹配的工作机会；具体包括查询网关、语义检索服务模块、KVDB模块；所述查询网关提供对外查询接口，并对用户输入的查询信息进行预处理，包括信息抽取、量化、向量化，调用所述语义检索服务模块返回的工作机会id列表，最后查询KVDB模块得到完整的工作机会信息；所述语义检索服务模块对于用户提交的查询，对索引进行遍历，计算查询与工作机会的语义匹配度，返回最匹配的工作机会id列表；所述KVDB模块，用于存储与工作机会对应的详细工作机会信息，并用于前端页面展示。

2.根据权利要求1所述的一种实时语义搜索工作机会的***，其特征在于，所述Spider集群模块具体实现为通过分析各个招聘网站各个频道、各个招聘列表页的页面更新周期，预估出每个所述招聘列表页的更新周期，然后根据所述更新周期进行实时的抓取，并实时对页面进行分析、处理、存储，然后分发给下游服务模块。

3.根据权利要求1所述的一种实时语义搜索工作机会的***，其特征在于，所述信息抽取是指将非结构化文本生成结构化数据，所述量化是指将可数值化的字段量化，所述标准化是将实体信息标准化，所述向量化是指将文本类的信息向量化为对应的语义向量。

4.根据权利要求1所述的一种实时语义搜索工作机会的***，其特征在于，所述语义检索服务模块包括GPU加速层，用于加速语义计算，对于用户提交的查询，根据查询筛选条件进行筛选，计算出语义向量相似度，然后计算匹配度，排序，并返回最匹配的id列表。

5.一种实时语义搜索工作机会的方法，其特征在于，该方法包括如下步骤：

步骤1，动态的探测并获取各个招聘渠道的工作机会，对所述工作机会进行实时的数据分析处理，并入库保存；对所述保存的信息，进行实时处理，包括信息抽取、量化、标准化、向量化；将所述实时处理后的数据保存在DB集群中，作为所有线上的原始数据；

步骤2，用户通过查询网关输入查询信息，对用户输入的所述查询信息进行预处理，包括信息抽取、量化、向量化，然后调用语义检索服务；

步骤3，通过语义检索服务对用户提交的所述预处理后的查询信息，进行筛选匹配，计算匹配度，并返回匹配的工作机会id列表；

步骤4，所述查询网关根据所述语义检索服务返回的工作机会id列表，查询KVDB中存储的与工作机会对应的详细工作机会信息，最后得到完整的工作机会信息，并展示到前端页。

6.根据权利要求5所述的一种实时语义搜索工作机会的方法，其特征在于，所述步骤1中所述的动态的探测并获取各个招聘渠道的工作机会，对所述工作机会进行实时的数据分析处理，并入库保存具体实现为：

7.根据权利要求5所述的一种实时语义搜索工作机会的方法，其特征在于，所述步骤1中的信息抽取、量化、标准化、向量化具体实现为通过所述信息抽取将非结构化文本生成结构化数据，将可数值化的字段量化，将实体信息标准化，并将文本类的信息向量化为对应的语义向量。

8.根据权利要求5所述的一种实时语义搜索工作机会的方法，其特征在于，所述步骤2中的信息抽取、量化、向量化具体实现为通过所述信息抽取将非结构化文本生成结构化数据，将可数值化的字段量化，并将文本类的信息向量化为对应的语义向量。

9.根据权利要求5所述的一种实时语义搜索工作机会的方法，其特征在于，所述语义检索服务包括通过GPU加速层，用于加速语义计算，对用户提交的查询，根据查询筛选条件进行筛选，计算出语义向量相似度，然后计算匹配度，排序，并返回最匹配的id列表。