CN109033269A

CN109033269A - 一种分布式区域人才供需主题数据爬取方法

Info

Publication number: CN109033269A
Application number: CN201810748962.3A
Authority: CN
Inventors: 郭建; 谭海波; 陈良锋; 张树涛; 吕波; 张甫; 孙亚炜
Original assignee: Zhuoyuan Information Technology Co Ltd
Current assignee: Zhuoyuan Information Technology Co Ltd
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2018-12-18

Abstract

本发明公开一种分布式区域人才供需主题数据爬取方法，包括所述主节点模块管理所述任务库内数据并分发下载任务；所述分节点模块从所述任务库的待爬取队列中获取所述下载任务；所述分节点模块根据所述下载任务提取网页得出解析数据，并将所述解析数据传输至所述数据库内；本发明通过分布式区域人才供需主题爬虫的分布式结构以及主题相似度分析、爬取字段、数据存储的方法步骤，便于从学术网页和企业招聘网页中采集和存储专家信息和企业信息，从而为中小微企业的智力服务需求提供数据支撑。

Description

一种分布式区域人才供需主题数据爬取方法

技术领域

本发明涉及数据处理领域，具体涉及一种分布式区域人才供需主题数据爬取方法。

背景技术

目前大数据时代，数据越来越体现出其重要性。互联网产业正颠覆着传统的商业模式，越来越多的企业和公司从大数据中获益。尤其是在我国政府着力推动“大众创业，万众创新”的政策激励下，中小微企业正在迅速蓬勃的发展，但是高端智力服务的欠缺抑制中小微企业进一步发展。

目前，由于专家和企业的数据资源难以获取，人才供需主题难以定量，爬取主题不明的问题，致使中小微企业无法方便快捷的得到高端智力服务，导致中小微企业难以进一步发展。

鉴于上述缺陷，本发明创作者经过长时间的研究和实践终于获得了本发明。

发明内容

为解决上述技术缺陷，本发明采用的技术方案在于，提供一种分布式区域人才供需主题数据爬取方法，包括步骤：

A1，主节点模块选取目标网站为采集和分析对象，所述目标网站包括权威学术机构网站和主流企业招聘网站；

A2，所述主节点模块对所述目标网站进行爬取，提取连接信息，所述连接信息包括所述目标网站的网站URL列表、所述目标网站网页文本中的文本和URL链接；

A3，所述主节点模块对所述连接信息进行过滤，并将过滤结果存储到任务库中以供分节点模块获取任务列表；

A4，所述分节点模块对爬取的所述网页文本进行主题相关性判断以实现所述网页文本的分类；

A5，所述分节点模块将从非结构化的网页数据中提取所述专家信息和所述企业信息进行整理，形成结构化数据；

A6，所述分节点模块将所述专家信息中的研究领域和企业信息中的职位信息进行词汇的语义相似度计算；

A7，将所述专家信息、所述企业信息和所述供需信息的结构化数据存储到数据库中。

较佳的，所述步骤A4包括：

设置类别集合和训练集，通过对所述训练集的预处理、特征提取、文本表示构成训练模型参数；通过对爬取网页文本的预处理、特征提取、文本表示构成爬取主体参数，通过所述训练模型参数和所述爬取主体参数的比较实现所述主题相关性判断从而将爬取的网页文本进行针对所述类别集合的分类。

较佳的，所述预处理包括对目标文本进行中文分词和去除停顿词处理；

所述特征提取包括通过设定若干特征词，对已预处理后的所述目标文本进行所述特征词提取，从而将所述目标文本映射为一个特征向量{<w₁,t₁><w₂,t₂>…<w_n,t_n>}，其中w_i为所述目标文本中设定的第i个特征词，t_i为所述目标文本中w_i词的权重，n为设定的特征词数量。

较佳的，所述类别集合C＝{C₁,C₂,C₃}，其中，C₁表示与学术主题相关，C₂表示与企业主题相关，C₃表示与学术主题、企业主题均不相关。

较佳的，所述训练集包括与C₁相关的第一训练文本，与C₂相关的第二训练文本和与C₃相关的第三训练文本，

C₁类相关的概率P(C₁)＝x/(x+y+z)，

C₂类相关的概率P(C₂)＝y/(x+y+z)，

C₃类相关的概率P(C₃)＝z/(x+y+z)；

其中x为所述第一训练文本的数量，y为所述第二训练文本的数量；z为所述第三训练文本的数量。

较佳的，根据C_j类中特征词w_i出现的概率P(w_i|C_j)，从而构建出所述训练模型参数；其中所述概率P(w_i|C_j)的公式为：

P(w_i|C_j)＝t_i/n_j，

其中，n_j为第j个目标文本中出现的词数，C_j为C₁、C₂、C₃中的其中一项；t_i为特征词w_i在第j个目标文本出现的次数。

较佳的，爬取网页属于类别C₁的概率：

P(C₁|B)＝P(w₁|C₁)P(w₂|C₁)…P(w_i|C₁)P(C₁)

爬取网页属于类别C₂的概率：

P(C₂|B)＝P(w₁|C₂)P(w₂|C₂)…P(w_i|C₂)P(C₂)

爬取网页属于类别C₃的概率：

P(C₃|B)＝P(w₁|C₃)P(w₂|C₃)…P(w_i|C₃)P(C₃)

其中P(w_i|C_j)为C_j类中特征词w_i出现的概率，P(C_j)为C_j类相关的概率，C_j为C₁、C₂、C₃中的其中一项。

爬取网页判别概率P(B)＝max{P(C₁|B),P(C₂|B),P(C₃|B)}，

并将所述网页判别概率P(B)与所述训练模型参数比较，从而完成所述网页文本的分类过程。

较佳的，所述步骤A5包括；

A51；以专家所属机构或者企业地址构建URL；

A52，Requests执行该URL；

A53，获得地图API返回的结果json值，并判断值是否为空，若为空，则区域值设为空，若不为空，则取第一个result中的city字段值作为区域值。

较佳的，所述步骤A6包括

A61；建立语料库和相似度阈值；

A62；对所述语料库文本进行预处理，包括繁简体转换和文本分词；

A63；采用了Word2vec训练文本得到词汇向量；

A64；根据训练的结果计算词汇的语义相似度，将相似度大于阈值的专家研究领域和企业职位需求作为一组供需关系对。

较佳的，所述分节点模块设置规避步骤，所述规避步骤包括；

在所述分节点模块中动态设置User-Agent；禁用cookies；设置延迟下载；使用PhantomJS和Selenium结合的方式访问页面的内容。

与现有技术比较本发明的有益效果在于：本发明将网络爬虫和智力服务领域相结合，进行了针对于人才供需信息的分布式主题爬虫方法研究，用于从学术网页和企业招聘网页中采集和存储专家信息、企业信息和供需信息。通过分布式区域人才供需主题爬虫的分布式结构以及主题相似度分析、爬取字段、数据存储的方法步骤，便于从学术网页和企业招聘网页中采集和存储专家信息和企业信息，从而为中小微企业的智力服务需求提供数据支撑。

附图说明

图1为本发明分布式区域人才供需主题数据爬取***的架构示意图；

图2为本发明分布式区域人才供需主题数据爬取方法的工作流程图；

图3为本发明网页文本分类的工作流程图；

图4为本发明区域信息抽取的工作流程图。

图中数字表示：

1-主节点模块；2-任务库；3-分节点模块；4-数据库。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点作更详细的说明。

实施例一

所述分布式区域人才供需主题数据爬取方法基于主从式结构的分布式主题爬虫***，所述分布式主题爬虫***包括爬取组件和存储组件，通过所述爬取组件对网络数据的爬取筛选并进一步通过所述存储组件将筛选后的数据进行存储以便于使用者查看，从而实现分布式区域人才供需主题数据的爬取。

如图1所示，所述爬取组件包括所述主节点模块1、任务库2、分节点模块3，所述存储组件优选设置为数据库4，其中所述主节点模块1、所述任务库2、所述分节点模块3、所述数据库4依次相连，从而实现所述分布式主题爬虫***的整体数据传输。所述分节点模块3设置包括若干分布式爬虫服务器。

所述分布式区域人才供需主题数据爬取方法主要包括步骤：

S1，所述主节点模块1管理所述任务库2内数据并分发下载任务；

S2，所述分节点模块3从所述任务库2的待爬取队列中获取所述下载任务；

S3，所述分节点模块3根据所述下载任务提取网页得出解析数据，并将所述解析数据传输至所述数据库4内。

具体的，所述主节点模块1根据使用者指定的检索条件从互联网中爬取海量的统一资源定位符(URL)，并进一步对所述统一资源定位符进行初步筛选得出符合检索条件的若干初步数据，所述初步筛选优选设置为过滤去重；所述主节点模块1将所述初步数据及对应所述初步数据的若干下载任务传输至所述任务库2中，所述任务库2存储所述初步数据和所述下载任务；所述分节点模块3获取对应的所述下载任务，并根据所述初步数据，即所述统一资源定位符，提取网页文本，对所述网页文本进行主题相似度分析，解析出需要的解析数据，最终将所述解析数据存储到所述数据库4中供使用者查看选用。

所述主题相似度分析过程具体包括对网页文本进行预处理、特征提取、文本表示以及主题分析。

所述预处理，即对网页进行文本分词和去除停顿词等处理；

所述特征提取和所述文本表示，具体为将网页文本表示为VSM向量空间模型；

所述主题分析，采用朴素贝叶斯算法进行，包括对网页文本进行训练和对网页的主题相关度进行计算的过程。

所述解析数据可以为专家企业数据；具体的包括专家信息和企业信息，其中所述专家信息包括专家姓名、所属机构、所在区域、研究领域等，所述企业信息包括企业名称、所属行业、所在区域、需求职位等。

所述数据库4包括专家数据分库、企业数据分库和供需数据分库，即所述数据库4建立专家信息、企业信息和供需关系三个数据分库，其中所述专家数据分库中存储包括专家姓名、所属机构、所在区域、研究领域等其他合理数据，所述企业数据分库中存储包括企业名称、所属行业、所在区域、需求职位等其他合理数据，所述供需数据分库中存放企业需求和与需求相关研究领域等其他合理。

本发明将网络爬虫和智力服务领域相结合，进行了针对于人才供需信息的分布式主题爬虫方法研究，用于从学术网页和企业招聘网页中采集和存储专家信息、企业信息和供需信息。通过分布式区域人才供需主题爬虫的分布式结构以及主题相似度分析、爬取字段、数据存储的方法步骤，便于从学术网页和企业招聘网页中采集和存储专家信息和企业信息，从而为中小微企业的智力服务需求提供数据支撑。

实施例二

较佳的，所述分节点模块3设置规避步骤用以规避爬虫陷阱，以实现所述分节点模块3对所述下载任务的正常进行。

具体的所述规避步骤包括：

在所述分节点模块3中动态设置User-Agent(用户代理)，即在所述爬虫服务器的爬虫模块程序中设置一个USER_AGENTS列表，所述爬虫服务器在每次爬取时从所述USER_AGENTS列表中随机选取一个来设置请求头部的User-Agent字段。

禁用cookies，避免网站使用cookies识别爬虫。

设置延迟下载，即设置合适的download_delay参数，避免因下载速度过快对网站造成压力或者被网站的反爬虫机制识别而限制IP访问。

使用PhantomJS(前端自动化测试工具)和Selenium(浏览器自动化测试框架)结合的方式访问页面的内容，区分页面上的可见元素与隐含元素，通过is_displayed()可以判断元素在页面上是否可见。如果为true，则所述爬虫服务器可以访问该元素；如果为false，则禁止所述爬虫服务器访问该元素。

通过设置所述规避步骤，实现所述分节点模块3对爬虫陷阱的规避，提高所述分布式区域人才供需主题数据爬取方法对数据爬取的准确性，同时确保对网站数据的有效爬取。

实施例三

如图2所示，本发明所述分布式区域人才供需主题数据爬取方法具体包括步骤：

A1，所述主节点模块1选取目标网站为采集和分析对象，所述目标网站包括权威学术机构网站和主流企业招聘网站；

A2，所述主节点模块1对所述目标网站进行爬取，提取连接信息，所述连接信息包括所述目标网站的网站URL列表、所述目标网站网页文本中的文本和URL链接；

A3，所述主节点模块1对所述连接信息进行过滤，若所述URL链接未被访问过，则将未被访问过的所述URL链接加入所述任务库2的下载任务队列中，否则丢弃；

A4，所述分节点模块3对爬取的所述网页文本进行主题相关性判断以实现所述网页文本的分类，若所述网页文本与学术主题相关，则进行专家信息的提取，若所述网页文本与企业主题相关，则进行企业信息的提取，否则丢弃；

A5，所述分节点模块3将从非结构化的网页数据中提取所述专家信息和所述企业信息进行整理，形成结构化数据；

A6，所述分节点模块3将所述专家信息中的研究领域和企业信息中的职位信息进行词汇的语义相似度计算，将相似度大于阈值的所述研究领域和所述职位信息作为一组供需信息对。

A7，将所述专家信息、所述企业信息和所述供需信息的结构化数据存储到数据库4中。

如图3所示，所述步骤A4中的所述网页文本分类过程采用朴素贝叶斯分类算法来实现。

具体的，设置类别集合和训练集，通过对所述训练集的预处理、特征提取、文本表示构成训练模型参数；通过对爬取网页文本的预处理、特征提取、文本表示构成爬取主体参数，通过所述训练模型参数和所述爬取主体参数的比较从而将爬取的网页文本进行分类实现所述网页文本的分类过程。

较佳的，所述网页文本分类过程的实施过程如图3所示，所述训练模型参数和所述爬取主题参数的构建均包括对目标文本进行预处理、特征提取、文本表示；所述目标文本包括所述训练集内的训练文本和爬取的网页文本；所述爬取的网页文本即爬取网页；最终通过所述训练模型参数利用朴素贝叶斯算法对所述爬取主体参数进行所述目标主题分析。

所述预处理，即对所述目标文本进行中文分词和去除停顿词处理，较佳的，采用jieba分词***(用Python开发的一个中文分词模块)接口实现，并根据停用词表去掉文本中无意义的字、词和符号；

所述特征提取和所述文本表示具体为，通过设定若干特征词，对已预处理后的所述目标文本进行所述特征词提取，从而将所述目标文本映射为一个特征向量{<w₁,t₁><w₂,t₂>…<w_n,t_n>}，其中w_i为所述目标文本中设定的第i个特征词，t_i为所述目标文本中w_i词的权重，n为设定的特征词数量，一般为设定值。

较佳的，所述类别集合C＝{C₁,C₂,C₃}，

其中，C₁表示与学术主题相关，C₂表示与企业主题相关，C₃表示与学术主题、企业主题均不相关。

所述训练集包括x篇与C₁相关的第一训练文本，y篇与C₂相关的第二训练文本和z篇与C₃相关的第三训练文本，

则其中C₁类相关的概率P(C₁)＝x/(x+y+z)，

C₂类相关的概率P(C₂)＝y/(x+y+z)，

C₃类相关的概率P(C₃)＝z/(x+y+z)。

将所有训练集中通过所述预处理的所述训练文本参数表示为VSM向量空间模型，在预处理后所述第一训练文本中出现的词数为n₁，在预处理后所述第二训练文本中出现的词数为n₂，在预处理后所述第三训练文本中出现的词数为n₃。

根据C_j类中特征词w_i出现的概率P(w_i|C_j)；从而构建出所述训练模型参数，即分类器训练构成。

其中所述概率P(w_i|C_j)的公式为：

P(w_i|C_j)＝t_i/n_j，

其中，n_j为第j个目标文本中出现的词数，即在本实施例所有训练集的分析中n_j可设置为n₁、n₂、n₃，C_j为C₁、C₂、C₃中的其中一项；t_i为特征词w_i在第j个目标文本出现的次数。

利用朴素贝叶斯公式计算出爬取网页属于类别C₁的概率：

P(C₁|B)＝P(w₁|C₁)P(w₂|C₁)…P(w_i|C₁)P(C₁)

爬取网页属于类别C₂的概率：

P(C₂|B)＝P(w₁|C₂)P(w₂|C₂)…P(w_i|C₂)P(C₂)

爬取网页属于类别C₃的概率：

P(C₃|B)＝P(w₁|C₃)P(w₂|C₃)…P(w_i|C₃)P(C₃)

爬取网页判别概率P(B)＝max{P(C₁|B),P(C₂|B),P(C₃|B)}，

所述步骤A5中的所述信息提取具体通过以下步骤来实现：

通常所述学术网页和所述企业招聘网页中包含专家姓名、所属机构、研究领域和企业名称、所属行业、职位等信息，因此可以为每个学术网站和企业网站设计爬虫爬取规则模板，然后利用XPath(XML路径语言)直接从网页中解析出所需要的数据。

较佳的，本发明的区域信息抽取过程采用百度地图API接口(应用程序编程接口)来实现，保证对所述区域信息的有效采集，以实现通过区域维度对人才供需信息的分析。

如图4所示，所述区域信息抽取包括步骤：

A51；以专家所属机构或者企业地址构建URL，

如http://api.map.***.com/

place/v2/suggestion？query＝中国科学院研究生院&region＝1&city_limit

＝false&output＝json&ak＝ak值；

A52，Requests执行该URL；

A53，获得返回的结果json值(JavaScript Object Notation,JS对象简谱)，并判断值是否为空，若为空，则区域值设为空，若不为空，则取第一个result中的city字段值作为区域值。

较佳的，具体步骤A6包括：

A61；建立***语料库和相似度阈值；

A62；对语料库文本进行预处理，包括繁简体转换和文本分词；

A63；采用了Word2vec(为一群用来产生词向量的相关模型)训练文本得到词汇向量；

A64；根据训练的结果计算词汇的语义相似度，将相似度大于阈值的专家研究领域和企业职位需求作为一组供需关系。

本发明的区域人才供需信息分析方法是在大规模的专家数据中找到某一个技术领域的专家，即根据企业需求找到相应领域的专家，其关键就是建立专家和企业的供需关系。因此步骤A6采用基于语料统计的词汇相似度计算方法计算研究领域与职位之间的词汇相似度，保证专家数据和企业数据的精确配比，迅速准确的建立专家和企业的供需关系，提高本发明分布式区域人才供需主题数据爬取方法的运行效率。

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种分布式区域人才供需主题数据爬取方法，其特征在于，包括步骤：

2.如权利要求1所述的分布式区域人才供需主题数据爬取方法，其特征在于，所述步骤A4包括步骤：

3.如权利要求2所述的分布式区域人才供需主题数据爬取方法，其特征在于，所述预处理包括对目标文本进行中文分词和去除停顿词处理；

所述特征提取包括，通过设定若干特征词，对已预处理后的所述目标文本进行所述特征词提取，从而将所述目标文本映射为一个特征向量{<w₁,t₁><w₂，t₂>…<w_n,t_n>}，其中w_i为所述目标文本中设定的第i个特征词，t_i为所述目标文本中w_i词的权重，n为设定的特征词数量。

4.如权利要求3所述的分布式区域人才供需主题数据爬取方法，其特征在于，所述类别集合C＝{C₁,C₂,C₃}，其中，C₁表示与学术主题相关，C₂表示与企业主题相关，C₃表示与学术主题、企业主题均不相关。

5.如权利要求4所述的分布式区域人才供需主题数据爬取方法，其特征在于，所述训练集包括与C₁相关的第一训练文本，与C₂相关的第二训练文本和与C₃相关的第三训练文本，

C₁类相关的概率P(C₁)＝x/(x+y+z)，

C₂类相关的概率P(C₂)＝y/(x+y+z)，

C₃类相关的概率P(C₃)＝z/(x+y+z)；

6.如权利要求5所述的分布式区域人才供需主题数据爬取方法，其特征在于，根据C_j类中特征词w_i出现的概率P(w_i|C_j)，从而构建出所述训练模型参数；其中所述概率P(w_i|C_j)的公式为：

P(w_i|C_j)＝t_i/n_j，

7.如权利要求8所述的分布式区域人才供需主题数据爬取方法，其特征在于，爬取网页属于类别C₁的概率：

P(C₁|B)＝P(w₁|C₁)P(w₂|C₁)…P(w_i|C₁)P(C₁)

爬取网页属于类别C₂的概率：

P(C₂|B)＝P(w₁|C₂)P(w₂|C₂)…P(w_i|C₂)P(C₂)

爬取网页属于类别C₃的概率：

P(C₃|B)＝P(w₁|C₃)P(w₂|C₃)…P(w_i|C₃)P(C₃)

其中P(w_i|C_j)为C_j类中特征词w_i出现的概率，P(C_j)为C_j类相关的概率，C_j为C₁、C₂、C₃中的其中一项；

爬取网页判别概率P(B)＝max{P(C₁|B),P(C₂|B),P(C₃|B)}，

8.如权利要求1所述的分布式区域人才供需主题数据爬取方法，其特征在于，所述步骤A5包括步骤；

A51；以专家所属机构或者企业地址构建URL；

A52，Requests执行该URL；

9.如权利要求1所述的分布式区域人才供需主题数据爬取方法，其特征在于，所述步骤A6包括步骤；

A61；建立语料库和相似度阈值；

A63；采用了Word2vec训练文本得到词汇向量；

10.如权利要求1所述的分布式区域人才供需主题数据爬取方法，其特征在于，所述分节点模块设置规避步骤，所述规避步骤包括；