CN109033269A - 一种分布式区域人才供需主题数据爬取方法 - Google Patents

一种分布式区域人才供需主题数据爬取方法 Download PDF

Info

Publication number
CN109033269A
CN109033269A CN201810748962.3A CN201810748962A CN109033269A CN 109033269 A CN109033269 A CN 109033269A CN 201810748962 A CN201810748962 A CN 201810748962A CN 109033269 A CN109033269 A CN 109033269A
Authority
CN
China
Prior art keywords
text
demand
training
probability
distributed area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810748962.3A
Other languages
English (en)
Inventor
郭建
谭海波
陈良锋
张树涛
吕波
张甫
孙亚炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuoyuan Information Technology Co Ltd
Original Assignee
Zhuoyuan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuoyuan Information Technology Co Ltd filed Critical Zhuoyuan Information Technology Co Ltd
Priority to CN201810748962.3A priority Critical patent/CN109033269A/zh
Publication of CN109033269A publication Critical patent/CN109033269A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种分布式区域人才供需主题数据爬取方法,包括所述主节点模块管理所述任务库内数据并分发下载任务;所述分节点模块从所述任务库的待爬取队列中获取所述下载任务;所述分节点模块根据所述下载任务提取网页得出解析数据,并将所述解析数据传输至所述数据库内;本发明通过分布式区域人才供需主题爬虫的分布式结构以及主题相似度分析、爬取字段、数据存储的方法步骤,便于从学术网页和企业招聘网页中采集和存储专家信息和企业信息,从而为中小微企业的智力服务需求提供数据支撑。

Description

一种分布式区域人才供需主题数据爬取方法
技术领域
本发明涉及数据处理领域,具体涉及一种分布式区域人才供需主题数据爬取方法。
背景技术
目前大数据时代,数据越来越体现出其重要性。互联网产业正颠覆着传统的商业模式,越来越多的企业和公司从大数据中获益。尤其是在我国政府着力推动“大众创业,万众创新”的政策激励下,中小微企业正在迅速蓬勃的发展,但是高端智力服务的欠缺抑制中小微企业进一步发展。
目前,由于专家和企业的数据资源难以获取,人才供需主题难以定量,爬取主题不明的问题,致使中小微企业无法方便快捷的得到高端智力服务,导致中小微企业难以进一步发展。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本发明。
发明内容
为解决上述技术缺陷,本发明采用的技术方案在于,提供一种分布式区域人才供需主题数据爬取方法,包括步骤:
A1,主节点模块选取目标网站为采集和分析对象,所述目标网站包括权威学术机构网站和主流企业招聘网站;
A2,所述主节点模块对所述目标网站进行爬取,提取连接信息,所述连接信息包括所述目标网站的网站URL列表、所述目标网站网页文本中的文本和URL链接;
A3,所述主节点模块对所述连接信息进行过滤,并将过滤结果存储到任务库中以供分节点模块获取任务列表;
A4,所述分节点模块对爬取的所述网页文本进行主题相关性判断以实现所述网页文本的分类;
A5,所述分节点模块将从非结构化的网页数据中提取所述专家信息和所述企业信息进行整理,形成结构化数据;
A6,所述分节点模块将所述专家信息中的研究领域和企业信息中的职位信息进行词汇的语义相似度计算;
A7,将所述专家信息、所述企业信息和所述供需信息的结构化数据存储到数据库中。
较佳的,所述步骤A4包括:
设置类别集合和训练集,通过对所述训练集的预处理、特征提取、文本表示构成训练模型参数;通过对爬取网页文本的预处理、特征提取、文本表示构成爬取主体参数,通过所述训练模型参数和所述爬取主体参数的比较实现所述主题相关性判断从而将爬取的网页文本进行针对所述类别集合的分类。
较佳的,所述预处理包括对目标文本进行中文分词和去除停顿词处理;
所述特征提取包括通过设定若干特征词,对已预处理后的所述目标文本进行所述特征词提取,从而将所述目标文本映射为一个特征向量{<w1,t1><w2,t2>…<wn,tn>},其中wi为所述目标文本中设定的第i个特征词,ti为所述目标文本中wi词的权重,n为设定的特征词数量。
较佳的,所述类别集合C={C1,C2,C3},其中,C1表示与学术主题相关,C2表示与企业主题相关,C3表示与学术主题、企业主题均不相关。
较佳的,所述训练集包括与C1相关的第一训练文本,与C2相关的第二训练文本和与C3相关的第三训练文本,
C1类相关的概率P(C1)=x/(x+y+z),
C2类相关的概率P(C2)=y/(x+y+z),
C3类相关的概率P(C3)=z/(x+y+z);
其中x为所述第一训练文本的数量,y为所述第二训练文本的数量;z为所述第三训练文本的数量。
较佳的,根据Cj类中特征词wi出现的概率P(wi|Cj),从而构建出所述训练模型参数;其中所述概率P(wi|Cj)的公式为:
P(wi|Cj)=ti/nj
其中,nj为第j个目标文本中出现的词数,Cj为C1、C2、C3中的其中一项;ti为特征词wi在第j个目标文本出现的次数。
较佳的,爬取网页属于类别C1的概率:
P(C1|B)=P(w1|C1)P(w2|C1)…P(wi|C1)P(C1)
爬取网页属于类别C2的概率:
P(C2|B)=P(w1|C2)P(w2|C2)…P(wi|C2)P(C2)
爬取网页属于类别C3的概率:
P(C3|B)=P(w1|C3)P(w2|C3)…P(wi|C3)P(C3)
其中P(wi|Cj)为Cj类中特征词wi出现的概率,P(Cj)为Cj类相关的概率,Cj为C1、C2、C3中的其中一项。
爬取网页判别概率P(B)=max{P(C1|B),P(C2|B),P(C3|B)},
并将所述网页判别概率P(B)与所述训练模型参数比较,从而完成所述网页文本的分类过程。
较佳的,所述步骤A5包括;
A51;以专家所属机构或者企业地址构建URL;
A52,Requests执行该URL;
A53,获得地图API返回的结果json值,并判断值是否为空,若为空,则区域值设为空,若不为空,则取第一个result中的city字段值作为区域值。
较佳的,所述步骤A6包括
A61;建立语料库和相似度阈值;
A62;对所述语料库文本进行预处理,包括繁简体转换和文本分词;
A63;采用了Word2vec训练文本得到词汇向量;
A64;根据训练的结果计算词汇的语义相似度,将相似度大于阈值的专家研究领域和企业职位需求作为一组供需关系对。
较佳的,所述分节点模块设置规避步骤,所述规避步骤包括;
在所述分节点模块中动态设置User-Agent;禁用cookies;设置延迟下载;使用PhantomJS和Selenium结合的方式访问页面的内容。
与现有技术比较本发明的有益效果在于:本发明将网络爬虫和智力服务领域相结合,进行了针对于人才供需信息的分布式主题爬虫方法研究,用于从学术网页和企业招聘网页中采集和存储专家信息、企业信息和供需信息。通过分布式区域人才供需主题爬虫的分布式结构以及主题相似度分析、爬取字段、数据存储的方法步骤,便于从学术网页和企业招聘网页中采集和存储专家信息和企业信息,从而为中小微企业的智力服务需求提供数据支撑。
附图说明
图1为本发明分布式区域人才供需主题数据爬取***的架构示意图;
图2为本发明分布式区域人才供需主题数据爬取方法的工作流程图;
图3为本发明网页文本分类的工作流程图;
图4为本发明区域信息抽取的工作流程图。
图中数字表示:
1-主节点模块;2-任务库;3-分节点模块;4-数据库。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
实施例一
所述分布式区域人才供需主题数据爬取方法基于主从式结构的分布式主题爬虫***,所述分布式主题爬虫***包括爬取组件和存储组件,通过所述爬取组件对网络数据的爬取筛选并进一步通过所述存储组件将筛选后的数据进行存储以便于使用者查看,从而实现分布式区域人才供需主题数据的爬取。
如图1所示,所述爬取组件包括所述主节点模块1、任务库2、分节点模块3,所述存储组件优选设置为数据库4,其中所述主节点模块1、所述任务库2、所述分节点模块3、所述数据库4依次相连,从而实现所述分布式主题爬虫***的整体数据传输。所述分节点模块3设置包括若干分布式爬虫服务器。
所述分布式区域人才供需主题数据爬取方法主要包括步骤:
S1,所述主节点模块1管理所述任务库2内数据并分发下载任务;
S2,所述分节点模块3从所述任务库2的待爬取队列中获取所述下载任务;
S3,所述分节点模块3根据所述下载任务提取网页得出解析数据,并将所述解析数据传输至所述数据库4内。
具体的,所述主节点模块1根据使用者指定的检索条件从互联网中爬取海量的统一资源定位符(URL),并进一步对所述统一资源定位符进行初步筛选得出符合检索条件的若干初步数据,所述初步筛选优选设置为过滤去重;所述主节点模块1将所述初步数据及对应所述初步数据的若干下载任务传输至所述任务库2中,所述任务库2存储所述初步数据和所述下载任务;所述分节点模块3获取对应的所述下载任务,并根据所述初步数据,即所述统一资源定位符,提取网页文本,对所述网页文本进行主题相似度分析,解析出需要的解析数据,最终将所述解析数据存储到所述数据库4中供使用者查看选用。
所述主题相似度分析过程具体包括对网页文本进行预处理、特征提取、文本表示以及主题分析。
所述预处理,即对网页进行文本分词和去除停顿词等处理;
所述特征提取和所述文本表示,具体为将网页文本表示为VSM向量空间模型;
所述主题分析,采用朴素贝叶斯算法进行,包括对网页文本进行训练和对网页的主题相关度进行计算的过程。
所述解析数据可以为专家企业数据;具体的包括专家信息和企业信息,其中所述专家信息包括专家姓名、所属机构、所在区域、研究领域等,所述企业信息包括企业名称、所属行业、所在区域、需求职位等。
所述数据库4包括专家数据分库、企业数据分库和供需数据分库,即所述数据库4建立专家信息、企业信息和供需关系三个数据分库,其中所述专家数据分库中存储包括专家姓名、所属机构、所在区域、研究领域等其他合理数据,所述企业数据分库中存储包括企业名称、所属行业、所在区域、需求职位等其他合理数据,所述供需数据分库中存放企业需求和与需求相关研究领域等其他合理。
本发明将网络爬虫和智力服务领域相结合,进行了针对于人才供需信息的分布式主题爬虫方法研究,用于从学术网页和企业招聘网页中采集和存储专家信息、企业信息和供需信息。通过分布式区域人才供需主题爬虫的分布式结构以及主题相似度分析、爬取字段、数据存储的方法步骤,便于从学术网页和企业招聘网页中采集和存储专家信息和企业信息,从而为中小微企业的智力服务需求提供数据支撑。
实施例二
较佳的,所述分节点模块3设置规避步骤用以规避爬虫陷阱,以实现所述分节点模块3对所述下载任务的正常进行。
具体的所述规避步骤包括:
在所述分节点模块3中动态设置User-Agent(用户代理),即在所述爬虫服务器的爬虫模块程序中设置一个USER_AGENTS列表,所述爬虫服务器在每次爬取时从所述USER_AGENTS列表中随机选取一个来设置请求头部的User-Agent字段。
禁用cookies,避免网站使用cookies识别爬虫。
设置延迟下载,即设置合适的download_delay参数,避免因下载速度过快对网站造成压力或者被网站的反爬虫机制识别而限制IP访问。
使用PhantomJS(前端自动化测试工具)和Selenium(浏览器自动化测试框架)结合的方式访问页面的内容,区分页面上的可见元素与隐含元素,通过is_displayed()可以判断元素在页面上是否可见。如果为true,则所述爬虫服务器可以访问该元素;如果为false,则禁止所述爬虫服务器访问该元素。
通过设置所述规避步骤,实现所述分节点模块3对爬虫陷阱的规避,提高所述分布式区域人才供需主题数据爬取方法对数据爬取的准确性,同时确保对网站数据的有效爬取。
实施例三
如图2所示,本发明所述分布式区域人才供需主题数据爬取方法具体包括步骤:
A1,所述主节点模块1选取目标网站为采集和分析对象,所述目标网站包括权威学术机构网站和主流企业招聘网站;
A2,所述主节点模块1对所述目标网站进行爬取,提取连接信息,所述连接信息包括所述目标网站的网站URL列表、所述目标网站网页文本中的文本和URL链接;
A3,所述主节点模块1对所述连接信息进行过滤,若所述URL链接未被访问过,则将未被访问过的所述URL链接加入所述任务库2的下载任务队列中,否则丢弃;
A4,所述分节点模块3对爬取的所述网页文本进行主题相关性判断以实现所述网页文本的分类,若所述网页文本与学术主题相关,则进行专家信息的提取,若所述网页文本与企业主题相关,则进行企业信息的提取,否则丢弃;
A5,所述分节点模块3将从非结构化的网页数据中提取所述专家信息和所述企业信息进行整理,形成结构化数据;
A6,所述分节点模块3将所述专家信息中的研究领域和企业信息中的职位信息进行词汇的语义相似度计算,将相似度大于阈值的所述研究领域和所述职位信息作为一组供需信息对。
A7,将所述专家信息、所述企业信息和所述供需信息的结构化数据存储到数据库4中。
如图3所示,所述步骤A4中的所述网页文本分类过程采用朴素贝叶斯分类算法来实现。
具体的,设置类别集合和训练集,通过对所述训练集的预处理、特征提取、文本表示构成训练模型参数;通过对爬取网页文本的预处理、特征提取、文本表示构成爬取主体参数,通过所述训练模型参数和所述爬取主体参数的比较从而将爬取的网页文本进行分类实现所述网页文本的分类过程。
较佳的,所述网页文本分类过程的实施过程如图3所示,所述训练模型参数和所述爬取主题参数的构建均包括对目标文本进行预处理、特征提取、文本表示;所述目标文本包括所述训练集内的训练文本和爬取的网页文本;所述爬取的网页文本即爬取网页;最终通过所述训练模型参数利用朴素贝叶斯算法对所述爬取主体参数进行所述目标主题分析。
所述预处理,即对所述目标文本进行中文分词和去除停顿词处理,较佳的,采用jieba分词***(用Python开发的一个中文分词模块)接口实现,并根据停用词表去掉文本中无意义的字、词和符号;
所述特征提取和所述文本表示具体为,通过设定若干特征词,对已预处理后的所述目标文本进行所述特征词提取,从而将所述目标文本映射为一个特征向量{<w1,t1><w2,t2>…<wn,tn>},其中wi为所述目标文本中设定的第i个特征词,ti为所述目标文本中wi词的权重,n为设定的特征词数量,一般为设定值。
较佳的,所述类别集合C={C1,C2,C3},
其中,C1表示与学术主题相关,C2表示与企业主题相关,C3表示与学术主题、企业主题均不相关。
所述训练集包括x篇与C1相关的第一训练文本,y篇与C2相关的第二训练文本和z篇与C3相关的第三训练文本,
则其中C1类相关的概率P(C1)=x/(x+y+z),
C2类相关的概率P(C2)=y/(x+y+z),
C3类相关的概率P(C3)=z/(x+y+z)。
将所有训练集中通过所述预处理的所述训练文本参数表示为VSM向量空间模型,在预处理后所述第一训练文本中出现的词数为n1,在预处理后所述第二训练文本中出现的词数为n2,在预处理后所述第三训练文本中出现的词数为n3
根据Cj类中特征词wi出现的概率P(wi|Cj);从而构建出所述训练模型参数,即分类器训练构成。
其中所述概率P(wi|Cj)的公式为:
P(wi|Cj)=ti/nj
其中,nj为第j个目标文本中出现的词数,即在本实施例所有训练集的分析中nj可设置为n1、n2、n3,Cj为C1、C2、C3中的其中一项;ti为特征词wi在第j个目标文本出现的次数。
利用朴素贝叶斯公式计算出爬取网页属于类别C1的概率:
P(C1|B)=P(w1|C1)P(w2|C1)…P(wi|C1)P(C1)
爬取网页属于类别C2的概率:
P(C2|B)=P(w1|C2)P(w2|C2)…P(wi|C2)P(C2)
爬取网页属于类别C3的概率:
P(C3|B)=P(w1|C3)P(w2|C3)…P(wi|C3)P(C3)
其中P(wi|Cj)为Cj类中特征词wi出现的概率,P(Cj)为Cj类相关的概率,Cj为C1、C2、C3中的其中一项。
爬取网页判别概率P(B)=max{P(C1|B),P(C2|B),P(C3|B)},
并将所述网页判别概率P(B)与所述训练模型参数比较,从而完成所述网页文本的分类过程。
所述步骤A5中的所述信息提取具体通过以下步骤来实现:
通常所述学术网页和所述企业招聘网页中包含专家姓名、所属机构、研究领域和企业名称、所属行业、职位等信息,因此可以为每个学术网站和企业网站设计爬虫爬取规则模板,然后利用XPath(XML路径语言)直接从网页中解析出所需要的数据。
较佳的,本发明的区域信息抽取过程采用百度地图API接口(应用程序编程接口)来实现,保证对所述区域信息的有效采集,以实现通过区域维度对人才供需信息的分析。
如图4所示,所述区域信息抽取包括步骤:
A51;以专家所属机构或者企业地址构建URL,
如http://api.map.***.com/
place/v2/suggestion?query=中国科学院研究生院&region=1&city_limit
=false&output=json&ak=ak值;
A52,Requests执行该URL;
A53,获得返回的结果json值(JavaScript Object Notation,JS对象简谱),并判断值是否为空,若为空,则区域值设为空,若不为空,则取第一个result中的city字段值作为区域值。
较佳的,具体步骤A6包括:
A61;建立***语料库和相似度阈值;
A62;对语料库文本进行预处理,包括繁简体转换和文本分词;
A63;采用了Word2vec(为一群用来产生词向量的相关模型)训练文本得到词汇向量;
A64;根据训练的结果计算词汇的语义相似度,将相似度大于阈值的专家研究领域和企业职位需求作为一组供需关系。
本发明的区域人才供需信息分析方法是在大规模的专家数据中找到某一个技术领域的专家,即根据企业需求找到相应领域的专家,其关键就是建立专家和企业的供需关系。因此步骤A6采用基于语料统计的词汇相似度计算方法计算研究领域与职位之间的词汇相似度,保证专家数据和企业数据的精确配比,迅速准确的建立专家和企业的供需关系,提高本发明分布式区域人才供需主题数据爬取方法的运行效率。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (10)

1.一种分布式区域人才供需主题数据爬取方法,其特征在于,包括步骤:
A1,主节点模块选取目标网站为采集和分析对象,所述目标网站包括权威学术机构网站和主流企业招聘网站;
A2,所述主节点模块对所述目标网站进行爬取,提取连接信息,所述连接信息包括所述目标网站的网站URL列表、所述目标网站网页文本中的文本和URL链接;
A3,所述主节点模块对所述连接信息进行过滤,并将过滤结果存储到任务库中以供分节点模块获取任务列表;
A4,所述分节点模块对爬取的所述网页文本进行主题相关性判断以实现所述网页文本的分类;
A5,所述分节点模块将从非结构化的网页数据中提取所述专家信息和所述企业信息进行整理,形成结构化数据;
A6,所述分节点模块将所述专家信息中的研究领域和企业信息中的职位信息进行词汇的语义相似度计算;
A7,将所述专家信息、所述企业信息和所述供需信息的结构化数据存储到数据库中。
2.如权利要求1所述的分布式区域人才供需主题数据爬取方法,其特征在于,所述步骤A4包括步骤:
设置类别集合和训练集,通过对所述训练集的预处理、特征提取、文本表示构成训练模型参数;通过对爬取网页文本的预处理、特征提取、文本表示构成爬取主体参数,通过所述训练模型参数和所述爬取主体参数的比较实现所述主题相关性判断从而将爬取的网页文本进行针对所述类别集合的分类。
3.如权利要求2所述的分布式区域人才供需主题数据爬取方法,其特征在于,所述预处理包括对目标文本进行中文分词和去除停顿词处理;
所述特征提取包括,通过设定若干特征词,对已预处理后的所述目标文本进行所述特征词提取,从而将所述目标文本映射为一个特征向量{<w1,t1><w2,t2>…<wn,tn>},其中wi为所述目标文本中设定的第i个特征词,ti为所述目标文本中wi词的权重,n为设定的特征词数量。
4.如权利要求3所述的分布式区域人才供需主题数据爬取方法,其特征在于,所述类别集合C={C1,C2,C3},其中,C1表示与学术主题相关,C2表示与企业主题相关,C3表示与学术主题、企业主题均不相关。
5.如权利要求4所述的分布式区域人才供需主题数据爬取方法,其特征在于,所述训练集包括与C1相关的第一训练文本,与C2相关的第二训练文本和与C3相关的第三训练文本,
C1类相关的概率P(C1)=x/(x+y+z),
C2类相关的概率P(C2)=y/(x+y+z),
C3类相关的概率P(C3)=z/(x+y+z);
其中x为所述第一训练文本的数量,y为所述第二训练文本的数量;z为所述第三训练文本的数量。
6.如权利要求5所述的分布式区域人才供需主题数据爬取方法,其特征在于,根据Cj类中特征词wi出现的概率P(wi|Cj),从而构建出所述训练模型参数;其中所述概率P(wi|Cj)的公式为:
P(wi|Cj)=ti/nj
其中,nj为第j个目标文本中出现的词数,Cj为C1、C2、C3中的其中一项;ti为特征词wi在第j个目标文本出现的次数。
7.如权利要求8所述的分布式区域人才供需主题数据爬取方法,其特征在于,爬取网页属于类别C1的概率:
P(C1|B)=P(w1|C1)P(w2|C1)…P(wi|C1)P(C1)
爬取网页属于类别C2的概率:
P(C2|B)=P(w1|C2)P(w2|C2)…P(wi|C2)P(C2)
爬取网页属于类别C3的概率:
P(C3|B)=P(w1|C3)P(w2|C3)…P(wi|C3)P(C3)
其中P(wi|Cj)为Cj类中特征词wi出现的概率,P(Cj)为Cj类相关的概率,Cj为C1、C2、C3中的其中一项;
爬取网页判别概率P(B)=max{P(C1|B),P(C2|B),P(C3|B)},
并将所述网页判别概率P(B)与所述训练模型参数比较,从而完成所述网页文本的分类过程。
8.如权利要求1所述的分布式区域人才供需主题数据爬取方法,其特征在于,所述步骤A5包括步骤;
A51;以专家所属机构或者企业地址构建URL;
A52,Requests执行该URL;
A53,获得地图API返回的结果json值,并判断值是否为空,若为空,则区域值设为空,若不为空,则取第一个result中的city字段值作为区域值。
9.如权利要求1所述的分布式区域人才供需主题数据爬取方法,其特征在于,所述步骤A6包括步骤;
A61;建立语料库和相似度阈值;
A62;对所述语料库文本进行预处理,包括繁简体转换和文本分词;
A63;采用了Word2vec训练文本得到词汇向量;
A64;根据训练的结果计算词汇的语义相似度,将相似度大于阈值的专家研究领域和企业职位需求作为一组供需关系对。
10.如权利要求1所述的分布式区域人才供需主题数据爬取方法,其特征在于,所述分节点模块设置规避步骤,所述规避步骤包括;
在所述分节点模块中动态设置User-Agent;禁用cookies;设置延迟下载;使用PhantomJS和Selenium结合的方式访问页面的内容。
CN201810748962.3A 2018-07-10 2018-07-10 一种分布式区域人才供需主题数据爬取方法 Pending CN109033269A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810748962.3A CN109033269A (zh) 2018-07-10 2018-07-10 一种分布式区域人才供需主题数据爬取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810748962.3A CN109033269A (zh) 2018-07-10 2018-07-10 一种分布式区域人才供需主题数据爬取方法

Publications (1)

Publication Number Publication Date
CN109033269A true CN109033269A (zh) 2018-12-18

Family

ID=64642080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810748962.3A Pending CN109033269A (zh) 2018-07-10 2018-07-10 一种分布式区域人才供需主题数据爬取方法

Country Status (1)

Country Link
CN (1) CN109033269A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956354A (zh) * 2019-08-30 2020-04-03 深圳传世智慧科技有限公司 变革管理资源匹配方法、服务器及变革管理***
CN113312343A (zh) * 2021-06-11 2021-08-27 北京思特奇信息技术股份有限公司 一种基于网络爬虫工具的商机管理方法和***
CN113722572A (zh) * 2021-10-11 2021-11-30 上海易路软件有限公司 一种分布式深度爬取的方法、装置及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470731A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 一种可个性化定制的网页过滤方法
CN105512864A (zh) * 2016-01-28 2016-04-20 丁沂 一种基于互联网的岗位职业能力需求的自动获取方法
CN106126512A (zh) * 2016-04-13 2016-11-16 北京天融信网络安全技术有限公司 一种集成学习的网页分类方法及装置
CN107239892A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 基于大数据的区域人才供需平衡量化分析方法
CN107423382A (zh) * 2017-07-13 2017-12-01 中国物品编码中心 网络爬取方法和装置
CN108229826A (zh) * 2018-01-04 2018-06-29 中国计量大学 一种基于改进贝叶斯算法的网购风险等级评估方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470731A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 一种可个性化定制的网页过滤方法
CN105512864A (zh) * 2016-01-28 2016-04-20 丁沂 一种基于互联网的岗位职业能力需求的自动获取方法
CN106126512A (zh) * 2016-04-13 2016-11-16 北京天融信网络安全技术有限公司 一种集成学习的网页分类方法及装置
CN107239892A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 基于大数据的区域人才供需平衡量化分析方法
CN107423382A (zh) * 2017-07-13 2017-12-01 中国物品编码中心 网络爬取方法和装置
CN108229826A (zh) * 2018-01-04 2018-06-29 中国计量大学 一种基于改进贝叶斯算法的网购风险等级评估方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
何麒: "python 爬虫如何防止被封杀", 《HTTPS://BLOG.CSDN.NET/LIULANGDESHUSHENG/ARTICLE/DETAILS/54288615》 *
徐林彬: "基于贝叶斯的分布式网页自动分类算法研究及应用", 《中国优秀硕士学位论文全文数据库,信息科技辑》 *
秋楓: "如何让你的scrapy爬虫不再被ban", 《HTTPS://WWW.CNBLOGS.COM/RWXWSBLOG/P/4575894.HTML》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956354A (zh) * 2019-08-30 2020-04-03 深圳传世智慧科技有限公司 变革管理资源匹配方法、服务器及变革管理***
CN113312343A (zh) * 2021-06-11 2021-08-27 北京思特奇信息技术股份有限公司 一种基于网络爬虫工具的商机管理方法和***
CN113722572A (zh) * 2021-10-11 2021-11-30 上海易路软件有限公司 一种分布式深度爬取的方法、装置及介质
CN113722572B (zh) * 2021-10-11 2024-03-29 上海易路软件有限公司 一种分布式深度爬取的方法、装置及介质

Similar Documents

Publication Publication Date Title
Buber et al. Web page classification using RNN
US20200304550A1 (en) Generic Event Stream Processing for Machine Learning
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其***
Qin et al. DuerQuiz: A personalized question recommender system for intelligent job interview
Boukabous et al. Crime prediction using a hybrid sentiment analysis approach based on the bidirectional encoder representations from transformers
CN107844533A (zh) 一种智能问答***及分析方法
CN109033269A (zh) 一种分布式区域人才供需主题数据爬取方法
Kishwar et al. Fake news detection on Pakistani news using machine learning and deep learning
CN108520007A (zh) 万维网网页信息提取方法、存储介质及计算机设备
CN110321471A (zh) 一种基于政策性资源汇聚的互联网科技金融智能匹配方法
Hienert et al. Automatic Classification and Relationship Extraction for Multi-Lingual and Multi-Granular Events from Wikipedia.
KR101007056B1 (ko) 연관 태그에 기반한 태그 클러스터링 장치 및 그 방법
Kirchner et al. Researching alignment research: Unsupervised analysis
CN110069686A (zh) 用户行为分析方法、装置、计算机装置及存储介质
Bhat et al. Browser simulation-based crawler for online social network profile extraction
Memon et al. Harvesting covert networks: a case study of the iMiner database
Yang et al. Public cultural knowledge graph platform
Zhao et al. Missing RDF triples detection and correction in knowledge graphs
CN109446424B (zh) 一种无效地址网页过滤方法及***
Lapesa et al. Analysis of political debates through newspaper reports: methods and outcomes
Sanagavarapu et al. SIREN: a fine grained approach to develop information security search engine
Song et al. Examining personalization heuristics by topical analysis of query log
Yang et al. Internet rumor audience response prediction algorithm based on machine learning in big data environment
Ibrahim et al. Rules for ontology population from text of Malaysia medicinal herbs domain
Samizadeh et al. Web mining based on word-centric search with clustering approach using MLP-PSO hybrid

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181218

RJ01 Rejection of invention patent application after publication