CN105512864A - 一种基于互联网的岗位职业能力需求的自动获取方法 - Google Patents

一种基于互联网的岗位职业能力需求的自动获取方法 Download PDF

Info

Publication number
CN105512864A
CN105512864A CN201610057492.7A CN201610057492A CN105512864A CN 105512864 A CN105512864 A CN 105512864A CN 201610057492 A CN201610057492 A CN 201610057492A CN 105512864 A CN105512864 A CN 105512864A
Authority
CN
China
Prior art keywords
word
text
recruitment information
information
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610057492.7A
Other languages
English (en)
Inventor
丁沂
冯耀
梅晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610057492.7A priority Critical patent/CN105512864A/zh
Publication of CN105512864A publication Critical patent/CN105512864A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于互联网的岗位职业能力需求的自动获取方法,通过自动化的方式从招聘网站上获取招聘信息,并保存在本地资料库中,针对某一具体岗位抽取招聘信息,利用自然语言处理技术和数据挖掘技术,自动提取该岗位的职业能力需求。本方法和传统的方法相比具有以下优点:1.本方法是一个自动化的过程,时间快,效率高,成本低;2.获取的数据样本大,数据及时更新,分析结果具有代表性。

Description

一种基于互联网的岗位职业能力需求的自动获取方法
技术领域
本发明涉及互联网及数据处理技术领域,尤其涉及一种基于互联网的岗位职业能力需求的自动获取方法。
背景技术
充分利用信息技术手段,提升职业教育学生的职业核心能力;依托互联网媒介功能,将企业实际需求与职业教育培养充分结合,是我国追赶乃至超越职业教育先进国家的唯一可行选择。当前,互联网尤其是招聘网站上有大量招聘信息,在这些招聘信息中,企业明确指出了具体岗位的职业能力需求,这些招聘信息可以用来帮助学生就业,获取的岗位职业能力需求能够用来优化人才培养方案和课程教学,为教育行业相关职能部门进行科学决策提供数据支持。
然而现如今获取相关岗位职业能力需求的方式主要是通过问卷调查、访谈、以及利用网络进行人工检索获取数据,然后对获取的数据进行整理和分析,这种方法通常采集的数据量小、采集面窄、数据不能及时更新,因此最后统计分析的结果往往不具备代表性。
发明内容
为了克服现有技术的不足,本发明提供一种基于互联网的岗位职业能力需求的自动获取方法,本方法通过自动化的方式从招聘网站上获取招聘信息,并保存在本地资料库中,针对某一具体岗位,利用大量这个岗位的招聘信息,通过自然语言处理技术和数据挖掘技术,自动提取该岗位的职业能力需求。
本发明为解决上述技术问题所采用的技术方案是:
一种基于互联网的岗位职业能力需求的自动获取方法,该方法包括以下步骤:
步骤1,利用爬虫技术爬取招聘网站上的招聘信息,并将招聘信息保存在数据库中;
步骤2,从数据库中检索某一类职位的职位名称和岗位要求数据,并在返回的结果中检索某一具体岗位的职位名称和岗位要求数据,将两次检索的结果分别保存在职位文本文件和具体岗位文本文件中;
步骤3,利用分词***提供的接口分别对步骤2中所述的职位文本文件和具体岗位文本文件进行分词,构建两个文本的单词向量空间;所述的单词向量空间的元素为职位文本文件或具体岗位文本文件中包含的单词。
步骤4,扫描两个文本文件中每条招聘信息,结合各自的单词向量空间,分别统计这些单词在每条信息中出现的次数从而构建“招聘信息-单词”频次矩阵;分别统计具体岗位文本和职位文本所对应矩阵中各单词出现概率;
步骤5,根据步骤4中得到的单词概率筛选具体岗位文本中的单词并组合形成该岗位所要求的职业技能,具体为设置阈值,若一个单词在具体岗位文本中出现的概率减去该单词在职位文本中出现的概率大于阈值,则将该单词定义为该具体岗位所要求的职业技能关键词;具体岗位文本中所有满足上述条件的单词共同组成该岗位所要求的职业技能。
作为优选,步骤1中所述的爬取招聘信息具体包括以下步骤:
步骤101,获取并解析招聘网站职业搜索页面获取该网站所有职能、行业和地区名称以及对应编号,保存在本地数据库中;
步骤102,利用职能、行业和地区名称以及对应的编号组合成搜索关键词,利用该网站的内部搜索引擎,获取包含招聘信息超链接的信息列表;
步骤103,通过循环解析信息列表,获取完整招聘信息和职位名并保存在数据库中。该步骤中还包括对重复爬取的超链接数据利用数据库脚本进行去重和优化。
作为优选,所述步骤1还包括对已经爬取的网页在数据库的超链接信息中进行标记防止重复爬取已获得的数据,方便数据更新和分析。
作为优选,步骤4中所述“招聘信息-单词”频次矩阵中,每一行代表一条招聘信息、每一列代表一个单词,或者每一列代表一条招聘信息、每一行代表一个单词,对应的矩阵元素为单词在这条招聘信息中的出现频次。所述频次为加权频次,即根据不同的词汇对于岗位要求的重要程度不同设置不同的权值。例如:如果某个单词前面有前缀单词“精通”设置权值为2;“熟悉”和“熟练”设置权值为1.6;“掌握”设置权值为1.5,其他设置权值为1。
与现有技术相比,本发明的有益效果是:
1、本方法是一个自动化的过程,时间快,效率高,成本低。
2、获取的数据样本大,数据及时更新,分析结果具有代表性。
附图说明
图1是本发明方法流程图。
具体实施方式
下面结合附图及实施例对本发明作进一步说明。
一种基于互联网的岗位职业能力需求的自动获取方法,包括以下步骤:
步骤1,利用爬虫技术爬取招聘网站上的招聘信息,并将招聘信息保存在数据库中;
步骤1中所述的爬取招聘信息具体包括以下步骤:
步骤101,获取并解析招聘网站职业搜索页面获取该网站所有职能、行业和地区名称以及对应编号,保存在本地数据库中;
步骤102,利用职能、行业和地区名称以及对应的编号组合成搜索关键词,利用该网站的内部搜索引擎,获取包含招聘信息超链接的信息列表;
步骤103,通过循环解析信息列表,获取完整招聘信息和职位名并保存在数据库中。该步骤中还包括对重复爬取的超链接数据利用数据库脚本进行去重和优化。
步骤2,从数据库中检索某一类职位(如:软件工程师)的职位名称和岗位要求数据,并在返回的结果中检索某一具体岗位(如:java开发工程师)的职位名称和岗位要求数据,将两次检索的结果分别保存在不同的文本文件中。文本文件中每一条招聘信息中的岗位名称和岗位要求以制表符分隔,而每条招聘信息之间以一个特殊符号分隔(应保证在招聘信息中不包含这个特殊符号)。
步骤3,分别读取这两个文本文件,利用开源分词***提供的接口对这两个文本文件进行分词,然后去除单字符和重复单词,分别构建两个文本的单词向量空间(即:这两个文本是由哪些不同的单词构成的)。
步骤4,逐行扫描分词后两个文本文件中每条信息(即岗位),结合各自的单词向量空间,分别统计这些单词在每条信息中出现的次数从而构建招聘信息(岗位)-单词矩阵,矩阵中每一行代表一条招聘信息(岗位),每一列代表一个单词,相应的矩阵元素设置为单词在这条信息(岗位)中的加权出现频次,具体技术方案为:如果某个单词前面有前缀单词“精通”设置权值为2;“熟悉”和“熟练”设置权值为1.6;“掌握”设置权值为1.5,其他设置权值为1。
统计具体岗位文本所对应的矩阵中每个单词累计加权出现频率,具体计算公式为:一个单词在这个文本文件包含的招聘信息中出现的累计加权出现频次除以所有单词在这个文本文件包含的招聘信息中出现的累计加权出现频次之和。
统计这些单词在某一类职位文本所对应的矩阵中的累计加权出现频率。
步骤5,设置一个阈值(5%-10%),如果一个单词在具体岗位文本中累计加权出现频率减去这个单词在某一类职位文本中累计加权出现频率大于这个阈值,那么这个词就是这个具体岗位所要求的职业技能,所有满足这个条件的词共同组成了这个岗位所要求的职业技能。
说明书中未阐述的部分均为现有技术或公知常识。本实施例仅用于说明该发明,而不用于限制本发明的范围,本领域技术人员对于本发明所做的等价置换等修改均认为是落入该发明权利要求书所保护范围内。

Claims (8)

1.一种基于互联网的岗位职业能力需求的自动获取方法,其特征在于:该方法包括以下步骤:
步骤1,利用爬虫技术爬取招聘网站上的招聘信息,并将招聘信息保存在数据库中;
步骤2,从数据库中检索某一类职位的职位名称和岗位要求数据,并在返回的结果中检索某一具体岗位的职位名称和岗位要求数据,将两次检索的结果分别保存在职位文本文件和具体岗位文本文件中;
步骤3,利用分词***提供的接口分别对步骤2中所述的职位文本文件和具体岗位文本文件进行分词,构建两个文本的单词向量空间;
步骤4,扫描两个文本文件中每条招聘信息,结合各自的单词向量空间,分别统计这些单词在每条信息中出现的次数从而构建“招聘信息-单词”频次矩阵;分别统计具体岗位文本和职位文本所对应矩阵中各单词出现概率;
步骤5,根据步骤4中得到的单词概率筛选具体岗位文本中的单词并组合形成该岗位所要求的职业技能。
2.根据权利要求1所述的一种基于互联网的岗位职业能力需求的自动获取方法,
其特征在于:步骤1中所述的爬取招聘信息具体包括以下步骤:
步骤101,获取并解析招聘网站职业搜索页面获取该网站所有职能、行业和地区名称以及对应编号,保存在本地数据库中;
步骤102,利用职能、行业和地区名称以及对应的编号组合成搜索关键词,利用该网站的内部搜索引擎,获取包含招聘信息超链接的信息列表;
步骤103,通过循环解析信息列表,获取完整招聘信息和职位名并保存在数据库中。
3.根据权利要求2所述的一种基于互联网的岗位职业能力需求的自动获取方法,其特征在于:步骤103中包括对重复爬取的超链接数据利用数据库脚本进行去重和优化。
4.根据权利要求1或2所述的一种基于互联网的岗位职业能力需求的自动获取方法,其特征在于:所述步骤1还包括对已经爬取的网页在数据库的超链接信息中进行标记防止重复爬取已获得的数据,方便数据更新和分析。
5.根据权利要求1所述的一种基于互联网的岗位职业能力需求的自动获取方法,其特征在于:步骤3中所述的单词向量空间的元素为职位文本文件或具体岗位文本文件中包含的单词。
6.根据权利要求1所述的一种基于互联网的岗位职业能力需求的自动获取方法,其特征在于:步骤4中所述“招聘信息-单词”频次矩阵中,每一行代表一条招聘信息、每一列代表一个单词,或者每一列代表一条招聘信息、每一行代表一个单词,对应的矩阵元素为单词在这条招聘信息中的出现频次。
7.根据权利要求6所述的一种基于互联网的岗位职业能力需求的自动获取方法,其特征在于:所述频次为加权频次,即根据不同的词汇对于岗位要求的重要程度不同设置不同的权值。
8.根据权利要求1所述的一种基于互联网的岗位职业能力需求的自动获取方法,其特征在于:步骤5中筛选的具体方法为:设置阈值,若一个单词在具体岗位文本中出现的概率减去该单词在职位文本中出现的概率大于阈值,则将该单词定义为该具体岗位所要求的职业技能关键词;具体岗位文本中所有满足上述条件的单词共同组成该岗位所要求的职业技能。
CN201610057492.7A 2016-01-28 2016-01-28 一种基于互联网的岗位职业能力需求的自动获取方法 Pending CN105512864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610057492.7A CN105512864A (zh) 2016-01-28 2016-01-28 一种基于互联网的岗位职业能力需求的自动获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610057492.7A CN105512864A (zh) 2016-01-28 2016-01-28 一种基于互联网的岗位职业能力需求的自动获取方法

Publications (1)

Publication Number Publication Date
CN105512864A true CN105512864A (zh) 2016-04-20

Family

ID=55720825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610057492.7A Pending CN105512864A (zh) 2016-01-28 2016-01-28 一种基于互联网的岗位职业能力需求的自动获取方法

Country Status (1)

Country Link
CN (1) CN105512864A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868968A (zh) * 2016-04-21 2016-08-17 广州爱拼信息科技有限公司 基于机器学习的招聘信息解析***及其方法
CN106600213A (zh) * 2016-11-15 2017-04-26 广东家易科技有限公司 一种个人简历智能管理***及方法
CN107194617A (zh) * 2017-07-06 2017-09-22 北京航空航天大学 一种app软件工程师软技能分类***及方法
CN107506389A (zh) * 2017-07-27 2017-12-22 北京德塔精要信息技术有限公司 一种提取职位技能需求的方法和装置
CN107885725A (zh) * 2017-11-06 2018-04-06 山东浪潮云服务信息科技有限公司 一种处理招聘数据的方法及装置
CN107943881A (zh) * 2017-11-15 2018-04-20 上海壹账通金融科技有限公司 题库生成方法、服务器及计算机可读存储介质
CN108280583A (zh) * 2018-01-26 2018-07-13 重庆工商大学 基于大数据的岗位技能需求分析方法
CN108460699A (zh) * 2017-12-20 2018-08-28 卓智网络科技有限公司 教学计划优化方法和装置
CN108520334A (zh) * 2018-03-15 2018-09-11 考拉征信服务有限公司 一种职业征信方法和装置
CN108614890A (zh) * 2018-05-04 2018-10-02 长沙麦都网络科技有限公司 公考雷达***
CN108648120A (zh) * 2018-05-11 2018-10-12 重庆工商职业学院 一种学院就业数据分析方法及***
CN109033269A (zh) * 2018-07-10 2018-12-18 卓源信息科技股份有限公司 一种分布式区域人才供需主题数据爬取方法
CN110390514A (zh) * 2019-07-26 2019-10-29 北京博海迪信息科技有限公司 一种基于人才市场处理人才模型信息的方法及***
CN110619506A (zh) * 2019-08-13 2019-12-27 平安科技(深圳)有限公司 一种岗位画像生成方法、岗位画像生成装置及电子设备
CN111210124A (zh) * 2019-12-26 2020-05-29 杭州威佩网络科技有限公司 一种招募信息处理方法及装置
CN112613839A (zh) * 2020-12-25 2021-04-06 大连工业大学 一种公共就业指导方法及***
CN112861530A (zh) * 2021-03-17 2021-05-28 华南农业大学 一种基于文本挖掘的课程设置分析方法
CN116523225A (zh) * 2023-04-18 2023-08-01 泸州职业技术学院 一种基于数据挖掘的翻转课堂混合教学方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324761A (zh) * 2013-07-11 2013-09-25 广州市尊网商通资讯科技有限公司 一种基于互联网数据形成产品数据库方法和***
CN103365868A (zh) * 2012-03-29 2013-10-23 腾讯科技(深圳)有限公司 一种数据处理方法和数据处理***
CN103714413A (zh) * 2013-11-21 2014-04-09 清华大学 基于职位信息构建素质模型的***与方法
CN104462431A (zh) * 2014-12-16 2015-03-25 浪潮软件集团有限公司 一种爬取网页招聘信息的方法
CN104598532A (zh) * 2014-12-29 2015-05-06 中国联合网络通信有限公司广东省分公司 一种信息处理方法及装置
CN104933239A (zh) * 2015-06-09 2015-09-23 江苏大学 一种基于混合模型的个性化职位信息推荐***及实现方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365868A (zh) * 2012-03-29 2013-10-23 腾讯科技(深圳)有限公司 一种数据处理方法和数据处理***
CN103324761A (zh) * 2013-07-11 2013-09-25 广州市尊网商通资讯科技有限公司 一种基于互联网数据形成产品数据库方法和***
CN103714413A (zh) * 2013-11-21 2014-04-09 清华大学 基于职位信息构建素质模型的***与方法
CN104462431A (zh) * 2014-12-16 2015-03-25 浪潮软件集团有限公司 一种爬取网页招聘信息的方法
CN104598532A (zh) * 2014-12-29 2015-05-06 中国联合网络通信有限公司广东省分公司 一种信息处理方法及装置
CN104933239A (zh) * 2015-06-09 2015-09-23 江苏大学 一种基于混合模型的个性化职位信息推荐***及实现方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868968A (zh) * 2016-04-21 2016-08-17 广州爱拼信息科技有限公司 基于机器学习的招聘信息解析***及其方法
CN106600213A (zh) * 2016-11-15 2017-04-26 广东家易科技有限公司 一种个人简历智能管理***及方法
CN107194617A (zh) * 2017-07-06 2017-09-22 北京航空航天大学 一种app软件工程师软技能分类***及方法
CN107506389B (zh) * 2017-07-27 2020-05-19 北京德塔精要信息技术有限公司 一种提取职位技能需求的方法和装置
CN107506389A (zh) * 2017-07-27 2017-12-22 北京德塔精要信息技术有限公司 一种提取职位技能需求的方法和装置
CN107885725A (zh) * 2017-11-06 2018-04-06 山东浪潮云服务信息科技有限公司 一种处理招聘数据的方法及装置
CN107943881A (zh) * 2017-11-15 2018-04-20 上海壹账通金融科技有限公司 题库生成方法、服务器及计算机可读存储介质
CN108460699A (zh) * 2017-12-20 2018-08-28 卓智网络科技有限公司 教学计划优化方法和装置
CN108280583A (zh) * 2018-01-26 2018-07-13 重庆工商大学 基于大数据的岗位技能需求分析方法
CN108520334A (zh) * 2018-03-15 2018-09-11 考拉征信服务有限公司 一种职业征信方法和装置
CN108614890A (zh) * 2018-05-04 2018-10-02 长沙麦都网络科技有限公司 公考雷达***
CN108648120A (zh) * 2018-05-11 2018-10-12 重庆工商职业学院 一种学院就业数据分析方法及***
CN108648120B (zh) * 2018-05-11 2021-07-09 重庆工商职业学院 一种学院就业数据分析方法及***
CN109033269A (zh) * 2018-07-10 2018-12-18 卓源信息科技股份有限公司 一种分布式区域人才供需主题数据爬取方法
CN110390514A (zh) * 2019-07-26 2019-10-29 北京博海迪信息科技有限公司 一种基于人才市场处理人才模型信息的方法及***
CN110390514B (zh) * 2019-07-26 2023-03-14 北京博海迪信息科技有限公司 一种基于人才市场处理人才模型信息的方法及***
CN110619506A (zh) * 2019-08-13 2019-12-27 平安科技(深圳)有限公司 一种岗位画像生成方法、岗位画像生成装置及电子设备
CN110619506B (zh) * 2019-08-13 2023-05-26 平安科技(深圳)有限公司 一种岗位画像生成方法、岗位画像生成装置及电子设备
CN111210124A (zh) * 2019-12-26 2020-05-29 杭州威佩网络科技有限公司 一种招募信息处理方法及装置
CN112613839A (zh) * 2020-12-25 2021-04-06 大连工业大学 一种公共就业指导方法及***
CN112861530A (zh) * 2021-03-17 2021-05-28 华南农业大学 一种基于文本挖掘的课程设置分析方法
CN116523225A (zh) * 2023-04-18 2023-08-01 泸州职业技术学院 一种基于数据挖掘的翻转课堂混合教学方法
CN116523225B (zh) * 2023-04-18 2024-01-23 泸州职业技术学院 一种基于数据挖掘的翻转课堂混合教学方法

Similar Documents

Publication Publication Date Title
CN105512864A (zh) 一种基于互联网的岗位职业能力需求的自动获取方法
US8868621B2 (en) Data extraction from HTML documents into tables for user comparison
CN100478949C (zh) 具有实体检测的查询改写
Bakri et al. The malaysian journal of library and information science 2001-2006: A bibliometric study
CN106682150B (zh) 一种信息处理的方法及装置
CN102289467A (zh) 确定目标网点的方法和装置
CN104077388A (zh) 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
US20070043707A1 (en) Unsupervised learning tool for feature correction
CN102483748A (zh) 用于地图搜索的查询解析
CN103064956A (zh) 用于搜索电子内容的方法、计算***和计算机可读介质
US20140006408A1 (en) Identifying points of interest via social media
CN104572955A (zh) 一种基于聚类确定poi名称的***及方法
CN104750754A (zh) 网站所属行业的分类方法和服务器
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及***
CN102760150A (zh) 基于属性重现和标签路径的网页抽取方法
CN105373590A (zh) 知识数据的处理方法及装置
CN103246644A (zh) 一种网络舆情信息处理方法和装置
CN102436448A (zh) 搜索方法和***
CN106021418A (zh) 新闻事件的聚类方法及装置
CN105630937A (zh) 一种搜索***的方法以及装置
CN106021439A (zh) 一种对通信号码的处理方法及装置
CN105550169A (zh) 一种基于字符长度识别兴趣点名称的方法和装置
CN105159885A (zh) 一种兴趣点名称的识别方法和装置
KR20050078655A (ko) 동적 키워드 추출과 처리 시스템
CN102902792A (zh) 列表页识别***及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160420