CN102254014B - 一种网页特征自适应的信息抽取方法 - Google Patents
一种网页特征自适应的信息抽取方法 Download PDFInfo
- Publication number
- CN102254014B CN102254014B CN 201110205137 CN201110205137A CN102254014B CN 102254014 B CN102254014 B CN 102254014B CN 201110205137 CN201110205137 CN 201110205137 CN 201110205137 A CN201110205137 A CN 201110205137A CN 102254014 B CN102254014 B CN 102254014B
- Authority
- CN
- China
- Prior art keywords
- result
- name
- text unit
- page
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (2)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110205137 CN102254014B (zh) | 2011-07-21 | 2011-07-21 | 一种网页特征自适应的信息抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110205137 CN102254014B (zh) | 2011-07-21 | 2011-07-21 | 一种网页特征自适应的信息抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102254014A CN102254014A (zh) | 2011-11-23 |
CN102254014B true CN102254014B (zh) | 2013-06-05 |
Family
ID=44981278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110205137 Expired - Fee Related CN102254014B (zh) | 2011-07-21 | 2011-07-21 | 一种网页特征自适应的信息抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102254014B (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411630A (zh) * | 2011-12-22 | 2012-04-11 | 南京烽火星空通信发展有限公司 | 一种属性搜索方法 |
CN103218362B (zh) * | 2012-01-19 | 2016-12-14 | 中兴通讯股份有限公司 | 一种领域本体构建方法及*** |
CN102662969B (zh) * | 2012-03-11 | 2013-11-27 | 复旦大学 | 一种基于网页结构语义的互联网信息对象定位方法 |
CN103577578B (zh) * | 2012-03-30 | 2017-04-05 | 北京奇虎科技有限公司 | 一种标记文件解析方法和装置 |
CN102663123B (zh) * | 2012-04-20 | 2014-09-03 | 哈尔滨工业大学 | 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的*** |
CN102841920B (zh) * | 2012-06-30 | 2017-05-10 | 北京百度网讯科技有限公司 | 一种页面信息提取方法及装置 |
CN102932400B (zh) * | 2012-07-20 | 2015-06-17 | 北京网康科技有限公司 | 一种识别统一资源定位符主链接的方法及装置 |
CN102867064B (zh) * | 2012-09-28 | 2015-12-02 | 用友网络科技股份有限公司 | 关联字段查询装置和关联字段查询方法 |
CN103793285A (zh) * | 2012-10-29 | 2014-05-14 | 百度在线网络技术(北京)有限公司 | 一种处理线上异常的方法及平台服务器 |
CN103051895B (zh) * | 2012-12-07 | 2016-04-13 | 浙江大学 | 一种上下文模型选择的方法和装置 |
CN104252530B (zh) * | 2014-09-10 | 2017-09-15 | 北京京东尚科信息技术有限公司 | 一种单机爬虫抓取方法及*** |
CN104331438B (zh) * | 2014-10-24 | 2018-04-17 | 北京奇虎科技有限公司 | 对小说网页内容选择性抽取方法和装置 |
CN104376108B (zh) * | 2014-11-26 | 2017-06-06 | 克拉玛依红有软件有限责任公司 | 一种基于6w语义标识的非结构化自然语言信息抽取方法 |
CN104699797B (zh) * | 2015-03-18 | 2018-02-23 | 浪潮集团有限公司 | 一种网页数据结构化解析方法和装置 |
CN105095400B (zh) * | 2015-07-07 | 2019-02-05 | 清华大学 | 个人主页的查找方法 |
CN106469176B (zh) * | 2015-08-20 | 2019-08-16 | 百度在线网络技术(北京)有限公司 | 一种用于提取文本摘要的方法与设备 |
TWI570582B (zh) * | 2015-11-12 | 2017-02-11 | 財團法人資訊工業策進會 | 智產儲存系統、方法及其電腦可讀取記錄媒體 |
CN106484920A (zh) * | 2016-11-21 | 2017-03-08 | 北京恒华伟业科技股份有限公司 | 一种评审文档指标的抽取方法 |
CN108241680B (zh) * | 2016-12-26 | 2020-10-13 | 北京国双科技有限公司 | 获取网页的阅读量的方法和装置 |
CN106681596B (zh) * | 2017-01-03 | 2020-03-06 | 北京百度网讯科技有限公司 | 信息显示方法和装置 |
US10289963B2 (en) | 2017-02-27 | 2019-05-14 | International Business Machines Corporation | Unified text analytics annotator development life cycle combining rule-based and machine learning based techniques |
CN109117435B (zh) * | 2017-06-22 | 2021-07-27 | 索意互动(北京)信息技术有限公司 | 一种客户端、服务器、检索方法及其*** |
CN107808000B (zh) * | 2017-11-13 | 2020-05-22 | 哈尔滨工业大学(威海) | 一种暗网数据采集与抽取***及方法 |
CN110020366B (zh) * | 2017-12-07 | 2021-06-15 | 北大方正集团有限公司 | 邮箱信息抽取方法及装置 |
CN108153851B (zh) * | 2017-12-21 | 2021-06-18 | 北京工业大学 | 一种基于规则和语义的通用论坛主题帖页面信息抽取方法 |
CN109033282B (zh) * | 2018-07-11 | 2021-07-23 | 山东邦尼信息科技有限公司 | 一种基于抽取模板的网页正文抽取方法及装置 |
CN109657180B (zh) * | 2018-12-11 | 2021-11-26 | 中科国力(镇江)智能技术有限公司 | 一种智能化网页内容自动模糊抽取*** |
CN110189210A (zh) * | 2019-06-05 | 2019-08-30 | 浙江米奥兰特商务会展股份有限公司 | 外贸撮合的采购商信息采集方法、装置、设备及存储介质 |
CN110781497B (zh) * | 2019-10-21 | 2022-03-29 | 新华三信息安全技术有限公司 | 网页链接的检测方法及存储介质 |
CN114116757B (zh) * | 2020-08-31 | 2022-10-18 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、电子设备及可读存储介质 |
CN113268573A (zh) * | 2021-05-19 | 2021-08-17 | 上海博亦信息科技有限公司 | 一种学术人才信息的抽取方法 |
CN113254751B (zh) * | 2021-06-24 | 2021-09-21 | 北森云计算有限公司 | 一种复杂网页结构化信息精确提取方法、设备及存储介质 |
CN113434797B (zh) * | 2021-06-29 | 2024-05-31 | ***数智科技有限公司 | 一种网页信息提取方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101620608A (zh) * | 2008-07-04 | 2010-01-06 | 全国组织机构代码管理中心 | 信息采集方法及*** |
CN101727498A (zh) * | 2010-01-15 | 2010-06-09 | 西安交通大学 | 一种基于web结构的网页信息自动提取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004046312A (ja) * | 2002-07-09 | 2004-02-12 | Nippon Telegr & Teleph Corp <Ntt> | サイト運営者情報抽出方法、装置、サイト運営者情報抽出プログラム、および該プログラムを記録した記録媒体 |
US20100083095A1 (en) * | 2008-09-29 | 2010-04-01 | Nikovski Daniel N | Method for Extracting Data from Web Pages |
-
2011
- 2011-07-21 CN CN 201110205137 patent/CN102254014B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101620608A (zh) * | 2008-07-04 | 2010-01-06 | 全国组织机构代码管理中心 | 信息采集方法及*** |
CN101727498A (zh) * | 2010-01-15 | 2010-06-09 | 西安交通大学 | 一种基于web结构的网页信息自动提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102254014A (zh) | 2011-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102254014B (zh) | 一种网页特征自适应的信息抽取方法 | |
CN109492077B (zh) | 基于知识图谱的石化领域问答方法及*** | |
CN111723215B (zh) | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 | |
US8751218B2 (en) | Indexing content at semantic level | |
CN101464898B (zh) | 一种提取文本主题词的方法 | |
Zhang | Towards efficient and effective semantic table interpretation | |
CN105893611B (zh) | 一种构建面向社交网络的兴趣主题语义网络的方法 | |
US20120102015A1 (en) | Method and System for Performing a Comparison | |
CN102054015A (zh) | 使用有机物件数据模型来组织社群智能信息的***及方法 | |
CN103823824A (zh) | 一种借助互联网自动构建文本分类语料库的方法及*** | |
CN102609427A (zh) | 舆情垂直搜索分析***及方法 | |
CN108319583B (zh) | 从中文语料库提取知识的方法与*** | |
CN109145260A (zh) | 一种文本信息自动提取方法 | |
CN106649666A (zh) | 一种左右递归新词发现方法 | |
CN103678412A (zh) | 一种文档检索的方法及装置 | |
Döhmen et al. | Multi-hypothesis CSV parsing | |
CN108153851B (zh) | 一种基于规则和语义的通用论坛主题帖页面信息抽取方法 | |
Alpizar-Chacon et al. | Knowledge models from PDF textbooks | |
CN114090861A (zh) | 一种基于知识图谱的教育领域搜索引擎构建方法 | |
CN106970938A (zh) | 面向聚焦的Web网页获取和信息抽取方法 | |
CN104346382B (zh) | 使用语言查询的文本分析***和方法 | |
CN109165373B (zh) | 一种数据处理方法及装置 | |
CN103258032A (zh) | 平行网页获取方法及装置 | |
WO2016099422A2 (en) | Content sensitive document ranking method by analyzing the citation contexts | |
Rosyiq et al. | Information extraction from Twitter using DBpedia ontology: Indonesia tourism places |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
C53 | Correction of patent for invention or patent application | ||
CB03 | Change of inventor or designer information |
Inventor after: Jin Hai Inventor after: Li Yi Inventor after: Zhao Feng Inventor after: Yan Fengwei Inventor after: Chen Heng Inventor before: Jin Hai Inventor before: Li Yi Inventor before: Zhao Feng Inventor before: Yan Fengwei |
|
COR | Change of bibliographic data |
Free format text: CORRECT: INVENTOR; FROM: JIN HAI LI YI ZHAO FENG YAN FENGWEI TO: JIN HAI LI YI ZHAO FENG YAN FENGWEI CHEN HENG |
|
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130605 Termination date: 20200721 |