CN104636466B - 一种面向开放网页的实体属性抽取方法和*** - Google Patents
一种面向开放网页的实体属性抽取方法和*** Download PDFInfo
- Publication number
- CN104636466B CN104636466B CN201510071993.6A CN201510071993A CN104636466B CN 104636466 B CN104636466 B CN 104636466B CN 201510071993 A CN201510071993 A CN 201510071993A CN 104636466 B CN104636466 B CN 104636466B
- Authority
- CN
- China
- Prior art keywords
- training
- text set
- target entity
- attribute
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
REGEX:DATE:([\d]{4}年){0,1}([\d]{1,2}月){0,1}([\d]{1,2}日){0,1} |
MCONCEPT_RULE:NAME_BIRTHDAY(person,birthday):(DIST_20, |
"_person{NAME}","BIRTH_OR","_birthday{DATE}") |
Claims (12)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510071993.6A CN104636466B (zh) | 2015-02-11 | 2015-02-11 | 一种面向开放网页的实体属性抽取方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510071993.6A CN104636466B (zh) | 2015-02-11 | 2015-02-11 | 一种面向开放网页的实体属性抽取方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104636466A CN104636466A (zh) | 2015-05-20 |
CN104636466B true CN104636466B (zh) | 2020-07-31 |
Family
ID=53215212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510071993.6A Active CN104636466B (zh) | 2015-02-11 | 2015-02-11 | 一种面向开放网页的实体属性抽取方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104636466B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10803391B2 (en) | 2015-07-29 | 2020-10-13 | Google Llc | Modeling personal entities on a mobile device using embeddings |
CN106547753B (zh) * | 2015-09-16 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 一种信息分析方法及电子设备 |
CN107402933A (zh) * | 2016-05-20 | 2017-11-28 | 富士通株式会社 | 实体多音字消歧方法和实体多音字消歧设备 |
CN106776866A (zh) * | 2016-11-29 | 2017-05-31 | 首都师范大学 | 一种对高校网站上的会议稿进行知识抽取的方法 |
CN108614828B (zh) * | 2016-12-12 | 2020-12-29 | 北大方正集团有限公司 | 基于规则模板的语料分析方法及语料分析装置 |
CN107045529B (zh) * | 2017-01-16 | 2021-01-22 | 阿里巴巴(中国)有限公司 | 网络内容获取方法、装置及服务终端 |
CN107368525B (zh) * | 2017-06-07 | 2020-03-03 | 广州视源电子科技股份有限公司 | 搜索相关词的方法及装置、存储介质和终端设备 |
CN110709828A (zh) * | 2017-06-08 | 2020-01-17 | 北京嘀嘀无限科技发展有限公司 | 使用条件随机域模型确定文本属性的***及方法 |
CN110019829B (zh) * | 2017-09-19 | 2021-05-07 | 绿湾网络科技有限公司 | 数据属性确定方法、装置 |
CN107729319B (zh) * | 2017-10-18 | 2021-03-09 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN107992597B (zh) * | 2017-12-13 | 2020-08-18 | 国网山东省电力公司电力科学研究院 | 一种面向电网故障案例的文本结构化方法 |
CN108363701B (zh) * | 2018-04-13 | 2022-06-28 | 达而观信息科技(上海)有限公司 | 命名实体识别方法及*** |
TWI705338B (zh) * | 2018-06-14 | 2020-09-21 | 大陸商北京嘀嘀無限科技發展有限公司 | 使用條件隨機域模型確定文本屬性的系統及方法 |
CN109783651B (zh) * | 2019-01-29 | 2022-03-04 | 北京百度网讯科技有限公司 | 提取实体相关信息的方法、装置、电子设备和存储介质 |
CN110399433A (zh) * | 2019-07-23 | 2019-11-01 | 福建奇点时空数字科技有限公司 | 一种基于深度学习的数据实体关系抽取方法 |
CN112434530A (zh) * | 2019-08-06 | 2021-03-02 | 富士通株式会社 | 信息处理装置和信息处理方法 |
CN111027318B (zh) * | 2019-10-12 | 2023-04-07 | 中国平安财产保险股份有限公司 | 基于大数据的行业分类方法、装置、设备及存储介质 |
CN111125438B (zh) * | 2019-12-25 | 2023-06-27 | 北京百度网讯科技有限公司 | 实体信息提取方法、装置、电子设备及存储介质 |
CN113609838B (zh) * | 2021-07-14 | 2024-05-24 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 文档信息抽取及图谱化方法和*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298588A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 从非结构化文档中抽取对象的方法和装置 |
CN102591862A (zh) * | 2011-01-05 | 2012-07-18 | 华东师范大学 | 一种基于词共现的汉语实体关系提取的控制方法及装置 |
CN102831251A (zh) * | 2012-09-20 | 2012-12-19 | 北京理工大学 | 基于动态学习框架的全自动网页结构化数据抽取方法 |
CN103034693A (zh) * | 2012-12-03 | 2013-04-10 | 哈尔滨工业大学 | 开放式实体及其类型识别方法 |
CN103617280A (zh) * | 2013-12-09 | 2014-03-05 | 苏州大学 | 一种中文事件信息挖掘方法和*** |
CN104239300A (zh) * | 2013-06-06 | 2014-12-24 | 富士通株式会社 | 从文本中挖掘语义关键词的方法和设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002082962A (ja) * | 2000-09-08 | 2002-03-22 | Hitachi Ltd | エンジニアリングポータルサイトにおける情報提供方法 |
CN102495892A (zh) * | 2011-12-09 | 2012-06-13 | 北京大学 | 一种网页信息抽取方法 |
CN103268339B (zh) * | 2013-05-17 | 2016-06-01 | 中国科学院计算技术研究所 | 微博消息中命名实体识别方法及*** |
CN103324700B (zh) * | 2013-06-08 | 2017-02-01 | 同济大学 | 一种基于Web信息的本体概念属性学习方法 |
CN103500208B (zh) * | 2013-09-30 | 2016-08-17 | 中国科学院自动化研究所 | 结合知识库的深层数据处理方法和*** |
CN103824115B (zh) * | 2014-02-28 | 2017-07-21 | 中国科学院计算技术研究所 | 面向开放网络知识库的实体间关系推断方法及*** |
-
2015
- 2015-02-11 CN CN201510071993.6A patent/CN104636466B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298588A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 从非结构化文档中抽取对象的方法和装置 |
CN102591862A (zh) * | 2011-01-05 | 2012-07-18 | 华东师范大学 | 一种基于词共现的汉语实体关系提取的控制方法及装置 |
CN102831251A (zh) * | 2012-09-20 | 2012-12-19 | 北京理工大学 | 基于动态学习框架的全自动网页结构化数据抽取方法 |
CN103034693A (zh) * | 2012-12-03 | 2013-04-10 | 哈尔滨工业大学 | 开放式实体及其类型识别方法 |
CN104239300A (zh) * | 2013-06-06 | 2014-12-24 | 富士通株式会社 | 从文本中挖掘语义关键词的方法和设备 |
CN103617280A (zh) * | 2013-12-09 | 2014-03-05 | 苏州大学 | 一种中文事件信息挖掘方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN104636466A (zh) | 2015-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和*** | |
CN111104794B (zh) | 一种基于主题词的文本相似度匹配方法 | |
JP6309644B2 (ja) | スマート質問回答の実現方法、システム、および記憶媒体 | |
CN104933027B (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
CN105095204B (zh) | 同义词的获取方法及装置 | |
US11080295B2 (en) | Collecting, organizing, and searching knowledge about a dataset | |
TWI662425B (zh) | 一種自動生成語義相近句子樣本的方法 | |
US9183274B1 (en) | System, methods, and data structure for representing object and properties associations | |
JP6466952B2 (ja) | 文章生成システム | |
CN110502642B (zh) | 一种基于依存句法分析与规则的实体关系抽取方法 | |
CN111190900B (zh) | 一种云计算模式下json数据可视化优化方法 | |
WO2021146831A1 (zh) | 实体识别的方法和装置、建立词典的方法、设备、介质 | |
CN103324621B (zh) | 一种泰语文本拼写纠正方法及装置 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
CN107180026B (zh) | 一种基于词嵌入语义映射的事件短语学习方法及装置 | |
CN111177591A (zh) | 面向可视化需求的基于知识图谱的Web数据优化方法 | |
CN108319583B (zh) | 从中文语料库提取知识的方法与*** | |
CN103646112A (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及*** | |
CN109213998A (zh) | 中文错字检测方法及*** | |
CN108959630A (zh) | 一种面向英文无结构文本的人物属性抽取方法 | |
Sembok et al. | Arabic word stemming algorithms and retrieval effectiveness | |
CN111444713B (zh) | 新闻事件内实体关系抽取方法及装置 | |
JP2019083040A (ja) | 文章生成のためのデータを生成するシステム及び方法 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Cheng Xueqi Inventor after: Jia Yantao Inventor after: Zhao Zeya Inventor after: Wang Yuanzhuo Inventor after: Jin Xiaolong Inventor after: Xiong Jinhua Inventor after: Li Manling Inventor after: Lin Hailun Inventor after: Xu Hongbo Inventor before: Cheng Xueqi Inventor before: Jia Yantao Inventor before: Zhao Zeya Inventor before: Wang Yuanzhuo Inventor before: Xiong Jinhua Inventor before: Li Manling Inventor before: Lin Hailun Inventor before: Xu Hongbo |
|
GR01 | Patent grant | ||
GR01 | Patent grant |