CN106547733A - 一种面向特定文本的命名实体识别方法 - Google Patents

一种面向特定文本的命名实体识别方法 Download PDF

Info

Publication number
CN106547733A
CN106547733A CN201610912437.1A CN201610912437A CN106547733A CN 106547733 A CN106547733 A CN 106547733A CN 201610912437 A CN201610912437 A CN 201610912437A CN 106547733 A CN106547733 A CN 106547733A
Authority
CN
China
Prior art keywords
entity
candidate
speech
name
entity word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610912437.1A
Other languages
English (en)
Inventor
牛海波
高辉
罗威
陈钧
田昌海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA NATIONAL DEFENCE SCIENCE TECHNOLOGY INFORMATION CENTRE
Original Assignee
CHINA NATIONAL DEFENCE SCIENCE TECHNOLOGY INFORMATION CENTRE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA NATIONAL DEFENCE SCIENCE TECHNOLOGY INFORMATION CENTRE filed Critical CHINA NATIONAL DEFENCE SCIENCE TECHNOLOGY INFORMATION CENTRE
Priority to CN201610912437.1A priority Critical patent/CN106547733A/zh
Publication of CN106547733A publication Critical patent/CN106547733A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种面向特定文本的命名实体识别方法,所述方法包括:步骤1)从待处理文本中搜集指示词;步骤2)根据指示词从待处理文本中抽取候选实体词,形成候选实体词列表;步骤3)根据候选实体词列表中的候选实体词,建立实体词性组合列表;步骤4)利用实体词性组合列表过滤候选实体词列表,对过滤后的候选实体列表进行分析,搜集统计错误结果,建立错误结果的过滤词表;步骤5)利用错误结果的过滤词表对抽取的命名实体进行二次过滤,形成最终的命名实体抽取结果。与传统方法相比,本发明的方法使得在抽取规范的、具备特定表达模式的相关文本时,能够显著提升待抽取命名实体的准确率和召回率。

Description

一种面向特定文本的命名实体识别方法
技术领域
本发明涉及信息抽取技术领域,尤其涉及具有特定表达模式的文本信息抽取技术领域,具体涉及一种面向特定文本的命名实体识别方法。
背景技术
命名实体是文本中基本的信息单位,主要包括人名、地名、组织结构名等,是正确理解文本的基础。命名实体识别是信息提取、问答***、句法分析、机器翻译、知识图谱等应用领域重要基础性工作,在自然语言处理技术走向实用化的过程中占有重要地位。
早期的关于命名实体识别的研究大多集中在人工构造规则的方法,现在多采用监督学习的方法,自动构建规则或进行序列标注。监督学习是从标注好的文档的正负例里面学习特征,通过自动学习到的特征来识别命名实体。监督学习的缺点主要是需要大量标注好的语料,主要的序列标注模型包括:隐马尔科夫模型(HMM),最大熵马尔科夫模型(MEMM)和条件随机场(CRF)等。这些模型都是通过大量的标注语料,定义一系列实体,通过学习得到基于特征的判别规则。
然而,现有的方法针对机构命名实体识别方法普遍存在准确率和召回率不高的问题,无法应用到实际应用中去。而命名实体是信息抽取、问答***、机器翻译、知识图谱等大量应用的基本处理对象,是许多自然语言处理方向开展研究的基础,具备高准确率和高召回率的命名实体方法对于多种应用具有重要意义。
发明内容
本发明的目的在于克服传统命名实体识别方法存在的准确率和召回率无法满足应用需求的难题,针对具有特定表达模式的文本信息,提取人名、机构名的文本命名实体抽象特征,提出一种不同于传统方法的、具有高准确率和召回率的命名实体识别方法,该方法通过指示词搜集、候选实体词抽取、词性组合筛选、过滤词表构建四个步骤实现了命名实体识别。
为了实现上述目的,本发明提出了一种面向特定文本的命名实体识别方法,所述方法包括:
步骤1)从待处理文本中搜集指示词;
步骤2)根据指示词从待处理文本中抽取候选实体词,形成候选实体词列表;
步骤3)根据候选实体词列表中的候选实体词,建立实体词性组合列表;
步骤4)利用实体词性组合列表过滤候选实体词列表,对过滤后的候选实体列表进行分析,搜集统计错误结果,建立错误结果的过滤词表;
步骤5)利用错误结果的过滤词表对抽取的命名实体进行二次过滤,形成最终的命名实体抽取结果。
上述技术方案中,所述步骤1)中的指示词是指规范文本中表征后续字符是属于某类实体的词。
上述技术方案中,所述步骤2)具体包括:
步骤2-1)对待处理文本分句,遍历查找所有包含任意指示词的分句;
步骤2-2)利用指示词切割分句,保留任意两个指示词之间及任意指示词和分句结束之间的字符串,建立截断字符串集合;
步骤2-3)遍历截断字符串集合,对任意字符串做两两匹配,保留每次匹配的最长子串,建立最长匹配子串列表,同时储存各个匹配子串的匹配数量信息;
步骤2-4)按照匹配子串数量进行排序,形成候选实体词列表。
上述技术方案中,所述步骤3)的具体实现过程为:
利用通用的分词和词性标注工具,标注候选实体词列表中各个候选实体词的词性标记组合;对词性标记组合进行统计,统计具有相同词性组合的候选实体词,利用统计结果筛选出正确命名的实体词性组合,形成实体词性组合列表。
本发明的优势在于:
1、本发明的方法不需要大量人工标注语料,大大降低了人力成本;
2、本发明的方法不依赖于中文分词和词性标注的准确性,基础自然语言处理组件的错误不会传导到最终的命名实体识别结果;
3、本发明的方法不需要建立大规模的模型,命名实体识别的效率高;
4、与传统方法相比,本发明的方法使得在抽取规范的、具备特定表达模式的相关文本时,能够显著提升待抽取命名实体的准确率和召回率。
附图说明
图1为本发明的面向特定文本的命名实体识别方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
在许多正式的文本中,许多文本具有以下表达模式:其他文本+指示词+命名实体+其他文本,且此种模式会在正文中重复多次。以法院执行裁定书为例,指示词为原告/被告/委托人等。同时文本中出现的人名、机构名等命名实体表达规范,且会重复出现多次。本发明中的特定文本是指具备此类表达模式的文本。
如图1所示,一种面向特定文本的命名实体识别方法,该方法针对以上规范表达的文本数据,进行人名、机构名的命名实体识别。主要包括指示词搜集、候选实体词抽取、词性组合筛选、过滤词表构建四个步骤。该方法具体包括:
步骤1)从待处理文本中搜集指示词;
指示词是指规范文本中表征后续字符是属于某类实体的词,指示词一般具有多个,譬如申请人、上诉人、原告等都可看作代表原告的指示词。建立指示词词表的方法有两个:一是利用待处理文本的领域背景知识建立(如法院公文中的实体);二是对样本中人工标注的命名实体的前述词进行频率统计,人工选择频率较高、且能涵盖待抽取实体的表征指示词建立词表。
步骤2)从待处理文本中抽取候选实体词,形成候选实体词列表;具体包括以下步骤:
步骤2-1)对待处理文本分句,遍历查找所有包含任意指示词的分句;
步骤2-2)利用指示词切割分句,保留任意两个指示词之间及任意指示词和分句结束之间的字符串,建立截断字符串集合;
步骤2-3)遍历截断字符串集合,对任意字符串做两两匹配,保留每次匹配的最长子串,建立最长匹配子串列表,同时储存各个匹配子串的匹配数量信息;
步骤2-4)按照匹配子串数量进行排序,形成候选实体词列表。
步骤3)利用通用的分词和词性标注工具,标注候选实体词列表中各个候选实体词的词性标记组合;对词性标记组合进行统计,统计具有相同词性组合的候选实体词,利用统计结果筛选出正确命名实体的词性组合,建立实体词性组合列表;
步骤4)利用实体词性组合列表过滤候选实体词列表,对过滤后的候选实体列表进行分析,搜集统计错误结果,建立错误结果的过滤词表;
步骤5)利用错误结果的过滤词表对抽取的命名实体进行二次过滤,形成最终的命名实体抽取结果。

Claims (4)

1.一种面向特定文本的命名实体识别方法,所述方法包括:
步骤1)从待处理文本中搜集指示词;
步骤2)根据指示词从待处理文本中抽取候选实体词,形成候选实体词列表;
步骤3)根据候选实体词列表中的候选实体词,建立实体词性组合列表;
步骤4)利用实体词性组合列表过滤候选实体词列表,对过滤后的候选实体列表进行分析,搜集统计错误结果,建立错误结果的过滤词表;
步骤5)利用错误结果的过滤词表对抽取的命名实体进行二次过滤,形成最终的命名实体抽取结果。
2.根据权利要求1所述的面向特定文本的命名实体识别方法,其特征在于,所述步骤1)中的指示词是指规范文本中表征后续字符是属于某类实体的词。
3.根据权利要求1所述的面向特定文本的命名实体识别方法,其特征在于,所述步骤2)具体包括:
步骤2-1)对待处理文本分句,遍历查找所有包含任意指示词的分句;
步骤2-2)利用指示词切割分句,保留任意两个指示词之间及任意指示词和分句结束之间的字符串,建立截断字符串集合;
步骤2-3)遍历截断字符串集合,对任意字符串做两两匹配,保留每次匹配的最长子串,建立最长匹配子串列表,同时储存各个匹配子串的匹配数量信息;
步骤2-4)按照匹配子串数量进行排序,形成候选实体词列表。
4.根据权利要求1所述的面向特定文本的命名实体识别方法,其特征在于,所述步骤3)的具体实现过程为:
利用通用的分词和词性标注工具,标注候选实体词列表中各个候选实体词的词性标记组合;对词性标记组合进行统计,统计具有相同词性组合的候选实体词,利用统计结果筛选出正确命名的实体词性组合,形成实体词性组合列表。
CN201610912437.1A 2016-10-19 2016-10-19 一种面向特定文本的命名实体识别方法 Pending CN106547733A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610912437.1A CN106547733A (zh) 2016-10-19 2016-10-19 一种面向特定文本的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610912437.1A CN106547733A (zh) 2016-10-19 2016-10-19 一种面向特定文本的命名实体识别方法

Publications (1)

Publication Number Publication Date
CN106547733A true CN106547733A (zh) 2017-03-29

Family

ID=58369278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610912437.1A Pending CN106547733A (zh) 2016-10-19 2016-10-19 一种面向特定文本的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN106547733A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491373A (zh) * 2018-02-01 2018-09-04 北京百度网讯科技有限公司 一种实体识别方法及***
CN108664615A (zh) * 2017-05-12 2018-10-16 华中师范大学 一种面向学科教育资源的知识图谱构建方法
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109241269A (zh) * 2018-07-27 2019-01-18 深圳追科技有限公司 任务型机器人词槽填充方法
CN110210023A (zh) * 2019-05-23 2019-09-06 竹间智能科技(上海)有限公司 一种实用有效的命名实体识别的计算方法
CN110502738A (zh) * 2018-05-18 2019-11-26 阿里巴巴集团控股有限公司 中文命名实体识别方法、装置、设备和查询***
CN111091003A (zh) * 2019-12-05 2020-05-01 电子科技大学广东电子信息工程研究院 一种基于知识图谱查询的并行抽取方法
CN111178076A (zh) * 2019-12-19 2020-05-19 成都欧珀通信科技有限公司 命名实体识别与链接方法、装置、设备及可读存储介质
CN111353310A (zh) * 2020-02-28 2020-06-30 腾讯科技(深圳)有限公司 基于人工智能的命名实体识别方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682763A (zh) * 2011-03-10 2012-09-19 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
CN103164426A (zh) * 2011-12-13 2013-06-19 北大方正集团有限公司 一种命名实体识别的方法及装置
CN103631948A (zh) * 2013-12-11 2014-03-12 北京京东尚科信息技术有限公司 命名实体的识别方法
CN103838870A (zh) * 2014-03-21 2014-06-04 武汉科技大学 基于信息单元融合的新闻原子事件抽取方法
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682763A (zh) * 2011-03-10 2012-09-19 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
CN103164426A (zh) * 2011-12-13 2013-06-19 北大方正集团有限公司 一种命名实体识别的方法及装置
CN103631948A (zh) * 2013-12-11 2014-03-12 北京京东尚科信息技术有限公司 命名实体的识别方法
CN103838870A (zh) * 2014-03-21 2014-06-04 武汉科技大学 基于信息单元融合的新闻原子事件抽取方法
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
庄明 等: "一种统计和词性相结合的命名实体发现方法", 《计算机应用》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664615A (zh) * 2017-05-12 2018-10-16 华中师范大学 一种面向学科教育资源的知识图谱构建方法
CN108491373B (zh) * 2018-02-01 2022-05-27 北京百度网讯科技有限公司 一种实体识别方法及***
CN108491373A (zh) * 2018-02-01 2018-09-04 北京百度网讯科技有限公司 一种实体识别方法及***
CN110502738A (zh) * 2018-05-18 2019-11-26 阿里巴巴集团控股有限公司 中文命名实体识别方法、装置、设备和查询***
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109241269A (zh) * 2018-07-27 2019-01-18 深圳追科技有限公司 任务型机器人词槽填充方法
CN110210023A (zh) * 2019-05-23 2019-09-06 竹间智能科技(上海)有限公司 一种实用有效的命名实体识别的计算方法
CN111091003A (zh) * 2019-12-05 2020-05-01 电子科技大学广东电子信息工程研究院 一种基于知识图谱查询的并行抽取方法
CN111091003B (zh) * 2019-12-05 2023-10-10 电子科技大学广东电子信息工程研究院 一种基于知识图谱查询的并行抽取方法
CN111178076A (zh) * 2019-12-19 2020-05-19 成都欧珀通信科技有限公司 命名实体识别与链接方法、装置、设备及可读存储介质
CN111178076B (zh) * 2019-12-19 2023-08-08 成都欧珀通信科技有限公司 命名实体识别与链接方法、装置、设备及可读存储介质
CN111353310A (zh) * 2020-02-28 2020-06-30 腾讯科技(深圳)有限公司 基于人工智能的命名实体识别方法、装置及电子设备
WO2021169400A1 (zh) * 2020-02-28 2021-09-02 腾讯科技(深圳)有限公司 基于人工智能的命名实体识别方法、装置及电子设备
CN111353310B (zh) * 2020-02-28 2023-08-11 腾讯科技(深圳)有限公司 基于人工智能的命名实体识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN106547733A (zh) 一种面向特定文本的命名实体识别方法
CN110765257B (zh) 一种知识图谱驱动型的法律智能咨询***
CN110059311B (zh) 一种面向司法文本数据的关键词提取方法及***
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN107729468B (zh) 基于深度学习的答案抽取方法及***
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
CN107818164A (zh) 一种智能问答方法及其***
CN102262634B (zh) 一种自动问答方法及***
CN106557462A (zh) 命名实体识别方法和***
CN112214610A (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
Abujar et al. A heuristic approach of text summarization for Bengali documentation
CN107463607A (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN105095196B (zh) 文本中新词发现的方法和装置
CN108509409A (zh) 一种自动生成语义相近句子样本的方法
CN104794169A (zh) 一种基于序列标注模型的学科术语抽取方法及***
CN102246169A (zh) 为搜索词分配指标权重
CN109918649B (zh) 一种基于微博文本的***风险识别方法
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
CN107943786A (zh) 一种中文命名实体识别方法及***
CN110826322A (zh) 一种新词发现和词性预测及标注的方法
CN107092675A (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN104317882B (zh) 一种决策级中文分词融合方法
CN109740164A (zh) 基于深度语义匹配的电力缺陷等级识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Niu Haibo

Inventor after: Gao Hui

Inventor after: Luo Wei

Inventor after: Chen Jun

Inventor after: Tian Changhai

Inventor after: Tan Yushan

Inventor before: Niu Haibo

Inventor before: Gao Hui

Inventor before: Luo Wei

Inventor before: Chen Jun

Inventor before: Tian Changhai

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170329