CN107330011B - 多策略融合的命名实体的识别方法及装置 - Google Patents

多策略融合的命名实体的识别方法及装置 Download PDF

Info

Publication number
CN107330011B
CN107330011B CN201710447439.2A CN201710447439A CN107330011B CN 107330011 B CN107330011 B CN 107330011B CN 201710447439 A CN201710447439 A CN 201710447439A CN 107330011 B CN107330011 B CN 107330011B
Authority
CN
China
Prior art keywords
recognition result
corpus
name entity
model
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710447439.2A
Other languages
English (en)
Other versions
CN107330011A (zh
Inventor
赵红红
王萌萌
晋耀红
蒋宏飞
杨凯程
董铭慆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingfu Intelligent Technology Co., Ltd
Original Assignee
China Science And Technology (beijing) Co Ltd
Beijing Shenzhou Taiyue Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Science And Technology (beijing) Co Ltd, Beijing Shenzhou Taiyue Software Co Ltd filed Critical China Science And Technology (beijing) Co Ltd
Priority to CN201710447439.2A priority Critical patent/CN107330011B/zh
Publication of CN107330011A publication Critical patent/CN107330011A/zh
Application granted granted Critical
Publication of CN107330011B publication Critical patent/CN107330011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本申请公开了一种多策略融合的命名实体的识别方法及装置,利用第一识别模型识别获取的语料中的命名实体,得到第一识别结果,在本申请提供的方法中,所述第一识别模型能够更新和扩充语料库,从而能够识别出语料中新产生的命名实体,进而所述第一识别结果具有更高的准确率,再利用多识别模型融合的方法识别所述语料中的命名实体,得到第二识别结果,融合所述第一识别结果和第二识别结果得到第三识别结果,再利用语义挖掘***对第三识别结果进行角色分配,并输出具有角色的命名实体,从而实现了在数据海量化、实体类型多样化、新词层出不穷等情况下可靠地识别出命名实体,并对识别出的命名实体进行角色分配。

Description

多策略融合的命名实体的识别方法及装置
技术领域
本申请涉及自然语言处理领域,尤其涉及一种多策略融合的命名实体的识别方法及装置。
背景技术
命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体,它是文本中基本的信息元素,是信息表达的重要载体,是正确理解和处理文本信息的基础。中文命名实体识别是自然语言处理领域中的基本任务之一,其主要任务是识别出文本中出现的名字实体和有意义的数量短语并加以归类,主要包括人名、地名、组织机构名、时间表达式、日期、数字表达式等。
在自然语言处理研究方面,命名实体识别在信息检索、信息抽取、机器翻译和文本分类等应用领域有重要作用,它能够显著地提高信息检索、摘要提取、信息提取、机器翻译和文本分类等应用***的性能,为从文本中自动获取知识奠定了基础。命名实体识别准确率和召回率的高低,直接决定着语法分析、语义分析等语言理解全过程的性能。
近十几年来,国内外学者对文本中的实体识别技术已有广泛探讨和深入研究。但随着互联网的飞速发展,大量无规则、多领域的文本数据不断增长,对命名实体识别的准确率和召回率均提出了新的要求,此外,市场还需求对所识别到的命名实体进行角色分配,因此,无论是迎合市场需求,还是提高识别的准确率和召回率,命名实体的识别方法都有待进一步改进。
目前常用的命名实体识别方法分为两大类:一是基于规则和知识的方法,二是基于统计的方法。基于规则和知识的方法是一种最早使用的方法,这种方法简单、便利,缺点是需要大量的人工观察,可移植性较差。基于统计的方法将命名实体识别看作一个分类问题,采用类似支持向量机,贝叶斯模型等分类方法;同时也可以将命名实体识别看作一个序列标注问题,采用隐马尔可夫链、最大熵马尔可夫链、条件随机场等机器学习得到序列标注模型。但是上述方法或者存在难以满足对目前大量无规则、多领域、日新月异文本进行命名实体识别的问题,或者识别的准确率和召回率低。
如,中国专利CN201610943210.3公开了一种基于人工智能的命名实体识别方法及装置,这种方法通过利用条件随机场模型和根据预设时间段内的检索日志生成的功能模型,同时对待识别文本进行命名实体识别。该方案的缺陷在于其第二识别中预设的实体词汇功能模型是首先通过词典、规则匹配等方法得到待识别文本中所有的候选命名实体词汇,进而判断其作为命名实体词汇的置信度的高低,由于规则的方法往往依赖于具体语言、领域和文本格式,编制过程耗时且容易产生错误,并且需要富有经验的语言学家才能完成,而词典的覆盖率也较低,因此该方法难以满足对目前大量无规则、多领域、日新月异文本进行命名实体识别。
再如中国专利CN201510889318.4公开了一种适用于社交网络的命名实体识别方法,该方法在利用初始构建的第一序列标注模型得到训练文档的第一实体概率分布和测试文档的第二实体概率分布后,从社交网络信息中提取相似度特征,之后再基于相似度特征训练得到第二序列标注模型,进而在基于第二序列标注模型对测试文档进行序列标注得到命名实体的识别结果,最终该方法的准确率和召回率低,其识别的F值仅为33.19%。
因此,亟需开发一种能够应对数据规模海量化、实体类型多样化、新词层出不穷等新情况,具有较高召回率和准确率,而且还能够对识别得到的命名实体进行角色分配的命名实体识别方法以及命名实体识别装置。
发明内容
本申请提供了一种多策略融合的命名实体的识别方法以及装置,以解决在数据规模海量化、实体类型多样化、新词层出不穷的情况下,对命名实体识别的准确率和召回率低,以及不能够对命名实体进行角色分配的问题。
第一方面,本申请提供了一种多策略融合的命名实体的识别方法,所述识别方法包括:
获取语料;
利用第一识别模型识别所述语料中的命名实体,得到第一识别结果;
利用第二识别模型识别所述语料中的命名实体,得到第二识别结果;
融合所述第一识别结果与所述第二识别结果,得到第三识别结果。
可选地,所述第一识别模型为条件随机场模型。
可选地,在所述利用第一识别模型识别语料中的命名实体,得到第一识别结果的步骤之前,还包括:
建立语料库;
对所述语料库中的语料进行词性标注和序列标注;
将标注后的语料作为训练数据,使用CRF工具包进行训练从而得到所述第一识别模型。
可选地,
所述利用第二识别模型识别所述语料中的命名实体,得到第二识别结果的步骤包括:
利用至少两种识别模型识别所述语料,每种识别模型分别得到一个子识别结果,生成子识别结果列表;
判断所述子识别结果列表中的识别结果是否满足输出条件,若满足则输出第二识别结果;
所述输出条件为在所述子识别结果列表中,相同命名实体的个数达到预设值,其中,所述预设值为所述至少两种识别模型的众数。
可选地,所述利用第一识别模型识别所述语料中的命名实体,得到第一识别结果的步骤包括:
利用至少两种识别模型识别所述语料,每种识别模型分别得到一个子识别结果,生成子识别结果列表;
判断所述子识别结果列表中的识别结果是否满足输出条件,若满足则输出第一识别结果;
所述输出条件为在所述子识别结果列表中,相同命名实体的个数达到预设值,其中,所述预设值为所述至少两种识别模型的众数。
所述第二识别模型为条件随机场模型;
在所述利用第二识别模型识别语料,得到第二识别结果的步骤之前,还包括:
建立语料库;
对所述语料库中的语料进行词性标注和序列标注;
将标注后的语料作为训练数据,使用CRF工具包进行训练从而得到所述第二识别模型。
所述融合所述第一识别结果与所述第二识别结果,得到第三识别结果的步骤包括:
判断所述第一识别结果与所述第二识别结果是否满足融合条件,若满足则融合,并输出融合后的结果,即,第三识别结果;
可选地,所述融合条件为所述第一识别结果与所述第二识别结果存在相同的命名实体。
可选地,在得到第三识别结果后还包括:利用语义挖掘***对所述第三识别结果进行角色分配,生成具有角色的命名实体。
可选地,所述角色分配为利用语义挖掘***,对所述第三识别结果中命名实体分别进行角色标记,并分别输出具有角色的命名实体。
可选地,所述语义挖掘***包括正则表达式和文本。
第二方面,本申请还提供一种多策略融合的命名实体识别装置,所述命名实体识别装置包括,
语料获取单元,用于获取语料;
第一识别单元,用于利用第一识别模型识别所述语料中的命名实体,得到第一识别结果;
第二识别单元,用于利用第二识别模型识别所述语料中的命名实体,得到第二识别结果;
识别结果融合单元,用于融合所述第一识别结果与所述第二识别结果,得到第三识别结果。可选地,所述第一识别模型为条件随机场模型。
可选地,所述第一识别单元还包括模型训练单元,所述模型训练单元用于:
建立语料库;
对所述语料库中的语料进行词性标注和序列标注;
将标注后的语料作为训练数据,使用CRF工具包进行训练从而得到所述第一识别模型。
可选地,所述第二识别单元包括以下子单元:
多策略识别单元,用于利用至少两种识别模型识别所述语料中的命名实体,每种识别模型分别得到一个子识别结果,生成子识别结果列表;
识别结果输出单元,用于判断所述子识别结果列表中的识别结果是否满足输出条件,若满足则输出第二识别结果。
可选地,所述输出条件为在所述子识别结果列表中,相同命名实体的个数达到预设值,其中,所述预设值为所述至少两种识别模型的众数。
可选地,所述第一识别单元包括以下子单元:
多策略识别单元,用于利用至少两种识别模型识别所述语料中的命名实体,每种识别模型分别得到一个子识别结果,生成子识别结果列表;
识别结果输出单元,用于判断所述子识别结果列表中的识别结果是否满足输出条件,若满足则输出第一识别结果;
所述输出条件为在所述子识别结果列表中,相同命名实体的个数达到预设值,其中,所述预设值为所述至少两种识别模型的众数。
可选地,所述第二识别模型为条件随机场模型;
在所述第二识别单元还包括模型训练单元,所述模型训练单元用于:
建立语料库;
对所述语料库中的语料进行词性标注和序列标注;
将标注后的语料作为训练数据,使用CRF工具包进行训练从而得到所述第二识别模型。
可选地,所述识别结果融合单元,用于判断所述第一识别结果与所述第二识别结果是否满足融合条件,若满足则融合,并输出融合后的结果,即,第三识别结果。
可选地,所述融合是指在第一识别结果的基础上增加第二识别结果中新增的命名实体;
可选地,所述融合条件为第二识别结果中存在在第一识别结果基础上新增的命名实体。
可选地,还包括角色分配单元,用于利用语义挖掘***对所述第三识别结果进行角色分配,生成具有角色的命名实体。
可选地,所述角色分配单元用于利用语义挖掘***,对所述第三识别结果中命名实体分别进行角色标记,并分别输出具有角色的命名实体。
可选地,所述语义挖掘***包括正则表达式和文本。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出本申请实施例提供的一种多策略融合的命名实体识别方法的方法流程图;
图2示出本申请实施例提供的条件随机场模型的的方法流程图;
图3示出本申请实施例提供的命名实体识别装置的结构示意图;
图4示出本申请实施例提供的计算机***400的结构示意图;
图5示出实验例1的准确率、召回率和F值结果折线图;
图6示出实验例2的准确率、召回率和F值结果折线图。
具体实施方式
下面通过对本申请进行详细说明,本申请的特点和优点将随着这些说明而变得更为清楚、明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
以下详述本申请。
根据本申请的第一方面,提供一种多策略融合的命名实体的识别方法,利用第一识别模型识别获取的语料中的命名实体,得到第一识别结果,在本申请提供的方法中,所述第一识别模型能够更新和扩充语料库,从而能够识别出语料中新产生的命名实体,进而所述第一识别结果具有更高的准确率,再利用多识别模型融合的方法识别所述语料中的命名实体,得到第二识别结果,融合所述第一识别结果和第二识别结果得到第三识别结果,从而实现了在数据海量化、实体类型多样化、新词层出不穷等情况下可靠地识别出命名实体,任选地,再利用语义挖掘***对第三识别结果进行角色分配,并输出具有角色的命名实体,从而对识别出的命名实体进行角色分配。
具体地,如图1所示,所述命名实体识别方法包括:
S101获取语料;
S102利用第一识别模型识别所述语料中的命名实体,得到第一识别结果;
S103利用第二识别模型识别所述语料中的命名实体,得到第二识别结果;
S104融合所述第一识别结果与所述第二识别结果,得到第三识别结果;
任选地,还包括S105利用语义挖掘***对所述第三识别结果进行角色分配,生成具有角色的命名实体。
在本申请中,所述语料是指用作训练或者识别的文本。
在本申请一种优选的实施方式中,所述第一识别模型为条件随机场模型,即,CRF模型(Conditional Random Fields,条件随机场模型),其在统计时统计了全局概率,在做归一化时考虑了数据在全局的分布,而不是仅仅在局部归一化,从而避免了标记偏置的问题。
在本申请中,如图2所示,当第一识别模型选择CRF模型时,在利用第一识别模型识别所述语料,得到第一识别结果之前还包括:
S301建立语料库;
S302对所述语料库中的语料进行词性标注和序列标注;
S303将标注后的语料作为训练数据,使用CRF工具包进行训练从而得到所述第一识别模型。
在本申请中,所述语料库是指识别命名实体的语料的集合,如,用于公安***的人名识别方法中,语料库存就是笔录集合;用于医疗***命名实体识别方法中的语料库存就是病例集合;无特定领域的语料库也可以使用爬虫从网上获取的语料的集合。
在本申请中,所述建立语料库包括语料导入,导入上述语料库中的语料。
在本申请中,首先将所述语料库中的语料处理成能够被CRF识别的格式,即,对语料进行词性标注和序列标注,得到获取的训练文本串和测试文本串,其中,标注后的训练文本串作为训练数据,标注后的测试文本串作为测试数据。
在本申请中,在对CRF模型训练时,根据特征模板获取训练数据的特定特征,再根据特定特征、词性标注以及序列标注结果进行训练,得到CRF模型,所述特定特征包括上下文特征、词性特征等。
在本申请中,对CRF模型训练完毕后使用测试数据对训练结果进行测试,当识别结果的F值在0.8以下时,重新获取训练数据和测试数据,继续训练,训练完毕后使用新获取的测试数据进行测试,当识别结果的F值小于0.8时,重复上述步骤,直至训练结果的F值达到0.8以上,停止训练,从而得到第一识别模型。
在本实施方式中,所述第一识别模型识别得到的命名实体标记有第一位置信息。
在本实施方式中,所述利用第二识别模型识别所述语料中的命名实体,得到第二识别结果的步骤包括:
利用至少两种识别模型识别所述语料,每种识别模型分别得到一个子识别结果,生成子识别结果列表;
判断所述子识别结果列表中的识别结果是否满足输出条件,若满足则输出第二识别结果;
所述输出条件为在所述子识别结果列表中,相同命名实体的个数达到预设值,其中,所述预设值为所述至少两种识别模型的众数。
在本申请中,所述至少两种识别模型包括分词模型和命名实体识别模型。
在本申请中,所述分词模型包括nGram分词模型(一阶马尔科夫链)、HMM分词模型(隐马尔科夫模型)、带有新词发现功能的分词模型。
在本申请中,所述命名实体模型包括基于最大熵的命名实体识别模型、基于结构化感知器的命名实体识别模型。
在本申请中,所述nGram分词模型首先通过统计得到nGram的统计信息,然后根据所述统计信息对需要识别命名实体的语料进行分词,该方法会照顾所有可能,但是也会使索引项增加,如2-gram分词会将"走进搜索引擎"分成:走进、进搜、搜索、索引、引擎。
在本申请中,所述HMM分词模型通过标注好的分词训练集,得到HMM的各个参数,然后使用维特比算法来解释需要识别命名实体的语料,得到分词结果,该模型基于输出独立性假设,不考虑上下文特征。
在本申请中,所述带有新词发现功能的分词模型通过规则或统计的识别模型发现语料中的命名实体,但是较依赖于训练语料。
在本申请中,所述基于最大熵的命名实体识别模型能够获得所有满足约束条件的模型中信息熵极大的模型,而且可以通过设置约束条件调节模型对未知数据的适应度和对已知数据的拟合程度,再次,它还能够自然地解决统计模型中参数平滑的问题。但是该模型计算代价及时空开销较大,数据稀疏问题比较严重。
在本申请中,所述基于结构化感知器的命名实体识别模型中特征抽取考虑了全局的结构化输出,从而模型可以进行全局的结构化学习。
在本实施方式中,所述至少两种识别模型识别出的命名实体分别标记有第二位置信息。
在本申请中,所述输出条件为在所述子识别结果列表中,相同命名实体的个数达到预设值,其中,以第二位置信息是否相同判断各种识别模型识别出的命名实体是否相同,所述预设值为所述至少两种识别模型的众数。
因此,融合上述模型所得到的识别结果,能够弥补各模型自身固有的不足,使得识别结果最优。
在本申请中,所述为通过实验结果的F值确定的,如本申请实验例1所示,当采用精准分词算法(结合了语言模型、序列标注和隐马尔科夫模型)、带有新词发现功能的分词算法以及结构化感知器的命名实体识别算法时,众数取3,结果最优。
本申请人发现,利用输出条件判断是否输出所述子识别结果列表中识别结果,能够最大程度地删除误识别结果,如错误识别等,从而提高了最终识别结果的召回率。
本申请人发现,利用至少两种识别模型识别所述语料,能够更精确的识别出命名实体,从而将多个弱识别模型结合为一个强识别模型,对基本结果进行补充,进而提高识别结果。
在本申请另一种优选的实施方式中,所述利用第一识别模型识别所述语料中的命名实体,得到第一识别结果的步骤还可以是:
利用至少两种识别模型识别所述语料,每种识别模型分别得到一个子识别结果,生成子识别结果列表;
判断所述子识别结果列表中的识别结果是否满足输出条件,若满足则输出第一识别结果;
在本实施方式中,所述至少两种识别模型识别出的命名实体分别标记有第一位置信息。
所述输出条件为在所述子识别结果列表中,相同命名实体的个数达到预设值,其中,以第一位置信息是否相同判断各种识别模型识别出的命名实体是否相同,所述预设值为所述至少两种识别模型的众数。
在本实施方式中,所述第二识别模型为条件随机场模型,优选为条件随机场模型。
在本实施方式中,所述第二识别结果上标记有第二位置信息。
在本申请中,所述融合所述第一识别结果与所述第二识别结果,得到第三识别结果的步骤包括:
判断所述第一识别结果与所述第二识别结果是否满足融合条件,若满足则融合,并输出融合后的结果,即,第三识别结果。
本申请人发现,将第一识别结果与第二识别结果融合即为去除第一识别结果与第二识别结果中重复的命名实体,从而避免了数据的冗余,进而提高了识别的准确率和召回率。
在本申请中,所述融合是指在第一识别结果的基础上增加第二识别结果中新增的命名实体。
在本申请中,所述融合条件为第二识别结果中存在在第一识别结果基础上新增的命名实体。
在本申请一种优选的实施方式中,判断第二位置信息和第一位置信息是否相同,若不同,则判断该命名实体为第二识别结果中新增的命名实体。
可选地,所述语义挖掘***,对所述第三识别结果中命名实体分别进行角色标记,并分别输出具有角色的命名实体。
在本申请中,所述语义挖掘***不仅能够进行角色分配,还能够对命名实体识别结果进行判断,确定其是否为命名实体。
所述语义挖掘***包括正则表达式和文本。
为更充分地理解本申请所述的多策略融合的命名实体的识别方法,下面列举一个具体实施例进行说明。
建立语料库。
对语料库中的语料,即语料中的每一分句进行词性标注和序列标注,其中序列标注时将命名实体对应的字用B、M、E进行标注,其余字用S标注,获得的训练文本串。假设一个训练文本串为“经民警查看发现挎包内有许三观身份证”,标注结果如表1所示。
表1文本串标记示例
将大量训练文本串对应的标注结果作为训练数据,使用CRF进行训练。
假设当前接收到的用户输入语料为“事主倪辰刚报警称在清河橡树湾发现手机不见了”。利用前面步骤得到的CRF模型对该用户输入语料进行命名实体识别,可以得到命名实体“倪辰刚”。
之后使用多种方法集成学习的方法对CRF结果进行补充修正,如精准分词结果将上例中的命名实体识别为“倪辰”,结构化感知器识别结果为“倪辰刚”,带新词发现功能的识别结果为“倪辰刚”,对几种方法的识别结果取众数,可以确定命名实体识别结果为“倪辰刚”,而非“倪辰”。
通过语义挖掘***中存在的正则表达式或文本,如“事主报警”,一方面可以确定“倪辰刚”为正确的命名实体识别结果,另一方面可以将的角色确定为“事主”。
根据本申请的第二方面,如图3所示,还提供了一种多策略融合的命名实体识别装置,所述多策略融合的命名实体识别装置包括,
语料获取单元201,用于获取语料;
第一识别单元202,用于利用第一识别模型识别所述语料中的命名实体,得到第一识别结果;
第二识别单元203,用于利用第二识别模型识别所述语料中的命名实体,得到第二识别结果;
识别结果融合单元204,用于融合所述第一识别结果与所述第二识别结果,得到第三识别结果;
任选地,还包括角色分配单元205,用于利用语义挖掘***对所述第三识别结果进行角色分配,生成具有角色的命名实体。
在本申请一种可选的实施方式中,所述第一识别模型为条件随机场模型。
可选地,所述第一识别单元还包括模型训练单元,所述模型训练单元用于:
建立语料库;
对所述语料库中的语料进行词性标注和序列标注;
将标注后的语料作为训练数据,使用CRF工具包进行训练从而得到所述第一识别模型。
可选地,所述第二识别单元包括以下子单元:
多策略识别单元,用于利用至少两种识别模型识别所述语料中的命名实体,每种识别模型分别得到一个子识别结果,生成子识别结果列表;
识别结果输出单元,用于判断所述子识别结果列表中的识别结果是否满足输出条件,若满足则输出第二识别结果;
可选地,所述输出条件为在所述子识别结果列表中,相同命名实体的个数达到预设值,其中,所述预设值为所述至少两种识别模型的众数。
在本申请另一种可选的实施方式中,所述第一识别单元包括以下子单元:
多策略识别单元,用于利用至少两种识别模型识别所述语料中的命名实体,每种识别模型分别得到一个子识别结果,生成子识别结果列表;
识别结果输出单元,用于判断所述子识别结果列表中的识别结果是否满足输出条件,若满足则输出第一识别结果;
所述输出条件为在所述子识别结果列表中,相同命名实体的个数达到预设值,其中,所述预设值为所述至少两种识别模型的众数。
可选地,所述第二识别模型为条件随机场模型;
在所述第二识别单元还包括模型训练单元,所述模型训练单元用于:
建立语料库;
对所述语料库中的语料进行词性标注和序列标注;
将标注后的语料作为训练数据,使用CRF工具包进行训练从而得到所述第二识别模型。
可选地,所述识别结果融合单元,用于判断所述第一识别结果与所述第二识别结果是否满足融合条件,若满足则融合,并输出融合后的结果,即,第三识别结果。
可选地,所述融合条件为第二识别结果与第一识别结果存在相同的命名实体。
可选地,所述角色分配单元用于利用语义挖掘***,对所述第三识别结果中命名实体分别进行角色标记,并分别输出具有角色的命名实体。
可选地,所述语义挖掘***包括正则表达式和文本。
图4示出了可以在其上实施实施例的计算机***400的方框图。计算机***400包括处理器410、存储介质420、***存储器430、监视器440、键盘450、鼠标460、网络接口420和视频适配器480。这些部件通过***总线490耦合在一起。
存储介质420(例如硬盘)存储多个程序,包括操作***、应用程序和其他程序模块。用户可以通过输入设备向计算机***400中输入命令和信息,输入设备例如是键盘450、触摸板(未示出)和鼠标460。使用监视器440来显示文本和图形信息。
操作***运行于处理器410上并且用于协调和提供图6中的个人计算机***400内的各种部件的控制。此外,可以在计算机***400上使用计算机程序以实施上述各种实施例。
要认识到,图4中所示的硬件部件仅仅出于例示的目的,而实际部件可能根据为实施本申请而部署的计算设备而变化。
此外,计算机***400例如可以是台式计算机、服务器计算机、膝上型计算机或无线设备,例如移动电话、个人数字助理(PDA)、手持式计算机等。
所述实施例提供了一种在给定文档文集的情况下提取命名实体的有效方法。实施例解决了从一般组织的网页以最低成本提取任何类型实体的问题。所提出的加权命名实体图能够对每个命名实体和其他实体的类型之间的复杂关系进行编码,因此在图上传播种子置信度能够弥补网络规模冗余性的缺乏,并能够支持有效的组织规模提取。此外,可以将命名实体图上的置信度传播变换成高效的矩阵计算,其能够支持大规模文集上的高效提取。
要认识到,可以将本申请范围内的实施例实现为计算机程序产品的形式,计算机程序产品包括计算机可执行指令,例如程序代码,其可以运行于结合适当操作***的任何适当计算环境上,操作***例如是Microsoft Windows、Linux或UNIX操作***。本申请范围内的实施例还可以包括程序产品,程序产品包括计算机可读介质用于承载或存储计算机可执行指令或数据结构于其上。这样的计算机可读介质可以是任何能够通过通用或专用计算机访问的可用介质。例如,这样的计算机可读介质可以包括RAM、ROM、EPROM、EEPROM、CD-ROM、磁盘存储器或其他存储装置,或能够用于以计算机可执行指令形式承载或存储期望的程序代码并可以由通用或专用计算机访问的任何其他介质。
实验例
实验例1第二识别时众数取值对F值的影响
本实验例中第二识别时所用的在第二识别步骤中,预设值不同,最终的命名实体识别结果差别显著,本实验例考察了预设值对命名实体识别结果的影响。
所述预设值为所述至少两种识别模型的众数;
所述命名实体识别结果通过F值衡量,F值越高识别结果越可靠,其中,
准确率(P)=命名实体识别正确的个数/机器识别的命名实体个数,
召回率(R)=命名实体识别正确的个数/测试语料中的命名实体个数。
F值=2*P*R/(P+R)。
本实验例中第二识别时所用的识别模型包括精准分词算法、带有新词发现功能的分词算法、结构化感知器的命名实体识别算法,其中,
精准分词是一种结合语言模型、序列标注和隐马尔科夫模型的分词算法,优选地,首先使用N-gram和隐马尔科夫模型进行粗切分,然后再使用CRF进行细切分;
带有新词发现功能的分词算法通过规则或统计的识别模型发现文本中的新词;
结构化感知器用于解决序列标注的问题。
本实验例的结果如图5和表1所示,
表1预设值对命名实体识别结果的影响
在图5中,折线A为各预设值对应的召回率折线;折线B示出各预设值对应的F值折线;折线C为各预设值对应的准确率折线。
由图5和表1可知,在本实验例中,当众数取值为3时,F值达到最大。
实验例2各识别模型单独使用时命名实体识别结果
本实验例测试单独使用一种识别模型对命名实体识别的结果,用以对比单识别模型与多识别模型融合两种命名实体识别方法的可靠性。
在本实验例中所用识别模型分别为初步识别中所使用的CRF识别模型、第二识别中使用的精准分词算法、带有新词发现功能的分词算法、结构化感知器的命名实体识别算法,结果如图6和表2所示。
表2单识别模型命名实体识别方法的可靠性
在图6中,折线A为各识别方法对应的召回率折线;折线B示出各识别方法对应的F值折线;折线C为各识别方法对应的准确率折线。
由图6和表2可知,与多识别模型融合的命名实体识别方法(即多策略融合的命名实体识别方法)(实验例1,众数为3的结果)相比,单识别模型的命名实体识别方法的F值较低,即,用本申请提供的多识别模型融合的命名实体识别方法得到的命名实体识别结果更为可靠和稳定。
实验例3本申请方法各识别模型的命名实体识别结果
本实验例利用本申请提供的方法,分别计算第一识别结果、第二识别结果和第三识别结果的准确率、召回率和F值,结果如下表3所示。
表3本申请方法各识别模型的命名实体识别结果
由表3可知,根据本申请提供的方法,在第一识别结果和第二识别结果的基础上得到的第三识别结果,其准确率、召回率以及F值均有较大幅度的提高,即,本申请提供的方法能够应对数据规模海量化、实体类型多样化、新词层出不穷等新情况,具有较高召回率和准确率。
根据本申请提供的多策略融合的命名实体识别方法和识别装置,具有以下有益效果:
(1)本申请提供的方案能够通过初步识别步骤对新数据或新领域进行命名实体识别,从而适应数据规模海量化、实体类型多样化、新词层出不穷等情况下对命名实体识别的需求;
(2)第二识别步骤通过多识别模型命名实体识别方法的融合,将多个弱识别模型结合为一个强识别模型,对第一识别结果进行补充,从而提高识别结果准确率和召回率;
(3)利用语义挖掘***对第二识别得到的命名实体进行角色标记,从而得到角色分配后的命名实体;
(4)本申请提供的方法能够方便地迁移至新数据以及新领域中使用;
(5)本申请提供的方法具有较高的准确率和召回率,其F值可达0.8以上。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims (4)

1.一种多策略融合的命名实体的识别方法,其特征在于,包括:
获取语料;
利用第一识别模型识别所述语料中的命名实体,得到第一识别结果;
利用第二识别模型识别所述语料中的命名实体,得到第二识别结果;
融合所述第一识别结果与所述第二识别结果,得到第三识别结果;
所述利用第二识别模型识别所述语料中的命名实体,得到第二识别结果的步骤包括:
利用至少两种识别模型识别所述语料中的命名实体,每种识别模型分别得到一个子识别结果,生成子识别结果列表;
判断所述子识别结果列表中的识别结果是否满足输出条件,若满足则输出第二识别结果;
所述输出条件为在所述子识别结果列表中,相同命名实体的个数达到预设值,其中,所述预设值为所述至少两种识别模型的众数;
所述至少两种识别模型包括分词模型和命名实体识别模型,其中,所述分词模型包括nGram分词模型、HMM分词模型、带有新词发现功能的分词模型,所述命名实体模型包括基于最大熵的命名实体识别模型、基于结构化感知器的命名实体识别模型;
所述融合所述第一识别结果与所述第二识别结果,得到第三识别结果的步骤包括:
判断所述第一识别结果与所述第二识别结果是否满足融合条件,若满足则融合,并输出融合后的结果,即,第三识别结果;
所述融合是指在第一识别结果的基础上增加第二识别结果中新增的命名实体;
所述融合条件为第二识别结果中存在在第一识别结果基础上新增的命名实体;
在得到第三识别结果后还包括:
利用语义挖掘***对所述第三识别结果进行角色分配,生成具有角色的命名实体,其中,
所述角色分配为利用语义挖掘***,对所述第三识别结果中命名实体分别进行角色标记,并分别输出具有角色的命名实体;
所述语义挖掘***包括正则表达式和文本。
2.根据权利要求1所述的识别方法,其特征在于,
所述第一识别模型为条件随机场模型;
在所述利用第一识别模型识别语料中的命名实体,得到第一识别结果的步骤之前,还包括:
建立语料库;
对所述语料库中的语料进行词性标注和序列标注;
将标注后的语料作为训练数据,使用CRF工具包进行训练,得到所述第一识别模型。
3.一种多策略融合的命名实体识别装置,其特征在于,所述命名实体识别装置包括,
语料获取单元,用于获取语料;
第一识别单元,用于利用第一识别模型识别所述语料中的命名实体,得到第一识别结果;
第二识别单元,用于利用第二识别模型识别所述语料中的命名实体,得到第二识别结果;
识别结果融合单元,用于融合所述第一识别结果与所述第二识别结果,得到第三识别结果;
所述第二识别单元包括以下子单元:
多策略识别单元,用于利用至少两种识别模型识别所述语料中的命名实体,每种识别模型分别得到一个子识别结果,生成子识别结果列表;
识别结果输出单元,用于判断所述子识别结果列表中的识别结果是否满足输出条件,若满足则输出第二识别结果;
所述输出条件为在所述子识别结果列表中,相同命名实体的个数达到预设值,其中,所述预设值为所述至少两种识别模型的众数;
所述至少两种识别模型包括分词模型和命名实体识别模型,其中,所述分词模型包括nGram分词模型、HMM分词模型、带有新词发现功能的分词模型,所述命名实体模型包括基于最大熵的命名实体识别模型、基于结构化感知器的命名实体识别模型;
所述识别结果融合单元,用于判断所述第一识别结果与所述第二识别结果是否满足融合条件,若满足则融合,并输出融合后的结果,即,第三识别结果;
所述融合是指在第一识别结果的基础上增加第二识别结果中新增的命名实体;
所述融合条件为第二识别结果中存在在第一识别结果基础上新增的命名实体;
所述命名实体识别装置还包括角色分配单元,用于利用语义挖掘***对所述第三识别结果进行角色分配,生成具有角色的命名实体,其中,
所述角色分配单元用于利用语义挖掘***,对所述第三识别结果中命名实体分别进行角色标记,并分别输出具有角色的命名实体;
所述语义挖掘***包括正则表达式和文本。
4.根据权利要求3所述的识别装置,其特征在于,
所述第一识别模型为条件随机场模型;
在所述第一识别单元还包括模型训练单元,所述模型训练单元用于:
建立语料库;
对所述语料库中的语料进行词性标注和序列标注;
将标注后的语料作为训练数据,使用CRF工具包进行训练从而得到所述第一识别模型。
CN201710447439.2A 2017-06-14 2017-06-14 多策略融合的命名实体的识别方法及装置 Active CN107330011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710447439.2A CN107330011B (zh) 2017-06-14 2017-06-14 多策略融合的命名实体的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710447439.2A CN107330011B (zh) 2017-06-14 2017-06-14 多策略融合的命名实体的识别方法及装置

Publications (2)

Publication Number Publication Date
CN107330011A CN107330011A (zh) 2017-11-07
CN107330011B true CN107330011B (zh) 2019-03-26

Family

ID=60195026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710447439.2A Active CN107330011B (zh) 2017-06-14 2017-06-14 多策略融合的命名实体的识别方法及装置

Country Status (1)

Country Link
CN (1) CN107330011B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108350B (zh) * 2017-11-29 2021-09-14 北京小米移动软件有限公司 名词识别方法及装置
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN108388638B (zh) * 2018-02-26 2020-09-18 出门问问信息科技有限公司 语义解析方法、装置、设备及存储介质
CN108363701B (zh) * 2018-04-13 2022-06-28 达而观信息科技(上海)有限公司 命名实体识别方法及***
CN108829681B (zh) * 2018-06-28 2022-11-11 鼎富智能科技有限公司 一种命名实体提取方法及装置
CN109086274B (zh) * 2018-08-23 2020-06-26 电子科技大学 基于约束模型的英文社交媒体短文本时间表达式识别方法
CN111178073B (zh) * 2018-10-23 2024-06-04 北京嘀嘀无限科技发展有限公司 文本处理方法、装置、电子设备及存储介质
CN109543153B (zh) * 2018-11-13 2023-08-18 成都数联铭品科技有限公司 一种序列标注***及方法
CN111368541B (zh) * 2018-12-06 2024-06-11 北京搜狗科技发展有限公司 命名实体识别方法及装置
CN109791570B (zh) * 2018-12-13 2023-05-02 香港应用科技研究院有限公司 高效且精确的命名实体识别方法和装置
CN111382570B (zh) * 2018-12-28 2024-05-03 深圳市优必选科技有限公司 文本实体识别方法、装置、计算机设备及存储介质
CN109815296B (zh) * 2018-12-29 2020-12-22 北京中科闻歌科技股份有限公司 公证文档的人物知识库构建方法、装置及存储介质
CN111488737B (zh) * 2019-01-09 2023-04-14 阿里巴巴集团控股有限公司 文本识别方法、装置及设备
CN109886270B (zh) * 2019-01-17 2022-03-01 大连理工大学 一种面向电子卷宗笔录文本的案件要素识别方法
CN110134949B (zh) * 2019-04-26 2022-10-28 网宿科技股份有限公司 一种基于教师监督的文本标注方法和设备
CN110110327B (zh) * 2019-04-26 2021-06-22 网宿科技股份有限公司 一种基于对抗学习的文本标注方法和设备
CN110489727B (zh) * 2019-07-12 2023-07-07 深圳追一科技有限公司 人名识别方法及相关装置
CN110688467A (zh) * 2019-08-23 2020-01-14 北京百度网讯科技有限公司 命名实体识别方法、装置、计算机设备及存储介质
CN110569332B (zh) * 2019-09-09 2023-01-06 腾讯科技(深圳)有限公司 一种语句特征的提取处理方法及装置
CN110750991B (zh) * 2019-09-18 2022-04-15 平安科技(深圳)有限公司 实体识别方法、装置、设备及计算机可读存储介质
CN111178075A (zh) * 2019-12-19 2020-05-19 厦门快商通科技股份有限公司 一种在线客服日志分析方法和装置以及设备
CN111125438B (zh) * 2019-12-25 2023-06-27 北京百度网讯科技有限公司 实体信息提取方法、装置、电子设备及存储介质
CN113051918B (zh) * 2019-12-26 2024-05-14 北京中科闻歌科技股份有限公司 基于集成学习的命名实体识别方法、装置、设备和介质
CN111400429B (zh) * 2020-03-09 2023-06-30 北京奇艺世纪科技有限公司 文本条目搜索方法、装置、***及存储介质
CN111797629B (zh) * 2020-06-23 2022-07-29 平安医疗健康管理股份有限公司 医疗文本数据的处理方法、装置、计算机设备和存储介质
CN112270173B (zh) * 2020-10-27 2021-10-26 北京百度网讯科技有限公司 文本中的人物挖掘方法、装置、电子设备及存储介质
CN112541065A (zh) * 2020-12-11 2021-03-23 浙江汉德瑞智能科技有限公司 基于表示学习的医学新词发现处理方法
CN113127645B (zh) * 2021-04-09 2022-09-13 厦门渊亭信息科技有限公司 大规模知识图谱本体自动抽取方法、终端设备及存储介质
CN113127060A (zh) * 2021-04-09 2021-07-16 中通服软件科技有限公司 一种基于自然语言预训练模型(bert)的软件功能点识别方法
CN113971216B (zh) * 2021-10-22 2023-02-03 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储器

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110035210A1 (en) * 2009-08-10 2011-02-10 Benjamin Rosenfeld Conditional random fields (crf)-based relation extraction system
CN102033879B (zh) * 2009-09-27 2015-02-18 深圳市世纪光速信息技术有限公司 一种中文人名识别的方法和装置
CN103309926A (zh) * 2013-03-12 2013-09-18 中国科学院声学研究所 基于条件随机场的中英文混合命名实体识别方法及***
CN104572631B (zh) * 2014-12-03 2018-04-13 北京捷通华声语音技术有限公司 一种语言模型的训练方法及***
CN104933152B (zh) * 2015-06-24 2018-09-14 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN106326206B (zh) * 2015-06-24 2021-01-26 北京京东尚科信息技术有限公司 一种基于文法模板的实体抽取方法
CN106202255A (zh) * 2016-06-30 2016-12-07 昆明理工大学 融合实体特性的越南语命名实体识别方法
CN106570132B (zh) * 2016-10-27 2020-01-14 浙江大学 一种融合提及实体信息的文档向量学习方法
CN106503192B (zh) * 2016-10-31 2019-10-15 北京百度网讯科技有限公司 基于人工智能的命名实体识别方法及装置
CN106649272B (zh) * 2016-12-23 2019-06-25 东北大学 一种基于混合模型的命名实体识别方法

Also Published As

Publication number Publication date
CN107330011A (zh) 2017-11-07

Similar Documents

Publication Publication Date Title
CN107330011B (zh) 多策略融合的命名实体的识别方法及装置
CN110097085B (zh) 歌词文本生成方法、训练方法、装置、服务器及存储介质
CN104050160B (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
CN112329467B (zh) 地址识别方法、装置、电子设备以及存储介质
CN104598535B (zh) 一种基于最大熵的事件抽取方法
CN109960800A (zh) 基于主动学习的弱监督文本分类方法及装置
CN107943847A (zh) 企业关系提取方法、装置及存储介质
CN110489750A (zh) 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN105653590A (zh) 一种中文文献作者重名消歧的方法
CN106777957B (zh) 不平衡数据集上生物医学多参事件抽取的新方法
CN108647225A (zh) 一种电商黑灰产舆情自动挖掘方法和***
CN101539907A (zh) 词性标注模型训练装置、词性标注***及其方法
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN107391575A (zh) 一种基于词向量模型的隐式特征识别方法
CN109271640B (zh) 文本信息的地域属性识别方法及装置、电子设备
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和***
CN110287482A (zh) 半自动化分词语料标注训练装置
CN110188359B (zh) 一种文本实体抽取方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN115357719A (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN111160041A (zh) 语义理解方法、装置、电子设备和存储介质
CN104809105A (zh) 基于最大熵的事件论元及论元角色的识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhao Honghong

Inventor after: Wang Mengmeng

Inventor after: Jin Yaohong

Inventor after: Jiang Hongfei

Inventor after: Yang Kaicheng

Inventor after: Dong Mingtao

Inventor before: Zhao Honghong

Inventor before: Wang Mengmeng

Inventor before: Jin Yaohong

Inventor before: Jiang Hongfei

Inventor before: Yang Kaicheng

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190904

Address after: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Patentee after: China Science and Technology (Beijing) Co., Ltd.

Address before: Room 601, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Co-patentee before: China Science and Technology (Beijing) Co., Ltd.

Patentee before: Beijing Shenzhou Taiyue Software Co., Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province

Patentee after: Dingfu Intelligent Technology Co., Ltd

Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Patentee before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.