CN109670181B - 一种命名实体识别方法及装置 - Google Patents

一种命名实体识别方法及装置 Download PDF

Info

Publication number
CN109670181B
CN109670181B CN201811572990.0A CN201811572990A CN109670181B CN 109670181 B CN109670181 B CN 109670181B CN 201811572990 A CN201811572990 A CN 201811572990A CN 109670181 B CN109670181 B CN 109670181B
Authority
CN
China
Prior art keywords
word
probability
role
matrix
ith
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811572990.0A
Other languages
English (en)
Other versions
CN109670181A (zh
Inventor
贾弼然
崔朝辉
赵立军
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201811572990.0A priority Critical patent/CN109670181B/zh
Publication of CN109670181A publication Critical patent/CN109670181A/zh
Application granted granted Critical
Publication of CN109670181B publication Critical patent/CN109670181B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种命名实体识别方法及装置,该命名实体识别方法,包括:获取待识别的词语集合;根据预先得到的概率模型,对词语集合中的词语进行角色标注;以角色标注的结果为依据,确定词语集合中的命名实体;其中,概率模型,包括:状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵;观测转移概率矩阵,包括:前一个词语转移至当前词语的概率。在对词语集合中的词语进行角色标注时,不仅考虑了词语和隐含角色之间的概率以及角色转移的相关联性,还考虑到了词语集合中词语之间的特征,增加了词语集合中上下文信息包括的词语与词语之间的联系,提高了角色标注的准确性,可以提高命名实体识别的准确性和性能。

Description

一种命名实体识别方法及装置
技术领域
本申请涉及文本识别技术领域,尤其涉及一种命名实体识别方法及装置。
背景技术
命名实体(named entity),一般值得是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等。命名实体的识别就是识别出词语集合(例如句子、段落和文章等)中特定词语(包括单字和词组)的过程。
目前,在进行命名实体的识别时,通常会采用隐马尔可夫模型(Hidden MarkovModel,HMM)。HMM是一种统计模型,包括五个基本元素:状态、观测值、状态转移概率矩阵、观测概率矩阵和初始概率矩阵。其中,状态指的是词语集合中每个词语的角色;观测值则指的是词语集合中的词语本身;状态转移矩阵包括某一个角色转移至另一个角色的概率;观测概率矩阵,也可以称为发射矩阵,包括某一个角色输出特定词语的概率;初始概率矩阵,包括词语集合以某一个角色开始的概率。以上五个基本元素均可以通过对训练语料统计得到。
从上述HMM的五个基本元素中可看出,利用HMM进行命名实体的识别时,重点关注观测值之间隐含的状态及状态之间的相关联性,并没有考虑到词语本身的特征,导致对命名实体的识别准确率不高。
发明内容
有鉴于此,本申请实施例提供了一种命名实体识别方法及装置,能够解决现有技术中识别准确率较低的问题。
本申请实施例第一方面提供的一种命名实体识别方法,包括:
获取待识别的词语集合;所述词语集合包括多个顺序排列的词语;
根据预先得到的概率模型,对所述词语集合中的词语进行角色标注;
以角色标注的结果为依据,确定所述词语集合中的命名实体;
其中,所述概率模型,包括:状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵;所述观测转移概率矩阵,包括:前一个词语转移至当前词语的概率。
可选的,所述观测转移概率矩阵,包括:第一观测转移概率、第二观测转移概率和第三观测转移概率中的任意一个或多个;
所述第一观测转移概率包括所述前一个词语本身转移至当前词语的概率;
所述第二观测转移概率包括所述前一个词语中任意一个字符转移至所述当前词语的概率;
所述第三观测转移概率包括所述前一个词语中任意一个子字符转移至所述当前词语的概率;所述字符包括至少一个所述子字符。
可选的,所述根据预先得到的概率模型,对所述词语集合中的词语进行角色标注,具体包括:
根据所述概率模型中的统计概率,利用维特比算法对所述词语集合中的词语进行角色标注,得到所述词语集合中词语的角色。
可选的,所述根据所述概率模型中的统计概率,利用维特比算法对所述词语集合中的词语进行角色标注,得到所述词语集合中词语的角色,具体包括:
根据所述初始概率矩阵和所述发射矩阵,确定所述词语集合的第1个词语对应每个角色的概率,得到多个第1概率;
根据所述状态转移概率矩阵、所述发射矩阵、所述观测转移概率矩阵和所述多个第1概率,计算所述词语集合中第i个词语对应每个角色的概率,得到多个第i概率,并记录每个所述第i概率对应的第i-1个词语的角色;1<i≤N,i为整数,N为所述词语集合中词语的数量;
获得与所述词语集合中第N个词语对应的多个第N概率中的最大值,将所述最大值对应的角色作为所述第N个词语的角色,并将所述最大值对应的第N-1个词语的角色作为第N-1个词语的角色;
根据所述第j个词语为所述第j个词语的角色时的第j概率得到第j目标概率,将所述第j目标概率对应的第j-1个词语的角色确定为所述第j-1个词语的角色;j=N-1、N-2、……、2。
可选的,所述根据所述状态转移概率矩阵、所述发射矩阵、所述观测转移概率矩阵和所述多个第1概率,计算所述词语集合中第i个词语对应每个角色的概率,得到多个第i概率,并记录每个所述第i概率对应的第i-1个词语的角色,具体包括:
根据所述状态转移概率矩阵、所述发射矩阵、所述观测转移概率矩阵和所述多个第1概率,计算所述第i-1个词语对应每个角色时,所述第i个词语对应目标角色的概率,得到多个第i参考概率;所述目标角色为所述每个角色中的任意一个;
将所述多个第i参考概率的最大值,确定为所述第i个词语对应所述目标角色时的第i概率,并记录所述第i参考概率的最大值对应的所述第i-1个词语的角色。
可选的,所述根据所述状态转移概率矩阵、所述发射矩阵、所述观测转移概率矩阵和所述多个第1概率,计算所述第i-1个词语对应每个角色时,所述第i个词语对应目标角色的概率,得到多个第i参考概率,具体包括:
计算所述第i-1个词语对应第h个角色的概率、所述第h个角色转移至所述目标角色的概率以及所述目标角色输出所述第i个词语的概率之间的乘积,得到第一值;1≤h≤M,h为整数,M为所述角色的数量;
基于所述观测转移概率矩阵中所述第i-1个词语转移至所述第i个词语的概率,得到第二值;
综合所述第一值和所述第二值,得到所述第i参考概率。
可选的,所述综合所述第一值和所述第二值,得到所述第i参考概率,具体包括:
计算所述第一值和所述第二值之和,得到所述第i参考概率。
本申请实施例第二方面提供的一种命名实体识别装置,包括:获取单元、标注单元和确定单元;
所述获取单元,用于获取待识别的词语集合;所述词语集合包括多个顺序排列的词语;
所述标注单元,用于根据预先得到的概率模型,对所述词语集合中的词语进行角色标注;
所述确定单元,用于以角色标注的结果为依据,确定所述词语集合中的命名实体;
其中,所述概率模型,包括:状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵;所述观测转移概率矩阵,包括:前一个词语转移至当前词语的概率。
本申请实施例第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时,实现如上述第一方面提供的命名实体识别方法中的任意一种。
本申请实施例第四方面提供了一种数据处理设备,包括:处理器以及存储器;
所述存储器,用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器,用于根据所述程序代码中的指令,执行如上述第一方面提供的命名实体识别方法中的任意一种。
与现有技术相比,本申请至少具有以下优点:
在本申请实施例中,首先获得待识别的词语集合,然后,根据预先得到的概率模型中的概率,对词语集合中的词语进行角色标注。该概率模型包括状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵,其中,观测转移概率矩阵包括前一个词语转移至当前词语的概率。最后,根据角色标注的结果确定词语集合中的命名实体。在对词语集合中的词语进行角色标注时,不仅考虑了词语和隐含角色之间的概率以及角色转移的相关联性,还考虑到了词语集合中词语之间的特征,增加了词语集合中上下文信息包括的词语与词语之间的联系,提高了角色标注的准确性,可以提高命名实体识别的准确性和性能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种命名实体识别方法的流程示意图;
图2为本申请实施例提供的另一种命名实体识别方法的流程示意图;
图3为本申请实施例提供的又一种命名实体识别方法的流程示意图;
图4为本申请实施例提供的一种命名实体识别装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
目前,在进行命名实体的识别时,通常会采用隐马尔可夫模型(Hidden MarkovModel,HMM)对词语集合中的词语进行角色标注。HMM是一种统计模型,可以通过对训练语料进行频率统计得到。
HMM包括以下五部分:
(1)状态集合,这里指的是词语隐含的角色所构成的集合,总数为U。可以理解的是,实际应用中,可以根据具体的识别需要对角色进行设定。以命名实体中人名识别为例,角色及其对应的意义可以如下表1所示:
表1人名识别角色
Figure BDA0001915987850000051
Figure BDA0001915987850000061
(2)观测值集合,这里指的是训练语料包括的词语本身所构成的集合,总数为M。
(3)状态转移概率矩阵A={ax,y},指的是前一个角色转移至当前角色的概率所构成的矩阵。在本申请实施例中,“转移”指的是前一个与当前之间的关联关系,则前一个角色转移至当前角色的概率可以是前一个角色后连接当前角色的概率,
ax,y=P(qt=ly|qt-1=lx)
其中,qt为词语集合中第t个词语位,qt-1为词语集合中第t-1个词语位,lx为状态集合中的第x个角色,ly为状态集合中的第y个角色,1≤x≤U,1≤y≤U,ax,y≥0,
Figure BDA0001915987850000062
需要说明的是,词语集合包括多个词语位,每个词语位对应词语集合中的一个词语。例如,词语集合“张三/迅速/潜入/水中/消失/了”中利用“/”对每个词语位进行了划分,第一个词语位对应“张三”,第二个词语位对应“迅速”,以此类推。
(4)概率分布矩阵B={by(k)},也称为发射矩阵,指的是某一个角色输出(或对应)特定词语的概率所构成的矩阵,
by(k)=P(Ot=dk|qt=ly)
其中,Ot为词语集合中的第t个词语,dk为观测值集合中的第k个词语,1≤k≤M,bj(k)≥0,
Figure BDA0001915987850000071
(5)初始状态矩阵概率π={πz},这里指的是词语集合的开始是哪一个角色的概率所构成的矩阵,
πz=P(x1=lz)
其中,πz≥0,1≤z≤U,
Figure BDA0001915987850000072
在具体实施时,上述HMM的五部分均可以通过训练语料与对训练语料进行粗切分得到的词语统计获得。
本申请的发明人在研究中发现,现有的利用HMM模型对词语集合中的词语进行角色标注时,仅仅关注角色和词语本身之间的关系(即利用发射矩阵)以及词语隐含的角色之间的转移关系(即利用状态转移概率矩阵),并没有考虑到词语和词语之间,即词语集合的上下文之间的关系,对特征表述的不准确,导致对命名实体的识别准确率不高。
为此,本申请实施例提供的一种命名实体识别方法及装置,在进行角色标注时,增加对词语集合中的上下文信息所包括的词语和词语之间联系的考量,以提高对词语特征的表达能力,进而提高了命名实体识别的准确性和性能。
基于上述思想,为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请的具体实施方式做详细的说明。
参见图1,该图为本申请实施例提供的一种命名实体识别方法的流程示意图。
本申请实施例提供的命名实体识别方法,包括:
S101:获取待识别的词语集合。
在本申请实施例中,词语集合可以是词组、句子、段落和文章等,包括多个顺序排列的词语。词语可以是单字和词组。可以理解的是,待识别的词语集合可以包括命名实体也可以不包括命名实体,这里不进行限定。
S102:根据预先得到的概率模型,对词语集合中的词语进行角色标注。
在本申请实施例中,概率模型,包括:状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵。其中,状态转移概率矩阵、发射矩阵、初始概率矩阵可以是隐马尔可夫模型(HMM),具体参照上面对HMM的相关说明即可,不再赘述。观测转移概率矩阵,包括:前一个词语转移至当前词语的概率,即词语集合中第i-1个词语位对应的词语转移至第i个词语位对应的词语的概率,例如包括词语集合“听人/说/张三/要去/爬/长城”,“听人”转移至“说”的概率。可以理解的是,观测转移概率矩阵也可以利用训练语料和对训练语料的分词结果统计得到,具体统计过程不再赘述。
对词语集合中的词语进行角色标注,即确定词语集合中词语的角色(如表1所示),标注的角色代表了词语与命名实体的关系,根据标注的角色即可确定出词语集合中的命名实体,实现对命名实体的识别。在实际应用中,可以根据该概率模型对词语集合中的每个词语进行角色标注,也可以根据该概率模型对词语集合中任意一个或多个词语进行角色标注,这里不进行限定。下面将详细说明具体如何对词语集合中的词语进行角色标注,先不赘述。
需要说明的是,在对词语集合中的词语进行角色标注时,利用状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵中包括的概率,不仅考虑了词语和角色之间的关系以及角色转移的相关联性,还考虑到了词语集合中词语之间的特征,增加了词语集合中上下文信息包括的词语与词语之间的联系,提高了角色标注的准确性,从而提高了命名实体识别的准确性。
在本申请实施例一些可能的实现方式中,为了更加准确的描述词语与词语之间的联系、提高角色标注的准确性,观测转移概率矩阵,具体可以包括:第一观测转移概率、第二观测转移概率和第三观测转移概率中的任意一个或多个,下面逐一说明。
第一观测转移概率,包括:前一个词语本身转移至当前词语的概率,即前一个词语整体连接当前词语的概率,代表了当前词语和前一个词语的关系。
例如,词语集合为“听人/说/张三/要去/爬/长城”,第一观测转移概率包括“听人”本身转移至“说”的概率(即前一个词语为“听人”、当前词语为“说”的概率)、“张三”整体转移至“要去”的概率(即前一个词语为“张三”、当前词语为“说”的概率)等。
在一个例子中,第一观测转移概率可以利用训练语料根据下式统计得到:
Figure BDA0001915987850000091
其中,wα为当前词语,wα-1为前一个词语,
Figure BDA0001915987850000092
为前一个词语wα-1和当前词语wα的组合,T(τ)表示τ在训练语料中出现的计数数量。
第二观测转移概率,包括:前一个词语中任意一个字符转移至当前词语的概率,即前一个词语中的字符连接当前词语的概率,代表了当前词语和前一个词语中字符的关系。
可以理解的是,字符指的是词语中的一个单字,例如词语集合为“听人/说/张三/要去/爬/长城”,“听人”中的“听”和“人”均为一个字符,第二观测转移概率包括“听”转移至“说”的概率(即前一个词语包括“听”、当前词语为“说”的概率)以及“人”转移至“说”的概率(即前一个词语包括“人”、当前词语为“说”的概率)。“张三”中的“张”和“三”均为一个字符,第二观测转移概率包括“张”转移至“要去”的概率(即前一个词语包括“张”、当前词语为“要去”的概率)和“三”转移至“要去”的概率(即前一个词语包括“三”、当前词语为“要去”的概率)。
在一个例子中,第二观测转移矩阵可以利用训练语料根据下式统计得到:
Figure BDA0001915987850000093
其中,cβ(wα-1)为前一个词语wα-1的第β个字符,
Figure BDA0001915987850000094
为前一个词语wα-1的第β个字符cβ(wα-1)与当前字符wα的组合。
需要说明的是,在本申请实施例中,在表达词语集合中词语之间的特征时,不仅考虑到前一个词语的整体与当前词语之间的关系(即第一观测转移概率),还包括了前一个词语的局部(即字符)与当前词语之间的关系(即第二观测转移概率),例如不仅包括了“听人”本身转移至“说”的概率,还包括了“人”转移至“说”的概率,增加当前词语和前一个词语中字符之间的关系,深入挖掘当前词语与前一个词语的语义特征之间的关系,能够进一步提高角色标注的准确性。
第三观测转移概率,包括:前一个词语中任意一个子字符转移至当前词语的概率,即前一个词语中的子字符连接当前词语的概率,代表了当前词语和前一个词语中子字符的关系。
在本申请实施例中,字符包括至少一个子字符,子字符具体可以是字的偏旁、部首及其本身等,可以根据实际需要对子字符的切分规则进行设定,下表2举例示出了一个词语集合中词语、字符、子字符的对应关系。
表2词语集合、词语、字符、子字符对应关系表
Figure BDA0001915987850000101
以表2所示为例,第三观测转移概率可以包括“口”转移至“说”的概率(即前一个词语的子字符包括“口”、当前词语为“说”的概率)、“斤”转移至“说”的概率(即前一个词语的子字符包括“斤”、当前词语为“说”的概率)、“人”转移至“说”的概率(即前一个词语的子字符包括“人”、当前词语为“说”的概率)、“弓”转移至“要去”的概率(即前一个词语的子字符包括“弓”、当前词语为“要去”的概率)、“长”转移至“要去”的概率(即前一个词语的子字符包括“长”、当前词语为“要去”的概率)等。
在一个例子中,第三观测转移矩阵可以利用训练语料根据下式统计得到:
Figure BDA0001915987850000102
其中,sγ(wα-1)为前一个词语wα-1中第γ个子字符,
Figure BDA0001915987850000103
为前一个词语wα-1中第γ个子字符sγ(wα-1)与当前词语wα的组合。
需要说明的是,与英文字母不同的是,中文中词是由字(即字符)构成、字符由子字符(即偏旁、部首等)组成,这些字符和子字符含有语义特征,例如“鲤”的偏旁是“鱼”,而部首是“里”,偏旁很大程度代表了字的分属种类,而部首很大的表示了字的特性。因此,在本申请实施例中,在表达词语集合中词语之间的特征时,不仅考虑到前一个词语的整体与当前词语之间的关系(即第一观测转移概率)和前一个词语的局部(即字符)与当前词语之间的关系(即第二观测转移概率),还可以包括前一个词语字符的内部特征(即子字符)与当前词语之间的关系(即第三观测转移概率),例如不仅包括了“听人”本身转移至“说”的概率和“人”转移至“说”的概率,还包括了“口”转移至“说”的概率,增加当前词语和前一个词语中子字符之间的关系,深入挖掘当前词语与前一个词语的分类属性和特性之间的关系,能够进一步提高角色标注的准确性。
S103:以角色标注的结果为依据,确定词语集合中的命名实体。
可以理解的是,角色标注的结果确定出了词语集合中词语与命名实体的关系,如词语的角色为姓、词语的角色为单名等,根据标注出的角色即可确定出词语集合中的命名实体,实现对命名实体的识别。
在本申请实施例中,首先获得待识别的词语集合,然后,根据预先得到的概率模型中的概率,对词语集合中的词语进行角色标注。该概率模型包括状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵,其中,观测转移概率矩阵包括前一个词语转移至当前词语的概率。最后,根据角色标注的结果确定词语集合中的命名实体。在对词语集合中的词语进行角色标注时,不仅考虑了词语和隐含角色之间的概率以及角色转移的相关联性,还考虑到了词语集合中词语之间的特征,增加了词语集合中上下文信息包括的词语与词语之间的联系,提高了角色标注的准确性,可以提高命名实体识别的准确性和性能。
下面通过一个具体的例子对本申请实施例中对词语进行角色标注的方法进行详细介绍。
参见图2,该图为本申请实施例提供的另一种命名实体识别方法的流程示意图。
在本申请实施例一些可能的实现方式中,步骤S102具体可以包括:
S1021:根据概率模型中的统计概率,利用维特比(Viterbi)算法对词语集合中的词语进行角色标注,得到词语集合中词语的角色。
维特比算法是一种动态规划算法,用于寻找最有可能产生观测事件序列(即词语集合)的维特比路径-隐含状态(即角色)序列。对于一个文本中观察到的文本序列(即词语集合),给出词语的角色和词语之间的相关数据矩阵(即概率模型),根据维特比方法可以得出最优状态序列(即角色标注的结果)。
在一个可能的设计中,如图3所示,步骤S1021具体可以包括:
S301:根据初始概率矩阵和发射矩阵,确定词语集合的第1个词语对应每个角色的概率,得到多个第1概率。
可以理解的是,初始概率矩阵包括词语集合的开始是哪一个角色的概率,第1概率代表待识别的词语集合中第一词语为每个角色的概率,可以利用下式(1)计算得到:
δ1(x)=πxbx(O1)   (1)
其中,δ1(x)为待识别的词语集合中第1个词语为第x个角色的概率(即第1概率),1≤x≤V,πx为待识别的词语集合以第x个角色开始的概率,O1为待识别的词语集合中第1个词语,bx(O1)为第x个角色输出待识别的词语集合中第1个词语的概率。
可以理解的是,得到的第1概率与状态集合中的每个角色对应,存在多少个角色则得到多少个第1概率。为了便于说明下面以状态集合包括三个角色:A、B和C为例进行举例说明,则可以得到:
Figure BDA0001915987850000121
S302:根据状态转移概率矩阵、发射矩阵、观测转移概率矩阵和多个第1概率,计算词语集合中第i个词语对应每个角色的概率,得到多个第i概率,并记录每个第i概率对应的第i-1个词语的角色。
其中,1<i≤N,i为整数,N为待识别的词语集合中词语的数量。与第1概率类似,得到的第i概率也和状态集合中的每个角色对应,存在多少个角色则得到多少个第i概率。
在本申请实施例中,第i个词语的角色与第i-1个词语的角色以及第i个词语本身相关,因此,根据第i-1个词语对应各个角色的概率(可以根据第1概率得到)、角色之间的转移概率(即状态转移概率矩阵包括的概率)、角色输出词语的概率(即发射矩阵包括的概率)以及词语和词语之间的转移概率(即观测转移概率矩阵包括的概率),即可计算得到词语集合中第i个词语对应每个角色的概率,以及第i个词语为该角色时第i-1个词语的角色。可以理解的是,根据第1概率逐一推导即可以得到第i-1个词语对应每个角色的概率。
第i概率以及每个第i概率对应的第i-1个词语的角色可以根据如下步骤得到:
在本申请实施例一些可能的实现方式中,步骤S302具体可以包括:
S3021:根据状态转移概率矩阵、发射矩阵、观测转移概率矩阵和多个第1概率,计算第i-1个词语对应每个角色时,第i个词语对应目标角色的概率,得到多个第i参考概率。
在本申请实施例中,目标角色为状态集合包括的每个角色中的任意一个。在实际应用中,可以分别计算第i个词语隐含的角色与第i-1个词语隐含角色之间的关系,以及第i个词语本身和第i-1个词语本身之间的关系,综合二者(如求和、乘积、平均值等)后得到第i参考概率,本申请实施例中第i参考概率的获得方式不进行限定。
则,在一些可能的实现方式中,步骤S3021具体可以包括:
S30211:计算第i-1个词语对应第h个角色的概率、第h个角色转移至目标角色的概率以及目标角色输出第i个词语的概率之间的乘积,得到第一值。
在本申请实施例中,1≤h≤M,h为整数,M为状态集合中角色的数量。为了便于说明,下面以i=2为例对第i个词语对应目标角色时的多个第i参考概率的获得方法进行说明,i为其他值时的实现方式与此类似,这里不再赘述。
以i=2、状态集合包括三个角色:A、B和C为例,第一值ε1为:
Figure BDA0001915987850000131
其中,l目标为目标角色,aA,目标、aB,目标和aC,目标分别为角色A、B和C转移至目标角色的概率,
Figure BDA0001915987850000132
为目标角色输出第2个词语的概率。
S30212:基于观测转移概率矩阵中第i-1个词语转移至第i个词语的概率,得到第二值。
在实际应用中,可以根据观测转移概率矩阵中包括的概率,计算第i个词语与第i-1个词语中每个部分(包括整体、字符和子字符中的任意一种或多种)的关系,综合得到第二值。
继续以i=2为例,当观测转移概率矩阵包括第一观测转移概率、第二观测转移概率和第三观测转移概率时,第二值ε2为:
Figure BDA0001915987850000141
其中,ce(O1)为第1个词语中的第e个字符,E为第1个词语中字符的总数,sf(O1)为第1个词语中的第f个子字符,F为第1个词语中子字符的总数。
S30213:综合第一值和第二值,得到第i参考概率。
可以理解的是,在实际应用中,利用任意一种计算规则,综合第一值和第二值,例如求和、乘积、平均值等,得到第i参考概率,这里不再一一列举。作为一个示例,步骤S30212具体可以包括:
计算第一值和第二值之和,得到第i参考概率。
继续以i=2为例,根据上式(2)和(3),可以得到与角色对应的多个第2参考概率p2
Figure BDA0001915987850000142
在实际应用中,还可以为第一值和第二值设定不同的权重之后,求和得到第2参考概率p2,具体权重值可以根据实际情况设定,本申请实施例对此不进行限定。则,与角色对应的多个第2参考概率p2可以为:
Figure BDA0001915987850000143
其中,μ和σ分别为第一值和第二值的权重。
S3022:将多个第i参考概率的最大值,确定为第i个词语对应目标角色时的第i概率,并记录第i参考概率的最大值对应的第i-1个词语的角色。
可以理解的是,第i参考概率代表了当第i-1个词语为每个角色时,第i个词语对应目标角色的概率,第i参考概率越大,则说明当第i-1个词语为某一个角色时,第i个词语对应目标角色的可能性越高,第i个词语越可能为目标角色。将第i参考概率的最大值确定为第i个词语对应目标角色时的第i概率,表示第i个词语对应目标角色的最大概率,第i参考概率的最大值对应的第i-1个词语的角色,即为当第i个词语对应目标角色时,第i-1个词语最可能的角色(即最优角色)。
继续以上面给出的例子进行说明,假设p2(l目标|B)最大,则可以得到目标角色对应的第2概率δ2(目标):
δ2(目标)=p2(l目标|B)   (6)
第2概率δ2(目标)对应的第i个词语的角色,即第i个词语为该角色时第i-1个词语的最优角色,为第2参考概率的最大值对应的第i-1个词语的角色B。
可以理解的是,根据上述步骤S302,可以得到词语集合中除第一个词语之外的每个词语对应每个角色的概率,以及该词语对应每个角色时前一个词语的角色。
S303:获得与词语集合中第N个词语对应的多个第N概率中的最大值,将最大值对应的角色作为第N个词语的角色,并将最大值对应的第N-1个词语的角色作为第N-1个词语的角色。
对待识别的词语集合中的最后一个词语,即第N个词语来说,第N概率越大,该最大的第N概率对应的角色为第N个词语的最优角色的可能性越大,第N概率中的最大值对应的角色即为第N个词语的最优角色。
继续以状态集合包括三个角色:A、B和C为例,第N个词语对应的第N概率分别为δN(A)、δN(B)和δN(C)。假设,δN(A)对应的第N-1个词语的角色为C、δN(B)对应的第N-1个词语的角色为B、δN(C)对应的第N-1个词语的角色为B。其中,δN(C)最大,则可以确定第N个词语的角色为C,第N-1个词语的角色为δN(C)对应的第N-1个词语的角色,即B,实现对第N个词语和第N-1个词语的角色标注。
S304:根据第j个词语为第j个词语的角色时的第j概率得到第j目标概率,将第j目标概率对应的第j-1个词语的角色确定为第j-1个词语的角色。
在本申请实施例中,j=N-1、N-2、……、2。以j=N-1为例,在步骤S303中确定出第N个词语的最优角色(如上面例子中的角色C)以及第N-1个词语的最优角色(如上面例子中的角色B)。由于在步骤S302中已知第N-1个词语对应每个角色的概率,即多个第N-1概率δN-1,以及每个第N-1概率对应的第N-2个词语的角色,即第N-1个词语最可能为某个角色时第N-2个词语的最优角色。根据步骤S303中确定出的第N-1个词语的最优角色,可以确定出第N-1个词语最可能为该最优角色时第N-2个词语的角色(即第j目标概率对应的第j-1个词语的角色),作为第N-2个词语的最优角色。依此类推,从待识别的词语集合中第N-1个词语的角色开始逐一向第1个词语的角色回溯,即可确定出待识别的词语集合中每个词语的角色,得到角色标注的结果,实现对词语集合中词语的角色标注。
继续以步骤S303中给出的例子进行说明,第N-1个词语对应的第N-1概率分别为δN-1(A)、δN-1(B)和δN-1(C)。假设,δN-1(A)对应的第N-2个词语的角色为A、δN-1(B)对应的第N-2个词语的角色为A、δN-1(C)对应的第N-2个词语的角色为B。其中,第N-1个词语的角色为B,则可以确定第N-2个词语的角色为δN-1(B)对应的第N-2个词语的角色,即A,实现对第N-2个词语的角色标注。依此类推,可以确定出待识别的词语集合中每个词语的角色。假设N=3,可以得到角色标注的结果为ABC。根据表1可知,A、B和C分别代表姓、双名首字和双名后字,根据该角色标注的结果即可识别出待识别的词语集合中的人名(即命名实体),实现对命名实体的识别。
基于上述实施例提供的命名实体识别方法,本申请实施例还提供了一种命名实体识别装置。
参见图4,该图为本申请实施例提供的一种命名实体识别装置的结构示意图。
本申请实施例提供的命名实体识别装置,包括:获取单元100、标注单元200和确定单元300;
获取单元100,用于获取待识别的词语集合;词语集合包括多个顺序排列的词语;
标注单元200,用于根据预先得到的概率模型,对词语集合中的词语进行角色标注;
确定单元300,用于以角色标注的结果为依据,确定词语集合中的命名实体;
其中,概率模型,包括:状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵;观测转移概率矩阵,包括:前一个词语转移至当前词语的概率。
在本申请实施例一些可能的实现方式中,观测转移概率矩阵,可以包括:第一观测转移概率、第二观测转移概率和第三观测转移概率中的任意一个或多个;
第一观测转移概率包括前一个词语本身转移至当前词语的概率;
第二观测转移概率包括前一个词语中任意一个字符转移至当前词语的概率;
第三观测转移概率包括前一个词语中任意一个子字符转移至当前词语的概率;字符包括至少一个子字符。
在本申请实施例一些可能的实现方式中,标注单元200,具体可以用于:
根据概率模型中的统计概率,利用维特比算法对词语集合中的词语进行角色标注,得到词语集合中词语的角色。
可选的,标注单元200,具体可以包括:第一获得子单元、第二获得子单元、记录子单元、第一确定子单元和第二确定子单元;
第一获得子单元,用于根据初始概率矩阵和发射矩阵,确定词语集合的第1个词语对应每个角色的概率,得到多个第1概率;
第二获得子单元,用于根据状态转移概率矩阵、发射矩阵、观测转移概率矩阵和多个第1概率,计算词语集合中第i个词语对应每个角色的概率,得到多个第i概率;1<i≤N,i为整数,N为词语集合中词语的数量;
记录子单元,用于记录每个第i概率对应的第i-1个词语的角色;
第一确定子单元,用于获得与词语集合中第N个词语对应的多个第N概率中的最大值,将最大值对应的角色作为第N个词语的角色,并将最大值对应的第N-1个词语的角色作为第N-1个词语的角色;
第二确定子单元,用于根据第j个词语为第j个词语的角色时的第j概率得到第j目标概率,将第j目标概率对应的第j-1个词语的角色确定为第j-1个词语的角色;j=N-1、N-2、……、2。
在本申请实施例一些可能的实现方式中,第二获得子单元,具体可以包括:第一计算子单元和第二计算子单元;
第一计算子单元,用于根据状态转移概率矩阵、发射矩阵、观测转移概率矩阵和多个第1概率,计算第i-1个词语对应每个角色时,第i个词语对应目标角色的概率,得到多个第i参考概率;目标角色为每个角色中的任意一个;
第二计算子单元,用于将多个第i参考概率的最大值,确定为第i个词语对应目标角色时的第i概率,并记录第i参考概率的最大值对应的第i-1个词语的角色。
可选的,第一计算子单元,具体可以包括:第一子单元、第二子单元和第三子单元;
第一子单元,用于计算第i-1个词语对应第h个角色的概率、第h个角色转移至目标角色的概率以及目标角色输出第i个词语的概率之间的乘积,得到第一值;1≤h≤M,h为整数,M为角色的数量;
第二子单元,用于基于观测转移概率矩阵中第i-1个词语转移至第i个词语的概率,得到第二值;
第三子单元,用于综合第一值和第二值,得到第i参考概率。
可选的,第三子单元,具体可以用于:
计算第一值和第二值之和,得到第i参考概率。
在本申请实施例中,首先获得待识别的词语集合,然后,根据预先得到的概率模型中的概率,对词语集合中的词语进行角色标注。该概率模型包括状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵,其中,观测转移概率矩阵包括前一个词语转移至当前词语的概率。最后,根据角色标注的结果确定词语集合中的命名实体。在对词语集合中的词语进行角色标注时,不仅考虑了词语和隐含角色之间的概率以及角色转移的相关联性,还考虑到了词语集合中词语之间的特征,增加了词语集合中上下文信息包括的词语与词语之间的联系,提高了角色标注的准确性,可以提高命名实体识别的准确性和性能。
基于上述实施例提供的命名实体识别方法及装置,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时,实现如上述实施例提供的命名实体识别方法中的任意一种。
基于上述实施例提供的命名实体识别方法及装置,本申请实施例还提供了一种数据处理设备,包括处理器以及存储器;其中,
存储器,用于存储程序代码,并将程序代码传输给处理器;
处理器,用于根据程序代码中的指令,执行如上述实施例提供的命名实体识别方法中的任意一种。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***或装置而言,由于其与实施例公开的方法相对应,所以描述比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请。任何熟悉本领域的技术人员,在不脱离本申请技术方案范围情况下,都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本申请技术方案的内容,依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本申请技术方案保护的范围内。

Claims (9)

1.一种命名实体识别方法,其特征在于,所述方法,包括:
获取待识别的词语集合;所述词语集合包括多个顺序排列的词语;
根据预先得到的概率模型,对所述词语集合中的词语进行角色标注;
以角色标注的结果为依据,确定所述词语集合中的命名实体;
其中,所述概率模型,包括:状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵;所述观测转移概率矩阵,包括:前一个词语转移至当前词语的概率;
所述观测转移概率矩阵,包括:第一观测转移概率、第二观测转移概率和第三观测转移概率中的任意一个或多个;
所述第一观测转移概率包括所述前一个词语本身转移至当前词语的概率;
所述第二观测转移概率包括所述前一个词语中任意一个字符转移至所述当前词语的概率;
所述第三观测转移概率包括所述前一个词语中任意一个子字符转移至所述当前词语的概率;所述字符包括至少一个所述子字符。
2.根据权利要求1所述的方法,其特征在于,所述根据预先得到的概率模型,对所述词语集合中的词语进行角色标注,具体包括:
根据所述概率模型中的统计概率,利用维特比算法对所述词语集合中的词语进行角色标注,得到所述词语集合中词语的角色。
3.根据权利要求2所述的方法,其特征在于,所述根据所述概率模型中的统计概率,利用维特比算法对所述词语集合中的词语进行角色标注,得到所述词语集合中词语的角色,具体包括:
根据所述初始概率矩阵和所述发射矩阵,确定所述词语集合的第1个词语对应每个角色的概率,得到多个第1概率;
根据所述状态转移概率矩阵、所述发射矩阵、所述观测转移概率矩阵和所述多个第1概率,计算所述词语集合中第i个词语对应每个角色的概率,得到多个第i概率,并记录每个所述第i概率对应的第i-1个词语的角色;,i为整数,N为所述词语集合中词语的数量;
获得与所述词语集合中第N个词语对应的多个第N概率中的最大值,将所述最大值对应的角色作为所述第N个词语的角色,并将所述最大值对应的第N-1个词语的角色作为第N-1个词语的角色;
根据第j个词语为所述第j个词语的角色时的第j概率得到第j目标概率,将所述第j目标概率对应的第j-1个词语的角色确定为所述第j-1个词语的角色;j=N-1、N-2、……、2。
4.根据权利要求3所述的方法,其特征在于,所述根据所述状态转移概率矩阵、所述发射矩阵、所述观测转移概率矩阵和所述多个第1概率,计算所述词语集合中第i个词语对应每个角色的概率,得到多个第i概率,并记录每个所述第i概率对应的第i-1个词语的角色,具体包括:
根据所述状态转移概率矩阵、所述发射矩阵、所述观测转移概率矩阵和所述多个第1概率,计算所述第i-1个词语对应每个角色时,所述第i个词语对应目标角色的概率,得到多个第i参考概率;所述目标角色为所述每个角色中的任意一个;
将所述多个第i参考概率的最大值,确定为所述第i个词语对应所述目标角色时的第i概率,并记录所述第i参考概率的最大值对应的所述第i-1个词语的角色。
5.根据权利要求4所述的方法,其特征在于,所述根据所述状态转移概率矩阵、所述发射矩阵、所述观测转移概率矩阵和所述多个第1概率,计算所述第i-1个词语对应每个角色时,所述第i个词语对应目标角色的概率,得到多个第i参考概率,具体包括:
计算所述第i-1个词语对应第h个角色的概率、所述第h个角色转移至所述目标角色的概率以及所述目标角色输出所述第i个词语的概率之间的乘积,得到第一值;,h为整数,M为所述角色的数量;
基于所述观测转移概率矩阵中所述第i-1个词语转移至所述第i个词语的概率,得到第二值;
综合所述第一值和所述第二值,得到所述第i参考概率。
6.根据权利要求5所述的方法,其特征在于,所述综合所述第一值和所述第二值,得到所述第i参考概率,具体包括:
计算所述第一值和所述第二值之和,得到所述第i参考概率。
7.一种命名实体识别装置,其特征在于,所述装置包括:获取单元、标注单元和确定单元;
所述获取单元,用于获取待识别的词语集合;所述词语集合包括多个顺序排列的词语;
所述标注单元,用于根据预先得到的概率模型,对所述词语集合中的词语进行角色标注;
所述确定单元,用于以角色标注的结果为依据,确定所述词语集合中的命名实体;
其中,所述概率模型,包括:状态转移概率矩阵、发射矩阵、初始概率矩阵和观测转移概率矩阵;所述观测转移概率矩阵,包括:前一个词语转移至当前词语的概率;
所述观测转移概率矩阵,包括:第一观测转移概率、第二观测转移概率和第三观测转移概率中的任意一个或多个;
所述第一观测转移概率包括所述前一个词语本身转移至当前词语的概率;
所述第二观测转移概率包括所述前一个词语中任意一个字符转移至所述当前词语的概率;
所述第三观测转移概率包括所述前一个词语中任意一个子字符转移至所述当前词语的概率;所述字符包括至少一个所述子字符。
8.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当该计算机程序被处理器执行时,实现如权利要求1-6任意一项所述的命名实体识别方法。
9.一种数据处理设备,其特征在于,所述设备,包括:处理器以及存储器;
所述存储器,用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器,用于根据所述程序代码中的指令,执行如权利要求1-6任意一项所述的命名实体识别方法。
CN201811572990.0A 2018-12-21 2018-12-21 一种命名实体识别方法及装置 Active CN109670181B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811572990.0A CN109670181B (zh) 2018-12-21 2018-12-21 一种命名实体识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811572990.0A CN109670181B (zh) 2018-12-21 2018-12-21 一种命名实体识别方法及装置

Publications (2)

Publication Number Publication Date
CN109670181A CN109670181A (zh) 2019-04-23
CN109670181B true CN109670181B (zh) 2023-04-25

Family

ID=66147054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811572990.0A Active CN109670181B (zh) 2018-12-21 2018-12-21 一种命名实体识别方法及装置

Country Status (1)

Country Link
CN (1) CN109670181B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295292B (zh) * 2007-04-23 2016-07-20 北大方正集团有限公司 一种基于最大熵模型建模和命名实体识别的方法及装置
CN102033879B (zh) * 2009-09-27 2015-02-18 深圳市世纪光速信息技术有限公司 一种中文人名识别的方法和装置
CN107391485A (zh) * 2017-07-18 2017-11-24 中译语通科技(北京)有限公司 基于最大熵和神经网络模型的韩语命名实体识别方法

Also Published As

Publication number Publication date
CN109670181A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
US10504010B2 (en) Systems and methods for fast novel visual concept learning from sentence descriptions of images
CN107358948B (zh) 基于注意力模型的语言输入关联性检测方法
US8275607B2 (en) Semi-supervised part-of-speech tagging
CN109887484B (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
WO2021114840A1 (zh) 基于语义分析的评分方法、装置、终端设备及存储介质
CN110263325B (zh) 中文分词***
CN109829162B (zh) 一种文本分词方法及装置
CN110008469A (zh) 一种多层次命名实体识别方法
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN111461301B (zh) 序列化数据处理方法和装置、文本处理方法和装置
CN112434131B (zh) 基于人工智能的文本错误检测方法、装置、计算机设备
CN113128203A (zh) 基于注意力机制的关系抽取方法、***、设备及存储介质
WO2021027125A1 (zh) 序列标注方法、装置、计算机设备和存储介质
CN112016303B (zh) 基于图神经网络的文本纠错方法、装置、设备及存储介质
CN110502742B (zh) 一种复杂实体抽取方法、装置、介质及***
CN114416943A (zh) 对话模型的训练方法、装置、电子设备及存储介质
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、***及存储介质
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN110275953B (zh) 人格分类方法及装置
CN109670181B (zh) 一种命名实体识别方法及装置
CN112347783A (zh) 无触发词的警情笔录数据事件类型识别方法
CN117275464A (zh) 业务处理方法、装置、计算机设备和存储介质
CN110287487B (zh) 主谓语识别方法、装置、设备及计算机可读存储介质
CN111507103A (zh) 一种利用部分标注集的自训练神经网络分词模型
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant