CN105550227A

CN105550227A - 一种命名实体识别方法及装置

Info

Publication number: CN105550227A
Application number: CN201510889318.4A
Authority: CN
Inventors: 张晨; 谢隆飞; 尹泓钦; 王全礼
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2015-12-07
Filing date: 2015-12-07
Publication date: 2016-05-04
Anticipated expiration: 2035-12-07
Also published as: CN105550227B

Abstract

本发明提供一种命名实体识别方法及装置，在利用初始构建的第一序列标注模型得到训练文档的第一实体概率分布和测试文档的第二实体概率分布后，可以从社交网络信息中提取特征，如训练文档的第一上下文相似度和训练文档的第一对象相似度，测试文档的第二上下文相似度和测试文档的第二对象相似度，这样在基于训练文档的第一上下文相似度和训练文档的第一对象相似度训练得到的第二序列标注模型，使得第二序列标注模型更适用于社交网络，进而在基于适用于社交网络的第二序列标注模型对测试文档进行序列标注时，得到的命名实体的识别结果更加准确。

Description

一种命名实体识别方法及装置

技术领域

本发明属于命名实体技术领域，更具体的说，尤其涉及一种命名实体识别方法及装置。

背景技术

命名实体是指具有特定意义的实体，如人名李三，而命名实体识别则是识别文本中具有特定意义的实体，主要包括人名、地名、机构名和专有名词等，这些识别出的实体作为后续信息抽取任务的输入，如可以作为关系抽取、事件抽取、细粒度的情感分析等信息抽取任务的输入，因此命名实体识别结果的好坏直接影响后续信息抽取任务的效果。

目前命名实体识别方法已经有很多，如专利号为201310201310674046.7的识别方法，其过程为：对待处理文本中的特殊词进行识别；对待处理文本中的型号实体进行识别，并用预设的数字串将待处理文本中被识别出为型号实体的特殊词替换，然后在此基础上进行商品实体、商品分类实体、品牌实体、商品属性名实体以及商品属性值实体等实体的识别，这种识别方法主要针对一般文本，而社交网络中的文本主要是短文本，如微博或者QQ这种社交网络中，用户发布的文本多数是短文本，且社交网络中用户会彼此关注，但是目前的命名实体识别方法并没有基于这一特征，因此急需一种适用于微博或者QQ这些社交网络的命名实体识别方法。

发明内容

有鉴于此，本发明的目的在于提供一种命名实体识别方法及装置，用于基于社交网络信息进行命名实体的识别，以适用于社交网络。技术方案如下：

本发明提供一种命名实体识别方法，所述方法包括：

基于初始构建的第一序列标注模型，对训练文档和测试文档进行序列标注，得到每个训练文档中每个第一词的第一实体概率分布和每个测试文档中每个第二词的第二实体概率分布；

获取每个第一词在各自对应的训练文档中的第一上下文相似度以及每个第一词各自对应的训练文档所属目标对象之间的第一对象相似度；

基于每个第一词的所述第一实体概率分布、每个第一词的所述第一上下文相似度和每个第一词的所述第一对象相似度，得到相对应第一词的第三实体概率分布；

获取每个第二词在各自对应的训练文档中的第二上下文相似度以及每个第二词各自对应的训练文档所属目标对象之间的第二对象相似度；

基于每个第二词的所述第二实体概率分布、每个第二词的所述第二上下文相似度和每个第二词的所述第二对象相似度，得到相对应第二词的第四实体概率分布；

基于每个第一词的第三实体概率分布，对所述第一序列标注模型进行重新训练，得到第二序列标注模型；

将每个测试文档中每个第二词的第四实体概率分布作为相对应测试文档的观测变量，并基于所述第二序列标注模型和所述测试文档的观测变量，对所述测试文档进行序列标注，得到所述测试文档中每个第二词的命名实体。

优选地，所述获取每个第二词在各自对应的训练文档中的第二上下文相似度以及每个第二词各自对应的训练文档所属目标对象之间的第二对象相似度，包括：

获取词袋u和词袋v中共同具有的第二词的数量以及所述词袋u和词袋v中第二词的总量，其中词袋u为一个第二词对应的训练文档的词集合，词袋v为另一个第二词对应的训练文档的词集合；

将所述第二词的数量与所述第二词的总量的比值作为所述第二上下文相似度；

基于所述每个训练文档的第二上下文相似度，得到训练文档所属目标对象之间的第二对象相似度。

优选地，所述基于每个第二词的所述第二实体概率分布、每个第二词的所述第二上下文相似度和每个第二词的所述第二对象相似度，得到相对应第二词的第四实体概率分布，包括：

基于第二词的第二实体概率分布和第二词的所述第二上下文相似度，获取第二词的命名实体类型属于命名实体类标签c的概率，其中命名实体类标签c位于命名实体识别类标签集合C中，且用于指示一种命名实体类型；

基于所述第二词的命名实体类型属于命名实体类标签c的概率，得到所述第二词的各个命名实体类型的概率之和；

基于所述第二词的各个命名实类型的概率之和，得到所述第二词在所有测试文档中的命名实体概率分布；

基于所述命名实体概率分布和第二词的所述第二对象相似度，得到命名实体类标签c的概率之和；

基于所述命名实体类标签c的概率之和，得到第二词的命名实体类型属于命名实体类标签c的概率分布；

在得到第二词的命名实体类型属于命名实体识别类标签集合C中不同命名实体类标签的概率分布的情况下，选取取值最大的概率分布为所述第四实体概率分布。

优选地，基于第二词的第二实体概率分布和第二词的所述第二上下文相似度，获取第二词的命名实体类型属于命名实体类标签c的概率，包括：

基于公式

p (c | w, u, u^{'}, s, T) = Σ_{t &Element; T a n d t &Proportional; w} p (c | t) \cdot \frac{γ (t, u^{'}) \cdot ω (w, t)}{Σ_{t^{' &Element; T}} γ (t, u^{'}) \cdot ω (w, t) + θ} / Z (w, u, u^{'}, s, T)

得到所述第二词的命名实体类型属于命名实体类标签c的概率，其中w为第二词、s为一条测试文档，u为测试文档s所属目标对象，u’为非目标对象、T为第二词的实体类别分布集合，p(c|t)为第二实体概率分布，γ是一个0-1函数，用于判断第二词w是否出现在目标对象u所关注的u’中，ω是第二上下文相似度，θ是一平滑因子，Z表示命名实体识类标签集合C中每一个命名实体类标签c在第二词w、目标对象u、非目标对象u’、测试文档s以及每一个第二词w对实体类别分布集合T的情况下的概率之和；

所述基于所述第二词的命名实体类型属于命名实体类标签c的概率，得到所述第二词的各个命名实体类型的概率之和，包括：

基于公式

Z(w，u，u′，S，T)＝∑_c∈Cp(c|w，u，u′，S，T)＝∑_c∈C∑_s∈Sβ(s，u′)·p(c|w，u，u′，s，t)

得到所述第二词的各个命名实体类型的概率之和，其中S为测试文档集合，β是一个0-1函数，用于判断一条测试文档是否属于非目标对象u’；

所述基于所述第二词的各个命名实类型的概率之和，得到所述第二词在所有测试文档中的命名实体概率分布，包括：

基于公式

p(c|w，u，u′，S，T)＝∑_s∈Sβ(s，u′)·p(c|w，u，u′，s，T)/Z(w，u，u′，S，T)

得到所述第二词在所有测试文档中的命名实体概率分布。

优选地，所述基于所述命名实体概率分布和第二词的所述第二对象相似度，得到命名实体类标签c的概率之和，包括：

基于公式

得到所述命名实体类标签c的概率之和，其中U是非目标对象u’的集合，α是一个0-1函数，判定目标对象u和非目标对象u’之间是否是关注关系，为第二对象相似度，θ是一平滑因子；

所述基于所述命名实体类标签c的概率之和，得到第二词的命名实体类型属于命名实体类标签c的概率分布，包括：

基于公式

p(c|w)＝p(c|w，u，U，S，T)＝∑_u′∈U∑_s∈S∑_{t∈Tandt＝w}p(c|w，u，u′，S，T)·p(c|w，u，u′，s，T)

得到所述二词的命名实体类型属于命名实体类标签c的概率分布；

所述在得到第二词的命名实体类型属于命名实体识别类标签集合C中不同命名实体类标签的概率分布的情况下，选取取值最大的概率分布为所述第四实体概率分布，包括：

基于公式

c = \underset{c &Element; C}{\arg \max} p (c | w) = \underset{c &Element; C}{\arg \max} p (c | w, u, U, S, T)

得到所述第四实体概率分布。

本发明还提供一种命名实体识别装置，所述装置包括：

第一获取单元，用于基于初始构建的第一序列标注模型，对训练文档和测试文档进行序列标注，得到每个训练文档中每个第一词的第一实体概率分布和每个测试文档中每个第二词的第二实体概率分布；

第二获取单元，用于获取每个第一词在各自对应的训练文档中的第一上下文相似度以及每个第一词各自对应的训练文档所属目标对象之间的第一对象相似度；

第三获取单元，用于基于每个第一词的所述第一实体概率分布、每个第一词的所述第一上下文相似度和每个第一词的所述第一对象相似度，得到相对应第一词的第三实体概率分布；

第四获取单元，用于获取每个第二词在各自对应的训练文档中的第二上下文相似度以及每个第二词各自对应的训练文档所属目标对象之间的第二对象相似度；

第五获取单元，用于基于每个第二词的所述第二实体概率分布、每个第二词的所述第二上下文相似度和每个第二词的所述第二对象相似度，得到相对应第二词的第四实体概率分布；

训练单元，用于基于每个第一词的第三实体概率分布，对所述第一序列标注模型进行重新训练，得到第二序列标注模型；

测试单元，用于将每个测试文档中每个第二词的第四实体概率分布作为相对应测试文档的观测变量，并基于所述第二序列标注模型和所述测试文档的观测变量，对所述测试文档进行序列标注，得到所述测试文档中每个第二词的命名实体。

优选地，所述第四获取单元包括：

第一获取子单元，用于获取词袋u和词袋v中共同具有的第二词的数量以及所述词袋u和词袋v中第二词的总量，其中词袋u为一个第二词对应的训练文档的词集合，词袋v为另一个第二词对应的训练文档的词集合；

第二获取子单元，用于将所述第二词的数量与所述第二词的总量的比值作为所述第二上下文相似度；

第三获取子单元，用于基于所述每个训练文档的第二上下文相似度，得到训练文档所属目标对象之间的第二对象相似度。

优选地，所述第五获取单元包括：

第一概率获取子单元，用于基于第二词的第二实体概率分布和第二词的所述第二上下文相似度，获取第二词的命名实体类型属于命名实体类标签c的概率，其中命名实体类标签c位于命名实体识别类标签集合C中，且用于指示一种命名实体类型；

第一概率和获取子单元，用于基于所述第二词的命名实体类型属于命名实体类标签c的概率，得到所述第二词的各个命名实体类型的概率之和；

第二概率获取子单元，用于基于所述第二词的各个命名实类型的概率之和，得到所述第二词在所有测试文档中的命名实体概率分布；

第二概率和获取子单元，用于基于所述命名实体概率分布和第二词的所述第二对象相似度，得到命名实体类标签c的概率之和；

第三概率获取子单元，用于基于所述命名实体类标签c的概率之和，得到第二词的命名实体类型属于命名实体类标签c的概率分布；

第四概率获取子单元，用于在得到第二词的命名实体类型属于命名实体识别类标签集合C中不同命名实体类标签的概率分布的情况下，选取取值最大的概率分布为所述第四实体概率分布。

优选地，所述第一概率获取子单元，用于基于公式

p (c | w, u, u^{'}, s, T) = Σ_{t &Element; T a n d t &Proportional; w} p (c | t) \cdot \frac{γ (t, u^{'}) \cdot ω (w, t)}{Σ_{t^{' &Element; T}} γ (t, u^{'}) \cdot ω (w, t) + θ} / Z (w, u, u^{'}, s, T)

所述第一概率和获取子单元，用于基于公式

所述第二概率获取子单元，用于基于公式

得到所述第二词在所有测试文档中的命名实体概率分布。

优选地，所述第二概率和获取子单元，用于基于公式

所述第三概率获取子单元，用于基于公式

所述第四概率获取子单元，用于基于公式

c = \underset{c &Element; C}{\arg \max} p (c | w) = \underset{c &Element; C}{\arg \max} p (c | w, u, U, S, T)

得到所述第四实体概率分布。

与现有技术相比，本发明提供的上述技术方案具有如下优点：

本发明实施例提供的上述技术方案在利用初始构建的第一序列标注模型得到训练文档的第一实体概率分布和测试文档的第二实体概率分布后，可以从社交网络信息中提取特征，如训练文档的第一上下文相似度和训练文档的第一对象相似度，测试文档的第二上下文相似度和测试文档的第二对象相似度，这样在基于训练文档的第一上下文相似度和训练文档的第一对象相似度训练得到的第二序列标注模型，使得第二序列标注模型更适用于社交网络，进而在基于适用于社交网络的第二序列标注模型对测试文档进行序列标注时，得到的命名实体的识别结果更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的命名实体识别方法的流程图；

图2是本发明实施例提供的命名实体识别方法的子流程图；

图3是本发明实施例提供的命名实体识别装置的结构示意图；

图4是本发明实施例提供的命名实体识别装置中第五获取单元的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的命名实体识别方法的流程图，用于识别社交网络中各个测试文档中每个词的命名实体的识别，具体可以包括以下步骤：

101：基于初始构建的第一序列标注模型，对训练文档和测试文档进行序列标注，得到每个训练文档中每个第一词的第一实体概率分布和每个测试文档中每个第二词的第二实体概率分布。

在本发明实施例中，第一序列标注模型是目前命名实体识别常用的一种模型，如条件随机场，通过条件随机场可以得到一条文档中一个词的实体概率分布，例如设X为观测序列随机变量，Y为状态序列随机变量，x为一条文档，y为文档x的对应的命名实体标注序列，实体概率分布P(Y|X)为条件随机场，其参数化形式为：

p(Y＝y|X＝x)＝exp(Σ_jλ_jt_j(y_i-1，x，i)+Σ_kμ_ks_k(y_i，x，i))

其中tj(yi-1,yi,x,i)是整个观测序列和标签序列的第i位置和第i-1位置的转移特征函数，sk(yi,x,i)是标签序列的第i位置的变量和整个观测序列的状态特征函数，λj和μk是待估计的参数，在模型训练的时候通过使用有标注的训练语料对λj和μk进行估计。将训练文档和测试文档中每个词代入到上述公式中，即可得到训练文档中每个第一词的第一实体概率分布和每个测试文档中每个第二词的第二实体概率分布。

在这里需要说明的一点是：随机变量场为一现有序列标注模型，其得到实体概率分布的公式为一现有计算公式，本领域技术人员可知如何从上述公式中得到训练文档中每个第一词的第一实体概率分布和每个测试文档中每个第二词的第二实体概率分布，本发明实施例不再对其进行详细阐述。

102：获取每个第一词在各自对应的训练文档中的第一上下文相似度以及每个第一词各自对应的训练文档所属目标对象之间的第一对象相似度。

103：基于每个第一词的第一实体概率分布、每个第一词的第一上下文相似度和每个第一词的第一对象相似度，得到相对应第一词的第三实体概率分布。

104：获取每个第二词在各自对应的训练文档中的第二上下文相似度以及每个第二词各自对应的训练文档所属目标对象之间的第二对象相似度。

105：基于每个第二词的第二实体概率分布、每个第二词的第二上下文相似度和每个第二词的第二对象相似度，得到相对应第二词的第四实体概率分布。

在本发明实施例中，第一上下文相似度用于指示训练文档之间的相似度，第一对象相似度则用于指示训练文档所属目标对象之间的相似度，同样的第二上下文相似度用于指示测试文档之间的相似度，第二对象相似度用于测试文档所属目标对象之间的相似度。一般情况下，位于社交网络中各个目标对象可能会彼此关注，且双方发布的文档也可能会相关，因此第一上下文相似度和第一对象相似度可以作为社交网络信息中的特征来提取。

并且在本发明实施例中第一上下文相似度和第二上下文相似度的获取过程相同，且第一对象相似度和第二对象相似度的获取过程也相同，当这两个相似度的获取过程相同时，训练文档的第三实体概率分布和测试文档的第四实体概率分布的计算过程也相同，在本发明实施例中则以测试文档为例，进行说明，首先介绍第二上下文相似度和第二对象相似度的获取过程。

在对社交网络中第二上下文相似度和第二对象相似度进行度量的时候，本发明使用的相似度度量方法是：Jaccard相似度和余弦相似度。Jaccard相似度是本发明实施例的第二上下文相似度，其在度量时把两个需要度量相似度的测试文档看作是词袋(即测试文档中所有词的集合)，根据两个词袋中共同出现的第二词的数量与两个词袋中总共出现的第二词的数量的比值作为Jaccard相似度。设两个测试文档的词袋分别为u，v，则u和v的Jaccard相似度可以定义为：

J a c c a r d (u, v) = \frac{| u \cap v |}{| u \cup v |}

Jaccard相似度的取值范围为[0,1]，两条测试文档之间的相似度与Jaccard相似度的大小成正比。当两条测试文档完全不相关，即两条测试文档之间没有相同的词，则Jaccard(u,v)＝0；若两条测试文档完全相同，则此时Jaccard(u,v)＝1。

对于第二对象相似度来说则用余弦相似度表示，余弦相似度则是把需要度量相似度的两条测试文档向量化之后，计算两条向量之间的相似度。使用余弦公式来计算：

C o s i n e (u, v) = \frac{Σ_{i} v_{i} \cdot u_{i}}{\sqrt{Σ_{i} v_{i}^{2}} \cdot \sqrt{Σ_{i} u_{i}^{2}}}

余弦相似度的取值范围为[-1,1]。向量之间的相似度大小与余弦相似度的大小成正比关系。当两条向量方向完全相反，Cosine(u,v)＝-1；当两条向量相互垂直，即夹角为90°的时候，Cosine(u,v)＝0；当两条向量之间的方向完全相同，Cosine(u,v)＝1。但是对于文本向量来说，向量空间模型中不会出现负数。所以向量空间模型当中余弦相似度的取值范围为[0,1]。

之所以选取Jaccard相似度，是因为目前社交网络中的测试文档的长度较短，而Jaccard相似度相对于其他相似度来说，更加适合长度较短的文档，因此本发明实施例中选用Jaccard相似度作为第一上下文相似度和第二上下文相似度的计算方法。

基于上述第二上下文相似度和第二对象相似度的获取过程，测试文档的第四实体概率分布的计算过程如图2所示，可以包括以下步骤：

201：基于第二词的第二实体概率分布和第二词的第二上下文相似度，获取第二词的命名实体类型属于命名实体类标签c的概率，其中命名实体类标签c位于命名实体识别类标签集合C中，且用于指示一种命名实体类型。具体的，可以基于如下公式：

p (c | w, u, u^{'}, s, T) = Σ_{t &Element; T a n d t &Proportional; w} p (c | t) \cdot \frac{γ (t, u^{'}) \cdot ω (w, t)}{Σ_{t^{' &Element; T}} γ (t, u^{'}) \cdot ω (w, t) + θ} / Z (w, u, u^{'}, s, T)

得到第二词的命名实体类型属于命名实体类标签c的概率。

其中w为第二词、s为一条测试文档，u为测试文档s所属目标对象，u’为非目标对象、T为第二词的实体类别分布集合，p(c|t)为第二实体概率分布，γ是一个0-1函数，用于判断第二词w是否出现在目标对象u所关注的u’中，ω是第二上下文相似度，θ是一平滑因子，Z表示命名实体识类标签集合C中每一个命名实体类标签c在第二词w、目标对象u、非目标对象u’、测试文档s以及每一个第二词w对实体类别分布集合T的情况下的概率之和。

并且从上述基于的公式可知，第二词的命名实体类型属于命名实体类标签c的概率是在给定一个第二词w、所属目标对象u、非目标对象u’、测试文档s以及每一个第二词w对实体类别分布集合T的情况下，第二词w的概率。

202：基于第二词的命名实体类型属于命名实体类标签c的概率，得到第二词的各个命名实体类型的概率之和。具体的，可以基于公式：

得到第二词的各个命名实体类型的概率之和，即Z代表命名实体识别类标签集合C中每一个命名实体类标签c在给定第二词w、所属目标对象u、非目标对象u’、测试文本集合S以及每一个第二词w对实体类别分布集合T的情况下的概率之和。

其中S为测试文档集合，β是一个0-1函数，用于判断一条测试文档是否属于非目标对象u’，其可以通过对测试文档的和非目标对象的逐个匹配来得到。

203：基于第二词的各个命名实类型的概率之和，得到第二词在所有测试文档中的命名实体概率分布。具体的，可以基于公式：

得到第二词在所有测试文档中的命名实体概率分布。即对于给定第二词w、所属目标对象u、非目标对象u’、测试文本集合S以及每一个第二词w对实体类别分布集合T，其命名实体类标签c的命名实体概率分布可以表示为：对于测试文档集合S当中的每一条测试文档s，给定第二词w、所属目标对象u、非目标对象u’以及每一个第二词w对实体类别分布集合T的情况下，命名实体类标签c的概率之和除以一个归一化因子Z。

204：基于命名实体概率分布和第二词的第二对象相似度，得到命名实体类标签c的概率之和。具体的，可以基于公式：

得到命名实体类标签c的概率之和。其中U是非目标对象u’的集合，α是一个0-1函数，判定目标对象u和非目标对象u’之间是否是关注关系，为第二对象相似度，θ是一平滑因子；

205：基于命名实体类标签c的概率之和，得到第二词的命名实体类型属于命名实体类标签c的概率分布。具体的，可以基于公式：

得到所述二词的命名实体类型属于命名实体类标签c的概率分布。

206：在得到第二词的命名实体类型属于命名实体识别类标签集合C中不同命名实体类标签的概率分布的情况下，选取取值最大的概率分布为第四实体概率分布。具体的，可以基于公式：

c = \underset{c &Element; C}{\arg \max} p (c | w) = \underset{c &Element; C}{\arg \max} p (c | w, u, U, S, T)

得到第四实体概率分布。

即对于每个第二词来说，通过上述公式可以得到命名实体识别类标签集合C中任意一个命名实体类标签的概率分布，在得到全部命名实体类标签的概率分布后，从中选取最大的概率分布作为第二词的第四实体概率分布。

比如命名实体识别类标签集合C中有四个命名实体类标签，则基于上述公式可以得到第_二词w的四个概率分布p(c|w，u，U，S，T)，每个概率分布p(c|w，u，U，S，T)对应一个命名实体类标签，从中选取概率最大的概率分布p(c|w，u，U，S，T)作为第四实体概率分布。

相应的，在计算第三实体概率分布时，则是以训练文档、训练文档所属目标对象、非目标对象、命名实体识别类标签集合C和实体类别分布集合T为基础，基于上述公式来计算。并且上述平滑因子θ的取值较小，这样可以不影响上述公式的计算结果，如θ＝0.01。

106：基于每个第一词的第三实体概率分布，对第一序列标注模型进行重新训练，得到第二序列标注模型。即基于第三实体概率分布来对第一序列标注模型进行优化，以使得到的第二序列标注模型更加符合社交网络的特性，使第二序列标注模型适用于社交网络。

其训练过程则是将第三实体概率分布作为训练文档的观测变量，输入到第一序列标注模型中，优化第一序列标注模型的各项参数，以得到第二序列标注模型。例如第一序列标注模型为条件随机场时，第三实体概率分布可以采用条件随机场的训练方式重新优化初始构建的条件随机场，以得到优化后的条件随机场作为第二序列标注模型。

107：将每个测试文档中每个第二词的第四实体概率分布作为相对应测试文档的观测变量，并基于第二序列标注模型和测试文档的观测变量，对测试文档进行序列标注，得到测试文档中每个第二词的命名实体。在本发明实施例中，第二序列标注模型是一现有的序列标注模型，如条件随机场，因此其可以采用现有条件随机场的序列标注方式对测试文档进行标注，本发明实施例不再对序列标注过程进行描述。

从上述技术方案可知，本发明实施例提供的命名实体识别方法在利用初始构建的第一序列标注模型得到训练文档的第一实体概率分布和测试文档的第二实体概率分布后，可以从社交网络信息中提取特征，如训练文档的第一上下文相似度和训练文档的第一对象相似度，测试文档的第二上下文相似度和测试文档的第二对象相似度，这样在基于训练文档的第一上下文相似度和训练文档的第一对象相似度训练得到的第二序列标注模型，使得第二序列标注模型更适用于社交网络，进而在基于适用于社交网络的第二序列标注模型对测试文档进行序列标注时，得到的命名实体的识别结果更加准确。

下面以一个实验数据来证明本发明实施例提供的命名实体方法更适用于社交网络中，具体的：使用网络爬虫爬取648个目标对象，共获得2013年7月、8月的新浪微博文本300400条，随机选取其中1,000条进行手工标注。采用XML标签进行标注。使用XML标签对实体进行标注可制定实体边界以及实体类型。比如：“我觉得<Movie>IdentityThief</Movie>这部搞笑片还挺发人深省的。”。根据爬取的微博文本中出现的多种实体类型，被定义为人名、机构名、地名、产品、电影、书名、歌曲。总共标注出总共1,076个实体。标注工作由两个人同时并行进行。每个人分别根据自己对实体类型和边界的理解对1000条微博文本中出现的实体进行人工标注，去除其中标注不同的微博，剩下857条带命名实体类标的微博文本。

为了防止过拟合，实验数据采用十折交叉验证，其验证结果如下：

	精确率	召回率	F₁值
				现有技术	37.10％	11.03％	16.43％
本发明	55.12％	23.94％	33.19％

其中F₁＝2*精确率*召回率/(精确率+召回率)

与上述方法实施例相对应，本发明实施例还提供一种命名实体识别装置，如图3所示，可以包括：第一获取单元11、第二获取单元12、第三获取单元13、第四获取单元14、第五获取单元15、训练单元16和测试单元17。

第一获取单元11，用于基于初始构建的第一序列标注模型，对训练文档和测试文档进行序列标注，得到每个训练文档中每个第一词的第一实体概率分布和每个测试文档中每个第二词的第二实体概率分布，具体获取可以请参阅方法实施例部分101的相关说明。

第二获取单元12，用于获取每个第一词在各自对应的训练文档中的第一上下文相似度以及每个第一词各自对应的训练文档所属目标对象之间的第一对象相似度。

第三获取单元13，用于基于每个第一词的第一实体概率分布、每个第一词的第一上下文相似度和每个第一词的第一对象相似度，得到相对应第一词的第三实体概率分布。

第四获取单元14，用于获取每个第二词在各自对应的训练文档中的第二上下文相似度以及每个第二词各自对应的训练文档所属目标对象之间的第二对象相似度。

第五获取单元15，用于基于每个第二词的第二实体概率分布、每个第二词的第二上下文相似度和每个第二词的第二对象相似度，得到相对应第二词的第四实体概率分布。

优选地，第四获取单元可以包括：第一获取子单元、第二获取子单元和第三获取子单元。其中，

第一获取子单元，用于获取词袋u和词袋v中共同具有的第二词的数量以及词袋u和词袋v中第二词的总量，其中词袋u为一个第二词对应的训练文档的词集合，词袋v为另一个第二词对应的训练文档的词集合。

第二获取子单元，用于将第二词的数量与第二词的总量的比值作为第二上下文相似度。即u和v的第二上下文相似度可以用Jaccard相似度表示，其可以定义为：

J a c c a r d (u, v) = \frac{| u \cap v |}{| u \cup v |}

Jaccard相似度的取值范围为[0,1]，两条测试文档之间的相似度与Jaccard相似度的大小成正比。当两条测试文档完全不相关，即两条测试文档之间没有相同的词，则Jaccard(u,v)＝0；若两条测试文档完全相同，则此时Jaccard(u,v)＝1

第三获取子单元，用于基于每个训练文档的第二上下文相似度，得到训练文档所属目标对象之间的第二对象相似度。对于第二对象相似度来说则用余弦相似度表示，余弦相似度则是把需要度量相似度的两条测试文档向量化之后，计算两条向量之间的相似度。使用余弦公式来计算：

C o s i n e (u, v) = \frac{Σ_{i} v_{i} \cdot u_{i}}{\sqrt{Σ_{i} v_{i}^{2}} \cdot \sqrt{Σ_{i} u_{i}^{2}}}

相应的，第五获取单元15的结构如图4所示，可以包括：第一概率获取子单元151、第一概率和获取子单元152、第二概率获取子单元153、第二概率和获取子单元154、第三概率获取子单元155和第四概率获取子单元156。

第一概率获取子单元151，用于基于第二词的第二实体概率分布和第二词的第二上下文相似度，获取第二词的命名实体类型属于命名实体类标签c的概率，其中命名实体类标签c位于命名实体识别类标签集合C中，且用于指示一种命名实体类型。具体的，可以基于如下公式：

p (c | w, u, u^{'}, s, T) = Σ_{t &Element; T a n d t &Proportional; w} p (c | t) \cdot \frac{γ (t, u^{'}) \cdot ω (w, t)}{Σ_{t^{' &Element; T}} γ (t, u^{'}) \cdot ω (w, t) + θ} / Z (w, u, u^{'}, s, T)

得到第二词的命名实体类型属于命名实体类标签c的概率。

第一概率和获取子单元152，用于基于第二词的命名实体类型属于命名实体类标签c的概率，得到第二词的各个命名实体类型的概率之和。具体的，可以基于公式：

第二概率获取子单元153，用于基于第二词的各个命名实类型的概率之和，得到第二词在所有测试文档中的命名实体概率分布。具体的，可以基于公式：

第二概率和获取子单元154，用于基于命名实体概率分布和第二词的第二对象相似度，得到命名实体类标签c的概率之和。具体的，可以基于公式：

第三概率获取子单元155，用于基于命名实体类标签c的概率之和，得到第二词的命名实体类型属于命名实体类标签c的概率分布。具体的，可以基于公式：

第四概率获取子单元156，用于在得到第二词的命名实体类型属于命名实体识别类标签集合C中不同命名实体类标签的概率分布的情况下，选取取值最大的概率分布为第四实体概率分布。具体的，可以基于公式：

c = \underset{c &Element; C}{\arg \max} p (c | w) = \underset{c &Element; C}{\arg \max} p (c | w, u, U, S, T)

得到第四实体概率分布。

比如命名实体识别类标签集合C中有四个命名实体类标签，则基于上述公式可以得到第二词w的四个概率分布p(c|w，u，U，S，T)，每个概率分布p(c|w，u，U，S，T)对应一个命名实体类标签，从中选取概率最大的概率分布p(c|w，u，U，S，T)作为第四实体概率分布。

训练单元16，用于基于每个第一词的第三实体概率分布，对第一序列标注模型进行重新训练，得到第二序列标注模型。即基于第三实体概率分布来对第一序列标注模型进行优化，以使得到的第二序列标注模型更加符合社交网络的特性，使第二序列标注模型适用于社交网络。

测试单元17，用于将每个测试文档中每个第二词的第四实体概率分布作为相对应测试文档的观测变量，并基于第二序列标注模型和测试文档的观测变量，对测试文档进行序列标注，得到测试文档中每个第二词的命名实体。在本发明实施例中，第二序列标注模型是一现有的序列标注模型，如条件随机场，因此其可以采用现有条件随机场的序列标注方式对测试文档进行标注，本发明实施例不再对序列标注过程进行描述。

从上述技术方案可知，本发明实施例提供的命名实体识别装置在利用初始构建的第一序列标注模型得到训练文档的第一实体概率分布和测试文档的第二实体概率分布后，可以从社交网络信息中提取特征，如训练文档的第一上下文相似度和训练文档的第一对象相似度，测试文档的第二上下文相似度和测试文档的第二对象相似度，这样在基于训练文档的第一上下文相似度和训练文档的第一对象相似度训练得到的第二序列标注模型，使得第二序列标注模型更适用于社交网络，进而在基于适用于社交网络的第二序列标注模型对测试文档进行序列标注时，得到的命名实体的识别结果更加准确。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种命名实体识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取每个第二词在各自对应的训练文档中的第二上下文相似度以及每个第二词各自对应的训练文档所属目标对象之间的第二对象相似度，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于每个第二词的所述第二实体概率分布、每个第二词的所述第二上下文相似度和每个第二词的所述第二对象相似度，得到相对应第二词的第四实体概率分布，包括：

4.根据权利要求3所述的方法，其特征在于，基于第二词的第二实体概率分布和第二词的所述第二上下文相似度，获取第二词的命名实体类型属于命名实体类标签c的概率，包括：

基于公式

p (c | w, u, u^{'}, s, T) = Σ_{t &Element; T a n d t &Proportional; w} p (c | t) \cdot \frac{γ (t, u^{'}) \cdot ω (w, t)}{Σ_{t^{'} &Element; T} γ (t, u^{'}) \cdot ω (w, t) + θ} / Z (w, u, u^{'}, s, T)

基于公式

Z(w，u，u′，S，T)＝Σ_c∈Cp(c|w，u，u′，S，T)＝Σ_c∈CΣ_s∈Sβ(s，u′)·p(c|w，u，u′，s，t)

基于公式

p(c|w，u，u′，S，T)＝Σ_s∈Sβ(s，u′)·p(c|w，u，u′，s，T)/Z(w，u，u′，S，T)

得到所述第二词在所有测试文档中的命名实体概率分布。

5.根据权利要求4所述的方法，其特征在于，所述基于所述命名实体概率分布和第二词的所述第二对象相似度，得到命名实体类标签c的概率之和，包括：

基于公式

p(c|w)＝p(c|w，u，U，S，T)＝Σ_u′∈UΣ_s∈SΣ_{t∈Tandt＝w}p(c|w，u，u′，S，T)·p(c|w，u，u′，s，T)

基于公式

c = \underset{c &Element; C}{\arg \max} p (c | w) = \underset{c &Element; C}{\arg \max} p (c | w, u, U, S, T)

得到所述第四实体概率分布。

6.一种命名实体识别装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述第四获取单元包括：

8.根据权利要求7所述的装置，其特征在于，所述第五获取单元包括：

9.根据权利要求8所述的装置，其特征在于，所述第一概率获取子单元，用于基于公式

p (c | w, u, u^{'}, s, T) = Σ_{t &Element; T a n d t &Proportional; w} p (c | t) \cdot \frac{γ (t, u^{'}) \cdot ω (w, t)}{Σ_{t^{'} &Element; T} γ (t, u^{'}) \cdot ω (w, t) + θ} / Z (w, u, u^{'}, s, T)

所述第一概率和获取子单元，用于基于公式

所述第二概率获取子单元，用于基于公式

得到所述第二词在所有测试文档中的命名实体概率分布。

10.根据权利要求9所述的装置，其特征在于，所述第二概率和获取子单元，用于基于公式

所述第三概率获取子单元，用于基于公式

所述第四概率获取子单元，用于基于公式

c = \underset{c &Element; C}{\arg \max} p (c | w) = \underset{c &Element; C}{\arg \max} p (c | w, u, U, S, T)

得到所述第四实体概率分布。