CN103268339A

CN103268339A - 微博消息中命名实体识别方法及***

Info

Publication number: CN103268339A
Application number: CN201310182978XA
Authority: CN
Inventors: 程学旗; 伍大勇; 李静远; 王元卓; 刘倩
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-05-17
Filing date: 2013-05-17
Publication date: 2013-08-28
Anticipated expiration: 2033-05-17
Also published as: CN103268339B

Abstract

本发明提供一种微博消息中命名实体识别方法。该方法指定少量命名实体作为种子，从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集，然后该训练数据集来训练命名实体识别器并利用训练好的命名实体识别器对微博消息中的命名实体进行识别。该方法只需指定少量已有的种子实体，便可自动标注高质量的训练集。对于微博消息这种更新速度较快的文本来说，显著缩减人工成本。而且采用迭代的方式逐步产生高质量的标注数据，每次选择最能体现真实微博数据中命名实体出现规律的前N个新命名实体补充到种子库，最终生成的标注数据能很好的覆盖整个微博数据集。

Description

微博消息中命名实体识别方法及***

技术领域

本发明涉及网络数据处理与分析，尤其涉及自动识别微博消息文本中命名实体的方法。

背景技术

微博是互联网上一种新兴起的信息发布和传播的形式，微博以其发布消息方式的方便、简短、快捷，迅速受到互联网用户的关注。当前国内的微博用户已经数以亿计，在新浪、腾讯、搜狐和网易这些大规模的微博平台上，用户每天产生大量的微博消息文本，例如，新浪微博中每天新增的微博消息接近1亿条。在微博平台上，每个互联网用户都是一个“自媒体”，即用户可以通过发布微博消息来传播他们的所见所闻，以及表达他们的观点、需求和兴趣，微博平台通过将这些消息汇总起来形成海量的消息集合，这样的海量消息集合又反映出了用户群体的兴趣趋向。显然，从这些海量的微博消息中分析出互联网用户所关注的人物、地点、机构等命名实体，能够为网上营销、群体情感分析等各种上层应用提供重要的支持信息。这使得面向微博消息文本中的命名实体识别成为网络数据处理与分析中的一项重要的核心技术。

命名实体识别是要在文本中识别出命名性指称的实体，例如文本中的人名、地名和机构名等，可以为各种自然语言分析的上层应用提供支撑。当前的命名实体识别研究通常是面向规范化的文本进行识别，如科技文档、新闻报道等等，而微博消息文本有其自身的特点，如语言形式任意、语法不规范、句子形式零散等，因此现有的命名实体识别方法不能准确地分析出微博消息文本中出现的命名实体。而且在现有的命名实体识别方法（也可以称为有监督的命名实体识别方法）需要人工标注出的具备一定数量规模的数据集合作为训练数据，训练命名实体识别模型，人工标准训练语料是费时费力的工作，并且标注大规模的训练数据比较困难。此外，由于微博消息随时间不断增加并且微博内容不断发生变化，这种采用人工标注训练集合的方式不仅费时费力，而且不能及时准确地反映微博数据的特点，因此识别效率低。目前，还没有针对微博消息文本进行命名实体识别的方法。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种适用于微博消息文本的命名实体识别方法，可以高效地识别出微博消息中的命名实体，并且减少人工标注数据的成本。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种微博消息中命名实体识别方法，包括：

步骤1，指定少量命名实体作为种子，从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集，

步骤2，以该训练数据集来训练命名实体识别器；

步骤3，利用训练好的命名实体识别器对微博消息中的命名实体进行识别。

上述方法中，所述步骤1可包括：

步骤11)对于人名、地名和机构名三个命名实体类别，分别采用少量的属于该类别的命名实体实例作为初始的种子实体；

步骤12）、将初始的种子实体加入种子库，迭代生成模板和同类别的新命名实体，分别存入模板库和种子库；其中，所述模板为命名实体的固定长度的上文和下文；

步骤13）、将模板库和种子库中的命名实体和模板两两组合成短语，在原始微博消息集合中抽取出包含该短语的微博消息文本，用模板匹配出命名实体的边界，并标记该命名实体的类别为种子所属的类别，从而得到经标注的微博消息文本；以及将所获得的所有经标注的微博消息文本作为训练数据集。

上述方法中，在所述步骤12）中所述迭代生成模板和同类别的新命名实体，分别存入模板库和种子库包括：

步骤（12-1）抽取所有包含种子库中种子实体的微博语句，作为种子实体获取语句集合；

步骤（12-2）对于种子实体获取语句集合中每个句子里出现的种子实体，取其固定长度的上文和下文作为模板，标记该模板的类别为该种子实体所属的类别；并且将所获取的所有模板作为候选模板集合；

步骤（12-3）从候选模板集合中选取质量最好的前N个模板加入模板库；

步骤（12-4）用模板库中的模板在原始微博消息集合中所有未标注的微博数据中抽取命名实体；

步骤（12-5）从所抽取的所有命名实体中选择置信度高的前M个命名实体加入种子库中；

步骤（12-6）重复步骤（12-1）至（12-5）直到种子库不再扩大或达到预先设定的迭代次数，其中M和N均为大于1的整数。

上述方法中，所述步骤（12-3）可包括：

提取候选模板集合中每个模板的特征，所述模板的特征包括实体的多样性、实体的准确率、模板频率和模板集中程度；

在每个特征上对模板进行排序，选择综合评价最好的前N个模板，加入模板库；

其中，实体的多样性以模板从种子实体获取语句集合中抽取的不相同命名实体的个数来表征；

实体准确率等于模板从种子实体获取语句集合中抽取的种子库中的命名实体的数量与模板从种子实体获取语句集合中抽取的命名实体的总数的比值；

模板频率等于模板在种子实体获取语句集合中出现的次数与种子实体获取语句集合中包含的模板总数的比值；

模板集中程度计算如下：

其中，模板出现过的类别的数量是指该模板中从种子实体获取语句集合中抽取的命名实体的类别有几种；实体的总类别数量为种子库中包含的命名实体的类别有几种。

上述方法中，所述步骤（12-5）中所述命名实体的置信度等于该命名实体和抽取该命名实体的模板在原始微博消息集合中同时出现的次数除以该命名实体在原始微博消息集合中出现的次数与该模板在原始微博消息集合中出现的次数的乘积。

上述方法中，所述步骤（12-2）可包括：

对于种子实体获取语句集合中每个句子里出现的种子实体，取其前后各四个字符长度的上文和下文；

对所取的上文和下文分别与中文常用词词表进行匹配，匹配到的最大长度词汇作为模板，当遇到与该种子实体相邻接为单字词时，再扩大匹配字符长度，直到匹配到另一词汇为止，当遇到无法匹配常用词表时，取四字长字符串为模板；

标记该模板的类别为该种子实体所属的类别；

将所获取的所有模板作为候选模板集合。

上述方法中，所述步骤2可包括

步骤2-1）将训练数据集的每个微博消息文本中的每句文本作为一个标注序列，标注序列的每个标注单元为一个中文字符，对于每个标注序列的标注单元分别利用外部语言知识词表抽取外部语言知识特征；

步骤2-2）使用所抽取的外部语言知识特征，采用条件随机场模型训练命名实体识别器。

上述方法中，所述步骤2-1）中，所述外部语言知识词表包括：词表1，组织机构后缀词表；词表2，地名汇总表；词表3，地名后缀表；词表4，姓氏表；词表5，常用人名单名字表；词表6，常用人名双字前一个字表；词表7，常用人名双字后一个字表；词表8，称谓列表；词表9：微博名人表（微博中加V认证的人物）；词表10，常用词汇表；词表11，常用单字词表。

上述方法中，在所述步骤2-1）中，对于每个标注单元，要抽取的外部语言知识特征包括：

1）当前的标注单元（每个中文字符）是否出现在词表1-词表11的任一个中；

2）当前的标注单元和前接的一个字符是否出现在词表1、词表2、词表3、词表8、词表9或词表10中；

3）当前的标注单元和前接的两个字符是否在词表1、词表2、词表3、词表8、词表9或词表10中；

4）当前的标注单元和前接的三个字符是否在词表1、词表2、词表8、词表9或词表10中；

5）当前的标注单元和前接的四个字符是否在词表1、词表2或词表10中；

6）是否当前标注单元出现在词表5中，并且前接的一个字符出现词表4中；

7）是否当前标注单元出现在词表6中，并且前接的一个字符出现词表4中；

8）是否当前标注单元出现在词表7中，并且前接的一个字符出现词表6中；

9）是否当前标注单元出现在词表7中，并且前接的两个字符，分别出现在词表6和词表4中；

10）当前的标注单元和前接的两个字符或前接的一个字符构成的词汇，是否包含在词表9中。

又一方面，本发明提供了一种微博消息中命名实体识别***，包括：

10.一种微博消息中命名实体识别***，该***包括：

自动标注装置，用于基于被指定为种子的少量命名实体，从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集；

训练装置，用于利用训练数据集来训练命名实体识别器；

识别装置，其利用训练好的命名实体识别器对微博消息中的命名实体进行识别。

其中，所述训练装置还用于：

将训练数据集的每个微博消息文本中的每句文本作为一个标注序列，标注序列的每个标注单元为一个中文字符，对于每个标注序列的标注单元分别利用外部语言知识词表抽取外部语言知识特征；以及

使用所抽取的外部语言知识特征，采用条件随机场模型训练命名实体识别器。

与现有技术相比，本发明的优点在于：

1、只需指定少量已有的种子实体，便可自动标注高质量的训练集。对于微博消息这种更新速度较快的文本来说，显著缩减人工成本。

2、用迭代的方式逐步产生高质量的标注数据，每次选择最能体现真实微博数据中命名实体出现规律的前N个新命名实体补充到种子库，最终生成的标注数据能很好的覆盖整个微博数据集。

3、传统针对规范文档的识别方法大多在中文分词的基础上展开，而微博文本用语不规范，包含大量缩略语、不符合文法的用语、歧义词和新词，本发明的识别方法采用基于字的方式，避免了在命名实体识别时分词错误造成的误差累积。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的微博消息中命名实体识别方法流程示意图；

图2为根据本发明实施例的利用种子命名实体自动标注微博消息文本以产生训练数据的过程示意图；

图3为根据本发明一个实施例的训练命名实体识别器的过程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1给出了根据本发明一个实施例的弱监督的微博消息中命名实体识别方法。该方法包括：步骤1）指定少量的命名实体作为种子，自动地标注待处理的原始微博消息集合（或原始微博消息数据库）中一定数量的微博数据作为训练命名实体识别器的训练数据集；步骤2）基于该训练数据集来训练命名识别器；步骤3）利用训练好的命名识别器对微博消息中的命名实体进行识别。其中待处理的原始微博消息集合或数据库中存储的是经过预处理的微博消息文本，对所采集的微博消息数据的预处理可包括提取微博的正文文本，过滤掉HTML标签、非标点的特殊符号，对标点符号进行统一的全半角转换等。

在步骤1，对微博数据进行自动标注包括标注出命名实体（也可简称为实体）在微博消息文本中的边界和命名实体的类别。图2给出了利用种子命名实体自动标注微博消息文本以产生训练数据的过程示意图。如图2所示，步骤1包括：

步骤11)指定少量的命名实体作为种子。例如，对于人名、地名和机构名三个命名实体类别，分别采用少量的属于该类别的命名实体实例作为种子。在选择作为种子的命名实体时，可以选择微博数据中出现频率较高的命名实体，从而可以使下面的步骤能更容易地获取包含该命名实体的句子，以提高标注的效率。表1中列出了作为种子的各类命名实体实例的一些示例，表1针对的是从新浪微博所采集的2012年8月1日到2012年8月31日这1个月的数据。在表1中对于人名、地名和机构名这三种类型分别给定了10个属于该类别的命名实体作为种子。作为种子的命名实体也可以称为种子实体或种子命名实体。

表1

步骤12）、从初始的种子命名实体开始，迭代生成高质量的模板和高置信度的同类别的新命名实体，分别存入模板库和种子库；其中，所述模板为命名实体的固定长度的上文和下文，例如，种子命名实体“林丹”在句子“作为赛会头号种子的中国选手林丹对阵日本选手佐佐木翔”中的模板可以为“选手#对阵”。

步骤13）、将模板库和种子库中的同类命名实体和模板两两组合成短语，在原始微博消息数据库中抽取出包含该短语的微博消息文本，用模板匹配出命名实体的边界，标记该命名实体的类别为种子所属的类别，这样就获得了经标注的微博消息文本。最后将得到的所有经标注的微博消息文本作为用于训练命名识别器的训练数据集。

更具体地，根据本发明的一个实施例，在步骤12）从初始种子命名实体开始，迭代生成高质量的模板和高置信度的同类别的新命名实体，分别存入模板库和命名实体库，包括以下步骤：

步骤1-2-1）、设定模板库P，种子库S，初始化模板库P为空，初始化种子库S为所指定的作为种子的人名、地名和机构名实例，例如表1所示的种子命名实体。

步骤1-2-2）、抽取所有包含种子库中种子实体的微博语句，记为种子实体获取语句集合Ds，Ds将用于产生模板和评估模板的质量；

步骤1-2-3）、对于在种子实体获取语句集合Ds中每个句子里出现的种子实体，取其前后固定长度的上下文（包括正规的标点符号），例如各四个字符长度的上文和下文；对上文和下文分别与一个中文常用词词表（也就是在普通文档中经常出现的词汇，例如，单词、乡村等等）进行匹配，匹配到的最大长度词汇作为模板，当遇到与实体相邻接为单字词（例如，“的”、“和”、“及”这样的词）时，再扩大匹配字符长度，直到匹配到另一词汇为止，当遇到无法匹配常用词表时，取四字长字符串为模板。标记该模板的类别为种子所属的类别，记为候选模板集合Pc。例如，以表2中“赵本山”为例，抽取了“赵本山领衔电视剧乡村爱情故事”，“赵本山参加江苏卫视春晚”，“看了赵本山的春晚小品，感觉还不错”等微博语句，会抽取出“Start#领衔”，“Start#参加”，“看了#的春晚”这样的模板，其中“Start”表示句子起始。

步骤1-2-4）、用候选模板集合Pc中的所有模板在种子实体获取语句集合Ds中再反向抽取命名实体，记抽取出的所有结果为模板抽取字符串集合St，在St中包含三类的字符串，一类是种子实体，另一类是新的同类实体，剩下一类是噪音字符串，因为第二类新实体数量较少，所以在下面的步骤中可以根据St的抽取情况分析模板的质量。

例如，使用Start#领衔”，“Start#参加”，“看了#的春晚”等模板，在Ds中再抽取实体，抽取出来的字符串集合St中，会包括“赵本山”这是第一类；也可能包含了“黄宏”，这是第二类；还可能包含了由“Start#参加”模板在字符串“明天参加…”抽取出来的噪音字符串“明天”，这是第三类。这样就需要分析哪些模板的抽取质量更好。

步骤1-2-5）、提取候选模板集合Pc中模板的特征，分析模板的质量，选择综合评价最好的前N个模板，加入高质量的模板库。对候选模板集合Pc中模板进行质量分析的特征，包括实体的多样性、实体的准确率、模板频率和模板集中程度，在每个特征上对模板进行排序，选择综合评价最好的前N个模板，加入高质量的模板库。

其中，所述模板的特征以如下方式进行计算：

1）实体多样性=不相同的实体的数量

也就是说，对于候选模板集合中的一个模板而言，实体多样性是指以该模板从种子实体获取语句集合Ds中抽取的不相同的实体个数。例如，以模板“听着#的歌”为例，抽取了“听中国好声音，在听着那英的歌感觉差距还是很大很大”，“听着黄绮珊的歌，哭的昏天暗地”，“听着黄绮珊的歌是真爽啊，高音说上就上”等微博，所抽取的不相同的实体（那英、黄绮珊）个数是2，所以实体多样性为2。

2）所述实体准确率计算如下

也就是，对于每一个模板，统计其从Ds集合中抽取的实体的总数。以模板“看了#的春晚”为例，抽取了“看了赵本山的春晚小品”，“有没有人看了江苏卫视的春晚啊”，“看了荔枝台的春晚，笑了也哭了”等微博，此模板抽取的所有实体总数为3，分别为赵本山、江苏卫视和荔枝台，出现在种子集合（即种子库）中的实体数量是1（即赵本山），因此实体准确率为1/3。

3）所述模板频率计算如下

4）所述模板集中程度计算如下

对于某个模板而言，模板出现过的类别的数量是指该模板中所抽取的命名实体的类型有几种。例如，仍以上述模板“看了#的春晚”为例，抽取了上述三条微博，其中赵本山是人名，江苏卫视和荔枝台是机构名，所以模板出现过的类别的数量是2。而实体的总类别数量指种子库中包含的命名实体的类别有几种。

结合上述特征对每个模板的质量进行综合评价，选择综合评价质量最好的前N个模板。例如可以将某个模板所有特征的值进行归一化后，取所有特征的乘积，来作为该模板的综合评价指标。或者也可以将某个模板的所有特征的加权组合作为该模板的综合评价指标，权重根据实际数据环境或***需求来进行设置。当然，上述特征仅是举例说明的目的，在其他实施例中也可以采用上述特征的任一组合。

步骤1-2-6）、用模板库中高质量的模板在原始微博数据库中所有未标注的微博消息数据中抽取命名实体，记抽取出的所有结果为候选实体集合Ec。

例如，以模板“选手#对阵”为例，直接通过字符串匹配，在整个原始微博数据库中能匹配到诸如“中国选手丁俊晖对阵英格兰选手塞比尔”，“[世界斯诺克精英赛]中国选手周跃龙对阵怀特”等微博，因此抽取出的命名实体是“丁俊晖”和“周跃龙”。

步骤1-2-7）、利用候选命名实体和高质量模板在原始微博消息数据库中的共现关系计算候选命名实体的置信度，选择置信度高的前M个实体补充到种子库中。此步骤可以较好的控制噪音

也就是说，候选命名实体的置信度等于该命名实体和抽取该命名实体的模板在原始微博消息集合中同时出现的次数除以该命名实体在原始微博消息集合中出现的次数与该模板在原始微博消息集合中出现的次数的乘积。

步骤1-2-8）、重复步骤1-2-2）至步骤1-2-7），直到种子库不再扩大或达到预设的迭代次数。在上述步骤中，M和N均为大于1的整数，可以根据用户或***实际需求而设定。

在步骤13）、对于扩展后的种子库和模板库中的任意二元组<种子、模板>，两两组合成短语，在原始微博消息数据库中抽取出包含该短语的微博消息文本，用模板匹配出命名实体的边界，标记该命名实体的类别为种子所属的类别，最终生成符合微博数据特点的训练数据。这些训练数据为包含高质量模板和高质量种子实体的微博消息文本，其将作为训练命名实体识别器的标注语料。

例如种子库中的人名实体“刘欢”和模板库中的人名模板“听着#的歌”，组合成短语“听着刘欢的歌”，在原始微博数据库中可以抽取出微博“……长大后又听着刘欢的歌看电视《水浒》……”，用模板“听着#的歌”可以定位该微博中的人名实体边界为“刘欢”，标记实体“刘欢”的类别为人名。

步骤2，使用步骤1自动标注的微博消息数据作为训练数据集，利用该训练数据集来训练适用于微博消息的命名实体识别器，然后就可以利用训练好的命名实体识别器来识别微博消息中的命名实体。其中，命名实体识别器可以基于隐马尔科夫模型、最大熵模型、条件随机场模型等来进行训练。用于训练命名实体识别器的特征可以根据实际数据环境和***需求来确定。但是，所采用的特征会影响所训练的命名识别器的识别精度和效率。

在本发明的一个优选实施例中，为了更好地提高命名实体识别器的识别精度和效率，在步骤2，使用步骤1自动标注的微博消息数据作为训练集，抽取训练数据的多种语言知识特征，来训练条件随机场（ConditionalRandom Field，CRF）模型，从而得到适用于微博消息的命名实体识别器。其中，训练数据的多种语言知识特征可以从多种外部的语言知识中，根据设计的特征抽取组合形式来进行抽取。

图3给出了根据本发明一个实施例的训练命名实体识别器的过程示意图。其中，所述外部语言知识可表现为外部语言知识词表的形式。所述步骤2主要可包括：

步骤2-1）将训练集的每个微博消息文本中的每句文本作为一个标注序列，标注序列的每个标注单元为一个中文字符，对于每个标注序列的标注单元分别利用外部语言知识词表进行特征抽取。当遇到数字或外文字符串时，整个数字串或外文字符串为一个标注单元。每句文本是指被逗号、句号、叹号或分号分开的字符串，当多个这样的符号链接时，将其视为一个句子分隔符号。

所采用的外部语言知识词表可包括：词表1—组织机构后缀词表；词表2—地名汇总表；词表3—地名后缀表；词表4—姓氏表；词表5—常用人名单名字表；词表6—常用人名双字前一个字表；词表7—常用人名双字后一个字表；词表8—称谓列表；词表9：微博名人表（微博中加V认证的人物）；词表10—常用词汇表；词表11—常用单字词表。

对于每个标注单元，要抽取的外部语言知识特征包括：

1）当前的标注单元（每个中文字符）是否出现在词表1～词表11的任一个中。如果出现，则该特征可取“真”或“1”，否则可取“假”或“0”。

2）当前的标注单元和前接的一个字符是否出现在词表1、词表2、词表3、词表8、词表9或词表10中。如果出现，则该特征可取“真”或“1”，否则可取“假”或“0”。

3）当前的标注单元和前接的两个字符是否在词表1、词表2、词表3、词表8、词表9或词表10中。如果出现，则该特征可取“真”或“1”，否则可取“假”或“0”。

4）当前的标注单元和前接的三个字符是否在词表1、词表2、词表8、词表9或词表10中。如果出现，则该特征可取“真”或“1”，否则可取“假”或“0”。

5）当前的标注单元和前接的四个字符是否在词表1、词表2或词表10中。如果出现，则该特征可取“真”或“1”，否则可取“假”或“0”。

6）是否当前标注单元出现在词表5中，并且前接的一个字符出现词表4中。如果出现，则该特征可取“真”或“1”，否则可取“假”或“0”。

7）是否当前标注单元出现在词表6中，并且前接的一个字符出现词表4中。如果出现，则该特征可取“真”或“1”，否则可取“假”或“0”。

8）是否当前标注单元出现在词表7中，并且前接的一个字符出现词表6中。如果出现，则该特征可取“真”或“1”，否则可取“假”或“0”。

9）是否当前标注单元出现在词表7中，并且前接的两个字符，分别出现在词表6和词表4中。如果出现，则该特征可取“真”或“1”，否则可取“假”或“0”。

10）当前的标注单元和前接的两个字符或前接的一个字符构成的词汇，是否包含在词表9中（采用最长匹配）。如果出现，则该特征可取“真”或“1”，否则可取“假”或“0”。

这样，对于每个标注单元，都可以获取由10个元素组成的特征向量。以微博消息文本“据海淀税务局统计....”为例，对于其中的字符“局”，其符合当前的标注单元和前接的两个字符为词表1的词汇“税务局”（即出现在表1中），那么对标注单元“局”的3）特征取为真；该字符“局”也出现在在词表1～词表11的任一个中，因此对于那么对标注单元“局”的1）特征取为真；以此方式，可得到标注单元“局”的特征向量为（1,1,1,0,0,0,0,0,0,0）。以此方式，对于每个微博消息文本，可以得到由其所含所有字符的特征向量组成的特征矩阵。

训练基于CRF模型的命名实体识别器的过程主要包括：首先，对于标注的微博消息文本，将其中每个字符赋予一个标签，采用四类标签B、I、E、O，B代表实体的开始字符，I代表实体中间字符、E代表实体最后字符，O代表非实体字符。例如标注“看/O了/O赵/Bp本/Ip山/Ep的/O春/O晚/O小/O品/O”，其中Bp、Ip、Ep代表人名实体的开始、中间和结束，这样根据标注就知道句子中实体的位置，训练命名实体识别模型就是要根据这样标注的微博消息进行参数估计。然后，根据上述的外部语言知识特征抽取方法，对标注数据进行特征抽取之后，将每条标注的微博消息数据表示为特征的组合，并把所有的标注微博消息的特征集合作为CRF模型的输入。训练过程是根据最大似然方法估计每个特征函数的权重。当获取了所有特征函数的权重后，就意味着得到了训练好的命名实体识别器。

然后，对于待识别的微博消息，如上文所述利用外部语言知识词表抽取出该微博消息的外部语言知识特征，接着，利用训练好的命名实体识别器，采用维特比算法计算它具有最大概率的标注序列结果，从而识别出该微博消息中的命名实体。

在本发明的又一个实施例中，还提供了一种微博消息中命名实体识别***，该***包括自动标注装置、训练装置和识别装置。其中，自动标注装置，采用上文所述的方法基于被指定为种子的少量命名实体，从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集。训练装置采用上文所述的方法利用训练数据集来训练命名实体识别器。识别装置，利用训练好的命名实体识别器对微博消息中的命名实体进行识别。

为验证该方法的性能，发明人还进行了实验，以新浪微博为例，在采集到的所有微博消息中，选取2012年8月1日到2012年8月31日这一个月的数据（约5000万条）作为实验的目标数据集。在此数据集上运用本发明的弱监督方法进行命名实体识别。识别的命名实体类别为人名、地名和机构名。为了评价本发明的识别效果，随机选取部分微博消息进行人工标注，作为测试数据集。表2中列出了测试数据集的详细信息。

表2

微博总数	人名数量	地名数量	机构名数量
				15379	1654	1556	1055

结合上文所述的方法及所给出的实验目标数据集，具体实验及测试过程如下：

1）、对采集到的微博消息进行预处理，提取正文文本，过滤掉特殊字符、HTML标签等汉语正规标点符号以外的字符，存入原始微博数据库；

2）、对于人名、地名和机构名三个命名实体类别，分别给定10个属于该类别的实例作为种子，如上文表1中所列出的各类种子实体；

3）、采用上文所述的自动标注步骤，在原始微博数据库中自动挑选出一部分的微博数据，进行自动标注；

4）、利用上文所述的组织机构词表、地名汇总表、地名后缀表、姓氏表、常用人名单名字表、常用人名双字后一个字表、常用人名双字前一个字表、称谓列表、常用词汇表、常用单字词表11个词表，进一步提取已标注的微博数据中的外部语言知识特征。

5）、使用自动标注的微博数据作为训练集，结合提取的多个特征，训练CRF模型，以得到适用于微博的命名实体识别器。

对本发明的识别效果评测标准为：查准率和查全率，以及同时考虑查准率和查全率的F1值。表3列出了根据本发明实施例的命名实体识别方法在人名、地名和机构名上的识别效果。

（1）查准率等于所识别出的正确命名实体的数量除以所识别出的所有命名实体的数量。

（2）查全率等于所识别出的正确命名实体的数量除以微博消息中包含的所有命名实体的总数量。

表3

类别	查准率	查全率	F1值
				人名	85.8%	81.3%	83.5%
地名	87.2%	84.7%	85.9%
				机构名	80.1%	78.4%	79.2%

通过上文的具体实施例可以看出，与传统的有监督的命名实体识别方法相比，本发明提供的微博命名实体识别方法节省了人工标注数据的成本，只需指定少量已有的种子实体，便可自动标注高质量的训练集。对于微博消息这种更新速度较快的文本来说，显著缩减人工成本。而且，本发明用迭代的方式逐步产生高质量的标注数据，每次选择最能体现真实微博数据中命名实体出现规律的前M个新命名实体补充到种子库，最终生成的标注数据能很好的覆盖整个微博数据集。此外，传统的识别方法大多在中文分词的基础上展开，而微博用语不规范，包含大量缩略语、不符合文法的用语、歧义词和新词，本发明的方法在训练命名识别器时采用以字为单位的方式，避免了在命名实体识别时分词错误造成的误差累积。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims

1.一种微博消息中命名实体识别方法，该方法包括：

步骤1，指定少量命名实体作为种子，从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集；

步骤2，以该训练数据集来训练命名实体识别器；

2.根据权利要求1所述的方法，所述步骤1包括：

3.根据权利要求2所述的方法，在所述步骤12）中所述迭代生成模板和同类别的新命名实体，分别存入模板库和种子库包括：

4.根据权利要求3所述的方法，所述步骤（12-3）包括：

模板集中程度计算如下：

5.根据权利要求3所述的方法，所述步骤（12-5）中，所述命名实体的置信度等于该命名实体和抽取该命名实体的模板在原始微博消息集合中同时出现的次数除以该命名实体在原始微博消息集合中出现的次数与该模板在原始微博消息集合中出现的次数的乘积。

6.根据权利要求3所述的方法，所述步骤（12-2）包括：

标记该模板的类别为该种子实体所属的类别；

将所获取的所有模板作为候选模板集合。

7.根据权利要求1-6中任一项所述的方法，所述步骤2包括

8.根据权利要求7所述的方法，所述步骤2-1）中，所述外部语言知识词表包括：词表1，组织机构后缀词表；词表2，地名汇总表；词表3，地名后缀表；词表4，姓氏表；词表5，常用人名单名字表；词表6，常用人名双字前一个字表；词表7，常用人名双字后一个字表；词表8，称谓列表；词表9，微博名人表；词表10，常用词汇表；词表11，常用单字词表。

9.根据权利要求8所述的方法，在所述步骤2-1）中，对于每个标注单元，要抽取的外部语言知识特征包括：

a)当前的标注单元是否出现在词表1-词表11的任一个中；

b)当前的标注单元和前接的一个字符是否出现在词表1、词表2、词表3、词表8、词表9或词表10中；

c)当前的标注单元和前接的两个字符是否在词表1、词表2、词表3、词表8、词表9或词表10中；

d)当前的标注单元和前接的三个字符是否在词表1、词表2、词表8、词表9或词表10中；

e)当前的标注单元和前接的四个字符是否在词表1、词表2或词表10中；

f)是否当前标注单元出现在词表5中，并且前接的一个字符出现词表4中；

g)是否当前标注单元出现在词表6中，并且前接的一个字符出现词表4中；

h)是否当前标注单元出现在词表7中，并且前接的一个字符出现词表6中；

i)是否当前标注单元出现在词表7中，并且前接的两个字符，分别出现在词表6和词表4中；

j)当前的标注单元和前接的两个字符或前接的一个字符构成的词汇，是否包含在词表9中。

10.一种微博消息中命名实体识别***，该***包括：

训练装置，用于利用训练数据集来训练命名实体识别器；

11.根据权利要求10所述的***，所述训练装置还用于：