CN104572625A

CN104572625A - 命名实体的识别方法

Info

Publication number: CN104572625A
Application number: CN201510030187.4A
Authority: CN
Inventors: 孙孝雄
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Beijing Yunzhisheng Information Technology Co Ltd
Priority date: 2015-01-21
Filing date: 2015-01-21
Publication date: 2015-04-29

Abstract

本发明提供了命名实体的识别方法，涉及语言识别领域。本发明实施例提供的命名实体的识别方法，采用复合识别的方式，其通过先对每个语句进行分词处理，再在分词的结果基础上(得出待识别词语单位)，确认每个待识别词语单位的词性、语言结构和待识别词语单元在不同种类参考命名词典中的出现情况，并且进一步根据参考命名词典中不同待识别词语单元的出现情况(主要是待识别词语单元在哪种参考命名词典中出现了)和词性、语言结构来精确的确认命名实体识别结果，由于为每个待识别词语单位匹配了相对应的参考命名词典，由此，可以根据参考命名词典对待识别词语单位进行更为精确的命名实体识别。

Description

命名实体的识别方法

技术领域

本发明涉及语言识别领域，具体而言，涉及命名实体的识别方法。

背景技术

命名实体识别是信息提取、问答***、句法分析、机器翻译、面向Semantic Web(语义网，其是一个由全球信息网联盟的蒂姆·伯纳斯-李(Tim Berners-Lee)在1998年提出的一个概念，它的核心是：通过给全球信息网上的文档(如：标准通用标记语言下的一个应用HTML)添加能够被计算器所理解的语义“元数据(Meta data)”，从而使整个互联网成为一个通用的信息交换媒介)的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。一般来说，命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

在实际应用中我们往往需要更多的命名实体类别，比如音乐、视频、产品名称等等，但现有技术中，使用一个模型，或者是少量模型进行识别的方法通常是无法给出识别结果，或者是识别结果的精度较低。

发明内容

有鉴于此，本发明实施例的目的在于提供命名实体的识别方法，以提高命名实体识别的精度。

第一方面，本发明实施例提供了命名实体的识别方法，包括：

对预先获取的待分词语句进行分词，以确定一个或多个待识别词语单位；

确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典；

根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参考命名词典中的出现情况，确定每个待识别词语单位的命名实体识别结果。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述对预先获取的待分词语句进行分词，以确定一个或多个待识别词语单位还包括：

根据预先获取的通用分词模型对预先获取的语句进行分词，以确定粗略分词结果；

使用专有分词词典对所述粗滤分词结果进行纠正，以确定一个或多个待识别词语单位，所述专有分词词典包括与所述待分词语句相对应的标准领域分词词典和词频分词词典。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述使用专有分词词典对所述粗滤分词结果进行纠正，以确定一个或多个待识别词语单位包括：

按照词频分词词典中不同词语的出现概率，对所述粗略分词结果进行纠正；

根据所述标准领域分词词典，选择多种所述待确认分词方式中的一种方式作为所述待识别词语单位。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典包括：

根据863词性标注集，确定所述待识别词语单位的词性；

和/或

使用6标签的方式标识指定字在当前所述待识别词语单位中的位置，以确定待识别词语单位的语言结构。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典还包括：

获取不同领域的参考命名词典；

分别在每个所述参考命名词典中查找所述待识别词语单位，以确定记载有待识别词语单位的参考命名词典。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，还包括：

分别为每个所述参考命名词典赋予不同的数值，且第一组中全部参考命名词典的数值总和不等于第二组中全部参考命名词典的数值总和，其中，所述第一组和第二组中均分别包括有至少一个参考命名词典，且第一组中至少存在一个未在第二组中出现的参考命名词典；

分别确定每个待识别词语单位的词典数值，所述词典数值是出现有同一指定待识别词语单位的参考命名词典的数值总和；

根据待识别词语单位的词典数值确认待识别词语单元在不同种类参考命名词典中的出现情况。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，还包括：

使用不同位数的数字，分别为每个所述参考命名词典赋予不同的数值。

结合第一方面，本发明实施例提供了第一方面的第七种可能的实施方式，其中，所述根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参考命名词典中的出现情况，确定每个待识别词语单位的命名实体识别结果包括：

根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参考命名词典中的出现情况，在预设的对应列表中查询每个待识别词语单元所对应的命名实体识别结果。

结合第一方面，本发明实施例提供了第一方面的第八种可能的实施方式，其中，还包括：若所述对应列表中不存在与识别困难的待识别词语单元相对应命名实体识别结果，则在记载有待识别词语单位的参考命名词典中，查找与识别困难的待识别词语单元的词性和语言结构相同的参考词语；

若查找到与识别困难的待识别词语单元的词性和语言结构相同的参考词语，则根据所述对应列表中查找所述参考词语的命名实体识别结果；

将所述参考词语的命名实体识别结果作为识别困难的待识别词语单元的命名实体识别结果。

结合第一方面，本发明实施例提供了第一方面的第九种可能的实施方式，其中，还包括：将识别困难的待识别词语单元与对应的命名实体识别结果添加入预设的对应列表中。

本发明实施例提供的命名实体的识别方法，采用复合识别的方式，与现有技术中的识别结果精度较低相比，其通过先对每个语句进行分词处理，再在分词的结果基础上(得出待识别词语单位)，确认每个待识别词语单位的词性、语言结构和待识别词语单元在不同种类参考命名词典中的出现情况，并且进一步根据参考命名词典中不同待识别词语单元的出现情况(主要是待识别词语单元在哪种参考命名词典中出现了)和词性、语言结构来精确的确认命名实体识别结果，由于为每个待识别词语单位匹配了相对应的参考命名词典，由此，可以根据参考命名词典对待识别词语单位进行更为精确的命名实体识别。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的命名实体的识别方法的基本流程图；

图2示出了本发明实施例所提供的命名实体的识别方法的细节流程图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了命名实体的识别方法，如图1所示，包括如下步骤：

S101，对预先获取的待分词语句进行分词，以确定一个或多个待识别词语单位；

S102，确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典；

S103，根据待识别词语单位的词性、语言结构和待识别词语单元在不同种类参考命名词典中的出现情况，确定每个待识别词语单位的命名实体识别结果。

对语句，或者文章进行命名实体识别的目的是：通过预先对语句或者其他语言单位中的词语进行标签设置的基础上，在需要快速确定有效信息的时候，能够根据标签进行搜索，以高效的提取出对自身有用的信息。具体使用时，由于使用者在不同的情况下，或者是不同领域的使用者所关注的词语不同，因此可以通过设置标签的方式来快速的帮助使用者(即使是不同领域的使用者)快速抓取出某句话中的主要信息，或者需要关注的信息。

在进行命名实体识别之前，需要先进行分词，以确定命名基础。分词的作用是将一句话中的多个字有效的划分为一个或多个词，具体分词的方式较多，可以使用现有技术中的分词方式对句子进行相应的分词处理。也就是执行步骤S101，对预先获取的待分词语句进行分词，以确定一个或多个待识别词语单位。待识别词语单位也就是已经分好的词。

步骤S102中，需要确定每个待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典。其中，需要进行词性、语言结构和参考命名词典确认的词是使用者需要进行命名实体识别的词，并不一定是整句话中的每个词。语言结构指的是一个词中每个字的顺序位置，如可以使用B表示词的开始，E表示词的结尾，M表示词的中间，B1、B2为当词大于三个字的时候表计在首个字之后的两个字。具体的标注形式有很多，再此不一一列举，此部分的目的是将词语的中的结构进行明确和细分，以便于在最终进行命名实体识别的时候能够起到更为精确的辅助作用。步骤S102中的重要部分是确定记载有待识别词语单位的参考命名词典，参考命名词典可以理解为命名实体识别词典，通常，参考命名词典可以是预先准备多个，且这些参考命名词典均是不同领域的，或者是同一领域中收集了不同方面的词语。通过使用不同类别的参考命名词典，能够使一个句子(预先获取的待分词语句)得到充分的分析，从而使得确定的命名实体识别结果更为精确。并且可以通过对不同领域的命名实体识别词典进行多级的划分，实现更为精确的识别。如可以将命名实体识别词典分为自然科学和社会科学，还可以将命名实体识别词典的自然科学种类分为生物、电学、化学等。通过多级别的分类能够在可以使用更小分类的时候，对待识别词语单位进行精确的命名实体识别，但某些情况下，细小的分类反而对精确识别带来副作用，如某些领域的文章就是跨领域的，因此在确认记载有待识别词语单位的参考命名词典的时候，可以根据待识别词语单位在某个词典中的出现概率来确定是否使用这个领域的词典(或者说是某个具体的词典)作为“记载有待识别词语单位的参考命名词典”。具体如出现“待识别词语单位”超过2次的词典，才能够作为“记载有待识别词语单位的参考命名词典”。除了根据出现次数来确定某个词典是否作为“记载有待识别词语单位的参考命名词典”，还可以根据出现的次数比作为依据。如某个“待识别词语单位”在预先获取的待分词语句，或者是预先获取的带分词文章中出现了10词，但其他需要识别的待分词语句则出现了上千次，那么由于二者的比例悬殊，因此可以主要以出现次数较多的参考命名词典作为“记载有待识别词语单位的参考命名词典”。

步骤S103中，根据待识别词语单位的词性、语言结构和待识别词语单元在不同种类参考命名词典中的出现情况，确定每个待识别词语单位的命名实体识别结果，也就是通过词性、语言结构，在预设的对应表(可以理解为参考命名词典中的对应表)中查找与词性、语言结构相符合的命名实体，进而，基于能够准确的确定待识别词语单位所对应的参考命名词典(记载有待识别词语单位的参考命名词典)能够确定出来准确的命名实体识别结果。

具体的，步骤S101，所述对预先获取的待分词语句进行分词，以确定一个或多个待识别词语单位还包括：

其中，通用分词模型是指相关技术中通常使用的分词模型，但使用通常的分词模型没有针对性，因此，会造成一定程度上的不准确，例如某些语句中存在的词语，可以是使用不同的划分方式进行划分的，如“放风筝”，本身作为动词+名词使用，但某些情况下(某电影名也是“放风筝”)则需要作为一个名词来使用，此时则会造成分词的结果产生不准确的情况。由此可以通过使用词频分词词典来进一步纠正使用通用分词模型分词得到的结果。

词频词典，是根据大规模的语料(句子分词结果)统计出来的词语的频次比如：

1234风筝；

233放风；

表示在我们的语料中出现风筝的次数是1234次，出现放风是233次，当分词结果是“放-风-筝”时，我们发现“放风”和“风筝”都是一个正确的词，这时候我们利用“风筝”的词频大于放风的，确定最后的分词结果“放-风筝”，而最后“放风筝”是一个电影名称，是命名实体识别的结果。

具体的，使用专有分词词典对所述粗滤分词结果进行纠正，以确定一个或多个待识别词语单位包括：

也就是可以根据词频分词磁电中不同词语的出现情况，选择出现频率较高的分词方式来对语句进行划分。并且可以通过第三方提供的标准领域分词词典来进一步进行更为精准的矫正。需要说明的是，标准领域分词词典通常是使用者提供的，当使用者所处的领域较为独特的时候，该领域的专有名词是无法以词频分词词典和通用分词词典进行分词，使用普通的词典要么无法分解出足够的待识别词语单位，要么分出来的待识别词语单位是错误的。如“在油检测”，使用通常的词典是无法识别在油这两个字的，只能将“在”和“油”分开来区分，但实际上，在仪器测试领域，“在油检测”是一个常用词汇，其表达了在某种具体的工作环境下进行的检测，因此此时，如果使用者不提供这种专有名词的解析和分词方式，使用普通的方式进行分词，是难以得到精准的分词结果的。

需要说明的是，通常，标准领域分词词典的容量较小，由于专有名词的数量是较少的，因此可以在分词的最后进行校验即可，如果首先使用标准领域分词词典进行分词的话，很多语句是无法进行正常的分词的。使用标准领域分词词典的时候可以是针对使用普通分词词典(词频分词词典和通用分词模型)无法分解的长短语进行的，或者是联系上下文无法解释同的词语进行的，如两个名词连续出现，如只有形容词出现，也就是可以在语句缺少必要组成部分的时候考虑使用标准领域分词词典，以进一步提高准确性。

下面列举分别一种常用的分词方式和词性标注方式。也就是所述确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典包括：

863词性标注集，是北京大学的一种词性标注的规范，一种对词性的具体分类以及对应的表示，如下表：

Tag	Description	Example	Tag	Description	Example
						‐‐‐	‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐	‐‐‐‐‐‐‐‐‐‐	‐‐‐	‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐	‐‐‐‐‐‐‐‐‐‐
a	adjective	美丽	ni	organizationname	保险公司
						b	other noun‐modifier	大型,西式	nl	locationnoun	城郊
c	conjunction	和,虽然	ns	geographicalname	北京
						d	adverb	很	nt	temporalnoun	近日,明代
e	exclamation	哎	nz	otherpropernoun	诺贝尔奖
						g	morpheme	茨,甥	o	onomatopoeia	哗啦
h	prefix	阿,伪	p	preposition	在,把
						i	idiom	百花齐放	q	quantity	个
j	abbreviation	公检法	r	pronoun	我们
						k	suffix	界,率	u	auxiliary	的,地
m	number	一,第一	v	verb	跑,学习
						n	general noun	苹果	wp	punctuation	，。！
nd	direction noun	右侧	ws	foreignwords	CPU
						nh	person name	杜甫,汤姆	x	non‐lexeme	萄,翱
m	number	一,第一	v	verb	跑,学习
						n	general noun	苹果	wp	punctuation	，。！
nd	direction noun	右侧	ws	foreignwords	CPU
						nh	person name	杜甫,汤姆	x	non‐lexeme	萄,翱

根据863词性标注集，确定所述待识别词语单位的词性；

和/或

863词性标注集是较为常用的词性标注方式，其标注的词性足够细致，词性标注结果能够直接被最终的命名实体识别词典所使用。

6标签模型是一种词的表示方式，B词的开始，B1在B之后，B2在B1之后，M词中，E词的结尾，S单独成词，具体如下

我/B 们/E

的/S

毛/B 泽/M 东/E

十/B 面/B1 埋/M 伏/E

上/B 海/B1 交/B2 通/M 大/M 学/E

即当词字数大于三的情况下，即词中的数目大于等于2，这时候，在B之后的用B1、B2表示，其他的均用M表示，但是保证至少有一个M

6标签(6tag模型)也是较为常用的一种分词模型。

具体的，步骤S102，所述确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典还包括：

获取不同领域的参考命名词典；

在分词的基础之上，可以通过获得的不同领域的参考命名词典来精确的对语句中的待识别词语单位进行命名实体识别。如可以分为动画类、纪实类、动作类等等分类的参考命名词典，在确认记载有待识别词语单位的参考命名词典的时候，可以根据词典中的词语在原句，或者是原文章中出现的次数或者频率来选择是否将该词典作为“记载有待识别词语单位的参考命名词典”。依次，来降低***参考词典的数量，从而简化命名实体识别的步骤，并且可以，由于某些词汇在其他词典(准确词典)中出现的概率较高，因此待分词语句，或者待分词文章可以更多的以准确词典中的识别方式为准。

进一步，本发明所提供的命名实体的识别方法，如图2所示，还包括如下步骤：

在***进行识别的时候，如果同时记录，或者说标识每个词/词出现在哪些词典中是比较繁琐的，而且不容易被使用者所识别到。因此，可以通过只记录数字的方式来说明某个字/词出现在哪些参考命名词典中。但是考虑到使用任意的数字来表示词典会造成混乱的现象，如ABCD四个词典分别赋值1234，那么在某个字/词标注为3的时候，不清楚是出现在了C词典中，还是同时出现在了A和B词典中，因此需要在赋予不同词典数值的时候，保证：第一组中全部参考命名词典的数值总和不等于第二组中全部参考命名词典的数值总和，其中，所述第一组和第二组中均分别包括有至少一个参考命名词典，且第一组中至少存在一个未在第二组中出现的参考命名词典，也就是：分两次从整体中，选择多个词典，这两次选择的词典至少有一个不相同，则需要保证一次选择的多个词典的数值总和要与另一次选择的词典的数值总和不同。如下例：可以采用2为首项，2为通项公式的等比数列来设置数值，也就是2,4,8,16等等数值。那么分别赋予A-D四个词典以2，4，8，16这些数值，不论如何从A-D中选择词典，其词典所对应的数值的总和必然是不相等的(每次选择时，至少比其他次选择的时候有一个词典是不同的)。其原理是，两次选择的词典中忽略掉相同的词典(这些相同的词典的数值是相同的，能够抵消)，必然会有某一次选择的时候存在一个数值较大的词典，这个词典的数值大于已选的所有词典数值的总和(通过等比数列求和能够简单得出：前X项的总和必然小于X+1项)；因此可以断定：两次选择中，只要有一个词典的差别，两次选择的总数值就必然不同。由此，可以使用此种方式(只用一个数字)来表示某个字/词出现在了哪些词典中(并且不会发生逻辑冲突，即，某个数字可以解释为两种含义)。

还可以是，使用不同位数的数字，分别为每个所述参考命名词典赋予不同的数值且识别数字只有首位为非零数字。不同位数的数字相加就是使用了每个位置上数字的特点，使用一个数位来表示一个词典。

其中，步骤所述根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参考命名词典中的出现情况，确定每个待识别词语单位的命名实体识别结果包括：

也就是可以通过预先设置的对应表来确定待识别词语单元所对应的命名实体识别结果，这个对应表可以提前录入到电脑中，以便于电脑自动是被。

进一步，如图2所示，本发明所提供的命名实体的识别方法还包括：S201，若对应列表中不存在与识别困难的待识别词语单元相对应命名实体识别结果，则在记载有待识别词语单位的参考命名词典中，查找与识别困难的待识别词语单元的词性和语言结构相同的参考词语；

S202，若查找到与识别困难的待识别词语单元的词性和语言结构相同的参考词语，则根据对应列表中查找参考词语的命名实体识别结果；

S203，将参考词语的命名实体识别结果作为识别困难的待识别词语单元的命名实体识别结果。

也就是，当存在难以识别的待识别词语单元的时候，可以使用类比的方式来确定该待识别词语单元的命名实体识别结果。即，根据识别困难的待识别词语单元的词性和语言结构在已有的资料中查找相同的参考词语，通过识别参考词语的命名实体识别结果进而能够得出识别困难的待识别词语单元的命名实体识别结果。进一步，还可以是：将识别困难的待识别词语单元与对应的命名实体识别结果添加入预设的对应列表中。以保证下次遇到识别困难的待识别词语单元能够直接识别。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.命名实体的识别方法，其特征在于，包括：

2.根据权利要求1所述的命名实体的识别方法，其特征在于，所述对预先获取的待分词语句进行分词，以确定一个或多个待识别词语单位还包括：

3.根据权利要求2所述的命名实体的识别方法，其特征在于，

所述使用专有分词词典对所述粗滤分词结果进行纠正，以确定一个或多个待识别词语单位包括：

4.根据权利要求1所述的命名实体的识别方法，其特征在于，所述确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典包括：

根据863词性标注集，确定所述待识别词语单位的词性；

和/或

5.根据权利要求1所述的命名实体的识别方法，其特征在于，所述确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典还包括：

获取不同领域的参考命名词典；

6.根据权利要求5所述的命名实体的识别方法，其特征在于，还包括：

7.根据权利要求6所述的命名实体的识别方法，其特征在于，还包括：

使用不同位数的识别数字，分别为每个所述参考命名词典赋予不同的数值，且识别数字只有首位为非零数字。

8.根据权利要求1所述的命名实体的识别方法，其特征在于，

所述根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参考命名词典中的出现情况，确定每个待识别词语单位的命名实体识别结果包括：

9.根据权利要求8所述的命名实体的识别方法，其特征在于，还包括：若所述对应列表中不存在与识别困难的待识别词语单元相对应命名实体识别结果，则在记载有待识别词语单位的参考命名词典中，查找与识别困难的待识别词语单元的词性和语言结构相同的参考词语；

10.根据权利要求9所述的命名实体的识别方法，其特征在于，还包括：将识别困难的待识别词语单元与对应的命名实体识别结果添加入预设的对应列表中。