CN108491373A

CN108491373A - 一种实体识别方法及***

Info

Publication number: CN108491373A
Application number: CN201810101815.7A
Authority: CN
Inventors: 任可欣; 冯知凡; 陆超; 张扬; 李莹
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2018-09-04
Anticipated expiration: 2038-02-01
Also published as: CN108491373B

Abstract

本申请提供一种实体识别方法，所述方法包括：利用自然语言处理方法对输入文本进行分词并进行实体标注；根据知识库实体词典，利用前向最大匹配方法对输入文本进行匹配；判断命中知识库实体词典的字符串是否符合预设词性规则，将符合预设词性规则的字符串作为实体修正结果；利用所述实体修正结果对自然语言处理分词得到的实体标注结果进行修正。修正了分词边界错误减少了实体识别的人力成本，提高了整体效率，改善了未收录实体的识别效果。

Description

一种实体识别方法及***

【技术领域】

本申请涉及自然语言处理技术领域，尤其涉及一种实体识别方法及***。

【背景技术】

Entity实体是指存在于现实世界中并且可以与其他物体区分开来的物体。Entity Mention是指自由文本中可以表示一个实体的字符子串。实体识别是指对文本中的人名、地名等专有名称进行识别。例如，输入短文本，如 query，title等，输出短文本中的Entity实体；如，输入“周杰伦昆凌婚礼”，输出“周杰伦昆凌婚礼”，以达到实现对文本理解的目的。

实体识别是信息提取、问答***、句法分析、实体链指、机器翻译等应用领域重要的基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。

传统的实体识别方法主要分为：

(1)基于领域规则和词典的方法。该方法基于语言学家手工编写的语法规则，根据词法、句法等相关信息进行识别。

(2)基于机器学习的方法。基于已经人工标注好的训练预料，训练诸如条件随机场、隐马尔可夫模型等序列标注模型，从而对未标注数据进行预测。

但是，上述方案都需要大量的人力成本，并且对于未收录实体的识别效果较差。

首先，基于规则和字典的方法，需要领域专家配置规则，一般在小数据集上准确较高，但是召回低；并且不能识别词典之外的实体，即使在词典内，基于规则词典的方法无法解决实体歧义问题；很难扩展到多领域，领域专家配置规则人力成本较大。

其次，基于机器学习的方法，作为目前主流的解决方案，为了取得比较好的训练效果，需要人力标注高质量的训练模型，人力成本较高；由于是从标注的训练数据中学习，对于未收录实体识别效果较差；并且对没有明显特征的实体，如歌曲名、影视名等识别效果较差。

另外，由于短文本，如query，title等，表达不规范及一些新热门实体的出现，会导致基础的分词工具会将一些新出现的实体切散，造成识别效果较差。

【发明内容】

本申请的多个方面提供一种实体识别方法及***，用以减少实体识别的人力成本，提高整体效率，改善未收录实体的识别效果。

本申请的一方面，提供一种实体识别方法，包括：

对输入文本进行分词并进行实体标注；

根据知识库实体词典，利用前向最大匹配方法对输入文本进行匹配；

判断命中知识库实体词典的字符串是否符合预设词性规则；

利用符合预设词性规则的字符串，修正所述输入文本的实体标注结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述知识库实体词典包括：

知识库的百科实体中的名称字段；百科推送的人工整理的别名；百科中挖掘的别名。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，根据知识库实体词典，利用前向最大匹配方法对输入文本进行匹配还包括：

根据新实体词典，对未命中知识库实体词典的字符串进行匹配；

若命中新实体词典，则跳过所述字符串，继续进行前向最大匹配；

若未命中新实体词典，则判断所述字符串是否符合预设词性规则，将符合预设词性规则的字符串作为分词结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，将符合预设词性规则的字符串作为实体修正结果包括：

将符合预设词性规则的字符串作为候选实体，判断是否遍历输入文本；

如果已遍历，则将候选实体作为分词结果；

如果未遍历，则继续进行前向最大匹配。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述预设词性规则为：实体字符串为名词及由形容词修饰的名词。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述新实体词典通过以下步骤获得：

获取搜索词；

对每个搜索词以字符为粒度，设置窗口，计算每个窗口内字符串的互信息及左右信息熵；

将同时满足预设的互信息阈值、左信息熵阈值和右信息熵阈值的字符串作为实体；

去除已经收录在知识库实体词典中的实体，得到新实体词典。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，利用所述实体修正结果对自然语言处理分词得到的实体标注结果进行修正包括：

将实体标注结果中被切散的多个实体替换为实体修正结果中对应的单个实体。

本申请的另一方面，提供一种实体识别***，包括：

实体标注模块，用于对输入文本进行分词并进行实体标注；

知识库实体词典匹配模块，用于根据知识库实体词典，利用前向最大匹配方法对输入文本进行匹配；

词性规则判断模块，用于判断命中知识库实体词典的字符串是否符合预设词性规则；

修正模块，用于利用符合预设词性规则的字符串，修正所述输入文本的实体标注结果。

知识库的百科实体中的name字段；百科推送的人工整理的别名；百科中挖掘的别名。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述 ***还包括新实体词典匹配模块，用于：

若命中新实体词典，则跳过所述字符串，则由知识库实体词典匹配模块继续进行前向最大匹配；

若未命中新实体词典，则由词性规则判断模块判断所述字符串是否符合预设词性规则，将符合预设词性规则的字符串作为分词结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述词性规则判断模块具体还用于：

如果已遍历，则将候选实体作为分词结果；

如果未遍历，则由知识库实体词典匹配模块继续进行前向最大匹配。

获取用户搜索词；

对每个搜索词以字为粒度，设置窗口，计算每个窗口内字符串的互信息及左右信息熵；

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述修正模块具体用于：

本申请的另一方面，提供一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现任一上述的方法。

本申请的另一方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现任一上述的方法。

由所述技术方案可知，采用本实施例提供的技术方案，修正了分词边界错误减少了实体识别的人力成本，提高了整体效率，改善了未收录实体的识别效果。

【附图说明】

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的实体识别方法的流程示意图；

图2为本申请另一实施例提供的实体识别***的结构示意图；

图3为适于用来实现本发明实施例的示例性计算机***/服务器的框图。

【具体实施方式】

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A 和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本申请一实施例提供的实体识别方法的流程图，如图1所示，包括以下步骤：

步骤S11、利用自然语言处理方法对输入文本进行分词并进行实体标注；

步骤S12、根据知识库实体词典，利用前向最大匹配方法对输入文本进行匹配；

步骤S13、判断命中知识库实体词典的字符串是否符合预设词性规则；

步骤S14、利用符合预设词性规则的字符串，修正所述输入文本的实体标注结果。

在步骤S11的一种优选实现方式中，

在知识库实体词典中对输入文本进行查询；

如果命中，则将所述输入文本作为实体识别结果并进行词性标注；例如，用户输入的文本仅仅是由一个实体组成，且所述实体已经收录在知识库实体词典中，则可以直接识别并进行输出，而无需后续步骤。

如果未命中，对输入文本进行分词，并根据知识库实体词典对分词结果进行词性标注。

优选地，采用NLP自然语言处理技术进行分词，例如基于词典(基于字典、词库匹配)、基于统计(基于次频度统计)、基于规则(基于知识理解) 的分词算法对输入的短文本进行分词。

优选地，采用百度NLPC平台对输入文本进行分词及实体标注。

但是，采用NLP自然语言处理技术进行分词容易出现分词边界错误，例如，输入文本为“犬夜叉之最强的妖下载”，其中“犬夜叉之最强的妖”是个具有完整语义的实体(已经收录在知识库实体词典中)，但采用NLP自然语言处理技术进行分词会将其切散为“犬夜叉n之u最强a的u妖Ng”，从而导致分词边界错误。另外，由于短文本(如query、title等)中可能会存在未登录实体(知识库实体词典中未收录的新实体)，例如网络上出现新词，这部分未登录实体往往会被切分导致NLP的分词边界错误。因此，需要对上述分词边界错误进行修正。

在步骤S12的一种优选实现方式中，

优选地，根据知识库实体词典中的最长实体的汉字字符数i作为匹配窗口长度，将输入文本的前i个字符作为候选字符串，查找知识库实体词典。

如果取出的候选字符串命中知识库实体词典，判断所述候选字符串是否符合词性规则限制。

如果取出的候选字符串未命中知识库实体词典，继续利用新实体词典进行匹配；若命中新实体词典，则跳过该候选字符串(目前，由于挖掘的新实体准确率为60％，无法直接作为实体词典，因此对于命中新实体词典的mention 采用不召回策略，以损失召回的方式来提高整体准确率)，减小匹配窗口，将候选字符串的最后一个字符去掉，对剩下的字符串继续进行前向最大匹配。

优选地，若未命中新实体词典，则判断所述候选字符串是否符合词性规则，以提高召回率(例如，一些生僻词既未收录在知识库实体词典中，也未收录在新实体词典中，但是，只要其符合名词的词性规则限制，则将其作为候选实体，以提高召回率)。

在步骤S13的一种优选实现方式中，

优选地，判断所述候选字符串是否符合词性规则限制进一步包括：如果符合，则将所述候选字符串作为候选实体；如果不符合，则跳过该候选字符串，减小匹配窗口，将候选字符串的最后一个字符去掉，对剩下的字符串继续进行前向最大匹配。

其中，所述词性规则如下：根据汉语的语言模式，一个有意义的实体字符串为名词及由形容词修饰的名词。例如，输入的短文本为“学习韩语的方法”，其中，“学习韩语”是知识库中的一个实体，收录在知识库实体词典中，因此，由于“学习汉语”命中了知识库实体词典，会将本来NLP正确的分词结果错误拼接，需要判断其是否符合词性规则限制来对前向最大匹配结果进行校验。在“学习韩语”的case中，由于“学习”是动词，不满足由形容词修饰的名词的假设，因此不会将“学习韩语”作为候选实体，需要跳过该候选字符串，减小匹配窗口，将候选字符串中的最后一个字符去掉，对剩下的字符串继续进行前向最大匹配。

将所述符合词性规则限制的候选字符串列为候选实体后还包括以下步骤：

判断是否遍历输入文本，如果是，则输出所有与候选实体；如果否，将所述候选实体从短文本中去掉，对剩下的字符串继续进行前向最大匹配。

在步骤S14的一种优选实现方式中，

优选地，将实体标注结果中被切散的多个实体替换为实体修正结果中对应的单个实体，以修正NLP分词边界错误。

例如，将NLP分词得到的实体“犬夜叉”、“妖”替换为“犬夜叉之最强的妖”。

优选地，所述知识库实体词典是通过以下步骤获得的：

获取知识库的百科实体中的name字段；

接收百科推送的人工整理的别名；

从百科info-box挖掘别名，例如，“周杰伦”的别名为“周董”。

优选地，所述新实体词典是通过以下步骤获得的：

1)获取搜索引擎的querylog；

2)对于每一个query以字为粒度，设置窗口，计算每个窗口内字符串的互信息及左右信息熵；

互信息其中p(x,y)是X和Y的联合概率分布函数，而p(x)和p(y)分别是X和Y的边缘概率分布函数。

互信息体现了两个变量X，Y之间的相互依赖程度，互信息值越高，表明X和 Y的相关性越高，则X和Y组成有意义的实体的可能性越大。

左右熵是指多字词表达的左边界的熵和右边界的熵，以左熵为例，对一个字符串左边所有可能的词以及词频，计算信息熵，然后求和。

对于字符串w，左右熵的公式如下:

其中，a表示字符串w的相邻词语，左右熵值越高，表明字符串w组成有意义的实体的可能性越大。

左右熵反应了term的自由度，例如，对于“齐天大圣”，计算其右熵可以得到E(齐天大*)<<E(齐天大圣*)，可以看到，“齐天大圣”作为一个字符串组成有意义的实体可能性更大。

3)根据预设的互信息阈值、左信息熵阈值和右信息熵阈值，将同时满足上述阈值的字符串作为实体。

4)从得到的实体中去除已经收录在知识库实体词典中的实体，得到新实体词典。

通过对海量的用户query log进行处理，可以及时得挖掘到新出现的实体。

目前，由于通过上述方法挖掘的新实体准确率为60％，无法直接作为实体词典，仅作为新实体词典，因此对于命中新实体词典的实体采用不召回策略，以损失召回的方式来提高整体准确率。

本实施例所述方法，基于知识库实体词典，采用前向最大匹配，修正分词边界错误，将切散的实体重新拼接起来；从querylog中挖掘新实体词典，来解决了分词边界错误。减少了实体识别的人力成本，提高了整体效率，改善了未收录实体的识别效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在所述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图2为本申请一实施例提供的实体识别***的结构图，如图2所示，包括：

实体标注模块21，用于对输入文本进行分词并进行实体标注；

知识库实体词典匹配模块22，用于根据知识库实体词典，利用前向最大匹配方法对输入文本进行匹配；

词性规则判断模块23，用于判断命中知识库实体词典的字符串是否符合预设词性规则；

修正模块24，用于利用符合预设词性规则的字符串，修正所述输入文本的实体标注结果。

在实体标注模块21的一种优选实现方式中，

在知识库实体词典中对输入文本进行查询；

优选地，采用百度NLPC平台对输入文本进行分词及实体标注。

在知识库实体词典匹配模块22的一种优选实现方式中，

在词性规则判断模块23的一种优选实现方式中，

所述***还包括遍历模块25，用于在将所述符合词性规则限制的候选字符串列为候选实体后，判断是否遍历输入文本，如果是，则输出所有与候选实体；如果否，将所述候选实体从短文本中去掉，由知识库实体词典匹配模块22对剩下的字符串继续进行前向最大匹配。

在修正模块24的一种优选实现方式中，

优选地，所述知识库实体词典是通过获取知识库的百科实体中的name字段、接收百科推送的人工整理的别名、从百科info-box挖掘别名获得的。例如，“周杰伦”的别名为“周董”。

优选地，所述新实体词典是通过以下步骤获得的：

1)获取搜索引擎的querylog；

对于字符串w，左右熵的公式如下:

3)对每个窗口内字符串的互信息及左右信息熵求和，通过阈值过滤获得新实体词典。

本实施例所述***，基于知识库实体词典，采用前向最大匹配，修正分词边界错误，将切散的实体重新拼接起来；从query log中挖掘新实体词典，来解决了分词边界错误。减少了实体识别的人力成本，提高了整体效率，改善了未收录实体的识别效果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

图3示出了适于用来实现本发明实施方式的示例性计算机***/服务器 012的框图。图3显示的计算机***/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，计算机***/服务器012以通用计算设备的形式表现。计算机***/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，***存储器028，连接不同***组件(包括***存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

计算机***/服务器012典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器028可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机***/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储***034可以用于读写不可移动的、非易失性磁介质(图3未显示，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机***/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机***/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机***/服务器012交互的设备通信，和/或与使得该计算机***/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机***/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图3所示，网络适配器020通过总线018与计算机***/服务器012的其它模块通信。应当明白，尽管图3中未示出，可以结合计算机***/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元016通过运行存储在***存储器028中的程序，从而执行本发明所描述的实施例中的功能和/或方法。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括— —但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如 Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种实体识别方法，其特征在于，包括：

对输入文本进行分词并进行实体标注；

判断命中知识库实体词典的字符串是否符合预设词性规则；

2.根据权利要求1所述的方法，其特征在于，所述知识库实体词典包括：

3.根据权利要求1所述的方法，其特征在于，根据知识库实体词典，利用前向最大匹配方法对输入文本进行匹配还包括：

4.根据权利要求3所述的方法，其特征在于，判断命中知识库实体词典的字符串是否符合预设词性规则还包括：

如果已遍历，则将候选实体作为分词结果；

如果未遍历，则继续进行前向最大匹配。

5.根据权利要求4所述的方法，其特征在于，所述预设词性规则为：实体字符串为名词及由形容词修饰的名词。

6.根据权利要求3所述的方法，其特征在于，所述新实体词典通过以下步骤获得：

获取搜索词；

7.根据权利要求1所述的方法，其特征在于，利用所述实体修正结果对自然语言处理分词得到的实体标注结果进行修正包括：

8.一种实体识别***，其特征在于，包括：

实体标注模块，用于对输入文本进行分词并进行实体标注；

9.根据权利要求8所述的***，其特征在于，所述知识库实体词典包括：

10.根据权利要求8所述的***，其特征在于，所述***还包括新实体词典匹配模块，用于：

11.根据权利要求10所述的***，其特征在于，所述词性规则判断模块具体还用于：

如果已遍历，则将候选实体作为分词结果；

12.根据权利要求11所述的***，其特征在于，所述预设词性规则为：实体字符串为名词及由形容词修饰的名词。

13.根据权利要求10所述的***，其特征在于，所述新实体词典通过以下步骤获得：

获取用户搜索词；

14.根据权利要求8所述的***，其特征在于，所述修正模块具体用于：

15.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。