CN107391485A

CN107391485A - 基于最大熵和神经网络模型的韩语命名实体识别方法

Info

Publication number: CN107391485A
Application number: CN201710586675.2A
Authority: CN
Inventors: 程国艮; 李世奇
Original assignee: Mandarin Technology (beijing) Co Ltd
Current assignee: Mandarin Technology (beijing) Co Ltd
Priority date: 2017-07-18
Filing date: 2017-07-18
Publication date: 2017-11-24
Also published as: US20200302118A1; WO2019015269A1

Abstract

本发明属于命名实体识别技术领域，公开了一种基于最大熵和神经网络模型的韩语命名实体识别方法，包括：构建前缀树字典，当任意一个组合名词和专有名词的模板在输入句子中匹配时，识别为目标词；通过目标词选择模块中得到目标词，从实体字典中查找该目标词，当只匹配到一个子类别时，子类别作为目标词的标签；采用最大熵模型，利用多种语言学信息；构造前馈神经网络模型；通过模板选择规则将邻接词组成一个实体标签。本发明使用的所有数据是从带标签的训练语料和领域无关实体字典中抽取的，可以很容易移植到其它应用领域，性能也不会明显降低。

Description

基于最大熵和神经网络模型的韩语命名实体识别方法

技术领域

本发明属于命名实体识别技术领域，尤其涉及一种基于最大熵和神经网络模型的韩语命名实体识别方法。

背景技术

命名实体识别(Named Entities Recognition,NER)是自然语言处理领域的一项基础任务。其研究主体命名实体一般包括3大类(实体类、时间类和数字类)和7小类(人名、地名、机构名、时间、日期、货币和百分比)。时间和数字类实体可通过有限状态机进行识别，较为简单。但人名、地名、组织机构名等实体类具有开放性，不断有新的命名实体产生，而且存在着很多歧义现象，采用地点的方法很难解决。要准确标注命名实体类型，常常要涉及语义层次的分析，并且韩语的命名实体中没有具体的特征，如英文中首字母的大写特征，因此韩语的命名实体识别是比较困难的。

目前一般采用两种方法进行实体识别，一种是基于规则和实体词典的方法进行命名实体识别，这种方法规则需要人工编写大量语言学规则，过程繁琐、代价很高，并且可移植性较差。另一种是基于统计方法进行实体识别，通过人工标注的语料库训练统计模型，标注新的命名实体。隐马尔可夫模型是较为常用的统计模型方法，但实际应用时该模型特征之间的独立性约束难以满足，泛化能力差；条件随机场模型是另一种广泛采用的统计模型，常用于序列标注问题，它对序列中邻接词的关系进行建模，在特征选择上足够灵活，特征间不需要条件独立，但该模型难以处理未登录词问题，对于开放领域的命名实体识别效果较差；深度神经网络模型能够使用单词级和字符级表达，自动学习的特征，通过上下文的滑动窗口预测标签。该方法缺点是需要大规模训练语料，训练代价很高，确定深度神经网络超参数方面缺乏相关理论指导。并且获得的模型难以理解，容易产生过拟合，可移植性和泛化能力较差。

综上所述，现有技术存在的问题是：目前的命名实体识别存在过程繁琐、代价很高并且可移植性差，模型计算过程复杂，泛化能力差，无法处理未登录词等问题。

发明内容

针对现有技术存在的问题，本发明提供了一种基于最大熵、神经网络模型和模板匹配识别命名实体方法。

本发明是这样实现的，一种基于最大熵和神经网络模型的韩语命名实体识别方法，所述基于最大熵和神经网络模型的韩语命名实体识别方法包括：

(1)构建前缀树字典，当任意一个组合名词和专有名词的模板在输入句子中匹配时，识别为目标词；

(2)通过目标词选择模块中得到目标词，从实体字典中查找该目标词，当只匹配到一个子类别时，子类别作为目标词的标签；

(3)采用最大熵模型，利用多种语言学信息，直接对字符进行角色标注，得到具有最大概率的角色标注序列，并通过标注名称模式匹配，有效标识命名实体；

(4)构造前馈神经网络模型，将多个神经元节点的输入和输出联结在一起构成网络，并对网络进行分层；

(5)通过模板选择规则将邻接词组成一个实体标签。

进一步，所述前缀树字典，由一个词性标签序列和提示词信息组成。

进一步，所述实体字典包括通用字典和领域字典；

所述通用字典需要手动构建，领域字典从训练语料中自动学习；通用字典由人物，地点，组织机构三个类别组成；

人物类别由全名、姓氏和名字组成；全名从Seoul Telephone Directory中收集，姓氏和名字从全名中自动抽取；地名和组织机构名则从网页中收集。

进一步，所述最大熵模型，利用多种语言学信息，直接对字符进行角色标注，得到具有最大概率的角色标注序列，并通过简单的标注名称模式匹配，有效标识命名实体；最大熵模型实现特征选择和模型选择。

进一步，所述最大熵概率模型定义在空间H*T上，其中H代表所有上下文中特征的集合，一个选定字符的上下文范围可选择为前后各两个字符，特征包括字符本身的特征和语言学特征信息，T代表一个字符所有可能的角色标记集合；h_i代表给定一个特定上下文，t_i代表某一特定角色标记；

给定一个特定上下文h_i，特定角色标记t_i的条件概率如公式(1)：

公式(1)表示给定一个特定上下文h_i，特定角色标记t_i的概率在整体概率中占多少比率，整体概率指给定一个特定上下文h_i，各种特定角色标记t_i的概率之和：

公式(2)表示在给定上下文环境h_i下，得到特定角色标记t_i的概率，其中π是正则化常数，而{μ，α1，α2，...，αn}是模型参数，{f1，f2，...，fn}是特征函数，参数αj表示第j个特征的权重；特征用一个特征函数fj来体现，特征函数为一个二值函数，特征函数形式如下：

w_i为要进行处理的字符，suffix(w_i)为该字符的后缀特征；

对于每一个特征函数f_j(h_i，t_i)，模型的约束情况是：模型所建立的概率分布的期望值要与训练样本表现出来的分布的期望值相等；参数{μ，α1，α2，...，αn}是为了选择最大化训练数据关于概率分布P的可能性，优化概率分布P的最大熵值为目标。

进一步，当结果值大于某阈值时，目标词将会得到一个标签；当前两个最大值的差值小于某阈值时，该目标词将会有一个多重标签，阈值根据经验设定。

进一步，根据不同的需要，确定不同的特征函数：

在有限的上下文环境中是否包含人名前后缀信息；

在有限的上下文环境中是否包含地名后缀，以及该后缀名的长度；

在有限的上下文环境中是否包含机构名后缀，以及该后缀名长度；

在有限的上下文环境中是否包含姓氏等信息；

当前字符的前面是否是一个人名字符串加一个“<和>”字符；

当前字符的前面是否是一个地名字符串加一个“<和>”字符；

当前字符的前面是否是一个机构名字符串加一个“<和>”字符；

当前字符的前面是否是一个“<和>”字符加一个人名字符串。

进一步，多重标签歧义性的处理方法包括：

复杂且非线性的目标函数y＝F_θ(x)，通过训练估计函数的参数，使其能够近似拟合样本集合中任意标注对映射关系；即使F_θ(x)满足：

采用含有多个神经元的神经网络来搭建模型，神经元的输入由3个变量(x₁，x₂，x₃)和一个偏置单元b构成，连接输入的边对应每个输入单元的权重值，输入由函数y＝h_W，b(x)计算得到，公式如下：

由n个输入神经元节点构成的输入向量为X(x₁，x₂，...，x_n)，m个输出节点构成的向量为Y(y₁，y₂，...，y_m)，隐藏层节点数为l；与之对应的，联结输入层与隐藏层的边应由n×l条，联结隐藏层与输出层的边应有l×m条；设由边权值构成的参数矩阵分别为W⁽¹⁾，W⁽²⁾，输入层与隐藏层的偏置单元为b⁽¹⁾，b⁽²⁾，隐藏层和输出层的激活函数分别为g(x)，f(x)，则对模型隐藏层节点的每一个h_i，(i＝1，2，...，l)，有：

对每一个输出节点y_i，(i＝1，2，...，m)，有：

对任意一个输入向量X(x₁，x₂，...，x_n)，都可以向前传递计算输出向量Y(y₁，y₂，...，y_m)；

所述通过模板选择规则将邻接词组成一个实体标签包括：为将邻接词组合成一个实体标签，从训练语料中自动抽取模板选择规则；通过实体标签信息、词汇信息、提示词字典和词性标签信息抽取模板选择规则。

本发明的另一目的在于提供一种所述基于最大熵、神经网络模型和模板匹配识别命名实体方法的基于最大熵、神经网络模型和模板匹配识别命名实体***，所述基于最大熵、神经网络模型和模板匹配识别命名实体***包括：

实体检测模块，用于在文本中抽取命名实体；

实体分类模块，用于将实体分成人名、地名和组织机构名。

进一步，所述实体检测模块包括选择目标词单元、查找实体字典单元、处理未登录词单元；实体分类模块包括多标签实体消歧单元和组合邻接词单元；

选择目标单元，通过韩文词性标签和提示词字典选择目标词；

查找实体字典单元，在实体字典中查找目标词；

处理未登录词单元通过最大熵模型处理未登录词；

选择目标词单元、查找实体字典单元给每一个目标词一个实体标签或一个临时的多重标签；

多标签实体消歧单元通过神经网络解决歧义问题，神经网络中使用的标签从相邻的词性标签中选取；

组合邻接词单元通过模板规则给邻接词一个实体标签。

本发明的优点及积极效果为：包括目标词选择和实体字典查找，通过最大熵处理未登录词，接下来利用神经网络解决歧义问题，使用规则模板将邻接词组合成一个实体标签；使用的所有数据是从带标签的训练语料和领域无关实体字典中抽取的，可以很容易移植到其它应用领域，性能也不会明显降低。

附图说明

图1是本发明实施例提供的基于最大熵和神经网络模型的韩语命名实体识别方法流程图。

图2是本发明实施例提供的基于最大熵和神经网络模型的韩语命名实体识别***结构示意图；

图中：1、实体检测模块；2、实体分类模块。

图3是本发明实施例提供的神经元示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于最大熵和神经网络模型的韩语命名实体识别方法包括以下步骤：

S101：构建前缀树字典，当任意一个组合名词和专有名词的模板在输入句子中匹配时，将其识别为目标词；

S102：通过目标词选择模块中得到目标词，从实体字典中查找该目标词，当只匹配到一个子类别时，那么将该子类别作为目标词的标签，当匹配到属于不同类别的多个子标签时，那该目标词会有一个多重标签；

S103：采用最大熵模型，利用多种语言学信息，直接对字符进行角色标注，得到具有最大概率的角色标注序列，并通过简单的标注名称模式匹配，有效标识命名实体，如人名、地名和组织机构名；

S104：构造前馈神经网络模型，将多个“神经元”节点的输入和输出联结在一起构成网络，并对网络进行分层；

S105：通过模板选择规则将邻接词组成一个实体标签。

下面结合附图对本发明的应用原理作进一步的描述。

如图2所示，本发明的基于最大熵模型、神经网络模型和模板匹配的混合方法识别韩语命名实体，包括两个部分，实体检测模块1和实体分类模块2。

实体检测模块1是在文本中抽取命名实体。

实体分类模块2是将实体分成人名、地名和组织机构名；

实体检测模块1包括选择目标词单元、查找实体字典单元、处理未登录词单元；实体分类模块2包括多标签实体消歧单元和组合邻接词单元。

选择目标单元，通过韩文词性标签和提示词字典选择目标词。

查找实体字典单元，在实体字典中查找目标词。

处理未登录词单元通过最大熵模型处理未登录词。

选择目标词单元、查找实体字典单元给每一个目标词一个实体标签或一个临时的多重标签(四种类型标签：人名/地名标签，地名/组织机构名标签，人名/组织机构名标签，和人名/地名/组织机构名标签)。

多标签实体消歧单元通过神经网络解决歧义问题，神经网络中使用的标签从相邻的词性标签中选取。

组合邻接词单元通过模板规则给邻接词一个实体标签。

本发明旨在识别人名，地名，组织机构名等实体标签，预定义人名，地名，组织机构名的子类别，如表1：

表1：预定义子类别

本发明实施例提供的基于最大熵、神经网络模型和模板匹配识别命名实体方法包括以下步骤：

步骤一，选择实体的目标词

在韩语中，一个候选的目标词可能是专有名词或组合名词。包含专有名词的组合名词可以从候选目标词中排除。

为查找目标词，本发明需要构建一个前缀树字典，由一个词性标签序列和提示词信息组成。假设作为目标词的组合名词在最后一个普通名词后一定有一个提示词。因此，当任意一个组合名词和专有名词的模板在输入句子中匹配时，本发明可以将其识别为目标词。例如：首尔(common noun)女子(common noun)大学(common noun-organization clueword)，可以在前缀树字典中形成一个条目：“common noun：common noun：common noun-organization”；

步骤二，在实体字典中查找目标词

实体字典包括通用字典和领域字典；通用字典需要手动构建，领域字典可以从训练语料中自动学习；通用字典由人物，地点，组织机构三个类别组成。在这三个类别中，地点和组织机构共享一些相同的子类别如表1；人物类别由全名、姓氏和名字组成；全名从SeoulTelephone Directory中收集，姓氏和名字可以从全名中自动抽取；地名和组织机构名则从网页中收集。

通过目标词选择模块中得到目标词，从实体字典中查找该目标词，当只匹配到一个子类别时，那么将该子类别作为目标词的标签，当匹配到属于不同类别的多个子标签时，那该目标词会有一个多重标签，本发明假设一个类别下的子类别间没有歧义。目标词的歧义将会通过神经网络消歧模块解决。

步骤三，处理未登录词

人名、地名和组织机构等专名不断的产生，形成了一个开放的集合，从而产生未登录词的问题。

采用最大熵模型，充分利用多种语言学信息，直接对字符进行角色标注，得到具有最大概率的角色标注序列，并通过简单的标注名称模式匹配，有效标识命名实体，如人名、地名和组织机构名。最大熵模型是为所有已知的因素建立模型，而把所有未知的因素排除在外；要找到这样一个概率分布，满足所有已知的事实，且不受任何未知因素的影响。最大熵模型的是其不要求具有条件独立的特征，因此，可以相对任意的加入对最终分类器有用的特征，而不用顾及它们之间的相互影响。最大熵原理是：认为已知的事物是一种约束，未知的条件是均匀分布且没有偏见的。最大熵模型有两个基本任务，特征选择和模型选择，特征选择就是选择一个能表达随机过程的统计特征的特征集合；模型选择就是模型估计或者参数估计，为每个入选的特征估计权重。

在最大熵模型的架构下，利用各种有效的语言学特征信息(语言学特征信息就是字符对上下文产生影响的属性，如<高丽大学>中的“<大学>”往往作为一个组织机构的后缀，因此它的语言学特征信息就是组织机构名后缀；<首尔特别市>中的“<特别市>”往往作为地点的后缀，因此它的语言学特征信息就是地名后缀)，建立基于上下文语境(上下文语境指选定字符前后字符的属性，如字符角色、字符类型等)和角色标注信息的最大熵模型。

本发明句中的每个字符都隐含地携带了一个角色信息(角色是字符本身的属性)，就是单个字符在命名实体或句子中所起的作用，本发明定义的角色信息如表2：

表2角色信息

最大熵概率模型被定义在空间H*T上，其中H代表所有上下文中特征的集合，一个选定字符的上下文范围可选择为前后各两个字符，特征包括字符本身的特征和语言学特征信息，T代表一个字符所有可能的角色标记集合。h_i代表给定一个特定上下文，t_i代表某一特定角色标记。

公式(2)表示在给定上下文环境h_i下，得到特定角色标记t_i的概率，其中π是正则化常数，而{μ，α1，α2，...，αn}是模型参数，{f1，f2，...，fn}是特征函数，参数αj表示第j个特征的权重。特征用一个特征函数f_j来体现，特征函数为一个二值函数，特征函数形式如下：

w_i为要进行处理的字符，suffix(w_i)为该字符的后缀特征，参考表2中的提示词。

对于每一个特征函数f_j(h_i，t_i)，模型的约束情况是：模型所建立的概率分布的期望值要与训练样本表现出来的分布的期望值相等。参数(μ，α1，α2，...，αn}是为了选择最大化训练数据关于概率分布P的可能性，优化概率分布P的最大熵值为目标。

当结果值大于某阈值时，目标词将会得到一个标签。当前两个最大值的差值小于某阈值时，该目标词将会有一个多重标签，阈值根据经验设定。

本发明可以根据不同的需要，确定不同的特征函数，如下：

1)在有限的上下文环境中是否包含人名前后缀信息。

2)在有限的上下文环境中是否包含地名后缀，以及该后缀名的长度。

3)在有限的上下文环境中是否包含机构名后缀，以及该后缀名长度。

4)在有限的上下文环境中是否包含姓氏等信息。

5)当前字符的前面是否是一个人名字符串加一个“<和>”字符。

6)当前字符的前面是否是一个地名字符串加一个“<和>”字符。

7)当前字符的前面是否是一个机构名字符串加一个“<和>”字符。

8)当前字符的前面是否是一个“<和>”字符加一个人名字符串。

等等

表3提示词字典

步骤四，解决带有多重标签的歧义

有一些目标词因为多重标签有着歧义性，多重标签有人物/地点标签，地点/组织机构标签，组织机构/人物标签和人物/地点/组织机构标签。因此本发明学习了四种类型的神经网络来解决每一种类型的歧义问题。

给定一个足够大的训练语料T_Corpus，有任意训练样本(X⁽ⁱ⁾，Y⁽ⁱ⁾)∈T_Corpus。语料中包含m个样本，每个标注对(X⁽ⁱ⁾，Y⁽ⁱ⁾)的序列长度为len_i。本发明期望找到一个复杂且非线性的目标函数y＝F_θ(x)，通过训练估计函数的参数，使其能够近似拟合样本集合中任意标注对映射关系。即使F_θ(x)满足：

采用含有多个“神经元”的神经网络来搭建模型，其中每一个“神经元”都是一个多输入、单输出的运算单元。如图3所示：

图3中的神经元的输入由3个变量(x₁，x₂，x₃)和一个偏置单元b构成，连接输入的边对应每个输入单元的权重值，输入由函数y＝h_W，b(x)计算得到，公式如下：

其中，激活函数f(z)有多种选择，常用的有sigmoid函数和双曲正切函数，具体形式为：

在神经网络中，两个函数作为激活函数，主要由于函数的导数值易于计算。同时，利用sigmoid可以将输入值压缩变换为介于(0，1)区间的输出，应用时可以作为一个激活节点的概率值对待；tanh可以将输出非线性放缩至(-1，1)的区间，被广泛用于模型的特征归一化过程。

在神经元的基础上，构造一个简单的前馈神经网络模型，将多个“神经元”节点的输入和输出联结在一起构成网络，并对网络进行分层，可以构造一个由输入层、输出层和隐藏层构成的简单神经网络模型。

对于三层神经网络模型，设由n个输入神经元节点构成的输入向量为X(x₁，x₂，...，x_n)，m个输出节点构成的向量为Y(y₁，y₂，...，y_m)，隐藏层节点数为l。与之对应的，联结输入层与隐藏层的边应由n×l条，联结隐藏层与输出层的边应有l×m条；设由边权值构成的参数矩阵分别为W⁽¹⁾，W⁽²⁾，输入层与隐藏层的偏置单元为b⁽¹⁾，b⁽²⁾，隐藏层和输出层的激活函数分别为g(x)，f(x)，则对模型隐藏层节点的每一个h_i，(i＝1，2，...，l)，有：

对每一个输出节点y_i，(i＝1，2，...，m)，有：

给定一个神经网络模型，对任意一个输入向量X(x₁，x₂，...，x_n)，都可以用以上两个公式向前传递计算输出向量Y(y₁，y₂，...，y_m)，这种根据给定输入求输出的计算过程在神经网络中一般称为前向传播过程。

本发明将标准反向传播算法作为学习算法。该神经网络包括输入层，隐藏层和输出层。输出层有2或3个节点(当多重标签有3个类别时使用3个节点)。

每一个网络的输入方式包括两个部分，一部分使用词性标签信息，另一部分使用词汇信息。

与目标词相邻接的词性标签信息被视为重要的特征。在除去无用词性标签如动词标签之后，本发明在目标词的左侧两个词性标签和右侧两个词性标签范围内抽取词性标签。然后本发明在每一个位置定义有用的标签集合，并将它们作为输入特征，使用词性标签信息作为输入特征的总数量为55。

本发明同样在不带有动词词汇信息的相同范围内抽取出词汇信息。因此本发明使用一个新增了五个类别的提示词字典，它是表3提示词字典的扩展版本。最后，一共26个特征来表示一个给定的词是否属于提示词字典。表4给出新提示词字典增加的类别。

表4新增提示词字典

由于表4中的人物、地点和组织机构提示类别在表2中并没有任何类别与其对应。地点和组织机构动词类别主要被用来解决地名和组织机构名之间的歧义。神经网络中所有的特征都用二进制表示。

步骤五，通过模板选择规则将邻接词组成一个实体标签

通过消歧，可以给一个词一个实体标签，但是在一些情况下，如“金大中总统”，当“金大中”和它的邻接提示词“总统”连接在一起时，意思会表达的更加清楚，通过此模型这个例子会得到一个详细的实体子类别。

为将邻接词组合成一个实体标签，本发明从训练语料中自动抽取模板选择规则。通过实体标签信息、词汇信息、表3中的提示词字典和词性标签信息抽取模板选择规则。最后得到191个模板选择规则。

模板选择规则示例如下：

下面结合具体实施例对本发明的应用原理作进一步的描述。

例如：金大中总统和李姬镐开始他在青瓦台的第一份工作。

表5

其中

NNC：表示普通名词；

NNC-PSN:带有提示信息的普通名词；

PCJ:连接词和；

PP:助词(为主语助词，表示地点的助词)；

NNU:表示普通数字；

VV：表示动词；

步骤一，查找前缀树字典，前缀树字典由词性标签和提示词信息序列构建。本发明假设作为目标词的组合名词的最后一个普通名词有提示词，例如上述例子中将会在前缀树字典中找到一个记录：“common noun:common noun-person”，从而得到目标词“(金大中总统)”。

步骤二，在实体字典中查找目标词。通用实体字典中包括人物、地点和组织机构等三种类别，地点和组织机构共享一部分子类别，如表1所示。当只有在一个实体字典中查找到目标词时，该目标词有一个子类别，当在属于不同类别的多个子类别中查找到目标词时，该目标词会有一个多重标签。比如“(青瓦台)”既属于地点类中的建筑子类，又属于组织机构类中的政府组织子类，从而“(青瓦台)”有一个多重标签“地点/组织机构”标签。

步骤三，使用最大熵处理未登录词问题。输入待识别文本，对于待识别文本中未登录词中的每个字符，利用该字符的上下文语境，建立该字符的特征项。如：待识别文本“<金大中总统和李姬镐在青瓦台>”中为未登录词，建立字的特征项，构成如下：字为类型为一般，前第一个词为类型为连接词、前第二个词为类型为人名实体，后第一个词是类型为主语助词，后第二个词为类型为地名/组织机构名实体、角色待定。并将识别文本中的特征项组成序列输入到最大熵模型中，得到具有最大产生概率的待识别文本字符角色标注序列，通过模式匹配，识别出为人名实体。

步骤四，通过神经网络对多重的实体标签进行消歧。输入包括两部分，一部分使用词性标签信息，另一部分使用词汇信息。对于经过词性标注后的待识别文本，将无用词性标签如动词标签去除后，抽取目标词左右各两个词性标签，定义每个位置有用标签集并作为输入特征，例如目标词带有地名/组织机构名标签，该目标词的左侧第一个词词性为PP，左侧第二个词词性为NNC，右侧第一个词词性为PP，右侧第二个词词性为NNU，将这些特征项作为输入特征。同样本发明将待识别文本中的动词去除后，抽取目标词左右各两个词，作为该目标词的另一个输入特征。神经网络中所有的特征值用二进制表示。最终，目标词的识别结果为地名实体。

步骤五，通过模板将邻接词组合成一个实体标签。待识别句子中被组合成一个实体“政治人物”。

识别结果为：表6

表6

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于最大熵和神经网络模型的韩语命名实体识别方法，其特征在于，所述基于最大熵、神经网络模型和模板匹配识别命名实体方法包括：

(5)通过模板选择规则将邻接词组成一个实体标签。

2.如权利要求1所述的基于最大熵和神经网络模型的韩语命名实体识别方法，其特征在于，所述前缀树字典，由一个词性标签序列和提示词信息组成。

3.如权利要求1所述的基于最大熵和神经网络模型的韩语命名实体识别方法，其特征在于，所述实体字典包括通用字典和领域字典；

4.如权利要求1所述的基于最大熵和神经网络模型的韩语命名实体识别方法，其特征在于，所述最大熵模型，利用多种语言学信息，直接对字符进行角色标注，得到具有最大概率的角色标注序列，并通过简单的标注名称模式匹配，有效标识命名实体；最大熵模型实现特征选择和模型选择。

5.如权利要求4所述的基于最大熵和神经网络模型的韩语命名实体识别方法，其特征在于，所述最大熵概率模型定义在空间H*T上，其中H代表所有上下文中特征的集合，一个选定字符的上下文范围可选择为前后各两个字符，特征包括字符本身的特征和语言学特征信息，T代表一个字符所有可能的角色标记集合；h_i代表给定一个特定上下文，t_i代表某一特定角色标记。

6.如权利要求5所述的基于最大熵和神经网络模型的韩语命名实体识别方法，其特征在于，当结果值大于某阈值时，目标词将会得到一个标签；当前两个最大值的差值小于某阈值时，该目标词将会有一个多重标签，阈值根据经验设定。

7.如权利要求5所述的基于最大熵和神经网络模型的韩语命名实体识别方法，其特征在于，根据不同的需要，确定不同的特征函数：

1)在有限的上下文环境中是否包含人名前后缀信息；

2)在有限的上下文环境中是否包含地名后缀，以及该后缀名的长度；

3)在有限的上下文环境中是否包含机构名后缀，以及该后缀名长度；

4)在有限的上下文环境中是否包含姓氏等信息；

5)当前字符的前面是否是一个人名字符串加一个“<和>”字符；

6)当前字符的前面是否是一个地名字符串加一个“<和>”字符；

7)当前字符的前面是否是一个机构名字符串加一个“<和>”字符；

8.一种如权利要求1所述基于最大熵和神经网络模型的韩语命名实体识别方法的基于最大熵、神经网络模型和模板匹配识别命名实体***，其特征在于，所述基于最大熵、神经网络模型和模板匹配识别命名实体***包括：

实体检测模块，用于在文本中抽取命名实体；

实体分类模块，用于将实体分成人名、地名和组织机构名。

9.如权利要求8所述的基于最大熵和神经网络模型的韩语命名实体识别***，其特征在于，所述实体检测模块包括选择目标词单元、查找实体字典单元、处理未登录词单元；实体分类模块包括多标签实体消歧单元和组合邻接词单元；

查找实体字典单元，在实体字典中查找目标词；

处理未登录词单元通过最大熵模型处理未登录词；

组合邻接词单元通过模板规则给邻接词一个实体标签。