CN103049501A

CN103049501A - 基于互信息和条件随机场模型的中文领域术语识别方法

Info

Publication number: CN103049501A
Application number: CN2012105287348A
Authority: CN
Inventors: 彭琳; 刘宗田; 杨林楠; 张立敏
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2012-12-11
Filing date: 2012-12-11
Publication date: 2013-04-17
Anticipated expiration: 2032-12-11
Also published as: CN103049501B

Abstract

本发明公开了一种基于互信息和条件随机场模型的中文领域术语识别方法，其步骤如下：（1）收集领域文本语料，对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记；（2）设置字串，计算字串的互信息值；（3）计算字串左右信息熵；（4）定义字串评价函数，设置评价函数阈值，计算各字串的评价函数值，确定字串为词，依次比较该字串中前一字的评价函数值与后一字评价函数值相比较，逐一对字义字串分词；（5）利用条件随机场训练出一个领域术语条件随机场模型，用该模型对进行领域术语识别。该方法在术语识别时，不仅能克服合法术语的数据稀疏，降低了条件随机场算法的运算量，而且能够提高中文领域术语识别精度。

Description

基于互信息和条件随机场模型的中文领域术语识别方法

技术领域

本发明涉及的是一种基于互信息和条件随机场模型的中文领域术语识别方法，属于信息技术领域。

背景技术

国家标准GB/T15237.1-2000《术语工作词汇》的定义，术语是特定专业领域中一般概念的词语指称，是在一个学科领域内使用、表示该学科领域内的概念或关系的词或词组。术语可以分为日常生活中使用的一般性术语和特定领域中使用的领域术语。一般性术语多是按人们的生活和工作习惯形成的，不要求它在概念的表达上严格准确，其含义往往比较模糊；领域术语是对一个专业概念的***性、概括性的描述，不允许模棱两可，每一个专业术语表达的概念都必须准确无误，不能因使用人的不同而不同。

领域术语识别是指从特定的科学或技术领域的语料库中抽出专业领域术语。领域术语自动识别作为信息抽取的重要内容,在自然语言处理领域有着广泛的应用，对于提高领域文本索引与检索、文本挖掘、本体构建、文本分类和聚类、潜在语义分析等的处理精度有着重要的意义。现有的中文文本信息中的领域术语识别方法主要有：

（1）基于统计方法的中文领域术语识别方法，主要思想是利用领域术语内部各组成成分之间较高的关联程度以及术语的领域特征信息来抽取领域术语。基于统计的方法一般流程是: 首先利用统计学或信息论中的方法,建立起各种统计信息，并根据统计结果,确定比较准确的种子词；然后在此基础上不断扩展,获取最终的领域术语。词语频率、均值和方差是比较常用的统计方法,更多的学者使用假设检验的方法, 主要有T检验、卡方检验、对数似然比、点互信息等。用统计方法识别领域术语,不需要句法、语义上的信息,不局限于某一专门领域,也不依赖任何资源,通用性较强。

其中，基于统计的互信息算法应用最为广泛。例如有文章报道，其题目为“基于互信息的中文术语抽取***”（该文作者是：张锋许云侯艳樊孝忠，发表于2005年出版的《计算机应用研究》第22卷第5期第72-73，77页），该文公开了一种中文术语自动抽取***，该***首先基于互信息计算字串的内部结合强度，从而得到术语候选集；接着从术语候选集中去除基本词，并利用普通词语搭配前缀、后缀信息进一步过滤；最后对术语候选进行词法分析，利用术语的词性构成规则进行判别，得到最终的术语抽取结果。实验结果表明，利用互信息算法对术语抽取的准确率为72.19％，召回率为77.98％，F测量值为74.97％。例如有文献报道，“C值和互信息相结合的术语抽取”（作者是：梁颖红张文静张有承，发表于2010年出版的《计算机应用与软件》第27卷第4期第108-110页），该文公开了一种将C值和互信息相结合的术语抽取方法，该方法提出综合C-value参数在长术语抽取方面具有优势，实验结果表明，该方法对长术语抽取的准确率为75.7％，召回率为68.4％，F测量值为71.9％，高于相同语料下的其他方法。但是该算法性能直接依赖于语料库的规模和候选领域术语的词频,针对有些低频率候选术语也可能是合法术语的数据稀疏问题难以解决，所以单纯利用互信息算法对领域术语进行识别，识别的准确率、召回率以及F测量值均难以达到80%以上，很难获得理想的识别效果；

（2）基于机器学习的中文领域术语识别方法的主要步骤为: 采用手工或半自动方式构建训练语料, 根据某种机器学习算法对训练语料学习生成模型,然后再利用模型对测试语料进行领域术语抽取实验,以验证本算法的有效性。目前已用于中文领域术语识别的机器学习理论主要包括决策树、支持向量机、隐马尔科夫模型、最大熵模型、最大熵马尔科夫模型和条件随机场算法等。基于机器学习的术语识别方法无需专家的领域知识和语言知识, 实现可行性大, 在考虑多种术语特征的情况下可以得到较好的识别或抽取效果。

目前，基于机器学***，发表于2011年出版的《沈阳航空航天大学学报》第28卷第1期第72-75页），该文公开了一种针对中医领域的基于条件随机场的术语抽取方法，该方法将中医领域术语抽取看作一个序列标注问题，将中医领域术语分布的特征量化作为训练的特征，利用CRF工具包训练出一个领域术语模型，然后利用该模型进行术语抽取。选择《名医类案》作为中医领域文本进行术语抽取实验，准确率达到83.11％，召回率达到81.04％，F测量值达到82.06％。以及文章“采用CRF技术的军事情报术语自动抽取研究”（作者是：贾美英杨炳儒郑德权杨靖，发表于2009年出版的《计算机工程与应用》第45卷第32期第126-129页），该文公开了一种针对军事情报领域的基于条件随机场的术语抽取方法，该方法将领域术语识别看作一个序列标注问题，将领域术语分布的特征量化作为训练的特征，利用CRF工具包训练出一个领域术语特征模板，然后利用该模板进行领域术语抽取。实验表明，该方法对军事情报领域术语的识别结果良好，准确率可达到73.24％，召回率达到69.57％，F测量值达到71.36％。

利用条件随机场算法进行领域术语识别时，训练语料基本上都为手动和半自动标注的，人为参与度都高，工作量大，导致普遍识别量不大，制约了该算法的识别精度和应用。同时，需要先利用通用的分词工具对语料进行分词，然后再对分词后的语料进行条件随机场训练和测试，最终才能实现术语的识别。所以利用条件随机场算法进行领域术语识别的前提是，假设现有的通用分词工具可以对该领域的词汇进行准确地分词，并认为领域术语比分词工具所分的词粒度大。但是，由于专业领域术语与普通词汇存在差距，用一般性分词工具很难实现对专业领域语料的准确分词。因此，目前互信息和条件随机场方法在领域术语识别过程中自动识别程度较低，且识别精度不高。

发明内容

鉴于以上所述现有技术存在的问题，本发明的目的是提供一种基于互信息和条件随机场模型的中文领域术语识别方法，该方法在术语识别时，不仅能克服合法术语的数据稀疏，降低了条件随机场算法的运算量，而且能够提高中文领域术语识别精度。

为了达到上述目的，本发明采用下述技术方案：

本发明的基于互信息和条件随机场模型的中文领域术语识别方法，具体步骤如下：

（1）、收集领域文本语料，对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记；

（2）、设置字串

Figure 2012105287348100002DEST_PATH_IMAGE001

，计算字串

的互信息值；

（3）、计算字串

左右信息熵；

（4）、定义字串

评价函数，设置评价函数阈值，计算各字串的评价函数值，确定字串

为词，依次比较该字串

中前一字

Figure 2012105287348100002DEST_PATH_IMAGE003

的评价函数值与后一字

评价函数值相比较，得到各字串

中对应的比值，其比值再与评价函数阈值比较，逐一对字义字串

分词；

（5）、以词、词性、词的出现频率的随机场的训练特征，利用条件随机场方法训练出一个领域术语条件随机场模型，用该模型对进行领域术语识别。

上述步骤（2）中所述的（2）设置字串

，计算字串

的互信息值，其计算公式如下：

假设一个领域术语是由n个字组成，如果字串

为一个领域术语，那么字串

由

、

、

……

个字组成，字串

的互信息值计算公式如下：

（1）

其中，

表示一个由n个字组成的字串；

表示组成字串

的第i个字（i=1，2，3，…，n）；

表示语料库中字

出现的频次；

表示语料库中字

出现的频次；

表示语料库中字出现的频次；

表示字

、

、

、…、

同时出现的频次；

表示字串

中所有字与字之间的互信息。

上述步骤（3）中所述的计算左右信息熵，其计算公式如下：

左信息熵计算公式为：

（2）

右信息熵计算公式为：

（3）

其中，

表示为给定的一个由n个字组成的字串；

和分别表示出现在

左侧和右则时的条件概率；

和

表示

左边和右边所有出现的词集合；

表示组成字串

的第i个字，其中，i=1，2，3，…，n 。

上述步骤（4）中所述的定义字串W评价函数，并利用评价函数对语料进行分词，是指利用步骤（2）和步骤（3）计算得到的互信息和左右信息熵值，对语料中的字串

为词的可信度进行评价，判断该字串是否为词，其中，字串W评价函数计算公式如下：

（4）

其中，

表示为给定的一个由n个字组成的字串；

表示字串

中字符之间的互信息值；

表示字串

的左信息熵值；

表示字串的右信息熵值；

为平衡因子，用以调节信息熵与互信息值在字串

评价函数中的权值。

上述步骤（5）中所述的以词、词性、词的出现频率的随机场的训练特征，利用条件随机场方法训练出一个领域术语条件随机场模型，利用该模型对进行领域术语识别，其操作步骤如下：

（51）、以词本身、词性、词的出现频率在语料中进行标注；

（52）、利用CRF++ 0.53工具包对已标注的特征序列训练，获取条件随机场参数，该条件随机场参数为该领域术语识别的条件随机场模型；

（53）、用领域术语识别的的条件随机场模型对测试已标注的特征序列的领域术语识别。

本发明的基于互信息和条件随机场模型的中文领域术语识别方法与现有技术相比较，具有以下效果：

（1）、该方法将基于统计和机器学习的两类术语识别方法有机地结合在一起，有效的解决了单纯利用统计方法进行术语识别时的数据稀疏问题；

（2）、该方法利用互信息算法对语料进行分词和标注，实现了语料的自动标注；

（3）、该方法仅采用了3个最为普通的词特征，作为条件随机场方法的训练，使该方法具有较强的领域通用性，有效地降低了条件随机场的运算量，减少了条件随机场的训练时间。

附图说明

图1为本发明的基于互信息和条件随机场模型的中文领域术语识别方法的流程图；

图2是图1中步骤(4)的流程图；

图3是图1中步骤(5)的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的描述。

本实施例以植物——竹子的领域术语识别作为实例对本发明进行说明，但不用来限制本发明的范围。

参照图1，本发明的基于互信息和条件随机场模型的中文领域术语识别方法，包括如下步骤：

（1）、收集领域文本语料，对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记。

例如，本实例选取《中国植物志》第9卷竹亚科的电子书稿作为领域文本语料。

首先，将语料按4:1的比例随机地划分为：训练语料和测试语料两部分；

然后，检索出语料中所有标点符号、空格、数字、ASCII字符以及汉字以外字符，在上述字符前、后分别用“//”符号进行标记；

最后，参照汉语词性表，对所有代词、叹词、助词和虚词，以及首字为“和、有、的、得、将、把、从、了、是、则、在、每、这、该、给、所、使、为、不、着、了、很、该、与、得、的”词的前、后分别用“//”符号进行标记。

（2）、设置字串

，计算字串的互信息值，其计算公式如下：

假设一个领域术语是由n个字组成，如果字串

为一个领域术语，那么字串

由

、

、

……

个字组成，字串

的互信息值计算公式如下：

（1）

其中，

表示一个由n个字组成的字串；

表示组成字串

的第i个字，其中，i=1，2，3，…，n；

表示语料库中字出现的频次；

表示语料库中字出现的频次；

表示语料库中字

出现的频次；

表示语料库中字出现的频次；

表示字

、、

、…、同时出现的频次；

表示字串

中所有字与字之间的互信息。

由于本发明认为中文领域术语的长度不大于4个字，并且认为中文领域术语中间不可能出现标点符号、空格、数字、ASCII字符以及汉字以外字符，同时也不可能出再叹词、虚词、指标代词等词，所以本发明对语料文本中所有字分别计算其2-word、3-word、4-word的互信息值，当遇到标记符“//”停止计算，其互信息值的计算公式参见上述发明内容中步骤（2）的公式（1）、（2）、（3）。

例如：语料“边缘被流苏状毛//，//”,其中2-word包括：“边缘”、“缘被”、“被流”、“流苏”、“苏状”和“状毛”；3-word包括：“边缘被”、“缘被流”、“被流苏”、“流苏状”和“苏状毛”；4-word包括：“边缘被流”、“缘被流苏”、“被流苏状”和“流苏状毛”，部份互信息计算结果为：

，

，

，

，；

（3）、计算字串

左右信息熵，其计算公式如下：

左信息熵计算公式为：

（2）

右信息熵计算公式为：

（3）

其中，

表示为给定的一个由n个字组成的字串；

和

分别表示

出现在

左侧和右则时的条件概率；

和

表示

左边和右边所有出现的词集合；

表示组成字串

的第i个字，其中，i=1，2，3，…，n。

判断一个字串是否为词，不仅要考虑字串内部字与字之间的结合紧密度，即字之间互信息的大小；同时，还要考虑字串之间的边界自由程度，即在字串边界出现的邻接字的种类越多，认为字串左右信息熵越大，也就是字串边界的自由度越大，其左右信息熵的计算公式参见上述发明内容中步骤（3）的公式（2）、（3）。

例如：语料“边缘被流苏状毛//，//”中，部份左信息熵计算结果为：

，

,

，

，

，

；右信息熵计算结果为：

，，

，，

，

；

（4）、定义字串

评价函数，设置评价函数

阈值，计算各字串的评价函数值，确定字串为词，依次比较该字串

中前一字

的评价函数值与后一字

评价函数值相比较，得到各字串

中对应的比值，其比值再与评价函数

阈值比较，逐一对字义字串

分词，其操作步骤如下：

（41）、定义字串

评价函数，其计算表达式为：

（4）

其中，

表示为给定的一个由n个字组成的字串；

表示字串

中字符之间的互信息值；

表示字串

的左信息熵值；

表示字串的右信息熵值；

为平衡因子，用以调节信息熵与互信息值在评价函数中的权值。

（42）、分别计算评价函数数值，确定字串

为词。

根据上述发明内容中的步骤（4）的评价函数公式分别计算所有字串的评价函数值，其中

取0.5，并认为当评价函数大于阈值0.8时，该字串

为词，

例如：语料“边缘被流苏状毛//，//”，部份评价函数计算结果为：

，，

，

，

，

；

（43）、依次比较上述字串

中前一字

的评价函数值与后一字

评价函数值相比，得到各字串

中对应的比值“？”，其比值再与评价函数

阈值比较，逐一对字义字串

分词。

例如，首先从语料的第一个字开始，分别选取长度为4、3、2、1的子字串，记作

、

、

和

；

然后，对字串

和

的评价函数进行比较，如果

，认为字串为新词，d在字串

前后分别以符号“*”进行标注；反之，认为字串

不是新词，则其丢弃尾部的最后一个字，对

和

的评价函数进行比较，如果

，认为字串

为新词，在字串

前后分别以符号“*”进行标注；反之，认为字串

不是新词，其丢弃尾部的最后一个字对

的评价函数进行判断，如果

，认为字串

为新词，在字串

前后分别以符号“*”进行标注；反之，认为字串

为新词，在字串

前后分别以符号“*”进行标注；只要有新词被标注，就从新词后的第一个字开始，再分别选取长度为4、3、2、1的子字串，记作

、、

和，重新进行评价函数的比较，当遇到“//”符号跳过。如此反复, 直至所以语料处理完为止，例如：语料“边缘被流苏状毛//，//”,首先，从第一个字开始截取长度分别为4、3、2、1的子字串，即：“边缘被流”、“边缘被”、“边缘”和“边”；然后，首先判断

是否大于等于0.8,根据步骤（41）评价函数的计算结果，可知

小于0.8，即字串“边缘被流”不是新词；然后，判断

是否大于等于0.8,根据步骤（41）评价函数的计算结果，可知

小于0.8，故字串“边缘被”也不是新词；接着判断

是否大于等于0.8,根据步骤（41）评价函数的计算结果，可知

大于0.8，故字串“边缘”是新词；当有判断出新词后，从新词后的第一个字开始再选取4、3、2、1个字串，作为新一轮的作

、

、

和，即“被流苏状”、“波流苏”、“被流”和“被”，再重复以上步骤进行比较，当遇到“//”符号跳过，直到结束，所以语料“边缘被流苏状毛//，//”，最后分词结果为“*边缘*被*流苏状*毛//,//” ；

（5）、以词、词性、词的出现频率的随机场的训练特征，利用条件随机场训练出一个领域术语条件随机场模型，用该模型对进行领域术语识别，其操作步骤如下：

（51）、以词本身、词性、词的出现频率在语料中进行标注，其具体如下：

依次对字义字串

分词标注特征序列，该词的标注的特征序列分别为：当前词本身；当前词的词性；当前词的出现频率，采用K-Means聚类方法，将上述当前词的出现频率分为10个等级，每个等级为一类，10个类分别表示为A、B、C、D、E、F、G、H、I、J、K，将已标注的特征序列分为：训练已标注的特征序列、测试已标注的特征序列两部份；

（52）、利用CRF++ 0.53工具包对已标注的特征序列训练，获取条件随机场参数，条件随机场参数为领域术语识别的条件随机场模型；

（53）、用领域术语识别的条件随机场模型对测试已标注的特征序列的领域术语识别，其具体如下：

将测试已标注的特征序列输入到步骤（5.2）训练后获得领域术语识别的条件随机场模型，利用该条件随机场模型，计算出特征值，识别出领域术语，输出结果为识别出的领域术语，例如：语料“边缘被流苏状毛//，//”，最终识别出“边缘”和“流苏状”为领域术语。

以上为本发明的最佳实施方式，依据本发明公开的内容，本领域技术人员能够显而易见地想到一些雷同、替代方案，均应属于本发明的技术创新范围。