CN106095791B

CN106095791B - 一种基于上下文的抽象样本信息检索***

Info

Publication number: CN106095791B
Application number: CN201610369833.4A
Authority: CN
Inventors: 吴�琳; 韩广; 袁鑫攀; 李亚楠
Original assignee: Changyuan Power (beijing) Technology Co Ltd
Current assignee: Changyuan power (Beijing) Technology Co., Ltd.
Priority date: 2016-01-31
Filing date: 2016-05-29
Publication date: 2019-08-09
Anticipated expiration: 2036-05-29
Also published as: CN106095791A

Abstract

本发明提出了一种基于上下文的抽象样本信息检索***。该***中抽象样本特征化表示方法利用Word2vector提取词义特征，获得抽象词的词向量；而后，对抽象词的词向量进行“最优适应度划分”的聚类，并根据聚类结果将抽象词替代表示为聚类质心；最后，根据质心及其所代表的抽象词的词频，构成词向量聚类质心频率模型(ST‑IDF)，用于特征化表示抽象样本。本发明降低了聚类及适应度计算的执行次数，提高了抽象样本相似性分析的性能，提升了样本分类准确率。

Description

一种基于上下文的抽象样本信息检索***

技术领域

本发明涉及数据链报文、半结构化文本或普通文本的信息检索领域，特别涉及基于词向量(Word2vector)的样本相似性分析及分类。

背景技术

抽象词是指信息检索样本中无法被语言直接解读的特殊词语，即，无已知语言规则(词义、语法、语序)可直接地识别其实际语义。大量的抽象词不同程度地存在于信息检索的样本中，例如军用数据链报文(Link-16、Link-22)、用于数据交换的半结构化文本(XML)或普通文本。同时，存在大量的数据链报文、半结构化文本或普通文本完全采用抽象词记录信息。针对该情况，我们将信息检索任务中此类报文或文本称为抽象样本。

目前，针对信息检索任务中的抽象样本，在无法直接识别其抽象词语义的情况下，多采用基于词语统计的样本特征化表示方法。现行的基于词语统计的特征化表示方法无法有效地提取其词语语义(词义)特征，例如TF-IDF(TermFrequency-Inverse DocumentFrequency)模型与BOW(Bag of words)模型。

Word2vector是一种依据上下文关系的词语语义(词义)特征提取方法，最先由Mikolov等于2013年初在谷歌公司的开源项目中提出。当文档作为信息检索的样本时，针对在不同文档中的每个词语，Word2vector可依据其上下文关系有效地提取其语义(即词义特征)，并以词向量的形式给出。必须注意的是，Word2vector的词义特征提取机制使得不同文档中相同的词所对应的词向量并不相同。所以，导致难以根据Word2vector的词向量形成信息检索样本的特征化表示，特别是难以形成VSM(向量空间模型)形式的样本特征化表示。

目前，抽象样本征化表示需要采用Word2vector作为基于上下文的词义特征提取方法，并使自身适用于现行的基于样本特征向量的信息检索算法。但是，尚未出现受明确认可的方法能够根据Word2vector词义特征提取形成VSM形式的抽象样本特征化表示。

因此急需提出一种基于上下文的抽象样本信息检索***及相应的抽象样本特征化表示方法，解决上述问题。

发明内容

在信息检索应用领域中，本发明提供了一种基于上下文的抽象样本信息检索***，并详阐述了其特征化表示方法。本发明的目的在于，克服现有技术中难以根据Word2vector的词向量形成样本的特征化表示的情况，解决抽象样本特征化表示中词义特征提取的问题。

一种基于上下文的抽象样本信息检索***，包括分词功能模块、词义特征提取模块、抽象词特征替代表示模块、ST-IDF模块和分类模块，所述抽象样本信息检索***的抽象样本特征化表示方法包括以下步骤：

步骤1、利用分词功能模块对样本进行抽象词的分词：当样本是数据链报文时，可根据数据链报文的格式与字长划分每个抽象词；当样本是文本时，可根据空格及特定分词规则划分每个抽象词。

步骤2、利用词义特征提取模块提取抽象词的词语语义特征：针对由步骤1得到的抽象词，采用Word2vector方法，基于抽象词的上下文关系提取其词义特征，并以词向量形式表示。

步骤3、利用抽象词特征替代表示模块对抽象词特征进行替代表示：首先，采用最优聚类效果适应度下的聚类划分数量，对由步骤2得到的词向量进行K-means算法聚类，即实现对抽象词词向量的“最优适应度划分”的聚类。其中，词向量聚类划分的质心称为S(表示为词向量空间中的向量)，S的数量k即是聚类划分个数，所有样本中抽象词的数量为N，已知的样本分类数量为C，f(k)为体现聚类效果适应度的函数，

α为k个S向量间的平均余弦距离，β为k个聚类划分内的词向量间平均余弦距离的均值，令正整数k∈[N,N×C]；当f(k)＝max(f(k))时，令最优聚类效果适应度下的聚类划分数量K＝k，质心S的数量最终确定为K。然后，根据最终的聚类结果将抽象词替代表示为其词向量所属聚类划分的质心S，或称为用质心S代表其聚类划分内的抽象词，即将抽象词的特征近似认同为所属聚类划分的质心。

步骤4、利用ST-IDF模块输出抽象样本特征化表示：首先，统计每个抽象词在一个样本中出现的频率，根据步骤3给出的替代表示关系，将质心S所代表的抽象词在该样本中的出现频率计为质心S的频率；并统计词向量聚类质心的逆向文件频率；而后，参照TF-IDF模型构成词向量聚类质心频率模型——ST-IDF，ST-IDF模型属于VSM形式，用于特征化表示一个抽象样本。

步骤5、相似度计算，实现抽象样本的相似性分析：根据步骤4所提供的特征化表示，计算两个抽象样本间的相似度，并据此进行信息检索领域中样本分类算法的执行。

步骤6、利用分类模块对特征化表示后的抽象样本进行类别判定：根据相似度，采用NWKNN算法对抽象样本进行类别判定。

本发明的有益效果如下：

本发明提出了一种基于上下文的信息检索***及其抽象样本特征化表示方法，它包括两个方面的改进：(1)提出了最优聚类效果适应度划分算法，并根据在最优聚类效果适应度下的词向量聚类，进行了抽象词特征替代表示；(2)提出了用于抽象样本特征化表示的词向量聚类质心频率模型——ST-IDF。

本发明首先利用Word2vector提取词义特征，获得样本中所有抽象词的词向量；而后，提出了最优聚类效果适应度划分算法，并根据最优聚类效果适应度对抽象词的词向量进行K-means聚类，并根据聚类结果将抽象词替代表示为其词向量所属聚类划分的质心(记为S)；最后，将质心所代表的抽象词在样本中的出现频率计为质心S的频率，并构成词向量聚类质心频率模型——ST-IDF，用于特征化表示抽象样本。与传统的基于词语统计的样本特征化表示方法相比，ST-IDF模型包含抽象词的词义特征，且属于VSM(向量空间模型)形式，可适用于现行的基于特征向量的信息检索算法(如分类、回归、聚类)。

从实证的角度，采用信息检索领域经典样本分类算法NWKNN，在公用数据集Reuter-21758、Wikipedia XML之上，将ST-IDF模型与TF-IDF模型进行对比实验，实验结果客观地展示了本发明所述方法的明显优势，提高了抽象样本相似度计算的准确性，提升了抽象样本分类准确度，并有效拓展了信息检索领域中向量空间模型的构建方法。

附图说明

图1为本发明所述抽象样本信息检索***的数据与模块图。

图2为本发明所述信息检索方法的流程图。

图3为Word2vector方法基本原理示意图。

图4为聚类效果适应度函数图。

图5为词向量空间中根据聚类的替代表示关系示意图。

具体实施方式

下面将结合附图和实施例对本发明做进一步的说明。

如图1所示，其中内容为本发明一种基于上下文的抽象样本信息检索***，包括分词功能模块、词义特征提取模块、抽象词特征替代表示模块、ST-IDF模块和分类模块。

所述抽象样本信息检索***的抽象样本特征化表示方法包括以下步骤：

步骤1：利用分词功能模块对样本进行抽象词的分词。当样本完全采用抽象词记录信息时，无法根据字典或词库进行样本中抽象词的分词。所以，本步骤仅将抽象词视为ASCII字符的字符串。当样本是数据链报文时，根据数据链报文的格式与字长划分每个抽象词；当样本是文本时，根据空格及特定分词规则划分每个抽象词。将抽象词的分词记为word_i,t，词语word_i,t表示第i个样本中的第t种抽象词的分词，有i＝{1,2,…,|D|}，|D|为数据集中D的样本数，t＝{1,2,…,n}，n为抽象词种类数，所有样本中抽象词word_i,t的数量为N。

步骤2：利用词义特征提取模块，提取抽象词的词语语义特征。针对由步骤1得到的抽象词，采用Word2vector方法，基于抽象词的上下文关系提取其词义特征，并以词向量形式表示。本步骤运用Word2vec工具，可获得抽象词的词向量。

Word2vec是Word2vector方法的模型实现，可基于词语的上下文关系，快速有效地训练并生成词向量。它包含了两种训练模型，CBOW与Skip＿gram。作为用于训练生成词向量的软件工具，Word2vec中训练模型的基础是神经网络语言模型NNLM，其基本原理如图2所示。

根据由步骤1得到的抽象词，NNLM可计算某一个上下文的下一个词语为word_i,t的概率，即p(word_i,t＝t|context)，词向量是其训练的副产物。NNLM根据数据集D生成一个对应的词汇表V。V中的每一个词语都对应着一个标记word_i,t。为了确定神经网络的参数，需要通过数据集来构建训练样本并作为神经网络的输入。NNLM词语上下文样本的构建过程为：对于D中的任意一个词word_i,t，获取其上下文context(word_i,t)(例如前n-1个词)，从而得到一个元组(context(word_i,t),word_i,t)。以该元组作为神经网络的输入进行训练。NNLM的输入层和传统的神经网络模型有所不同，输入的每一个节点单元不再是一个标量值，而是一个向量，向量的每一个值为变量，训练过程中要对其进行更新，这个向量就是词向量。由图2可知，对于每一个词word_i,t，NNLM都将其映射成一个向量w_i,t，即为词向量。

运用Word2vec工具获得的词向量w_i,t具体表示第i个样本中的第t种抽象词分词的词义特征，有i＝{1,2,…,|D|}，|D|为样本数，所有样本中抽象词的词向量w_i,t的数量为N。

步骤3：利用抽象词特征替代表示模块，用词向量聚类质心代表其聚类划分内的抽象词。首先，采用最优聚类效果适应度下的聚类划分数量，对由步骤2得到的词向量进行K-means算法聚类，即实现对抽象词词向量的“最优适应度划分”的聚类。词向量的K-means聚类中，采用两词向量夹角的余弦值计算二者间的距离。

根据步骤2所得，所有样本中抽象词的词向量w_i,t的数量为N，词向量w_i,t具体表示第i个样本中的第t种抽象词分词的词义特征。已知的样本分类数量为C，而样本数量为M。本步骤中，将词向量聚类划分的质心称为S(表示为词向量空间中的向量)，S的数量k即是聚类划分个数。

为体现词向量空间中的K-means聚类效果，本发明给出聚类划分数量适应性的计算。为表示聚类划分数量适应性，令f(k)为体现聚类效果适应度的函数，

α为k个S向量间的平均余弦距离，β为k个聚类划分内的词向量间平均余弦距离的均值，具体地有：

其中，S与S′为不同聚类划分的质心向量，w_i,t与w′_i,t是类属于第b个聚类划分中的不同抽象词分词的词向量。

设聚类划分个数k∈[N,N×C]，且为正整数，当f(k)＝max(f(k))时，令最优聚类效果适应度下的聚类划分数量K＝k，f(K)是聚类效果适应度的最大值。经计算可知，函数f(k)在N到K的区间是单调递增的，在K到N×C的区间是单调递减的，函数f(k)的图像如图3所示。

所以，当f(k)＝max(f(k))时，K＝k，f(K)是聚类效果适应度函数的极值，即最优聚类效果适应度，K-means聚类质心S的数量最终确定为K。在确定max(f(k))、K与f(K)的过程中，为减少K-means聚类及f(k)计算的执行次数，本发明提出最优聚类效果适应度划分算法，算法中每进行一次f(k)计算则需预先执行一次质心数量为k的K-means聚类，具体如下：

最优聚类效果适应度划分算法

最优聚类效果适应度划分算法分析：根据算法的递归运算特点，其时间复杂度为Ο(log₂[(N×C-N)/4]，所以本步骤中实际执行的K-means聚类次数与f(k)计算次数小于等于log₂[(N×C-N)/4]次；而当不采用最优聚类效果适应度划分算法时，有k＝{N,N+1,N+1,…,N×C}，确定max(f(k))、K与f(K)的过程中所需执行的K-means聚类与f(k)计算的平均次数为(N×C-N)/2。所以，本步骤中的最优聚类效果适应度划分算法降低了聚类及适应度计算的执行次数。

最后，根据最终的聚类结果将抽象词替代表示为其词向量所属聚类划分的质心S。具体地，当f(k)＝max(f(k))时，最优聚类效果适应度下的聚类划分数量K＝k，将任意抽象词w_i,t替代表示为其词向量所属聚类划分的质心S，即将抽象词的特征近似认同为所属聚类划分的质心。在任意局部词向量空间中，用质心S代表其聚类划分内的抽象词，其对应关系如图4所示。具体替代表示关系如下式所述：

其中，第b个聚类质心S_b所代表的抽象词word_i,t构成一个抽象词集合，w_i,t是抽象词word_i,t的词向量，W_b是类属于质心S_b所在聚类划分的词向量所对应的抽象词的集合。

步骤4：利用ST-IDF模块，输出抽象样本特征化表示。首先，统计每个抽象词在一个样本中出现的频率，根据步骤3给出的质心S与抽象词的替代表示关系，将第b个质心S_b所代表的抽象词在该样本中的出现频率计为质心S_b的频率；并统计词向量聚类质心S_b的逆向文件频率，有b＝{1,2,…,K}。而后，参照TF-IDF模型构成词向量聚类质心频率模型——ST-IDF，具体构成方式将进一步详细阐述。

TF-IDF模型中，样本doc_i的特征化表示由特征向量d_i实现，

d_i＝(d_i(1),d_i(2),……,d_i(n))

向量d_i中第t维元素d_i(t)计算方式如下：

d_i(t)＝TF(word_t,doc_i)·IDF(word_t)，

TF(word_t,doc_i)是词语word_t在样本doc_i中的频率，有其计算方式

中分子是该词语在样本中的出现次数，而分母则是在文件中所有词语的出现次数之和，IDF(word_t)为词语word_t的逆向文件频率，有其计算方式

其中，D为样本doc_i的构成数据集，|D|为数据集D中样本的总数，|{doc_i|word_t∈doc_i}|为包含词语word_t的样本数量。

参照TF-IDF模型，ST-IDF模型具体构成如下：

SF(S_b,doc_i)是词向量聚类质心S_b在抽象样本doc_i中的频率，有其计算方式

其中，W_b是类属于质心S_b所在聚类划分的词向量所对应的抽象词的集合，TF(w_i,t)表示抽象词w_i,t在抽象样本doc_i中出现的频率，SF(S_b,doc_i)仅累计抽象样本doc_i中由质心S_b所代表的抽象词的频率。

IDF(S_b)为词向量聚类质心S_b的逆向文件频率，有其计算方式

其中，D为抽象样本doc_i的构成数据集，|D|为数据集D中样本的总数，为包含由质心S_b所代表的抽象词的样本的数量。

ST-IDF模型中，抽象样本doc_i的特征化表示由特征向量实现，

向量中第b维元素计算方式如下：

本步骤所提出的ST-IDF模型属于VSM(向量空间模型)形式，用于特征化表示一个抽象样本。

步骤5：相似度计算，实现抽象样本的相似性分析。根据步骤4所提供的特征化表示，计算两个抽象样本间的相似度；并据此进行信息检索领域中样本分类算法的执行。

一种基于上下文的信息检索抽象样本特征化表示方法采用步骤4所提出的ST-IDF模型进行抽象样本特征化表示。任意两抽象样本doc_i与doc′_i间相似性由相似度函数Sim(doc_i,doc′_i)表示，其具体计算方式如下：

为ST-IDF向量空间中特征向量与间夹角的余弦值。

步骤6：利用分类模块，对特征化表示后的抽象样本进行类别判定。根据相似度，采用NWKNN算法对抽象样本进行类别判定。

根据相似度函数Sim(doc_i,doc′_i)，采用信息检索领域中的经典样本分类算法——NWKNN执行抽象样本分类。NWKNN是权重邻居KNN算法，用于不均衡分类样本集的样本分类判别，其公式如下：

其中，函数score(doc,c_i)计算得出将文档doc归于分类c_i的评估值；函数Sim(doc,doc_j)表示样本doc与已知类别样本doc_j的相似度，采用向量余弦距离计算；Weight_i为分类权重设定值，赋值为3.5；函数δ(doc_j,c_i)表示样本doc_j是否属于类别c_i，若样本doc_j属于类别c_i，则该函数取值为1，否则，该函数取值为0。

样本分类的性能评估采用F1-measure标准。该标准结合召回率Recall和准确率Precision的评估度量F1如下：

运用F1-measure标准，可观察到一个样本分类***针对数据集的分类效果。为便于比较，将总结抽象样本分类结果的宏观F1度量值Macro-F1，同时，可以得到抽象样本分类结果的Average precision。

以***XML数据Wikipedia XML为数据交换半结构化文本的数据集，以路透社文档集Reuter-21578为普通文本的数据集，采用NWKNN算法进行抽象样本分类实验，并采用F1-measure标准进行样本分类的效果评估，本发明提出的SF-IDF向量与现有技术中TF-IDF向量的分类效果对比见表1、表2：

表1 Wikipedia XML数据集上TF-IDF向量与SF-IDF向量的分类效果比较

表2 Reuter-21578数据集上TF-IDF向量与SF-IDF向量的分类效果比较

根据表1、表2所述，可见本发明提出的SF-IDF向量的分类效果明显优于现有技术中TF-IDF向量，尤其是在Wikipedia XML数据集上平均准确率由原有的48.7％提高到59.2％，在Reuter-21578数据集上平均准确率由原有的57.1％提高到63.3％。实验结果显示，针对抽象样本相似性分类的信息检索任务，本发明所提出的ST-IDF模型相较TF-IDF模型拥有更优良的F1-measure评估结果，证明本发明所提供的特征化表示方法具备抽象样本词义特征提取的优势。

Claims

1.一种基于上下文的抽象样本信息检索***，其特征在于：它包括分词功能模块、词义特征提取模块、抽象词特征替代表示模块、ST-IDF模块和分类模块，所述抽象样本信息检索***的抽象样本特征化表示方法包括以下步骤：

步骤1、利用分词功能模块对样本进行抽象词的分词：当样本是数据链报文时，可根据数据链报文的格式与字长划分每个抽象词；当样本是文本时，可根据空格及特定分词规则划分每个抽象词；

步骤2、利用词义特征提取模块提取抽象词的词语语义特征：针对由步骤1得到的抽象词，采用Word2vector方法，基于抽象词的上下文关系提取其词义特征，并以词向量形式表示；

步骤3、利用抽象词特征替代表示模块对抽象词特征进行替代表示：首先，采用最优聚类效果适应度下的聚类划分数量，对由步骤2得到的词向量进行K-means算法聚类，即实现对抽象词词向量的“最优适应度划分”的聚类，其中，词向量聚类划分的质心称为S，S表示为词向量空间中的向量，S的数量k即是聚类划分个数，所有样本中抽象词的数量为N，已知的样本分类数量为C，f(k)为体现聚类效果适应度的函数，

α为k个S向量间的平均余弦距离，β为k个聚类划分内的词向量间平均余弦距离的均值，令正整数k∈[N,N×C]；当f(k)＝max(f(k))时，令最优聚类效果适应度下的聚类划分数量K＝k，质心S的数量最终确定为K；然后，根据最终的聚类结果将抽象词替代表示为其词向量所属聚类划分的质心S，或称为用质心S代表其聚类划分内的抽象词，即将抽象词的特征认同为所属聚类划分的质心；

步骤4、利用ST-IDF模块输出抽象样本特征化表示：首先，统计每个抽象词在一个样本中出现的频率，根据步骤3给出的替代表示关系，将质心S所代表的抽象词在该样本中的出现频率计为质心S的频率；并统计词向量聚类质心的逆向文件频率；而后，参照TF-IDF模型构成词向量聚类质心频率模型——ST-IDF，ST-IDF模型属于VSM形式，用于特征化表示一个抽象样本；

步骤5、相似度计算，实现抽象样本的相似性分析：根据步骤4所提供的特征化表示，计算两个抽象样本间的相似度，并据此进行信息检索领域中样本分类算法的执行；