CN103500159A

CN103500159A - 基于实例获取的非平衡交互文本的话题识别方法

Info

Publication number: CN103500159A
Application number: CN201310403755.1A
Authority: CN
Inventors: 田锋; 高鹏达; 郑庆华; 吴凡
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2013-09-06
Filing date: 2013-09-06
Publication date: 2014-01-08
Anticipated expiration: 2033-09-06
Also published as: CN103500159B

Abstract

本发明公开了一种基于实例获取的非平衡交互文本的话题识别方法，按照三个大步骤实施：I、从源数据集中筛选实例阶段。首先，定义了评价函数，确定了共有特征集中代表实例并且倾向于少数类的特征集；其次，以余弦相似度排序筛选得到源数据集实例；II、实例特征向量空间一致性处理阶段。采用以相似度为权值合成实例的特征向量空间，使其与目标实例的特征向量空间一致；III、合并获取的实例和目标数据集实例阶段。将获取的实例归入到目标数据集中，共同训练分类器模型。

Description

基于实例获取的非平衡交互文本的话题识别方法

技术领域

本发明涉及一种用于信息检索、抽取与管理的自然语言处理技术，特别是面向一种互联网交互式文本话题的识别方法。

背景技术

随着互联网信息技术的飞速发展，基于交互式文本的网络应用不断涌现，如直播课堂、网络答疑聊天室、社群讨论等典型的交互文本应用场景。这些真实场景产生的交互文本一般呈现着话题类别分布非平衡的性质，分类器在训练模型时常忽略少数类，使得少数类话题的识别精度普遍偏低。针对非平衡交互文本，如何克服其非平衡性，提高少数类话题的识别精度是一个重要的工作。申请人经过查新，未检索到与本发明相关的专利文献。

发明内容

本发明的目的是提供一种解决交互文本的非平衡性问题、可提高少数类话题识别精度的互联网话题识别方法。

为达到以上目的，本发明是采取如下技术方案予以实现的：

一种基于实例获取的非平衡交互文本的话题识别方法，包括如下步骤：

1、一种基于实例获取的非平衡交互文本的话题识别方法，其特征在于：包括如下步骤：

第一步：从源数据集中筛选实例阶段：

(1)确定共有特征集中代表实例的特征集，即从源数据集Dset_Source和目标数据集Dset_Target的共有特征集中选择代表实例并且倾向于少数类的特征集，具体算法为：

Stepl：按照label空间所有类别计算F_Source和F_Target各特征的信息增益值InformationGain，并将计算结果分别按降序排列各数据集特征，排序后的特征集如下：

F_Source={f_Source(1)，f_Source(2)，…，f_Source(i)，…，f_Source(R₁)}，1≤i≤R₁

F_Target={f_Target(1)，f_Target(2)，…，f_Target(j)，…，f_Target(R₂)}，1≤j≤R₂

其中，f_Source(i)是F_Source中排序为第i个位置的特征，f_Target(j)是F_Target中排序为第j个位置的特征，R₁为F_Source中特征的总个数，R₂为F_Target中特征的总个数。各特征是特征词词典中的词，特征值为在类标签空间label下，采用TF-IDF算法获得的各特征值；

Step2：若F=F_Source∩F_Target=φ成立，则，所提算法终止，实例获取失败；否则，有F(l)∈F，其中，F(l)为共有特征集F中第l个特征，1≤l≤M，M≤min{R₁，R₂}，且定义有M个元素的数组TopN_IGratio，同时，设TopN_IGratio(m)表示数组TopN_IGratio的第m个元素中存储的值；

Step3：确定共有特征F(m)在F_Source中的位置n_Source，形成特征与位置对(n_Source，F(l))，并按照n_source的值升序排列所有特征与位置对，并记最大的位置n_source为MAX_n_source；确定共有特征F(m)在F_Target中的位置n_Target，形成特征与位置对(n_Target，F(l))，并按照n_Target的值升序排列所有特征与位置对，并记最大的位置n_Target为MAX_n_Target；将升序排序后的特征与位置对(n_source，F(l))放入新生产的二维数组Loeation中，且Location(m,col)表示Location中第m行第col列的元素，且1≤m≤M≤R₁col={1，2}；If MAX_n_Target>Max_n_source则，令Location(M,1)=MAX_n_Target，令m=1

Step4：N=Location(m,2)，N≤R₁；

Step5：在Dset_Source和Dset_Target的前N个特征中进行匹配，得到共有特征的子集F^s(m)，并设F^s(m)的元素个数为np，计算以下评价函数：

目，表示F_Source中Top-N特征信息增益值求和；

表示F_Source∩F_Target中第l个特征在F_Source中的信息增益值；

F_Weight(l)对少数类实例的特征赋予权值；

t_k为第l个共有特征F(l)的属性值，共W个；

C_minority为数据集中少数类的类别；

是计算np个共有特征的信息增益值与权重的加权和；

Step6：m=m+1；如果m>M，则执行Step7；否则，执行Step4；

Step7：取数组TopN_IGratio中的最大值，并标记为TopN_IGratio_MAX，并确定其在数组TopN_IGratio中的下标为m_MAX，确定代表实例并且偏向于少数类特征的特征集F_Instance，其维数为m_MAX维，记为：

F_Instance={f_Instance(1)，f_Instance(2)，…，f_Instance(i)，…，f_Instance(m_MAX)}，1≤i≤m_MAXm_MAX≤M≤min{R₁，R₂}；

(2)以余弦相似度排序筛选源数据集实例，采用余弦函数计算每个少数类目标实例和源数据集中同类别实例的相似度，并按此相似度的值降序排序，针对每一个少数类目标实例，获取前K个与目标数据集实例相似的源数据集实例，具体算法为：

Stepl：以特征集F_Instance作为特征空间，对源数据集Dset_Source和目标数据集Dset_Target中的少数类实例进行表示，所得对应的少数类特征值向量如下：

Ins \tan {ce}_{Source}^{C_{\min ority}} = (f_{Value}^{source} (1), . . ., f_{Value}^{source} (i), . . ., f_{Value}^{source} (m_{MAX})), 1 \leq i \leq m_{MAX}

Ins \tan {ce}_{T \arg et}^{C_{\min ority}} = (f_{Value}^{t \arg et} (1), . . ., f_{Value}^{t \arg et} (i), . . ., f_{Value}^{t \arg et} (m_{MAX})), 1 \leq i \leq m_{MAX}

其中，

和

分别是特征集F_Instance第i个维度f_Instance(i)上相应的特征值；

Step2：是目标数据集Dset_Target中的少数类实例的第j个实例，(1≤j≤L)，

是源数据集Dset_Source中同类别的少数类实例，(1≤n≤S)，其中S是源数据集Dset_Source中同类别的少数类实例的个数，定义有S个元素的数组Similarity_value，同时设Similarity_value(a)表示数组Similarity_value第a个元素存储的值，(1≤a≤S)；定义算法的输出为由K*S个实例组成的数据集DsetSimilarity，其中DsetSimilarity(instance(L))为第L个实例，K=S／L，1≤L≤K*S；

Step3：令j=1；

Step4：计算

与Dset_Source中所有同类别少数类实例

(1≤n≤S)的余弦相似度，分别存储到Similarity_value数组中；

(公式3)

Step5：对Similarity_value数组降序排序，取排序值前Top-K所对应的Dset_Source少数类实例存入DsetSimilarity；

Step6：j=j+1，如果j≤L，则执行Step4；否则，程序结束，输出DsetSimilarity；

第二步：实例特征向量空间一致性处理，即以实例相似度为权值合成实例的特征向量，使其与目标实例的特征向量空间一致，具体处理的过程为：

Stepl：合成DsetSimilarity中实例在F_Target中除共有特征F外的特征向量，定义变量

数组Similarity_value同第一步中(2)中定义，定义算法的输出为由K*S个实例组成的数据集Dset_Instance，其中Dset_Instance(instance(T))为第T个实例，K=S／L，1≤T≤K*S；

Step2：令j=1；

Step3：计算与Dset_Source中所有同类别少数类实例

(1≤n≤S)的余弦相似度，分别存储到Similarity_value数组中，见公式3；

Step4：定义大小为K的数组sim_weight，K=S／L，设sim_weight(k)表示数组sim_weight第k个元素存储的值，对Similarity_value数组降序排序，取前Top-K排序值，存入到数组sim_weight中；

Step5：以sim_weight数组的元素值作为权重合成实例的特征向量：

\overset{&OverBar;}{F}_Ins \tan {ce}_{k} = sim_weight (k) * \overset{&OverBar;}{F}_Ins {\tan ce}_{T \arg et} (j), 1 \leq k \leq K

其中，

是

的特征集F_Target中除共有特征F外的特征向量；

Step6：将

(1≤k≤K)与K个

自身的共有特征向量F_Instance_k合并，对K个实例进行最终表示，并将实例存储到Dset_Instance中；

{Ins \tan ce}_{k} = {\overset{&OverBar;}{F}_Ins \tan {ce}_{k}, F_Ins {\tan ce}_{k}}, 1 \leq k \leq K

Step7：j=j+1，如果j≤L，则执行Step3；否则，程序结束，输出Dset_Instance。

第三步：合并获取的实例和目标数据集实例，将获取的实例并入到目标数据集中形成新的数据集，共同在此数据集上利用基于线性核函数的SVM分类器训练模型。

2、如权利要求1所述的基于实例获取的非平衡交互文本的话题识别方法，其特征在于：所述第三步的合并获取的实例和目标数据集实例的具体过程为：

Stepl：将Dset_Instance中的实例与Dset_Target的实例合并，形成新的数据集Dset_New，包括H个实例，实例的构成如下：

Dset_New(h)={f_New(1)，…，f_New(i)，…，f_New(G)，label(h)}，1≤i≤G，1≤h≤H

其中：G为实例向量的特征维数；f_New(i)为特征值；label(h)为第h个实例的类标签；

Step2：在Dset_New上采用线性核函数的SVM分类器训练模型model；

Step3：调用训练得到的model，在测试数据集上完成话题分类任务。

本发明方法的特点是：

1.基于实例获取，利用其他相似交互文本数据集，克服目标数据集的非平衡性，而不是在单一数据集内进行非平衡处理。

2.构造了评价函数，确定代表实例且倾向于少数类的特征集。以该特征集对实例进行表示，计算实例间相似度。

3.以实例相似度作为权值合成实例的特征向量空间，进而获取较大数量的相似实例，避免训练数据集过拟合现象。

附图说明

以下结合附图及具体实施方式对本发明作进一步的详细说明。

图1基于实例获取的非平衡交互文本的话题识别方法算法框图。

图2交互文本四类话题所包含的实例数目比例图。

具体实施方式

一种基于实例获取的非平衡交互文本的话题识别方法，包括如下步骤，参照图1包括三步：

第一步：从源数据集中筛选实例阶段：

(1)确定共有特征集中代表实例的特征集，即从源数据集(记为Dset_Source)和目标数据集(记为Dset_Target)的共有特征集中选择可以代表实例并且倾向于少数类的特征集。

(2)以余弦相似度排序筛选源数据集实例。采用余弦函数计算每个少数类目标实例和源数据集中同类别实例的相似度，并按此相似度的值降序排序，针对每一个少数类目标实例，获取前K个与目标数据集实例相似的源数据集实例。

第二步：实例特征向量空间一致性处理。以实例相似度为权值合成实例的特征向量，使其与目标实例的特征向量空间一致。

第三步：合并获取的实例和目标数据集实例。将获取的实例并入到目标数据集中形成新的数据集，共同在此数据集上利用基于线性核函数的SVM分类器训练模型。

第一步的步骤(1)所述的确定共有特征集中代表实例的特征集的计算过程为：

首先，Dset_Source和Dset_Target为相似数据集对；相似数据集对为符合以下特征的数据集对：a).具有相同的类标签空间，即label＝{L1，L2，…，LM}；b).数据集特征向量空间存在交集，即设Dset_Source和Dset_Target中，各自特征的信息增益值按照降序排列的特征集合分别表示为F_Source和F_Target，且F=F_Source∩F_Target≠φ，F_Source≠F_Target，其中∩为集合的交运算。

同时，Dset_Source为非平衡数据集，其特点是类标签为label{Li}的样本个数与类标签为label{Lj}的样本个数之间的比值达到10：1，参照图2中比例，Li≠Lj，且Li，Lj∈label。

Step1：按照label空间所有类别计算F_Source和F_Target各特征的信息增益值(InformationGain)，信息增益计算公式如下：

IG (f) = - Σ_{i = 1}^{4} P (C_{i}) \log_{2} P (C_{i}) +

P (f) Σ_{i = 1}^{4} P (C_{i} | f) \log_{2} P (C_{i} | f) + P (\overset{&OverBar;}{f}) Σ_{i = 1}^{4} P (C_{i} | \overset{&OverBar;}{f}) \log_{2} P (C_{i} | \overset{&OverBar;}{f})

将计算结果分别按降序排列各数据集特征，排序后的特征集如下：

F_Source={f_Source(1)，f_Source(2)，…，f_Soruce(i)，…，f_Source(R1)}，1≤i≤R₁

F_Target={f_Target(1)，f_Target(2)，…，f_Target(j)，…，f_Target(R2)}，1≤j≤R₂

其中，f_Source(i)是F_Source中排序为第i个位置的特征，f_Target(j)是F_Target中排序为第j个位置的特征，R₁为F_Source中特征的总个数，R₂为F_Target中特征的总个数。各特征是特征词词典中的词，特征值为在类标签空间label下，采用TF-IDF算法获得的各特征值。

{tf}_{i, j} \times \log (\frac{N}{{df}_{i}})

其中：tf_i，j表示第i个特征词在第j个话题文档中出现的频次；

N为文档总个数，此处，N=4；

df_i表示第i个特征词在四个话题文档中出现的频次。

Step2：若F=F_Source∩F_Target=φ成立，则，所提算法终止，实例获取失败；否则，有F(l)∈F，其中，F(l)为共有特征集F中第l个特征，1≤l≤M，M≤min{R₁，R₂}。且定义有M个元素的数组TopN_IGratio，同时，设TopN_IGratio(m)表示数组TopN_IGratio的第m个元素中存储的值；

Step3：确定共有特征F(m)在F_Source中的位置n_Source，形成特征与位置对(n_Source，F(l))，并按照n_source的值升序排列所有特征与位置对，并记最大的位置n_source为MAX_n_source；确定共有特征F(m)在F_Target中的位置n_Target，形成特征与位置对(n_Target，F(l))，并按照n_Target的值升序排列所有特征与位置对，并记最大的位置n_Target为MAX_n_Target；将升序排序后的特征与位置对(n_source，F(l))放入新生产的二维数组Location中。且Location(m，col)表示Location中第m行第col列的元素，且1≤m≤M≤R₁col={1，2}；If MAX_n_Target>Max_n_source则，令

Location(M,1)=MAX_n_Target。

令m=1。

Step4：N=Location(m,2)，N≤R₁；

Step5：在Dset_Source和Dset_Targer的前N个特征中进行匹配，得到共有特征的子集F^s(m)，并设F^s(m)的元素个数为np，计算以下评价函数：

(公式1)

F_Weight (l) = Σ_{k = 1}^{W} p (t_{k}, C_{\min ority}) * \log \frac{p (t_{k}, C_{\min ority})}{p (t_{k}) * p (C_{\min ority})}

(公式2)

且，

表示F_Source中Top-N特征信息增益值求和；

表示F_Source∩F_Target中第l个特征在F_Source中的信息增益值；

F_Weight(l)对少数类实例参照图2中所示的爱情和友情类别的特征赋予权值；

t_k为第l个共有特征F(l)的属性值，共W个；

C_minrity为数据集中少数类的类别；

Step6：m=m+1；如果m>M，则执行Step7；否则，执行Step4；

Step7：取数组TopN_IGratio中的最大值，并标记为TopN_IGratio_MAX，并确定其在数组TopN_IGratio中的下标为m_MAX，确定代表实例并且偏向于少数类特征的特征集F_Instance，其维数为m_MAX维，记为

F_Instance={f_Instance(1)，f_Instance(2)，…，f_Instance(i)，…，f_Instance(m_MAX)}，1≤i≤m_MAX

m_MAX≤M≤min{R₁，R₂)。

第一步的步骤(2)所述的以余弦相似度排序筛选源数据集实例的计算过程为：

Stepl：以特征集F_Instance作为特征空间，对源数据集Dset_Source和目标数据集Dset_Target，中的少数类实例进行表示，所得对应的少数类特征值向量如下：

Ins \tan {ce}_{Source}^{C_{\min ority}} = (f_{Value}^{source} (1), . . ., f_{Value}^{source} (i), . . ., f_{Value}^{source} (m_{MAX})), 1 \leq i \leq m_{MAX}

Ins \tan {ce}_{T \arg et}^{C_{\min ority}} = (f_{Value}^{t \arg et} (1), . . ., f_{Value}^{t \arg et} (i), . . ., f_{Value}^{t \arg et} (m_{MAX})), 1 \leq i \leq m_{MAX}

其中，

和

分别是特征集F_Instance第i个维度f_Instance(i)上相应的特征值。

Step2：

是目标数据集Dset_Target中的少数类实例的第j个实例，(1≤j≤L)。

是源数据集Dset_Source中同类别的少数类实例，(1≤n≤S)，其中S是源数据集Dset_Source中同类别的少数类实例的个数。定义有S个元素的数组Similarity_value，同时设Similarity_value(a)表示数组Similarity_value第a个元素存储的值，(1≤a≤S)；定义算法的输出为由K*S个实例组成的数据集DsetSimilarity，其中DsetSimilarity(instance(L))为第L个实例，K=S／L，1≤L≤K*S；

Step3：令j=1；

Step4：计算

与Dset_Source中所有同类别少数类实例

(1≤n≤S)的余弦相似度，分别存储到Similarity_value数组中；

(公式3)

Step6：j=j+1，如果j≤L，则执行Step4；否则，程序结束，输出DsetSimilarity。

第二步的实例特征向量空间一致性处理的过程为：

Stepl：合成DsetSimilarity中实例在F_Target中除共有特征F外的特征向量。定义变量

数组Similarity_value同第一步中步骤(2)中的定义。定义算法的输出为由K*S个实例组成的数据集Dset_Instance，其中Dset_Instance(instance(T))为第T个实例，K=S／L，1≤T≤K*S。

Step2：令j=1；

Step3：计算

与Dset_Source中所有同类别少数类实例

(1≤n≤S)的余弦相似度，分别存储到Similarity_value数组中，见3中公式3；

Step4：定义大小为K的数组sim_weight，K=S／L，设sim_weight(k)表示数组sim_weight第k个元素存储的值。对Similarity_value数组降序排序，取前Top-K排序值，存入到数组sim_weight中；

\bar{F}_Ins \tan {ce}_{k} = sim_weight (k) * \bar{F}_Ins \tan {ce}_{T \arg et} (j), 1 \leq k \leq K

其中：

是

的特征集F_Target中除共有特征F外的特征向量。

Step6：将

与K个

Ins \tan {ce}_{k} = {\bar{F}_Ins \tan {ce}_{k}, F_Ins \tan {ce}_{k}}, 1 \leq k \leq K

第三步的合并获取的实例和目标数据集实例过程为：

Step1：将Dset_Instance中的实例与Dset_Target的实例合并，形成新的数据集Dset_New，包括H个实例，实例的构成如下：

Dset_New(h)={f_New(1)，…，f_New，(i)，…，f_New(G)，label(h)}，1≤i≤G，1≤h≤H

其中：G为实例向量的特征维数；f_New(i)为特征值；label(h)为第h个实例的类标签。

Step2：在Dset_New上采用线性核函数的SVM分类器训练模型model；

Claims

1.一种基于实例获取的非平衡交互文本的话题识别方法，其特征在于：包括如下步骤：

第一步：从源数据集中筛选实例阶段：

Step：按照label空间所有类别计算F_Source和F_Target各特征的信息增益值InformationGain，并将计算结果分别按降序排列各数据集特征，排序后的特征集如下：

F_Source＝{f_Source(1)，f_Source(2)，…，f_Source(i)，…，f_Source(R₁)}，1≤i≤R₁

F_Target＝{f_Target(1)，f_Target(2)，…，f_Target(j)，…，f_Target(R₂)}，1≤j≤R₂

其中，f_Source(i)是F_Source中排序为第i个位置的特征，f_Target(j)是F_Target中排序为第j个位置的特征，R₁为F_Source中特征的总个数，R₂为F_Target中特征的总个数，各特征是特征词词典中的词，特征值为在类标签空间label下，采用TF-IDF算法获得的各特征值；

Step2：若F＝F_Source∩F_Target＝φ成立，则，所提算法终止，实例获取失败；否则，有F(l)∈F，其中，F(l)为共有特征集F中第l个特征，1≤l≤M，M≤min{R₁，R₂}，且定义有M个元素的数组TopN_IGratio，同时，设TopN_IGratio(m)表示数组TopN_IGratio的第m个元素中存储的值；

Step3：确定共有特征F(m)在F_Source中的位置n_Source，形成特征与位置对(n_Source，F(l))，并按照n_source的值升序排列所有特征与位置对，并记最大的位置n_source为MAX_n_source；确定共有特征F(m)在F_Target中的位置n_Target，形成特征与位置对(n_Target，F(l))，并按照n_Target的值升序排列所有特征与位置对，并记最大的位置n_Target为MAX_n_Target；将升序排序后的特征与位置对(n_source，F(l))放入新生产的二维数组Location中，且Location(m，col)表示Location中第m行第col列的元素，且1≤m≤M≤R₁col＝{1，2}；If MAX_n_Target＞Max_n_source则，令

Location(M，1)＝MAX_n_Target，令m＝1

Step4：N＝Location(m，2)，N≤R₁；

TopN_IGratio (m) = \frac{Σ_{l = 1}^{np} {IG}_{F_{Source}} (F (l)) * F_Weight (l)}{Σ_{i = 1}^{N} F_{Source} (i)}

(公式1)

其中：

F_Weight (l) = Σ_{k = 1}^{W} p (t_{k}, C_{\min ority}) * \log \frac{p (t_{k}, C_{\min ority})}{p (t_{k}) * p (C_{\min ority})}

(公式2)

目，

表示F_Source中Top-N特征信息增益值求和；

表示F_Source∩F_Target中第l个特征在F_Source中的信息增益值；

F_Weight(l)对少数类实例的特征赋予权值；

t_k为第l个共有特征F(l)的属性值，共W个；

C_minority为数据集中少数类的类别；

是计算np个共有特征的信息增益值与权重的加权和；

Step6：m＝m+1；如果m＞M，则执行Step7；否则，执行Step4；

F_Instance＝{f_Instance(1)，f_Instance(2)，…，f_Instance(i)，…，f_Instance(m_MAX)}，1≤i≤m_MAXm_MAX≤M≤min{R₁，R₂}；

Step1：以特征集F_Instance作为特征空间，对源数据集Dset_Source和目标数据集Dset_Target中的少数类实例进行表示，所得对应的少数类特征值向量如下：

Ins \tan {ce}_{Source}^{C_{\min ority}} = (f_{Value}^{source} (1), . . ., f_{Value}^{source} (i), . . ., f_{Value}^{source} (m_{MAX})), 1 \leq i \leq m_{MAX}

Ins \tan {ce}_{T \arg et}^{C_{\min ority}} = (f_{Value}^{t \arg et} (1), . . ., f_{Value}^{t \arg et} (i), . ., f_{Value}^{t \arg et} (m_{MAX})), 1 \leq i \leq m_{MAX}

其中，

和

分别是特征集F_Instance第i个维度f_Instance(i)上相应的特征值；

Step2：

是目标数据集Dset_Target中的少数类实例的第j个实例，(1≤j≤L)，是源数据集Dset_Source中同类别的少数类实例，(1≤n≤S)，其中S是源数据集Dset_Source中同类别的少数类实例的个数，定义有S个元素的数组Similarity_value，同时设Similarity_value(a)表示数组Similarity_value第a个元素存储的值，(1≤a≤S)；定义算法的输出为由K*S个实例组成的数据集DsetSimilarity，其中DsetSimilarity(instance(L))为第L个实例，K＝S／L，1≤L≤K*S；

Step3：令j＝1；

Step4：计算