CN103500159A - 基于实例获取的非平衡交互文本的话题识别方法 - Google Patents

基于实例获取的非平衡交互文本的话题识别方法 Download PDF

Info

Publication number
CN103500159A
CN103500159A CN201310403755.1A CN201310403755A CN103500159A CN 103500159 A CN103500159 A CN 103500159A CN 201310403755 A CN201310403755 A CN 201310403755A CN 103500159 A CN103500159 A CN 103500159A
Authority
CN
China
Prior art keywords
source
target
value
feature
instance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310403755.1A
Other languages
English (en)
Other versions
CN103500159B (zh
Inventor
田锋
高鹏达
郑庆华
吴凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201310403755.1A priority Critical patent/CN103500159B/zh
Publication of CN103500159A publication Critical patent/CN103500159A/zh
Application granted granted Critical
Publication of CN103500159B publication Critical patent/CN103500159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于实例获取的非平衡交互文本的话题识别方法,按照三个大步骤实施:I、从源数据集中筛选实例阶段。首先,定义了评价函数,确定了共有特征集中代表实例并且倾向于少数类的特征集;其次,以余弦相似度排序筛选得到源数据集实例;II、实例特征向量空间一致性处理阶段。采用以相似度为权值合成实例的特征向量空间,使其与目标实例的特征向量空间一致;III、合并获取的实例和目标数据集实例阶段。将获取的实例归入到目标数据集中,共同训练分类器模型。

Description

基于实例获取的非平衡交互文本的话题识别方法
技术领域
本发明涉及一种用于信息检索、抽取与管理的自然语言处理技术,特别是面向一种互联网交互式文本话题的识别方法。
背景技术
随着互联网信息技术的飞速发展,基于交互式文本的网络应用不断涌现,如直播课堂、网络答疑聊天室、社群讨论等典型的交互文本应用场景。这些真实场景产生的交互文本一般呈现着话题类别分布非平衡的性质,分类器在训练模型时常忽略少数类,使得少数类话题的识别精度普遍偏低。针对非平衡交互文本,如何克服其非平衡性,提高少数类话题的识别精度是一个重要的工作。申请人经过查新,未检索到与本发明相关的专利文献。
发明内容
本发明的目的是提供一种解决交互文本的非平衡性问题、可提高少数类话题识别精度的互联网话题识别方法。
为达到以上目的,本发明是采取如下技术方案予以实现的:
一种基于实例获取的非平衡交互文本的话题识别方法,包括如下步骤:
1、一种基于实例获取的非平衡交互文本的话题识别方法,其特征在于:包括如下步骤:
第一步:从源数据集中筛选实例阶段:
(1)确定共有特征集中代表实例的特征集,即从源数据集DsetSource和目标数据集DsetTarget的共有特征集中选择代表实例并且倾向于少数类的特征集,具体算法为:
Stepl:按照label空间所有类别计算FSource和FTarget各特征的信息增益值InformationGain,并将计算结果分别按降序排列各数据集特征,排序后的特征集如下:
FSource={fSource(1),fSource(2),…,fSource(i),…,fSource(R1)},1≤i≤R1
FTarget={fTarget(1),fTarget(2),…,fTarget(j),…,fTarget(R2)},1≤j≤R2
其中,fSource(i)是FSource中排序为第i个位置的特征,fTarget(j)是FTarget中排序为第j个位置的特征,R1为FSource中特征的总个数,R2为FTarget中特征的总个数。各特征是特征词词典中的词,特征值为在类标签空间label下,采用TF-IDF算法获得的各特征值;
Step2:若F=FSource∩FTarget=φ成立,则,所提算法终止,实例获取失败;否则,有F(l)∈F,其中,F(l)为共有特征集F中第l个特征,1≤l≤M,M≤min{R1,R2},且定义有M个元素的数组TopN_IGratio,同时,设TopN_IGratio(m)表示数组TopN_IGratio的第m个元素中存储的值;
Step3:确定共有特征F(m)在FSource中的位置n_Source,形成特征与位置对(n_Source,F(l)),并按照n_source的值升序排列所有特征与位置对,并记最大的位置n_source为MAX_n_source;确定共有特征F(m)在FTarget中的位置n_Target,形成特征与位置对(n_Target,F(l)),并按照n_Target的值升序排列所有特征与位置对,并记最大的位置n_Target为MAX_n_Target;将升序排序后的特征与位置对(n_source,F(l))放入新生产的二维数组Loeation中,且Location(m,col)表示Location中第m行第col列的元素,且1≤m≤M≤R1col={1,2};If MAX_n_Target>Max_n_source则,令Location(M,1)=MAX_n_Target,令m=1
Step4:N=Location(m,2),N≤R1
Step5:在DsetSource和DsetTarget的前N个特征中进行匹配,得到共有特征的子集Fs(m),并设Fs(m)的元素个数为np,计算以下评价函数:
Figure BDA0000378286720000021
目,表示FSource中Top-N特征信息增益值求和;
表示FSource∩FTarget中第l个特征在FSource中的信息增益值;
F_Weight(l)对少数类实例的特征赋予权值;
tk为第l个共有特征F(l)的属性值,共W个;
Cminority为数据集中少数类的类别;
Figure BDA0000378286720000023
是计算np个共有特征的信息增益值与权重的加权和;
Step6:m=m+1;如果m>M,则执行Step7;否则,执行Step4;
Step7:取数组TopN_IGratio中的最大值,并标记为TopN_IGratioMAX,并确定其在数组TopN_IGratio中的下标为mMAX,确定代表实例并且偏向于少数类特征的特征集FInstance,其维数为mMAX维,记为:
FInstance={fInstance(1),fInstance(2),…,fInstance(i),…,fInstance(mMAX)},1≤i≤mMAXmMAX≤M≤min{R1,R2};
(2)以余弦相似度排序筛选源数据集实例,采用余弦函数计算每个少数类目标实例和源数据集中同类别实例的相似度,并按此相似度的值降序排序,针对每一个少数类目标实例,获取前K个与目标数据集实例相似的源数据集实例,具体算法为:
Stepl:以特征集FInstance作为特征空间,对源数据集DsetSource和目标数据集DsetTarget中的少数类实例进行表示,所得对应的少数类特征值向量如下:
Ins tan ce Source C min ority = ( f Value source ( 1 ) , . . . , f Value source ( i ) , . . . , f Value source ( m MAX ) ) , 1 ≤ i ≤ m MAX
Ins tan ce T arg et C min ority = ( f Value t arg et ( 1 ) , . . . , f Value t arg et ( i ) , . . . , f Value t arg et ( m MAX ) ) , 1 ≤ i ≤ m MAX
其中,
Figure BDA0000378286720000033
Figure BDA0000378286720000034
分别是特征集FInstance第i个维度fInstance(i)上相应的特征值;
Step2:是目标数据集DsetTarget中的少数类实例的第j个实例,(1≤j≤L),
Figure BDA0000378286720000036
是源数据集DsetSource中同类别的少数类实例,(1≤n≤S),其中S是源数据集DsetSource中同类别的少数类实例的个数,定义有S个元素的数组Similarity_value,同时设Similarity_value(a)表示数组Similarity_value第a个元素存储的值,(1≤a≤S);定义算法的输出为由K*S个实例组成的数据集DsetSimilarity,其中DsetSimilarity(instance(L))为第L个实例,K=S/L,1≤L≤K*S;
Step3:令j=1;
Step4:计算
Figure BDA0000378286720000037
与DsetSource中所有同类别少数类实例
Figure BDA0000378286720000038
(1≤n≤S)的余弦相似度,分别存储到Similarity_value数组中;
Figure BDA0000378286720000039
(公式3)
Step5:对Similarity_value数组降序排序,取排序值前Top-K所对应的DsetSource少数类实例存入DsetSimilarity;
Step6:j=j+1,如果j≤L,则执行Step4;否则,程序结束,输出DsetSimilarity;
第二步:实例特征向量空间一致性处理,即以实例相似度为权值合成实例的特征向量,使其与目标实例的特征向量空间一致,具体处理的过程为:
Stepl:合成DsetSimilarity中实例在FTarget中除共有特征F外的特征向量,定义变量
Figure BDA00003782867200000310
数组Similarity_value同第一步中(2)中定义,定义算法的输出为由K*S个实例组成的数据集DsetInstance,其中DsetInstance(instance(T))为第T个实例,K=S/L,1≤T≤K*S;
Step2:令j=1;
Step3:计算与DsetSource中所有同类别少数类实例
Figure BDA0000378286720000042
(1≤n≤S)的余弦相似度,分别存储到Similarity_value数组中,见公式3;
Step4:定义大小为K的数组sim_weight,K=S/L,设sim_weight(k)表示数组sim_weight第k个元素存储的值,对Similarity_value数组降序排序,取前Top-K排序值,存入到数组sim_weight中;
Step5:以sim_weight数组的元素值作为权重合成实例的特征向量:
F ‾ _ Ins tan ce k = sim _ weight ( k ) * F ‾ _ Ins tan ce T arg et ( j ) , 1 ≤ k ≤ K
其中,
Figure BDA0000378286720000044
Figure BDA0000378286720000045
的特征集FTarget中除共有特征F外的特征向量;
Step6:将
Figure BDA0000378286720000048
(1≤k≤K)与K个
Figure BDA0000378286720000046
自身的共有特征向量F_Instancek合并,对K个实例进行最终表示,并将实例存储到DsetInstance中;
Ins tan ce k = { F ‾ _ Ins tan ce k , F _ Ins tan ce k } , 1 ≤ k ≤ K
Step7:j=j+1,如果j≤L,则执行Step3;否则,程序结束,输出DsetInstance
第三步:合并获取的实例和目标数据集实例,将获取的实例并入到目标数据集中形成新的数据集,共同在此数据集上利用基于线性核函数的SVM分类器训练模型。
2、如权利要求1所述的基于实例获取的非平衡交互文本的话题识别方法,其特征在于:所述第三步的合并获取的实例和目标数据集实例的具体过程为:
Stepl:将DsetInstance中的实例与DsetTarget的实例合并,形成新的数据集DsetNew,包括H个实例,实例的构成如下:
DsetNew(h)={fNew(1),…,fNew(i),…,fNew(G),label(h)},1≤i≤G,1≤h≤H
其中:G为实例向量的特征维数;fNew(i)为特征值;label(h)为第h个实例的类标签;
Step2:在DsetNew上采用线性核函数的SVM分类器训练模型model;
Step3:调用训练得到的model,在测试数据集上完成话题分类任务。
本发明方法的特点是:
1.基于实例获取,利用其他相似交互文本数据集,克服目标数据集的非平衡性,而不是在单一数据集内进行非平衡处理。
2.构造了评价函数,确定代表实例且倾向于少数类的特征集。以该特征集对实例进行表示,计算实例间相似度。
3.以实例相似度作为权值合成实例的特征向量空间,进而获取较大数量的相似实例,避免训练数据集过拟合现象。
附图说明
以下结合附图及具体实施方式对本发明作进一步的详细说明。
图1基于实例获取的非平衡交互文本的话题识别方法算法框图。
图2交互文本四类话题所包含的实例数目比例图。
具体实施方式
一种基于实例获取的非平衡交互文本的话题识别方法,包括如下步骤,参照图1包括三步:
第一步:从源数据集中筛选实例阶段:
(1)确定共有特征集中代表实例的特征集,即从源数据集(记为DsetSource)和目标数据集(记为DsetTarget)的共有特征集中选择可以代表实例并且倾向于少数类的特征集。
(2)以余弦相似度排序筛选源数据集实例。采用余弦函数计算每个少数类目标实例和源数据集中同类别实例的相似度,并按此相似度的值降序排序,针对每一个少数类目标实例,获取前K个与目标数据集实例相似的源数据集实例。
第二步:实例特征向量空间一致性处理。以实例相似度为权值合成实例的特征向量,使其与目标实例的特征向量空间一致。
第三步:合并获取的实例和目标数据集实例。将获取的实例并入到目标数据集中形成新的数据集,共同在此数据集上利用基于线性核函数的SVM分类器训练模型。
第一步的步骤(1)所述的确定共有特征集中代表实例的特征集的计算过程为:
首先,DsetSource和DsetTarget为相似数据集对;相似数据集对为符合以下特征的数据集对:a).具有相同的类标签空间,即label={L1,L2,…,LM};b).数据集特征向量空间存在交集,即设DsetSource和DsetTarget中,各自特征的信息增益值按照降序排列的特征集合分别表示为FSource和FTarget,且F=FSource∩FTarget≠φ,FSource≠FTarget,其中∩为集合的交运算。
同时,DsetSource为非平衡数据集,其特点是类标签为label{Li}的样本个数与类标签为label{Lj}的样本个数之间的比值达到10:1,参照图2中比例,Li≠Lj,且Li,Lj∈label。
Step1:按照label空间所有类别计算FSource和FTarget各特征的信息增益值(InformationGain),信息增益计算公式如下:
IG ( f ) = - Σ i = 1 4 P ( C i ) log 2 P ( C i ) +
P ( f ) Σ i = 1 4 P ( C i | f ) log 2 P ( C i | f ) + P ( f ‾ ) Σ i = 1 4 P ( C i | f ‾ ) log 2 P ( C i | f ‾ )
将计算结果分别按降序排列各数据集特征,排序后的特征集如下:
FSource={fSource(1),fSource(2),…,fSoruce(i),…,fSource(R1)},1≤i≤R1
FTarget={fTarget(1),fTarget(2),…,fTarget(j),…,fTarget(R2)},1≤j≤R2
其中,fSource(i)是FSource中排序为第i个位置的特征,fTarget(j)是FTarget中排序为第j个位置的特征,R1为FSource中特征的总个数,R2为FTarget中特征的总个数。各特征是特征词词典中的词,特征值为在类标签空间label下,采用TF-IDF算法获得的各特征值。
tf i , j × log ( N df i )
其中:tfi,j表示第i个特征词在第j个话题文档中出现的频次;
N为文档总个数,此处,N=4;
dfi表示第i个特征词在四个话题文档中出现的频次。
Step2:若F=FSource∩FTarget=φ成立,则,所提算法终止,实例获取失败;否则,有F(l)∈F,其中,F(l)为共有特征集F中第l个特征,1≤l≤M,M≤min{R1,R2}。且定义有M个元素的数组TopN_IGratio,同时,设TopN_IGratio(m)表示数组TopN_IGratio的第m个元素中存储的值;
Step3:确定共有特征F(m)在FSource中的位置n_Source,形成特征与位置对(n_Source,F(l)),并按照n_source的值升序排列所有特征与位置对,并记最大的位置n_source为MAX_n_source;确定共有特征F(m)在FTarget中的位置n_Target,形成特征与位置对(n_Target,F(l)),并按照n_Target的值升序排列所有特征与位置对,并记最大的位置n_Target为MAX_n_Target;将升序排序后的特征与位置对(n_source,F(l))放入新生产的二维数组Location中。且Location(m,col)表示Location中第m行第col列的元素,且1≤m≤M≤R1col={1,2};If MAX_n_Target>Max_n_source则,令
Location(M,1)=MAX_n_Target。
令m=1。
Step4:N=Location(m,2),N≤R1
Step5:在DsetSource和DsetTarger的前N个特征中进行匹配,得到共有特征的子集Fs(m),并设Fs(m)的元素个数为np,计算以下评价函数:
              (公式1)
F _ Weight ( l ) = Σ k = 1 W p ( t k , C min ority ) * log p ( t k , C min ority ) p ( t k ) * p ( C min ority )                (公式2)
且,
Figure BDA0000378286720000073
表示FSource中Top-N特征信息增益值求和;
表示FSource∩FTarget中第l个特征在FSource中的信息增益值;
F_Weight(l)对少数类实例参照图2中所示的爱情和友情类别的特征赋予权值;
tk为第l个共有特征F(l)的属性值,共W个;
Cminrity为数据集中少数类的类别;
Figure BDA0000378286720000074
Step6:m=m+1;如果m>M,则执行Step7;否则,执行Step4;
Step7:取数组TopN_IGratio中的最大值,并标记为TopN_IGratioMAX,并确定其在数组TopN_IGratio中的下标为mMAX,确定代表实例并且偏向于少数类特征的特征集FInstance,其维数为mMAX维,记为
FInstance={fInstance(1),fInstance(2),…,fInstance(i),…,fInstance(mMAX)},1≤i≤mMAX
mMAX≤M≤min{R1,R2)。
第一步的步骤(2)所述的以余弦相似度排序筛选源数据集实例的计算过程为:
Stepl:以特征集FInstance作为特征空间,对源数据集DsetSource和目标数据集DsetTarget,中的少数类实例进行表示,所得对应的少数类特征值向量如下:
Ins tan ce Source C min ority = ( f Value source ( 1 ) , . . . , f Value source ( i ) , . . . , f Value source ( m MAX ) ) , 1 ≤ i ≤ m MAX
Ins tan ce T arg et C min ority = ( f Value t arg et ( 1 ) , . . . , f Value t arg et ( i ) , . . . , f Value t arg et ( m MAX ) ) , 1 ≤ i ≤ m MAX
其中,
Figure BDA0000378286720000077
Figure BDA0000378286720000078
分别是特征集FInstance第i个维度fInstance(i)上相应的特征值。
Step2:
Figure BDA0000378286720000081
是目标数据集DsetTarget中的少数类实例的第j个实例,(1≤j≤L)。
Figure BDA0000378286720000082
是源数据集DsetSource中同类别的少数类实例,(1≤n≤S),其中S是源数据集DsetSource中同类别的少数类实例的个数。定义有S个元素的数组Similarity_value,同时设Similarity_value(a)表示数组Similarity_value第a个元素存储的值,(1≤a≤S);定义算法的输出为由K*S个实例组成的数据集DsetSimilarity,其中DsetSimilarity(instance(L))为第L个实例,K=S/L,1≤L≤K*S;
Step3:令j=1;
Step4:计算
Figure BDA0000378286720000083
与DsetSource中所有同类别少数类实例
Figure BDA0000378286720000084
(1≤n≤S)的余弦相似度,分别存储到Similarity_value数组中;
Figure BDA0000378286720000085
   (公式3)
Step5:对Similarity_value数组降序排序,取排序值前Top-K所对应的DsetSource少数类实例存入DsetSimilarity;
Step6:j=j+1,如果j≤L,则执行Step4;否则,程序结束,输出DsetSimilarity。
第二步的实例特征向量空间一致性处理的过程为:
Stepl:合成DsetSimilarity中实例在FTarget中除共有特征F外的特征向量。定义变量
Figure BDA0000378286720000086
数组Similarity_value同第一步中步骤(2)中的定义。定义算法的输出为由K*S个实例组成的数据集DsetInstance,其中DsetInstance(instance(T))为第T个实例,K=S/L,1≤T≤K*S。
Step2:令j=1;
Step3:计算
Figure BDA0000378286720000088
与DsetSource中所有同类别少数类实例
(1≤n≤S)的余弦相似度,分别存储到Similarity_value数组中,见3中公式3;
Step4:定义大小为K的数组sim_weight,K=S/L,设sim_weight(k)表示数组sim_weight第k个元素存储的值。对Similarity_value数组降序排序,取前Top-K排序值,存入到数组sim_weight中;
Step5:以sim_weight数组的元素值作为权重合成实例的特征向量:
F - _ Ins tan ce k = sim _ weight ( k ) * F - _ Ins tan ce T arg et ( j ) , 1 ≤ k ≤ K
其中:
Figure BDA00003782867200000812
Figure BDA00003782867200000811
的特征集FTarget中除共有特征F外的特征向量。
Step6:将
Figure BDA0000378286720000091
与K个
Figure BDA0000378286720000092
自身的共有特征向量F_Instancek合并,对K个实例进行最终表示,并将实例存储到DsetInstance中;
Ins tan ce k = { F - _ Ins tan ce k , F _ Ins tan ce k } , 1 ≤ k ≤ K
Step7:j=j+1,如果j≤L,则执行Step3;否则,程序结束,输出DsetInstance
第三步的合并获取的实例和目标数据集实例过程为:
Step1:将DsetInstance中的实例与DsetTarget的实例合并,形成新的数据集DsetNew,包括H个实例,实例的构成如下:
DsetNew(h)={fNew(1),…,fNew,(i),…,fNew(G),label(h)},1≤i≤G,1≤h≤H
其中:G为实例向量的特征维数;fNew(i)为特征值;label(h)为第h个实例的类标签。
Step2:在DsetNew上采用线性核函数的SVM分类器训练模型model;
Step3:调用训练得到的model,在测试数据集上完成话题分类任务。

Claims (2)

1.一种基于实例获取的非平衡交互文本的话题识别方法,其特征在于:包括如下步骤:
第一步:从源数据集中筛选实例阶段:
(1)确定共有特征集中代表实例的特征集,即从源数据集DsetSource和目标数据集DsetTarget的共有特征集中选择代表实例并且倾向于少数类的特征集,具体算法为:
Step:按照label空间所有类别计算FSource和FTarget各特征的信息增益值InformationGain,并将计算结果分别按降序排列各数据集特征,排序后的特征集如下:
FSource={fSource(1),fSource(2),…,fSource(i),…,fSource(R1)},1≤i≤R1
FTarget={fTarget(1),fTarget(2),…,fTarget(j),…,fTarget(R2)},1≤j≤R2
其中,fSource(i)是FSource中排序为第i个位置的特征,fTarget(j)是FTarget中排序为第j个位置的特征,R1为FSource中特征的总个数,R2为FTarget中特征的总个数,各特征是特征词词典中的词,特征值为在类标签空间label下,采用TF-IDF算法获得的各特征值;
Step2:若F=FSource∩FTarget=φ成立,则,所提算法终止,实例获取失败;否则,有F(l)∈F,其中,F(l)为共有特征集F中第l个特征,1≤l≤M,M≤min{R1,R2},且定义有M个元素的数组TopN_IGratio,同时,设TopN_IGratio(m)表示数组TopN_IGratio的第m个元素中存储的值;
Step3:确定共有特征F(m)在FSource中的位置n_Source,形成特征与位置对(n_Source,F(l)),并按照n_source的值升序排列所有特征与位置对,并记最大的位置n_source为MAX_n_source;确定共有特征F(m)在FTarget中的位置n_Target,形成特征与位置对(n_Target,F(l)),并按照n_Target的值升序排列所有特征与位置对,并记最大的位置n_Target为MAX_n_Target;将升序排序后的特征与位置对(n_source,F(l))放入新生产的二维数组Location中,且Location(m,col)表示Location中第m行第col列的元素,且1≤m≤M≤R1col={1,2};If MAX_n_Target>Max_n_source则,令
Location(M,1)=MAX_n_Target,令m=1
Step4:N=Location(m,2),N≤R1
Step5:在DsetSource和DsetTarget的前N个特征中进行匹配,得到共有特征的子集Fs(m),并设Fs(m)的元素个数为np,计算以下评价函数:
TopN _ IGratio ( m ) = Σ l = 1 np IG F Source ( F ( l ) ) * F _ Weight ( l ) Σ i = 1 N F Source ( i )    (公式1)
其中:
F _ Weight ( l ) = Σ k = 1 W p ( t k , C min ority ) * log p ( t k , C min ority ) p ( t k ) * p ( C min ority )    (公式2)
目,
Figure FDA0000378286710000022
表示FSource中Top-N特征信息增益值求和;
表示FSource∩FTarget中第l个特征在FSource中的信息增益值;
F_Weight(l)对少数类实例的特征赋予权值;
tk为第l个共有特征F(l)的属性值,共W个;
Cminority为数据集中少数类的类别;
Figure FDA0000378286710000023
是计算np个共有特征的信息增益值与权重的加权和;
Step6:m=m+1;如果m>M,则执行Step7;否则,执行Step4;
Step7:取数组TopN_IGratio中的最大值,并标记为TopN_IGratioMAX,并确定其在数组TopN_IGratio中的下标为mMAX,确定代表实例并且偏向于少数类特征的特征集FInstance,其维数为mMAX维,记为:
FInstance={fInstance(1),fInstance(2),…,fInstance(i),…,fInstance(mMAX)},1≤i≤mMAXmMAX≤M≤min{R1,R2};
(2)以余弦相似度排序筛选源数据集实例,采用余弦函数计算每个少数类目标实例和源数据集中同类别实例的相似度,并按此相似度的值降序排序,针对每一个少数类目标实例,获取前K个与目标数据集实例相似的源数据集实例,具体算法为:
Step1:以特征集FInstance作为特征空间,对源数据集DsetSource和目标数据集DsetTarget中的少数类实例进行表示,所得对应的少数类特征值向量如下:
Ins tan ce Source C min ority = ( f Value source ( 1 ) , . . . , f Value source ( i ) , . . . , f Value source ( m MAX ) ) , 1 ≤ i ≤ m MAX
Ins tan ce T arg et C min ority = ( f Value t arg et ( 1 ) , . . . , f Value t arg et ( i ) , . . , f Value t arg et ( m MAX ) ) , 1 ≤ i ≤ m MAX
其中,
Figure FDA0000378286710000026
Figure FDA0000378286710000027
分别是特征集FInstance第i个维度fInstance(i)上相应的特征值;
Step2:
Figure FDA0000378286710000028
是目标数据集DsetTarget中的少数类实例的第j个实例,(1≤j≤L),是源数据集DsetSource中同类别的少数类实例,(1≤n≤S),其中S是源数据集DsetSource中同类别的少数类实例的个数,定义有S个元素的数组Similarity_value,同时设Similarity_value(a)表示数组Similarity_value第a个元素存储的值,(1≤a≤S);定义算法的输出为由K*S个实例组成的数据集DsetSimilarity,其中DsetSimilarity(instance(L))为第L个实例,K=S/L,1≤L≤K*S;
Step3:令j=1;
Step4:计算
Figure FDA0000378286710000039
与DsetSource中所有同类别少数类实例
Figure FDA0000378286710000031
(1≤n≤S)的余弦相似度,分别存储到Similarity_value数组中;
Figure FDA0000378286710000032
   (公式3)
Step5:对Similarity_value数组降序排序,取排序值前Top-K所对应的DsetSource少数类实例存入DsetSimilarity;
Step6:j=j+1,如果j≤L,则执行Step4;否则,程序结束,输出DsetSimilarity;
第二步:实例特征向量空间一致性处理,即以实例相似度为权值合成实例的特征向量,使其与目标实例的特征向量空间一致,具体处理的过程为:
Step1:合成DsetSimilarity中实例在FTarget中除共有特征F外的特征向量,定义变量
Figure FDA0000378286710000033
数组Similarity_value同第一步中(2)中的定义,定义算法的输出为由K*S个实例组成的数据集DsetInstance,其中DsetInstance(instance(T))为第T个实例,K=S/L,1≤T≤K*S;
Step2:令j=1;
Step3:计算
Figure FDA0000378286710000034
与DsetSource中所有同类别少数类实例
Figure FDA0000378286710000035
(1≤n≤s)的余弦相似度,分别存储到Similarity_value数组中,见公式3;
Step4:定义大小为K的数组sim_weight,K=S/L,设sim_weight(k)表示数组sim_weight第k个元素存储的值,对Similarity_value数组降序排序,取前Top-K排序值,存入到数组sim_weight中;
Step5:以sim_weight数组的元素值作为权重合成实例的特征向量:
F ‾ _ Ins tan ce k = sim _ weight ( k ) * F ‾ _ Ins tan ce T arg et ( j ) , 1 ≤ k ≤ K
其中,
Figure FDA00003782867100000312
Figure FDA0000378286710000036
的特征集FTarget中除共有特征F外的特征向量;
Step6:将与K个
Figure FDA0000378286710000037
自身的共有特征向量F-Instancek合并,对K个实例进行最终表示,并将实例存储到DsetInstance中;
Ins tan ce k = { F ‾ _ Ins tan ce k , F _ Ins tan ce k } , 1 ≤ k ≤ K
Step7:j=j+1,如果j≤L,则执行Step3;否则,程序结束,输出DsetInstance
第三步:合并获取的实例和目标数据集实例,将获取的实例并入到目标数据集中形成新的数据集,共同在此数据集上利用基于线性核函数的SVM分类器训练模型。
2.如权利要求1所述的基于实例获取的非平衡交互文本的话题识别方法,其特征在于:所述第三步的合并获取的实例和目标数据集实例的具体过程为:
Step1:将DsetInstance中的实例与DsetTarget的实例合并,形成新的数据集DsetNew,包括H个实例,实例的构成如下:
DsetNew(h)={fNew(1),…,fNew,(i),…,fNew(G),label(h)},1≤i≤G,1≤h≤H
其中:G为实例向量的特征维数;fNew(i)为特征值;label(h)为第h个实例的类标签;
Step2:在DsetNew上采用线性核函数的SVM分类器训练模型model;
Step3:调用训练得到的model,在测试数据集上完成话题分类任务。
CN201310403755.1A 2013-09-06 2013-09-06 基于实例获取的非平衡交互文本的话题识别方法 Active CN103500159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310403755.1A CN103500159B (zh) 2013-09-06 2013-09-06 基于实例获取的非平衡交互文本的话题识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310403755.1A CN103500159B (zh) 2013-09-06 2013-09-06 基于实例获取的非平衡交互文本的话题识别方法

Publications (2)

Publication Number Publication Date
CN103500159A true CN103500159A (zh) 2014-01-08
CN103500159B CN103500159B (zh) 2015-05-27

Family

ID=49865373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310403755.1A Active CN103500159B (zh) 2013-09-06 2013-09-06 基于实例获取的非平衡交互文本的话题识别方法

Country Status (1)

Country Link
CN (1) CN103500159B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN106372655A (zh) * 2016-08-26 2017-02-01 南京邮电大学 一种非平衡iptv数据集上的少数类样本的合成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7039677B2 (en) * 2002-05-07 2006-05-02 International Business Machines Corporation Threaded text-based chat collaboration
CN101179574A (zh) * 2006-12-16 2008-05-14 张海洋 网络精准分类即时交谈平台
CN101751424A (zh) * 2008-12-10 2010-06-23 中国科学院自动化研究所 一种在线讨论区话题检测与跟踪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7039677B2 (en) * 2002-05-07 2006-05-02 International Business Machines Corporation Threaded text-based chat collaboration
CN101179574A (zh) * 2006-12-16 2008-05-14 张海洋 网络精准分类即时交谈平台
CN101751424A (zh) * 2008-12-10 2010-06-23 中国科学院自动化研究所 一种在线讨论区话题检测与跟踪方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN104199857B (zh) * 2014-08-14 2017-06-27 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN106372655A (zh) * 2016-08-26 2017-02-01 南京邮电大学 一种非平衡iptv数据集上的少数类样本的合成方法

Also Published As

Publication number Publication date
CN103500159B (zh) 2015-05-27

Similar Documents

Publication Publication Date Title
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的***
CN105138653B (zh) 一种基于典型度和难度的题目推荐方法及其推荐装置
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN103810299B (zh) 基于多特征融合的图像检索方法
CN103886048B (zh) 一种基于聚类的增量数字图书推荐方法
CN103559504A (zh) 图像目标类别识别方法及装置
CN102750347B (zh) 一种用于图像或视频搜索重排序的方法
CN105589938A (zh) 基于fpga的图像检索***及检索方法
CN103324628A (zh) 一种针对发布文本的行业分类方法和***
Iakovidou et al. Localizing global descriptors for content-based image retrieval
CN103593474A (zh) 基于深度学习的图像检索排序方法
CN102385585A (zh) 网页数据库的建立方法、网页搜索方法以及相关装置
WO2014050774A1 (en) Document classification assisting apparatus, method and program
CN104408033A (zh) 一种文本信息提取的方法及***
CN110046264A (zh) 一种面向手机文档的自动分类方法
Zhang et al. 3D object retrieval with multi-feature collaboration and bipartite graph matching
CN102663447A (zh) 基于判别相关分析的跨媒体检索方法
CN105975639A (zh) 搜索结果排序方法和装置
CN104008187A (zh) 一种基于最小编辑距离的半结构化文本匹配方法
CN113297410A (zh) 一种图像检索方法、装置、计算机设备及存储介质
CN102693321A (zh) 一种跨媒体间信息分析与检索的方法
CN103440508A (zh) 基于视觉词袋模型的遥感图像目标识别方法
CN106649264B (zh) 一种基于篇章信息的中文水果品种信息抽取方法及装置
CN108021693A (zh) 一种图像检索方法和装置
CN103500159B (zh) 基于实例获取的非平衡交互文本的话题识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant