CN106294506A - 领域自适应的观点数据分类方法及装置 - Google Patents
领域自适应的观点数据分类方法及装置 Download PDFInfo
- Publication number
- CN106294506A CN106294506A CN201510316353.7A CN201510316353A CN106294506A CN 106294506 A CN106294506 A CN 106294506A CN 201510316353 A CN201510316353 A CN 201510316353A CN 106294506 A CN106294506 A CN 106294506A
- Authority
- CN
- China
- Prior art keywords
- matrix
- domain
- source domain
- target domain
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种领域自适应的观点数据分类方法,属于互联网技术领域。包括:确定源领域检索词矩阵及目标领域检索词矩阵;确定源领域目标函数及目标领域目标函数;根据源领域目标函数及目标领域目标函数确定总目标函数;分别确定总目标函数中各个参数的目标值;根据各个参数的目标值及源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对目标领域的观点数据进行分类。由于总目标函数与源领域特定话题矩阵、目标领域特定话题矩阵及表示源领域与目标领域间的共享话题的枢纽矩阵有关,从而提供一种借助共享话题实现领域自适应的观点数据分类方法。由于共享话题能够减小源领域与目标领域间的差异,从而可确保分类结果的准确性。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种领域自适应的观点数据分类方法及装置。
背景技术
随着互联网技术的发展,用户在互联网上分享的观点数据越来越多。例如,用户在购物网站发表的用户评论、用户针对某一产品的反馈意见等均为观点数据。其中,用户分享的观点数据会涉及多个领域,如服装领域、图书领域等。为了便于研究或统计各个领域的观点数据,通常需要对各个领域的观点数据进行分类。通常,在对某一个领域的观点数据进行分类时,需要先标注该领域中的观点数据,并基于标注的观点数据训练分类器来实现。然而,由于互联网中的观点数据所涉及的领域很多,对每个领域的观点数据均进行标注会浪费很多资源,而领域自适应的观点数据分类方法,可以实现在对某些领域的观点数据不进行标注的情况下,实现对这些领域的观点数据进行分类。
以采用SFA(Spectral Feature Alignment,谱的特征队列)算法实现领域自适应的观点数据分类为例,相关技术在实现领域自适应的观点数据分类时,首先任意选定一个源领域和目标领域,并确定源领域和目标领域的领域特定词和领域独立词。其中,领域特定词为一个领域所特有的词,领域独立词为连接源领域和目标领域之间的桥梁。然后,在领域特定词和领域独立词之间构建一个双向图,该双向图用来表示领域特定词和领域独立词之间的共现关系,进而采用SFA算法将双向图中联系较多的领域特定词和领域独立词分到一个簇中。由于这个簇能够减小源领域和目标领域的领域特定词之间的差距,因此,可根据这个簇训练一个分类器,进而通过训练得到的分类器实现领域自适应的观点数据分类。
在实现本发明的过程中,发明人发现相关技术至少存在以下问题:
相关技术在实现领域自适应的观点数据分类时,由于选定的源领域和目标领域所涉及的所有词并不一定能够明确被划分为领域特定词或领域独立词,导致通过相关技术提出的领域自适应的观点数据对观点数据进行分类的分类结果并不精准。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种领域自适应的观点数据分类方法及装置。所述技术方案如下:
第一方面,提供了一种领域自适应的观点数据分类方法,所述方法包括:
根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵;
根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵;
根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,确定源领域目标函数;
根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领域特定话题矩阵的系数矩阵及所述枢纽矩阵,确定目标领域目标函数;
根据所述源领域目标函数及所述目标领域目标函数,确定总目标函数;
分别确定所述总目标函数中各个参数的目标值;
根据所述各个参数的目标值及所述源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对所述目标领域的观点数据进行分类。
第二方面,提供了一种领域自适应的观点数据分类装置,所述装置包括:
第一确定模块,用于根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵;
第二确定模块,用于根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵;
第三确定模块,用于根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,确定源领域目标函数;
第四确定模块,用于根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领域特定话题矩阵的系数矩阵及所述枢纽矩阵,确定目标领域目标函数;
第五确定模块,用于根据所述源领域目标函数及所述目标领域目标函数,确定总目标函数;
第六确定模块,用于分别确定所述总目标函数中各个参数的目标值;
训练模块,用于根据所述各个参数的目标值及所述源领域中的已标注观点数据,训练指定分类模型;
分类模块,用于通过训练得到的指定分类模型对所述目标领域的观点数据进行分类。
本发明实施例提供的技术方案带来的有益效果是:
由于确定的总目标函数与源领域特定话题矩阵、目标领域特定话题矩阵及表示源领域与目标领域之间的共享话题的枢纽矩阵有关,从而提供一种借助源领域与目标领域之间的共享话题实现领域自适应的观点数据分类方法。由于共享话题能够减小源领域与目标领域之间的差异,使得通过该种领域自适应的观点数据分类方法进行分类时,可以确保分类结果的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种领域自适应的观点数据分类方法的流程图;
图2是本发明另一实施例提供的一种领域自适应的观点数据分类方法的流程图;
图3是本发明另一实施例提供的一种收敛曲线;
图4是本发明另一实施例提供的一种针对每对领域的差异进行实验得到的实验结果图;
图5是本发明另一实施例提供的一种领域自适应的观点数据分类装置的结构示意图;
图6是本发明另一实施例提供的一种服务器的结构示意图;
图7是本发明另一实施例提供的一种终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
随着互联网技术的迅速发展,互联网上分享的能够标识用户感情的观点数据越来越多。例如,当用户网购成功后,会在评论中发表对该次购买的商品的评价意见;当某一个用户发表博客后,其他用户对该用户发表的内容进行的评论等。其中,观点数据可能为贬义的,也可能为褒义的;可能为主观的,也可能为客观的等。也就是说,观点数据具有一定的情感极性,观点数据的情感极性包括正向和负向等,研究观点数据的情感极性的过程即为对观点数据进行分类的过程。通过对观点数据的情感极性进行研究,对于指导产品或服务等生产实践具有重要的意义,因此,经常需要对观点数据进行分类。
进一步地,由于互联网上包括的观点数据涉及多个不同的领域。为了便于对多个领域的观点数据进行分类,通常会采用领域自适应的分类方法。通过领域自适应的分类方法,可以实现在不对某个或某些领域的观点数据进行标注的情况下,实现对这个或者这些领域的观点数据进行分类。本发明实施例即提供的一种领域自适应的观点数据分类方法。在本发明实施例中,源领域中包括一些已标注极性的已标注观点数据,而目标领域中可能未包括已标注观点数据,通过本发明实施例提供的方法,可以确定目标领域中任一观点数据的情感极性,从而实现对目标领域的任一观点数据进行分类,具体领域自适应的观点数据分类方法详见下述各个实施例:
图1是根据一示例性实施例提供的一种领域自适应的观点数据分类方法的流程图。参见图1,本发明实施例提供的方法流程包括:
101:根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵。
102:根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵。
103:根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,确定源领域目标函数。
104:根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,确定目标领域目标函数。
105:根据源领域目标函数及目标领域目标函数,确定总目标函数。
106:分别确定总目标函数中各个参数的目标值。
107:根据各个参数的目标值及源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对目标领域的观点数据进行分类。
本发明实施例提供的方法,由于确定的总目标函数与源领域特定话题矩阵、目标领域特定话题矩阵及表示源领域与目标领域之间的共享话题的枢纽矩阵有关,从而提供一种借助源领域与目标领域之间的共享话题实现领域自适应的观点数据分类方法。由于共享话题能够减小源领域与目标领域之间的差异,使得通过该种领域自适应的观点数据分类方法进行分类时,可以确保分类结果的准确性。
在另一个实施例中,根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,确定源领域目标函数,包括:
根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,通过以下公式确定源领域目标函数:
式中,Os为源领域目标函数,Xs为源领域检索词矩阵,U0为枢纽矩阵,Us为源领域特定话题矩阵,Vs为源领域特定话题矩阵的系数矩阵,表示费罗贝尼乌斯范数;
根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,确定目标领域目标函数,包括:
根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,通过以下公式确定目标领域目标函数:
式中,Ot为目标领域目标函数,Xt为目标领域检索词矩阵,U0为枢纽矩阵,Ut为目标领域特定话题矩阵,Vt为目标领域特定话题矩阵的系数矩阵。
在另一个实施例中,根据源领域目标函数及目标领域目标函数,确定总目标函数,包括:
根据源领域目标函数及目标领域目标函数,通过如下公式确定总目标函数:
式中,Φ为总目标函数,D(U0,Us,Ut,Vs,Vt)为一个正则项,α、β、γ为各个正则化参数,Tr()为矩阵的迹,为通过拉格朗日数乘法在限制U0(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Us(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Ut(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vs(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vt(i,j)≥0条件下得到的拉格朗日乘子矩阵。
在另一个实施例中,分别确定总目标函数中各个参数的目标值,包括:
分别为各个参数随机分配一个非负的值作为各个参数的初始值;
根据各个参数的初始值,计算各个参数的收敛值,将各个参数的收敛值作为各个参数的目标值。
在另一个实施例中,总目标函数中的各个参数包括U0、Us、Ut、Vs和Vt;
根据各个参数的初始值,计算各个参数的收敛值,包括:
根据U0的初始值,按照 对U0进行迭代计算,直至得到U0的收敛值式中,上一次迭代得到的U0的值,为根据迭代得到的U0的值,Hs为枢纽矩阵对源领域的系数矩阵,Ht为枢纽矩阵对目标领域的系数矩阵,r表示迭代次数;
根据Us的初始值,按照 对Us进行迭代计算,直至得到Us的收敛值式中,上一次迭代得到的Us的值,为根据迭代得到的Us的值,Ls为源领域特定话题矩阵的系数矩阵,Lt为目标领域特定话题矩阵的系数矩阵;
根据Ut的初始值,按照 对Ut进行迭代计算,直至得到Ut的收敛值式中,上一次迭代得到的Ut的值,为根据迭代得到的Ut的值;
根据Vs的初始值,按照对Vs进行迭代计算,直至得到Vs的收敛值式中,为上一次迭代得到的Vs的值,为根据迭代得到的Vs的值;
根据Vt的初始值,按照对Vt进行迭代计算,直至得到Vt的收敛值式中,为上一次迭代得到的Vt的值,为根据迭代得到的Vt的值。
结合图1所对应实施例的内容,图2是根据一示例性实施例提供的一种领域自适应的观点数据分类方法的流程图。参见图2,本发明实施例提供的方法流程包括:
201:根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵。
其中,源领域包括一些已标注观点数据,还可能包括一些未标注观点数据,已标观点数据可以为已标注文档。对于任一已标注观点数据,所标注的数据能够表明该观点数据的情感极性为正向还是负向。例如,如果某一个已标注观点数据为一个已标注文档,并用“+1”和“-1”分别表示情感极性为正向和负向,如果该已标注文档的标注数据为“+1”,则可以确定该已标注文档的情感极性为正向。另外,关于源领域的类型,本发明实施例不作具体限定。例如,源领域可以为图书领域、电子领域、服装领域等。
通常,每个领域会包括多个文档,而每个文档由至少一个检索词组成,因此,对于任一领域,可以通过检索词矩阵表示该领域的文档与检索词之间的关系,从而实现标识该领域的特征。在本发明实施例中,为了确定源领域中文档与检索词之间的关系,以确定源领域的特征,设定源领域为Xs,源领域中包含的文档数为ns个,每个文档中包含的检索词的数量为m个,在此基础上,源领域检索词矩阵可以表示为:
其中,源领域检索词矩阵Xs中的每个元素表示对应检索词的权重。每个检索词的权重可以根据源领域的文档与检索词之间的关系,通过TF-IDF算法求解得到。
由于源领域中每个文档中都包含m个检索词,因此,源领域的检索词矩阵还表示为即
另外,当任一观点数据为文档时,由于源领域中包含一定数量的已标注观点数据,即源领域中包括一定数量的已标注文档,为了便于后续使用源领域中的已标注观点数据训练指定分类模型,对于源领域中的已标注文档,可以通过一个文档极性矩阵Ys表示各个已标注文档的情感极性。具体地,Ys可以为一个ns×2的矩阵,ns为源领域中包含的文档的数量,2表示文档的情感极性种类有两种:一种极性为正向,表示文档表达的观点为正向观点,一种极性为负向,表示文档表达的观点为负向观点。结合文档极性矩阵的内容,以源领域中的第i个文档为例,若源领域的第i个文档对应文档极性矩阵中的元素yi=1,则可确定源领域中第i个文档的情感极性为正向,即该文档表达的观点为正向观点;若源领域的第i个文档对应的极性矩阵中的元素yi=-1,则确定源领域中第i个文档的情感极性为负向,即该文档表达的观点为负向观点。当然,上述方式仅以“+1”和“-1”表示文档的情感极性为例进行了举例说明,然而,在具体实施时,还可采用其它数值表示文档的情感极性,本实施例对此不作具体的限定。
202:根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵。
其中,目标领域可能未包括已标注观点数据。另外,目标领域可以为图书领域、电子领域、服装领域等与源领域不同的领域,本实施例不对目标领域的类型作具体的限定。结合上述步骤201中的内容,为了确定目标领域的文档与检索词之间的关系,以确定目标领域的特征,本发明实施例设定目标领域为Xt,目标领域中包含的文档数为nt个,每个文档中包含的检索词的数量为m个,则目标领域的检索词矩阵可以表示为:
由于目标领域中每个文档中都包含m个检索词,因此,目标领域的检索词矩阵还表示为即
需要说明的是,上述步骤201和步骤202仅以先确定源领域检索词矩阵,再确定目标领域检索词矩阵为例进行了说明。然而,在具体实施时,也可以先确定目标领域检索词矩阵,再确定源领域检索词矩阵;还可以同时确定源领域检索词矩阵和目标领域检索词矩阵。
203:根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,确定源领域目标函数。
通常,对于不同类型的领域,往往会有一些领域特定话题。例如,对于电子产品领域,“耐用”和“亮度”即为其领域特定话题。源领域特定话题矩阵为由源领域的领域特定话题组成的矩阵。为了便于说明,本发明实施例假设源领域的领域特定话题的数量为ks,源领域特定话题矩阵为Us,则源领域特定话题矩阵可以表示为:
Us=[u1 (s),…,uk (s)]。
由于源领域中的每个文档中都包含m个检索词,因此,源领域特定话题矩阵还可以表示为即其中,源领域特定话题矩阵中的每一列表示源领域的一个特定话题。
另外,源领域和目标领域通常还会包括一些共享话题,源领域和目标领域之间的共享话题为源领域和目标领域都会涉及的话题。例如,源领域为图书领域,目标领域为服装领域,“昂贵”、“便宜”等话题在源领域和目标领域都会涉及,因此,“昂贵”、“便宜”等话题可作为源领域与目标领域之间的共享话题。本发明实施例通过枢纽矩阵表示源领域与目标领域之间的共享话题。
具体地,为了便于说明,本发明实施例设定共享话题的数量为k0,源领域与目标领域之间的枢纽矩阵为U0,则源领域与目标领域之间的枢纽矩阵U0可以表示为:
由于源领域和目标领域中的每个文档中都包含m个检索词,因此,枢纽矩阵还可以表示为即其中,枢纽矩阵中的每一列表示源领域和目标领域之间的一个共享话题。
结合上述内容,由于源领域特定话题矩阵及枢纽矩阵均为源领域所包括的话题,因此,源领域所包括的话题数量为k0+ks。
另外,在本发明实施例中,源领域目标函数可以准确地表示源领域的特征,且源领域目标函数是后续步骤中进行领域自适应的观点数据进行分类的重要依据,因此,需要确定源领域目标函数。又由于源领域检索词矩阵、源领域特定话题矩阵及枢纽矩阵均可以用于表示源领域的特征,因此,可以根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,确定源领域目标函数。
具体地,可以根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,通过以下公式确定源领域目标函数:
公式(1)中,Os为源领域目标函数,Xs为源领域检索词矩阵,U0为枢纽矩阵,Us为源领域特定话题矩阵,Vs为源领域特定话题矩阵的系数矩阵,表示费罗贝尼乌斯范数。
上述公式(1)可知,枢纽矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域检索词矩阵是确定源领域目标函数的关键,因此,在确定源领域目标函数之前,需要先确定源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及枢纽矩阵。其中,源领域检索词矩阵与源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及枢纽矩阵之间具有一定的关系。下面将介绍一下源领域检索词矩阵与源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及枢纽矩阵之间的关系。
具体地,结合公式(1),在理想情况下,源领域检索词矩阵Xs可以分解得到两个矩阵,一个矩阵为源领域文档话题矩阵Vs,一个矩阵为源领域条目话题矩阵Us'。其中,源领域条目话题矩阵Us'为一个m×(ks+k0)阶矩阵,即源领域条目话题矩阵Us'中包含的矩阵包括但不限于枢纽矩阵U0和源领域特定话题矩阵Us。源领域文档话题矩阵Vs为一个ns×(ks+k0)阶矩阵,即矩阵中的每一行表示源领域中一个文档。源领域文档话题矩阵Vs又可以分解为矩阵Hs和矩阵Ls。其中,Hs为一个ns×k0阶矩阵,为枢纽矩阵对源领域的系数矩阵,用于表示枢纽矩阵在源领域中的权重大小;Ls为一个ns×ks阶矩阵,为源领域特定话题矩阵的系数矩阵。
关于将源领域的检索词矩阵进行分解的方法,包括但不限于采用非负矩阵分解法将源领域检索词矩阵进行分解。其中,非负矩阵分解法为在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法,非负矩阵分解法通过寻找低秩,将矩阵分解成若干个非负的矩阵。
实际应用中采用非负矩阵分解法分解矩阵的例子有很多,如采用非负矩阵分解数字图像中的像素、文本分析中的单词统计及股票价格等等。非负矩阵分解法的基本思想可以简单描述为:对于任意给定的一个非负矩阵A,总能找到一个非负矩阵U和一个非负矩阵V,使得非负的矩阵A可以分解成非负矩阵U和V的乘积。利用非负矩阵分解法进行文本、图像大规模数据的分析,较传统的处理算法更能描述和刻画潜在的语义信息。
204:根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,确定目标领域目标函数。
结合上述步骤203中的内容,目标领域的领域特定话题为目标领域所特有的话题,目标领域特定话题矩阵为由目标领域的特定话题组成的矩阵。为了便于说明,本发明实施例假设目标领域的领域特定话题的数量为kt,目标领域特定话题矩阵为Ut,则目标领域特定话题矩阵Ut可以表示为:
Ut=[u1 (t),…,uk (t)]。
由于目标领域中的每个文档中都包含m个检索词,因此,目标领域特定话题矩阵还可以表示为即其中,目标领域特定话题矩阵中的每一列表示目标领域的一个特定话题。
结合上述步骤203中的内容,由于目标领域特定话题矩阵及枢纽矩阵均为源领域所包括的话题,因此,目标领域所包括的话题数量为k0+kt。
另外,在本发明实施例中,目标领域目标函数可以很好地表示目标领域的特征,又由于目标领域目标函数是后续步骤中进行领域自适应的观点数据分类的重要依据,因此,需要确定目标领域目标函数。又由于目标领域检索词矩阵、目标领域特定话题矩阵及枢纽矩阵均可以用于表示目标领域的特征,因此,可以根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,确定目标领域目标函数。
具体地,可以根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,通过以下公式确定目标领域目标函数:
公式(2)中,Ot为目标领域目标函数,Xt为目标领域检索词矩阵,U0为枢纽矩阵,Ut为目标领域特定话题矩阵,Vt为目标领域特定话题矩阵的系数矩阵。
进一步地,由上述公式(2)可知,枢纽矩阵及目标领域特定话题矩阵是确定目标领域目标函数的关键,因此,在确定目标领域目标函数之前,需要先确定枢纽矩阵、目标领域的领域特定话题矩阵。关于确定枢纽矩阵、目标领域的领域特定话题矩阵及目标领域特定话题矩阵的系数矩阵的方法,包括但不限于将目标领域检索词矩阵进行分解得到。
具体地,结合公式(2),在理想情况下,目标领域的检索词矩阵Xt可以分解得到两个矩阵,一个矩阵为目标领域文档话题矩阵Vt,一个矩阵为目标领域条目话题矩阵Ut'。其中,目标领域条目话题矩阵Ut'为一个m×(kt+k0)阶矩阵,即目标领域条目话题矩阵Ut'中包含的矩阵包括但不限于枢纽矩阵U0和目标领域特定话题矩阵Ut。目标领域文档话题矩阵Vt为一个nt×(kt+k0)阶矩阵,即矩阵中的每一行表示目标领域中一个文档。目标领域文档话题矩阵Vt又可以分解为矩阵Ht和矩阵Lt,其中,Ht为一个nt×k0阶矩阵,为枢纽矩阵对目标领域的系数矩阵,用于表示枢纽矩阵在目标领域中的权重大小;Lt为一个nt×k0阶矩阵,为目标领域特定话题矩阵的系数矩阵。
关于将目标领域的检索词矩阵进行分解的方法,包括但不限于采用非负矩阵分解法将目标领域的检索词矩阵进行分解。
需要说明的是,本实施例不对上述步骤203和步骤204中执行确定源领域目标函数和确定目标领域目标函数的先后顺序进行限定,具体执行时,既可以先确定源领域目标函数,也可以先确定目标领域目标函数,还可以同时确定源领域目标函数和目标领域目标函数。
205:根据源领域目标函数及目标领域目标函数,确定总目标函数。
具体地,在确定总目标函数时,一个简单直接的方式就是直接将源领域目标函数和目标领域目标函数相加得到。然而,这样确定总目标函数时,有一个明显的缺陷就是无法显著区分源领域和目标领域各自的领域空间以及他们共有的领域空间,这将可能导致在获取源领域的领域特定话题时,没有限制条件约束其不获取源领域与目标领域之间的共享话题;在获取共享话题时,也没有限制条件约束其不从源领域或目标领域的领域特定话题中获取。为了克服上述缺陷,本发明实施例在确定总目标函数时,在源领域目标函数与目标领域目标函数的基础上增加了一个正则项。通过该正则项可以克服上述问题。
结合上述内容,可以根据源领域目标函数及目标领域目标函数,通过如下公式确定总目标函数:
公式(3)和公式(4)中,Φ为总目标函数,D(U0,Us,Ut,Vs,Vt)为正则项,α、β、γ为各个正则化参数,Tr()为矩阵的迹,为通过拉格朗日数乘法在限制U0(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Us(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Ut(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vs(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vt(i,j)≥0条件下得到的拉格朗日乘子矩阵,i,j分别表示U0、Us、Ut、Vs和Vt中的任一行和任一列。
其中,α=a/(k0*ks),β=a/(k0*kt),γ=a/(ks*kt)。a可以通过交叉验证法确定。关于a的具体数值,本发明实施例不作具体限定。
206:分别为各个参数随机分配一个非负的值作为各个参数的初始值,并根据各个参数的初始值,计算各个参数的收敛值,将各个参数的收敛值作为各个参数的目标值。
该步骤为分别确定总目标函数中各个参数的目标值的具体实现方式。由步骤203和步骤204中的内容可得,源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及枢纽矩阵可以通过对源领域检索词矩阵采用非负矩阵分解法分解得到,目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵可以通过对目标领域检索词矩阵采用非负矩阵分解法分解得到。结合总目标函数的表达式,总目标函数中的各个参数包括枢纽矩阵U0、源领域特定话题矩阵Us、目标领域特定话题矩阵Ut、源领域特定话题矩阵的系数矩阵Vs和目标领域特定话题矩阵的系数矩阵Vt。然而,在通过对源领域检索词矩阵Xs和目标领域检索词矩阵Xt进行分解以得到各个参数时,不一定进行一次运算即可得到各个参数的最优分解矩阵,而需要通过迭代计算确定各个参数的最优值。因此,本发明实施例在确定总目标函数中各个参数的目标值时,可以先分别为各个参数随机分配一个非负的值作为各个参数的初始值,并根据各个参数的初始值,采用一定的算法对各个参数进行迭代计算,以得到各个参数的收敛值,将各个参数的收敛值作为各个参数的目标值。
其中,由于总目标函数中各个参数均为矩阵,因此,在为各个参数随机分配一个非负的值时,为各个参数中的每个元素均随机分配一个非负值。
具体地,在进行迭代计算时,对于不同的参数,迭代计算时所采用的具体算法也不一样。下面将分别对计算各个参数的收敛值的方式进行介绍。
1、计算枢纽矩阵U0的收敛值:
首先,将U0看作未知参数,Us、Ut、Vs和Vt看作已知参数,则总目标函数Φ关于U0的一阶导数用公式可以表示为:
接下来,采用KKT(Karush-Kuhn-Tucke,卡罗需-库恩-塔克条件)条件和总目标函数Φ的梯度▽Φ对上述公式(5)进行限定,可以得到:
对该公式(6)进行计算,可以得到:
公式(7)中,上一次迭代得到的U0的值,为根据迭代得到的U0的值,Hs为枢纽矩阵对源领域的系数矩阵,表示枢纽矩阵在源领域中的权重大小;Ht为枢纽矩阵对目标领域的系数矩阵,表示枢纽矩阵在目标领域中的权重大小;r表示迭代次数,即第r次迭代;表示矩阵点除运算。
最后,使用上述公式(7)对U0进行迭代计算,直至得到U0的收敛值其中,在进行第一次迭代计算时,将为U0随机分配的初始值作为
2、计算源领域特定话题矩阵Us的收敛值:
首先,将Us看作未知参数,U0、Ut、Vs和Vt看作已知参数,则总目标函数Φ关于Us的一阶导数用公式可以表示为:
接下来,采用KKT条件和总目标函数Φ的梯度▽Φ对上述式子进行限定,可以得到:
公式(8)中,上一次迭代得到的Us的值,为根据迭代得到的Us的值,Ls为源领域的领域特定话题矩阵的系数矩阵,Lt为目标领域的领域特定话题矩阵的系数矩阵。
最后,使用上述公式(8)对Us进行迭代计算,直至得到Us的收敛值其中,在进行第一次迭代计算时,将为Us随机分配的初始值作为
3、计算目标领域特定话题矩阵Ut的收敛值:
该过程的原理同上述1或2中计算枢纽矩阵U0的收敛值或计算源领域特定话题矩阵Us的收敛值中的原理一致,具体可参见上述1或2中的内容。具体地,得到的Ut表达式为:
公式(9)中,上一次迭代得到的Ut的值,为根据迭代得到的Ut的值。在计算Ut的收敛值时,可以通过上述公式(9)不断对Ut进行迭代计算,直至得到Ut的收敛值
4、计算源领域特定话题矩阵的系数矩阵Vs的收敛值:
该过程的原理同上述1或2中计算枢纽矩阵U0的收敛值或计算源领域特定话题矩阵Us的收敛值中的原理一致,具体可参见上述1或2中的内容。具体地,得到的Vs表达式为:
公式(10)中,为上一次迭代得到的Vs的值,为根据迭代得到的Vs的值。具体地,在计算Vs的收敛值时,可以通过上述公式(10)对Vs不断进行迭代计算,直至得到Vs的收敛值
5、计算目标领域特定话题矩阵的系数矩阵Vt的收敛值:
该过程的原理同上述1或2中计算枢纽矩阵U0的收敛值或计算源领域特定话题矩阵Us的收敛值中的原理一致,具体可参见上述1或2中的内容。具体地,得到的Vt表达式为:
公式(10)中,为上一次迭代得到的Vt的值,为根据迭代得到的Vt的值。在计算Vt的收敛值时,可以通过上述公式(10)不断对Vt进行迭代计算,直至得到Vt的收敛值
进一步地,为了确保能够根据总目标函数中各个参数的收敛公式(公式(7)至公式(10))得到各个参数的收敛值,本发明实施例提供的方法在按照上述过程确定了各个参数的收敛公式之后,还将对各个参数的收敛公式进行了收敛性验证。为了便于说明,下述将结合公式(8),以对源领域特定话题矩阵Us的收敛性进行验证为例进行说明。对于其它参数的验证原理同对Us的验证原理一致,本发明实施例将不对验证其它参数的收敛性的过程进行详细阐述。
具体地,在进行收敛性验证之前,需要先引入一个定义、两个引理和一个定理。
定义1:假设F(X,X′)是Φ(X)的一个辅助函数,且
Φ(X)≤F(X,X′)
当且仅当Φ(X)=F(X,X)时等式成立。
引理1:假设F是Φ的一个辅助函数,Φ是一个非增函数,在此基础上,有:
结合上述定义1可得:
Φ(X(r+1))≤F(X(r+1),X(r))≤F(X(r),X(r))=Φ(X(r))。
引理2:假设表示Φ中包括的所有之和,下述函数为的一个辅助函数:
定理1:在上述公式(7)至(10)的基础上,Φ(U0,Us,Ut,Vs,Vt)是一个非增函数。
证明Us的收敛性如下:
因为优化总目标函数的目的是使用辅助函数最小化Φ(Us),因此,令并使用引理1和引理2,可以得到下述方程:
而
使用公式(12)替代引理2中的即可得到公式(8)。
另外,在得到总目标函数中各个参数的收敛公式后,还可以进一步对各个参数的复杂度进行分析。在本发明实施例中,以O表示各个参数的复杂度。
具体地,结合上述求解各个参数的收敛公式的过程可得:在每次迭代中,计算枢纽矩阵U0的复杂度为O(m×n×k0),其中,n=max(ns,nt)。同样地,在每次迭代中,计算源领域特定话题矩阵Us和目标领域特定话题矩阵Ut的复杂度分别为O(m×ns×ks)和O(m×nt×kt)。在每次迭代中,计算源领域特定话题矩阵的系数矩阵Vs和目标领域特定话题矩阵的系数矩阵Vt的复杂度分别为O(m×ns×(k0+ks))和O(m×nt×(k0+kt))。
由上述各个参数的复杂度计算公式可得,整个计算过程的复杂度取决于计算源领域特定话题矩阵的系数矩阵Vs和目标领域特定话题矩阵的系数矩阵Vt。
需要说明的是,上述步骤206仅以通过公式(7)至(10)确定总目标函数中各个参数的目标值为例进行了说明,然而,在具体实施时,在确定总目标函数中各个参数的目标值时,还可以基于交替最小二乘法、有效集法或投影梯度法等,本发明实施例不对确定各个参数的目标值的方式进行具体限定。
207:根据各个参数的目标值及源领域中的已标注观点数据,训练指定分类模型,通过指定分类模型对目标领域的观点数据进行分类。
通过上述步骤206可以得到总目标函数中各个参数的收敛值,而各个参数均为能够标识源领域和目标领域特征的参数,例如,Us为源领域特定话题矩阵,该参数能够标识源领域所特有的话题;Ut为目标领域特定话题矩阵,该参数能够标识目标领域所特有的话题;U0为枢纽矩阵,该参数能够标识源领域和目标领域所共有的话题。也就是说,总目标函数中的各个参数能够标识源领域和目标领域的特征,因此,在得到各个参数的收敛值之后,可以得到源领域和目标领域的特征。又由于源领域中包括一些已标注观点数据,而目标领域可能未包括已标注观点数据,因此,可以根据各个参数的目标值及源领域中的已标注观点数据,训练指定分类模型,进而可以通过训练得到的指定分类模型对目标领域的观点数据进行分类。
具体地,可以结合源领域特定话题矩阵Us的收敛值、目标领域特定话题矩阵Ut的收敛值及源领域中的已标注观点数据,训练指定分类模型。关于根据总目标函数中各个参数的目标值及源领域中的已标注观点数据,训练指定分类模型的过程,本发明实施例不进行详细阐述,可以结合现有的模型训练方法来实现。
进一步地,当训练得到分类模型后,如果后续需要对目标领域中的任一文档进行分类,即需要确定该文档的情感极性时,可以将该文档输入到该训练得到的指定分类模型,并通过该训练得到的指定分类模型的输出确定该文档的情感极性。
具体地,当训练得到的指定分类模型通过输出“+1”和“-1”分别表示文档的情感极性分别为正向和负向时,如果将任一文档输入到该训练得到的指定分类模型中,当该训练得到的指定分类模型输出为“+1”,则可以确定该文档的情感极性为正向;当该训练得到的指定分类模型输出为“-1”,则可以确定该文档的情感极性为负向。
关于指定分类模型的具体形式,可以有很多种。例如,指定分类模型可以为SVM(Support Vector Machine,支持向量机)等。
需要说明的是,上述实施例仅以选取一个源领域和一个目标领域进行研究为例进行了说明。然而,在具体实施时,源领域和目标领域的数量也可以为其它数值。
可选地,为了验证通过上述步骤201至步骤207实现领域自适应的观点数据分类时的准确性,本发明实施例还对上述步骤201至步骤207所提出的方法进行了实验验证。
具体地,本发明实施例选取了四个领域进行了实验验证。其中,选取的四个领域分别为:图书领域(B)、DVD(Digital Versatile Disc,数字多功能光盘)s领域(D)、电子产品领域(E)、厨房用品领域(K)。在实验过程中为上述四个领域中的每个观点数据都分配一个观点标签。其中,分配的观点数据的标签为+1或-1。当为某一领域的任一观点数据分配的观点标签为+1时,说明该观点的情感极性为正向;当为某一观点数据分配的观点标签为-1时,说明该观点的情感极性为负向。其中,每个领域包括1000个正向观点数据点和1000个负向观点数据,还有一些未标注观点数据。在实现领域自适应的观点数据分类任务中,能够构建的分类任务有12个,分别为:D→B,E→B,K→B,K→E,D→E,B→E,B→D,K→D,E→D,B→K,D→K,E→K。其中,箭头前表示源领域,箭头后表示目标领域。如表1所示,其示出了一种实验数据的组成情况示意表。
表1
领域 | 训练数据 | 测试数据 | 未标注观点的数据 | 负向数据的比例 |
图书 | 1600 | 400 | 4465 | 50% |
DVD | 1600 | 400 | 5945 | 50% |
电子产品 | 1600 | 400 | 5681 | 50% |
厨房用品 | 1600 | 400 | 3586 | 50% |
表1中所列的数据为选取的四个领域的观点数据,其中,每个领域中都包含着训练数据、测试数据和未标注观点的数据,且每个领域中负向数据所占的比例均为每个领域数据的50%。由于在构建的12个分类任务中,每个领域既可以是源领域也可以是目标领域,当所选领域作为源领域时,领域中的训练数据用于构建指定分类模型,当所选领域作为目标领域时,领域中的测试数据用于对训练得到的指定分类模型进行测试。因此,为了保证实验的准确性,本发明实施例中为各个领域设定相同数量的训练数据及测试数据,如表1所示,每个领域中的训练数据为1600个,测试数据为400个。
为了直观地展现采用本实施例提供的方法在领域自适应观点数据分类中的优越性,在选取了四个领域的观点数据进行实验时,还选取了基准算法(baseline)、SCL(Structural Correspondence Learning,结构对应学习)、MCT(Multi-labelConsensus Training,多标记共识培训)、SFA(Spectral Feature Alignment,谱的特征队列)、SDA(Stacked Denoising Auto-encoders,每层去噪自动编码)、CODA(Chen et al.[2011]proposed a state-Of-the-art Domain Adaptation)和PJNMF(Linking Heterogeneous InputFeatures via Pivots via Joint Non-negative MatrixFactor-ization,基于非负矩阵分解的通过枢纽连接不同输入特征的算法),其中,PJNMF即为本发明实施例所提供的方法。
如表2所示,其示出了一种通过各种不同的算法进行分类得到的分类结果示意表。
表2
任务 | 基本法 | SCL | MCT | SFA | SDA | CODA | PJNMF |
B→D | 76.41±0.31 | 78.68±0.26 | 78.92±0.23 | 80.58±0.18 | 81.12±0.17 | 80.64±0.16 | 81.85±0.17 |
E→D | 71.95±0.19 | 75.51±0.27 | 72.67±0.35 | 76.02±0.12 | 76.63±0.25 | 76.10±0.23 | 77.35±0.20 |
K→D | 73.35±0.20 | 76.88±0.29 | 74.05±0.28 | 76.55±0.16 | 76.85±0.28 | 76.62±0.21 | 78.62±0.28 |
D→B | 73.8±0.24 | 78.27±0.18 | 75.67±0.30 | 77.58±0.23 | 78.22±0.33 | 77.83±0.17 | 79.27±0.25 |
E→B | 72.14±0.26 | 75.06±0.21 | 72.90±0.27 | 75.38±0.27 | 75.50±0.19 | 75.46±0.25 | 76.30±0.22 |
K→B | 71.25±0.18 | 73.08±0.24 | 74.01±0.31 | 74.15±0.34 | 74.47±0.25 | 75.41±0.22 | 75.87±0.23 |
B→E | 71.75±0.32 | 75.21±0.18 | 75.62±0.26 | 75.35±0.26 | 75.77±0.27 | 76.34±0.18 | 76.28±0.27 |
D→E | 72.38±0.20 | 75.95±0.25 | 76.82±0.34 | 77.13±0.23 | 77.65±0.22 | 77.94±0.20 | 77.86±0.24 |
K→E | 83.35±0.13 | 85.18±0.15 | 84.24±0.25 | 85.01±0.23 | 84.65±0.34 | 84.50±0.32 | 85.92±0.32 |
B→K | 74.44±0.30 | 77.06±0.21 | 78.31±0.22 | 78.28±0.25 | 78.54±0.23 | 78.35±0.26 | 79.15±0.29 |
D→K | 75.11±0.33 | 78.96±0.19 | 80.57±0.24 | 80.35±0.29 | 80.77±0.31 | 80.65±0.24 | 81.26±0.33 |
E→K | 85.11±0.13 | 85.08±0.16 | 85.33±0.26 | 85.91±0.19 | 87.25±0.20 | 86.08±0.27 | 86.37±0.21 |
平均值 | 75.09±0.23 | 77.91±0.20 | 77.43±0.28 | 78.52±0.23 | 78.95±0.25 | 78.83±0.23 | 79.68±0.25 |
其中,表2中的数据采用“准确性±标准偏差”的数据形式,表2中的加粗数据表示采用这些算法得到的最好的实验结果。由表2中的数据可得,本发明实施例提出的PJNMF方法在所有的12个任务中均表现良好,而且几乎在所有任务中的分类结果均比其它算法所计算得到的分类结果好。
进一步地,本发明实施例还对本发明实施例提供的方法的收敛性进行了分析,图3示出了一种收敛曲线。该收敛曲线基于训练数据、并采用本发明实施例提供的方法得到。图3中的X轴表示迭代次数,Y轴表示总目标函数的值。由图3可得,采用本发明实施例提供的方法所得到的总目标函数能够很快收敛,通常,当迭代次数不超过200次时即可使该总目标函数收敛。
另外,本发明实施例还进一步研究了源领域与目标领域之间的相似性。实验表明,A-distance(A-距离)可以用于标识两个领域之间的差别。假设A-dis tan ce=2(1-2ε),ε表示训练得到的指定模型的基本误差(例如,步骤207中训练得到的SVM基本误差。图4示出了一种针对每对领域的差异进行实验得到的实验结果图。图4中的横轴为使用词袋数据求得的A-distance的值,纵轴为通过本发明实施例提供的PJNMF方法求得的A-distance的值。实验结果表明,通过本发明实施例提供的方法,A-distance呈现增加的趋势,进一步证明了通过本发明实施例提供的方法确定总目标函数中的各个参数时,能够确保在获取源领域或目标领域的领域特定话题时,仅在源领域或目标领域所特有的话题中获取,而不至于获取到源领域和目标领域之间的共享话题;而在获取枢纽话题时,仅在源领域和目标领域之间的共享话题中获取,而不会从源领域的领域特定话题或目标领域的领域特定话题中获取。
本发明实施例提供的方法,由于确定的总目标函数与源领域特定话题矩阵、目标领域特定话题矩阵及表示源领域与目标领域之间的共享话题的枢纽矩阵有关,从而提供一种借助源领域与目标领域之间的共享话题实现领域自适应的观点数据分类方法。由于共享话题能够减小源领域与目标领域之间的差异,使得通过该种领域自适应的观点数据分类方法进行分类时,可以确保分类结果的准确性。
图5是根据一示例性实施例提供的一种领域自适应的观点数据分类装置的结构示意图,该领域自适应的观点数据分类装置可以用于执行上述图1或图2所对应实施例提供的领域自适应的观点数据分类方法。参见图5,该领域自适应的观点数据分类装置包括:
第一确定模块501,用于根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵;
第二确定模块502,用于根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵;
第三确定模块503,用于根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,确定源领域目标函数;
第四确定模块504,用于根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,确定目标领域目标函数;
第五确定模块505,用于根据源领域目标函数及目标领域目标函数,确定总目标函数;
第六确定模块506,用于分别确定总目标函数中各个参数的目标值;
训练模块507,用于根据各个参数的目标值及源领域中的已标注观点数据,训练指定分类模型;
分类模块508,用于通过训练得到的指定分类模型对目标领域的观点数据进行分类。
本发明实施例提供的装置,由于确定的总目标函数与源领域特定话题矩阵、目标领域特定话题矩阵及表示源领域与目标领域之间的共享话题的枢纽矩阵有关,从而提供一种借助源领域与目标领域之间的共享话题实现领域自适应的观点数据分类方法。由于共享话题能够减小源领域与目标领域之间的差异,使得通过该种领域自适应的观点数据分类方法进行分类时,可以确保分类结果的准确性。
在另一个实施例中,第三确定模块503,用于根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,通过以下公式确定源领域目标函数:
式中,Os为源领域目标函数,Xs为源领域检索词矩阵,U0为所述枢纽矩阵,Us为源领域特定话题矩阵,Vs为源领域特定话题矩阵的系数矩阵,表示费罗贝尼乌斯范数;
第四确定模块504,用于根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,通过以下公式确定目标领域目标函数:
式中,Ot为目标领域目标函数,Xt为目标领域检索词矩阵,U0为枢纽矩阵,Ut为目标领域特定话题矩阵,Vt为目标领域特定话题矩阵的系数矩阵。
在另一个实施例中,第五确定模块505,用于根据源领域目标函数及目标领域目标函数,通过如下公式确定总目标函数:
式中,Φ为总目标函数,D(U0,Us,Ut,Vs,Vt)为一个正则项,α、β、γ为各个正则化参数,Tr()为矩阵的迹,为通过拉格朗日数乘法在限制U0(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Us(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Ut(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vs(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vt(i,j)≥0条件下得到的拉格朗日乘子矩阵。
在另一个实施例中,第六确定模块506包括:
分配单元,用于分别为各个参数随机分配一个非负的值作为各个参数的初始值;
计算单元,用于根据各个参数的初始值,计算各个参数的收敛值,将各个参数的收敛值作为各个参数的目标值。
在另一个实施例中,总目标函数中的各个参数包括U0、Us、Ut、Vs和Vt;
计算单元用于:
根据U0的初始值,按照 对U0进行迭代计算,直至得到U0的收敛值式中,上一次迭代得到的U0的值,为根据迭代得到的U0的值,Hs为枢纽矩阵对源领域的系数矩阵,Ht为枢纽矩阵对目标领域的系数矩阵,r表示迭代次数;
根据Us的初始值,按照 对Us进行迭代计算,直至得到Us的收敛值式中,上一次迭代得到的Us的值,为根据迭代得到的Us的值,Ls为源领域特定话题矩阵的系数矩阵,Lt为目标领域特定话题矩阵的系数矩阵;
根据Ut的初始值,按照 对Ut进行迭代计算,直至得到Ut的收敛值式中,上一次迭代得到的Ut的值,为根据迭代得到的Ut的值;
根据Vs的初始值,按照对Vs进行迭代计算,直至得到Vs的收敛值式中,为上一次迭代得到的Vs的值,为根据迭代得到的Vs的值;
根据Vt的初始值,按照对Vt进行迭代计算,直至得到Vt的收敛值式中,为上一次迭代得到的Vt的值,为根据迭代得到的Vt的值。
图6是根据一示例性实施例示出的一种服务器的结构示意图。该服务器可以用于执行上述图1或图2所对应实施例提供的领域自适应的观点数据分类方法。参照图6,服务器600包括处理组件622,其进一步包括一个或多个处理器,以及由存储器632所代表的存储器资源,用于存储可由处理组件622的执行的指令,例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件622被配置为执行指令,以执行上述图1或图2所对应实施例提供的领域自适应的观点数据分类方法。
服务器600还可以包括一个电源组件626被配置为执行服务器600的电源管理,一个有线或无线网络接口650被配置为将服务器600连接到网络,和一个输入输出(I/O)接口658。服务器600可以操作基于存储在存储器632的操作***,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
其中,一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,所述一个或者一个以上程序包含用于进行以下操作的指令:
根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵;
根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵;
根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,确定源领域目标函数;
根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,确定目标领域目标函数;
根据源领域目标函数及目标领域目标函数,确定总目标函数;
分别确定总目标函数中各个参数的目标值;
根据各个参数的目标值及源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对目标领域的观点数据进行分类。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,服务器的存储器中,还包含用于执行以下操作的指令:根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,确定源领域目标函数,包括:
根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,通过以下公式确定源领域目标函数:
式中,Os为源领域目标函数,Xs为源领域检索词矩阵,U0为所述枢纽矩阵,Us为源领域特定话题矩阵,Vs为源领域特定话题矩阵的系数矩阵,表示费罗贝尼乌斯范数;
根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,确定目标领域目标函数,包括:
根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,通过以下公式确定目标领域目标函数:
式中,Ot为目标领域目标函数,Xt为目标领域检索词矩阵,U0为枢纽矩阵,Ut为目标领域特定话题矩阵,Vt为目标领域特定话题矩阵的系数矩阵。
在第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,服务器的存储器中,还包含用于执行以下操作的指令:根据源领域目标函数及目标领域目标函数,确定总目标函数,包括:
根据源领域目标函数及目标领域目标函数,通过如下公式确定总目标函数:
式中,Φ为总目标函数,D(U0,Us,Ut,Vs,Vt)为一个正则项,α、β、γ为各个正则化参数,Tr()为矩阵的迹,为通过拉格朗日数乘法在限制U0(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Us(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Ut(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vs(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vt(i,j)≥0条件下得到的拉格朗日乘子矩阵。
在第一种或第三种可能的实施方式作为基础而提供的第四种可能的实施方式中,服务器的存储器中,还包含用于执行以下操作的指令:分别确定总目标函数中各个参数的目标值,包括:
分别为各个参数随机分配一个非负的值作为各个参数的初始值;
根据各个参数的初始值,计算各个参数的收敛值,将各个参数的收敛值作为各个参数的目标值。
在第四种可能的实施方式作为基础而提供的第五种可能的实施方式中,服务器的存储器中,还包含用于执行以下操作的指令:总目标函数中的各个参数包括U0、Us、Ut、Vs和Vt;根据各个参数的初始值,计算各个参数的收敛值,包括:
根据U0的初始值,按照 对U0进行迭代计算,直至得到U0的收敛值式中,上一次迭代得到的U0的值,为根据迭代得到的U0的值,Hs为枢纽矩阵对源领域的系数矩阵,Ht为枢纽矩阵对目标领域的系数矩阵,r表示迭代次数;
根据Us的初始值,按照 对Us进行迭代计算,直至得到Us的收敛值式中,上一次迭代得到的Us的值,为根据迭代得到的Us的值,Ls为源领域特定话题矩阵的系数矩阵,Lt为目标领域特定话题矩阵的系数矩阵;
根据Ut的初始值,按照 对Ut进行迭代计算,直至得到Ut的收敛值式中,上一次迭代得到的Ut的值,为根据迭代得到的Ut的值;
根据Vs的初始值,按照对Vs进行迭代计算,直至得到Vs的收敛值式中,为上一次迭代得到的Vs的值,为根据迭代得到的Vs的值;
根据Vt的初始值,按照对Vt进行迭代计算,直至得到Vt的收敛值式中,为上一次迭代得到的Vt的值,为根据迭代得到的Vt的值。
本发明实施例提供的服务器,由于确定的总目标函数与源领域特定话题矩阵、目标领域特定话题矩阵及表示源领域与目标领域之间的共享话题的枢纽矩阵有关,从而提供一种借助源领域与目标领域之间的共享话题实现领域自适应的观点数据分类方法。由于共享话题能够减小源领域与目标领域之间的差异,使得通过该种领域自适应的观点数据分类方法进行分类时,可以确保分类结果的准确性。
图7是根据一示例性实施例提供的一种终端的结构示意图,该终端可以用于执行上述图1或图2所对应实施例提供的领域自适应的观点数据分类方法。具体来讲:
终端700可以包括RF(Radio Frequency,射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(Wireless Fidelity,无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解,图7中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器180处理;另外,将涉及上行的数据发送给基站。通常,RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯***)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(Code Division Multiple Access,码分多址)、WCDMA(Wideband CodeDivision Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service,短消息服务)等。
存储器120可用于存储软件程序以及模块,处理器180通过运行存储在存储器120的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端700的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180和输入单元130对存储器120的访问。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端700的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图7中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
终端700还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在终端700移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端700还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路160、扬声器161,传声器162可提供用户与终端700之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器180处理后,经RF电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与终端700的通信。
WiFi属于短距离无线传输技术,终端700通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图7示出了WiFi模块170,但是可以理解的是,其并不属于终端700的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器180是终端700的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端700的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器180可包括一个或多个处理核心;优选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
终端700还包括给各个部件供电的电源190(比如电池),优选的,电源可以通过电源管理***与处理器180逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端700还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端的显示单元是触摸屏显示器,终端还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。所述一个或者一个以上程序包含用于执行以下操作的指令:
根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵;
根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵;
根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,确定源领域目标函数;
根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,确定目标领域目标函数;
根据源领域目标函数及目标领域目标函数,确定总目标函数;
分别确定总目标函数中各个参数的目标值;
根据各个参数的目标值及源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对目标领域的观点数据进行分类。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,确定源领域目标函数,包括:
根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,通过以下公式确定源领域目标函数:
式中,Os为源领域目标函数,Xs为源领域检索词矩阵,U0为所述枢纽矩阵,Us为源领域特定话题矩阵,Vs为源领域特定话题矩阵的系数矩阵,表示费罗贝尼乌斯范数;
根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,确定目标领域目标函数,包括:
根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,通过以下公式确定目标领域目标函数:
式中,Ot为目标领域目标函数,Xt为目标领域检索词矩阵,U0为枢纽矩阵,Ut为目标领域特定话题矩阵,Vt为目标领域特定话题矩阵的系数矩阵。
在第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:根据源领域目标函数及目标领域目标函数,确定总目标函数,包括:
根据源领域目标函数及目标领域目标函数,通过如下公式确定总目标函数:
式中,Φ为总目标函数,D(U0,Us,Ut,Vs,Vt)为一个正则项,α、β、γ为各个正则化参数,Tr()为矩阵的迹,为通过拉格朗日数乘法在限制U0(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Us(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Ut(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vs(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vt(i,j)≥0条件下得到的拉格朗日乘子矩阵。
在第一种或第三种可能的实施方式作为基础而提供的第四种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:分别确定总目标函数中各个参数的目标值,包括:
分别为各个参数随机分配一个非负的值作为各个参数的初始值;
根据各个参数的初始值,计算各个参数的收敛值,将各个参数的收敛值作为各个参数的目标值。
在第四种可能的实施方式作为基础而提供的第五种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:总目标函数中的各个参数包括U0、Us、Ut、Vs和Vt;根据各个参数的初始值,计算各个参数的收敛值,包括:
根据U0的初始值,按照 对U0进行迭代计算,直至得到U0的收敛值式中,上一次迭代得到的U0的值,为根据迭代得到的U0的值,Hs为枢纽矩阵对源领域的系数矩阵,Ht为枢纽矩阵对目标领域的系数矩阵,r表示迭代次数;
根据Us的初始值,按照 对Us进行迭代计算,直至得到Us的收敛值式中,上一次迭代得到的Us的值,为根据迭代得到的Us的值,Ls为源领域特定话题矩阵的系数矩阵,Lt为目标领域特定话题矩阵的系数矩阵;
根据Ut的初始值,按照 对Ut进行迭代计算,直至得到Ut的收敛值式中,上一次迭代得到的Ut的值,为根据迭代得到的Ut的值;
根据Vs的初始值,按照对Vs进行迭代计算,直至得到Vs的收敛值式中,为上一次迭代得到的Vs的值,为根据迭代得到的Vs的值;
根据Vt的初始值,按照对Vt进行迭代计算,直至得到Vt的收敛值式中,为上一次迭代得到的Vt的值,为根据迭代得到的Vt的值。
本发明实施例提供的终端,由于确定的总目标函数与源领域特定话题矩阵、目标领域特定话题矩阵及表示源领域与目标领域之间的共享话题的枢纽矩阵有关,从而提供一种借助源领域与目标领域之间的共享话题实现领域自适应的观点数据分类方法。由于共享话题能够减小源领域与目标领域之间的差异,使得通过该种领域自适应的观点数据分类方法进行分类时,可以确保分类结果的准确性。
本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。该计算机可读存储介质存储有一个或者一个以上程序,该一个或者一个以上程序被一个或者一个以上的处理器用来执行领域自适应的观点数据分类方法,该方法包括:
根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵;
根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵;
根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,确定源领域目标函数;
根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,确定目标领域目标函数;
根据源领域目标函数及目标领域目标函数,确定总目标函数;
分别确定总目标函数中各个参数的目标值;
根据各个参数的目标值及源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对目标领域的观点数据进行分类。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:
根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,确定源领域目标函数,包括:
根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,通过以下公式确定源领域目标函数:
式中,Os为源领域目标函数,Xs为源领域检索词矩阵,U0为所述枢纽矩阵,Us为源领域特定话题矩阵,Vs为源领域特定话题矩阵的系数矩阵,表示费罗贝尼乌斯范数;
根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,确定目标领域目标函数,包括:
根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,通过以下公式确定目标领域目标函数:
式中,Ot为目标领域目标函数,Xt为目标领域检索词矩阵,U0为枢纽矩阵,Ut为目标领域特定话题矩阵,Vt为目标领域特定话题矩阵的系数矩阵。
在第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:根据源领域目标函数及目标领域目标函数,确定总目标函数,包括:
根据源领域目标函数及目标领域目标函数,通过如下公式确定总目标函数:
式中,Φ为总目标函数,D(U0,Us,Ut,Vs,Vt)为一个正则项,α、β、γ为各个正则化参数,Tr()为矩阵的迹,为通过拉格朗日数乘法在限制U0(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Us(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Ut(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vs(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vt(i,j)≥0条件下得到的拉格朗日乘子矩阵。
在第一种或第三种可能的实施方式作为基础而提供的第四种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:分别确定总目标函数中各个参数的目标值,包括:
分别为各个参数随机分配一个非负的值作为各个参数的初始值;
根据各个参数的初始值,计算各个参数的收敛值,将各个参数的收敛值作为各个参数的目标值。
在第四种可能的实施方式作为基础而提供的第五种可能的实施方式中,终端的存储器中,还包含用于执行以下操作的指令:总目标函数中的各个参数包括U0、Us、Ut、Vs和Vt;根据各个参数的初始值,计算各个参数的收敛值,包括:
根据U0的初始值,按照 对U0进行迭代计算,直至得到U0的收敛值式中,上一次迭代得到的U0的值,为根据迭代得到的U0的值,Hs为枢纽矩阵对源领域的系数矩阵,Ht为枢纽矩阵对目标领域的系数矩阵,r表示迭代次数;
根据Us的初始值,按照 对Us进行迭代计算,直至得到Us的收敛值式中,上一次迭代得到的Us的值,为根据迭代得到的Us的值,Ls为源领域特定话题矩阵的系数矩阵,Lt为目标领域特定话题矩阵的系数矩阵;
根据Ut的初始值,按照 对Ut进行迭代计算,直至得到Ut的收敛值式中,上一次迭代得到的Ut的值,为根据迭代得到的Ut的值;
根据Vs的初始值,按照对Vs进行迭代计算,直至得到Vs的收敛值式中,为上一次迭代得到的Vs的值,为根据迭代得到的Vs的值;
根据Vt的初始值,按照对Vt进行迭代计算,直至得到Vt的收敛值式中,为上一次迭代得到的Vt的值,为根据迭代得到的Vt的值。
本发明实施例提供的计算机可读存储介质,由于确定的总目标函数与源领域特定话题矩阵、目标领域特定话题矩阵及表示源领域与目标领域之间的共享话题的枢纽矩阵有关,从而提供一种借助源领域与目标领域之间的共享话题实现领域自适应的观点数据分类方法。由于共享话题能够减小源领域与目标领域之间的差异,使得通过该种领域自适应的观点数据分类方法进行分类时,可以确保分类结果的准确性。
本发明实施例中提供了一种图形用户接口,该图形用户接口用在终端上,该终端包括触摸屏显示器、存储器和用于执行一个或者一个以上的程序的一个或者一个以上的处理器;该图形用户接口包括:
根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵;
根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵;
根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,确定源领域目标函数;
根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领域特定话题矩阵的系数矩阵及所述枢纽矩阵,确定目标领域目标函数;
根据所述源领域目标函数及所述目标领域目标函数,确定总目标函数;
分别确定所述总目标函数中各个参数的目标值;
根据所述各个参数的目标值及所述源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对所述目标领域的观点数据进行分类。
本发明实施例提供的图形用户接口,由于确定的总目标函数与源领域特定话题矩阵、目标领域特定话题矩阵及表示源领域与目标领域之间的共享话题的枢纽矩阵有关,从而提供一种借助源领域与目标领域之间的共享话题实现领域自适应的观点数据分类方法。由于共享话题能够减小源领域与目标领域之间的差异,使得通过该种领域自适应的观点数据分类方法进行分类时,可以确保分类结果的准确性。
需要说明的是:上述实施例提供的领域自适应的观点数据分类在进行领域自适应的观点数据分类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的领域自适应的观点数据分类装置、服务器及终端与领域自适应的观点数据分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种领域自适应的观点数据分类方法,其特征在于,所述方法包括:
根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵;
根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵;
根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,确定源领域目标函数;
根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领域特定话题矩阵的系数矩阵及所述枢纽矩阵,确定目标领域目标函数;
根据所述源领域目标函数及所述目标领域目标函数,确定总目标函数;
分别确定所述总目标函数中各个参数的目标值;
根据所述各个参数的目标值及所述源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对所述目标领域的观点数据进行分类。
2.根据权利要求1所述的方法,其特征在于,所述根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,确定源领域目标函数,包括:
根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,通过以下公式确定源领域目标函数:
式中,Os为源领域目标函数,Xs为源领域检索词矩阵,U0为所述枢纽矩阵,Us为源领域特定话题矩阵,Vs为源领域特定话题矩阵的系数矩阵,表示费罗贝尼乌斯范数;
所述根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领域特定话题矩阵的系数矩阵及所述枢纽矩阵,确定目标领域目标函数,包括:
根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领域特定话题矩阵的系数矩阵及所述枢纽矩阵,通过以下公式确定目标领域目标函数:
式中,Ot为目标领域目标函数,Xt为目标领域检索词矩阵,U0为所述枢纽矩阵,Ut为目标领域特定话题矩阵,Vt为目标领域特定话题矩阵的系数矩阵。
3.根据权利要求2所述的方法,其特征在于,所述根据所述源领域目标函数及所述目标领域目标函数,确定总目标函数,包括:
根据所述源领域目标函数及所述目标领域目标函数,通过如下公式确定总目标函数:
式中,Φ为总目标函数,D(U0,Us,Ut,Vs,Vt)为一个正则项,α、β、γ为各个正则化参数,Tr()为矩阵的迹,为通过拉格朗日数乘法在限制U0(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Us(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Ut(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vs(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vt(i,j)≥0条件下得到的拉格朗日乘子矩阵。
4.根据权利要求1或3所述的方法,其特征在于,所述分别确定所述总目标函数中各个参数的目标值,包括:
分别为所述各个参数随机分配一个非负的值作为所述各个参数的初始值;
根据所述各个参数的初始值,计算所述各个参数的收敛值,将所述各个参数的收敛值作为所述各个参数的目标值。
5.根据权利要求4所述的方法,其特征在于,所述总目标函数中的各个参数包括U0、Us、Ut、Vs和Vt;
所述根据所述各个参数的初始值,计算所述各个参数的收敛值,包括:
根据U0的初始值,按照 对U0进行迭代计算,直至得到U0的收敛值式中,上一次迭代得到的U0的值,为根据迭代得到的U0的值,Hs为枢纽矩阵对源领域的系数矩阵,Ht为枢纽矩阵对目标领域的系数矩阵,r表示迭代次数;
根据Us的初始值,按照 对Us进行迭代计算,直至得到Us的收敛值式中,上一次迭代得到的Us的值,为根据迭代得到的Us的值,Ls为源领域特定话题矩阵的系数矩阵,Lt为目标领域特定话题矩阵的系数矩阵;
根据Ut的初始值,按照 对Ut进行迭代计算,直至得到Ut的收敛值式中,上一次迭代得到的Ut的值,为根据迭代得到的Ut的值;
根据Vs的初始值,按照对Vs进行迭代计算,直至得到Vs的收敛值式中,为上一次迭代得到的Vs的值,为根据迭代得到的Vs的值;
根据Vt的初始值,按照对Vt进行迭代计算,直至得到Vt的收敛值式中,为上一次迭代得到的Vt的值,为根据迭代得到的Vt的值。
6.一种领域自适应的观点数据分类装置,其特征在于,所述装置包括:
第一确定模块,用于根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵;
第二确定模块,用于根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵;
第三确定模块,用于根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,确定源领域目标函数;
第四确定模块,用于根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领域特定话题矩阵的系数矩阵及所述枢纽矩阵,确定目标领域目标函数;
第五确定模块,用于根据所述源领域目标函数及所述目标领域目标函数,确定总目标函数;
第六确定模块,用于分别确定所述总目标函数中各个参数的目标值;
训练模块,用于根据所述各个参数的目标值及所述源领域中的已标注观点数据,训练指定分类模型;
分类模块,用于通过训练得到的指定分类模型对所述目标领域的观点数据进行分类。
7.根据权利要求6所述的装置,其特征在于,所述第三确定模块,用于根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,通过以下公式确定源领域目标函数:
式中,Os为源领域目标函数,Xs为源领域检索词矩阵,U0为所述枢纽矩阵,Us为源领域特定话题矩阵,Vs为源领域特定话题矩阵的系数矩阵,表示费罗贝尼乌斯范数;
所述第四确定模块,用于根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领域特定话题矩阵的系数矩阵及所述枢纽矩阵,通过以下公式确定目标领域目标函数:
式中,Ot为目标领域目标函数,Xt为目标领域检索词矩阵,U0为所述枢纽矩阵,Ut为目标领域特定话题矩阵,Vt为目标领域特定话题矩阵的系数矩阵。
8.根据权利要求7所述的装置,其特征在于,所述第五确定模块,用于根据所述源领域目标函数及所述目标领域目标函数,通过如下公式确定总目标函数:
式中,Φ为总目标函数,D(U0,Us,Ut,Vs,Vt)为一个正则项,α、β、γ为各个正则化参数,Tr()为矩阵的迹,为通过拉格朗日数乘法在限制U0(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Us(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Ut(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vs(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vt(i,j)≥0条件下得到的拉格朗日乘子矩阵。
9.根据权利要求6或8所述的装置,其特征在于,所述第六确定模块包括:
分配单元,用于分别为所述各个参数随机分配一个非负的值作为所述各个参数的初始值;
计算单元,用于根据所述各个参数的初始值,计算所述各个参数的收敛值,将所述各个参数的收敛值作为所述各个参数的目标值。
10.根据权利要求9所述的装置,其特征在于,所述总目标函数中的各个参数包括U0、Us、Ut、Vs和Vt;
所述计算单元用于:
根据U0的初始值,按照 对U0进行迭代计算,直至得到U0的收敛值式中,上一次迭代得到的U0的值,为根据迭代得到的U0的值,Hs为枢纽矩阵对源领域的系数矩阵,Ht为枢纽矩阵对目标领域的系数矩阵,r表示迭代次数;
根据Us的初始值,按照 对Us进行迭代计算,直至得到Us的收敛值式中,上一次迭代得到的Us的值,为根据迭代得到的Us的值,Ls为源领域特定话题矩阵的系数矩阵,Lt为目标领域特定话题矩阵的系数矩阵;
根据Ut的初始值,按照 对Ut进行迭代计算,直至得到Ut的收敛值式中,上一次迭代得到的Ut的值,为根据迭代得到的Ut的值;
根据Vs的初始值,按照对Vs进行迭代计算,直至得到Vs的收敛值式中,为上一次迭代得到的Vs的值,为根据迭代得到的Vs的值;
根据Vt的初始值,按照对Vt进行迭代计算,直至得到Vt的收敛值式中,为上一次迭代得到的Vt的值,为根据迭代得到的Vt的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510316353.7A CN106294506B (zh) | 2015-06-10 | 2015-06-10 | 领域自适应的观点数据分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510316353.7A CN106294506B (zh) | 2015-06-10 | 2015-06-10 | 领域自适应的观点数据分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106294506A true CN106294506A (zh) | 2017-01-04 |
CN106294506B CN106294506B (zh) | 2020-04-24 |
Family
ID=57659599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510316353.7A Active CN106294506B (zh) | 2015-06-10 | 2015-06-10 | 领域自适应的观点数据分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106294506B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635110A (zh) * | 2018-11-30 | 2019-04-16 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备以及计算机可读存储介质 |
CN110414631A (zh) * | 2019-01-29 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 基于医学图像的病灶检测方法、模型训练的方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1310825A (zh) * | 1998-06-23 | 2001-08-29 | 微软公司 | 用于分类文本以及构造文本分类器的方法和装置 |
WO2002013055A2 (en) * | 2000-08-09 | 2002-02-14 | Elron Software, Inc. | Automatic categorization of documents based on textual content |
CN101714135A (zh) * | 2009-12-11 | 2010-05-26 | 中国科学院计算技术研究所 | 一种跨领域文本情感倾向性分析方法 |
CN103473380A (zh) * | 2013-09-30 | 2013-12-25 | 南京大学 | 一种计算机文本情感分类方法 |
CN103646097A (zh) * | 2013-12-18 | 2014-03-19 | 北京理工大学 | 一种基于约束关系的意见目标和情感词联合聚类方法 |
CN104199829A (zh) * | 2014-07-25 | 2014-12-10 | 中国科学院自动化研究所 | 情感数据分类方法和*** |
-
2015
- 2015-06-10 CN CN201510316353.7A patent/CN106294506B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1310825A (zh) * | 1998-06-23 | 2001-08-29 | 微软公司 | 用于分类文本以及构造文本分类器的方法和装置 |
WO2002013055A2 (en) * | 2000-08-09 | 2002-02-14 | Elron Software, Inc. | Automatic categorization of documents based on textual content |
CN101714135A (zh) * | 2009-12-11 | 2010-05-26 | 中国科学院计算技术研究所 | 一种跨领域文本情感倾向性分析方法 |
CN103473380A (zh) * | 2013-09-30 | 2013-12-25 | 南京大学 | 一种计算机文本情感分类方法 |
CN103646097A (zh) * | 2013-12-18 | 2014-03-19 | 北京理工大学 | 一种基于约束关系的意见目标和情感词联合聚类方法 |
CN104199829A (zh) * | 2014-07-25 | 2014-12-10 | 中国科学院自动化研究所 | 情感数据分类方法和*** |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635110A (zh) * | 2018-11-30 | 2019-04-16 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备以及计算机可读存储介质 |
CN110414631A (zh) * | 2019-01-29 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 基于医学图像的病灶检测方法、模型训练的方法及装置 |
CN110414631B (zh) * | 2019-01-29 | 2022-02-01 | 腾讯科技(深圳)有限公司 | 基于医学图像的病灶检测方法、模型训练的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106294506B (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240078386A1 (en) | Methods and systems for language-agnostic machine learning in natural language processing using feature extraction | |
US11093370B1 (en) | Impact analysis for software testing | |
US20170300750A1 (en) | User classification based upon images | |
CN103959282B (zh) | 用于文本识别***的选择性反馈 | |
US20150378986A1 (en) | Context-aware approach to detection of short irrelevant texts | |
WO2017135977A1 (en) | Spam processing with continuous model training | |
JP6637947B2 (ja) | 認知ロボット工学アナライザ | |
CN104217717A (zh) | 构建语言模型的方法及装置 | |
CN105843825A (zh) | 影响者得分 | |
CN105279672A (zh) | 线索推荐 | |
CN106484766B (zh) | 基于人工智能的搜索方法和装置 | |
US20170109756A1 (en) | User Unsubscription Prediction Method and Apparatus | |
US20190362025A1 (en) | Personalized query formulation for improving searches | |
CN104143097A (zh) | 分类函数获取方法、人脸年龄识别方法、装置和设备 | |
CN106878041A (zh) | 日志信息处理方法、装置及*** | |
CA3135466A1 (en) | User loan willingness prediction method and device and computer system | |
CN107632971A (zh) | 用于生成多维报表的方法和装置 | |
CN115022098A (zh) | 人工智能安全靶场内容推荐方法、装置及存储介质 | |
US10515423B2 (en) | Shareability score | |
CN106294506A (zh) | 领域自适应的观点数据分类方法及装置 | |
US10037359B2 (en) | Search results using social routing of content | |
CN107807940B (zh) | 信息推荐方法和装置 | |
US20160127429A1 (en) | Applicant analytics for a multiuser social networking system | |
CN108536869A (zh) | 一种搜索分词的方法、装置及计算机可读存储介质 | |
CN116204709A (zh) | 一种数据处理方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |