CN103324708A - 一种长文本到短文本的迁移学习方法 - Google Patents
一种长文本到短文本的迁移学习方法 Download PDFInfo
- Publication number
- CN103324708A CN103324708A CN2013102414280A CN201310241428A CN103324708A CN 103324708 A CN103324708 A CN 103324708A CN 2013102414280 A CN2013102414280 A CN 2013102414280A CN 201310241428 A CN201310241428 A CN 201310241428A CN 103324708 A CN103324708 A CN 103324708A
- Authority
- CN
- China
- Prior art keywords
- text
- data
- source domain
- short text
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种长文本到短文本的迁移学习方法,其特征在于:步骤1:根据目标领域短文本中提取的标签,通过搜索引擎获得源领域数据,提取源领域的种子特征集;步骤2:根据目标领域短文本的标签集和源领域的种子特征集,构建社交媒体无向图,从无向图中提取包含所有目标领域标签集和种子特征集节点的子图;步骤3:基于拉普拉斯特征映射算法,获得源领域数据新的特征表示;步骤:4:根据源领域数据新的特征表示,对源领域数据进行分类。
Description
技术领域
本发明涉及一种长文本到短文本的迁移学习方法。
背景技术
随着科技的飞速发展,互联网信息越来越多样化,短文本如微博、QQ消息、在线广告等在网络应用中扮演着越来越重要的角色。短文本数据具有关键词少、缺少上下文信息、文本表示高维稀疏、很难对文本特征完整准确表达等特点。当目标领域为短文本数据且只有少量标记数据时,对短文本数据库信息进行统计、分类则成为一大难题。与短文本相比,由于长文本篇幅较长,上下文中会携带较多与文本主题相关的关键词,并且长文本在网络中出现的时间比较早,其分类技术已较为成熟。若能将长文本领域的分类方法迁移到短文本领域,则会对解决短文本分类问题提供了很大帮助。
目前,有一些对从长文本到短文本迁移学习方法的研究,但其往往要求给出与目标领域短文本相关的源领域数据,这样在数据的获取及领域相关性衡量方面则会由于人的主观性产生一些误差,从而对目标任务造成负面影响;也有一些研究要求在长文本到短文本的迁移学习之前要知道数据的先验概率分布,而这在实际中很难获得。
发明内容
本发明目的在于提供一种无需提供源领域数据、无需知道数据的先验概率分布的长文本到短文本的迁移学习方法。
实现本发明目的技术方案:
一种长文本到短文本的迁移学习方法,其特征在于:
步骤1:根据目标领域短文本中提取的标签,通过搜索引擎获得源领域数据,提取源领域的种子特征集;
步骤2:根据目标领域短文本的标签集和源领域的种子特征集,构建社交媒体无向图,从无向图中提取包含所有目标领域标签集和种子特征集节点的子图;
步骤3:基于拉普拉斯特征映射算法,获得源领域数据新的特征表示;
步骤:4:根据源领域数据新的特征表示,对源领域数据进行分类。
优选地,步骤3中,通过如下步骤获得源领域新的种子特征表示:
步骤3.1:构造邻近图;
对于未标记数据采用无监督学习的距离度量,采用欧式距离计算;对于带分类标签数据的采用监督学习的距离度量,通过如下公式计算获得:
式中:ci、cj是目标数据类别C的子类,分别表示样本xi、xj的类别,d(xi,xj)表示xi、xj的欧氏距离,β为参数。
如果样本点xi、xj之间的距离小于特征项阈值ε,则为近邻点;
步骤3.2:计算权值矩阵W;
若xi、xj为近邻点,两点之间的权值Wij=1,否则为0。
步骤3.3:计算拉普拉斯算子的广义特征向量,求得低维嵌入;
通过上式求得矩阵Y,将邻近图中节点映射到一个低维空间y中,得到源领域数据新的特征表示。
优选地,步骤1中,通过如下步骤获得源领域的种子特征集:
步骤1.1:将目标领域短文本中提取的标签作为关键词输入到搜索引擎中,提取网页文本作为与目标领域短文本语义相关的源领域数据;
步骤1.2:构造单词文本矩阵:M=[aij]m×n,其中aij取值为第i个单词在第j个文本中出现次数的对数;
步骤1.4:在矩阵中,第i行第j列上的权重代表该行单词与该列文本的相关度,设置一个种子特征阈值λ,当源领域中长文本的关键词与目标领域短文本的相关度大于λ,则将该单词作为源领域数据的种子特征。
优选地,步骤4中,根据如下公式对源领域数据进行分类:
式中yi代表数据新的特征表示,cj代表第j类标签。p(yi,cj)为yi、cj共同出现的概率,p(yi)为yi在新的特征空间中出现概率;p(cj)为cj在类别C中出现的概率。
本发明具有的有益效果:
本发明为一种FSFP(Free Source selection Free Priori probability distribution)——无需提供源领域数据、无需知道数据的先验概率分布的长文本到短文本的迁移学习方法,减小了由于主观因素对迁移学习效果的影响,并且根据语义及文本之间的数据结构来提取的特征项质量较高,从而能有效地提高目标分类器的分类精度;本发明以在线信息为辅助数据,其有数据丰富、全面、易得等优点;本发明中的算法可扩展性较强,当目标领域数据或任务改变时仍可使用本发明算法完成目标任务。
本发明可以应用到网络短文本分类当中,如对淘宝等购物网站的售后评价、在线广告、微博等数据进行分类;本发明可以应用到推荐***中,根据用户浏览商品信息,结合网站售后评价分类,对用户的喜好、兴趣做出预测,从而对用户推荐相应好评或促销商品等;本发明可以应用到短文本聚类中,因为短文本关键词少,有时不能将文本内容完整地、准确的表达出来,此时可以使用本发明中所提算法从长文本领域迁移部分有用特征项到短文本领域,帮助其完成聚类任务。
附图说明
图1为本发明长文本到短文本的迁移学习方法的流程图。
具体实施方式
由于目标领域数据简短,只能提供少量的标签,所以本发明首先要做的就是扩充目标文本的标签集,称之为种子特征集。
步骤1:根据目标领域短文本中提取的标签,通过搜索引擎获得源领域数据,提取源领域的种子特征集,具体包括以下步骤:
步骤1.1:本发明并不需要提前准备源领域数据,而是充分利用网络在线信息,将目标领域中提取的标签作为关键词输入到某搜索引擎中,提取前几页网页文本作为与目标领域语义相关的源领域数据集。
步骤1.2:构造单词—文本矩阵:M=[aij]m×n,其中aij取值为第i个单词在第j个文本中出现次数的对数。由于每个单词只会出现在少量文本中,故M通常为高阶稀疏矩阵。
步骤2:根据目标领域短文本的标签集和源领域的种子特征集,构建社交媒体无向图,从无向图中提取包含所有目标领域标签集和种子特征集节点的子图。
社交媒体可以被视为一个标签云,共同出现的标签携带有丰富的信息。本发明以社交媒体为辅助工具,搭建源领域标签与目标领域标签之间的桥梁。首先把每个标签视为一个节点,共同出现的标签连线,这样社交媒体中的所有标签可以用无向图表示。然后从无向图中提取包含所有目标领域标签集和种子特征集节点的子图,这样就可以建立起源领域标签到目标领域标签之间的桥梁。
步骤3:基于拉普拉斯特征映射算法,获得源领域数据新的特征表示。
改进拉普拉斯特征映射算法,充分考虑样本的类别信息,对类内和类外节点距离使用不同方法计算权重,将子图中所有节点映射到一个低维空间,获得源领域数据新的特征表示,具体包括以下步骤:
步骤3.1:构造邻近图;
对于未标记数据采用无监督学习的距离度量。因为数据之间都没有类别标号,所以直接采用欧式距离计算;对于带分类标签数据的采用监督学习的距离度量。方法如下:
式中:ci、cj是目标数据类别C的子类,分别表示样本xi、xj的类别,d(xi,xj)表示xi、xj的欧氏距离,参数β防止d(xi,xj)取值较大时,D(xi,xj)增长过快,从而能有效地实现对噪声的抑制,本发明中β=2。
如果样本点xi、xj之间的距离小于特征项阈值ε,则为近邻点。
步骤3.2:计算权值矩阵W;
若xi、xj为近邻点,两点之间的权值Wij=1,否则为0。
步骤3.3:计算拉普拉斯算子的广义特征向量,求得低维嵌入,该问题即为求解:
其中,L=D-W。
通过改进的拉普拉斯特征映射算法求的矩阵Y,可以将邻近图中节点映射到一个低维空间y中,这样就可以得到每个数据新的特征表示。
步骤:4:根据源领域数据新的特征表示,对源领域数据进行分类。
本发明借助互信息概念,数据新的特征表示与分类标签之间的互信息越小代表该数据与该类的相关度越大,那么该数据属于该类的可能性就越大,所以目标函数为:
式中yi代表数据新的特征表示,cj代表第j类标签。p(yi,cj)为yi、cj共同出现的概率,p(yi)为yi在新的特征特征空间中出现概率,具体实施时取值为p(cj)为cj在类别C中出现的概率,具体实施时取值为
下面结合具体实验,进一步对本发明方法进行说明。为了使实验结果更具真实性,本发明采用从网络中抓取的实际数据作为本实验的数据集。从C2C(cousumer to consumer)购物网站随机抓取30个网页,共包含9753个在线广告;从新浪网站随机抓取了50个网页,共包含2404条微博;随机抓取3518条QQ信息;在淘宝购物网站比较全面的选取了5854条商品评论。将这些短文本信息混合作为本实验的目标领域数据,其中带分类标签的数据只占总数据的5%。
首先定义一下本发明中出现的符号所代表的含义。给定目标领域数据集T=Ti∪Tu,其中Ti={(xi,yi)|i=1,2,...,m}为带有分类标签的数据,xi为目标领域数据实例,yj为类别特征表示,总类别数为|C|。Tu={xj|j=m+1,m+2,...,m+n}为未标记数据,m和n为样本数量,m<<n;近邻值k、种子特征阈值λ、参数β、特征项阈值ε。
具体步骤如下:
1.初始化k、λ、β、ε。
2.提取目标领域标签,将其作为关键词输入到某搜索引擎,提取前10页网页信息作为与目标领域数据关联度比较大的数据。
3.根据潜在语义分析方法及k、λ值,从网页信息中筛选种子特征集。
4.构建社交媒体无向图,搭建标签间桥梁。
5.根据种子特征集,从社交媒体无向图中提取包含所有种子特征集的子图。
6.根据上述公式(1)、(3)及β、ε值,筛选目标领域数据特征表示。
7.根据上述公式(4)对目标领域数据进行分类。
实验证明,当目标领域只有少量标记的短文本时,本发明方法可在不给出特定源领域数据、不知道数据先验概率分布的情况下,利用在线信息完成对目标领域数据精确数据分类。
Claims (4)
1.一种长文本到短文本的迁移学习方法,其特征在于:
步骤1:根据目标领域短文本中提取的标签,通过搜索引擎获得源领域数据,提取源领域的种子特征集;
步骤2:根据目标领域短文本的标签集和源领域的种子特征集,构建社交媒体无向图,从无向图中提取包含所有目标领域标签集和种子特征集节点的子图;
步骤3:基于拉普拉斯特征映射算法,获得源领域数据新的特征表示;
步骤:4:根据源领域数据新的特征表示,对源领域数据进行分类。
2.根据权利要求1所述的长文本到短文本的迁移学习方法,其特征在于:步骤3中,通过如下步骤获得源领域新的种子特征表示:
步骤3.1:构造邻近图;
对于未标记数据采用无监督学习的距离度量,采用欧式距离计算;对于带分类标签数据的采用监督学习的距离度量,通过如下公式计算获得:
式中:ci、cj是目标数据类别C的子类,分别表示样本xi、xj的类别,d(xi,xj)表示xi、xj的欧氏距离,β为参数。
如果样本点xi、xj之间的距离小于特征项阈值ε,则为近邻点;
步骤3.2:计算权值矩阵W;
若xi、xj为近邻点,两点之间的权值Wij=1,否则为0。
步骤3.3:计算拉普拉斯算子的广义特征向量,求得低维嵌入;
通过上式求得矩阵Y,将邻近图中节点映射到一个低维空间y中,得到源领域数据新的特征表示。
3.根据权利要求2所述的长文本到短文本的迁移学习方法,其特征在于:步骤1中,通过如下步骤获得源领域的种子特征集:
步骤1.1:将目标领域短文本中提取的标签作为关键词输入到搜索引擎中,提取网页文本作为与目标领域短文本语义相关的源领域数据;
步骤1.2:构造单词文本矩阵:M=[aij]m×n,其中aij取值为第i个单词在第j个文本中出现次数的对数;
4.根据权利要求3所述的长文本到短文本的迁移学习方法,其特征在于:步骤4中,根据如下公式对源领域数据进行分类:
式中yi代表数据新的特征表示,cj代表第j类标签。p(yi,cj)为yi、cj共同出现的概率,p(yi)为yi在新的特征空间中出现概率;p(cj)为cj在类别C中出现的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310241428.0A CN103324708B (zh) | 2013-06-18 | 2013-06-18 | 一种长文本到短文本的迁移学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310241428.0A CN103324708B (zh) | 2013-06-18 | 2013-06-18 | 一种长文本到短文本的迁移学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103324708A true CN103324708A (zh) | 2013-09-25 |
CN103324708B CN103324708B (zh) | 2016-06-29 |
Family
ID=49193451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310241428.0A Active CN103324708B (zh) | 2013-06-18 | 2013-06-18 | 一种长文本到短文本的迁移学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103324708B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617230A (zh) * | 2013-11-26 | 2014-03-05 | 中国科学院深圳先进技术研究院 | 一种基于微博的广告推荐方法及*** |
CN104683716A (zh) * | 2013-11-27 | 2015-06-03 | 纬创资通股份有限公司 | 电子节目指南的产生装置及电子节目指南的产生方法 |
CN105138538A (zh) * | 2015-07-08 | 2015-12-09 | 清华大学 | 一种面向跨领域知识发现的主题挖掘方法 |
CN106447066A (zh) * | 2016-06-01 | 2017-02-22 | 上海坤士合生信息科技有限公司 | 一种大数据的特征提取方法和装置 |
CN106445988A (zh) * | 2016-06-01 | 2017-02-22 | 上海坤士合生信息科技有限公司 | 一种大数据的智能处理方法和*** |
CN106991175A (zh) * | 2017-04-06 | 2017-07-28 | 百度在线网络技术(北京)有限公司 | 一种客户信息挖掘方法、装置、设备以及存储介质 |
CN107292365A (zh) * | 2017-06-27 | 2017-10-24 | 百度在线网络技术(北京)有限公司 | 商品标签的绑定方法、装置、设备及计算机可读存储介质 |
CN109815336A (zh) * | 2019-01-28 | 2019-05-28 | ***科技(杭州)有限公司 | 一种文本聚合方法及*** |
CN111046179A (zh) * | 2019-12-03 | 2020-04-21 | 哈尔滨工程大学 | 一种面向特定领域开放网络问句的文本分类方法 |
CN111858901A (zh) * | 2019-04-30 | 2020-10-30 | 北京智慧星光信息技术有限公司 | 一种基于语义相似的文本推荐方法及*** |
CN112989057A (zh) * | 2021-05-06 | 2021-06-18 | 索信达(北京)数据技术有限公司 | 文本标签确定方法、装置、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8145636B1 (en) * | 2009-03-13 | 2012-03-27 | Google Inc. | Classifying text into hierarchical categories |
CN103020122A (zh) * | 2012-11-16 | 2013-04-03 | 哈尔滨工程大学 | 一种基于半监督聚类的迁移学习方法 |
-
2013
- 2013-06-18 CN CN201310241428.0A patent/CN103324708B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8145636B1 (en) * | 2009-03-13 | 2012-03-27 | Google Inc. | Classifying text into hierarchical categories |
CN103020122A (zh) * | 2012-11-16 | 2013-04-03 | 哈尔滨工程大学 | 一种基于半监督聚类的迁移学习方法 |
Non-Patent Citations (3)
Title |
---|
JINGRUI HE ET AL: "Graph-based Transfer Learning", 《18TH ACM CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》, 31 December 2009 (2009-12-31), pages 937 - 946 * |
OU JIN ET AL: "Transferring topical knowledge from auxiliary long texts for short text clustering", 《20TH ACM CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》, 31 December 2011 (2011-12-31), pages 775 - 784 * |
张建波等: "基于监督学习的核拉普拉斯特征映射分类方法", 《福州大学学报(自然科学版)》, vol. 39, no. 1, 28 February 2011 (2011-02-28), pages 49 - 53 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617230B (zh) * | 2013-11-26 | 2017-02-15 | 中国科学院深圳先进技术研究院 | 一种基于微博的广告推荐方法及*** |
CN103617230A (zh) * | 2013-11-26 | 2014-03-05 | 中国科学院深圳先进技术研究院 | 一种基于微博的广告推荐方法及*** |
CN104683716B (zh) * | 2013-11-27 | 2018-03-13 | 纬创资通股份有限公司 | 电子节目指南的产生装置及电子节目指南的产生方法 |
CN104683716A (zh) * | 2013-11-27 | 2015-06-03 | 纬创资通股份有限公司 | 电子节目指南的产生装置及电子节目指南的产生方法 |
CN105138538A (zh) * | 2015-07-08 | 2015-12-09 | 清华大学 | 一种面向跨领域知识发现的主题挖掘方法 |
CN105138538B (zh) * | 2015-07-08 | 2018-08-03 | 清华大学 | 一种面向跨领域知识发现的主题挖掘方法 |
CN106447066A (zh) * | 2016-06-01 | 2017-02-22 | 上海坤士合生信息科技有限公司 | 一种大数据的特征提取方法和装置 |
CN106445988A (zh) * | 2016-06-01 | 2017-02-22 | 上海坤士合生信息科技有限公司 | 一种大数据的智能处理方法和*** |
CN106991175A (zh) * | 2017-04-06 | 2017-07-28 | 百度在线网络技术(北京)有限公司 | 一种客户信息挖掘方法、装置、设备以及存储介质 |
CN106991175B (zh) * | 2017-04-06 | 2020-08-11 | 百度在线网络技术(北京)有限公司 | 一种客户信息挖掘方法、装置、设备以及存储介质 |
CN107292365A (zh) * | 2017-06-27 | 2017-10-24 | 百度在线网络技术(北京)有限公司 | 商品标签的绑定方法、装置、设备及计算机可读存储介质 |
CN107292365B (zh) * | 2017-06-27 | 2021-01-08 | 百度在线网络技术(北京)有限公司 | 商品标签的绑定方法、装置、设备及计算机可读存储介质 |
CN109815336A (zh) * | 2019-01-28 | 2019-05-28 | ***科技(杭州)有限公司 | 一种文本聚合方法及*** |
CN109815336B (zh) * | 2019-01-28 | 2021-07-09 | ***科技(杭州)有限公司 | 一种文本聚合方法及*** |
CN111858901A (zh) * | 2019-04-30 | 2020-10-30 | 北京智慧星光信息技术有限公司 | 一种基于语义相似的文本推荐方法及*** |
CN111046179A (zh) * | 2019-12-03 | 2020-04-21 | 哈尔滨工程大学 | 一种面向特定领域开放网络问句的文本分类方法 |
CN111046179B (zh) * | 2019-12-03 | 2022-07-15 | 哈尔滨工程大学 | 一种面向特定领域开放网络问句的文本分类方法 |
CN112989057A (zh) * | 2021-05-06 | 2021-06-18 | 索信达(北京)数据技术有限公司 | 文本标签确定方法、装置、计算机设备和存储介质 |
CN112989057B (zh) * | 2021-05-06 | 2021-11-26 | 索信达(北京)数据技术有限公司 | 文本标签确定方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103324708B (zh) | 2016-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103324708B (zh) | 一种长文本到短文本的迁移学习方法 | |
Gokulakrishnan et al. | Opinion mining and sentiment analysis on a twitter data stream | |
CN103886074B (zh) | 基于社交媒体的商品推荐*** | |
CN104008203B (zh) | 一种融入本体情境的用户兴趣挖掘方法 | |
Suresh | An unsupervised fuzzy clustering method for twitter sentiment analysis | |
WO2015165408A1 (zh) | 一种商品评价信息过滤方法及*** | |
CN105005594A (zh) | 异常微博用户识别方法 | |
CN107291755B (zh) | 一种终端推送方法及装置 | |
CN103996088A (zh) | 基于多维特征组合逻辑回归的广告点击率预测方法 | |
CN104484431A (zh) | 一种基于领域本体的多源个性化新闻网页推荐方法 | |
CN101853470A (zh) | 一种基于社会化标签的协同过滤方法 | |
CN104850617A (zh) | 短文本处理方法及装置 | |
CN105068986B (zh) | 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法 | |
CN104636487A (zh) | 一种广告信息管理方法 | |
Abdelbary et al. | Utilizing deep learning for content-based community detection | |
Wassan et al. | [Retracted] Customer Experience towards the Product during a Coronavirus Outbreak | |
CN105468780B (zh) | 一种微博文本中产品名实体的规范化方法及装置 | |
CN104572623B (zh) | 一种在线lda模型的高效数据总结分析方法 | |
Zulfiker et al. | Bangla E-Commerce Sentiment Analysis Using Machine Learning Approach | |
KR20110114071A (ko) | 상품 관련 인터넷 게시물에 기반한 광고 방법 및 광고 시스템 | |
Cuzzola et al. | Automated classification and localization of daily deal content from the Web | |
Alamsyah et al. | A Comparison of Indonesia’ s E-Commerce Sentiment Analysis for Marketing Intelligence Effort (case study of Bukalapak, Tokopedia and Elevenia) | |
Annam et al. | Entropy based informative content density approach for efficient web content extraction | |
Hamdi et al. | BERT and word embedding for interest mining of instagram users | |
Shri et al. | An effective approach to rank reviews based on relevance by weighting method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |