CN107392392A - 基于深度学习的微博转发预测方法 - Google Patents
基于深度学习的微博转发预测方法 Download PDFInfo
- Publication number
- CN107392392A CN107392392A CN201710704595.2A CN201710704595A CN107392392A CN 107392392 A CN107392392 A CN 107392392A CN 201710704595 A CN201710704595 A CN 201710704595A CN 107392392 A CN107392392 A CN 107392392A
- Authority
- CN
- China
- Prior art keywords
- microblogging
- deep learning
- vector
- user
- forecasting methodology
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 239000000284 extract Substances 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 7
- 230000006399 behavior Effects 0.000 abstract description 4
- 230000002452 interceptive effect Effects 0.000 abstract description 3
- 238000012546 transfer Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 235000021251 pulses Nutrition 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的微博转发预测方法,包括:通过word2vec将词转化成300维度的实数向量形式;通过剪枝操作把微博正文转化成向量矩阵的形式;利用卷积神经网络提取微博正文的特征;将特征送入线性分类器进行分类;把预测问题转化成分类问题,即对微博转发数量做分割,分成十个类别,并计算微博属于哪个类别的概率;针对不同人群训练不同的分类器,即首先利用一趟聚类对用户进行聚类,然后对每个类别分别做训练。以深度学习为框架,构建了微博文本特征提取模型,并且利用聚类技术实现用户的聚类,充分利用微博内容特征和用户行为特征来实现微博互动预测。
Description
技术领域
本发明涉及一种微博转发预测方法,具体地涉及一种基于深度学习的微博转发预测方法。
背景技术
在web2.0时代的今天,微博以其内容短小、交互便捷和传播快速等特点,成为目前应用最广泛的社交平台之一。截止2016年底,我国微博月活跃用户净增长7700万,到达3.13亿的规模,尤其是移动客户端的占有率已经达到90%。微博用户通过相互关注,相互转发博文形成了复杂的社交网络。在微博发布之初预知其未来的流行度,锁定微博的潜在热点事件给予重点关注,不仅有利于政府把握社会脉搏,预知舆论动态,同时对企业营销和热点新闻推送也具有重要的商业价值,因此,微博的互动研究对话题检测、热点跟踪、舆论监督以及商业营销都具有重要意义。要解决微博的互动预测这个问题,首先要从微博的内容中提取出相关的特征,只有含有某些特征的微博才更容易被转发。在过去的大多数研究中,都在寻找最贴合微博内容的特征,例如微博中hashtag的数量、微博是否包含URL、微博中情感词的数量、微博中是否提及他人等等。这些特征的好坏,往往决定着预测模型性能的好坏。事实上,当用户阅读到一条微博时,会根据自己已有知识对微博价值和新颖性进行主观判断,然后决定是否转发、评论或者点赞该条微博。微博的互动指数不仅仅与微博的内容相关,也与用户个体行为和用户对微博的背景认知具有紧密的相关性。
中国专利文献CN 105550275 A公开了一种微博转发量预测方法,包括:获取训练微博数据和待预测微博数据;根据训练微博的转发量,将训练微博划分为对应的类别;提取训练微博特征,包括转发网络特征、内容特征和时序特征;建立所述微博特征和转发量类别之间的多分类模型;提取待预测微博特征,根据所述的待预测微博特征,基于多分类模型,预测待预测微博的转发量类别。本发明在微博内容特征和时序特征的基础上,加入多种转发网络特征,综合利用三类特征来预测转发量。其虽然可以提高预测的准确性,但是处理过程非常复杂,当数据量非常大时,处理时间过长。
发明内容
针对上述存在的技术问题,本发明目的是:提供了一种基于深度学习的微博转发预测方法,以深度学习为框架,构建了微博文本特征提取模型,并且利用聚类技术实现用户的聚类,充分利用微博内容特征和用户行为特征来实现微博互动预测。
本发明的技术方案是:
一种基于深度学习的微博转发预测方法,包括以下步骤:
S01:通过词向量生成工具获取词的分布式向量表示,将微博正文转换为向量矩阵形式;
S02:将获取的向量矩阵输入卷积神经网络语言模型进行预训练,提取微博正文的特征,得到一个多维度的特征向量;
S03:使用不同的特征对用户进行向量化表示,对用户进行聚类,为每个类簇初始化一个卷积神经网络模型,选择样本送入其所属的模型中分别进行训练;
S04:通过线性分类器进行分类,概率最大的类别就是微博所属类别,判断微博的转发数。
优选的,所述步骤S01中词向量的维度与步骤S02中特征向量的维度相同。
优选的,所述步骤S02还包括,将微博正文中的每个词向量组合成句子向量矩阵。
优选的,所述步骤S02中的卷积神经网络语言模型使用动态下采样技术减少模型的参数规模,其公式为:
k=max(k,(L-l)/L×s) (1)
其中,k为固定的下采样参数,L是整个卷积层的大小,l是当前卷积层的编号,s是微博文本的长度。
优选的,所述步骤S03中对用户进行聚类的算法为一趟聚类算法。
与现有技术相比,本发明的优点是:
1、以深度学习为框架,构建了微博文本特征提取模型,并且利用聚类技术实现用户的聚类,充分利用微博内容特征和用户行为特征来实现微博互动预测。
2、利用神经网络自动提取文本特征,节省了大量的劳动力,利用用户之间的差异化特征,不同人群训练不同的分类器,更加精确了预测的结果。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明的方法流程图;
图2为本发明生成词向量的结构图;
图3为本发明用户聚类的流程图。
具体实施方式
以下结合具体实施例对上述方案做进一步说明。应理解,这些实施例是用于说明本发明而不限于限制本发明的范围。实施例中采用的实施条件可以根据具体厂家的条件做进一步调整,未注明的实施条件通常为常规实验中的条件。
实施例:
如图1所示,一种基于深度学习的微博转发预测方法,包括以下步骤:
S01:通过词向量生成工具获取词的分布式向量表示,将微博正文转换为向量矩阵形式;
利用word2vec进行单词的分布式表示处理,用一个300维度的实数向量在词空间唯一表示一个词,微博正文使用144x300向量矩阵来表示。
S02:将获取的向量矩阵输入卷积神经网络语言模型进行预训练,提取微博正文的特征,得到一个多维度的特征向量;这里的维度以300进行说明。
卷积神经网络语言模型使用动态下采样技术减少模型的参数规模,其公式为:
k=max(k,(L-l)/L×s) (1)
其中,k为固定的下采样参数,L是整个卷积层的大小,l是当前卷积层的编号,s是微博文本的长度。
S03:使用不同的特征对用户进行向量化表示,对用户进行聚类(采用一趟聚类算法),为每个类簇初始化一个卷积神经网络模型,选择样本,送入其所属的模型中分别进行训练;
利用外部文本资源预先初始化训练一个特征向量,然后利用微博训练集微调特征向量。
S04:通过线性分类器进行分类,概率最大的类别就是微博所属类别,判断微博的转发数。
把预测问题转化成分类问题,即对微博转发数量做分割,分成十个类别,并计算微博属于哪个类别的概率。
下面结合具体的实例进行说明。
首先我们使用网络爬虫通过微博官方提供的API抓取了微博上一个月的公共微博数据,在剔除一些仅包含表情符号或文本字数太少的微博后,共收集了近200万条微博。为了验证模型的有效性,我们使用10次交叉验证,将原始微博数据分割成10份子样本,其中一份作为验证集,其它九份作为训练集,交叉验证10次,每个子样本验证一次。
利用分词工具将微博内容分割成一个个词语,统计词典的大小G,并为每个词初始化一个维度为G的向量,每个词在其位置上的值为1,其余为0,形如[0001...000],然后如图2所示利用神经网络语言模型进行预训练得到一个300维的词向量。然后我们把微博正文中的每个词向量组合成句子向量矩阵。
为了精准预测,还要对用户进行分类,以用户的历史微博数、粉丝数、关注数、微博主题为特征,对用户进行向量化表示,由于事先不知道用户的所属类别和总类别的数量,我们使用如图3所示的一趟聚类算法。首先从用户集读取一个新的对象U,如果没有存在的簇,则以这个对象构建一个新的簇C,如果存在簇,则计算它与已有的每个簇之间的距离,并选择最小的距离,其中距离公式为
其中xi是新对象的坐标,yi是所选类簇的中心坐标,n表示向量的总维度,i表示当前维度标号,若最小距离d超过给定的阀值,则为这个对象创建一个新的簇,否则把对象加入该簇,然后重复操作,直到数据集全部处理完。
为每个类簇初始化一个卷积神经网络模型,选择一个样本,送入其所属的模型中进行训练,得到一个300维的特征向量,并使用线性分类器进行分类,其中线性分类器的损失函数是:
其中θ表示线性分类器的参数,K是分类器的粒度即类别数,λ为正则化系数,N是样本的个数,y表示模型当次训练的结果,其训练过程的目标是使得L(θ)最小,在经过迭代训练之后,根据分类器的结果,即概率最大的类别就是微博所属类别,从而判断微博的转发数。
上述实例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种基于深度学习的微博转发预测方法,其特征在于,包括以下步骤:
S01:通过词向量生成工具获取词的分布式向量表示,将微博正文转换为向量矩阵形式;
S02:将获取的向量矩阵输入卷积神经网络语言模型进行预训练,提取微博正文的特征,得到一个多维度的特征向量;
S03:使用不同的特征对用户进行向量化表示,对用户进行聚类,为每个类簇初始化一个卷积神经网络模型,选择样本送入其所属的模型中分别进行训练;
S04:通过线性分类器进行分类,概率最大的类别就是微博所属类别,判断微博的转发数。
2.根据权利要求1所述的基于深度学习的微博转发预测方法,其特征在于,所述步骤S01中词向量的维度与步骤S02中特征向量的维度相同。
3.根据权利要求1所述的基于深度学习的微博转发预测方法,其特征在于,所述步骤S02还包括,将微博正文中的每个词向量组合成句子向量矩阵。
4.根据权利要求1所述的基于深度学习的微博转发预测方法,其特征在于,所述步骤S02中的卷积神经网络语言模型使用动态下采样技术减少模型的参数规模,其公式为:
(1)
其中,k为固定的下采样参数,L是整个卷积层的大小,l是当前卷积层的编号,s是微博文本的长度。
5.根据权利要求1所述的基于深度学习的微博转发预测方法,其特征在于,所述步骤S03中对用户进行聚类的算法为一趟聚类算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710704595.2A CN107392392A (zh) | 2017-08-17 | 2017-08-17 | 基于深度学习的微博转发预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710704595.2A CN107392392A (zh) | 2017-08-17 | 2017-08-17 | 基于深度学习的微博转发预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107392392A true CN107392392A (zh) | 2017-11-24 |
Family
ID=60353095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710704595.2A Pending CN107392392A (zh) | 2017-08-17 | 2017-08-17 | 基于深度学习的微博转发预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107392392A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325125A (zh) * | 2018-10-08 | 2019-02-12 | 中山大学 | 一种基于cnn优化的社交网络谣言方法 |
CN109918905A (zh) * | 2017-12-12 | 2019-06-21 | 财团法人资讯工业策进会 | 行为推论模型生成装置及其行为推论模型生成方法 |
CN111079084A (zh) * | 2019-12-04 | 2020-04-28 | 清华大学 | 一种基于长短时记忆网络的信息转发概率预测方法及*** |
CN111476281A (zh) * | 2020-03-27 | 2020-07-31 | 北京微播易科技股份有限公司 | 一种信息流行度预测方法和装置 |
CN113449508A (zh) * | 2021-07-15 | 2021-09-28 | 上海理工大学 | 一种基于事件链的网络舆情关联推演预测分析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
CN105550275A (zh) * | 2015-12-09 | 2016-05-04 | 中国科学院重庆绿色智能技术研究院 | 一种微博转发量预测方法 |
US20170011291A1 (en) * | 2015-07-07 | 2017-01-12 | Adobe Systems Incorporated | Finding semantic parts in images |
CN106776740A (zh) * | 2016-11-17 | 2017-05-31 | 天津大学 | 一种基于卷积神经网络的社交网络文本聚类方法 |
-
2017
- 2017-08-17 CN CN201710704595.2A patent/CN107392392A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
US20170011291A1 (en) * | 2015-07-07 | 2017-01-12 | Adobe Systems Incorporated | Finding semantic parts in images |
CN105550275A (zh) * | 2015-12-09 | 2016-05-04 | 中国科学院重庆绿色智能技术研究院 | 一种微博转发量预测方法 |
CN106776740A (zh) * | 2016-11-17 | 2017-05-31 | 天津大学 | 一种基于卷积神经网络的社交网络文本聚类方法 |
Non-Patent Citations (2)
Title |
---|
李飞飞等: "《CS231n:Convolutional Neural Networks for Visual Recognition》", 11 April 2017 * |
裴超等: "《基于用户行为的微博转发兴趣分类研究》", 《北京信息科技大学学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918905A (zh) * | 2017-12-12 | 2019-06-21 | 财团法人资讯工业策进会 | 行为推论模型生成装置及其行为推论模型生成方法 |
CN109918905B (zh) * | 2017-12-12 | 2022-05-10 | 财团法人资讯工业策进会 | 行为推论模型生成装置及其行为推论模型生成方法 |
CN109325125A (zh) * | 2018-10-08 | 2019-02-12 | 中山大学 | 一种基于cnn优化的社交网络谣言方法 |
CN111079084A (zh) * | 2019-12-04 | 2020-04-28 | 清华大学 | 一种基于长短时记忆网络的信息转发概率预测方法及*** |
CN111079084B (zh) * | 2019-12-04 | 2021-09-10 | 清华大学 | 一种基于长短时记忆网络的信息转发概率预测方法及*** |
CN111476281A (zh) * | 2020-03-27 | 2020-07-31 | 北京微播易科技股份有限公司 | 一种信息流行度预测方法和装置 |
CN113449508A (zh) * | 2021-07-15 | 2021-09-28 | 上海理工大学 | 一种基于事件链的网络舆情关联推演预测分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684478B (zh) | 分类模型训练方法、分类方法及装置、设备和介质 | |
Banerjee et al. | Detection of cyberbullying using deep neural network | |
CN107392392A (zh) | 基于深度学习的微博转发预测方法 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN111198995B (zh) | 一种恶意网页识别方法 | |
CN105868317B (zh) | 一种数字教育资源推荐方法及*** | |
CN108304526B (zh) | 一种数据处理方法、装置及服务器 | |
CN107341571B (zh) | 一种基于量化社会影响力的社交网络用户行为预测方法 | |
CN105183717B (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
CN107220352A (zh) | 基于人工智能构建评论图谱的方法和装置 | |
CN106294590A (zh) | 一种基于半监督学习的社交网络垃圾用户过滤方法 | |
CN106354818B (zh) | 基于社交媒体的动态用户属性提取方法 | |
CN111581966A (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN109299258A (zh) | 一种舆情事件检测方法、装置及设备 | |
CN105005918A (zh) | 一种基于用户行为数据和***影响力分析的在线广告推送方法及其推送评估方法 | |
CN107577782B (zh) | 一种基于异质数据的人物相似度刻画方法 | |
CN103984771B (zh) | 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法 | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
CN113011126A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
Ogudo et al. | Sentiment analysis application and natural language processing for mobile network operators’ support on social media | |
Chen et al. | Lexicon based Chinese language sentiment analysis method | |
Sitorus et al. | Sensing trending topics in twitter for greater Jakarta area | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
Wenan et al. | analysis and evaluation of TripAdvisor data: a case of Pokhara, Nepal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171124 |
|
RJ01 | Rejection of invention patent application after publication |