CN111125486B - 一种基于多特征的微博用户属性分析方法 - Google Patents

一种基于多特征的微博用户属性分析方法 Download PDF

Info

Publication number
CN111125486B
CN111125486B CN201911340531.4A CN201911340531A CN111125486B CN 111125486 B CN111125486 B CN 111125486B CN 201911340531 A CN201911340531 A CN 201911340531A CN 111125486 B CN111125486 B CN 111125486B
Authority
CN
China
Prior art keywords
user
microblog
text
representing
microblogs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911340531.4A
Other languages
English (en)
Other versions
CN111125486A (zh
Inventor
程克非
单凤池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201911340531.4A priority Critical patent/CN111125486B/zh
Publication of CN111125486A publication Critical patent/CN111125486A/zh
Application granted granted Critical
Publication of CN111125486B publication Critical patent/CN111125486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于多特征的微博用户属性分析方法,属于智能媒体计算和大数据分析技术领域。该方法包括:S1利用爬虫软件爬取用户微博博文信息并清洗、打标;S2通过word2vec模型构造微博博文信息的词向量,在此基础上根据集成学习的组合策略,得出用户微博文本特征;S3从用户微博数据中构造出用于微博属性分析的多特征体系,并通过基础特征构造出符合用户属性分析的复合特征;S4采用Stacking模型融合技术将多个基分类器进行融合,构造微博用户属性分析模型,输入待检测数据,得到最终的微博用户属性分析结果。本发明提高了微博用户属性分类的准确率,为商家给用户提供更高效的个性化推荐提供技术支持。

Description

一种基于多特征的微博用户属性分析方法
技术领域
本发明属于智能媒体计算和大数据分析技术领域,涉及一种基于多特征的微博用户属性分析方法。
背景技术
随着在线社交媒体的日益普及,网络信息变得庞大而驳杂。借助计算机技术,深入地理解个人和群体的基本信息、挖掘社会心理和行为模式,快速、精准地提供个性化、多方面的决策支持,辅助解决实际的社会问题,已经成为当今学术界与工业界共同关注的重要课题。对用户信息和用户行为的深度理解是其中的核心内容之一。由于个人属性数据往往涉及到隐私问题,用户经常选择不填写或填写虚假信息等方式隐藏其个人信息,导致用户相关的基本信息通常无法直接获取。用户属性分析可解决此类问题。
目前,国内外在用户属性分析方面的研究工作,通常从有监督学习、半监督学习、无监督学习三个方面入手。相对于半监督学习数据稀疏和无监督学习准确度较低,有监督学习在构造出多特征体系的情况下,结合新型的复合特征更适用于用户属性的分析。又由于现有的微博用户属性分析方法考虑的特征不够完善,从而导致得到的分析结果准确率不高。
发明内容
有鉴于此,本发明的目的在于提供一种基于多特征的微博用户属性分析方法,旨在提高微博用户属性分类的准确率,以便商家为用户提供更高效的个性化推荐。
为达到上述目的,本发明提供如下技术方案:
一种基于多特征的微博用户属性分析方法,具体包括以下步骤:
S1:利用爬虫软件爬取用户微博博文信息并清洗、打标;
S2:通过word2vec模型构造微博博文信息的词向量,在此基础上根据集成学习的组合策略,得出用户微博文本特征;
S3:从用户微博数据中构造出用于微博属性分析的多特征体系,并通过基础特征构造出符合用户属性分析的复合特征;
S4:采用Stacking模型融合技术将多个基分类器进行融合,构造微博用户属性分析模型,输入待检测数据,得到最终的微博用户属性分析结果。
进一步,所述步骤S2中,用户微博文本特征的具体构造步骤包括:
S21:通过利用Jieba分词工具对样本进行分词处理,去停用词,将每个用户的微博进行合并,得到用户博文集合
Figure BDA0002332136690000028
mi表示用户ID为i的微博集合,
Figure BDA0002332136690000029
表示单个用户的微博集合,
Figure BDA00023321366900000210
wt表示单条微博的词;
S22:通过Skip-Gram模型训练微博用户微博,得到微博中300维的词向量,并计算出每个用户的微博向量,计算公式如下:
Figure BDA0002332136690000021
其中,ui表示ID为i的用户,K表示用户ui的微博词数,Wveck表示第k个单词的词向量;
S23:通过Stacking模型作为集成学习的组合策略,以支持向量机(SVM)、决策树(decision tree)、逻辑回归(Logistic)、光梯度提升机(LightGBM)和极端梯度提升(XGBoost)作为初级分类器,其预测结果由作为二层分类器的逻辑回归(Logistic)组合得到,最后得到用户微博文本特征。
进一步,所述步骤S3中,构造的复合特征包括:用户活跃度、用户微博时间分布和用户行为习惯;
所述用户活跃度特征fuseractive(ui)的计算公式如下:
Figure BDA0002332136690000022
其中,ui表示ID为i的用户,fsum(ui)表示用户ui的微博总数,ftranspond(ui)表示用户ui的微博转发数量,ftime(ui)表示用户ui所发布的第一条微博和最后一条微博的时间间隔;
所述用户微博时间分布
Figure BDA0002332136690000023
的计算公式如下:
Figure BDA0002332136690000024
其中,
Figure BDA0002332136690000025
表示位于时间段j的ID为i的用户,
Figure BDA0002332136690000026
表示用户ui在时刻j所发布微博数,
Figure BDA0002332136690000027
表示用户ui在时刻j所转发微博数;
所述用户行为习惯fuserBehavior(ui)的计算公式如下:
fuserBehavior(ui)=ftextBehavior(ui)+ftextSource(ui)+finforIntegrity(ui)
其中,ftextBehavior(ui)表示用户ui的文本行为习惯,ftextSource(ui)表示用户ui的博文源信息,finforIntegrity(ui)表示用户ui的基本信息完整度。
进一步,用户的文本行为习惯是根据用户微博中表情符号和图片的比例计算得到,具体计算公式如下:
Figure BDA0002332136690000031
其中,femoticons(textn)表示第n条微博中表情符号数,fpicture(textn)表示第n条微博中图片数,N表示用户ui的微博数。
进一步,用户博文源信息是根据男性惯用文本源fmSource(ui)和女性惯用文本源ffSource(ui)计算得到,具体计算公式为:ftextSource(ui)=fmSource(ui)-ffSource(ui)。
进一步,所述的男性惯用文本源fmSource(ui)的计算公式如下:
Figure BDA0002332136690000032
其中,N表示用户ui的微博数,fmSourceNum(textj)表示第n条微博来源是男性文本源,sourceNum表示文本源总数。
进一步,所述的女性惯用文本源的计算公式如下:
Figure BDA0002332136690000033
其中,N表示用户ui的微博数,ffSourceNum(textj)表示第n条微博来源是女性文本源,sourceNum表示文本源总数。
进一步,用户信息完整度具体包括:finforIntegrity表示用户的基本信息完整度,基本信息包括用户昵称、注册所在地、性别、生日、简介、教育信息和头像信息,计算公式如下:
Figure BDA0002332136690000034
其中,fname表示是否有昵称,flocation表示是否有注册所在地,fbirthday表示是否有生日信息,fintroduction表示是否有个人简介,feducation表示是否有受教育信息,fheadPhoto表示是否有头像信息,m表示基本信息的总数。
进一步,所述步骤S4中,采用Stacking模型融合技术将多个基分类器进行融合构建微博用户属性分析模型的具体包括:使用支持向量机(SVM)、决策树(decision tree)、逻辑回归(Logistic)、光梯度提升机(LightGBM)和极端梯度提升(XGBoost)作为初级分类器,逻辑回归(Logistic)作为二层分类器构建微博用户属性分析模型。
本发明的有益效果在于:本发明充分考虑了用户微博的各项特征,并根据构建微博用户属性分析模型来训练得到微博用户的各项个性数据,提高了微博用户属性分类的准确率,为商家给用户提供更高效的个性化推荐提供技术支持。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述微博用户属性分析的总体流程图;
图2为本发明中微博用户属性分析文本特征构造及提取的流程图;
图3为本发明中微博用户属性分析非文本特征构造及提取的流程图;
图4为本发明中微博用户属性分析模型构建的流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图4,图1为本发明优选的一种实施例的微博用户属性分析方法的总体流程图,本实施例所述微博用户属性分析方法可以作为计算机程序来执行,也可作为插件在其他程序中执行,具体执行过程为:
步骤S1:对数据预处理。
数据预处理包括数据清洗和打标两个阶段。在清洗阶段,对数据中异常值、空值进行处理,保证样本数据的完整性。打标阶段,根据先验知识对采集的数据进行人工打标,将数据分为男性和女性两类,其中0代表男性,1代表女性。
步骤S2:通过word2vec构造微博博文信息的词向量,在此基础上根据集成学习的组合策略,得出微博文本特征。具体包括:
步骤S3:从用户微博数据中构造出用于微博属性分析的多特征体系,并通过基础特征构造出符合用户属性分析的复合特征;
步骤S4:采用Stacking模型融合技术将多个基分类器进行融合,得到最终的微博用户属性分析结果。
具体的,如图2所示,步骤S2具体包括以下包括:
步骤S21:对用户的每条微博进行分词处理,去停用词,在此基础上将每个用户的微博进行合并,得到了用户博文集合
Figure BDA0002332136690000051
mi表示用户ID为i的微博集合,
Figure BDA0002332136690000052
表示单个用户的微博集合,
Figure BDA0002332136690000053
wt表示单条微博的词。
步骤S22:通过Skip-Gram模型训练爬取的微博用户微博,得到了微博中300维的词向量,并通过公式计算出每个用户的微博向量,公式如下:
Figure BDA0002332136690000054
其中,ui表示ID为i的用户,K表示用户ui的微博词数,Wveck表示第k个单词的词向量;
步骤S23:采取stacking模型作为集成学习的策略,以支持向量机(SVM)、决策树(decision tree)、逻辑回归(Logistic)、光梯度提升机(LightGBM)和极端梯度提升(XGBoost)作为基分类器,逻辑回归(Logistic)作为元分类器构建微博用户属性分析模型。
步骤S24,将训练集输入模型中进行拟合,通过网格搜索的方法进行参数调优,得到最佳模型。
步骤S25,将训练集输入到S24得到的模型中,得到文本特征。
如图3所示,步骤S3具体包括以下步骤:
步骤S31:从用户微博数据中构造出用于微博属性分析的多特征体系,包括文本特征、时间特征、统计特征、数值特征、内容特征,如表1所示:
表1多特征体系表
Figure BDA0002332136690000055
步骤S32:在提取出的多特征体系基础上,构造用户活跃度、微博时间分布、用户行为习惯三个复合特征。
具体的,用户活跃度特征的计算公式如下:
Figure BDA0002332136690000061
其中,ui表示ID为i的用户,fsum(ui)表示用户ui的微博总数,ftranspond(ui)表示用户ui的微博转发数量,ftime(ui)表示用户ui所发布的第一条微博和最后一条微博的时间间隔。
用户微博时间分布特征的计算公式如下:
Figure BDA0002332136690000062
其中,
Figure BDA0002332136690000063
表示位于时间段j(0≤j≤23)的ID为i的用户,
Figure BDA0002332136690000064
表示ID为i用户在时刻j所发布微博数,
Figure BDA0002332136690000065
表示ID为i的用户在时刻j所转发微博数。
用户行为习惯特征:根据用户文本行为习惯ftextBehavior、用户博文源信息ftextSource和用户信息完整度finforIntegrity计算得到,具体计算公式如下:
fuserBehavior(ui)=ftextBehavior+ftextSource+finforIntegrity
其中,用户文本行为习惯是根据用户微博中表情符号和图片的比例计算得到,其计算公式如下:
Figure BDA0002332136690000066
其中,ftextBehavior(ui)表示用户ui的发文习惯,ui表示ID为i的用户,N表示用户ui的微博数,femoticons(textj)表示第n条微博中表情符号数,fpicture(textn)表示第n条微博中图片数。
用户博文源信息:根据男性惯用文本源fmSource(ui)和女性惯用文本源ffSource(ui)计算得到用户博文源信息,其计算公式如下:
ftextSource(ui)=fmSource(ui)-ffSource(ui)
男性惯用文本源:根据用户的微博来源为男性文本源、文本源数得到男性惯用文本源fmSource(ui),公式如下:
Figure BDA0002332136690000067
其中,fmSourceNum(textj)表示第n条微博来源是男性文本源,sourceNum表示文本源总数。
女性惯用文本源:根据用户的微博来源为女性文本源、文本源数得到女性惯用文本源ffSource(ui),公式如下:
Figure BDA0002332136690000068
其中,ffSourceNum(textj)表示第n条微博来源是女性文本源,sourceNum表示文本源总数。
用户信息完整度具体包括:finforIntegrity表示用户的基本信息完整度,基本信息包括用户昵称、所在地、性别、生日、简介、教育信息、头像信息,具体公式如下:
Figure BDA0002332136690000071
其中,fname表示是否有昵称,flocation表示是否有注册所在地,fbirthday表示是否有生日信息,fintroduction表示是否有个人简介,feducation表示是否有受教育信息,fheadPhoto表示是否有头像信息,m表示基本信息的总数。
如图4所示,步骤S4包括:
步骤S41:采用Stacking方法作为集成学习的组合策略构建谣言识别模型,使用支持向量机(SVM)、决策树(decision tree)、逻辑回归(Logistic)、光梯度提升机(LightGBM)和极端梯度提升(XGBoost)作为Stacking模型的初级分类器,逻辑回归(Logistic)模型作为二层分类器。
步骤S42:将训练集输入模型中进行拟合,通过网格搜索的方法进行参数调优,得到最佳模型。
步骤S43:将测试集输入到拟合模型中,得到最终的用户属性分析结果。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于多特征的微博用户属性分析方法,其特征在于,该方法具体包括以下步骤:
S1:利用爬虫软件爬取用户微博博文信息并清洗、打标;
S2:通过word2vec模型构造微博博文信息的词向量,在此基础上根据集成学习的组合策略,得出用户微博文本特征;
S3:从用户微博数据中构造出用于微博属性分析的多特征体系,并通过基础特征构造出符合用户属性分析的复合特征;
所述多特征体系包括文本特征、时间特征、统计特征、数值特征和内容特征;其中,文本特征是基于用户博文的分析结果;时间特征包括各时间段的微博数、用户活跃度和一周七天中各天的微博数目;数值特征包括转发最大数、转发最小数、转发平均值、转发中位数、评论最大数、评论最小数、评论均值、评论中位数、微博评论率、微博平均字数和微博最小字数;统计特征包括微博数、关注数、粉丝数、互关数、评论数和转发数;内容特征包括微博长度、是否有照片、是否有URL、用户名长度、注册所在地、生日、个人简介、受教育信息、昵称和头像;
S4:采用Stacking模型融合技术将多个基分类器进行融合,构造微博用户属性分析模型,输入待检测用户微博数据的复合特征,得到最终的微博用户属性分析结果。
2.根据权利要求1所述的基于多特征的微博用户属性分析方法,其特征在于,所述步骤S2中,用户微博文本特征的构造具体包括以下步骤:
S21:通过利用Jieba分词工具对样本进行分词处理,去停用词,将每个用户的微博进行合并,得到集合
Figure FDA0003897621710000011
mi表示用户ID为i的微博集合,
Figure FDA0003897621710000012
表示用户ID为i的第n条微博中词的集合,
Figure FDA0003897621710000013
wt表示单条微博中的第t个词;
S22:通过Skip-Gram模型训练微博用户微博,得到微博中300维的词向量,并计算出每个用户的微博向量,计算公式如下:
Figure FDA0003897621710000014
其中,ui表示ID为i的用户,K表示用户ui的微博词数,Wveck表示第k个单词的词向量;
S23:通过Stacking模型作为集成学习的组合策略,以支持向量机、决策树、逻辑回归、光梯度提升机和极端梯度提升作为初级分类器,其预测结果由作为二层分类器的逻辑回归组合得到,最后得到用户微博文本特征。
3.根据权利要求1所述的基于多特征的微博用户属性分析方法,其特征在于,所述步骤S3中,构造的复合特征包括:用户活跃度、用户微博时间分布和用户行为习惯;
所述用户活跃度特征fuseractive(ui)的计算公式如下:
Figure FDA0003897621710000021
其中,ui表示ID为i的用户,fsum(ui)表示用户ui的微博总数,ftranspond(ui)表示用户ui的微博转发数量,ftime(ui)表示用户ui所发布的第一条微博和最后一条微博的时间间隔;
所述用户微博时间分布
Figure FDA0003897621710000022
的计算公式如下:
Figure FDA0003897621710000023
其中,
Figure FDA0003897621710000024
表示位于时间段j的ID为i的用户,
Figure FDA0003897621710000025
表示用户ui在时刻j所发布微博数,
Figure FDA0003897621710000026
表示用户ui在时刻j所转发微博数;
所述用户行为习惯fuserBehavior(ui)的计算公式如下:
fuserBehavior(ui)=ftextBehavior(ui)+ftextSource(ui)+finforIntegrity(ui)
其中,ftextBehavior(ui)表示用户ui的文本行为习惯,ftextSource(ui)表示用户ui的博文源信息,finforIntegrity(ui)表示用户ui的基本信息完整度。
4.根据权利要求3所述的基于多特征的微博用户属性分析方法,其特征在于,用户的文本行为习惯是根据用户微博中表情符号和图片的比例计算得到,具体计算公式如下:
Figure FDA0003897621710000027
其中,femoticons(textn)表示第n条微博中表情符号数,fpicture(textn)表示第n条微博中图片数,N表示用户ui的微博数。
5.根据权利要求3所述的基于多特征的微博用户属性分析方法,其特征在于,用户博文源信息是根据男性惯用文本源fmSource(ui)和女性惯用文本源ffSource(ui)计算得到,具体计算公式为:ftextSource(ui)=fmSource(ui)-ffSource(ui)。
6.根据权利要求5所述的基于多特征的微博用户属性分析方法,其特征在于,所述的男性惯用文本源fmSource(ui)的计算公式如下:
Figure FDA0003897621710000028
其中,N表示用户ui的微博数,fmSourceNum(textj)表示第n条微博来源是男性文本源,sourceNum表示文本源总数。
7.根据权利要求5所述的基于多特征的微博用户属性分析方法,其特征在于,所述的女性惯用文本源的计算公式如下:
Figure FDA0003897621710000031
其中,N表示用户ui的微博数,ffSourceNum(textj)表示第n条微博来源是女性文本源,sourceNum表示文本源总数。
8.根据权利要求3所述的基于多特征的微博用户属性分析方法,其特征在于,用户信息完整度具体包括:finforIntegrity表示用户的基本信息完整度,基本信息包括用户昵称、注册所在地、性别、生日、简介、教育信息和头像信息,计算公式如下:
Figure FDA0003897621710000032
其中,fname表示是否有昵称,flocation表示是否有注册所在地,fbirthday表示是否有生日信息,fintroduction表示是否有个人简介,feducation表示是否有受教育信息,fheadPhoto表示是否有头像信息,m表示基本信息的总数。
9.根据权利要求1所述的基于多特征的微博用户属性分析方法,其特征在于,所述步骤S4中,采用Stacking模型融合技术将多个基分类器进行融合构建微博用户属性分析模型的具体包括:使用支持向量机、决策树、逻辑回归、光梯度提升机和极端梯度提升作为初级分类器,逻辑回归作为二层分类器构建微博用户属性分析模型。
CN201911340531.4A 2019-12-23 2019-12-23 一种基于多特征的微博用户属性分析方法 Active CN111125486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911340531.4A CN111125486B (zh) 2019-12-23 2019-12-23 一种基于多特征的微博用户属性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911340531.4A CN111125486B (zh) 2019-12-23 2019-12-23 一种基于多特征的微博用户属性分析方法

Publications (2)

Publication Number Publication Date
CN111125486A CN111125486A (zh) 2020-05-08
CN111125486B true CN111125486B (zh) 2022-11-25

Family

ID=70501405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911340531.4A Active CN111125486B (zh) 2019-12-23 2019-12-23 一种基于多特征的微博用户属性分析方法

Country Status (1)

Country Link
CN (1) CN111125486B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984872B (zh) * 2020-09-09 2021-03-16 北京中科研究院 基于迭代优化策略的多模态信息社交媒体流行度预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202211A (zh) * 2016-06-27 2016-12-07 四川大学 一种基于微博类型的集成微博谣言识别方法
CN106296422A (zh) * 2016-07-29 2017-01-04 重庆邮电大学 一种融合多算法的社交网络垃圾用户检测方法
CN106649515A (zh) * 2016-10-17 2017-05-10 中国电子技术标准化研究院 一种基于多种检索模型的实时微博分类器
CN108090607A (zh) * 2017-12-13 2018-05-29 中山大学 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法
CN108710609A (zh) * 2018-05-07 2018-10-26 南京邮电大学 一种基于多特征融合的社交平台用户信息的分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10440016B2 (en) * 2014-12-09 2019-10-08 Duo Security, Inc. System and method for applying digital fingerprints in multi-factor authentication

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202211A (zh) * 2016-06-27 2016-12-07 四川大学 一种基于微博类型的集成微博谣言识别方法
CN106296422A (zh) * 2016-07-29 2017-01-04 重庆邮电大学 一种融合多算法的社交网络垃圾用户检测方法
CN106649515A (zh) * 2016-10-17 2017-05-10 中国电子技术标准化研究院 一种基于多种检索模型的实时微博分类器
CN108090607A (zh) * 2017-12-13 2018-05-29 中山大学 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法
CN108710609A (zh) * 2018-05-07 2018-10-26 南京邮电大学 一种基于多特征融合的社交平台用户信息的分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Democrats, republicans and starbucks afficionados;Pennacchiotti M 等;《Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining》;20110821;430-438 *
Restaurant attribute classification using deep learning;D. Varshneya 等;《2016 IEEE Annual India Conference》;20170202;1-6 *
融合多特征聚类的垃圾微博检测研究;刘晶;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160615(第(2016)06期);I138-1522 *
面向社会化媒体用户评论行为的属性推断;刘云 等;《计算机学报》;20170918;第40卷(第12期);2762-2776 *

Also Published As

Publication number Publication date
CN111125486A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN104281622B (zh) 一种社交媒体中的信息推荐方法和装置
CN109033284A (zh) 基于知识图谱的电力信息运维***数据库构建方法
CN109933664A (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN104866554B (zh) 一种基于社会化标注的个性化搜索方法及***
CN110990683B (zh) 一种基于地域与情感特征的微博谣言集成识别方法及装置
CN102629275A (zh) 面向跨媒体新闻检索的人脸-人名对齐方法及***
CN109214454B (zh) 一种面向微博的情感社区分类方法
CN107895303B (zh) 一种基于ocean模型的个性化推荐的方法
CN111144831B (zh) 一种适用于人员招聘的人选精准甄别***及其甄别方法
CN113268667B (zh) 一种基于中文评论情感引导的序列推荐方法及***
CN110956210A (zh) 一种基于ap聚类的半监督网络水军识别方法及***
CN106097113B (zh) 一种社交网络用户动静兴趣挖掘方法
CN111125486B (zh) 一种基于多特征的微博用户属性分析方法
CN106919647B (zh) 一种基于聚类的网络结构相似性推荐方法
CN109508557A (zh) 一种关联用户隐私的文件路径关键词识别方法
JP5929532B2 (ja) イベント検出装置、イベント検出方法およびイベント検出プログラム
Chen et al. Exploiting aesthetic features in visual contents for movie recommendation
CN112565903A (zh) 视频推荐方法、装置、服务器及存储介质
Lee User Review Mining: An Approach for Software Requirements Evolution
CN112487303B (zh) 一种基于社交网络用户属性的主题推荐方法
CN111816276B (zh) 患教教程推荐方法、装置、计算机设备和存储介质
CN111310066B (zh) 一种基于主题模型和关联规则算法的好友推荐方法及***
Hulliyah et al. A Benchmark of Modeling for Sentiment Analysis of The Indonesian Presidential Election in 2019
JP2014096086A (ja) 文書分類システムおよび方法
CN107066554B (zh) 微博相关人物推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant