CN105378717A - 用于对社交媒体的用户分类的方法、计算机程序和计算机 - Google Patents

用于对社交媒体的用户分类的方法、计算机程序和计算机 Download PDF

Info

Publication number
CN105378717A
CN105378717A CN201480012959.5A CN201480012959A CN105378717A CN 105378717 A CN105378717 A CN 105378717A CN 201480012959 A CN201480012959 A CN 201480012959A CN 105378717 A CN105378717 A CN 105378717A
Authority
CN
China
Prior art keywords
user
profile
users
trooping
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480012959.5A
Other languages
English (en)
Other versions
CN105378717B (zh
Inventor
西山莉纱
吉田一星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN105378717A publication Critical patent/CN105378717A/zh
Application granted granted Critical
Publication of CN105378717B publication Critical patent/CN105378717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

为了无需获取所有用户的内容就能根据内容相似性分类,提供一种用于聚类社交媒体中的多个用户的方法,其中将各个用户与一文本简档和文本内容相关联,该方法包含以下步骤:根据与一部分用户相关联的内容,为该部分用户的各个用户生成一个内容特征向量;根据内容特征向量,生成多个群集并且映射该多个群集与该部分用户;根据与映射到每个群集的该部分用户相关联的简档为该多个群集的各个群集生成第一简档特征向量;和根据与除该部分用户以外的其他用户相关联的简档和第一简档特征向量,把其他用户的各个用户划归入多个群集。

Description

用于对社交媒体的用户分类的方法、计算机程序和计算机
技术领域
本发明涉及信息处理技术,更具体来说,涉及更有效地识别社交媒体中的用户集合的技术。
背景技术
随着社交媒体的广泛使用,按“偏好和兴趣”为社交媒体用户分类,用于市场营销,越来越广为人知。例如,这些分类被用来识别用户有可能购买的产品和服务,以及分割大型用户集合(按照相似兴趣的分类)。已经有人尝试根据年龄和政治倾向相似的用户在社交媒体上发布相似内容的假设来识别用户集合。例如,有人已经努力过用内容相似性来估计用户的年龄和政治倾向(非专利文献1和非专利文献2),这些努力已经取得了一定的成功。用类似的技术来估计具有共同偏好和兴趣的用户集合被认为在理论上是可能的。
现有技术文献
专利文献
专利文献1:特许4,898,938号公报
专利文献2:特开2000-148864号公报
非专利文献
非专利文献1:Pennacchiotti,M.、Popescu,A.-M.,2011年,“Democrats,RepublicansandStarbucksAfficionados:UserClassificationinTwitter,”Proceedingsofthe17thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining(KDD2011),pp.430-438,2011.(“民主党人、共和党人和星巴克迷:推特中的用户分类”,第17届ACMSIGKDD知识发现和数据挖掘国际研讨会论文集,2011年,第430-438页)。
非专利文献2:Rao,D.、Yarowsky,D.、Shreevats,A.、Gupta,M.(2010),“ClassifyingLatentUserAttributesinTwitter”Proceedingsofthe2ndInternationalWorkshoponSearchandMiningUser-GeneratedContents(SMUC2010),pp.37-44,2010.(“分类推特中的用户属性”,第二届用户生成内容的检索和挖掘国际研讨会论文集,2010年,第37-44页)。
非专利文献3:Twitter,“GETstatuses/user_timeline”,[online],2013-02-12,Twitter[2013-02-25检索]。因特网URL<https://dev.twitter.com/docs/api/1.1/get/statuses/user_timeline>。
非专利文献4:KritiPuniyani,JacobEisenstein,ShayCohen,和EricP.Xing(2010),“SocialLinksfromLatentTopicsinMicroblogs”,ProceedingsoftheNAACLHLT2010WorkshoponComputationalLinguisticsinaWorldofSocialMedia(WSA'10).AssociationforComputationalLinguistics,Stroudsburg,PA,USA,pp.19-20,2010.(“来自微博的潜在主题的社交链接”,2010年NAACLHLT社交媒体世界计算语言学会议,(美国宾夕法尼亚州斯特劳斯堡,计算语言学协会,第19-20页)。
发明内容
发明要解决的技术问题
现有技术需要大量的内容,但是,鉴于社交媒体的广泛使用,对API查询传输的数量有限制,并且,要确定大量(例如数以百万计的)用户之间的相似性,需要大量的时间来获得足够数量的案例(见非专利文献3)。
针对这一问题,本发明的目的是在无需获取大量的内容的情况下估计内容的相似性,以把社交媒体的用户分类。
本发明是发明人基于在研究这些问题时获得的对社交媒体的特点的深刻认识而作出的。社交媒体的用户们,除了通过他们发布的内容,还通过个人简档(profile)发生联系。个人简档是一种包括自我介绍的简短文本。已经观察到个人简档有包括与内容相关的信息(喜好和兴趣、年龄、职业等)的趋势。此外,由于每个用户的简档相比于内容(通常是每个用户一个)更少,许多用户的简档都可以在对发送和接收查询的限制范围内获得。然而,因为个人简档部分的文字量通常有限,且个人简档通常包括与作为内容张贴的主题没有直接关系的措辞,所以,单从个人简档信息,难以把用户们划归反映他们的内容的相似性的类别。
问题的解决方案
本发明利用这些深刻认识来提供无需获得所有用户的内容就能根据内容的相似性分类的手段。换言之,只从数量很少的用户获得内容,以首先把这些用户分类。然后,单独利用个人简档来把大量的额外用户指派到先前分类的集合。这样,不用从所有的用户获得大量的内容就能实现反映内容相似性的分类。
本发明是一种用计算机把各个用户与一文本简档和文本内容相关联的社交媒体中的多个用户划归入多个群集的方法,该方法包含下述步骤:根据与一部分用户相关联的内容,为该部分用户的各个用户生成内容特征向量;根据内容特征向量,生成多个群集并且映射该多个群集与该部分用户;根据与映射到各个群集的该部分用户相关联的简档为该多个群集的各个群集生成第一简档特征向量;以及根据与除该部分用户以外的其他用户相关联的简档和第一简档特征向量,把其他用户的各个用户划归入多个群集。
这里,社交媒体可以是微博,以及各个用户发布到微博的多个帖子的内容。此外,内容特征向量可以用多个帖子中包含的单词(word)作为元素。单词可以是帖子中包含的名词、动词或相关的措辞(dependentexpression)。内容特征向量还可以向多个帖子中包含的各个单词分配一个重要性程度(得分),诸如出现频率。在聚类过程中用得分来比较特征向量。
并且,在生成多个群集的步骤中,可以通过对与该部分用户相关联的内容应用潜在狄利克雷分配(LatentDirichletAllocation)模型以及聚类在相同话题上可能使用的单词而生成该多个群集。并且,在映射该多个群集与该部分用户的步骤中,可以用与该部分用户相关联的内容中的聚类结果把该部分用户映射到各个群集。
并且,在生成第一简档特征向量的步骤中,可以根据与映射到每个群集的部分用户相关联的简档中的单词生成第一简档特征向量。单词可以是帖子中包含的名词、动词或相关措辞。这里,可以根据该单词是否是与映射到其他群集的部分用户相关联的简档中的单词相比而言可能出现的单词而生成第一简档特征向量。并且,该单词是与映射到其他群集的部分用户相关联的简档中的单词相比而言第T最可能出现的单词(T是自然数)。并且,在把其他用户的各个用户划归入多个类别的步骤中,根据第T最可能出现的单词是否出现在与其他用户相关联的简档中而把其他用户的各个用户划归入多个类别。
该方法也包含根据与除该部分用户以外的其他用户相关联的简档而为其他用户的各个用户生成第二简档特征向量的步骤。这里,在把其他用户的各个用户划归入多个类别的步骤中,根据第一简档特征向量和第二简档特征向量而把其他用户的各个用户划归入多个类别。
并且,可以根据第一简档特征向量和第二简档特征向量之间的相似度把一个用户划归入对应于具有最高相似度的第一简档特征向量的群集。并且,在把其他用户的各个用户划归该多个群集中的步骤中,可以允许把一个用户划归入多个群集。
并且,在把其他用户的各个用户划归该多个群集中的步骤中,不必使用与其他用户相关联的内容。并且,该部分用户的数目可以小于其他用户的数目,简档中的信息量也可少于该内容中的信息量。
该方法也可以包含通过网络连接托管社交媒体的服务器与把多个用户划归入多个群集的计算机的步骤。这里,该计算机接收该服务器响应于该计算机的请求而发送的信息。可以把可用的信息量限为单位时间的信息量。
该方法也可以包含通过重复其中该计算机接收托管计算机发送的信息的步骤而在该计算机的存储装置中存储与该部分用户相关联的内容和简档以及与其他用户相关联的简档的步骤。
如果将本发明理解为计算机程序或计算机***,则显然可以提供与将本发明理解为如上所述的方法时的技术特征实质上相同的技术特征。
发明效果
本发明无需获得大量内容就能把社交媒体的用户分类,反映他们的内容的相似性。
附图说明
图1是用于解释微博***的示意图。
图2是用于解释微博中的关注者-被关注者(follower-followed)关系的示意图。
图3是用于解释作为用户终端的智能手机和智能手机上显示的屏幕的示意图。
图4是用于解释在微博服务器内部的硬盘设备中存储的数据的结构的示意图。
图5是用于解释张贴的内容的类型的示意图。
图6是用于解释计算机的硬件配置的框图。
图7是用于解释计算机的功能模块配置的框图。
图8是用于解释由计算机执行的过程的流程图。
图9是用于解释聚类过程的示意图。
具体实施方式
实施例
以下参照附图说明本发明的优选实施例。然而,这些实施例并不限制本发明的范围。此外,实施例中所说明的所有的特征组合,未必是本发明的技术解决方案所必需的。此外,还应理解,本发明还有许多其他可能的实施方式,没有任何意图要把本发明的范围限制到这里所描述的内容。还应注意的是,实施例中所说明的所有的特征组合,未必是本发明的技术解决方案所必需的。在对所有的实施例的说明中,用相同的参考符号表示相同的元素(除非另有说明)。
图1是用于解释微博***的示意图,该微博***是社交媒体的一个例子。在这个***中,微博服务器(托管社交媒体的服务器)2通过因特网4连接到用户终端,所以服务器与用户终端能互相通信。用户终端可以是具有通信功能的任何类型的计算机。除了图中所示的智能手机31、平板电脑32和(笔记本型)个人电脑33,用户终端的例子还包括图中未予示出的个人数字助理(PDA,个人信息终端)、机载电脑、以及上网本。
图2是用来解释微博中的关注者-被关注者关系的示意图。微博用户可以与好友、熟人和有相似兴趣和关注点的其他用户预先登记(pre-register),并自动接收这些用户发布的内容(文本内容)。登记(registering)被称为“关注”(following),关注关系可以是相互的关系,其中用户们互相关注,也可以是单向的关系,其中一个用户关注另一个用户。例如,图2中的箭头表示用户AAA和用户BBB互相关注,用户BBB关注用户CCC,用户CCC关注用户AAA。
图3是用于解释作为用户终端的智能手机31和智能手机上显示的屏幕的示意图。智能手机31的触摸屏上显示一个微博应用屏幕,该应用屏幕从上到下被划分为发源部分(homesection)311、时间轴部分(timelinesection)312和控制部分313。发源部分包括菜单按钮和表明用户AAA的时间轴被显示在时间轴部分312的信息。时间轴部分312从上到下显示来自用户AAA的内容部分312a和内容部分312b,以及来自用户BBB的内容部分312c。这些内容部分312a-c是按时间顺序显示的。换句话说,最上面的消息部分312a对应最新的内容。
图4是用于解释在微博服务器2内部的硬盘设备20、21和22中存储的数据的结构的示意图。存储在硬盘驱动器20中的内容表(图4(a))包括一个起始日期和时间字段(created_at),表示每个内容部分的发布日期和时间;一个用户ID字段(user_id),表示发布内容的用户;以及一个含有实际内容的文本(text)字段。文本字段中可能包含字符限数(例如140个字符)。存储在硬盘驱动器21中的用户关系表(图4(b)包括一个注册日期和时间字段(registered_at),表示关注者关系(followerrelationship)的注册时间;一个关注用户ID字段(following_user_id),表示关注用户;以及被关注用户ID(followed_user_id)字段,表示被关注用户。存储在硬盘驱动器22中的简档表包括一个用户ID(user_id)字段,表示各个用户;各个用户的名称字段(未示出);各个用户的位置信息字段(未示出);以及各个用户的简档(profile)字段。
图5是用来解释发布的内容的类型的示意图。图5(a)解释典型的内容。这里,用户AAA向她自己的时间轴发布内容。这个内容被显示在用户AAA的时间轴中,以及关注用户AAA的用户(如图2所示例子中的用户BBB和用户CCC)的时间轴中。图5(b)解释回复内容。回复内容是对特定内容的回应。这个回复内容被显示在关注用户的时间轴以及被回复的用户的时间轴中。这里,用户BBB在回复来自用户AAA的内容,发布了回复内容(“Hellothere.”)。这个回复内容被显示在用户BBB自己的时间轴以及关注用户BBB的用户(图2的例子中的用户AAA)的时间轴中。
图5(c)和图5(d)解释被转贴内容(repostedcontent)。用户CCC转发用户AAA在其自己的时间轴中显示的原创内容(“Ihavestartedmicroblogging.”),作为被转贴内容。转贴内容显示在关注用户CCC的用户(图2中的例子中的用户BBB)的时间轴中。在图5(c)中所示的第一模式中,转贴内容与原创用户的名称AAA一起显示在关注用户CCC的用户的时间轴中。在图5(d)所示的第二模式中,它与再操作(reoperation)用户CCC的名称一起显示。图5(e)解释引用的内容。用户CCC引用用户AAA显示在自己的时间轴中的原创内容(“Ihavestartedmicroblogging.”)并加上了自己对被转贴的引用内容的评论(“Welcome!”)。引用内容显示在关注用户CCC的用户的时间轴中。
图6是用于解释个人计算机1(分类多个群集的计算机)的硬件配置的示意图。计算机1的硬件配置包括(高速和低速)总线10、与总线10连接的CPU(算术和控制单元)11、RAM(随机存取存储器:存储设备)12、ROM(只读存储器:存储设备)13,HDD(硬盘驱动器:存储设备)14、通信接口15、以及输入/输出接口16。它还包括连接到输入/输出接口16的鼠标17、平板显示器(显示设备)18和键盘19。在这个解释中,计算机1采用典型的个人计算机体系结构。然而,CPU11和HDD14可以是多路复用的,以期具有更高的数据处理性能和可用性。除桌面***外,还可以使用其他类型的计算机***。计算机1通过因特网(网络)4连接到微博服务器2,使计算机和服务器能够相互通信。
计算机1的软件配置包括操作***(OS),用于提供基本功能、使用操作***功能的应用软件、以及输入/输出设备的驱动软件。软件与各种类型的数据一起被加载到RAM12,由CPU11执行,使得计算机1作为一个整体能实现实现图7中所示的功能以及执行图8中所示的处理。
图7是用来解释计算机1的功能模块的框图。计算机1包括存储模块100、训练集群映射生成模块101、第一简档特征向量生成模块102、第二简档特征向量生成模块103和发帖(posting)集群映射生成模块104。
以下是各个模块的输入和输出数据。训练用户的简档和内容以及操作用户的简档,从通信接口15输入到存储模块100。训练用户的内容,从存储模块100输出到训练集群映射生成模块101,训练用户的简档被输出到第一简档特征向量生成模块102,操作用户的简档被输出到第二简档特征向量生成模块103。来自训练用户的内容,从存储模块100输入到训练群集映射生成模块101。训练用户的群集映射从训练群集映射生成模块101输出到第一简档特征向量生成模块102。训练用户的群集映射是从训练群集映射生成模块101输入的,训练用户的简档是从存储模块100输入到第一简档特征向量生成模块102的。第一简档特征向量是从第一简档特征向量生成模块102输出到操作集群映射生成模块104的。操作用户的简档从存储模块100输入到第二简档特征向量生成模块103。第二简档特征向量从第二简档特征向量生成模块103输出到操作集群映射生成模块104。来自第一简档特征向量生成模块102的第一简档特征向量和来自第二简档特征向量生成模块103的第二简档特征向量被输入到操作集群映射生成模块104。操作用户的集群映射从操作集群映射生成模块104输出到显示器18。
图8是用来解释计算机1执行的处理的流程图。图9是用来解释计算机1执行的聚类过程的示意图。以下参照图9说明图8所示的流程图。
首先,从计算机1向微博服务器2发送数据请求(S10)。然后,从服务器接收对应于该请求的数据(S20)。这里,从服务器2发往计算机1的数据,包括与训练用户(一些用户)相关联的内容(见图4(a))、以及与训练用户和操作用户(其他用户)相关联的简档(见图4(c))。通常,从微博服务器2获取数据的API请求的数量以及每次请求可获得的数据量是有限度的。因此,步骤S10和S20被重复执行,直到获得了必要的数据。所获得的数据被存储在存储模块100中。
训练用户(箭头A)的数量远小于操作用户(箭头D)的数量。例如,可以将一万个微博用户作为训练用户,将一百万个微博用户作为操作用户。此外,简档信息的量远小于内容信息的量。各个用户关联一个简档,而与单一用户关联的内容段(消息、帖子等)的数量可能数以千计。例如,可以将单一用户最近发布的一千个帖子作为与该用户相关联的内容。
下一步,根据与训练用户相关联的内容生成内容特征向量(S30)。更具体来说,训练群集映射生成模块101从与训练用户相关联的内容(多个)提取一个名词,并用作为一个元素的该单词出现的次数(该单词在其中出现的内容段的个数)生成特征向量。可以用任何自然语言处理技术来提取该名词。可以把该名词的出现次数看作该名词的重要性程度的指标。可以事先准备好重要性程度高的名词候选。除了名词或连同名词(alongwithnouns),还可以用自然语言处理技术来提取不是名词的措辞(expressions),诸如动词和相关措辞(dependentexpressions)。
下一步,根据内容特征向量生成多个集群与训练用户的映射(S40,S50)。更具体来说,训练群集映射生成模块101把(训练用户,训练用户对应的内容特征向量)对集(setsofpairs)***一个聚类算法,得到群集的映射和各个训练用户的群集。这里的聚类算法可以是用内容特征向量之间的相似程度来确定训练用户之间的相似程度的任何算法。例如,在把名词用作单词时可以采用以下方式。首先,对与所有的训练用户相关联的所有的内容应用潜在狄利克雷分配(LDA),将可能被用在同一话题中的名词聚类。结果,可能被用在IT相关的话题中各组名词(网站、Android等)、可能被用在抚养孩子的话题中的各组名词(孩子、儿子等)、以及可能被用在韩国流行音乐相关的话题中的各组名词(韩国,Semi),被划入相同的群集。下一步,按照公式(1),把聚类内容中的名词的结果用于按照公式(1)把训练用户划归入各个群集(例如群集A-C)(箭头B)。
公式1
c u : = arg max c &Element; C N c u + &alpha; N u + K &alpha; &CenterDot; &CenterDot; &CenterDot; &CenterDot; ( 1 )
假设
cu:用户u所属的群集
C:全部群集
K:群集总数
Ncu:用户u的内容中属于群集c的名词的个数
Nu:用户u的内容中的名词的总数
α:平滑系数
接下来,根据与训练用户相关联的简档为各个群集生成第一简档特征向量(S60)。换言之,将集群的特征向量从内容切换到简档。第一简档特征向量的生成对应于各个集群中的训练用户的简档中的措辞的整合。更具体地说,第一简档特征向量生成模块102为各个群集生成第一简档特征向量,该第一简档特征向量用被聚类在各个群集中的训练用户的简档中出现的名词(简档措辞)表征该各个群集。例如,根据各个群集中的训练用户的简档段中出现的名词(简档措辞)获得一个tficf评分。这里,tficf评分是一个标志,其被与其他集群比较,以获得在某群集中的训练用户的简档中可能出现的措辞。tficf评分是用公式(2)计算的。tTficf评分中的最通用的T个措辞(T-mostcommonexpressions)是群集中典型的简档措辞,这些典型的简档措辞被用作一个元素来生成第一简档特征向量。在这个例子中,“工程师”,“IT”和“开发”是对应于群集A的典型的简档措辞。
公式2
t f i cf ( w , c ) : = M w c &times; l o g K 1 + | { c &Element; C | w &Element; b u , &Exists; u &Element; U c } | &CenterDot; &CenterDot; &CenterDot; &CenterDot; ( 2 )
假设
w:简档措辞
Mwc:划归入群集c中的、简档中包括w的用户的个数
Uc:划归入群集c中的用户的个数
接下来,根据与操作用户相关联的简档生成第二简档特征向量(S70)。更具体来说,第二简档特征向量生成模块103从与单一操作用户相关联的(单一)简档提取一个名词,并用出现的次数作为元素生成特征向量。可以用任何自然语言处理技术来提取名词。除了名词或连同名词,还可以用自然语言处理技术来提取不是名词的措辞,诸如动词和相关措辞。
接下来,根据第一简档特征向量和第二简档特征向量把各个操作用户划归入多个集群(S80)。换句话说,操作群集映射生成模块104比较对应于单一操作用户的第二简档特征向量与每个第一简档特征向量,把该操作用户划归入对应于最相似的特征向量的群集。这样,就可以根据至多一个简档段中的文本把操作用户划归入适当的集群,而不需要采集和分析与用户相关的内容。例如,在本例中,对应于群集A的典型简档措辞是“工程师”,“IT”和“开发”,所以将在简档段中用接近这些简档措辞的措辞(如”发布关于开发的益建议”和“基于web的研讨会”)来描述自己的操作用户划归入群集A。给定的措辞是否接近另一个措辞,可以用现有的语言处理技术确定,如在下文的改进例子中所述的那样。
改进的例子1
可以把将最典型的T个简档措辞中的来自tficf评分中的集群的任何简档措辞包括在简档中的操作用户划归入该集群。这里,可以将一个操作用户划归入多个群集。
改进的例子2
可以准备接收第一简档特征向量和输出群集的任何分类器(classifier),且可以在步骤S60中获知该分类器。这里,第二简档特征向量可以输入到分类器,输出的群集可以是分类结果。
在所有的情况(上述例子,改进的例子1和改进的例子2)中,由此产生的操作用户的结果群集可以输出到显示器18(S80)。
本发明可以用硬件单元、软件单元或硬件单元与软件单元二者的组合来体现。本发明不限于上述的优选实施例。本发明可以在包括固件、常驻软件、微码、解析微代码的软件中实现。
本发明还可以采取由计算机或任何其它指令执行***使用的或与计算机或任何其它指令执行***相关联的程序代码中的计算机程序的形式,以及计算机可读介质的形式。就目前的说明而言,计算机可读介质可以是任何能够控制、存储、传达、传输或传播由任何指令执行***使用的或与任何指令执行***或设备相关联的程序。更具体来说,上述的解析控制模块指的是指令执行***或“计算机”。
计算机可读介质可以是电子、磁性、光学、电磁、红外或半导体***(或设备)或传播介质。计算机可读介质的例子包括半导体或固态存储器、磁带、磁盘、可移动电脑软盘、随机存取存储器(RAM)、只读存储器(ROM),硬磁盘和光盘。目前,光盘包括只读光盘(CD-ROM)、读写光盘(CD-R/W)和DVD。
用于存储和/或执行程序代码的数据处理***包括至少一个通过***总线直接或间接连接到存储器单元的处理器。存储器单元包括在编程代码的实际执行过程中使用的本地存储器、海量存储设备、以及为减少在执行过程中需要从海量存储设备中读取程序代码的次数而提供的用来临时存储至少一些程序代码的高速缓冲存储器。
输入/输出(I/O)设备(包括但不限于键盘、鼠标和指点设备)可以通过中间的I/O控制器直接或间接地连接到***。
此外,网络适配器可以连接到***,数据处理***可以通过中间的专用或公共网络连接到另一个数据处理***、远程打印机、或存储设备。调制解调器、电缆调制解调器或以太网卡代表一小部分目前可用的网络适配器。
附图标记列表
1:个人电脑
11:CPU(算术和控制单元)
12:RAM(随机访问存储器:存储设备)
13:ROM(只读存储器:存储设备)
14:HDD(硬盘:存储设备)
15:通信接口
16:输入/输出接口
17:鼠标
18:平板显示器(显示设备)
2:微博服务器
20、21:硬盘设备
31:智能手机
32:平板电脑
33:(笔记本型)个人电脑
100:存储模块
101:训练群集映射生成模块
102:第一简档特征向量生成模块
103:第二简档特征向量生成模块
104:操作群集映射生成模块

Claims (20)

1.一种用计算机把社交媒体中的多个用户划归入多个群集的方法,该多个用户中的各个用户与文本简档和文本内容相关联,该方法包含下述步骤:
根据与一部分用户相关联的内容,为该部分用户的各个用户生成内容特征向量;
根据所述内容特征向量,生成多个群集并且映射该多个群集与该部分用户;
根据与映射到各个群集的该部分用户相关联的简档为该多个群集的各个群集生成第一简档特征向量;和
根据与除该部分用户以外的其他用户相关联的简档和第一简档特征向量,把其他用户中的各个用户划归入多个群集。
2.按照权利要求1的方法,其中,社交媒体是微博,内容是各个用户发布到微博的多个帖子。
3.按照权利要求2的方法,其中,内容特征向量用多个帖子中的单词作为元素。
4.按照权利要求3的方法,其中,内容特征向量用多个帖子中的单词的出现频率或重要程度作为元素。
5.按照权利要求1的方法,其中,在生成多个群集的步骤中,通过对与该部分用户相关联的内容应用潜在狄利克雷分配模型以及聚类在相同话题上可能使用的单词而生成该多个群集。
6.按照权利要求5的方法,其中,在映射该多个群集与该部分用户的步骤中,用与该部分用户相关联的内容中的聚类结果把该部分用户映射到各个群集。
7.按照权利要求1的方法,其中,在生成第一简档特征向量的步骤中,根据与映射到各个群集的部分用户相关联的简档中的单词生成第一简档特征向量。
8.按照权利要求7的方法,其中,根据该单词与映射到其他群集的部分用户相关联的简档中的单词相比而言是否可能出现而生成第一简档特征向量。
9.按照权利要求7的方法,其中,该单词是与映射到其他群集的部分用户相关联的简档中的单词相比而言第T最可能出现的单词中的任何单词(T是自然数)。
10.按照权利要求9的方法,其中,在把其他用户的各个用户划归入多个类别的步骤中,根据第T最可能出现的单词是否出现在与其他用户相关联的简档中而把其他用户的各个用户划归入多个类别。
11.按照权利要求1的方法,进一步包含根据与除该部分用户以外的其他用户相关联的简档而为其他用户的各个用户生成第二简档特征向量的步骤;
在把其他用户的各个用户划归入多个类别的步骤中,根据第一简档特征向量和第二简档特征向量而把其他用户的各个用户划归入多个类别。
12.按照权利要求11的方法,其中,根据第一简档特征向量和第二简档特征向量之间的相似度把一个用户划归入对应于具有最高相似度的第一简档特征向量的群集。
13.按照权利要求1的方法,其中,在把其他用户的各个用户划归该多个群集中的步骤中,允许把一个用户划归入多个群集。
14.按照权利要求1的方法,其中,在把其他用户的各个用户划归该多个群集中的步骤中,不使用与其他用户相关联的内容。
15.按照权利要求1的方法,其中,该部分用户的数目小于其他用户的数目,并且,简档中的信息量少于内容中的信息量。
16.按照权利要求1的方法,进一步包含通过网络连接托管社交媒体的服务器与把多个用户划归入多个群集的计算机的步骤,该计算机接收该服务器响应于该计算机的请求而发送的信息。
17.按照权利要求16的方法,其中,信息量被限为单位时间的信息量。
18.按照权利要求17的方法,进一步包含通过重复其中该计算机接收托管计算机发送的信息的步骤而在该计算机的存储装置中存储与该部分用户相关联的内容和简档以及与其他用户相关联的简档的步骤。
19.一种由计算机执行以实现权利要求1至18的任何一项的方法的计算机程序。
20.一种把各个用户与一文本简档和文本内容相关联的社交媒体中的多个用户划归入多个群集的计算机,该计算机包含:
用于根据与一部分用户相关联的内容、为该部分用户的各个用户生成一个内容特征向量的装置;
用于根据特征向量,生成多个群集并且映射该多个群集和该部分用户的装置;
用于根据与映射到各个群集的该部分用户相关联的简档为该多个群集各个群集生成一个第一简档特征向量的装置;和
用于根据与除该部分用户以外的其他用户相关联的简档和第一简档特征向量、把其他用户的各个用户划归入多个群集的装置。
CN201480012959.5A 2013-03-12 2014-03-05 用于对社交媒体的用户分类的方法、计算机程序和计算机 Active CN105378717B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013049346 2013-03-12
JP2013-049346 2013-03-12
PCT/JP2014/055681 WO2014141976A1 (ja) 2013-03-12 2014-03-05 ソーシャル・メデイアにおけるユーザの分類方法、コンピュータ・プログラム及びコンピュータ

Publications (2)

Publication Number Publication Date
CN105378717A true CN105378717A (zh) 2016-03-02
CN105378717B CN105378717B (zh) 2019-11-15

Family

ID=51536640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480012959.5A Active CN105378717B (zh) 2013-03-12 2014-03-05 用于对社交媒体的用户分类的方法、计算机程序和计算机

Country Status (5)

Country Link
US (1) US9996611B2 (zh)
JP (1) JP5961320B2 (zh)
CN (1) CN105378717B (zh)
GB (1) GB2528595A (zh)
WO (1) WO2014141976A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095915A (zh) * 2016-06-08 2016-11-09 百度在线网络技术(北京)有限公司 用户身份的处理方法及装置
CN106469192A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置
CN107463703A (zh) * 2017-08-16 2017-12-12 电子科技大学 基于信息增益的英文社交媒体账号分类方法
CN112685614A (zh) * 2021-03-17 2021-04-20 中国电子科技集团公司第三十研究所 一种社交媒体机器人群体快速检测方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6373767B2 (ja) * 2015-01-26 2018-08-15 Kddi株式会社 話題語ランキング装置、話題語ランキング方法、およびプログラム
JP6544084B2 (ja) * 2015-07-01 2019-07-17 富士通株式会社 群形成方法、群形成装置、及び群形成プログラム
US20180315414A1 (en) * 2017-04-26 2018-11-01 International Business Machines Corporation Adaptive digital assistant and spoken genome
US20200073953A1 (en) * 2018-08-30 2020-03-05 Salesforce.Com, Inc. Ranking Entity Based Search Results Using User Clusters
US11789952B2 (en) 2018-09-26 2023-10-17 Salesforce, Inc. Ranking enterprise search results based on relationships between users

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819572A (zh) * 2009-09-15 2010-09-01 电子科技大学 一种用户兴趣模型的建立方法
CN102354307A (zh) * 2011-06-20 2012-02-15 深圳市多易得信息技术有限公司 一种帮助微博博主互相收听的方法及***
TW201224959A (en) * 2010-08-16 2012-06-16 Avon Prod Inc Web community pre-population method and system
CN102609460A (zh) * 2012-01-13 2012-07-25 中国科学院计算技术研究所 微博客数据采集方法及***

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6356879B2 (en) 1998-10-09 2002-03-12 International Business Machines Corporation Content based method for product-peer filtering
JP2001265808A (ja) 2000-03-22 2001-09-28 Skysoft Inc 情報検索システム及び情報検索方法
US20020078054A1 (en) 2000-11-22 2002-06-20 Takahiro Kudo Group forming system, group forming apparatus, group forming method, program, and medium
JP4418135B2 (ja) * 2000-11-22 2010-02-17 パナソニック株式会社 グループ形成システム、グループ形成方法、およびグループ形成装置
JP2005115791A (ja) 2003-10-09 2005-04-28 Sony Corp 情報検索方法、情報取得装置及びプログラム
JP4179341B2 (ja) 2006-06-01 2008-11-12 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
JP4898938B2 (ja) 2010-06-08 2012-03-21 株式会社ソニー・コンピュータエンタテインメント 情報提供システム及び情報提供方法
JP2012168653A (ja) 2011-02-10 2012-09-06 M-Warp Inc 情報提供システム
JP2012221286A (ja) * 2011-04-11 2012-11-12 Kddi Corp ユーザ分類装置、ユーザ分類方法、およびユーザ分類プログラム
US10685065B2 (en) * 2012-03-17 2020-06-16 Haizhi Wangju Network Technology (Beijing) Co., Ltd. Method and system for recommending content to a user
US9348886B2 (en) * 2012-12-19 2016-05-24 Facebook, Inc. Formation and description of user subgroups

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819572A (zh) * 2009-09-15 2010-09-01 电子科技大学 一种用户兴趣模型的建立方法
TW201224959A (en) * 2010-08-16 2012-06-16 Avon Prod Inc Web community pre-population method and system
CN102354307A (zh) * 2011-06-20 2012-02-15 深圳市多易得信息技术有限公司 一种帮助微博博主互相收听的方法及***
CN102609460A (zh) * 2012-01-13 2012-07-25 中国科学院计算技术研究所 微博客数据采集方法及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095915A (zh) * 2016-06-08 2016-11-09 百度在线网络技术(北京)有限公司 用户身份的处理方法及装置
CN106469192A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置
CN106469192B (zh) * 2016-08-30 2021-07-30 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置
CN107463703A (zh) * 2017-08-16 2017-12-12 电子科技大学 基于信息增益的英文社交媒体账号分类方法
CN112685614A (zh) * 2021-03-17 2021-04-20 中国电子科技集团公司第三十研究所 一种社交媒体机器人群体快速检测方法
CN112685614B (zh) * 2021-03-17 2021-06-18 中国电子科技集团公司第三十研究所 一种社交媒体机器人群体快速检测方法

Also Published As

Publication number Publication date
JPWO2014141976A1 (ja) 2017-02-16
WO2014141976A1 (ja) 2014-09-18
GB2528595A (en) 2016-01-27
US20160063098A1 (en) 2016-03-03
US9996611B2 (en) 2018-06-12
GB201516917D0 (en) 2015-11-11
JP5961320B2 (ja) 2016-08-02
CN105378717B (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN105378717A (zh) 用于对社交媒体的用户分类的方法、计算机程序和计算机
CN109299994B (zh) 推荐方法、装置、设备及可读存储介质
Chisholm et al. Entity disambiguation with web links
Arias et al. Forecasting with twitter data
US9852239B2 (en) Method and apparatus for prediction of community reaction to a post
US9275041B2 (en) Performing sentiment analysis on microblogging data, including identifying a new opinion term therein
US9875301B2 (en) Learning multimedia semantics from large-scale unstructured data
US20190102374A1 (en) Predicting future trending topics
US9230035B2 (en) Pushing specific content to a predetermined webpage
CN109844742B (zh) 分析***
US20130124191A1 (en) Microblog summarization
US9524526B2 (en) Disambiguating authors in social media communications
CN103514191A (zh) 用于确定目标推广信息的关键词匹配模式的方法和设备
US10949418B2 (en) Method and system for retrieval of data
CN103999082B (zh) 用于检测社交媒体中的社区的方法、计算机程序和计算机
Vidal et al. Application of social media for consumer research
CA3208149A1 (en) System and method for automated hashtag hierarchical ontology generation from social media data
Madyatmadja et al. Contextual text analytics framework for citizen report classification: A case study using the Indonesian language
Yoon et al. DiTeX: Disease-related topic extraction system through internet-based sources
CN113077312A (zh) 酒店推荐方法、***、设备及存储介质
Mao et al. Mining of marital distress from microblogging social networks: A case study on Sina Weibo
Hogenboom et al. Lexicon-based sentiment analysis by mapping conveyed sentiment to intended sentiment
Ruichen [Retracted] The Basic Principles of Marxism with the Internet as a Carrier
JP2016045552A (ja) 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置
CN105760410B (zh) 一种基于转发评论的微博语义扩充模型和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant