CN105247564A

CN105247564A - 在线社交人物管理

Info

Publication number: CN105247564A
Application number: CN201380076174.XA
Authority: CN
Inventors: N·S·萨维奇; R·H·沃海比; L·纳克曼; S·萨海
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2013-05-31
Filing date: 2013-06-27
Publication date: 2016-01-13
Anticipated expiration: 2033-06-27
Also published as: KR20150137102A; US9948689B2; WO2014193424A1; KR101829770B1; EP3005283A4; EP3005283A1; US20140379729A1; CN105247564B

Abstract

各实施例使用一种用于通过语义建模技术，建模用户在诸如博客或社交网络之类的在线自我表现工具中的社交角色的框架。当在他们的简档中声称显式的兴趣时和通过社区中的社交表达，用户与内容配合的不同的方式被建模。某些话题引导用户遵循的用于在此社区中表达他们的兴趣的模式。实施例使用户跟踪他们的帖子和评论如何反映他们的在线行为。实施例推断在线社区的需求，并向用户作出建议或发送警告。描述了其他实施例并要求它们的权利。

Description

在线社交人物管理

技术领域

本发明一般涉及在线社交媒体领域，更具体而言，涉及管理在线社交人物和用户在在线社区中的简档。

背景技术

以前的研究工作的大部分专注于通过各种数据挖掘技术来自动地推断用户特征的任务。参见，例如，Pennacchiotti,M.,&Popescu,A.(2011),Democrats,republicansandStarbucksafficionados:推特中的用户分类(Userclassificationintwitter),Proceedingsofthe17thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,430-438；Ramage,D.,Dumais,S.,&Liebling,D.(2010),以主题模型表征微博(CharacterizingMicroblogswithTopicModels),ConferenceonWeblogsandSocialMedia,AAAI；以及Yang,J.,和Leskovec,J.,在线媒体的时间变量模式(Patternsoftemporalvariationinonlinemedia),ProceedingsofthefourthACMinternationalconferenceonWebsearchanddatamining,WSDM'11,ACM(NewYork,NY,USA,2011),177-186。

然而，很少有人专注于通过有意义的建议，给用户带来价值，诸如用户可以在谈话中承担的以达到所希望的目标的社交角色，或用户可以基于用户的专业知识来进行帮助的谈话。

现有的或建议的社交建议***专注于标识可能会引起用户兴趣的在线内容，参见，例如，GoogleAlerts；或发现要与其共享在线内容的其他用户，参见，例如，Amershi,S.,Fogarty,J.,Weld,D.S.ReGroup:在社交网络中用于按需群组创建的交互式机器学习(InteractiveMachineLearningforOnDemandGroupCreationinSocialNetworks),ProceedingsCHI'12,ACMPress2012,Bernstein,M.,Marcus,A.,Karger,D.,MillerR.,增强网络上共享的定向内容(Enhancingdirectedcontentsharingontheweb),ProceedingsoftheSIGCHIConferenceonHumanFactorsinComputingSystems.ACM,NewYork,NY,USA,2010。

附图简述

通过参考以下详细描述以及各个附图，可更易于理解此处所公开的各实施例的特点和优点。具有不同的字母后缀的类似编号可以表示类似的组件的不同的实例。附图作为示例，而不作为限制，一般示出了在本文档中讨论的各实施例。

图1A-B是示出了根据一实施例的社交人物管理***的示例总览的框图。

图2是示出了根据一实施例的示例爬取模块方法的流程图。

图3A-B是示出了根据一实施例的示例社交角色推理模块方法的流程图。

图4是示出了根据一实施例的用于简档增强建议的示例方法的流程图。

图5是示出了根据一实施例的示例在线谈话建议模块方法的流程图。

图6是示出了根据一实施例的社交目标警告方法的流程图。

图7是示出了根据一实施例的社交人物可视化图形的框图。

图8是根据一实施例的用于声称的身份推理的示例方法的流程图。

图9是示出了根据一个实施例的实验的来自Ontd_政治中的作者的数据集的统计信息的表1。

图10是示出了根据一个实施例的实验的陈述的兴趣的示例和与谈话的主题相关的贴子的表2。

图11示出了根据一个实施例的实验的在给定社区的贴子、评论以及兴趣标记的情况下，建模此处所公开的框架如何标识社区的声称的以及表现出的兴趣的模式的流水线。

图12示出了根据示例实施例的由AMT用户所提供的评价的直方图。

图13表示根据一个实施例的实验的属于每一组类型的社区成员的百分比。

具体实施方式

在下面的详细描述中，将参考构成本详细描述的一部分的附图，其中，相同编号表示相同部分，通过例图，示出了可以实施的实施例。这些实施例此处也可以被称为“示例”。这样的示例还可包括除所示出的或所描述的那些之外的元件。然而，作者还设想其中只提供所示出的或所描述的那些元件的示例。此外，作者还设想使用所示出的或所描述的那些元件(或其一个或多个方面)的任何组合或置换，相对于特定示例(或其一个或多个方面)，或相对于此处所示出的或所描述的其他示例(或其一个或多个方面)。

应该理解，在不偏离本发明的范围的情况下，可以利用其他实施例或示例，也可以进行结构性的或逻辑性更改。因此，下面的详细描述不是在限制性的意义上进行的，并且各实施例的范围由所附权利要求以及它们的等效内容来进行定义。

实施例是涉及管理一个或多个在线社区内或社交媒体***内的用户社交人物、简档以及投射的图像的***、方法以及一个或多个计算机可读介质。

说明书中对“一个实施例”、“实施例”、“示例”等等的引用意味着结合该实施例或示例所描述的特定特征、结构或特性被包括在如此处所描述的至少一个实施例中。如此，在整个说明书中的不同位置出现短语“在一个实施例中”不一定都是指同一个实施例。

为解释起见，阐明了特定配置和细节以提供对此处所公开的各实施例的全面理解。然而，对本领域的技术人员显而易见的是，各实施例也可以在没有此处所呈现的具体细节的情况下实施。进一步地，可以省略或简化已知的特征以便不致对此处的描述的理解造成模糊。可以在整个此描述中给出各种示例。这些只是特定的实施例的描述。权利要求的范围不限于给出的准确的示例。

大多数现有的研究以及社交媒体***不能基于社区的需求或用户的总体目标，向用户建议他们能够给社区作出的贡献的类型。例如，允许用户基于友谊关系，查看或评论“朋友”发出的贴子，但是，没有有关用户应该在谈话中承担的社交角色的类型，或用户应该作出的贡献的类型的建议，以满足个人目标。

在线***，诸如Alerts、Alltop、Monitter、TweetDeck、BackType，以及PostRankAnalytics可监视数百万博客(web日志)，推特谈话以及新闻站点，并帮助用户在线跟随它们的所感兴趣的主题的谈话。然而，现有的***不会分析用户的单个贴子以及行为，以便帮助用户标识将通过专业知识或社交角色突出用户的独特性的机会。

此处的各实施例描述了推断社区的需求以及其用户的需求，以及如何使用此信息来提供社交建议的***。社交建议可以基于讨论的谈话主题，或用户的社交联系，通知用户他们可能感兴趣的谈话，还可以将用户可以在谈话中承担的社交角色通知给用户，以帮助讨论。进一步，还可以提供社交建议，以帮助用户实现一个或多个定义的/所希望的目标。所描述的各实施例可以改善对在线社交角色和人物的管理，因为现有的***不建议用户可以在谈话中承担的社交角色，以改善讨论。各实施例也可以分析讨论中的用户行为，以提供有帮助的简档增强建议。当讨论中的用户行为阻止/帮助用户实现它们的目标时，各实施例也可以向用户发送警告。

完成并维护准确的在线简档，用于向其他人介绍自己会是费时的，复杂的，常常很难；当与其他人相比时，一个人可能不能意识到他们的全部专业知识。此处的实施例描述了帮助建立用户简档的用于简档增强建议的***和方法。

在线讨论也可以得益于诸如仲裁人或专家之类的某些社交角色的贡献。但是，现有的***不自动地标识对这样的贡献者以及正确的或最佳候选人的需求。此处的实施例描述了有助于角色标识以及建议的***和方法。

用户可以具有一个或多个定义的目标。例如，用户可能希望实现在主题X中提升他们的专业知识的目标。使用现有的***来发现达到目标的在线机会会是困难的，并且费时。此处的实施例描述了通过建议以及简档和人物管理来实现目标的***和方法。为自己准备社交目标的许多用户可能会发现很难预见在在线讨论中他们的某些动作会影响实现他们的个人社交目标(帮助或伤害)。

此处所描述的各实施例可以减轻上文所提及的问题，以便帮助用户更好地呈现他们自己，分析他们的行为，并优化他们在在线社区中的交互。

实施例可以从在线社区的谈话以及参与者的简档获取文本信息，详细地推断用户在谈话内或社区内承担的典型的社交角色(诸如仲裁人、专家、特罗尔、新手，或其他用户/管理员定义的角色)；用户更喜欢参与其中的主题谈话；以及，在讨论中缺少的社交角色。然后，实施例可以利用此推断的信息来提供社交建议以及自省，诸如：

·向用户建议要添加到他们的在线简档中的元素，诸如，对于某些主题的专业知识或兴趣。

·基于他/她的在处理谈话需要的社交角色的经验，向用户建议谈话以及承担的社交角色。

·向其社交目标将满足谈话需要的社交角色的用户，建议谈话以及承担的社交角色。

·向其社交目标将满足社区需要的社交角色或具有社区要求的社交角色的经验的用户或来自其他在线社区的成员建议在线社区以及承担的社交角色。

·当用户的行为正在帮助/危害实现他们的目标时，例如，用户正在充当特罗尔(Troll)，但是，他/她的目标将是仲裁人(Moderator)，或用户在X主题中正在充当新手(Newbie)，但是，他/她的目标是在X主题中充当专家(Maven)，则警告用户。

·给用户提供透明的内省界面，在那里，用户可以基于他们在社区张贴的内容，可视化他们已经承担的不同的社交人物；可使用户能够在不同级别分析他们的数据(承担的不同的社交人物的总图，以及数据的每一特定的片断如何对创建的总体社交人物有贡献)；可使用户能够删除/编辑他们的内容，并查看这如何影响他们在社区内创建的社交人物。

·可使用户能够告诉***，某些数据如何与某些在线社交人物相关联；基于由***学习的社交规则，向用户提供他们的数据的新分类和可视化；允许用户基于这些新分类，探索并内省他们的数据。

实施例可包括四个组件：爬取模块、社交推理模块、社交建议模块，以及社交人物可视化模块，下面将更全面地讨论。可以理解，模块是可以在硬件组件或设备，在处理器上运行的软件或固件，或其组合实现的逻辑。模块可以是通过共享或传递数据来集成的不同的并且独立的组件，或者，模块可以是单个模块的子组件，或在多个模块之间拆分。组件可以是在单个计算节点上运行的，或实现的，或在多个并行地、并发、按顺序运行(或组合)的计算节点之间分布的进程，如参考图形中的流程图更全面地描述的。

参考图1A-B，示出了根据一实施例的对在线社区的管理以及社交人物管理***100的示例总览的框图。在线社区101具有相关联的初始数据103，可包括有关社区网站、黑板、讨论小组、推特馈送、Facebook评论跟帖，等等的信息，104a，以及表示用户简档的数据104b。

爬取模块105可以被配置成从在线社区101以及社区的用户的简档信息104b收集文本信息。爬取模块105可以向社交推理模块110提供综合的信息。

社交推理模块110可以被配置成从社区的谈话的主题检测并分类用户的社交角色。社交推理模块向社交建议模块130给予其分类和检测结果。

社交建议模块130可以包括用于向用户作出推荐或建议的各种子组件或模块，诸如简档增强建议131、在线谈话建议133，以及社交目标警告135。社交建议模块可以被配置成，基于从社交推理模块110推断的数据，向用户建议(i)可以被添加到用户简档141中的有关他们自己的信息；(ii)在模块143，基于他们的承担的社交角色和/或需要的当前社交角色134，用户可以参加的谈话；(iii)在模块143，用户可能满足他们的所希望的社交目标136中的某些的谈话；以及(iv)在模块145，当用户行为正在影响/帮助用户实现一个或多个社交目标135时，警告。

社交人物可视化模块150可以被配置成给用户提供交互式可视化界面151，该界面151让用户内省他们的数据创建的不同的在线社交人物。界面151也可以让用户分析他们的数据的不同的方面，诸如创建的总体社交人物，以及特定的数据片断如何对具体的社交人物有贡献。界面也可以让用户删除和更新他们的数据，以及查看这如何改变他们的在线图像(在社区作出的社交人物。)此模块也可以给用户提供交互式界面151，通过该交互式界面151，用户可以教会***某些数据(帖子或评论)如何可以链接到用户参与的在线社区中的某些在线社交人物。

在下面的描述中，讨论了关于每一模块的更多细节：

爬取模块：爬取模块105收集(爬取107)在线社区的K个最新的谈话(帖子和评论)，以及参与讨论的用户的简档页面。此模块105计算社区的平均张贴比率，并每隔τ*average_posting_rate_community，周期性地收集数据。张贴比率被计算为从一个帖子被创建到另一帖子之间的时间差。爬取模块105也可以爬取并收集有关在用户109的标记中具体地标识的谈话、帖子和社区的数据。图2是示出了根据一实施例的用于爬取的示例方法。

在一个用于爬取的示例方法中，使用来自社区网站210的信息。爬取模块可以被配置成在框201中爬取社区210的K个月的帖子和评论。在框203中，爬取模块获取参与用户的列表。在框205中，爬取模块从用户的相应的简档中获取社区的用户的声称的兴趣。在框207中，模块获取社区的平均张贴比率。在判断框209，作出关于是否过去了α*社区的平均张贴比率时间。如果是，那么，在框211中，***将K设置为等于现在和爬取最后一个帖子时的时间之间流逝的时间量；在框201，K个时间周期的爬取继续。如果没有过去该时间，如在框209中判断的，那么在从社区爬取和收集更多数据之前***等待更多时间流逝。

对于此示例，平均张贴比率表示在某人在社区中张贴新东西之前通常流逝多长时间，α是设计参数，当其与平均张贴比率组合使用时，可以帮助设计人员选择***应该等待多长时间以再次从社区爬取数据。

社交推理模块：社交推理模块110包括两个部分：社交角色推理块111(又名社交谈话块)和社交身份推理块113(又名声称的身份推理块)。

社交角色推理块111可以被配置成通过主题建模技术和情感分析发现在讨论中建立的社交角色。模块或子组件112被配置成检测用户的更喜欢的谈话的主题。模块或子组件114被配置成检测用户的角色，例如，主题的专家、新手、仲裁人、特罗尔，等等。子组件或模块116被配置成标识在谈话中缺少的社交角色。

社交身份推理块113可以被配置成，至少基于用户的声称的兴趣，检测主题的专家、新手和用户的兴趣，供简档增强建议模块使用，如下面更全面地讨论的。现在社交角色也与主题相关联。用户可以是对于政治主题的特罗尔，但是，在与其他主题(例如，涉及育儿或计算机)有关的主题中充当仲裁人。此块更多地聚焦于用户的主题的目标，而块114聚焦于谈话，以标识一般缺少的角色。

现在参考图3A-B，示出了用于执行社交角色推理111的示例方法的流程图。可以使用潜在狄利克雷分配(LDA)(一种主题建模算法)来获取在框301中的讨论中涉及的主题的估计。向LDA馈送一系列文档350，LDA从这些文档发现在文档集合中产生的“主题”。“主题”是一起频繁地出现的词语的集合。在此情况下，被馈送到LDA的每一文档都对应于来自社区的帖子。在LDA发现社区中的讨论的总体主题之后，获取每一帖子和评论的与每一发现的主题的亲和性。在框303中，每一帖子和评论都被利用其最亲密的主题标记。在框304中，可以标识由每一用户讨论的最新的主题。在框305中，测量每一用户针对每一特定的主题生成的帖子和评论的量。为每一个主题，在框307a-c中，标识为一个主题生成最多(和最少)内容的K个用户。为一个主题创建最多内容的用户，例如，被标记为该主题的“专家”。就有关一个主题创建最少内容，或有关一个主题询问最多问题的用户，例如，可以被标记为该主题的“新手”，特别是当由社区以前详细地探索了该问题时。可以通过应用程序标识重复的问题，以测量向社区新提出的问题和以前在社区询问的问题之间的相似度。是英语的大型词汇数据库。名词、动词、形容词和副词被分组到认知同义词组，每一个都表达不同的概念。参见，Miller,G.,A.英语的词汇数据库(alexicaldatabaseforEnglish),CommunicationsACM38,11(Nov.1995),39-41。

可以利用社交角色推理模块111检测的其他社交角色是“特罗尔”和“仲裁人”。特罗尔是一组用户，其评论可以将谈话的初始主题切换到另一主题，例如，如在框321中标识的，使用语言查询和字数计数(LIWC2007)。LIWC是文本分析软件程序，并计算人们跨各种文本，包括电子邮件、演说、诗，或转写的日常的言语，使用不同类别的词语的程度。有关LIWC的更多信息可以www*liwc*net找到，其中，在本文中，URL中的句号被替换为星号，以避免非故意的超链接。可以通过对原始帖子中的文本使用LDA，并计算其主题矢量，来标识谈话的第一初始主题。可以收集为帖子生成的评论，然后，可以使用LDA来获取它们自己的主题矢量。然后，可以使用诸如L2范数之类的相似度量度，来测量评论与主帖子的相似度。其与主帖子的相似度低于阈值T的评论，被标记为不相似。在框323中，可以收集前M个不相似的评论，并将他们的作者尽可能地标记为特罗尔。特罗尔也可以被标识为张贴了攻击性的评论的那些用户。在框325中，可以作出关于在用户被标识为可能的特罗尔之后用户是否作出了K个评论的判断，那些评论是攻击性的或偏离主题的。如果用户继续是攻击性的或偏离主题的，则在框327，用户被标记为特罗尔。

仲裁人是这样的用户：在他们自己的评论之前的K个评论不相似，例如，不与谈话的主要主题一致，但是，他们的评论以及他们的评论之后的K个评论与谈话的主要主题相似。换言之，一旦偏离主要主题，仲裁人将谈话拉回到主要主题，如在框335，337，339中标识的。框341帮助标识存在于活跃的谈话中的当前仲裁人。建模当前社交角色是当用户离开或达到他们的所希望的目标时赞扬或警告用户所需的；也是标识可能需要***某些社交角色以达到平衡的谈话所需的。

可以理解，可以基于社区以及他们的在线交互，可以构思额外的角色并添加到此模块。例如，在某些文化中，可以有可以被突出的领导以及跟随者的明显的层次结构。

此社交角色推理模块111也可以标识谈话仍被社区讨论的似然率，谈话被标记为活跃。在框309，计算社区的谈话的平均寿命。然后，将特定谈话的当前寿命标识为低于或高于平均值。如果平均值等于或低于平均寿命，如在框311中判断的，那么，在框313中，谈话被标记为活跃。谈话的寿命可以被计算为从谈话在社区中首次启动时起以及它接收到其最后一个评论时的时间流逝的时间。

在框315中，从活跃的谈话的列表中，***标识当前特罗尔、仲裁人、专家的列表、由每一用户讨论的最新的主题的列表、这些谈话中的每一个中存在的社交角色的列表，以及相关失效的谈话的列表。为标识相关的失效的谈话，可以使用LDA，来建模每一失效的以及活跃的谈话作为主题矢量。使用相似度量度，诸如L2范数，测量每一失效的谈话与每一活跃的谈话的相似度。当两者之间的相似度高于阈值t时，旧谈话被视为与新会谈相关。在框317中，对于没有专家，或知识渊博的，频繁的切题的张贴者的谈话，可以将谈话标记为缺乏专家。

可以理解，图3A-B是示例方法的说明性流程图。可以按顺序，并行地，或按交替的顺序等等，过程所示出的元素。

图8是示出了声称的身份推理块113的示例方法的流程图。此块，或模块，通过应用于用户用于在他们的个人简档页面声明他们的兴趣的标记的主题建模技术(LDA)，发现用户的声明的所感兴趣的主题，以及在这些主题的专业知识的水平。社交媒体中的标记可能非常稀少，机器难以解释，特别是标记可能只是来自流行文化的名称，诸如“LadyGaga”。在框801中，可以使用众包的知识库来获取关于标记的简述，并综合此信息，以便机器更好地解释。在框803中，将这些文档(标记+综合的数据)馈送到LDA，并用于发现定义用户的兴趣的主题。在框805中，在发现主题之后，利用其最亲密的主题标记每一用户的每一标记兴趣。在框807中，测量每一用户具有的对于每一个主题的兴趣标记的数量。对于每一个用户，标识与用户的兴趣标记最相关的K个主题，然后，将它们标记为用户的所感兴趣的主题。

通过利用用户的兴趣标记与所感兴趣的特定的主题如何相关以及共享那些相同兴趣标记的其他用户量，获取特定主题的专业知识的水平。例如，对于“流行音乐”主题，两个用户可以具有下列相关的兴趣标记：用户A以及10,000个其他用户使用兴趣标记“LadyGaga”，用户B以及1,000个其他用户使用兴趣标记“Bornthisway”。对于此示例，对于主题“流行音乐”，模块将用户B标记为比用户A更内行。

此概念的意图是，专家具有非常专业化的标记。如此，较少的非专家用户在他们的简档中声称专家作为兴趣具有的标记的兴趣。例如，标记“LadyGaga”可以具有1000个用户感兴趣，而标记“BadRomance”具有500个用户感兴趣。对于“BadRomance”具有兴趣的用户更有可能是比仅仅使用标记“LadyGaga”的用户在LadyGaga的音乐方面的更内行，因为标记“LadyGaga”是比更专业化的标记“BadRomance”更通用。更专业化的标记表示更多的专业知识。

然后，对于特定主题，基于用户的专业知识水平，对用户进行排序。在框809中，对于每个主题，获取带有最高专业知识水平的K个用户，并将他们标记为该主题的专家。在框811中，对于每个主题，带有最少专业知识的水平(但是带有大于零的水平)的K个用户被标记为主题新手。在框813中，对于每个用户，标识他或她为其生成了最多数据的K个主题，将这些主题标记为用户的首选的所感兴趣的主题。

现在参考图4-6，所示是示例社交建议模块130(图1B)的流程图。此模块130从社交推理模块110接收分类和推理，诸如专家的列表、有关X主题的新手，仲裁人，特罗尔的列表，每一用户的谈话的所感兴趣的主题以及首选的主题，存在于每一讨论510中的社交角色。然后，社交建议模块130可以使用此数据来提供不同类型的社交建议。实施例可以使用三个不同的工作块来实现此结果：简档增强建议块131、在线谈话建议块133和社交目标警告块135。

在图4中，作为流程图示出了简档增强建议块131的示例模块：此块通过或能够测量不同组的词语之间的相似度的其他相似的本体，将用户的所感兴趣的主题映射到社区的谈话的主题。此过程标识用户的声称的兴趣不同于谈话的用户的首选的主题。然后，使用此信息来作出建议，或自动地增强用户的在线简档，例如，添加他们在社区连续地讨论的主题X。对于被推断是X主题方面的行家或专家的用户，此块也可以建议用户将此信息添加到中他们的简档中。

在声称的兴趣如何被映射到谈话的主题的一个示例方法中，在框401中，模块获取谈话的每一主题的顶级词以及所感兴趣的每一主题的顶级词。可以从一个或多个知识库，或数据存储位置中检索谈话410a的主题和所感兴趣的主题410b。使用知识库来测量谈话的每一主题中的顶级词与所感兴趣的每一主题的顶级词的相似度。

在框403中，如果相似度大于阈值T，则会谈的主题被映射到所感兴趣的主题。可以向用户呈现谈话的主题与所感兴趣的主题的映射。在框405中，用户可以被允许校正或增强主题映射。

模块也可以被配置成向用户作出添加所感兴趣的主题的建议，如用户的活动所示。在框407中，对于每一个用户，模块可以标识他们的谈话的首选的主题中的哪一个没有到所感兴趣的主题的映射。可以从数据存储器中检索带有谈话的首选主题或兴趣420a-b的用户的列表，如在社交角色推理模块110中标识的。此过程检查谈话的主题是否具有到用户的简档中的兴趣的映射，但是，它相对于所有用户进行检查。当存在映射时，这是因为一个或多个用户在他们的简档中具有关于主题的标记。如果谈话的主题没有到简档中的主题的映射，则显然，没有用户将这样的兴趣添加到他们的简档中。作出的第一类型的建议是，向用户建议，利用这样的没有映射的但是存在于用户的帖子和/或评论中的主题增强他们的简档；还通知用户，没有其他人向他们的简档中添加这样的信息，如此，提供社交感知度。用户可以基于建议和上下文信息，增强他们的简档。在框409中，对于谈话的剩余的首选的主题，模块可以检查其被映射的所感兴趣的主题是否在用户的所感兴趣的首选的主题中。在框411中，模块可以向用户建议，将当前不在他们的首选的所感兴趣的主题里的被映射的所感兴趣的主题添加到他们的简档中。在此情况下，建议的主题确实具有映射，但是，用户没有向她的简档添加该主题。

可以理解，此模块可以在社区或谈话服务器上以特定的周期性执行，以主动地给用户发送关于他们的简档的建议，或可以由社区的管理员或仲裁人启动或发起。在另一个实施例中，用户可以启动此模块的本地版本，或请求社区服务器自组织地提供简档增强建议。可以理解，如此处所描述的，各种模块，可以作为本地版本运行，或从社区服务器运行。例如，用户可以首选运行人物可视化的本地副本，以评估用户的向外面向的社交人物。用户还可以首选启动社交角色推理模块的变体，以提供有关用户的社交角色的个人反馈，以及他们是否与用户的目标一致。

在框413中，可以使用所感兴趣的主题420c的主题专家列表，在那里，对于每一个主题，模块可以向主题专家建议：向他们的简档添加他们是该主题方面的专家。在框415中，可以使用谈话的主题的主题专家的列表420d，在那里，对于每一个主题，模块可以向主题专家建议，向他们的简档添加，他们是该主题的专家。

图5示出了在线谈话建议块133的示例方法的流程图：此块标识在活跃的讨论(表示被贡献和讨论的)511(缺乏专家)，521(缺乏仲裁人)中缺少的社交角色，并查找能够满足那些所需的社交角色的用户。可以检索数据510，如在社交角色推理模块中标识的。此块也可以使相关的并可能使参与讨论的用户感兴趣的K个旧谈话改头换面。

为标识谈话何时缺乏某些社交角色，该块分析在讨论中是否有大于K个特罗尔或K新手，而没有仲裁人或专家正在参与讨论。取决于情况，***可以搜索仲裁人的列表或专家的列表，并向这些列表的前K个用户发送警告515，525。如果经过一段时间以后这K个用户没有作出响应，则***可以警告接下来的前K个用户。可以理解，此模块可以在社区或谈话服务器上以特定的周期性执行，以检查谈话中的缺少的角色，或可以或社区的管理员或仲裁人启动。

此块也可以分析谈话在谈话中缺少的社交角色是否匹配用户在他们的社交目标531中作为目标的角色。在这样的情况下***可以向这些用户发送警告，以将空缺535(仲裁人警告)和536(专家警告)通知它们。此块也可以向用户呈现建议的谈话的可视化，提供讨论的主题的总览，攻击性的水平、带有有关主题的专业知识水平的参与者的姓名，提供这样的可视化，是因为当某些类型的用户存在，或讨论涉及某一水平的攻击性时，某些用户可能参与讨论会感觉到私密。

另外，此块标识K个最相关的旧谈话，并可以在原始讨论的侧面显示它们。

图6是示出了社交目标警告块135的示例方法的流程图。此块接收用户612的讨论的最新的主题，以及他们的担任的最新的社交角色610。然后，该块分析用户所承担的社交角色是否与他/她的社交目标614冲突，在这样的情况下，***警告用户潜在的危险。在框601中，对于带有声明的目标的每一个用户，示例方法首先判断目标是否是仲裁人。如果是，那么，在框603中，判断用户是否在谈话的特罗尔的列表中。，如果是，则在框605中，可以向用户发送警告消息/警告，作为目标是成仲裁人的提醒。

如果用户不是作为特罗尔列出的，那么，在框607中，判断用户是否在谈话的当前仲裁人的列表中。如果是，那么，在框609中，可以向用户发送祝贺消息/警告。在框611中，就用户是否具有要成为专家的目标的判断。如果不是，则对于下一用户，过程继续。可以理解，如果为社区或谈话定义了其他目标，那么，将对额外的角色[未示出]作出额外的检查。如果用户目标是成为专家，如在框611中判断的，那么，在框613中，判断用户是否在谈话的当前专家的列表中。如果是，那么，在框615中，可以向用户发送祝贺消息/警告。如果用户不在当前专家列表中，那么，在框617中，可以向用户发送警告消息/警告，作为目标是成为专家的提醒。

在一个实施例中，用户的目标可能是更像特定的其他用户，或不同于特定的其他用户。在此情况下，一旦用户选择了像或不像的用户，则对该用户的简档，如果可用的话，以及行为执行分析，以标识谈话以及社区内的社交角色。当行为表明与标识的用户的行为的相似度或相异性时，可以警告用户。在现有的社区，在用户与一个人具有直接联系之后，建模一个人的目标更加容易。未来的***甚至在在多个用户之间没有直接联系的情况下使简档以及行为可用。进一步，用户可以具有多个在线人物和/或简档来表征用户生命的不同的方面(专业、私人、宗教、家庭等等)。在一个实施例中，用户可以为每一个人物，指定不同的目标组。在一个实施例中，用户可以为多个人物选择单组目标，但是，必须例如为每一个人定义用户ID，以将它们链接为相关。在现有的***中，链接其他用户的在线人物可能是困难的，但是，预期未来的***在关联相同用户的不同人物方面会更好。在这种关联是可能的***中，使一个人自己仿效带有多个人物的另一用户也可能是可能的。在利用现有的在线社区实现的一个实施例中，通常将使用单人物。

社交人物可视化模块150：图7示出了对于在线人物的示例可视化。此模块从社交推理模块110接收分类和推理，诸如专家的列表、有关X主题的新手，仲裁人，特罗尔的列表，每一用户的谈话的所感兴趣的主题以及首选的主题。模块使用这些初始分类来向用户呈现***认为他们在在线社区中创建的社交人物的可视化。考虑的初始社交人物是：用户是专家、仲裁人、特罗尔或新手。界面可以向用户用户，他们相对于社区成员的其余成员在多大程度上是专家、仲裁人、特罗尔、新手。每一社交人物都与对社区中的这样的社交人物的形成有贡献的帖子和评论组一起呈现。社交人物可包括相对于社区或谈话的特征(角色)，例如，“达人”、“酷女孩”、“牢骚”等等，以及对此特征有贡献的那些帖子和评论。当可能时，用户可以能够选择与人物相关联的帖子或评论，并从谈话或社区删除它。如果不可能删除或编辑帖子，用户可以能够通过创建类似于发现与所希望的人物相关联的那些帖子更多的帖子，减轻与不希望有的人物相关联的帖子的有害影响。

此模块允许用户分析不同的数据片断(帖子或评论)对特定社交人物有什么样的贡献。用户可以删除/编辑数据片断，并分析对于特定社交人物，数据如何影响他们的总体排序。用户还可以相对于时间，排序他们的帖子和评论，并分析每一数据片断在他们的当前描绘的社交人物中扮演的角色。

另外，此模块允许用户与数据进行交互，并通过示例告诉***，不同的社交角色和特定内容如何可以链接到某些社交人物。用户可以利用界面声明是“X”主题中的特罗尔，并主题“F”感兴趣的声明与为“达人”的社交人物相关联。***使用这些初始种子类别来在最大程度上分类用户的社交数据。

界面基于用户定义的社交人物来提供新可视化。用户可以分析***的分类，对他们在社区内创建的社交人物进行内省。如有必要，用户可以再次消除/编辑他们的数据(帖子和评论，)，并查看它如何影响他们在社区中创建的社交人物。可以理解，可以以各种方式(例如，直方图、曲线图、表、树、相关的链接，等等)实现社交人物的可视化，如此处所描述的各实施例不限于表示的一种形式。

实验和示例实施例

引言

PeterSteiner一次在卡通字幕中写道“在因特网上，没有人知道您是狗”。不久，该短语像病毒一样流行。从那时起，用户用许多形式的自我表现进行试验，从简单用户名选择到在线相亲网站中的他们的口味的详细描述。社交学理论认为这些自我公开过程是社交交互的重要组成部分，因为人们在所有社交过程中，会修饰他们的外观和控制其他人对他们的印象的方式。在数字和物质世界，控制人的所希望的印象会是困难的，因为它不仅受一个人作出的关于自己的陈述的影响，诸如声明是非常有组织纪律性的，或声明对政治有兴趣，而且还受一个人的行为的影响，例如，办公桌上凌乱不堪表明一个人的凌乱的倾向，或写有关政治的文章表明一个人的对政治的兴趣。在数字世界，用户对他们的形象具有更多的控制主要是因为他们一般具有更多时间来思考他们将如何对某些事件作出反应，如此，提升他们的所希望的形象，即，他们被其他人感觉得如何。然而，在数字世界中的控制也可能被这样事实复杂化：“因特网决不会忘记”。用户创建的并与其他在线用户共享的所有内容都是永久性的，可搜索并可复制的。数据的长期的持久性使一个人的所希望的形象的创建复杂化。例如，用户在2006年声称具有的兴趣可能不再匹配她的当前兴趣，但是，数据仍可能被她的熟人看见，包括她的未来的雇主。

基于以前的认为从人们的声明以及行为推断人们的兴趣和特征的研究，作者构建了一个框架，如此处所描述的，用于分析用户的在他们的在线简档中的陈述，以及他们的在在线社区内的行为(具体地，他们对什么发了帖子和评论)之间的动态特性。引入了术语“陈述的兴趣”，来指用户在他们的在线简档中定义的兴趣，引入了术语“表现出的兴趣”来指用户在在线社区发帖子和写评论的内容的类型，例如，在一个人的简档中的有关“动物保护协会”的标记将表示声明的对于“动物权利”的兴趣，而就有关“动物***”将表明一个人的对于该主题的兴趣。

作者主要研究等最活跃的温和的公共LiveJournal^TM社区之一：Ontd(他们不)_政治。Ontd_政治适合于研究在用户的声称的兴趣和用户实际在线讨论之间存在的不同的关系，因为此社区中的讨论涵盖非常流行的主题，可以从争议的育儿方法、性别和种族不平等问题，到美国选举。此社区的用户还在他们的简档中声称广泛的兴趣，包括中东女权主义、美国卡通人物及其他不同的主题。

在向此数据应用该框架时，我们表明，当对于给定话题声称并表现出兴趣时，用户遵循确定的模式，例如，用户用来声称对于特定话题的兴趣的不同的标记的量看起来像有清楚的准则。结果暗示，Ontd_政治中的超过半数的帖子是事件驱动的。然而，看起来基于个人兴趣发表有关一个话题的帖子的用户很少有定期发有关该话题的帖子。

相关的工作

在在线社区，用户通过就某一内容发帖子和评论来表达他们的兴趣。一组文章聚焦于通过对他们的数字踪迹的分析，表征此内容，以及在线社区的社交互动。较早的工作从发现社区讨论的主题的研究开始。尽管如此，此在前的工作，没有研究在用户和内容之间存在的关系。Yang,等人在在线媒体中的时间变化模式(Patternsoftemporalvariationinonlinemedia)(ProceedingsofthefourthACMinternationalconferenceonWebsearchanddatamining,WSDM'11,ACM(NewYork,NY,USA,2011),177-186)一文中对内容流行度的研究，分析了生成内容的源，诸如新闻来源或博客，如何影响内容的流行度(创建的帖子和评论的量)。然而，他们的分析是有局限性的，因为它没有研究内容的实际作者如何影响内容的流行度。不清楚，博主讨论的所有内容是否变得同样流行，或某一类型的博主比其他博主受到更多关注。是不是声称是一个主题方面的专家的博主受到最多的关注？是不是以前积极地发有关一个主题的帖子的博主受到更多访问量？这些问题有待研究。对于希望学习如何成为有影响的博主的用户，知道说什么以及做什么是非常有用的。杨等人也没有研究内容的话题是否对内容的在线流行度有影响。

最近，Guy等人在从社交媒体挖掘专家意见和兴趣(Miningexpertiseandinterestsfromsocialmedia)(Proceedingsofthe22ndinternationalconferenceonWorldWideWeb,WWW'13)一文中的研究能够标识将用户与一个主题相关联的两个语义：兴趣和专业知识，并跨不同的社交媒体应用程序比较了这两个语义。然而，他们的研究没有专注于用户的通过内容表达兴趣的不同的形式，特别没有比较用户的行为与他们的简档声明。Rodrigues等人在追踪：追踪你自己！监视再现社交媒体上的信息(utrack:trackyourself！monitoringinformationononlinesocialmedia)(Proceedingsofthe22ndinternationalconferenceonWorldWideWebcompanion,WWW'13)一文中描述了一种允许最终用户跨不同的社交媒体站点跟踪他们的全部在线活动的***。然而，该***没有允许用户内省他们定义他们自己的方式以及他们的实际在线行为之间的差异和相似度。也没有让用户研究他们在社区承担的不同的社交角色。

最近，数据建模已经被扩展，能够基于用户生成的内容的类型，来表征用户。尽管如此，这些研究也是有局限性的，他们的工作没有研究用户与用于声称和表现他们的不同的兴趣的内容啮合的不同的形式。Agarwal等人在标识社区中有影响的博主(Identifyingtheinfluentialbloggersinacommunity)(Proceedingsofthe2008InternationalConferenceonWebSearchandDataMining,WSDM'08,ACM(NewYork,NY,USA,2008),207-218)一文中的工作，研究了如何检测有影响的博主。然而，Agarwal等人没有探索这些博主表达他们的在线兴趣的不同的方式。这样的研究对于试图引导用户他们应该如何呈现他们的简档以及博客帖子以成为有影响的用户的***可能是有眼光的。其他工作已经发现，用户决定与在线社区讨论的事件涉及在重要的私人事件以及用户认为将引起他们的在线受众兴趣的事件之间的复杂的动态。本发明通过分析在用户以前声称感兴趣的东西的类型，以及他们在社区就其发帖子和评论的东西的类型之间存在的相似之处和不同之处，扩展这些概念。

当前社交建议***(SocialRecommenderSystems)更多地聚焦于查找一个人可能与其共享在线内容的其他用户，参见，例如，Amershi,S.,等人所著重组：在社交网络按需创建组的交互式机器学***衡。

Alerts、Alltop(用于头条新闻)、Monitter(实时推特监视)、TweetDeck、BackType，以及PostRankAnalytics，例如，可以监视数百万博客，推特谈话以及新闻站点，并帮助用户在线遵循它们的所感兴趣的主题的谈话。然而，这些现有的***不会分析它们的单个贴子以及行为，以便帮助它们标识将通过专业知识或社交角色突出他们的独特性的机会。

在线讨论板是非常有意义的，大多数人都去那里获取政治信息。知道对这样的站点有贡献的用户的类型十分重要，因为他们对政治过程可能有影响。

模型

前面的讨论可以基于一个框架，以提供对用户的声明和在线行为的建模，允许两个实体被比较和量化。在一个实施例中，该框架用于大型并且活跃的在线社区，其成员具有用于通过他们的简档中的标记(兴趣标记)来声称他们的个人兴趣的空间，以及通过他们的行为(作出的帖子和评论)，他们可以表现他们的兴趣的空间。

给定一个在线社区，框架的目标是三重的：(1)发现存在于社区的讨论(创建的帖子和评论)中的不同的基于话题的兴趣；(2)将帖子、评论，以及兴趣标记分类为这些已发现的基于话题的兴趣；以及，(3)基于成员围绕一个特定话题创建的帖子和评论，以及他们的简档中所使用的话题性的兴趣标记，建模成员的表现的兴趣和成员的声称的兴趣。然后，使用此模型来比较用户的声称的兴趣与他们的表现的兴趣，并标识在线社区中的兴趣表达的模式。图11表示示例框架的流水线。

上下文话题标识

图11示出了在给定社区的贴子、评论以及兴趣标记的情况下，建模此处所公开的框架如何标识社区的声称的以及表现的兴趣的模式的流水线。

首先，在在线社区1110内标识上下文话题，其中，社区通过用户的帖子表达了兴趣。为此目的，可以使用主题建模算法“潜在狄利克雷分配(LDA)”来获取对存在于社区的零散的帖子的集合中的所感兴趣的主题的初始的粗略估计。可以使用贝叶斯信息准则来确定所希望的主题的数量，作为向LDA的输入。被馈送到LDA的每一文档都对应于来自社区的帖子。每一文档都保留的标题，以及用户添加到帖子中的标记。注意，此主题模型是从社区帖子在上下文中构建的。对于此示例，假设用户在与共享上下文的不同的上下文下声称他们的兴趣，因此，这些可能没有直接对准。例如，可能有完全与社区的帖子不相关的许多兴趣标记，但是，将它们包括到主题模型中可能会强制不存在的关系。另外，与声称的所感兴趣的主题一起建模帖子的主题，即，将所有信息一起建模，会导致错误的结果，因为帖子会遮蔽声称的兴趣，使得准确地比较声称的和表现的兴趣难以进行。

在1110中，分类涵盖存在于社区的帖子中的兴趣的一组话题。LDA会存在的一个问题是因为它根据纯粹的数据驱动的目标函数，将观测到的数据分解为潜在的主题，因此，有可能具有涵盖完全相同概念但是带有稍微不同的措词的两个不同的主题。为克服此问题，可以使用本体，具体地，一个词汇数据库，来进一步分组相似的主题，并更好地分类社区的兴趣。对主题的分组被称为话题。

在一个实施例中，对于每一个主题T_x，创建词袋X_i，其中，每一词w_i∈X_i都是T_x中的带有最高概率的K个词中的一个。为说明，在下面的示例中，K＝10。给定分别属于主题T_x和T_y的两个词袋X和Y，在公式(1)计算它们之间的相似度权重s(X，Y)，如下所示：

其中，是第i个词∈X，而w_Y是词∈Y，最类似于Sim(.,.)对应于的对于那两个词的相似度权重。相似度权重标识两个主题之间的最佳词相似度。使用此相似度权重s(X,Y)来合并正在讨论相似的事情，但是带有稍微不同的措词的主题。此分析导致涵盖存在于社区的帖子中的兴趣的一组话题。注意，可以执行相似的过程，以建模存在于社区的兴趣标记中的话题，但是，在此情况下，被给予LDA的文档将对应于兴趣标记，而不是社区的帖子。

将内容映射到上下文话题

在框1120中，将声称的兴趣标记、帖子，以及评论映射到以前发现的所感兴趣的话题。为此目的，获取每一兴趣标记，并利用其可用的定义(例如，从Freebase本体中获取的)来增强。Freebase是大型协作知识库，包括主要由其社区成员构成的元数据。它是从许多源，包括单个“wiki”贡献，收获的结构化数据的在线集合。如此，基本上，获取的定义是群众给予标记的定义。有关详细信息，参见Bollacker，K.等人所著J.Freebase:用于结构化人类知识的合作创建图数据库(acollaborativelycreatedgraphdatabaseforstructuringhumanknowledge)Proceedingsofthe2008ACMSIGMODinternationalconferenceonManagementofdata,SIGMOD'08,ACM(NewYork,NY,USA,2008),1247-1250。

可以使用此增强步骤来将被用作兴趣标记的专有名词，例如，“LadyGaga”映射到诸如“流行音乐”之类的话题。包括来自可靠的来源(例如，Freebase)的本体论知识可使机器更好地解释和分类标记。给定带有其增强的定义的兴趣标记，它可以被用作输入到LDA的文档，作为表示兴趣标记与以前发现的主题的相关性的主题矢量，对文档建模。基于兴趣标记属于一个主题的可能性，标识与每一兴趣标记最相关的主题，当其相关性值(可能性)高于阈值t时，兴趣标记被标记为与主题被分组到的主要话题相关。对于此示例，z＝0.8。在此步骤之后，每一话题都具有一组相关联的相关兴趣标记。

遵循类似的过程，可以将帖子建模为主题矢量，并标识他们的最相关的话题。在一个示例中，用于分类的帖子的文本不被增强，但是，只使用他们的标题和标记。在该示例中，假设一个帖子的评论与它们的父帖子遵循相同话题，因此，每一评论都利用被分配给他们的父帖子相同的主要话题分类。在此步骤之后，每一话题都具有一组相关联的相关兴趣标记、帖子和评论。

用户建模

一旦标识了被分类到话题的帖子、评论和兴趣标记，在框1130中，可以使用分类来研究用于声称和表现特定主题的兴趣的用户之间的不同的动态特性。为此目的，对于一个特定话题，按照声称的和表现的兴趣的程度，建模用户。具体地，可以计算对于给定话题的用户的声称的兴趣的程度，如下所示，在公式(2)中：

其中，P(u,T)是给定她的简档兴趣标记用户u对话题T有兴趣的概率，P(u)＝n^-1是选择第j个用户u的概率；n是用户的总数；是特定兴趣标记i出现在用户u的声称的兴趣中的可能性；m是用户在她的简档中具有的兴趣标记的总数；当兴趣标记i与话题T相关时，P(T|i)＝1，否则，为零。我们认为，可能性P(u,T)表示用户的对话题T的声称的兴趣的程度。可以使用类似方法来计算用户的对于一个话题的表现的兴趣的程度，但是，代替通过用户的声称的兴趣标记来计算这样的兴趣，用户的帖子和评论用于量化。

在线社区建模

在框1140中，此模块的用途是基于用户如何呈现它们的在线兴趣来对用户进行聚类。从这些组，可以提取其成员的一般特征和特征。可以利用表示用户的声称的和表现的兴趣的两个矢量来建模每一用户。每一声称的兴趣矢量的元素都表示发现的话题，每一矢量条目都表示用户用于声称对于该话题的兴趣的兴趣标记的量。表现的兴趣矢量的条目表示用户为每一个话题创建的帖子的量。认为两个矢量表示用户的特征矢量。然后，根据聚类算法，基于用户的特征矢量，将用户分组，(即，讨论了类似的话题并具有类似的声称的兴趣的用户被分组在一起)。这会导致一系列的用户的簇。可以分析这些用户的声称的和表现的兴趣的特征，诸如他们讨论的不同的话题的数量，他们的声称和表现的兴趣之间的对准，以及其他特征。对框架的感觉到的人的判断

在一个示例中，使用从Amazon.com所提供的AmazonMechanicalTurk(亚马逊机械土耳其)(AMT)来招募人类评价者。AMT是一个招募工作人员来完成小的任务并支付少量报酬的***。图12示出了由AMT用户所提供的评价的直方图。评价刻度表示所公开的框架的结果有多相关。注意，直方图的向右偏斜，表明框架给用户带来相关数据。

为理解所公开的建模方法如何反映人类判断，作者执行了短暂的研究，并要求评估员评定一组帖子和兴趣标记与在线社区的所感兴趣的话题的相关性。具体而言，对由特定Facebook组(全世界的组织社交倡议并涵盖范围广泛的讨论和事件的积极分子组)所生成的内容运行示例框架，其中，声称的兴趣标记对应于组成员的Facebook爱好，帖子对应于在该组张贴的照片的标记。

使用AMT，招募了33个参与者，给每一参与者呈现了一个短的调查问卷，包含有关一个话题与帖子和兴趣标记的列表如何相关的5点李克特式量表(1＝非常不相关，5＝非常相关)。给予每一参与者6个不同的话题。每一话题都与其代表性的词袋一起呈现，在它下面示出了2个帖子和3个兴趣标记的列表。从帖子和兴趣标记组中随机地选择这些帖子和兴趣标记，发现我们的框架与话题相关；每一兴趣标记都与其来自Freebase的定义一起呈现，每一帖子都与其标记一起呈现。

给参与者支付了$0.55完成调查问卷。在图12中示出了研究的统计信息。柱线的尺寸表示某一评价被选中的次数的百分比。图形的向右偏斜的本质表明，大多数参与者认为帖子和兴趣标记与发现的话题相关。可以看出，其中一个话题比其他5个得到差评。利用发现用户为不同的主题内容生成的标记在质量方面有差异的其他研究的发现，调节此结果，因此，信息检索任务会受影响。

数据

社区数据

使用来自大型LiveJournal社区的数据(参见www*livejournal*com)：Ontd_政治(参见Ontd-political*livejournal*com)，其中，URL中的句号在本文中被替换为星号，以避免非故意的超链接。LiveJournal(LJ)是在1999启动的在线博客和社交网络，有8700万活跃用户。每一LJ用户挑选一个用户名，填写简档页面，并写日志(博客)。用户在他们的简档页面提供兴趣列表，位置，并连接到作为朋友的其他用户。在LiveJournal中，作为标记系列，声明兴趣。用户可以在她的兴趣中具有诸如“LadyGaga”、“计算机科学”、“排球”等等之类的标记。除私人日志之外，用户具有创建社区日志并对社区日志有贡献。是该社区的成员的任何人都可以创建社区日志，并发布新条目。在此示例中，聚焦于LJ的最流行的社区日志之一：Ontd_政治，其持续排在10个最受欢迎的LJ社区中(按页面查看，第7，按访问量，第4，到2012年9月为止)。

Ontd_政治中的每一帖子都包括作者的用户名、帖子的日期和时间标题、文本、由作者选择的描述该帖子的一组标记，以及张贴的为了回复该帖子的评论。在Ontd_政治的文化内，复制由外部新闻来源所提供的文章是常见的，只要内容相关，并且对于社区而言会引起兴趣。新闻来源从非常知名的(诸如CNN)到比较模糊的，然而，用户常常通过提供链接来借用原始源。因此，当用户在Ontd_政治上张贴某种东西时，通常，用户实际创建的唯一内容是与帖子相关联的标记。标记是自由的文本，并可包括用户希望添加的一切，但是，常常是表示帖子的有意义的关键字。此示例主要专注于研究用户自己生成的内容。Ontd_政治的帖子的在线内容(标记，用户名，日期和时间)和评论(文本、用户名、日期和时间)是在2012年三月30日和2012年7月11之间“爬取的”(几乎4个月的数据)。另外，还从简档页面收集了每一社区成员的声称的兴趣。在图9中中的表1中示出了数据集的统计信息。

从表1中的统计信息，可以看出，全部Ontd_政治成员中的17％在他们的简档中没有兴趣标记，而全部成员中的82％在他们的简档中具有至少一个兴趣标记。平均起来，每一用户在他们的简档中具有总共50个兴趣标记。社区成员使用了总共39,241个唯一兴趣标记。此分析阐明，Ontd_政治社区成员中绝大多数花时间声称了他们的兴趣。

在此研究中，全部社区成员中只有15％参与帖子的生成。此结果符合发现在线社区中的发帖参与遵循长尾巴分布的研究，其中，只有很少的活跃的少数产生大部分内容。总共1,972个用户在Ontd_政治帖子中创建了至少一个评论，即，发布内容的所有用户，也评论了Ontd_政治中张贴的内容。

图10中的表2示出了与谈话的主题相关的声称的兴趣和帖子的示例。此表提供了有关存在于Ontd_政治社区中的主题的帖子的类型和兴趣标记的定性远景。

Ontd_政治中的上下文话题标识

使用示例框架来标识和表征存在于Ontd_政治的帖子中所感兴趣的话题和社区成员的兴趣标记中涵盖的所感兴趣的话题。该框架标识了23个用于建模帖子的主题，以及11个用于建模兴趣标记的主题。在分组主题之后，框架标识了九个涵盖社区的帖子的主要话题，以及10个涵盖社区的声称的兴趣标记的主要话题。适当地标记主题的集合仍是一个有待研究的问题，不是本发明的焦点。但是，为了参考发现的话题，使用类似于Parikh等人在相关属性(Relativeattributes),ICCV(2011),503-510中所遵循的方法的方法。基于来自其主题中的每一个的代表性的词语，标记每一话题。被给予存在于社区的帖子中的话题的标记有：种族主义、妇女权利、LGBT、政治、卫生保健、性的认同、***，以及教堂。被给予涵盖社区成员的声称的兴趣的话题的标记有：户外活动、电视节目、计算机科学题目、学校科目、小说、歌星、性别不平等、亚洲文化、猫科动物，以及大屠杀。实验

在本节，我们使用我们的框架来使用Ontd_政治数据进行实验，目标是研究社区设置中的声称的以及表现出的兴趣表达。

实验1：社区话题以及缺口分析

作者将社区成员用于声明对于一个主题的兴趣的标记量与为每一个话题创建的贴子以及评论的量进行比较。示例框架用于标识与社区的贴子中的话题相关的兴趣标记；每个话题地计算相关的兴趣标记的百分比以及贴子以及评论的百分比，然后，比较结果。

遵循在标记为“主题的增强的兴趣”的前面的一节所描述的过程，示例框架将Ontd_政治的声称的兴趣标记，贴子以及评论分类为常见的话题。在框架中，可以发现，只有社区的21％的兴趣标记(大致8,241个标记)与在贴子中涵盖的话题相关。在社区为每一个话题使用的独特兴趣标记的量之间有明显的区别。在社区为其创建了最多帖子/评论的话题和社区为其使用最多兴趣标记的话题之间存在差异。对Ontd_政治社区的实验标识了：

(a)存在社区将为其使用许多不同的标记来声称兴趣来参与的话题，而同时适当地就该话题发帖子或评论。

(b)存在社区将为其使用很少的兴趣标记来声称兴趣的话题，但是，他们将在社区就该话题积极地发帖子和评论。

(c)存在社区为其生成成比例的量的兴趣标记和帖子和评论的话题。

总的说来，此实验表明，在社区成员如何声称和表现他们的兴趣之间存在差距。存在他们将为其使用许多不同的标记来声称亲缘关系的话题，但是，对于其他的话题，尽管他们使用很少的兴趣标记，但是，他们创建大得多的量的帖子和评论。

实验2：阻抗失配

在此实验中，测量在他们的简档中声称对于一个话题的兴趣的用户的数量和在社区中就话题发帖子和评论的用户的数量。此现象的变体被称为“阻抗失配”。在此实验中，分析这些测量值的关系和动态特性。对于每个话题，标识具有至少一个与话题相关的兴趣标记的唯一用户的百分比、就该话题发帖子至少一次的唯一用户的百分比以及对有关该话题的帖子评论至少一次的唯一用户的百分比。

在此实验中，应该指出的是，所有话题都具有大致相同数量的声称对于该话题的兴趣的用户，但是，对于一个话题表现出了兴趣的用户的数量在各话题之间有不同。

通过此实验标识的主要兴趣动态特性有：(a)存在社区的大部分成员声称对其的兴趣的话题；(b)存在这样的话题，尽管社区的大部分成员声称对它们有兴趣，但是，社区成员将使用很少的不同的标记来声称这样的兴趣；(c)存在这样的话题，社区的大部分成员声称对它们有兴趣，并使用许多不同的标记来声称这样的兴趣。此实验的结果突出了社区中的声称的和表现的兴趣之间的差异。

实验3：回放实验

此实验的目标是研究一段时间内的社区的表达他们的表现出的主题的兴趣的形式。这允许对表现出的兴趣涉及的临时的动态特性的研究。社区的帖子被分成三个一个月长度的时间窗口。对于每个时间窗口和每个话题，测量创建的帖子的量。比较彼此之间的临时的量化，并与社区成员的声称的兴趣进行比较。此实验的结果表明，对于一个特定话题，社区表现出的兴趣随着时间的推移而变化。社区也倾向于每月对于一个特定话题表现出更多兴趣。

对于研究的时间帧的社区交互回放分析和话题流行度形成对照。观察到的行为说明，每个时段，社区专注于特定话题。很可能，Ontd_政治社区的表现出的兴趣可能是事件驱动的，说明社区的总体表现出的兴趣随着时间不断地变化。然而，存在某些例外，表明，随着时间的推移，对于某些话题，社区持续地生成类似量的帖子。

此实验表明，在Ontd_政治中存在两种类型的主题的发帖行为：零星的发帖(暗示与世界事件关联)和定期发帖。结果说明，通过分析话题的主要贡献者的声称的和表现出的兴趣，可以预测与一个话题相关联的发帖行为。似乎是，在Ontd_政治社区，当一个话题的主要贡献者在他们的声称的和表现出的兴趣之间具有对准时，话题将有规则地出现。

实验4：爆发性

此实验的目标是描绘在Ontd_政治上对于四个最流行话题存在的每天发帖模式的轮廓。分析这四个话题，因为这些话题正在驱动在社区共享的大部分内容。观察到，对于某些话题，爆发性地生成帖子。

关联实验3的结果，作者断定，当话题的主要贡献者的表现出的和声称的兴趣匹配时，社区将频繁地发有关一个话题的帖子。有可能，对于某些话题，用户的对于这些话题的发帖行为可能不是事件驱动的，而是基于永久性的兴趣。某些话题存在混合的发帖行为，因为只有其主要贡献者的一部分也具有对于该话题的大的声称的兴趣。此实验确认，在Ontd_政治社区存在两种类型的发帖行为：零星的和恒定的。零星的发帖看起来好像生成较大的帖子产出。

将通过发帖表现出的兴趣与发表评论表现出的兴趣进行比较，主要聚焦于创建帖子和评论的时刻。可以观察到，在社区发布新内容的用户与就内容发表评论的用户遵循不同的时间表。通过评论表现出的兴趣看起来像性质上不同于通过发帖表现出的兴趣。

这些时间方面的差异表明，当创建帖子和当创建评论时，Ontd_政治上的用户遵循两种不同的行为。考虑这样的情况：社区主要针对美国政治，大部分用户自我报告位于美国，有可能，用户发帖的角色可能与搜索新内容以及首先发帖子更相关。这是为什么观察了清晨的时间表。此实验表明，社区成员与当通过评论表现出兴趣时遵循用于通过发帖表现出兴趣的不同的社交行为。

实验5：角色扮演

此实验的目标是基于用户的声称和表现出他们的兴趣的模式，分组用户，以及描绘组成员的一般特征的轮廓。此实验导致在Ontd_政治社区遇到的用于表达兴趣的社交行为的角色扮演。

为完成此任务，基于用户的声称的和表现出的兴趣的在一段时间内的匹配性如何，来分组用户。对于每个组，量化并分析组中的用户的不同的特征，诸如每个时间窗口，他们发布的不同的话题的平均数，他们的声称的和表现出的兴趣的相似之处和不同之处，还有其他关联的特征。

考虑两个主要组。组A：其声称的兴趣类似于他们的表现出的兴趣的用户；以及组B：其声称的兴趣不同于他们的表现出的兴趣的用户。

通过公式2，使用示例框架来计算用户的为每一个话题的声称的以及表现出的兴趣的程度。为每一个用户，创建每月的两个兴趣矢量。一个表示用户的对于话题的声称的兴趣的程度，另一个表示用户的基于用户在该月创建的帖子，对于话题的表现出的兴趣的程度。通过相似度量度，测量这些矢量之间的兴趣相似度。获取所有月份的用户的平均兴趣相似度。当用户的平均值高于阈值M时，用户被标记为属于组A。对于任何其他情况，用户被标记为属于组B。使用点积的相似度量度，以及M＝0，即，当用户具有至少一个与至少一个他们的帖子的相关的声称的兴趣时，用户被分组在A。

一旦用户被分组，就分析组成员的一般特征。测量组成员的帖子涵盖的话题的平均数。然后，每月地，标识组的前3个最受欢迎的话题，并将其与当时的社区中的最流行话题进行比较。比较组成员的声称的和表现出的兴趣之间的重叠。

图13表示根据实验的属于每一组类型的社区成员的百分比。可以观察到，大部分社区成员属于类型B1：带有与在社区就其发帖子的话题相关的声称的兴趣的用户，但是，他们在社区决不会表现出对于这样的话题的兴趣。

一般而言，用户似乎分组为三种不同的行为模式：

组A：此组的用户是其声称的兴趣标记与他们的帖子的话题具有某种相关性的用户。向该社区发帖子的所有用户(又名“张贴者”)中的26％属于此组。我们发现，在此组内，存在用于表现出和声称兴趣的两种不同类型的表达：

组A-1：所有张贴者中的大约3％属于此子组。此子组的用户，尽管他们声称对于许多话题的兴趣并在他们的帖子中涵盖所有这些主题，但是，也创建有关在他们的简档中没有声称的话题的帖子。平均起来，每个月，这些用户发有关4-5个不同的话题的帖子。这些话题中只有一个倾向于在当时的社区中的前三个最流行话题。涵盖最多话题的用户，每个月最多涵盖8个不同的话题。

组A-2：所有张贴者中的大约23％属于此子组。此子组的用户在他们的帖子中涵盖他们在他们的简档中声称了有兴趣的所有话题，他们决不会发有关他们以前没有声称的兴趣的话题的帖子。平均起来，每个月，这些用户只发有关一个话题的帖子，它通常不在当时的社区中的前三个最流行话题当中。在他们的帖子中涵盖最多话题的用户，最多只涵盖三个不同的话题。

组B：此组的用户是其声称的兴趣标记与他们的帖子的话题没有相关性的用户。所有张贴者中74％属于此组。在此组内，存在用于表现出和声称兴趣的两种不同类型的表达：

组B-1：所有张贴者中的大约59％属于此组。此子组的用户具有与Ontd_政策的帖子中涵盖的话题相关的声称的兴趣，但是，这些用户决不会发与这些特定话题相关的任何帖子。

组B-2：所有张贴者中的大约15％属于此组。这些用户没有与Ontd_政策的帖子中涵盖的话题相关的声称的兴趣。

组B-1和B-2中的用户遵循相同特征：每个月，组B的用户平均起来只发有关一个话题的帖子，话题始终在当时的社区中的前三个最流行话题当中。在他们的帖子中涵盖最多话题的用户，最多涵盖8个不同的话题。

此实验表明，社区成员花时间在他们的简档中声称了他们的兴趣，大约四分之一的社区成员使他们的声称的兴趣与他们的帖子保持最新。涵盖了社区中的最流行的话题的大部分用户，在他们的简档中没有声称对于这样的话题的亲缘关系或兴趣。对于此行为可以有多种说明，不清楚，为什么会观察到这样。一种可能性是，他们的发帖是更加事件驱动的，因此，没有必要在他们的简档中声称这样的兴趣；另一种可能性是，这些用户正在敏感的主题，如此，他们可能不希望将此作为兴趣放在他们的简档中。

此实验再次证实，话题流行度不一定归因于具有其简档声明匹配他们的在线行为的贡献者，这暗示简档增强可能是适宜的。可以观察到，对于某些情况，用户的声称的兴趣是他们的表现出的兴趣的完美的镜像，但是对于其他人，他们的声称的兴趣远没有涵盖他们在社区发有关其的帖子的所有话题。

讨论

理论含义

通过围绕用户的兴趣的案例研究，作者演示了，如何通过测量用户在他们的在线简档中作出的声明以及他们的在社交媒体中的行为之间的相似之处和不同之处，可以表征其成员的实践，并更好地理解在线社区的行为。前面的实验表明，Ontd_政策中的大部分张贴者不倾向于发关于在他们的个人兴趣中声称的话题的帖子，虽然社区成员将积极地评论在他们的个人兴趣中声称的东西。进一步，话题看起来具有与它们相关联的表达准则，这影响了使用的兴趣标记的数量，发帖的频率，以及社区在给定时间生成的帖子的量。

这些发现表明，此处所描述的***和方法可以用于大量的在线社区中。对社交角色和人物的分析，如此处所描述的，也可以有助于试图理解在线社区的社交规范的社区新来者。各实施例可以向最终用户提供表明通常如何呈现社区成员的声称的和表现出的兴趣的信息。对上面的实验的分析还发现与话题流行度相关的某些模式。一个模式是，发关于一个话题的帖子的唯一用户的数量看起来影响该话题在社区的流行度。此发现表明，如此处所描述的各实施例可以用于帮助社交媒体设计人员标识用于在不同的在线社区生成高流量的主要变量。

局限性

应当确认，用于通过主题建模和语义技术来建模用户的兴趣的某些方法可以捕捉对于特定主题的兴趣，但是，他们没有涵盖用户当在线声称和表现出兴趣时可以表达的嬉戏性或讽刺undertones中的全部。在自然语言处理和理解中持续会有更多进步，随着时间的推移，这些局限性可能会减轻。

结论

示例框架的各实施例可以允许许多新颖的用户交互，诸如允许用户对他们正在推的或已经推的关于他们自己的兴趣的类型进行自省的***，还分析他们的行为如何镜像或偏离他们作出的关于它们自己的声明。框架还允许创建可以帮助用户实现他们的所希望的在线形象或社交人物的***。对于这样的***，最终用户将简单地指出他们希望与哪一个在线社区成员相似，***可以引导用户作出什么行为和什么声明来实现这样的目标。当在她的在线交互中，她正在与她试图刻画的形象脱轨时，***也可以警告用户。框架也可以被用来量化用户在特定在线社区内表达他们的在线兴趣的典型的方式。这样的信息对于促进新来者社交化过程非常重要，因为新来者将具有对社区的预期的自我公开过程的更好的理解。框架也可以被用来帮助用户发现带有表达了类似于他们自己，或以最终用户感觉满意的形式的在线兴趣的成员的社区。

量化用户如何表达他们的在线兴趣不仅对于提供更好的用户交互和***是重要的，因特网可以使用户形成主意，甚至改变世界结局，而同时保持相对匿名也同样重要。因此，理解推某些类型的内容的用户的动机、兴趣和社交人物是重要的。这种量化还帮助培植建设性的讨论的环境。某些用户可以扮演关键角色，无论是因为他们的专业知识和对某一主题的兴趣，或者因为他们带到桌面上的可以充当催化剂的行为。

随着大型因特网玩家开始分析应该基于声称的兴趣和在线行为向用户以及社区提供的社交建议的种类，提供可以建模和量化用户的声称的和表现出的兴趣如何出现在thewild中的工具变得非常重要；提供对他们在社区的讨论中扮演的角色的更好的理解。

其他注意事项和示例

示例实施例可包括下列主题，诸如***或设备、方法，用于执行动作的装置，以及包括指令的至少一个机器可读取的介质，指令，当由机器执行时，导致机器执行动作。

示例1是用于管理在线社区的***，包括：托管在线社区人物管理器的服务器；耦合到所述人物管理器的爬取模块，所述爬取模块被配置成从多个用户可查看的至少一个在线源收集信息，并收集由至少一个用户贡献的用户简档信息；耦合到所述人物管理器的社交推理模块，所述社交推理模块被配置成自动地并分类所述在线社区的所述多个用户的社交角色，其中所述社交推理模块使用由所述爬取模块收集到的信息；以及，社交建议模块，所述社交建议模块耦合到所述人物管理器，并被配置成从所述社交推理模块接收分类信息，所述社交建议模块进一步被配置成向所述在线社区的至少一个用户发送至少一个建议，其中所述至少一个建议包括下列各项中的至少一项：(i)建议要添加到所述用户的所述简档中的有关用户的信息，(ii)基于所述用户的承担的社交角色和/或被标识为所述在线社区需要的社交角色，建议所述用户参加的在线谈话，(iii)为使所述用户能满足所希望的社交目标，建议要参加的谈话，以及，(iv)当所述用户行为被认为正面或负面地影响所述用户实现一个或多个社交目标时，向所述用户发送警告。

示例2包括示例1的主题，其中社交建议模块进一步包括：简档增强建议模块，所述简档增强建议模块被配置成基于所述用户的行为，确定用户的表现出的所感兴趣的主题，主要基于所述用户的简档信息，确定用户的声称的所感兴趣的主题，然后，在所述用户的表现出的所感兴趣的主题以及声称的所感兴趣的主题之间提供映射，其中，所述简档增强模块进一步被配置成基于所述映射和当前简档，建议向所述用户的简档添加所感兴趣的一个或多个主题；在线谈话建议模块，所述在线谈话建议模块被配置成标识所述在线社区内的实况谈话和对应于所述实况谈话的用户的对应的社交角色，并基于谈话或在线社区缺少的确定的社交角色、确定的用户社交角色，以及用户所希望的社交目标中的至少一项，进一步向用户作出谈话建议；以及，被配置成向用户发送行为警告的社交目标警告模块。

示例3包括示例1或2中的任何一个的主题，其中，所述社交角色包括专家、新手、特罗尔，以及仲裁人中的至少一项。

示例4包括示例2的主题，其中，所述简档增强建议模块进一步被配置成标识声称的所感兴趣的主题，并测量所述在线社区内的谈话中的不同组的词语或贴子之间的相似度级别，以确定所述社区的所述表现出的所感兴趣的主题，并提供在所述声称的所感兴趣的主题以及所述表现出的所感兴趣的主题之间的映射。

示例5可包括示例1-4中的任何一个的主题，并进一步包括：耦合到所述人物管理器的社交人物可视化模块，所述社交人物可视化模块被配置成提供至少一个用户的在线人物的交互式可视表示并呈现对所述人物有贡献的数据。

示例6包括示例5的主题，其中，所述社交人物可视化模块允许用户编辑他们的在线内容，并查看所述用户的人物如何受所述编辑的影响。

示例7是一种用于管理在线社区中的人物的方法，包括：从至少一个在线社区收集信息；收集所述至少一个在线社区的用户的简档信息；使用所述收集到的信息，自动地检测并分类所述至少一个在线社区的用户的社交角色；自动地检测社区成员的所述声称的和表现出的兴趣；以及，向所述至少一个在线社区的至少一个用户发送至少一个建议，其中，所述至少一个建议包括下列各项中的至少一项：(i)建议要添加到所述用户的所述简档中的有关用户的信息，(ii)基于所述用户的承担的社交角色和/或被标识为所述在线社区需要的社交角色，建议所述用户参加的在线谈话，(iii)为使所述用户能满足所希望的社交目标，建议要参加的谈话，以及，(iv)当所述用户行为被认为正面或负面地影响所述用户实现一个或多个社交目标时，向所述用户发送警告。

示例8包括示例7的主题，并进一步包括：将用户的表现出的所感兴趣的主题映射到声称的所感兴趣的主题；向所述用户建议将当前不在他们的首选的声称的所感兴趣的主题里的所述表现出的所感兴趣的主题添加到他们的简档；标识所述在线社区内的实况谈话以及对应于所述实况谈话的用户的对应的社交角色；基于谈话或在线社区缺少的确定的社交角色、确定的用户社交角色，以及用户所希望的社交目标中的至少一项，向用户提供谈话建议；以及向用户发送行为警告。

示例9包括示例7-8中的任何一个的主题，其中，所述社交角色包括专家、新手、特罗尔，以及仲裁人中的至少一项。

示例10包括示例7-9中的任何一个的主题，并进一步包括：从用户的简档中的标记标识所述社区的声称的所感兴趣的主题；测量所述在线社区的贴子和/或评论中不同的词语组之间的相似度的级别；使用所述不同的词语组，标识所述社区成员的表现出的所感兴趣的主题；以及，基于他们的词语相似度，提供在所述表现出的感兴趣的主题与所述声称的所感兴趣的主题之间的映射。

示例11包括示例7-10中的任何一个的主题，并进一步包括：提供至少一个用户的在线人物的交互式可视表示；以及，呈现对所述人物有贡献的数据。

示例12包括示例7-11中的任何一个的主题，并进一步包括：允许用户编辑他们的在线内容，并查看所述社交人物如何受所述编辑的影响。

示例13在其上存储了指令的至少一个计算机可读存储介质，所述指令，当在机器上执行时导致所述机器执行如前所述的示例7-12中的任何一个的方法。

示例14是被配置成执行如前所述的示例7-12中的任何一个的方法的设备。

示例15是用于管理在线人物的***，并可任选地包括下列各项中的任一项：用于收集有关在线社区中的贴子以及谈话的信息的装置；用于收集用户简档信息的装置；用于分析所述收集到的信息以确定用户的在所述在线社区内的角色的装置；用于标识所述在线社区相对于所述在线社区内的至少一个谈话的需求的装置；用于至少基于所述用户的所希望的目标以及所述用户的在所述在线社区内的确定的角色，标识所述在线社区的至少一个用户的需求的装置；用于向所述至少一个用户提供建议的装置，所述建议与所述在线社区内的角色以及谈话相关联；以及，用于向所述在线社区的用户提供行为警告的装置。

示例16包括示例15的主题，包括或省略可选的特征，并进一步包括：用于向所述用户呈现至少一个社交人物的交互式可视表示的装置，以及，可任选地，其中，所述用于呈现可视社交人物的装置将允许所述用户编辑他们的在线内容，并查看所述用户的社交人物如何受所述编辑的影响。

示例17是用于管理在线社区中的人物和角色的框架，其中，所述人物管理引擎收集并分析有关在线社区内的当前和过去的谈话、评论或贴子的信息，基于他们的在所述谈话、评论或贴子中的活动，向用户分配预先定义的角色，将所述社区需求警告给所述社区的成员和/或将关于他们的角色或目标警告用户，并可任选地向用户发送行为警告。框架可以可任选地提供交互式可视化界面，以基于所述在线社区内的过去和现在的活动，允许用户查看一个或多个用户的社交人物的表示。框架也可以可任选地允许用户编辑他们的在线内容(在线张贴的过去的活动)，以改变社区内的他们的社交人物。框架可包括或省略示例1-16中所包括的特点中的任一项。

此处所描述的技术不仅限于任何特定的硬件或软件配置；它们可以在任何计算、消费电子产品，或处理环境中找到应用。技术可以以硬件、软件、固件或其组合来实现。

各种操作可以以对理解所要求保护的主题最有帮助的方式描述为多个单独的动作或操作。然而，描述的顺序不应该解释为暗示了这些操作必须要依赖于顺序。具体而言，这些操作可以不按照呈现顺序执行。所描述的操作可以以与所描述的实施例不同的顺序执行。可以执行各种额外的操作，和/或在额外的实施例中，可以省略所描述的操作。

为模仿，程序代码可以表示使用硬件描述语言或另一功能描述语言的硬件，语言基本上提供预期设计的硬件如何执行的模型。程序代码可以是汇编或机器语言，或可以是预先或在执行过程中编译和/或解释的数据。进一步地，以一种形式或另一种形式将软件表述为采取动作或导致结果是常见的。这样的表达只是陈述导致处理器执行动作或产生结果的处理***执行程序代码的简洁方式。

每一程序都可以用高级别过程或面向对象的编程语言来实现，以便与处理***通信。然而，程序也可以根据需要以汇编或机器语言来实现。在任一情形下，该语言都可以被编译或解释。

可以使用程序指令来使利用指令编程的通用或专用的处理***来执行此处所描述的操作。另选地，操作可由包含用于执行操作的硬连线逻辑的专用硬件组件来执行，或由编程的计算机组件和自定义的硬件组件的任何组合来执行。此处所描述的方法可以作为计算机程序产品来提供，该计算机程序产品可以包括在其上存储了指令的机器可访问的(也被称为计算机可读取的)介质，指令可以被用来编程处理***(或其他电子器件)以执行方法。尽管机器可访问的介质可以被示为单个介质，但是，术语“机器可访问的介质”，“计算机可读介质”可包括被配置成存储一个或多个指令的单个介质或多个介质(例如，集中式或分布式数据库，和/或相关联的高速缓存和服务器)。程序代码，或指令，可以存储在，例如，易失性和/或非易失性存储器中，诸如存储设备和/或相关联的机器可读的或机器可访问的介质，包括固态存储器、硬驱动器、软盘、光存储器、光带、闪存、记忆棒、数字视盘、数字多功能盘(DVD)，等等，以及更多外来的介质，诸如机器可访问的生物状态保持存储器。机器可访问的介质可包括用于以可由机器读取的形式存储、传输，或接收信息的任何机制，介质可包括可以通过其传递电的、光学、声音或其他形式的传播的信号或编码了程序代码的载波的有形的介质，诸如天线、光纤、通信接口，等等。程序代码可以以数据包、串行数据、并行数据、传播的信号等等的形式传输，并可以以压缩或经加密的格式使用。

程序代码可以以在可编程机器，诸如移动或静止计算机、平板、膝上型计算机、台式计算机或混合型计算机、个人数字助理、机顶盒、蜂窝电话以及寻呼机、消费电子设备(包括DVD播放器、个人录像机、个人视频播放器、***、立体声接收机、有线电视接收器)，及其他电子设备中执行的程序来实现，每一机器都包括处理器、可由处理器读取的易失性和/或非易失性存储器，至少一个输入设备和/或一个或多个输出设备。可以将程序代码应用于使用输入设备输入的数据，以执行所描述的各实施例，并生成输出信息。可以将输出信息应用于一个或多个输出设备。本领域内的普通技术人员可以理解，所公开的主题的各实施例可以利用各种计算机***配置来实施，包括多处理器或多核处理器***、微型计算机、大型计算机，以及可以被嵌入到几乎任何设备中的流行的或微型计算机或处理器。所公开的主题的各实施例也可以在分布式计算环境中、云服务，或自组织对等网络中实施，其中，其中，任务或其一些部分可以由通过通信网络链接的远程处理设备执行。

虽然操作可以被描述为顺序进程，但是，某些操作事实上可以并行地和/或在分布式环境中执行，程序代码存储在本地和/或远程，供单处理器或多处理器机器访问。另外，在不偏离所公开的主题的精神的情况下，可以重新排列操作顺序。程序代码可以被嵌入式控制器使用或和嵌入式控制器一起使用。

在本文中，使用了术语“一个”，如在专利文件中常见的，以包括一个或一个以上，独立于“至少一个”或“一个或多个”的任何其他实例或使用。在本文中，使用术语“或”来表示非排他的或，以便“A或B”包括“A但不是B”，“B但不是A”，以及“A和B”，除非另有陈述。在所附权利要求书中，术语“包括”和“其中”被用作相应的术语“包含”和“其中”的普通英语等效词。此外，在下面的权利要求中，术语“包括”是开放的，即，在权利要求中在这样的术语之后包括除那些列出的之外的元件的***、设备、制品或过程仍被视为在该权利要求的范围之内。此外，在下面的权利要求中，术语“第一”、“第二”、以及“第三”等等仅仅被用作标记，并不旨在对它们的对象施加数值要求。

尽管参考说明性实施例以及示例描述了此处的主题，但是，此描述不旨在以限制性方式来解释。对所属技术领域的专业人员显而易见的对说明性实施例的各种修改，以及其他实施例被认为在所附权利要求书的范围内。

上文的描述只是说明性的，而不是限制性的。例如，上文所描述的示例(或其一个或多个方面)可以彼此相结合使用。可以使用其他实施例，诸如由那些精通本技术的普通人员在阅读上面的描述时。此外，在上面的详细描述中，各种特征还可以分组在一起，以便简化说明。这不应该被解释为认为未经要求的所公开的特征对任何权利要求是必不可少的。相反，本发明的主题可以在于少于特定所公开的实施例的所有特点。如此，下面的权利要求被包括到本发明的“具体实施方式”，每一个权利要求本身也作为本发明的单独的实施例。因此，应当参照所附权利要求书以及被授予权利的此类权利要求的等效方案的完整范围来确定所要求保护的主题的范围。

Claims

1.一种用于管理在线社区的***，包括：

托管在线社区人物管理器的服务器；

耦合到所述人物管理器的爬取模块，所述爬取模块被配置成从多个用户可查看的至少一个在线源收集信息，并收集由至少一个用户贡献的用户简档信息；

耦合到所述人物管理器的社交推理模块，所述社交推理模块被配置成自动地检测并分类所述在线社区的所述多个用户的社交角色，其中所述社交推理模块使用由所述爬取模块收集到的信息；以及

社交建议模块，所述社交建议模块耦合到所述人物管理器，并被配置成从所述社交推理模块接收分类信息，所述社交建议模块进一步被配置成向所述在线社区的至少一个用户发送至少一个建议，其中所述至少一个建议包括下列各项中的至少一项：(i)建议要添加到所述用户的所述简档中的有关用户的信息，(ii)基于所述用户的承担的社交角色和/或被标识为所述在线社区需要的社交角色，建议所述用户参加的在线谈话，(iii)为使所述用户能满足所希望的社交目标，建议要参加的谈话，以及，(iv)当所述用户行为被认为正面或负面地影响所述用户实现一个或多个社交目标时，向所述用户发送警告。

2.如权利要求1所述的***，其特征在于，所述社交建议模块进一步包括：

简档增强建议模块，所述简档增强建议模块被配置成：基于所述用户的行为确定用户的表现出的所感兴趣的主题，主要基于所述用户的简档信息确定用户的声称的所感兴趣的主题，然后提供所述用户的表现出的所感兴趣的主题以及声称的所感兴趣的主题之间的映射，其中所述简档增强模块进一步被配置成基于所述映射和当前简档，建议向所述用户的简档添加一个或多个所感兴趣的主题；

在线谈话建议模块，所述在线谈话建议模块被配置成标识所述在线社区内的实况谈话和对应于所述实况谈话的用户的对应的社交角色，并基于谈话或在线社区缺少的确定的社交角色、确定的用户社交角色，以及用户所希望的社交目标中的至少一项，进一步向用户作出谈话建议；以及

被配置成向用户发送行为警告的社交目标警告模块。

3.如权利要求2所述的***，其特征在于，所述社交角色包括专家、新手、特罗尔，以及仲裁人中的至少一项。

4.如权利要求2所述的***，其特征在于，所述简档增强建议模块进一步被配置成标识声称的所感兴趣的主题，并测量所述在线社区内的谈话中的不同组的词语或贴子之间的相似度级别，以确定所述社区的所述表现出的所感兴趣的主题，并提供在所述声称的所感兴趣的主题以及所述表现出的所感兴趣的主题之间的映射。

5.根据权利要求1-4中任一权利要求所述的***，进一步包括：

耦合到所述人物管理器的社交人物可视化模块，所述社交人物可视化模块被配置成提供至少一个用户的在线人物的交互式可视表示并呈现对所述人物有贡献的数据。

6.如权利要求5所述的***，其特征在于，所述社交人物可视化模块允许用户编辑他们的在线内容，并查看所述用户的人物如何受所述编辑的影响。

7.一种用于管理在线社区中的人物的方法，包括：

从至少一个在线社区收集信息；

收集所述至少一个在线社区的用户的简档信息；

使用所述收集到的信息，自动地检测并分类所述至少一个在线社区的用户的社交角色；

自动地检测社区成员的所述声称的和表现出的兴趣；以及

向所述至少一个在线社区的至少一个用户发送至少一个建议，其中所述至少一个建议包括下列各项中的至少一项：(i)建议要添加到所述用户的所述简档中的有关用户的信息，(ii)基于所述用户的承担的社交角色和/或被标识为所述在线社区需要的社交角色，建议所述用户参加的在线谈话，(iii)为使所述用户能满足所希望的社交目标，建议要参加的谈话，以及，(iv)当所述用户行为被认为正面或负面地影响所述用户实现一个或多个社交目标时，向所述用户发送警告。

8.如权利要求7所述的方法，进一步包括：

将用户的表现出的所感兴趣的主题映射到声称的所感兴趣的主题；

向所述用户建议将当前不在他们的首选的声称的所感兴趣的主题里的所述表现出的所感兴趣的主题添加到他们的简档；

标识所述在线社区内的实况谈话以及对应于所述实况谈话的用户的对应的社交角色；

基于谈话或在线社区缺少的确定的社交角色、确定的用户社交角色，以及用户所希望的社交目标中的至少一项，向用户提供谈话建议；以及

向用户发送行为警告。

9.如权利要求8所述的方法，其特征在于，所述社交角色包括专家、新手、特罗尔，以及仲裁人中的至少一项。

10.如权利要求8所述的方法，进一步包括：

从用户的简档中的标记，标识所述社区的声称的所感兴趣的主题；

测量所述在线社区的贴子和/或评论中不同的词语组之间的相似度的级别；

使用所述不同的词语组，标识所述社区成员的表现出的所感兴趣的主题；以及

基于他们的词语相似度，提供在所述表现出的感兴趣的主题与所述声称的所感兴趣的主题之间的映射。

11.如权利要求7所述的方法，进一步包括：

提供至少一个用户的在线人物的交互式可视表示；以及

呈现对所述人物有贡献的数据。

12.如权利要求11所述的方法，进一步包括：

允许用户编辑他们的在线内容，并查看所述用户的社交人物如何受所述编辑的影响。

13.在其中存储了指令的至少一个计算机可读介质，所述指令，当在机器上执行时导致所述机器执行根据权利要求7-12中任一权利要求所述的方法。

14.一种用于管理在线人物的***，包括：

用于收集有关在线社区中的贴子以及谈话的信息的装置；

用于收集用户简档信息的装置；

用于分析所述收集到的信息以确定用户在所述在线社区内的角色的装置；

用于标识所述在线社区相对于所述在线社区内的至少一个谈话的需求的装置；

用于至少基于所述用户的所希望的目标以及所述用户的在所述在线社区内的确定的角色，标识所述在线社区的至少一个用户的需求的装置；

用于向所述至少一个用户提供建议的装置，所述建议与所述在线社区内的角色以及谈话相关联；以及

用于向所述在线社区的用户提供行为警告的装置。

15.如权利要求14所述的***，其特征在于，还包括：

用于向所述用户呈现至少一个社交人物的交互式可视表示的装置，其中所述用于呈现可视社交人物的装置被配置成允许所述用户编辑他们的在线内容，并查看所述社交人物如何受所述编辑的影响。

16.一种用于管理在线社区中的人物和角色的框架***，包括：

人物管理引擎，所述人物管理引擎收集并分析有关在线社区内的当前和过去的在线谈话、评论或贴子的信息，基于他们的在所述谈话、评论或贴子中的活动，向用户分配预先定义的角色，将所述社区需求警告给所述社区的成员和/或将关于他们的角色或目标警告用户。

17.如权利要求16所述的框架，其特征在于，所述人物管理引擎进一步向用户发送行为警告。

18.根据权利要求16-17中任一权利要求所述的框架，进一步包括：

交互式可视化界面，所述交互式可视化界面基于所述在线社区内的过去和现在的活动，允许用户查看一个或多个用户的社交人物的表示。

19.如权利要求18所述的框架，其特征在于，所述交互式可视化界面被配置成允许用户编辑他们的在线内容并改变他们的在所述社区内的社交人物。