CN105874753A

CN105874753A - 用于社交数据网络用户行为细分的***和方法

Info

Publication number: CN105874753A
Application number: CN201480071719.2A
Authority: CN
Inventors: 布莱恩·佳利·耿; 爱德华·东晋·金
Original assignee: Sysomos LP
Current assignee: Sysomos LP
Priority date: 2013-11-05
Filing date: 2014-11-04
Publication date: 2016-08-17
Also published as: KR20160079863A; WO2015066805A1; EP3066602A1; US9367603B2; US20150127653A1

Abstract

提供了用于分析来自社交网络平台上的多个用户的数据的方法和***，所述方法包括：接收与所述社交网络平台相关的话题的查询；确定在所述社交网络平台上具有与所述话题相关的至少一个社交网络行为的一组用户；针对这组用户的每个用户选择预定数量的帖子并且使所述预定数量的帖子的每个与各个用户相关；针对每个用户细分选择的帖子以确定在这组用户中选择的帖子的每个的似然；并且针对每个用户的选择的帖子进行聚类以限定多个聚类并且确定从每个用户到所述多个聚类的至少一个的映射，每个聚类包括表示这组用户之间的预定数量的帖子的聚类内频繁使用的话题的代表性话题。

Description

用于社交数据网络用户行为细分的***和方法

技术领域

本发明总体上涉及分析社交网络数据。

背景技术

近年来，社交媒体已经成为个人和消费者在线(例如，在互联网上)交互的流行方式。社交媒体还影响企业旨在和其客户、粉丝、和潜在客户在线交互的方式。

具有众多跟帖的特定话题的许多博主被识别并用于支持或赞助特定的产品。例如，人气博主网站上的广告空间用于广告相关产品和服务。

社交网络平台还用于影响人群。社交网络平台的示例示例包括商标名称为脸书(Facebook)、推特(Twitter)、领英(LinkedIn)、汤博乐(Tumblr)和拼趣(Pinterest)的社交网络。社交网络平台上的人气或专业个人可以用于向其他人推广。当社交网络上的用户和对话数量增长时，快速识别人气或有影响力的个人和对话变得更加重要。此外，很难精确地识别特定话题中有影响力的个人。由于社交网络上分享的每个用户缺乏信息并且简介缺乏信息的真实性，因此很难确定共同偏好和兴趣。

附图说明

现在参照附图仅示例性地描述实施例，其中：

图1是与计算设备通信的服务器的示意图，该计算设备被配置成用于对社交网络平台用户进行行为细分。

图2是用于确定与特定话题相关的片段的计算机可执行的指令的示例的实施例的流程图。

图3是用于确定与Twitter的社交网络平台上的特定话题相关的片段的计算机可执行的指令的另一个示例的实施例的流程图。

图4示出了一个示例的细分结果。

图5示出了被图示为词云的图4的示例的细分结果。

图6示出了另一个示例的细分结果。

图7示出了被图示为词云的图5的示例的细分结果。

图8示出了又另一个示例的细分结果。

图9示出了被图示为词云的图8的示例的细分结果。

图10示出了另一个示例的细分结果。

图11示出了被图示为词云的图10的示例的细分结果。

图12是用于获得并存储社交网络数据的计算机可执行的指令的示例的实施例的流程图。

图13是与图1的服务器的用户识别模块、预处理模块、文本处理模块、聚类模块和片段标记模块相关的计算机可执行的指令的示例的实施例的流程图。

具体实施方式

应当认识的是，为了图示的简化和清晰，在认为适当时，参考编号可在图中被重复以指示相应或相似的元件。此外，陈述了许多特定细节，以提供对本文中所描述的实施例的透彻理解。然而，本领域的普通技术人员将理解的是，没有这些特定细节也可以实践本文中所描述的示例的实施例。在其他情形下，没有详细描述公知方法、程序和部件，以不使本文中所描述的示例的实施例难以理解。并且，本说明不被认为是限制本文中所描述的示例的实施例的范围。

社交网络平台包括经由社交网络网站和网页生成并发布供他人看、听等的内容的用户。用户张贴的内容可以经由访问特定的社交网络网站来看到(例如，作为示例示例说明但不限于：新闻订阅、最新动态、评论和聊天帖)。社交网络平台的非限制性示例示例是Facebook、Twitter、LinkedIn、Pinterest、Tumblr、博客圈(blogospheres)、网站、维基协作、在线新闻组、网上论坛、电子邮件和即时通讯服务。目前已知并且未来已知的社交网络平台可以与本文所述的原理一起使用。社交网络平台可以用于向用户推广并广告平台。已经认识到难以识别与给定话题相关的用户。这些包括识别给定话题的有影响力的用户。

当前的社交媒体分析学使用常规营销中使用的许多相同尺度，例如，人口统计(性别、地理)和顾客输入偏好及简介特征。这些尺度基于与建立并生成用户的社交网络简介相关的用户输入信息。将描述的是，由于这些尺度基于用于输入的用户真实性以及已经提供信息的程度，所以它们也会导致不准确的结果。也就是说，提供不正确的或缺乏与用户简介的多个方面(例如，性别、地理、偏好)相关的输入信息将导致不正确的分析统计。

其他媒体分析追踪与跟贴者/好友、参与和提及的统计资料。然而，这些统计资料涉及跟贴者数量和提及数量的代数公式(例如，Twitter的推文、帖子、消息等)。

然而，现有的尺度都没有追踪用户细分和行为。如本文所用，术语“用户细分”可以指的是例如将目标市场数据划分成消费者的子集，称为具有共同属性或需求的区段。一般来讲，如本文所述的行为细分指的是基于顾客在与社交网络平台如社交网络网站互动(例如，通过社交媒体会话内容、“推文”和/或帖子和/或评论和/或聊天会话)时表现出的特定行为模式和活动动态追踪顾客和/或用户并将其分组的计算机实施的方法和***。

如本文所述的提出的***和方法动态地确定并计算与社交网络平台涉及到的用户活动相关的用户行为细分模式。此信息可以随后用于设计并实施策略以瞄准各个“细分市场”的具体需求。

识别相关数据以用于社交网络平台中的社交细分和行为细分存在许多挑战，例如，下面列出了少量示例性挑战：

数据可用性：由于大量数据和访问的高昂费用，从社交网络平台(例如，网站和/或服务器)提取数据会很困难。社交媒体网站，例如，煞费苦心地保护他们的数据，仅允许访问公开数据。另外，他们对于访问他们的私人数据收费并且仅允许分配这些私人数据的有限子集供公众使用。

用户匿名性：许多在线用户有意地输入错误信息或省略不需要的字段以保持匿名。这导致稀少的或不准确的一组数据(例如，与简介建立有关)，这使得难以得出有关用户基础的具体结论。

非结构化&半结构化数据：社交数据通常采用非结构化文本数据的形式。好友/跟贴者数据也采用半结构化图表或网络的形式。社交数据通常未格式化成现有的商业智能应用能够使用的结构化关系表。

在本发明的一方面，公司希望用于动态识别与一个或多个社交网络平台相关的社交网络用户的行为细分模式(例如，对于推特用户，分析用户的“推文历史”形式的用户行为)的方法和***，以便例如瞄准能够潜在地广播并推广品牌消息的个人和个人群。

若干社交媒体分析公司声称将提供社交媒体分析。然而，这些公司都基于稀少且不准确的数据(例如，与社交网络网站相关的不准确的用户简介信息)。这些分析仅对于自愿提供他们的用户简介的数据(例如，地理位置或性别)的用户进行报告。否则，从用户简介无法搜集到信息。这使得难以用这么多缺失且可能不准确的字段执行细分。它们还直接依赖于用户的输入信息。在一个示例示例中，用户可以填写了他们的履历域，但是他们的位置可能缺失。这些示例示例使得难以从这些数据提取有意义的片段。此外，提取的信息不可靠并且由于用户自己报告的简介数据不准确而很可能成为杂音。使用这种稀少且不可靠的数据实际上可能使细分出现偏差。

然而，在这里认识到，许多公司使用并不是限定与共同属性有关的用户行为模式的真实的用户细分尺度的尺度，而仅仅是跟贴者的数量或提及的数量的代数公式。

更一般地说，提出的***和方法提供了计算机实施的方法和***以对于社交网络平台的用户数量确定并分析用户行为(例如，有关对话的内容或特定的共同话题或与社交网络平台相关的“推文”)。该***和方法进一步包括确定用户的行为模式的其他重复或共性(例如，对于分享共同话题或对话的这些用户)。结果提供了与社交网络行为(例如，帖子)有关的用户细分模式的分析。

在本发明的一方面，提供了用于分析来自社交网络平台上的多个用户的数据的计算机实施的方法，所述方法包括：接收与所述社交网络平台相关的话题的查询；确定在所述社交网络平台上具有与所述话题相关的至少一个社交网络行为的一组用户；针对这组用户的每个用户选择预定数量的帖子并且使所述预定数量的帖子的每个与各个用户相关；针对每个用户细分选择的帖子以确定在这组用户中选择的帖子的每个的似然；并且针对每个用户的选择的帖子进行聚类以限定多个聚类并且确定从每个用户到所述多个聚类的至少一个的映射，每个聚类包括表示这组用户之间的预定数量的帖子的聚类内频繁使用的话题的代表性话题。

参见图1，已示出用于社交数据网络的用户的行为细分的***的示意图。服务器100通过网络102与计算设备101通信。服务器100获得并分析社交网络数据(例如，通过一个或多个社交网络服务器200提供，这些社交网络服务器通过网络202上的计算设备202、204和206与多个社交网络用户通信)，并且通过网络102将结果提供给计算设备101。计算设备101可以通过GUI接收用户输入以控制用于分析的参数。

可以认识到，社交网络数据包括有关社交网络平台的用户的数据和/或涉及与社交网络平台互动的用户的活动(例如，评论、帖子、“推文”并且更新新闻订阅或更新屏幕)以及用户生成的内容或组织的内容或兼而有之的数据。社交网络数据的非限制性示例包括：用户帐号ID或用户名，用户或用户帐号的描述，用户发布的消息或其他数据，用户与其他用户之间的关系，位置信息等。关系的示例是“用户列表”，在这里也称为“列表”，其包括列表名称，列表的描述以及给定用户跟随的一个或多个其他的用户。用户列表，例如，由给定用户建立。

继续图1，服务器100包括处理器103和存储设备104。在示例的实施例中，服务器包括一个或多个处理器以及大量存储容量。在另一个示例的实施例中，存储设备104或多个存储设备是用于提高读取/写入性能的固态驱动器。在另一个示例的实施例中，多个服务器用于实施本文所述的方法。换句话讲，在示例的实施例中，服务器100指的是服务器***。在另一个示例的实施例中，使用其他当前已知的计算软件或未来已知的计算软件或两者。

服务器100还包括通信设备105以便通过网络102通信。网络102可以是有线网络或无线网络或兼而有之。服务器100还包括GUI模块106，用于通过计算设备101显示并接收数据。服务器还包括：社交网络数据模块107；索引器模块108；用户帐号关系模块109；兴趣识别模块111和查询模块，用于识别与话题A(例如，给定话题)114相关的用户行为细分模式(例如，以集群的形式)。

服务器100还包括多个数据库，包括数据存储116；索引存储117；社交图谱的数据库118；简介存储119；和兴趣矢量数据库121。

社交网络数据模块107用于接收社交网络数据的流。在示例的实施例中，社交网络数据经由例如互联网202的网络通过一个或多个社交网络服务器200接收，这些社交网络服务器与社交网络平台(例如，Facebook、Twitter)相关并且与一个或多个社交网络用户通过他们各自的计算设备204-208相关。在示例的实施例中，上百万条新消息每天并且实时地传递到社交网络数据模块107。社交网络数据模块107接收的社交网络数据存储在数据存储116中。

索引器模块108对数据存储116中的数据执行索引器处理并且将索引的数据存储在索引存储117中。在示例的实施例中，更容易搜索索引存储117中索引的数据，并且索引存储中的标识符可以用于检索实际数据(例如，有用的消息)。

在一个方面，社交图谱还得自社交网络平台服务器(未示出)，并且存储在社交图谱数据库118中。当用户被给定为查询输入时，社交图谱可以用于返回跟随查询的用户的所有用户。

简介存储119存储与用户简介相关的元数据(例如，与计算设备204、206和208相关的用户)。与简介相关的元数据的示例包括给定用户的跟贴者的总数，给定用户自己公开的个人信息，给定用户的位置信息等。可以查询简介存储119中的数据。

在示例的实施例中，用户帐号关系模块109可以使用社交图谱118和简介存储119以确定哪些用户跟随特定用户。

兴趣识别模块111被配置成识别给定用户感兴趣的话题，称为兴趣矢量。用户的兴趣矢量存储在兴趣矢量数据库121中。

再次参见图1，服务器100进一步包括用户识别模块128、预处理模块129、文本处理模块130、聚类模块131和片段标记模块132。用户识别模块128被配置成收集并编译表现出涉及特定话题(例如，话题A)的社交网络活动的用户列表。这可以包括在社交网络平台中发布有关从数据存储116查询的给定搜索项查询(例如，话题A)的推文或者发表评论的用户。预处理模块129被配置成接收来自用户识别模块128关于与特定的话题相关的用户的数据，并且对于每个用户编译对各个话题特定的他们的社交网络活动(例如，推文或帖子或评论)列表，从而提供与每个用户管理的话题列表(例如，映射到或者另外连接关系数据库)。结果可以包括，例如，与特定话题(话题A)相关的每个用户的“推文”历史。

在一方面，文本处理模块130被配置成分析并归类与每个用户相关的话题列表，例如，以使用词干来限定话题之间的共性和重复，例如，从而识别用户之间的共同话题(例如，即使话题并非严格地文字上相同，相似的百分比可以限定某些话题在用户之间相似，例如，IPhone和IPhone5)。文本处理模块130的示例是n-gram处理模型，该模型将社交网络帖子的对话的每个话题(例如，推文)拆分成片段并且提供每个片段的相似性的评估。

在一个方面，文本处理模块130，将从预处理模块129和/或用户识别模块128接收的与社交网络平台相关的每个用户的每个话题拆分或分段成具有预定大小的文本片段。在一个方面，使用n-gram处理将每个用户的每个话题分段成预定的n-gram(例如，trigram)。对于所有用户(例如，如用户识别模块中限定的用户)重复此过程，例如，以提供所有用户的所有n-gram的列表。对于每个用户和每个相关片段(例如，n-gram)，文本处理模块130计算发生的似然，定义为TF-IDF值。因此，TF-IDF值提供了以每个用户以为基础(例如，对于每个用户)的所有话题的所有n-gram中的n-gram的发生似然的统计值。在优选的方面，文本处理模块130，随后过滤具有最高和最低似然频率的片段(例如，n-gram)(例如，最高频率井号标签片段或最低频率井号标签片段被过滤)，因为它们很可能不相关。文本处理模块的结果包括与每个相应的用户对应的多个矢量以及对于每个话题的每个片段(例如，n-gram)的各个用户的统计似然值(例如，TF-IDF值)。每个用户(例如，用户U₁-U_T-1)分解的片段(例如，n-gram)和似然值(例如，TF-IDF值)被提供给聚类模块，该聚类模块基于每个用户的每个片段的片段似然提供聚类。

聚类模块131被配置成接收n-gram处理模块的输出并且将数据(例如，用户和相关话题)聚类成在每个聚类中具有共同特性或属性的特定聚类。每个用户被映射到输出聚类之一。片段标记模块132被配置成根据预定数量的排名最高的话题(例如，每个聚类的头十个话题)标记每个聚类。每个聚类与用户相关。结果被提供给查询模块114，该查询模块提供一组k片段，该片段用表示片段中用户的兴趣的一组识别话题标签(例如，一组井号标签)标记。

继续图1，计算设备101包括通信设备122，用于经由网络102、处理器123、存储设备124、显示屏125和互联网浏览器126与服务器100通信。在示例的实施例中，服务器100提供的GUI通过互联网浏览器由计算设备101显示。在另一个示例的实施例中，其中分析应用127可用于计算设备101，计算设备通过分析应用127显示GUI。可以认识到的是，显示设备125可以是计算设备(例如，如同移动设备、平板电脑、笔记本电脑等)的一部分，或者可以与计算设备(例如，如同台式电脑等)分开。

尽管图未示出，各种用户输入设备(例如，触摸屏，滚动球，光电鼠标，按钮，键盘，麦克风)可以用于便于用户与计算设备101的互动。

应当理解，执行指令的本文例示的任何模块或部件可以包括或者另外访问计算机可读的介质，例如，存储介质、计算机存储介质或数据存储设备(可移除的和/或不可移除的)，例如，磁盘、光盘或磁带。计算机存储介质可以包括用于存储例如计算机可读指令、数据结构、程序模块或其他数据的、以任何方法或技术实施的易失性和非易失性、移动或非移动的介质。计算机存储介质的示例包括RAM、ROM、EEPROM、闪速存储器或其他存储技术、CD-ROM、数字通用光盘(DVD)或其他光学存储器、磁带盒、磁带、磁盘存储器或其他磁性存储设备，或者能够用于存储所需的信息并且能够被应用、模块或两者访问的任何其他的介质。任何这种计算机存储介质可以是服务器100或计算设备101的一部分或者可通过其访问或与之连接。本文描述的任何应用或模块可以使用这种计算机可读介质保存或者另外保持的计算机可读的/可执行的指令来实施。

转到图2，计算机可执行的指令的示例的实施例由与用户识别模块128、预处理模块129、文本处理模块130、聚类模块131和片段标记模块132通信的服务器100和处理器103实施。参见图2，图示的计算机可执行的指令被配置成由处理器103执行，该处理器用于基于感兴趣的特定话题(话题T)确定多个社交网络用户的一个或多个动态行为片段。图2所示的方法假设服务器100可使用社交网络数据，并且社交网络数据包括表示成一组U的多个用户。在方框301，服务器100获得表示成T的话题。例如，用户可以通过计算设备101显示的GUI进入话题，并且计算设备101将话题发送到服务器100。在方框302，服务器使用话题以从与话题相关的社交网络数据确定用户。这种确定可以以多种方式实施并且以下将进行详细讨论。与话题相关的这组用户表示成U_T，其中U_T是U的子集。方框302的计算机可执行的指令由用户识别模块来128实施。

继续图2，在方框303，服务器100将一组用户U_T中的每个用户作为结点建模，并且基于社交网络活动确定每个用户(例如，用户U₁)的样本话题列表(例如，T₁(U₁)-T_N(U₁))))，并且与各个用户(例如，U₁)相关。如参照图3所示，在一个示例中，这涉及收集具有预定样本大小(例如，预定数量的最近或随机选择的帖子，和/或特定时间段期间的帖子)的社交网络帖子(例如，Twitter用户的推文)的样本。在方框304，服务器100通过对于每个用户的话题列表执行文本处理来识别并滤掉无关话题(例如，对于用于U₁，提供过滤的话题(T₁(U₁)-T_M(U₁))，其中M是N的子集)。如参照图3所述，在一个示例中，此步骤包括从帖子(例如，推文、评论、聊天和其他社交网络帖子)提取文本以确定所有用于U_T的话题列表，并且在滤掉被预定为无关的话题时使提取的文本规范化。此步骤还包括每个文本话题(例如，井号标签)与发布此话题的对应用户之间的关系映射。

预处理模块129实施方框303和304的计算机可执行指令。

再次参见图2，在方框305，服务器100执行文本处理(例如，n-gram处理)以确定每个用户(例如，用户U₁)与其他用户(例如，用户U₂-U_T-1)的话题之间的关系。这些关系描述对于每个话题(或通过将话题拆分成n-gram提供的话题的词干)在用户之间的统计重复，如以下示例性图表所示。

在n-gram处理的情况下，结果是一个维度表示用户(例如，U1、U2)，另一个维度表示对于每个用户拆分成n-grams(例如，“iph”、“pho”、“hon”、“one”、“the”)的每个话题并且每个单元值表示TF-IDF统计数值的图表。

一般来讲，TF-IDF统计值是词条频率比文件频率(term frequency inversedocument frequency)，它是数值统计数值，并且提供有关对于多个拆分的话题片段中的每个话题的话题单词(例如，拆分成其n-gram的话题)的每个拆分的片段的重要性的信息。也就是说，话题单词的片段(例如，“iph”)的tf-idf反映了基于片段(例如，“iph”)在用户的所有话题列表中出现的次数的统计值。也就是说，对于用户1，分段的话题(例如，“iph”)可以具有对于特定用户(用户1)的所有话题(例如，话题T₁(U₁)-T_M(U₁)，如图2所示)中X的统计概率。n-gram TF-IDF提供了特定用户发生n-gram的统计概率。因此，对于每个用户，TF-IDF的列表是与各个n-gram相关的输出。在方框306，n-gram TF-IDF的矢量因此供给到聚类模块。

文本处理模块130实施方框305的计算机可执行指令(图1)。

参见图2，在方框306，服务器100执行文本处理话题的聚类(例如，接收各个用户的每个n-gram的TF-IDF的矢量)以提供与话题相关的所有用户(用户U_T)的相关片段分组。聚类模块131实施方框306的计算机可执行指令(图1)。

参见图2，在方框307，服务器100确定每个聚类中的一组代表性话题(T1-Tx)并且用代表性话题标记每个聚类。这方面的示例如图4、图6、图8和图10所示。方框307的计算机可执行的指令由片段标记模块132实施，该片段标记模块与查询模块114通信用于提供输出结果给计算设备101。

在一个实施例中，图2中未示出，在方框305所示的步骤之后，文本处理模块130(例如，n-gram处理)识别并滤掉话题网络中的离群结点。离群结点是被认为与话题网络中的大部分或聚类的用户分开的离群用户。也就是说，它们可以涉及具有与其他用户没有足够的共性度量的话题的用户(例如，由n-gram处理所确定)，用于的特定话题的子集与其他用户的每个话题的子集在统计上并不重复预定的阈值。话题网络内的这组离群用户或结点表示成UO，其中UO是UT的子集。在一个方面，文本处理模块130输出用户UT，而去除用户UO。

参见图3，示出了图2中方框301-307的示例的实施方式，用于执行特别涉及Twitter用户的数据的动态细分。图3所示的示例性方法由图1的服务器100实施(例如，用户识别模块128、预处理模块129、文本处理模块130、聚类模块131和片段标记模块132)。

Twitter用户和话题的动态行为细分过程的示例(例如，由服务器100实施)

图3示出了细分方法的示例，因此细分的方法使用这些示例性步骤：

1.收集特定查询或话题的用户列表。例如通过收集已经发布有关给定的搜索项查询的推文(在过去的6个月内在他们的推文中使用“iPhone”的用户的推文)的所有用户或仅仅是具体的品牌处理的所有跟贴者可以编译此列表。此步骤可以由图1中的用户识别模块128来实施。

2.对于每个用户，收集他们的推文历史的随机样本列表(例如，有关具体的社交网络平台Twitter的帖子)。在一个方面，样本将取自他们最近的推文以获得他们目前的兴趣和偏好的准确的情况。在优选的方面，优选500至1000个推文之间的样本大小以提取可使用的足够的井号标签。

3.从用户的每篇历史推文提取井号标签，并且使每个井号标签与对应的用户关联上。结果应当是从用户到井号标签列表的映射。

4.对每个用户的井号标签列表执行文本处理，使文本标准化为小写，并且去除无含义的共同井号标签，例如，“#RT”(即，去除停止词(stopword))。图1的预处理模块129可以实施步骤2-4。

5.从井号标签的全列表开始，使用字符n-gram模型以通过使用词条频率比文件频率(TF-IDF)来表示井号标签。此过程的结果是文件‐词条矩阵，其中列代表用户，行代表n-gram，并且每个单元代表TF‐IDF统计数值。图1中的文本处理模块130可以实施此步骤。

在优选的方面，n-gram处理的trigram(n＝3)得到处理速度与细分质量之间的最佳平衡。

6.对于预定数量的聚类,使用非监督式机器学习聚类方法，例如，在一方面，k＝[5，9]得到高相关片段。在优选的方面，球形k-means聚类算法在聚类高维文本数据中特别有效。此算法的最终结果是从每个用户到k聚类之一的映射。图1的聚类模块131可以实施此步骤。

然而，聚类分析的多个方面之一是标记聚类。为了解决这个问题，增加额外的步骤来标记聚类(例如，由图1的片段标记模块132实施)：1.对于每个聚类，收集该聚类中与每个用户相关的所有标签；2.对于每个井号标签，统计已经使用该聚类中的标签的用户数量；3.对于每个聚类，用顶部井号标签标记该聚类。在优选实施例中，顶部大约十个井号标签提供聚类的良好标记。

参见图3，示例被图示为服务器100(例如，模块128、129、130、131、132)所实施的用于分析Twitter的社交网络用户行为的动态细分过程。再次参见图3，根据本示例的步骤提供的最终结果是用表示片段中用户的兴趣的一组井号标签标记的一组k片段。在优选的方面，这种类型的行为细分对于市场营销者和CRM应用非常有力。

细分案例研究的示例：

在此分段中，针对“Starbucks”和“BBC”话题查询详细呈现了两种案例研究(可由图1的***和服务器100实施)，并且针对“Xbox One”和“Mccafe”另外呈现结果。如所讨论的，这些片段提供可行动的信息，例如：1.识别兴趣不同的用户的片段；2.识别每个片段的相对大小；3.瞄准社交媒体活动以匹配你的用户最感兴趣的具体话题；4.与最重要的片段中的各个用户接洽；5.测量你的用户基础随时间的变化。

动态细分分析的选择的话题的示例：Starbucks

第一案例研究示出了在2013年5月至2013年7月之间发布与“Starbucks”有关的推文的Twitter用户的行为细分的结果。图4示出了关于每个片段的顶部井号标签的结果。每个片段后的圆括号中的数字示出了片段的大小。类似地，井号标签后的数字示出了该片段中使用对应的井号标签的用户的频率。

转到图4，发布有关“Starbucks”的推文的Twitter用户(k＝5)的细分的顶部井号标签(例如，如图1的服务器100所输出的，和/或图2-3的过程步骤)。圆括号中的数字表示井号标签的频率。

参见图5，示出了相同细分结果(例如，发布有关“Starbucks”的Twitter用户(k＝5)的细分)的分段的词云(word cloud)。不同颜色的词云表示不同的片段，而每个词的字体大小表示其相对大小。可以使用本领域的技术人员设想到的其他视觉表示指标。

词云允许便捷地可视化有关每个片段的特性。例如，从词云可以直接看出以下几点：

·深蓝色和鲜绿色区段表示发布包括"#inmiddleschool"、"#directioners"(One Direction乐迷)和"#believetour"(Justin Bieber音乐巡演)的推文话题的年轻用户的区段。

·深红色区段由使用例如"#cancionesperfectas"(西班牙语的“perfect songs”)、"#avaliando"(葡萄牙语的"evaluating")和"#enunmundodonde"(西班牙语的"in a worldwhere")的短语的非英语用语组成。

·淡蓝色区段表示例如"#royalbaby"(Kate Middleton的婴儿)和"#ripcorymonteith"(已故演员Cory Monteith)的热点问题的用户。

·最后的橙色区段由兴趣包括对井号标签表示的技术、时尚、咖啡和旅行的用户组成，例如，"#***"、"#android"、"#fashion"、"#travel"和"#coffee"。

另外，由于文本字体大小表示词语的相对频率，所以可以总结出淡蓝色和深红色区段最小，而鲜绿色区段最大。

这种类型的细分研究(如图1的***所示)是有利的，因为输出行为细分数据允许公司瞄准他们的社交媒体活动。例如，或许只有发布有关"#coffee"和"#fashion"的推文的用户的橙色区段对特定的公司很重要，所以在一方面，提供进一步分析以关注这些用户并且分析他们的兴趣。可替代地，或许公司希望推出非英语口语活动，深红色区段的用户是西班牙语或葡萄牙语活动作为选择语言的主要目标。

从此区段词云开始，可以快速获得不同区段的概览，以便挑选并选择进一步分析哪些区段。

涉及用于确定社交网络动态细分的话题(“BBC”)的示例(例如，Twitter用户)

第二案例研究示出了在2013年5月至2013年7月之间的行为细分结果(例如，如图1的服务器100所实施的以及图2和图3针对发布有关“BBC”(英国广播公司)的推文的Twitter用户的过程)。图6示出了针对每个区段的顶部井号标签的结果。图7示出了对应的词云(word cloud)。

"BBC"的用户明显不同于Starbucks的用户。另外，从细分产生了一些不明显的结果：

深红色区段表示发布除普通话题如"#music"和"#facebook"之外的有关例如"#usa"、"#israel"、"#syria"的世界热点的推文的用户。

英国的Twitter用户用带井号标签的淡绿色区段表示，例如，"#wimbleton"(英国网球公开赛)、"#nhs"(英国国民健康服务)和"#royalbaby"。

感兴趣的用户群似乎来自日本，他们的推文话题包括："#nhk"(日本广播公司)、"#niconews"(日本新闻组织)、"#nhk24"。

最后两个区段由发布有关具体的世界热点的推文的用户组成。淡蓝色区段涉及"#direngazipark"(土耳其人在Diren Gezi公园抗议)的井号标签，并且深蓝色区段涉及有关中东热点的井号标签，例如，"#morsi"、"#saudi"和"#cairo"。

这些不同的聚类允许公司用比其他类型的社交媒体分析更精确地修改其Twitter展示。

额外的细分结果

我们提出了在2013年7月与2013年8月之间发布有关"Xbox One"和"Mccafe"的推文的Twitter用户的两个另外的细分结果。图8和图10以及图9-11示出了这些结果(例如，如图1的服务器100可实施的)。具体地讲，图8示出了图1的***的示例的结果，其中顶部井号标签用于细分发布有关“Xbox One”的推文的Twitter用户(k＝5)。圆括号中的数字表示井号标签的频率。图9示出了在词云取向中发布有关“Xbox One”的推文的Twitter用户的示例的细分，其中不同颜色或其他视觉标识符代表不同的区段，而字体大小代表相对大小。图10示出了顶部井号标签的示例的结果，而顶部井号标签用于细分发布有关“Mccafe”的推文的Twitter用户(k＝5)，并且圆括号中的数字表示井号标签的频率。图11示出了发布有关“Mccafe”的推文的Twitter用户的示例的细分，并且其他视觉标识符可以代表不同的区段，而字体大小代表相对大小。

获得社交网络数据：

相对于获得社交网络数据，尽管图1或图2中未示出，将认识到服务器100获得社交网络数据。社交网络数据可以通过多种方式获得。以下是获得社交网络数据的非限制性示例的实施例。

转到图12，示出了用于获得社交网络数据的计算机可执行的指令的示例的实施例。数据可以实时接收作为数据流，包括消息和元数据。此数据存储在数据存储116中，例如，使用压缩行格式(方框501)。在非限制性示例的实施例中，使用MySQL数据库。例如，由社交网络数据模块107实施方框500和501。

在示例的实施例中，社交网络模块107接收的社交网络数据被复制，并且社交网络数据的副本存储在多个服务器上。这在分析社交网络数据时有利于并行处理。换句话讲，一个服务器能够分析社交网络数据的一方面，而另一个服务器可以分析社交网络数据的另一方面。

服务器100使用索引器过程索引数据(方框502)。例如，索引器过程是与存储过程分离的过程，该存储过程包括扫描它们在数据存储116中具体化的消息。在示例的实施例中，索引器过程在单独的服务器上自己运行。这便于并行处理。索引器过程，例如，是使每天或一些其他给定的时间段的索引数据的表格具体化的多线程过程。索引的数据被输出并存储在索引存储117中(方框504)。

返回到图5，服务器100进一步获得有关哪些用户帐号跟随其他用户帐号的信息(方框503)。此过程包括识别与简介相关的元数据并且将其存储在简介存储中(方框505)。

在获得并存储数据之后，可以分析数据例如以识别话题和行为兴趣。

确定与话题相关的用户：

关于确定与话题相关的用户，就图2的方框302而言，应当认识到这种操作可以以多种方式进行。以下是可以用于确定与话题相关的用户的非线性示例的实施例。

在示例的实施例中，确定与话题相关的用户的操作(例如方框302和方框402)基于Sysomos搜索引擎，并且在2009年7月10日提交的题为“用于信息发现和文本分析的方法和***”的每个专利申请公开号2009/0319518中有描述，该专利申请的整个内容通过引用的方式并入本文中。根据每个专利申请公开号2009/0319518中描述的过程，话题用于表示某个时间间隔内的流行文件。在本文中认识到，此过程还可以用于识别与话题相关的用户。具体地讲，当话题(例如，关键词)提供给美国专利申请公开号2009/0319518的***时，***返回与话题相关且流行的文件(例如，帖子、推文、消息、文章等)。通过使用本文描述的提出的***和方法，可执行的指令包括确定文件的一个或多个作者的服务器100。

在执行确定与话题相关的用户的操作的另一个示例的实施例中(例如，方框302和方框402)，计算机可执行的指令包括：确定与给定话题相关的文件(例如，帖子、文章、推文、消息等)；确定文件的一个或多个作者；并且确立一个或多个作者为与给定话题相关的用户U_T。

应当认识到，其他类型的聚类和社区检测算法可以用于通过聚类模块131执行聚类。聚类模块可以利用k-means聚类、球形k-means聚类、主成分分析(PCA)、均值漂移聚类的一种或多种，并且聚类模块131可以利用其他类型的数据聚类技术以处理高维数据。

参见图13，示出了与图1的服务器的计算机实施的用户识别模块、预处理模块、文本处理模块、聚类模块和片段标记模块的每个以及每个模块的示例性输出相关的计算机可执行的指令的示例的实施例的流程图。如图所示，用户识别模块128接收与多个用户U以及他们相关的社交网络帖子/消息(例如，推文)相关的数据。用户识别模块128然后提取具有涉及预定话题T的社交网络帖子/消息的用户U_T的列表，并且将用户U_T的列表作为输出1301提供。

随后，在输出1302，预处理模块129被配置成从每个用户提供映射到与各个用户相关的多个话题列表。

文本处理模块130然后被配置成接收话题列表以及与每个用户U_T的关联，例如，以基于在文本处理模块130限定预定片段大小计算n-gram概率矩阵。也就是说，在一方面，文本处理模块130被配置成：对于每个用户(U_T)，提供拆分成X个片段T_i->T_i1、T_i2、T_iX的每个话题；过滤重复的n-gram以限定用于所有用户(U_T)的T_i1…T_if n-gram；并且输出限定每个用户和所有用户的所有n-gram中的每个n-gram的概率的n-gram概率矩阵(输出1303)。示例的输出1303定义为：用户1：{Prob(U₁，T_i1)…Prob(U₁,，T_if)}；用户2：{Prob(U₂，T_if)}…用户T-1：{Prob(U_T-1，T_i1),…Prob(U_T-1，T_if)}。

聚类模块131因此接收每个用户U_T的n-gram TF-IDF的矢量。聚类模块131然后被配置成将每个用户U_T映射到K个聚类之一(例如，用户1->C₁；用户2->C₁；…用户T-1->C_k)。

片段标记模块132然后被配置成在输出1305提供输出1305：每个聚类的标记片段(例如，C1->#interest 1、#interest2…Ck->#interestk)。

将认识到，本文中所描述的***和方法的示例实施例的不同特征可以用不同的方式相互组合。换言之，尽管没有具体阐明，但根据其他示例实施例，不同的模块、操作和部件可以一起使用。

本文中描述的所流程图中的步骤或操作仅是示例。在不脱离本发明或这些发明的精神的情况下，这些步骤或操作可以有许多变化。例如，这些步骤可以按不同的顺序进行，或者可以添加、删除或修改步骤。

本文中描述的GUI和屏幕仅仅是示例。在不脱离一个或多个发明的精神的情况下图形和互动元素可以有变型。例如，这些要素可以定位在不同的位置，或者可以添加、删除或修改这些要素。

尽管已经参照某些特定实施例对以上内容进行了描述，但在不脱离所附权利要求书的范围的情况下，其各种修改对于本领域的技术人员而言将是明显的。

Claims

1.一种用于分析来自社交网络平台上的多个用户的数据的计算机实施的方法，包括：

接收与所述社交网络平台相关的话题的查询；

确定在所述社交网络平台上具有与所述话题相关的至少一个社交网络行为的一组用户；

针对这组用户的每个用户选择预定数量的帖子并且使所述预定数量的帖子的每个与各个用户相关；

针对每个用户细分选择的帖子以确定在这组用户中选择的帖子的每个的似然；并且

针对每个用户的选择的帖子进行聚类以限定多个聚类并且确定从每个用户到所述多个聚类的至少一个的映射，每个聚类包括表示这组用户之间的预定数量的帖子的聚类内频繁使用的话题的代表性话题。

2.根据权利要求1所述的方法，其中所述至少一个社交网络行为包括以下各项的至少一种：与所述社交网络平台上的话题相关的推文、帖子、评论。

3.根据权利要求1所述的方法，其中确定一组用户还包括根据与所述话题相关的所述社交网络行为的至少一个共同属性从所述多个用户细分这组用户。

4.根据权利要求1所述的方法，其中确定具有所述至少一个社交网络行为的片段内的这组用户还包括动态追踪每个用户的社交媒体活动并且当所述活动满足与所述话题相关的预定行为模式时确定这组用户。

5.根据权利要求4所述的方法，还包括相比于现有区段从与至少一个用户的话题相关的当前和过去的活动的至少一个选择的社交媒体活动的重复共性，并且更新所述区段以包括具有所述重复共性的所述至少一个用户。

6.根据权利要求1所述的方法，其中针对每个用户选择预定数量的帖子并且与各个用户相关还包括：

将这组用户中的每个用户建模为结点并且基于所述社交网络平台上的社交网络活动确定每个用户的话题列表并且与所述各个用户相关；

从所述社交网络活动提取文本并且通过针对与每个用户相关的每个话题执行文本处理来滤掉无关话题；并且

提供每个提取的话题和与所述话题相关的对应的用户之间的关系映射。

7.根据权利要求6所述的方法，还包括：

执行文本处理以确定来自与每个用户相关的所述话题的文本的至少一个预定子集与这组用户的其他用户的关系；并且

生产针对文本的每个子集的用户之间的统计重复以及针对每个所述用户的文本的所述至少子集的发生似然。

8.根据权利要求7所述的方法，还包括：利用所述生产的重复以及发生似然用于聚类所述选择的帖子。

9.根据权利要求1所述的方法，还包括根据预定数量的排名最高的话题标记每个聚类。

10.根据权利要求7所述的方法，其中生成所述统计重复进一步包括：基于预定片段大小生成n-gram概率矩阵。

11.根据权利要求1所述的方法，其中聚类还包括利用k-means聚类、球形k-means聚类、主成分分析(PCA)、均值漂移聚类的至少一种。

12.根据权利要求1所述的方法，还包括：

针对每个用户的所述预定数量的帖子的每个将其中包含的话题细分成预定数量的片段；

针对所述这组用户的每个将重复片段过滤成限定的过滤的组的片段；并且

生成限定每个用户以及所述这组用户的所有片段中的每个片段的概率的基于片段的概率矩阵。

13.根据权利要求12所述的方法，还包括：

接收这组用户中每个用户的片段概率的矢量；并且

将每个用户映射到预定数量的聚类之一中。

14.一种非临时性计算机可读介质，包括在由一个或多个处理器执行时被配置成分析来自社交网络平台上的多个通信者的数据的计算机可执行的指令，所述计算机可执行的指令被配置成用于：

接收与所述社交网络平台相关的话题的查询；

确定在所述社交网络平台上具有与所述话题相关的至少一个社交网络行为的一组通信者；

针对这组通信者的每个通信者选择预定数量的帖子并且使所述预定数量的帖子的每个与各个通信者相关；

针对每个通信者细分选择的帖子以确定在这组通信者中选择的帖子的每个的似然；并且

针对每个通信者的选择的帖子进行聚类以限定多个聚类并且确定从每个通信者到所述多个聚类的至少一个的映射，每个聚类包括表示这组通信者之间的预定数量的帖子的聚类内频繁使用的话题的代表性话题。

15.根据权利要求14所述的计算机可读介质，其中所述至少一个社交网络行为包括以下各项的至少一种：与所述社交网络平台上的话题相关的推文、帖子、评论。

16.根据权利要求14所述的计算机可读介质，其中确定一组用户还包括根据与所述话题相关的所述社交网络行为的至少一个共同属性从所述多个用户细分这组用户。

17.根据权利要求14所述的计算机可读介质，其中确定具有所述至少一个社交网络行为的片段内的这组用户还包括动态追踪每个用户的社交媒体活动并且当所述活动满足与所述话题相关的预定行为模式时确定这组用户。

18.根据权利要求17所述的计算机可读介质，还包括相比于现有区段从与至少一个用户的话题相关的当前和过去的活动的至少一个选择的社交媒体活动的重复共性，并且更新所述区段以包括具有所述重复共性的所述至少一个用户。

19.根据权利要求14所述的计算机可读介质，其中针对每个用户选择预定数量的帖子并且与各个用户相关还包括：

20.根据权利要求19所述的计算机可读介质，进一步包括：