CN104011718A - 用于检测社交媒体中的趋势的方法、计算机程序和计算机 - Google Patents

用于检测社交媒体中的趋势的方法、计算机程序和计算机 Download PDF

Info

Publication number
CN104011718A
CN104011718A CN201280062968.6A CN201280062968A CN104011718A CN 104011718 A CN104011718 A CN 104011718A CN 201280062968 A CN201280062968 A CN 201280062968A CN 104011718 A CN104011718 A CN 104011718A
Authority
CN
China
Prior art keywords
message
user
users
sent
computing machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280062968.6A
Other languages
English (en)
Other versions
CN104011718B (zh
Inventor
伊川洋平
榎美纪
R.H.P.鲁迪
那须川哲哉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN104011718A publication Critical patent/CN104011718A/zh
Application granted granted Critical
Publication of CN104011718B publication Critical patent/CN104011718B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/234Monitoring or handling of messages for tracking messages

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

为了更精确地并在较早的阶段检测社交媒体中的突发信息(以不同于正常的规模散布的信息)。提出一种方法,其中在社交媒体中,从由多个用户传送的多个消息选择特定消息组。这里,在消息中包括其中由一个用户传送的消息由另一用户引用和重新传送的消息。本方法具有下列步骤:对于其中由一个用户传送的消息由另一用户引用和重新传送的消息,执行进一步重新传送的可能性的初级评估;识别已经传送了其中初级评估结果高于预定第一阈值的消息的一个用户;基于其中由一个用户传送的消息已被引用和重新传送的消息组,识别与已重新传送的消息组相似的消息组;执行将进一步重新传送相似消息组的可能性的次级评估;以及选择其中次级评估结果高于预定第二阈值的消息组。

Description

用于检测社交媒体中的趋势的方法、计算机程序和计算机
技术领域
本发明涉及一种信息处理技术,并且更具体地,其涉及一种用于更快速和更精确地检测社交媒体中的突发信息(以不同于正常的规模散布的信息)的技术。
背景技术
存在一种现象,其中当自然灾害或重要社会问题出现时,社交媒体上的信息以极快的速度和庞大的规模散布,并且该现象有时被称为“突发(burst)”现象。在这种突发信息中包括了与事实不同的信息(例如错误信息、谣言)并且取决于情况该信息可能成为企业活动的威胁。因此,寻求可以快速和精确地检测“突发”现象的技术。
响应于该需要,提供了各种先前的技术。作为示例,在专利文献1中,对于称为“提供能够从网络上公开的信息取得谣言信息,同时提取与这种谣言信息相关的信息,并且同时将其呈现给用户的技术”的问题,提供了一种技术,其“包括数据收集装置,用于接收由网络上的服务器设备公开的数据,以及用于在收集数据存储器装置中将所述数据存储为各种收集数据;谣言信息判断装置,用于提取包括在收集数据中的字符串,并且用于基于字符串获得收集数据是否是谣言信息的判断结果;相关信息数据提取装置,用于从网络上的服务器设备或从预先累积的相关信息数据库提取被判断为谣言信息的谣言信息数据和至少是谣言信息数据的作者、或谣言信息数据的内容、或存储数据的服务器设备的名称或网络地址或者谣言信息数据的文件信息的相关信息数据;以及输出装置,用于同时输出谣言信息数据和相关信息数据。”此外,在非专利文献1中,提供了一种用于通过评估关键字的增加程度而检测信息是否是突发信息的技术。
引用列表
背景技术
专利文献
专利文献1:日本公开待审No.2008-165598
非专利文献
非专利文献1:
J.Kleinberg:Bursty and Hierarchical Structure in Streams,Proceeding of the8th ACM SIGKDD International Conference on Knowledge Discovery and DataMining,(2002).
发明内容
技术问题
然而,存在改进快速和精确地检测“突发”现象的空间。
本发明考虑了这种现象,并且其目的是提供能够通过考虑发送信息的人和信息的内容的特征而快速和精确地检测“突发”现象的技术。
问题的解决方案
具体地,通过发明人的研究,在获得下列知识之后创造出本发明:1.散布可能性根据发送用户的影响程度而不同(由高影响力的用户发送的信息更可能被重新发送)。2.散布可能性根据用户重新发送的频率而不同(对于经常重新发送的用户和很少重新发送的用户重新发送的重要性不同)。3.重新散布可能性根据信息的独特性而不同(当重新发送的信息的内容不同于正常时,信息散布可能性高)。
具体地,本发明提供一种用于通过使用计算机从由多个用户通过社交网络发送的多个消息选择识别的消息组的方法。在消息内,包括由与原始消息用户不同的用户发送的消息,并且这些消息引用由原始消息用户发送的消息。所述方法包括下列步骤:对于由与原始消息用户不同的用户发送的引用由原始消息用户发送的消息的消息,执行进一步重新发送的可能性的初级评估;识别已经发送了初级评估结果高于预定第一阈值的消息的单个用户;基于引用由单个用户发送的消息的重新发送消息组,识别与重新发送消息组相似的消息组;执行将进一步重新发送相似消息组的可能性的次级评估;以及选择次级评估结果高于预定第二阈值的消息组。
这里,在执行初级评估和次级评估的步骤,可以作为其他用户的影响力的递增函数而计算进一步重新发送的可能性。更具体地,可以作为关注其他用户的用户数量的递增函数而计算其他用户的影响力程度。此外,在执行初级评估和次级评估的步骤,可以作为其他用户过去重新发送引用第一用户的消息的消息的程度的递减函数而计算进一步重新发送的可能性。更具体地,可以作为在过去固定时段内其他用户重新发送引用第一用户的消息的消息的次数而计算已重新发送的程度。此外,在执行初级评估和次级评估的步骤,可以作为由其他用户重新发送的消息内容和由其他用户过去进一步重新发送的消息的相似度的递减函数而计算进一步重新发送的可能性。更具体地,可以通过将由其他用户重新发送的消息和由其他用户过去进一步重新发送的消息进行文本串匹配而计算相似度。
此外,消息可以是在规定条件下从在社交媒体上发布的消息采样的消息。此外,消息可以是从在包括规定关键字的条件下在社交媒体上在规定时间段内发布的消息采样的消息。此外,社交媒体可以是微博。
此外,可以构架为使得向社交媒体发布的计算机通过网络连接到选择识别的消息组的计算机,并且进一步包括选择计算机接收响应于来自选择计算机的规定条件请求而从发布计算机发送的消息的步骤。还可以进一步包括在选择计算机的存储器装置中存储接收的消息的步骤。
显然,在其中本发明被理解为计算机程序和计算机***的情况下,其提供与其中本发明被理解为上面描述的方法的情况基本上相同的技术特征。
本发明的有利效果
通过使用本发明,通过考虑发送信息的人和信息的内容的特征,能够快速和精确地检测“突发”现象。
附图说明
图1是解释微博(microblog)***的概略图。
图2是解释微博的关注者和被关注的关系的概略图。
图3是用作用户终端的智能电话和相关屏幕显示的说明图。
图4是存储在微博服务器的硬盘设备中的数据的数据结构的说明图。
图5是发送的消息的类型的说明图。
图6是解释计算机的硬件结构的框图。
图7是解释由计算机执行的处理的流程图。
图8是重新发送的可能性的计算的公式的说明图。
图9是时间段T过去的时间段Tp(T)的说明图。
具体实施方式
实施例
下列部分基于附图详细描述执行本发明的最佳模式,但下列实施例并未限制根据权利要求的范围的本发明,并且在实施例内描述的特征的整个组合对本发明的解决方式并非必要。可以通过许多不同模式执行本发明,并且没有理由其应被解释为限于对于实施例记录的内容。此外,应注意在实施例内描述的特征的整个组合对本发明的解决方式并非必要。贯穿实施例的整个描述相同标号应用于相同元件(当未另外指定时)。
图1是解释微博***的概略图。该***包括微博服务器2和用户终端,并且它们相互连接用于通过因特网4通信。用户终端可以是提供通信功能的任何模式的计算机。例如,附图中示出智能电话31、平板32和个人计算机(笔记本型)33,但是此外,虽然未示出,可以利用例如个人数字助理(PDA,移动信息设备)、车载计算机或笔记本计算机。
图2是解释微博的关注者和被关注的关系的概略图。微博的用户可以提前登记分享相同爱好或兴趣的其他用户,并且用户可以自动接收由那些其他用户发送的消息。该登记过程被称为“关注(to follow)”,并且相关关系可以是下列两种类型:其中涉及的用户都彼此关注,以及其中仅用户之一单方面关注其他用户。例如,图2中的箭头示出用户AAA和用户BBB彼此相互关注,而用户BBB单方面关注CCC,并且用户CCC单方面关注用户AAA。
图3是用作用户终端的智能电话31和相关屏幕显示的说明图。微博应用的屏幕显示在智能电话31的触摸屏上,并且应用屏幕从顶部顺序分成主页组件311、时间轴(timeline)组件312和操作组件313。在主页组件311内显示菜单按钮和时间轴组件312是用户AAA的时间轴的指示符。在时间轴组件312内从顶部顺序显示来自用户AAA的消息组件312a和312b以及来自用户BBB的消息组件312c。这些消息组件312a-312c沿时间序列显示。具体地,在最高位置处的消息组件312a对应于最新消息。
图4是存储在微博服务器2的硬盘设备20和21中的数据的数据结构的说明图。在存储在硬盘设备20中的消息表(图4(a))内,提供示出发送每一个消息的日期和时间的发送时间(created_at)、识别每一个消息的消息ID(id)、识别发送消息的用户的用户ID(user_id)和作为消息的内容的文本(text)。此外,可以设置文本的字符计数限制(例如140个字符或更少)。同时,在存储在硬盘设备21中的用户关系表(图4(b))内,提供示出登记关注关系的日期和时间的登记时间(registered_at)、识别作为关注来源(origin)的用户的关注来源用户ID(following_user_id)和识别作为关注目标的用户的关注目标用户ID(followed_user_id)。
图5是发送的消息类型的说明图。图5(a)描述正常消息。这里,用户AAA向她自己的时间轴发送消息,并且这些消息不仅显示在用户AAA的时间轴中,而且显示在关注用户AAA的那些用户的(在图2的示例中,用户BBB和用户CCC)时间轴中。图5(b)描述回复消息。回复消息是对特定消息的响应,并且其被显示在响应者的时间轴中以及关注响应者的那些用户的时间轴中。这里,用户BBB发送回复消息“嗯,你好。”作为对用户AAA的消息的响应,并且该回复消息显示在用户BBB的时间轴中以及关注用户BBB的用户(在图2的示例中,用户AAA)的时间轴中。
图5(c)和5(d)都描述复制消息的类型,并且它们示出作为复制消息重新发送显示在用户CCC的时间轴中的用户AAA来源消息“我第一次上微博”的形式。在两种情况下,复制消息显示在关注用户CCC的用户(在图2的示例中,用户BBB)的时间轴中,但是在图5(c)中示出的模式中,其以原始发布者用户AAA的名字显示在关注用户CCC的用户的时间轴中,并且在图5(d)中示出的第二模式中,其以转发发布者用户CCC的名字显示。图5(e)描述引用消息,这示出作为引用原始消息并且还包括用户CCC的新评论“欢迎!”的消息重新发送在用户CCC的时间线中显示的用户AAA起源消息“我第一次上微薄”的形式。所引用的消息显示在关注用户CCC的用户的时间轴中。
图6是解释计算机的硬件结构的框图。计算机1的硬件结构包括(低速或高速)总线10、连接到总线10的CPU(中央处理单元)11、RAM(随机存取存储器、存储器设备)12、ROM(只读存储器、存储器设备)13、HDD(硬盘驱动器、存储器设备)14、通信接口15和输入-输出接口16。进一步提供连接到输入-输出接口16的鼠标17、平板显示器(显示设备)18和键盘19。计算机1被描述为采用通用个人计算机架构,但在更高数据处理性能和可用性的情况下可以倍增例如CPU11和HDD14的组件。还可以利用各种其他类型的计算机***代替桌面型计算机。
计算机1的软件结构包括提供基本功能的操作***(OS)、利用OS的功能的应用软件和用于输入-输出设备的驱动器软件。这些软件中的每一个与各种数据一起被加载到RAM12中,并且由例如CPU11执行。计算机1作为一个单元执行图7中示出的处理。
图7是解释由计算机执行的处理的流程图。首先,从计算机1向微博服务器2发送条件(S1)。这可以是指定在期间发送消息的时间段的条件、指定在消息内包括特定关键字的条件、指定仅重新发送消息的条件或结合这些参数的条件。然后,计算机1从微博服务器2接收符合上述条件的一组消息的数据(S2)。此时,与符合条件的消息组的数据(图4(a))一起同时接收关于与这些消息相关的用户的数据(图4(b))是可以接受的。
然后,对于每一个消息,处理计算其要被重新发送的可能性(S3)。图8是重新发送的可能性的计算的公式的说明图。这里,发送时间ti、发送用户ui、信息参考来源用户si和内容ci的四个集合用于将消息mi定义为mi=(ti,ui,si,ci)(i=1,2…)。将被重新发送的消息表示先前描述的复制消息(图5(c)和5(d))和引用消息(图5(e))。图5(c)中示出的第一模式复制消息和引用消息都体现在微博服务器2侧上准备的公共函数,从而通过设置消息ID以反映它,例如在消息ID(参见图4(a))内包括信息参考来源用户si的用户ID,能够指示第一模式复制消息或引用消息。作为比较,图5(d)中示出的第二模式复制消息不体现在微博服务器2侧上准备的公共函数,从而使用例如“RT”的将要显示在第二模式复制消息的内容中的唯一串以指示它,这使得能够识别其是第二模式复制消息以及信息参考来源用户si。
图9是用于评估在时间段T期间的散布可能性的、时间段T过去的时间段Tp(T)的说明图。这里,做出在时间段T期间微博上的关注关系的有向图G(T)=(V(T),E(T))。V(T)是时间段T期间的用户集合,并且E(T)是{e(u,s)|在时间段T内用户u关注用户s}。
然后,对于消息mi定义散布可能性burst[m](mi)。这里,由用户si发送的信息被假设为作为消息mi由用户ui在时间段T期间重新发送,并且通过下面的等式定义散布可能性burst[m](mi)。
等式1
burst m ( m i ) = centrality ( u i , T ) 1 + α × ref ( u i → s i , T p ( T ) ) × β × sim ( C ( u i , T p ( T ) ) , c i )
mi=(ti,ui,si,ci)
ti∈T
这里,centrality(u,T)示出用户u在时间段T内的中心性。具体地,centrality(u,T)可以通过使用每一种类型的中心性(接近中心性等)来计算。采用自然对数用于次数(degree)中心性(关注每一个用户的其他用户的数量),并且centrality(u,T)取log[e](#关注者)。此外,ref(u-->s,T)示出用户u在时间段T期间参考由用户s发送的信息的程度。具体地,ref(u-->s,T)表示用户u在时间段T期间是否参考和重新发送用户s,取[0,1]。如果用户u在时间段T期间参考和重新发送用户s,则值为1,如果否,则值为0。这使得能够设置任意函数以根据参考程度增加,但数值范围不需要是从0至1。sim(C,c)示出内容集合C(大写)和内容c(小写)之间的相似度的程度。具体地,sim(C,c)可以通过使用向量空间模型中余弦相似度来计算,取[0,1]。简而言之,其将文本表示为向量空间模型中单词(名词等)的多维向量。结果是使得两个文档的相似度能够作为向量的相似度计算。余弦相似度是由两个文档向量形成的角度θ的余弦(cosθ)。当两个向量完全匹配时,余弦相似度取1。这使得能够设置任意函数以根据相似度程度增加,但数值范围不需要从0至1。此外,C(u,T)示出用户y在时间段T期间发送的博客内容的集合。此外,α是设置ref的影响力的常数,并且在该情况下,α=5。β是设置sim的影响力的常数,并且在该情况下,β=5。
根据在时间段T期间发送的消息mi的散布程度burst[m](mi),在时间段T中由用户s发送的信息的散布程度burst[s](s,T)可以使用下列等式求出。
等式2
burst s ( s , T ) = Σ i s . t . t i ∈ T , s i , s ) burst s ( s , T )
mi=(ti,ui,si,ci)
然后,识别变为具有第一异常阈值的散布可能性的消息的参考来源的用户(S4)。具体地,根据对于时间段Ti(i=1,2,…)获得的burst[s](s,Ti)系列,使用在非专利文献1中公开的现有方法执行突发检测,从而识别发送突发信息的用户s。换句话说,基于具有对于隐藏模型的活动程度并且对于给定系列如果频率变得更高则改变为更高的活动程度的模型判断突发程度。
然后,基于最初由识别用户发送的重新发送消息的消息集合,聚类(clustering)到相似消息组(S5)。具体地,检测用户S[b]是否在时间段Tb发送突发信息。相对于时间段T重新发送消息集合M(s,T)={m[i]|t[i]∈T,s[i]=s},对于由用户s发送的信息,对于每一个相同内容创建聚类(s,T)(j=1,2…)。在该过程期间可以应用下列两种方法。首先是使用字符串匹配的方法。这使用字符串匹配来比较在消息m∈M(s,T)的内容中包括的由用户s[b]发送的内容(图8中“漱口水好像对辐射暴露有效”),并且匹配的消息被放置在相同聚类(cluster)中。另一方法是通过文档聚类。其使用现有文件聚类方法(例如,k-均值方法)聚类在M(s[b],T[b])中包括的内容集合。
然后,对于每一个聚类,计算进一步重新发送的可能性(S6)。具体地,使用下列等式求出聚类M[j]的内容的散布程度burst[M](M[j])。
等式3
burst M ( M j ) = Σ i s . t . m i ∈ M j burst m ( m i )
可能性输出在第二阈值之上的消息组(S7)。具体地,如果burst[M](M[j])处于阈值(第二阈值)或之上,其检测到突发。
本发明能够采用完全硬件的实施例、或完全软件的实施例或包括硬件和软件两者的元件的实施例的形式。在优选实施例中,虽然未限于下列内容,本发明由包括固件、永久软件、微代码或语法解析微码的软件执行。
此外,本发明可以采用计算机、或任意命令执行***、或计算机程序或提供用于与此相关的用途的程序代码的计算机可读介质的模式。在实现本发明的目的时,计算机可读介质可以是能够保存、存储、传送或传播用于任意命令执行***、装置或设备或用于相关用途的程序的任意设备。具体地,上述语法解析控制模块结构化该任意命令执行***或“计算机”。
介质可以是电子、磁、光、电磁、红外或半导体***(或装置或设备)或传播介质。作为计算机可读介质的示例,可以提供半导体或固态存储器、磁带、可安装可拆卸计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、刚性电磁盘、或光盘。作为光盘的当前示例,可以提供致密盘只读存储器(CD-ROM)、致密盘可读-可写存储器(CD-R/W)和DVD。
对于适用于存储、执行或存储和执行程序代码的数据处理***,可以提供直接或通过***总线间接链接到存储器元件的至少一个处理器。对于该存储器元件,可以提供在程序代码的实际执行过程期间使用的本地存储器或大容量存储器,或者为了减少在执行期间必须从大容量存储器设备读取的次数,可以提供为程序代码的至少部分提供临时存储的高速缓冲存储器。
输入-输出设备或I/O设备(例如键盘、显示器和指示设备,但不限于此)可以直接或通过中间I/O控制器链接到***。
此外,网络适配器可以链接到***,并且数据处理***可以被布置为通过专用或公共网络的中介连接到另一数据处理***、或远程打印机或存储器设备。当前可获得的网络适配器的部分是调制解调器、电缆调制解调器和以太网(R)卡。
参考标号列表
1:个人计算机。11:CPU(中央处理单元)。12:RAM(随机存取存储器、存储器设备)。13:ROM(只读存储器、存储器设备)。14:HDD(硬盘驱动器、存储器设备)。15:通信接口。16:输入-输出接口。17:鼠标。18:平板显示器(显示设备)。19键盘。2:微博服务器。20、21:硬盘驱动器。31:智能电话。32:平板。33:个人计算机(笔记本型计算机)。

Claims (16)

1.一种用于通过使用计算机从由多个用户通过社交网络发送的多个消息选择识别的消息组的方法,其中,在消息内,包括由与原始消息用户不同的用户发送的消息,并且这些消息引用由原始消息用户发送的消息,并且所述方法包括下列步骤:
对于由与原始消息用户不同的用户发送的引用由原始消息用户发送的消息的消息,执行进一步重新发送的可能性的初级评估;
识别已经发送了初级评估结果高于预定第一阈值的消息的单个用户;
基于引用由单个用户发送的消息的重新发送消息组,识别与重新发送消息组相似的消息组;
执行将进一步重新发送相似消息组的可能性的次级评估;以及
选择次级评估结果高于预定第二阈值的消息组。
2.如权利要求1所述的方法,其中,在执行初级评估和次级评估的步骤,作为其他用户的影响力的递增函数而计算进一步重新发送的可能性。
3.如权利要求2所述的方法,其中,作为关注其他用户的用户数量的递增函数而计算其他用户的影响力。
4.如权利要求1所述的方法,其中,在执行初级评估和次级评估的步骤,作为其他用户过去重新发送引用第一用户的消息的消息的程度的递减函数而计算进一步重新发送的可能性。
5.如权利要求4所述的方法,其中,作为在过去固定时段内其他用户重新发送引用第一用户的消息的消息的次数而计算已重新发送的程度。
6.如权利要求1所述的方法,其中,在执行初级评估和次级评估的步骤,作为由其他用户重新发送的消息内容和由其他用户过去进一步重新发送的消息的相似度的递减函数而计算进一步重新发送的可能性。
7.如权利要求6所述的方法,其中,通过将由其他用户重新发送的消息和由其他用户过去进一步重新发送的消息进行文本串匹配而计算相似度。
8.如权利要求6所述的方法,其中,通过对于由其他用户重新发送的消息和对于由其他用户过去进一步重新发送的消息进行语句聚类而计算相似度。
9.如权利要求1所述的方法,其中,所述消息是在规定条件下从在社交媒体上发布的消息采样的消息。
10.如权利要求1所述的方法,其中,所述消息是从在包括规定关键字的条件下在社交媒体上在规定时间段内发布的消息采样的消息。
11.如权利要求10所述的方法,其中,向社交媒体发布的计算机通过网络连接到选择识别的消息组的计算机,
并且进一步包括选择计算机接收响应于来自选择计算机的规定条件请求而从发布计算机发送的消息的步骤。
12.如权利要求11所述的方法,进一步包括在选择计算机的存储器装置中存储接收的消息的步骤。
13.如权利要求1所述的方法,其中,社交媒体是微博。
14.一种用于由计算机执行的计算机程序,其使得计算机执行根据权利要求1-13的任何方法的全部步骤。
15.一种用于从由多个用户通过社交网络发送的多个消息选择识别的消息组的计算机,
其中,在消息内,包括由与原始消息用户不同的用户发送的消息,并且这些消息引用由原始消息用户发送的消息,以及
在计算机的存储器装置内存储多个消息,计算机的计算控制装置
对于由与原始消息用户不同的用户发送的引用由原始消息用户发送的消息的消息,执行进一步重新发送的可能性的初级评估;
识别发送了初级评估结果高于预定第一阈值的消息的单个用户;
基于引用由单个用户发送的消息的重新发送消息组,识别与重新发送消息组相似的消息组;
执行将进一步重新发送相似消息组的可能性的次级评估;以及
选择次级评估结果高于预定第二阈值的消息组。
16.如权利要求15所述的计算机,其中,存储在存储器装置内的多个消息是从发布到社交媒体的消息采样的消息。
CN201280062968.6A 2011-12-19 2012-11-16 用于选择识别的消息组的方法、计算机可读介质和计算机 Expired - Fee Related CN104011718B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011276973 2011-12-19
JP2011-276973 2011-12-19
PCT/JP2012/079751 WO2013094352A1 (ja) 2011-12-19 2012-11-16 ソーシャル・メデイアにおけるトレンドを検出する方法、コンピュータ・プログラム、コンピュータ。

Publications (2)

Publication Number Publication Date
CN104011718A true CN104011718A (zh) 2014-08-27
CN104011718B CN104011718B (zh) 2018-01-23

Family

ID=48668251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280062968.6A Expired - Fee Related CN104011718B (zh) 2011-12-19 2012-11-16 用于选择识别的消息组的方法、计算机可读介质和计算机

Country Status (6)

Country Link
US (1) US9705837B2 (zh)
JP (1) JP5602958B2 (zh)
CN (1) CN104011718B (zh)
DE (1) DE112012005344T5 (zh)
GB (1) GB2511235A (zh)
WO (1) WO2013094352A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160034426A1 (en) * 2014-08-01 2016-02-04 Raytheon Bbn Technologies Corp. Creating Cohesive Documents From Social Media Messages
US11269943B2 (en) * 2018-07-26 2022-03-08 JANZZ Ltd Semantic matching system and method
WO2020061578A1 (en) * 2018-09-21 2020-03-26 Arizona Board Of Regents On Behalf Of Arizona State University Method and apparatus for collecting, detecting and visualizing fake news

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003021478A2 (de) * 2001-08-30 2003-03-13 Europroteome Ag Verfahren und anordnung zur datenauswertung sowie ein entsprechendes computerprogramm-erzeugnis und ein entsprechendes computerlesbares speichermedium
JP2004310689A (ja) * 2003-02-17 2004-11-04 Nippon Telegr & Teleph Corp <Ntt> アイテムフィルタリング方法及び装置、アイテム決定方法及び装置、アイテム情報提供装置、コンピュータプログラム及び記録媒体
US20110307464A1 (en) * 2009-12-01 2011-12-15 Rishab Aiyer Ghosh System And Method For Identifying Trending Targets Based On Citations

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3992640B2 (ja) 2003-04-15 2007-10-17 電気化学工業株式会社 金属ベース回路基板の製造方法
JP5008024B2 (ja) 2006-12-28 2012-08-22 独立行政法人情報通信研究機構 風評情報抽出装置及び風評情報抽出方法
US8595234B2 (en) * 2010-05-17 2013-11-26 Wal-Mart Stores, Inc. Processing data feeds
US20120042020A1 (en) 2010-08-16 2012-02-16 Yahoo! Inc. Micro-blog message filtering
US8473437B2 (en) * 2010-12-17 2013-06-25 Microsoft Corporation Information propagation probability for a social network
US9031888B2 (en) * 2011-08-10 2015-05-12 International Business Machines Corporation Predicting influence in social networks
US8725858B1 (en) * 2011-08-31 2014-05-13 Google Inc. Method and system for selecting content based on a user's viral score
US20140129324A1 (en) * 2012-11-06 2014-05-08 Bottlenose, Inc. System and method for dynamically placing and scheduling of promotional items or content based on momentum of activities of a targeted audience in a network environment

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003021478A2 (de) * 2001-08-30 2003-03-13 Europroteome Ag Verfahren und anordnung zur datenauswertung sowie ein entsprechendes computerprogramm-erzeugnis und ein entsprechendes computerlesbares speichermedium
JP2004310689A (ja) * 2003-02-17 2004-11-04 Nippon Telegr & Teleph Corp <Ntt> アイテムフィルタリング方法及び装置、アイテム決定方法及び装置、アイテム情報提供装置、コンピュータプログラム及び記録媒体
US20110307464A1 (en) * 2009-12-01 2011-12-15 Rishab Aiyer Ghosh System And Method For Identifying Trending Targets Based On Citations

Also Published As

Publication number Publication date
US20150067078A1 (en) 2015-03-05
CN104011718B (zh) 2018-01-23
GB201409114D0 (en) 2014-07-09
US9705837B2 (en) 2017-07-11
JPWO2013094352A1 (ja) 2015-04-27
JP5602958B2 (ja) 2014-10-08
GB2511235A (en) 2014-08-27
WO2013094352A1 (ja) 2013-06-27
DE112012005344T5 (de) 2014-08-28

Similar Documents

Publication Publication Date Title
US9720904B2 (en) Generating training data for disambiguation
US10318108B2 (en) Converting text content to a set of graphical icons
US20150120583A1 (en) Process and mechanism for identifying large scale misuse of social media networks
CA2927580C (en) Method and system for document data extraction template management
US10754830B2 (en) Activity information schema discovery and schema change detection and notification
WO2013003961A2 (en) System and method for determining interpersonal relationship influence information using textual content from interpersonal interactions
CN112771564A (zh) 生成网站的语义方向以自动实体寻的到映射身份的人工智能引擎
US10394868B2 (en) Generating important values from a variety of server log files
CN105378717B (zh) 用于对社交媒体的用户分类的方法、计算机程序和计算机
JP6776310B2 (ja) ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム
CN103999082A (zh) 用于检测社交媒体中的社区的方法、计算机程序和计算机
CN114371888A (zh) 日志采集插件的热更新方法、装置、电子设备和可读介质
CN104011718A (zh) 用于检测社交媒体中的趋势的方法、计算机程序和计算机
CN107273362B (zh) 数据处理方法及其设备
JP5068343B2 (ja) 記事管理装置
KR101784057B1 (ko) 모바일 단말의 사용자 정보를 이용한 맞춤형 콘텐츠 공유 방법 및 장치
CN113138974A (zh) 数据库合规检测的方法和装置
US9251125B2 (en) Managing text in documents based on a log of research corresponding to the text
CN110891010B (zh) 用于发送信息的方法和装置
CN109525630B (zh) 发送数据分析委托请求的方法、装置、介质及电子设备
CN107644084B (zh) 用于生成信息的方法和装置
CN114186101A (zh) 数据处理方法、装置、计算机设备及存储介质
KR101736653B1 (ko) 복수의 컨텐츠 중에서 선택된 컨텐츠와 관련된 컨텐츠를 제공하기 위한 방법 및 시스템
US20130007010A1 (en) Requirements extraction from external sources for software lifecycle management
Reynolds et al. Debugging experiment machinery through time‐course event sequence analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180123