CN105095324A - 用户分类装置、用户分类方法以及电子设备 - Google Patents

用户分类装置、用户分类方法以及电子设备 Download PDF

Info

Publication number
CN105095324A
CN105095324A CN201410222082.4A CN201410222082A CN105095324A CN 105095324 A CN105095324 A CN 105095324A CN 201410222082 A CN201410222082 A CN 201410222082A CN 105095324 A CN105095324 A CN 105095324A
Authority
CN
China
Prior art keywords
user
predetermined field
content
sorted
descriptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410222082.4A
Other languages
English (en)
Inventor
葛乃晟
付奕雯
郑仲光
孟遥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201410222082.4A priority Critical patent/CN105095324A/zh
Publication of CN105095324A publication Critical patent/CN105095324A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种用户分类装置、用户分类方法和电子设备。该用户分类装置用于针对预定领域的用户进行分类,包括:内容搜索单元,用于在预定数据源中搜索包含该预定领域的主题词的内容作为预定领域内容,并将发布该预定领域内容的用户作为待分类用户;以及用户分类单元,用于根据所述预定领域内容的、与用户相关的属性,对所述待分类用户进行分类。根据本公开的用户分类装置、用户分类方法和电子设备至少能够对预定领域的用户进行更精准的分类。

Description

用户分类装置、用户分类方法以及电子设备
技术领域
本发明涉及信息处理领域,尤其涉及一种用于对预定领域的用户进行分类的用户分类装置、用户分类方法以及电子设备。
背景技术
随着互联网技术的发展,越来越多的用户通过在互联网平台(例如博客、微博等)上对其感兴趣的事务发表意见、感受等。如何针对这些用户、尤其是特定领域的用户进行分类并加以管理是当前研究的一大热点。目前对于发布信息的用户的分析与分类基本上都是基于由用户之间关注度形成的关系(也称为粉丝关系,即当某一用户对其他用户的关注度表达持续关注,则该用户可以被称为其他用户的粉丝,其与所关注的用户之间即构成粉丝关系)。然而这种方式的局限性在于如果用户间没有粉丝关系,则无法进行分析,而且即使有粉丝关系,由于粉丝关系并不能直接表达各个用户与某一领域的关系,因此也不能实现对该领域的用户的准确分类。因此,亟需一种能够针对某一领域的用户进行准确分类的用户分类装置、用户分类方法及电子设备。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于现有技术的上述缺陷,本发明的目的之一是提供一种用户分类装置、用户分类方法以及电子设备,以至少克服现有的问题。
根据本公开的一个方面,提供一种用户分类装置,用于针对预定领域的用户进行分类,该用户分类装置包括:内容搜索单元,用于在预定数据源中搜索包含该预定领域的主题词的内容作为预定领域内容,并将发布该预定领域内容的用户作为待分类用户;以及用户分类单元,用于根据所述预定领域内容的、与用户相关的属性,对所述待分类用户进行分类。
根据本公开的另一方面,提供一种用户分类方法,用于针对预定领域的用户进行分类,该用户分类方法包括:在预定数据源中搜索包含该预定领域的主题词的内容作为预定领域内容,并将发布该预定领域内容的用户作为待分类用户;以及根据所述预定领域内容的、与用户相关的属性,对所述待分类用户进行分类。
根据本公开的另一个方面,还提供了一种电子设备,该电子设备包括如上所述的用户分类装置。
依据本公开的其它方面,还提供了一种使得计算机用作如上所述的用户分类装置的程序。
依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算设备执行上述用户分类方法。
上述根据本公开实施例的用户分类装置和方法以及电子设备,至少能够获得以下益处之一:通过根据预定领域内容的、与用户相关的属性对预定领域进行划分,能够实现更精准的用户分类;利用非预定领域的实体词对预定领域的实体词进行去重,能够实现对预定领域主题词的扩展。
通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。
附图说明
本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示意性地示出根据本公开实施例的用户分类装置的一种示例结构的框图。
图2是示意性地示出图1中的用户分类单元的一种示例结构的框图。
图3是示意性地示出根据本公开实施例的用户分类装置的另一种示例结构的框图。
图4是示意性地示出图3中的主题词确定单元的另一种示例结构的框图。
图5是示意性示出根据本公开实施例的用户分类方法的流程图。
图6是示出了可用来实现根据本公开实施例的用户分类装置和用户分类方法的一种可能的硬件配置的结构简图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与***及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
本发明人发现,用户发表内容通常比用户之间的粉丝关系更能反映该用户与预定领域之间的关系,因此本发明提出一种基于用户发表的内容对用户进行分类的用户分类装置、用户分类方法和电子设备。
图1是示意性地示出根据本公开实施例的用户分类装置的一种示例结构的框图。
根据本公开的用户分类装置1用于针对预定领域的用户进行分类。该预定领域可以是例如美容、汽车等的任意领域,只要想针对该领域对用户进行进一步分类以便于管理即可。进行分类的用户可以是能够获取其发布的信息的任意用户、也可以是特定的用户群(例如微博用户或者博客用户等)。根据本公开的一个实施例,用户分类装置1可以针对预定领域微博用户的用户进行分类。
如图1所示,用户分类装置1包括:内容搜索单元10,用于在预定数据源中搜索包含预定领域的主题词的内容作为预定领域内容,并将发布该预定领域内容的用户作为待分类用户;以及用户分类单元20,用于根据所述预定领域内容的、与用户相关的属性,对所述待分类用户进行分类。
根据本公开,内容搜索单元10可以在例如网络、特定数据库的预定数据源中搜索包含预定领域的主题词的内容。预定数据源例如可以是包括各个门户网站中的微博信息的数据库等。预定领域的主题词是预定领域专用的字或者词,根据本公开的实施例,可以针对预定领域指定主题词,例如对于汽车领域,可以将“变速箱”、“制动器”等指定为主题词。
通过搜索预定的数据源,内容搜索单元10可以获得包含预定领域的主题词的内容作为预定领域内容,并将发布该预定领域内容的用户作为该预定领域中的待分类用户,以在随后的处理中对这些用户进行分类和管理。
根据本公开的一个实施例,在用户分类装置1用于对微博用户进行分类的情况下,内容搜索单元10可以在预定数据源中搜索包含该预定领域的主题词的微博内容作为所述预定领域内容,并且将发布包含该预定领域主题词的微博的微博用户作为待分类用户。
在通过内容搜索单元10获得了预定领域的待分类用户之后,用户分类单元20对根据预定领域内容的、与用户相关的属性,对所述待分类用户进行进一步分类,以使得从事与该预定领域相关的工作的用户能够根据用户分类单元20对于该预定领域的用户的分类,有针对性的对其潜在的客户进行管理。
根据本公开的实施例,预定领域内容的、与用户相关的属性可以包括待分类用户发布所述预定领域内容的行为模式和所述预定领域内容的传播特性。待分类用户发布所述预定领域内容的行为模式可以在一定程度上表示待分类用户对于预定领域内容的感兴趣程度;预定领域内容的传播特性可以表示发布该预定领域内容的待分类用户的影响力。基于待分类用户发布所述预定领域内容的行为模式和所述预定领域内容的传播特性对待分类用户进行划分,有利于根据用户的影响力和感兴趣程度对分类后的用户进行有针对性的管理。
根据本公开的实施例,待分类用户发布所述预定领域内容的行为模式可以包括所述待分类用户发布所述预定领域内容的最近时间和频率;预定领域内容的传播特性例如可以由所述预定领域内容被转发的次数和/或评论的次数确定。
根据本公开的优选实施例,凡是预定领域内容中提及了该预定领域的主题词一次,就将待分类用户发布预定领域内容的频率增加一次。具体地,当某个待分类用户发布的某一预定领域内容中包括多个该预定领域的主题词的情况下,则将该待分类用户发布预定领域内容的频率记为与所包含的主题词数量相同的多次,例如,当某篇微博中包含6次汽车领域的主题词(包括相同的或者不同的主题词)时,则将该待分类用户发布汽车领域的内容的频率增加6次。
本领域技术人员可以理解,待分类用户发布预定领域内容的最近时间越晚,表明该待分类用户对该预定领域内容仍然感兴趣的可能性越大。如果某个待分类用户最新发布预定领域内容的时间是6个月之前,表明该用户曾经对预定领域感兴趣,但是现在可能已经不感兴趣了。
本领域技术人员也可以理解,某个待分类用户的预定领域内容被转发和/或评论的次数越多,表明该待分类用户对于预定领域的影响力越大。
根据例如待分类用户发布所述预定领域内容的行为模式和所述预定领域内容的传播特性的预定领域内容的、与用户相关的属性,用户分类单元20可以对该预定领域的用户进一步分类,例如分类为“最近感兴趣并且有影响力的用户”、“最近没有兴趣但是有影响力的用户”、“最近很感兴趣但是没有影响力的用户”、“最近没有兴趣并且也没有影响力的用户”,从而对每一类用户进行精确的分析和有针对性的管理。
图2是示意性地示出图1中的用户分类单元的一种示例结构的框图。
如图2所示,用户分类单元20包括:级别确定模块201,用于将用户发布内容的最近时间参数划分为M级,将用户发布内容的频率参数划分为N级,以及将内容传播特性参数划分为P级,其中,M、N和P均为大于1的整数,从而确定M×N×P个用户级别;以及用户分类模块202,用于根据每一个待分类用户发布所述预定领域内容的最近时间和频率以及其所发布的预定领域内容的传播特性,将该待分类用户分类到所述M×N×P个用户级别之一中。
根据本公开的实施例,可以将M、N、P均设置为2。即,例如可以将用户发布内容的最近时间参数R划分为2级(例如可以设置时间阈值,而将最近时间参数划分为大于等于该时间阈值以及小于该时间阈值两级,即长和短两级),将用户发布内容的频率参数F划分为2级(例如可以设置频率阈值,从而将频率参数分为大于等于频率阈值以及小于频率阈值两级,即频率高和低两级),以及将内容传播特性参数I划分为2级(例如,可以根据预定内容的转发次数和评论次数,确定发布该预定内容的待分类用户在预定领域的影响力,并根据该影响力,将传播特性参数分为大于等于传播阈值和小于传播阈值两级)。可以利用现有技术中的任意适当方法,来基于预定内容的转发次数和评论次数确定发布该预定内容的待分类用户在预定领域的影响力,为了简明起见,确定影响力的具体过程在此不再赘述。
表1示出了在上述参数M、N、P均被设置为2时的8个用户级别。
表1
虽然以上示出了的是级别确定模块201将最近时间参数M、频率参数N以及内容传播特性参数P均设置为2,从而将其分别划分为2级,但是本公开不限于此,例如也可以将M、N、P设置为其它数值(例如5),此外,也可以将M、N、P分别设置为不同的数值。
此外,级别确定模块还可以为包括最近时间参数M、频率参数N以及内容传播特性参数P设置阈值参数的各个参数设置阈值,以便于用户分类模块202将各个待分类用户分类。例如,在将参数M、N、P均分为2级的情况下,可以将用于最近时间参数M的阈值设置为例如3个月,可以将频率参数N的阈值设置为例如5等等。
在级别确定模块201确定了M×N×P个用户级别之后,用户分类模块202根据每一个待分类用户发布所述预定领域内容的最近时间和频率以及其所发布的预定领域内容的传播特性,将该待分类用户分类到所述M×N×P个用户级别之一中。例如,在将参数M、N、P均分为2级的情况下,对于发布预定领域内容的最近时间距离当前时间为短、频率高、影响力大的待分类用户,可以将其划分为表1中所示的第1类,类似地,可以将每个待分类用户分类为表1所示的8类用户之一。
虽然以上描述的是通过用户指定的方式来获得预定领域的主题词,以便于搜索包含主题词的内容作为预定领域内容,但是本公开不限于此,例如也可以根据预定的规则确定预定领域的主题词。
图3是示意性地示出根据本公开实施例的用户分类装置的另一种示例结构的框图。
如图3所示,除了与图1的用户分类装置1类似地包括内容搜索单元10和用户分类单元20之外,用户分类装置2还包括:主题词确定单元30,用于确定该预定领域的主题词以便所述内容搜索单元搜索包含该主题词的内容作为预定领域内容。
图4是示意性地示出图3中的主题词确定单元的另一种示例结构的框图。
如图4所示,主题词确定单元30包括:第一实体词提取模块301,用于在由该预定领域的特定用户发布的内容中提取频率高于第一阈值的实体词,构成第一实体词群;第二实体词提取模块302,用于在由与该预定领域无关的非预定领域的特定用户所发布的内容中提取频率高于第二阈值的实体词,构成第二实体词群;以及主题词确定模块303,用于使用所述第二实体词群中的实体词对所述第一实体词群中的实体词进行去重,并将去重后的第一实体词群中的实体词作为该预定领域的主题词。
根据本公开,该预定领域的特定用户是该预定领域中影响力超过第三阈值的用户,该非预定领域的特定用户是该非预定领域中影响力超过第四阈值的用户。在期望对预定领域的微博用户进行分类的情况下,预定领域的特定用户例如可以是大V用户(通常是粉丝数量大于设定阈值的用户,即有影响力的用户)。
第一实体词提取模块301可以在由该预定领域的发布的内容中提取频率高于第一阈值的实体词,构成第一实体词群;第二实体词提取模块302,用于在由与该预定领域无关的非预定领域的例如大V用户所发布的所有内容中提取频率高于第二阈值的实体词,构成第二实体词群。
例如,在期望对户外运动领域的微博用户进行划分的情况下,第一实体词提取模块301可以在由户外运动领域的大V用户发布的内容中,按照词频提取在该大V用户发布的内容中出现频率高于第一阈值的实体词。例如,第一实体词提取模块301可以提取大V用户在预定时间段(例如最近一周)发布的所有内容中提取出现频率高于第一阈值的实体词。类似地,第二实体词提取模块302可以在由非户外运动领域的大V用户发布的内容中,按照词频提取在该大V用户发布的内容中出现频率高于第二阈值的实体词。
根据本公开,第一阈值和第二阈值可以根据例如获取待分类用户的精确度的需求任意设定。此外,本领域技术人员也可以理解,可以将第一阈值和第二阈值设置为相同,也可以设置为不同。
通常,预定领域的大V用户所发布的内容中既包括该预定领域的实体词,也包括非预定领域的实体词,例如这些大V用户也会发布与时事、体育、财经等有关的热点实体词。基于此,可以通过提取词频高于第一阈值的实体词,并且通过在非预定领域的例如大V用户所发布的内容中提取通常与预定领域不相关的实体词来去重,可以更准确地获得预定领域的主题词。
以预定领域为户外运动领域为例,第一实体词提取模块301可以通过在户外运动领域的大V用户之一发布的内容中提取实体词,可以获得如下实体词:房价、暴走、欧冠、自驾、京开高速、骑行、踏青、切尔西、简历、郊游。通过例如在户外运动领域的多个大V用户发布的内容中提取实体词,可以得到包括例如上述实体词的第一实体词群。
第二实体词提取模块302通过在非户外运动领域的大V用户之一发布的内容中提取实体词,可以获得如下实体词:昆明、***、房价、京开高速、简历、地震、欧冠、贝克汉姆、切尔西等等。通过例如在非户外运动领域的多个大V用户发布的内容中提取实体词,可以得到包括例如上述实体词的第二实体词群。
然后,主题词确定模块303使用与非预定领域相关的第二实体词群中的实体词对与预定领域相关的第一实体词群中的实体词进行去重,并将去重后的第一实体词群中的实体词作为该预定领域的主题词。
例如,在上述示例中,主题词确定模块303可以通过去重得到“暴走、自驾、骑行、踏青、郊游”作为户外运动领域的主题词。
然后,内容搜索单元10可以利用主题词确定模块确定的预定领域的主题词,搜索包含该主题词的内容,并且获得预定领域的待分类用户,以由用户分类单元20对该待分类用户进行分类。
在通过根据本发明实施例的用户分类装置为预定领域的用户进行了分类之后,可以针对各个分类的用户分别进行相应的分析和管理,从而可以实现对海量数据的更准确的分析,提供了另一个维度的用户属性,以便于进一步对海量数据进行进一步处理。
根据本公开的一个实施例,还提供了一种用户分类方法。下面结合图5来描述用户分类方法的一种示例性处理。
如图5所示,根据本公开的实施例的用户分类方法的处理流程500开始于S510,然后执行S520的处理。
在步骤S520中,在预定数据源中搜索包含该预定领域的主题词的内容作为预定领域内容,并将发布该预定领域内容的用户作为待分类用。例如,可以通过执行例如参照图1-4描述的内容获取单元10的处理来实现步骤S520,在此省略其描述。然后执行S530。
在步骤S530中,根据所述预定领域内容的、与用户相关的属性,对所述待分类用户进行分类。所述预定领域内容的、与用户相关的属性例如可以包括所述待分类用户发布所述预定领域内容的行为模式和所述预定领域内容的传播特性。例如,可以通过执行例如参照图1-4描述的用户分类单元20的处理来实现步骤S530,在此省略其描述。然后执行S540。
处理流程500结束于S540。
根据本公开的一个实施例,在执行步骤S530之前,还可以包括用于确定该预定领域的主题词的步骤,该步骤例如可以包括在由该预定领域的特定用户发布的内容中提取频率高于第一阈值的实体词,构成第一实体词群;在由与该预定领域无关的非预定领域的特定用户所发布的内容中提取频率高于第二阈值的实体词,构成第二实体词群;以及使用所述第二实体词群中的实体词对所述第一实体词群中的实体词进行去重,并将去重后的第一实体词群中的实体词作为该预定领域的主题词。确定该预定领域的主题词的各个步骤例如可以参照图4描述的第一实体词提取模块、第二实体词提取模块以及主题词确定模块的处理来实现,在此省略对其的详细描述。
与现有技术中相比,根据本公开的用户分类装置和用户分类方法具有至少以下一个优点:通过根据预定领域内容的、与用户相关的属性对预定领域进行划分,能够实现更精准的用户分类;利用非预定领域的实体词对预定领域的实体词进行去重,能够实现对预定领域主题词的扩展。
此外,本公开的实施例还提供了一种电子设备,该电子设备被配置包括如上所述的用户分类装置1。该电子设备例如可以是以下设备中的任意一种:手机;计算机;平板电脑;以及个人数字助理等。相应地,该电子设备能够拥有如上所述的用户分类装置的有益效果和优点。
上述根据本公开的实施例的用户分类装置(例如图1-4中所示的用户分类装置)中的各个组成单元、子单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成单元、子单元的各种功能。
图6是示出了可用来实现根据本公开的实施例的用户分类设备和方法的一种可能的处理设备的硬件配置的结构简图。
在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM603中,还根据需要存储当CPU601执行各种处理等等时所需的数据。CPU601、ROM602和RAM603经由总线604彼此连接。输入/输出接口605也连接到总线604。
下述部件也连接到输入/输出接口605:输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡例如LAN卡、调制解调器等)。通信部分609经由网络例如因特网执行通信处理。根据需要,驱动器610也可连接到输入/输出接口605。可拆卸介质611例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器610上,使得从中读出的计算机程序可根据需要被安装到存储部分608中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质611安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本公开的实施例的用户分类方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。
在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
此外,本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。
此外,显然,根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给***或设备,并且该***或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该***或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作***的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户信息处理终端通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序,也可以实现本公开的各实施例。
综上,在根据本公开的实施例中,本公开提供了如下方案,但不限于此:
方案1、一种用户分类装置,用于针对预定领域的用户进行分类,该用户分类装置包括:
内容搜索单元,用于在预定数据源中搜索包含该预定领域的主题词的内容作为预定领域内容,并将发布该预定领域内容的用户作为待分类用户;以及
用户分类单元,用于根据所述预定领域内容的、与用户相关的属性,对所述待分类用户进行分类。
方案2、根据方案1所述的用户分类装置,其中所述内容搜索单元用于在预定数据源中搜索包含该预定领域的主题词的微博内容作为所述预定领域内容。
方案3、根据方案1或2所述的用户分类装置,其中,所述预定领域内容的、与用户相关的属性包括所述待分类用户发布所述预定领域内容的行为模式和所述预定领域内容的传播特性。
方案4、根据方案3所述的用户分类装置,其中,
所述待分类用户发布所述预定领域内容的行为模式包括所述待分类用户发布所述预定领域内容的最近时间和频率,以及
所述预定领域内容的传播特性由所述预定领域内容被转发的次数和/或评论的次数确定。
方案5、根据方案4所述的用户分类装置,其中,所述用户分类单元包括:
级别确定模块,用于将用户发布内容的最近时间参数划分为M级,将用户发布内容的频率参数划分为N级,以及将内容传播特性参数划分为P级,其中,M、N和P均为大于1的整数,从而确定M×N×P个用户级别;以及
用户分类模块,用于根据每一个待分类用户发布所述预定领域内容的最近时间和频率以及其所发布的预定领域内容的传播特性,将该待分类用户分类到所述M×N×P个用户级别之一中。
方案6、根据方案1或2所述的用户分类装置,还包括:主题词确定单元,用于确定该预定领域的主题词以便所述内容搜索单元搜索包含该主题词的内容作为预定领域内容,所述主题词确定单元包括:
第一实体词提取模块,用于在由该预定领域的特定用户发布的内容中提取频率高于第一阈值的实体词,构成第一实体词群;
第二实体词提取模块,用于在由与该预定领域无关的非预定领域的特定用户所发布的内容中提取频率高于第二阈值的实体词,构成第二实体词群;以及
主题词确定模块,用于使用所述第二实体词群中的实体词对所述第一实体词群中的实体词进行去重,并将去重后的第一实体词群中的实体词作为该预定领域的主题词。
方案7、根据方案6所述的用户分类装置,其中该预定领域的特定用户是该预定领域中影响力超过第三阈值的用户,该非预定领域的特定用户是该非预定领域中影响力超过第四阈值的用户。
方案8、一种用户分类方法,用于针对预定领域的用户进行分类,该用户分类方法包括:
在预定数据源中搜索包含该预定领域的主题词的内容作为预定领域内容,并将发布该预定领域内容的用户作为待分类用户;以及
根据所述预定领域内容的、与用户相关的属性,对所述待分类用户进行分类。
方案9、根据方案8所述的用户分类方法,其中在预定数据源中搜索包含该预定领域的主题词的微博内容作为所述预定领域内容。
方案10、根据方案8或9所述的用户分类方法,其中,所述预定领域内容的、与用户相关的属性包括所述待分类用户发布所述预定领域内容的行为模式和所述预定领域内容的传播特性。
方案11、根据方案10所述的用户分类方法,其中,
所述待分类用户发布所述预定领域内容的行为模式包括所述待分类用户发布所述预定领域内容的最近时间和频率,以及
所述预定领域内容的传播特性由所述预定领域内容被转发的次数和/或评论的次数确定。
方案12、根据方案11所述的用户分类方法,其中,对所述待分类用户进行分类包括:
将用户发布内容的最近时间参数划分为M级,将用户发布内容的频率参数划分为N级,以及将内容传播特性参数划分为P级,其中,M、N和P均为大于1的整数,从而确定M×N×P个用户级别;以及
根据每一个待分类用户发布所述预定领域内容的最近时间和频率以及其所发布的预定领域内容的传播特性,将该待分类用户分类到所述M×N×P个用户级别之一中。
方案13、根据方案8或9所述的用户分类方法,还包括确定该预定领域的主题词以便所述内容搜索单元搜索包含该主题词的内容作为预定领域内容,其中确定预定领域的主题词包括:
在由该预定领域的特定用户发布的内容中提取频率高于第一阈值的实体词,构成第一实体词群;
在由与该预定领域无关的非预定领域的特定用户所发布的内容中提取频率高于第二阈值的实体词,构成第二实体词群;以及
使用所述第二实体词群中的实体词对所述第一实体词群中的实体词进行去重,并将去重后的第一实体词群中的实体词作为该预定领域的主题词。
方案14、根据方案13所述的用户分类方法,其中该预定领域的特定用户是该预定领域中影响力超过第三阈值的用户,该非预定领域的特定用户是该非预定领域中影响力超过第四阈值的用户。
方案15、一种电子设备,包括根据方案1-7中任一项所述的用户分类装置。
方案16、根据方案15所述的电子设备,其中电子设备是手机、计算机、平板电脑、或个人数字助理。
最后,还需要说明的是,在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露,但是,应该理解,本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

Claims (10)

1.一种用户分类装置,用于针对预定领域的用户进行分类,该用户分类装置包括:
内容搜索单元,用于在预定数据源中搜索包含该预定领域的主题词的内容作为预定领域内容,并将发布该预定领域内容的用户作为待分类用户;以及
用户分类单元,用于根据所述预定领域内容的、与用户相关的属性,对所述待分类用户进行分类。
2.根据权利要求1所述的用户分类装置,其中所述内容搜索单元用于在预定数据源中搜索包含该预定领域的主题词的微博内容作为所述预定领域内容。
3.根据权利要求1或2所述的用户分类装置,其中,所述预定领域内容的、与用户相关的属性包括所述待分类用户发布所述预定领域内容的行为模式和所述预定领域内容的传播特性。
4.根据权利要求3所述的用户分类装置,其中,
所述待分类用户发布所述预定领域内容的行为模式包括所述待分类用户发布所述预定领域内容的最近时间和频率,以及
所述预定领域内容的传播特性由所述预定领域内容被转发的次数和/或评论的次数确定。
5.根据权利要求4所述的用户分类装置,其中,所述用户分类单元包括:
级别确定模块,用于将用户发布内容的最近时间参数划分为M级,将用户发布内容的频率参数划分为N级,以及将内容传播特性参数划分为P级,其中,M、N和P均为大于1的整数,从而确定M×N×P个用户级别;以及
用户分类模块,用于根据每一个待分类用户发布所述预定领域内容的最近时间和频率以及其所发布的预定领域内容的传播特性,将该待分类用户分类到所述M×N×P个用户级别之一中。
6.根据权利要求1或2所述的用户分类装置,还包括:主题词确定单元,用于确定该预定领域的主题词以便所述内容搜索单元搜索包含该主题词的内容作为预定领域内容,所述主题词确定单元包括:
第一实体词提取模块,用于在由该预定领域的特定用户发布的内容中提取频率高于第一阈值的实体词,构成第一实体词群;
第二实体词提取模块,用于在由与该预定领域无关的非预定领域的特定用户所发布的内容中提取频率高于第二阈值的实体词,构成第二实体词群;以及
主题词确定模块,用于使用所述第二实体词群中的实体词对所述第一实体词群中的实体词进行去重,并将去重后的第一实体词群中的实体词作为该预定领域的主题词。
7.根据权利要求6所述的用户分类装置,其中该预定领域的特定用户是该预定领域中影响力超过第三阈值的用户,该非预定领域的特定用户是该非预定领域中影响力超过第四阈值的用户。
8.一种用户分类方法,用于针对预定领域的用户进行分类,该用户分类方法包括:
在预定数据源中搜索包含该预定领域的主题词的内容作为预定领域内容,并将发布该预定领域内容的用户作为待分类用户;以及
根据所述预定领域内容的、与用户相关的属性,对所述待分类用户进行分类。
9.一种电子设备,包括根据权利要求1-7中任一项所述的用户分类装置。
10.如权利要求9所述的电子设备,其中,所述电子设备是手机、计算机、平板电脑、或者个人数字助理。
CN201410222082.4A 2014-05-23 2014-05-23 用户分类装置、用户分类方法以及电子设备 Pending CN105095324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410222082.4A CN105095324A (zh) 2014-05-23 2014-05-23 用户分类装置、用户分类方法以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410222082.4A CN105095324A (zh) 2014-05-23 2014-05-23 用户分类装置、用户分类方法以及电子设备

Publications (1)

Publication Number Publication Date
CN105095324A true CN105095324A (zh) 2015-11-25

Family

ID=54575769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410222082.4A Pending CN105095324A (zh) 2014-05-23 2014-05-23 用户分类装置、用户分类方法以及电子设备

Country Status (1)

Country Link
CN (1) CN105095324A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512943A (zh) * 2015-12-18 2016-04-20 合肥寰景信息技术有限公司 一种网络社区用户信息的智能分析方法
CN106095915A (zh) * 2016-06-08 2016-11-09 百度在线网络技术(北京)有限公司 用户身份的处理方法及装置
CN107015993A (zh) * 2016-01-28 2017-08-04 ***通信集团上海有限公司 一种用户类型识别方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512943A (zh) * 2015-12-18 2016-04-20 合肥寰景信息技术有限公司 一种网络社区用户信息的智能分析方法
CN107015993A (zh) * 2016-01-28 2017-08-04 ***通信集团上海有限公司 一种用户类型识别方法及装置
CN106095915A (zh) * 2016-06-08 2016-11-09 百度在线网络技术(北京)有限公司 用户身份的处理方法及装置

Similar Documents

Publication Publication Date Title
KR101793222B1 (ko) 어플리케이션 검색들을 가능하게 하기 위해 사용되는 검색 인덱스의 업데이트
CN104636402B (zh) 一种业务对象的分类、搜索、推送方法和***
JP5721818B2 (ja) 検索におけるモデル情報群の使用
US20160371288A1 (en) Use of context-dependent statistics to suggest next steps while exploring a dataset
Dong et al. Self-adaptive semantic focused crawler for mining services information discovery
US20240029086A1 (en) Discovery of new business openings using web content analysis
US20110125759A1 (en) Method and system to contextualize information being displayed to a user
CN109241403B (zh) 项目推荐方法、装置、机器设备和计算机可读存储介质
CN102346761A (zh) 信息处理装置、关连语句提供方法和程序
Hariharakrishnan et al. Survey of pre-processing techniques for mining big data
CN110795568A (zh) 基于用户信息知识图谱的风险评估方法、装置和电子设备
CN105912716A (zh) 一种短文本分类方法及装置
US20150317390A1 (en) Computer-implemented systems and methods for taxonomy development
Gao et al. SeCo-LDA: Mining service co-occurrence topics for recommendation
CN104376058A (zh) 用户兴趣模型更新方法及相关装置
CN111639255B (zh) 搜索关键词的推荐方法、装置、存储介质及电子设备
Sarawgi et al. Opinion mining: aspect level sentiment analysis using SentiWordNet and Amazon web services
CN104199938A (zh) 基于rss的农用土地信息发送方法和***
US11295078B2 (en) Portfolio-based text analytics tool
CN105095324A (zh) 用户分类装置、用户分类方法以及电子设备
CN104881447A (zh) 搜索方法及装置
CN108959289B (zh) 网站类别获取方法和装置
Kim et al. Customer preference analysis based on SNS data
CN107741929A (zh) 舆情分析方法及装置
CN104991920A (zh) 标签的生成方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151125

WD01 Invention patent application deemed withdrawn after publication