CN105989047A

CN105989047A - 获取装置、获取方法、训练装置以及检测装置

Info

Publication number: CN105989047A
Application number: CN201510060916.0A
Authority: CN
Inventors: 张姝; 孟遥
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-02-05
Filing date: 2015-02-05
Publication date: 2016-10-05

Abstract

本公开提供了获取装置、获取方法、训练装置以及检测装置。用于获得用户的属性信息的获取装置包括：第一信息获取单元，其基于用户的用户简档中的结构化信息获得用户的第一属性信息；以及第二信息获取单元，其基于用户发布的内容中的非结构化信息获得用户的第二属性信息，其中，第二信息获取单元被配置为在用户发布的内容中搜索与至少一个关键词相似的近似词，以获得用户的第二属性信息，其中，关键词是通过下述迭代过程获得的：在给定语料中搜索与预设触发词相似的近似词，作为新的触发词，再在给定语料中搜索与新的触发词相似的近似词，重复上述迭代过程，直到达到预设的迭代停止条件为止，并将所有得到的近似词连同预设触发词一起作为关键词。

Description

获取装置、获取方法、训练装置以及检测装置

技术领域

本公开总体上涉及信息处理的技术领域，具体而言，涉及与用户的属性信息有关的获取装置、获取方法、训练装置以及检测装置，并且尤其涉及一种用于获得用户的属性信息的获取装置和获取方法、一种基于所获得的属性信息来对用户属性模型进行训练的训练装置、以及一种通过该训练装置训练得到的用户属性模型来对用户的属性进行检测的检测装置。

背景技术

近年来，越来越多的用户使用诸如脸书(Facebook)、微博等社交媒体，并在这样的社交媒体上发布各种信息。相较于传统的网络服务，各种社交媒体提供的社交网络服务更全面、更具体地体现了每个用户的个体属性，如性别、年龄、职业、爱好、地域等等。

从社交网络服务等网络服务获得的这些用户属性可以被应用于企业或政府部门的统计分析和辅助决策等。因此，如何从各种网络服务或者其他含有用户属性信息的***或服务中提取用户属性信息已经获得了越来越多的关注。目前，尤其存在提高所获取的用户属性信息的准确性以及提高获取用户属性信息的效率的需求。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于现有技术的上述缺陷，本发明的目的之一是提供一种不仅基于用户的用户简档中的结构化信息、还基于用户发布的内容中的非结构化信息来获取用户的属性信息的获取装置和获取方法，以至少克服现有的问题。

根据本公开的第一方面，提供一种用于获得用户的属性信息的获取装置，所述获取装置包括：第一信息获取单元，其基于用户的用户简档中的结构化信息获得所述用户的第一属性信息；以及第二信息获取单元，其基于所述用户发布的内容中的非结构化信息获得所述用户的第二属性信息，其中，所述第二信息获取单元被配置为在所述用户发布的内容中搜索与至少一个关键词相似的近似词，以获得所述用户的第二属性信息。所述关键词是通过下述迭代过程获得的：在给定语料中搜索与预设触发词相似的近似词，作为新的触发词，再在给定语料中搜索与新的触发词相似的近似词，重复上述迭代过程，直到达到预设的迭代停止条件为止，并将所有得到的近似词连同预设触发词一起作为所述关键词。

根据本公开的另一方面，提供一种用于获得用户的属性信息的获取方法，所述获取方法包括：基于用户的用户简档中的结构化信息获得所述用户的第一属性信息；以及基于所述用户发布的内容中的非结构化信息获得所述用户的第二属性信息。获得所述用户的第二属性信息包括：在所述用户发布的内容中搜索与至少一个关键词相似的近似词，以获得所述用户的第二属性信息，其中，所述关键词是通过下述迭代过程获得的：在给定语料中搜索与预设触发词相似的近似词，作为新的触发词，再在给定语料中搜索与新的触发词相似的近似词，重复上述迭代过程，直到达到预设的迭代停止条件为止，并将所有得到的近似词连同预设触发词一起作为所述关键词。

根据本公开的又一个方面，还提供一种对用户属性模型进行训练的训练装置，包括：第一信息获取单元，其基于用户样本的用户简档中的结构化信息获得所述用户样本的第一属性信息；第二信息获取单元，其基于所述用户样本的发布内容中的非结构化信息获得所述用户样本的第二属性信息。所述第二信息获取单元被配置为在所述用户样本的发布内容中搜索与至少一个训练关键词相似的训练近似词，以获得所述用户样本的第二属性信息，其中，所述训练关键词是通过下述迭代过程获得的：在给定训练语料中搜索与预设训练触发词相似的训练近似词，作为新的训练触发词，再在给定训练语料中搜索与新的训练触发词相似的训练近似词，重复上述迭代过程，直到达到预设的训练迭代停止条件为止，并将所有得到的训练近似词连同预设训练触发词一起作为所述训练关键词；以及模型训练单元，其利用所获得的第一属性信息和第二属性信息，对用户属性模型进行训练。

根据本公开的再一个方面，还提供一种通过如本公开的上一个方面所述的训练装置训练得到的用户属性模型来对用户的属性进行检测的检测装置，包括：第一信息获取单元，其基于用户的用户简档中的结构化信息获得所述用户的第一属性信息；第二信息获取单元，其基于所述用户发布的内容中的非结构化信息获得所述用户的第二属性信息；以及属性检测单元，其利用所获得的所述用户的第一属性信息和第二属性信息，基于所述用户属性模型，检测所述用户的属性，其中，所获得的所述用户的第一属性信息和第二属性信息与在训练所述用户属性模型时获得的用户样本的第一属性信息和第二属性信息是对应的。上述第二信息获取单元被配置为在所述用户发布的内容中搜索与至少一个检测关键词相似的检测近似词，以获得所述用户的第二属性信息，其中，所述检测关键词是通过下述迭代过程获得的：在给定检测语料中搜索与预设检测触发词相似的检测近似词，作为新的检测触发词，再在给定检测语料中搜索与新的检测触发词相似的检测近似词，重复上述迭代过程，直到达到预设的检测迭代停止条件为止，并将所有得到的检测近似词连同预设检测触发词一起作为所述检测关键词。

依据本公开的其它方面，还提供了一种使得计算机用作如上所述的用于获得用户的属性信息的获取装置的程序。

依据本公开的又一方面，还提供了相应的计算机可读存储介质，该计算机可读存储介质上存储有能够由计算设备执行的计算机程序，该计算机程序在执行时能够使计算设备执行上述用于获得用户的属性信息的获取方法。

上述根据本公开实施例的用于获得用户的属性信息的获取装置和获取方法，至少能够获得以下益处至少之一：通过不仅基于用户的用户简档中的结构化信息、还基于用户发布的内容中的非结构化信息来获取用户的属性信息，能够全面、准确地获取用户的属性信息；而通过以迭代过程扩充触发词得到关键词、并在用户发布的内容中搜索与关键词相似的近似词来获得用户的属性信息，能够提高获取用户属性信息的效率和准确性。

通过以下结合附图对本公开的最佳实施例的详细说明，本公开的这些以及其他优点将更加明显。

附图说明

本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中：

图1是示意性地示出根据本公开实施例的用于获得用户的属性信息的获取装置的示例结构的框图。

图2是示出了根据本公开实施例的用于获得用户的属性信息的获取方法的示例流程的流程图。

图3是示意性地示出根据本公开实施例的对用户属性模型进行训练的训练装置的示例结构的框图。

图4是示意性地示出根据本公开实施例的、通过根据本公开实施例的训练装置训练得到的用户属性模型来对用户的属性进行检测的检测装置的示例结构的框图。

图5是示出了可用来实现根据本公开实施例的用于获得用户的属性信息的获取装置和获取方法的一种可能的硬件配置的结构简图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与***及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本发明人发现，现有的从含有用户属性信息的***或服务中提取用户属性信息的过程没有全面准确地获取用户的属性信息，并且这种提取过程可能涉及复杂的语义分析、推理或大量的计算。

基于此，本公开提供了一种不仅基于用户的用户简档中的结构化信息、还基于用户发布的内容中的非结构化信息来获取用户的属性信息的获取装置和获取方法，因而能够以组合的方式从结构化信息和非结构化信息两者中全面、准确地获取用户的属性信息。而且，在根据本公开实施例的获取装置和获取方法中，以迭代过程扩充触发词得到关键词、并在用户发布的内容中搜索与这样得到的关键词相似的近似词来获得用户的属性信息，从而能够进一步提高获取用户属性信息的效率和准确性。

如图1所示，用于获得用户的属性信息的获取装置10包括：第一信息获取单元101，其基于用户的用户简档中的结构化信息获得所述用户的第一属性信息；以及第二信息获取单元102，其基于所述用户发布的内容中的非结构化信息获得所述用户的第二属性信息。

上述第二信息获取单元102被配置为在所述用户发布的内容中搜索与至少一个关键词相似的近似词，以获得所述用户的第二属性信息，其中，所述关键词是通过下述迭代过程获得的：在给定语料中搜索与预设触发词相似的近似词，作为新的触发词，再在给定语料中搜索与新的触发词相似的近似词，重复上述迭代过程，直到达到预设的迭代停止条件为止，并将所有得到的近似词连同预设触发词一起作为所述关键词(为便于描述，本文中也将上述通过迭代过程得到关键词的处理称为扩充触发词的处理)。

在用户能够发布内容的***或服务中，通常针对每个用户存在相应的用户简档，其中以统一的格式或结构存储该用户的用户名、昵称、出生日期、年龄、性别、地域等信息，这些包含在用户简档中的信息可称为结构化信息。本公开实施例的第一信息获取单元101能够从用户的用户简档中获取这样的结构化信息，并直接或经过一定处理后作为用户的第一属性信息。作为示例，第一信息获取单元101可以将出生日期转换为年龄，以作为第一属性信息。

与用户简档中的结构化信息相对照地，用户发布的内容中所包含的信息可称为非结构化信息。本公开实施例的第二信息获取单元102基于用户发布的内容中的非结构化信息获得用户的第二属性信息。由于用户发布的内容中的非结构化信息包含了关于用户的更多具体信息，因此相较于仅基于用户简档的结构化信息的获取方式，本公开实施例的获取装置10能够更全面准确地获取用户的属性信息。

作为示例，第二信息获取单元102可以从用户发布的所有内容(例如，用户在微博站点上原创和转发的所有帖子)、一段时间内发布的全部内容、或一段时间内发布的部分内容(例如，用户在一段时间内在微博站点上原创的所有帖子)中获得用户的第二属性信息。

更具体地，第二信息获取单元102通过在用户发布的内容中搜索与至少一个关键词相似的近似词来获得第二属性信息，其中，关键词是通过在给定语料中以迭代方式扩充触发词得到的。

相较于直接使用未经扩充的触发词作为搜索关键词，本公开实施例的第二信息获取单元102通过预先扩充触发词来获得关键词的方式，能够提高获取用户的属性信息的准确性。

举例而言，上述预设触发词可以是有利于反映用户的某种属性的词语，诸如与用户的“学生”属性有关的“挂科”、等。如果简单地搜索与这些触发词相似的近似词，可能只能得到有限的搜索结果，因而无法全面准确得到用户的属性信息。而通过上述扩充触发词的过程，可以预先得到大量相关词汇作为关键词，诸如“补考”、“考好”、“线代”、“裸考”、“全过”、“高数”、“期末”，等等。在用户发布的内容中搜索这些词汇，则可以更准确、全面地得到与用户的“学生”属性有关的词汇，从而提高获取用户的属性信息的准确性。

作为示例，上述给定语料可以是供用户发布内容的***或服务中多个用户发布的内容，或者是其他任意适合于扩充触发词的语料。扩充触发词的迭代停止条件可以是已经在给定语料中得到了预定数目的触发词，或者是在给定语料中无法再得到与现有触发词相似的近似词，等等。作为示例，最初的预设触发词的数目可以是20到30个，而通过扩充触发词得到的关键词的数目可以达到大约2000个。在一个优选实施例中，在给定语料中搜索与触发词相似的近似词包括：利用权重为浮点数的词向量表示给定语料中的词汇以及触发词，并通过计算相应的词向量之间的距离来计算给定语料中的词汇与触发词之间的相似度。

在相关技术中，上述权重为浮点数的词向量也可以称为“词嵌入”(“Word embedding”)，本文中有时也将其简称为“词向量”。作为示例，这种词向量的具体示例可以为[0.782,-0.174,-0.127,0.139,-0.512,…]，其维度可以为50维或100维。例如，可以通过从大量未标注的普通文本数据中无监督地或半监督地学习出每个词的词向量。可以理解，作为训练语料的文本数据越丰富，获得的词向量的语义特性就越好。

在文末参考文献列表中的参考文献1-8等现有技术中，已经公开了各种获得词向量的具体方式；通过引用而将这些参考文献的全部内容并入本公开中。本优选实施例可以采用上述参考文献公开的方式中的任意一种方式或者任意其他适当方式来获得权重为浮点数的词向量，在此不进行详细说明。作为示例，也可以直接利用Google提供的工具word2vec通过对训练数据进行训练来获得与每个词对应的词向量表示，其中训练数据例如可以是词典、百科全书、特定媒体在一段时间内的新闻稿等。

本优选实施例中采用的权重为浮点数的词向量有利于以简单的方式计算词汇之间的相似度并搜索近似词。例如，可以计算给定语料中的词汇的词向量与触发词的词向量之间的欧式距离或余弦距离，作为这两个词向量之间的距离；该距离即可反映这两个词向量所表示的词汇之间的语义相似度，进而可以用于搜索给定语料中与触发词相似的词汇。

相较之下，若使用现有技术中的稀疏的向量表示方式(该方式是以0、1为权重、长度为数千或数万的整个词表大小的向量表示方式，其中仅有与当前词对应的元素为0，其他元素均为1，例如[0 0 0 0 0 00 10 0 0…0 00 0 0 0 0 0 0])，则由于不同词的稀疏的向量之间是孤立且无关的，因而无法通过这样的向量获得不同的用户属性信息之间的相似度。

在一个优选实施例中，所述用户简档包括标签文本，并且所述第一信息获取单元101被配置为利用权重为浮点数的词向量表示所述标签文本，以获得所述用户的第一属性信息。

第一信息获取单元101可以通过任何适当的技术获得标签文本的权重为浮点数的词向量表示，如上述各参考文献中公开的方式以及任意其他适当方式。作为示例，第一信息获取单元101可以利用Google提供的工具word2vec通过对训练数据进行训练来获得与每个词对应的词向量表示，该训练数据可以是在随机抽取的给定时间(例如，一天)内，供用户发布内容的***或服务中全部用户发布的所有内容。

如以上已指出的，权重为浮点数的词向量可以具有50维或100维的较小长度。因此，相较于现有技术中长度动辄数千或数万的稀疏的向量表示方式，本优选实施例的第一信息获取单元101所采取的词向量表示方式能够大大降低从标签文本获得的第一属性信息的维度，因而降低后续存储和分析该信息的***负荷。

另一方面，本优选实施例中获得的标签文本的权重为浮点数的词向量也有利于应用于用户属性分析。如以上已指出的，这样的两个词向量之间的距离(例如欧式距离或余弦距离)可以反映其所表示的两个词之间的语义相似度，因而可以直接通过计算不同用户的标签文本的上述词向量之间的距离来得到其所表示的不同用户的用户属性信息之间的相似度，而现有技术中的稀疏的向量表示方式则无法获得这样的效果。

在一个优选实施例中，所述用户简档包括多个标签文本，并且所述第一信息获取单元101进一步被配置为在获得所述多个标签文本的、权重为浮点数的词向量之后，计算所获得的词向量的平均值，以获得所述用户的第一属性信息。

在本优选实施例中，第一信息获取单元101计算多个标签文本的权重为浮点数的词向量的平均值，因而相较于直接使用这些词向量本身而言，在能够有效表示标签文本中包含的用户属性的同时，进一步降低了后续存储和分析该信息的***负荷。

例如，用户简档中的标签文本可以包括用户自行添加或***分配的多个标签，如“学生”、“90后”、“驴友”、“旅游”、“美食”、“音乐”等等。这些标签中，一些标签的实际含义是相近或重合的，例如，“学生”和“90后”、“驴友”和“旅游”。通过计算各个标签的词向量的平均值，可以在保留有效信息的同时降低第一信息获取单元101所获得的信息的冗余度。

在一个优选实施例中，所述第二信息获取单元102还被配置为利用文档主题生成模型获取表示所述用户发布的内容中的话题的N维向量，以获得所述用户的第二属性信息，其中N为自然数。

作为示例，第二信息获取单元102所利用的文档主题生成模型可以是表示如何从语料库中抽取M个词来生成一篇包含M个词、N个主题(本文中也称为话题)的文档的模型，其中M、N均为自然数。这样的模型例如可以通过各种现有技术方式得到(诸如通过统计语料库的主题-词(topic-word)贡献频率矩阵等方式)，在此不进行详细描述。

举例而言，第二信息获取单元102可以将用户发布的所有内容(例如，用户在微博站点上原创和转发的所有帖子)、一段时间内发布的全部内容、或一段时间内发布的部分内容(例如，用户在一段时间内在微博站点上原创的所有帖子)作为一个文档，对该文档应用文档主题生成模型，以获得表示用户发布的内容中的话题的N维向量。

作为示例，第二信息获取单元102通过文档主题生成模型获得的N维向量中的每个元素可以是一个置信度或概率，其表示相应话题在用户发布的内容中出现的可能性，该N维向量即表示了N个话题在用户发布的内容中出现的可能性。例如，可以通过基于文档主题生成模型来计算用户发布的内容中的词汇与N个主题的相关度，将文档转为这样的N维向量表示，其中N的取值可以通过先验知识来适当地指定。

利用本优选实施例的第二信息获取单元102，能够从包含数千甚至数万词汇的用户发布的内容中获取表示其中的话题的N维向量(例如50维或100维向量)，从而大大降低了存储和分析与用户发布的内容有关的***负荷和计算量。

在一个优选实施例中，所述文档主题生成模型是通过利用给定语料进行训练获得的隐含狄利克雷分布LDA模型。

隐含狄利克雷分布(LDA)模型是一种文档主题生成模型，也称为三层贝叶斯概率模型，包含词、主题和文档三层结构。文档到主题的概率分布服从狄利克雷分布，主题到词的概率分布服从多项式分布。LDA是一种非监督机器学习技术，可以用来识别大规模文档集或语料库中潜藏的主题信息。

作为示例，LDA模型的训练可以基于给定语料利用Gibbs Sampling算法来实现。可以在参考文献9等现有技术中发现Gibbs Sampling算法的实现细节，在此不进行进一步描述。

本公开实施例的第二信息获取单元102可以利用这样得到的LDA模型来推断用户发布的内容中的主题语义分布，换言之，获取表示用户发布的内容中的话题的N维向量，其中该向量的每个元素表示对应话题在用户发布的内容中出现的概率。

本领域技术人员可以理解，上述LDA模型只是优选实施例的第二信息获取单元102所采用的文档主题生成模型的一种示例，第二信息获取单元102能够利用除LDA模型以外的任意适当文档主题生成模型，例如PLSA(概率潜在语义分析，Probabilistic Latent Semantic Analysis)模型等，在此不进行详细描述。

由于通过基于用户简档中的结构化信息以及用户发布内容中的非结构化信息来获取用户的属性信息，因此根据本公开实施例的用于获得用户的属性信息的获取装置能够全面、准确地获取用户的属性信息。此外，由于通过以迭代过程扩充触发词得到关键词、并在用户发布的内容中搜索与关键词相似的近似词来获得用户的属性信息，因此根据本公开实施例的获取装置能够提高获取用户属性信息的效率和准确性。

根据本公开的另一方面，还提供了一种用于获得用户的属性信息的获取方法。

图2是示出了根据本公开实施例的用于获得用户的属性信息的获取方法200的示例流程的流程图。如图9所示，获取方法200包括：第一信息获取步骤S201，其基于用户的用户简档中的结构化信息获得所述用户的第一属性信息；以及第二信息获取步骤S203，其基于所述用户发布的内容中的非结构化信息获得所述用户的第二属性信息。

在上述第二信息获取步骤S203中，获得所述用户的第二属性信息包括：在所述用户发布的内容中搜索与至少一个关键词相似的近似词，以获得所述用户的第二属性信息；其中，所述关键词是通过下述迭代过程获得的：在给定语料中搜索与预设触发词相似的近似词，作为新的触发词，再在给定语料中搜索与新的触发词相似的近似词，重复上述迭代过程，直到达到预设的迭代停止条件为止，并将所有得到的近似词连同预设触发词一起作为所述关键词。

第一信息获取步骤S201例如可以包括以上参照图1描述的获取装置10中的第一信息获取单元101中进行的各种处理并获得相应的效果，并且第二信息获取步骤S203例如可以包括以上参照图1描述的获取装置10中的第二信息获取单元102中的各种处理并获得相应的效果，这些处理和效果的具体细节在此不再赘述。

在一个优选实施例中，在通过迭代获得关键词的过程当中，在给定语料中搜索与触发词相似的近似词包括：利用权重为浮点数的词向量表示给定语料中的词汇以及触发词，并通过计算相应的词向量之间的距离来计算给定语料中的词汇与触发词之间的相似度。

在一个优选实施例中，所述用户简档包括标签文本，并且第一信息获取步骤S201中的获得所述用户的第一属性信息包括：利用权重为浮点数的词向量表示所述标签文本，以获得所述用户的第一属性信息。

在一个优选实施例中，所述用户简档包括多个标签文本，并且第一信息获取步骤S201中的获得所述用户的第一属性信息进一步包括：在获得所述多个标签文本的、权重为浮点数的词向量之后，计算所获得的词向量的平均值，以获得所述用户的第一属性信息。

在一个优选实施例中，第二信息获取步骤S203中的获得所述用户的第二属性信息还包括：利用文档主题生成模型获取表示所述用户发布的内容中的话题的N维向量，以获得所述用户的第二属性信息，其中N为自然数。

上述各个优选实施例可以包括以上参照图1描述的获取装置10中的第一信息获取单元101和第二信息获取单元102中进行的各种优选处理并获得相应的效果，这些处理和效果的具体细节在此不再赘述。

由于通过基于用户简档中的结构化信息以及用户发布内容中的非结构化信息来获取用户的属性信息，因此根据本公开实施例的用于获得用户的属性信息的获取方法能够全面、准确地获取用户的属性信息。而且，由于通过以迭代过程扩充触发词得到关键词、并在用户发布的内容中搜索与关键词相似的近似词来获得用户的属性信息，因此根据本公开实施例的获取方法能够提高获取用户属性信息的效率和准确性。

根据本公开实施例的用于获得用户的属性信息的获取装置和获取方法可以具有广泛的应用。例如，该获取装置和获取方法可以用于获取期望的用户属性信息以进行用户属性信息的补齐、基于不同用户的用户属性信息进行用户相关度判断和/或关联用户推荐、基于用户属性信息进行用户属性模型的训练、基于该训练得到的模型进行用户属性检测，等等。

根据本公开的又一个方面，提供一种对用户属性模型进行训练的训练装置。

图3是示意性地示出根据本公开实施例的对用户属性模型进行训练的训练装置30的示例结构的框图。如图3所示，训练装置30包括：第一信息获取单元301，其基于用户样本的用户简档中的结构化信息获得所述用户样本的第一属性信息；第二信息获取单元302，其基于所述用户样本的发布内容中的非结构化信息获得所述用户样本的第二属性信息；以及模型训练单元303，其利用所获得的第一属性信息和第二属性信息，对用户属性模型进行训练。

训练装置30的第二信息获取单元302被配置为在所述用户样本的发布内容中搜索与至少一个训练关键词相似的训练近似词，以获得所述用户样本的第二属性信息，其中，所述训练关键词是通过下述迭代过程获得的：在给定训练语料中搜索与预设训练触发词相似的训练近似词，作为新的训练触发词，再在给定训练语料中搜索与新的训练触发词相似的训练近似词，重复上述迭代过程，直到达到预设的训练迭代停止条件为止，并将所有得到的训练近似词连同预设训练触发词一起作为所述训练关键词。

训练装置30中的第一信息获取单元301和/或第二信息获取单元302例如可以包括以上参照图1描述的获取装置10中的第一信息获取单元101和/或第二信息获取单元102中进行的各种处理以及相应的效果，这些处理和效果的具体细节在此不再赘述。当然，本领域技术人员可以理解，本实施例与参照图1描述的获取装置10存在下述区别：在本实施例中处理所针对的是样本数据或训练数据，而在参照图1描述的获取装置10中处理所针对的是要从中获得用户属性信息的用户数据。

利用所获得的第一属性信息和第二属性信息，模型训练单元303可以对用户属性模型进行训练。作为示例，该用户属性模型例如可以是多个基于支持向量机的二分类的分类器，例如分别输出关于用户是否为学生、是否为女性、是否爱好美食等判断结果。替选地，用户属性模型可以是任意适当的模型，例如基于决策树的模型，等等。具体训练处理过程可以参考各种现有训练处理机制，细节不再赘述。

由于通过基于用户样本的用户简档中的结构化信息以及用户样本的发布内容中的非结构化信息来获取用户样本的属性信息，因此根据本公开实施例的训练装置能够全面、准确地获取用户样本的属性信息；而且，由于通过以迭代过程扩充触发词得到关键词、并在用户样本的发布内容中搜索与关键词相似的近似词来获得用户样本的属性信息，因此根据本公开实施例的训练装置能够提高获取用户样本的属性信息的效率和准确性，从而改进训练用户属性模型的效率和准确性。

根据本公开的再一个方面，还提供一种通过根据本公开实施例的训练装置训练得到的用户属性模型来对用户的属性进行检测的检测装置。

图4是示意性地示出根据本公开实施例的、通过根据本公开实施例的训练装置训练得到的用户属性模型来对用户的属性进行检测的检测装置40的示例结构的框图。如图4所示，检测装置40包括：第一信息获取单元401，其基于用户的用户简档中的结构化信息获得所述用户的第一属性信息；第二信息获取单元402，其基于所述用户发布的内容中的非结构化信息获得所述用户的第二属性信息；以及属性检测单元403，其利用所获得的所述用户的第一属性信息和第二属性信息，基于事先已训练好的用户属性模型，检测所述用户的属性。这里，检测装置40的第一信息获取单元401和第二信息获取单元402所获得的所述用户的第一属性信息和第二属性信息与在训练所述用户属性模型时训练装置30的第一信息获取单元301和第二信息获取单元302获得的用户样本的第一属性信息和第二属性信息是对应的。

检测装置40的第二信息获取单元402被配置为在所述用户发布的内容中搜索与至少一个检测关键词相似的检测近似词，以获得所述用户的第二属性信息，其中，所述检测关键词是通过下述迭代过程获得的：在给定检测语料中搜索与预设检测触发词相似的检测近似词，作为新的检测触发词，再在给定检测语料中搜索与新的检测触发词相似的检测近似词，重复上述迭代过程，直到达到预设的检测迭代停止条件为止，并将所有得到的检测近似词连同预设检测触发词一起作为所述检测关键词。

检测装置40中的第一信息获取单元401和/或第二信息获取单元402例如可以包括以上参照图1描述的获取装置10中的第一信息获取单元101和/或第二信息获取单元102中进行的各种处理以及相应的效果，这些处理和效果的具体细节在此不再赘述。

检测装置40中的属性检测单元403所利用的用户属性模型例如可以对应于以上参照图3描述的训练装置30中的模型训练单元303所得到的模型，并且包括该模型所涉及的各种处理以及相应的效果，这些处理和效果的具体细节在此不再赘述。

在一个优选实施例中，在给定检测语料中搜索与检测触发词相似的近似词包括：利用权重为浮点数的词向量表示给定检测语料中的词汇以及检测触发词，并通过计算相应的词向量之间的距离来计算给定检测语料中的词汇与检测触发词之间的相似度。

在一个优选实施例中，所述用户的用户简档包括标签文本，并且检测装置40的第一信息获取单元401被配置为利用权重为浮点数的词向量表示所述标签文本，以获得所述用户的第一属性信息。

在一个优选实施例中，所述用户的用户简档包括多个标签文本，并且检测装置40的第一信息获取单元401进一步被配置为在获得所述多个标签文本的、权重为浮点数的词向量之后，计算所获得的词向量的平均值，以获得所述用户的第一属性信息。

在一个优选实施例中，检测装置40的第二信息获取单元402还被配置为利用文档主题生成模型获取表示所述用户发布的内容中的话题的N维向量，以获得所述用户的第二属性信息，其中N为自然数。

由于通过基于用户简档中的结构化信息以及用户发布内容中的非结构化信息来获取用户的属性信息，因此根据本公开实施例的检测装置能够全面、准确地获取用户的属性信息；而且，由于通过以迭代过程扩充触发词得到关键词、并在用户发布的内容中搜索与关键词相似的近似词来获得用户的属性信息，因此根据本公开实施例的检测装置能够提高获取用户属性信息的效率和准确性，从而改进用户属性检测的效率和准确性。

上述根据本公开实施例的用于获得用户的属性信息的获取装置(例如图1中所示的获取装置10)、对用户属性模型进行训练的训练装置(例如图3中所示的训练装置30)、以及通过根据本公开实施例的训练装置训练得到的用户属性模型来对用户的属性进行检测的检测装置(例如图4中所示的检测装置40)以及其中的各个组成单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下，可从存储介质或网络向具有专用硬件结构的机器安装构成该软件或固件的程序，该机器在安装有各种程序时，能够执行上述各组成单元、子单元的各种功能。

图5是示出了可用来实现根据本公开的实施例的用于获得用户的属性信息的获取装置和获取方法的一种可能的硬件配置即，机器500的结构简图。

在图5中，中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序，使得机器500执行各种处理(例如，结合图1至图4所描述的各种处理)。在RAM503中，还根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。

下述部件也连接到输入/输出接口505：输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡例如LAN卡、调制解调器等)。通信部分509经由网络例如因特网执行通信处理。根据需要，驱动器510也可连接到输入/输出接口505。可拆卸介质511例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器510上，使得从中读出的计算机程序可根据需要被安装到存储部分508中。

在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可拆卸介质511安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 502、存储部分508中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

此外，本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时，可执行上述根据本公开的实施例的用于获得用户的属性信息的获取方法。相应地，用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。

在上面对本公开具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

此外，本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。

此外，显然，根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给***或设备，并且该***或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。

此时，只要该***或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作***的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，客户信息处理终端通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序，也可以实现本公开的各实施例。

综上，在根据本公开的实施例中，本公开提供了如下方案，但不限于此：

方案1、一种用于获得用户的属性信息的获取装置，所述获取装置包括:

第一信息获取单元，其基于用户的用户简档中的结构化信息获得所述用户的第一属性信息；以及

第二信息获取单元，其基于所述用户发布的内容中的非结构化信息获得所述用户的第二属性信息，

其中，所述第二信息获取单元被配置为在所述用户发布的内容中搜索与至少一个关键词相似的近似词，以获得所述用户的第二属性信息，

其中，所述关键词是通过下述迭代过程获得的：在给定语料中搜索与预设触发词相似的近似词，作为新的触发词，再在给定语料中搜索与新的触发词相似的近似词，重复上述迭代过程，直到达到预设的迭代停止条件为止，并将所有得到的近似词连同预设触发词一起作为所述关键词。

方案2、如方案1所述的获取装置，其中，

在给定语料中搜索与触发词相似的近似词包括：利用权重为浮点数的词向量表示给定语料中的词汇以及触发词，并通过计算相应的词向量之间的距离来计算给定语料中的词汇与触发词之间的相似度。

方案3、如方案1所述的获取装置，其中，

所述用户简档包括标签文本，并且所述第一信息获取单元被配置为利用权重为浮点数的词向量表示所述标签文本，以获得所述用户的第一属性信息。

方案4、如方案3所述的获取装置，其中，

所述用户简档包括多个标签文本，并且所述第一信息获取单元进一步被配置为在获得所述多个标签文本的、权重为浮点数的词向量之后，计算所获得的词向量的平均值，以获得所述用户的第一属性信息。

方案5、如方案1所述的获取装置，其中，

所述第二信息获取单元还被配置为利用文档主题生成模型获取表示所述用户发布的内容中的话题的N维向量，以获得所述用户的第二属性信息，其中N为自然数。

方案6、如方案5所述的获取装置，其中，

所述文档主题生成模型是通过利用给定语料进行训练获得的隐含狄利克雷分布LDA模型。

方案7、一种对用户属性模型进行训练的训练装置，包括：

第一信息获取单元，其基于用户样本的用户简档中的结构化信息获得所述用户样本的第一属性信息；

第二信息获取单元，其基于所述用户样本的发布内容中的非结构化信息获得所述用户样本的第二属性信息，

其中，所述第二信息获取单元被配置为在所述用户样本的发布内容中搜索与至少一个训练关键词相似的训练近似词，以获得所述用户样本的第二属性信息，

其中，所述训练关键词是通过下述迭代过程获得的：在给定训练语料中搜索与预设训练触发词相似的训练近似词，作为新的训练触发词，再在给定训练语料中搜索与新的训练触发词相似的训练近似词，重复上述迭代过程，直到达到预设的训练迭代停止条件为止，并将所有得到的训练近似词连同预设训练触发词一起作为所述训练关键词；以及

模型训练单元，其利用所获得的第一属性信息和第二属性信息，对用户属性模型进行训练。

方案8、一种通过如方案7所述的训练装置训练得到的用户属性模型来对用户的属性进行检测的检测装置，包括：

第一信息获取单元，其基于用户的用户简档中的结构化信息获得所述用户的第一属性信息；

其中，该第二信息获取单元被配置为在所述用户发布的内容中搜索与至少一个检测关键词相似的检测近似词，以获得所述用户的第二属性信息，

其中，所述检测关键词是通过下述迭代过程获得的：在给定检测语料中搜索与预设检测触发词相似的检测近似词，作为新的检测触发词，再在给定检测语料中搜索与新的检测触发词相似的检测近似词，重复上述迭代过程，直到达到预设的检测迭代停止条件为止，并将所有得到的检测近似词连同预设检测触发词一起作为所述检测关键词；以及

属性检测单元，其利用所获得的所述用户的第一属性信息和第二属性信息，基于所述用户属性模型，检测所述用户的属性，

其中，所获得的所述用户的第一属性信息和第二属性信息与在训练所述用户属性模型时获得的用户样本的第一属性信息和第二属性信息是对应的。

方案9、如方案8所述的检测装置，其中，

在给定检测语料中搜索与检测触发词相似的近似词包括：利用权重为浮点数的词向量表示给定检测语料中的词汇以及检测触发词，并通过计算相应的词向量之间的距离来计算给定检测语料中的词汇与检测触发词之间的相似度。

方案10、如方案8所述的检测装置，其中，

所述用户的用户简档包括标签文本，并且所述检测装置的第一信息获取单元被配置为利用权重为浮点数的词向量表示所述标签文本，以获得所述用户的第一属性信息。

方案11、如方案10所述的检测装置，其中，

所述用户的用户简档包括多个标签文本，并且所述检测装置的第一信息获取单元进一步被配置为在获得所述多个标签文本的、权重为浮点数的词向量之后，计算所获得的词向量的平均值，以获得所述用户的第一属性信息。

方案12、如方案8所述的检测装置，其中，

所述检测装置的第二信息获取单元还被配置为利用文档主题生成模型获取表示所述用户发布的内容中的话题的N维向量，以获得所述用户的第二属性信息，其中N为自然数。

方案13、如方案12所述的检测装置，其中，

方案14、一种用于获得用户的属性信息的获取方法，所述获取方法包括:

基于用户的用户简档中的结构化信息获得所述用户的第一属性信息；以及

基于所述用户发布的内容中的非结构化信息获得所述用户的第二属性信息，

其中，获得所述用户的第二属性信息包括：

在所述用户发布的内容中搜索与至少一个关键词相似的近似词，以获得所述用户的第二属性信息，

方案15、如方案14所述的获取方法，其中，

方案16、如方案14所述的获取方法，其中，

所述用户简档包括标签文本，并且获得所述用户的第一属性信息包括：利用权重为浮点数的词向量表示所述标签文本，以获得所述用户的第一属性信息。

方案17、如方案16所述的获取方法，其中，

所述用户简档包括多个标签文本，并且获得所述用户的第一属性信息进一步包括：在获得所述多个标签文本的、权重为浮点数的词向量之后，计算所获得的词向量的平均值，以获得所述用户的第一属性信息。

方案18、如方案14所述的获取方法，其中，

获得所述用户的第二属性信息还包括：利用文档主题生成模型获取表示所述用户发布的内容中的话题的N维向量，以获得所述用户的第二属性信息，其中N为自然数。

方案19、如方案18所述的获取方法，其中，

最后，还需要说明的是，在本公开中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露，但是，应该理解，本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

参考文献列表

1、Yoshua Bengio,Rejean Ducharme,Pascal Vincent,and ChristianJauvin.A neural probabilistic language model.Journal of MachineLearning Research(JMLR),3:1137–1155,2003.

2、Ronan Collobert,Jason Weston,Léon Bottou,Michael Karlen,KorayKavukcuoglu and Pavel Kuksa.Natural Language Processing(Almost)from Scratch.Journal of Machine Learning Research(JMLR),12:2493-2537,2011.

3、Andriy Mnih&Geoffrey Hinton.Three new graphical models forstatistical language modelling.International Conference on MachineLearning(ICML).2007.

4、Andriy Mnih&Geoffrey Hinton.A scalable hierarchical distributedlanguage model.The Conference on Neural Information ProcessingSystems(NIPS)(pp.1081–1088).2008.

5、MikolovStatistical Language Models based on Neural Networks.PhD thesis,Brno University of Technology.2012.

6、Turian Joseph,Lev Ratinov,and Yoshua Bengio.Word representations:a simple and general method for semi-supervised learning.Proceedings ofthe 48th Annual Meeting of the Association for Computational Linguistics(ACL).2010.

7、Eric Huang,Richard Socher,Christopher Manning and Andrew Ng.Improving word representations via global context and multiple wordprototypes.Proceedings of the 50th Annual Meeting of the Association forComputational Linguistics:Long Papers-Volume 1.2012.

8、Mikolov,Tomas,Wen-tau Yih,and Geoffrey Zweig.Linguisticregularities in continuous space word representations.Proceedings ofNAACL-HLT.2013.

9、Wang Yi.Distributed Gibbs Sampling of Latent Topic Models:TheGritty Details Technical report,2005.

Claims

1.一种用于获得用户的属性信息的获取装置，所述获取装置包括:

2.如权利要求1所述的获取装置，其中，

3.如权利要求1所述的获取装置，其中，

4.如权利要求3所述的获取装置，其中，

5.如权利要求1所述的获取装置，其中，

6.如权利要求5所述的获取装置，其中，

7.一种对用户属性模型进行训练的训练装置，包括：

8.一种通过如权利要求7所述的训练装置训练得到的用户属性模型来对用户的属性进行检测的检测装置，包括：

9.如权利要求8所述的检测装置，其中，

10.如权利要求8所述的检测装置，其中，