CN109191167A

CN109191167A - 一种目标用户的挖掘方法和装置

Info

Publication number: CN109191167A
Application number: CN201810784513.4A
Authority: CN
Inventors: 陈明星
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2019-01-11

Abstract

本说明书实施例提供一种目标用户的挖掘方法和装置，其中，所述方法包括：对于待判别的用户，采集所述用户在预设时间段内发表的文本媒体数据，所述文本媒体数据包括多条文本日志；对于其中的每一条文本日志，计算所述文本日志对应的特征向量；将所述特征向量输入预先训练的日志识别模型，输出所述文本日志对应的概率值；根据所述多条文本日志的概率值，确定所述用户对应的概率值，以根据所述概率值确定所述用户是否是目标用户。

Description

一种目标用户的挖掘方法和装置

技术领域

本公开涉及支付技术领域，特别涉及一种目标用户的挖掘方法和装置。

背景技术

在多种业务场景中，都可能涉及到要挖掘出一部分用户，针对特定的这部分用户采取特定的业务措施。例如，在设置支付密码策略的应用场景中，用户对安全感述求的高低不同，可以采用不同的密码策略。举例来说，如果一个用户对支付的安全性特别重视，这类用户可以称为安全感高述求用户，可以对这类用户使用双因子的核身手段；反之，如果用户的安全感述求较低，可以采用单因子的核身手段。为了识别出不同用户的安全感述求的程度，可以根据业务经验设置业务规则，比如如果用户在一段时间内查看安全中心的次数频繁，并且经常反馈一些安全方面的问题，可以将这类用户识别为安全感高述求用户。

发明内容

有鉴于此，本说明书一个或多个实施例提供一种目标用户的挖掘方法和装置，以提高目标用户挖掘的准确性。

具体地，本说明书一个或多个实施例是通过如下技术方案实现的：

第一方面，提供一种方法，所述方法包括：

对于待判别的用户，采集所述用户在预设时间段内发表的文本媒体数据，所述文本媒体数据包括多条文本日志；

对于其中的每一条文本日志，计算所述文本日志对应的特征向量；

将所述特征向量输入预先训练的日志识别模型，输出所述文本日志对应的概率值，所述概率值用于表示发表文本日志的用户属于目标用户的概率；

根据所述多条文本日志的概率值，确定所述用户对应的概率值，以根据所述概率值确定所述用户是否是目标用户。

第二方面，提供一种日志识别模型的训练方法，所述方法包括：

获取黑白样本日志数据；

对于所述黑白样本日志数据中的文本日志，计算所述文本日志对应的特征向量：对所述文本日志进行切词，得到多个词；利用词嵌入word embedding算法，分别计算每个词对应的词向量，根据各个词的词向量得到所述文本日志对应的特征向量；

使用所述黑白样本日志数据的特征向量，训练有监督的二分类模型，作为所述日志识别模型。

第三方面，提供一种目标用户的挖掘装置，所述装置包括：

数据采集模块，用于对于待判别的用户，采集所述用户在预设时间段内发表的文本媒体数据，所述文本媒体数据包括多条文本日志；

向量计算模块，用于对于其中的每一条文本日志，计算所述文本日志对应的特征向量；

模型预测模块，用于将所述特征向量输入预先训练的日志识别模型，输出所述文本日志对应的概率值，所述概率值用于表示发表文本日志的用户属于目标用户的概率；

用户数据模块，用于根据所述多条文本日志的概率值，确定所述用户对应的概率值，以根据所述概率值确定所述用户是否是目标用户。

第四方面，提供一种日志识别模型的训练装置，所述装置包括：

样本获取模块，用于获取黑白样本日志数据；

向量处理模块，用于对于所述黑白样本日志数据中的文本日志，计算所述文本日志对应的特征向量：对所述文本日志进行切词，得到多个词；利用词嵌入word embedding算法，分别计算每个词对应的词向量，根据各个词的词向量得到所述文本日志对应的特征向量；

模型训练模块，用于使用所述黑白样本日志数据的特征向量，训练有监督的二分类模型，作为所述日志识别模型。

第五方面，提供一种目标用户的挖掘设备，所述设备包括存储器、处理器，以及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行指令时实现以下步骤：

本说明书一个或多个实施例的目标用户的挖掘方法和装置，通过基于词向量的文本特征提取，来训练模型和识别日志，无须像传统的机器学习算法那样花费大量的时间来构造人工特征和做特征选择，直接基于用户发表的文本媒体数据就可以得到用户的特征，这种方法得到的特征能够有效减少因为业务理解不深刻而造成的模型效果不高的问题，提高了模型的性能和准确性。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例提供的一种样本获取的流程；

图2为本说明书一个或多个实施例提供的样本抽取的示意图；

图3为本说明书一个或多个实施例提供的文本日志向量化的流程；

图4为本说明书一个或多个实施例提供的目标用户的挖掘方法的流程；

图5为本说明书一个或多个实施例提供的一种目标用户的挖掘装置；

图6为本说明书一个或多个实施例提供的一种目标用户的挖掘装置。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

本说明书至少一个实施例提供的目标用户的挖掘方法，是基于word embedding算法，将用户发表的日志转换为特征向量，并将该特征向量示输入预先训练的日志识别模型，通过对日志的分析识别来确定发表该日志的用户是否属于要挖掘的目标用户，例如，安全感高述求的用户。

待挖掘的目标用户，包括但不限于“安全感高述求的用户”，可以根据业务需求确定。例如，在设置支付密码策略的应用场景中，具有不同的安全感述求的用户，可以采用不同的密码策略，安全感高述求的用户可以采用双因子的核身手段，安全感低述求的用户可以采用单因子的核身手段。因此，针对设置支付密码策略的应用场景的业务需求，可以挖掘哪些用户是安全感高述求的用户，哪些用户是安全感低述求的用户，可以将安全感高述求用户或者安全感低述求用户作为待挖掘的目标用户。当然，在其他的应用场景中，根据业务需求可以设置其他类型的用户为目标用户。

如下对挖掘方法的描述，以安全感高述求的用户为例：

本说明书至少一个实施例的目标用户的挖掘方法，包括“模型训练”和“模型应用”两部分。其中，“模型训练”中的模型可以是用于识别用户发表的文本媒体数据的类型，该文本媒体数据的类型可以对应反应发表该数据的用户是何种用户。而““模型应用”可以利用训练好的模型来识别文本媒体数据，并通过文本媒体数据的识别来反应发表该数据的用户是否是目标用户。

模型的训练

第一、训练样本的获取。

用户可以发表一些文本媒体数据，在采集文本媒体数据时，可以是采集与本次挖掘的目标用户的关联业务相关的数据。例如，待挖掘的安全感高述求的用户，是对“支付宝的安全”方面具有安全感高述求，因此，可以由社交媒体上面过滤出所有关于支付宝的文本媒体数据，包括但不限于用户的如下数据：支付宝反馈数据、支付宝来电文本数据、社交平台上的支付宝相关微博帖子、评论、知乎文章内容、公众号内容、以及阅读的文章等。

所述的文本媒体数据可以包括多条文本日志，比如，微博帖子有三条日志，公众号内容有五条日志，知乎文章内容有六条日志，等。模型训练时，可以获取一定数量的黑白样本日志数据，例如，黑样本日志数据可以是表明用户安全感高述求的日志，白样本日志数据可以是表明用户安全感低述求的日志。

例如，该黑白样本日志易数据的获得，可以是基于主动学习获取样本。图1示例了样本获取的流程，可以包括：

在步骤100中，随机抽取小部分样本进行黑白属性标注得到第一标注样本。

例如，本步骤可以随机抽取很小数据的样本，进行人工标注黑白属性，得到的标注样本可以称为第一标注样本。所述的黑白属性标注可以是，根据样本所体现出的发表该数据的用户是否具有安全感高述求确定，如果根据发表的日志确定对应用户对安全感的要求很高，可以将样本标注为黑，否则，可以将样本标注为白。这个步骤可以称为MarkInstances部分。

在步骤102中，基于所述第一标注样本，训练得到样本分类模型。

本步骤可以根据步骤100中得到的第一标注样本，训练样本分类模型。该样本分类模型可以输出一个样本分值，所述样本分值用于作为评估文本日志的黑白属性的依据，比如，如果样本分值越高，可以认为该样本对应的用户具有安全感高述求的概率越高；反之，如果样本分值越低，用户安全感低述求的概率越低。此外，该样本分类模型与后续描述的日志识别模型的模型结构，可以不同。本步骤可以称为Update Model部分。

在步骤104中，通过所述样本分类模型，对其他未标注的样本进行识别，得到样本分值。

本步骤可以利用训练好的样本分类模型，对其他未标注的样本进行识别打分，得到样本分值。本步骤可以称为Predict unlabel Instances部分。

在步骤106中，根据所述样本分值抽取目标样本，以对目标样本进行黑白属性标注得到第二标注样本。

本步骤是Select unlabel instances部分。

请结合参见图2所示，用户发表的文本媒体数据中的多条文本日志，可以包括分别属于不同的媒体类型的日志。可以通过聚类算法对未标注的文本媒体数据进行聚类，划分为不同媒体类型的文本日志，比如，C1类日志、C2类日志、C3类日志。例如，这些不同的媒体类型可以包括微博类、公众号内容类、来电文本类等，该多种类型可以提升样本的多样性，进而提高模型训练的性能。当然，也可以不进行聚类，对混合的样本根据所述样本分值抽取目标样本。

如图2所示，在每一类媒体类型的文本日志中，可以根据样本分值抽取目标样本。其中，所述目标样本包括排序在前预设位数(例如，Top N)的文本日志、以及由前预设位数的文本日志之外的其他文本日志中随机抽取的部分文本日志(Random Select K)。所述的N个日志和K个日志的总和就是抽取到的目标样本。这部分抽取的目标样本可以送给专家进行黑白属性标注，得到第二标注样本。

在步骤108中，将第二标注样本和第一标注样本结合，并返回执行步骤102，继续训练更新所述样本分类模型。

通过更新的样本分类模型对其他未标注的样本继续进行识别，即继续执行步骤102至106，这是一个不断迭代循环的过程，直至第二标注样本的数量达到预设的黑白样本数量值为止，停止循环。

通过上述的主动学习的标签样本获取的过程，可以得到一定数量的安全感缺失日志和无缺失日志。其中，安全感缺失日志可以是黑样本日志数据，无缺失日志可以是白样本日志数据。并且，基于主动学习，能够更有针对性的挑选出样本进行人工标注，从而有效的降低人工标注的时间，并通过使用聚类的方法能够帮忙提升标注样本的多样化。

第二、训练样本的特征表示。

对于所述黑白样本日志数据中的文本日志，可以计算所述文本日志对应的特征向量。图3示例了文本日志向量化的过程，可以包括：

在步骤300中，对所述文本日志进行切词，得到多个词。

例如，一个文本日志TXT可以切词得到多个词：word1、word2…..wordk。

在步骤302中，利用词嵌入word embedding算法，分别计算每个词对应的词向量。例如，可以利用word2vec、fastText等算法，计算出每个word对应的词向量<f1,f2,f3…….fk>。

在步骤304中，根据各个词的词向量得到所述文本日志对应的特征向量。

例如，可以将一条文本日志的各个词的词向量计算平均，得到该文本日志对应的特征向量。

第三、训练模型。

训练样本中的文本日志可以通过图3的流程得到对应的特征向量，并使用所述黑白样本日志数据的特征向量，训练有监督的二分类模型，作为所述日志识别模型。所述的二分类模型可以包括逻辑回归、决策树、随机森林等。

其中，基于主动学习得到的所述黑白样本日志数据，可以随机分成三部分数据，其中60％作为训练集，20％为验证集，剩下20％作为测试集。利用有监督的二分类模型在训练集上面学习模型，并用验证集进行验证以得到在验证集上面取得最优的模型参数，最后在测试集上面进行模型测试。

该日志识别模型的输入可以是一条文本日志对应的特征向量，输出可以是所述文本日志对应的概率值，所述概率值用于表示发表该文本日志的用户属于目标用户(如，安全感高述求用户)的概率。

此外，还可以根据不断更新的文本媒体数据，对日志识别模型进行定期的模型更新，以使得模型更加准确，模型性能更好。

模型的使用

训练好的日志识别模型可以用来识别一笔日志对应的用户的安全感缺失的概率，并据此挖掘安全感高述求用户。如图4所示，示例了至少一个实施例的目标用户的挖掘方法，可以包括：

在步骤400中，对于待判别的用户，采集所述用户在预设时间段内发表的文本媒体数据，所述文本媒体数据包括多条文本日志。

例如，可以获取一个用户在一段时间内的多条文本日志，包括博客上的内容，或者公众号发表的内容等。

在步骤402中，对于其中的每一条文本日志，计算所述文本日志对应的特征向量。例如，可以按照图3的流程得到文本日志对应的特征向量。

在步骤404中，将所述特征向量输入预先训练的日志识别模型，输出所述文本日志对应的概率值。

在步骤406中，根据所述多条文本日志的概率值，确定所述用户对应的概率值，以根据所述概率值确定所述用户是否是目标用户。

例如，可以将步骤400中的多条文本日志的概率值中的最大值，作为该用户对应的概率值，根据所述概率值确定所述用户是否是目标用户。比如，如果该概率值高于某个阈值，可以确定该用户是安全感高述求的用户。

上述的目标用户挖掘方法，通过基于词向量的文本特征提取，来训练模型和识别日志，无须像传统的机器学习算法那样花费大量的时间来构造人工特征和做特征选择，直接基于用户发表的文本媒体数据就可以得到用户的特征，这种方法得到的特征能够有效减少因为业务理解不深刻而造成的模型效果不高的问题，提高模型的性能和准确性。

为了实现上述的目标用户的挖掘方法，本说明书至少一个实施例提供了一种目标用户的挖掘装置。如图5所示，该装置可以包括：数据采集模块51、向量计算模块52、模型预测模块53和用户数据模块54。

数据采集模块51，用于对于待判别的用户，采集所述用户在预设时间段内发表的文本媒体数据，所述文本媒体数据包括多条文本日志；

向量计算模块52，用于对于其中的每一条文本日志，计算所述文本日志对应的特征向量；

模型预测模块53，用于将所述特征向量输入预先训练的日志识别模型，输出所述文本日志对应的概率值，所述概率值用于表示发表文本日志的用户属于目标用户的概率；

用户数据模块54，用于根据所述多条文本日志的概率值，确定所述用户对应的概率值，以根据所述概率值确定所述用户是否是目标用户。

在一个例子中，向量计算模块52，具体用于：对所述文本日志进行切词，得到多个词；利用词嵌入word embedding算法，分别计算每个词对应的词向量；将各个词的词向量计算平均得到所述文本日志对应的特征向量。

为了实现上述的日志识别模型的训练方法，本说明书至少一个实施例提供了一种日志识别模型的训练装置。如图6所示，该装置可以包括：样本获取模块61、向量处理模块62和模型训练模块63。

样本获取模块61，用于获取黑白样本日志数据；

向量处理模块62，用于对于所述黑白样本日志数据中的文本日志，计算所述文本日志对应的特征向量：对所述文本日志进行切词，得到多个词；利用词嵌入word embedding算法，分别计算每个词对应的词向量，根据各个词的词向量得到所述文本日志对应的特征向量；

模型训练模块63，用于使用所述黑白样本日志数据的特征向量，训练有监督的二分类模型，作为所述日志识别模型。

在一个例子中，样本获取模块61，在用于获取黑白样本日志数据时，包括：

对随机抽取的样本进行黑白属性标注，得到第一标注样本；

基于所述第一标注样本，训练得到样本分类模型；

通过所述样本分类模型，对其他未标注的样本进行识别，得到样本分值，所述样本分值用于作为评估文本日志的黑白属性的依据；

根据所述样本分值抽取目标样本，以对目标样本进行黑白属性标注得到第二标注样本；

将第二标注样本和第一标注样本结合，继续训练更新所述样本分类模型；

通过更新的样本分类模型对其他未标注的样本继续进行识别，直至第二标注样本的数量达到预设的黑白样本数量值。

在一个例子中，样本获取模块61，在用于根据样本分值抽取目标样本时，包括：分别对不同媒体类型的文本日志，按照所述样本分值进行排序；在每一类媒体类型的文本日志中，根据样本分值抽取目标样本，其中，所述目标样本包括排序在前预设位数的文本日志、以及由前预设位数的文本日志之外的其他文本日志中抽取的部分文本日志。

上述实施例阐明的装置或模块，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述图中所示流程中的各个步骤，其执行顺序不限制于流程图中的顺序。此外，各个步骤的描述，可以实现为软件、硬件或者其结合的形式，例如，本领域技术人员可以将其实现为软件代码的形式，可以为能够实现所述步骤对应的逻辑功能的计算机可执行指令。当其以软件的方式实现时，所述的可执行指令可以存储在存储器中，并被设备中的处理器执行。

例如，对应于上述方法，本说明书一个或多个实施例同时提供一种目标用户的挖掘设备。该设备可以包括处理器、存储器、以及存储在存储器上并可在处理器上运行的计算机指令，所述处理器通过执行所述指令，用于实现如下步骤：

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、***或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种目标用户的挖掘方法，所述方法包括：

2.根据权利要求1所述的方法，所述文本媒体数据中的多条文本日志，包括分别属于不同的媒体类型的日志。

3.根据权利要求1所述的方法，所述计算文本日志对应的特征向量，包括：

对所述文本日志进行切词，得到多个词；

利用词嵌入word embedding算法，分别计算每个词对应的词向量；

将各个词的词向量计算平均得到所述文本日志对应的特征向量。

4.根据权利要求1所述的方法，所述根据所述多条文本日志的概率值，确定所述用户的概率值，包括：

取所述多条文本日志的概率值中的最高值，作为所述用户的概率值。

5.根据权利要求1所述的方法，

所述目标用户，是具有安全感高述求的用户。

6.一种日志识别模型的训练方法，所述方法包括：

获取黑白样本日志数据；

7.根据权利要求6所述的方法，所述获取黑白样本日志数据，包括：

对随机抽取的样本进行黑白属性标注，得到第一标注样本；

基于所述第一标注样本，训练得到样本分类模型；

8.根据权利要求7所述的方法，所述根据样本分值抽取目标样本，包括：

分别对不同媒体类型的文本日志，按照所述样本分值进行排序；

在每一类媒体类型的文本日志中，根据样本分值抽取目标样本，其中，所述目标样本包括排序在前预设位数的文本日志、以及由前预设位数的文本日志之外的其他文本日志中抽取的部分文本日志。

9.一种目标用户的挖掘装置，所述装置包括：

10.根据权利要求9所述的装置，

所述向量计算模块，具体用于：对所述文本日志进行切词，得到多个词；利用词嵌入word embedding算法，分别计算每个词对应的词向量；将各个词的词向量计算平均得到所述文本日志对应的特征向量。

11.一种日志识别模型的训练装置，所述装置包括：

样本获取模块，用于获取黑白样本日志数据；

12.根据权利要求11所述的装置，所述样本获取模块，在用于获取黑白样本日志数据时，包括：

对随机抽取的样本进行黑白属性标注，得到第一标注样本；

基于所述第一标注样本，训练得到样本分类模型；

13.根据权利要求12所述的装置，

所述样本获取模块，在用于根据样本分值抽取目标样本时，包括：分别对不同媒体类型的文本日志，按照所述样本分值进行排序；在每一类媒体类型的文本日志中，根据样本分值抽取目标样本，其中，所述目标样本包括排序在前预设位数的文本日志、以及由前预设位数的文本日志之外的其他文本日志中抽取的部分文本日志。

14.一种目标用户的挖掘设备，所述设备包括存储器、处理器，以及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行指令时实现以下步骤：