CN109933744A

CN109933744A - 目标识别方法及装置、设备及计算机可读存储介质

Info

Publication number: CN109933744A
Application number: CN201910377702.4A
Authority: CN
Inventors: 张斌
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2018-08-10
Filing date: 2019-04-30
Publication date: 2019-06-25

Abstract

本申请提供了一种目标识别方法、装置、设备及计算机可读存储介质，采集待分类对象的网络行为数据，依据网络行为数据，统计特征数据，并将特征数据输入预设的分类模型，得到分类模型输出的分类结果，分类结果用于指示待分类对象属于或不属于预设分类，可见，能够利用网络行为数据，确定待分类对象是否属于预设分类，实现对于目标的识别，并且，因为特征数据包括与将待分类对象识别为预设分类的概率正相关的正向特征数据、以及与将待分类对象识别为预设分类的概率反相关的反向特征数据，所以，使得识别结果具有较高的准确性。

Description

目标识别方法及装置、设备及计算机可读存储介质

本申请要求于2018年8月10日提交中国专利局、申请号为201810908962.5、发明名称为“一种宗教信徒识别方法、***及相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及电子信息领域，尤其涉及一种目标识别方法及装置、设备及计算机可读存储介质。

背景技术

随着互联网的发展，互联网已成为一把双刃剑，它既能提高社会的生产力，也可以被不法分子利用，因此，基于互联网数据的身份识别是一项重要课题。

以互联网的用户为待识别对象，以预设类型的用户(例如某个组织的成员)为待识别的目标，则基于互联网数据的身份识别可以看作目标的识别。

如何利用互联网数据，从互联网的用户中识别出目标，成为亟待解决的问题。

发明内容

本申请提供了一种目标识别方法及装置、设备及计算机可读存储介质，目的在于解决如何利用互联网数据，从互联网的用户中识别出目标的问题。

为了实现上述目的，本申请提供了以下技术方案：

一种目标识别方法，包括：

采集待分类对象的网络行为数据；

依据所述网络行为数据，统计预设的特征数据，所述特征数据包括正向特征数据和反向特征数据，所述正向特征数据与将所述待分类对象识别为预设分类的概率正相关，所述反向特征数据与将所述待分类对象识别为所述预设分类的概率反相关；

将所述特征数据输入预设的分类模型，得到所述分类模型输出的分类结果，所述分类结果用于指示所述待分类对象属于或不属于所述预设分类。

可选的，所述正向特征数据包括以下至少一项：

在第一预设时间段内，所述待分类对象访问属于所述预设分类的预设目标网站的次数；

在第二预设时间段内，所述待分类对象访问所述预设目标网站中超过预设深度的地址的次数；

在第三预设时间段内，所述待分类对象发送包括属于所述预设分类的预设目标关键字的网络数据的次数；

在第四预设时间段内，所述待分类对象访问网络上的属于所述预设分类的多媒体资源的频率。

可选的，所述反向特征数据包括以下至少一项：

在第五预设时间段内，所述待分类对象访问的数据内容所属的所述预设分类中的子类型的数量，其中，所述子类型中的任意一种子类型的关注度与将所述待分类对象识别为所述预设分类的概率正相关；

所述待分类对象访问的满足预设条件的网站的数量，所述预设条件包括：标题包含属于所述预设分类的所述预设目标关键字且不属于预设目标网站。

可选的，所述采集待分类对象的网络行为数据包括以下任意一项：

采集所述待分类对象对属于所述预设分类的预设目标网站的访问数据；

采集所述待分类对象发送的网络数据，所述网络数据包括属于所述预设分类的预设目标关键字；

采集所述待分类对象对标题包括所述预设目标关键字的网站的访问数据。

可选的，所述网络数据包括：

聊天类数据、搜索类数据、和/或发帖类数据。

一种目标识别装置，包括：

采集模块，用于采集待分类对象的网络行为数据；

统计模块，用于依据所述网络行为数据，统计预设的特征数据，所述特征数据包括正向特征数据和反向特征数据，所述正向特征数据与将所述待分类对象识别为预设分类的概率正相关，所述反向特征数据与将所述待分类对象识别为所述预设分类的概率反相关；

识别模块，用于将所述特征数据输入预设的分类模型，得到所述分类模型输出的分类结果，所述分类结果用于指示所述待分类对象属于或不属于所述预设分类。

可选的，所述正向特征数据包括以下至少一项：

可选的，所述反向特征数据包括以下至少一项：

可选的，所述采集模块用于采集待分类对象的网络行为数据包括：

所述采集模块具体用于以下任意一项：采集所述待分类对象对属于所述预设分类的预设目标网站的访问数据；采集所述待分类对象发送的网络数据，所述网络数据包括属于所述预设分类的预设目标关键字；采集所述待分类对象对标题包括所述预设目标关键字的网站的访问数据。

可选的，所述网络数据包括：

聊天类数据、搜索类数据、和/或发帖类数据。

一种服务器，包括：

处理器和存储器；

所述处理器用于执行所述存储器中存储的计算机程序，以实现所述目标识别方法。

一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行所述的标识别方法。

本申请所述的目标识别方法、装置、设备及计算机可读存储介质，采集待分类对象的网络行为数据，依据网络行为数据，统计特征数据，并将特征数据输入预设的分类模型，得到分类模型输出的分类结果，分类结果用于指示待分类对象属于或不属于预设分类，可见，能够利用网络行为数据，确定待分类对象是否属于预设分类，实现对于目标的识别，并且，因为特征数据包括与将待分类对象识别为预设分类的概率正相关的正向特征数据、以及与将待分类对象识别为预设分类的概率反相关的反向特征数据，所以，使得识别结果具有较高的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种目标识别方法的流程图通信网络拓扑结构图；

图2为本申请实施例公开的又一种目标识别方法的流程图；

图3为目标的部分网络行为数据的示例图；

图4为本申请实施例公开的一种目标识别装置的结构示意图。

具体实施方式

本申请实施例公开的目标识别方法以及装置，目的在于，将网络用户作为待识别对象，通过网络用户的网络行为数据，识别出预设类型用户，即目标，以便于后续对目标进行处理，例如统计、监控、追踪等。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例公开的一种目标识别方法，包括以下步骤：

S101：采集待分类对象的网络行为数据。

待分类对象为网络用户，实际中，可以依据用户的IP地址等能够唯一标识用户的特征，区分不同的待分类对象。

网络行为数据为待分类对象在网络上的操作产生的数据。

S102：依据网络行为数据，统计预设的特征数据。

本实施例中，特征数据包括正向特征数据和反向特征数据，其中，正向特征数据与将待分类对象识别为预设分类的概率正相关，反向特征数据与将待分类对象识别为预设分类的概率反相关。

可以看出，识别结果的确定依据，既有正向的依据，也有反向的依据，因此，具有更高的准确性。

S103：将特征数据输入预先训练的分类模型，得到分类模型输出的分类结果，分类结果用于指示待分类对象属于或不属于预设分类。

本实施例中，可以使用逻辑回归LR分类器、支持向量机SVM分类器以及卷积神经网络CNN分类器中的任意一个作为分类模型。分类模型的具体结构和训练过程可以参见现有技术，这里不再赘述。

从图1所示的流程实现了使用互联网数据，从互联网的用户中识别出目标的目的。进一步的，因为本实施例中，作为分类依据的正向特征数据与将待分类对象识别为预设分类的概率正相关，反向特征数据与将待分类对象识别为所述预设分类的概率反相关，而并非一味使用正向特征数据，所以，能够提高分类结果的准确性。

图2为本申请实施例公开的又一种目标识别方法，将重点说明网络行为数据以及特征数据的具体形式，图2所示的流程包括以下步骤：

S201：采集待分类对象的以下至少一种网络行为数据：

1、待分类对象对属于预设分类的预设目标网站的访问数据。

其中，属于预设分类的预设目标网站为预先设定的、属于预设分类的网站，例如属于某个社团组织(例如少先队)这一类别的网站(可以简称为社团网站)。具体的，可以通过从浏览器日志中采集待分类对象对网站的访问数据(例如访问时间和访问网络的域名)。

2、待分类对象发送的包括属于预设分类的预设目标关键字的网络数据。

其中，预设目标关键字为预先设定的关键字，例如属于社团类别的关键字(即跟社团名称或宗旨相关的关键字)。

本实施例中，待分类对象发送的网络数据包括但不限于：聊天类数据、搜索类数据和发帖类数据。

聊天类数据为待分类对象通过聊天软件等工具发送的数据，可以通过从工具的日志中采集得到。搜索类数据为待分类对象通过搜索引擎(例如Bing、百度或搜搜等)输入的用于搜索的数据，可以通过采集搜索引擎的历史搜索记录得到。发帖类数据为待分类对象在论坛、微博、贴吧等社交类网站发表的内容数据，可以从浏览器的日志采集得到。上述采集方式仅为举例，而不作为限定，现有技术中任何用户采集上述数据的方式，均可以使用。

为了减轻数据采集的工作量，可以仅采集包含预设目标关键字的网络数据，即采集的数据包括：包含预设目标关键字的聊天类数据、包含预设目标关键字的搜索类数据、和/或，包含预设目标关键字的发帖类数据。

3、待分类对象对标题包括属于预设分类的预设目标关键字的网站的访问数据。

需要说明的是，上述预设目标关键字可以依据需求设定，例如，要识别的目标为社团成员(即属于社团类别的用户)，则预设目标关键字设置为属于社团这一类别的词语。关键字的数量可以为多个，也可以为一个，本实施例不作限定。

S202：依据网络行为数据，统计正向特征数据和反向特征数据。

正向特征数据包括以下至少一项：

1、在第一预设时间段内，待分类对象访问预设目标网站的次数。

对于任意一个待分类对象，可以通过该待分类对象对预设目标网站的访问数据，计算得到该待分类对象在预设时间段内，访问第一预设目标网站的次数。具体的计算方式可以参见现有技术，这里不再赘述。

2、在第二预设时间段内，待分类对象访问预设目标网站中超过预设深度的地址的次数。

通常，网站除了首页的内容之外，还包括通过首页链接的下级地址的内容。用户访问的地址层级越深，则说明书用户对于网站的内容越感兴趣，反之，如果用户仅打开首页，则有可能是不感兴趣，或者打开首页的行为是误操作。因此，考虑待分类对象访问预设目标网站中超过预设深度的地址的次数的目的在于，减小将非目标识别为目标的误判率。

本实施例中，预设深度地址的一个示例为深度为2的URL地址，即统计待分类对象点击首页的下级页面的次数。

3、在第三预设时间段内，待分类对象发送包括预设目标关键字的网络数据的次数。

具体的，可以分别统计发送聊天类数据、搜索类数据和发帖类数据的次数，再依据统计得到的次数(如相加或取平均)，得到待分类对象主动发送包括第一预设目标关键字的网络数据的次数。

4、在第四预设时间段内，待分类对象访问网络上属于预设分类的预设类型的多媒体资源的频率。

预设类型的多媒体资源为预先指定的多媒体资源，例如，在预设分类为社团的情况下，资源为属于社团的歌曲和视频等，即与社团相关的歌曲和视频等。

可以看出，上述正向特征数据具有的共同点为：均属于预设类别，并与将待分类对象识别为预设分类的概率正相关。以识别少先队员为例，用户在一段时间范围内，访问少先队网站的次数越多、访问少先队网站的首页的下级页面的次数越多、主动发送少先队相关的聊天数据、微博等数据越多、访问网络上的少先队歌的次数越多，其为少先队员的可能性越大。

本实施例中，反向特征数据包括：

1、在第五预设时间段内，待分类对象访问的数据内容所属的预设分类中的子类型的数量。

具体的，可以预先将网络数据分类。在采集到待分类对象访问的数据内容后，依据预设分类的子类型，确定待分类对象访问的数据内容所属的子类型，并统计确定出的子类型的数量。子类型可以依据实际需求设定，并且，预设分类中的任意一种子类型的关注度与将待分类对象识别为预设分类的概率正相关。

例如，以识别少先队员为例，预先将属于少先队类别的网络数据分为不同的年龄段，并确定待分类对象访问的数据内容所属的年龄段，如果这些数据的一部分属于小学生，一部分属于初中生，则这些数据所属的子类型的数量为2。

具体的，待分类对象访问的数据内容，可以从上述采集到的网络行为数据中获得。

待分类对象访问的数据内容所属的子类型的数量越多，则说明待分类对象关注的子类型比较分散，进而说明待分类对象对于某一子类型的内容的关注度降低，因此，在任意一种子类型的关注度与将待分类对象识别为预设分类的概率正相关的情况下，因为待分类对象对于某一子类型的内容的关注度降低，所以，将所述待分类对象识别为预设分类的概率降低。

2、待分类对象访问的满足预设条件的网站的数量。

其中，预设条件包括：标题包含预设目标关键字且不属于预设目标网站。待分类对象访问的网站虽然包括了预设目标关键字，但却不属于预设目标网站，说明待分类对象有可能并不是有意访问预设目标网站，而是恰好访问的网站带有预设目标关键字，访问这种网站的数量越多，说明待分类对象并不是真正偏好属于预设分类的网站。

从上述说明可以看出，反向特征数据与将待分类对象识别为预设类别的概率反相关。

需要说明的是，上述第一预设时间段、第二预设时间段、第三预设时间段、第四预设时间段和第五预设时间段，可以相同，也可以不同，本实施例不做限定。

S203：将正向特征数据和反向特征数据输入预先训练的分类模型，得到分类模型输出的分类结果。分类结果用于指示待分类对象属于或不属于预设分类。

从图2所示的流程可以看出，采集待分类对象的网络行为数据，并依据网络行为数据，统计正向特征数据和反向特征数据，再依据正向特征特征和反向特征数据对待分类对象进行分类，从而实现了使用互联网数据，从互联网的用户中识别出目标的目的。

进一步的，因为实施例中，作为分类依据的正向特征数据与将待分类对象识别为预设分类的概率正相关，反向特征数据与将待分类对象识别为所述预设分类的概率反相关，而并非一味使用正向特征数据，所以，能够提高分类结果的准确性。

需要说明的是，正向特征数据和反向特征数据的使用，与模型训练过程中的正样本和反样本并不能等同：正样本为属于预设分类的样本，反样本为不属于预设分类的样本。而正向特征数据和反向特征数据仅对于分类结果的判定概率有影响，而并非属于或不属于分类结果。

下面以预设分类为宗教为例，对图2所示的流程进行举例说明：

采集大量的已知宗教信徒的网络行为数据，包括宗教信徒对宗教网站的访问数据、宗教信徒发送的包括宗教类词语的聊天数据、搜索数据和微博数据、以及，宗教信徒对于标题包括宗教类词语的网站的访问数据，依据上述网络行为数据，统计宗教信徒的正向特征数据和反向特征数据，具体的，任意一个宗教信徒的正向特征数据包括：在一个月内，该宗教信徒访问宗教网站的次数、访问宗教网站中地址深度超过2级的URL的次数、发送包括宗教类词语的网络数据的次数、以及一天内访问宗教类多媒体的频率(即一天内范围宗教类多媒体的次数)。任意一个宗教信徒的反向特征数据包括：在一个月内，该宗教信徒访问的数据内容所属的宗教类别的数量、以及访问虽然标题包括宗教类词语、但不属于宗教类的网站的次数。

使用已知宗教信徒的正向特征数据和反向特征数据，训练逻辑回归LR分类模型。

具体的，将特征向量(包括正向特征数据和反向特征数据)记为X，人工分类的标签记为M，将向量X和标签M输入到LR分类模型中，LR分类模型根据预置的算法：Y·X＝x₁y₁+x₂y₂+...+x₆y₆+intercept，计算将向量X映射到标签M的过程中所需的参数，最终得到预置模型lr。该模型可以将样本特征向量X映射标签集合M，lr：x—>m。

因为正向特征数据与将样本判别为宗教信徒的概率正相关，反向特征数据与将样本判别为非宗教信徒的概率反相关：例如，访问的网络数据所属的教派越多，则说明样本很可能不是某一教派的信徒，而真正的宗教信徒通常仅信奉一个教派，同时关注多个宗教的用户，很可能在进行宗教的学术研究，而并非教徒。又例如，访问的网站虽然包括宗教类词语，但该网站并不是宗教类网站，说明样本很可能在进行学术研究。所以，训练的LR分类模型能够从正向和反向判别待分类的用户是否为宗教信徒，以单一使用正向特征数据相比，具有更高的准确性。

在识别宗教信徒的过程中，将采集到的用户的网络行为数据统计为正向特征数据和反向特征数据，并将正向特征数据和反向特征数据输入训练好的LR分类模型，得到LR分类模型输出的对用户的分类结果：宗教类(即宗教信徒)或非宗教类(即非宗教信徒)。

可选的，为了提高分类结果的准确性，可以在输出分类结果的同时，输出全部或部分网络行为数据，示例如图3所示。

经过上述流程，能够从网络用户的网络行为，识别出宗教信徒，并具有较高的识别准确性。

图4为本申请实施例公开的一种目标识别装置，包括：采集模块401、统计模块402和识别模块403。

其中，采集模块401用于采集待分类对象的网络行为数据。

统计模块402用于依据网络行为数据，统计预设的特征数据，特征数据包括正向特征数据和反向特征数据，正向特征数据与将待分类对象识别为预设分类的概率正相关，反向特征数据与将待分类对象识别为预设分类的概率反相关。

识别模块403用于将特征数据输入预设的分类模型，得到分类模型输出的分类结果，分类结果用于指示待分类对象属于或不属于预设分类。

以上各个模块的功能的具体实现方式(包括网络行为数据以及特征数据的具体形式)，可以参见上述方法实施例，这里不再赘述。

图4所示的装置，能够提供准确的网络目标用户的识别结果。

本申请实施例还公开了一种服务器，包括：处理器和存储器。处理器用于执行存储器中存储的计算机程序，以实现上述图1或图2所示的目标识别方法。

本申请实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述图1或图2所示的目标识别方法。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种目标识别方法，其特征在于，包括：

采集待分类对象的网络行为数据；

2.根据权利要求1所述的方法，其特征在于，所述正向特征数据包括以下至少一项：

3.根据权利要求1或2所述的方法，其特征在于，所述反向特征数据包括以下至少一项：

4.根据权利要求1所述的方法，其特征在于，所述采集待分类对象的网络行为数据包括以下任意一项：

5.根据权利要求4所述的方法，其特征在于，所述网络数据包括：

聊天类数据、搜索类数据、和/或发帖类数据。

6.一种目标识别装置，其特征在于，包括：

采集模块，用于采集待分类对象的网络行为数据；

7.根据权利要求6所述的装置，其特征在于，所述正向特征数据包括以下至少一项：

8.根据权利要求6或7所述的装置，其特征在于，所述反向特征数据包括以下至少一项：

9.根据权利要求6所述的装置，其特征在于，所述采集模块用于采集待分类对象的网络行为数据包括：

10.根据权利要求9所述的装置，其特征在于，所述网络数据包括：

聊天类数据、搜索类数据、和/或发帖类数据。

11.一种服务器，其特征在于，包括：

处理器和存储器；

所述处理器用于执行所述存储器中存储的计算机程序，以实现如权利要求1-5任一项所述的目标识别方法。

12.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行权利要求1-5任一项所述的目标识别方法。