CN109325796A

CN109325796A - ***筛选方法、装置、计算机设备及存储介质

Info

Publication number: CN109325796A
Application number: CN201810914629.5A
Authority: CN
Inventors: 陈源
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2019-02-12
Anticipated expiration: 2038-08-13
Also published as: CN109325796B

Abstract

本发明公开了一种***筛选方法、装置、计算机设备及存储介质，首先根据第三方平台用户数据和本平台用户数据中相同的用户字段确定共有用户，再根据获取的产品标识在本平台用户数据中获取共有用户的目标用户标识；接着根据目标用户标识在第三方平台用户数据中获取每一目标用户标识的已购买产品信息，根据已购买产品信息构建产品标识对应的相关度计算公式，通过数据较为丰富的第三方平台来构建相关度计算公式，可以保证数据的丰富程度，以提高后续计算的准确性。根据相关度计算公式，在第三方平台用户数据中计算每一用户的相关度分数，获取所述相关度分值达到相关度阈值的用户，作为***，提高了***计算的准确性。

Description

***筛选方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种***筛选方法、装置、计算机设备及存储介质。

背景技术

在传统的***挖掘过程中，大多都是通过线下的营销员去招揽客户的，拉单率完全靠营销员个人去提高，没有针对性，效率非常低。随着互联网技术的不断发展，各项关于大数据分析的技术也不断完善，目前也出现了很多通过协同过滤算法来计算***的方案，但是计算得到的***的数据准确性不高。

发明内容

基于此，有必要针对上述技术问题，提供一种***筛选方法、装置、计算机设备及存储介质，以解决***的数据筛选准确性不高的问题。

一种***筛选方法，包括：

获取第三方平台用户数据和本平台用户数据，根据所述第三方平台用户数据和所述本平台用户数据中相同的用户字段确定第三方平台和本平台的共有用户；

获取产品标识，根据所述产品标识在所述本平台用户数据中获取所述共有用户的目标用户标识；

根据所述目标用户标识在所述第三方平台用户数据中获取每一所述目标用户标识的已购买产品信息，根据每一所述目标用户标识的所述已购买产品信息构建所述产品标识的相关度计算公式；

根据所述相关度计算公式，在所述第三方平台用户数据中计算每一用户的相关度分数；

获取所述相关度分数达到相关度阈值的用户，作为***。

一种***筛选装置，包括：

共有用户确定模块，用于获取第三方平台用户数据和本平台用户数据，根据所述第三方平台用户数据和所述本平台用户数据中相同的用户字段确定第三方平台和本平台的共有用户；

目标用户标识获取模块，用于获取产品标识，根据所述产品标识在所述本平台用户数据中获取所述共有用户的目标用户标识；

相关度计算公式构建模块，用于根据所述目标用户标识在所述第三方平台用户数据中获取每一所述目标用户标识的已购买产品信息，根据每一所述目标用户标识的所述已购买产品信息构建所述产品标识的相关度计算公式；

相关度分数计算模块，用于根据所述相关度计算公式，在所述第三方平台用户数据中计算每一用户的相关度分数；

***获取模块，用于获取所述相关度分数达到相关度阈值的用户，作为***。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述***筛选方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述***筛选方法的步骤。

上述***筛选方法、装置、计算机设备及存储介质中，首先根据第三方平台用户数据和本平台用户数据中相同的用户字段确定第三方平台和本平台的共有用户，再根据获取的产品标识在本平台用户数据中获取共有用户的目标用户标识；接着根据目标用户标识在第三方平台用户数据中获取每一目标用户标识的已购买产品信息，根据已购买产品信息构建产品标识的相关度计算公式，通过数据较为丰富的第三方平台来构建相关度计算公式，可以保证数据的丰富程度，以提高后续计算的准确性。根据相关度计算公式，在第三方平台用户数据中计算每一用户的相关度分数，获取所述相关度分值达到相关度阈值的用户，作为***。该方法根据产品标识在本平台用户数据中确定出目标用户标识之后，根据第三方平台用户数据来构建相关度计算公式，并根据该相关度计算公式在第三方平台用户数据中计算每一用户的相关度分数，从而获取***。通过两个不同平台的用户行为数据的结合，提高了***计算的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中***筛选方法的一应用环境示意图；

图2是本发明一实施例中***筛选方法的一示例图；

图3是本发明一实施例中***筛选方法的另一示例图；

图4是本发明一实施例中***筛选方法的另一示例图；

图5是本发明一实施例中***筛选方法的另一示例图；

图6是本发明一实施例中***筛选方法的另一示例图；

图7是本发明一实施例中***筛选装置的一原理框图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。根据本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的***筛选方法，可应用在如图1的应用环境中，其中，客户端(计算机设备)通过网络与服务端进行通信。客户端发送产品标识到服务端，服务端获取到该产品标识之后，经过一系列的处理过程，得到***。其中，客户端(计算机设备)可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种***筛选方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10：获取第三方平台用户数据和本平台用户数据，根据第三方平台用户数据和本平台用户数据中相同的用户字段确定第三方平台和本平台的共有用户。

其中，第三方平台用户数据是指从第三方平台获取的用户行为数据，用户行为数据是指用户在对应的平台上的操作数据，例如产品浏览、收藏或者购买行为等。优选地，第三方平台是用户行为数据较为丰富的平台，例如各大购物网站平台。本平台用户数据是指在本平台中的用户行为数据，例如，在保险行业的话可以是用户在本平台中的保单浏览、收藏或购买的行为数据。其中，本平台和第三方平台是一个相对的概念，本平台是指与产品标识对应的产品所在的平台。具体地，第三方平台用户数据和本平台用户数据可以是从服务端中不同的服务器中获取得到。进一步地，第三方平台用户数据可以是服务端通过一个第三方数据接口获取得到。

在不同平台中，用户可以通过不同的用户账号进行注册或登录操作。但是，在注册信息中往往会有一些唯一性的信息，同一用户的这部分唯一性的信息在不同的平台中也是相同的，例如：身份证号码或者手机号码。因此，可以根据这些相同的用户字段(身份证号码或者手机号码)来确定出第三方平台用户数据和本平台用户数据中的共有用户。

S20：获取产品标识，根据产品标识在本平台用户数据中获取共有用户的目标用户标识。

在本平台中，每一个产品都对应有一个产品标识，该产品标识用于区分出本平台中不同的产品。在该步骤中，可以在客户端中通过对应的操作(点击、触摸或者长按等)来选择一个产品，客户端将该产品对应的产品标识发送至服务端。服务端在本平台用户数据中获取该产品标识对应的目标用户标识。目标用户标识是指在第三方平台用户数据和本平台用户数据中共有的、且购买了产品标识对应的产品的用户的标识，该目标用户标识可以为身份证号码或者手机号码。可以理解地，根据产品标识在本平台用户数据中获取共有用户的目标用户标识是指获取在本平台的共有用户中购买了该产品标识对应的产品的用户所对应的用户标识。

在一个具体实施方式中，该获取产品标识的步骤可以是在步骤S10之前进行，也可以和步骤S10同时进行。可选地，该获取产品标识的步骤只要在获取目标用户标识之前均可以进行，在此不做限定。

S30：根据目标用户标识在第三方平台用户数据中获取每一目标用户标识的已购买产品信息，根据每一目标用户标识的已购买产品信息构建产品标识的相关度计算公式。

其中，相关度计算公式是用于衡量产品标识和不同用户在第三方平台中的用户行为数据的相关程度的计算公式。对于一些产品功能较为单一的平台，该平台中的用户行为数据可能是很少的，在用户行为数据较少的情况下采用大数据分析的方法计算出来的最终数据准确性也是不高的。因此，该步骤中，在本平台用户数据获取到目标用户标识之后，再根据目标用户标识在第三方平台用户数据中获取每一目标用户标识的已购买产品信息，然后根据每一目标用户标识的已购买产品信息构建产品标识的相关度计算公式。如此，可以保证数据足够丰富，以提高后续计算的准确性。具体地，该相关度计算公式可以采用协同过滤算法、TF-IDF(词频-逆向文本频率，term frequency–inverse document frequency)算法或各种向量相似度计算方法来构建。

S40：根据相关度计算公式，在第三方平台用户数据中计算每一用户的相关度分数。

在获取到相关度计算公式之后，在第三方平台用户数据中根据相关度计算公式计算每一个用户的相关度分数，以确定第三方平台中每一用户和产品标识的相关程度。

S50：获取相关度分数达到相关度阈值的用户，作为***。

根据相关度计算公式，计算第三方平台中每一用户的相关度分数之后，可以通过设定一相关度阈值的方式，将相关度分数大于或等于相关度阈值的用户，作为***。当相关度分值大于或等于相关度阈值时，说明与该相关度分值对应的用户极有可能是该产品标识对应的产品的***。具体地，该相关度阈值可以根据实际需要设定。

在本实施例中，首先在第三方平台用户数据和本平台用户数据，根据相同的用户字段确定出共有用户，再根据获取的产品标识在本平台用户数据的共有用户中获取对应的目标用户标识；接着根据目标用户标识在第三方平台用户数据中获取每一目标用户标识的已购买产品信息，根据已购买产品信息构建产品标识的相关度计算公式，通过数据较为丰富的第三方平台来构建相关度计算公式，可以保证数据的丰富程度，以提高后续计算的准确性。根据相关度计算公式，在第三方平台用户数据中计算每一用户的相关度分数，获取相关度分值达到相关度阈值的用户，作为***。该方法根据产品标识在本平台用户数据中确定出目标用户标识之后，根据第三方平台用户数据来构建相关度计算公式，并根据该相关度计算公式在第三方平台用户数据中计算每一用户的相关度分数，从而获取***。通过两个不同平台的用户行为数据的结合，提高了***计算的准确性。

在一实施例中，如图3所示，在获取相关度分数达到相关度阈值的用户，作为***的步骤之后，该***筛选方法还包括如下步骤：

S60：根据每一***的已购买产品信息，获取每一***的当前消费结构比例。

其中，当前消费结构比例是指一个用户的已购买产品信息中不同类别产品的消费比例。具体地，可以预先将一个***的已购买产品信息中不同的已购买产品进行归类，例如：生活日用品、电子产品、保健产品或者母婴产品等。根据每一已购买产品进行分类，并统计每一***在每一产品类别下的消费金额，得到每一***的当前消费结构比例。

具体地，可以采用对应的SQL(结构化查询语言,Structured Query Language)语句中的select语句从第三方平台用户数据中获取到与每一***对应的用户标识(ID_NUM)的已购买产品信息，已购买产品信息可以包括已购买产品和产品价格。再将已购买产品按照相应的产品类别进行归类，并将每一产品类别下的已购买产品的产品价格进行求和，得到每一产品类别的消费金额，根据每一产品类别的消费金额进行相比(相除)，即可以得到每一***对应的当前消费结构比例。

优选地，获取每一***的当前消费结构比例可以是获取每一***在预定期限内的当前消费结构比例。示例性地，该预定期限可以为三个月、六个月或者一年。

S70：计算每一***的当前消费结构比例和推荐消费结构比例的消费比例相似度。

其中，推荐消费结构比例是指目标用户标识对应的用户的已购买产品信息中的平均消费比例。具体地，和步骤S60类似，计算出每一目标用户标识对应的用户的当前消费结构比例，再对每一目标用户标识对应的用户的当前消费结构比例进行求和再取平均值，即得到推荐消费结构比例。

消费比例相似度是指消费结构比例之间的相似程度。在得到推荐消费结构比例和每一***的当前消费结构比例之后，再计算每一***的当前消费结构比例和推荐消费结构比例的接近程度，即可得到对应的消费比例相似度。

S80：获取当前消费结构比例和推荐消费结构比例的消费比例相似度最高的前M位***，作为目标用户，其中，M为正整数。

在通过计算得到每一***的当前消费结构比例和推荐消费结构比例的消费比例相似度之后，根据一预设的数值M，获取消费比例相似度最高的前M位***，作为目标用户，其中，M为正整数。

在本实施例中，在已经获得***的基础上，通过用户之间的消费结构比例来进一步筛选出和该产品标识更有可能相关的目标用户，通过两个不同的角度来筛选有可能对产品标识感兴趣的用户，进一步提高了用户数据筛选的准确性。

在一实施例中，如图4所示，步骤S30中，即根据每一目标用户标识的已购买产品信息构建产品标识的相关度计算公式，具体包括如下步骤：

S31：计算每一目标用户标识的已购买产品信息中每一已购买产品的词频-逆向文本频率值，获取词频-逆向文本频率值按照从大到小的顺序排在前N位的N个已购买产品，作为目标已购买产品，其中，N为正整数。

其中，TF-IDF算法是一种用于信息检索与数据挖掘的加权算法。TF意思是词频(Term Frequency)，IDF意思是逆向文件频率(Inverse Document Frequency)。在一份给定的文件里，词频(term frequency，TF)指的是某一个给定的词语在该文件中出现的次数。同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。逆向文件频率(inverse document frequency，IDF)是一个词语普遍重要性的度量。

具体地，可以通过公式计算每一目标用户标识的已购买产品信息中的每一已购买产品的词频-逆向文本频率值。其中，TF-IDF为词频-逆向文本频率值，TF为每一目标用户标识的已购买产品信息中的已购买产品的出现次数，D为第三方平台用户数据中的所有已购买产品的出现次数，d为对应的目标用户标识的已购买产品信息中已购买产品出现的次数。可以理解地，词频-逆向文本频率值越高，就说明该词频-逆向文本频率值对应的已购买产品与产品标识的相关度越大。因此，获取词频-逆向文本频率值大小排在前N位的N个已购买产品，作为目标已购买产品。其中，N为正整数，例如3、5或10。

S32：根据每一目标已购买产品的词频-逆向文本频率值设定每一目标已购买产品的权重W_i：

其中，TF-IDF为词频-逆向文本频率值，(TF-IDF)_i为第i个目标已购买产品的词频-逆向文本频率值，i为正整数且i≤N。

具体地，采用权重计算公式获取每一目标已购买产品的权重，为每一目标已购买产品的词频-逆向文本频率值的总和。

S33：根据目标已购买产品和权重W_i构建相关度计算公式。

具体地，根据目标已购买产品和权重W_i获取与产品标识对应的相关度计算公式其中，M_i表示一用户是否购买了对应的目标已购买产品。例如，当一用户购买了对应的目标已购买产品时，则对应的M_i为1，否则M_i为0。

本实施例中，先计算目标用户标识中的已购买产品信息中每一已购买产品的词频-逆向文本频率值,以便根据每一已购买产品的词频-逆向文本频率值，获取词频-逆向文本频率值大小排序在前N位的N个已购买产品，作为目标已购买产品。然后，根据每一已购买产品的词频-逆向文本频率值，采用权重计算公式进行计算，以获取每一目标已购买产品的权重，该过程计算简单方便，可以提高计算效率。最后，根据目标已购买产品和对应的权重，获取与产品标识对应的相关度计算公式，以便后续基于该相关度计算公式在第三方平台用户数据中计算每一用户的相关度分数，进而获取***，进一步提高***获取的准确性。

在一实施例中，如图5所示，步骤S10中，即根据第三方平台用户数据和本平台用户数据中相同的用户字段确定第三方平台和本平台的共有用户，具体包括如下步骤：

S11：获取第三方平台用户数据中的第三方用户标识。

第三方用户标识是指在第三方平台用户数据中，用于区分不同用户的唯一性标识，且该唯一性标识是跟用户个人信息相关的，例如：身份证号码或者手机号码。如此，就可以根据该第三方用户标识在不同的数据平台中定位出相同的用户。

具体地，可以采用SQL语句从第三方平台用户数据中获取到第三方用户标识。例如：第三方用户数据为TABLE1，第三方用户标识为ID_NUM1，则可以通过以下SQL语句获取第三方平台用户数据中的第三方用户标识：

select ID_NUM1from TABLE1。

S12：获取本平台用户数据中的本平台用户标识。

本平台用户标识是指在本平台用户数据中，用于区分不同用户的唯一性标识，且该唯一性标识是跟用户个人信息相关的，例如：身份证号码或者手机号码。如此，就可以根据该本平台用户标识在不同的数据平台中定位出相同的用户。可以理解地，第三方用户标识和本平台用户标识是互相对应的，若第三方用户标识是用户的身份号码，则本平台用户标识也是用户的身份证号码；若第三方用户标识是用户的手机号码，则本平台用户标识也是用户的手机号码。

具体地，可以采用SQL语句从本平台用户数据中获取到本平台用户标识。例如：本平台用户数据为TABLE2，本平台用户标识为ID_NUM2，则可以通过以下SQL语句获取本平台用户数据中的本平台用户标识：

select ID_NUM2from TABLE2；

S13：将第三方用户标识的用户字段和本平台用户标识的用户字段中相同的用户字段对应的用户确定为共有用户。

在分别获取到第三方用户标识和本平台用户标识之后，比对第三方用户标识的用户字段和本平台用户标识的用户字段，将两者中相同的用户字段对应的用户确定为共有用户。

具体地，可以采用SQL语句中的intersect语句实现在第三方用户标识和本平台用户标识中对共有用户的确定。其中，intersect语句是对两个SQL语句所产生的结果做与处理，例如：

select ID_NUM1from TABLE1

intersect

select ID_NUM2from TABLE2；

通过上述语句，就可以将第三方用户标识(ID_NUM1)和本平台用户标识(ID_NUM2)中相同的用户字段筛选出来，确定为共同用户。

在本实施例中，先从第三方平台用户数据和本平台用户数据中分别获取第三方用户标识和本平台用户标识，再通过查询相同的用户字段的方式从第三方平台用户数据和本平台用户数据确定出共有用户，保证了数据选取的准确性。

在一实施例中，如图6所示，已购买产品信息包括已购买产品和产品价格。

具体地，可以采用SQL语句中的select语句从第三方平台用户数据中获取到每一目标用户标识(TARGET_ID_NUM)的已购买产品信息，已购买产品信息可以包括已购买产品(CP_NUM)和对应的产品价格(PRICE)，示例性地，对应的SQL语句可以为：

select ID_NUM1,CP_NUM,PRICE from TABLE1

where ID_NUM1＝TARGET_ID_NUM；

即从第三方平台用户数据(TABLE1)中筛选出目标用户标识(TARGET_ID_NUM)以及对应的已购买产品(CP_NUM)和对应的产品价格(PRICE)。

在这个实施例中，在计算每一***的当前消费结构比例和推荐消费结构比例的消费比例相似度的步骤之前，该***筛选方法还包括如下步骤：

S71：将每一目标用户标识的已购买产品按照预定的产品类别进行归类，将每一产品类别下的已购买产品的产品价格进行求和，得到每一目标用户标识的每一产品类别的消费金额。

具体地，将每一目标用户标识的已购买产品按照预定的产品类别进行对应的归类，该预定的产品类别可以根据第三方平台的产品特性进行预先分类，形成一个预定的产品类别，例如：生活日用品、电子产品、保健产品和母婴产品等。根据预定的产品类别对每一已购买产品进行分类，并统计每一目标用户标识在每一类别下的消费金额。

S72：对每一目标用户标识的每一产品类别的消费金额进行比值归一化处理，得到每一目标用户标识的消费结构比例。

在得到每一目标用户标识的每一产品类别的消费金额之后，对每一产品类别的消费金额进行比值归一化处理。具体地，先对每一产品类别的消费金额进行求比例，再将所得到的比例进行归一化处理，得到每一目标用户标识的消费结构比例。例如：假设产品类别为四种，得到一目标用户标识在四种产品类别的消费金额为x₁、x₂、x₃和x₄，则对每一产品类别的消费金额进行求比例则为：x₁：x₂：x₃：x₄。在归一化处理过程中，若设定该消费结构比例的比例总额为L，则最终得到的该目标用户标识的消费结构比例为：

S73：将每一目标用户标识的消费结构比例进行求和再取平均值处理，得到推荐消费结构比例。

在得到每一目标用户标识的消费结构比例之后，对每一目标用户标识的消费结构比例中对应的数值分别进行求和再取平均值，即得到推荐消费结构比例(假设产品类别为4)：

其中，n为目标用户标识的个数，j对应于不同的目标用户标识，可以理解地，x_j1为第j个目标用户标识的消费结构比例中第一个数值，x_j2为第j个目标用户标识的消费结构比例中第二个数值，x_j3为第j个目标用户标识的消费结构比例中第三个数值，x_j4为第j个目标用户标识的消费结构比例中第四个数值。

在本实施例中，根据目标用户标识在第三方平台用户数据中的对应已购买产品信息来计算推荐消费结构比例，其中推荐消费结构比例是通过比值归一化处理得到的，提高了后续数据处理的效率。

在一实施例中，计算每一***的当前消费结构比例和推荐消费结构比例的消费比例相似度，具体包括：

采用以下公式计算每一***的当前消费结构比例和推荐推荐消费结构比例的消费比例相似度S：

其中，Q_k为当前消费结构比例中不同产品类别的比例系数，P_k为推荐消费结构比例中不同产品类别的比例系数，m为产品类别数目。

在计算每一***的消费比例相似度S时，首先计算当前消费结构比例和推荐推荐消费结构比例中不同产品类别中的比例系数之间的相似度，再进行求和，最终得到一个***的当前消费结构比例和推荐推荐消费结构比例的消费比例相似度。

在本实施例中，通过计算当前消费结构比例和推荐推荐消费结构比例中不同产品类别中的比例系数之间的相似度，再进行求和，最终得到一个***的当前消费结构比例和推荐推荐消费结构比例的消费比例相似度，保证了消费比例相似度计算的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种***筛选装置，该***筛选装置与上述实施例中***筛选方法一一对应。如图7所示，该***筛选装置包括共有用户确定模块10、目标用户标识获取模块20、相关度计算公式构建模块30、相关度分数计算模块40和***获取模块50。各功能模块详细说明如下：

共有用户确定模块10，用于获取第三方平台用户数据和本平台用户数据，根据第三方平台用户数据和本平台用户数据中相同的用户字段确定第三方平台和本平台的共有用户；

目标用户标识获取模块20，用于获取产品标识，根据产品标识在本平台用户数据中获取共有用户的目标用户标识；

相关度计算公式构建模块30，用于根据目标用户标识在第三方平台用户数据中获取每一目标用户标识的已购买产品信息，根据每一目标用户标识的已购买产品信息构建产品标识的相关度计算公式；

相关度分数计算模块40，用于根据相关度计算公式，在第三方平台用户数据中计算每一用户的相关度分数；

***获取模块50，用于获取相关度分数达到相关度阈值的用户，作为***。

优选地，该***筛选装置还包括当前消费结构比例获取模块60、消费比例相似度计算模块70和目标用户获取模块80。

当前消费结构比例获取模块60，用于根据每一***的已购买产品信息，获取每一***的当前消费结构比例；

消费比例相似度计算模块70，用于计算每一***的当前消费结构比例和推荐消费结构比例的消费比例相似度；

目标用户获取模块80，用于获取当前消费结构比例和推荐消费结构比例的消费比例相似度最高的前M位***，作为目标用户，其中，M为正整数。

优选地，相关度计算公式构建模块30包括目标已购买产品获取子模块31、权重设定子模块32和相关度计算公式构建子模块33。

目标已购买产品获取子模块31，用于计算每一目标用户标识的已购买产品信息中每一已购买产品的词频-逆向文本频率值，获取词频-逆向文本频率值按照从大到小的顺序排在前N位的N个已购买产品，作为目标已购买产品，其中，N为正整数。

权重设定子模块32，用于根据每一目标已购买产品的词频-逆向文本频率值设定每一目标已购买产品的权重W_i：

相关度计算公式构建子模块33，用于根据目标已购买产品和权重W_i构建相关度计算公式。

优选地，共有用户确定模块10包括第三方用户标识获取子模块11、本平台用户标识获取子模块12和共有用户确定子模块13。

第三方用户标识获取子模块11，用于获取第三方平台用户数据中的第三方用户标识。

本平台用户标识获取子模块12，用于获取本平台用户数据中的本平台用户标识。

共有用户确定子模块13，用于将第三方用户标识的用户字段和本平台用户标识的用户字段中相同的用户字段对应的用户确定为共有用户。

优选地，已购买产品信息包括已购买产品和产品价格，该***筛选装置还包括消费金额计算模块71、比值归一化处理模块72和推荐消费结构比例获取模块73。

消费金额计算模块71，用于将每一目标用户标识的已购买产品按照预定的产品类别进行归类，将每一产品类别下的已购买产品的产品价格进行求和，得到每一目标用户标识的每一产品类别的消费金额。

比值归一化处理模块72，用于对每一目标用户标识的每一产品类别的消费金额进行进行比值归一化处理，得到每一目标用户标识的消费结构比例。

推荐消费结构比例获取模块73，用于将每一目标用户标识的消费结构比例进行求和再取平均值处理，得到推荐消费结构比例。

关于***筛选装置的具体限定可以参见上文中对于***筛选方法的限定，在此不再赘述。上述***筛选装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储第三方平台用户数据和本平台用户数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种***筛选方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

根据所述目标用户标识在所述第三方平台用户数据中获取每一所述目标用户标识的已购买产品信息，根据每一所述目标用户标识的所述已购买产品信息构建所述产品标识对应的相关度计算公式；

获取所述相关度分数达到相关度阈值的用户，作为***。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取所述相关度分数达到相关度阈值的用户，作为***。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种***筛选方法，其特征在于，包括：

获取所述相关度分数达到相关度阈值的用户，作为***。

2.如权利要求1所述的***筛选方法，其特征在于，在所述获取所述相关度分数达到相关度阈值的用户，作为***的步骤之后，所述***筛选方法还包括：

根据每一所述***的已购买产品信息，获取每一所述***的当前消费结构比例；

计算每一所述***的所述当前消费结构比例和推荐消费结构比例的消费比例相似度；

获取所述当前消费结构比例和所述推荐消费结构比例的消费比例相似度最高的前M位***，作为目标用户，其中，M为正整数。

3.如权利要求1所述的***筛选方法，其特征在于，所述根据每一所述目标用户标识的所述已购买产品信息构建所述产品标识的相关度计算公式，具体包括：

计算每一所述目标用户标识的所述已购买产品信息中每一已购买产品的词频-逆向文本频率值，获取所述词频-逆向文本频率值按照从大到小的顺序排在前N位的N个已购买产品，作为目标已购买产品，其中，N为正整数；

根据每一所述目标已购买产品的词频-逆向文本频率值设定每一所述目标已购买产品的权重W_i：

其中，TF-IDF为词频-逆向文本频率值，(TF-IDF)_i为第i个目标已购买产品的词频-逆向文本频率值，i为正整数且i≤N；

根据所述目标已购买产品和所述权重W_i构建所述相关度计算公式。

4.如权利要求1所述的***筛选方法，其特征在于，所述根据所述第三方平台用户数据和所述本平台用户数据中相同的用户字段确定第三方平台和本平台的共有用户，具体包括：

获取所述第三方平台用户数据中的第三方用户标识；

获取所述本平台用户数据中的本平台用户标识；

将所述第三方用户标识的用户字段和所述本平台用户标识的用户字段中相同的用户字段对应的用户确定为所述共有用户。

5.如权利要求2所述的***筛选方法，其特征在于，所述已购买产品信息包括已购买产品和产品价格；

在所述计算每一所述***的所述当前消费结构比例和推荐消费结构比例的消费比例相似度的步骤之前，所述***筛选方法还包括：

将每一所述目标用户标识的所述已购买产品按照预定的产品类别进行归类，将每一所述产品类别下的所述已购买产品的所述产品价格进行求和，得到每一所述目标用户标识的每一产品类别的消费金额；

对每一所述目标用户标识的每一所述产品类别的所述消费金额进行比值归一化处理，得到每一所述目标用户标识的消费结构比例；

将每一所述目标用户标识的消费结构比例进行求和再取平均值处理，得到所述推荐消费结构比例。

6.如权利要求2所述的***筛选方法，其特征在于，所述计算每一所述***的所述当前消费结构比例和推荐消费结构比例的消费比例相似度，具体包括：

采用以下公式计算每一所述***的所述当前消费结构比例和推荐消费结构比例的消费比例相似度S：

其中，Q_k为所述当前消费结构比例中不同产品类别的比例系数，P_k为所述推荐消费结构比例中不同产品类别的比例系数，m为产品类别数目。

7.一种***筛选装置，其特征在于，包括：

8.如权利要求7所述的***筛选装置，其特征在于，所述***筛选装置还包括：

当前消费结构比例获取模块，用于根据每一所述***的已购买产品信息，获取每一所述***的当前消费结构比例；

消费比例相似度计算模块，用于计算每一所述***的所述当前消费结构比例和推荐消费结构比例的消费比例相似度；

目标用户获取模块，用于获取所述当前消费结构比例和所述推荐消费结构比例的消费比例相似度最高的前M位***，作为目标用户，其中，M为正整数。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述***筛选方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述***筛选方法的步骤。