CN108171570A

CN108171570A - 一种数据筛选方法、装置及终端

Info

Publication number: CN108171570A
Application number: CN201711349748.2A
Authority: CN
Inventors: 殷良鹰
Original assignee: Beijing Xiaodu Information Technology Co Ltd
Current assignee: Beijing Xiaodu Information Technology Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-06-15
Anticipated expiration: 2037-12-15
Also published as: CN108171570B

Abstract

本发明实施例提供一种数据筛选方法、装置及终端，涉及数据处理技术领域，主要目的在于通过区间估计计算共现数据相似度的置信区间，并以此筛选共现数据，降低统计不充分数据对推荐结果的干扰，提高推荐准确度。本发明实施例所采用的技术方案是：获取经过数据分析得到的一组共现数据，所述共现数据中包括两个元素的共现值，以及每个元素的出现值；通过区间估计计算所述共现数据在预置置信度下的相似度置信区间，所述相似度置信区间用于展现所述共现数据中两个元素的相似度值的可能范围；根据筛选阈值在所述相似度置信区间中的位置筛选所述共现数据。本发明主要用于数据过滤。

Description

一种数据筛选方法、装置及终端

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种数据筛选方法、装置及终端。

背景技术

协同过滤推荐算法是诞生最早，并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好，基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类，分别是基于商户的协同过滤算法，和基于用户的协同过滤算法。对于商户协同过滤需要通过商户-商户共现构建物品之间的相似度矩阵；用户协同过滤则需构建用户相似度矩阵。

在构建用户或者商户相似度矩阵时，需要统计用户-用户的共现数据或商户-商户的共现数据。目前通用的方案是对于支持度小于阈值的共现数据直接过滤，降低统计不充分对相似度矩阵造成的影响。其中，支持度是指对随机变量进行采样估计时某个取值出现的总次数，根据统计学原理，某个取值的支持度越低，其受随机性影响越大，统计充分性越低；而统计充分性是指通过统计采样对随机变量进行估计时，若样本较少，则估计值方差变大，造成估计值不稳定，导致统计不充分的情况。可见，由于目前所采用的基于支持度的筛选方式在对统计充分与统计不充分的数据均采用一个经验阈值的判断标准，筛选出的部分数据存在缺乏普适性的问题，降低了后续所得到的推荐结果的准确度。

发明内容

鉴于上述问题，本发明实施例提供一种数据筛选方法、装置及终端，主要目的在于通过区间估计计算共现数据相似度的置信区间，并以此筛选共现数据，降低统计不充分数据对推荐结果的干扰，提高推荐准确度。

为解决上述技术问题，第一方面，本发明实施例提供一种数据筛选方法，该方法包括：

获取经过数据分析得到的一组共现数据，所述共现数据中包括两个元素的共现值，以及每个元素的出现值；

通过区间估计计算所述共现数据在预置置信度下的相似度置信区间，所述相似度置信区间用于展现所述共现数据中两个元素的相似度值的可能范围；

根据筛选阈值在所述相似度置信区间中的位置筛选所述共现数据。

第二方面，本发明实施例提供一种数据筛选装置，该装置包括：

获取模块，用于获取经过数据分析得到的一组共现数据，所述共现数据中包括两个元素的共现值，以及每个元素的出现值；

计算模块，用于通过区间估计计算所述获取模块获取的共现数据在预置置信度下的相似度置信区间，所述相似度置信区间用于展现所述共现数据中两个元素的相似度值的可能范围；

筛选模块，用于根据筛选阈值在所述计算模块得到的相似度置信区间中的位置筛选所述共现数据。

第三方面，本发明实施例提供一种数据筛选终端，所述终端包括处理器和存储器，其中，所述存储器用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理器执行以实现上述的数据筛选方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机指令，其中，在所述计算机指令被处理器执行时实现上述的数据筛选方法的步骤。

依据本发明实施例提供的一种数据筛选方法、装置及终端，主要应用在协同过滤推荐的过程中，对经过初步统计分析后的共现数据进行过滤筛选，将可信度较高的共现数据用于后续的推荐计算过程，以提高推荐的准确性。在本发明实施例中，通过对共现数据进行区间估计，可以得到该共现数据中的两个元素的相似度值的波动范围，即相似度置信区间，通过该区间与预设的筛选阈值进行比较，从而过滤出有效的共现数据。相对于与现有的数据筛选方案，本发明实施例是将共现数据相似度的值替换为相似度置信区间，使得对单一值的判断转换为对一个区间范围的判断，实现了利用该相似度置信区间来体现共现数据的统计充分性，从而排除统计不充分的共现数据对后续推荐计算的影响，提升了协同过滤推荐的推荐准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据筛选方法流程图；

图2为本发明实施例提供的另一种数据筛选方法流程图；

图3为本发明实施例提供的一种数据筛选装置的结构组成框图；

图4为本发明实施例提供的另一种数据筛选装置的结构组成框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种数据筛选方法，如图1所示，该方法应主要用于对具有同质性的一组数据中的两个元素进行协同过滤推荐的过程，为其中的一个元素推荐另一个元素所感兴趣的数据内容。其中，对于一组数据的同质性判断，其主要取决于两个元素在样本中的支持度比值，一般而言，同质元素在一组样本中的支持度是相近的，而异质元素的支持度则会差距较大，而在考虑数据支持度的同时，对于数据的真实性、可信度，则需要通过对数据统计的充分性判断加以衡量。而只有利用统计充分的数据才能够对元素的同质性进行准确的判断，并进一步的执行协同过滤推荐的步骤。因此，本发明实施例主要论述的是在以判断元素同质性为目标的前提下对数据的统计充分性的判断与筛选。并且，本发明实施例所应用的场景仅针对一阶的共现数据，也就是在一组共现数据中，仅是一个用户对另一用户，或者一个商户对另一商户的数据，进行数据过滤的操作。该方法的具体步骤包括：

101、获取经过数据分析得到的一组共现数据。

共现，一般是指在网络平台上，用户和商户之间通过会话能够产生用户对用户共现以及商户对商户共现，用户对用户共现是指两个用户之间具有公共商户的个数，商户对商户共现则是值两个商户之间具有公共用户的个数。而会话是指一个用户在一段时间内的对商户的作用行为，在一个会话内的商户会产生一次共现，或者是一段时间内访问某一商户的所有用户也可称为会话，该会话可以产生用户之间的共现。

其中，该共现数据中包括两个元素的共现值，以及每个元素的出现值。在本实施例中，元素可以指代用户，也可以指代商户，或者是具体的物品，对于元素的具体指代定义在此不做具体限定。在本步骤中所获取到的数据是经过数据分析的数据，该数据分析主要是统计出现有指定元素的采样数据的数据量，即出现值，以及计算在两个指定元素同时出现的采样数据的数据量，即共现值。其中所采用的数据分析的方式在本实施例中限定是现有的任一统计方式中的一种。

此外，本实施例在执行时，是对一组共现数据进行处理分析，而对于***进行数据分析时，一般会得到多组的共现数据，因此，在实际应用中，本发明实施例所采用的数据筛选方法是对多组的共现数据逐一进行筛选操作的。

102、通过区间估计计算共现数据在预置置信度下的相似度置信区间。

区间估计，是参数估计的一种形式，是指通过从总体中抽取的样本，根据一定的正确度与精确度的要求，构造出适当的区间，以作为总体的分布参数(或参数的函数)的真值所在范围的估计；或者，可以理解为：指用样本指标、抽样误差和概率所构造的区间以估计总体指标存在的可能范围。

区间估计是从点估计值和抽样标准误出发，按给定的概率值建立包含待估计参数的区间。其中，这个给定的概率值称为置信度或置信水平，这个建立起来的包含待估计参数的区间称为置信区间。

本步骤中，相似度置信区间是对一组共现数据中的两个元素的相似度的值在预置置信度下进行区间估计所得到的区间，也就是说，该相似度置信区间是用于展现这组共现数据中两个元素的相似度值在预置置信度下的可能范围。其中，预置置信度为预先设定的一个给定值，其可以根据统计的需求进行调整。

在进行区间估计时，根据所给定的条件不同，有两条估计模式可供选择：一种是给定置信度要求，去推算抽样误差的可能范围；另一种是根据已给定的抽样误差范围，求出概率保证程度。而在本步骤中，由于设定了预置置信度，因此，在进行区间估计时，是采用前一种模式，其常规步骤包括：

1)抽取样本，并根据调查所得的样本单位标志值，计算样本平均数；计算样本标准差；在大样本下用以代替总体标准差推算抽样平均误差。

2)根据给定的置信度的要求，查《正态分布概率表》，求得概率度值。

3)根据概率度和抽样平均误差计算极限抽样误差的可能范围，并据此计算置信区间的上下限。

对应于本实施例中，抽取样本为步骤101中所获取的共现数据，给定的置信度为本步骤中的预置置信度，都为已知量，因此，对于具体区间估计的计算所采用的公式不再举例说明。需要说明的是，本步骤中是对共现数据中的两个元素相似度进行区间估计，而两个元素的相似度则可以通过两个元素出现的概率为向量进行计算，从而得到两个元素的相似度值，再对该相似度进行区间估计，得到对应的相似度置信区间。

此外，对于共现数据中元素的相似度可以通过多种方式计算，常用的基础相似度计算模型如欧式距离、余弦相似度等。

103、根据筛选阈值在相似度置信区间中的位置筛选共现数据。

本步骤是对共现数据的有效性进行判断，相对于现有判断方式中所使用的值与值的比较，本步骤则是值与区间的比较，因此，本步骤的判断结果相对于与现有方式，其判断结果除了筛选阈值落在相似度置信区间的两侧外，还可能是落在该区间中。在本步骤中，对于这三种判断结果的意义为：筛选阈值落在相似度置信区间的两侧说明该组共现数据有效或者无效，而筛选阈值落在相似度置信区间的中间时说明该组共现数据的有效性无法判定，其随机性较高，若要判断该组共现数据的有效性还需要通过其他的筛选条件对其进行判断。

具体的，根据步骤102在得到的相似度置信区间的同时，就可以确定出该区间的区间上界与区间下界，再利用筛选阈值与区间上界和区间下界进行对比，从而确定筛选阈值与相似度置信区间的相对位置，进而确定该组共现数据的有效性。

结合上述的实现方式可以看出，本发明实施例所采用的数据筛选方法，主要利用了对共现数据中元素的相似度进行区间估计，来解决现有的数据筛选方式中无法对统计不充分的数据进行识别的问题。而本方法所基于的原理是通过区间估计可以反映出数据统计的充分性，对于统计充分的数据，其估计区间的范围就比较窄，筛选阈值落在区间中的可能性就交底，因而，对于统计充分的数据，其筛选结果大部分就是非黑即白，也就是有效或者是无效。而对于统计不充分的数据，由于其共现数据的样本量较少，其随机性更高，因此，对其进行区间估计所得到的区间范围也就相对较大，如此，在与筛选阈值进行对比判断时，筛选阈值落到区间内的可能性就较高，而要确定该组共现数据的有效性就不能再依据筛选阈值来评价，还需要进一步的筛选判断才可以确定其有效性。由此可见，本发明实施例在对共现数据进行筛选时，不只是依据筛选阈值对共现数据有效性的简单划分，而是通过对比，将共现数据分为三类，增加了无法判断的结果，而对于这类数据则需要进一步的判断数据有效性，从而提高了数据筛选的精确性，而基于更准确的共现数据，在协同过滤推荐后续的推荐计算中，将可以得到更为准确的推荐结果，为用户提供更加准确、高效的推荐服务。

为了更加详细地说明本发明实施例所提出的数据筛选方法，特别是在协同过滤推荐的过程中构建相似度矩阵时，如何为该相似度矩阵提供统计充分的共现数据，来提升推荐的准确性。本实施例中，以商户对商户的共现数据为例进行说明，具体步骤如图2所示，包括：

201、获取经过数据分析得到的一组共现数据。

本步骤的实现与步骤101相同，因而对于相同的内容此处不再赘述。

而在本步骤中，针对商户对商户的共现数据的举例如下表一：

	同时出现的次数	商户A支持度	商户B支持度
				pair1	2	2	200
pair2	50	70	90
				pair3	8	30	10
pair4	1	4	50

其中，pair为一组样本中的共现数据组，包括商户A与商户B同时出现的次数，即共现值，以及各自的支持度(各商户在样本数据中出现的总次数)，即商户A与商户B各自的出现值。

本发明实施例的目的就在于判断上述的共现数据组所对应的样本数据是否可以用于构建协同过滤推荐过程中的相似度矩阵。

202、根据两个元素的共现值和出现值分别计算两个元素互为出现条件下的出现概率。

具体的，就是分别计算在商户B出现的条件下出现商户A的概率，以及在商户A出现的条件下出现商户B的概率。以表一中的共现数据pair1为例具体说明，根据其中的数据，商户A支持度表示为|A|，|A|＝2，商户B支持度表示为|B|，|B|＝200，两个商户的共现值表示为|AB|＝2。那么，在商户B出现的条件下出现商户A的概率P(A|B)为|AB|/|B|＝0.01，在商户A出现的条件下出现商户B的概率P(B|A)为|AB|/|A|＝1。

203、通过区间估计分别计算两个元素中每个元素对另外一个元素的条件概率的置信区间。

也就是，通过区间估计分别计算两个元素的出现概率在预置置信度下的出现概率置信区间。其中，两个元素的出现概率分别为步骤202中的P(A|B)与P(B|A)，即以出现概率为变量进行区间估计，得到该出现概率的值所对应的置信区间。

本步骤计算出现概率置信区间的基于对协同过滤中常用的0-1分布进行区间估计分析，具体以估计在一个会话中物品A出现的概率为例进行说明：

设定：

P(A＝1)＝p,

P(A＝0)＝1-p；

μ＝p,σ²＝p(1-p)

μ为总体均值，σ为总体方差，p为A出现的概率。

利用统计实验：n次独立试验，会收集到n个会话的信息。

通过点估计得到：

对应的样本方差s²为：

在n比较大时，根据中心极限定理可以得到：

其中，N表示正态分布。

进而可以构造概率的抽样变量为：

其中，t表示t分布，s为样本标准差。

根据上述的计算公式可得到对P(A)进行区间估计，得到在1-α置信度下的区间：

其中，α为显著水平。

依据上述的区间估计就可以得到A的支持度|A|的区间估计结果为：

本步骤基于上述示例的计算，将步骤202中的条件概率带入支持度的区间估计的公式中就可以得到P(A|B)以及P(B|A)在1-α置信度下的区间，具体为：

对P(A|B)区间估计的结果(即出现概率置信区间)为：

对P(B|A)区间估计的结果为：

一般情况下，本实施例中的预置置信度的取值在95％至99％之间。

204、利用两个元素中每个元素对另外一个元素的条件概率的置信区间得到在预置置信度下的余弦相似度的置信区间。

本步骤是通过步骤203所得到P(A|B)与P(B|A)的置信区间计算两者在预置置信度下的余弦相似度的置信区间，也就是，利用余弦相似度计算两个元素的出现概率置信区间，得到在预置置信度下的相似度置信区间。

具体的，本步骤就是将出现概率置信区间通过向量化表示，并利用余弦相似度计算共现数据中两个元素的相似度，再对该相似度进行区间估计得到在预置置信度下的相似度置信区间。

结合上述步骤中的示例，在本步骤中，对余弦相似度的计算公式进行转换，利用出现概率的形式加以展示，得到：

其概率形式为：

根据相似度的概率形式，结合步骤203中P(A|B)以及P(B|A)在1-α置信度下进行区间估计的结果，就可以得到在1-α置信度下该相似度的区间估计结果，即相似度置信区间为：

基于该公式以及表一中的具体数据，就可以得到每组共现数据对应的相似度置信区间的区间范围，以及该区间的上、下界的值。

205、根据筛选阈值在相似度置信区间中的位置筛选共现数据。

具体的，本步骤在执行时首先需要获取上一步中所得到的相似度置信区间的区间上界值与区间下界值，以及预先设置的筛选阈值。其中，该筛选阈值取值设定与现有方式中的设定值相同，都是根据人为经验对不同的应用场景给出对应的取值。

之后，计算筛选阈值相对于相似度置信区间的位置，也就是计算该筛选阈值与区间上界值、区间下界值的大小关系，以此作为对共现数据进行分类筛选的依据，根据其计算结果，可以将共现数据分为三类，分别为有效数据、无效数据和待判断数据。其中，根据余弦相似度的判断原理，其相似度的值在0-1之间，且值月接近于1，则两个的相似度越高，因此，可以得到以下的判断结果：

当筛选阈值大于区间上界值时，相似度的值所在的区间都在筛选阈值以下，可以判断该共现数据为无效数据，需要过滤掉该共现数据；

当筛选阈值小于区间下界值时，相似度的值所在的区间都在筛选阈值以上，可以判断该共现数据为有效数据，需要保留该共现数据。然而，对于一些较特殊的数据，比如pair1组的共现数据中，由于商户A、B的支持度差距很大，不在一个数量级中，并且A的样本数很小，对于A的统计冲击充分性也是不足的，而对于该情况，通过计算相似度置信区间可能是无法判断的，因此，在确定数据有效性时，本发明实施例对于通过筛选阈值判断的共现数据，还会根据该共现数据中的两个元素的支持度进行进一步判断，即判断两个元素的出现值的比值是否大于预置阈值，其中，预置阈值同样为认为设置的经验值，可根据具体的应用场景加以调整。当比值小于该预置阈值时，说明两个元素的支持度相近，不会出现其中一个数据存在统计不充分的情况，此时，就可以将该组共现数据确定为有效数据，加以保留；而当比值大于该预置阈值时，则说明两个元素的支持度存在较大的差异，很有可能存在数据统计不充分的情况，因此，对于这样的共现数据，就需要将其归入到待判断数据的分类中，与筛选阈值介于区间上界值与区间下界值之间的共现数据作进一步的分析判断。

当筛选阈值介于区间上界值与区间下界值之间时，说明该组共现数据的相似度值可能会大于该筛选阈值，也可能会小于该筛选阈值，处于无法判断的状态，而要判断该共现数据的有效性则需要进一步地利用预置过滤条件进行筛选，其中，预置过滤条件在本步骤中为根据应用场景的不同由人为设置的一些判断条件，比如，对于订餐应用平台，在向用户推荐商户或商户中的菜品时，如果根据两个商户的相似度的区间估计无法通过筛选阈值加以判断，或者是两个商户的支持度大于预置阈值时，就需要进一步通过判断两个商户的特色、口味等条件是否相似，从而确定该组共现数据是否为有效数据。

而要对共现数据中的两个元素使用预置过滤条件进行筛选，首先需要根据所预置的过滤条件获取元素的相关属性数据，比如，从商户中提取该商户的特色信息或者是口味信息。之后，将所得到的相关属性数据通过向量化转换成特征向量，并通过相似度计算确定两个元素在该预置过滤条件下的相似度，使用该相似度对共现数据进行进一步的筛选。其中，对于该筛选步骤中对相似度的筛选可以使用上述的筛选阈值，也可以针对具体的预置过滤条件再单独设置对应的阈值进行筛选。

通过上述对图2所示的数据筛选方法，以及对相应的推导公式的说明可以看出，本发明实施例中是在图1所示的实施例基础上，通过具体公式的推导对相似度进行区间估计并判断共现数据的有效性。在本实施例中主要是利用成对元素的共现数据计算各元素在相对于另一元素出现为条件时的出现概率，再以该出现概率在一定置信度下进行区间估计，利用所得到的区间估计结果，进一步对共现数据中两个元素的余弦相似度进行区间估计，得到这个两个元素的相似度在该置信度下的相似度置信区间，最终以该相似度置信区间以及预设的筛选阈值来确定包含这两个元素的共现数据是否为可用数据，在本实施例中，该筛选的结果分为三类，可用、不可用以及无法判断，而对应无法判断的共现数据，本实施例是通过引入其他的过滤条件进行筛选，以此综合判断一组共现数据的可用性，提高了对数据筛选的精度已经准确性。此外，对于筛选的过程，本发明实施例还考虑到共现数据中由于一个数据的统计不充分有可能导致对该共现数据判断不准确的问题，对于符合筛选阈值的共现数据，进一步通过比较两个元素的支持度的比值来识别该组共现数据是否可用，对于判断不可用的共现数据，则会将其划入无法判断的类别，进而使用其他的过滤条件作进一步的识别，以判断该组共现数据的可用性。

进一步的，作为对上述方法实施例的实现，本发明实施例提供了一种数据筛选装置，该装置设置在用户使用的智能终端内，该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。具体如图3所示，该装置包括：获取模块31、计算模块32以及筛选模块33，其中，

获取模块31，用于获取经过数据分析得到的一组共现数据，所述共现数据中包括两个元素的共现值，以及每个元素的出现值。其中，元素可以指代用户，也可以指代商户，或者是具体的物品，对于元素的具体指代定义在此不做具体限定。在本步骤中所获取到的数据是经过数据分析的数据，该数据分析主要是统计出现有指定元素的采样数据的数据量，即出现值，以及计算在两个指定元素同时出现的采样数据的数据量，即共现值。其中所采用的数据分析的方式在本实施例中限定是现有的任一统计方式中的一种。

计算模块32，用于通过区间估计计算所述获取模块31获取的共现数据在预置置信度下的相似度置信区间，所述相似度置信区间用于展现所述共现数据中两个元素的相似度值的可能范围。其中，相似度置信区间是对一组共现数据中的两个元素的相似度的值在预置置信度下进行区间估计所得到的区间，也就是说，该相似度置信区间是用于展现这组共现数据中两个元素的相似度值在预置置信度下的可能范围。其中，预置置信度为预先设定的一个给定值，其可以根据统计的需求进行调整。该模块是对共现数据中的两个元素相似度进行区间估计，而两个元素的相似度则可以通过两个元素出现的概率为向量进行计算，从而得到两个元素的相似度值，再对该相似度进行区间估计，得到对应的相似度置信区间。

筛选模块33，用于根据筛选阈值在所述计算模块32得到的相似度置信区间中的位置筛选所述共现数据。该模块是对共现数据的有效性进行判断，相对于现有判断方式中所使用的值与值的比较，本步骤则是值与区间的比较，因此，本步骤的判断结果相对于与现有方式，其判断结果除了筛选阈值落在相似度置信区间的两侧外，还可能是落在该区间中。在本步骤中，对于这三种判断结果的意义为：筛选阈值落在相似度置信区间的两侧说明该组共现数据有效或者无效，而筛选阈值落在相似度置信区间的中间时说明该组共现数据的有效性无法判定，其随机性较高，若要判断该组共现数据的有效性还需要通过其他的筛选条件对其进行判断。

进一步的，如图4所示，所述计算模块32包括：

第一计算单元321，用于根据所述两个元素的共现值和出现值分别计算两个元素互为出现条件下的出现概率；

第二计算单元322，用于通过区间估计分别计算所述第一计算单元321计算的两个元素的出现概率在所述预置置信度下的出现概率置信区间；

第三计算单元323，用于利用余弦相似度计算所述第二计算单元322计算两个元素的出现概率置信区间，得到在所述预置置信度下的相似度置信区间。

进一步的，如图4所示，所述筛选模块33包括：

获取单元331，用于获取所述置信区间的区间上界值与区间下界值；

筛选单元332，用于当所述筛选阈值大于所述获取单元331获取的区间上界值时，过滤所述共现数据；

所述筛选单元332还用于，当所述筛选阈值小于所述获取单元331获取的区间下界值时，保留所述共现数据；

所述筛选单元332还用于，当所述筛选阈值介于所述获取单元331获取的区间上界值与区间下界值之间时，利用预置过滤条件筛选所述共现数据。

进一步的，如图4所示，所述筛选单元332在保留所述共现数据时，还包括：

计算子单元3321，用于计算所述共现数据中元素的出现值之间的比值；

筛选子单元3322，用于当所述计算子单元3321计算的比值小于预置阈值时，保留所述共现数据；

所述筛选子单元3322还用于，当所述计算子单元3321计算的比值大于预置阈值时，利用预置过滤条件筛选所述共现数据。

进一步的，如图4所示，所述筛选单元332在利用预置过滤条件筛选所述共现数据时，还包括：

获取子单元3323，用于根据所述预置过滤条件获取所述共现数据中元素的相关属性数据；

所述计算子单元3321还用于，计算所述获取子单元3323获取的相关属性数据的相似度；

所述筛选子单元3322还用于，根据所述计算子单元3321计算的相似度的值筛选所述共现数据。

进一步的，本发明实施例还提供了一种数据筛选终端，该终端包括处理器和存储器，其中，所述存储器用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理器执行以实现上述图1或图2所示的数据筛选方法的步骤。

进一步的，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机指令，其中，在所述计算机指令被处理器执行时实现上述图1或图2所示的数据筛选方法的步骤。

综上所述，本发明实施例所采用的一种数据筛选方法、装置及终端，应用于协同过滤推荐的过程中对一阶的共现数据进行过滤筛选。主要是利用成对元素的共现数据计算各元素在相对于另一元素出现为条件时的出现概率，再以该出现概率在一定置信度下进行区间估计，利用所得到的区间估计结果，进一步对共现数据中两个元素的余弦相似度进行区间估计，得到这个两个元素的相似度在该置信度下的相似度置信区间，最终以该相似度置信区间以及预设的筛选阈值来确定包含这两个元素的共现数据是否为可用数据，在本实施例中，该筛选的结果分为三类，可用、不可用以及无法判断，而对应无法判断的共现数据，本实施例是通过引入其他的过滤条件进行筛选，以此综合判断一组共现数据的可用性，提高了对数据筛选的精度已经准确性。此外，对于筛选的过程，本发明实施例还考虑到共现数据中由于一个数据的统计不充分有可能导致对该共现数据判断不准确的问题，对于符合筛选阈值的共现数据，进一步通过比较两个元素的支持度的比值来识别该组共现数据是否可用，对于判断不可用的共现数据，则会将其划入无法判断的类别，进而使用其他的过滤条件作进一步的识别，以判断该组共现数据的可用性。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

本发明实施例还公开了如下技术方案：

A1、一种数据筛选方法，包括：

A2、根据A1所述的方法，通过区间估计计算所述共现数据在预置置信度下的相似度置信区间包括：

根据所述两个元素的共现值和出现值分别计算两个元素互为出现条件下的出现概率；

通过区间估计分别计算所述两个元素的出现概率在所述预置置信度下的出现概率置信区间；

利用余弦相似度计算所述两个元素的出现概率置信区间，得到在所述预置置信度下的相似度置信区间。

A3、根据A1所述的方法，根据筛选阈值在所述置信区间中的位置筛选所述共现数据包括：

获取所述置信区间的区间上界值与区间下界值；

当所述筛选阈值大于所述区间上界值时，过滤所述共现数据；

当所述筛选阈值小于所述区间下界值时，保留所述共现数据；

当所述筛选阈值介于所述区间上界值与区间下界值之间时，利用预置过滤条件筛选所述共现数据。

A4、根据A3所述的方法，当所述筛选阈值小于所述区间下界值时，保留所述共现数据包括：

计算所述共现数据中元素的出现值之间的比值；

当所述比值小于预置阈值时，保留所述共现数据；

当所述比值大于预置阈值时，利用预置过滤条件筛选所述共现数据。

A5、根据A3或A4所述的方法，利用预置过滤条件筛选所述共现数据包括：

根据所述预置过滤条件获取所述共现数据中元素的相关属性数据；

计算所述相关属性数据的相似度；

根据所述相似度的值筛选所述共现数据。

B6、一种数据筛选装置，包括：

B7、根据B6所述的装置，所述计算模块包括：

第一计算单元，用于根据所述两个元素的共现值和出现值分别计算两个元素互为出现条件下的出现概率；

第二计算单元，用于通过区间估计分别计算所述第一计算单元计算的两个元素的出现概率在所述预置置信度下的出现概率置信区间；

第三计算单元，用于利用余弦相似度计算所述第二计算单元计算两个元素的出现概率置信区间，得到在所述预置置信度下的相似度置信区间。

B8、根据B6所述的装置，所述筛选模块包括：

获取单元，用于获取所述置信区间的区间上界值与区间下界值；

筛选单元，用于当所述筛选阈值大于所述获取单元获取的区间上界值时，过滤所述共现数据；

所述筛选单元还用于，当所述筛选阈值小于所述获取单元获取的区间下界值时，保留所述共现数据；

所述筛选单元还用于，当所述筛选阈值介于所述获取单元获取的区间上界值与区间下界值之间时，利用预置过滤条件筛选所述共现数据。

B9、根据B8所述的装置，所述筛选单元在保留所述共现数据时，还包括：

计算子单元，用于计算所述共现数据中元素的出现值之间的比值；

筛选子单元，用于当所述计算子单元计算的比值小于预置阈值时，保留所述共现数据；

所述筛选子单元还用于，当所述计算子单元计算的比值大于预置阈值时，利用预置过滤条件筛选所述共现数据。

B10、根据B8或B9所述的装置，所述筛选单元在利用预置过滤条件筛选所述共现数据时，还包括：

获取子单元，用于根据所述预置过滤条件获取所述共现数据中元素的相关属性数据；

所述计算子单元还用于，计算所述获取子单元获取的相关属性数据的相似度；

所述筛选子单元还用于，根据所述计算子单元计算的相似度的值筛选所述共现数据。

C11、一种数据筛选终端，其特征在于，所述终端包括处理器和存储器，其中，所述存储器用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理器执行以实现A1至A5中任一项所述的数据筛选方法的步骤。

D12、一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时实现A1至A5中任一项所述的数据筛选方法的步骤。

Claims

1.一种数据筛选方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，通过区间估计计算所述共现数据在预置置信度下的相似度置信区间包括：

3.根据权利要求1所述的方法，其特征在于，根据筛选阈值在所述置信区间中的位置筛选所述共现数据包括：

获取所述置信区间的区间上界值与区间下界值；

4.根据权利要求3所述的方法，其特征在于，当所述筛选阈值小于所述区间下界值时，保留所述共现数据包括：

计算所述共现数据中元素的出现值之间的比值；

当所述比值小于预置阈值时，保留所述共现数据；

5.根据权利要求3或4所述的方法，其特征在于，利用预置过滤条件筛选所述共现数据包括：

计算所述相关属性数据的相似度；

根据所述相似度的值筛选所述共现数据。

6.一种数据筛选装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述计算模块包括：

8.根据权利要求6所述的装置，其特征在于，所述筛选模块包括：

9.一种数据筛选终端，其特征在于，所述终端包括处理器和存储器，其中，所述存储器用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理器执行以实现权利要求1至5中任一项所述的数据筛选方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1至5中任一项所述的数据筛选方法的步骤。