CN104995631A

CN104995631A - 针对好奇推荐器的隐私保护

Info

Publication number: CN104995631A
Application number: CN201380071863.1A
Authority: CN
Inventors: E.埃奥安尼迪斯; E.温斯伯格; S.巴加特; N.法瓦兹; A.F.蒙塔纳里; N.A.塔夫特
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2013-02-06
Filing date: 2013-08-07
Publication date: 2015-10-21
Also published as: AU2013377887A1; EP3267353A1; BR112015015445A2; KR20150115762A; WO2014123581A1; TW201443685A; EP2954454A1; JP2016512628A

Abstract

描述一种用于在推荐器***中保护用户隐私的方法和装置，其包括：确定针对电影将什么信息发布给用户；将信息传送给用户；接受来自用户的迷惑输入；以及估计用户的非隐私特征向量。还描述一种用于在推荐器***中保护用户隐私的方法和装置，其包括：接收电影信息；接受用户的电影反馈；接受用户的隐私信息；计算迷惑值；以及传送迷惑值。

Description

针对好奇推荐器的隐私保护

相关申请的交叉引用

本申请要求于2013年2月6日提交的、标题为“PRIVACY PROTECTIONAGAINST CURIOUS RECOMMENDERS”的美国临时申请序列号61/761,330的优先权，通过引用将其并入本文。

技术领域

本发明涉及在允许推荐器(recommender)提供相关个性化推荐的同时保护隐私信息。

背景技术

若干最近的公开研究从用户生成的数据推断人口统计学的威胁。与本发明最接近的Weinsberg等人的“Blurme:inferring and obfuscating user genderbased on ragings”(Proceedings of the Sixth ACM Conference on RecommenderSystems，2012年)示出可以从电影评级推断性别，并且提出减轻由此引起的隐私风险的启发法。但是，Weinsberg提出的迷惑方法明确地以推断性别的逻辑回归方法作为目标。与此相反，本发明追求原则性方法，使得证明是防任意推断方法的有力的隐私保障。

本发明中的隐私的定义受差分隐私(differential privacy)的概念激发，并且作为差分隐私的概念的限制性情况。差分隐私已经应用于诸如数据挖掘、社交推荐和推荐器***这样的领域。这些工作假设受信任的数据库所有者并且集中在使应用的输出是差分隐私的。与此相反，在本发明中，研究一种配置，其中推荐器是好奇的(curious)，并且用户希望防范根据他们提交给推荐器的反馈对隐私信息进行统计推断。

存在若干在准确度约束下对防统计推断的隐私进行建模的理论框架。这些方法假设关联隐私和非隐私变量的一般概率模型，并且通过在非隐私变量的发布之前使它们失真来确保隐私。虽然具有一般性，但是这些框架的应用需要隐私数据和将发布的数据之间的联合分布的知识，这在实际设置中可能难以获得。被实验证据强有力地支持的本发明中的线性模型的假设致使问题易于处理。更重要地，其允许本发明的方法表征在推荐器侧所必需的数据公开的程度，以实现最佳的隐私准确度权衡，这是所有前述工作中没有的方面。

发明内容

推荐器***可以从用户反馈推断诸如性别、年龄或政治派别这样的人口统计信息。本发明提出一种推荐器与用户之间的数据交换协议(步骤、动作)的框架，捕捉推荐的准确度、用户隐私与推荐器所公开的信息之间的权衡。

本发明允许用户以推荐器无法推断用户希望隐藏的一些人口统计信息的方式将他/她的评级的失真版本传达到推荐器***，同时允许推荐器仍然向用户提供相关的个性化推荐。

在线服务的用户被常规地要求提供关于他们的经验和偏好的反馈。该反馈可以是隐式的或显式的，并且可以采取许多形式，从完整评论到五星评级，到从菜单选择。这样的信息常规地由推荐器***使用，以提供有针对性的推荐并且个性化提供给用户的内容。用于生成推荐的统计方法往往产生用户“简档(profile)”或特征向量。这样的简档能够暴露用户可能视为隐私的个人信息，诸如他们的年龄、性别和政治派别。这种可能性已经被广泛记载在公共数据集上。这种可能性要求允许具有隐私意识的用户受益于推荐器***，同时还确保他们希望保护的信息不会通过他们的反馈而非有意地公开或泄露，从而鼓励用户参与到服务中的机制。

减少这样的公开或泄露的通常的方法是通过使报告给推荐器的反馈失真。在推荐质量和用户隐私之间存在自然的权衡。更大的失真可以导致更好的迷惑但是也导致不太准确的简档。本发明的贡献是标识出在该权衡中存在第三项(a third term)，其为推荐器公开给用户以便迷惑他们的隐私值的数据。为了例示这一点，注意到如果推荐器向用户公开用于产生用户简档的所有数据和算法，则可以实现绝对隐私。然后，用户能够运行推荐***的本地拷贝，而不用总是向推荐器发送任何反馈。这显然是隐私的。但是，从推荐器的角度来看，这仍是不能维持的，无论出于实际的原因(效率和代码维护)，还是至关重要地出于商业原因，因为推荐器可能正在收取费用、将它收集的数据以及它开发的算法这两者货币化。向用户或可能的竞争者公开数据和算法显然是不利的。

另一方面，一些数据公开也是必要的。如果用户在发布他/她的反馈之前希望隐藏他/她的政治派别，用户可以使用政治派别所带来的任何偏向的知识来否定该效果。从所收集的数据中检测这样的偏向的推荐器可以将其揭示给具有隐私意识的用户。

这种情况提出若干问题。推荐器需要公开给具有隐私意识的用户以便鼓励他们参与的信息最小量和种类(nature)是什么？该信息如何可以用于使一个人的反馈失真以保护一个人的隐私特征(诸如性别、年龄、政治派别等)同时允许推荐器估计剩余的非隐私特征？当被应用于失真的反馈时，什么估计方法得到最高的准确度？

本发明提出一种用于解决上述问题的形式化数学框架，其包括三个协议：

(a)推荐器参与的数据公开，

(b)被应用于用户评级的迷惑方法，以及

(c)被应用以推断非隐私用户特征的估计方法。

以上三个协议的具体实现方式提供对用户隐私信息的完美保护，同时也确保推荐器以最佳的可能的准确度来估计非隐私信息。至关重要地，推荐器的数据公开最小。没有更少的公开可以得到与所提出的实现方式相同或比其更好的准确度。

所提出的协议在真实的数据集上评估，证实它们在实践中确实提供出色的隐私保障，而不显著地影响推荐准确度。

附图说明

根据下面的详细描述，在结合附图一起阅读的情况下，本发明得以最好地理解。附图包括下面简要描述的以下图：

图1(a)和1(b)示出使用MovieLens数据集选择和逻辑推断的在迷惑之前、在标准迷惑方案和选择之后的男性和女性的推断概率的分布；

图1(c)示出RMSE-AUC权衡；

图2是本发明的推荐器***的流程图；

图3是本发明的推荐器***的推荐器部分的放大图；

图4是本发明的推荐器***的用户部分的放大图；

图5是本发明的推荐器***的推荐器部分的框图；以及

图6是本发明的推荐器***的用户部分的框图。

具体实施方式

在本发明中所考虑的配置包含推荐器和用户。推荐器请求关于项目的用户反馈，为了具体性，将项目称为“电影”。对每个项目的用户反馈(例如，1-5星等级)从通过两个向量即电影简档v_i和用户简档x来参数化的概率分布独立地采样。用户简档x是(x₀；x)的形式，其中x₀是用户希望保留隐私(例如，他/她的性别)的可区分的二元特征，并且x是非隐私分量。应当注意，虽然用户知道x₀，但是他/她并不知道x：在例如推荐器所使用的特征对用户是未知的、或者甚至是通过被称为矩阵因子分解的处理来计算出并且因此是潜在的情况下，这将是如此。

推荐器知道电影简档v_i并且希望学习用户的简档x。推荐器的目的是预测其他电影的用户反馈并且做出推荐。用户希望受益于推荐，但是关于他/她的变量x₀是具有隐私意识的，并且不希望将其发布给推荐器。为了鼓励用户的参与，本发明的目标是设计一种在推荐器和用户之间交换信息的协议，其具有三个突出的性质。非形式化地，三个突出的性质是：

(a)在协议结束时，推荐器尽可能准确地估计x，即x的非隐私分量；

(b)关于x₀，即用户的隐私变量，推荐器什么也不学习；

(c)关于每个项目i的电影简档v_i，用户尽可能少地学习。

第一性质确保在协议结束时推荐器学习用户简档的非隐私分量并且可以将其用于向用户建议新的电影，这使推荐器的主要功能成为可能。第二性质确保具有隐私意识的用户受益于推荐而不公开他/她的隐私变量，从而鼓励参与。最后，第三性质确保电影简档在其整体上不会变得公共可用。这确保推荐器的竞争者不能使用简档，简档的计算需要资源并且通过推荐而被货币化。

为了突出这三个性质之间的相互影响，讨论三种“非解(non-solution)”。首先，考虑用户“以明文”向推荐器公开他/她的反馈的协议：这满足(a)和(c)，但是不满足(b)，因为其将允许推荐器通过适当的推断方法来估计x和x₀二者。在第二协议中，推荐器首先向用户揭示所有电影简档v_i；推荐器再次通过推断在本地估计x，并且随后将其发送给推荐器。这满足(a)和(b)，但是不满足(c)。最后，“空(empty)”协议(没有信息交换)满足(b)和(c)，但是不满足(a)。

更具体地，假设用户由特征向量来表征。该特征向量具有对应于用户想要保持隐私的特性的一个分量。假设该特征是二元的，泛化成多个二元特征是直接了当的。形式化地，x＝(x₀，x)，其中并且x₀∈{+1，-1}是隐私特征。作为运行的示例，可以假设用户想要将他/她的性别保持隐私，其被编码为x₀∈{+1，-1}。

推荐器请求对M个电影的反馈，其集合表示为[M]≡{1,…,M}。具体地，每个电影由特征向量来表征，其中注意被限制到v_i，使得v_i≠0。将所有这样的向量的集合表示为并且将请求反馈的电影的特征向量表示为

假设推荐器在数据库中维护特征向量。常规地，构造这样的数据库通过推荐器算法来完成。典型地，特征通过矩阵因子分解技术(并且因此是潜在的)以及电影描述符的显式函数(诸如例如体裁、剧情概要或演职人员的声望等)的组合来计算。在两种情况下，这些向量(或者甚至被识别为相关的特征)可以由竞争者使用，并且因此以不公开为条件(subject tonon-disclosure)。

对电影i∈[M]的用户反馈由来表示。r_i被限制到特定的双线性模型，其目的对于推荐器和用户两者是已知的。具体地，假设中的通常的标量积。假设在上存在概率分布Q，使得对于所有i∈[M]：

r_i＝<v_i，x>+z_i＝<v_i，x>+v_i0+z_i，z_i～Q， (1)

其中，z_i是独立的“噪声”变量，其中E(z)＝0、E(z²)＝σ²＜∞。

尽管简单，但是该模型被实验证据强有力地支持。实际上，它是诸如矩阵因子分解、奇异值分解等基于低秩近似(low-tank approximation)的许多预测方法的底层模型。应当注意到，限制到中的电影向量在(1)下有意义。实际上，如果推荐器的目的是检索x，则对v＝0的电影的反馈是明显没有信息的。假设推荐器在数据库中维护特征向量常规地，构造这样的数据库通过推荐器算法来完成。典型地，特征通过矩阵因子分解技术(并且因此是潜在的)以及电影描述符的显式函数(诸如体裁、剧情概要或演职人员的声望等)的组合来计算。这些向量(或者甚至被识别为相关的特征)可以由竞争者使用，并且因此以不公开为条件。

用户不能访问该数据库，并且不知道这些特征向量的先验值。另外，用户知道他/她的隐私变量x₀，并且知道或者容易生成她对每个电影i∈[M]的反馈r_i。然而，用户并不知道先验的剩余特征值因为与v_i的每个坐标相对应的“特征”是“潜在的”或者未被公开的。

本发明的隐私保留推荐方法和***包括用户与推荐器之间的如下协议，其包括三个步骤：

1.数据公开协议。这是映射L：其中是生成集。和将是包括的可测量的空间。该映射在推荐器处实现，并且描述公开地从它的数据库公开的数据的量。具体地，对于每个电影i∈[M]，推荐器向用户发布一些信息表示具有坐标的向量在实践中，公布因为希望与推荐器交互的所有潜在的具有隐私意识的用户都需要它。

2.迷惑协议。这是对于的映射Y：其中，再次是生成集。该映射描述用户反馈在分布给推荐器之前如何修改(迷惑)。该映射被实现为用户自己的计算机上的程序。具体地，用户(用户计算机上的算法)输入他/她的反馈值向量他/她的隐私特性x₀以及数据公开程序组合这些量，并且将迷惑值返回到推荐器。

3.估计器。这是如下形式的映射：给定电影特征向量和对应的迷惑用户反馈该映射生成用户的非隐私特征向量x的估计估计器被实现为推荐器处的程序。

三元组称为推荐***。注意，所有这三个分量的函数形式对于双方是已知的：例如，推荐器知道迷惑协议Y。双方是诚实的，但是好奇的：双方(推荐器和用户)遵循协议，但是如果在任何步骤，任何一方可以提取比故意揭示的信息更多的信息，则他们会这样做。两个协议L和Y可以被随机化。在下文中，给定x、将关于反馈模型以及协议随机化的概率和期望表示为

接下来，对应于上面讨论的性质(a)-(c)的包括推荐***的准确度、用户的隐私以及数据公开程度的保留隐私的推荐***的基本质量度量。

迷惑反馈Y的隐私的形式化受差分隐私激发。本发明的上下文与现有技术的不同之处在于，依赖于x、和x₀，但是本发明仅涉及关于隐私信息x₀的隐私。

定义1.如果对于任何和任何出现以下情况，则推荐***是ε差分隐私。如果表示从数据库泄露或暴露的信息，并且表示用户反馈，则对于任何事件

e^{- ϵ} \leq \frac{P_{(+ 1, x), v} (Y (r, + 1, l) &Element; A)}{P_{(- 1. x) . v} (Y (r, - 1, l) &Element; A)} \leq e^{ϵ} . - - - (2)

可以说，***在其为具有ε＝0的ε差分隐私情况下是隐私保留的或者隐私的。

本发明的焦点在于保留隐私的推荐***，亦即ε＝0的***。直观地，在隐私保留***中，迷惑Y是不依赖于x₀的随机变量。Y的分布是相同的，与用户的性别无关。第二定义规定估计器在其以最小损失重构用户的非隐私特征的情况下具有最佳的准确度。这个选择是自然的；然而，讨论通过补集中的损失来量化准确度的原因。

定义2.如果对于所有项目其中则可以说推荐***比更准确。另外，如果对于一些上面的不等式严格成立，则可以说其严格地更加准确。

最后，可以定义数据公开协议之间的排序。直观地，如果可以从L中检索L′，则协议L公开与L′一样多的信息。

定义3.如果存在可测量的映射使得(亦即，对于每个)，则可以说推荐***公开与***一样多的信息。如果对于一些并且则可以说和公开相同量的信息。最后，如果对于一些但是不存在使得则可以说比公开严格地更多的信息。

下面示出，在线性模型下，将被称为“标准方案”的下面的推荐***具有最优性性质。

1.数据公开协议发布与隐私用户特征x₀相对应的条目v₀，亦即，并且对于所有

2.迷惑协议从每个反馈r_i中减去隐私特征的贡献(contribution)，并且将这个值公开给推荐器。即，并且对于

3.最后，估计方法等同于求解最小二乘问题：

其中，y_i是迷惑的反馈的第i个分量，亦即

(3)中的估计器被称作最小二乘估计器，并且由来表示。注意，在(1)下，标准方***度通过下面的损失给出：对于所有

其中σ²是(1)中的噪声方差，并且tr(·)是迹线(trace)。

下面的定理概述标准方案的性质：

定理1.在线性模型下：

1.标准方案是隐私保留的。

2.假设(1)中的噪声是高斯噪声。则不存在比标准方案严格地更准确的保留隐私的推荐***。

3.不公开与标准方案一样多的信息的任何保留隐私的推荐***还一定严格地更不准确。

下面证明该定理。第二和第三命题在形式上建立标准方案的最优性。在高斯噪声下，没有隐私保留***获得更好的准确度。意外地，这甚至在公开比标准方案严格更多的信息的方案之中为真。针对每个电影，没有理由公开比v_i0更多。第三命题暗示，为了获得相同的准确度，推荐器***必须公开至少v_i0。实际上，证明证实，在这样的情况下，在标准方案下有限的损失可以变成无限制的。

定理1的证明：

隐私：为了明白定理1.1成立，回想对于每个i∈M，用户发布y_i＝r_i-v_0ix₀＝<v_i，x>+z_i。于是，y_i的分布不依赖于x₀，因此标准方案显然是隐私保留的。

最大准确度：通过反证法，使用下面的标准结果来证明定理1.2。

引理1.假设i∈[M]是点的集合，使得y_i＝<v_i，x>+z_i，其中z_i是独立且恒等分布的零均值高斯随机变量，并且假设是最小二乘估计器于是，对于任何估计器

假设存在比标准方案严格地更加准确的保留隐私的推荐***假设是标准方案下的公开，并且是中的公开。还假设是标准方案下的针对i∈[M]的迷惑值，并且用来表示向量因为***是隐私保留的，所以其迷惑满足：

亦即，两个随机输出在分布上相等。

将使用L′、Y′和来构造具有比最小二乘估计器更低的损失的估计器具体地，考虑新的推荐***其中：(a)L″(v_i)＝(L(v_i)，L′(v_i))，亦即推荐器公开与以及L(v_i)＝v_i0中相同的信息；(b)Y″＝Y，亦即迷惑与在标准方案中相同，并且针对i∈[M]，发布以及(c)推荐器通过执行以下两个步骤来估计x。首先，其将迷惑Y′应用于假设性别是+1，计算其次，其将估计器应用于该输出。总之：其中注意，至关重要地，新***具有与相同的准确度。这是因为给估计器的输入w与输入y′是恒等分布的。如果x₀＝+1，则这很一般地为真，但是对于x₀＝-1，根据(5)同样成立。但是，这意味着可以构造得到比在最小二乘估计器下的对应的损失严格地更小的损失的估计器与引理1矛盾。

最小公开：最后，证明定理1.3，在形式上确立公开L(v_i)＝v_i0是最小的。任何“信息较少(less-informative)”的公开导致准确度的损失。考虑不公开与标准方案同样多的信息的保留隐私的推荐***考虑设置M＝d(特征简档的尺寸)。还假设使得矩阵是可逆的，并且用表示具有坐标v_i0的向量。

对于任何x₀∈{+1，-1}、假设是随机变量，其分布由给定，其中是从分布Q采样的独立且恒等分布的坐标的向量。即，当并且性别是x₀时，是迷惑的输出。于是，下面成立。

引理2.假设M＝d，并且矩阵是可逆的。假设于是，对于所有

证明：根据等式(5)，对于所有对于x＝V^-1(s-v₀)，该断言继之以Z_±的定义。

因为没有泄露(暴露、公开)与标准方案同样多的信息，根据定义，不存在映射使得对于所有具体地，存在向量使得v₀≠v₀′而仍然L′(v)＝L′(v)。考虑下面两种情况：

情况1.v，v′的支集相交，亦即存在k∈[d]使得v_k≠0且v_k′≠0。在这种情况下，考虑的情况，其中是第l个坐标为1而所有其他坐标为零的向量。显然，并且V＝[v_i]_i∈[d]是可逆的。假设按照引理2，对于所有其中在坐标1为1而在其他地方为0。类似地，在的情况下，引理2的条件再次满足。至关重要地，因此对于所有仍然这两个等式暗示，对于所有

其中ξ≡2(v₀-v₀′)。话句话说，关于电影v的评级，迷惑是周期性的。

观察到对于任何和任何可以构造以及使得(a)x，x′仅在坐标k∈{1，2，...，d}处不同，(b)<v，x-x′>＝Kξ并且(c)||x-x′||₂≥M。为了明白这一点，假设K是足够大的整数，使得取得x_k′＝x_k+Kξ/v_k并且针对{0，1，...，d}中的所有其他l取得x′_l＝x_l生成满足期望属性的x′。

因此，假设针对具有x₀＝+1的用户，将推荐***应用于固定大的M＞0。对于如上构造的每个x和x'，按照(6)，由Y′生成的迷惑值具有恒等分布。因此，不管估计器是如何实现的，和之间的最大值一定是Ω(M²)，这反过来暗示与此相反，因为中的简档是线性独立的，所以Σ_iv_iv_i ^T是正定的，并且因此是可逆的。同样地，标准方案的损失(4)是有限的，并且定理成立。

情况2.v，v′的支集不相交。在这种情况下，v，v′是线性独立的，因为二者都属于并且具体地，存在1≤k、k′≤d、k≠k′，使得v_k≠0且v_k′≠0。可以构造然后，并且矩阵V＝[v_i]_i∈[d]再次是可逆的。同样地，通过交换v和v'的位置，可以使用与情况1中类似的论证示出，对于所有其中ξ≡2(v₀-v₀′)并且亦即，Z₊在方向e₁-e₂上是周期性的。而且，对于任何和任何类似地，可以构造以及使得(a)x、x'仅在坐标k，k′∈{1，2，...，d}处不同，(b)<v，x-x′>＝-<v′，x-x′>＝Kξ，并且(c)||x-x′||₂≥M。构造在第k个坐标处加Kξ/v_k，从第k′个坐标开始减去Kξ/v_k′′，其中K＞M max(v_k，v′_k′)/ξ。因此，与情况1中类似的论证得到定理。

本发明的模型的若干方面要求更详细的讨论。

泄露(公开、暴露)解释。在标准方案中，被公开(暴露、泄露)的信息v_i0是估量隐私特征对用户反馈的影响的参数。在追究的示例中，其为性别对用户对电影i的欣赏的影响。对于线性模型(1)，如果在其他特征x独立于性别分布的用户的群体中，则该参数具有简单的解释。实际上，假设(x₀，x)上的先验分布，使得x独立于x₀。于是：E{r_i|x₀＝+}-E{r_i|x₀＝-}＝<v，E{x|x₀＝+}-E{x|x₀＝-}>+2v_i0＝2v_i0。因此，给定对用户反馈的数据集的访问，其中用户不具有隐私意识并且已经公开了他们的性别，则推荐器仅需要计算每个性别的电影的平均评级。公开v_j0等同于发布这两个值之间的一半距离。

从电影选择中推断。在实践中，生成[M]中的所有评级可能与时间上的高成本相对应。因此，考虑下面的约束是合理的：存在集合S₀(例如，用户已经观看的电影)，使得评级的迷惑集合必须满足在这种情况下，S₀本身可能揭示用户的性别。

在观看事件是独立的情况下，亦即：其中是取决于他/她的性别x₀的值的用户已经观看过电影i的概率，则提出解决方案。考虑下面的迷惑协议。首先，给定S₀，用户独立地生成并公开针对电影i∈S₀的反馈，从而构造集合S，由此：

P (i &Element; S | i &Element; S_{0}) = m a x (1, {p_{i}^{x}}_{0} / {p_{i}^{x}}_{0}), - - - (7)

x₀是x₀的补数(complement)。在应用标准方案之后,揭示针对i∈S₀的评级。

该迷惑具有下面的令人满意的的性质。首先，其次，它是隐私保留的。为了明白这一点，注意，亦即，它不依赖于x₀。最后，集合S是最大的：不存在生成集合使得E{|S′|}＞E{|S|}的隐私保留方法。为了明白这一点，注意，对于任何方案使得如果E{|S′|}＞E{|S|}，则存在i，使得P_x0(i∈S′)＞P_x0(i∈S′)min(p_i ⁺，p_i ^-)。如果该方案是隐私保留的，这必须对于两个x₀均为真；但是，因为一定是对于两个x₀都是这是矛盾的。由该迷惑方案的最大性所推动，其在下面被用作只选择由用户评级的电影的子集的手段。

本发明的标准方案在电影推荐器***上评估。***的用户对他们已经观看的电影提供1和5之间的整数评级，并且反过来期望***提供有用的推荐。性别被定义为用户不想要揭示给推荐器的隐私值，已知其可以高准确度地从电影评级推断。使用来自两个电影评级服务的数据集：MovieLens和Flixster。二者都包含每个用户的性别。数据集被限制于对至少20部电影评级的用户以及由至少20个用户评级的电影。因此，MovieLens数据集具有6K个用户(4319个男性，1703个女性)、3043部电影以及995K个评级。Flixster数据集具有26K个用户(9604个男性，16433个女性)、9921部电影以及5.6M个评级。

为了评估实践中的迷惑的成功，应用若干标准方法以从评级推断性别，包括朴素贝叶斯(NB)、逻辑回归(LR)和支持向量机(SVM)，并且提出一种与线性鉴别分析(LDA)类似的新方法。后者的方法基于线性模型(1)，并且假设x上的高斯先验以及性别x₀上的伯努利先验。在这些先验下，评级是正态分布的，其中平均值由x₀确定，并且x₀的最大似然估计器在具有所观看的电影的数量的维度的空间中精确地LDA。根据曲线下面积(area underhe curve，AUC)来评价每个推断方法。给LR、NB和SVM方法的输入包括由用户给出的所有电影的评级以及针对未被评级的电影的零。另一方面，LDA仅对用户提供的评级起作用。

在利用和不利用使用上面讨论的最大方案(7)执行的选择方案的两种情况下研究标准迷惑方案。电影向量被构造如下。对于每个电影，计算性别偏向v₀作为针对每个性别的平均电影评级之间的一半距离。使用这些值，通过d＝20的矩阵因子分解计算出剩余的特征v。这些是从未迷惑的评级计算出的。矩阵因子分解是使用梯度下降、20次迭代、通过交叉验证选择的0.02的正则化参数来执行的。

当使用方案时，新的评级可能不是整数值，并且甚至可能在推荐器***所期望的评级值的范围之外。为此，考虑将评级值舍入(round)成范围[1,5]内的整数的变型。给定在两个整数和k+1之间的非整数迷惑评级r，通过对评级k分配概率r-k并且对评级k+1分配概率1-(r-k)来执行舍入，期待在高于5或低于1的评级分别被截取为5或1的情况下给出所期望的评级r。为了简洁，将该整个处理称作“舍入”。还考虑迷惑的两个基准(baseline)。电影平均方案用电影的平均评级来替换用户的评级。性别平均方案用男性或女性(每个具有概率0.5)所提供的平均评级来替换用户的评级。

测量根据评级的均方根误差(root mean square error，RMSE)的推荐的准确度。为此，将用户的评级拆分成训练集和评估集。首先，将迷惑方法应用于训练集，然后通过具有0.1的正则化参数的在迷惑的评级上的岭回归来估计x。评估集中的电影的评级使用线性模型(1)来预测，其中x₀由LDA推断方法提供。用其他推断方法进行实验，具有类似的结果。

所提出的迷惑和推断方法在两个数据集上运行。使用关于用户的10折交叉验证(10-fold cross validation)，并且跨越这些折(fold)计算平均AUC和RMSE。在表格1中示出所有评估的概要。该表格提供根据上面详述的各种迷惑方法的由不同的推断方法获得的AUC以及每种迷惑方法的RMSE。

若干观察跨越两个数据集是一致的。首先，推断方法被迷惑方法不同地影响，其中，LR、NB和SVM主要受选择方案影响，而LDA主要受本发明的标准迷惑方案影响。但是，当使用选择和标准迷惑方案两者时，所有方法的AUC都减小到大约0.5。而且，迷惑方法对RMSE的影响不高，最大增加1.5％。这指出，虽然迷惑方案设法隐藏性别，但是评级预测几乎不受影响。本发明的标准迷惑方案的表现与在引入舍入时几乎完全相同。与标准方案(SS)相比，基准方案得到类似的AUC，但是RMSE更高，说明出现以损失推荐准确度为代价但是在AUC方面没有显著益处的过分的迷惑。

为了例示迷惑如何影响推断准确度，图1(a)和1(b)示出log(P_Male/P_Female)的分布，其分别具有在使用标准方案和选择的迷惑之前和迷惑之后通过逻辑回归获得的P_Male和P_Female。在迷惑之前，在男性和女性的分布之间存在清楚的分离，使得能够成功推断性别。但是，在迷惑之后，两个分布变得不能区分。

表格1：迷惑结果。SS表示标准方案

通过以概率α应用迷惑方案并且以概率1-α发布真实评级来研究隐私准确度权衡。图1(c)示出三种迷惑方案的所得到的RMSE-AUC权衡曲线。该图示出结合选择的标准方案提供最佳的隐私准确度权衡，并且针对相同的隐私(推断AUC)一致地获得较好的准确度(较低的RMSE)。最后，在表格1中还看到，舍入对于结果没有显著影响，并且曲线几乎完全重叠。

将在本工作中所引入的问题扩展到在本文中所研究的线性模型之外的更一般的推断设置是很自然的。特别地，在更一般的参数问题下量化需要发布以确保隐私和准确度的信息的量仍然是令人感兴趣的未决问题。另外，在本文中所关注的是保留隐私的推荐***。存在若干方式来放宽隐私约束，包括使用ε＞0的差分隐私。

图2是本发明的推荐器***的流程图。推荐器***包括用户部分和推荐器部分。图2是推荐器***的示例性实施例的整体操作的流程图。推荐器***的目标是向用户提供准确的推荐，同时保留用户的隐私信息。本发明在上面使用性别作为隐私信息(特性、特征)进行了解释，但是其他特征可以包括年龄、政治派别等，即本发明并不局限于仅使用性别作为用户的隐私信息。在205，执行推荐器***的数据协议部分。在210，执行推荐器***的迷惑协议部分。在215，执行推荐器***的估计器协议部分。

图3是本发明的推荐器***的推荐器部分的放大图。具体地，图3包括图2的单元205和215的放大。在305，存在映射L：确定针对每个电影i将什么信息发布给用户。当然，这包括将信息发布(传送、传输、转发、发送)给用户。电影信息可以是电影简档或电影特征向量。在310，推荐器***的推荐器部分接收(接受)迷惑的用户信息。在315，存在如下形式的映射：推荐器***的推荐器部分估计用户的非隐私特征向量。

图4是本发明的推荐器***的用户部分的放大图。具体地，图4是图2的元件210的放大。在405，推荐器***的用户部分接收(接受)来自推荐器***的推荐器部分(数据公开协议部分)的电影信息。在410，推荐器***的用户部分接受(接收)用户反馈值。在415，推荐器***的用户部分接受(接收)用户隐私信息(特性、特征、值、数据)。在420，推荐器***的用户部分计算迷惑值。这通过从每个反馈中减去用户的隐私信息(特征、特性、值、数据)的贡献来完成。在425，将计算出的迷惑值传送给推荐器***的推荐器部分。

图5是本发明的推荐器***的推荐器部分的框图。本发明的推荐器***的推荐器部分可以实现在大型计算机上或者实现在台式机、笔记本、平板、iPod、iPhone、iPod、双模智能手机或任何其他有线或无线计算设备上。推荐器***的推荐器部分包括有线通信接口和无线通信接口中的至少一个，并且可以包括两种类型的通信接口。无线通信接口还包括适当的天线。通信接口操作以接受数据(信息、特征、值)和传送(发送、转发)数据(信息、特征、值)。数据公开模块和估计器模块可以在单独的处理器或单个处理器上实现。数据公开模块和估计器模块相互之间(如果没有在单个处理器上实现)并且与通信接口进行双向通信。数据公开模块和估计器模块还与存储或存储器***进行双向通信，存储或存储器***可以是任何形式的存储器，包括移动和固定存储***。数据公开模块包括用于确定针对电影将什么信息发布给用户的部件。通信接口(有线的或无线的)包括用于将所述信息传送给用户的部件以及用于接受来自用户的迷惑输入的部件。估计器模块包括用于估计用户的非隐私特征向量的部件。

图6是本发明的推荐器***的用户部分的框图。本发明的推荐器***的用户部分可以在台式机、笔记本、平板、iPod、iPhone，iPod、双模智能手机或任何其他有线或无线计算设备上实现。推荐器***的用户部分包括有线通信接口和无线通信接口中的至少一个，并且可以包括两种类型的通信接口。无线通信接口还包括适当的天线。通信接口操作以接受数据数据(信息、特征、值)和传送(发送、转发)数据(信息、特征、值)。迷惑模块可以在一个或多个处理器上实现。迷惑模块与通信接口进行双向通信。迷惑模块还与存储或存储器***进行双向通信，存储或存储器***可以是任何形式的存储器，包括移动和固定存储***。迷惑模块包括用于计算迷惑值的部件。通信接口(有线的或无线的)包括用于接受用户的电影反馈的部件、用于接受用户的隐私信息的部件以及用于传送迷惑值的部件。

应当理解，本发明可以以各种形式的硬件、软件、固件、专用处理器或其组合来实现。专用处理器可以包括专用集成电路(ASIC)、精简指令集计算机(RISC)和/或现场可编程门阵列(FPGA)。优选地，本发明实现为硬件和软件的组合。而且，软件优选地实现为有形地实施在程序存储设备上的应用程序。应用程序可以被上载到包括任何适当架构的机器并且由其执行。优选地，机器在具有诸如一个或多个中央处理单元(CPU)、随机存取存储器(RAM)和输入/输出(I/O)接口这样的硬件的计算机平台上实现。计算机平台还包括操作***和微指令码。在本文中描述的各种处理和函数可以是微指令码的一部分或经由操作***执行的应用程序的一部分(或者其组合)。另外，各种其他***设备可以连接到计算机平台，诸如另外的数据存储设备和打印设备。

还应当理解，因为在附图中所示的构成***组件和方法步骤的一些优选以软件来实现，所以***组件(或处理步骤)之间的实际连接可以根据对本发明进行编程的方式而不同。给出本文中的教导，本领域的普通技术人员将能够想到本发明的这些以及类似的实现方式或配置。

Claims

1.一种用于在推荐器***中保护用户隐私的方法，所述方法包括：

确定针对电影将什么信息发布给用户；

将所述信息传送给所述用户；

接受来自所述用户的迷惑输入；以及

估计所述用户的非隐私特征向量。

2.根据权利要求1所述的方法，其中来自所述用户的所述迷惑输入包括被迷惑以保护用户隐私信息的电影反馈。

3.根据权利要求2所述的方法，其中所述电影反馈包括电影评级或电影评定。

4.一种用于在推荐器***中保护用户隐私的方法，所述方法包括：

接收电影信息；

接受用户的电影反馈；

接受用户的隐私信息；

计算迷惑值；以及

传送所述迷惑值。

5.根据权利要求4所述的方法，其中来自所述用户的迷惑输入包括被迷惑以保护用户隐私信息的电影反馈。

6.根据权利要求5所述的方法，其中所述电影反馈包括电影评级或电影评定。

7.根据权利要求4所述的方法，其中所述用户隐私信息包括特性、特征、值或数据。

8.根据权利要求4所述的方法，其中通过从所述用户的电影反馈中减去所述用户的隐私信息的贡献来计算所述迷惑值。

9.一种用于在推荐器***中保护用户隐私的装置，包含：

用于确定针对电影将什么信息发布给用户的部件；

用于将所述信息传送给所述用户的部件；

用于接受来自所述用户的迷惑输入的部件；以及

用于估计所述用户的非隐私特征向量的部件。

10.根据权利要求9所述的装置，其中来自所述用户的所述迷惑输入包括被迷惑以保护用户隐私信息的电影反馈。

11.根据权利要求10所述的装置，其中所述电影反馈包括电影评级或电影评定。

12.根据权利要求9所述的装置，其中所述装置是所述推荐器***的推荐器部分。

13.一种用于在推荐器***中保护用户隐私的装置，包含：

用于接受用户的电影反馈的部件；

用于接受用户的隐私信息的部件；

用于计算迷惑值的部件；以及

用于传送所述迷惑值的部件。

14.根据权利要求13所述的装置，其中来自所述用户的迷惑输入包括被迷惑以保护用户隐私信息的电影反馈。

15.根据权利要求14所述的装置，其中所述电影反馈包括电影评级或电影评定。

16.根据权利要求13所述的装置，其中所述用户隐私信息包括特性、特征、值或数据。

17.根据权利要求13所述的装置，其中通过从所述用户的电影反馈中减去所述用户隐私信息的贡献来计算所述迷惑值。