CN102201048A

CN102201048A - 对文档集合进行主题级别隐私保护的方法和***

Info

Publication number: CN102201048A
Application number: CN2010101325939A
Authority: CN
Inventors: 赵彧; 李建强; 刘博�; 郭剑峰
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd; Renesas Electronics China Co Ltd
Priority date: 2010-03-24
Filing date: 2010-03-24
Publication date: 2011-09-28
Also published as: JP2011204224A

Abstract

本发明提出了对文档集合进行主题级别隐私保护的方法和***。该方法包括：输入文档集合以及主题级别隐私策略，所述隐私策略包括一个或多个需要隐私保护的主题关键词；扩展主题关键词，以生成一个或多个敏感关键词；以及基于生成的敏感关键词从文档集合中判定隐私文档。根据不同的实施例，本发明分别基于文档集的内部特征、基于外部知识(本体)或它们两者来生成敏感关键词。由于本发明的方法不需要使用训练文档，因此可以使***更加高效柔性和实用，可以同时处理大量隐私策略，并且可以方便的支持隐私策略的动态变化。

Description

对文档集合进行主题级别隐私保护的方法和***

技术领域

本发明一般的涉及文档集合的隐私保护，更具体而言，涉及对文档集合进行主题级别隐私保护的方法和***。

背景技术

随着计算机和网络技术的快速发展，人们可获得的信息已经呈现数字化和海量化的特征。然而，数字化和网络化也使得对信息进行隐私保护和管理变得更具挑战性。特别是在涉及对健康信息、账户信息等高私密性信息的场合中，这个问题尤其迫切的需要得到解决。例如，目前为了便于医疗信息共享，电子病历及电子健康档案的使用已成为趋势，医务工作者、医学研究者、***门、保险公司等医疗相关人员可以方便地基于电子医疗数据进行相关业务工作，然而从病人的角度看，他们应该对有关其本人的病历或健康档案拥有隐私控制权，最典型的情境则是病人不希望某些没有经过其授权的人，通过获取到的电子医疗数据能够得知其患有某种敏感疾病。

现在，搜索已经成为人们处理海量数字信息的基本工具，而如何使得搜索者快速、方便、准确的获得其需要的信息，同时又能保护信息所有者或者信息内容相关人的隐私不被泄露，即实现搜索质量和隐私保护的平衡，成为搜索***需要面对的一个难题。

通常情况下，文档所有者或者隐私相关人通过制定隐私策略(privacypolicy)来个性化定义隐私的范围以及对于隐私相关信息的保护策略。兼顾隐私保护的搜索(privacy-preserving search)需要解决的问题就是如何在搜索***中满足隐私策略，同时保持尽可能高的搜索质量。

在实际搜索***中，访问控制是最常用也是最有效的隐私控制方法，即隐私所有人对包含隐私信息的文档设置访问控制策略，设定有权限或者无权限获取隐私文档的搜索者。基于访问控制的隐私保护通常包含三个步骤：(1)隐私策略的定义：隐私所有人确定隐私的涵义和范围；(2)隐私文档的判定：判断一个文档是否包含隐私内容；(3)访问控制的设定：为每个隐私文档设定访问策略。面对大量文档时，隐私所有人不可能手工的对每个文档进行逐一的隐私判定和访问控制设定。另外，当隐私所有人更改其隐私策略时，也不可能手工的再逐一的对文档进行重新判定和设定。基于隐私策略，如何实现自动的判定隐私文档以及设定访问控制，同时保证访问控制的准确性，是面对大量文档时需要解决的问题。

在现有技术中存在如下技术用于处理上述问题：

在题为“Method，System and Apparatus for Maintaining User Privacy in aKnowledge Interchange System”的欧洲专利EP1638032A3(递交于2005年9月6日)所提出的***中，允许用户定义关键字级别(keyword-level)的隐私策略，即确定某些敏感关键字。包含这些敏感关键字的用户文档信息将不被传送到服务器上供共享，从而达到访问控制及隐私保护的目的。

另外，题为“Uniform Search System and Method for Selectively SharingDistributed Access-Controlled Documents”的美国专利US7409406B2(递交于2003年9月8日)将访问控制的执行权传递给文档所有者(隐私相关人)自己，而不是由搜索服务器来担当。每个文档所有者存储自己的文档(包含隐私文档及非隐私文档)。服务器仅仅保存已做过隐私保护的文档索引。当服务器接受到搜索查询时，根据索引，服务器将查询转发给相关文档所有者，然后由文档所有者自行根据其隐私策略和访问控制策略来响应查询。

还有，题为“Augmenting Privacy Policies with Inference Detection”的美国专利US2009/0144255A1(递交于2007年11月29日)支持用户定义主题级别(topic-level)的隐私策略，即用户可以定义特定的敏感主题，所有涉及敏感主题的文档都应该被判定为隐私文档。敏感主题是用一个或者一组主题关键字来表示的。该专利针对每个隐私策略(敏感主题)，准备一组已经人工判定好的相应敏感文档作为训练文档，然后通过自然语言统计分析(statistical natural language analysis)的方法，从训练文档里面学习新的可以表示该敏感主题的关键字，随和这些新生成的关键字联合用于定义主题的关键字，一起作为用于判定隐私文档的关键字集合。

然而，现有技术存在一些缺陷。在上面介绍的已有工作中，专利EP1638032A3使用关键字级别的隐私策略，这种方法的缺点在于用户很难穷尽隐私相关的关键字，从而导致很难实现可用的隐私保护。专利US7409406B2将访问控制权从搜索服务器转移到文档所有者用以规避服务器的隐私泄露风险，这种方法在很多实际情况中是无法应用的，因为文档所有者或者隐私相关人往往是处于离线状态(比如电子医疗信息***中的病人)，让他们实时的处理访问请求是不合理的。专利US2009/0144255A1实现了对主题级别的隐私策略的支持，克服了专利EP1638032A3的缺点，但是该专利在扩展主题关键字的时候需要为每一个隐私策略准备训练文档，然而训练文档的准备需要人工标注，非常耗时。尤其当有大量文档所有者建立了大量的隐私策略时，而且用户可能在使用过程中变更隐私策略，这种情况下基于训练文档的方法缺乏柔性，在实际应用中是不适用的。

发明内容

本发明是针对上述问题而做出的。

本发明提出了一种新的、全自动的、对文档集合进行主题级别隐私保护的方法和***，该方法利用对文档集合自身进行统计分析、或者使用本体(外部知识源)、或者文档集合和文本的结合，来自动获取敏感主题相关的关键词，这些关键词用于从文档集合中判定隐私文档。另外，利用判定出隐私文档的文档集合，可以实现兼顾主题级别隐私保护的文档搜索。

根据本发明第一方面，提供了一种对文档集合进行主题级别隐私保护的方法，包括：输入文档集合以及主题级别隐私策略，所述隐私策略包括一个或多个需要隐私保护的主题关键词；基于文档集合本身的内部特征扩展主题关键词，以生成一个或多个敏感关键词；以及基于生成的敏感关键词从文档集合中判定隐私文档。

根据本发明第二方面，提供了一种对文档集合进行主题级别隐私保护的方法，包括：输入文档集合以及主题级别隐私策略，所述隐私策略包括一个或多个需要隐私保护的主题关键词；根据外部知识扩展主题关键词，以生成一个或多个敏感关键词；以及基于生成的敏感关键词从文档集合中判定隐私文档。

根据本发明第三方面，提供了一种对文档集合进行主题级别隐私保护的方法，包括：输入文档集合以及主题级别隐私策略，所述隐私策略包括一个或多个需要隐私保护的主题关键词；基于文档集合本身的内部特征扩展主题关键词，以生成第一敏感关键词的集合；根据外部知识扩展主题关键词，以生成第二敏感关键词的集合；根据第二敏感关键词的集合对第一敏感关键词的集合进行修正；根据第一敏感关键词的集合对第二敏感关键词的集合进行补充；将经过修正的第一敏感关键词的集合和经过补充的第二敏感关键词的集合进行合并，以获得最终的敏感关键词的集合；以及基于敏感关键词集合中的敏感关键词从文档集合中判定隐私文档。

根据本发明第四方面，提供了一种对文档集合进行主题级别隐私保护的***，包括：输入装置，用于输入文档集合以及主题级别隐私策略，所述隐私策略包括一个或多个需要隐私保护的主题关键词；敏感关键词生成装置，用于基于文档集合本身的内部特征扩展主题关键词，以生成一个或多个敏感关键词；以及隐私文档判定装置，用于基于生成的敏感关键词从文档集合中判定隐私文档。

根据本发明第五方面，提供了一种对文档集合进行主题级别隐私保护的***，包括：输入装置，用于输入文档集合以及主题级别隐私策略，所述隐私策略包括一个或多个需要隐私保护的主题关键词；外部知识存储器，用于存储外部知识；敏感关键词生成装置，用于根据外部知识扩展主题关键词，以生成一个或多个敏感关键词；以及隐私文档判定装置，用于基于生成的敏感关键词从文档集合中判定隐私文档。

根据本发明第六方面，提供了一种对文档集合进行主题级别隐私保护的***，包括：输入装置，用于输入文档集合以及主题级别隐私策略，所述隐私策略包括一个或多个需要隐私保护的主题关键词；外部知识存储器，用于存储外部知识；第一敏感关键词生成装置，用于基于文档集合本身的内部特征扩展主题关键词，以生成第一敏感关键词的集合；第二敏感关键词生成装置，用于根据外部知识扩展主题关键词，以生成第二敏感关键词的集合；修正装置，用于根据第二敏感关键词的集合对第一敏感关键词的集合进行修正；补充装置，用于根据第一敏感关键词的集合对第二敏感关键词的集合进行补充；合并装置，用于将经过修正的第一敏感关键词的集合和经过补充的第二敏感关键词的集合进行合并，以获得最终的敏感关键词的集合；以及隐私文档判定装置，用于基于敏感关键词集合中的敏感关键词从文档集合中判定隐私文档。

相对于面向关键字级别隐私策略方法，本发明支持主题级别隐私策略，从而实现更加智能、全面的隐私保护。另外，相对于已有面向主题级别的隐私保护方法，本发明由于不需要训练文档，可以使***变得高效柔性和实用，可以同时处理大量隐私策略，并且方便的支持隐私策略的动态变化。

附图说明

结合附图，从下面对本发明实施例的详细描述，将更好地理解本发明，附图中类似的标号指示类似的部分，其中：

图1示出根据本发明的实现了主题级别隐私保护的文档搜索***的内部结构的框图；

图2进一步示出根据本发明的敏感关键词生成装置的内部结构的框图；

图3A示出根据本发明第一实施例的用于对文档集合进行主题级别隐私保护的方法300的流程图；

图3B是用于说明图3A所示方法的工作过程的一个示例的示意图；

图4A示出根据本发明第二实施例的用于对文档集合进行主题级别隐私保护的方法400的流程图；

图4B是用于说明图4A所示方法的工作过程的一个示例的示意图；

图5A示出根据本发明第三实施例的用于对文档集合进行主题级别隐私保护的方法500的流程图；以及

图5B是用于说明图5A所示方法的工作过程的一个示例的示意图。

具体实施方式

图1示出根据本发明的实现了主题级别隐私保护的文档搜索***的内部结构的框图。图1所示***包括主题级别隐私保护设备101、存储设备102和兼顾隐私的文档搜索设备103。主题级别隐私保护设备101包括输入装置1011、敏感关键词生成装置1012和隐私文档判定装置1013。存储设备102包括隐私策略存储单元1021、文档存储单元1022、本体存储单元1023、敏感关键词存储单元1024和隐私文档存储单元1025。

针对存储设备102中所存储的各个单元，它们的功能如下：隐私策略存储单元1021存储文档所有者或者隐私相关人定义的主题级别的隐私策略，即用户可以定义的特定敏感主题。敏感主题可以用一个或一组主题关键字来表示。文档存储单元1022存储文档集合，文档包含有用户ID，标识文档所有者。本体存储单元1023存储本体库，本体库中定义有概念以及概念之间的关系。本体存储单元仅在使用基于本体的敏感词生成(随后将描述的第二实施例)，或者基于混合方法的敏感词生成(随后将描述的第三实施例)时才需要。敏感关键词存储单元1024存储由敏感词生成装置1012生成的敏感关键词，每个敏感关键词对应于相关的隐私主题，即隐私策略。隐私文档存储单元1025存储根据隐私策略和敏感关键词判定出来的包含有隐私信息的文档，即隐私文档。

针对主题级别隐私保护设备101中的各个处理装置，它们的功能如下：输入装置1011输入文档集合以及用户定义的主题级别隐私策略，该主题级别隐私策略可以包括一个或多个需要隐私保护的主题关键词。敏感关键词生成装置1012利用根据本发明的发明，从隐私策略中所包括的主题关键词扩展生成敏感关键词。敏感关键词生成装置1012作为本发明的核心随后将详细描述。本发明分别提出通过对文档集合自身进行统计分析、或者使用本体(外部知识源)、或者基于文档集合和本体的结合来生成敏感关键词的多个实施例。隐私文档判定装置1013根据生成的敏感关键词在文档库中判定包含有隐私信息的文档。例如，可以通过如下方法实现判定：对于一篇文档，如果其所有者定义有隐私策略，该隐私策略相关的敏感关键词如果出现在这篇文档中，这篇文档即被判定为隐私文档，否则为非隐私文档。

对于已标识出隐私文档的文档集合可以执行各种兼顾隐私保护的操作。例如，兼顾隐私的文档搜索设备103可以执行文档搜索，同时满足用户定义的隐私策略。最基本的实现方法是：如果某用户指定了隐私策略限定某个(或者某类)搜索者不能访问某主题文档，那么在这个(或者这类)搜索者搜索的时候，关联于隐私策略的隐私文档将不会在搜索结果中出现。

该发明的核心处理单元即敏感关键词生成装置1012，其面向主题级别的隐私策略，实现自动的(不需要训练文档集的)敏感关键词的生成。图2示出根据本发明的敏感关键词生成装置的内部结构的框图。请注意，图2中省略了图1所示***中与敏感关键词生成没有直接关系的部件。

本发明提供了三种不同的敏感关键词自动生成装置的具体实现，即，基于文档集合的生成单元201(第一实施例)、基于本体的生成单元202(第二实施例)和基于混合方法的生成单元203(第三实施例)。

基于文档集的生成单元201分析文档集合本身的内部特征，并将隐私策略中定义的主题关键词作为敏感关键词的种子词，来扩展生成新的敏感关键词。基于本体的生成单元202利用外部知识——本体定义的概念以及概念之间的关系，同样也是以隐私策略里面定义的主题作为种子，得到扩展的敏感关键词。基于混合方法的生成单元203是通过结合基于文档集合和基于本体的方法，来获得更准确有效的敏感关键词。在图2中，还示出了修正单元204，其用于根据外部知识(例如本体)对已基于文档集合的内部特征所生成的敏感关键词的集合(即，基于文档集的生成单元201的扩展结果)进行修正。在图2中，还示出了补充单元205，其用于利用根据文档集合的内部特征所生成的敏感关键词(基于文档集的生成单元201的扩展结果)对根据外部知识所生成的敏感关键词的集合(基于本体的生成单元202的扩展结果)进行补充。

接下来将参考附图对敏感关键词自动生成的不同实现方法分别做具体的说明解释。

<基于文档集合的内部特征的方法>

图3A示出根据本发明第一实施例的用于对文档集合进行主题级别隐私保护的方法300(基于文档集合的内部特征的方法)的流程图；图3B是用于说明图3A所示方法的工作过程的一个示例的示意图。

基于文档集合的敏感关键词生成使用文本处理的方法对文档集合进行分析，从而挖掘出与敏感主题相关的关键词。

在步骤301中，输入装置1011首先输入文档集合和主题级别的隐私策略，该隐私策略可以是一个或多个需要隐私保护的主题级别关键词。

在步骤302中，基于文档集的生成单元201基于文档集合的内部特征扩展主题关键词，以生成敏感关键词，这可以通过对文档集合进行文本分析来实现。例如，潜在语义分析(Latent Semantic Analysis，LSA)是一种文本分析的实现方法。LSA通过对文档集形成的文档-关键词矩阵进行矩阵奇异值分解，来获得关键词的之间的主题相似性度量。关键词之间越相似，表示他们的主题性越相关。在用户定义的主题级别的隐私策略中，我们把主题的名称作为种子关键词，根据在LSA得到的关键词相似性结果，找出最相似的关键词(可以根据预设的相似值阈值)，然后把种子关键词联合这些最相似的关键词作为对应于该敏感主题的敏感关键词，用于对隐私文档的判定。图3B示出了利用LSA生成敏感关键词的一个实例。

在步骤303中，可选地，修正单元204可以根据外部知识(例如本体)对已生成的敏感关键词的集合进行修正。具体的修正方法随后将描述。

在步骤304中，隐私文档判定装置1013基于生成的敏感关键词(或经修正后的敏感关键词)从文档集合中判定隐私文档。由于隐私文档判定装置1013可以使用已知方法进行操作，这里不作赘述。

然后，过程300结束。

<基于外部本体的方法>

图4A示出根据本发明第二实施例的用于对文档集合进行主题级别隐私保护的方法400(基于外部本体的方法)的流程图；图4B是用于说明图4A所示方法的工作过程的一个示例的示意图。

基于本体的敏感关键词生成，是利用外部知识(本体)来得到对敏感主题的认识。本体是一种形式化的知识表达，本体中定义了领域概念以及概念之间的关系，其中最基本的概念之间的关系即是层次关系，表示其中一个概念是另外一个概念的父概念或者子概念。

在步骤401中，类似于第一实施例，输入装置1011首先输入文档集合和主题级别的隐私策略，该隐私策略可以是一个或多个需要隐私保护的主题级别关键词。

在步骤402中，基于本体的生成单元202根据外部知识(例如本体)扩展主题关键词，以生成敏感关键词集合A1。例如，在执行基本本体的敏感关键词生成时，可以将用户定义的主题级别的隐私策略作为一个种子概念，在本体中找到相匹配的概念，然后获得该种子概念的所有子概念(包含子概念的所有下位概念)。形成的概念集合可以构成对该敏感主题的完整描述。所有这些概念的代表关键词(在本体中即为组成这些概念的名称的关键词，有时本体中也定义有表示相同概念的多个名称，这些名称中的关键词都被选为概念的代表关键词)则形成了对应于该敏感主题的敏感关键词，用于对隐私文档的判定。图4B示出了利用本体生成敏感关键词的一个实例。

步骤403和404是可选步骤，用于利用基于文档集合的内部特征生成的敏感关键字对基于外部本体生成的敏感关键字进行补充。即，补充单元205所实现的功能。具体的补充方法随后将描述。

在步骤405中，类似于第一实施例，隐私文档判定装置1013基于生成的敏感关键词(或经补充后的敏感关键词)从文档集合中判定隐私文档。

然后，过程400结束。

<基于文档集合的内部特征和基于本体的混合方法>

图5A示出根据本发明第三实施例的用于对文档集合进行主题级别隐私保护的方法500(混合方法)的流程图；以及图5B是用于说明图5A所示方法的工作过程的一个示例的示意图。

基于文档集合和基于本体的生成方法各自都有其固有的缺点：基于文档集合的方法(比如LSA方法)通常会引入过多噪声，而使得敏感关键词生成过多，会形成隐私的过保护，从而影响搜索质量；而基于本体的方法依赖于来自外部知识源的本体，本体往往对领域的覆盖不会很全面，因此可能造成某些隐私主题在本体中找不到对应，而实现不了主题关键词的扩展生成，从而影响隐私保护的质量。鉴于此，本发明还提出一种混合方法，将上述两种方法结合使用，可以互相克服对方的缺点，从而得到更好的隐私保护程度以及搜索质量。

如上所述，在本实施例中所提出的修正方法和补充方法可以被分别应用到上述第一和第二实施例，以用于提高搜索质量。

参考图5A，在步骤501中，类似于第一和第二实施例，输入装置1011首先输入文档集合和主题级别的隐私策略，该隐私策略可以是一个或多个需要隐私保护的主题级别关键词。

在步骤502中，基于文档集合的内部特征扩展主题关键词，以生成第一敏感关键词集合A1(例如，使用文本分析LSA)。

在步骤503中，根据外部知识(例如本体)扩展主题关键词，以生成第二敏感关键词集合A2。

在步骤504中，利用集合A2中的敏感关键词对A1进行修正。修正规则例如可以是：如果关键词A′是隐私策略中的主题关键词A经过文档集分析得到的扩展结果，并且同时在本体中，A′表示的概念与A表示的概念没有关联，则从该隐私主题的相关敏感关键词集合中删除掉A′。

在步骤505中，利用集合A1中的敏感关键词对A2进行补充。补充规则例如可以是：如果关键词A′是隐私策略中的主题关键词A经过文档集分析得到的扩展结果，同时A在本体中找不到可以对应的概念，那么可以用关键词A′替代A作为隐私策略中的主题词，在本体中寻找对应概念，从而触发基于本体的敏感词生成过程。

图5B给出了上述修正过程和补充过程的一个实例。显而易见，本发明所提出的上述结果修正方法和补充方法仅仅作为示例，而不是对本发明的限制。本领域技术人员可以设想其他方式来实现两种敏感关键词(基于文档集生成的敏感关键词和基于本体的敏感关键词)的相互修正和补充。

然后，在步骤506中，将修正后的A1’与补充后的A2’合并(联合)，从而将两个集合的并集作为最终用于隐私文档判定的敏感关键词集合。参考图5B实例。

随后，在步骤507中，类似于第一和第二实施例，隐私文档判定装置1013基于生成的敏感关键词从文档集合中判定隐私文档。然后，过程500结束。

上面已经参考附图对根据本发明的用于对文档集合进行主题级别隐私保护的方法和***进行了详细描述。如前所述，本发明的方法能够实现更加智能、全面的隐私保护。相对于已有的面向主题级别的隐私保护方法，本发明由于不需要使用训练文档，可以使***变得高效柔性和实用，可以同时处理大量隐私策略，并且方便的支持隐私策略的动态变化。

但是，需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对已知方法技术的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神之后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明的元素可以实现为硬件、软件、固件或者它们的组合，并且可以用在它们的***、子***、部件或者子部件中。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

本发明可以以其他的具体形式实现，而不脱离其精神和本质特征。例如，特定实施例中所描述的算法可以被修改，而***体系结构并不脱离本发明的基本精神。因此，当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种对文档集合进行主题级别隐私保护的方法，包括：

输入文档集合以及主题级别隐私策略，所述隐私策略包括一个或多个需要隐私保护的主题关键词；

基于所述文档集合本身的内部特征扩展主题关键词，以生成一个或多个敏感关键词；以及

基于生成的所述敏感关键词从所述文档集合中判定隐私文档。

2.如权利要求1所述的方法，其中所述扩展步骤包括：

将所述隐私策略中包含的主题关键词作为种子词，通过对所述文档集合进行文本分析来找到与种子词之间的主题相似度大于一预定阈值的主题相似关键词；并且

将所述主题关键词与它们的主题相似关键词合并，作为所述敏感关键词。

3.如权利要求2所述的方法，其中所述文本分析使用潜在语义分析方法LSA。

4.如权利要求1所述的方法，还包括：

根据外部知识对已基于所述文档集合的内部特征所生成的敏感关键词的集合进行修正。

5.如权利要求4所述的方法，其中所述外部知识是本体。

6.如权利要求5所述的方法，其中所述修正步骤包括：

如果一主题关键词A与其基于所述文档集合的内部特征所生成的敏感关键词A’在所述本体上被确定为没有关联，则从敏感关键词的集合中删除该敏感关键词A’。

7.一种对文档集合进行主题级别隐私保护的方法，包括：

根据外部知识扩展主题关键词，以生成一个或多个敏感关键词；以及

8.如权利要求7所述的方法，其中所述外部知识是本体。

9.如权利要求8所述的方法，其中所述扩展步骤包括：

将所述隐私策略作为种子概念，在所述本体中找到所述种子概念的所有子概念；并且

将所述子概念的代表关键词与所述主题关键词合并，作为所述敏感关键词。

10.如权利要求9所述的方法，其中找到的所述子概念还包括孙子及所有下位概念。

11.如权利要求9所述的方法，其中所述代表关键词是组成表示所述子概念的一个或多个名称的关键词。

12.如权利要求8所述的方法，还包括：

基于所述文档集合本身的内部特征来扩展所述主题关键词以生成敏感关键词；

利用根据所述文档集合的内部特征所生成的敏感关键词对根据所述外部本体所生成的敏感关键词的集合进行补充。

13.如权利要求12所述的方法，其中所述补充步骤包括：

如果一主题关键词A在所述外部本体中找不到相应概念，则将其基于所述文档集合的内部特征所生成的敏感关键词A’作为种子概念在所述外部本体中寻找敏感关键词。

14.一种对文档集合进行主题级别隐私保护的方法，包括：

基于所述文档集合本身的内部特征扩展主题关键词，以生成第一敏感关键词的集合；

根据外部知识扩展主题关键词，以生成第二敏感关键词的集合；

根据所述第二敏感关键词的集合对所述第一敏感关键词的集合进行修正；

根据所述第一敏感关键词的集合对所述第二敏感关键词的集合进行补充；

将经过修正的所述第一敏感关键词的集合和经过补充的所述第二敏感关键词的集合进行合并，以获得最终的敏感关键词的集合；以及

基于所述敏感关键词集合中的敏感关键词从文档集合中判定隐私文档。

15.一种对文档集合进行主题级别隐私保护的***，包括：

输入装置，用于输入文档集合以及主题级别隐私策略，所述隐私策略包括一个或多个需要隐私保护的主题关键词；

敏感关键词生成装置，用于基于所述文档集合本身的内部特征扩展主题关键词，以生成一个或多个敏感关键词；以及

隐私文档判定装置，用于基于生成的所述敏感关键词从所述文档集合中判定隐私文档。

16.如权利要求15所述的***，还包括：

兼顾隐私的文档搜索装置，用于对已标注出隐私文档的所述文档集合执行兼顾隐私保护的文档搜索。

17.如权利要求15所述的***，还包括：

外部知识存储器，用于存储外部知识；

修正装置，用于根据所述外部知识对所述敏感关键词生成装置已基于所述文档集合的内部特征所生成的敏感关键词的集合进行修正。

18.一种对文档集合进行主题级别隐私保护的***，包括：

外部知识存储器，用于存储外部知识；

第一敏感关键词生成装置，用于根据所述外部知识扩展主题关键词，以生成一个或多个敏感关键词；以及

19.如权利要求18所述的***，还包括：

第二敏感关键词生成装置，用于基于所述文档集合本身的内部特征来扩展所述主题关键词以生成敏感关键词；

补充装置，用于利用所述第二敏感关键词生成装置根据所述文档集合的内部特征所生成的敏感关键词对所述第一敏感关键词生成装置根据所述外部知识所生成的敏感关键词的集合进行补充。

20.一种对文档集合进行主题级别隐私保护的***，包括：

外部知识存储器，用于存储外部知识；

第一敏感关键词生成装置，用于基于所述文档集合本身的内部特征扩展主题关键词，以生成第一敏感关键词的集合；

第二敏感关键词生成装置，用于根据外部知识扩展主题关键词，以生成第二敏感关键词的集合；

修正装置，用于根据所述第二敏感关键词的集合对所述第一敏感关键词的集合进行修正；

补充装置，用于根据所述第一敏感关键词的集合对所述第二敏感关键词的集合进行补充；

合并装置，用于将经过修正的所述第一敏感关键词的集合和经过补充的所述第二敏感关键词的集合进行合并，以获得最终的敏感关键词的集合；以及

隐私文档判定装置，用于基于所述敏感关键词集合中的敏感关键词从文档集合中判定隐私文档。