CN107633017A

CN107633017A - 一种中文关键词的模糊集构造方法

Info

Publication number: CN107633017A
Application number: CN201710729995.9A
Authority: CN
Inventors: 张亚玲; 周时
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2017-08-23
Filing date: 2017-08-23
Publication date: 2018-01-26

Abstract

本发明公开了一种中文关键词的模糊集构造方法，首先将输入的中文关键词拼音化处理，然后将得到的拼音进行分词处理得到特定格式的拼音，其次根据中文编辑距离的定义对得到的结果进行声母、韵母、声调的替换，输出模糊集合，最后拼音合法性检查后输出合法模糊集，其中，中文编辑距离的定义：一个拼音的声母或韵母发生变化，则取编辑距离值为2；音调的变化而造成的差异应该小于1，根据给定的编辑距离和改进拼音的编辑距离的定义确定声母、韵母或者声调可能变化的组合，根据不同的变化组合进行声母、韵母或者声调的替换，产生模糊集合，本发明解决了现有技术中的存在的中文模糊集构造方法对空间和时间的消耗较高、且模糊集本身占空间较大的问题。

Description

一种中文关键词的模糊集构造方法

技术领域

本发明属于信息安全技术领域，具体涉及一种中文关键词的模糊集构造方法。

背景技术

随着云计算的兴起，云端存储的数据量也逐渐增多。越来越多的用户选择把数据存储在云端，这样可以使得开销管理最小化的同时存取效率最大化。事实上，用户和云服务是在不同的可信域里，由于数据的外包可能会存在风险，所以人们逐渐开始关注云存储的安全问题。

保证存储数据的机密性、可用性以及完整性是云存储需解决的安全问题。数据机密性是指假如没有授权是不能对数据进行解密的；数据可用性是指合法用户想用数据时可以随时使用；数据完整性是指数据在进行传输和存储时没有被篡改。企业或者个人把自己的私人数据存在云端时，可能会担心攻击者会非法访问所存储的数据。一般情况下，云服务器会通过访问控制或身份认证等方式来防止非法用户访问云服务器。但是对于公有云服务器而言，其本身的不可信就是最大的威胁。因此，越来越多的企业或者用户在外包数据时需要对数据进行加密来防止数据被非法访问或被云服务获取信息。但是数据在加密后，使得搜索变得很困难。

在对加密的文档搜索时，如果先下载云端的全部加密数据到本地进行解密，然后再搜索查询，这样会使效率非常低且需要消耗巨大的带宽。如果是在本地建立并维护一个复杂的索引结构，用户可以查询到相关密文数据块，但将会消耗大量的存储资源，且数据的共享也会变的很复杂，所以得采用更加合理的搜索方案。可搜索加密方案的提出可以有效的解决此问题，它是指数据拥有者将数据加密并存储到不可信的云端，用户给云服务器提交关键词陷门作为搜索请求，云服务器可以在不获取相关明文数据信息的前提下，搜索出包含有此关键词的搜索结果返回给用户。可搜索加密方案的安全性定义包含三条性质：关键词陷门必须由其拥有者的密钥生成；密文是不能暴露明文信息的；在给定密文和关键词陷门后仅能获得相对应的搜索结果。可搜索加密技术可以提高计算效率并降低开销，所以它有着良好的发展前景。

对于解决加密文档的搜索问题，可搜索加密方案是一个比较好的解决方法。可搜索加密有两种经典的方法：一种是基于密文扫描的方法，通过对加密文档中的关键词进行比对，确认关键词是否存在以及关键词出现的次数；另一种是基于索引方法，构建含有加密关键词的安全索引，可以搜索索引查询判断是否含有特定的关键词信息。

可搜索加密研究已经取得了比较***的成果。目前，很多研究都是针对英文关键词的搜索，在中文环境下并不完全适用。例如，一个中文关键词有很多同义词或拼音相似的词等，这将给中文关键词可搜索加密带来新的问题。目前国内外在中文关键词可搜索加密，尤其是针对中文的模糊集构造方法方面的研究较少。

发明内容

本发明的目的是提供一种中文关键词的模糊集构造方法，解决了现有技术中存在的模糊集构造方法对空间和时间的消耗较高、且模糊集本身占空间较大的问题。

本发明所采用的技术方案是，一种中文关键词的模糊集构造方法，具体按照以下步骤实施：

步骤1、将输入的中文关键词拼音化处理；

步骤2、将步骤1得到的拼音进行分词处理得到特定格式的拼音；

步骤3、根据中文编辑距离的定义对步骤2得到的结果进行声母、韵母、声调的替换，输出模糊集合；

步骤4、拼音合法性检查；

步骤5、输出合法模糊集。

本发明的特点还在于，

步骤1具体为：

将输入的关键词通过拼音转化得到对应的拼音结构，包含声母、韵母和声调。

步骤2具体为：

步骤(2.1)、对拼音进行声母、韵母和声调的判断；

步骤(2.2)、用“-”依次隔开所述步骤(2.1)中关键词拼音的声母、韵母和声调；

步骤(2.3)、输出经步骤(2.2)后特定格式的拼音。

步骤3具体为：

步骤(3.1)、中文编辑距离的定义：一个拼音的声母或韵母发生变化，则取编辑距离值为2；音调的变化而造成的差异应该小于1；

步骤(3.2)、根据给定的编辑距离和改进拼音的编辑距离的定义确定声母、韵母或者声调可能变化的组合；

步骤(3.3)、根据不同的变化组合进行声母、韵母或者声调的替换；

步骤(3.4)、输出模糊集合。

步骤4具体按照以下步骤实施：

步骤(4.1)、提取步骤3中输出的模糊集合中的每个元素；

步骤(4.2)、对每个元素提取出声母，然后根据声母的拼音字典判断该元素是否存在于该字典当中，如果该元素包含多个声母即有多组拼音，则应对该多组拼音进行判断是否存在于字典中，当该多组拼音全都存在字典中则说明该元素合法，保留该元素，当有一组拼音不存在字典中，则舍弃该元素。

本发明的有益效果是，一种中文关键词的模糊集构造方法首先根据初始化形成的拼音字典，针对输入的中文关键词进行拼音化处理以及分词处理，最后根据编辑距离的计算规则得到模糊集，并对模糊集进行合法性检查，得到最终的模糊集。

附图说明

图1是本发明一种中文关键词的模糊集构造方法可搜索加密场景的示意图；

图2是本发明一种中文关键词的模糊集构造方法仿真实验中汉字转化为拼音所消耗的时间与关键词数量的关系图；

图3是本发明一种中文关键词的模糊集构造方法仿真实验中编辑距离分别为d＝1和d＝2的情况下时间消耗情况图；

图4是本发明一种中文关键词的模糊集构造方法仿真实验中编辑距离分别为d＝1和d＝2的情况下空间消耗情况图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种中文关键词的模糊集构造方法，如图1所示，数据拥有者首先从文件中提取关键词集，然后将文件和关键词集关联加密上传公有云服务器，接着将关键词集上传私有云服务器；私有云服务器收到数据拥有者上传的关键词集，首先通过本发明的方法生成模糊集，接着根据模糊集生成加密搜索索引，上传搜索索引到公有云服务器；收到用户上传的关键词和编辑距离后，同样使用本发明的方法生成模糊集，再向公有云服务器请求搜索；公有云服务器收到搜索请求后，通过搜索索引将符合条件的结果返回给私有云服务器；授权用户收到私有云服务器返回的搜索结果，向公有云服务器请求下载文件，公有云服务器返回加密文件，用户再解密获得明文。

具体按照以下步骤实施：

步骤1、将输入的中文关键词拼音化处理，具体为：

将输入的关键词通过拼音转化得到对应的拼音结构，包含声母、韵母和声调；

步骤2、将步骤1得到的拼音进行分词处理得到特定格式的拼音，具体为：

步骤(2.1)、对拼音进行声母、韵母和声调的判断；

步骤(2.3)、输出经步骤(2.2)后特定格式的拼音；

步骤3、根据中文编辑距离的定义对步骤2得到的结果进行声母、韵母、声调的替换，输出模糊集合，具体为：

步骤(3.1)、中文编辑距离的定义：在将中文转化为拼音的时候，中文的多音字也是造成错误的一个原因，其之间的差异应该小于1(本文仿真实验中取值为1的替换代价)，对于发音相似的韵母或声母之间差异取值应该是小于1的，对于这种差异本文仿真实验中取值为1的替换代价，这样的声母和韵母对一共有12对(取于不同主流的输入法词库)，一个拼音的声母或韵母发生变化，则取编辑距离值为2；因为由于音调造成的错误是普遍存在的，而且在大多数的拼音输入法中是不需要用户在输入拼音的同时还需输入音调的，所以在本文中将音调的差异按发音相似规则处理，同样在本文的仿真实验中取值为1的替换代价，音调的变化而造成的差异应该小于1；

步骤(3.4)、输出模糊集合；

步骤4、拼音合法性检查，具体按照以下步骤实施：

步骤(4.1)、提取步骤3中输出的模糊集合中的每个元素；

步骤(4.2)、对每个元素提取出声母，然后根据声母的拼音字典判断该元素是否存在于该字典当中，如果该元素包含多个声母即有多组拼音，则应对该多组拼音进行判断是否存在于字典中，当该多组拼音全都存在字典中则说明该元素合法，保留该元素，当有一组拼音不存在字典中，则舍弃该元素；

步骤5、输出合法模糊集。

本发明一种中文关键词的模糊集构造方法，是通过对中文特性的分析，并考虑了对关键词进行拼音化处理，之后进行拼音分词处理，根据基于拼音的编辑距离规则进行模糊集构造，在进行模糊集构造的同时需要检查所构拼音的合法性，仅当所构造的拼音串合法时方可添加到模糊集中，从理论上看，本发明是可行的。

为了验证本发明的中文关键词模糊集构造方法的可行，通过仿真实验对所给出的中文关键词模糊集构造方法进行分析，实验中使用的数据来源于搜狗实验室中的新闻数据，提取每条新闻的标题为关键词，共提取出4336条关键词，每条关键词平均有10个汉字，实验在Windows 7操作***，4G内存，Intel Core i5处理器的电脑上进行仿真。仿真实验主要分析了以下几个方面：1)汉字转化为拼音的时间开销；2)在编辑距离不同情况下本发明的方法构建模糊集的时间开销；3)在不同编辑距离情况下本发明的方法构建模糊集的空间开销。

图2分析了对中文汉字预处理为拼音所需消耗的时间，在本文基于中文关键词模糊集构造方法中，需要对中文关键词做预处理得到其对应的拼音格式，从图2中可以看出，汉字转化为拼音所消耗的时间随着关键词数量的增加呈线性增长关系。

图3为编辑距离分别为d＝1和d＝2的情况下，本发明的方法的时间消耗情况。

图4为编辑距离分别为d＝1和d＝2的情况下，本发明的方法的空间消耗情况。

测试结果表明，本发明一种中文关键词的模糊集构造方法在关键词数量达到实用级别时，仍然可以有较好的时空效率。

实施例

作为本发明一种中文关键词的模糊集构造方法的一个具体应用，这里给定输入关键词“中国”，编辑距离为1：

步骤1、将中文进行拼音化处理得到“zhong1guo2”，其中{1，2，3，4}代表声调{阴平、阳平、上声、去声}；

步骤2、进行拼音分词处理得到“zh-ong-1-g-uo-2”格式的拼音，目的是为了方便后面根据编辑距离处理关键词；

步骤3、通过上述的编辑距离的计算规则得到可以变化的组合有：1)变化相似音；2)变化声调，对可能的变化替换可以得到模糊集{zhong2guo2,zhong3guo2,zhong4guo2,zhong1guo1,zhong1guo3,zhong1guo4,zong1guo2}；

步骤4、拼音合法性检查：

对步骤3中的第一个元素{zhong2guo2}提取声母{zh，g}，根据拼音字典判断{zhong2}和{guo2}是否存在，明显两个都存在，则保留该元素；对步骤3中得到的模糊集中的后续元素依次采用此方法进行合法性检查；

步骤5、输出最终合法的模糊集：{zhong2guo2,zhong3guo2,zhong4guo2,

zhong1guo1,zhong1guo3,zhong1guo4,zong1guo2}。

本发明一种中文关键词的模糊集构造方法，给出了云存储环境下的面向中文的可搜索加密方案中的关键词模糊集的建立方法，与可搜索加密方案结合即可形成完整的中文可搜索加密方案。

Claims

1.一种中文关键词的模糊集构造方法，其特征在于，具体按照以下步骤实施：

步骤1、将输入的中文关键词拼音化处理；

步骤4、拼音合法性检查；

步骤5、输出合法模糊集。

2.根据权利要求1所述的一种中文关键词的模糊集构造方法，其特征在于，所述步骤1具体为：

3.根据权利要求1所述的一种中文关键词的模糊集构造方法，其特征在于，所述步骤2具体为：

步骤(2.1)、对拼音进行声母、韵母和声调的判断；

步骤(2.3)、输出经步骤(2.2)后特定格式的拼音。

4.根据权利要求1所述的一种中文关键词的模糊集构造方法，其特征在于，所述步骤3具体为：

步骤(3.4)、输出模糊集合。

5.根据权利要求1所述的一种中文关键词的模糊集构造方法，其特征在于，所述步骤4具体按照以下步骤实施：

步骤(4.1)、提取步骤3中输出的模糊集合中的每个元素；