CN112100670A - 一种基于大数据的隐私数据分级保护方法 - Google Patents
一种基于大数据的隐私数据分级保护方法 Download PDFInfo
- Publication number
- CN112100670A CN112100670A CN202011018209.2A CN202011018209A CN112100670A CN 112100670 A CN112100670 A CN 112100670A CN 202011018209 A CN202011018209 A CN 202011018209A CN 112100670 A CN112100670 A CN 112100670A
- Authority
- CN
- China
- Prior art keywords
- keywords
- data
- frequency
- privacy
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于大数据的隐私数据分级保护方法,包括以下步骤:1)获取关键词,设定隐私程度等级;将获取的关键词按照隐私程度分为不同的等级,每个隐私程度等级下有若干个关键词,为每一个关键词建立一个存储目录;2)选取其中一个隐私程度等级内的其中一个关键词对数据库进行检索,将使用此关键词搜索到的数据归类到此关键词的存储目录下;3)重复步骤2)的操作,直至遍历步骤2)选取隐私程度等级内的全部关键词。本申请的技术方案以隐私数据中的高频词作为关键词并计算关键词的敏感度值,以敏感度值作为隐私数据的分级标准,使得隐私数据的分级有一个定量的标准,使得隐私数据的分级准确,方便对隐私数据进行保护。
Description
技术领域
本发明涉及一种基于大数据的隐私数据分级保护方法,属于数据库领域。
背景技术
互联网、云计算、大数据等信息技术的蓬勃发展,催生了许多开放互联的信息网络(Information Network)。在这些信息网络中,用户数据往往分散存储在网络中多个服务提供者(Service Provider,简称:SP)中,如在医疗信息网络中,患者的病历信息往往存储在多家医院。通过分布式查询处理,对分散在各个SP的数据进行汇聚、关联与分析,不仅是用户自身的直接需求,更是挖掘数据价值、便捷公共管理、推动社会发展的必然需求。但是,这些数据往往包含大量隐私信息(private information),简单地将这些数据汇聚、关联、分析并进行公开,会导致隐私泄露,引发严重的社会问题与安全问题。因此,隐私数据的保护越来越受到人们重视,而基于大数据的隐私数据的分类分级技术是隐私保护的关键技术之一。
大数据具有海量的数据规模、多样的数据类型和价值密度低的特点,所以对于大数据中的隐私数据,难以用人工分级、人工复核的方式进行,并且用户对于隐私数据的兴趣敏感度也难以通过人工方式进行查询统计,造成了大数据中的隐私数据的分级调整困难。
发明内容
针对现有技术存在的不足,本发明提供一种基于大数据的隐私数据分级保护方法,以隐私数据中的高频词作为关键词并计算关键词的敏感度值,以敏感度值作为隐私数据的分级标准,使得隐私数据的分级有一个定量的标准,使得隐私数据的分级准确,方便对隐私数据进行保护。
为解决上述技术问题,本发明采取的技术方案是,一种基于大数据的隐私数据分级保护方法,包括以下步骤:
1)获取关键词,设定隐私程度等级;将获取的关键词按照隐私程度分为不同的等级,每个隐私程度等级下有若干个关键词,为每一个关键词建立一个存储目录;
2)选取其中一个隐私程度等级内的其中一个关键词对数据库进行检索,将使用此关键词搜索到的数据归类到此关键词的存储目录下;
3)重复步骤2)的操作,直至遍历步骤2)选取隐私程度等级内的全部关键词;
4)重复步骤2)至步骤3)的操作,直至遍历全部隐私程度等级;
5)对隐私程度等级高的关键词的存储目录内存储的数据进行加密。
优化的,上述基于大数据的隐私数据分级保护方法,在步骤1)中,获取关键词的方法为:搜索数据库内待处理的隐私数据,提取数据库内待处理的隐私数据中的高频词,将提取的高频词作为高频词集合。
优化的,上述基于大数据的隐私数据分级保护方法,在步骤1)中,将获取的关键词按照隐私程度分为不同的等级的步骤包括:
1-1)遍历高频词集合中的全部高频词,计算高频词集合中任意两个高频词之间的相似度;
1-2)设置相似度阈值,将相似度处于相似度阈值内的两个高频词归于同一个关键词内,以此获得全部关键词;
1-3)通过数据库服务器获取外部服务器访问每个关键词的访问频次;
1-4)依据关键词的访问频次,计算包含此关键词的数据的访问信任度;
1-5)计算步骤1-2)获得的全部关键词中任意两个关键词之间的相似度,建立邻近关系矩阵;
1-6)通过关键词邻近关系矩阵,得到关键词在邻近关系矩阵内受到相邻关键词的影响关系,获得关键词在邻近关系矩阵内的特征向量;
1-7)建立关键词的敏感度查询函数,计算关键词的敏感度值;
1-8)以关键词的敏感度值为标准,判断关键词的隐私度,并将全部关键词分为不同的隐私等级。
优化的,上述基于大数据的隐私数据分级保护方法,在步骤1-1)中,计算高频词集合中任意两个高频词之间的相似度时,包括以下步骤:
1-1-1)分别找出两个高频词所在的数据;
1-1-2)计算两个高频词在其所在数据中的词频,分别生成两个高频词所在的数据的词频向量;
1-1-3)计算两个高频词的词频向量的余弦相似度;
在步骤1-2)中,将步骤1-1-3)中计算的高频词的词频向量的余弦相似度数值作为两个高频词的相似度。
优化的,上述基于大数据的隐私数据分级保护方法,步骤1-4)中,依据关键词的访问频次,计算包含此关键词的数据的访问信任度;将访问信任度表示为:αFu,i+1>0是一个关于Fu,i的单调递增函数,Fu,i为关键词i的被访问频次,Wu,i为关键词i 的访问信任度。
优化的,上述基于大数据的隐私数据分级保护方法,步骤1-5)中,步骤1-2)获得的全部关键词中任意两个关键词之间的相似度的过程包括:
找到包含这两个关键词的数据,计算这两个关键词在包含这两个关键词的数据中的词频,分别生成包含这两个关键词的数据的词频向量;
计算包含这两个关键词的数据的词频向量的余弦相似度,以包含这两个关键词的数据的词频向量的余弦相似度作为这两个关键词的相似度;
以上述步骤计算出的关键词的相似度为基础,以相似度高的两个关键词为两个相邻元,建立邻近关系矩阵。
优化的,上述基于大数据的隐私数据分级保护方法,在步骤1-6)中,关键词在邻近关系矩阵内的特征向量表示为:其中,是邻近关系矩阵内所有关键词的相似度的归一化值,L(i)表示关系矩阵内关键词i相邻的关键词的集合,sim(i,j)表示关键词i和关键词j的相似度,表示关键词i的特征向量。
优化的,上述基于大数据的隐私数据分级保护方法,步骤1-7)中,敏感度查询函数表示为:其中,为关键词i的第n个高频词的敏感度函数,关键词i为包括n个高频词的数集,n和n-1为关键词i中的两个高频词,f(n)为高频词n想关于关键词i的一个单调递增函数。
本发明的优点在于:
本申请的技术方案中,以隐私数据中的高频词作为关键词并计算关键词的敏感度值,以敏感度值作为隐私数据的分级标准,使得隐私数据的分级有一个定量的标准,使得隐私数据的分级准确,方便对隐私数据进行保护。
由于相似度高的高频词对应的一般为相同类型的隐私数据,本申请中通过计算高频词的词频向量的余弦相似度判定高频词之间的相似度,将相似度高的高频词作为一个集合归于同一个关键词之下,通过关键词对隐私数据分级时,可以使得隐私数据的分级更加精确,并且能够降低使用关键词进行隐私数据分级时的计算量。
访问信任度反映了与关键词对应的隐私数据的兴趣敏感度,方便对关键词产生的兴趣敏感度进行测量。
通过建立关键词的邻近关系矩阵获得关键词的特征向量,进而通过关键词的敏感度查询函数计算出关键词的敏感度,通过关键词的敏感度作为包含关键词的数据的隐私度等级的特征值,使得包含关键词的数据的隐私程度和隐私等级有一个数值标准。
本申请通过关键词作为隐私数据隐私等级的评定标志,与直接对隐私数据进行分级相比,通过关键词作为隐私数据隐私等级的评定标志,可以降低计算量,并且能够达到较好的分级精度。
附图说明
图1是本发明的基于大数据的隐私数据分级保护方法的流程框图。
具体实施方式
下面结合附图与具体实施例进一步阐述本发明的技术特点。
本发明为一种基于大数据的隐私数据分级保护方法,包括以下步骤:
1)获取关键词,设定隐私程度等级;将获取的关键词按照隐私程度分为不同的等级,每个隐私程度等级下有若干个关键词,为每一个关键词建立一个存储目录;
2)选取其中一个隐私程度等级内的其中一个关键词对数据库进行检索,将使用此关键词搜索到的数据归类到此关键词的存储目录下;
3)重复步骤2)的操作,直至遍历步骤2)选取隐私程度等级内的全部关键词;
4)重复步骤2)至步骤3)的操作,直至遍历全部隐私程度等级;
5)对隐私程度等级高的关键词的存储目录内存储的数据进行加密。
在步骤1)中,获取关键词的方法为:搜索数据库内待处理的隐私数据,提取数据库内待处理的隐私数据中的高频词,将提取的高频词作为高频词集合。
在步骤1)中,将获取的关键词按照隐私程度分为不同的等级的步骤包括:
1-1)遍历高频词集合中的全部高频词,计算高频词集合中任意两个高频词之间的相似度;
1-2)设置相似度阈值,将相似度处于相似度阈值内的两个高频词归于同一个关键词内,以此获得全部关键词;
1-3)通过数据库服务器获取外部服务器访问每个关键词的访问频次;
1-4)依据关键词的访问频次,计算包含此关键词的数据的访问信任度;
1-5)计算步骤1-2)获得的全部关键词中任意两个关键词之间的相似度,建立邻近关系矩阵;
1-6)通过关键词邻近关系矩阵,得到关键词在邻近关系矩阵内受到相邻关键词的影响关系,获得关键词在邻近关系矩阵内的特征向量;
1-7)建立关键词的敏感度查询函数,计算关键词的敏感度值;
1-8)以关键词的敏感度值为标准,判断关键词的隐私度,并将全部关键词分为不同的隐私等级。
在步骤1-1)中,计算高频词集合中任意两个高频词之间的相似度时,包括以下步骤:
1-1-1)分别找出两个高频词所在的数据;
1-1-2)计算两个高频词在其所在数据中的词频,分别生成两个高频词所在的数据的词频向量;
1-1-3)计算两个高频词的词频向量的余弦相似度;
在步骤1-2)中,将步骤1-1-3)中计算的高频词的词频向量的余弦相似度数值作为两个高频词的相似度。
步骤1-4)中,依据关键词的访问频次,计算包含此关键词的数据的访问信任度;将访问信任度表示为:αFu,i+1>0是一个关于Fu,i的单调递增函数,Fu,i为关键词i的被访问频次,Wu,i为关键词i的访问信任度。
步骤1-5)中,步骤1-2)获得的全部关键词中任意两个关键词之间的相似度的过程包括:
找到包含这两个关键词的数据,计算这两个关键词在包含这两个关键词的数据中的词频,分别生成包含这两个关键词的数据的词频向量;
计算包含这两个关键词的数据的词频向量的余弦相似度,以包含这两个关键词的数据的词频向量的余弦相似度作为这两个关键词的相似度;
以上述步骤计算出的关键词的相似度为基础,以相似度高的两个关键词为两个相邻元,建立邻近关系矩阵。
在步骤1-6)中,关键词在邻近关系矩阵内的特征向量表示为:其中,是邻近关系矩阵内所有关键词的相似度的归一化值,L(i)表示关系矩阵内关键词i相邻的关键词的集合,sim(i,j)表示关键词i和关键词j的相似度,表示关键词i的特征向量。
步骤1-7)中,敏感度查询函数表示为: 其中,为关键词i的第n个高频词的敏感度函数,关键词i为包括n个高频词的数集,n和n-1为关键词i中的两个高频词,f(n)为高频词n想关于关键词i的一个单调递增函数。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,作出的变化、改型、添加或替换,都应属于本发明的保护范围。
Claims (8)
1.一种基于大数据的隐私数据分级保护方法,其特征在于:包括以下步骤:
1)获取关键词,设定隐私程度等级;将获取的关键词按照隐私程度分为不同的等级,每个隐私程度等级下有若干个关键词,为每一个关键词建立一个存储目录;
2)选取其中一个隐私程度等级内的其中一个关键词对数据库进行检索,将使用此关键词搜索到的数据归类到此关键词的存储目录下;
3)重复步骤2)的操作,直至遍历步骤2)选取隐私程度等级内的全部关键词;
4)重复步骤2)至步骤3)的操作,直至遍历全部隐私程度等级;
5)对隐私程度等级高的关键词的存储目录内存储的数据进行加密。
2.根据权利要求1所述的基于大数据的隐私数据分级保护方法,其特征在于:在步骤1)中,获取关键词的方法为:搜索数据库内待处理的隐私数据,提取数据库内待处理的隐私数据中的高频词,将提取的高频词作为高频词集合。
3.根据权利要求2所述的基于大数据的隐私数据分级保护方法,其特征在于:在步骤1)中,将获取的关键词按照隐私程度分为不同的等级的步骤包括:
1-1)遍历高频词集合中的全部高频词,计算高频词集合中任意两个高频词之间的相似度;
1-2)设置相似度阈值,将相似度处于相似度阈值内的两个高频词归于同一个关键词内,以此获得全部关键词;
1-3)通过数据库服务器获取外部服务器访问每个关键词的访问频次;
1-4)依据关键词的访问频次,计算包含此关键词的数据的访问信任度;
1-5)计算步骤1-2)获得的全部关键词中任意两个关键词之间的相似度,建立邻近关系矩阵;
1-6)通过关键词邻近关系矩阵,得到关键词在邻近关系矩阵内受到相邻关键词的影响关系,获得关键词在邻近关系矩阵内的特征向量;
1-7)建立关键词的敏感度查询函数,计算关键词的敏感度值;
1-8)以关键词的敏感度值为标准,判断关键词的隐私度,并将全部关键词分为不同的隐私等级。
4.根据权利要求3所述的基于大数据的隐私数据分级保护方法,其特征在于:在步骤1-1)中,计算高频词集合中任意两个高频词之间的相似度时,包括以下步骤:
1-1-1)分别找出两个高频词所在的数据;
1-1-2)计算两个高频词在其所在数据中的词频,分别生成两个高频词所在的数据的词频向量;
1-1-3)计算两个高频词的词频向量的余弦相似度;
在步骤1-2)中,将步骤1-1-3)中计算的高频词的词频向量的余弦相似度数值作为两个高频词的相似度。
6.根据权利要求3所述的基于大数据的隐私数据分级保护方法,其特征在于:步骤1-5)中,步骤1-2)获得的全部关键词中任意两个关键词之间的相似度的过程包括:
找到包含这两个关键词的数据,计算这两个关键词在包含这两个关键词的数据中的词频,分别生成包含这两个关键词的数据的词频向量;
计算包含这两个关键词的数据的词频向量的余弦相似度,以包含这两个关键词的数据的词频向量的余弦相似度作为这两个关键词的相似度;
以上述步骤计算出的关键词的相似度为基础,以相似度高的两个关键词为两个相邻元,建立邻近关系矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011018209.2A CN112100670A (zh) | 2020-09-24 | 2020-09-24 | 一种基于大数据的隐私数据分级保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011018209.2A CN112100670A (zh) | 2020-09-24 | 2020-09-24 | 一种基于大数据的隐私数据分级保护方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112100670A true CN112100670A (zh) | 2020-12-18 |
Family
ID=73755376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011018209.2A Pending CN112100670A (zh) | 2020-09-24 | 2020-09-24 | 一种基于大数据的隐私数据分级保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100670A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112995216A (zh) * | 2021-04-29 | 2021-06-18 | 湖南三湘银行股份有限公司 | 一种网上金融信息的安全处理器 |
-
2020
- 2020-09-24 CN CN202011018209.2A patent/CN112100670A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112995216A (zh) * | 2021-04-29 | 2021-06-18 | 湖南三湘银行股份有限公司 | 一种网上金融信息的安全处理器 |
CN112995216B (zh) * | 2021-04-29 | 2021-08-10 | 湖南三湘银行股份有限公司 | 一种网上金融信息的安全处理器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107577688B (zh) | 基于媒体信息采集的原创文章影响力分析*** | |
CN110162695B (zh) | 一种信息推送的方法及设备 | |
CN106033416B (zh) | 一种字符串处理方法及装置 | |
JP5092165B2 (ja) | データ構築方法とシステム | |
JP2013504118A (ja) | クエリのセマンティックパターンに基づく情報検索 | |
JP2008541228A (ja) | 意味的に関係する検索エンジンクエリを見つける方法 | |
CN107180093A (zh) | 信息搜索方法及装置和时效性查询词识别方法及装置 | |
CN111324801B (zh) | 基于热点词的司法领域热点事件发现方法 | |
CN111159413A (zh) | 日志聚类方法、装置、设备及存储介质 | |
CN105512300B (zh) | 信息过滤方法及*** | |
EP3301603A1 (en) | Improved search for data loss prevention | |
CN109902129B (zh) | 基于大数据分析的保险代理人归类方法及相关设备 | |
Prasad et al. | An effective assessment of cluster tendency through sampling based multi-viewpoints visual method | |
Saad et al. | Efficient skyline computation on uncertain dimensions | |
CN112100670A (zh) | 一种基于大数据的隐私数据分级保护方法 | |
CN105512270B (zh) | 一种确定相关对象的方法和装置 | |
CN115051863A (zh) | 异常流量检测的方法、装置、电子设备及可读存储介质 | |
Sanjana | Ad service detection-a comparative study using machine learning techniques | |
CN111191126B (zh) | 一种基于关键词的科技成果精准推送方法及装置 | |
CN112131215B (zh) | 自底向上的数据库信息获取方法及装置 | |
TWI484359B (zh) | 文章資訊提供方法以及系統 | |
CN114385436A (zh) | 服务器分组方法、装置、电子设备和存储介质 | |
CN112187768B (zh) | 不良信息网站的检测方法、装置、设备及可读存储介质 | |
CN111198850A (zh) | 一种日志消息的处理方法、装置以及物联网平台 | |
CN110633430A (zh) | 事件发现方法、装置、设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |