CN115713249A

CN115713249A - 基于数据安全与隐私保护的政务满意度评价***及方法

Info

Publication number: CN115713249A
Application number: CN202211235305.1A
Authority: CN
Inventors: 卢清华; 李梦园; 李方伟
Original assignee: Chongqing Yitong College
Current assignee: Chongqing Yitong College
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2023-02-24
Anticipated expiration: 2042-10-10
Also published as: CN115713249B

Abstract

本发明请求保护一种基于机器学***公开性。数据评分模块利用机器学习中的CatBoost算法完成模型训练，建立科学的政务满意度评分模型，完成相关数据评分工作。

Description

基于数据安全与隐私保护的政务满意度评价***及方法

技术领域

本发明属于数据评分技术领域，具体属于一种基于数据安全与隐私保护的政务满意度评价***及方法。

背景技术

随着建设数字型政府不断推进，让“数据多跑路”逐渐成为新型、高效的政务办公方式。与此同时，各级政府也越来越注重听取人民群众的意见，让公众参与到政务评价中。

现有政务评价***仅通过简单的扫码问卷或网页问卷进行满意度数据的收集工作，在数据处理上仅通过满意度评分加和后取均值来作为最终的评分结果。导致的问题有：(1)缺少完整的政务满意度评分***，从数据收集到数据库的建立、数据处理、评分模型建立等，缺乏适应性强、可推广的整套政务评价***；(2)缺少数据安全管理，对于群众的属性等敏感信息没有做好处理，存在隐私信息泄露的风险；(3)评分模型过于落后，未形成科学高效的算法模型，难以挖掘政务数据背后存在的问题，提出指导性建议。(4)政务满意度数据不公开，民众无法访问查询，缺少公信力。

因此，亟待运用科学的评估标准、方法和程序进行政务满意度评价工作，对政府人员履职尽责，构建和谐的干群关系，树立良好政府形象都具有重要意义。

CN111222753A，一种电子政务绩效评估***，包括：评估模型模块、数据采集模块、数据处理模块、指标权重学习和生成模块、评估结果生成模块和评估报告自然语言生成模块。本发明提出的一种电子政务绩效评估***中，建立指标权重训练模型，从数据中学习各个基本评价指标的权重，提高了评价过程中各基本评价指标的权重的确定性、客观性和合理性。本发明中，通过权重的设置，使得最终评价结果对于各基本评价指标上的得分的融合更有依据和指向性；并且通过多个基本评价指标的设置，更进一步方便了从各个方向对政务模块进行评估，从而精确获知民众需求，以便对政务模块进行改良。

1.CN111222753A专利提出的电子政务绩效评估***不具备对调查群众的敏感信息的加密保护环节。本专利提出数据安全模块，利用身份认证、数据脱敏技术及反馈预警机制，增强数据安全与隐私保护。

2.CN111222753A专利数据处理过程缺少数据访问***。本专利在数据安全模块中设置数据访问端口，形成可访问***，使得民众能够访问到原始的政务满意度调查数据，增加数据透明性，提高政务评价工作的公平公开性。

3.CN111222753A专利侧重通过证据推算方法与差分净化算法确定评价指标的权重，结合权重对评价指标上的总评信息进行合成，获得最终评价结果，生成自然语言下的文本评价报告。而本专利则是侧重对政务评价满意度数据进行处理，得到科学的政务满意度评分结果。利用机器算法-CatBoost算法简化指标筛选过程，减少人为主观因素影响，其次利用CatBoost算法自带的importance()函数得到政务满意度指标贡献度，进而确定指标权重。不仅在数据处理速度上得以提升，同时保证了权重赋予的科学性与公正性。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于数据安全与隐私保护的政务满意度评价***及方法。本发明的技术方案如下：

一种基于数据安全与隐私保护的政务满意度评价***，其包括：数据库模块、数据安全模块、数据评分模块，其中，

数据库模块，用于根据各类政务满意度评价数据的收集与分类结果，形成数据库并提供给数据安全模块；

数据安全模块，用于对政务满意度评价数据的访问控制、隐私保护与反馈预警，完成数据的安全管理工作并将处理后的数据集提供给数据评分模块；

数据评分模块，用于政务满意度评价数据的模型训练，构建政务满意度评分模型，输出评分结果。

进一步的，所述数据库模块包括数据采集模块与数据分类模块，其中数据采集模块用于收集政务满意度的各类数据；数据分类模块用于对收集的政务满意度数据按照时间划分成月度、季度、年度数据，并进一步按照政务主题内容划分成平安建设、法制建设及服务评价在内的子数据集。

进一步的，所述数据安全模块包括身份认证模块、数据脱敏模块与反馈预警模块，其中身份认证模块用于对访问者进行身份认证，确定其查询权限；数据脱敏模块用于对含有敏感信息的数据集进行脱敏处理；反馈预警模块通过对用户行为进行记录，生成日志；当同一用户身份认证拒绝的次数超过设定的阈值时，及时锁定访问端口并向终端反馈预警。

进一步的，所述数据安全模块完成访问控制、隐私保护与反馈预警工作的具体步骤如下：

(1)当用户申请访问政务满意度数据资源时，先对用户进行身份认证，若认证不通过则拒绝访问；若认证通过则可以进一步操作；

对用户请求的数据资源进行判断，当不含敏感数据时，可以依据权限得到所需数据集；当请求数据资源含有敏感数据时，对群众的属性在内的敏感信息进行加密处理后得到脱敏数据集；

(2)对用户的访问过程进行记录，生成相应日志；

(3)同一用户身份认证拒绝的次数超过设定的阈值时，及时锁定访问端口并反馈预警给终端。

进一步的，所述数据脱敏模块用于对含有敏感信息的数据集进行脱敏处理，具体步骤如下：

(1)敏感数据集进入到数据脱敏模块；

(2)确定脱敏方案，利用截断、加密、隐藏、替换在内的方式让敏感数据脱敏；

(3)编写脱敏规则，编写脱敏规则表，不同脱敏规则对应不同的数据加密方法；

(4)依据敏感数据类别，即姓名、身份证号码、手机号码、地址与脱敏方案通过主键关联响应，依据指定脱敏方案，完成敏感数据脱敏；

(5)将脱敏后的数据集提供给数据评分模块。

进一步的，所述数据评分模块包括预处理模块、模型训练模块与评分模块，其中预处理模块用于对访问的政务满意度数据集进行包括数据清洗、处理不平衡数据、分割数据集在内的预处理，并将处理后的数据集提供给模型训练模块；模型训练模块用于对数据集进行模型训练，通过利用机器学习算法-CatBoost算法完成模型训练，并利用CatBoost算法中的importance()函数得到政务满意度指标贡献度，进而确定指标权重并提供给评分模块；评分模块利用指标权重，建立出政务满意度评分模型，完成相关数据评分工作，最终得到政务满意度评分结果。

进一步的，所述通过利用机器学习算法-CatBoost算法完成模型训练，并利用CatBoost算法中的importance()函数得到政务满意度指标贡献度，进而确定指标权重并提供给评分模块，具体包括：

一种基于所述***的基于数据安全与隐私保护的政务满意度评价方法，其包括以下步骤：

利用数据库模块进行各类政务满意度评价数据的收集与分类工作，形成数据库并提供给数据安全模块；

利用数据安全模块进行政务满意度评价数据的访问控制、隐私保护与反馈预警，完成数据的安全管理工作并将处理后的数据集提供给数据评分模块；

利用数据评分模块进行政务满意度评价数据的模型训练，构建政务满意度评分模型，输出评分结果。

本发明的优点及有益效果如下：

本发明针对现有技术上的不足，建立完整的政务满意度评价***。其包括：数据库模块、数据安全模块、数据评分模块，其中，数据库模块包括数据采集模块与数据分类模块，用于根据各类政务满意度评价数据的收集与分类结果，形成数据库并提供给数据安全模块；数据安全模块包括身份认证模块、数据脱敏模块与反馈预警模块，用于对政务满意度评价数据的访问控制、隐私保护与反馈预警，完成数据的安全管理工作并将处理后的数据集提供给数据评分模块；数据评分模块包括预处理模块、模型训练模块、评分模块，用于政务满意度评价数据的模型训练，构建政务满意度评分模型，输出评分结果。

本发明具备以下优点：1.形成完整的政务满意度数据环节，增加适应性与可推广性；2.增加数据安全模块，利用访问控制、加密技术及反馈预警机制对调查群众的敏感信息提供有效的保护工作，增强数据安全与隐私保护；3.增加身份认证模块，形成可访问***，增加数据透明性，提高政务评价工作的公平公开性；4.利用机器学习-CatBoost算法建立政务满意度评分模型，不仅在数据处理速度上得以提升，同时保证了满意度指标权重赋予的科学性与公正性。

附图说明

图1是本发明提供优选实施例一种基于数据安全与隐私保护的政务满意度评价***；

图2为本申请提供的一种基于数据安全与隐私保护的政务满意度评价***中数据库模块的流程示意图；

图3为本申请提供的一种基于数据安全与隐私保护的政务满意度评价***中数据安全模块的流程示意图；

图4为本申请提供的一种基于数据安全与隐私保护的政务满意度评价***中数据评分模块的流程示意图；

图5为本申请实施例中数据评分流程图；

图6为本申请实施例中数据集的脱敏处理结果；

图7为本申请实施例中数据集的算法模型评估结果对比；

图8为构建的政务满意度评分模型。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1-6所示，一种基于数据安全与隐私保护的政务满意度评价***，其包括数据库模块、数据安全模块、数据评分模块，其实现方法包括下列步骤：

优选的，所述数据库模块包括数据采集模块与数据分类模块，其中数据采集模块用于收集政务满意度的各类数据；数据分类模块用于对收集的政务满意度数据按照时间划分成月度、季度、年度数据，并进一步按照政务主题内容划分成平安建设、法制建设及服务评价等子数据集。

优选的，所述数据安全模块包括身份认证模块、数据脱敏模块与反馈预警模块，其中身份认证模块用于对访问者进行身份认证，确定其查询权限；数据脱敏模块用于对含有敏感信息的数据集进行脱敏处理，增加数据安全性；反馈预警模块通过对用户行为进行记录，生成日志。当同一用户身份认证拒绝的次数超过设定的阈值时，及时锁定访问端口并向终端反馈预警，提高访问安全性。

优选的，数据评分模块包括预处理模块、模型训练模块与评分模块，其中预处理模块用于对访问的政务满意度数据集进行包括数据清洗、处理不平衡数据、分割数据集并将处理后的数据集提供给模型训练模块；模型训练模块用于对数据集进行模型训练，通过利用机器学习算法-CatBoost算法完成模型训练，并利用CatBoost算法中的importance()函数得到政务满意度指标贡献度，进而确定指标权重并提供给评分模块；评分模块利用指标权重，建立出政务满意度评分模型，完成相关数据评分工作，最终得到政务满意度评分结果。

优选的，数据安全模块完成访问控制、隐私保护与反馈预警工作的具体步骤如下：

(2)对用户请求的数据资源进行判断，当不含敏感数据时，可以依据权限得到所需数据集；当请求数据资源含有敏感数据时，对群众的属性等敏感信息进行加密处理后得到脱敏数据集。

(3)对用户的访问过程进行记录，生成相应日志。

(4)同一用户身份认证拒绝的次数超过设定的阈值时，及时锁定访问端口并反馈预警给终端。

优选的，当敏感数据集受访问时自动进入到数据脱敏模块中，完成动态数据脱敏，具体步骤如下：

(1)敏感数据集进入到数据脱敏模块；

(2)确定脱敏方案。利用截断、加密、隐藏、替换等方式让敏感数据脱敏，如采用特殊字符(*等)替代真实值；

(4)依据敏感数据类别，即姓名、身份证号码、手机号码、地址在内的敏感信息与脱敏方案通过主键关联响应，依据指定脱敏方案，完成敏感数据脱敏；

(5)将脱敏后的数据集提供给数据评分模块。

优选的，政务满意度数据集进入到数据评分模块，完成相关数据评分操作，具体步骤如下：

(1)完成数据预处理工作：通过预处理模块，完成数据清洗工作，即查看数据集，描述数据；再利用过采样或欠采样方法完成处理不平衡数据的处理；最后将数据集分割成训练集和测试集并提供给模型训练模块

(2)完成模型训练工作：通过模型训练模块，训练集数据进入到数据评分模块进行模型训练，通过利用机器学习算法-CatBoost算法完成模型训练，并对模型进行评估，再利用CatBoost算法中的importance()函数得到政务满意度指标贡献度，确定指标权重并提供给评分模块；

(3)完成数据评分工作：通过评分模块，利用指标权重，建立出政务满意度评分模型，并完成相关数据评分工作，最终得到政务满意度评分结果。

优选的，数据评分模块完成数据预处理、模型训练及建立评分模型，得到评分结果，基于Python软件的详细编程伪代码语句如下：

假定通过图2数据库模块中的数据采集模块A1收集到2021年J区居民对于政府食品安全工作的满意度评价数据，且该数据集存在调查者姓名、身份证号码、手机号码、地址等敏感信息。通过数据分类模块A2，按照时间、政务主题进一步划分成3个子数据集：2021年度数据D1、食品安全工作数据D2与 2021年度食品安全工作数据D3。

现用户R通过数据安全模块B如图3所示，访问2021年度食品安全工作数据D3，通过身份认证模块B1获取权限后，数据自动进入到数据脱敏模块B2 中，完成敏感数据信息的脱敏工作，具体步骤如下：

(1)依据敏感数据类别，即姓名、身份证号码、手机号码、地址与脱敏方案通过主键响应，依据指定脱敏方案，完成敏感数据脱敏；

对数据集D3的脱敏处理结果如图6所示，对数据集中的姓名保留姓氏，将名字进行隐藏；身份证号码保留前六位与后四位，既能与地域信息相匹配，又能增加信息的安全性；手机号码从第五位开始，隐藏四位；地址信息做截断处理，仅保留到区，方便核查相应区域内政务工作满意度调查的合规性，同时防止信息泄漏。

(2)得到脱敏处理后的数据集D3’提供给数据评分模块C。

为进一步确定J区居民对于政府食品安全工作的满意度评分结果，数据集 D3’利用数据评分模块C完成最终评分工作，参考图4，具体步骤如下：

(1)政务满意度数据集D3’进入到预处理模块C1，完成基础的数据预处理工作，包括数据清洗工作，查看数据、填充空值特征与分割数据集等；

(2)通过模型训练模块C2完成模型训练工作。通过Python软件利用 CatBoost算法对数据集D3’进行模型训练，假设政务满意度数据集为

其中

是m个政务满意度特征的指标向量，

是对应政务满意度指标的标签值。CatBoost算法利用相同类别特征数据的均值

即

来推出各个类别特征出现的频次，编码形成全新的数值型变量

即

其中，[·]代表指示函数：满足

时则函数返回1，分别代表了类别变量指标反之则返回0；p为超参数先验值；参数α(α＞0)为先验值的权重；

与y_j分别代表了第j个类别变量指标及其对应标签值。

完成自动编码工作后，CatBoost算法利用自身的排序提升方法去替代梯度估计方法，将每个政务满意度样本D_k(D_k∈D₃')训练得到独特的模型M_i，最终得到M_n，即找到样本的无偏梯度估计，从而训练并得到最终模型。

(3)完成模型评估。对CatBoost模型政务满意度评分模块训练的模型通过四个指标进行评价，图7展示了各指标的计算结果，四个度量指标分别是：模型训练速度、准确率、F1值、AUC值，其中的准确率、F1值、AUC值计算方法以及度量内容如下所示：

模型训练速度是指在相同计算机设备环境下，不同算法在等量数据集的情况下，训练出模型所需要花费的时间；

准确率(precision)是指样本中政务满意度评分是真正正确的样本与所占的比例，其计算公式为

召回率(Recall)是指样本中政务满意度评分是真正正确的分类被模型识别的比例，计算公式为

F1值是指准确度与召回度的加权调和平均数，并假设两者权重相同，即

(4)构建政务满意度评分模型。如图8所示，利用CatBoost算法中的 importance函数得到数据集D3’中n个特征变量的相对重要性，确定指标贡献率，依据指标权重进一步赋权，得到评分模型，具体步骤如下：

依据CatBoost模型得到的n个不同指标的指标贡献率f_i，进一步依据 F_i＝f_i/∑f_i得到对应指标的权重，重新构建出居民食品安全满意度评分模型，假设居民食品安全满意度评分为W，每项指标评分为W_i，最终得到政务满意度评分模型如下：W＝F₁W₁+F₂W₂+...+F_iW_i+...+F_nW_n

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于数据安全与隐私保护的政务满意度评价***，其特征在于，包括：数据库模块、数据安全模块、数据评分模块，其中，

2.根据权利要求1所述的一种基于数据安全与隐私保护的政务满意度评价***，其特征在于，所述数据库模块包括数据采集模块与数据分类模块，其中数据采集模块用于收集政务满意度的各类数据；数据分类模块用于对收集的政务满意度数据按照时间划分成月度、季度、年度数据，并进一步按照政务主题内容划分成平安建设、法制建设及服务评价在内的子数据集。

3.根据权利要求1所述的一种基于数据安全与隐私保护的政务满意度评价***，其特征在于，所述数据安全模块包括身份认证模块、数据脱敏模块与反馈预警模块，其中身份认证模块用于对访问者进行身份认证，确定其查询权限；数据脱敏模块用于对含有敏感信息的数据集进行脱敏处理；反馈预警模块通过对用户行为进行记录，生成日志；当同一用户身份认证拒绝的次数超过设定的阈值时，及时锁定访问端口并向终端反馈预警。

4.根据权利要求3所述的一种基于数据安全与隐私保护的政务满意度评价***，其特征在于，所述数据安全模块完成访问控制、隐私保护与反馈预警工作的具体步骤如下：

(2)对用户请求的数据资源进行判断，当不含敏感数据时，可以依据权限得到所需数据集；当请求数据资源含有敏感数据时，对群众的属性在内的敏感信息进行加密处理后得到脱敏数据集；

(3)对用户的访问过程进行记录，生成相应日志；

5.根据权利要求3所述的一种基于数据安全与隐私保护的政务满意度评价***，其特征在于，所述数据脱敏模块用于对含有敏感信息的数据集进行脱敏处理，具体步骤如下：

(1)敏感数据集进入到数据脱敏模块；

(5)将脱敏后的数据集提供给数据评分模块。

6.根据权利要求1所述的一种基于数据安全与隐私保护的政务满意度评价***，其特征在于，所述数据评分模块包括预处理模块、模型训练模块与评分模块，其中预处理模块用于对访问的政务满意度数据集进行包括数据清洗、处理不平衡数据、分割数据集在内的预处理，并将处理后的数据集提供给模型训练模块；模型训练模块用于对数据集进行模型训练，通过利用机器学习算法-CatBoost算法完成模型训练，并利用CatBoost算法中的importance()函数得到政务满意度指标贡献度，进而确定指标权重并提供给评分模块；评分模块利用指标权重，建立出政务满意度评分模型，完成相关数据评分工作，最终得到政务满意度评分结果。

7.根据权利要求6所述的一种基于数据安全与隐私保护的政务满意度评价***，其特征在于，所述通过利用机器学习算法-CatBoost算法完成模型训练，并利用CatBoost算法中的importance()函数得到政务满意度指标贡献度，进而确定指标权重并提供给评分模块，具体包括：

假设政务满意度数据集为D＝(X_k,Y_k)_k＝1,2...,n，其中

是包含了m个政务满意度特征的指标向量，Y_k＝(y₁,y₂,...y_k)，y_k∈R是对应政务满意度指标的标签值。CatBoost算法利用相同类别特征数据的均值

即

)来推出各个类别特征出现的频次，编码形成全新的数值型变量

即

其中，[·]代表指示函数：满足

与y_j分别代表了第j个类别变量指标及其对应标签值；

完成自动编码工作后，CatBoost算法利用自身的排序提升方法去替代梯度估计方法，将每个政务满意度样本D_k(D_k∈D)训练得到独特的模型M_i，最终得到M_n，即找到样本的无偏梯度估计，从而训练并得到最终模型。

8.一种基于权利要求1-7任一项所述***的基于数据安全与隐私保护的政务满意度评价方法，其特征在于，包括以下步骤：