浙江工商大学数据脱敏管理制度

发布者:王辉发布时间:2024-09-25浏览次数:146

浙江工商大学

数据脱敏管理制度

                                                          第一章 总则

第一条 范围

本制度规定了浙江工商大学的数据脱敏原则、脱敏方法和脱敏过程,可为我校数据脱敏工作的规划、实施和管理提供指导。

本制度适用于我校数据的脱敏工作,包括但不限于数据脱敏地提供部门、使用部门、评测部门和监管部门。

数字化办公室作为我校数据脱敏的管理和监管部门。

第二条 术语和定义

数据脱敏:从原始环境向目标环境进行敏感数据交换的过程中,通过一定方法消除原始环境数据中的敏感信息,并保留目标环境业务所需的数据特征或内容的数据处理过程。

第三条 基本原则

脱敏工作不仅要确保敏感信息被去除,还需要尽可能地平衡脱敏所花费的代价、使用方的业务需求等多个因素。因此,为了确保数据脱敏的过程、代价可控,得到的结果正确且满足需要,在实施数据脱敏时,应从技术和管理两方面出发,符合以下原则。

(一)技术原则

有效性:经过数据脱敏处理后,原始信息中包含的敏感信息已被移除,无法通过处理后的数据得到敏感信息,或者需通过巨大经济代价、时间代价才能得到敏感信息,其成本已远远超过数据本身的价值。

真实性:保证脱敏后的数据应尽可能地真实体现原始数据的特征,且应尽可能多地保留原始数据中的有意义信息,以减小对使用该数据的系统的影响。

高效性:应注意平衡脱敏的力度与所花费的代价,将数据脱敏的工作控制在一定的时间和经济成本内。本质上,高效性是成本和安全性相互作用的结果,在确保一定安全底线的前提下,尽可能减少数据脱敏工作所花费的额外代价。

稳定性:保证对相同的原始数据,在各输入条件一致的前提下,无论脱敏多少次,其最终结果数据是相同的。如最终结果是不稳定的,可能导致数据使用者无法将本有联系的数据正确地进行关联,从而造成数据的使用出现问题。

可配置性:需通过配置的方式,按照输入条件不同生成不同的脱敏结果,从而可以方便地按数据使用场景等因素为不同的最终用户提供不同的脱敏数据。

(二)管理原则

敏感信息识别:在进行数据脱敏前,应完整地梳理待处理数据中包含的所有信息分类,明确其中哪些信息分类属于敏感信息,并标注出其敏感程度、泄露后可能造成的后果、应急预案等。有些信息本身可能并不直接是敏感信息,但是可通过与其他一些信息结合后推断出敏感信息,此类信息也应纳入数据脱敏的范围。

安全可控:脱敏后的数据由于保持了原始数据的部分统计特征和结构特征等信息,仍可能存在一定的敏感信息泄露风险。需要采取合适的方式控制知悉范围,通过恰当的安全管理手段,防止数据外泄。

安全审计:在数据脱敏的各个阶段需加入安全审计机制,严格、详细记录数据处理过程中的相关信息,形成完整数据处理记录,用于后续问题排查与数据追踪分析。

代码安全:对于执行数据脱敏的程序和代码模块,应当进行代码审查,并对上线前的程序和模块进行代码安全扫描,确保执行数据脱敏过程的程序安全可靠,无漏洞和后门。

                                                      第二章 脱敏方法

第四条 泛化技术

泛化是指在保留原始数据局部特征的前提下使用一般值替代原始数据,泛化后的数据具有不可逆性,具体的技术方法包括但不限于:

(一)数据截断:直接舍弃业务不需要的信息,仅保留部分关键信息,例如将手机号码13500010001截断为135

(二)日期偏移取整:按照一定粒度对时间进行向上或向下偏移取整,可在保证时间数据一定分布特征的情况下隐藏原始时间,例如将时间20150101 01:01:09按照5秒钟粒度向下取整得到20150101 01:01:05

(三)规整:将数据按照大小规整到预定义的多个档位,例如将资产按照规模分为高、中、低三个级别,将资产数据用这三个级别代替。

第五条 抑制技术

抑制是指通过隐藏数据中部分信息的方式来对原始数据的值进行转换,又称为隐藏技术,具体的技术方法包括但不限于:

掩码:用通用字符替换原始数据中的部分信息,例如将手机号码13500010001经过掩码得到135****0001,掩码后的数据长度与原始数据一样。

第六条 扰乱技术

扰乱是指通过加入噪声的方式对原始数据进行干扰,以实现对原始数据的扭曲、改变,扰乱后的数据仍保留着原始数据的分布特征,具体的技术方法包括但不限于:

(一)加密:使用加密算法对原始数据进行加密,例如将编号12345加密为abcde

(二)重排:将原始数据按照特定的规则进行重新排列,例如将序号12345重排为54321

(三)替换:按照特定规则对原始数据进行替换,如统一将女性性别替换为F

(四)重写:参考原数据的特征,重新生成数据。重写与整体替换较为类似,但替换后的数据与原始数据通常存在特定规则的映射关系,而重写生成的数据与原始数据则一般不具有映射关系。例如对雇员工资,可使用在一定范围内随机生成的方式重新构造数据;

(五)均化:针对数值性的敏感数据,在保证脱敏后数据集总值或平均值与原数据集相同的情况下,改变数值的原始值;

(六)散列:即对原始数据取散列值,使用散列值来代替原始数据。

第七条 有损技术

有损是指通过损失部分数据的方式来保护整个敏感数据集,适用于数据集的全部数据汇总后才构成敏感信息的场景,具体的技术方法包括但不限于:

(一)限制返回行数:仅返回可用数据集合中一定行数的数据,例如商品配方数据,只有在拿到所有配方数据后才具有意义,可在脱敏时仅返回一行数据;

(二)限制返回列数:仅返回可用数据集合中一定列数的数据,例如在查询人员基本信息时,对于某些敏感列,不包含在返回的数据集中。

                                       第三章 数据脱敏全生命周期过程

数据脱敏的全生命周期过程中,应包括制定数据脱敏规范和执行数据脱敏工作流程两部分。

第八条 数据脱敏规范

具有我校数据的相关部门,应制定完备的数据脱敏规范和流程,并对可能接触到脱敏数据的相关方进行数据脱敏规范的推广培训,并定期评估和维护数据脱敏规范内容,以保证数据脱敏工作执行的规范性和有效性。

在制定数据脱敏规范时,应关注以下事项:

(一)明确指定敏感数据的管理部门,并明确其安全责任和义务;

(二)根据安全合规需求,建立敏感数据的分类分级制度、数据脱敏的工作流程、脱敏工具的运维管理制度;

(三)建立敏感数据分类制度时,可从个人隐私数据(如手机、地址等数据)、我校运营数据等方面对敏感数据分类,并根据敏感数据的重要性程度定义敏感数据的安全级别,同时明确对各类、各级别数据相应的安全管控机制;

(四)在数据脱敏工具的运维管理制度中,可纳入对数据脱敏工具的系统安全监测,以保证数据脱敏工具自身的安全性;

(五)数据脱敏制度建立完毕后,应定期对数据脱敏工作的相关方,如数据管理方、数据使用方、脱敏工具运维方,开展针对相关制度的培训工作,以提升全员的规范化意识;

(六)应该制定完备的敏感数据使用审批流程,确保敏感数据的使用安全合规;

(七)尽可能采用自动化方式实现敏感数据脱敏工作流程,如数据脱敏申请、申请审批、数据下发、数据使用、数据回收等工作的自动流程化,提升数据脱敏工作开展的效率。

第九条 数据脱敏工作流程

一个完整的数据脱敏工作流程包括发现敏感数据、标识敏感数据、确定脱敏方法、定义脱敏规则、执行脱敏操作和评估脱敏效果等步骤。如图3.1所示



3.1 数据脱敏工作流程

(一)发现敏感数据

为了有效开展数据脱敏工作,必须对我校所拥有的数据进行梳理和分类,建议将数据分为非敏感数据、低敏感数据、敏感数据和极敏感数据。同时,需首先分析建立完整的敏感数据位置和关系库,确保数据脱敏工作能够充分考虑到必需的业务范围、脱敏后数据对原数据业务特性的继承(如保持原数据间的依赖关系)。

基于数据分类分级制度,一方面建立有效的数据发现手段,查找并发现敏感数据。另一方面明确敏感数据结构化或非结构化的数据表现形态,如敏感数据固定的字段格式。

在敏感数据返现过程中,可关注以下事项:

1. 定义数据脱敏工作执行的范围,在该范围内执行敏感数据的发现工作。

2. 通过数据表名称、字段名称、数据记录内容、数据表备注、数据文件内容等直接匹配或正则表达式匹配的方式发现敏感数据。

3. 考虑数据引用的完整性,保证数据库的引用完整性约束。

4. 数据发现手段应支持主流的数据库系统、数据仓库系统、文件系统,同时应支持云计算环境下的主流新型存储系统。

5. 尽量利用自动化工具执行数据发现工作,并降低该过程对生产系统的影响。

6. 数据发现工具具有扩展机制,可根据业务需要自定义敏感数据的发现逻辑。

7. 固化常用的敏感数据发现规则,例如身份证号、手机号等敏感数据的发现规则,避免重复定义数据发现规则。

(二)标识敏感数据

在通过业务梳理发现了敏感数据之后,需要对敏感数据进行标识,包括标识敏感数据的位置、敏感数据的格式等信息,以便后续对敏感数据的访问、传输和处理进行跟踪和监督。

敏感数据的标识方法应该确保敏感数据标识信息能够随敏感数据一起流动,并不易于删除和篡改,从而可以对敏感数据进行有效跟踪,以确保敏感数据的安全合规性。

在标识敏感数据时,可关注以下事项:

1. 应该尽早在数据的收集阶段就对敏感数据进行识别和标识,这样便于在数据的整个生命周期阶段对敏感数据进行有效管理;

2. 敏感数据的标识方法必须考虑到便捷性和安全性,使得标识后的数据很容易被识别,同时,要确保敏感数据标识信息不容易被恶意攻击者删除和篡改;

3. 敏感数据的标识方法应支持静态数据的敏感标识以及动态流数据的敏感标识。

(三)确定脱敏方法

在对标识后的敏感数据进行脱敏前,应首先确定脱敏方法,可选的数据脱敏方案包括静态数据脱敏和动态数据脱敏。不同的数据脱敏方案对数据源的影响不同,脱敏的时效性也不一样。脱敏方案确定后,就可以选择对应的数据脱敏工具。

在确定数据脱敏方案时,可关注以下事项:

1. 静态数据脱敏方法是对原始数据进行一次脱敏后,脱敏后的结果数据可以多次使用,非常适合使用场景比较单一的场合。

2. 动态数据脱敏方法只是在敏感数据显示时,针对不同用户需求,对显示数据进行屏蔽处理的数据脱敏方式,它要求系统有安全措施确保用户不能够绕过数据脱敏层次直接接触敏感数据。动态数据脱敏比较适合用户需求不确定、使用场景复杂的情形。

(四)定义脱敏规则

针对校内已识别和标识出的敏感数据,需建立敏感数据在相关业务场景下的脱敏规则。在敏感数据生命周期识别的基础上,明确存在数据脱敏需求的业务场景,并结合行业法规的要求和业务场景的需求,制定相应业务场景下有效的数据脱敏规则。

在该过程中,可关注以下事项:

1. 识别业务开展过程中应遵循的个人隐私保护、数据安全保护等关键领域国内外法规、行业监管规范或标准,以此作为数据脱敏规则必须遵循的原则;

2. 对已识别出的敏感数据执行生命周期(产生、采集、使用、交换、销毁)流程的梳理,明确在生命周期各阶段,用户对数据的访问需求和当前的权限设置情况,分析整理出存在数据脱敏需求的业务场景。例如,在梳理过程中,会发现存在对敏感数据的访问需求和访问权限不匹配的情况(用户仅需获取敏感数据中部分内容即可,但拥有对敏感数据内容全部的访问权限),因此该业务场景存在敏感数据的脱敏需求;

3. 进一步分析存在数据脱敏需求的场景,在“最小够用”的原则下明确待脱敏的数据内容、符合需求的脱敏方式,以及服务水平方面的要求,以便于脱敏规则的制定;

4. 数据脱敏工具应提供扩展机制,从而让用户可根据需求自定义脱敏的方法;

5. 通过数据脱敏工具选择数据脱敏方法时,脱敏工具中应对各类方法的使用进行详细的说明,说明应包括但不限于规则的实现原理、数据引用完整性影响、数据语义完整性影响、数据分布频率影响、约束和限制等,以支撑脱敏工具的使用者在选择脱敏方式时做出正确的选择;

6. 应固化常用的敏感数据脱敏规则,例如身份证号、手机号等的常用脱敏规则,避免数据脱敏项目实施过程中重复定义数据脱敏规则。

(五)执行脱敏操作

根据已定义的数据脱敏规则,以及数据脱敏工作的流程和数据脱敏工具的运维管理制度,在实际业务运营过程中执行数据脱敏,可包括条数据脱敏和块数据脱敏。条数据脱敏是对单条数据根据脱敏规则实施脱敏,块数据脱敏是对聚合数据实施脱敏。在日常的脱敏工作中,监控分析数据脱敏过程的稳定性,以及对业务的影响性,同时对脱敏工作开展定期的安全审计,已发现脱敏工作中存在的安全风险。

在该过程中,可关注以下事项:

1. 支持从数据源克隆数据到新环境(例如从生产环境、备份库克隆数据到新环境),并在新环境中进行脱敏过程的执行;也支持在数据源端直接进行脱敏;

2. 对脱敏任务的管理,可考虑采用自动化管理的方式提升任务管理效率,例如定时、条件设置的方式触发脱敏任务的执行;

3. 执行对脱敏任务的运行监控,关注任务执行的稳定性,以及脱敏任务对业务的影响;

4. 设置专人定期对数据脱敏的相关日志记录进行安全审计,审计应重点关注高权限账号的操作日志和脱敏工作的记录日志;发布审计报告,并跟进审计中发现的例外和异常。

(六)评估脱敏效果

通过收集、整理数据脱敏工作执行的数据,例如相关监控数据、审计数据,对数据脱敏的前期工作开展情况进行反馈,从而优化相关规程、明确数据脱敏过程中应关注的事项。

在该过程中,可关注以下事项:

1. 利用测试工具评估脱敏后数据对应用系统的功能、性能的影响,从而明确对整体业务服务水平的影响;测试负载应尽量保证与生产环境一致,应尽量提供从生产环境克隆数据访问负载到脱敏系统进行回放测试的功能;

2. 根据我校业务发展的情况和脱敏工作执行的反馈,优化数据脱敏工作开展的规程,旨在全校范围内增强数据安全能力并满足合规要求。

                                                 第四章 附则

第十条 数字化办公室有权根据我校发展、技术更新以及法律法规的变化对本制度进行修订与完善。

第十一条 对于违反本制度的行为,将依据我校的奖惩制度进行处理,对造成严重数据安全事故的,将依法追究法律责任。


浙江工商大学 数字化办公室-版权所有     Copyright©2012—2021 nic.zjgsu.edu.cn All Rights Reserved.