数据泄露事件频发,数据库敏感字段如何治理?(3)
2023-04-26 来源:飞速影视
存量数据依赖人工判定,工作量大;
缺少衡量评价指标,质量不可控。
针对这些现状问题,在各个环节进行了优化改进,形成了完整的敏感数据字段自动发现的方案:
2.4 系统自动定级与订正
通过敏感数据识别引擎,对结构化数据进行整体扫描,自动识别出敏感数据,支撑其进行数据分类分级及数据治理,以便根据结果对敏感数据做进一步的安全防护和后续的精细化管理。
具体的环节中,我们通过系统定期扫描业务集群的库、表、集合、字段,对其中的字段进行分类分级,并根据已有的数据进行打分(准确率),再通过人工订正纠偏对评分系统进行反馈调整,达成一个长期的正向提升循环。
我们定义了两个指标用来支持评分机制的改进:
覆盖率:有分类分级的数据量/全部数据量;
准确率:用户数据分类分级正确的量*0.1/(抽检用户数据量*0.1 抽检非用户类别中用户类别的数据量*0.9)。
计算公式中的1:9关系,是由我们现存数据分类中用户数据和非用户数据占比核算得到,实际上是用于均衡计算实际的用户分类分级准确率,而这样设计的初衷,即尽可能减少误判用户数据为非用户数据的情况。
2.5 小结
最终,基于当前的能力现状,我们实现了:
对MySQL/TIDB/ElasticSearch/MongoDB在内的四种数据库的敏感字段识别;
支持全自动的实时敏感数据字段识别,包括对业务新建表、集合的扫描;
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号