创大钢铁,免费钢铁商务平台

购物车(0)

创大钢铁首页

现货行情

综合指数

创大多端推广
您的当前位置: 首页 > 钢百科 > 冶金建设 > 其他百科

什么是数据漂白?

发布时间:2016-12-05 16:31 作者:互联网 来源:钢铁智库
48
数据漂白 是什么  数据漂白就是通过数据变换的方法去除数据中的敏感信息。不同于数据加密,数据漂白可以是不可逆的过程。 数据漂白的特点   一个好的数据漂白过程必须具备以下特点:可用性、数据关联关系、业务

数据漂白 是什么

  数据漂白就是通过数据变换的方法去除数据中的敏感信息。不同于数据加密,数据漂白可以是不可逆的过程。

数据漂白的特点

  一个好的数据漂白过程必须具备以下特点:可用性、数据关联关系、业务规则关系、数据分布、易用性和可定制

  可用性是指漂白过的数据看起来要像真实数据,并且具有真实数据的合法性。例如姓名漂白过之后,看起来还应该是一个姓名,如果变成一串无意义的字符串,会让使用者很不习惯。

  数据关联关系指的是数据库内的数据关联关系,这种关联关系通常是可见的,能够从数据库中找到。例如主外键的关联关系在漂白的时候,如果主键漂白,与之连接的外键也要作对应性的漂白,即主外建的变换一致,这样才能够保障数据关联关系保持不变。

  业务规则关系是指数据在数据库之外的业务约束关系,即业务上对数据的约束关系,这种约束关系由业务系统的设计方提供,数据库中不会有所体现。例如业务规则要求某个字段有一个检验字段,校验字段是通过一个算法计算出的值。此时,如果漂白了这个字段,而没有考虑校验关系,就会导致漂白过的数据不可用。其他还有出生日期与身份证号是否具有对应关系等。

  数据分布是指数据中的分布特征,例如年龄分布,即各个年龄段的人数分布。出生日期的变换会影响到数据中的年龄分布。如果漂白的时候没考虑保留此分布,而此数据恰恰需要对年龄分布作分析,就会受到影响而不准确。

  易用性是指漂白过的数据具有可用性,同时又不泄露敏感信息,同时,算法及程序过程具有可配置性。可定制指的是用户在漂白过程中,对于漂白函数的选择和参数可以定制,选择自己需要的函数和参数。

数据漂白的方法

  置换类方法。针对某些集合数据,通过置换的方法对数据进行漂白。例如省级的地名共有几十个,可以建立一个新的地名集合,仍是真实数据中地名的集合,只是顺序发生变化,通过置换就可以把真实数据中的地名换成一个新地名。置换可以是直接置换,即把一个现有的地名,通过查表置换成新地名,也可以随机置换,即通过一个随机数查询集合中的地名,替换真实数据中的地名。这类方法也可以用新集合代替现有码表,以达到数据漂白的目的。

  生成类方法。对email地址、电话号码等内容的漂白,可以通过算法随机生成相应的字段值,以达到漂白的目的。

  日期类方法。这类方法主要针对日期的变化,如果年龄发生了变化,很可能相应的日期也会随之变化,否则就会发生不合业务逻辑的数据。

  组合类方法。身份证 号的l ~6位是地址码 ,7 ~l4位 是出生 f3 期 ,15 ~17位是顺 序号 (含性别 ) ,18位是校验位。身份证号的漂白可 以通过对各个部分分别漂白,再合成 为一个新 的身份证号 的方法 。例如对于 l ~2位的漂白 ,省级地 名可以用置换 的方法 ,出生 日期 、顺序号可以在合理的 围内随机生成 ,最后通过计算校验位形成一个合理的身份证号。但身份证号的漂 白可能会涉及与出生 日期的一致性 ,还可能涉及与性别的一致性 ,这些一致性都可 以通过对应关系解决。还需要考虑的是 ,如果身份证号本身又是一个主键 ,就必须保障随机生成的身份证号不能有重复 ,否则就会破坏数据的完整性 。组合类方法还可 以生成地址 ,一个 完整的地址包括省 、市 、区 、街道 、门牌等 ,可采用组合类的方法生成不重复的地址。类似的还有单位 名称的漂 白,单位名称也可以分解成行政区划(中国,江苏省 ,⋯⋯),行业(石油化 ,⋯⋯ ) ,名称 (长江 ,胜利 ,⋯⋯ ) ,经营特点 (发展 ,实业 ,技术 ,餐饮 ,⋯⋯ ) 和公司性质 (有限公 司,贸易公 司 ,⋯⋯ ) 等 ,也 可以通过组合方法进行漂 白。其中 ,姓 名的漂白主要看用户对姓名要求的高低,直接把姓名替换成一个字符串也是一种漂白,但是用户要求比较高 ,例如要求姓 名不能有太多重复且高效率 ,可以将姓名分解成姓 、中问字、第三字,也可以通过组合方法实现漂白。

数据漂白的流程

  一般数据漂白的流程主要包括三个主要过程,即抽取、漂白和分发。

  需要漂白的数据仅仅是真实数据的一部分,即包含了敏感信息的部分。需要将具有敏感信息的数据从真实数据中分离出来。漂白的过程可以与数据抽取在一个过程中完成,主要是对数据进行变换,实现对数据的漂白。分发是把漂白完的数据与未参与漂白的真实数据合并形成一个完整的数据集合,提供给数据的使用方。在整个数据漂白过程中,自动化、漂白方法和漂白参数的可配置性是非常重要的。自动化的过程能够最大限度地减少人工干预,提高数据流程的稳定性、可靠性;而需要人工干预的部分主要是漂白方法的配置和漂白参数的设定,因为随着需求的不断变化,可能需要设定不同的漂白方法和漂白参数,实现针对不同目标的漂白任务,增强数据安全性。

  自动化面临的挑战是非法字段值的问题,例如身份证号内含有空值、短值、非法字符等,针对这些值不仅要考虑漂白过程的稳定性,还需要考虑用户的需求。有些情况下,测试需要针对某些“合理”的非法字符进行,这就需要在漂白算法设计的过程中,既保障漂白过程不会因为这些非法字段值中断,又要保留这些值,留给测试使用。

参考文献

张樵.数据漂白简析(A).中国金融电脑.2010,9
备注:数据仅供参考,不作为投资依据。
下一篇: 什么是服务器?>
免责声明:本站发布此文目的在于促进信息交流,不存在盈利性目的,此文观点与本站立场无关,不承担任何责任。本站欢迎各方(自)媒体、机构转载引用我们文章(文章注明原创的内容,未经本站允许不得转载),但要严格注明来源创大钢铁;部分内容文章及图片来自互联网或自媒体,我们尊重作者版权,版权归属于原作者,不保证该信息(包括但不限于文字、图片、视频、图表及数据)的准确性、真实性、完整性、有效性、及时性、原创性等。未经证实的信息仅供参考,不做任何投资和交易根据,据此操作风险自担。
相关现货行情
名称 最新价 涨跌
高线 3920 -
热轧平板 4620 -
低合金中板 4090 -
镀锌管 5390 -
槽钢 4080 -
热镀锌卷 5140 -
热轧卷板 11300 -
冷轧无取向硅钢 5000 -
圆钢 3840 -
硅铁 6600 100
低合金方坯 3580 -
铁精粉 890 -
二级焦 2360 -
铝锭 20550 -60
中废 2085 0