昌吉回族 【切换城市】

首页 > 热点资讯 >新闻内容

数据脱敏——什么是数据脱敏

2021年06月02日 12:06

一、什么是数据脱敏


数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。

百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。

生活中不乏数据脱敏的例子,比如我们最常见的火车票、电商收货人地址都会对敏感信息做处理,甚至女同志较熟悉的美颜、有些视频中的马赛克都属于脱敏。


二、为什么要进行数据脱敏


上面说到,在“涉及客户安全数据或者一些商业性敏感数据的情况下”对数据进行改造,说明我们要进行改造的数据是涉及到用户或者企业数据的安全,进行数据脱敏其实就是对这些数据进行加密,防止泄露。

对于脱敏的程度,一般来说只要处理到无法推断原有的信息,不会造成信息泄露即可,如果修改过多,容易导致丢失数据原有特性。因此,在实际操作中,需要根据实际场景来选择适当的脱敏规则。改姓名,身份证号,地址,手机号,电话号码等几个客户相关字段。

三、如何实现数据脱敏


按照脱敏规则,可以分为可恢复性脱敏和不可恢复性脱敏。可恢复性脱敏就是数据经过脱敏规则的转化后,还再次可以经过某些处理还原出原来的数据,相反,数据经过不可恢复性脱敏之后,将无法还原到原来的样子,可以把二者分别看做可逆加密和不可逆加密。

我们目前遇到的场景是日志脱敏,即在把日志中的密码,甚至姓名、身份证号等信息都进行脱敏处理。

脱敏前:


脱敏后:

如上图,仔细分析会发现,打日志之前,获得脱敏的数据就两个步骤:【拿到要输入的数据(user实体)】→【进行序列化】,所以要进行数据脱敏可以考虑在这两个步骤上进行实现。第一个方法就是在序列化实体之前先把需要脱敏的字段进行处理,之后正常序列化;第二个方法就是在实体序列化的时候,对要脱敏的字段进行处理。


相关推荐

织带百科——织带界新兴生态共赢圈

中国已然是世界上最大且最稳定的纺织市场需求,纺织行业供应链由于其行业特性,具有巨大的发展潜力和发展空间,但是相比于其他行业,例如食品、电子机械等产品行业不同,具有巨大差异,注重趋势,注重快速生产,是纺织行业最明显的特点。纺织服装在疫情的影响下,由于时尚属性,所以2020年的这次618,纺织服装行业企业的销售额也遥遥领先其他行业。疫情在2020年首先会淘汰一批小微、竞争力差的企业。且疫情中断了部分线下、面对面的销售渠道,相反的也激发出了新媒体、在线广告的兴起和普及,并且在未来成为一个常规化渠道,而这些新渠道来的更快、更方便的销售信息传达,将让传统供应链变得更快。剩余的企业将进入最激烈的内需战争。如何在传统织带行业里杀出一条血路来,是每一个纺织行业里的人迫切需要思考的问题。行业竞争激烈、时尚变化要求企业能够迅速反应,快速反应又要求供应商以密切的方式进行。加强与供应商、采购方的联系,采用更科学地供应链管理方式,是目前纺织行业需要亟待解决的问题。消费者将更加注重产品质量,质量不突出的产品,将会被质量更优的产品直接替代,原因是竞争激烈的市场,利润率都相对压低,产品质量、企业品控在利润率压缩的情况下,消费者将会更倾向于质量,即高性价比。而成本控制优秀的企业,也将逐渐获得优势,最终使整个行业的往质量好品控好成本效率高的方向发展。而织带百科则为您提供了新兴纺织产业共赢圈,目前纺织企业出现的问题,我们用纺织生态共赢圈为您提供一站式企业解决方案,消费需求多元化,我们为您提供市场最新的需求信息,为您提供紧随市场需求的生产解决方案;销售线上化,我们用最先进的互联网加模式为您提供最广大的销售平台,更密切的供应链关系,我们为供应商与采购方提供最便捷先进的线上交流方式,我们的目标是打造最先进的服装辅料界全流程互联网B2B2C电商管理服务体系,帮助厂商降低成本、提高效率,达到最优的生产制造方案。而互联网的平台思维就是开放、共享、共赢的思维。平台模式最有可能成就产业巨头。全球最大的100家企业里,有60家企业的主要收入来自平台商业模式,这其中最出名的包括苹果、谷歌。我们将纺织行业与互联网结合,打造最先进的织带新兴生态共赢圈,为供应商和采购方提供最坚实的桥梁。口罩类,箱包类,鞋业类,服装类,织唛类,腰头类,内衣类,收腹护腰类,帽盔类,礼品包装类,安全带类,手工饰品类,家纺类,发饰类,建筑安全类,宠物绳类,运动器材类,绳子类,表带类,医疗类。无论您在哪一行,都能找到您心中所想!

2021年01月30日 16:28

为什么有的公司开发小程序价格会如此低?

现在市面上有很多的第三方开发公司,有的公司报价只要几百块,而有的公司报价上万,甚至有的公司跟你说不要钱……或者很多网站直接摆出了一键生成的免费模板。很多人在初次入行的时候都难免被那些免费模板给吸引过去,但是又担心是一个陷阱。确实是有陷阱在里面,这个世界上不会无缘无故天上掉馅饼。这些免费模板的背后是高额的服务器费用,也就是维护费。而且免费模板当中功能一般都是固定不变的,对于不同的商家,针对同个免费模板就不一定适用了。在使用的过程中如果出现什么bug,虽然商家需要支付高额的维护费,但是却没有专业的售后人员来解决bug问题。可以说选择免费模板到最后砸了钱,出现问题却无人问津。事实上,真正决定小程序开发价格的影响因素主要是两个方面:一个是开发方式,一个是功能需求。对于准备低成本开发或者短期内使用的商家,可以考虑使用一键生成模板,开发周期一般是3-7个工作日,快的就3天,能够满足商家的基础需求,价位一般是几千块钱,具体取决于功能的价格和数量。而且如果功能合适,直接买开发公司现成的小程序也是可以的,毕竟现在这种模式的小程序已经很成熟了!第二种是定制开发,对于小程序有比较高要求且资金充足的商家可以考虑。但是这种定制开发的成本比较高,一般是1W-10W+,而且制作时间方面较长,至少是一个月起步。总的根据目前经验来看,商家根据自身功能需求去选择相对应的开发品台,另外对于免费以及特价的要格外注意,以防上当受骗。广东优联互通科技有限公司有丰富的资源优势,成熟的经验优势,强大的技术优势,优质的服务优势;根据客户的实际情况进行开发设计跟SEO优化,从而更快更有效的部署软件产生效益,满足企业的市场需求。需要可加微信13539285443详谈!

2021年01月07日 18:14

如何利用伪原创增加自己网站的原创文章

网站在SEO优化中是大家在日常都会做到的工作,而这里面的工作重点就是写原创文章,但对于没有文字功底的网站工作人员来说,写作便是种笔尖上的噩梦,为了解决这个难题,很多小伙伴便把精力集中在了写伪原创,那么什么才是真正的伪原创呢?百度又是如何评判文章的质量呢?要想弄明白这个道理要知道伪原创的定义,百度百科给的定义是:伪原创是指把篇原创的文章进行再加工,使其让搜索引擎认为是篇原创文章,从而提高网站权重。编辑方法有修改标题的关键词和首尾段落总结两种。既然知道了伪原创的定义,那么下面小编和小伙伴们起来分析下,如何写高质量的伪原创,其实所谓的高质量伪原创是将已经发布的片旧的文章经过我们人为的调整改动,又将其发布于网络,同时又巧妙的躲避百度蜘蛛的检索规则,使其认为是篇原创文章,看到这里,我想小伙伴都应该明白做伪原创的精髓在哪里了,我们要做的内容是如何躲避蜘蛛的层层审核,使其认为是篇原创文章。那么问题来了?这些和伪原创又有什么关系呢?其实其中的原理都是相同的,只不过发展到,其数据演变为云计算,功能更加便捷快速而已,下面给大家说下搜索引擎的爬行原理,以此来指导我们写出更好的伪原创。搜索引擎的排名原理,第步要做的是爬行和抓取,以此完成蜘蛛的数据收集任务,步是蜘蛛的链接跟踪,其中将涉及深度优先法则与广度优先法则,第三步将是根据搜集数据建立地址库。第四步是预处理,很多人将此步骤定义为索引,其实这里有必要说明下,预处理包含众多规则,而索引只是预处理中重要的步骤,下面到了我们本次要说的重要的步骤,也是关系我们是否能成功处理伪原创的问题。预处理第步:文字提取,因为正常的网页中包含大量的标签,JS程序等无法用于排名的东西,所以第步将是把这些无法用于排名的东西统统处理干净,只剩下利于我们排名的文字,当然除了这些标签代码外,搜索引擎也会提取出些特殊的信息代码,例如富媒体替代文字等。部是:中文分词,中文分词是搜索引擎特有的步骤,搜索引擎处理页面及用户搜索都是以词为基础,英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符,个句子中的所有字和词都是连在起的。搜索引擎必须首先分辨哪几个字组成个词,哪些字本身是个词。第三步是:去停止词,无论是中文还是英文,语句中总会包含些嗯,得,的,and,or,the等词语,搜索引擎在索引页面之前会去掉这些词语,以减少无畏的计算。第四步是:消除噪声,绝大部分页面上都会包含对搜索排名没有贡献的些词语,这些词语也将统统被搜索引擎所CUT,接下来将是去重,正向索引,倒排索引,链接关系计算,特殊文件处理,后步是:排名。所以看到这里的小伙伴应该明白单纯的将篇原创文章拿来后经过修改标题,然后关键词植入是不会把搜索引擎蒙蔽的,更何况,XX搜索引擎接二连三的算法层出不穷,又增加了对句子,对段落的各种匹配模式,所以又增加了伪原创的难度,并且伪原创问题已经在各类搜索引擎中加入甄别算法,对核心关键词匹配度达到70%的将被认为为伪原创,并对词意进行分析,对词意相似度达到80%的将定义为伪原创。  作为我们这些辛苦的网站工作者,要做的是合理避开这些规则,让我们的伪原创成为真正的原创。让这些原创,真正的让百度收录,将会具有事半功倍的效果。

2020年04月04日 04:11