云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

对象存储_合优网站建设_哪个好

小七 141 0

cdn网站_阿里云_现在人工智能怎么样

防止个人身份信息的暴露,又称PII,是组织的一个大问题,并不是那么容易做到。谷歌的云数据丢失防护(DLP)可以帮助识别和隐藏通过直观灵活的平台暴露的PII。

在之前的"负责你的数据"帖子中,我们讨论了如何使用云数据丢失防护(DLP)来获得对你的数据的可见性,以及如何通过反识别来保护敏感数据,模糊处理和最小化技术。在这篇文章中,我们将讨论另一种风险:重新识别,微信返利机器人可靠吗,以及如何衡量和降低它。

谷歌最近的一篇研究论文将重新识别风险定义为"一些假定匿名或假名的数据集可能被取消匿名化,以恢复用户的身份。"换句话说,可以连接到个人可以暴露有关他们的信息,这可以使数据更加敏感。例如,仅54392这个数字并不特别敏感。然而,如果你知道这是某人的薪水以及其他关于他们的细节(例如,他们的性别、邮政编码、母校),将该数据与之关联的风险上升。

考虑重新识别风险

有各种因素可以增加或减少重新识别风险,这些因素可以随着数据的变化而变化。在这篇博文中,企业信息软件,我们提出了一种使用系统和可测量的方法对这些风险进行推理的方法。

假设您希望与分析团队共享数据,并希望确保降低重新识别的风险;有两种主要类型的识别码需要考虑:

在评估重新识别风险时,您需要考虑如何处理直接识别码和准识别码。对于直接标识符,大数据的4,云服务器和服务器,您可以考虑诸如编校或用假名或令牌替换之类的选项。为了识别准标识符中的风险,一种方法是测量统计分布以找到任何唯一值。例如,以数据点"27岁"为例。你的数据集中有多少人年龄在27岁?如果您的数据集中"27岁"的人很少,则重新识别的潜在风险更高,而如果27岁的人很多,则风险会降低。

了解k-匿名性

k-匿名性是一个属性,表示有多少个人共享相同的值或一组值。继续上面的例子,假设您有100万行数据,包括一列年龄,在这100万行中只有一个人的年龄为27岁。在这种情况下,"age"列的k值为1。如果每个年龄段至少有10个人,那么k值为10。您可以跨单个列(如age)或跨多个列(如age+zip code)度量此属性。如果邮政编码94043中只有一个27岁的人,则该组(2794043)的k值为1。

了解一组列的最低k值很重要,但您还需要了解这些k值的分布。也就是说,10%的数据具有低k值还是90%的数据具有低k值?换句话说,您能简单地删除具有低k值的行吗?或者您需要用另一种方法来修复它吗?一种称为泛化的技术在这里很有用,大数据怎么用,它允许您保留更多的行,但代价是每行显示较少的信息;例如,"bucketing"age为5年的跨度,将age=27替换为age="26-30",允许您保留数据中的实用性,但使其不那么明显。