你不是真正的“匿名”:如何限定匿名数据和去识别化数据
发布时间:2021-06-04 17:58:55 所属栏目:大数据 来源:互联网
导读:匿名化是为了确保数据的隐私性,公司用它来保护敏感数据。这类数据包括: 私人数据 业务信息,如财务信息或商业秘密 机密信息,如军事机密或政府信息 匿名化为遵循个人数据相关隐私条例提供了范例,个人数据和业务数据的重合之处就是客户信息所在。但并非所有
匿名化是为了确保数据的隐私性,公司用它来保护敏感数据。这类数据包括:
私人数据
业务信息,如财务信息或商业秘密
机密信息,如军事机密或政府信息
匿名化为遵循个人数据相关隐私条例提供了范例,个人数据和业务数据的重合之处就是客户信息所在。但并非所有的业务数据都受监管,本文将重点讨论个人数据的保护。
敏感数据类型示例
在欧洲,监管机构将任何与某人(如你的名字)有关的信息定义为“个人数据”。不论形式,任何关联到此人的信息都符合上述定义。从上世纪起,个人数据收集逐渐民主化,数据匿名化问题开始出现。随着隐私条例在世界各地开始生效,这件事尤显重要。
什么是数据匿名化,为何要关注它?
我们从经典定义开始。欧盟的《通用数据保护条例》(GDPR)是这样定义对匿名信息的:“与识别或可识别自然人无关的信息,或以数据主体不能或不再可识别的方式匿名提供的个人信息。”
其中,“可识别”和“不再”至关重要。这不仅意味着你的名字不应再出现在数据中,也意味着不能从剩余数据中发现你是谁,这与再认同(有时也叫去匿名化)过程有关。
同样,GDPR(契约中)陈述了一个重要事实:“……因此,数据保护不应适用于匿名信息”。所以,若你设法匿名数据,就不再受GDPR数据保护法的约束。
你可以执行任何处理操作,如分析或数据货币化。这带来了大量机会:
出售数据显然是首选用途。在世界各地,隐私保护法正在限制个人数据交易,而匿名数据为公司提供了另一种选择。
它带来了合作机会。许多公司为了创新或研究而共享数据,匿名数据有助于降低风险。
它还为数据分析和机器学习创造了机会。在保持兼容性的同时运行敏感数据的操作正变得越来越复杂,匿名数据为统计分析和模型训练提供了安全的原材料,前景一片光明。但实际上真正的匿名数据往往并不如愿。
数据隐私保护机制的范围
数据的隐私保护有一个范围。多年来,专家们研发了一系列集方法、机制和工具为一体的技术。这些技术生成了具有不同的匿名级别和不同再识别风险等级的数据。可以说,其范围涵盖了个人可识别数据乃至真正的匿名数据。
数据隐私的范围
左端,有包含直接个人识别码的数据。通过这些元素,可以识别你的姓名、地址或电话号码。另一端,则是GDPR引用的匿名数据。
如你所见,这些数据有一个中间范畴。它处于可识别数据和匿名数据之间,即假名数据和去识别数据。请注意,其界定仍有争议。有些报告认为假名化是去识别化的一部分, 而另一些报告则将其排除在外。
生成这种“中间数据”的技术本身并无问题。它们能有效地将数据最小化。根据用例需求,它们将彼此关联,发挥用处。但切记,它们无法生成真正的匿名数据,它们的机制无法保证阻止再识别,所以将其生成的数据称为“匿名数据”是一种误导。
![]() (编辑:保山站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |