如何在不实际看到的情况下使用敏感(个人)数据?

数据挖掘 数据集
2022-02-25 06:10:50

我目前正在从事一个包含敏感数据的项目。我可以在单个平台(公司 PC)上查看数据,但在该平台之外我无法处理它。我想用数据训练 ML 算法,但要这样做,我必须使用不同的 PC。我无法处理那台 PC 上的数据。

无论如何,是否可以以仍可用于 ML 的格式翻译和保存数据,但不是以明确的原始形式?

2个回答

您可以使用以下技术来屏蔽敏感数据:

  • 替换密码- 给定固定字符集中的纯文本的任何字符都被同一集中的其他字符替换,具体取决于密钥。

  • 标记化屏蔽 - 根据您在算法中指定的标准屏蔽源字符串数据。

  • 主成分分析 (PCA)或其他降维技术 - 结合几个特征,然后仅对生成的 PCA 向量进行 ML 训练。

  • 数据粗化 - 降低数据的精度或粒度,使识别数据集中的敏感数据变得更加困难。

另外,请阅读 Wikipedia 上的数据屏蔽

差分隐私您可以在哪里注入有针对性的噪声,使数据匿名,但您仍然可以进行推断。