1、国内首个开源安全数据发布平台
- 根据调研,国内目前的数据发布平台主要使用了较为传统的脱敏技术,几乎没有使用数据匿名化技术和隐私保护算法,难以抵御现有的一些攻击(如链接攻击、同质攻击等),带来隐私泄露的风险
- 本项目开发了一个国产的、集成传统和先进数据保护技术的、提供全面评估指标的数据保护平台,可以率先填补这一空白
2、传统的数据保护技术与先进的人工智能算法相结合
- 基于传统的数据脱敏技术,如MD5加密、数据抑制、数据泛化,对数据进行初步的处理,达到最基本的隐私要求
- 对攻击场景周密考虑,使用多种数据匿名算法,如K-匿名、L-多样性、T-亲密性、DP差分隐私,以实现对数据的全面保护
- 为了应对基于先进机器学习技术的攻击手段,我们引入人工智能技术,设计对应的防御措施,实现对数据最严密的智能化保护
3、立足于医疗行业规范
- 平台立足于现行的国家医疗数据安全法规要求(《信息安全技术 健康医疗数据安全指南》(国标GB/T 39725-2020)等)以及医疗行业数据使用规范(《基于人工智能的多中心医疗数据协同分析平台参考架构》(行标YD/T 4043-2022)等),对数据集属性进行了预标注,使得发布的数据可以自动满足行业规范
4、面向使用者,实现个性化定制
- 平台基于医疗领域知识和医疗行业数据规范标准对属性进行了预标注,能够对用户提交数据中的敏感数据进行自动识别,帮助用户明确需求
- 平台支持用户自定义敏感属性和准标识符,以及匿名化的程度,基于用户的不同需求对数据匿名处理
- 对于不清楚匿名化程度设定值的用户,平台自动选取一系列的取值并评估不同匿名化数据集的效用损失和风险大小,并推荐最优取值,用户可以根据自己的需要选择合适的匿名化数据集
5、全面的数据效用与风险评估报告
- 自动生成的报告给出了数据集的整体统计信息,以及每一列属性的统计信息和对应的保护措施
- 报告展示了匿名后数据损失的效用(泛化信息损失、分辨力指标、平均等价类指标)和被攻击的风险(检察官攻击风险等多项指标)
- 报告还基于效用和风险权衡指标为用户智能化推荐了合适的匿名化数据集,使得风险较低的同时效用损失也较少
6、平台多样,满足不同需求
- 网页平台提供即用式服务,用户无需环境部署和代码调试,直接上传文件并设置参数,即可得到处理后符合行业规范的数据以及详尽的PDF分析报告
- GitHub平台也提供了模型的开源代码,打消用户对本项目在隐私泄露方面的疑虑。此外,将项目开源也能够并吸引更多从业者的维护,帮助本项目在其他相关应用场景中进一步发展