使用说明
第一步:上传文件
点击选择文件
按钮,上传xlsx格式的表格数据文件,选择相关操作设置,点击上传文件
按钮。如点击全部删除
按钮,网站会删除所有数据文件和运行结果(本网站不会保存任何用户文件)。
第二步:调整属性类型
上传数据文件后,属性类型
模块会显示数据集的属性信息,包括:属性名
、非空占比(%)
和属性类别(处理方式)
。如不把第一行作为属性名,并且选择了自动识别属性,则会根据属性值自动识别部分属性名。非空占比(%)
列统计了该列未缺失值占比。属性类别(处理方式)
包括六种:①其他(保留);②隐私属性(根据行业标准删除);③主键(MD5加密);④数值型准标识符;⑤类别型准标识符;⑥全空列(直接删除)。其中,“根据行业标准删除”是指根据《信息安全技术 健康医疗数据安全指南》的条例,该属性应该被删除。
用户也可自行修改自动识别结果,点击每个属性的属性类别(处理方式)
,从下拉框中选择其他的属性类型。
第三步:选择算法并设定参数
本网站搭载了七种匿名算法:K匿名、L多样性、T相近性、差分隐私、混淆(随机)、混淆(加权)和混淆(相似度)。此外,这七种算法以及混淆(PrivCheck)、对抗样本和对抗训练共计十种算法均已在GitHub仓库DataGuard开源。
用户点击算法选择
下拉框,即可选择算法,在下面的选择框中可填写对应的算法参数,控制隐私保护程度。还可以指定隐私属性和效用属性,用于算法运行和算法评估。
第四步:选择评价指标
在运行结果
的效果评估模块可以分别选择隐私和效用属性,点击提交
按钮,右侧即会出现对应的隐私和效用评估图表。
第五步:下载数据文件和报告
点击运行后,在运行结果
模块将会出现对应报告和隐私化处理后的数据文件下载按钮。