使用说明

下载医保示例数据     下载医疗示例数据     下载其他示例数据

第一步:上传文件

点击选择文件按钮,上传xlsx格式的表格数据文件,选择相关操作设置,点击上传文件按钮。如点击全部删除按钮,网站会删除所有数据文件和运行结果(本网站不会保存任何用户文件)。

第二步:调整属性类型

上传数据文件后,属性类型模块会显示数据集的属性信息,包括:属性名非空占比(%)属性类别(处理方式)。如不把第一行作为属性名,并且选择了自动识别属性,则会根据属性值自动识别部分属性名。非空占比(%)列统计了该列未缺失值占比。属性类别(处理方式)包括六种:①其他(保留);②隐私属性(根据行业标准删除);③主键(MD5加密);④数值型准标识符;⑤类别型准标识符;⑥全空列(直接删除)。其中,“根据行业标准删除”是指根据《信息安全技术 健康医疗数据安全指南》的条例,该属性应该被删除。

用户也可自行修改自动识别结果,点击每个属性的属性类别(处理方式),从下拉框中选择其他的属性类型。

第三步:选择算法并设定参数

本网站搭载了七种匿名算法:K匿名L多样性T相近性差分隐私混淆(随机)混淆(加权)混淆(相似度)。此外,这七种算法以及混淆(PrivCheck)对抗样本对抗训练共计十种算法均已在GitHub仓库DataGuard开源。

用户点击算法选择下拉框,即可选择算法,在下面的选择框中可填写对应的算法参数,控制隐私保护程度。还可以指定隐私属性和效用属性,用于算法运行和算法评估。

第四步:选择评价指标

运行结果的效果评估模块可以分别选择隐私和效用属性,点击提交按钮,右侧即会出现对应的隐私和效用评估图表。

第五步:下载数据文件和报告

点击运行后,在运行结果模块将会出现对应报告和隐私化处理后的数据文件下载按钮。

效果展示

点击查看示例报告

匿名前后数据对比: