IMADA实验室研究成果被《中国科学▪信息科学》期刊录用

更新时间:2023-02-21

数据管理与智能分析实验室(Imada)关于高维隐私数据查询分析的论文被《中国科学▪信息科学》期刊录用。《中国科学▪信息科学》是计算机科学与技术、控制科学与控制工程、通信与信息系统、电子科学与技术等多个领域的知名期刊,也是中国计算机学会(CCF)-中文A类期刊,同时也是校级特类期刊。

论文题目:

基于层次结构的隐私多维分析查询算法

Answering private multi-dimensional analytical queries with hierarchical structure

论文作者:

张啸剑, 周丹, 徐雅鑫, 林东岱, 纪守领, 孟小峰

研究背景:

人工智能技术的高速发展使得多维数据的收集与分析变得尤为容易, 例如在线购物, 医疗, 金融等数据的收集与分析。通过收集与分析用户的个人数据可以改变企业产品与设备的服务质量, 向用户提供个性化服务。然而, 多维数据通常蕴含着丰富的个人敏感信息, 在提供给收集者或者第三方时,个人的敏感信息有可能被泄露。现有基于最优局部哈希(OLH: Optimal Local Hashing)机制与层次树结构的扰动方法存在泄漏根结点隐私的风险。

解决方案:

针对现有结合层次树结构的本地扰动机制不足, 提出了一种有效且满足本地化差分隐私的MDA查询算法H4MDA, 该算法充分利用层次树的横向与纵向结构特征设计了三种基于用户分组策略的本地扰动算法HGRR,LGRR-FD以及LGRR。HGRR算法结合层次树横向结构与GRR机制本地扰动用户元组数据, 通过摈弃根结点组合来响应MDA查询。不同于HGRR算法, LGRR-FD算法利用层次树的纵向结构与GRR机制扰动本地数据,同时通过添加假数据来避免叶子结点的隐私泄露。LGRR算法通过摈弃叶子结点层纵向扰动本地数据。收集者结合LGRR算法的扰动结果利用局部一致性处理技术重构层次树最后两层, 通过添加虚拟叶子结点来响应MDA查询, 而虚拟叶子结点计数之和等于其父节点计数。HGRR, LGRR-FD以及LGRR算法与现有扰动算法在三种数据集上实验结果表明, 其响应MDA查询的精度优于同类算法。

部分实验结果

论文信息:

张啸剑, 周丹, 徐雅鑫, 林东岱, 纪守领, 孟小峰. 基于层次结构的隐私多维分析查询算法. 《中国科学▪信息科学》, 2023, https://www.sciengine.com/SSI/doi/10.1360/SSI-2022-0310