“大数据环境下的网络空间安全国际学术系列研讨会” 第五场:于挺教授作报告

11月22日, 卡塔尔计算研究所(QCRI)的于挺教授应邀访问信息安全系, 并作了题为”Heavy hitter estimation over set-valued data with local differential privacy”的报告。 报告会由信息安全系刘吉强教授主持,何永忠,王伟等老师以及信息安全系硕士和博士研究生等参加了报告会。

报告中,于挺教授介绍了其团队在本地差分隐私保护(LDP, Local Differential Privacy)模型下的最新研究成果。

于教授首先分析了分布式的 LDP 模型与传统的集中式 DP 模型在基本假设上的差异: 前者考虑将数据收集者(Data Collector)视为不可信任,因此就需要用户在向数据收集者提交个人数据之前先在本地加入满足差分隐私保护的噪声,最后由数据收集者从收集到的噪声数据中近似估计出群体的统计特性而不会推断出用户个体的统计特性。目前,LDP 模型下的研究主要是基于随机应答(Randomized Response)技术,该技术已被Google和Apple公司应用到各自的产品中。

yuting

于挺教授在做报告

现有的基于随机应答技术的 LDP 机制在面向数据挖掘应用时具有普遍的局限性,这体现在用户的数据类型局限于数值型或范围型,而数据收集者的数据挖掘任务局限于计算基本统计数值如计数或求中位值等。对此, 于教授团队提出了 LDPMiner 机制. 这种机制可有效处理集值数据(Set-Valued Data)上的流式频繁项挖掘(Heavy Hitter Mining)任务,大大拓展了基于随机应答技术的LDP机制在隐私数据挖掘(Privacy-Preserving Data Mining)场景中的适用范围。

具体来说,现有的 RAPPOR 机制和 SH 在通信开销和数据精确度方面存在缺陷,难以直接扩展到对集值数据的流式频繁项挖掘任务中去。基于对该挖掘任务目标的特别观察,于教授团队所提出的 LDPMiner 方法将任务分成两个子处理过程。在第一个子处理过程中,LDPMiner中的 Sampling SH 算法完成对流式频繁项的主成分识别工作,从噪声数据中初步确定流式频繁项的选值范围。第二个子处理过程中,LDPMiner 中的 Sampling RAPPOR 算法对前一过程的结果进行频数估计上的调优处理,得到相比单一处理过程更为精确的流式频繁项结果。该项研究成果也已发表在CCS 2016中。

最后,于教授详细地向老师和同学们阐释了实验设计过程和实验结果分析,也给出了开展后续工作的思路。于教授接下来还与博士生进行了座谈,分别对多个博士生的工作进行了细致的指导。

于挺教授简历: Ting Yu is a senior scientist in the cyber security group of Qatar Computer Research Institute (QCRI), Hamad Bin Khalifa University. Before joining QCRI in 2013, he was an associate professor in the faculty of Computer Science Department, North Carolina State University. He obtained his BS from Peking University in 1997, MS from Minnesota University in 1998, and PhD from the University of Illinois at Urbana-Champaign in 2003, all in computer science. He is a recipient of the NSF CAREER Award in 2007. His research areas focus on privacy preserving data analysis, data anonymization, and security analytics.ting-doha-lightblue