“大数据环境下的网络空间安全国际学术系列研讨会” 第三场:张响亮副教授作报告

 

信息安全系近期举办“大数据环境下的网络空间安全国际学术系列研讨会”,邀请国际著名青年学者来作报告并参加交流。7 月 7 日,系列研讨会第三场邀请沙特阿拉伯阿卜杜拉国王科技大学(King Abdullah University of Science and Technology (KAUST))张响亮助理教授作报告。报告题目是“Mining Streaming and Temporal Data: from Representation to Knowledge”。

互联网时代,每一分钟都有海量数据产生;然而数据并不是信息也不是知识。如何从数据中提炼信息,从信息中获取知识,进而增加人类的智慧,为未来发展决策提供帮助,是张教授所带领团队的研究方向。在这次报告中,张老师通过三个实际问题向我们介绍了其团队在大规模复杂流数据中数据表达(Data Representation)和知识发现(Knowledge Discovery)两个方面的研究和探索。

问题一关于人运动轨迹数据的数据表达和知识发现。轨迹数据表达的目标是从轨迹数据中提炼出具有丰富信息的、形式紧凑简洁的、有用的用户表达方式,从而将用户置于一个共同空间内,使用户间比较、用户标签推断以及个性化推荐成为可能。然而,轨迹数据的几个特点给轨迹数据表达造成了困难,例如其稀疏性、采样率的无规则、数据长度的不确定以及时间相关特点。现有轨迹数据表达方法或者非常耗时并严重依赖专家知识,或者丢失了路径点的访问时序信息。张老师介绍了一种基于概率图模型的轨迹数据表达方式1。轨迹数据中蕴含着一些主题(motifs),如工作,娱乐,就餐等等。所提模型能够从用户轨迹数据中学习出这些主题在时间上的分布以及用户所去地点在主题上的分布,能够克服用户活跃程度不同或地点的流行程度不同带来的问题,而且考虑了轨迹数据的附加特征(如访问时间和顺序等)。接着,张老师介绍了在该模型基础上如何发现用户主题、判定用户年龄和性别以及预测用户路径等问题。

问题二关于流数据的动态密度估计及其上的异常检测和变化检测。现有的基于直方图的方法缺点是函数不连续并且对采样频率敏感;基于核函数的密度估计方法缺点是对于在线估计问题时间复杂度过高。张老师介绍了一种结合线性插值和自适应重采样的核函数密度估计方法, KDE-Track 2。其基本思想是在被估计函数曲率高的地方多采样,在函数接近线性的部分少采样,从而降低了差值带来的错误率并且减轻了模型负担。该模型应用在异常检测和变化检测上具有很好的效果。

 

DSC04639

张老师在作报告

问题三是时间序列数据的在线分段线性近似问题。给定错误上界 δ 和流数据 S ,最优分段线性表达(PLR,Piecewise Linear Representation)问题就是如何用最少数量的线段构造一个错误不超过 δ 的 S 的近似。为了在在线条件下做分段线性近似,张老师介绍的模型对每个新数据点维护一组极限线段和凸包,在需要时更新极限线段和凸包,从而在线性时间复杂度下得到了较优的近似效果。模型应用在流数据的相关性检测问题上得到了很好的结果。

张老师对三个问题清晰条理的介绍让在座同学和老师对数据表达和知识发现有了直观且深入的理解。老师同学们和张老师关于报告内容作了热烈的讨论。

实验室与张响亮老师团队有密切的合作,张老师欢迎有能力的同学去实习或交流。

张响亮老师目前是阿卜杜拉国王科技大学机器智能和知识工程实验室(MINE,Machine Intelligence & kNowledge Engineering)负责人,她的研究兴趣包括机器智能和知识发现与管理。详细信息请见张老师主页

 

1 相关工作发表在人工智能顶级会议 AAAI’16 上, PDF
2 相关工作发表在数据挖掘顶级会议 CIKM’12,KDD’15 上, PDF1, PDF2