8月25日-29日在西班牙巴塞罗那召开的第30届ACM知识发现与数据挖掘大会(KDD2024)上,我校计算机科学与技术学院、认知智能全国重点实验室与华为合作发表的论文“Dataset Regeneration for Sequential Recommendation”,获2024年大会Research Track唯一最佳学生论文奖。
序列推荐研究的是人工智能预训练的下一个标记预测(nexttoken prediction)问题。现有的序列推荐方法常关注于设计复杂的模型结构或训练策略,属于以模型为中心的范式,该范式忽视了数据中潜存的质量问题。论文首次从以数据为中心的视角出发,关注如何获得信息丰富且泛化性强的训练数据集,以提升训练数据质量最终提升模型性能。论文提出了数据集重生成框架,通过多样化重生成器的预训练及生成式推理,将原始的序列数据集转化为更易于训练的数据集,使不同的基础预测架构模型在其上训练都可以得到更好的推荐效果,引领了序列推荐以数据中心的新范式。
ACM KDD是数据挖掘旗舰会议,也是中国计算机学会(CCF)推荐的A类国际学术会议,在数据挖掘领域享有极高的声誉,对研究成果的创新性、技术领先性、系统完备性以及写作水平有着极其苛刻的要求。KDD大会至今已成功举办30届,包含了ResearchTrack和AppliedDataScienceTrack,每年都吸引大量来自世界各地的学术界、工业界专业人士参与。KDD 2024ResearchTrack共收到2046篇论文投稿,收录411篇口头报告论文。每年被录用的ResearchTrack论文中,仅有一篇优秀论文被评选为最佳论文(Best Paper)、一篇以学生为第一作者的优秀论文被评选为最佳学生论文(Best Student Paper)。自KDD于2004年设立该奖项以来,陈恩红教授团队共获得三次最佳论文获奖(KDD2008最佳应用论文奖、KDD2018最佳学生论文奖、KDD2024最佳学生论文奖),其中国内高校获得的两次最佳学生论文奖均来自陈恩红教授团队。
论文第一作者是开云手机登录入口,开云(中国)博士生尹铭佳同学,由陈恩红教授与王皓特任副研究员共同指导,连德富教授参与了论文的相关工作。该研究工作得到了国家自然科学基金项目的资助和支持。
文章链接:https://dl.acm.org/doi/10.1145/3637528.3671841