近期,我校大数据学院黄贻望教授在《计算机研究与发展》上发表学术论文《一种基于在线蒸馏的轻量化噪声标签学习方法》。黄贻望教授为本文的第一作者且通讯作者,合著作者为福建理工大学2021级电子信息研究生黄雨鑫以及大数据学院刘声教授。
本文聚焦机器学习中的研究热点——利用含有有损标签的噪声数据来训练深度学习模型。相关研究表明深度学习模型训练易受噪声数据的影响而产生过拟合现象。近年来,一种将元学习与标签校正相结合的方法能够使模型更好地适应噪声数据以减缓过拟合现象,然而这种元标签校正方法依赖于模型的性能,同时轻量化模型在噪声数据下不具备良好的泛化性能。针对这一问题,提出一种采用知识蒸馏的轻量化噪声元标签校正学习方法(knowledge distillation-based meta-label correction learning, KDMLC),该方法将深度神经网络与多层感知机构成的元标签校正(meta label correction, MLC)模型视为教师模型,对噪声标签进行校正并指导轻量化模型进行训练,同时采用双层优化策略训练并增强教师模型的泛化能力,从而生成更高质量的伪标签用于训练轻量化模型。实验表明,KDMLC在高噪声水平下对比MLC方法测试精度提高了5.5%;同时对 CIFAR10数据集使用Cutout数据增强,KDMLC 在高噪声水平下对比MLC 测试精度提升了9.11%,而在真实噪声数据集Clothing1M上的实验KDMLC方法也优于其他方法,验证了KDMLC方法的可行性和有效性。
《计算机研究与发展》是中国科学院计算技术研究所和中国计算机学会联合主办的学术性期刊,科学出版社出版,国内外公开发行,月刊,每期刊文10余篇。多年来,该刊一直被评为我国计算机类核心期刊(计算机类三大学报之一)、中国精品科技期刊,是国务院学位办指定的评估学位与研究生教育的“中文重要期刊”;已被多个国际著名的检索系统收录,如美国《工程索引》(EI)、日本《科学文献速报》、俄罗斯《文摘杂志》等;其影响因子和总被引频次在同类学术期刊中名列前茅。中国计算机学会CCF推荐A类中文期刊、计算领域高质量科技期刊T1类。
(供稿:大数据学院 编辑:张东方 一审:田淼 二审:梁光华 三审:叶丹)
论文首页截图