资源行业动态如何用无监督数据增扩推进半监督学习?

如何用无监督数据增扩推进半监督学习?

2019-11-22 | |  146 |   0

原标题:如何用无监督数据增扩推进半监督学习?

来源:AI 研习社          链接:https://www.yanxishe.com/TextTranslation/1937


深度学习的成功,很大程度上取决于一些关键的因素,例如算法的先进性,并行处理硬件(GPU/TPU),以及大规模的已标注数据集(例如ImageNet)。然而,当标注数据稀缺时,你很难让你的神经网络得到良好的训练和表现。在一些场景中,你可以通过数据增强的方式来有效地增加标记数据的数量,例如文本翻译或是旋转图片的方式。最近,在自然图像处理(NLP)、计算机视觉、语音处理等各领域,数据增强的方法取得了重大的进展。不幸的是,数据增强往往仅限于监督学习,只是将原始的训练样本(带标注)变换到增广的样本。

01.png

                               数据增强的方法实例:基于文本的(顶部)和基于图片的(底部)训练数据


在我们最近的工作 “面向一致性训练的无监督数据增强” 中,我们阐述了再无标注数据中也可以通过数据增强来显著提升半监督学习(SSL)的表现。我们的结果也支持半监督学习近期的流行,结果显示(1)在多个数量级的标注数据数量下,SSL能够赶上甚至超过纯粹的监督学习;(2)SSL在文本处理和图像视觉方面均有良好的表现;(3)SSL能很好地与迁移学习进行结合,例如应用于BERT模型的微调中。我们开源了我们的代码(github),以便社区能够复现和进一步利用我们的结果。


无监督数据增强解释


无监督数据增强(UDA)同时使用了标记数据和未标记数据。 要使用标记的数据,它将使用监督学习的标准方法来计算模型的损失函数,以训练模型,如下图的左侧所示。 对于未标记的数据,应用一致性训练以使预测对于未标记的示例和扩展的未标记的示例相似,如该图的右侧所示。 在此,将相同的模型应用于未标记的示例及其增强的对应项,以产生两个模型预测,从中可以计算出一致性损失(即,两个预测分布之间的距离)。 然后,UDA通过联合优化标记数据中的监督损失和未标记数据中的无监督一致性损失来计算最终损失。

02.jpg

无监督数据增强(UDA)的概述。左:标准监督损失是在有标记数据时计算的。右:使用未标记的数据,计算示例与其增强版本之间的一致性损失。


通过最小化一致性损失,UDA允许标签信息从标记的示例平稳地传播到未标记的示例。 凭直觉,可以将UDA视为一个隐式的迭代过程。 首先,模型依靠少量标记的示例对一些未标记的示例做出正确的预测,然后通过一致性损失将标记信息从中传播到增强的对应对象。 随着时间的流逝,将正确预测越来越多的未标记示例,这反映了模型的改进泛化性。 为了进行一致性训练,已经测试了各种其他类型的噪声(例如,高斯噪声,对抗噪声和其他噪声),但是我们发现数据增强的性能优于所有噪声,从而在各种噪声上都具有最先进的性能 从语言到视觉的任务。 UDA根据手头的任务应用不同的现有增强方法,包括反向传递,自动增强和TF-IDF单词替换。


NLP和计算机视觉的基准


UDA在小数据体制中出奇地有效。 仅使用20个标记示例,UDA通过利用50,000个未标记示例,在IMDb情感分析任务上的错误率达到4.20。 该结果优于之前在25,000个带标签的示例上训练的最新模型的错误率为4.32。 在大数据体制下,通过全面的训练,UDA还提供了可观的精度提升。

03.png

IMDb情绪分析任务的基准。 在不同的训练规模下,UDA在监督学习方面都超过了最新水平。


CIFAR-10半监督学习基准上,UDA的表现大大超过了所有现有SSL方法,例如VATICT。 通过4k示例,UDA的错误率达到5.27,与使用50k示例的完全监督模型的性能相匹配。 此外,凭借更先进的体系结构PyramidNet + ShakeDrop,UDA达到了2.7的最新错误率,与之前的最佳半监督结果相比,错误率降低了45%以上。 在SVHN上,UDA仅用1k标记的示例实现了2.46的错误率,与使用约70k标记的示例训练的完全监督模型的性能相匹配。

04.jpg


CIFAR-10(图像分类任务)上的SSL基准。 UDA替代了现有的半监督学习方法,所有方法均使用Wide-ResNet-28-2体系结构。 UDA使用4,000个示例应用了AutoAugment发现的增强策略。 在此样本量下,它与50,000个示例的完全监督设置的性能匹配。 在带有较少标记示例的情况下,将应用相同的增强策略。

在带有10%标记示例的ImageNet上,UDA将top-1准确性从55.1%提高到68.7%。 在具有完全标记集和130万个额外未标记示例的高数据方案中,UDA继续提供前1位准确性的78.3%至79.0%的提升。


发布

我们已经发布了UDA的代码,以及所有数据增强方法(例如,使用预训练的翻译模型进行反向传递)来复制我们的结果。 我们希望此版本将进一步推动半监督学习的进展。


致谢

特别要感谢戴自行,Eduard Hovy和Quoc V. Le的论文的共同作者。 我们还要感谢Hieu Pham,Adams Wei Yu,Yilin Yang,Colin Raffel,Olga Wichrowska,Ekin Dogus Cubuk,Guokun Lai,谢家腾,杜玉伦,Trieu Trinh,赵然,Ola Spyra,杨致远,彭大毅 ,Andrew Dai,Samy Bengio和Jeff Dean在该项目中的帮助。 在线提供预印本。

-------------------------------------------------------------------------------

发起:唐里 校对:唐里 审核:鸢尾

参与翻译(2人):天字一号、song_data

英文原文:Advancing Semi-supervised Learning with Unsupervised Data Augmentation

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:深度学习时序分析概览

下一篇:最全面的贝叶斯机器学习入门教程

用户评价
全部评价

热门资源

  • 国内人才报告:机...

    近日,BOSS 直聘职业科学实验室 &BOSS 直聘研究院...

  • AI使物联网更智能...

    看到微软对物联网和人工智能的结合感兴趣是一个明...

  • 推荐一批学习自然...

    这里推荐一批学习自然语言处理相关的书籍,当然,...

  • 安防智能化大势下...

    大部分传统安防设备不仅拍摄视野有限,而且无法事...

  • 20亿创业基金、10...

    近日,杭州举办了建设国家新一代人工智能创新发展...