资源行业动态理解医学影像迁移学习

理解医学影像迁移学习

2020-01-02 | |  234 |   0

原标题:理解医学影像迁移学习   

来源:AI 研习社        链接:https://www.yanxishe.com/TextTranslation/2295


作者:Mathra Raghu,Chiyuan Zhang

目前深度学习已广泛应用于诸多领域,迁移学习已成为一种开发深度学习模型的流行技术。在迁移学习里,神经网络主要在两个阶段进行训练:

(1)预训练阶段,这一阶段网络模型通过使用大规模、多样性并且带有标签的基准数据集(如ImageNet)进行训练;(2)微调阶段,这一阶段的网络通过使用特定任务的数据集进一步训练,该数据集的带标签样例通常比预训练使用的数据集少很多。预训练帮助模型学习到广泛的特征并且重复用到特定的目标任务上。

这种两个阶段的训练范式流行于众多领域,特别是医学领域。基于这种训练范式的迁移学习背景下,众多的医学任务,从胸部x光图像的解释和眼部疾病的识别到早期老年痴呆症的检查,都在使用由ImageNet数据集预训练的标准模型进行微调。尽管迁移学习被广泛使用,但是它所形成的良好效果至今没有很好的解释。最近的一些工作在尝试解释许多普遍的假设,如模型表现改善的效果、底层架构的作用和预训练数据集类型和大小的影响,但是这些结论都是在自然图像领域的,其他特定的领域依旧留有很多问题,如医学领域。


在我们2019年发表到NeurIPS的论文“关于医疗成像当中的迁移学习的理解”当中,我们研究了在医学成像任务当中迁移学习的一些关键问题。通过细节化性能评价以及对神经网络中隐式表征的分析,我们得到了许多惊人的结论,如:

1.在医学成像的测试任务中,迁移学习的性能是受到限制的;

2.详细描述了表征是如何通过不同模型和隐藏层的训练过程演变的; 

3.特征之间独立有利于加快迁移学习的收敛速度。


性能评估

我们首先就迁移学习对模型性能的影像进行了深入的研究。我们在同样的任务上比较了使用随机初始化的进行训练的模型和使用了在ImageNet基础上进行了迁移学习训练的模型。我们研究的医学成像任务主要分为两大部分:1.通过眼底图像诊断糖尿病视网膜病变2.通过胸部X光片对五种不同类别的疾病进行分类。我们评估了各种神经网络结构,如当前在医学成像当中流行的ResNet50和Inception-v3以及另一种简单、轻量的卷积神经网络,该网络由四个或五个标准convolution-batchnorm-ReLU层组成。


在有或没有迁移学习的情况下,针对不同任务评估所有这些模型的结果为我们带来了四个主要收获:

1.出人意料的是,迁移学习不会显着影响医学成像任务的性能,从头开始训练的模型几乎与标准ImageNet迁移模型一样好。

2.在医学成像任务上,小得多的CBR模型的性能可与标准ImageNet体系结构相比。

3.由于CBR模型比标准ImageNet模型要小得多和浅得多,因此它们在ImageNet分类上的表现要差得多,这突出说明了ImageNet的性能并不表示医疗任务的性能。

4.这两个医疗任务数据集的大小比ImageNet小得多(〜200k对比〜1.2m训练图像),但是在非常小的数据范围内,可能只有数千个训练示例。我们在这种非常小的数据体制下评估了迁移学习,发现对于大型模型(ResNet),从头开始的迁移和训练之间在性能上存在较大差距,而对于较小的模型(CBR)则并非如此,这表明大型模型的设计对于ImageNet而言,对于非常小的数据体而言,它可能参数过多。


表征分析

接下来,我们研究迁移学习对神经网络学习的特征和表示形式的影像称号的程度。给定相似的性能,迁移学习是否会因为随机初始化的不同而导致不同的表示形式?预训练步骤中的知识是否可以重用?如果可以,在哪里?为了找到这些问题的答案,本研究分析并比较了经过训练以解决这些任务的不同神经网络中的隐藏表示(即在网络潜在层中学习的表示)。由于不同隐藏层的复杂性和缺乏对齐方式,因此这种定量分析可能具有挑战性。但是,最近的一种方法,基于规范相关分析(CCA)的奇异矢量规范相关分析(SVCCA;代码和教程),可以帮助克服这些困难,并可用于计算一对隐藏表示之间的相似度得分。

随机初始化训练的网络与预训练的ImageNet权重训练的网络之间,从网络的顶层潜在层(更靠近输出)计算一些隐藏表示的相似性分数。作为基准,我们还计算从不同随机初始化中获悉的表示形式的相似性得分。对于大型模型,从随机初始化中学到的表示比从转移学习中学到的表示更加相似。对于较小的模型,表示相似性评分之间存在更大的重叠。

image.png

随机初始化训练的网络和预训练ImageNet权重训练的网络(橙色)之间的表示相似性得分,以及两个不同的随机初始化训练的表示形式的基线相似性得分(蓝色)。 值越高表示相似性越高。 对于较大的模型,随机初始化中学习到的表示比通过传输学习到的表示更加相似。 对于较小的型号则不是这种情况。


随着对隐藏表达的进一步研究,大型模型和小型模型之间存在这种差异的原因变得很清楚。 大型模型通过训练(即使是随机初始化)的变化也很少。 我们执行了多个实验来说明这一点,从简单的滤波器可视化到通过微调跟踪不同层之间的变化。
当我们结合论文中所有实验的结果时,我们可以汇总一个表格,总结在(i)迁移学习,(ii)模型大小和(iii)较低/较高层对医学任务训练的影响效果。

image.png


对融合的影响:特征无关的好处和混合方法迁移学习的一个持续影响是模型收敛所需的时间大大加快。但是,在我们的代表性研究中看到了特征重用的混合结果之后,我们研究了预训练权重是否还具有其他属性,可能会导致这种加速。令人惊讶的是,我们发现了预训练的特征独立优势-权重缩放。


就像随机初始化一样,我们将神经网络的权重初始化为独立且均匀分布的(iid),但使用预训练权重的均值和方差。我们将这种初始化称为平均变量初始化,它可以保持预训练的权重缩放比例,但会破坏所有特征。相对于模型架构和任务之间的随机初始化,Mean Var Init提供了显着的加速,表明迁移学习的预训练过程也有助于调节权重。

image.png


 根据预训练的ImageNet权重、随机初始化、均值初始化初始化权重的滤波器进行的可视化效果。 只有ImageNet初始化滤波器具有预训练(类似Gabor)的结构,而Rand Init和Mean Var杂乱无效的。

回想一下,我们先前的实验表明,特征重用主要发生在最低层。 为了理解这一点,我们进行了权重输注实验,在该实验中,仅迁移了一部分预训练的权重(对应于一组连续的层而言),其余权重则被随机初始化。 将这些注入权重网络的收敛速度与完全迁移学习进行比较,进一步支持了以下结论:特征重用主要发生在最低层。


image.png


将收敛速度与测试集上的AUC进行比较的学习曲线,仅使用预训练权重的缩放(均值初始值)有助于收敛速度。 这些图将标准迁移学习和Mean Var初始化方案与随机初始化的训练进行了比较。

这表明了混合学习的迁移学习方法,而不是重新使用完整的神经网络体系结构,我们可以回收其最低层并重新设计较高层,以更好地适应目标任务。 这为我们提供了迁移学习的很多好处,同时进一步实现了灵活的模型设计。 下图为在esnet50中重用至Block2层的预训练权重,将其余通道减半,随机初始化这些层,然后进行端到端训练。 这与完全迁移学习的表现和融合相匹配。

image.png


在Resnet50(左)和CBR模型(右)上迁移学习的混合方法-重用部分权重并瘦化网络的其余部分(Slim),并对conv1使用数学合成的Gabor(合成Gabor)。


上图还显示了部分重用的极端结果,仅使用数学合成的Gabor滤波器传输了第一卷积层(如下图所示)。 仅使用这些(合成的)权重就可以显着提高速度,并暗示了许多其他创造性的混合方法。


结论和未解决的问题
迁移学习是许多领域的核心技术。 在本文中,我们提供了有关其在医学成像环境中的一些基本属性的见解,研究了性能,特征重用,不同体系结构的影响,融合和混合方法。 仍然存在许多有趣的未解决问题:模型忘记了多少原始任务? 为什么大型模型的变化较少? 我们能否获得与预训练权重统计的高阶矩匹配的进一步收益? 结果是否与其他任务(例如细分)相似? 我们期待着在未来的工作中解决这些问题!

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:多任务学习,如何设计一个更好的参数共享机制?| AAAI 2020

下一篇:俞敏洪:区块链能记录学习过程,或将取代中国高考

用户评价
全部评价

热门资源

  • 国内人才报告:机...

    近日,BOSS 直聘职业科学实验室 &BOSS 直聘研究院...

  • AI使物联网更智能...

    看到微软对物联网和人工智能的结合感兴趣是一个明...

  • 推荐一批学习自然...

    这里推荐一批学习自然语言处理相关的书籍,当然,...

  • 安防智能化大势下...

    大部分传统安防设备不仅拍摄视野有限,而且无法事...

  • 20亿创业基金、10...

    近日,杭州举办了建设国家新一代人工智能创新发展...