资源经验分享softmax求导、cross-entropy求导及label smoothing

softmax求导、cross-entropy求导及label smoothing

2019-11-28 | |  79 |   0

原标题:softmax求导、cross-entropy求导及label smoothing

原文来自:博客园      原文链接:https://www.cnblogs.com/Peyton-Li/p/11138465.html


softmax求导

softmax层的输出为

01.png

其中,02.png表示第L层第j个神经元的输入,03.png表示第L层第j个神经元的输出,e表示自然常数。

现在求04.png05.png的导数,

如果j=i,

06.png

        07.png   1

如果ji,

08.png  2

 

cross-entropy求导

loss function为

09.png

softmax层的输入求导,如下

10.png

        11.png

        12.png

        13.png 

 

label smoothing

对于ground truth为one-hot的情况,使用模型去拟合这样的函数具有两个问题:首先,无法保证模型的泛化能力,容易导致过拟合; 其次,全概率和零概率将鼓励所属类别和非所属类别之间的差距会被尽可能拉大,因为模型太过相信自己的预测了。

为了解决这一问题,使得模型没有那么肯定,提出了label smoothing。

原ground truth为14.png,添加一个与样本无关的分布15.png,得到

16.png 

17.png表示预测结果,则loss function为

18.png

label smoothing是论文《Rethinking the Inception Architecture for Computer Vision》中提出的,文中表明,使用label smoothing后结果有一定程度的提升。在论文中,19.png,k表示类别,20.png

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:人工智能06 能计划的agent

下一篇:人工智能05 计算机视觉

用户评价
全部评价

热门资源

  • Python 爬虫(二)...

    所谓爬虫就是模拟客户端发送网络请求,获取网络响...

  • TensorFlow从1到2...

    原文第四篇中,我们介绍了官方的入门案例MNIST,功...

  • TensorFlow从1到2...

    “回归”这个词,既是Regression算法的名称,也代表...

  • 机器学习中的熵、...

    熵 (entropy) 这一词最初来源于热力学。1948年,克...

  • TensorFlow2.0(10...

    前面的博客中我们说过,在加载数据和预处理数据时...