手机网站开发需要哪些技术,电影宣传网站开发设计,用织梦做领券网站,普洱高端网站建设价格基于方差缩放的参数初始化
方差缩放方法能够根据神经元的链接数量来自适应地调整初始化分布地方差#xff0c;尽可能的保证每个神经元的输入和输出方差一致。
那么#xff0c;为什么要保证前后方差的一致性呢#xff1f;
这是因为如果输入空间和输出空间的方差差别较大尽可能的保证每个神经元的输入和输出方差一致。
那么为什么要保证前后方差的一致性呢
这是因为如果输入空间和输出空间的方差差别较大也就是说数据空间分布差异较大那么在反向传播时可能会引起梯度消失或爆炸问题。 比如当输入空间稀疏输出空间稠密时将在输出空间计算得到的误差反向传播给输入空间时这个误差可能会显得微不足道从而引起梯度消失。而当输入空间稠密输出空间稀疏时将误差反向传播给输入空间就可能会引起梯度爆炸使得模型震荡。 参考
深度学习基础入门篇[六]模型调优学习率设置Warm Up、loss自适应衰减等batch size调优技巧基于方差放缩初始化方法。-腾讯云开发者社区-腾讯云 (tencent.com)