未分类
43k 词
探秘Transformer系列之(14)--- 残差网络和归一化 目录 探秘Transformer系列之(14)--- 残差网络和归一化 0x00 概述 0x01 残差连接 1.1 问题 1.2 相关知识 shortcut connections 恒等映射 1.3 网络结构 论文V1 论文V2 1.4 功用 梯度消失 缓解退化 层间修正 掩码 VS 残差 0x02 归一化 2.1 问题 2.2 定义 2.3 类型 0x03 BatchNorm 3.1 公式 3.2 作用 3.3 PyTorch使用 3.4 问题 0x04 layerNorm 4.1 解决方案 4.2 公式 4.3 作用 4.4 LN和BN的差异 作用对象 作用方向 业务选择 CV NLP 具体实现 4.5 Post-Norm VS Pre-Norm 概念 论文实现 Post-Norm 难以训练 需要热身 Pre-Norm 小结 0x05 扩展比对 5.1 Instance Norm 5.2 GroupNorm 5.3 比对 类比 细节 0x06 实现 6....