昨日の記事のニューラルネットの絵は以下です。最後のレイヤーは目標値との2乗損失をとっています。
上の絵をみながら、ネットワーク中の状態やパラメータに対して損失の勾配を求めると以下です。状態やパラメータがベクトルや行列の場合は一つの成分について求めてから行列演算が利用できるよう考えてまとめます(ピンク色)。最初からまとめた形式でやる公式があるかもしれませんが私はわかりません。
上のピンク色の式を検算したのが以下です。
だから何なのかというと仮にこのモデルの2層目だけを乱数初期化で固定します(訓練しません)とするとき、以下のグレー勾配の計算(及びその勾配による重みの更新)はしなくてよいことになると思います。ただし1層目は固定しないならば1層目には を通じて誤差逆伝播すると思います。