Neural networks and deep learningの3章、 過学習と正則化 で、過学習を防ぐための手法として正則化 について述べられている。
正則化
もっとも一般的に使われる正則化のテクニック:重み減衰、またはL2正則化
コスト関数に正則化項と呼ばれる追加の項を足す。
正則化されたクロスエントロピーコスト関数:
2番目が項が追加されたもので、すべてのウェイトの二乗の和をでスケール。
正則化項はバイアスを含まない
は*正則化パラメータ*他のコスト関数、例えば二乗誤差などの場合でも同様
直感的に正則化の効果は、ネットワークが小さい重みを好むようになる
偏微分:
重みの学習ルールは次のようになる:
通常の勾配降下学習ルールで、最初に重みを係数で理スケールしたものと同じ。 このリスケールを重み減衰と呼ぶ。
正則化は過学習を防ぎ分類精度を高めるが、それ以外にも経験的には、局所最適化に陥らずに安定した結果になりやすい。
なぜ正則化が過学習を防ぐか?の直感的な解釈
L1正則化
L1正則化は、コスト関数を次のように変更する:
重みの学習は、の符号によってだけ0に向かわせる。
L2正則化と比べると、が大きい時には相対的に少なく、小さい時には多く0に向かうことになる。
結果的にL1正則化は少しの重要度の高い結合に集中し、他の重みは0に向かうようになる。