99ln(99/e)

人生のログ(にしたい)。本のメモや感想を中心に。

『情報量基準』

 

情報量規準 (シリーズ・予測と発見の科学)

情報量規準 (シリーズ・予測と発見の科学)

 

 いい本です。借りて読んだけれどそのうち買おう。

 

1章:統計的モデリングの考え方

「統計的モデリングの目的は、現在のデータを忠実に記述することや「真の分布」を推定することにあるのではなく、将来得られるデータをできるだけ精確に予測すること」と赤池の指摘が要約されている。過学習を避けて汎化能力を上げることは大事。で、その汎化能力をカルバック・ライブラ情報量で評価するというのが情報量基準の基本の考え方っぽい。

ちなみに正則化項を付与する推定方法を純然な統計学の本で初めて見た(勉強不足なだけでは)。

 

2章:統計的モデル

分布関数とはや種々の分布や回帰モデルの紹介から始まる。スプラインでのフィッティングってそんなことやってたんだと素朴に思った。時系列分析も空間モデルもまあ結局変数が違うだけでただの条件付き分布なんだよな。あと制御っぽい講義でやってる状態空間モデルがここでも出てくるのかとか、空間モデルの話は面白そうというかまんま多体問題やんけとか。

 

3章:情報量基準

KLdは平均対数尤度の差に分解できるから分布間の近さのようなものの尺度に丁度よくて、経験分布関数の対数尤度もサンプル無限大の極限で平均対数尤度に確率収束するから、最尤法で対数尤度が出てくるのは自然。関係ないけど最尤法は入門書だとだいたい対数を取らないと計算が面倒くさいからだとか書いてある印象がある。対数尤度はフィッシャー情報量(行列)も対数尤度関数の微分の期待値の2乗だから(というかKLdの近似値なんだな)大事な量だしさらに言えばexp(-βH)が念頭にあれば自然というか。

あとニュートンラフソン法などの紹介中心極限定理とかやったところで満を持しての情報量基準。比較の尺度としての最大対数尤度は、バイアスの大きさがパラメータの次元によって異なってよくないからパラメータの次元に応じたペナルティが必要。

 情報量基準の一般形は-2(統計モデルの対数尤度−バイアスの推定量)で、バイアスの推定量次第でTICやAICが導ける。とくに統計モデルのパラメータ空間の中に真の分布が含まれていると仮定すれば、漸近的にバイアスの推定量がモデルの自由度になっていて、これがAIC。あとは具体例。

 

4章:統計的汎関数

要約になっていない要約がダルくなってきたので割愛というかここはむつかしくて分かってない。統計的汎関数を定義して何やかんやすると一般化情報量基準を導出できて、このGICが正則化法や非線形モデルでの情報量基準として使えるっぽい。 

5章:ブートストラップ情報量基準

経験分布関数を使って何度も復元抽出を行うのがブートストラップ法という認識しかなかった。いや信頼区間を構成できたり何か色々都合がいいらしいくらいまでは聞いてたような。ブートストラップ法を用いるとブートストラップ法を使ったときのバイアスの推定量の形に当然なるので情報量基準もブートストラップ法専用のが必要っぽい

 

6章:ベイズ型情報量基準

ラプラス近似の導出が丁寧に載っていて助かる。BIC,MDLはともかくGBIC,ABIC,PICと出てきて少しだるくなる。BICはあくまで最尤法によって推定されたモデルの評価基準で、データ数が十分大のもとで事後確率をラプラス近似したものだから正則化法には使えないので拡張していく流れ。最小符号語長がBICと同じになるのは面白い。

 

7章:様々なモデル評価基準

クロスバリデーションとかMallow's C_pとかその辺。Mallow's C_pはAICの特殊な場合という認識しかなかったな。