標本数とパラメータ数が近いときのAICcの挙動
検証用のシミュレーションを書いたり,調べ物をしてて,について気がついたことあったのでメモ.
とは
とは,モデル選択に用いられる情報量規準の1つであり,標本数が漸近的に無限に大きくなることを仮定したを,有限のに修正したものである.
ここでは対象となるモデルの最大対数尤度,はパラメータ数である.
直感的にが小さいとき(ただし),にはよりも強い罰則が加わり,が大きくなるに従ってに近づく.
のときの
標本数とパラメータ数が同じとき,の罰則項は負になり,むしろ報酬項になり得る.
この性質から,でモデル選択をする場合で,候補モデル中の最大パラメータ数と標本数が同じとき,その最大パラメータ数の候補モデルは最も当てはまりが良く,加えてに関してのみ罰則項が報酬項になるため,必ずそのが選択される.
より広くのとき,の罰則項は報酬項になっているが,例えば線形回帰モデルであれば,の計画行列ではが求まらなそうなのであんまり意味はなさそう(線形代数力が足りなくて一般に証明は思いつかないが,のとき,は正則ではないと思う).
のときの
標本数がパラメータ数と同じとき,はゼロ除算になるため,基本的に定義できない.
R言語など,ゼロ除算がと定義されている言語でを実装してモデル選択をする場合,例外でプログラムが止まることはないが,となる候補モデル中の最大パラメータ数のモデルはが無限になるため,決して選ばれなくなる.
の使用について
一般に情報量規準が罰則項で意図しているモデル選択上のparsimonyは,においてで成り立たない(実装によっては最悪例外が飛ぶ).なのではでの使用が推奨されると思う.
でを使用した実例
先に説明したにおけるの挙動は式を見ればすぐ気がつくことができるものである.だが上の論文ではプロットのみから挙動を論じたため,この点について解釈間違いをしているようである.結論とは関わりのない些細な部分ではあるので大筋に影響はないが.