標本数とパラメータ数が近いときのAICcの挙動

検証用のシミュレーションを書いたり，調べ物をしてて， $AIC_c$ について気がついたことあったのでメモ．

$AIC_c$ とは

$AIC_c$ とは，モデル選択に用いられる情報量規準の1つであり，標本数 $n$ が漸近的に無限に大きくなることを仮定した $AIC$ を，有限の $n$ に修正したものである．

$AIC_c = -2l + \frac{2pn}{n-p-1} = AIC + \frac{2p(p+1)}{n-p-1}$

ここで $l$ は対象となるモデルの最大対数尤度， $p$ はパラメータ数である．

直感的に $n/p$ が小さいとき（ただし $n\gt p+1$ ）， $AIC_c$ には $AIC$ よりも強い罰則が加わり， $n/p$ が大きくなるに従って $AIC$ に近づく．

$n=p\,\,$ のときの $AIC_c$

標本数 $n$ とパラメータ数 $p$ が同じとき， $AIC_c$ の罰則項は負になり，むしろ報酬項になり得る．

$\frac{2pn}{n-p-1}\lt 0 \,\,\, if \,\,\, n = p$

この性質から， $AIC_c$ でモデル選択をする場合で，候補モデル中の最大パラメータ数 $p_{max}$ と標本数 $n$ が同じとき，その最大パラメータ数の候補モデル $M(p_{max})$ は最も当てはまりが良く，加えて $M(p_{max})$ に関してのみ罰則項が報酬項になるため，必ずその $M(p_{max})$ が選択される．

より広く $n\leq p$ のとき， $AIC_c$ の罰則項は報酬項になっているが，例えば線形回帰モデルであれば， $n \lt p$ の計画行列 $X$ では $(X^t X)^{-1}$ が求まらなそうなのであんまり意味はなさそう（線形代数力が足りなくて一般に証明は思いつかないが， $n\lt p$ のとき， $(X^t X)^{-1}$ は正則ではないと思う）．

$n=p+1\,\,$ のときの $AIC_c$

標本数 $n$ がパラメータ数 $p+1$ と同じとき， $AIC_c$ はゼロ除算になるため，基本的に定義できない．

R言語など，ゼロ除算が $a\gt 0,a/0=\infty$ と定義されている言語で $AIC_c$ を実装してモデル選択をする場合，例外でプログラムが止まることはないが， $n=p_{max}+1\,\,$ となる候補モデル中の最大パラメータ数のモデルは $AIC_c$ が無限になるため，決して選ばれなくなる．