情報量規準と尤度比検定 - JosephBell’s diary

下記の論文を読んでいて面白かった点について個人メモ

academic.oup.com

AIC，BIC，ABIC，CAICなどの情報量規準(IC)は，それぞれ様々な前提や観点から導出されているが，結局のところ，2つの候補となるモデルのどちらか一方を選ぶという観点から捉えると，罰則項に対応して有意水準が定まる尤度比検定に帰着できる．
その罰則項に対応して定まる有意水準の比較は，単に情報量規準の罰則項を見るより，多パラメータをどのように許容するかを直感的に把握するのに良さそうな気がする（感想）．

少し形式的に書く．
$l$ を最大対数尤度， $n$ をデータ数， $p$ をパラメータ数とし，情報量規準を統一的に $-2l + A_{n}p$ の形式で書くと，各種の情報量規準は罰則項に含まれる $A_n$ の違いで特徴づけられる；例えばAICであれば $A_n = 2$ ，BICであれば $A_n = ln(n)$ となる(AICc等，この形式で書けない情報量規準もある)．このとき，2つの候補モデル $M_0$ と $M_1$ から $M_1$ がある情報量基準に基づいて選択されるのは，

$-2 l_1 + A_{n} p_1 \lt -2 l_0 + A_{n} p_0$

となるときであり，これを少し書き直して

$-2 (l_0 - l_1) \gt A_{n} (p_1 - p_0)$

を考えると，有意水準が $A_n (p_1 - p_0)$ の尤度比検定になる．

具体例として，2つの候補モデルのパラメータ数の差 $p_1 - p_0$ が1でデータ数 $n$ が100の場合，AICでモデルを選ぶことは有意水準0.15730で尤度比検定を実施することと同じ，BICでモデルを選ぶことは有意水準0.03188で尤度比検定を実施することと同じ；BICよりもAICの方が対応する有意水準が圧倒的に大きいことから，AICは楽観的であり，BICに比べて多パラメータをより許容することがわかる．