赤池情報量規準の導出

Cavanaugh and Neath (2018)を読んで得た理解のまとめ.
以下の導出の最終的な主張は文献よりも弱く見えるが,これは自分が理解している範囲で正しい結果に留めた結果である.

背景

未知である真の分布g(y)から独立に生成されたn個の観測値\boldsymbol{y}_n = (y_1, y_2, \cdots, y_n)^Tを特徴づける適切なモデルを選択する状況を考える;ここで観測値は独立であるから,同時確率g(\boldsymbol{y}_n) = \prod_{i=1}^n g(y_i)である.

観測値\boldsymbol{y}_nを定式化あるいは説明するモデルを候補モデルと呼ぶ.任意の候補モデルは構造的に確率分布のパラメトリックなクラスに対応し,具体的には,ある候補モデルはk次元パラメータベクタを取る密度関数のクラス\mathcal{F}(k) によって表される.

 \displaystyle \mathcal{F}(k) = \{ f(y|\boldsymbol{\theta}_k) | \boldsymbol{\theta}_k \in \Theta (k) \}

ここで\Theta (k)k次元ベクタで構成されるパラメタ空間である.文献中,k次元ベクタの要素は\text{functionally independent}であると書かれているがなんの事はわからない


L(\boldsymbol{\theta}_k | \boldsymbol{y}_n)は密度関数f(\boldsymbol{y}_n|\boldsymbol{\theta}_k)に対応する尤度関数を表す:L(\boldsymbol{\theta}_k | \boldsymbol{y}_n) = f(\boldsymbol{y}_n|\boldsymbol{\theta}_k)である.\hat{\boldsymbol{\theta}}_kはパラメタ空間\Theta (k)上で尤度L(\boldsymbol{\theta}_k | \boldsymbol{y}_n)を最大化して得られる推定量のベクタを表す.

 \displaystyle \hat{\boldsymbol{\theta}}_k = \underset{\boldsymbol{\theta}_k \in \Theta(k)}{\text{argmax}} ~L(\boldsymbol{\theta}_k | \boldsymbol{y}_n)


多様な構造と次元kを持った候補モデルの集まりを考える;最終的な目的としては,この候補モデルの集まりの中から,真の分布g(y)の最も良い近似となるモデルを探すことである.ここでの最も良い近似となるモデルは,理想的にはg(y)の顕著な特徴を捉えつつ,また得られたデータだけでは正確に推定することができないノイズ等の不要な特徴を無視する.


真の分布と候補モデルの乖離の程度を測定し,これを最小化するモデルとしてより良い近似を得ることを考える;この目的のためカルバックライブラ情報量を用いる.g(y)に関するg(y)f(y|\boldsymbol{\theta}_k)間のカルバックライブラ情報量は次のように定義される.

\displaystyle \begin{align} I(\boldsymbol{\theta}_k) &= \int g(y) \text{log} \left\{ \frac{ g(y) }{ f(y|\boldsymbol{\theta}_k) } \right\} dy \\ &= E \left\{ \text{log} \frac{g(Y)}{f(Y|\boldsymbol{\theta}_k)} \right\} = E \{ \text{log} g(Y) \} + E \{ - \text{log} f(Y|\boldsymbol{\theta}_k) \} \end{align}

I(\boldsymbol{\theta}_k)は厳密には距離関数ではないが,g(y)f(y|\boldsymbol{\theta}_k)が異なっていれば異なっているほど増加し,その逆も成り立つので,これら密度関数の乖離の程度を測定するのに使用できる.
次にI(\boldsymbol{\theta}_k) E \{ - \text{log} f(Y|\boldsymbol{\theta}_k) \} に着目して次を定義する.

 \displaystyle d(\boldsymbol{\theta}_k) = E \{ -2 \text{log} f(Y|\boldsymbol{\theta}_k) \}

I(\boldsymbol{\theta}_k)E \{ \text{log} g(Y) \}は定数なので,I(\boldsymbol{\theta}_k)に基づいて行った候補モデルのランク付けは,d(\boldsymbol{\theta}_k)に基づいたランク付けと等価である.ゆえにd(\boldsymbol{\theta}_k)I(\boldsymbol{\theta}_k)の適切な代替として利用できる.d(\boldsymbol{\theta}_k)をここではカルバック不一致と呼称する.

重要な点として,カルバック不一致は未知である真の分布g(y)に依存しているため,実際にはd(\boldsymbol{\theta}_k)を求めることはできない.


モデル選択のための妥当な規準を得るため,d(\boldsymbol{\theta}_k)の期待値を考え,そしてパラメータとしては最尤推定\hat{\boldsymbol{\theta}}_kを使用する.

\displaystyle \begin{align} \Delta(k) &= E \{ d(\hat{\boldsymbol{\theta}}_k)\} \\ &=E \{E \{ -2 \text{log} f(Y|\hat{\boldsymbol{\theta}}_k) \}\} = -2 \int g(\boldsymbol{y}_n) \left\{ \int g(y) \text{log} f(y|\hat{\boldsymbol{\theta}}_k(\boldsymbol{y}_n)) dy \right\} d\boldsymbol{y}_n \end{align}

\Delta(k)はしばしば期待カルバック不一致と呼ばれ,カルバック不一致d(\boldsymbol{\theta}_k)と同様に,\Delta(k)も実際には求めることはできない.


導出

赤池情報量規準\Delta(k)の近似として導出され得る.

次のようにnが大きくなるとき,大数の弱法則から,-2倍した平均最大対数尤度はカルバック不一致の一致推定量である.

 \displaystyle -\frac{2}{n} \sum_{i=1}^{n} \text{log} f(Y_i|\hat{\boldsymbol{\theta}}_k)  \overset{p}{\rightarrow} E\{ -2 \text{log} f(Y|\hat{\boldsymbol{\theta}}_k) \} ~ \text{ as } ~ n \rightarrow \infty

このことから -2 \sum_{i=1}^n \text{log} f(Y_i|\hat{\boldsymbol{\theta}}_k) n E \{ -2 \text{log} f(Y|\hat{\boldsymbol{\theta}}_k) \}の自然な推定量である.

最終的にn個の観測おける最大対数尤度 \sum_{i=1}^{n} \text{log} f(y_i|\hat{\boldsymbol{\theta}}_k)を使用した近似を行うため,ここからはn倍した期待カルバック不一致 E\{ nE\{ -2 \text{log} f(Y|\hat{\boldsymbol{\theta}}_k) \} \} = n \Delta(k)を近似することを考える.

以降の記述では簡潔さのため,kの下付き文字を省略する.

まず,真の分布 g(y)パラメトリックなクラス \mathcal{F}(k)に含まれているという強い仮定を置く.この仮定の下で,真のパラメータを\boldsymbol{\theta}_0とすると,g(y)f(y|\boldsymbol{\theta}_0)という形式で表現できる.また,最尤推定\hat{\boldsymbol{\theta}}の漸近正規性と一致性を保証する正則条件も満たされているものと仮定する.

次にn\Delta(k)の等価な次の変形を考える.

\displaystyle \begin{align} n\Delta(k) &= n E \{ d (\hat{\boldsymbol{\theta}}) \} \\ &= E \{ -2 \text{log} f(\boldsymbol{Y}_n | \hat{\boldsymbol{\theta}}) \} \\ &~~~~ + [E \{ -2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}_0) \} - E \{ -2 \text{log} f(\boldsymbol{Y}_n|\hat{\boldsymbol{\theta}}) \} ] \cdots (\alpha) \\ &~~~~ + [n E \{ d (\hat{\boldsymbol{\theta}}) \} - E \{ -2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}_0) \} ] ~ \cdots \cdots \cdots (\beta) \end{align}


ここで\text{log}f(\boldsymbol{Y}_n|\boldsymbol{\theta})=\text{log}\{\prod_{i=1}^n f(Y_i|\boldsymbol{\theta}) \}=\sum_{i=1}^n \text{log}  f(Y_i|\boldsymbol{\theta})である.
また上の式の E\{ -2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}_0) \}は次のように n E \{ -2 \text{log} f(Y|\boldsymbol{\theta}_0) \}となることに留意する.この関係は後で使用する.余談だがこの関係は定数と考えられる\boldsymbol{\theta}_0の代わりに確率変数である\hat{\boldsymbol{\theta}}を使用した場合には当然成り立たない(自戒)

 \displaystyle \begin{align} E\{ -2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}_0) \} &= E \left\{ \sum_{i=1}^n \{ -2 \text{log} f(Y_i|\boldsymbol{\theta}_0) \} \right\} = \sum_{i=1}^n E \{ -2 \text{log} f(Y_i|\boldsymbol{\theta}_0) \} \\ &= \sum_{i=1}^n E \{ -2 \text{log} f(Y|\boldsymbol{\theta}_0) \} = n E \{ -2 \text{log} f(Y|\boldsymbol{\theta}_0) \} \end{align}


ここから(\alpha)(\beta)を求める.


(\alpha)に関して,E \{ -2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}_0) \}を近似的に求めるために,-2\text{log}f(\boldsymbol{Y}_n|\boldsymbol{\theta}_0)\hat{\boldsymbol{\theta}}まわりで2次までのテイラ展開を行い,その結果の期待値を取る手順を踏む.

 \displaystyle -2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}_0) \\ ~~~~~~~~ \approx -2 \text{log} f(\boldsymbol{Y}_n|\hat{\boldsymbol{\theta}}) -2 ( \boldsymbol{\theta}_0 - \hat{\boldsymbol{\theta}})^T \frac{\partial \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta})}{\partial \boldsymbol{\theta} } \Biggr|_{\boldsymbol{\theta} = \hat{\boldsymbol{\theta}} } - {(\boldsymbol{\theta}_0 - \hat{\boldsymbol{\theta}})}^T \frac{ {\partial}^2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}) }{ \partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^T }  \Biggr|_{\boldsymbol{\theta} = \hat{\boldsymbol{\theta}} } ( \boldsymbol{\theta}_0 - \hat{\boldsymbol{\theta}})

対数尤度の微分最尤推定量の点で0になるため1次の項は無視できる.
Divergence: from 0.571024% to 1.130209%

 \displaystyle \begin{align} -2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}_0) &{\approx} -2 \text{log} f(\boldsymbol{Y}_n|\hat{\boldsymbol{\theta}}) - {(\boldsymbol{\theta}_0 - \hat{\boldsymbol{\theta}})}^T \frac{ {\partial}^2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}) }{ \partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^T }  \Biggr|_{\boldsymbol{\theta} = \hat{\boldsymbol{\theta}}}  ( \boldsymbol{\theta}_0 - \hat{\boldsymbol{\theta}}) \\ &= -2 \text{log} f(\boldsymbol{Y}_n|\hat{\boldsymbol{\theta}}) + {(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)}^T \left\{ - \frac{ {\partial}^2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}) }{ \partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^T }  \Biggr|_{\boldsymbol{\theta} = \hat{\boldsymbol{\theta}}}  \right\} (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0) \\ &= -2 \text{log} f(\boldsymbol{Y}_n|\hat{\boldsymbol{\theta}}) + {(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)}^T \mathcal{J}(\hat{\boldsymbol{\theta}}) (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)  \end{align}

ここで\mathcal{J}(\boldsymbol{\theta})はObserved Fisher情報量である.
Observed/Expected Fisher情報量の違いや性質,また関連する漸近正規性の導出等はPawitan (2013)が詳しくわかり易い

期待値を取って次のようになる.

 \displaystyle E \{ -2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}_0) \} \approx E \{ -2 \text{log} f(\boldsymbol{Y}_n|\hat{\boldsymbol{\theta}}) \} + E \{ {(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)}^T \mathcal{J}(\hat{\boldsymbol{\theta}}) (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0) \}

上の式を(\alpha)E \{ -2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}_0) \}に代入し,(\alpha)自体は次のようになる.

(\alpha) \approx E \{ {(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)}^T \mathcal{J}(\hat{\boldsymbol{\theta}}) (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0) \}

ここで\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0は漸近的に多変量正規分布 N_k (\boldsymbol{0}, { \{ \mathcal{J}(\hat{\boldsymbol{\theta}}) \} }^{-1})に従い(Madisen and Thyregod (2010), p.22, (2.38)),(\alpha)の期待値内は {\chi}^2 (k)分布に従う;ゆえに(\alpha)は次のようになる.

 \displaystyle (\alpha) \approx E \{ {(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)}^T \mathcal{J}(\hat{\boldsymbol{\theta}}) (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0) \} = k


次に(\beta)に関しても,(\alpha)と類似し,n E \{ d (\hat{\boldsymbol{\theta}}) \}を近似的に求めるために,d(\hat{\boldsymbol{\theta}})\boldsymbol{\theta}_0まわりで2次までのテイラ展開を行い,その結果にnを乗じて期待値を取るという手順を踏む.

 \displaystyle d(\hat{\boldsymbol{\theta}}) \approx d(\boldsymbol{\theta}_0) +  (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)^T \frac{ \partial d(\boldsymbol{\theta}) }{ \partial \boldsymbol{\theta} } \Biggr|_{\boldsymbol{\theta} = \boldsymbol{\theta}_0 } + \frac{1}{2} { (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0) }^T \frac{ {\partial}^2 d (\boldsymbol{\theta}) }{ \partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^T }  \Biggr|_{\boldsymbol{\theta} = \boldsymbol{\theta}_0 } (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)

次のように1次の項は0になる(微分積分の順序交換は無邪気にできると仮定する)

 \displaystyle \begin{align} \frac{ \partial d (\boldsymbol{\theta}) }{ \partial \boldsymbol{\theta} }  \Biggr|_{\boldsymbol{\theta} = \boldsymbol{\theta}_0 } &= \frac{ \partial E \{ -2 \text{log} f(Y|\boldsymbol{\theta}) \} }{ \partial \boldsymbol{\theta} }  \Biggr|_{\boldsymbol{\theta} = \boldsymbol{\theta}_0 } = -2 \frac{ \partial }{ \partial \boldsymbol{\theta} } \int g(y) \text{log} f(y|\boldsymbol{\theta}) \text{dy}  \Biggr|_{\boldsymbol{\theta} = \boldsymbol{\theta}_0 } \\ &= -2 \int \frac{ g(y) }{ f(y| \boldsymbol{\theta}_0 ) }  \frac{ \partial f(y| \boldsymbol{\theta}) }{ \partial \boldsymbol{\theta} }  \Biggr|_{\boldsymbol{\theta} = \boldsymbol{\theta}_0 } \text{dy} = -2 \frac{ \partial }{ \partial \boldsymbol{\theta} } \int f(y|\boldsymbol{\theta}) \text{dy}  \Biggr|_{\boldsymbol{\theta} = \boldsymbol{\theta}_0 } = \boldsymbol{0} \end{align}

したがってd(\hat{\boldsymbol{\theta}})は次のようになる.

 \displaystyle \begin{align} d(\hat{\boldsymbol{\theta}}) &{\approx} E \{ -2 \text{log} f(Y | \boldsymbol{\theta}_0) \} + (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0 )^T  E \left\{ - \frac{ {\partial}^2 \text{log} f(Y | \boldsymbol{\theta}) }{ \partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^T }  \Biggr|_{\boldsymbol{\theta} = \boldsymbol{\theta}_0 } \right\} (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0 ) \\ &=  E \{ -2 \text{log} f(Y | \boldsymbol{\theta}_0) \} + (\hat{\boldsymbol{\theta}} -  \boldsymbol{\theta}_0)^T \mathcal{I}_1 (\boldsymbol{\theta}_0 ) (\hat{\boldsymbol{\theta}} -  \boldsymbol{\theta}_0) \end{align}

ここで\mathcal{I}_1 (\boldsymbol{\theta})は1個の観測に関するExpected Fisher情報量である.

期待値を取って次のようになる.ここで二重の期待値の外側がg(\boldsymbol{y}_n)に関するものであったことに注意すると  E\{E \{ -2 \text{log} f(y | \boldsymbol{\theta}_0) \}\}=E \{ -2 \text{log} f(y | \boldsymbol{\theta}_0) \}である.

 \displaystyle \begin{align} n E \{ d(\hat{\boldsymbol{\theta}}) \} &{\approx} n  E \{ -2 \text{log} f(Y | \boldsymbol{\theta}_0) \} + n E \{ (\hat{\boldsymbol{\theta}} -  \boldsymbol{\theta}_0)^T \mathcal{I}_1 (\boldsymbol{\theta}_0 ) (\hat{\boldsymbol{\theta}} -  \boldsymbol{\theta}_0) \} \\ &= n  E \{ -2 \text{log} f(Y | \boldsymbol{\theta}_0) \} + E \{ (\hat{\boldsymbol{\theta}} -  \boldsymbol{\theta}_0)^T \mathcal{I} (\boldsymbol{\theta}_0 ) (\hat{\boldsymbol{\theta}} -  \boldsymbol{\theta}_0) \} \end{align}

ここで\mathcal{I} (\boldsymbol{\theta}_0 )n個の観測に関するExpected Fisher情報量である.Expected Fisher情報量の性質としてn \mathcal{I}_1 (\boldsymbol{\theta}_0 ) = \mathcal{I} (\boldsymbol{\theta}_0 )である.
上の式を(\beta)n E \{ d (\hat{\boldsymbol{\theta}} ) \}に代入し, E\{ -2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}_0) \} = n E \{ -2 \text{log} f(Y|\boldsymbol{\theta}_0) \}であったことに注意すると,(\beta)自体は次のようになる.

\displaystyle (\beta) \approx E \{ (\hat{\boldsymbol{\theta}} -  \boldsymbol{\theta}_0)^T \mathcal{I} (\boldsymbol{\theta}_0 ) (\hat{\boldsymbol{\theta}} -  \boldsymbol{\theta}_0) \}

(\beta)の場合においても,\hat{\boldsymbol{\theta}} -  \boldsymbol{\theta}_0は漸近的に多変量正規分布 N_k (\boldsymbol{0}, {\{\mathcal{I} (\boldsymbol{\theta}_0) \}}^{-1}) に従い(Madisen and Thyregod (2010), p.22, (2.37)),(\beta)の期待値内は {\chi}^2 (k)分布に従う.ゆえに(\beta)は次のようになる.

 \displaystyle (\beta) \approx E \{ (\hat{\boldsymbol{\theta}} -  \boldsymbol{\theta}_0)^T \mathcal{I} (\boldsymbol{\theta}_0 ) (\hat{\boldsymbol{\theta}} -  \boldsymbol{\theta}_0) \} = k



(\alpha)(\beta)に関して得られた結果をまとめると漸近的に次のようになる.

n\Delta(k) = n E \{ d (\hat{\boldsymbol{\theta}}) \} \approx E \{ -2 \text{log} f (\boldsymbol{Y}_n|\hat{\boldsymbol{\theta}}) \} + 2k

ここから最終的に赤池情報量規準は次のように定義される.

 \displaystyle \text{AIC} = -2 \sum_{i=1}^n \text{log} f(y_i | \hat{\boldsymbol{\theta}}) + 2k

\text{AIC}の期待値は漸近的にn倍した期待カルバック不一致を近似する.

 E \{ \text{AIC} \} = E\{-2 \text{log} f(\boldsymbol{Y}_n | \hat{\boldsymbol{\theta}})\} + 2k \approx n \Delta(k)






Divergence: from 1.130209% to 0.571024%
上から分岐.以下の議論は自信がない.単なる怪聞になっているかも知れない.
対数尤度の微分最尤推定量の点で0になるため1次の項は無視できる.
また,最尤推定量の仮定された一致性からn \rightarrow \infty\hat{\boldsymbol{\theta}}\boldsymbol{\theta}_0へ確率収束するため,複数の確率収束する確率変数の四則演算に関する保存性と連続写像定理を考慮すると(ここここを参照),ここでの近似の誤差が任意の実数\epsilon > 0より大きくなる確率は0に収束する.

  \displaystyle \lim_{n \rightarrow \infty} P \left\{\left| -2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}_0) - \left\{ -2 \text{log} f(\boldsymbol{Y}_n|\hat{\boldsymbol{\theta}}) - {(\boldsymbol{\theta}_0 - \hat{\boldsymbol{\theta}})}^T \frac{ {\partial}^2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}) }{ \partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^T }  \Biggr|_{\boldsymbol{\theta} = \hat{\boldsymbol{\theta}} } (\boldsymbol{\theta}_0 - \hat{\boldsymbol{\theta}})  \right\}\right| > \epsilon \right\} = 0

このことを確率的ランダウの記号を用いて表示すればo_p(1)となる.最尤推定量は確率変数なので通常の極限的にo(1)のような近似誤差の評価できないと考えられる;この点を考慮して最尤推定量の一致性を利用するならo_p(1)になるはずである.

 \displaystyle \begin{align} -2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}_0) &= -2 \text{log} f(\boldsymbol{Y}_n|\hat{\boldsymbol{\theta}}) - {(\boldsymbol{\theta}_0 - \hat{\boldsymbol{\theta}})}^T \frac{ {\partial}^2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}) }{ \partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^T }  \Biggr|_{\boldsymbol{\theta} = \hat{\boldsymbol{\theta}} } (\boldsymbol{\theta}_0 - \hat{\boldsymbol{\theta}}) + o_p(1) \\ &= -2 \text{log} f(\boldsymbol{Y}_n|\hat{\boldsymbol{\theta}}) + {(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)}^T \left\{ - \frac{ {\partial}^2 \text{log} f(\boldsymbol{Y}_n|\boldsymbol{\theta}) }{ \partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^T }  \Biggr|_{\boldsymbol{\theta} = \hat{\boldsymbol{\theta}} } \right\} (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0) + o_p(1) \\ &= -2 \text{log} f(\boldsymbol{Y}_n|\hat{\boldsymbol{\theta}}) + {(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0)}^T \mathcal{J}(\hat{\boldsymbol{\theta}}) (\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0) + o_p(1) \end{align}

上述のように確率収束する近似誤差を考慮に入れて展開を進め,追加で一様可積分性のような正則条件が満たされていると仮定するとE\{o_p(1)\} =o(1)となり(ここここを参照;なにか公式なソースではないので確証はないが...),最終的に期待カルバック不一致は次のようになる.

n\Delta(k) = n E \{ d (\hat{\boldsymbol{\theta}}) \} = E \{ -2 \text{log} f (\boldsymbol{Y}_n|\hat{\boldsymbol{\theta}}) \} + 2k + o(1)

ここから赤池情報量規準は次のように定義される.

 \displaystyle \text{AIC} = -2 \sum_{i=1}^n \text{log} f(y_i | \hat{\boldsymbol{\theta}}) + 2k

ここで\text{AIC}の期待値はn \rightarrow \infty0になる誤差を伴ってn \Delta(k)を近似する.

 E \{ \text{AIC} \} + o(1) = n \Delta(k)



所感

本編導出では,Cavanaugh and Neath (2018)に頻出する記号であるyが,ベクタ(複数の観測)なのかスカラ(1つの観測)なのか,確率変数なのか実現値なのか,どこまでの文脈の範囲で同じで,また違うのか正直良くわからなかったため,全体の方向性は踏襲しつつも,カルバックライブラ情報量の期待値における変数は1変量の確率変数にすることを主軸とし,直感に適うことを優先しながら曖昧な点を順次確定する形で導出を行った.
Cavanaugh and Neath (2018)と最終的な形は異なるが,少なくともyを一貫してベクタとして捉えると等価になる気がする(ぱっとした想像だけで厳密に検証はしてないが;ただしこの場合カルバックライブラ情報量の期待値の変数もベクタになり,個人的に解釈が難しい);一貫してスカラの場合,多分難しそうなのと,今の自分の知識の範囲ではObserved Fisher情報量とExpected Fisher情報量あたりで突っかかりそうな気がする.

またCavanaugh and Neath (2018)の導出ではテイラ展開の誤差の評価としてo(1)が現れている.調べてみたものの自信がないので,本編導出では全て近似で乗り切ったところであるが(Divergence: 0.571024%),一応o(1)が現れる道筋はつかめている(Divergence: 1.130209%).この点については厳密に確証を得ようと考えると中々難易度が高そうである;測度論的確率論がわからないので,その基礎からはじめて半年~1年程度は要しそうである.まったくもって自明で無いように見えるのに,なぜCavanaugh and Neath (2018)には別段の説明もなく,さらっとo(1)が登場しているのかは本当に疑問である.ただ自分が遠回りしているだけで,なにか簡潔に進める未知の前提がどこかにあるのかも知れない.んーとても口惜しい.途中の世界線変動率には特に意味はない.ラ・ヨダソウ・スティアーナ


ベイズ情報量規準と修正付き赤池情報量規準を経由して,ようやく赤池情報量規準の導出を一通り追ったが,漸近正規性関連+ExpectedとObserved Fisher情報量まわりでも大変混乱した.これらはいくつかの点で,証明なしにテキストに載っていることをそのまま信じる形で導出を進めたが,いまだ拭えない不安が残っている.現状時間が足りないが,いつかこれらもしっかり基礎から学習して不安を払拭したい.手近でHeld and Bové (2014)にこの辺りがざっくり載ってることに気がついた.まぁ近いうちに


\text{AIC}の導出途中で狐につままれたような\Delta(k)と等価な変形を行ったが,Konishi and Kitagawa (2008)のFig. 3.7で図示されるような期待対数尤度と対数尤度間で生じるバイアスの分解と類似のものな気がする.ちゃんと対応をとって見てないのではっきりとは言えないが.

Konishi and Kitagawa (2008)と言えば,この本に載っているAICcの導出は,明確にテイラ展開や漸近正規性を用いないと書かれているサブセクション(3.5.1)に基づいているが,式(7.65)から(7.66)の変形では暗に最尤推定量の漸近正規性を利用しているように見える.あるいはE_G[(X\boldsymbol{\beta}_0 - X\hat{\boldsymbol{\beta}})^T(X\boldsymbol{\beta}_0 - X\hat{\boldsymbol{\beta}})/(n \hat{\sigma}^2)]を漸近正規性を用いずに求める方法があるのだろうか?今の自分にはわからない Madisen and Thyregod (2010)のTheorem 3.3に記載されてるように一般線形モデル(正規線形モデル)においては,誤差に仮定された正規性から直接的に回帰係数の推定量正規分布に従うことが求められるので,ここでの疑問点は解消した.


今回も例にもれず,改善点・間違い等は見つかり次第修正する.