AICの背景からのAICcの導出

このブログでは,下記記事のAICの導出における背景を踏襲してAICcの導出を行う.

josephbell.hatenablog.com

主要参考文献は下記の3つである.

  1. Cavanaugh and Neath (2018)
  2. Konishi and Kitagawa (2008)
  3. Hurvich and Tsai (1989)

AICの背景に追加の前提

AICの導出では,モデルの取る分布はパラメトリックなクラスに属するという仮定しか置いていなかったが,AICcの導出においては,モデルの取る具体的な構造を正規線形モデルに限定する.

 \displaystyle \boldsymbol{Y}_n = X\boldsymbol{\beta} + \boldsymbol{\epsilon}, ~~~~~ \boldsymbol{\epsilon} \sim N_n (\boldsymbol{0}, {\sigma}^2 I_n )

ここでXn\times mの計画行列,\boldsymbol{\beta}m次元のパラメタベクタ,I_nn \times n単位行列である.
このモデル設定において,真のモデルは平均をX_0 \boldsymbol{\beta}_0,分散共分散行列を{{\sigma}_0}^2 I_nとするn次元の多変量正規分布である;ここでX_0の列数と\boldsymbol{\beta}_0の次元は未知であることに留意する.

尤度関数は具体的に次のように定まる.

 \displaystyle \begin{align} L(\boldsymbol{\theta}_k | \boldsymbol{y}_n) &= \prod_{i=1}^n f(y_i | \boldsymbol{\theta}_k) = \prod_{i = 1}^n (2 \pi {\sigma}^2)^{- \frac{1}{2}} \text{exp} \left\{ - \frac{ (y_i - {\boldsymbol{x}_i}^T  \boldsymbol{\beta} )^2 }{ 2 {\sigma}^2 } \right\} \\ &= (2 \pi {\sigma}^2)^{- \frac{n}{2}} \text{exp} \left\{ - \frac{1}{2 {\sigma}^2} \sum_{i=1}^n (y_i - {\boldsymbol{x}_i}^T  \boldsymbol{\beta} )^2 \right\} \\ &=  (2 \pi {\sigma}^2)^{- \frac{n}{2}} \text{exp} \left\{ - \frac{(\boldsymbol{y}_n - X  \boldsymbol{\beta} )^T (\boldsymbol{y}_n - X  \boldsymbol{\beta} )}{2 {\sigma}^2}  \right\}\end{align}

k=m+1とおき,このモデルにおける最尤推定\hat{\boldsymbol{\theta}}_{k} = (\hat{\boldsymbol{\beta}}^T, \hat{\sigma}^2)^T (\in \Theta(k))は次のように求まる.

\displaystyle \hat{\boldsymbol{\beta}} = (X^T X)^{-1} X^T \boldsymbol{Y}_n
\displaystyle \hat{\sigma}^2 = \frac{1}{n} (\boldsymbol{Y}_n - X \hat{\boldsymbol{\beta}})^T (\boldsymbol{Y}_n - X \hat{\boldsymbol{\beta}})

n個の観測に関するカルバック不一致は次のような形になる.

 \displaystyle \begin{align} d_n(\boldsymbol{\theta}_{k}) &= E \{  -2 \text{log} f(\boldsymbol{Y}_n | \boldsymbol{\theta}_{k}) \} \\ &= -2 E \left\{ \text{log} \left[ (2 \pi {\sigma}^2)^{- \frac{n}{2}} \text{exp} \left\{ - \frac{(\boldsymbol{Y}_n - X  \boldsymbol{\beta} )^T (\boldsymbol{Y}_n - X  \boldsymbol{\beta} )}{2 {\sigma}^2}  \right\} \right] \right\} \\ &= n \text{log} (2 \pi {\sigma}^2) + \frac{1}{{\sigma}^2} E \left\{ (X_0 \boldsymbol{\beta}_0 + \boldsymbol{\epsilon} - X  \boldsymbol{\beta} )^T (X_0 \boldsymbol{\beta}_0 + \boldsymbol{\epsilon} - X  \boldsymbol{\beta} ) \right\} \\ &= n \text{log} (2 \pi {\sigma}^2) +\frac{n {{\sigma}_0}^2}{ {\sigma}^2 } + \frac{ (X_0 \boldsymbol{\beta}_0 - X  \boldsymbol{\beta} )^T (X_0 \boldsymbol{\beta}_0 - X  \boldsymbol{\beta} ) }{ {\sigma}^2 } \end{align}

d_n(\boldsymbol{\theta}_{k})は次に示すようにn倍した1個の観測に関するカルバック不一致n d(\boldsymbol{\theta}_{k})と等価であることに留意する.

 \displaystyle \begin{align} d_n(\boldsymbol{\theta}_{k}) &= E \{ -2 \text{log} f(\boldsymbol{Y}_n | \boldsymbol{\theta}_{k}) \} \\ &= \int g(\boldsymbol{y}_n) \{ -2 \text{log} f(\boldsymbol{y}_n | \boldsymbol{\theta}_{k}) \} d\boldsymbol{y}_n = \sum_{i=1}^n \int g(\boldsymbol{y}_n) \{ -2 \text{log} f(y_i|\boldsymbol{\theta}_{k}) \} d\boldsymbol{y}_n \\ &= \sum_{i=1}^n \int \cdots \int g(y_1) \cdots g(y_n) \{ -2 \text{log}  f(y_i|\boldsymbol{\theta}_{k}) \} dy_1 \cdots dy_n \\ &= \sum_{i=1}^n \left\{ \int g(y_i) \{ -2 \text{log} f(y_i|\boldsymbol{\theta}_{k}) \} dy_i \prod_{j \in S_i} \int g(y_j) dy_j \right\} \\ &= \sum_{i=1}^n \int g(y_i) \{ -2 \text{log} f(y_i|\boldsymbol{\theta}_{k}) \} dy_i = \sum_{i=1}^n E \{ -2 \text{log} f(Y | \boldsymbol{\theta}_{k}) \} = n d(\boldsymbol{\theta}_{k}) \end{align}

ここで S_i = \{s| s \in \mathbb{N},  s \neq i, 1 \leq s \leq n\}である.

AICcの導出

追加された前提も含め,n個の観測に関する期待カルバック不一致を求める.

 \displaystyle \begin{align} \Delta_n (k) &= E \{ d_n (\hat{\boldsymbol{\theta}}_{k}) \} \\ &= E \left\{ n \text{log} (2 \pi \hat{\sigma}^2) + \frac { n {{\sigma}_0}^2}{ \hat{\sigma}^2 } + \frac{ (X_0 \boldsymbol{\beta}_0 - X  \hat{\boldsymbol{\beta}} )^T (X_0 \boldsymbol{\beta}_0 - X  \hat{\boldsymbol{\beta}} ) }{ \hat{\sigma}^2 } \right\} \\ &= E \left\{ n \text{log} (2 \pi \hat{\sigma}^2) \right\} + E \left\{ \frac { n {{\sigma}_0}^2}{ \hat{\sigma}^2 } \right\} + E \left\{ \frac{ (X_0 \boldsymbol{\beta}_0 - X  \hat{\boldsymbol{\beta}} )^T (X_0 \boldsymbol{\beta}_0 - X  \hat{\boldsymbol{\beta}} ) }{ \hat{\sigma}^2 } \right\} \end{align}


まず,(SSE/{{\sigma}_0}^2) \sim {\chi}^2 (n - m)であり(Puntanen et al. (2013)),\hat{\sigma}^2の定義からSSE = n \hat{\sigma}^2であることから,n \hat{\sigma}^2 / {{\sigma}_0}^2{\chi}^2 (n - m)に従い, {{\sigma}_0}^2 / (n \hat{\sigma}^2) \text{Inv-}{\chi}^2 (n - m)に従う(Hamada et al. 2008).このことから \Delta_n(k)の第2項は次のように求まる.

 \displaystyle E \left\{ \frac{ n \hat{\sigma}^2 }{ {{\sigma}_0}^2 } \right\} = n^2 E \left\{ \frac{ \hat{\sigma}^2 }{ n {{\sigma}_0}^2 }  \right\} = \frac{ n^2 }{ n - m - 2 }


次に,候補モデルのクラス\mathcal{F}(k)に真の分布g(y)が含まれているという強い仮定を置く.この仮定の下では,X_0 = Xかつ,\boldsymbol{\beta}_0は未知のm次元パラメタベクタである;仮定により \Delta_n(k)の第3項は次のように変形できる.

\displaystyle E \left\{ \frac{ (X_0 \boldsymbol{\beta}_0 - X  \hat{\boldsymbol{\beta}} )^T (X_0 \boldsymbol{\beta}_0 - X  \hat{\boldsymbol{\beta}} ) }{ \hat{\sigma}^2 } \right\} = E \left\{ \frac{ (  \hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0 )^T X^T X (\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0 ) }{ \hat{\sigma}^2 } \right\}

正規線形モデルにおいて,最尤推定量である回帰係数は誤差\boldsymbol{\epsilon}の線形変換と等価であり, \hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0は多変量正規分布 N_m (\boldsymbol{0}, {{\sigma}_0}^2 \{ X^T X \}^{-1} )に従うことから(Madisen and Thyregod (2010), p.49, Theorem 3.3), \Delta_n(k)の第3項の期待値内は次のようにF分布に帰着できる.

 \displaystyle \frac{ (  \hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0 )^T X^T X (\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0 ) }{ \hat{\sigma}^2 } = \frac{nm}{n-m} \frac{ (( \hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0 )^T X^T X(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0 ) / {{\sigma}_0}^2) (1/m)  }{  (n \hat{\sigma}^2 / {{\sigma}_0}^2) ( 1 / (n - m) )  }

 \displaystyle \Rightarrow \frac{n-m}{nm}  \frac{ (  \hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0 )^T X^T X (\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0 ) }{ \hat{\sigma}^2 } = \frac{ (( \hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0 )^T X^T X(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0 ) / {{\sigma}_0}^2) (1/m)  }{  (n \hat{\sigma}^2 / {{\sigma}_0}^2) ( 1 / (n - m) )  } \sim F(m, n-m)

ゆえに

\displaystyle \begin{align} E \left\{ \frac{ (  \hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0 )^T X^T X (\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0 ) }{ \hat{\sigma}^2 } \right\} &= \frac{nm}{n-m} E \left\{ \frac{n-m}{nm} \frac{ (  \hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0 )^T X^T X (\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0 ) }{ \hat{\sigma}^2 } \right\} \\ &= \frac{nm}{n-m} E \left\{ \frac{ (( \hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0 )^T X^T X(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}_0 ) / {{\sigma}_0}^2) (1/m)  }{  (n \hat{\sigma}^2 / {{\sigma}_0}^2) ( 1 / (n - m) )  } \right\} \\ &= \frac{nm}{n-m} \frac{n-m}{n-m-2} = \frac{nm}{n-m-2} \end{align}



最終的に全体としてまとめると \Delta_n (k)は次のようになる.

 \displaystyle \begin{align} \Delta_n (k) &= E \{ n \text{log} (2 \pi \hat{\sigma}^2) \} + \frac{ n^2 }{ n - m - 2 } +  \frac{nm}{n-m-2} \\ &= E \{ n (\text{log} (2 \pi \hat{\sigma}^2) + 1) \} + \frac{2n(m + 1)}{n-m-2} \end{align}

ここで n (\text{log} (2 \pi \hat{\sigma}^2) + 1)-2倍した最大対数尤度であることに留意する.

 \displaystyle \begin{align} -2 \text{log} f (\boldsymbol{Y}_n|\hat{\boldsymbol{\theta}}_{k}) &= n \text{log} (2 \pi \hat{\sigma}^2 ) + \frac{ (\boldsymbol{Y}_n - X \hat{\boldsymbol{\beta}})^T (\boldsymbol{Y}_n - X \hat{\boldsymbol{\beta}}) }{  \hat{\sigma}^2 } \\ &= n \text{log} (2 \pi \hat{\sigma}^2 ) + \frac{n \hat{\sigma}^2 }{ \hat{\sigma}^2 } = n (\text{log} (2 \pi \hat{\sigma}^2) + 1) \end{align}

ここからAICcは次のように定義される.

 \displaystyle \text{AICc} =  n (\text{log} (2 \pi \hat{\sigma}^2) + 1) + \frac{2n(m + 1)}{n-m-2} = \text{AIC} + \frac{2 (m + 1)(m + 2)}{n - m - 2}

AICcの期待値は \Delta_n (k)となる.

 \displaystyle E \{ \text{AICc} \} = E \{ n (\text{log} (2 \pi \hat{\sigma}^2) + 1) \} + \frac{2n(m + 1)}{n-m-2} = \Delta_n (k)


等価なものとして,AICcはしばしばkを用いても示される.

 \displaystyle \text{AICc} =  n (\text{log} (2 \pi \hat{\sigma}^2) + 1) + \frac{2nk}{n-k-1} = \text{AIC} + \frac{2k (k + 1)}{n - k - 1}



所感

基本的にはこれまで調べてきたことの組み合わせのつもりで書き始めたブログだったが,n個の観測に関するカルバック不一致は1個の観測に関するものの単純なn倍になることや,正規線形モデルの回帰係数に関する最尤推定量は,誤差に仮定された正規性から直接的に正規分布に従う等,結構と気がつけた未知のことが多く実り多かった.


なにか間違いに気がついたら修正する.