ベイズ情報量規準の導出のスケッチ

下記の文献のBICのところを流し読みして得た理解まとめ
link.springer.com

事後確率に基づくモデル選択

M_1,M_2,\cdots,M_rr個の候補モデルとし,各モデルM_iは確率分布f_i(x| \boldsymbol{ \theta }_i ) (\boldsymbol{\theta}_i \in {\Theta}_i \subset \mathbb{R}^{k_i})k_i次元パラメータベクタ\boldsymbol{\theta}_iを取る事前分布{\pi}_i (\boldsymbol{\theta}_i)に特徴づけられるものとする.

ここでのモデルとは,回帰モデルにおいて説明変数を何個含むか,あるいはどのような分布が仮定されるかというような構造レベルのものである.

 
n個の標本\boldsymbol{x}_n = \{ x_1,\cdots,x_n\}があるとき,i番目のモデルM_iに関して周辺分布あるいは\boldsymbol{x_n}の確率は次のように与えられる.

\displaystyle p_i (\boldsymbol{x}_n) = \int f_i (\boldsymbol{x}_n|\boldsymbol{\theta}_i) {\pi}_i(\boldsymbol{\theta}_i)d\boldsymbol{\theta}_i
 

p_i (\boldsymbol{x}_n)i番目のモデルM_iの尤度と考えられる.またp_i (\boldsymbol{x}_n)は,このモデルで具体的なパラメータ推定をベイズ的に行う際の周辺尤度になっている.

 
P(M_i)i番目のモデルの事前確率とすると,ベイズの定理に基づき,i番目のモデルの事後確率は次のように与えられる.

\displaystyle P(M_i|\boldsymbol{x}_n)=\frac{p_i(\boldsymbol{x}_n)P(M_i)}{\sum^{r}_{j=1}p_j(\boldsymbol{x}_n)P(M_j)}
 

この事後確率は,データ\boldsymbol{x}_nが観察されたとき,i番目のモデルからそのデータが生成された確率を表しており,r個の候補モデルから1つのモデルを選択する状況では,この事後確率が最も大きいモデルを採用するが自然と考えられる.

P(M_i|\boldsymbol{x}_n)において,分母は全てのモデルで同一なので分子p_i(\boldsymbol{x}_n)P(M_i)のみを比較すれば良い;加えて事前確率P(M_i)が全てのモデルで同一と仮定すれば,モデルの尤度p_i(\boldsymbol{x}_n)のみの比較で事後確率の観点から最良のモデルが選択できる. 

P(M_i|\boldsymbol{x}_n)\propto p_i(\boldsymbol{x}_n)P(M_i) \propto p_i(\boldsymbol{x}_n)
 

ベイズ情報量規準の導出

事後確率P(M_i|\boldsymbol{x}_n)に基づく先に説明した方針のモデル選択を実現するために,p_i(\boldsymbol{x}_n)の近似としてベイズ情報量規準は導出される.具体的な形は次のようになる.

\displaystyle \begin{align} -2 \text{log} p_i(\boldsymbol{x}_n) &= -2 \text{log} \left\{ \int f_i (\boldsymbol{x}_n|\boldsymbol{\theta}_i) {\pi}_i (\boldsymbol{\theta}_i) d\boldsymbol{\theta}_i \right\} \\  &\approx -2 \text{log} f_i(\boldsymbol{x}_n|\hat{\boldsymbol{\theta}_i}) + k_i \text{log} (n) \end{align}
 
-2が付いたので,この量の小さいモデルが事後確率の大きいモデルに対応する.

以下の導出過程は上の書籍のものとは異る.間違いが含まれているかも

p_i(\boldsymbol{x}_n)の近似は,nが十分に大きいときに成り立つラプラス近似によって得られる.ラプラス近似は次のようなものである(今回はスケッチなのでラプラス近似は所与のものとして受け入れる).

\displaystyle \int \text{exp}\{nq(\boldsymbol{\theta})\} d\boldsymbol{\theta} \approx \frac{(2\pi)^{p/2}}{n^{p/2}|J_q(\hat{\boldsymbol{\theta}})|^{1/2}}\text{exp}\{nq(\hat{\boldsymbol{\theta}})\},
 
\displaystyle \text{where  } J_q(\boldsymbol{\hat{\theta}}) = \left. - \frac{\partial^2 q(\boldsymbol{\theta})}{\partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^T}\right|_{\boldsymbol{\theta}=\hat{\boldsymbol{\theta}}}
 

ここでq(\boldsymbol{\theta})p次元パラメタベクタ\boldsymbol{\theta}を取る実数値関数,\hat{\boldsymbol{\theta}}q(\boldsymbol{\theta})の最頻値である.
 
まず,ラプラス近似が適用できるようにp_i(\boldsymbol{x}_n)を変形する.

\displaystyle \begin{align} p_i(\boldsymbol{x}_n)&=\int f_i(\boldsymbol{x}_n|\boldsymbol{\theta}_i) {\pi}_i (\boldsymbol{\theta}_i) d\boldsymbol{\theta}_i \\&=\int \text{exp} \left\{ n \left[ \frac{1}{n}(\text{log} f_i(\boldsymbol{x}_n|\boldsymbol{\theta}_i)+\text{log}{\pi}_i(\boldsymbol{\theta}_i) ) \right]\right\} d\boldsymbol{\theta}_i \\ &= \int \text{exp} \left\{n \eta(\boldsymbol{\theta}_i)\right\}d\boldsymbol{\theta}_i \end{align}
 
ここでは\eta(\boldsymbol{\theta}_i)=n^{-1}(\text{log} f_i(\boldsymbol{x}_n|\boldsymbol{\theta}_i)+\text{log}{\pi}_i(\boldsymbol{\theta}_i))とした.
そして次の近似を得る.


\displaystyle \int \text{exp} \left\{n\eta(\boldsymbol{\theta}_i)\right\}d\boldsymbol{\theta}_i \approx \frac{(2\pi)^{k_i/2}}{n^{k_i/2}|J_{\eta}(\hat{\boldsymbol{\theta}_i})|^{1/2}}\text{exp}\{n\eta(\hat{\boldsymbol{\theta}_i})\}


 事前分布{\pi}_i(\boldsymbol{\theta}_i)が無情報事前分布であると仮定すると,\eta(\boldsymbol{\theta}_i)\boldsymbol{\theta}_iに関する大小関係は対数尤度\text{log} f_i(\boldsymbol{x}_n|\boldsymbol{\theta}_i)に一致する.ゆえに,ここで\hat{\boldsymbol{\theta}_i}最尤推定量である.{\pi}_i(\boldsymbol{\theta}_i)が無情報事前分布であるという仮定は上の書籍にはないが,式(9.17)の近似で{\pi}_i(\boldsymbol{\theta}_i)のテイラ展開の第2項以降を無視するところから暗に想定されている気がする


\displaystyle p_i(\boldsymbol{x}_n) \approx \frac{(2\pi)^{k_i/2}}{n^{k_i/2}|J_{\eta}(\hat{\boldsymbol{\theta}_i})|^{1/2}}\text{exp}\{n\eta(\hat{\boldsymbol{\theta}_i})\}


両辺の対数を取って-2をかける.


\displaystyle \small -2 \text{log} p_i(\boldsymbol{x}_n) \approx -2 \text{log} f_i(\boldsymbol{x}_n|\hat{\boldsymbol{\theta}_i}) -2 \text{log} {\pi}_i(\hat{\boldsymbol{\theta}_i}) - k_i \text{log}(2 \pi) + k_i \text{log} (n) + \text{log}(|J_{\eta}(\hat{\boldsymbol{\theta}_i})|) \normalsize


標本サイズnに関してO(1)以下の小さいオーダの項を無視して,最終的にベイズ情報量規準を得る.


-2 \text{log} p_i(\boldsymbol{x}_n) \approx \text{BIC} =  -2 \text{log} f_i(\boldsymbol{x}_n|\hat{\boldsymbol{\theta}_i}) + k_i \text{log} (n)


標本サイズnに関してO(1)以下の小さいオーダの項を無視する部分は,直感的にn\rightarrow\inftyのとき,nのない項は無視できるくらい小さくなるということだと思うが,オーダの個人的な理解が足りてない






AICの導出に比べたら全然長くなさそうだから書き始めたが,思いほか長くなった.疲れた.途中ラプラス近似の適用の部分に不安があったが,確認したところ形式的には問題はなさそう.他になにか間違いがあったら,わかり次第修正する.