ベイズ情報量規準の導出のスケッチ
下記の文献のBICのところを流し読みして得た理解まとめ
link.springer.com
事後確率に基づくモデル選択
を個の候補モデルとし,各モデルは確率分布 と次元パラメータベクタを取る事前分布に特徴づけられるものとする.
ここでのモデルとは,回帰モデルにおいて説明変数を何個含むか,あるいはどのような分布が仮定されるかというような構造レベルのものである.
個の標本があるとき,番目のモデルに関して周辺分布あるいはの確率は次のように与えられる.
は番目のモデルの尤度と考えられる.または,このモデルで具体的なパラメータ推定をベイズ的に行う際の周辺尤度になっている.
を番目のモデルの事前確率とすると,ベイズの定理に基づき,番目のモデルの事後確率は次のように与えられる.
この事後確率は,データが観察されたとき,番目のモデルからそのデータが生成された確率を表しており,個の候補モデルから1つのモデルを選択する状況では,この事後確率が最も大きいモデルを採用するが自然と考えられる.
において,分母は全てのモデルで同一なので分子のみを比較すれば良い;加えて事前確率が全てのモデルで同一と仮定すれば,モデルの尤度のみの比較で事後確率の観点から最良のモデルが選択できる.
ベイズ情報量規準の導出
事後確率に基づく先に説明した方針のモデル選択を実現するために,の近似としてベイズ情報量規準は導出される.具体的な形は次のようになる.
が付いたので,この量の小さいモデルが事後確率の大きいモデルに対応する.
以下の導出過程は上の書籍のものとは異る.間違いが含まれているかも
の近似は,が十分に大きいときに成り立つラプラス近似によって得られる.ラプラス近似は次のようなものである(今回はスケッチなのでラプラス近似は所与のものとして受け入れる).
ここでは次元パラメタベクタを取る実数値関数,はの最頻値である.
まず,ラプラス近似が適用できるようにを変形する.
ここではとした.
そして次の近似を得る.
事前分布が無情報事前分布であると仮定すると,のに関する大小関係は対数尤度に一致する.ゆえに,ここでは最尤推定量である.が無情報事前分布であるという仮定は上の書籍にはないが,式(9.17)の近似でのテイラ展開の第2項以降を無視するところから暗に想定されている気がする
両辺の対数を取ってをかける.
標本サイズに関して以下の小さいオーダの項を無視して,最終的にベイズ情報量規準を得る.
標本サイズに関して以下の小さいオーダの項を無視する部分は,直感的にのとき,のない項は無視できるくらい小さくなるということだと思うが,オーダの個人的な理解が足りてない
AICの導出に比べたら全然長くなさそうだから書き始めたが,思いほか長くなった.疲れた.途中ラプラス近似の適用の部分に不安があったが,確認したところ形式的には問題はなさそう.他になにか間違いがあったら,わかり次第修正する.