赤池情報量規準の導出
Cavanaugh and Neath (2018)を読んで得た理解のまとめ.
以下の導出の最終的な主張は文献よりも弱く見えるが,これは自分が理解している範囲で正しい結果に留めた結果である.
背景
未知である真の分布から独立に生成された個の観測値を特徴づける適切なモデルを選択する状況を考える;ここで観測値は独立であるから,同時確率である.
観測値を定式化あるいは説明するモデルを候補モデルと呼ぶ.任意の候補モデルは構造的に確率分布のパラメトリックなクラスに対応し,具体的には,ある候補モデルは次元パラメータベクタを取る密度関数のクラスによって表される.
ここでは次元ベクタで構成されるパラメタ空間である.文献中,次元ベクタの要素はであると書かれているがなんの事はわからない
は密度関数に対応する尤度関数を表す:である.はパラメタ空間上で尤度を最大化して得られる推定量のベクタを表す.
多様な構造と次元を持った候補モデルの集まりを考える;最終的な目的としては,この候補モデルの集まりの中から,真の分布の最も良い近似となるモデルを探すことである.ここでの最も良い近似となるモデルは,理想的にはの顕著な特徴を捉えつつ,また得られたデータだけでは正確に推定することができないノイズ等の不要な特徴を無視する.
真の分布と候補モデルの乖離の程度を測定し,これを最小化するモデルとしてより良い近似を得ることを考える;この目的のためカルバックライブラ情報量を用いる.に関すると間のカルバックライブラ情報量は次のように定義される.
は厳密には距離関数ではないが,とが異なっていれば異なっているほど増加し,その逆も成り立つので,これら密度関数の乖離の程度を測定するのに使用できる.
次にのに着目して次を定義する.
のは定数なので,に基づいて行った候補モデルのランク付けは,に基づいたランク付けと等価である.ゆえにはの適切な代替として利用できる.をここではカルバック不一致と呼称する.
重要な点として,カルバック不一致は未知である真の分布に依存しているため,実際にはを求めることはできない.
モデル選択のための妥当な規準を得るため,の期待値を考え,そしてパラメータとしては最尤推定量を使用する.
はしばしば期待カルバック不一致と呼ばれ,カルバック不一致と同様に,も実際には求めることはできない.
導出
赤池情報量規準はの近似として導出され得る.
次のようにが大きくなるとき,大数の弱法則から,倍した平均最大対数尤度はカルバック不一致の一致推定量である.
このことからはの自然な推定量である.
最終的に個の観測おける最大対数尤度を使用した近似を行うため,ここからは倍した期待カルバック不一致を近似することを考える.
以降の記述では簡潔さのため,の下付き文字を省略する.
まず,真の分布がパラメトリックなクラスに含まれているという強い仮定を置く.この仮定の下で,真のパラメータをとすると,はという形式で表現できる.また,最尤推定量の漸近正規性と一致性を保証する正則条件も満たされているものと仮定する.
次にの等価な次の変形を考える.
ここでである.
また上の式のは次のようにとなることに留意する.この関係は後で使用する.余談だがこの関係は定数と考えられるの代わりに確率変数であるを使用した場合には当然成り立たない(自戒)
ここからとを求める.
に関して,を近似的に求めるために,をまわりで2次までのテイラ展開を行い,その結果の期待値を取る手順を踏む.
対数尤度の微分は最尤推定量の点で0になるため1次の項は無視できる.
Divergence: from 0.571024% to 1.130209%
ここではObserved Fisher情報量である.
Observed/Expected Fisher情報量の違いや性質,また関連する漸近正規性の導出等はPawitan (2013)が詳しくわかり易い
期待値を取って次のようになる.
上の式をのに代入し,自体は次のようになる.
ここでは漸近的に多変量正規分布に従い(Madisen and Thyregod (2010), p.22, (2.38)),の期待値内は分布に従う;ゆえには次のようになる.
次にに関しても,と類似し,を近似的に求めるために,をまわりで2次までのテイラ展開を行い,その結果にを乗じて期待値を取るという手順を踏む.
次のように1次の項は0になる(微分と積分の順序交換は無邪気にできると仮定する).
したがっては次のようになる.
ここでは1個の観測に関するExpected Fisher情報量である.
期待値を取って次のようになる.ここで二重の期待値の外側がに関するものであったことに注意するとである.
ここでは個の観測に関するExpected Fisher情報量である.Expected Fisher情報量の性質としてである.
上の式をのに代入し,であったことに注意すると,自体は次のようになる.
の場合においても,は漸近的に多変量正規分布に従い(Madisen and Thyregod (2010), p.22, (2.37)),の期待値内は分布に従う.ゆえには次のようになる.
とに関して得られた結果をまとめると漸近的に次のようになる.
ここから最終的に赤池情報量規準は次のように定義される.
の期待値は漸近的に倍した期待カルバック不一致を近似する.
Divergence: from 1.130209% to 0.571024%
上から分岐.以下の議論は自信がない.単なる怪聞になっているかも知れない.
対数尤度の微分は最尤推定量の点で0になるため1次の項は無視できる.
また,最尤推定量の仮定された一致性からではへ確率収束するため,複数の確率収束する確率変数の四則演算に関する保存性と連続写像定理を考慮すると(こことここを参照),ここでの近似の誤差が任意の実数より大きくなる確率はに収束する.
このことを確率的ランダウの記号を用いて表示すればとなる.最尤推定量は確率変数なので通常の極限的にのような近似誤差の評価できないと考えられる;この点を考慮して最尤推定量の一致性を利用するならになるはずである.
上述のように確率収束する近似誤差を考慮に入れて展開を進め,追加で一様可積分性のような正則条件が満たされていると仮定するととなり(こことここを参照;なにか公式なソースではないので確証はないが...),最終的に期待カルバック不一致は次のようになる.
ここから赤池情報量規準は次のように定義される.
ここでの期待値はでになる誤差を伴ってを近似する.
所感
本編導出では,Cavanaugh and Neath (2018)に頻出する記号であるが,ベクタ(複数の観測)なのかスカラ(1つの観測)なのか,確率変数なのか実現値なのか,どこまでの文脈の範囲で同じで,また違うのか正直良くわからなかったため,全体の方向性は踏襲しつつも,カルバックライブラ情報量の期待値における変数は1変量の確率変数にすることを主軸とし,直感に適うことを優先しながら曖昧な点を順次確定する形で導出を行った.
Cavanaugh and Neath (2018)と最終的な形は異なるが,少なくともを一貫してベクタとして捉えると等価になる気がする(ぱっとした想像だけで厳密に検証はしてないが;ただしこの場合カルバックライブラ情報量の期待値の変数もベクタになり,個人的に解釈が難しい);一貫してスカラの場合,多分難しそうなのと,今の自分の知識の範囲ではObserved Fisher情報量とExpected Fisher情報量あたりで突っかかりそうな気がする.
またCavanaugh and Neath (2018)の導出ではテイラ展開の誤差の評価としてが現れている.調べてみたものの自信がないので,本編導出では全て近似で乗り切ったところであるが(Divergence: 0.571024%),一応が現れる道筋はつかめている(Divergence: 1.130209%).この点については厳密に確証を得ようと考えると中々難易度が高そうである;測度論的確率論がわからないので,その基礎からはじめて半年~1年程度は要しそうである.まったくもって自明で無いように見えるのに,なぜCavanaugh and Neath (2018)には別段の説明もなく,さらっとが登場しているのかは本当に疑問である.ただ自分が遠回りしているだけで,なにか簡潔に進める未知の前提がどこかにあるのかも知れない.んーとても口惜しい.途中の世界線変動率には特に意味はない.ラ・ヨダソウ・スティアーナ
ベイズ情報量規準と修正付き赤池情報量規準を経由して,ようやく赤池情報量規準の導出を一通り追ったが,漸近正規性関連+ExpectedとObserved Fisher情報量まわりでも大変混乱した.これらはいくつかの点で,証明なしにテキストに載っていることをそのまま信じる形で導出を進めたが,いまだ拭えない不安が残っている.現状時間が足りないが,いつかこれらもしっかり基礎から学習して不安を払拭したい.手近でHeld and Bové (2014)にこの辺りがざっくり載ってることに気がついた.まぁ近いうちに
の導出途中で狐につままれたようなと等価な変形を行ったが,Konishi and Kitagawa (2008)のFig. 3.7で図示されるような期待対数尤度と対数尤度間で生じるバイアスの分解と類似のものな気がする.ちゃんと対応をとって見てないのではっきりとは言えないが.
Konishi and Kitagawa (2008)と言えば,この本に載っているAICcの導出は,明確にテイラ展開や漸近正規性を用いないと書かれているサブセクション(3.5.1)に基づいているが,式(7.65)から(7.66)の変形では暗に最尤推定量の漸近正規性を利用しているように見える.あるいはを漸近正規性を用いずに求める方法があるのだろうか?今の自分にはわからない Madisen and Thyregod (2010)のTheorem 3.3に記載されてるように一般線形モデル(正規線形モデル)においては,誤差に仮定された正規性から直接的に回帰係数の推定量が正規分布に従うことが求められるので,ここでの疑問点は解消した.
今回も例にもれず,改善点・間違い等は見つかり次第修正する.