修正済み赤池情報量規準(AICc)の導出
Hurvich and Tsai (1989)を流し読みして得た理解まとめ
準備
まず,データは次のTrue Modelから生成されたと仮定する.
Hurvich and Tsai (1989)ではTrue Modelの意味でOperating Modelという用語が使われているが,どういうニュアンスを含んでいるのかよくわからない
また,近似に用いるモデル族として次のものを考える.
は次元ベクタ,は連続で2階微分可能であると仮定する.
近似に用いるモデルとTrue Modelの具体例として,両者が線形モデルであるとすると,,となる.ここでとは各々にとのフルランクの行列,は次元ベクタである.
近似に用いるモデルとTrue Modelの乖離を測る有用な指標として,カルバック・ライブラ情報量がある.
ここでは期待値がTrue Modelに関するものであることを示し,は近似に用いるモデルに基づいた尤度関数である.ここでのカルバック・ライブラ情報量は定数になる項を無視し,をかけている.
カルバック・ライブラ情報量が小さいほど,対象となったモデルとTrue Modelの乖離が少ない.
正規分布についての尤度関数を次に示す.
具体的に得られた尤度関数からカルバック・ライブラ情報量は次のようになる.
補足蛇足
妥当な規準として近似に用いるモデルを評価するため,カルバック・ライブラ情報量の期待値を取り,パラメータとして得られたデータに基づいた最尤推定量を使用する.
最尤推定量を適用してカルバック・ライブラ情報量は次のようになる.
Hurvich and Tsai (1989)では,この段階でが定数として無視されるが理由は不明.を無視すると尤度との関係がわかり難くなるので良いことはない気がするが…
近似に用いるモデル族が複数あるとき,を最小化するものが,ある意味でTrue Modelに最も近いものとして選択され得る.
実際にはTrue Modelは未知であるから,それに基づくも同様に未知である.しかし,何らかの追加の仮定が置かれることで,この量は推定され得る.推定され得る1例として,次に示す赤池情報量規準は近似的にの不偏推定量を提供する.
ここでは近似に用いるモデルのパラメータの次数である.また,は最大対数尤度と等しい.
AICcの導出
ここでの目標は次のの推定量を得ることであり,それが最終的にAICcを導く.
まず,を定理として受け入れ,の定義よりであることから,はに従い,はに従う.ここで証明なしにを定理として受け入れたが,これは調べればWikiにも出てくる;自由度あたりが浅学過ぎて証明はわからない.書籍として少なくともPuntanen et al. (2013)には載ってる.
このことからの右辺第2項は次のように求まる.
以下,近似に用いるモデル族にTrue Modelが含まれているという強い仮定を置く.この仮定の下でTrue Modelの平均応答はとなる.ここでは次元の未知のベクタである.
次に,のにおけるテイラ展開による1次近似を考える.
ここではにおけるである.追加の仮定として線形モデルを考えるとは計画行列になり,は多変量正規分布に従う(Madisen and Thyregod (2010), p.49, Theorem 3.3).Hurvich and Tsai (1989)ではを線形モデルに限定した書き方はしていないが,非線形モデルの場合でも同様の正規性が導入できるのかは浅学過ぎてよくわからない.
以上からの右辺第3項の期待値内は近似的に分布に帰着できる.
ゆえに
最終的に全体としてまとめるとは次のようになる.
そしてここからAICcは次のように定義される.
AICcの期待値はを近似する.
上のAICcの罰則項は少し見慣れないかもしれないが,正規線形モデル等で推定される分散もはじめから考慮に入れたパラメータ数としてとすれば,比較的よく見かけるAICcになる.
前のBlogでAICcの利用法に関して,情報量規準で意図される罰則項という観点から述べたが,AICcの導出過程から罰則項の分母は分布と分布の自由度に由来するものであるため,明確にとならない場合の使用は悪用である.
今回も思いの外長くなった.Hurvich and Tsai (1989)を読んでざっくりは理解できた気がしていたが,これを書いてて理解の穴が多分にあることに気がついた.さらなる研鑽が必要である(小並感).なにか改善点・間違いに気がついたら修正する.