全体の補注

確率の記法について

たまに集中講義や非常勤の講義で学習関係の話をすると、確率や統計に関する知識がかなり欠けていると感じます。 

これは高校の教育課程や大学のカリキュラムなどにも問題があって、線型代数や微分積分は必修なのに統計や確率は選択のことが多いことも一因でしょう。

確率について、そもそも記法の段階でつまずく人がいるのでここにメモしておきます。 本書でも記法についてはかなり省略した書き方をしているので確率に慣れていない方は参考にしてください。

"p" という字の特別性

離散確率変数 X に対し、Pr[X=x] あるいは P[X=x] で、X が実現値 x を取る事象の確率を表す。 
でもどっちも変数で書いたら区別つかない、、、

ということで P[X] とか、P[x] とか省略し、小文字にして p(X) とか p(x) などと書き、すべて同じものをさす。
一応 p(X) と書くと関数を指し、p(x) とするとある特定の x に対する値を指すという ニュアンスのはずだが、あまり大文字小文字区別せず書くことも多いので、p(x) が関数を指すことだって多い。

複数の確率変数が出てきても p(x, y) という具合だ。 (正式に書けば Pr[X=x, Y=y])
普通の関数なら2変数関数なら何か記号を変えたりするはずだが、p という記号は何でも使い回す。

例えば独立性の定義は p(x,y) = p(x) p(y) だが、それぞれの p は関数として見ればそれぞれまるで違うものを 指しており、これらを文脈だけで判断する必要がある。

これが紛らわしい文脈では p_{xy}(x,y) = p_x(x) p_y(y) などと添え字をつけたりもするがごちゃごちゃするので避けることも多い。

変数の順序

また、条件付き確率が出てきたときに p(y|x) p(x) = p(y, x) と書くことも多いが、この右辺は Pr[Y=y, X=x] なので実は p(x,y) と書いても同じで、x とか y とかの文字で判断する必要がある書き方である。
R の引数の取り方が f(X=x, Y=y) でも f(Y=y, X=x) でも OK なのに少し似ている。

"p" が紛らわしい場合

また、学習とか統計とかの話をするときは確率そのものが推定の対象だから x の確率分布といっても母集団の分布や推定した分布などいろいろ出てくるので、p(x) のほかにも q(x), r(x) とか 適当なアルファベットがない場合など p^*(x) だの \hat{p}(x) だのいろいろ記号を使って区別することもある。
慣れていればそんなに難しくないのだが、やはりこのように書いてくると結構初学者にはごちゃごちゃした話かもしれない。

条件付確率

条件付確率 p(x \mid y) はあくまで x の確率分布であり、y の確率分布ではないということである。

ときどき \sum_y p(x \mid y) = p(x) などとする誤りを見かけるが、 正しい式 \sum_y p(x\mid y) p(y) = \sum_y p(x, y) = p(x) と混同しないように。 (もちろん p(y) が一様分布ということが 断ってあれば問題ない...ちゃんと足して1に正規化すれば)

ベイズと頻度主義

ベイズと頻度主義の違いはパラメータを確率変数とみなすかどうかということ。

したがってパラメータ \theta をもつ x の確率分布は 頻度主義では p(x;\theta) または単に p(x, \theta) と書くことも ある。

一方ベイズではパラメータも確率変数なので p(x \mid \theta) と書く。

しかし、これらは単なる立場の違いであり、どれも同じものをさしている。

測度論的記法と初等的記法

以下の記法はかなり上級レベルの問題だが、実数上の測度 P で積分するとき

\int f(x) dP(x) あるいは単に \int f(x) dP

という書き方をするが、測度の記法に慣れていないとよくわからないので初等向けに書くときは

\int f(x) p(x) dx

という書き方をする。この場合は p(x) は確率密度である。

おまけ

ググるとこんなページも見つかりました


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2009-10-08 (木) 23:00:42 (124d)