#probability

続・わかりやすい　パターン認識

第５章　教師付き学習と教師なし学習

5.5 教師なし学習の実習 (p.95)

例題5.2(p.83)での教師付き学習でのパラメータの推定の教師の存在を取り払い、例題5.3(p.86)を「教師なし学習アルゴリズム（p.93）」でパラメータの推定を行う

例題5.3：

箱に見分けの付かない$c$種類のサイコロ（$\omega_1$〜$\omega_c$）が大量に入っていて、それぞれの含有率（$\pi_i$）は不明
サイコロの種類によって各目の出易さが違う（$\theta_{ik}$）（これも不明）
箱からサイコロを取り出して投げ、出た目$x_t$を観測して元の箱に戻す、という操作を$n$回繰り返す
観測結果から含有率（$\pi_i$）及び目の出易さ（$\theta_{ik}$）を最尤推定で推定せよ

上記の例題に対する教師なし学習の実験として、3種類のサイコロ、目は奇数か偶数の2種類、$\theta$は既知で$\pi$のみを推定する。教師なしなので観測結果は出た目（$\vec{x}$）だけで、各回に投げたサイコロがどのサイコロだったか（$\vec{s}$）は不明とする（実際には使用するのはサイコロの目それぞれの出現回数を集計した $\vec{r}$ だけ）。

変数表

内容	変数名	備考
サイコロの種類	$\omega_1, \omega_2, \ldots, \omega_c$	$c$種類　ループ変数$i$
各サイコロの目（共通）	$v_1, v_2, \ldots, v_m$	$m$種類　ループ変数$k$
$n$回振った各サイコロの種類の時系列データ	$s_1, s_2, \ldots, s_n$	各要素$s_t$はサイコロの種類、なので$\omega_1$〜$\omega_c$のどれか　（教師なしなので知ることはできない）
$n$回振って出たサイコロの目の時系列データ	$x_1, x_2, \ldots, x_n$	各要素$x_t$はサイコロの目、なので$v_1$〜$v_m$のどれか　ループ変数$t$
$n$回の試行でサイコロの各目が何回出たかの集計	$r_1, r_2, \ldots, r_m$	$\vec{x}$より集計できる
箱の中のサイコロの含有率（未知）	$\pi_1, \pi_2, \ldots, \pi_c$	$c$種類　定義により$\pi_i = P(\omega_i)$
各サイコロを投げて各目が出る確率（未知（本来は、しかし5.5では既知として扱う））	$\theta_{ik}$	$i$がサイコロの種類、$k$が目の種類

変数と添字が多くてわけわからなくなるんだよね…

コード

# param_infer_unsupervised.rb
def main
  # πi: それぞれのサイコロが箱の中にどのような割合で混ざっているか
  pi = [0.1, 0.4, 0.5]

  # θi: それぞれのサイコロを投げた時に表が出る確率
  theta = [[0.8, 0.2],
           [0.6, 0.4],
           [0.3, 0.7]]

  # 試行回数
  n = 10000
  r = make_trial(n, pi, theta)

  # 推定する含有率πの初期値
  initial_infer_pi = [0.3, 0.5, 0.2]

  pis, log_likelihoods = infer_params_unsupervised(r, theta, initial_infer_pi)

  # 結果表示
  pis.size.times {|i| puts "#{i}: #{pis[i].inspect}, #{log_likelihoods[i]}"}
end

# 教師なし学習アルゴリズムでパラメータの推定を行う
# _r_ :: サイコロの各目が出た回数 r_k
# _theta_ :: 各サイコロの、各目の出る確率
# _initial_pi_ :: 推定する、サイコロの含有率の初期値
def infer_params_unsupervised(r, theta, initial_pi)
  # 試行で出た目だけを使って（どのサイコロだったかはわからない状態で）
  # サイコロのそれぞれの含有率piを推定する
  # 各サイコロを振った時に出る目の割合は既知(theta)とする

  c = theta.size  # サイコロの種類数
  m = theta[0].size  # サイコロの出る目の種類数
  n = r.inject(:+)  # 試行回数：各目が出た回数の合計

  # Step 1: πi, θikの初期値を与える
  pi = initial_pi

  pis = []
  log_likelihoods = []
  51.times do
    if i > 0
      # Step 2: ベイズの定理により、P(ωi|vk)を計算する
      p_wi_vk = (0...c).map do |i|
        (0...m).map do |k|
          prob = sigma(0...c) do |j|
            pi[j] * theta[j][k]
          end
          pi[i] * theta[i][k] / prob
        end
      end
      # Step 3-1: この値を用いてπiを更新し、以下の^πiを求める
      pi_hat = (0...c).map do |i|
        sigma(0...m) do |k|
          r[k] * p_wi_vk[i][k] / n
        end
      end

      # Step 4: πi = ^πi, θik = ^θikと設定する
      pi = pi_hat
    end

    # 式(5.8)、(5.51)より対数尤度logP(x)を求め、その増分が予め定めた
    # 閾値以下なら終了し、さもなければ、Step 2に戻って同じ処理を繰り返す。
    p_vk = (0...m).map do |k|  # 式(5.8): サイコロの目vkが出る確率
      sigma(0...c) do |i|
        pi[i] * theta[i][k]
      end
    end
    log_px = sigma(0...m) do |k|  # 式(5.51): 対数尤度logP(x)
      r[k] * Math::log(p_vk[k])
    end

    pis.push(pi)
    log_likelihoods.push(log_px)
  end
  return pis, log_likelihoods
end

# 箱からサイコロを取り出して投げる、という試行をn回行い、
# その結果サイコロの各目が出た回数を配列で返す
def make_trial(n, pi, theta)
  m = theta[0].size  # 出る目の種類の数
  r = Array.new(m) {0}
  n.times do
    st = pick_dice(pi)
    xt = roll_dice(theta[st])
    r[xt] += 1
  end
  return r
end

# 箱からサイコロを無作為に取り出す
def pick_dice(pi)
  random_choise(pi)
end

# サイコロを投げてどの目が出たかを返す
def roll_dice(theta)
  random_choise(theta)
end

# 確率でランダムに選び、選んだインデクスを返す
def random_choise(probs)
  r = rand
  probs.each_with_index do |p, i|
    return i if r < p
    r -= p
  end
  return probs.size - 1  # 誤差対策
end

# Rangeに対してブロックを呼び出し、その結果の和を返す：∑
def sigma(range, &block)
  range.map do |i|
    block.call(i)
  end.inject(:+)
end

main

50回の繰り返しの結果

対数尤度　（図 5.2相当）

log_likelihood

各サイコロの推定含有率　（図 5.3相当）

dice_probability

式(5.53)から求めてみる

p.94に、

例題5.3で求められている最適なパラメータは、すでに式(5.53)で示されており、あえて上記繰返し演算を適用する必要はない

と書かれている。なので式(5.53)から求めてみる：

$$ P(v_k) = \sum_{i=1}^c \pi_i \cdot \theta_{ik} = \frac{r_k}{n} \tag{5.53} $$

書き下すと

$$ \begin{align*} \pi_1 \cdot \theta_{1,odd} + \pi_2 \cdot \theta_{2,odd} + \pi_3 \cdot \theta_{3,odd} &= \frac{r_{odd}}{n} \\ \pi_1 \cdot \theta_{1,even} + \pi_2 \cdot \theta_{2,even} + \pi_3 \cdot \theta_{3,even} &= \frac{r_{even}}{n} \end{align*} $$

srand(0) で試した所、１万回中 $r_{odd} = 4793$、$r_{even} = 5207$ だった。未知の変数は $pi$ の3、方程式は2つなので一意に解けない。仮に $\pi_1 = 0.1139$ とわかったとして計算すると、 $\pi_2 = 0.4078$, $\pi_3 = 0.4783$ となり、繰り返し計算で求めた値と近い値が得られた。

内容	変数名	備考
サイコロの種類	\(\omega_1, \omega_2, \ldots, \omega_c\)	\(c\)種類　ループ変数\(i\)
各サイコロの目（共通）	\(v_1, v_2, \ldots, v_m\)	\(m\)種類　ループ変数\(k\)
\(n\)回振った各サイコロの種類の時系列データ	\(s_1, s_2, \ldots, s_n\)	各要素\(s_t\)はサイコロの種類、なので\(\omega_1\)〜\(\omega_c\)のどれか　（教師なしなので知ることはできない）
\(n\)回振って出たサイコロの目の時系列データ	\(x_1, x_2, \ldots, x_n\)	各要素\(x_t\)はサイコロの目、なので\(v_1\)〜\(v_m\)のどれか　ループ変数\(t\)
\(n\)回の試行でサイコロの各目が何回出たかの集計	\(r_1, r_2, \ldots, r_m\)	\(\vec{x}\)より集計できる
箱の中のサイコロの含有率（未知）	\(\pi_1, \pi_2, \ldots, \pi_c\)	\(c\)種類　定義により\(\pi_i = P(\omega_i)\)
各サイコロを投げて各目が出る確率（未知（本来は、しかし5.5では既知として扱う））	\(\theta_{ik}\)	\(i\)がサイコロの種類、\(k\)が目の種類

教師なし学習でパラメータの推定

続・わかりやすい　パターン認識

第５章　教師付き学習と教師なし学習

5.5 教師なし学習の実習 (p.95)

変数表

コード

50回の繰り返しの結果

対数尤度　（図 5.2相当）

各サイコロの推定含有率　（図 5.3相当）

式(5.53)から求めてみる

新着記事

続・わかりやすい パターン認識

第５章 教師付き学習と教師なし学習

5.5 教師なし学習の実習 (p.95)

変数表

コード

50回の繰り返しの結果

対数尤度 （図 5.2相当）

各サイコロの推定含有率 （図 5.3相当）

式(5.53)から求めてみる

関連記事

ベイズ誤り確率の計算

ベイズ推定とグラフィカルモデル：コンピュータビジョン基礎

コインを投げるごとにどのコインなのかの確率を計算（ベイズ更新）

コインを投げて表が出た時に、どのコインだったかの確率

光源サンプリングが苦手なケースでMISの効果を確認

新着記事

続・わかりやすい　パターン認識

第５章　教師付き学習と教師なし学習

対数尤度　（図 5.2相当）

各サイコロの推定含有率　（図 5.3相当）