2017-12-11 週の日記 - クッキーの日記

12/11（月）～12/17（日）の日記を書きます。

参加したイベント

参加したイベント

第10回強化学習アーキテクチャ勉強会 - connpass（12/12）

スライドがアップされていました： GAN（と強化学習との関係）
生成モデルって何だったっけ；生成モデルは日本人の顔が出てくる箱。逆にこの箱をつくるには日本人の顔のデータが要る。生成モデルをつくるときに、「特徴量をニューラルネットに入れて出てくるものを取り出す」というやり方でつくろうとするのが VAE や GAN。ただし両者はこの箱の学習の仕方が異なる。
- VAEは入力と出力の差が小さくなるようにエンコーダ+デコーダを学習して、デコーダに適当な値を入力すると模造データが出てくる。
  - ところでVAEは特徴量がガウス分布であることまで求めるのでしたっけ。
- GANでは、まずジェネレータが乱数から模造データを生成して、ディスクリミネータがそれを模造データかどうか純正データか識別する。それを受けてジェネレータはディスクリミネータに純正データと識別してもらえるように模造データを純粋データに近づける。ディスクリミネータはそれでも識別できるようにする。その繰り返し。
  - MCMC のようだと思った； MCMC でいう標本分布＝模造データの分布で、MCMCでいう真の分布＝純正データの分布。
JSダイバージェンス：
- 【可視化】カルバックライブラーなど分布の差を表す指標の違い - プロクラシスト
課題： $D$ が未熟だと、 $G$ は同じような模造データばかりつくってしまう。なので、 $D$ の性能を十分上げておきたいが、といって完璧にしてしまうと、 $G$ はネットワークの重みをどの方向に更新しても損失が変わらなくなってしまい、学習できなくなる。
純正データは純正データ空間のとても局所的なところにしか存在しないので、 $G$ がもともと上手い模造データをつくらないとほぼ交わらないというのも MCMC に似ている。それを解決するのがワッサースタイン距離。
GAN がよいかどうかの評価は、GANをつかう目的に照らし合わせてだと思った（GANそのものの研究についての論文ではもちろんGANだけで評価することが必要ですが）。
アクター・クリティックについて昔作成したスライド（この前頁が REINFORCE）：

「これからの強化学習」勉強会#2 from Chihiro Kusunoki
強化学習でいう「期待収益をよくすること」と GAN にとっての「純正データっぽい模造データを出すこと」はどうアナロジーなのか。強化学習での方策の期待収益を見極める＝GANの真贋を見極めるで、よい方策を求める＝精巧な模造品をつくるで、訊こうと思ったけどまあいいや。