NIPS2017読み会@PFN：参加メモ

以下の勉強会に参加してきました。connpass.com

以下、思ったことのメモです。いい加減なことしか書いてなく、文字数と興味は比例しません。

NIPSについて	NIPS会議への参加はプラチナチケットなのですね…。
GANのテーマトーク	半教師有りですごいというのやってみたいです。ラベル貼るの大変ですので。
Inverse Reward Design https://arxiv.org/abs/1711.02827	自分の発表でした…お聞き苦しくすみませんでした…。この日記上で志希ちゃん（自分）とまかべー（自分）が論文読みをしてくれましたが、発表資料を作成すると後から結構間違いに気付きました…それもすみませんでした…。
A Unified Approach to Interpreting Model Predictions https://arxiv.org/abs/1705.07874	モデルの解釈性の話。この話とは関係ないですが、以前読もうとしていた教材を、全然読んでいません…。 https://christophm.github.io/interpretable-ml-book/
Deep Sets https://arxiv.org/abs/1703.06114	（順序のない）集合を扱う話でした。PointNet と関係あるのでしょうか…。関係ないですが、この論文タイトルは検索しづらいですね…。
Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning https://arxiv.org/abs/1706.00387	ご本人の発表でした。方策オンと方策オフを混ぜた手法。強化学習問題で、囲碁などは Simulation。データがいくらでも取れる。自動運転などは Real-world。データは限られる。なので向いている手法の違いなども出てくるのですね。
分散深層学習のテーマトーク	大規模データの処理はお金でGPUを積めば解決するのではないのですよというお話でした。学習率とバッチサイズのスケジューリングだけでなく、大規模なりの勾配降下法など。
階層的強化学習のテーマトーク	11月の強化学習アーキクチャ勉強会でこの方のお話を一度お聴きしたので聴きやすかったです。ワークショップとなるほどの分野になのですね。これも昨年からやってみたいと思っていてやっていないです…。LSTM論文を読んでいたので、「記憶改竄」と聞いて LSTM の Forget Gate を思い出してしまいました。LSTM でいうなれば、入力データのモードの違いを読み取って、Forget ではなく以前もっていた記憶を Remember ということができそうですね。どなたかやっているのでしょうか。
モデルに基づく強化学習のテーマトーク	現実世界の強化学習は難しいという話が今日よく出てきますね。現実世界の情報の引き出しにくさに加え、安全性（解釈性）が求められるのは、深層学習モデルではなかなか届かないですね。AIの判定が誰かの不利益になるとき（説得するのに）、失敗が致命的な事故となるとき（自動運転）、安全性（解釈性）が要りますね。
Estimating Mutual Information for Discrete-Continuous Mixtures https://arxiv.org/abs/1709.06212	情弱なので相互情報量がわからないです。 → このテーブルの下で考えました。
Predicting Organic Reaction Outcomes with Weisfeiler-Lehman Network https://arxiv.org/abs/1709.04555	グラフを畳込むということが言われればできますね（但しノードことに近傍が異なる）。こういう、高度に専門的なドメイン知識（この発表では化学反応）が搭載された機械学習というの、将来できたらいいなあと思う方向性です。
音のテーマトーク	音、会話、音楽とあるのですね。会話認識で音素がモデル化されているというの、前回の記事でエリー（自分）が言っていたのと関連しています。音声合成というのは、ボイスロイドという認識でよいのでしょうか…。マルチモーダル学習もやってみたいです。
分子と材料のテーマトーク	今日一日通して、機械学習とモデルの協力というテーマがよく出てきますね…。VAE は分子もつくってくれるのですね…（合成できる保証がないって面白いですが）。というか VAE と GAN で対比したときの VAE の役割って何だったっけ…。以下をみると GAN と違って尤度が測れるのか…。 https://www.slideshare.net/masa_s/gan-83975514

相互情報量って何かを以下の記事っぽい雰囲気で考えようと思いますが、2変数必要ですね。
雑記：交差エントロピーって何 - クッキーの日記

上の記事には2国間の天気の同時分布などないので、以下のようにイメージしておきます。

$P($ A国が晴, B国が晴 $)=0.25$
$P($ A国が曇, B国が晴 $)=0.25$
$P($ A国が雨, B国が曇 $)=0.25$
$P($ A国が雪, B国が雨 $)=0.125$
$P($ A国が雪, B国が雪 $)=0.125$

A国の天気とB国の天気の相互情報量というものを考えることができるはず。
$I($ A国の天気, B国の天気 $\displaystyle)= \sum_{y \in Y} \sum_{x \in X} p(x, y) \log \frac{p(x,y)}{p(x)p(y)}$
A国の天気がこれでB国の天気がこれだという情報を、「A国の天気とB国の天気が独立だと考えたときのエンコーディング」から「正しいエンコーディング」を引いたものの平均になっている。独立だと考えたときの方が確率は同じか小さくなるから、相互情報量は0か正になる。相互情報量が0なら、 $X$ と $Y$ は独立になる。というか、「実際の同時分布」と「独立な場合の同時分布」のカルバック・ライブラー情報量だ。「独立な場合の同時分布」までの距離だ。