NIPS2017論文読みメモ: Inverse Reward Design(その5)

NIPS2017論文読み会に参加するので論文を読みたいと思います。今回読むのは以下です。最終回です。

Dylan Hadfield-Menell, Smitha Milli, Pieter Abbeel, Stuart Russell and Anca Dragan. Inverse Reward Design. arXiv: 1711:02827, 2017. https://arxiv.org/abs/1711.02827
※ 以下、キャラクターが会話します。それぞれの原作とは関係ありません。論文内容の解釈誤りは本ブログ筆者に帰属します。
前回:その4
f:id:cookie-box:20180101155951p:plain:w60

IRD の効果を検証すべく、格子世界での最短経路探索タスクを4パターン実験するということでしたが、残りの2パターンはどのような実験なのでしょうか。

f:id:cookie-box:20180101155919p:plain:w60

突然だけど、瑞希ちゃんは草むらに踏み出したとき、そこが確かに草むらだということをどうやって知るかにゃ?「そこは草むらです」という天からの声が降ってくるかにゃ? あるいは、地面に「草むら」というラベルが貼ってあるかにゃ?

f:id:cookie-box:20180101155951p:plain:w60

いいえ、天からの声を聞いたこともなければ、地面にラベルが貼ってあるのを見たこともありませんね。そこが草むらだというのは、自分の目で見て草が生えていることから認識すると思います。

f:id:cookie-box:20180101155919p:plain:w60

ロボットの場合は、搭載されているカメラで認識するかもしれないし、地面の形状をセンサで感じて認識するかもしれないね、現実的には。それで、未知の状態に出くわしたとき、それが自分が知らないものだと認識するのも実は難しいんだよねー。あたしは全然専門じゃないからよくわからないけどさー、ロボットの判定ってこんな風になってそーじゃん?

if ( 地面がもしゃもしゃしている ) {
  return 草;
} else {
  return 土;
}
地面には土と草しかないだろうなって思ってたらさー、こーゆー実装しそう。

f:id:cookie-box:20180101155951p:plain:w60

…私は前回、知らない状態に出くわしたら回避すればよいのではとつぶやきましたが、そもそも知らない状態があるという想定がなければ、知らない状態であると認識することもできないということですか。まるで、無知の知です。

f:id:cookie-box:20180101155919p:plain:w60

哲学的だねー。まーそれで論文に戻ると、後半の2つの実験では、前半の2つの実験と違って地面が何であるかを知らせる天の声はないんだ。より現実的な状況を想定している。論文では地面タイプが latent っていってるねー。ロボットは天から知らされる地面の形状の正解ラベルではなくて、たぶんセンサか何かで地面の形状の確率的な特徴量を受信するよ。今回は、地面タイプによって平均と分散が決まっているような、多変量正規分布からサンプルされた点とするみたいだねー。プロキシ報酬を設計するときに、地面タイプは草か土か宝物しかないって思っているのは前半の2つの実験と同じだよ。それで、プロキシ報酬を設計する手順を以下の2パターン試したみたいだねー。

  • ロボットが受信した特徴量を直接利用して、報酬を線形回帰で求める。
  • ロボットが受信した特徴量からまず土か草か宝物か分類して、土と草と宝物への報酬を設計する。
つまり、前者のパターンでは、テスト環境での最短経路探索時にもロボットは地面が土か草か宝物かは気にせずに、センサが受信した生の数値をつかって報酬を算出するけど、後者のパターンではセンサの数値をそのまま報酬計算には利用せず、まず土か草か宝物の判定をするんだね。

f:id:cookie-box:20180101155951p:plain:w60

後者の方が、地面タイプを判定するという点で、余計な中間目標を設定しているような感じがあります。チェスで駒取りに報酬を与えるような。本当に達成してほしい目標にだけ報酬を与えるべきで、余計な中間目標はない方がよいはずです。…でも、それだと学習が遅くなったりなかなかできなかったりする、か。…一ノ瀬さん、IRD を検証する4つの実験がどのようなものかは何となくわかりましたが、IRD の効果を測るのに、具体的に何を計測したのでしょうか。

f:id:cookie-box:20180101155919p:plain:w60

たくさんの訓練用地図+テスト用地図を生成して、訓練用地図でプロキシ報酬を設計してテスト用地図で最短経路を求めて、テスト用地図での最短経路が溶岩を踏んじゃった割合がいくつだったか、ってのを測ったみたいかなー。論文7ページに4つの実験の結果のグラフがあるね。灰色がプロキシ報酬に愚直にしたがって学習した場合に溶岩を踏んじゃった割合、オレンジ色と青色が IRD で真の報酬の分布を推測しながら求めた最短経路で溶岩を踏んじゃった割合っぽい。オレンジ色と青色は IRD の解き方の違いだね。その3でみたように、IRD の近似解法にはプロキシ報酬の有限個のサンプルで積分を近似するやり方と IRL として解く方法があって、サンプルで近似するのが青色、IRL として解くのがオレンジ色だね。

f:id:cookie-box:20180101155951p:plain:w60

オレンジ色や青色で示されている IRD の結果は、灰色で示されているプロキシ報酬そのままで学習した結果より、随分よいですね。オレンジ色と青色だと、オレンジ色、つまり、IRD を IRL として解く方法の方が僅かによいみたい。あ、一番右端の、ロボットが受信した特徴量を土か草か宝物か分類してから報酬を計算する実験は、他の3つの実験に比べるとどの学習方法も苦戦していますね、やっぱり。

f:id:cookie-box:20180101155919p:plain:w60

それについては、プロキシ報酬そのままの学習については、溶岩を宝物って分類しちゃう可能性が大きくなるから悪いと言及されてるねー。IRD による学習でも、一度土か草か宝物と分類した後で真の報酬を推論するために悪いって書かれてる。ちなみに、地図の生成の際に、隣り合うセルは同じ地面タイプになりやすいようになっているみたいだから、溶岩があるテスト環境では地面の切り替わり(?)が多くなって、ロボットは溶岩を土や草とかと誤認したとしても訓練環境とはちょっと違うって気付くんだとは思う。一番右のグラフの、灰色とオレンジ・青色の差はそこにあるのかにゃーって思った。

f:id:cookie-box:20180101155951p:plain:w60

地面が土、草、土、草とたくさん切り替わるような経路は訓練環境で経験しなかったので、報酬に不確かさが大きいということですね。

f:id:cookie-box:20180101155919p:plain:w60

最後に、課題と今後の展望が述べられているね。課題は、真の報酬の事後分布をどう利用するのがベストなのかとか、リスク回避計画だと良い方のリスクまで回避してしまうとか。出くわした未知の状態は、溶岩じゃなくて、想定してたよりもっとすごい宝物かもしれない。

f:id:cookie-box:20180101155951p:plain:w60

…そうかもしれない、けど、それは強化学習の枠組みで解決できる問題なんでしょうか…。

f:id:cookie-box:20180101155919p:plain:w60

まーそのくだりは、IRD が、報酬関数の設計者に設計ミスを気付かせる鍵になるだろうって書かれてるくらいだねー。別の課題は、この論文ではリスク回避計画問題を明示的に解いているんだけど、環境モデルや報酬関数が複雑だと計画問題を明示的に解くのって無理。だから、より複雑な環境でも IRD をつかえるように、近似的に計画問題を解くとか、真の報酬の事後分布の使い方を工夫したいって。あと、報酬関数が線形であることを仮定しているのもやっぱり制約になっていて、例えば今回の実験の場合、地面タイプの特徴量を地面の色(RGB)として受信していたら上手くいかなかっただろうって。

f:id:cookie-box:20180101155951p:plain:w60

土の茶色と溶岩の赤色が結構似ていますしね。

f:id:cookie-box:20180101155919p:plain:w60

加えて、IRD で報酬の設計ミスをリカバーできるといっても、いまの IRD はミスの仕方にも制約があるのが課題と言ってるね。このくだりは、結構近いプロキシ報酬を特定しておかないといけないというのと対応していると思うにゃー。それも将来的には対応したいってさー。

f:id:cookie-box:20180101155951p:plain:w60

確かにプロキシ報酬に仮定を置いていました…。上手なミスの仕方に限る、というのも、現実的には厳しいですね。

f:id:cookie-box:20180101155919p:plain:w60

この論文はこれで以上だね。課題は色々あるけど、ヒトが設計した報酬をとりあえずのものとして、真の報酬を推定しようっていうのは面白かったにゃー。模範的な行動を与えて真の報酬を推定する逆強化学習(IRL)という枠組みはあったけど、模範的な行動がわかんないから強化学習に頼りたい訳だしー?

f:id:cookie-box:20180101155951p:plain:w60

Appendix は読まないんですか?

f:id:cookie-box:20180101155919p:plain:w60

あたしは読んでもいーんだけど、プロデューサーが他にも読みたい論文があるってさー。

終わり