「評価指標入門」読書メモ

「評価指標入門〜データサイエンスとビジネスをつなぐ架け橋」をいただいたので感想を書きます。
解釈がおかしいところは私に帰属します。

どんな本か & 感想
「『評価指標』入門」とあるように、「評価指標を利用したい」≒「統計・機械学習モデルを実務で利用するので、モデルのよさを測りたい」という状況が前提です。スタンダードな評価指標をそのまま採用して「よいモデル」を判断すると、場合によっては何の成果にもつながらない/下手をすると利益を損ねることすらあります(出版社の書籍紹介ページの内容)。なので、なるべくそのような失敗をしないためには評価指標をどのように決めるとよいのかの知見を与える本になっています。

1 章ではまずモデルの評価指標と KPI の関係が解説され、2~4 章ではモデルが解くタスク別に具体例に沿ってどの評価指標が望ましいのかが議論されています(GitHub にノートブックも公開されています)。特に 1.7 節、3.14 節、3.15 節、付録などでは KPI から順を追って評価指標をつくる例が示されています。

この本の内容は、統計・機械学習モデルの運用に関わっている人にはもちろん把握していてほしいですし、そうではないところでもっと大まかなビジネス課題の分析を主な仕事としているような人にも、「当社で運用されているモデルはビジネス課題を解決しているのだろうか」と考えるきっかけになると思います(1 章ではモデル運用をしている人たちの仕事の流れから解説されています)。「うちの組織では機械学習システムなどを導入しているわけではない」という場合でも、アドホックにでも分類や回帰をして何らかの施策をしている(これからしたい)ならそれがモデルに該当するのでやはりこの本が役立つと思います。

また、既に KPI との関連を理解して評価指標を設計できるという人でも、そういう人ほど、以下のような活用もできる本なのではないかと思います。

  • 例えば、あなたのチームはこの本のような考え方を実践できていそうでも、あなた以外のチームメンバーもあなたと同じスキームをもっているかどうか確認することはなかなか難しいのではと思うので、この本をチームで読み合わせながら議論するのは面白そうです。
  • あなたの組織ではまだこの本のような考え方を実践しきれていないなら、この本をベースにあなたの組織版のスキームを書くこともできそうです。
  • 単に、あなたの前に「評価指標がよくなったのに思うようにいかなくておかしい」と信じてやまない人が出現したときに「それは誤謬であり、この本で論じられています」というと説得しやすくなるということもあるかもしれません。

まとめると、皆が同じ方向を向くために大いに利用できる本なのではないかと思いました。


以下はもっとチラシの裏です。
1章の個人的なメモ
1.5.3 節のような落とし穴には以下のようなケースも思いつきます。

  • 購入者数は増えたが、単価が下がった。
  • そのチャネルからの顧客流入数は増えたが、他チャネルから流入するはずだった顧客を横取りしただけであった。
  • 今週の売上は増えたが、来週の売上を前借りしただけであった。
  • 不気味の谷ということでもなく、単にうっとうしかった。

また、35ページの 2 つの黒丸の記述に加えて「ランキングの下の方まで見るような人に対する表示順序を磨き上げてもあまり効果がなかった」なども思いつきます。何にせよ、それらのような罠への対処として、その節の続きにあるように仮説検証するべきですし、まず「そのモデル改善で何がうれしいのか」「そのモデル改善で引き起こされるかもしれない負の側面(リスク)を考慮したか」などがリリース前チェックリストに含まれるべきであるようにも思います(それらが仮説ではありますが)。

43 ページの 1 行目のような観点を踏み外さない方法は、「『私は長い目でみてこのビジネスをよくすることをしているか?』を自分に問う」ことなのではないかと思います。無論それではあまりに個々人の感覚に依存してしまうので、どんな世界を目指すのかの具体的なビジョンを皆が共有し、なるべく「モデルがユーザに与える影響の可視化 → 目指すビジョンと整合するかのチェックリスト化 → KPI化」をしていくべきとは思います。

2~4章の個人的なメモ
具体的な例でそれぞれの問題設定における統計・機械学習モデルの評価指標としてどのようなものが望ましいかを論じています。個人的には、「その評価指標は、このようなケースでモデルのよさを取り違えませんか」と反例を挙げられるとよいのではないかと思います。そのためには、適当なケースを思いつくだけのドメイン知識や、そのケースでの計算結果を示せるフットワークの軽さが重要なのではないかと思います。

「予測が上振れしたときの誤差」と「予測が下振れしたときの誤差」の重みが平等でないというケース(分位点予測でいうピンボールロスだと思いますが分位点予測でないときにピンボールロスというのかわかっていません)には、「値段を高く付け過ぎると売れないし、値段を低く付け過ぎると損する」などもよくありそうです。

付録の個人的なメモ
付録を通じて「よくある評価指標をそのまま用いるのではなく、あなたの会社の収益構造やその機械学習モデルを用いる施策の状況を反映させなければならない」ことの説明になっています。一般に限られた予算で既存顧客にはたらきかけたいときに通じる話になっていると思います。ただ本文中にあるように仮定が置かれていますし、現実にこのような策を講じるときには「今月ひとまず顧客を意図通りに動かすことに成功したとして、来月以降その顧客はどう動くのか」などの心配事もあるのかもしれないです。
もっと個人的な感想
この本の冒頭部分にも「会社組織の文化(VIIページ)」「社会学的なもの(Xページ)」とあるように、KPI と評価指標が噛み合わずに失敗するならばそれは組織自体に起因するところが大きいと思います。おそらく組織によって KPI の位置づけ・粒度も異なり、KPI とモデルとの関係も異なり、それぞれを管理する体制も異なるはずなので、所属する組織によっても個々人の立場によっても、「あなたの組織で KPI と評価指標のすれ違いが起きたとします。どのような再発防止策を講じるべきと考えますか」という問いに対する回答はかなり異なってくるのではないかと思います。なので、以下は(も)自分の勝手な感想です。

そもそもの話

そもそも「評価指標を追いかけたら実際には失敗した」というのはさもありなんという話のようには思います。39ページに書かれている「KPI とモデルの関係を理解したうえで」という箇所に尽きるようには思います。評価指標を追いかける前に理解するべきことがあったはずです。

ただ KPI とモデルの関係を理解しようとしても失敗した(理解できなかった)というのであれば、「KPI とモデルの関係が容易に理解できないような状況」になっていると思います。ということは、「KPI を向上させるべく(ビジネス上の問題 ※1 に対処すべく)モデルを導入しているはずなのに、モデルに期待する役割が具体的に把握されていない状況」になっていると思います。

  • 例えば、「ホテル予約者を多くするという問題」に対する「ホテルを適当な順序で表示するモデル」の役割は明確ではないと思います。表示順序に問題の要因があるのかわからないからです。
    • 無論、事前の分析によって表示順序に要因があると明らかにされていればその限りではないと思います(ただその場合、問題(KPI)は「予約してくれたはずなのに表示順序のせいで離脱したユーザに予約させる問題」のように特定され、モデルの役割が明確になると思います; そしてこのとき事前分析の結果が評価指標をどうすべきかに示唆を与えると思います)。
  • 役割が明確化されていないというよりは漠然と「皆がモデルから無限に KPI 改善を引き出せるという誤った理解をしている」という状況も多いのかもしれません。

そのような状況ではとりもなおさず「KPI がビジネス上の問題の落とし込みとして策定されていない」ということになると思います。であれば、KPI の策定プロセスを改善すべきということになりそうに思います。以下のブログ記事にもありますが、あなたのチームが進むべき方向を示してくれないのであれば(行動可能なものでないのであれば)それはもはや KPI ではないと考えます(※2)。要は皆が迷子になるのであれば KPI がよくないと思うのですが、KPI とモデルの関係をより明確にした場合でも評価指標側も歩み寄らなければならないことにあまり変わりはありませんし、結局 KPI の策定プロセスにおいてこの本にあるような考え方も必要になると思います。

※1. 2023/02/19 追記: ここで「ビジネス上の問題」とは、「利益を大きくするという問題」というレベルではなく、より具体的な「現在のビジネスができていなくて悲しいこと/新たにできたらうれしいこと」であり、かつ、「その問題にはそのモデルを用いる必然性がある」ようになっているものを意味します。いまそのような問題を落とし込んだものが KPI であるという立場を取っているので、この箇所は「KPI が KPI でない状況」といっているのと同じです。

※2. 2023/02/19 追記: 無論 KPI がどこまで進むべき方向を指し示すものとなっているべきと考えるかに異なる意見があると思います。この箇所で別のブログを引用していましたが、そのブログが私と同じ主張をしているといっているようにみえて語弊があったので引用を削除しました。ただ KPI をどう位置付けるにせよ、評価指標を追いかけ出すより前に事前分析や仮説立案があるべきように思います(それはこの本が全体を通していっていることときっと変わりません)。

もっとそもそもの話

会社に所属している人ならば、そもそも KPI の前に会社のゴールがあり、会社のゴールの前に会社のミッション、ビジョン、バリューがあると思います。その意味でも、

  • 「ユーザに見られていないランキングを改善しました」で達成されたビジョンは何なのか。
  • 「誰彼構わず宣伝メールを送り付けました」で達成されたミッションは何なのか。

という話になるとは思います。無論これでは不明瞭すぎて誰もが同じ品質でチェックすることができないので、「モデルがユーザに与える影響の可視化 → 目指すビジョンと整合するかのチェックリスト化 → KPI化」などをしていくべきということにはなると思います。