著者:高柳 慎一, 長田怜士
監修:株式会社ホクソエム
予測精度0.001%の改善をビジネスの成果に!
「評価指標でXXXという最高のスコアが出た!」と喜び勇んで、機械学習モデルが出力してくる予測結果をもとにビジネスを運用したとします。 ところが、ビジネス上のKPIと相関が高い評価指標を選んでいなかったために、KPIの推移を見てみると大した変化がありませんでした。 あるいは「毎日夜遅くまで残業をして、特徴量生成とクロスバリデーションによって評価指標を改善しました!」というデータサイエンティストがいたとします。ところが、KPIの改善のためには そこまで高い評価指標の値を達成する必要ありませんでした。このようなケースでは、データサイエンティストが費やした工数がすべて水の泡となってしまいます。———-(はじめにより)———- このような状況が起きてしまう背景にはさまざまな原因が考えられますが、あえて一言で言うと「データサイエンスの問題が解くべきビジネスの問題と乖離していた」ためです。 機械学習モデルの”良し悪し”を決めるときには、評価指標(Evaluation Metrics)を必要とします。本質的に評価指標の設計方法は自由であり、ビジネス上の価値を考慮して自ら作成することも可能です。RMSEやAUCといったスタンダードなものから、ドメインに特化した数値まで、あらゆる指標が評価指標になりえます。では評価指標はどのように決めるのが良いのでしょうか。また、どのように決めれば冒頭のような悲しい状況を生まずに済むのでしょうか。 本書はこれらの疑問に答えるため、機械学習の良し悪しを決める評価指標を軸に、解くべきビジネスの問題をどうやってデータサイエンスの問題に落とし込むのか、その原理を解説していきます。この原理が普遍的なものであれば、ビジネスがどんなものであっても応用できると考えることができます。 回帰、分類で使用するスタンダードな評価指標についても、基本から丁寧に解説します。本書を読むことで、どのようなケースでどの評価指標を選ぶべきかがわかり、評価指標の読み間違いを避けることができます。 |
目的変数と評価指標とKPIはしばしば混同されがちな概念です。本質的には独立であるこの3つの概念がしばしば混同されてしまう主要な原因は、極めてまれではありますが、そのすべてを=(イコール)で結ぶことができる、すなわち「目的変数=評価指標=KPI」とみなせるケースが存在するからです。(p.8)
機械学習における評価指標とKPIと目的関数の関係を一言で言うと、次のように整理できます。(p.25)
各機械学習モデルの目的関数を最適化し、評価指標において最も優れた機械学習モデルを選択し、実際にその機械学習モデルを運用し、KPIで成果を確認する。 |
ビジネス的な観点を考慮し、注意深く評価指標を設計しない限り、そもそもKPIと評価指標は相関することすらありません。評価指標は機械学習モデルの良さを測るためにデータサイエンティストが好んで使う指標である一方、KPIは機械学習プロジェクトの責任者がビジネス上の目標の達成度合いを計るために用いる指標なので、これら2つの違いは自明のように思えます。ところが、意識していないと罠にハマることがあります。この罠に陥ると、会社での機械学習モデルの開発が会社の資本を浪費するだけの虚無な行為となってしまいます。(p.27)
複雑なビジネス施策と機械学習の評価指標を結びつけるためには、どれほど注意深く考えても考えすぎることはありません。ビジネスモデルや収益構造、最大化したいKPIと評価指標の間の関係を正しく認識しておかなければ、目の前にある大きなビジネスチャンスを逃しかねません。(p.61)
こちらと同じシリーズだと思いますが、ビジネス現場でアナリシス担当している方々にとっては、非常に有用な書籍だと思います。ぜひ手に取ってみてください。