著者:Robert (Munro) Monarch (著), 上田 隼也 (翻訳), 角野 為耶 (翻訳), 伊藤 寛祥 (翻訳)
| 本書は、Human-in-the-Loop機械学習(人間参加型AI)の活用により、効率よく高品質な学習データを作成し、機械学習モデルの品質とアノテーションのコストパフォーマンスを改善する方法を解説する。実世界で応用されるほとんどの機械学習モデルは、人間のアノテーターが作成した学習データセットを利用して構築される。それゆえ機械学習を実世界の問題に応用していくには、この学習データセットをいかに高品質とするかが重要である。
※この電子書籍は、「固定レイアウト型」で配信されております。説明文の最後の「固定レイアウト型に関する注意事項」を必ずお読みください。 学習データセットが高品質なら、単純な機械学習アルゴリズムでも実用的に十分な性能を引き出すことができる。 本書では、アノテーションのプロセスに能動学習という機械学習手法を導入して、アノテーションの品質とコストパフォーマンスを劇的に向上させるテクニックを軸に、AIと人が互いに助け合いながらより良いAIシステムを開発するために役立つ、幅広く、かつ奥深い知見を提供する。本書は4部構成の大著であり、Human-in-the-Loop機械学習や能動学習の解説だけではなく、アノテーションの品質管理手法やアノテーターの評価・管理手法、アノテーションツールの設計方法といった、実際の機械学習プロジェクトに必要な極めて実践的な内容を豊富に含んでいる。 データサイエンティストや機械学習エンジニアはもちろん、アノテーションの実務に関わる管理者・技術者にも本書を読んでいただき、人がより有効な形でモデル開発に関与する「人間参加型AI」の実現に繋げてほしい。 [原著: Human-in-the-Loop Machine Learning: Active learning and annotation for human-centered AI, Manning Publications, 2021] ●目次 【第II部 能動学習】 【第III部 アノテーション】 【第IV部 機械学習のためのヒューマン-コンピュータインタラクション】 付録A 機械学習のおさらい 固定レイアウト型に関する注意事項(必ずお読みください) ■使用できない機能 ■推奨環境 |
訳者まえがきで興味深いことが書かれています。
| 近年では、データを中心に据えて機械学習モデルを改善していく”Data-Centric AI”という概念が提唱されています。 |
私自身もまさにこれこそが本質だと思っていたので、非常に刺さりました。これがデータドリブンな経営にも直結する部分だと思います。Data-centric AI入門 (ML Systems)という書籍も2025年に出ていたようです。チェックできていませんでしたので読んでみたいと思います。
この書籍では、下記のようなところを中心に書かれているようです。
| Data-centric AIとは、機械学習の権威でありGoogleのAI研究チームを率いたAndrew Ngが2021年に提唱した、モデルよりもデータに主眼を置くというAI開発のアプローチです。過去数十年にわたりAI開発においては、固定されたデータセットに対してニューラルネットワークをはじめとしたモデルを適用し、そのモデルを改善することに関心が寄せられていました。しかし、このモデルを中心としたアプローチでは、データセットへの過度な依存やデータセットが抱える課題への無意味な適合により、実用において期待ほどモデルの性能が改善しないといった問題が指摘されています。そのため近年はモデルを固定したうえで、データ拡張、アノテーションの効率化や一貫性の担保、能動学習といったデータに工夫を加えることによってモデルの性能を向上させるアプローチに注目が集まっています。 |
この辺りも踏まえながら、本書の内容を見ていきたいと思います。
本書は、機械学習のためのデータ作成に関する情報が不足しており、本書はそのニーズを満たすために執筆されましたとあります。
特徴量エンジニアリングの延長でもあり、包含でもあり、そのような観点で読み進めると良いと思います。
●Human-in-the-Loop 機械学習の基本原則(p.3)
Human-in-the-Loop 機械学習は、機械学習モデルと人間が相互補完しながら動作するシステムを意味します。機械学習を利用するアプリケーションにおいて、人間と機械の知能を融合するための一連の戦略で、一般的には以下のような目的を達成するために利用されます。
- 機械学種モデルの精度を向上させる
- 機械学習モデルが目標とする精度に到達するまでの時間を短縮する
- 人間と機械の知能を融合し、モデルの精度を最大化する
- 機械学習を用いて人間の作業効率を上げる
| アルゴリズムとアノテーションは優れた機械学習の校正用として同じくらい重要です。しかし、学習データの作成に関する講義はほとんど存在しない。(p.5) |
ということからの本書の位置づけとなります。
能動学習が提案されています。能動学習には、
・不確実性サンプリング
・多様性サンプリング
・両者の組合せ
があります。
| 能動学習では、各反復においてラベルのないデータが選択され、人間がそのデータにアノテーションを行い、そして、新たに獲得したラベル付きのデータを使ってモデルを再学習させるというプロセスを繰り返します。(p.8) |
●機械学習の知識の4象限(pp.20-21)
| 学習モデル | |||
| 既知 | 未知 | ||
| 知識・ データ |
既知 | モデルが自信を持って予測できる 現在のモデルの状態 |
モデルが自信を持って予測できない 不確実性サンプリングにより解決 |
| 未知 | 事前学習モデルの利用によって予測できる 転移学習により解決 |
モデルの知識が欠如している 多様性サンプリングにより解決 |
|
- 既知の既知(白):現状の機械学習モデルが自信を持って予測できる知識。すでに読者のモデルが解決している象限であり、他の象限の知識を適用する前の開始地点
- 既知の未知(赤):現状の機械学習モデルが自信を持って予測できない知識。不確実性サンプリングが活用できる
- 未知の既知(青):事前学習モデルの利用によって予測できる知識。転移学習を利用することで、このような知識が利用できる
- 未知の未知(緑):現状の機械学習モデル自身にとって、何が不確実なのかすらわからない知識。多様性サンプリングによって、この課題を解決できる
高度な能動学習としてATLASが紹介されています。
| ATLASは、不確実性サンプリングのための能動的転移学習を拡張した手法で、特徴空間の1つの領域からデータを過剰サンプリングしないようにすることで、不確実性サンプリングと多様性サンプリングの両方の特性を発揮します。(p.156) |
| 主観的なタスクには、正しいアノテーション結果が複数存在します。有効な回答の候補をアノテーターから引き出し、次にBTSのような方法を使ってすべての有効な回答を発見することで、珍しいが正しいアノテーションを行ったアノテーターにペナルティを与えることを回避できます。(p.294) |
BTSとは、ベイジアン自白剤(Bayesian trhth serum;BTS)のことのようです。
なかなか興味深く読みました。昔、インバランスデータ以ついても研究していたのですが、それともつながるところもありそうでいい刺激になりました。
