著者:渡邉 克彦
トヨタ流のデータ分析を学べる
本書は、長年トヨタおよびトヨタグループで困り事解決の実践支援に携わった著者が、統計的品質管理(SQC)と機械学習というデータ分析手法のより良い使い方を解説したものである。 著者について |
統計的品質管理(Statistical Quality Control:SQC)では「問題解決の対象となる事象に対して、原理原則や固有技術に基づいた仮説を構築し、データ収集や実験等で得られた事実・データにより仮説が正しいか検証すること」を挙げている。もし、検証結果と仮説に差が認められれば、もう一度、原理原則や固有技術から仮説を考え直し、再度検証を行っていく。この一連のサイクルがものづくりにおける品質向上・技術力向上に繋がるとしている。(p.1)
SQCは品質管理で長年使われてきたように、因果関係を見つけることに主眼を置いている。つまり、ものづくりで扱う製品や技術には何らかの物理法則が働いているため、そのメカニズムを明らかにするために「作成したモデルが仮説と合っているか」「固有技術で説明できるか」などの技術的妥当性を重視している。(p.3)
一方、機械学習は、一般的には徹底的に予測精度を追求する。仮に作成したモデルが、固有技術で説明できなかろうが、物理法則に反していようが、予測精度が高くなるなら、そのモデルで良しとする特徴がある。つまり、データを正として、どんなモデルでも良いと考えるのが機械学習で、物理法則や固有技術を正としたモデルがSQCとなる。(pp.3-4)
層別の手法は、SQCはクラスター分析、機械学習は混合ガウス分布となる。クラスター分析は階層的クラスター分析と非階層的クラスター分析があり、サンプル間の距離や重心からの距離などを使って層別していく。一方、混合ガウス分布は複数の多次元正規分布が重なったとして層別する。(p.31)
主成分分析は、数多くの変数があってグラフやヒストグラムを一つ一つ描いても、詳細に見切れないときに上手に情報を要約して、特徴や傾向を把握したり、全体の中での各サンプルの位置づけを確認したりすることに有効である。一方、機械学習のカーネル主成分分析は、高次元特徴量空間に写像して、主成分分析では見つけにくい特徴を発見したり、その空間上でグルーピングしていく手法となる。(p.55)
カーネル主成分分析では中将の主成分分析と違い、主成分に意味を持たせることができないという欠点がある。その一方、サンプルの層別や異常値の発見に期待ができる手法となる。(p.61)
主成分分析はデータ全体を要約し、特徴を見つけたり、サンプルをグルーピングしたりすることに有効である。一方、カーネル主成分分析は高次元特徴量空間に写像し、他とは違う特徴のあるサンプルを見つけたり、非線形データなどのグルーピングに活用していく手法である。機械学習手法だからSQCより優れているということではなく、目的に応じて両者を使い分けるべきである。(p.63)
汎化能力が優れていて多重共線性にも対応できる正則化回帰分析は確かに強力な手法である。しかし、取り込まれた説明変数の回帰係数は正則化によって縮小されているので、その解釈には注意したい。また、変数選択でも、重回帰分析のように固有技術を鑑みながら、取り込む変数を意のままにコントロールすることができないことに留意したい。(p.86)
1クラスSVMは、複数の説明変数が与えられたとき、それらを学習データとし、カーネル法によって高次元特徴量空間に写像することで、学習データから外れた位置にあるデータを外れ値と検知する手法である。(p.141)
1クラスSVMで検出されても、すぐに異常だと鵜吞みにせず、「なぜ高次元特徴量空間に写像することで外れ値と判定されたのか」「本当に外れ値として扱うべきか」を十分に吟味することが大切である。(p.145)
私も筆者と同じような考えで、よくデータサイエンティストとしての応募者の転職の面接をしていますが、SQC的な考え方を持ったデータサイエンティストはあまりいません。実際にビジネスでの機械学習活用という意味でいうと、この素養がないと役に立たないんですからね。
非常に良い視点で書かれていて、勉強になりました。ありがとうございました。