スモールデータ解析と機械学習

スモールデータ解析と機械学習

著者:藤原 幸一

スモールなデータの解析手法・ノウハウが身につく!

《内容紹介》
Webデータや画像データに代表されるようなビッグデータが注目される一方で、機械の故障データのように発生自体がまれであったり、患者さんの検査データのように倫理的な問題からデータを集めることに制約があったり、あるいはデータの判読が専門家以外では困難で機械学習に利用しにくいデータは、どうしても忘れられがちです。ビッグデータの時代において、収集が難しいために私たちが忘れかけているデータのことをスモールデータとよびます。

スモールデータでは、測定されている変数の数に比べて学習に必要なサンプルが不足していたり、それぞれのクラスのサンプル数が極端に偏っていたりするため、深層学習のようなビッグデータの方法をそのまま適用するのは適当ではなく、異なるアプローチが必要になります。

本書は、スモールデータとはどのようなデータであるのかを具体的に紹介して、スモールデータ解析の基本となる次元削減と回帰分析を説明します。特に部分的最小二乗法(PLS)はスモールデータ解析の大きな武器となるでしょう。そして、機械学習においてモデルの性能向上のために必要な変数(特徴)選択を紹介し、特にクラスタリングに基づいた新しい変数選択手法を説明します。つづいて、不均衡なデータの解析手法と異常検知を紹介して、最後にスモールデータ解析についての筆者の経験に基づいたポイント・考え方を述べました。本書ではPythonプログラムとスモールデータ解析の例題を通じて、読者がスモールデータを有効に解析できるようになるよう工夫しています。

ビッグデータの世界は、もはやデータ量と資本力が支配するレッドオーシャンとなっています。しかし、スモールデータの世界は、まだまだ現場の創意工夫次第でデータから新たな価値を引き出すことのできるブルーオーシャンなのです。みなさんも、この未知の世界に飛び込んでみませんか?

続きを読む スモールデータ解析と機械学習