
Soledad Galli (著), 松田晃一 (翻訳)
Pythonによる機械学習モデル構築のための特徴量 抽出・作成実践レシピ
機械学習においてはモデルを作成しデータを与えて学習させますが、その前に生データをモデルが理解できるような形式に変換する「特徴量エンジニアリング」と呼ばる重要なステップがあります。
データサイエンティストはモデルの学習に使用する生データを選び特徴量に変換したり、データを組み合わせ新しい特徴量を作成します。
うまく設計された特徴量は、機械学習モデルの精度を大幅に向上させ、学習にかかる時間を短縮することができます。
本書は特徴量エンジニアリングの実践的なガイドであり、機械学習のための特徴量を作成するための効果的なテクニックとベストプラクティスを学ぶことができます。
Pythonを活用し、70以上の実践的な”レシピ”により特徴量の抽出を手軽に行います。
pandas、scikit-learnに特徴量エンジニアリングライブラリであるFeature-engine、Category Encoders、Featuretools、tsfreshを利用し、新しい特徴量を変換・作成します。
欠損データの補完、カテゴリエンコーディング、変数変換、離散化、スケーリング、外れ値の取り扱いなど表形式データに対する特徴量エンジニアリングのほぼすべてのトピックをカバー。
日付と時刻、テキスト、時系列、リレーショナルデータセットから特徴量を抽出する方法についても解説。
テキストからの特徴量の抽出の付録として日本語モデルでの実例も取り上げます。
1章 欠損値を補完する
2章 カテゴリ変数をエンコーディングする
3章 数値変数を変換する
4章 変数を離散化する
5章 外れ値を扱う
6章 日付と時刻の変数から特徴量を抽出する
7章 特徴量をスケーリングする
8章 新しい特徴量を作成する
9章 Featuretoolsを用いてリレーショナルデータから特徴量を抽出する
10章 tsfreshを使って時系列データから特徴量を作成する
11章 テキスト変数から特徴量を抽出する
付録 日本語を扱う |
続きを読む データサイエンティストのための特徴量エンジニアリング →
Pythonで既存のデータで学習・テストをする際にカテゴリーデータは、ダミー変数(One-Hotエンコーディング)を作りますよね。
学習データやテストデータについては、機械学習モデルを作る前に、pandasのget_dummies()を使いますよね。
ですが、本番実装時に1行のデータを受けてそれをモデルに入れたいとします。ダミー変数化される前の元のカテゴリカルデータしかないデータです。
さて、困りました。どうすればいいのでしょうか?
続きを読む 【Python】ダミー変数、本番実装時にどうする? →
Adventure and Innovation! Amazing Quest!