「Python」カテゴリーアーカイブ

ChatGPT API×Pythonで始める対話型AI実装入門

ChatGPT API×Pythonで始める対話型AI実装入門(GPT-3.5&GPT-4 対応)

古川渉一 (著), 荻原優衣 (著)

話題の対話型AI「ChatGPT」では、APIと呼ばれる、ChatGPTをアプリケーションに組み込んで利用するためのしくみが公開されています。ChatGPTのAPIを活用することで、ChatGPTを他のアプリケーションと連携でき、ブラウザ版のChatGPTを単独で使うよりも幅広い活用が可能になります。たとえば「音声認識サービスと連携し、会話の音声データを文字起こししてChatGPTで要約する」「Google検索の結果を取得して、ChatGPTでニュース記事を作成する」といった処理ができます。本書では、Pythonの具体的なコードを示しながら、ChatGPT APIを活用したサービスを実装する方法を解説します。ChatGPTの回答を細かく制御できる「パラメータ」の利用方法についても紹介するため、ChatGPTをカスタマイズして使うことが可能になります。

続きを読む ChatGPT API×Pythonで始める対話型AI実装入門

データサイエンティストのための特徴量エンジニアリング

データサイエンティストのための特徴量エンジニアリング

Soledad Galli (著), 松田晃一 (翻訳)

Pythonによる機械学習モデル構築のための特徴量 抽出・作成実践レシピ

機械学習においてはモデルを作成しデータを与えて学習させますが、その前に生データをモデルが理解できるような形式に変換する「特徴量エンジニアリング」と呼ばる重要なステップがあります。
データサイエンティストはモデルの学習に使用する生データを選び特徴量に変換したり、データを組み合わせ新しい特徴量を作成します。
うまく設計された特徴量は、機械学習モデルの精度を大幅に向上させ、学習にかかる時間を短縮することができます。

本書は特徴量エンジニアリングの実践的なガイドであり、機械学習のための特徴量を作成するための効果的なテクニックとベストプラクティスを学ぶことができます。
Pythonを活用し、70以上の実践的な”レシピ”により特徴量の抽出を手軽に行います。
pandas、scikit-learnに特徴量エンジニアリングライブラリであるFeature-engine、Category Encoders、Featuretools、tsfreshを利用し、新しい特徴量を変換・作成します。

欠損データの補完、カテゴリエンコーディング、変数変換、離散化、スケーリング、外れ値の取り扱いなど表形式データに対する特徴量エンジニアリングのほぼすべてのトピックをカバー。
日付と時刻、テキスト、時系列、リレーショナルデータセットから特徴量を抽出する方法についても解説。
テキストからの特徴量の抽出の付録として日本語モデルでの実例も取り上げます。

1章 欠損値を補完する
2章 カテゴリ変数をエンコーディングする
3章 数値変数を変換する
4章 変数を離散化する
5章 外れ値を扱う
6章 日付と時刻の変数から特徴量を抽出する
7章 特徴量をスケーリングする
8章 新しい特徴量を作成する
9章 Featuretoolsを用いてリレーショナルデータから特徴量を抽出する
10章 tsfreshを使って時系列データから特徴量を作成する
11章 テキスト変数から特徴量を抽出する
付録 日本語を扱う

続きを読む データサイエンティストのための特徴量エンジニアリング

【Python】ダミー変数、本番実装時にどうする?

Pythonで既存のデータで学習・テストをする際にカテゴリーデータは、ダミー変数(One-Hotエンコーディング)を作りますよね。

学習データやテストデータについては、機械学習モデルを作る前に、pandasのget_dummies()を使いますよね。

ですが、本番実装時に1行のデータを受けてそれをモデルに入れたいとします。ダミー変数化される前の元のカテゴリカルデータしかないデータです。

さて、困りました。どうすればいいのでしょうか?

続きを読む 【Python】ダミー変数、本番実装時にどうする?