ChatGPT Code Interpreter でTitanic生存者予測にチャレンジ

近頃、夜食づくりにはまっているkonnoです。

データ分析もできると話題のChatGPT Code Interpreterを使えば、機械学習もお手軽にできるのでは…？
ということで、Kaggleチュートリアルとして有名な「Titanicの生存者予測」を
ChatGPT Code Interpreterを使って分析できるのか試してみたいと思います！

Titanic生存者予測とは？

かの有名のタイタニック号の乗員名簿と、事故で生存したか否かのデータを機械学習し、乗員の属性（性別、年齢、乗船時の運賃など）から生存したか否かを推定する課題です。
よく考えるとひどい設定ですね。
話題のわかりやすさと、それなりに特徴的な結果が出るところから、機械学習の初学者がやる練習問題として世界的に有名です。

データはKaggleさんから取得できます。

www.kaggle.com

機械学習を利用してTitanic生存者予測を実施する

ではデータをダウンロードして、さっそくCode Interpreterに解析してもらいましょう。
ここでは、機械学習のモデルとして "Random Forest"を指定してみます。

今度は指定されたモデルを使用した学習が始まります。
しばらく待っていると…

モデルの訓練が完了

与えられたデータによる訓練が完了しました。

いきなり終わってしまいましたね…！

交差検証でスコアが0.811と、悪くない値です。
ここではやりませんが、途中で出てくる"Show work"を開くと、内部で実施しているPythonの処理をのぞくこともできるので、勉強に役立てることもできます。

ペアプロット図を出力する

さらに、各特徴量が互いにどのような相関関係にあるのかを、ペアプロット図を出力させて調べることもできます。
ペアプロット図を出力するように、Code Interpreterに指示を与えてみます。
ダウンロードできるように、という指示もしておくと、解像度の低い画像を手元で大きくして見ることができるのでお勧めです。