忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【Kaggle挑戦記】Titanic 攻略 #1:Mac環境構築とデータロードの第一歩

Kaggle の「Titanic: Machine Learning from Disaster」は、機械学習を学ぶ誰もが通る登竜門です。1912年に起きたタイタニック号の沈没事故を題材に、乗客の「年齢」「性別」「客室の等級」などのデータから、その乗客が生き残るか、それとも犠牲になるか(生存予測)を当てるという、非常に明確な目的を持ったコンペティションです。

今回は、macOS 15.7.4Miniconda 環境(Python 3.13.5)を使い、データを読み込んで分析の土俵に上がるまでの手順を整理していきましょう。

1. 準備:データの入手と配置

【 手順 】 まずは Kaggle の公式サイトにログインし、以下のリンクから Titanic コンペティションのページへアクセスします。

URL: https://www.kaggle.com/competitions/titanic/data

「Data」タブから 「Download All」 をクリックして ZIP ファイルをダウンロードし、作業用フォルダ(例:~/Documents/kaggle_titanic/)に解凍します。中には以下の3つの重要なファイルが入っています。

【 ダウンロードファイルの内訳 】

train.csv : 学習用データ。乗客の属性と「生存(1)・死亡(0)」の正解が含まれています。
test.csv : 予測用データ。このデータに対して、生存・死亡を予測します。
gender_submission.csv : 提出用サンプル。「女性は全員生存、男性は全員死亡」と仮定した、提出ファイルのフォーマット見本です。

2. 深掘り:実装前に「データ定義」を読み解く

コードを書く前に、Data ページにある Data Dictionary をよく読み、各カラム(変数)が何を意味しているかを理解しましょう。これが予測の精度を左右します。

VariableDefinitionKey
survival 生存か否か 0 = No, 1 = Yes
pclass チケットのクラス(社会経済的ステータス) 1 = 1st(Upper), 2 = 2nd(Middle), 3 = 3rd(Lower)
sex 性別
Age 年齢(1歳未満は分数、推定値はxx.5)
sibsp 同乗している兄弟・配偶者の数
parch 同乗している両親・子供の数
ticket チケット番号
fare 旅客運賃
cabin 客室番号
embarked 出港地(乗船した港) C=Cherbourg, Q=Queenstown, S=Southampton

【 ここが分析のヒント! 】

  • 家族構成: sibspparch を合わせることで、「家族連れか、単身か」という新しい特徴が見えてきます。※乳母と同行した子供は parch=0 になるという注意書きも重要です。
  • ステータス: pclass は単なる座席ランクではなく、当時の社会的な地位を反映しています。
  • 推定値: 年齢(Age)に 28.5 のような値がある場合、それは「推定値」であることを意味します。

3. 実装:Miniconda 環境で Python を動かす

今回の環境は Python 3.13.5 です。ターミナルを開き、Miniconda で pandas をインストールしてから、バージョン確認とデータの読み込みを行います。

【 環境構築とコードの実行イメージ 】

[ ターミナルでの準備 ]
conda install pandas
python --version # Python 3.13.5 であることを確認

[ ライブラリのバージョン確認 ]
>>> import pandas as pd
>>> print(pd.__version__)
2.3.3

[ データの読み込み ]
df = pd.read_csv('~/Documents/kaggle_titanic/train.csv')

[ 読み込みの確認 ]
print(df.shape)
# (891, 12)

print(df.head())

[ 実行結果 ]
PassengerId Survived Pclass ... Fare Cabin Embarked
0 1 0 3 ... 7.2500 NaN S
1 2 1 1 ... 71.2833 C85 C
2 3 1 3 ... 7.9250 NaN S
3 4 1 1 ... 53.1000 C123 S
4 5 0 3 ... 8.0500 NaN S

[5 rows x 12 columns]

--------------------------

Mac 上で Titanic の学習用データが正常に展開されました!

4. まとめ

最新の macOS 15.7.4Python 3.13.5 の組み合わせでも、pandas 2.3.3 を使った基本操作は非常にスムーズです。まずは shape でデータの全体像を掴み、head() で「顔」を眺めるところから。これで分析の土俵に上がることができました!

次回は、読み込んだデータの中身を詳しく診察する「健康診断(データの可視化や欠損値の確認)」、そして分析に欠かせないデータの加工(0/1の置き換えなど)に挑戦しましょう。

PR