忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【Kaggle挑戦記】Titanic 攻略 #6:モデルの「合議制」を強化し、精度向上の実験へ

前回(攻略 #5)では、生存率と相関の強かった「Fare(運賃)」を特徴量に加え、スコアを 0.76749 → 0.77511 へと上昇させることに成功しました。今回は、さらに精度を上げるための「次の一手」を、エンジニアらしく最小の工数で検証します。

1. これまでの復習

まずは、現在の私たちの武器(モデル構成)を整理しておきます。

  • 利用した特徴量(5項目): Pclass, Sex, SibSp, Parch, Fare
    (生存に直結する納得感のあるヒントを投入済みです)
  • 利用したアルゴリズム: ランダムフォレスト(Random Forest)
    (攻略 #4 で中身を覗いた、100本の決定木による「合議制」モデルです)

2. 今回の戦略:精度向上の実験

さらなる精度向上を狙うにあたり、今回は「木の数(n_estimators)」を変更する実験を行います。検討の理由は以下の通りです。

  1. 木の深さ(max_depth)の限界:
    現在は特徴量が5項目と少なく、これ以上深く掘り下げても学習データへの過剰適合(過学習)を招くリスクが高いと判断しました。
  2. 多数決(合議制)の強化:
    判断材料が限られている現状では、個々の木の判断をより多くの「仲間」で補完し、予測のブレを最小限に抑える(多数決の精度を上げる)ほうが、スコア向上への確実な一手になると仮説を立てました。

3. 【実験】木の数を 100 → 500 へ増強

具体的には、`RandomForestClassifier` を定義している一行にある n_estimators という引数を書き換えます。これは「アンサンブル(合議制)に参加させる木の数」を指定するパラメータです。

import pandas as pd
from sklearn.ensemble import RandomForestClassifier

# 1. データの読み込み
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')

# 2. 特徴量の選択(前回と同じ5項目)
features = ["Pclass", "Sex", "SibSp", "Parch", "Fare"]
X = pd.get_dummies(train_data[features])
y = train_data["Survived"]

X_test = pd.get_dummies(test_data[features])
X_test['Fare'] = X_test['Fare'].fillna(X_test['Fare'].median())

# 3. モデルの構築(★ここを修正!)
# 【変更前】 model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
model = RandomForestClassifier(n_estimators=500, max_depth=5, random_state=1)

# 4. モデルの学習(書き換えた設定で再計算)
model.fit(X, y)

# 5. 予測の実行
predictions = model.predict(X_test)

# 6. 提出用ファイルの作成
output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': predictions})
output.to_csv('submission_n500.csv', index=False)
print("Submission with 500 trees saved!")

修正のポイント:
`n_estimators=100` を `n_estimators=500` に変更しました。これにより、100本の多数決から500本の多数決へと「合議制」がパワーアップします。修正はこの1箇所のみ。極めて手間の少ない「次の一手」です。

4. 考察と実験結果

ここでエンジニアとして一つの疑問が湧きます。「教師データが約800件しかないのに、木の数を500本にするのは多すぎる(リソースの無駄)ではないか?」という点です。

結論から言うと、アンサンブル学習において「合議の数(木の数)」を増やすことは、計算コスト以外のデメリット(精度低下のリスク)はありません。それぞれの木が重複を許して抽出された異なるデータセットを学習するため、数を増やすほど予測は安定する方向に向かいます。

さて、注目の実験結果は以下の通りでした。

  • 前回(100本): Score 0.77511
  • 今回(500本): Score 0.77511(変化なし)

エンジニア的な結論:
残念ながら、今回のパラメータ変更だけではスコアはピクリとも動きませんでした。これは、現在の5つの特徴量から引き出せるパターンは、すでに100本の多数決で「出し尽くされている」ということを意味します。計算式をいじっても限界があることが証明されました。


仮説と検証の結果、次なる道が明確になりました。これ以上「既存のヒントの計算」を強化しても意味がありません。次は、いよいよ「Age(年齢)」という新しいヒント(特徴量)の投入、そしてそのための「欠損値処理」という、より高度な前処理へと進みます。


PR

【Kaggle挑戦記】Titanic 攻略 #5:特徴量への Fare(運賃)追加と精度向上

これまでの攻略を経て、私たちは重要な2つの結論を導き出しました。

  • #3 の結論(データ分析): 相関分析の結果、生存率に最も影響を与えるのは「性別(Sex)」だが、それに次いで「運賃(Fare)」も強い相関があることが判明。
  • #4 の結論(モデル理解): ランダムフォレストの内部を可視化した結果、100本の木による「合議制(多数決)」が論理的に機能していることを確認。

今回の戦略は極めてシンプルです。
「信頼できるアルゴリズム(#4)に、より生存率と関連の深いデータ項目(#3)を投入すれば、予測精度は向上するはずだ」
という仮説を検証します。

1. 「特徴量(とくちょうりょう)」への納得感

AIの予測ヒントにするデータ項目を「特徴量」と呼びますが、今回選んだ項目には人間が見ても直感的な納得感があります。

  • Pclass(客室クラス): 1等客なら避難が優先されたのではないか?
  • Sex(性別): 女性が優先的に救命ボートに乗ったのではないか?
  • Fare(運賃): 高い運賃を払ったVIP客ほど、手厚いサポートがあったのではないか?

このように、背景にあるストーリーとデータが結びつくことで、AIの予測モデルはより説得力のあるものになります。

2. 【実装】特徴量を 5 項目に増強したソースコード

これまでの 4 項目に、相関係数の高かった "Fare"(運賃) を追加します。テストデータ(test.csv)に1件だけ存在する「欠損値(空欄)」を中央値で埋める対策も1行追加しています。

import pandas as pd
from sklearn.ensemble import RandomForestClassifier

# 1. データの読み込み
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')

# 2. 特徴量の選択(Fare を追加して 5 項目に!)
features = ["Pclass", "Sex", "SibSp", "Parch", "Fare"]

# カテゴリ変数(Sex)を数値に変換
X = pd.get_dummies(train_data[features])
y = train_data["Survived"]

# 重要:テストデータの Fare に1件だけある欠損値を中央値で補完する
X_test = pd.get_dummies(test_data[features])
X_test['Fare'] = X_test['Fare'].fillna(X_test['Fare'].median())

# 3. モデルの構築と学習(#4 で信頼性を確認したランダムフォレスト)
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
model.fit(X, y)

# 4. 予測の実行
predictions = model.predict(X_test)

# 5. 提出用ファイルの作成
output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': predictions})
output.to_csv('submission_fare.csv', index=False)
print("Submission with Fare saved!")

3. 結果の考察:データ項目増加の効果

実際にこのコードで予測を行い Kaggle に提出したところ、スコアに以下の変化が現れました。

  • 4 項目(前回): Score 0.76749
  • 5 項目(今回): Score 0.77511(微増!)

考察:
わずかな向上ですが、エンジニアリングにおける重要な原則「良質なデータを入れれば、良質な結果が出る」ことが実証されました。アルゴリズム自体は変えなくても、納得感のある「特徴量」を正しく追加することで、着実に正解率が上がることが確認できました。


仮説は正しかったと言えます。しかし、まだ生存率に大きく関わりそうなデータ項目が残っています。それは「年齢(Age)」です。ただし、年齢データには「欠損値」が非常に多いという大きな壁があります。次回、この欠損値処理(インピュテーション)に挑戦します。


【Kaggle挑戦記】Titanic 攻略 #4:ランダムフォレストの正体

第2回では「最短ルート」での初提出を優先し、モデルの選定理由は「なんとなく」進めてきました。ここでは、そこで使用したモデルの正体を明らかにするとともに、その実行過程(個別の判断ルール)を可視化するための改良コードを整理します。

1. 【振り返り】前回のソースコード

まずは、第2回で実際に提出ファイルを生成したベースラインのソースコードを正確に振り返ります。この時点では「Pclass, Sex, SibSp, Parch」の4項目を特徴量としていました。

import pandas as pd
from sklearn.ensemble import RandomForestClassifier

# 1. データの読み込み
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')

# 2. 特徴量の選択と前処理
features = ["Pclass", "Sex", "SibSp", "Parch"]
# get_dummiesでカテゴリ変数(Sex)を数値(Sex_male, Sex_female)に変換
X = pd.get_dummies(train_data[features])
y = train_data["Survived"]
X_test = pd.get_dummies(test_data[features])

# 3. モデルの構築と学習(100本の決定木を作成)
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
model.fit(X, y)

# 4. 予測の実行
predictions = model.predict(X_test)

# 5. 提出用ファイルの作成
output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': predictions})
output.to_csv('submission.csv', index=False)
print("Your submission was successfully saved!")

2. 手法の解説:二値分類とランダムフォレスト

今回のタイタニック課題は、乗客が「生存したか、死亡したか」という二値分類問題を解くものです。代表的な手法には「ロジスティック回帰」「SVM」「ランダムフォレスト」「勾配ブースティング」などがありますが、今回は安定性が高くベースライン作りに適したランダムフォレストを採択しました。

3. 【改良】実行過程を可視化するソースコード

「100本の木による多数決」という実行プロセスを正確に把握するため、可視化用のライブラリをインポートし、model.fit(X, y) のすぐ下に処理を追加します。

import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import export_text # 可視化用のインポートを追加

# --- 前処理・モデル構築(前回と同じ) ---
train_data = pd.read_csv('train.csv')
features = ["Pclass", "Sex", "SibSp", "Parch"]
X = pd.get_dummies(train_data[features])
y = train_data["Survived"]
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)

# 3. モデルの学習
model.fit(X, y)

# --- model.fit(X, y) の直下に可視化処理を追加 ---
# 100本の木から最初の1本(index=0)を取り出す
estimator = model.estimators_[0]

# 判断ルールをテキスト形式で出力(feature_namesを指定)
tree_rules = export_text(estimator, feature_names=list(X.columns))
print("--- 最初の1本の決定木による判断プロセス ---")
print(tree_rules)
# --- ここまで追加 ---

# 以降、予測の実行(前回と同じ)
# predictions = model.predict(X_test)

実行時の出力サンプル:

--- 最初の1本の決定木による判断プロセス ---
|--- Sex_female <= 0.50
| |--- SibSp <= 2.50
| | |--- Pclass <= 1.50
| | | |--- Parch <= 3.00
| | | | |--- Parch <= 1.50
| | | | | |--- class: 0.0
| | | | |--- Parch > 1.50
| | | | | |--- class: 1.0
| | | |--- Parch > 3.00
| | | | |--- class: 0.0
| | |--- Pclass > 1.50
| | | |--- Parch <= 0.50
| | | | |--- Pclass <= 2.50
| | | | | |--- class: 0.0
| | | | |--- Pclass > 2.50
| | | | | |--- class: 0.0
| |--- SibSp > 2.50
| | |--- class: 0.0

4. 【考察】最も精度の高い木が選ばれるのか?

ここで重要な疑問が浮かびます。「これら100本の木の中から、テストデータに対して最も精度の高い1本が選ばれて予測に使われるのか?」という点です。

答えは「NO」です。ランダムフォレストの本質は「選別」ではなく「合議制(多数決)」にあります。

  • アンサンブル学習: 1本の完璧な木を探すのではなく、少しずつ異なる視点を持つ100本の木全員に予測をさせます。
  • 多数決の原理: 例えば、60本の木が「死亡」、40本の木が「生存」と予測したら、最終回答は「死亡」となります。
  • なぜそうするのか: 1本の優秀すぎる木は、学習データに依存しすぎる(過学習)リスクがあります。多様な視点を持つ木々の平均をとることで、未知のデータに対しても安定した予測が可能になるのです。

手法の実行プロセスと「多数決」の論理を理解したことで、モデルの挙動に対する納得感が得られました。次は第3回で算出した相関係数に基づき、さらなる精度向上を目指します。

【DS検定対策】AIの進化を攻略!複数データを統合する「マルチモーダル生成」

近年のAIは、文字だけでなく画像や音声など、人間と同じように複数の感覚を組み合わせて理解・生成ができるようになっています。この「マルチモーダル」というキーワードを正しく理解しましょう。

1. 【 問題 】

テキスト、画像、音声、動画といった異なる種類のデータ形式(モーダル)を複数組み合わせて入力し、それらを統合して判断したり、多様な形式の出力を生成したりする技術を何と呼ぶでしょうか?

① シングルモーダル生成
② マルチモーダル生成
③ アンサンブル学習
④ 転移学習


2. 【 解答 】

正解: ② マルチモーダル生成

3. 整理:異なるデータを「統合」する世界

「モーダル(様式)」が「マルチ(複数)」であることは、AIがより人間に近い柔軟な処理を行えることを意味します。

【 マルチモーダルの処理イメージ 】

[ 1. 多様な入力 ]
・テキスト(「この写真の説明をして」)
・画像(旅行中の風景写真)

[ 2. 内部での統合 ]
★ ここがマルチモーダル!
言葉の意味と、画像内の物体を関連付けて一つの「概念」として理解する。

[ 3. 多様な出力 ]
・音声での回答(「ここは名古屋のテレビ塔ですね」)
・関連する動画の生成

--------------------------

特徴: 異なる形式のデータを同じベクトル空間上で扱うことで、高度な推論が可能になります。

4. 代表的な活用例

1. 画像生成AI: 「テキスト(プロンプト)」を入力して「画像」を出力する。
2. 動画解析: 「映像」と「音声」の両方から、その場がどのような状況かを判断する。
3. 高度なチャットボット: 図表を含むドキュメントを読み取って、内容を要約・解説する。


5. DS検定形式:実戦4択クイズ

問:テキストから画像を生成するモデル(Stable Diffusionなど)において、言葉と画像の概念を対応付けるために使われる代表的な技術はどれか。

① RNN   ② CLIP   ③ ランダムフォレスト   ④ 協調フィルタリング

【 正解: ② 】

解説: CLIP(Contrastive Language-Image Pre-training)は、膨大な画像とテキストのペアを学習し、両者を結びつけるマルチモーダルの先駆け的なモデルです。これにより「言葉で画像を指示する」ことが可能になりました。


6. まとめ

DS検定において「複数のデータ形式を統合」「多様な出力を生成」というキーワードが出たら、それは「マルチモーダル」を指しています。AIが文字の世界から現実の世界へと理解を広げている象徴的な技術ですので、しっかり覚えておきましょう!

【Kaggle挑戦記】Titanic 攻略 #3:データの「当たり」をつける

最短ルートで初提出(スコア:0.76794)を終えた段階で、次に行うべきは、どのデータ(特徴量)が生存に直結しているのか、論理的な仮説と数値で切り分ける作業です。

1. 仕様確認:データ項目の定義一覧

まずは手元にあるテーブルの定義を正確に把握し、全12項目の中で何が利用可能かを確認します。

項目名 (Column)意味 (Description)型 (Type)補足 (Notes)
PassengerId 乗客ID int 連番。予測には使わない主キー
Survived 生存フラグ int 【正解データ】 0=死亡、1=生存
Pclass チケットクラス int 1=上層(1等)、2=中層(2等)、3=下層(3等)
Name 氏名 object 文字列
Sex 性別 object male / female
Age 年齢 float 欠損値あり
SibSp 兄弟・配偶者数 int 同乗している兄弟や配偶者の数
Parch 両親・子供数 int 同乗している両親や子供の数
Ticket チケット番号 object 文字列
Fare 旅客運賃 float 数値データ
Cabin 客室番号 object 欠損値多
Embarked 出港地 object C / Q / S

2. 仮説:項目の切り分け

各項目が生存に関係しそうかどうかを、とりあえず、勘で事前に切り分けます。

項目名 (Column)関連性の推論
Sex ありそう
Pclass ありそう
Age ありそう
Fare ありそう
SibSp / Parch ありそう
Name なさそう
Embarked なさそう
Ticket / Cabin なさそう
PassengerId なさそう

3. 検証:相関分析の実行(完全なソースコード)

「ありそう」と踏んだ項目について、実際に Survived(生存率) との関係性を算出します。汎用性が高く、まずは全体像を把握するために適しているためピアソンの積率相関係数を採用する。

import pandas as pd

# 1. データの読み込み
train_df = pd.read_csv('train.csv')

# 2. 相関計算のため「文字列」を「数値」に一時変換(エンコード)
train_encoded = train_df.copy()
train_encoded['Sex'] = train_encoded['Sex'].map({'male': 0, 'female': 1})

# 3. 算出対象の項目選定(「ありそう」と踏んだ項目に限定)
target_columns = ['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare']

# 4. 相関係数(ピアソン)の算出
pearson_corr = train_encoded[target_columns].corr(method='pearson')

# 5. 「Survived」との相関を表示
print("--- Survived との相関係数(ピアソン) ---")
print(pearson_corr['Survived'].sort_values(ascending=False))

【 分析結果:生存率との相関係数 】

  • Sex:0.543
  • Fare:0.257
  • Pclass:-0.338
  • Age:-0.077
  • Parch:0.081
  • SibSp:-0.035

4. 前回プログラムの振り返り

第2回の最短ルートで使用した特徴量と、今回の相関計算の結果を照らし合わせます。

# 前回の特徴量選択
features = ["Pclass", "Sex", "SibSp", "Parch"]

前回は「ありそう」と推測した項目のうち、FareAge を除いた 4項目を特徴量として利用しました。今回の計算結果を見ると、利用しなかった Fare が一定の相関(0.25)を示しており、これを特徴量に加えることでモデルの判断材料がどう変化するかを試す価値はありそうです。

また、Age については相関係数こそ低いですが、欠損値を適切に補完した上で投入することで、どのような変化が出るかを検証する必要があります。