【Kaggle挑戦記】｜いけいけ機械学習

【Kaggle挑戦記】Spaceship Titanic 攻略 #10：統計的補正の罠。AIの「楽観」を抑えた結果、見えてきたもの

1. 独自の仮説：分布不変の原則

LightGBMで 0.796 まで到達した今、次なる一手として「学習データとテストデータの分布は同じはずだ」という統計的な仮説を立てました。 AIが一律「0.5」という閾値で判断するなら、その結果としての True（転送された）の割合は、学習データの事実（50.36%）に一致すべき。もしズレているなら、閾値を動かして矯正すべきではないか、と考えたのです。

2. 実装と、Macのターミナルが示した驚愕の数字

AIに「確率」を出させ、上位50.36%だけを True と判定するように閾値を調整したところ、コンソールには衝撃的なログが流れました。

 学習データの True 割合 (目標): 0.5036
...
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.503624 -> initscore=0.014495
⚙️ 算出された最適な閾値: 0.5950
   (デフォルトの 0.5 から +0.0950 調整されました)
------------------------------
 調整後の予測 True 割合: 0.5036 (目標との差: 0.0000)

なんと、AI（LightGBM）をそのまま信じると、True の割合が統計的予測を大きく上回ってしまっていたのです。私は判定ラインを約10%引き上げ、0.5950 という厳しい基準で「選別」を行いました。

3. リーダーボードの結果：無情な 0.79003

結果は、自己ベスト更新ならず。

 Current Best (LightGBM) : 0.79611
 Ratio Adjusted Result    : 0.79003 (▼ 0.00608)

あえて統計に寄せた判断が、スコアを落とす結果となりました。

4. 考察：なぜ「正論」が通じなかったのか？

エンジニアとして、この結果から2つの教訓を得ました。

テストデータの分布差： 「学習用」と「テスト用」のデータ分布は、必ずしも完全一致するとは限らない。今回の事故では、テストデータ側の転送率は 50.36% より高かった可能性があります。
確率は「相対的」なもの： AIが出す確率は「確信度」であって、絶対的な数値ではない。AIが 0.6 と言っても、それは「0.5の人よりは可能性が高い」という順位付けには有効ですが、その数値そのものを統計に当てはめるのは時期尚早だったのかもしれません。

5. それでも、方向性は間違っていない

「0.5」というデフォルト設定を疑い、マクロな視点で補正を試みたことは、今後の複雑なコンペティションにおいて必ず活きる経験です。 AIに盲従せず、エンジニアとしての仮説をぶつけ、その反応をデータで確認する。この試行錯誤こそが、0.8 への唯一の道。次はいよいよ、物理情報である「Cabin（客室）」のパースに挑みます。

データは正直だ。そして、だからこそ面白い。

【Kaggle挑戦記】Spaceship Titanic 攻略 #8：アルゴリズムの「換装」。LightGBM投入で自己ベストを更新せよ

1. 今回の戦略：データの加工ではなく「エンジン」を変える

前回、外れ値を削りすぎてスコアを落とすという「情報の欠損」を経験しました。そこから得た教訓は、「複雑なデータは、より強力なアルゴリズムに委ねるべき」ということ。今回は、データのクリーニングは最高得点（0.792）時の最小限に留め、学習器を「ランダムフォレスト」から、現代のKaggle三種の神器の一つ「LightGBM」へと載せ替えました。

なぜ LightGBM なのか？

勾配ブースティングの威力： 一度に学習するランダムフォレストと違い、前のミスを修正するように段階的に学習するため、より緻密な境界線を見極められます。
外れ値への耐性： データの「歪み」を無理に直さなくても、アルゴリズム側で最適に処理してくれます。

2. 【実装】最高得点ロジック＋ LightGBM

支出の論理補完は維持しつつ、学習エンジンを最新鋭に積み替えたコードです。

import pandas as pd
import lightgbm as lgb

# データの読み込み
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

# 支出補完とCryoSleepの推論（最高スコア時のロジックを継承）
spend_cols = ["RoomService", "FoodCourt", "ShoppingMall", "Spa", "VRDeck"]
for df in [train, test]:
    df[spend_cols] = df[spend_cols].fillna(0)
    total_spend = df[spend_cols].sum(axis=1)
    df.loc[(df['CryoSleep'].isnull()) & (total_spend > 0), 'CryoSleep'] = False
    df.loc[(df['CryoSleep'].isnull()) & (total_spend == 0), 'CryoSleep'] = True
    df['Age'] = df['Age'].fillna(df['Age'].median())

# 特徴量準備
features = ["CryoSleep", "Age", "RoomService", "FoodCourt", "ShoppingMall", "Spa", "VRDeck"]
X = pd.get_dummies(train[features], drop_first=True)
y = train["Transported"].astype(int)
X_test = pd.get_dummies(test[features], drop_first=True)

# アルゴリズム変更：LightGBM
model = lgb.LGBMClassifier(n_estimators=100, learning_rate=0.05, random_state=1)
model.fit(X, y)

# 予測・提出
predictions = model.predict(X_test)
output = pd.DataFrame({'PassengerId': test['PassengerId'], 'Transported': predictions.astype(bool)})
output.to_csv('sub_lightgbm_v1.csv', index=False)

3. 実行結果：壁を突き抜ける一撃

Macのターミナルで実行し、生成されたファイルをKaggleへ。結果は、これまでの停滞を吹き飛ばすものでした。

 Random Forest (Best) : 0.79214
 LightGBM (New)       : 0.79611 (UP! )

ついに **0.796**。0.8という大台まで、あとわずか **0.004** ポイント。データの切り分け方を変えるのではなく、計算の「深さ」と「正確性」を上げたことが、この微差にして大きな前進を生みました。

4. まとめ：エンジニアとしての決断

「データの質」を追及することも大切ですが、時には「使う道具」を進化させることも重要だと痛感しました。LightGBMという新しい武器を手に入れた今、視界が開けました。次は、この強力なエンジンに、これまで温めてきた「Cabin（客室）の分解データ」を流し込みます。物理的な位置情報が加われば、0.8突破は確実です。

道具を磨き、知識を積み、一歩ずつ。Kaggleの頂は見え始めてきた。

【Kaggle挑戦記】Spaceship Titanic 攻略 #7：良かれと思った「外れ値除外」でスコアが急降下した話

1. 今回の仮説：外れ値は「毒」である

前回までで 0.79214 という自己ベストを記録していました。しかし、支出項目のデータ分布を見ると、ごく一部の乗客が数万ドルという極端な金額を使っています。「これほどの外れ値は、モデルの判断を狂わせるノイズ（毒）に違いない」——そう考えた私は、外れ値の基準を厳格化し、上位5%（95パーセンタイル）で数値を一律カットする強硬策に出ました。

2. 実装した「徹底排除」コード

以下が、あえて「失敗」を招くことになったコードの全文です。支出の上限をかなり低く設定しました。

import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier

# データの読み込み
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

# 支出項目の欠損値を0で埋め、合計を算出
spend_cols = ["RoomService", "FoodCourt", "ShoppingMall", "Spa", "VRDeck"]
for df in [train, test]:
    df[spend_cols] = df[spend_cols].fillna(0)
    df['TotalSpend'] = df[spend_cols].sum(axis=1)

# 【ここが失敗の種】外れ値を95%タイルで厳格にクリッピング
for col in spend_cols:
    # 上位5%をカット。Spaなら1600ドル程度が上限に
    upper_limit = train[col].quantile(0.95)
    train[col] = train[col].clip(upper=upper_limit)
    test[col] = test[col].clip(upper=upper_limit)
    print(f"✂️ {col} の上限を {upper_limit:.1f} (95%) に設定")

# CryoSleepの論理補完とAgeの中央値補完
for df in [train, test]:
    df.loc[(df['CryoSleep'].isnull()) & (df['TotalSpend'] > 0), 'CryoSleep'] = False
    df.loc[(df['CryoSleep'].isnull()) & (df['TotalSpend'] == 0), 'CryoSleep'] = True
    df['Age'] = df['Age'].fillna(df['Age'].median())

# 特徴量選択と学習
features = ["CryoSleep", "Age", "RoomService", "FoodCourt", "ShoppingMall", "Spa", "VRDeck"]
X = pd.get_dummies(train[features], drop_first=True)
y = train["Transported"]
X_test = pd.get_dummies(test[features], drop_first=True)
X, X_test = X.align(X_test, join='left', axis=1, fill_value=0)

model = RandomForestClassifier(n_estimators=100, random_state=1)
model.fit(X, y)

# 予測・提出
predictions = model.predict(X_test)
pd.DataFrame({'PassengerId': test['PassengerId'], 'Transported': predictions}).to_csv('sub_clip_95.csv', index=False)

3. 実行結果：Macのターミナルに突きつけられた現実

意気揚々とKaggleに提出した結果、リーダーボードに表示された数字に目を疑いました。

 Previous Score : 0.79214
 New Score      : 0.78185 (▲0.01029)

なんと、自己ベストから一気に **0.01 ポイントもの急落**。これまでの積み上げを台無しにするような、手痛い敗戦となりました。

4. 考察：なぜ「外れ値」は必要だったのか？

この失敗から、このコンペティションにおける重要な真実が見えてきました。「超高額な支出をしている乗客」というのは、単なるノイズではありませんでした。「高額な施設を頻繁に利用していた＝事故の瞬間に特定のエリアにいた」 という、転送（Transported）されるか否かを決める極めて重要なシグナルだったのです。

それを95%という低いラインで丸めてしまったことで、モデルは「重要人物」と「普通の客」の区別がつかなくなってしまった。ランダムフォレストは元々外れ値に強いアルゴリズムであり、人間が余計な手出しをするべきではありませんでした。

5. 次なる一手

「外れ値＝悪」という先入観は捨てました。次回は、この「数値の大きさ」という情報を残しつつ、まだ手付かずの「Cabin（客室）」データを分解し、物理的な位置関係から0.8の壁に再挑戦します。

Kaggleは、自分の思い込みをデータが粉砕してくれる場所。この敗北を糧に、次はもっと賢いコードを書こう。攻略は続く。

【Kaggle挑戦記】Spaceship Titanic 攻略 #5：ドメイン知識の投入。支出額から「冷凍睡眠」を逆算せよ

1. 今回の作戦：欠損値を「推理」で埋めるハイブリッド戦略

前回、項目を削ることで 0.79120 まで到達しました。さらなる高みを目指すため、今回は「データの裏側にある事実」をコードに落とし込みます。ターゲットは、最重要項目である「支出額」と「CryoSleep（冷凍睡眠）」の連動性です。

宇宙船の物理法則（ドメイン知識）

事実1： 施設利用（Spa等）のデータが欠損しているのは、単に「使っていない（0円）」からではないか？（中央値で埋めるのは不自然）
事実2： 冷凍睡眠（CryoSleep）中の乗客はカプセル内で眠っており、物理的に1円も使えないはず。
結論： まず支出額の欠損を「0」で埋め、その合計額が1円でもあれば「起きていた（False）」、0円なら「寝ていた（True）」と推論して、CryoSleepの欠損を埋める。

2. 【実装】支出と睡眠をセットで補完する「論理補完」コード全文

「とりあえず埋める」から「根拠を持って埋める」へ。Macのターミナルで実行した、論理的整合性を重視したコードです。

import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier

# 1. データの読み込み
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

# 2. 支出系とCryoSleepの同時補完ロジック
for df in [train, test]:
    spend_cols = ["RoomService", "FoodCourt", "ShoppingMall", "Spa", "VRDeck"]
    
    # 【処理A】支出の欠損は「使っていない（0円）」とみなす
    df[spend_cols] = df[spend_cols].fillna(0)
    
    # 支出の合計を計算
    total_spend = df[spend_cols].sum(axis=1)
    
    # 【処理B】支出額からCryoSleep（冷凍睡眠）を逆算
    # 1円でも使っていれば、寝ているはずがない（False）
    df.loc[(df['CryoSleep'].isnull()) & (total_spend > 0), 'CryoSleep'] = False
    # 合計0円なら、寝ていた可能性が極めて高い（True）
    df.loc[(df['CryoSleep'].isnull()) & (total_spend == 0), 'CryoSleep'] = True

    # その他の項目（Ageなど）は中央値で補完
    df['Age'] = df['Age'].fillna(df['Age'].median())

# 3. 特徴量の選択（筋肉質な7項目）
features = ["CryoSleep", "Age", "RoomService", "FoodCourt", "ShoppingMall", "Spa", "VRDeck"]

# 学習データの準備（CryoSleepをTrue/Falseの2値に絞り込む）
X = pd.get_dummies(train[features], drop_first=True)
y = train["Transported"]
X_test = pd.get_dummies(test[features], drop_first=True)

X, X_test = X.align(X_test, join='left', axis=1, fill_value=0)

# 4. 学習
model = RandomForestClassifier(n_estimators=100, random_state=1)
model.fit(X, y)

# 5. 提出用ファイル出力
predictions = model.predict(X_test)
pd.DataFrame({'PassengerId': test['PassengerId'], 'Transported': predictions}).to_csv('sub_logic_hybrid.csv', index=False)

3. 結果：論理の正しさが生んだ「微増」の意味

Macのターミナルを叩き、運命の結果を確認しました。

Public Score: 0.79214（前回比 +0.00094）

数値としての伸びはわずかですが、エンジニアとしてこの結果には大きな意味を感じています。

確信に変わった「0円」の意味： これまで適当に埋めていた欠損値を論理的に埋めた上でスコアが上がったということは、この宇宙船のルール（ドメイン知識）を正しく捉え始めている証拠です。
逃げ道の封鎖： 「Unknown」という不純物を消してなお精度が向上したことは、モデルがより普遍的なパターンを学習できていることを意味します。

4. 次のフェーズ：限界の先へ

「引き算」も「欠損値の論理補完」もやり遂げました。Baselineは今、極限まで磨かれています。これ以上の精度向上を狙うには、いよいよ新しい情報の創造、つまり「特徴量エンジニアリング（足し算）」が必要です。

「個別の支出」ではなく「合計支出」はどう効くのか？あるいは「家族」の存在は？ 0.8の壁を突破するための、本質的なクリエイティビティの戦いが始まります。

データの向こう側にある真実を一つずつ拾い集め、コードに落とし込む。地道な作業ですが、これが確実な勝利への唯一の道。さあ、頑張ろう！

【Kaggle挑戦記】Spaceship Titanic 攻略 #4：引き算の勝利！項目を削って 0.79120 へスコアアップ

1. 今回の作戦：ノイズを削り、モデルを研ぎ澄ませる

前回の初提出で、0.78723というBaselineを記録しました。しかし、重要度を分析すると「HomePlanet」や「Destination」といった項目が足を引っ張っている（ノイズになっている）可能性が浮上しました。

そこで今回、あえて「新しく何も足さず、効いていない項目を削るだけ」というリストラ作戦を敢行。不純物を排除し、モデルが真に重要なデータだけに集中できる環境を作りました。

2. 【実装】一切の無駄を省いた「リストラ実行コード」全文

重要度の低かった HomePlanet, Destination, VIP を削除し、予測精度に寄与する「主力メンバー」だけに絞り込んだコードです。

import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier

# 1. データの読み込み
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

# 2. 最小限の前処理（欠損値補完）
# 数値型は中央値で、文字列(object)型は"Unknown"で一律補完
for df in [train, test]:
    # 数値列の抽出と補完
    num_cols = df.select_dtypes(include=['float64']).columns
    df[num_cols] = df[num_cols].fillna(df[num_cols].median())
    
    # 文字列列の抽出と補完
    obj_cols = df.select_dtypes(include=['object']).columns
    df[obj_cols] = df[obj_cols].fillna('Unknown')

# 3. 特徴量の選択（重要度の低かった3つをリストラ）
# 予測のノイズになっていた HomePlanet, Destination, VIP を排除
features = ["CryoSleep", "Age", "RoomService", "FoodCourt", "ShoppingMall", "Spa", "VRDeck"]

# 学習用データの準備（ダミー変数化で数値へ変換）
X = pd.get_dummies(train[features])
y = train["Transported"]
X_test = pd.get_dummies(test[features])

# 学習データとテストデータの列（次元）を揃える
X, X_test = X.align(X_test, join='left', axis=1, fill_value=0)

# 4. ランダムフォレストで学習（100本の木で構築）
model = RandomForestClassifier(n_estimators=100, random_state=1)
model.fit(X, y)

# 5. 特徴量の重要度（Feature Importances）を表示
importances = pd.DataFrame({
    'feature': X.columns,
    'importance': model.feature_importances_
}).sort_values('importance', ascending=False)

print("\n New Feature Importances:")
print(importances)

# 6. 提出用ファイルの作成（CSV出力）
predictions = model.predict(X_test)
output = pd.DataFrame({
    'PassengerId': test['PassengerId'],
    'Transported': predictions
})
output.to_csv('sub_reduced_features.csv', index=False)
print("\n✅ Submission file 'sub_reduced_features.csv' saved.")

3. 【実行結果】研ぎ澄まされた重要度とスコア

結果は予想を上回るポジティブなものでした。MacのターミナルからKaggleへ提出した結果です。

Public Score: 0.79120（前回比 +0.00397）

そして、ターミナルに出力された「主力メンバー」たちの重要度がこちら。

 New Feature Importances:
              feature  importance
4                 Spa    0.148013
0                 Age    0.139252
2           FoodCourt    0.133334
1         RoomService    0.127555
5              VRDeck    0.124744
7      CryoSleep_True    0.112372
6     CryoSleep_False    0.105997
3        ShoppingMall    0.105874
8   CryoSleep_Unknown    0.002859

4. 考察：引き算がモデルを「覚醒」させた

今回の実験で、「情報の質」が「量」を凌駕することが証明されました。項目を減らしたにも関わらずスコアが上がったのは、モデルがノイズに惑わされなくなり、真に影響力のある「支出額」や「年齢」の境界線をより正確に引けるようになったためです。

特にSpaやVRDeckなどの支出項目の重要度が軒並み上がり、モデルの武器が鋭利になったことがわかります。何も足さずに 0.791 を突破。いよいよ 0.8 の大台が射程圏内に入りました。

「まず削る」。このシンプルなエンジニアリングが、宇宙船のデータに潜む真実を一つ暴きました。次回、筋肉質になったこのモデルに、「新たな筋肉（特徴量）」を足すフェーズへ。攻略は続きます。