忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【機械学習の知識】数式なしでわかるブートストラップ・リサンプリングの仕組みとアルゴリズム

限られたデータから統計的な推測を行いたい。しかし、何度もデータを集め直すのは現実的に不可能。その限界を「何度も復元抽出する」というアイデアで突破するのが、ブートストラップ・リサンプリングです。

1. 【 概要 】

ブートストラップ・リサンプリングとは、手元にある元のデータセット(サンプルサイズ n)から、重複を許して(元に戻しながら)ランダムにデータを取り出し、新しい疑似的なデータセットを何度も作り出す手法です。これにより、手元のデータだけでは分からなかった「統計量のばらつき(分散や信頼区間)」を視覚的・計算的に評価できるようになります。


2. 【 基本アルゴリズム 】

サンプルサイズを n とする。
(1) n 個の標本を抽出して、その平均を記録する。標本を元に戻す。
(2) この処理を N 回繰り返す。
(3) N 個の結果を使って、統計量などを計算する。

3. 整理:各ステップで何が行われているのか?

一見するとシンプルな処理ですが、データサイエンスにおいて非常に強力な効果を発揮します。それぞれのステップを具体的に見ていきましょう。

【 アルゴリズムの具体的な処理内容 】

ステップ(1):復元抽出と記録
元のデータからランダムに1個選び、記録したら「また元のデータの中に戻す」という操作(復元抽出)を n 回 繰り返して新しいデータセットを作ります。この新しいデータセットの平均値などの統計量を計算し、記録します。同じデータが2回以上選ばれることもあれば、1度も選ばれないデータもあります。

ステップ(2):N回の繰り返し
ステップ(1)の「n個選んで平均を記録する」という一連の処理を、十分に大きな回数(N回。一般的に数百〜数千回)繰り返します。手元にN個の「疑似的な平均値のデータ」が集まることになります。

ステップ(3):統計量の計算
集まった N 個 の結果の分布を見ることで、その統計量がどれくらいバラつくのか(標準誤差)を求めたり、95%信頼区間を推定したりします。

4. 関連して押さえたい「アンサンブル学習(バギング)への応用」

このブートストラップ・リサンプリングは、統計推定だけでなく、機械学習において高い予測精度を誇るアルゴリズムの基礎にもなっています。
代表例が「バギング(Bootstrap Aggregating)」です。バギングでは、ブートストラップ法によって大量の異なるデータセットを作り出し、それぞれで決定木などの弱学習器を並列に訓練します。これらを組み合わせたモデルが、機械学習で非常によく使われる「ランダムフォレスト」です。


5. 補足:一度も選ばれないデータ(約37%)の秘密

サンプルサイズ n が十分に大きいとき、ブートストラップ抽出において元のデータから「一度も選ばれないデータ」は理論上、全体の約36.8%(約37%)存在します(数式では (1 - 1/n)^n が 1/e に収束するため)。
機械学習のランダムフォレストなどでは、この選ばれなかった約37%のデータを「Out-of-Bag(OOB)データ」と呼び、モデルの性能をテストするための検証用データとして有効活用しています。


6. まとめ

データサイエンスや機械学習の現場において「元に戻しながら何度もデータを集め直す手法」と言えば、このブートストラップ・リサンプリングです。手元にある限られたデータからでも、計算機のパワー(反復処理)を使って統計的な信頼性を評価したり、強力なアンサンブルモデルを作ったりできる重要なアルゴリズムですので、確実に仕組みを押さえておきましょう!


PR

【DS検定対策】消えたデータの声を聴け!「脱落バイアス」の罠

分析対象者が途中でいなくなってしまう。その「離脱」自体が偏りを生み出す原因になる。それが脱落バイアスです。

1. 【 問題 】

データ収集や実験のプロセスにおいて、調査対象者が「途中で離脱(脱落)」したことにより、最後まで残った対象者だけのデータに偏りが生じ、正しい分析結果が得られなくなる現象(バイアス)を何と呼ぶでしょうか?

① 生存者バイアス(サバイバーシップ・バイアス)
② 脱落バイアス(アトリッション・バイアス)
③ 回答バイアス
④ 確証バイアス


2. 【 解答 】

正解: ② 脱落バイアス(アトリッション・バイアス)

3. 整理:なぜ「脱落」がバイアスを生むのか?

もし、脱落(離脱)が完全にランダムであれば大きな問題にはなりませんが、現実には「離脱するだけの理由」がそこにあるため、結果が歪みます。

【 ビジネスや研究での具体例 】

事例1:教育アプリの効果測定
難関資格の学習アプリで、1ヶ月継続した人の合格率が「90%」だった!
:実は「内容が難しすぎて挫折した人」が途中で大量に脱落(アンインストール)していた場合、最後まで残った「元から優秀な人」だけの結果を見ている可能性があります。

事例2:新薬の臨床試験
ある薬を3ヶ月服用してもらう実験で、副作用が非常に強かった人が途中で通院をやめてしまった。
:最終的に無事完走した人のデータだけを集計すると、「副作用が少なくて効果が高い魔法の薬」に見えてしまう危険があります。

4. 関連して押さえたい「選択バイアス」

脱落バイアスは、統計学における「選択バイアス(Selection Bias)」という大きな分類の1つです。
似た言葉に、歴史的なエピソード(爆撃から生還した戦闘機の補強など)で有名な「生存者バイアス」がありますが、生存者バイアスが「すでに生き残ったもの(結果)」だけを後から見てしまうことに対し、脱落バイアスは「時間の経過とともに進行形で対象者がいなくなっていくプロセス(縦断調査など)」に注目する点が特徴です。


5. DS検定形式:実戦4択クイズ

問:WebサービスのA/Bテストにおいて、新機能(B案)のページが非常に重く、読み込みに時間がかかったため、多くのユーザーが途中でブラウザを閉じて離脱してしまった。この状況で、ページを最後まで読み込んでコンバージョン(購入)したユーザーだけのデータで効果測定を行う際に発生するバイアスとして最も適切なものはどれか。

① 確証バイアス   ② 脱落バイアス   ③ 社会的妥当性バイアス   ④ 出版バイアス

【 正解: ② 】

解説: 「読み込みが遅くてイライラして途中で離脱した人」の存在を無視し、最後まで粘り強く待ってくれた熱狂的なユーザーだけの数値で評価してしまうため、これも典型的な脱落バイアスです。


6. まとめ

DS検定やデータ分析の現場において「途中で対象者が離脱したことで生じる偏り」という記述が出たら、それは「脱落バイアス」を指します。データサイエンスでは、手元にある綺麗なデータだけでなく、「消えてしまったデータ(離脱した人)の理由」にこそ、システム改善の最大のヒントが隠されていることを忘れないようにしましょう!

【DS検定対策】まずは手元のデータで評価!「訓練誤差」の意味と付き合い方

AIモデルを作ったら、まずは手元にあるデータを使ってどれくらい予測が当たっているかを計算します。その時に算出されるのが「訓練誤差」です。

1. 【 問題 】

機械学習のモデル評価において、「モデルの学習(訓練)に用いたデータそのもの」をモデルに入力した際に生じる、予測値と正解データとの間の誤差のことを何と呼ぶでしょうか?

① 汎化誤差(はんかごさ)
② 訓練誤差(学習誤差)
③ 評価誤差(テスト誤差)
④ 残差(ざんさ)


2. 【 解答 】

正解: ② 訓練誤差(学習誤差)

3. 整理:訓練誤差と「過学習(オーバーフィッティング)」の関係

訓練誤差は、モデルが手元のデータをどれくらい「カンペキに暗記できたか」を表す指標です。そのため、以下のような落とし穴が存在します。

【 訓練誤差のキャラクター 】

学習が進むとどうなる?
AIが手元のデータをどんどん学習していくと、訓練誤差は基本的にゼロに向かって下がり続けます

「訓練誤差=0」は本当にハッピー?
いいえ!手元のデータを完璧に覚え込みすぎた結果、データに含まれる「ノイズ(偶然のブレ)」まで学習してしまい、いざ本番環境で「新しい未知のデータ」を入力したときに全く予測が当たらなくなる現象が起きます。これを過学習(オーバーフィッティング)と呼びます。

4. 対比して覚えたい「汎化誤差」

訓練誤差の対義語として必ず出題されるのが「汎化誤差(はんかごさ)」です。
これは、学習には一切使っていない「未知のデータ」に対する予測誤差のことです。データサイエンティストが本当に目指すべきゴールは、訓練誤差をゼロにすることではなく、この「汎化誤差を最小にすること」です。


5. DS検定形式:実戦4択クイズ

問:学習を繰り返すうちに、「訓練誤差」は下がり続けているにもかかわらず、「汎化誤差(テスト誤差)」が途中から上昇し始めてしまった。この状態を説明する言葉として最も適切なものはどれか。

① アンダーフィッティング(学習不足)   ② オーバーフィッティング(過学習)   ③ 勾配消失   ④ 負の転移

【 正解: ② 】

解説: まさに過学習が起きている瞬間の特徴です。この現象を防ぐために、あらかじめデータを「訓練用」と「テスト用」に分割して別々に誤差を監視する「交差検証(クロスバリデーション)」などの技術が使われます。


6. まとめ

DS検定において「学習時の訓練データと正解データの誤差」という記述が出たら、シンプルに「訓練誤差」です。これ単体が低ければ良いというわけではなく、未知のデータに対する「汎化誤差」とセットで比較・評価するものだという大原則を押さえておきましょう!


【DS検定対策】確率・統計の基礎!順列で考える「封筒を開ける順番」

データサイエンスの確率を学ぶ上で、基本となるのが「場合の数の数え上げ」です。今回は、3つの封筒を開ける順番が何通りあるか、画面で崩れない図解と一緒に整理しましょう。

1. 【 問題 】

中身の異なる3つの封筒(A、B、C)があります。これら3つの封筒を1つずつ順番にすべて開けるとき、その開ける順番の組み合わせ(並び順)は全部で何通りあるでしょうか?

① 3通り
② 6通り
③ 9通り
④ 27通り


2. 【 解答 】

正解: ② 6通り

3. 図解:開ける順番の全パターン(ツリー構造)

1番目、2番目、3番目に選ぶ封筒の選択肢と、その結果をシンプルな表で表しました。

1番目に開ける2番目に開ける3番目に開ける完成する並び順
封筒 A 封筒 B 封筒 C ① A → B → C
封筒 C 封筒 B ② A → C → B
封筒 B 放筒 A 封筒 C ③ B → A → C
封筒 C 封筒 A ④ B → C → A
封筒 C 封筒 A 封筒 B ⑤ C → A → B
封筒 B 封筒 A ⑥ C → B → A

表の右端(青い列)を上から数えると、全部で6通りの並び方があることが一目で分かります!


4. 整理:数式(積の法則)でのアプローチ

毎回表を描かなくても、以下のステップを掛け算(積の法則)することで簡単に計算できます。

【 ステップごとの選択肢の数 】

1番目に開ける封筒: まだ全部残っているので 3通り(AかBかC)
2番目に開ける封筒: 1枚開けたので、残りは 2通り
3番目に開ける封筒: 最後に残った 1通りのみ

--------------------------

$$3 \times 2 \times 1 = 6 \text{通り}$$

このように、ある数から1ずつ減らしながら1まで掛け合わせる計算を数学では「階乗(かいじょう)」と呼び、感嘆符を使って $3!$(3の階乗) と表記します。


5. DS検定形式:実戦4択クイズ

問:異なる5つのデータ(A、B、C、D、E)の中から、順序を考慮せずに「3つのデータ」を同時に選び出す(抽出する)組み合わせの数は何通りか。

① 10通り   ② 20通り   ③ 60通り   ④ 120通り

【 正解: ① 】

解説: 今回の封筒問題のように「順番(列)」を意識する場合は順列ですが、順番を気にせず「グループを選ぶだけ」の場合はコンビネーション($_5C_3$)を使います。
計算式は $\frac{5 \times 4 \times 3}{3 \times 2 \times 1} = 10 \text{通り}$ となり、サンプリング(標本抽出)の理論の基礎となります。


6. まとめ

DS検定において、確率の基本となる「並び順(順列)」が出たら、選択肢が1つずつ減っていく掛け算(階乗 $n!$)を連想しましょう。この「数え上げ」の感覚が、のちに学ぶ「確率分布」や「ベイズ統計」の複雑な数式を理解するための強固な土台になります!




【DS検定対策】AIブームの原動力!「深層学習(ディープラーニング)」の仕組み

人間の脳の神経回路を模したニューラルネットワーク。その階層を何層にも深く重ねることで、AIの表現力を劇的に高めた技術が深層学習です。

1. 【 問題 】

機械学習の手法の一つにおいて、人間の脳の神経回路を模したアルゴリズムであるニューラルネットワークの層を何層にも深く(多層に)したものを [     ] というでしょうか?

① アンサンブル学習
② 深層学習(ディープラーニング)
③ 教師なし学習
④ 決定木学習


2. 【 解答 】

正解: ② 深層学習(ディープラーニング)

3. 整理:なぜ「多層」にすると賢くなるのか?

従来の機械学習では、人間が「どこに注目すべきか(特徴量)」を手作業で計算して指定する必要がありました(特徴量エンジニアリング)。しかし、深層学習は層を深くすることで、AI自らが段階的に特徴を見つけ出します。

【 画像認識における多層化のイメージ 】

入力層:画像のピクセルデータ(生の数値)を受け取る。

浅い層(初期層):画像の中の「輪郭(縦の線や横の線)」を検出する。

中間の層:検出した線から「目」や「鼻」「耳」といったパーツの形を合成する。

深い層(出力層):パーツの組み合わせから「これは猫である」と最終判断する。

--------------------------

ポイント:
このように、層を深くすることで「単純な特徴」から「複雑な概念」へと、AIが自働でステップアップしながら理解を深めていく点が、深層学習の最大の強みです。

4. 深層学習の代表的なネットワーク構造

1. CNN(畳み込みニューラルネットワーク): 画像データの処理(特徴の抽出)が非常に得意で、自動運転や物体検出などの基盤となっています。
2. RNN / Transformer: 時系列データやテキストデータの処理が得意で、ChatGPTをはじめとする大規模言語モデル(LLM)の土台として大活躍しています。


5. DS検定形式:実戦4択クイズ

問:深層学習において、層を深くしすぎた結果、誤差を逆方向に伝播させていく過程でパラメーターを更新するための値(勾配)が途中でゼロに近づいてしまい、浅い層が全く学習しなくなってしまう現象を何と呼ぶか。

① 過学習   ② 勾配消失問題   ③ 次元のアサリ   ④ 多重共線性

【 正解: ② 】

解説: 層を多層にする(ディープにする)際の最大の歴史的壁となったのが、この「勾配消失(こうばいしょうしつ)問題」です。現在は、活性化関数(ReLUなど)の工夫や、残差接続(ResNet)などの技術によってこの問題が克服され、さらなる多層化が可能になりました。


6. まとめ

DS検定において「ニューラルネットワークを多層にしたもの」という記述が出たら、迷わず「深層学習(ディープラーニング)」を選びましょう。現代のAIブームを牽引するコア技術として、その概念とメリットをしっかり頭に叩き込んでおきましょう!