忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】コイン投げからABテストまで!「二項分布」の基礎

「表か裏か」「購入か非購入か」。結果が2通りしかない試行を繰り返したとき、成功する回数のばらつきを表すのが二項分布です。

1. 【 問題 】

コインを投げたときに「表が出るか裏が出るか」のように、結果が2通りしか存在しない独立な試行(ベルヌーイ試行)を $n$ 回繰り返したとき、目的とする事象がちょうど $k$ 回起こる確率の分布を何と呼ぶでしょうか?

① 正規分布
② ポアソン分布
③ 二項分布
④ 指数分布


2. 【 解答 】

正解: ③ 二項分布

3. 整理:二項分布が成り立つ「条件」

二項分布を適用するためには、その前提となる試行が以下の条件を満たしている必要があります。これを「ベルヌーイ試行」と呼びます。

【 二項分布の3大特徴 】

結果が2択である
 「成功か失敗か」「購入か見送りか」のように、状態が2つだけ。

各試行が独立である
 1回目の結果が、2回目の確率に影響を与えない。

確率が一定である
 何回繰り返しても、1回あたりに成功する確率 $p$ は変わらない。

--------------------------

ビジネスでの具体例:
・メルマガを1000人に配信したとき、何人が開封してくれるか?
・ある部品を50個製造したとき、不良品が何個含まれるか?

4. 超頻出:正規分布との美しいつながり

二項分布は「1回、2回…」と数える**離散確率分布**です。しかし、試行回数 $n$ が十分に大きくなると、この二項分布の形はきれいな左右対称の山型になり、連続確率分布である**「正規分布」**に近似(変化)するという性質を持っています(中心極限定理)。
この「データ数が多ければ正規分布として扱ってよい」という割り切りが、実務での統計的検定(A/Bテストの有意差判定など)を劇的に楽にしています。


5. DS検定形式:実戦4択クイズ

問:1回の成功確率が $p$ である試行を $n$ 回繰り返す二項分布において、その「平均(期待値)」を表す正しい数式はどれか。

① $p$   ② $np$   ③ $np(1-p)$   ④ $\sqrt{np(1-p)}$

【 正解: ② 】

解説: 二項分布の平均は $np$ で非常にシンプルに計算できます(例:成功確率10%のガチャを100回引いたら、平均10回当たる)。ちなみに ③ は「分散」、④ は「標準偏差」の数式です。


6. まとめ

DS検定において「2通りの結果」「$n$ 回繰り返す」「成功回数の分布」という記述が出たら間違いなく「二項分布」です。データ分析の現場でも、コンバージョン率(CVR)のばらつきを評価する際などに裏で必ず使われている、超基本にして最強の武器として押さえておきましょう!

PR

【DS検定対策】結果は1つか、確率か?「確定的モデル」と「確率的モデル」の決定的な違い

同じ入力から常に同じ答えを導き出すモデルか、それとも「確率的なゆらぎ」を考慮するモデルか。データ分析の前提を変える2つのアプローチを整理しましょう。

1. 【 問題 】

データサイエンスにおける予測モデルのうち、「まったく同じデータ(入力値)を与えた場合、内部にランダムな要素を持たないため、何度計算しても必ず完全に同じ予測結果(出力値)が得られるモデル」を何と呼ぶでしょうか?

① 確率的モデル
② 確定的モデル
③ 潜在変数モデル
④ 動的モデル


2. 【 解答 】

正解: ② 確定的モデル

3. 整理:2つのモデルの決定的な違い

それぞれのモデルは、現実世界の捉え方が根本から異なります。

モデル型特徴具体例
確定的
モデル
・偶然の要素(確率)を排除する。
・入力が決まれば、出力は一意に(1つに)決定する。
・数式に「誤差項(ランダムなノイズ)」を含めない。
・ニュートンの運動方程式
・シンプルな線形計画法
・決定木(推論時)
確率的
モデル
・現実の「予測不可能な不確実性」を認める。
・出力が確率分布として得られる(例:○%の確率で雨)。
・乱数や確率変数、誤差項を数式に組み込む。
・ロジスティック回帰
・ポアソン過程(ATMの行列)
・気象予測シミュレーション

4. なぜ使い分けるのか?

1. 確定的モデルのメリット: 計算がシンプルで、結果の解釈や再現が容易です。「条件Aなら結果はB」と言い切れる業務ルールに向いています。
2. 確率的モデルのメリット: 「株価の変動」や「顧客の来店予測」のように、人間の行動や複雑な自然現象など、どうしてもノイズ(不確実性)を無視できない現実的な問題を扱うのに適しています。


5. DS検定形式:実戦4択クイズ

問:確率的モデルにおいて、モデルが予測した結果がどれくらい「不確実」であるかを評価するために、予測値と一緒に算出されることが多い指標はどれか。

① 信頼区間(または予測区間)   ② 決定係数   ③ ダミー変数   ④ 特徴量重要度

【 正解: ① 】

解説: 確率的モデルでは「ピンポイントな1点」だけでなく、「95%の確率でこの範囲に収まります」という不確実性の幅(信頼区間・予測区間)をセットで出すことができるのが大きな強みです。


6. まとめ

DS検定において「同じ入力なら常に同じ出力、ランダム性なし」なら「確定的モデル」、「不確実性や確率分布を考慮する」なら「確率的モデル」です。これまで学んできた多くのアルゴリズムが、このどちらの思想で作られているかを意識してみると、理解がさらに深まります!

【Power BI】Windows11でCSVを取り込んで表示するまでの手順

Power BI Desktop を使って、CSV ファイルを取り込み、データを表示するまでの流れをまとめました。手元に CSV がなくても、自分で簡単にテストデータを作成して動作確認できます。

1. 【 テスト用 CSV データを作成 】

まずは Power BI に読み込むための簡単な CSV を自作します。

① メモ帳を開く

② 以下の内容をそのまま貼り付ける
日付,カテゴリ,金額
2025-01-01,食費,1200
2025-01-01,交通費,500
2025-01-02,食費,800
2025-01-02,娯楽,1500
2025-01-03,食費,600
2025-01-03,交通費,300
③ 名前をつけて保存
ファイル名:test_expense.csv
文字コード:UTF-8(選べる場合)

2. 【 Power BI Desktop に CSV を取り込む 】

① Power BI Desktop を起動
スタートメニューから「Power BI Desktop」を開きます。

② 「他のソースからデータを取得する」を選択
起動後の画面に表示されるメニューから選びます。

③ CSV ファイルを指定して取り込む
作成した test_expense.csv を選択し、「読み込み」をクリックします。

④ 右側の「テーブルビュー」を選択
画面右側のアイコン(表のマーク)をクリックすると、取り込んだデータが表形式で表示されます。

⑤ データが表示されれば取り込み成功
CSV の内容が Power BI 上に表示されていれば OK です。

3. 【 表示されたデータの例 】

取り込んだ CSV は、Power BI のテーブルビューで次のように表示されます。





【Power BI】Windows11で無料版Power BI Desktopをインストールする手順

Windows 11 で Power BI Desktop(無料版)をインストールし、実際に起動して動作確認するまでの流れをまとめました。公式サイトから Microsoft Store に遷移し、そのままダウンロード&インストールされるため、初心者でも迷わず進められます。

1. 【 手順の概要 】

以下の公式ページから Power BI Desktop を入手します。

Power BI ダウンロードページ

ページ内の「Power BI Desktop」から Microsoft Store に移動し、ダウンロード → インストール → 起動まで一気に完了します。


2. 【 インストール手順 】

① 公式ダウンロードページを開く
上記の Microsoft 公式サイトにアクセスします。

② 「Power BI Desktop」を選択し、Microsoft Store へ移動
「Microsoft Store から入手」というボタンが表示されるのでクリック。

③ Store アプリで「入手」をクリック
ダウンロードとインストールが自動で進行します。

④ インストール完了後、スタートメニューに「Power BI Desktop」が追加される
Windows のアプリ一覧に自動で登録されます。

⑤ Power BI Desktop を起動
初回起動ができれば、インストールは正常に完了しています。

3. 【 稼働確認:起動できればOK 】

スタートメニューから Power BI Desktop をクリックし、アプリが立ち上がれば動作確認は完了です。

初回起動時は少し時間がかかることがありますが、画面が表示されれば問題ありません。

これで、Power BI の学習を始める準備は整いました。



【DS検定対策】強化学習の土台!「マルコフ決定過程」の割り切り思想

AIが試行錯誤して最適な動きを学ぶ「強化学習」。その舞台裏を数学的にスマートに表現するのが、マルコフ決定過程(MDP)です。

1. 【 問題 】

強化学習において、環境のモデル化によく用いられる「マルコフ決定過程(MDP)」の性質として、最も適切なものはどれでしょうか?

① 未来の状態は、過去のすべての状態と行動の履歴に基づいて決定される。
② 未来の状態は、現在の状態と選択した行動にのみ依存し、それ以前の過去の状態には依存しない。
③ 未来の状態は完全にランダムであり、現在の状態や行動からは一切予測できない。
④ 行動を選択しても状態は変化せず、報酬の額だけが確率的に変化する。


2. 【 解答 】

正解: ② 未来の状態は、現在の状態と選択した行動にのみ依存し、それ以前の過去の状態には依存しない。

3. 整理:MDPを構成する「4つの要素」

マルコフ決定過程では、エージェント(AI)と環境のやりとりを以下の4つの要素(セットで$S, A, P, R$と表記されます)で定義します。

【 MDPの基本要素 】

1. 状態(State: $S$):AIが今置かれている状況(例:迷路の座標「C3」)
2. 行動(Action: $A$):AIが取れる選択肢(例:「右に進む」)
3. 遷移確率(Probability: $P$):ある状態で行動したとき、次にどの状態に移るかの確率
4. 報酬(Reward: $R$):行動の結果として得られるご褒美(例:ゴールに近づいたら「+10点」)

--------------------------

「過去は関係ない」というメリット:
「どうやってその状態(C3)にたどり着いたか」という過去のルートを一切無視して、「今の状態」と「次の行動」だけで未来を計算できるため、数式やプログラムが劇的にシンプルになります。

4. DS検定で狙われる関連用語

1. 方策(Policy: $\pi$): ある状態のときに、どのような確率で行動を選ぶかという「AIの行動指針(戦略)」のことです。
2. 価値関数(Value Function): 今の「状態」や「行動」が、将来的にどれくらい報酬をもたらしそうかという「先を見据えたスコア」です。


5. DS検定形式:実戦4択クイズ

問:強化学習において、現在の状態と行動のみで次の状態が決まる「マルコフ決定過程」の前提が成り立たず、環境の一部しか観測できない複雑な状態をモデル化したものを何と呼ぶか。

① 動的計画法   ② 部分観測マルコフ決定過程(POMDP)   ③ Qラーニング   ④ モンテカルロ法

【 正解: ② 】

解説: 現実世界の「霧に隠れて先が見えない麻雀やポーカー」のように、状態の一部が隠されているモデルを「部分観測(Partially Observable)MDP」と呼び、応用問題として時折顔を出します。


6. まとめ

DS検定において「未来の状態は現在の状態と行動に依存し、過去に依存しない」というフレーズが出たら、100%「マルコフ決定過程(MDP)」です。強化学習というゲームのルールブックを定義する言葉として、しっかり記憶に刻んでおきましょう!