忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】結果は1つか、確率か?「確定的モデル」と「確率的モデル」の決定的な違い

同じ入力から常に同じ答えを導き出すモデルか、それとも「確率的なゆらぎ」を考慮するモデルか。データ分析の前提を変える2つのアプローチを整理しましょう。

1. 【 問題 】

データサイエンスにおける予測モデルのうち、「まったく同じデータ(入力値)を与えた場合、内部にランダムな要素を持たないため、何度計算しても必ず完全に同じ予測結果(出力値)が得られるモデル」を何と呼ぶでしょうか?

① 確率的モデル
② 確定的モデル
③ 潜在変数モデル
④ 動的モデル


2. 【 解答 】

正解: ② 確定的モデル

3. 整理:2つのモデルの決定的な違い

それぞれのモデルは、現実世界の捉え方が根本から異なります。

モデル型特徴具体例
確定的
モデル
・偶然の要素(確率)を排除する。
・入力が決まれば、出力は一意に(1つに)決定する。
・数式に「誤差項(ランダムなノイズ)」を含めない。
・ニュートンの運動方程式
・シンプルな線形計画法
・決定木(推論時)
確率的
モデル
・現実の「予測不可能な不確実性」を認める。
・出力が確率分布として得られる(例:○%の確率で雨)。
・乱数や確率変数、誤差項を数式に組み込む。
・ロジスティック回帰
・ポアソン過程(ATMの行列)
・気象予測シミュレーション

4. なぜ使い分けるのか?

1. 確定的モデルのメリット: 計算がシンプルで、結果の解釈や再現が容易です。「条件Aなら結果はB」と言い切れる業務ルールに向いています。
2. 確率的モデルのメリット: 「株価の変動」や「顧客の来店予測」のように、人間の行動や複雑な自然現象など、どうしてもノイズ(不確実性)を無視できない現実的な問題を扱うのに適しています。


5. DS検定形式:実戦4択クイズ

問:確率的モデルにおいて、モデルが予測した結果がどれくらい「不確実」であるかを評価するために、予測値と一緒に算出されることが多い指標はどれか。

① 信頼区間(または予測区間)   ② 決定係数   ③ ダミー変数   ④ 特徴量重要度

【 正解: ① 】

解説: 確率的モデルでは「ピンポイントな1点」だけでなく、「95%の確率でこの範囲に収まります」という不確実性の幅(信頼区間・予測区間)をセットで出すことができるのが大きな強みです。


6. まとめ

DS検定において「同じ入力なら常に同じ出力、ランダム性なし」なら「確定的モデル」、「不確実性や確率分布を考慮する」なら「確率的モデル」です。これまで学んできた多くのアルゴリズムが、このどちらの思想で作られているかを意識してみると、理解がさらに深まります!

PR

【Power BI】Windows11でCSVを取り込んで表示するまでの手順

Power BI Desktop を使って、CSV ファイルを取り込み、データを表示するまでの流れをまとめました。手元に CSV がなくても、自分で簡単にテストデータを作成して動作確認できます。

1. 【 テスト用 CSV データを作成 】

まずは Power BI に読み込むための簡単な CSV を自作します。

① メモ帳を開く

② 以下の内容をそのまま貼り付ける
日付,カテゴリ,金額
2025-01-01,食費,1200
2025-01-01,交通費,500
2025-01-02,食費,800
2025-01-02,娯楽,1500
2025-01-03,食費,600
2025-01-03,交通費,300
③ 名前をつけて保存
ファイル名:test_expense.csv
文字コード:UTF-8(選べる場合)

2. 【 Power BI Desktop に CSV を取り込む 】

① Power BI Desktop を起動
スタートメニューから「Power BI Desktop」を開きます。

② 「他のソースからデータを取得する」を選択
起動後の画面に表示されるメニューから選びます。

③ CSV ファイルを指定して取り込む
作成した test_expense.csv を選択し、「読み込み」をクリックします。

④ 右側の「テーブルビュー」を選択
画面右側のアイコン(表のマーク)をクリックすると、取り込んだデータが表形式で表示されます。

⑤ データが表示されれば取り込み成功
CSV の内容が Power BI 上に表示されていれば OK です。

3. 【 表示されたデータの例 】

取り込んだ CSV は、Power BI のテーブルビューで次のように表示されます。





【Power BI】Windows11で無料版Power BI Desktopをインストールする手順

Windows 11 で Power BI Desktop(無料版)をインストールし、実際に起動して動作確認するまでの流れをまとめました。公式サイトから Microsoft Store に遷移し、そのままダウンロード&インストールされるため、初心者でも迷わず進められます。

1. 【 手順の概要 】

以下の公式ページから Power BI Desktop を入手します。

Power BI ダウンロードページ

ページ内の「Power BI Desktop」から Microsoft Store に移動し、ダウンロード → インストール → 起動まで一気に完了します。


2. 【 インストール手順 】

① 公式ダウンロードページを開く
上記の Microsoft 公式サイトにアクセスします。

② 「Power BI Desktop」を選択し、Microsoft Store へ移動
「Microsoft Store から入手」というボタンが表示されるのでクリック。

③ Store アプリで「入手」をクリック
ダウンロードとインストールが自動で進行します。

④ インストール完了後、スタートメニューに「Power BI Desktop」が追加される
Windows のアプリ一覧に自動で登録されます。

⑤ Power BI Desktop を起動
初回起動ができれば、インストールは正常に完了しています。

3. 【 稼働確認:起動できればOK 】

スタートメニューから Power BI Desktop をクリックし、アプリが立ち上がれば動作確認は完了です。

初回起動時は少し時間がかかることがありますが、画面が表示されれば問題ありません。

これで、Power BI の学習を始める準備は整いました。



【DS検定対策】強化学習の土台!「マルコフ決定過程」の割り切り思想

AIが試行錯誤して最適な動きを学ぶ「強化学習」。その舞台裏を数学的にスマートに表現するのが、マルコフ決定過程(MDP)です。

1. 【 問題 】

強化学習において、環境のモデル化によく用いられる「マルコフ決定過程(MDP)」の性質として、最も適切なものはどれでしょうか?

① 未来の状態は、過去のすべての状態と行動の履歴に基づいて決定される。
② 未来の状態は、現在の状態と選択した行動にのみ依存し、それ以前の過去の状態には依存しない。
③ 未来の状態は完全にランダムであり、現在の状態や行動からは一切予測できない。
④ 行動を選択しても状態は変化せず、報酬の額だけが確率的に変化する。


2. 【 解答 】

正解: ② 未来の状態は、現在の状態と選択した行動にのみ依存し、それ以前の過去の状態には依存しない。

3. 整理:MDPを構成する「4つの要素」

マルコフ決定過程では、エージェント(AI)と環境のやりとりを以下の4つの要素(セットで$S, A, P, R$と表記されます)で定義します。

【 MDPの基本要素 】

1. 状態(State: $S$):AIが今置かれている状況(例:迷路の座標「C3」)
2. 行動(Action: $A$):AIが取れる選択肢(例:「右に進む」)
3. 遷移確率(Probability: $P$):ある状態で行動したとき、次にどの状態に移るかの確率
4. 報酬(Reward: $R$):行動の結果として得られるご褒美(例:ゴールに近づいたら「+10点」)

--------------------------

「過去は関係ない」というメリット:
「どうやってその状態(C3)にたどり着いたか」という過去のルートを一切無視して、「今の状態」と「次の行動」だけで未来を計算できるため、数式やプログラムが劇的にシンプルになります。

4. DS検定で狙われる関連用語

1. 方策(Policy: $\pi$): ある状態のときに、どのような確率で行動を選ぶかという「AIの行動指針(戦略)」のことです。
2. 価値関数(Value Function): 今の「状態」や「行動」が、将来的にどれくらい報酬をもたらしそうかという「先を見据えたスコア」です。


5. DS検定形式:実戦4択クイズ

問:強化学習において、現在の状態と行動のみで次の状態が決まる「マルコフ決定過程」の前提が成り立たず、環境の一部しか観測できない複雑な状態をモデル化したものを何と呼ぶか。

① 動的計画法   ② 部分観測マルコフ決定過程(POMDP)   ③ Qラーニング   ④ モンテカルロ法

【 正解: ② 】

解説: 現実世界の「霧に隠れて先が見えない麻雀やポーカー」のように、状態の一部が隠されているモデルを「部分観測(Partially Observable)MDP」と呼び、応用問題として時折顔を出します。


6. まとめ

DS検定において「未来の状態は現在の状態と行動に依存し、過去に依存しない」というフレーズが出たら、100%「マルコフ決定過程(MDP)」です。強化学習というゲームのルールブックを定義する言葉として、しっかり記憶に刻んでおきましょう!

【Kaggle挑戦記】DNA Classification Dataset:データの取得と構造の確認

手書き文字認識の「Digit Recognizer」を経て、今回は「DNA Classification Dataset」に挑戦しました。今回はコンペではなく、データセットでの分析にチャレンジします。モデル作成の前に、データの入手手順、データの読み方、およびこのデータにおける予測ターゲットの考え方を整理します。

0. このデータセットの概要

「DNA Classification Dataset」は、ゲノムデータ分析、機械学習、およびバイオインフォマティクス研究のために設計された、3,000個の合成DNAサンプルを含むデータセットです。データの主な仕様は以下の通りです。

  • データ規模: 合計3,000行、13カラム(3,000サンプルのDNA配列および統計データ)
  • 入力データ: DNA配列の文字列に加え、GC含有率や各塩基の個数など、配列の統計属性があらかじめ特徴量として含まれています。
  • タスク: 与えられたDNAデータから、目的変数(ターゲット)を切り替えることで、生物種の分類や変異の有無、リスクの予測など、複数の異なる検証を行うことができる多角的な構造になっています。

通常のコンペと異なり、最初から特定のテストデータや単一のゴールが分かれて提供されているわけではありません。Kaggle側での自動採点もないため、手元にある3,000行のデータを自分で分割し、設定したタスクごとに交差検証(クロスバリデーション)によって手元で予測精度を評価・検証していく必要があります。

1. データの入手

データの取得手順は以下の通りです。

  • Kaggleにログインします。
  • 検索窓で「DNA Classification Dataset」を検索します。
  • 該当する「DNA Classification dataset」を選択します。
  • 右上のダウンロードから、ZIP形式でダウンロードします。
  • ダウンロードしたZIPファイルを適当なディレクトリで展開します。

展開すると、ディレクトリ内に「synthetic_dna_dataset.csv」ができます。

2. synthetic_dna_dataset.csvの解説

展開して得られたCSVファイルの中身を確認しました。このデータセットに含まれる13個のカラム一覧とそれぞれの解説は以下の通りです。

カラム名解説
Sample_ID 各DNAサンプルの固有の識別子(ID)
Sequence DNAの配列データ(A, T, C, Gの文字列)
GC_Content 配列中におけるグアニン(G)とシトシン(C)の割合(%)
AT_Content 配列中におけるアデニン(A)とチミン(T)の割合(%)
Sequence_Length 配列の総文字数(長さ)
Num_A 配列中に含まれるアデニン(A)の個数
Num_T 配列中に含まれるチミン(T)の個数
Num_C 配列中に含まれるシトシン(C)の個数
Num_G 配列中に含まれるグアニン(G)の個数
kmer_3_freq 3文字の塩基トリプレット(3-mer)の平均出現頻度スコア
Mutation_Flag 変異の有無を示すバイナリフラグ(0 = なし、1 = あり)。【予測ターゲット候補1:二値分類】
Class_Label サンプルの分類クラス(Human / Bacteria / Virus / Plant)。【予測ターゲット候補2:多値分類】
Disease_Risk サンプルに関連するリスクレベル(Low / Medium / High)。【予測ターゲット候補3:多値・順序分類】

このデータセットの特徴は、ゴールとなる目的変数を何に設定するかによって、全く異なる予測モデルの検証ができる点にあります。配列データや、あらかじめ計算されている塩基の個数などの特徴量をベースにして、どの予測タスクからアプローチするかを自由に選択できる構造になっています。

複数の予測タスク:生物種分類(Class_Label) / 変異判定(Mutation_Flag) / リスク予測(Disease_Risk)

配列のゆらぎや塩基の統計的特徴を組み合わせることで、それぞれのターゲットに対してLightGBMがどのように境界線を学習するのか、切り口を変えて複数の検証を回せるデータ構成となっています。

3. 今後の流れ

あらかじめ塩基の個数や割合といった数値の特徴量が豊富に用意されているため、生の文字列(Sequence)を加工しなくても、初期の数値データだけでLightGBMに投入可能な構造になっています。まずはこの綺麗なデータセットが手元に用意できたので、ここからどのタスクの検証作業に入るかを決定します。


次は、これらの予測候補の中から最初のターゲットを決定し、交差検証を回すための前処理を進めていきます。