いけいけ機械学習

【DS検定対策】コイン投げからABテストまで！「二項分布」の基礎

Sun, 31 May 2026 10:40:18 GMT

「表か裏か」「購入か非購入か」。結果が2通りしかない試行を繰り返したとき、成功する回数のばらつきを表すのが二項分布です。

1. 【問題】

コインを投げたときに「表が出るか裏が出るか」のように、結果が2通りしか存在しない独立な試行（ベルヌーイ試行）を $n$ 回繰り返したとき、目的とする事象がちょうど $k$ 回起こる確率の分布を何と呼ぶでしょうか？

① 正規分布
② ポアソン分布
③ 二項分布
④ 指数分布

2. 【解答】

正解： ③ 二項分布

3. 整理：二項分布が成り立つ「条件」

二項分布を適用するためには、その前提となる試行が以下の条件を満たしている必要があります。これを「ベルヌーイ試行」と呼びます。

【二項分布の3大特徴】

・結果が2択である：

　「成功か失敗か」「購入か見送りか」のように、状態が2つだけ。

・各試行が独立である：

　1回目の結果が、2回目の確率に影響を与えない。

・確率が一定である：

　何回繰り返しても、1回あたりに成功する確率 $p$ は変わらない。

--------------------------

◎ ビジネスでの具体例：

・メルマガを1000人に配信したとき、何人が開封してくれるか？

・ある部品を50個製造したとき、不良品が何個含まれるか？

4. 超頻出：正規分布との美しいつながり

二項分布は「1回、2回…」と数える**離散確率分布**です。しかし、試行回数 $n$ が十分に大きくなると、この二項分布の形はきれいな左右対称の山型になり、連続確率分布である**「正規分布」**に近似（変化）するという性質を持っています（中心極限定理）。
この「データ数が多ければ正規分布として扱ってよい」という割り切りが、実務での統計的検定（A/Bテストの有意差判定など）を劇的に楽にしています。

5. DS検定形式：実戦4択クイズ

問：1回の成功確率が $p$ である試行を $n$ 回繰り返す二項分布において、その「平均（期待値）」を表す正しい数式はどれか。

① $p$ ② $np$ ③ $np(1-p)$ ④ $\sqrt{np(1-p)}$

【正解： ② 】

解説： 二項分布の平均は $np$ で非常にシンプルに計算できます（例：成功確率10%のガチャを100回引いたら、平均10回当たる）。ちなみに ③ は「分散」、④ は「標準偏差」の数式です。

6. まとめ

DS検定において「2通りの結果」「$n$ 回繰り返す」「成功回数の分布」という記述が出たら間違いなく「二項分布」です。データ分析の現場でも、コンバージョン率（CVR）のばらつきを評価する際などに裏で必ず使われている、超基本にして最強の武器として押さえておきましょう！

【DS検定対策】結果は1つか、確率か？「確定的モデル」と「確率的モデル」の決定的な違い

Sun, 31 May 2026 10:20:36 GMT

同じ入力から常に同じ答えを導き出すモデルか、それとも「確率的なゆらぎ」を考慮するモデルか。データ分析の前提を変える2つのアプローチを整理しましょう。

1. 【問題】

データサイエンスにおける予測モデルのうち、「まったく同じデータ（入力値）を与えた場合、内部にランダムな要素を持たないため、何度計算しても必ず完全に同じ予測結果（出力値）が得られるモデル」を何と呼ぶでしょうか？

① 確率的モデル
② 確定的モデル
③ 潜在変数モデル
④ 動的モデル

2. 【解答】

正解： ② 確定的モデル

3. 整理：2つのモデルの決定的な違い

それぞれのモデルは、現実世界の捉え方が根本から異なります。

モデル型	特徴	具体例
確定的モデル	・偶然の要素（確率）を排除する。・入力が決まれば、出力は一意に（1つに）決定する。・数式に「誤差項（ランダムなノイズ）」を含めない。	・ニュートンの運動方程式・シンプルな線形計画法・決定木（推論時）
確率的モデル	・現実の「予測不可能な不確実性」を認める。・出力が確率分布として得られる（例：○％の確率で雨）。・乱数や確率変数、誤差項を数式に組み込む。	・ロジスティック回帰・ポアソン過程（ATMの行列）・気象予測シミュレーション

4. なぜ使い分けるのか？

1. 確定的モデルのメリット: 計算がシンプルで、結果の解釈や再現が容易です。「条件Aなら結果はB」と言い切れる業務ルールに向いています。
2. 確率的モデルのメリット: 「株価の変動」や「顧客の来店予測」のように、人間の行動や複雑な自然現象など、どうしてもノイズ（不確実性）を無視できない現実的な問題を扱うのに適しています。

5. DS検定形式：実戦4択クイズ

問：確率的モデルにおいて、モデルが予測した結果がどれくらい「不確実」であるかを評価するために、予測値と一緒に算出されることが多い指標はどれか。

① 信頼区間（または予測区間） ② 決定係数 ③ ダミー変数 ④ 特徴量重要度

【正解： ① 】

解説： 確率的モデルでは「ピンポイントな1点」だけでなく、「95%の確率でこの範囲に収まります」という不確実性の幅（信頼区間・予測区間）をセットで出すことができるのが大きな強みです。

6. まとめ

DS検定において「同じ入力なら常に同じ出力、ランダム性なし」なら「確定的モデル」、「不確実性や確率分布を考慮する」なら「確率的モデル」です。これまで学んできた多くのアルゴリズムが、このどちらの思想で作られているかを意識してみると、理解がさらに深まります！

【Power BI】Windows11でCSVを取り込んで表示するまでの手順

Sat, 30 May 2026 07:21:36 GMT

Power BI Desktop を使って、CSV ファイルを取り込み、データを表示するまでの流れをまとめました。手元に CSV がなくても、自分で簡単にテストデータを作成して動作確認できます。

1. 【テスト用 CSV データを作成】

まずは Power BI に読み込むための簡単な CSV を自作します。

① メモ帳を開く

② 以下の内容をそのまま貼り付ける

日付,カテゴリ,金額
2025-01-01,食費,1200
2025-01-01,交通費,500
2025-01-02,食費,800
2025-01-02,娯楽,1500
2025-01-03,食費,600
2025-01-03,交通費,300

③ 名前をつけて保存
ファイル名：test_expense.csv
文字コード：UTF-8（選べる場合）

2. 【 Power BI Desktop に CSV を取り込む】

① Power BI Desktop を起動
スタートメニューから「Power BI Desktop」を開きます。

② 「他のソースからデータを取得する」を選択
起動後の画面に表示されるメニューから選びます。

③ CSV ファイルを指定して取り込む
作成した test_expense.csv を選択し、「読み込み」をクリックします。

④ 右側の「テーブルビュー」を選択
画面右側のアイコン（表のマーク）をクリックすると、取り込んだデータが表形式で表示されます。

⑤ データが表示されれば取り込み成功
CSV の内容が Power BI 上に表示されていれば OK です。

3. 【表示されたデータの例】

取り込んだ CSV は、Power BI のテーブルビューで次のように表示されます。

【Power BI】Windows11で無料版Power BI Desktopをインストールする手順

Sat, 30 May 2026 06:59:36 GMT

Windows 11 で Power BI Desktop（無料版）をインストールし、実際に起動して動作確認するまでの流れをまとめました。公式サイトから Microsoft Store に遷移し、そのままダウンロード＆インストールされるため、初心者でも迷わず進められます。

1. 【手順の概要】

以下の公式ページから Power BI Desktop を入手します。

Power BI ダウンロードページ

ページ内の「Power BI Desktop」から Microsoft Store に移動し、ダウンロード → インストール → 起動まで一気に完了します。

2. 【インストール手順】

① 公式ダウンロードページを開く
上記の Microsoft 公式サイトにアクセスします。

② 「Power BI Desktop」を選択し、Microsoft Store へ移動
「Microsoft Store から入手」というボタンが表示されるのでクリック。

③ Store アプリで「入手」をクリック
ダウンロードとインストールが自動で進行します。

④ インストール完了後、スタートメニューに「Power BI Desktop」が追加される
Windows のアプリ一覧に自動で登録されます。

⑤ Power BI Desktop を起動
初回起動ができれば、インストールは正常に完了しています。

3. 【稼働確認：起動できればOK 】

スタートメニューから Power BI Desktop をクリックし、アプリが立ち上がれば動作確認は完了です。

初回起動時は少し時間がかかることがありますが、画面が表示されれば問題ありません。

これで、Power BI の学習を始める準備は整いました。

【DS検定対策】強化学習の土台！「マルコフ決定過程」の割り切り思想

Sat, 23 May 2026 21:49:33 GMT

AIが試行錯誤して最適な動きを学ぶ「強化学習」。その舞台裏を数学的にスマートに表現するのが、マルコフ決定過程（MDP）です。

1. 【問題】

強化学習において、環境のモデル化によく用いられる「マルコフ決定過程（MDP）」の性質として、最も適切なものはどれでしょうか？

① 未来の状態は、過去のすべての状態と行動の履歴に基づいて決定される。
② 未来の状態は、現在の状態と選択した行動にのみ依存し、それ以前の過去の状態には依存しない。
③ 未来の状態は完全にランダムであり、現在の状態や行動からは一切予測できない。
④ 行動を選択しても状態は変化せず、報酬の額だけが確率的に変化する。

2. 【解答】

正解： ② 未来の状態は、現在の状態と選択した行動にのみ依存し、それ以前の過去の状態には依存しない。

3. 整理：MDPを構成する「4つの要素」

マルコフ決定過程では、エージェント（AI）と環境のやりとりを以下の4つの要素（セットで$S, A, P, R$と表記されます）で定義します。

【 MDPの基本要素】

1. 状態（State: $S$）：AIが今置かれている状況（例：迷路の座標「C3」）

2. 行動（Action: $A$）：AIが取れる選択肢（例：「右に進む」）

3. 遷移確率（Probability: $P$）：ある状態で行動したとき、次にどの状態に移るかの確率

4. 報酬（Reward: $R$）：行動の結果として得られるご褒美（例：ゴールに近づいたら「+10点」）

--------------------------

★ 「過去は関係ない」というメリット：

「どうやってその状態（C3）にたどり着いたか」という過去のルートを一切無視して、「今の状態」と「次の行動」だけで未来を計算できるため、数式やプログラムが劇的にシンプルになります。

4. DS検定で狙われる関連用語

1. 方策（Policy: $\pi$）: ある状態のときに、どのような確率で行動を選ぶかという「AIの行動指針（戦略）」のことです。
2. 価値関数（Value Function）: 今の「状態」や「行動」が、将来的にどれくらい報酬をもたらしそうかという「先を見据えたスコア」です。

5. DS検定形式：実戦4択クイズ

問：強化学習において、現在の状態と行動のみで次の状態が決まる「マルコフ決定過程」の前提が成り立たず、環境の一部しか観測できない複雑な状態をモデル化したものを何と呼ぶか。

① 動的計画法 ② 部分観測マルコフ決定過程（POMDP） ③ Qラーニング ④ モンテカルロ法

【正解： ② 】

解説： 現実世界の「霧に隠れて先が見えない麻雀やポーカー」のように、状態の一部が隠されているモデルを「部分観測（Partially Observable）MDP」と呼び、応用問題として時折顔を出します。

6. まとめ

DS検定において「未来の状態は現在の状態と行動に依存し、過去に依存しない」というフレーズが出たら、100%「マルコフ決定過程（MDP）」です。強化学習というゲームのルールブックを定義する言葉として、しっかり記憶に刻んでおきましょう！

【Kaggle挑戦記】DNA Classification Dataset：データの取得と構造の確認

Sat, 23 May 2026 05:13:09 GMT

手書き文字認識の「Digit Recognizer」を経て、今回は「DNA Classification Dataset」に挑戦しました。今回はコンペではなく、データセットでの分析にチャレンジします。モデル作成の前に、データの入手手順、データの読み方、およびこのデータにおける予測ターゲットの考え方を整理します。

0. このデータセットの概要

「DNA Classification Dataset」は、ゲノムデータ分析、機械学習、およびバイオインフォマティクス研究のために設計された、3,000個の合成DNAサンプルを含むデータセットです。データの主な仕様は以下の通りです。

データ規模： 合計3,000行、13カラム（3,000サンプルのDNA配列および統計データ）
入力データ： DNA配列の文字列に加え、GC含有率や各塩基の個数など、配列の統計属性があらかじめ特徴量として含まれています。
タスク： 与えられたDNAデータから、目的変数（ターゲット）を切り替えることで、生物種の分類や変異の有無、リスクの予測など、複数の異なる検証を行うことができる多角的な構造になっています。

通常のコンペと異なり、最初から特定のテストデータや単一のゴールが分かれて提供されているわけではありません。Kaggle側での自動採点もないため、手元にある3,000行のデータを自分で分割し、設定したタスクごとに交差検証（クロスバリデーション）によって手元で予測精度を評価・検証していく必要があります。

1. データの入手

データの取得手順は以下の通りです。

Kaggleにログインします。
検索窓で「DNA Classification Dataset」を検索します。
該当する「DNA Classification dataset」を選択します。
右上のダウンロードから、ZIP形式でダウンロードします。
ダウンロードしたZIPファイルを適当なディレクトリで展開します。

展開すると、ディレクトリ内に「synthetic_dna_dataset.csv」ができます。

2. synthetic_dna_dataset.csvの解説

展開して得られたCSVファイルの中身を確認しました。このデータセットに含まれる13個のカラム一覧とそれぞれの解説は以下の通りです。

カラム名	解説
Sample_ID	各DNAサンプルの固有の識別子（ID）
Sequence	DNAの配列データ（A, T, C, Gの文字列）
GC_Content	配列中におけるグアニン（G）とシトシン（C）の割合（％）
AT_Content	配列中におけるアデニン（A）とチミン（T）の割合（％）
Sequence_Length	配列の総文字数（長さ）
Num_A	配列中に含まれるアデニン（A）の個数
Num_T	配列中に含まれるチミン（T）の個数
Num_C	配列中に含まれるシトシン（C）の個数
Num_G	配列中に含まれるグアニン（G）の個数
kmer_3_freq	3文字の塩基トリプレット（3-mer）の平均出現頻度スコア
Mutation_Flag	変異の有無を示すバイナリフラグ（0 = なし、1 = あり）。【予測ターゲット候補1：二値分類】
Class_Label	サンプルの分類クラス（Human / Bacteria / Virus / Plant）。【予測ターゲット候補2：多値分類】
Disease_Risk	サンプルに関連するリスクレベル（Low / Medium / High）。【予測ターゲット候補3：多値・順序分類】

このデータセットの特徴は、ゴールとなる目的変数を何に設定するかによって、全く異なる予測モデルの検証ができる点にあります。配列データや、あらかじめ計算されている塩基の個数などの特徴量をベースにして、どの予測タスクからアプローチするかを自由に選択できる構造になっています。

複数の予測タスク：生物種分類（Class_Label） / 変異判定（Mutation_Flag） / リスク予測（Disease_Risk）

配列のゆらぎや塩基の統計的特徴を組み合わせることで、それぞれのターゲットに対してLightGBMがどのように境界線を学習するのか、切り口を変えて複数の検証を回せるデータ構成となっています。

3. 今後の流れ

あらかじめ塩基の個数や割合といった数値の特徴量が豊富に用意されているため、生の文字列（Sequence）を加工しなくても、初期の数値データだけでLightGBMに投入可能な構造になっています。まずはこの綺麗なデータセットが手元に用意できたので、ここからどのタスクの検証作業に入るかを決定します。

次は、これらの予測候補の中から最初のターゲットを決定し、交差検証を回すための前処理を進めていきます。

【DS検定対策】知識の「リサイクル」！転移学習の2大ステップ

Sun, 17 May 2026 05:11:20 GMT

ゼロからAIを育てるのは大変。だから「他のタスクで学んだ基礎知識」を流用する。それが転移学習（Transfer Learning）です。

1. 【問題】

転移学習（移転学習）のプロセスに関する次の記述の、[ ] に当てはまる適切な語句の組み合わせはどれでしょうか？

「転移学習において、移転元での最初の学習は [ A ] と呼ばれ、その獲得した知識（重み）をベースに、移転先（特定のタスク）に合わせて追加で行う学習は [ B ] と呼ばれる。」

① A：ファインチューニング B：事前学習
② A：事前学習 B：ファインチューニング
③ A：アンサンブル学習 B：蒸留
④ A：データ拡張 B：正規化

2. 【解答】

正解： ② A：事前学習 B：ファインチューニング

3. 整理：移転元と移転先の「役割分担」

この2つのステップを、人間の学習に例えて整理してみましょう。

【転移学習のステップ】

・移転元： [ 事前学習 ] （義務教育）

　大量の一般的なデータを使って、基礎的な「特徴の掴み方」を幅広く学ぶ。

　（例：画像認識なら、膨大な写真から「輪郭」や「色」の概念を理解する）

・移転先： [ ファインチューニング ] （専門教育）

　事前学習済みのモデル（知識）を引き継ぎ、解きたい特定のタスク用の少量のデータで微調整する。

　（例：医療画像から「特定の病変」を見つける専用AIに仕上げる）

--------------------------

◎ このアプローチの利点：

移転先で用意するデータが少量であっても、事前学習で培った「基礎体力」があるため、高精度なモデルを短時間で開発できます。

4. 覚えておきたい周辺用語

1. 特徴量抽出（Feature Extraction）: 事前学習済みモデルの「重み」を一切変えず（フリーズさせ）、出力層の直前のデータを特徴量として別の機械学習モデル（SVMなど）に投入する手法。ファインチューニングと並ぶ転移学習の代表例です。
2. 負の転移（Negative Transfer）: 移転元のタスクと移転先のタスクが違いすぎる（例：テキスト学習の知識を株価予測に使うなど）ために、かえって精度が下がってしまう現象。

5. DS検定形式：実戦4択クイズ

問：転移学習において、ファインチューニングを行う際、事前学習で得られたモデルの初期層（入力に近い層）のパラメーター（重み）を変更しないように固定する操作を何と呼ぶか。

① ドロップアウト ② 標準化 ③ フリーズ（凍結） ④ 正則化

【正解： ③ 】

解説： 一般的な特徴（エッジや色の変化など）を捉える初期層の知識はそのまま流用した方が効率が良いため、重みを変化させないように「フリーズ」させることがよくあります。

6. まとめ

DS検定において「移転元での学習＝事前学習」「移転先での学習＝ファインチューニング」という組み合わせは、ディープラーニング全般（画像・自然言語処理）を支える大前提の知識です。それぞれの目的の違いをしっかりと頭に入れておきましょう！

【DS検定対策】指示に従う「汎用AI」を作る！インストラクションチューニング

Sun, 17 May 2026 05:05:34 GMT

特定の専門分野に特化するのではなく、「人間のあらゆる『指示（命令）』に正しく従う能力」そのものを高める学習手法。それがインストラクションチューニングです。

1. 【問題】

大規模言語モデル（LLM）において、教師付きファインチューニング（SFT）の枠組みを用いながら、特定のタスクやドメインに限定せず、多種多様な「指示（命令）と回答」のペアを学習させることで、未知のタスクに対する汎用的な追従能力を高める手法を何と呼ぶでしょうか？

① コンテキスト学習（In-Context Learning）
② インストラクションチューニング
③ 継続事前学習（Continual Pre-training）
④ 報酬モデル学習

2. 【解答】

正解： ② インストラクションチューニング

3. 整理：「特化型ファインチューニング」との違い

従来のファインチューニングと、インストラクションチューニングでは、目指すゴールが異なります。

【アプローチの比較】

・従来のファインチューニング（特化型）

　特定のタスク（例：感情分析のデータだけ）を大量に学習。

　⇒ 感情分析は超得意になるが、他のことはできなくなる。

・インストラクションチューニング（汎用型）

　「〜を要約して」「〜のコードを書いて」「〜を英語にして」など、異なる形式の指示を数万〜数十万パターン同時に学習。

　⇒ 「指示文の意図を汲み取る力」が鍛えられるため、学習していない新しい指示を出されても柔軟に対応できるようになります。

4. なぜこれが重要なのか？

1. ゼロショット学習能力の向上: 事前にやり方の例（Few-shot）を提示しなくても、プロンプトで「〜してください」と指示するだけで、一発でタスクをこなせる（Zero-shot）ようになります。
2. LLMの製品化に不可欠: ChatGPTやClaudeなどのチャットAIが、ユーザーのどんな無茶振りにもそれっぽく答えてくれるのは、このチューニングが施されているおかげです。

5. DS検定形式：実戦4択クイズ

問：インストラクションチューニングを行う際、モデルに与えるデータセットの構成として最も適切なものはどれか。

① 単語とその意味が対になった辞書データ
② インターネットからスクレイピングした生のWebテキスト
③ 多種多様なタスクに対する「指示文」と「その模範回答」のペア
④ ユーザーのクリック履歴や購入履歴のログ

【正解： ③ 】

解説： 「指示（Instruction）」とその「応答（Response）」のペアが並んだデータセットを使用します。これにより、AIは「命令の型」を学習します。

6. まとめ

DS検定において「教師付きファインチューニングの中で」「特定のタスクに特化せず能力を高める」という表現が出たら「インストラクションチューニング」です。LLMがこれほど便利に使えるようになった歴史的ブレイクスルーの一つとして、しっかり押さえておきましょう！

【DS検定対策】AIに「対話の作法」を教え込む！教師付きファインチューニング（SFT）

Sun, 17 May 2026 05:03:35 GMT

インターネット全体の知識を詰め込んだだけのAIに、「質問されたら、正しい指示に従って回答する」という対話能力を身につけさせるプロセス、それがSFTです。

1. 【問題】

大規模言語モデル（LLM）の学習において、事前学習済みのモデルに対して、特定のタスク（要約、翻訳、対話など）や望ましい出力を学習させるため、人間が作成した高品質な「指示と正解のペア（プロンプトとレスポンス）」を用いて追加学習を行う手法を何と呼ぶでしょうか？

① 事前学習（Pre-training）
② 教師付きファインチューニング（SFT）
③ 報酬モデルの学習
④ 知識留（Distillation）

2. 【解答】

正解： ② 教師付きファインチューニング（SFT）

3. 整理：LLMが「アシスタント」になるまでの2段階

生成AI（ChatGPTなど）が使えるようになるまでには、大きな2つの学習ステップがあります。

【事前学習とSFTの違い】

・ステップ1：事前学習（巨大な燃料）

　ウェブ上の膨大なテキストを読み込み、「次に来る単語を予測する」能力だけを鍛える。

　例：「日本の首都は」→「東京です」だけでなく「どこでしょう？」と勝手に問題を作ってしまうことも。

・ステップ2：SFT（対話の型を教える）

　人間が作った「模範解答」を読ませて、指示に従う態度を学ばせる。

　データ例：

　[指示] 日本の首都を教えてください。

　[正解] 日本の首都は東京です。

--------------------------

◎ ポイント：

SFTを行うことで、AIは単なる「文章の続きを予測する機械」から、私たちの「有能なアシスタント（Instruction-tunedモデル）」へと進化します。

4. SFTの特徴と課題

1. 高品質なデータが必要: データの「量」よりも、人間が丁寧に作った「質（正確性や丁寧さ）」がモデルの賢さを左右します。
2. コストの壁: 人間（アノテーター）が大量の指示文と模範解答をゼロから作成するため、人件費と時間が非常にかかります。

5. DS検定形式：実戦4択クイズ

問：大規模言語モデル（LLM）のチューニングにおいて、SFT（教師付きファインチューニング）の次に行われる、人間の好みにさらに近づけるための強化学習手法はどれか。

① RAG ② CNN ③ RLHF ④ BERT

【正解： ③ 】

解説： SFTで「対話の基本形」を学んだAIに対して、さらに「人間にとってどれがより心地よい回答か」を微調整するのが、以前学んだ「RLHF」です。この順番（事前学習 → SFT → RLHF）はセットで頻出です。

6. まとめ

DS検定において「事前学習済みモデルに足して」「人間が作成した正解応答や指示に従い学習させる」という記述が出たら「教師付きファインチューニング（SFT）」です。チャットAI開発の根幹をなすプロセスとして、確実に理解しておきましょう！

【DS検定対策】少ないデータで過学習を防ぐ！「データ拡張」の手法

Sat, 16 May 2026 22:16:44 GMT

AIの学習には大量のデータが必要ですが、現実には十分なデータが集まらないことも。そんな時にデータを賢く「水増し」するのがデータ拡張です。

1. 【問題】

機械学習（特に深層学習）において、手元にある限られた教師データを加工・変形（回転、反転、拡大縮小など）することで、実質的にデータの種類や量を増やし、過学習を防ぐ手法を何と呼ぶでしょうか？

① データリーケージ
② データ拡張（データオーグメンテーション）
③ アンサンブル学習
④ 次元圧縮

2. 【解答】

正解： ② データ拡張（データオーグメンテーション）

3. 整理：画像認識における代表的な「水増し」手法

データ拡張は、元のデータが持つ「答え（ラベル）」を変えずに、見た目だけを変化させるのがポイントです。

【よく使われる加工パターンの例】

・幾何学的変換：

　左右反転（フリップ）、回転、拡大・縮小、トリミング（切り抜き）

・色調変換：

　明るさの変更、コントラストの調整、ノイズの追加

--------------------------

★ なぜこれで精度が上がるのか？

AIに「横を向いた猫」や「少し暗い場所にいる猫」の画像も同時に学習させることで、カメラの角度や照明条件が変わっても正しく認識できる「頑健（ロバスト）なモデル」に育つためです。

4. データ拡張の注意点（ドメイン知識の重要性）

何でもかんでも変形すれば良いわけではありません。データの本質（意味）を壊さない加工を選ぶ必要があります。
（例）手書き数字の「6」を180度回転させると「9」になってしまい、正解ラベルが変わってしまうため、数字認識での大幅な回転は不適切となります。

5. DS検定形式：実戦4択クイズ

問：2つの異なる画像（例えば犬と猫）を、ある割合で不透明度を変えて重ね合わせ、ラベルもその割合に応じてブレンド（例：犬0.5、猫0.5）する、ユニークなデータ拡張手法を何と呼ぶか。

① Dropout ② Batch Normalization ③ Mixup ④ Data Cleansing

【正解： ③ 】

解説： 画像同士を混ぜ合わせるデータ拡張手法を「Mixup」と呼びます。モデルの決定境界が滑らかになり、未知のデータに対して過剰に自信を持った誤判定をするのを防ぐ効果があります。

6. まとめ

DS検定において「データの水増し」「既存のデータを変形して生成」という記述が出たら「データ拡張」です。過学習（過剰適合）を防ぐための強力な前処理テクニックとして、その目的と具体的な加工方法を覚えておきましょう！

モデル型	特徴	具体例
確定的モデル	・偶然の要素（確率）を排除する。・入力が決まれば、出力は一意に（1つに）決定する。・数式に「誤差項（ランダムなノイズ）」を含めない。	・ニュートンの運動方程式・シンプルな線形計画法・決定木（推論時）
確率的モデル	・現実の「予測不可能な不確実性」を認める。・出力が確率分布として得られる（例：○％の確率で雨）。・乱数や確率変数、誤差項を数式に組み込む。	・ロジスティック回帰・ポアソン過程（ATMの行列）・気象予測シミュレーション

いけいけ機械学習

【DS検定対策】コイン投げからABテストまで！「二項分布」の基礎

1. 【 問題 】

2. 【 解答 】

3. 整理：二項分布が成り立つ「条件」

4. 超頻出：正規分布との美しいつながり

5. DS検定形式：実戦4択クイズ

6. まとめ

【DS検定対策】結果は1つか、確率か？「確定的モデル」と「確率的モデル」の決定的な違い

1. 【 問題 】

2. 【 解答 】

3. 整理：2つのモデルの決定的な違い

4. なぜ使い分けるのか？

5. DS検定形式：実戦4択クイズ

6. まとめ

【Power BI】Windows11でCSVを取り込んで表示するまでの手順

1. 【 テスト用 CSV データを作成 】

2. 【 Power BI Desktop に CSV を取り込む 】

3. 【 表示されたデータの例 】

【Power BI】Windows11で無料版Power BI Desktopをインストールする手順

1. 【 手順の概要 】

2. 【 インストール手順 】

3. 【 稼働確認：起動できればOK 】

【DS検定対策】強化学習の土台！「マルコフ決定過程」の割り切り思想

1. 【 問題 】

2. 【 解答 】

3. 整理：MDPを構成する「4つの要素」

4. DS検定で狙われる関連用語

5. DS検定形式：実戦4択クイズ

6. まとめ

【Kaggle挑戦記】DNA Classification Dataset：データの取得と構造の確認

0. このデータセットの概要

1. データの入手

2. synthetic_dna_dataset.csvの解説

3. 今後の流れ

【DS検定対策】知識の「リサイクル」！転移学習の2大ステップ

1. 【 問題 】

2. 【 解答 】

3. 整理：移転元と移転先の「役割分担」

4. 覚えておきたい周辺用語

5. DS検定形式：実戦4択クイズ

6. まとめ

【DS検定対策】指示に従う「汎用AI」を作る！インストラクションチューニング

1. 【 問題 】

2. 【 解答 】

3. 整理：「特化型ファインチューニング」との違い

4. なぜこれが重要なのか？

5. DS検定形式：実戦4択クイズ

6. まとめ

【DS検定対策】AIに「対話の作法」を教え込む！教師付きファインチューニング（SFT）

1. 【 問題 】

2. 【 解答 】

3. 整理：LLMが「アシスタント」になるまでの2段階

4. SFTの特徴と課題

5. DS検定形式：実戦4択クイズ

6. まとめ

【DS検定対策】少ないデータで過学習を防ぐ！「データ拡張」の手法

1. 【 問題 】

2. 【 解答 】

3. 整理：画像認識における代表的な「水増し」手法

4. データ拡張の注意点（ドメイン知識の重要性）

5. DS検定形式：実戦4択クイズ

6. まとめ

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】

1. 【テスト用 CSV データを作成】

2. 【 Power BI Desktop に CSV を取り込む】

3. 【表示されたデータの例】

1. 【手順の概要】

2. 【インストール手順】

3. 【稼働確認：起動できればOK 】

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】