<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0" xmlns:blogChannel="http://backend.userland.com/blogChannelModule" >
  <channel>
  <title>いけいけ機械学習</title>
  <link>http://learnms.blog.shinobi.jp/</link>
  <atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="self" type="application/rss+xml" href="http://learnms.blog.shinobi.jp/RSS/" />
  <description>統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。</description>
  <lastBuildDate>Sun, 07 Jun 2026 21:39:19 GMT</lastBuildDate>
  <language>ja</language>
  <copyright>© Ninja Tools Inc.</copyright>
  <atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="hub" href="http://pubsubhubbub.appspot.com/" />

    <item>
    <title>【DS検定対策】文章を数字の列に変える！Bag-of-Words（BoW）の仕組み</title>
    <description>
    <![CDATA[<p>コンピュータは「言葉」をそのまま理解できません。テキストを「単語の出現回数」という数字のリストに変換するのが、Bag-of-Words（BoW）です。</p>
<h3 style="color: blue;">1. 【 問題 】</h3>
<p>自然言語処理における前処理（ベクトル化）の手法において、文章中の語順や文法構造をすべて無視し、どの単語が何回出現したかという「頻度」のみに着目して文書を数値化する手法を何と呼ぶでしょうか？</p>
<p>① Word2Vec<br />
② Bag-of-Words（BoW）<br />
③ 形態素解析<br />
④ N-gram</p>
<hr />
<h3 style="color: #d32f2f;">2. 【 解答 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.2em; font-weight: bold; text-align: center;">正解： ② Bag-of-Words（BoW）</div>
<hr />
<h3 style="color: blue;">3. 整理：文章が「数字のリスト」になるイメージ</h3>
<p>例えば、あらかじめ辞書に「私」「カレー」「食べた」「テニス」という単語が登録されているとします。このとき、2つの文章は以下のように数値化（ベクトル化）されます。</p>
<p>【 ベクトル化の具体例 】</p>
<div style="font-family: monospace; border: 1px solid #ccc; padding: 10px; line-height: 1.6;">辞書の並び： [ 私, カレー, 食べた, テニス ]<br />
<br />
・文章A：「私はカレーを食べた」<br />
&rArr; <b>[ 1, 1, 1, 0 ]</b> （テニスは0回）<br />
<br />
・文章B：「私はテニスをした後にカレーを食べた」<br />
&rArr; <b>[ 1, 1, 1, 1 ]</b> （各1回ずつ）<br />
<br />
--------------------------<br />
<br />
◎ <b>メリット：</b> 構造が非常にシンプルなため、計算が高速で、ナイーブベイズなどのアルゴリズムと組み合わせて「スパムメール判定」などに古くから大活躍しています。</div>
<h3 style="color: blue;">4. Bag-of-Wordsの限界と発展形</h3>
<p>1. <b>語順が無視される</b>: 「私があなたを好き」と「あなたが私を好き」は、BoWでは全く同じ数値になってしまい、意味の違いを区別できません。<br />
2. <b>「てにをは」が強くなる</b>: 出現回数だけを数えるため、「〜です」「〜ます」のような、どの文章にも出る定番ワードが一番重要だと誤判定されがちです。<br />
<br />
★ <b>これを解決するのが「TF-IDF」です！</b><br />
「よく出る単語の価値を低く、特定の文章にしか出ないレア単語の価値を高く」補正する<b>TF-IDF</b>は、BoWの発展形としてDS検定の超・超頻出ポイントです。</p>
<hr />
<h3 style="color: orange;">5. DS検定形式：実戦4択クイズ</h3>
<p><b>問：Bag-of-Wordsのように単語単位で区切るのではなく、文字や単語を「連続するN個の塊」として区切ることで、語順の情報をある程度残したまま頻度を数える手法を何と呼ぶか。</b></p>
<p>① TF-IDF &nbsp; ② コサイン類似度 &nbsp; ③ N-gram &nbsp; ④ 感情極性辞書</p>
<p><b>【 正解： ③ 】</b></p>
<p><b>解説：</b> 例えば「テニス」を2文字ずつ区切って「テニ」「ニス」として数えるような手法を「N-gram（この場合はBi-gram）」と呼びます。BoWの「語順が消える」という弱点を補うためによく使われます。</p>
<hr />
<h3 style="color: blue;">6. まとめ</h3>
<p>DS検定において「どの単語が何回出現したかを数値化」「語順を無視」というキーワードが出たら「Bag-of-Words（BoW）」です。テキストデータをAIに投入するための第一歩となる重要な手法として、しっかり記憶にセットしておきましょう！</p>]]>
    </description>
    <category>DS検定＞1-4-2.言語モデル</category>
    <link>http://learnms.blog.shinobi.jp/Entry/150/</link>
    <pubDate>Sun, 07 Jun 2026 21:39:19 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/150</guid>
  </item>
    <item>
    <title>【DS検定対策】画像の中の「位置」を特定せよ！バウンディングボックスの基礎</title>
    <description>
    <![CDATA[<p>AIに画像の中の物体を「見つけさせる」技術、物体検出。その検出結果を画面上で表現する「四角い枠」の正体を学びましょう。</p>
<h3 style="color: blue;">1. 【 問題 】</h3>
<p>画像認識の「物体検出（Object Detection）」タスクにおいて、AIが検出した対象物（自動車や人間など）の「位置」と「大きさ」を示すために、対象物を囲むように設定される四角形の枠（矩形領域）を何と呼ぶでしょうか？</p>
<p>① アンカーボックス<br />
② バウンディングボックス（Bounding Box）<br />
③ ヒートマップ<br />
④ セグメンテーションマスク</p>
<hr />
<h3 style="color: #d32f2f;">2. 【 解答 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.2em; font-weight: bold; text-align: center;">正解： ② バウンディングボックス（Bounding Box）</div>
<hr />
<h3 style="color: blue;">3. 整理：エンジニア視点で見る「四角枠」の正体</h3>
<p>画面上ではただの四角い線ですが、システム内部（APIのレスポンスやアノテーションデータ）では、主に以下の<b>4つの数値の組み合わせ</b>として表現されています。</p>
<p>【 代表的なデータ表現形式 】</p>
<div style="font-family: monospace; border: 1px solid #ccc; padding: 10px; line-height: 1.6;">・<b>形式1： [ x_min, y_min, x_max, y_max ]</b><br />
四角形の「左上の座標」と「右下の座標」で表す形式。<br />
<br />
・<b>形式2： [ x_center, y_center, width, height ]</b>（YOLOなどで主流）<br />
四角形の「中心の座標」と「幅」「高さ」で表す形式。<br />
<br />
--------------------------<br />
<br />
◎ <b>物体検出タスクのゴール：</b><br />
物体検出AIは、画像の中に「何があるか（クラス分類）」と同時に、この「4つの数値を予測する（回帰）」という2つのタスクを同時にこなしています。</div>
<h3 style="color: blue;">4. セットで覚えたい超頻出指標「IoU」</h3>
<p>物体検出の評価では、<b>「IoU（Intersection over Union）」</b>という指標が100%と言っていいほど出題されます。<br />
これは、人間が付けた「正しい枠（正解データ）」と、AIが予測した「バウンディングボックス」がどれくらい重なっているかを0〜1の数値で表したものです。重なりが大きいほど（1に近づくほど）「位置予測の精度が高い」と判定されます。</p>
<hr />
<h3 style="color: orange;">5. DS検定形式：実戦4択クイズ</h3>
<p><b>問：バウンディングボックスのような「四角い枠」ではなく、物体の輪郭に沿ってピクセル単位で厳密に領域を塗り分けるタスクを何と呼ぶか。</b></p>
<p>① 画像分類（Classification） &nbsp; ② セマンティックセグメンテーション &nbsp; ③ 姿勢推定 &nbsp; ④ 特徴量抽出</p>
<p><b>【 正解： ② 】</b></p>
<p><b>解説：</b> 四角で囲むのが「物体検出」、ピクセル単位で「ここが猫、ここが背景」と塗り分けるのが「セグメンテーション」です。この違いも試験で非常に狙われやすいポイントです。</p>
<hr />
<h3 style="color: blue;">6. まとめ</h3>
<p>DS検定において「物体検出で用いられる検出位置を表す」「対象を囲む矩形（四角）」という記述が出たら「バウンディングボックス」です。データ構造としてはシンプルな4つの数値ベクトルであるという点も、イメージできるようにしておきましょう！</p>]]>
    </description>
    <category>DS検定＞1-3-1. 学習モデル</category>
    <link>http://learnms.blog.shinobi.jp/Entry/149/</link>
    <pubDate>Sun, 07 Jun 2026 21:36:12 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/149</guid>
  </item>
    <item>
    <title>【DS検定対策】AI学習の原点！「ヘッブの学習則」を直感的に理解する</title>
    <description>
    <![CDATA[<p>現在のディープラーニングは、ニューロン同士の「結びつきの強さ（重み）」を調整することで学習しています。この仕組みのモデルとなった脳科学の基本原則が「ヘッブの学習則」です。</p>
<h3 style="color: blue;">1. 問題：ヘッブの学習則が示す現象</h3>
<p><b>【 問題 】</b> 脳の神経回路において、「シナプス前細胞とシナプス後細胞が同時に興奮すると、そのシナプス結合が強化される」というヘッブの学習則を説明する言葉として、最も適切なものはどれでしょうか？</p>
<p>① 誤差逆伝播により、神経細胞の出力が抑制される &nbsp; <br />
② 共に火を吹くニューロンは、互いにつながり合う（連動して強化される） &nbsp; <br />
③ 脳の神経細胞は、一度結合すると二度と変化しない &nbsp; <br />
④ 新しい刺激を受けるたびに、すべてのニューロンの結合が一斉にリセットされる</p>
<p><b>【 正解： ② 】</b></p>
<h3 style="color: blue;">2. 整理：ヘッブ則の「世界」とメカニズム</h3>
<p>ヘッブ則は、よく「<b>Fire together, wire together（共に興奮するものは、共につながる）</b>」という言葉で表現されます。脳が経験を通じて変化する仕組みの基本です。</p>
<p>【 世界の切り出し 】</p>
<div style="font-family: monospace; border: 1px solid #ccc; padding: 10px; line-height: 1.6;">[ 強化される条件 ]<br />
・信号を「送る側（前）」のニューロンが興奮する ⚡<br />
・同時に「受け取る側（後）」のニューロンも興奮する ⚡<br />
（タイミングがぴったり一致することが条件）<br />
<br />
[ 起こる変化 ]<br />
・二つの間を中継している「シナプス」の通りが良くなる。<br />
・次回から、送る側が少し興奮しただけで、受け取る側も簡単に興奮するようになる。＝ <b>結合の強化</b><br />
<br />
★ <b>結論：よく使うルート（回路）ほど、太く強固になる</b><br />
<br />
--------------------------<br />
<br />
◎ <b>AIへの応用： 後の「パーセプトロン」や「ニューラルネットワーク」の重み学習の基礎となった</b></div>
<h3 style="color: blue;">3. 解説プロセス</h3>
<p>1. <b>条件の確認</b>: 「前」と「後」の細胞が「同時」に活性化することがポイントです。片方だけが動いていても結合は強化されません。<br />
2. <b>記憶の正体</b>: 私たちが何かを「学習」したり「記憶」したりするとき、脳内ではこのヘッブ則によって特定の神経ルートが太くなっています。<br />
3. <b>答えを出す</b>: ニューロンが同時に興奮（火を吹く）ことで結びつき（ワイヤー）が強くなる現象を表現した <b>②</b> が正解です。</p>
<hr />
<h3 style="color: orange;">4. DS検定形式：実戦4択クイズ</h3>
<p><b>問：ヘッブの学習則のように、生物の脳の神経回路が環境や経験に応じて柔軟に構造を変化させる性質のことを、脳科学の用語で何と呼ぶか。</b></p>
<p>① 神経可塑性（かそせい） &nbsp; ② 自己組織化 &nbsp; ③ 線形分離可能性 &nbsp; ④ 局所最適化</p>
<p><b>【 正解： ① 】</b></p>
<p><b>解説：</b> 脳の回路が柔軟に変形・書き換えられる性質を「神経可塑性（Neural Plasticity）」と呼びます。ヘッブ則はこの可塑性を説明する最も代表的なメカニズムであり、機械学習がデータを元に「パラメータを書き換える」という発想の原点になりました。</p>
<hr />
<h3 style="color: blue;">5. まとめ</h3>
<p>「同時に興奮すると結合が強くなる」というヘッブの学習則は、1949年にドナルド・ヘッブによって提唱された古典的かつ超重要な理論です。現代のディープラーニングのアルゴリズム（誤差逆伝播法など）はより複雑に進化していますが、その思想の根底にはこのヘッブ則があることをDS検定の歴史的背景として押さえておきましょう！<br />
<br />
<br />
</p>]]>
    </description>
    <category>DS検定＞1-3-1. 学習モデル</category>
    <link>http://learnms.blog.shinobi.jp/Entry/148/</link>
    <pubDate>Sat, 06 Jun 2026 08:17:57 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/148</guid>
  </item>
    <item>
    <title>【DS検定対策】コイン投げからABテストまで！「二項分布」の基礎</title>
    <description>
    <![CDATA[<p>「表か裏か」「購入か非購入か」。結果が2通りしかない試行を繰り返したとき、成功する回数のばらつきを表すのが二項分布です。</p>
<h3 style="color: blue;">1. 【 問題 】</h3>
<p>コインを投げたときに「表が出るか裏が出るか」のように、結果が2通りしか存在しない独立な試行（ベルヌーイ試行）を $n$ 回繰り返したとき、目的とする事象がちょうど $k$ 回起こる確率の分布を何と呼ぶでしょうか？</p>
<p>① 正規分布<br />
② ポアソン分布<br />
③ 二項分布<br />
④ 指数分布</p>
<hr />
<h3 style="color: #d32f2f;">2. 【 解答 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.2em; font-weight: bold; text-align: center;">正解： ③ 二項分布</div>
<hr />
<h3 style="color: blue;">3. 整理：二項分布が成り立つ「条件」</h3>
<p>二項分布を適用するためには、その前提となる試行が以下の条件を満たしている必要があります。これを「ベルヌーイ試行」と呼びます。</p>
<p>【 二項分布の3大特徴 】</p>
<div style="font-family: monospace; border: 1px solid #ccc; padding: 10px; line-height: 1.6;">・<b>結果が2択である</b>：<br />
　「成功か失敗か」「購入か見送りか」のように、状態が2つだけ。<br />
<br />
・<b>各試行が独立である</b>：<br />
　1回目の結果が、2回目の確率に影響を与えない。<br />
<br />
・<b>確率が一定である</b>：<br />
　何回繰り返しても、1回あたりに成功する確率 $p$ は変わらない。<br />
<br />
--------------------------<br />
<br />
◎ <b>ビジネスでの具体例：</b><br />
・メルマガを1000人に配信したとき、何人が開封してくれるか？<br />
・ある部品を50個製造したとき、不良品が何個含まれるか？</div>
<h3 style="color: blue;">4. 超頻出：正規分布との美しいつながり</h3>
<p>二項分布は「1回、2回&hellip;」と数える**離散確率分布**です。しかし、試行回数 $n$ が十分に大きくなると、この二項分布の形はきれいな左右対称の山型になり、連続確率分布である**「正規分布」**に近似（変化）するという性質を持っています（中心極限定理）。<br />
この「データ数が多ければ正規分布として扱ってよい」という割り切りが、実務での統計的検定（A/Bテストの有意差判定など）を劇的に楽にしています。</p>
<hr />
<h3 style="color: orange;">5. DS検定形式：実戦4択クイズ</h3>
<p><b>問：1回の成功確率が $p$ である試行を $n$ 回繰り返す二項分布において、その「平均（期待値）」を表す正しい数式はどれか。</b></p>
<p>① $p$ &nbsp; ② $np$ &nbsp; ③ $np(1-p)$ &nbsp; ④ $\sqrt{np(1-p)}$</p>
<p><b>【 正解： ② 】</b></p>
<p><b>解説：</b> 二項分布の平均は $np$ で非常にシンプルに計算できます（例：成功確率10%のガチャを100回引いたら、平均10回当たる）。ちなみに ③ は「分散」、④ は「標準偏差」の数式です。</p>
<hr />
<h3 style="color: blue;">6. まとめ</h3>
<p>DS検定において「2通りの結果」「$n$ 回繰り返す」「成功回数の分布」という記述が出たら間違いなく「二項分布」です。データ分析の現場でも、コンバージョン率（CVR）のばらつきを評価する際などに裏で必ず使われている、超基本にして最強の武器として押さえておきましょう！</p>]]>
    </description>
    <category>DS検定＞1-1-2. 統計数理</category>
    <link>http://learnms.blog.shinobi.jp/Entry/147/</link>
    <pubDate>Sun, 31 May 2026 10:40:18 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/147</guid>
  </item>
    <item>
    <title>【DS検定対策】結果は1つか、確率か？「確定的モデル」と「確率的モデル」の決定的な違い</title>
    <description>
    <![CDATA[<p>同じ入力から常に同じ答えを導き出すモデルか、それとも「確率的なゆらぎ」を考慮するモデルか。データ分析の前提を変える2つのアプローチを整理しましょう。</p>
<h3 style="color: blue;">1. 【 問題 】</h3>
<p>データサイエンスにおける予測モデルのうち、「まったく同じデータ（入力値）を与えた場合、内部にランダムな要素を持たないため、何度計算しても必ず完全に同じ予測結果（出力値）が得られるモデル」を何と呼ぶでしょうか？</p>
<p>① 確率的モデル<br />
② 確定的モデル<br />
③ 潜在変数モデル<br />
④ 動的モデル</p>
<hr />
<h3 style="color: #d32f2f;">2. 【 解答 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.2em; font-weight: bold; text-align: center;">正解： ② 確定的モデル</div>
<hr />
<h3 style="color: blue;">3. 整理：2つのモデルの決定的な違い</h3>
<p>それぞれのモデルは、現実世界の捉え方が根本から異なります。</p>
<table border="1" style="border-collapse: collapse; width: 100%; text-align: left; cellpadding: 8px;">
<tbody>
<tr style="background-color: #f2f2f2; text-align: center;"><th style="width: 20%;">モデル型</th><th style="width: 45%;">特徴</th><th style="width: 35%;">具体例</th></tr>
<tr>
<td><b>確定的<br />
モデル</b></td>
<td>・偶然の要素（確率）を排除する。<br />
・入力が決まれば、出力は<b>一意に（1つに）決定</b>する。<br />
・数式に「誤差項（ランダムなノイズ）」を含めない。</td>
<td>・ニュートンの運動方程式<br />
・シンプルな線形計画法<br />
・決定木（推論時）</td>
</tr>
<tr>
<td><b>確率的<br />
モデル</b></td>
<td>・現実の「予測不可能な不確実性」を認める。<br />
・出力が<b>確率分布</b>として得られる（例：○％の確率で雨）。<br />
・乱数や確率変数、誤差項を数式に組み込む。</td>
<td>・ロジスティック回帰<br />
・ポアソン過程（ATMの行列）<br />
・気象予測シミュレーション</td>
</tr>
</tbody>
</table>
<h3 style="color: blue;">4. なぜ使い分けるのか？</h3>
<p>1. <b>確定的モデルのメリット</b>: 計算がシンプルで、結果の解釈や再現が容易です。「条件Aなら結果はB」と言い切れる業務ルールに向いています。<br />
2. <b>確率的モデルのメリット</b>: 「株価の変動」や「顧客の来店予測」のように、人間の行動や複雑な自然現象など、どうしてもノイズ（不確実性）を無視できない現実的な問題を扱うのに適しています。</p>
<hr />
<h3 style="color: orange;">5. DS検定形式：実戦4択クイズ</h3>
<p><b>問：確率的モデルにおいて、モデルが予測した結果がどれくらい「不確実」であるかを評価するために、予測値と一緒に算出されることが多い指標はどれか。</b></p>
<p>① 信頼区間（または予測区間） &nbsp; ② 決定係数 &nbsp; ③ ダミー変数 &nbsp; ④ 特徴量重要度</p>
<p><b>【 正解： ① 】</b></p>
<p><b>解説：</b> 確率的モデルでは「ピンポイントな1点」だけでなく、「95%の確率でこの範囲に収まります」という不確実性の幅（信頼区間・予測区間）をセットで出すことができるのが大きな強みです。</p>
<hr />
<h3 style="color: blue;">6. まとめ</h3>
<p>DS検定において「同じ入力なら常に同じ出力、ランダム性なし」なら「確定的モデル」、「不確実性や確率分布を考慮する」なら「確率的モデル」です。これまで学んできた多くのアルゴリズムが、このどちらの思想で作られているかを意識してみると、理解がさらに深まります！</p>]]>
    </description>
    <category>DS検定＞1-1-2. 統計数理</category>
    <link>http://learnms.blog.shinobi.jp/Entry/146/</link>
    <pubDate>Sun, 31 May 2026 10:20:36 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/146</guid>
  </item>
    <item>
    <title>【Power BI】Windows11でCSVを取り込んで表示するまでの手順</title>
    <description>
    <![CDATA[<p>Power BI Desktop を使って、CSV ファイルを取り込み、データを表示するまでの流れをまとめました。手元に CSV がなくても、自分で簡単にテストデータを作成して動作確認できます。</p>
<h3 style="color: blue;">1. 【 テスト用 CSV データを作成 】</h3>
<p>まずは Power BI に読み込むための簡単な CSV を自作します。</p>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.1em; line-height: 1.7;"><b>① メモ帳を開く</b><br />
<br />
<b>② 以下の内容をそのまま貼り付ける</b><br />

<pre style="font-size: 1em; border: 1px solid #ccc; padding: 10px;">日付,カテゴリ,金額
2025-01-01,食費,1200
2025-01-01,交通費,500
2025-01-02,食費,800
2025-01-02,娯楽,1500
2025-01-03,食費,600
2025-01-03,交通費,300
</pre>
<b>③ 名前をつけて保存</b><br />
ファイル名：<code>test_expense.csv</code><br />
文字コード：UTF-8（選べる場合）</div>
<hr />
<h3 style="color: #d32f2f;">2. 【 Power BI Desktop に CSV を取り込む 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.1em; line-height: 1.7;"><b>① Power BI Desktop を起動</b><br />
スタートメニューから「Power BI Desktop」を開きます。<br />
<br />
<b>② 「他のソースからデータを取得する」を選択</b><br />
起動後の画面に表示されるメニューから選びます。<br />
<br />
<b>③ CSV ファイルを指定して取り込む</b><br />
作成した <code>test_expense.csv</code> を選択し、「読み込み」をクリックします。<br />
<br />
<b>④ 右側の「テーブルビュー」を選択</b><br />
画面右側のアイコン（表のマーク）をクリックすると、取り込んだデータが表形式で表示されます。<br />
<br />
<b>⑤ データが表示されれば取り込み成功</b><br />
CSV の内容が Power BI 上に表示されていれば OK です。</div>
<hr />
<h3 style="color: blue;">3. 【 表示されたデータの例 】</h3>
<p>取り込んだ CSV は、Power BI のテーブルビューで次のように表示されます。</p>
<p><a target="_blank" href="//learnms.blog.shinobi.jp/File/bi1.png" title=""><img src="//learnms.blog.shinobi.jp/Img/1780125503/" alt="" /></a> <br />
<br />
<br />
<br />
</p>]]>
    </description>
    <category>【Power BI】</category>
    <link>http://learnms.blog.shinobi.jp/Entry/145/</link>
    <pubDate>Sat, 30 May 2026 07:21:36 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/145</guid>
  </item>
    <item>
    <title>【Power BI】Windows11で無料版Power BI Desktopをインストールする手順</title>
    <description>
    <![CDATA[<p>Windows 11 で Power BI Desktop（無料版）をインストールし、実際に起動して動作確認するまでの流れをまとめました。公式サイトから Microsoft Store に遷移し、そのままダウンロード＆インストールされるため、初心者でも迷わず進められます。</p>
<h3 style="color: blue;">1. 【 手順の概要 】</h3>
<p>以下の公式ページから Power BI Desktop を入手します。</p>
<p><a href="https://www.microsoft.com/ja-jp/power-platform/products/power-bi/downloads">Power BI ダウンロードページ</a></p>
<p>ページ内の「Power BI Desktop」から Microsoft Store に移動し、ダウンロード &rarr; インストール &rarr; 起動まで一気に完了します。</p>
<hr />
<h3 style="color: #d32f2f;">2. 【 インストール手順 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.1em; line-height: 1.7;"><b>① 公式ダウンロードページを開く</b><br />
上記の Microsoft 公式サイトにアクセスします。<br />
<br />
<b>② 「Power BI Desktop」を選択し、Microsoft Store へ移動</b><br />
「Microsoft Store から入手」というボタンが表示されるのでクリック。<br />
<br />
<b>③ Store アプリで「入手」をクリック</b><br />
ダウンロードとインストールが自動で進行します。<br />
<br />
<b>④ インストール完了後、スタートメニューに「Power BI Desktop」が追加される</b><br />
Windows のアプリ一覧に自動で登録されます。<br />
<br />
<b>⑤ Power BI Desktop を起動</b><br />
初回起動ができれば、インストールは正常に完了しています。</div>
<hr />
<h3 style="color: blue;">3. 【 稼働確認：起動できればOK 】</h3>
<p>スタートメニューから <b>Power BI Desktop</b> をクリックし、アプリが立ち上がれば動作確認は完了です。</p>
<p>初回起動時は少し時間がかかることがありますが、画面が表示されれば問題ありません。</p>
<p>これで、Power BI の学習を始める準備は整いました。<br />
<br />
<br />
<br />
</p>]]>
    </description>
    <category>【Power BI】</category>
    <link>http://learnms.blog.shinobi.jp/Entry/144/</link>
    <pubDate>Sat, 30 May 2026 06:59:36 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/144</guid>
  </item>
    <item>
    <title>【DS検定対策】強化学習の土台！「マルコフ決定過程」の割り切り思想</title>
    <description>
    <![CDATA[<p>AIが試行錯誤して最適な動きを学ぶ「強化学習」。その舞台裏を数学的にスマートに表現するのが、マルコフ決定過程（MDP）です。</p>
<h3 style="color: blue;">1. 【 問題 】</h3>
<p>強化学習において、環境のモデル化によく用いられる「マルコフ決定過程（MDP）」の性質として、最も適切なものはどれでしょうか？</p>
<p>① 未来の状態は、過去のすべての状態と行動の履歴に基づいて決定される。<br />
② 未来の状態は、現在の状態と選択した行動にのみ依存し、それ以前の過去の状態には依存しない。<br />
③ 未来の状態は完全にランダムであり、現在の状態や行動からは一切予測できない。<br />
④ 行動を選択しても状態は変化せず、報酬の額だけが確率的に変化する。</p>
<hr />
<h3 style="color: #d32f2f;">2. 【 解答 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.2em; font-weight: bold; text-align: center;">正解： ② 未来の状態は、現在の状態と選択した行動にのみ依存し、それ以前の過去の状態には依存しない。</div>
<hr />
<h3 style="color: blue;">3. 整理：MDPを構成する「4つの要素」</h3>
<p>マルコフ決定過程では、エージェント（AI）と環境のやりとりを以下の4つの要素（セットで$S, A, P, R$と表記されます）で定義します。</p>
<p>【 MDPの基本要素 】</p>
<div style="font-family: monospace; border: 1px solid #ccc; padding: 10px; line-height: 1.6;">1. <b>状態（State: $S$）</b>：AIが今置かれている状況（例：迷路の座標「C3」）<br />
2. <b>行動（Action: $A$）</b>：AIが取れる選択肢（例：「右に進む」）<br />
3. <b>遷移確率（Probability: $P$）</b>：ある状態で行動したとき、次にどの状態に移るかの確率<br />
4. <b>報酬（Reward: $R$）</b>：行動の結果として得られるご褒美（例：ゴールに近づいたら「+10点」）<br />
<br />
--------------------------<br />
<br />
★ <b>「過去は関係ない」というメリット：</b><br />
「どうやってその状態（C3）にたどり着いたか」という過去のルートを一切無視して、「今の状態」と「次の行動」だけで未来を計算できるため、数式やプログラムが劇的にシンプルになります。</div>
<h3 style="color: blue;">4. DS検定で狙われる関連用語</h3>
<p>1. <b>方策（Policy: $\pi$）</b>: ある状態のときに、どのような確率で行動を選ぶかという「AIの行動指針（戦略）」のことです。<br />
2. <b>価値関数（Value Function）</b>: 今の「状態」や「行動」が、将来的にどれくらい報酬をもたらしそうかという「先を見据えたスコア」です。</p>
<hr />
<h3 style="color: orange;">5. DS検定形式：実戦4択クイズ</h3>
<p><b>問：強化学習において、現在の状態と行動のみで次の状態が決まる「マルコフ決定過程」の前提が成り立たず、環境の一部しか観測できない複雑な状態をモデル化したものを何と呼ぶか。</b></p>
<p>① 動的計画法 &nbsp; ② 部分観測マルコフ決定過程（POMDP） &nbsp; ③ Qラーニング &nbsp; ④ モンテカルロ法</p>
<p><b>【 正解： ② 】</b></p>
<p><b>解説：</b> 現実世界の「霧に隠れて先が見えない麻雀やポーカー」のように、状態の一部が隠されているモデルを「部分観測（Partially Observable）MDP」と呼び、応用問題として時折顔を出します。</p>
<hr />
<h3 style="color: blue;">6. まとめ</h3>
<p>DS検定において「未来の状態は現在の状態と行動に依存し、過去に依存しない」というフレーズが出たら、100%「マルコフ決定過程（MDP）」です。強化学習というゲームのルールブックを定義する言葉として、しっかり記憶に刻んでおきましょう！</p>]]>
    </description>
    <category>DS検定＞1-3-1. 学習モデル</category>
    <link>http://learnms.blog.shinobi.jp/Entry/143/</link>
    <pubDate>Sat, 23 May 2026 21:49:33 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/143</guid>
  </item>
    <item>
    <title>【Kaggle挑戦記】DNA Classification Dataset：データの取得と構造の確認</title>
    <description>
    <![CDATA[<p>手書き文字認識の「Digit Recognizer」を経て、今回は「DNA Classification Dataset」に挑戦しました。今回はコンペではなく、データセットでの分析にチャレンジします。モデル作成の前に、データの入手手順、データの読み方、およびこのデータにおける予測ターゲットの考え方を整理します。</p>
<h3 style="color: blue;">0. このデータセットの概要</h3>
<p>「DNA Classification Dataset」は、ゲノムデータ分析、機械学習、およびバイオインフォマティクス研究のために設計された、3,000個の合成DNAサンプルを含むデータセットです。データの主な仕様は以下の通りです。</p>
<ul>
<li><b>データ規模：</b> 合計3,000行、13カラム（3,000サンプルのDNA配列および統計データ）</li>
<li><b>入力データ：</b> DNA配列の文字列に加え、GC含有率や各塩基の個数など、配列の統計属性があらかじめ特徴量として含まれています。</li>
<li><b>タスク：</b> 与えられたDNAデータから、目的変数（ターゲット）を切り替えることで、生物種の分類や変異の有無、リスクの予測など、複数の異なる検証を行うことができる多角的な構造になっています。</li>
</ul>
<p>通常のコンペと異なり、最初から特定のテストデータや単一のゴールが分かれて提供されているわけではありません。Kaggle側での自動採点もないため、手元にある3,000行のデータを自分で分割し、設定したタスクごとに交差検証（クロスバリデーション）によって手元で予測精度を評価・検証していく必要があります。</p>
<h3 style="color: blue;">1. データの入手</h3>
<p>データの取得手順は以下の通りです。</p>
<ul>
<li>Kaggleにログインします。</li>
<li>検索窓で「DNA Classification Dataset」を検索します。</li>
<li>該当する「DNA Classification dataset」を選択します。</li>
<li>右上のダウンロードから、ZIP形式でダウンロードします。</li>
<li>ダウンロードしたZIPファイルを適当なディレクトリで展開します。</li>
</ul>
<p>展開すると、ディレクトリ内に<b>「synthetic_dna_dataset.csv」</b>ができます。</p>
<h3 style="color: blue;">2. synthetic_dna_dataset.csvの解説</h3>
<p>展開して得られたCSVファイルの中身を確認しました。このデータセットに含まれる13個のカラム一覧とそれぞれの解説は以下の通りです。</p>
<table style="width: 100%; border-collapse: collapse; margin-top: 10px; margin-bottom: 20px;">
<thead>
<tr style="background-color: #f2f2f2; border-bottom: 2px solid #ddd;"><th style="padding: 10px; text-align: left; border: 1px solid #ddd;">カラム名</th><th style="padding: 10px; text-align: left; border: 1px solid #ddd;">解説</th></tr>
</thead>
<tbody>
<tr>
<td style="padding: 10px; border: 1px solid #ddd;"><b>Sample_ID</b></td>
<td style="padding: 10px; border: 1px solid #ddd;">各DNAサンプルの固有の識別子（ID）</td>
</tr>
<tr style="background-color: #f9f9f9;">
<td style="padding: 10px; border: 1px solid #ddd;"><b>Sequence</b></td>
<td style="padding: 10px; border: 1px solid #ddd;">DNAの配列データ（A, T, C, Gの文字列）</td>
</tr>
<tr>
<td style="padding: 10px; border: 1px solid #ddd;"><b>GC_Content</b></td>
<td style="padding: 10px; border: 1px solid #ddd;">配列中におけるグアニン（G）とシトシン（C）の割合（％）</td>
</tr>
<tr style="background-color: #f9f9f9;">
<td style="padding: 10px; border: 1px solid #ddd;"><b>AT_Content</b></td>
<td style="padding: 10px; border: 1px solid #ddd;">配列中におけるアデニン（A）とチミン（T）の割合（％）</td>
</tr>
<tr>
<td style="padding: 10px; border: 1px solid #ddd;"><b>Sequence_Length</b></td>
<td style="padding: 10px; border: 1px solid #ddd;">配列の総文字数（長さ）</td>
</tr>
<tr style="background-color: #f9f9f9;">
<td style="padding: 10px; border: 1px solid #ddd;"><b>Num_A</b></td>
<td style="padding: 10px; border: 1px solid #ddd;">配列中に含まれるアデニン（A）の個数</td>
</tr>
<tr>
<td style="padding: 10px; border: 1px solid #ddd;"><b>Num_T</b></td>
<td style="padding: 10px; border: 1px solid #ddd;">配列中に含まれるチミン（T）の個数</td>
</tr>
<tr style="background-color: #f9f9f9;">
<td style="padding: 10px; border: 1px solid #ddd;"><b>Num_C</b></td>
<td style="padding: 10px; border: 1px solid #ddd;">配列中に含まれるシトシン（C）の個数</td>
</tr>
<tr>
<td style="padding: 10px; border: 1px solid #ddd;"><b>Num_G</b></td>
<td style="padding: 10px; border: 1px solid #ddd;">配列中に含まれるグアニン（G）の個数</td>
</tr>
<tr style="background-color: #f9f9f9;">
<td style="padding: 10px; border: 1px solid #ddd;"><b>kmer_3_freq</b></td>
<td style="padding: 10px; border: 1px solid #ddd;">3文字の塩基トリプレット（3-mer）の平均出現頻度スコア</td>
</tr>
<tr>
<td style="padding: 10px; border: 1px solid #ddd;"><b>Mutation_Flag</b></td>
<td style="padding: 10px; border: 1px solid #ddd;">変異の有無を示すバイナリフラグ（0 = なし、1 = あり）。<b>【予測ターゲット候補1：二値分類】</b></td>
</tr>
<tr style="background-color: #f9f9f9;">
<td style="padding: 10px; border: 1px solid #ddd;"><b>Class_Label</b></td>
<td style="padding: 10px; border: 1px solid #ddd;">サンプルの分類クラス（Human / Bacteria / Virus / Plant）。<b>【予測ターゲット候補2：多値分類】</b></td>
</tr>
<tr>
<td style="padding: 10px; border: 1px solid #ddd;"><b>Disease_Risk</b></td>
<td style="padding: 10px; border: 1px solid #ddd;">サンプルに関連するリスクレベル（Low / Medium / High）。<b>【予測ターゲット候補3：多値・順序分類】</b></td>
</tr>
</tbody>
</table>
<p>このデータセットの特徴は、ゴールとなる目的変数を何に設定するかによって、全く異なる予測モデルの検証ができる点にあります。配列データや、あらかじめ計算されている塩基の個数などの特徴量をベースにして、どの予測タスクからアプローチするかを自由に選択できる構造になっています。</p>
<div style="text-align: center; margin: 20px auto; max-width: 90%; font-size: 1.1em; font-weight: bold; color: #d9534f; border: 2px solid #d9534f; padding: 12px 15px; border-radius: 5px; box-sizing: border-box; line-height: 1.5;">複数の予測タスク：<br style="display: none;" class="sp-br" />生物種分類（Class_Label） / 変異判定（Mutation_Flag） / リスク予測（Disease_Risk）</div>
<p>配列のゆらぎや塩基の統計的特徴を組み合わせることで、それぞれのターゲットに対してLightGBMがどのように境界線を学習するのか、切り口を変えて複数の検証を回せるデータ構成となっています。</p>
<h3 style="color: blue;">3. 今後の流れ</h3>
<p>あらかじめ塩基の個数や割合といった数値の特徴量が豊富に用意されているため、生の文字列（Sequence）を加工しなくても、初期の数値データだけでLightGBMに投入可能な構造になっています。まずはこの綺麗なデータセットが手元に用意できたので、ここからどのタスクの検証作業に入るかを決定します。</p>
<hr />
<p style="font-style: italic; color: #666;">次は、これらの予測候補の中から最初のターゲットを決定し、交差検証を回すための前処理を進めていきます。<br />
<br />
<br />
<br />
</p>]]>
    </description>
    <category>【Kaggle挑戦記】</category>
    <link>http://learnms.blog.shinobi.jp/Entry/142/</link>
    <pubDate>Sat, 23 May 2026 05:13:09 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/142</guid>
  </item>
    <item>
    <title>【DS検定対策】知識の「リサイクル」！転移学習の2大ステップ</title>
    <description>
    <![CDATA[<p>ゼロからAIを育てるのは大変。だから「他のタスクで学んだ基礎知識」を流用する。それが転移学習（Transfer Learning）です。</p>
<h3 style="color: blue;">1. 【 問題 】</h3>
<p>転移学習（移転学習）のプロセスに関する次の記述の、[ &nbsp; ] に当てはまる適切な語句の組み合わせはどれでしょうか？</p>
<p>「転移学習において、移転元での最初の学習は [ &nbsp; A &nbsp; ] と呼ばれ、その獲得した知識（重み）をベースに、移転先（特定のタスク）に合わせて追加で行う学習は [ &nbsp; B &nbsp; ] と呼ばれる。」</p>
<p>① A：ファインチューニング &nbsp; B：事前学習<br />
② A：事前学習 &nbsp; B：ファインチューニング<br />
③ A：アンサンブル学習 &nbsp; B：蒸留<br />
④ A：データ拡張 &nbsp; B：正規化</p>
<hr />
<h3 style="color: #d32f2f;">2. 【 解答 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.2em; font-weight: bold; text-align: center;">正解： ② A：事前学習 &nbsp; B：ファインチューニング</div>
<hr />
<h3 style="color: blue;">3. 整理：移転元と移転先の「役割分担」</h3>
<p>この2つのステップを、人間の学習に例えて整理してみましょう。</p>
<p>【 転移学習のステップ 】</p>
<div style="font-family: monospace; border: 1px solid #ccc; padding: 10px; line-height: 1.6;">・<b>移転元： [ 事前学習 ] （義務教育）</b><br />
　大量の一般的なデータを使って、基礎的な「特徴の掴み方」を幅広く学ぶ。<br />
　（例：画像認識なら、膨大な写真から「輪郭」や「色」の概念を理解する）<br />
<br />
・<b>移転先： [ ファインチューニング ] （専門教育）</b><br />
　事前学習済みのモデル（知識）を引き継ぎ、解きたい特定のタスク用の少量のデータで微調整する。<br />
　（例：医療画像から「特定の病変」を見つける専用AIに仕上げる）<br />
<br />
--------------------------<br />
<br />
◎ <b>このアプローチの利点：</b><br />
移転先で用意するデータが少量であっても、事前学習で培った「基礎体力」があるため、高精度なモデルを短時間で開発できます。</div>
<h3 style="color: blue;">4. 覚えておきたい周辺用語</h3>
<p>1. <b>特徴量抽出（Feature Extraction）</b>: 事前学習済みモデルの「重み」を一切変えず（フリーズさせ）、出力層の直前のデータを特徴量として別の機械学習モデル（SVMなど）に投入する手法。ファインチューニングと並ぶ転移学習の代表例です。<br />
2. <b>負の転移（Negative Transfer）</b>: 移転元のタスクと移転先のタスクが違いすぎる（例：テキスト学習の知識を株価予測に使うなど）ために、かえって精度が下がってしまう現象。</p>
<hr />
<h3 style="color: orange;">5. DS検定形式：実戦4択クイズ</h3>
<p><b>問：転移学習において、ファインチューニングを行う際、事前学習で得られたモデルの初期層（入力に近い層）のパラメーター（重み）を変更しないように固定する操作を何と呼ぶか。</b></p>
<p>① ドロップアウト &nbsp; ② 標準化 &nbsp; ③ フリーズ（凍結） &nbsp; ④ 正則化</p>
<p><b>【 正解： ③ 】</b></p>
<p><b>解説：</b> 一般的な特徴（エッジや色の変化など）を捉える初期層の知識はそのまま流用した方が効率が良いため、重みを変化させないように「フリーズ」させることがよくあります。</p>
<hr />
<h3 style="color: blue;">6. まとめ</h3>
<p>DS検定において「移転元での学習 ＝ 事前学習」「移転先での学習 ＝ ファインチューニング」という組み合わせは、ディープラーニング全般（画像・自然言語処理）を支える大前提の知識です。それぞれの目的の違いをしっかりと頭に入れておきましょう！</p>]]>
    </description>
    <category>DS検定＞1-4-2.言語モデル</category>
    <link>http://learnms.blog.shinobi.jp/Entry/141/</link>
    <pubDate>Sun, 17 May 2026 05:11:20 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/141</guid>
  </item>

    </channel>
</rss>