<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0" xmlns:blogChannel="http://backend.userland.com/blogChannelModule" >
  <channel>
  <title>いけいけ機械学習</title>
  <link>http://learnms.blog.shinobi.jp/</link>
  <atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="self" type="application/rss+xml" href="http://learnms.blog.shinobi.jp/RSS/" />
  <description>統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。</description>
  <lastBuildDate>Sun, 21 Jun 2026 11:29:05 GMT</lastBuildDate>
  <language>ja</language>
  <copyright>© Ninja Tools Inc.</copyright>
  <atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="hub" href="http://pubsubhubbub.appspot.com/" />

    <item>
    <title>【機械学習の知識】数式なしでわかる統計モーメントの仕組みとアルゴリズム</title>
    <description>
    <![CDATA[<p>データの集まり（分布）がどのような形をしているかを数値で表現したい。平均値や分散だけでなく、左右の非対称さや尖り具合までを系統的に捉えるための概念が、統計モーメント（積率）です。</p>
<h3 style="color: blue;">1. 【 概要 】</h3>
<p>統計モーメントとは、確率分布やデータの「形状の特徴」を段階的に切り出すための指標です。1次、2次、3次、4次と次数が上がるにつれて、データの中心位置から始まり、広がり方、非対称性、尖り具合といった、より詳細な形状の情報が得られるようになります。</p>
<hr />
<h3 style="color: #d32f2f;">2. 【 基本アルゴリズム 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.1em; line-height: 1.8; text-align: left;"><b>1次モーメント ・・ 中心の位置の分布（平均値）</b><br />
データの重心がどこにあるかを表す、最も基本的な指標です。<br />
<br />
<b>2次モーメント ・・ ちらばり（分散）</b><br />
データが中心（平均）からどれくらい広く散らばっているかを表します。<br />
<br />
<b>3次モーメント ・&bull; 歪度（わいど）</b><br />
分布の左右の「非対称さ」や傾き具合を表します。<br />
<br />
<b>4次モーメント ・&bull; 尖度（せんど）</b><br />
分布の頂点がどれくらい「尖っているか」、または裾野がどれくらい厚いかを表します。</div>
<hr />
<h3 style="color: blue;">3. 整理：各次数の具体的な処理内容</h3>
<p>統計モーメントは、次数ごとにデータの異なる特徴を計算します。それぞれのステップと意味を具体的に見ていきましょう。</p>
<p>【 各モーメントの具体的な処理内容 】</p>
<div style="font-family: monospace; border: 1px solid #ccc; padding: 10px; line-height: 1.6;">・<b>1次モーメント（平均値）の処理</b><br />
すべてのデータを足し合わせて、データの個数で割ることで、分布の「重心（中心の位置）」を特定します。<br />
<br />
・<b>2次モーメント（分散）の処理</b><br />
各データが「平均値からどれだけ離れているか（偏差）」を計算し、それを2乗したものの平均をとります。2乗することで、中心からの「距離（ちらばり）」を正の数として正しく評価できます。<br />
<br />
・<b>3次モーメント（歪度）の処理</b><br />
平均からの偏差を3乗して計算します。3乗するとプラスとマイナスの符号が残るため、分布の裾が右側に伸びているか、左側に伸びているかという「非対称さ」が分かります。<br />
<br />
・<b>4次モーメント（尖度）の処理</b><br />
平均からの偏差を4乗して計算します。4乗することで、中心から極端に離れたデータ（外れ値）の影響が強調され、分布の頂点の「尖り具合」や「裾野の厚み（外れ値の出やすさ）」を浮き彫りにします。</div>
<h3 style="color: blue;">4. 関連して押さえたい「機械学習（特徴量エンジニアリング）への応用」</h3>
<p>この統計モーメントは、機械学習において非常に重要な<b>「特徴量エンジニアリング」</b>の技術として応用されています。</p>
<p>例えば、音声データやセンサーデータ（時系列データ）を機械学習モデルに入力する際、そのままの波形データでは複雑すぎて学習がうまくいきません。そこで、一定時間ごとのデータの「平均（1次）」「分散（2次）」「歪度（3次）」「尖度（4次）」を計算し、波形の特徴をぎゅっと凝縮した数値（特徴量）に変換してからモデルに投入します。</p>
<p>このように、統計モーメントを使うことで、複雑なデータの性質をシンプルかつ強力に表現できるようになります。</p>
<hr />
<h3 style="color: orange;">5. 補足：正規分布を基準にする「歪度と尖度」の数値</h3>
<p>データ分析で3次・4次モーメント（歪度・尖度）を扱う際、最も美しい対称の形である<b>「正規分布」</b>が基準になります。</p>
<p>・<b>歪度</b>：完全に左右対称な正規分布では「0」になります。右に裾が長い分布（左側にデータが集中）ならプラス、左に裾が長い分布ならマイナスの値をとります。<br />
・<b>尖度</b>：数式の定義の仕方にもよりますが（正規分布の値を引く補正を行う場合）、正規分布の尖度を「0」とします。正規分布より頂点が鋭く尖っている分布はプラス（正）、平べったい分布はマイナス（負）の値をとるため、視覚的にデータの尖り具合を判断できます。</p>
<hr />
<h3 style="color: blue;">6. まとめ</h3>
<p>データサイエンスや機械学習の現場において「データの形状を1次から4次の段階的な特徴で表す手法」と言えば、この統計モーメントです。中心（1次）、ちらばり（2次）、歪度（3次）、尖度（4次）というアルゴリズムの階層的な繋がりを理解し、データの性質を深く見極められるようになりましょう！<br />
<br />
<br />
</p>]]>
    </description>
    <category>【機械学習の知識】</category>
    <link>http://learnms.blog.shinobi.jp/Entry/167/</link>
    <pubDate>Sun, 21 Jun 2026 11:29:05 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/167</guid>
  </item>
    <item>
    <title>【DS検定対策】異常値に負けないタフな指標！統計量の「堅牢性（ロバスト性）」</title>
    <description>
    <![CDATA[<p>データの中に数件の異常値（外れ値）が混ざっただけで、計算結果がガラリと変わってしまうようでは実務で使えません。ノイズに対するタフさを表す言葉が「堅牢性」です。</p>
<h3 style="color: blue;">1. 【 問題 】</h3>
<p>統計学や機械学習において、データの中に極端な外れ値や異常値、測定エラーなどが含まれていても、その影響をあまり受けずに、集団の実態を正しく推測できる（統計量やモデルの）性質のことを何と呼ぶでしょうか？</p>
<p>① 局所性<br />
② 堅牢性（頑健性 / ロバスト性）<br />
③ 収束性<br />
④ 柔軟性</p>
<hr />
<h3 style="color: #d32f2f;">2. 【 解答 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.2em; font-weight: bold; text-align: center;">正解： ② 堅牢性（頑健性 / ロバスト性）</div>
<hr />
<h3 style="color: blue;">3. 整理：これまでに学んだ指標の「堅牢性」チェック</h3>
<p>これまでに登場した基本統計量を、「堅牢性が高いチーム（異常値に強い）」と「低いチーム（異常値に弱い）」に分けて整理すると、試験対策としても完璧です。</p>
<table border="1" style="border-collapse: collapse; width: 100%; text-align: left; cellpadding: 8px;">
<tbody>
<tr style="background-color: #f2f2f2; text-align: center;"><th style="width: 20%;">グループ</th><th style="width: 30%;">具体的な統計量</th><th style="width: 50%;">なぜそう言えるのか？</th></tr>
<tr>
<td style="color: green; font-weight: bold; text-align: center;">堅牢性が高い<br />
（ロバスト）</td>
<td><b>中央値</b><br />
<b>四分位範囲（IQR）</b><br />
<b>トリム平均</b></td>
<td>端っこのデータを無視したり、順位の真ん中だけを見たりするため、どれだけ極端な異常値が来ても数値がブレにくい。</td>
</tr>
<tr>
<td style="color: red; font-weight: bold; text-align: center;">堅牢性が低い<br />
（非ロバスト）</td>
<td><b>平均値</b><br />
<b>範囲（レンジ）</b><br />
<b>分散 / 標準偏差</b></td>
<td>「すべての値を足す」「最大と最小の差をとる」「差を2乗する」といった計算を含むため、1つの異常値で全体が崩壊する。</td>
</tr>
</tbody>
</table>
<hr />
<h3 style="color: orange;">5. DS検定形式：実戦4択クイズ</h3>
<p><b>問：統計量だけでなく、データ分析モデル全体において「堅牢性（ロバスト性）」を確保するアプローチとして、最も不適切なものはどれか。</b></p>
<p>① 線形回帰において、外れ値の影響を抑える「ロバスト回帰（Huber損失など）」を適用する。<br />
② 前処理の段階で、トリム平均などを応用して明確な異常値を除外（クレンジング）する。<br />
③ 予測精度を極限まで高めるため、手元にある訓練データのノイズ（異常値）も含めて100%完璧にフィットするようモデルを複雑にする。<br />
④ 外れ値に引きずられやすい「範囲（レンジ）」の代わりに、「四分位範囲（IQR）」を散布度の指標に採用する。</p>
<p><b>【 正解： ③ 】</b></p>
<p><b>解説：</b> 訓練データのノイズまで完璧に合わせようとすると、以前に学んだ<b>過学習（オーバーフィッティング）</b>を引き起こし、未知のデータに対する堅牢性（汎化性能）がガタ落ちしてしまいます。ノイズを適度にいなす（無視する）ことこそが、堅牢性を保つ秘訣です。</p>
<hr />
<h3 style="color: blue;">6. まとめ</h3>
<p>DS検定において「異常値やノイズの影響を受けにくい統計量や性質」というキーワードが出たら「堅牢性（頑健性、ロバスト性）」です。実務のシステム運用やデータ分析でも、「このシステム（または指標）はロバストか？」という視点は常に求められます。これまでに学んだ各指標の特徴とセットで記憶に刻んでおきましょう！<br />
<br />
<br />
</p>]]>
    </description>
    <category>DS検定＞1-1-2. 統計数理</category>
    <link>http://learnms.blog.shinobi.jp/Entry/166/</link>
    <pubDate>Sun, 21 Jun 2026 11:10:25 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/166</guid>
  </item>
    <item>
    <title>【DS検定対策】外れ値をカットして実態を掴む！「トリム平均」の仕組み</title>
    <description>
    <![CDATA[<p>すべての値を足して割る「平均値」は、極端な値（外れ値）が1つあるだけで数値が跳ね上がってしまいます。その弱点を克服するために、上下のデータを一定割合だけ切り落としてから計算するのがトリム平均です。</p>
<h3 style="color: blue;">1. 【 問題 】</h3>
<p>統計学において、データの集団から極端に大きい値（最大値側）と極端に小さい値（最小値側）を、あらかじめ決めた一定の割合（または個数）だけ除外した上で、残ったデータを用いて算出する平均値のことを何と呼ぶでしょうか？</p>
<p>① 加重平均<br />
② 幾何平均<br />
③ トリム平均（調整平均）<br />
④ 移動平均</p>
<hr />
<h3 style="color: #d32f2f;">2. 【 解答 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.2em; font-weight: bold; text-align: center;">正解： ③ トリム平均（調整平均）</div>
<hr />
<h3 style="color: blue;">3. 整理：トリム平均の計算イメージ</h3>
<p>例えば、スポーツの審査（フィギュアスケートやスキージャンプなど）で、審判全員がつけた点数のうち「最高点」と「最低点」を除外して残りの平均をとるルールがあります。これがまさにトリム平均の思想です。</p>
<p>【 具体例：10%トリム平均の場合 】</p>
<div style="font-family: monospace; border: 1px solid #ccc; padding: 10px; line-height: 1.6;">・<b>元のデータ</b>：データを大きさ順に並べます。<br />
[ 10, 45, 50, 52, 55, 56, 58, 60, 62, 990 ] （データ数 10個）<br />
<br />
・<b>トリム処理</b>：上下からそれぞれ10%（1個ずつ）をカットします。<br />
<s>[ 10 ]</s> と <s>[ 990 ]</s> を除外！<br />
<br />
・<b>平均を計算</b>：残った中間の8個だけで平均を計算します。<br />
&rArr; <b>[ 45, 50, 52, 55, 56, 58, 60, 62 ]</b> の平均 ＝ <b>54.75</b><br />
<br />
--------------------------<br />
<br />
★ <b>ここがメリット：</b><br />
普通に平均をとると「143.8」になってしまい実態が見えなくなりますが、トリム平均を使うことで、最後の「990」という異常値（外れ値）の影響を完全にシャットアウトし、集団の本来の特徴をきれいに抽出できます。</div>
<h3 style="color: blue;">4. 代表値としての「強さ」の位置づけ</h3>
<p>データが外れ値に対してどれくらい強いか（影響を受けにくいか）という性質を<b>「頑健性（ロバスト性）」</b>と呼びます。今回のトリム平均は、ちょうど以下のような中間的なキャラクターを持っています。<br />
<br />
・<b>平均値</b>：すべてのデータを使う（頑健性は一番<b>低い</b>）<br />
・<b>トリム平均</b>：端っこだけを削って平均をとる（頑健性は<b>中くらい</b>）<br />
・<b>中央値</b>：真ん中の1点（または2点）しか使わない（頑健性は一番<b>高い</b>）</p>
<hr />
<h3 style="color: orange;">5. DS検定形式：実戦4択クイズ</h3>
<p><b>問：データの分布が、外れ値のない綺麗な左右対称（正規分布）であるとき、「平均値」「中央値」「トリム平均」の3つの値の関係として、最も適切なものはどれか。</b></p>
<p>① 平均値 ＜ トリム平均 ＜ 中央値<br />
② 中央値 ＜ トリム平均 ＜ 平均値<br />
③ 3つの値はほぼ一致する<br />
④ トリム平均だけが全く異なる値になる</p>
<p><b>【 正解： ③ 】</b></p>
<p><b>解説：</b> 外れ値がなく、左右が綺麗に対称な分布であれば、上下を均等に削っても中心のバランスは変わりません。そのため、これら3つの代表値はほぼ同じ値に収束します。外れ値がある非対称な分布のときにこそ、トリム平均はその真価を発揮します。</p>
<hr />
<h3 style="color: blue;">6. まとめ</h3>
<p>DS検定において「一定割合の異常値（外れ値）を排除して残りで平均を算出する」という記述が登場したら「トリム平均（調整平均）」です。実務のデータクレンジングや集計ロジックでも頻出の手法ですので、平均値・中央値との違いを意識して整理しておきましょう！</p>]]>
    </description>
    <category>DS検定＞1-1-2. 統計数理</category>
    <link>http://learnms.blog.shinobi.jp/Entry/165/</link>
    <pubDate>Sun, 21 Jun 2026 11:02:34 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/165</guid>
  </item>
    <item>
    <title>【DS検定対策】ノイズに負けないデータ集め！フィッシャーの実験計画法3原則</title>
    <description>
    <![CDATA[<p>限られた実験から、いかに正しく、効率よく効果を確かめるか。近代統計学の父、ロナルド・フィッシャーが提唱した「実験計画法の3原則」は、現代のデータサイエンスでも必須の知識です。</p>
<h3 style="color: blue;">1. 【 問題 】</h3>
<p>フィッシャーが提唱した「実験計画法の3原則」に含まれる3つの要素の組み合わせとして、正しいものはどれでしょうか？</p>
<p>① 反復（Replication） ・ 無作為化（Randomization） ・ 局所管理（Local Control）<br />
② 抽出（Sampling） ・ 段階的帰還（Stepwise） ・ 交互作用（Interaction）<br />
③ 排除（Elimination） ・ 標準化（Standardization） ・ 適合度（Goodness of Fit）<br />
④ 層別（Stratification） ・ 段階的回帰（Regression） ・ 全数調査（Census）</p>
<hr />
<h3 style="color: #d32f2f;">2. 【 解答 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.2em; font-weight: bold; text-align: center;">正解： ① 反復（Replication） ・ 無作為化（Randomization） ・ 局所管理（Local Control）</div>
<hr />
<h3 style="color: blue;">3. 整理：3原則の役割と具体例</h3>
<p>これら3つの原則は、実験につきまとう「個体差」や「予測できないノイズ」をキャンセルするために作られました。農場での肥料の実験をイメージすると分かりやすいです。</p>
<table border="1" style="border-collapse: collapse; width: 100%; text-align: left; cellpadding: 8px;">
<tbody>
<tr style="background-color: #f2f2f2; text-align: center;"><th style="width: 25%;">原則名</th><th style="width: 35%;">意味</th><th style="width: 40%;">具体例（肥料の実験）</th></tr>
<tr>
<td><b>1. 反復<br />
（Replication）</b></td>
<td>同じ条件の実験を<b>「複数回繰り返す」</b>こと。たまたま起きた偶然のブレ（誤差）の影響を小さくし、データの信頼性を高めます。</td>
<td>1つの肥料につき、1株だけでなく「10株」にそれぞれ与えて育ち方を比較する。</td>
</tr>
<tr>
<td><b>2. 無作為化<br />
（Randomization）</b></td>
<td>実験の対象や順番を<b>「ランダム（無作為）に割り当てる」</b>こと。人間が気づいていない、制御できない未知のノイズ（偏り）を平均化して消し去ります。</td>
<td>「日当たりの良い場所には肥料A」「日陰には肥料B」とならないよう、植える場所を完全にくじ引きで決める。</td>
</tr>
<tr>
<td><b>3. 局所管理<br />
（Local Control）</b></td>
<td>実験空間をいくつかのブロック（グループ）に区切り、<b>「ブロック内では条件をそろえる」</b>こと。分かっているノイズの影響をブロックごとにブロック（遮断）します。</td>
<td>畑の「傾斜が上の方」と「下の方」で土壌が違う場合、上下でブロックを分け、各ブロック内で肥料A・Bを均等に試す。</td>
</tr>
</tbody>
</table>
<hr />
<h3 style="color: orange;">5. DS検定形式：実戦4択クイズ</h3>
<p><b>問：フィッシャーの3原則のうち、「システム開発におけるWebサイトのA/Bテストにおいて、ユーザーのアクセス時間帯や年齢層といった『まだデータとして把握できていない未知の要因』による偏りを、確率的に均等に分散させて相殺する」ために、最も直接的に適用されている原則はどれか。</b></p>
<p>① 反復 &nbsp; ② 無作為化 &nbsp; ③ 局所管理 &nbsp; ④ 段階的選択</p>
<p><b>【 正解： ② 】</b></p>
<p><b>解説：</b> 「未知の要因（原因不明の偏り）を、確率的にチャラにする」のが<b>無作為化（ランダム化）</b>の最大のメリットです。A案とB案へのユーザー割り当てをシステム側で完全にランダムに制御するのは、この無作為化を実践している典型例と言えます。</p>
<hr />
<h3 style="color: blue;">6. まとめ</h3>
<p>DS検定において「実験計画法の3原則」を問われたら、呪文のように「反復・無作為化・局所管理」を思い出し、それぞれの役割（反復は誤差減少、無作為化は未知の偏り相殺、局所管理は既知のノイズ制御）をセットで結びつけておきましょう！</p>]]>
    </description>
    <category>DS検定＞1-3-1. 学習モデル</category>
    <link>http://learnms.blog.shinobi.jp/Entry/164/</link>
    <pubDate>Sun, 21 Jun 2026 10:49:30 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/164</guid>
  </item>
    <item>
    <title>【DS検定対策】「わざわざ回答する人」の偏り！自己選択バイアスの罠</title>
    <description>
    <![CDATA[<p>「アンケートにご協力ください」と言われて、進んで回答してくれるのはどんな人でしょうか？そこには最初から強い偏りが存在します。それが自己選択バイアスです。</p>
<h3 style="color: blue;">1. 【 問題 】</h3>
<p>統計調査や実験において、調査主体がランダムに対象者を選ぶ（無作為抽出する）のではなく、対象者が「自分の意思で進んで参加（自己選択）する」ことによって、集まったデータに強い偏りが生じる現象を何と呼ぶでしょうか？</p>
<p>① 自己選択バイアス<br />
② 観察者バイアス<br />
③ 回避バイアス<br />
④ 出版バイアス</p>
<hr />
<h3 style="color: #d32f2f;">2. 【 解答 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.2em; font-weight: bold; text-align: center;">正解： ① 自己選択バイアス</div>
<hr />
<h3 style="color: blue;">3. 整理：なぜ「自分の意思」がバイアスを生むのか？</h3>
<p>インターネット上の多くのデータは、このバイアスの影響を強く受けています。実務でもよくある具体例を見てみましょう。</p>
<p>【 自己選択バイアスの具体例 】</p>
<div style="font-family: monospace; border: 1px solid #ccc; padding: 10px; line-height: 1.6;">・<b>事例1：ECサイトの製品レビュー（星評価）</b><br />
ある商品のレビューを見ると、「星5（大満足）」と「星1（大不満）」ばかりで、中間の星3が極端に少ない。<br />
&rArr; <b>罠</b>：普通に満足して何も不満がない「大多数のユーザー」は、わざわざレビューを書くという面倒な行動を起こしません。レビューを書くのは「猛烈に感動した人」か「激怒している人」だけになりがちです（自己選択）。<br />
<br />
・<b>事例2：ネットの政治世論調査</b><br />
特定のニュースサイトやSNS上で「〇〇政策に賛成ですか？」と任意のアンケートを取ったところ、賛成が90%になった！<br />
&rArr; <b>罠</b>：そのサイトやSNSを普段から利用しており、かつ「そのテーマに強い関心があってわざわざ投票ボタンを押した人」だけの意見に偏っています。日本全体の世論とは大きくかけ離れる危険があります。</div>
<h3 style="color: blue;">4. これまで学んだバイアスとの位置づけ</h3>
<p>データ収集の偏りを表す<b>「選択バイアス（Selection Bias）」</b>という大きな引き出しの中に、これまで学んだ重要用語が以下のように整理されます。<br />
<br />
・<b>脱落バイアス</b>：追跡の「途中」で、対象者がいなくなってしまう偏り。<br />
・<b>欠測値バイアス</b>：回答の拒否やエラーで、データが「空欄（NULL）」になる偏り。<br />
・<b>自己選択バイアス</b>：データの「入り口」で、特定の熱量を持った人だけが自発的に集まる偏り。</p>
<hr />
<h3 style="color: orange;">5. DS検定形式：実戦4択クイズ</h3>
<p><b>問：自己選択バイアスを防ぎ、母集団の実態を正しく推測するために、標本調査において最も重視されるサンプリング（データ抽出）の手法はどれか。</b></p>
<p>① 有意抽出（知り合いや集めやすい人から選ぶ）<br />
② 無作為抽出（ランダムサンプリング）<br />
③ ボランティアサンプリング（公募）<br />
④ スノーボールサンプリング（紹介数珠つなぎ）</p>
<p><b>【 正解： ② 】</b></p>
<p><b>解説：</b> 自発的な参加に頼る（③）と自己選択バイアスが直撃します。これを防ぐには、人間の意思が介在しない「無作為抽出（ランダムに選んで調査を依頼する）」を行うことが統計学的な大原則です。</p>
<hr />
<h3 style="color: blue;">6. まとめ</h3>
<p>DS検定において「対象者が自発的に参加することによる偏り」というキーワードが出たら「自己選択バイアス」です。ネット上に転がっているビッグデータや口コミを分析する際には、常にこのバイアスが裏に潜んでいることを意識できるかどうかが、データサイエンティストの腕の見せ所です！</p>]]>
    </description>
    <category>DS検定＞1-1-2. 統計数理</category>
    <link>http://learnms.blog.shinobi.jp/Entry/163/</link>
    <pubDate>Sun, 21 Jun 2026 10:42:46 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/163</guid>
  </item>
    <item>
    <title>【DS検定対策】NULLデータの罠！「欠測値」が引き起こす分析の偏り</title>
    <description>
    <![CDATA[<p>データベースでおなじみの「空欄（NULL）」。データが足りないからといって、そのレコードを無視して分析すると、結果が完全に歪んでしまうことがあります。それが欠測によるバイアスです。</p>
<h3 style="color: blue;">1. 【 問題 】</h3>
<p>アンケートや実験データにおいて、回答の記入漏れや測定エラーなどの「欠測値（欠損値）」が多く含まれる場合、その欠測が発生した原因を考慮せずに、単に欠測値のあるデータを除外して（残ったデータだけで）分析を行うことで、結果に偏りが生じる現象を何と呼ぶでしょうか？</p>
<p>① 欠測値バイアス（欠損による偏り）<br />
② 確定バイアス<br />
③ 回答バイアス<br />
④ 出版バイアス</p>
<hr />
<h3 style="color: #d32f2f;">2. 【 解答 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.2em; font-weight: bold; text-align: center;">正解： ① 欠測値バイアス（欠損による偏り）</div>
<hr />
<h3 style="color: blue;">3. 整理：なぜ「空欄（NULL）」を除外すると偏るのか？</h3>
<p>データが消えた（欠測した）のには、高確率で<b>「人間的な理由やシステムのクセ」</b>が存在します。それを無視して `IS NOT NULL` で削ると、集団の実態を見誤ります。</p>
<p>【 欠測がバイアスを生む具体例 】</p>
<div style="font-family: monospace; border: 1px solid #ccc; padding: 10px; line-height: 1.6;">・<b>事例：年収と顧客満足度のアンケート</b><br />
あるサービスの顧客満足度を調査した際、「年収」の項目に空欄（欠測）が非常に多かった。<br />
&rArr; <b>罠</b>：実は「サービスに不満がある低所得層」が年収を書かずに回答（あるいは途中で離脱）していた場合、空欄をすべて除外して集計すると、<b>「高所得者で、かつ満足している人」だけの偏ったデータ</b>になり、平均年収も満足度も実態より高く計算されてしまいます。</div>
<h3 style="color: blue;">4. データサイエンティストはどう戦うか？（欠測値の処理）</h3>
<p>試験や実務では、このバイアスを防ぐための「前処理（補完）」がセットで問われます。<br />
1. <b>リストワイズ削除（完全情報解析）</b>: 欠測があるレコードを丸ごと消す方法。欠測が完全にランダム（MCAR）でない限り、今回のようなバイアスが発生します。<br />
2. <b>平均値補完 / 中央値補完</b>: 空欄に、他のデータの平均値などを埋める方法。簡単ですが、データのばらつき（分散）が不自然に小さくなる弱点があります。<br />
3. <b>多重代入法 / 予測モデルによる補完</b>: 他のカラムの値から、機械学習などを使って空欄の数値を予測して埋める、より高度でバイアスが起きにくい手法です。</p>
<hr />
<h3 style="color: orange;">5. DS検定形式：実戦4択クイズ</h3>
<p><b>問：データの欠測メカニズムにおいて、体重の重い人が体重の入力を拒否するように、「欠測するかどうかが、その欠測した値自体に依存している（他のデータを見ても欠測の理由を説明できない）」最も扱いが難しい欠測の性質を何と呼ぶか。</b></p>
<p>① MCAR（完全にランダムな欠測） &nbsp; ② MAR（条件付きでランダムな欠測） &nbsp; ③ MNAR（ランダムではない欠測） &nbsp; ④ 確定論的欠測</p>
<p><b>【 正解： ③ 】</b></p>
<p><b>解説：</b> 「隠したい数値そのもののせいでデータが消える」状態をMNAR（Missing Not At Random：ランダムではない欠測）と呼びます。これがまさに、今回問題にした「最も強いバイアス」を引き起こす原因となります。</p>
<hr />
<h3 style="color: blue;">6. まとめ</h3>
<p>DS検定において「欠測値を含むデータが多い場合に、それを単純に除外することで生じる偏り」というテーマが出たら「欠測値バイアス」の罠を疑いましょう。データが「ない」ということ自体に重要な意味（メッセージ）が隠されているケースが多いことを、しっかり意識しておきましょう！<br />
<br />
<br />
</p>]]>
    </description>
    <category>DS検定＞1-1-2. 統計数理</category>
    <link>http://learnms.blog.shinobi.jp/Entry/162/</link>
    <pubDate>Sun, 21 Jun 2026 10:39:37 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/162</guid>
  </item>
    <item>
    <title>【DS検定対策】多すぎる変数を賢く選別！「段階的回帰（ステップワイズ法）」の仕組み</title>
    <description>
    <![CDATA[<p>予測モデルを作る際、変数は多ければ多いほど良いとは限りません。本当に必要な変数だけをシステムが自動で選ぶ技術、それが段階的回帰（ステップワイズ法）です。</p>
<h3 style="color: blue;">1. 【 問題 】</h3>
<p>重回帰分析などの変数選択において、すべての変数（特徴量）を一気に投入するのではなく、モデルの予測精度（AICなどの統計量）が最も向上するように、変数を1つずつ順番に追加、または削除しながら最適な変数の組み合わせを自動的に探索する手法を何と呼ぶでしょうか？</p>
<p>① 段階的回帰（ステップワイズ法）<br />
② 主成分分析（PCA）<br />
③ ロジスティック回帰<br />
④ プルーニング（枝刈り）</p>
<hr />
<h3 style="color: #d32f2f;">2. 【 解答 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.2em; font-weight: bold; text-align: center;">正解： ① 段階的回帰（ステップワイズ法）</div>
<hr />
<h3 style="color: blue;">3. 整理：ステップワイズ法の3つのアプローチ</h3>
<p>ステップワイズ法には、変数をどう動かすかによって主に3つの戦術があります。</p>
<table border="1" style="border-collapse: collapse; width: 100%; text-align: left; cellpadding: 8px;">
<tbody>
<tr style="background-color: #f2f2f2; text-align: center;"><th style="width: 25%;">手法名</th><th style="width: 75%;">変数の選び方の特徴</th></tr>
<tr>
<td><b>増加法<br />
（前向き選択）</b></td>
<td>変数ゼロの状態からスタート。モデルの精度を最も上げる変数を<b>「次々に追加」</b>していき、これ以上精度が上がらなくなったらストップする手法。</td>
</tr>
<tr>
<td><b>減少法<br />
（後ろ向き消去）</b></td>
<td>最初にすべての変数を全部投入した状態からスタート。予測に「最も貢献していない（不要な）変数」を1つずつ<b>「削除」</b>していく手法。</td>
</tr>
<tr>
<td><b>増減法<br />
（ステップワイズ）</b></td>
<td>上記のハイブリッド。変数を1つずつ<b>「追加」しつつ、過去に入れた変数が不要になっていないかを毎回チェックして「削除」も行う</b>最も賢い手法。</td>
</tr>
</tbody>
</table>
<h3 style="color: blue;">4. なぜ変数を絞り込む必要があるのか？</h3>
<p>「データがたくさんあるなら、全部の変数を回帰式に入れればいいのでは？」と思いがちですが、それは危険です。<br />
関係のないノイズのような変数までたくさん入れてしまうと、前回の問題で扱った<b>過学習（オーバーフィッティング）</b>の原因になったり、変数同士が数理的に衝突する<b>多重共線性（マルチコ）</b>という不具合を引き起こします。そのため、段階的回帰を使って「少数精鋭の変数」に絞り込むことが実務でも非常に重要になります。</p>
<hr />
<h3 style="color: orange;">5. DS検定形式：実戦4択クイズ</h3>
<p><b>問：段階的回帰（ステップワイズ法）において、変数を追加・削除する際の「予測精度の良さ（モデルのシンプルさと当てはまりの良さのバランス）」を評価するために、最もよく使われる代表的な統計指標はどれか。</b></p>
<p>① 決定係数（$R^2$） &nbsp; ② 赤池情報量基準（AIC） &nbsp; ③ 標準偏差 &nbsp; ④ 相関係数</p>
<p><b>【 正解： ② 】</b></p>
<p><b>解説：</b> ステップワイズ法では、一般的に「AIC（Akaike Information Criterion）」という指標が最小になるように変数を出し入れします。決定係数（①）は変数を増やせば増やすほど勝手に数値が上がってしまうため、変数の選別基準としては適切ではありません。</p>
<hr />
<h3 style="color: blue;">6. まとめ</h3>
<p>DS検定において「精度を上げるために変数を次々に追加（選択）または削除する」という自動選別のキーワードが出たら「段階的回帰（ステップワイズ法）」です。手元にあるデータの過学習を防ぎ、シンプルで本番に強いモデルを作るための王道アプローチとして覚えておきましょう！<br />
<br />
<br />
</p>]]>
    </description>
    <category>DS検定＞1-3-1. 学習モデル</category>
    <link>http://learnms.blog.shinobi.jp/Entry/161/</link>
    <pubDate>Sun, 21 Jun 2026 10:34:10 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/161</guid>
  </item>
    <item>
    <title>【機械学習の知識】数式なしでわかるブートストラップ・リサンプリングの仕組みとアルゴリズム</title>
    <description>
    <![CDATA[<p>限られたデータから統計的な推測を行いたい。しかし、何度もデータを集め直すのは現実的に不可能。その限界を「何度も復元抽出する」というアイデアで突破するのが、ブートストラップ・リサンプリングです。</p>
<h3 style="color: blue;">1. 【 概要 】</h3>
<p>ブートストラップ・リサンプリングとは、手元にある元のデータセット（サンプルサイズ n）から、重複を許して（元に戻しながら）ランダムにデータを取り出し、新しい疑似的なデータセットを何度も作り出す手法です。これにより、手元のデータだけでは分からなかった「統計量のばらつき（分散や信頼区間）」を視覚的・計算的に評価できるようになります。</p>
<hr />
<h3 style="color: #d32f2f;">2. 【 基本アルゴリズム 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.1em; line-height: 1.8; text-align: left;">サンプルサイズを <b>n</b> とする。<br />
<b>(1) n 個の標本を抽出して、その平均を記録する。標本を元に戻す。</b><br />
<b>(2) この処理を N 回繰り返す。</b><br />
<b>(3) N 個の結果を使って、統計量などを計算する。</b></div>
<hr />
<h3 style="color: blue;">3. 整理：各ステップで何が行われているのか？</h3>
<p>一見するとシンプルな処理ですが、データサイエンスにおいて非常に強力な効果を発揮します。それぞれのステップを具体的に見ていきましょう。</p>
<p>【 アルゴリズムの具体的な処理内容 】</p>
<div style="font-family: monospace; border: 1px solid #ccc; padding: 10px; line-height: 1.6;">・<b>ステップ(1)：復元抽出と記録</b><br />
元のデータからランダムに1個選び、記録したら「また元のデータの中に戻す」という操作（<b>復元抽出</b>）を <b>n 回</b> 繰り返して新しいデータセットを作ります。この新しいデータセットの平均値などの統計量を計算し、記録します。同じデータが2回以上選ばれることもあれば、1度も選ばれないデータもあります。<br />
<br />
・<b>ステップ(2)：N回の繰り返し</b><br />
ステップ(1)の「n個選んで平均を記録する」という一連の処理を、十分に大きな回数（<b>N回</b>。一般的に数百〜数千回）繰り返します。手元にN個の「疑似的な平均値のデータ」が集まることになります。<br />
<br />
・<b>ステップ(3)：統計量の計算</b><br />
集まった <b>N 個</b> の結果の分布を見ることで、その統計量がどれくらいバラつくのか（標準誤差）を求めたり、95%信頼区間を推定したりします。</div>
<h3 style="color: blue;">4. 関連して押さえたい「アンサンブル学習（バギング）への応用」</h3>
<p>このブートストラップ・リサンプリングは、統計推定だけでなく、機械学習において高い予測精度を誇るアルゴリズムの基礎にもなっています。<br />
代表例が「<b>バギング（Bootstrap Aggregating）</b>」です。バギングでは、ブートストラップ法によって大量の異なるデータセットを作り出し、それぞれで決定木などの弱学習器を並列に訓練します。これらを組み合わせたモデルが、機械学習で非常によく使われる<b>「ランダムフォレスト」</b>です。</p>
<hr />
<h3 style="color: orange;">5. 補足：一度も選ばれないデータ（約37%）の秘密</h3>
<p>サンプルサイズ n が十分に大きいとき、ブートストラップ抽出において元のデータから「一度も選ばれないデータ」は理論上、全体の<b>約36.8%（約37%）</b>存在します（数式では (1 - 1/n)^n が 1/e に収束するため）。<br />
機械学習のランダムフォレストなどでは、この選ばれなかった約37%のデータを「Out-of-Bag（OOB）データ」と呼び、モデルの性能をテストするための検証用データとして有効活用しています。</p>
<hr />
<h3 style="color: blue;">6. まとめ</h3>
<p>データサイエンスや機械学習の現場において「元に戻しながら何度もデータを集め直す手法」と言えば、このブートストラップ・リサンプリングです。手元にある限られたデータからでも、計算機のパワー（反復処理）を使って統計的な信頼性を評価したり、強力なアンサンブルモデルを作ったりできる重要なアルゴリズムですので、確実に仕組みを押さえておきましょう！<br />
<br />
<br />
</p>]]>
    </description>
    <category>【機械学習の知識】</category>
    <link>http://learnms.blog.shinobi.jp/Entry/160/</link>
    <pubDate>Fri, 19 Jun 2026 23:22:20 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/160</guid>
  </item>
    <item>
    <title>【DS検定対策】消えたデータの声を聴け！「脱落バイアス」の罠</title>
    <description>
    <![CDATA[<p>分析対象者が途中でいなくなってしまう。その「離脱」自体が偏りを生み出す原因になる。それが脱落バイアスです。</p>
<h3 style="color: blue;">1. 【 問題 】</h3>
<p>データ収集や実験のプロセスにおいて、調査対象者が「途中で離脱（脱落）」したことにより、最後まで残った対象者だけのデータに偏りが生じ、正しい分析結果が得られなくなる現象（バイアス）を何と呼ぶでしょうか？</p>
<p>① 生存者バイアス（サバイバーシップ・バイアス）<br />
② 脱落バイアス（アトリッション・バイアス）<br />
③ 回答バイアス<br />
④ 確証バイアス</p>
<hr />
<h3 style="color: #d32f2f;">2. 【 解答 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.2em; font-weight: bold; text-align: center;">正解： ② 脱落バイアス（アトリッション・バイアス）</div>
<hr />
<h3 style="color: blue;">3. 整理：なぜ「脱落」がバイアスを生むのか？</h3>
<p>もし、脱落（離脱）が完全にランダムであれば大きな問題にはなりませんが、現実には<b>「離脱するだけの理由」</b>がそこにあるため、結果が歪みます。</p>
<p>【 ビジネスや研究での具体例 】</p>
<div style="font-family: monospace; border: 1px solid #ccc; padding: 10px; line-height: 1.6;">・<b>事例1：教育アプリの効果測定</b><br />
難関資格の学習アプリで、1ヶ月継続した人の合格率が「90%」だった！<br />
&rArr; <b>罠</b>：実は「内容が難しすぎて挫折した人」が途中で大量に脱落（アンインストール）していた場合、最後まで残った「元から優秀な人」だけの結果を見ている可能性があります。<br />
<br />
・<b>事例2：新薬の臨床試験</b><br />
ある薬を3ヶ月服用してもらう実験で、副作用が非常に強かった人が途中で通院をやめてしまった。<br />
&rArr; <b>罠</b>：最終的に無事完走した人のデータだけを集計すると、「副作用が少なくて効果が高い魔法の薬」に見えてしまう危険があります。</div>
<h3 style="color: blue;">4. 関連して押さえたい「選択バイアス」</h3>
<p>脱落バイアスは、統計学における<b>「選択バイアス（Selection Bias）」</b>という大きな分類の1つです。<br />
似た言葉に、歴史的なエピソード（爆撃から生還した戦闘機の補強など）で有名な「生存者バイアス」がありますが、生存者バイアスが「すでに生き残ったもの（結果）」だけを後から見てしまうことに対し、脱落バイアスは<b>「時間の経過とともに進行形で対象者がいなくなっていくプロセス（縦断調査など）」</b>に注目する点が特徴です。</p>
<hr />
<h3 style="color: orange;">5. DS検定形式：実戦4択クイズ</h3>
<p><b>問：WebサービスのA/Bテストにおいて、新機能（B案）のページが非常に重く、読み込みに時間がかかったため、多くのユーザーが途中でブラウザを閉じて離脱してしまった。この状況で、ページを最後まで読み込んでコンバージョン（購入）したユーザーだけのデータで効果測定を行う際に発生するバイアスとして最も適切なものはどれか。</b></p>
<p>① 確証バイアス &nbsp; ② 脱落バイアス &nbsp; ③ 社会的妥当性バイアス &nbsp; ④ 出版バイアス</p>
<p><b>【 正解： ② 】</b></p>
<p><b>解説：</b> 「読み込みが遅くてイライラして途中で離脱した人」の存在を無視し、最後まで粘り強く待ってくれた熱狂的なユーザーだけの数値で評価してしまうため、これも典型的な脱落バイアスです。</p>
<hr />
<h3 style="color: blue;">6. まとめ</h3>
<p>DS検定やデータ分析の現場において「途中で対象者が離脱したことで生じる偏り」という記述が出たら、それは「脱落バイアス」を指します。データサイエンスでは、手元にある綺麗なデータだけでなく、<b>「消えてしまったデータ（離脱した人）の理由」</b>にこそ、システム改善の最大のヒントが隠されていることを忘れないようにしましょう！</p>]]>
    </description>
    <category>DS検定＞1-1-2. 統計数理</category>
    <link>http://learnms.blog.shinobi.jp/Entry/159/</link>
    <pubDate>Fri, 19 Jun 2026 23:11:50 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/159</guid>
  </item>
    <item>
    <title>【DS検定対策】まずは手元のデータで評価！「訓練誤差」の意味と付き合い方</title>
    <description>
    <![CDATA[<p>AIモデルを作ったら、まずは手元にあるデータを使ってどれくらい予測が当たっているかを計算します。その時に算出されるのが「訓練誤差」です。</p>
<h3 style="color: blue;">1. 【 問題 】</h3>
<p>機械学習のモデル評価において、「モデルの学習（訓練）に用いたデータそのもの」をモデルに入力した際に生じる、予測値と正解データとの間の誤差のことを何と呼ぶでしょうか？</p>
<p>① 汎化誤差（はんかごさ）<br />
② 訓練誤差（学習誤差）<br />
③ 評価誤差（テスト誤差）<br />
④ 残差（ざんさ）</p>
<hr />
<h3 style="color: #d32f2f;">2. 【 解答 】</h3>
<div style="background-color: #eeeeee; border: 2px solid #333; padding: 15px; font-size: 1.2em; font-weight: bold; text-align: center;">正解： ② 訓練誤差（学習誤差）</div>
<hr />
<h3 style="color: blue;">3. 整理：訓練誤差と「過学習（オーバーフィッティング）」の関係</h3>
<p>訓練誤差は、モデルが手元のデータをどれくらい「カンペキに暗記できたか」を表す指標です。そのため、以下のような落とし穴が存在します。</p>
<p>【 訓練誤差のキャラクター 】</p>
<div style="font-family: monospace; border: 1px solid #ccc; padding: 10px; line-height: 1.6;">・<b>学習が進むとどうなる？</b><br />
AIが手元のデータをどんどん学習していくと、訓練誤差は基本的に<b>ゼロに向かって下がり続けます</b>。<br />
<br />
・<b>「訓練誤差＝0」は本当にハッピー？</b><br />
いいえ！手元のデータを完璧に覚え込みすぎた結果、データに含まれる「ノイズ（偶然のブレ）」まで学習してしまい、いざ本番環境で「新しい未知のデータ」を入力したときに全く予測が当たらなくなる現象が起きます。これを<b>過学習（オーバーフィッティング）</b>と呼びます。</div>
<h3 style="color: blue;">4. 対比して覚えたい「汎化誤差」</h3>
<p>訓練誤差の対義語として必ず出題されるのが<b>「汎化誤差（はんかごさ）」</b>です。<br />
これは、学習には一切使っていない「未知のデータ」に対する予測誤差のことです。データサイエンティストが本当に目指すべきゴールは、訓練誤差をゼロにすることではなく、この<b>「汎化誤差を最小にすること」</b>です。</p>
<hr />
<h3 style="color: orange;">5. DS検定形式：実戦4択クイズ</h3>
<p><b>問：学習を繰り返すうちに、「訓練誤差」は下がり続けているにもかかわらず、「汎化誤差（テスト誤差）」が途中から上昇し始めてしまった。この状態を説明する言葉として最も適切なものはどれか。</b></p>
<p>① アンダーフィッティング（学習不足） &nbsp; ② オーバーフィッティング（過学習） &nbsp; ③ 勾配消失 &nbsp; ④ 負の転移</p>
<p><b>【 正解： ② 】</b></p>
<p><b>解説：</b> まさに過学習が起きている瞬間の特徴です。この現象を防ぐために、あらかじめデータを「訓練用」と「テスト用」に分割して別々に誤差を監視する「交差検証（クロスバリデーション）」などの技術が使われます。</p>
<hr />
<h3 style="color: blue;">6. まとめ</h3>
<p>DS検定において「学習時の訓練データと正解データの誤差」という記述が出たら、シンプルに「訓練誤差」です。これ単体が低ければ良いというわけではなく、未知のデータに対する「汎化誤差」とセットで比較・評価するものだという大原則を押さえておきましょう！<br />
<br />
<br />
</p>]]>
    </description>
    <category>DS検定＞1-3-1. 学習モデル</category>
    <link>http://learnms.blog.shinobi.jp/Entry/158/</link>
    <pubDate>Fri, 19 Jun 2026 22:51:31 GMT</pubDate>
    <guid isPermaLink="false">learnms.blog.shinobi.jp://entry/158</guid>
  </item>

    </channel>
</rss>