忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】効率的に数え上げる!「約数の個数」は素因数分解で攻略

データの構造を理解する際、大きな数字を要素ごとに分解して考える手法は非常に重要です。今回は144を題材に、素因数分解を利用して「約数の個数」を機械的に求める方法を解説します。

1. 問題:144の正の約数の個数

【 問題 】 144の正の約数は、全部で何個あるでしょうか?

① 10個   ② 12個   ③ 15個   ④ 18個

2. 整理:素因数分解(指数の活用)

約数を一つずつ書き出すのは時間がかかります。まずは144を素数の掛け算に分解(素因数分解)し、その「指数(階乗)」に注目するのがコツです。

【 世界の切り出し 】

[ 144を素因数分解する ]
144 = 12 × 12
    = (2^2 × 3) × (2^2 × 3)
    = 2^4 × 3^2

[ 約数が作られる仕組み ]
約数は、「2を何個使うか」と「3を何個使うか」の組み合わせで決まります。

・2の使い道:{使わない(0個), 1個, 2個, 3個, 4個} の 5通り
・3の使い道:{使わない(0個), 1個, 2個} の 3通り

個数の計算: 5 × 3 = 15個

--------------------------

公式のイメージ: (指数 + 1) を掛け合わせる

3. 計算プロセス

1. 素因数分解: 144を 2^4 × 3^2 の形にします。
2. 指数に1を足す: 2の指数「4」に1を足して「5」、3の指数「2」に1を足して「3」とします。(※「使わない」という選択肢を1通り加えるためです)
3. 掛け合わせる: 5 × 3 を計算して 15個 となります。


4. DS検定形式:実戦4択クイズ

問:自然数 $N$ が $p^a \times q^b$($p, q$は素数)と素因数分解されるとき、その正の約数の個数を求める式として正しいものはどれか。

① $a \times b$   ② $(a+1) + (b+1)$   ③ $(a+1) \times (b+1)$   ④ $a^p \times b^q$

【 正解: ③ 】

解説: 各素因数について「0個から最大数まで」の選択肢があるため、それぞれの指数に1を足したものを掛け合わせることで、すべての約数の組み合わせ(個数)を網羅できます。


5. まとめ

大きな数字の約数を探すとき、やみくもに割り切れる数字を探すのは非効率です。素因数分解をして「構成要素」を分解することで、今回のように計算だけで確実に個数を導き出せます。データ構造を最小単位まで分解して考える癖をつけましょう!



PR

【DS検定対策】確率の余事象を攻略!「積が偶数」は逆から考えるのがコツ

確率の計算で「〜が偶数になる」「少なくとも〜」という言葉が出てきたら、そのまま数える前に「逆のパターン」を考えた方が早い場合があります。今回はサイコロの積を題材に、効率的な解き方を解説します。

1. 問題:2つの目の積が偶数

【 問題 】 大小2個のサイコロを同時に投げたとき、出る目の積(かけ算)が「偶数」になる確率はいくらでしょうか?

① 1/4   ② 1/2   ③ 3/4   ④ 5/6

2. 整理:世界を「奇数」で絞り込む

「積が偶数」になるパターンは、【奇×偶】【偶×奇】【偶×偶】と多くて大変です。そこで、唯一の例外である【奇数 × 奇数 = 奇数】だけを数えて、全体から引く「余事象」の考え方を使います。

【 世界の切り出し 】

[ 全体の世界 ]
6(大) × 6(小) = 36通り

[ 逆の世界(積が奇数になる場合) ]
積が奇数になるには、「大も小も両方とも奇数」である必要があります。
・大が奇数:{1, 3, 5} の 3通り
・小が奇数:{1, 3, 5} の 3通り

3 × 3 = 9通り

[ ターゲット(積が偶数になる場合) ]
全体(36) - 逆の世界(9) = 27通り

--------------------------

確率: 27 / 36 = 3 / 4

3. 計算プロセス(図解イメージ)

1. 全事象を把握: 6×6の36マスをイメージします。
2. 例外を引く: 36マスの中で、縦も横も「1,3,5」が交差するエリア(3×3=9マス)だけが「積が奇数」のエリアです。
3. 答えを出す: 残りの 27マスが「積が偶数」になります。 27/36 を約分して 3/4


4. DS検定形式:実戦4択クイズ

問:ある事象Aに対して、「事象Aが起こらない」という事象のことを、統計学・確率論で何と呼ぶか。

① 独立事象   ② 排反事象   ③ 余事象   ④ 条件付き事象

【 正解: ③ 】

解説: ある事象が「起こらない」方の事象を「余事象(よじしょう)」と呼びます。全体の確率1から事象Aの確率を引くことで、複雑な計算をショートカットできる、データ分析でも必須のテクニックです。


5. まとめ

「偶数になる組み合わせを全部書き出す」のは時間がかかり、ミスも起きやすくなります。「逆(奇数)を数えて引く」という視点を持つだけで、計算スピードは劇的に上がります。DS検定の限られた時間内でも、この「引き算の思考」を武器にしましょう!


【DS検定対策】その数字に騙されるな!「擬似相関」を見抜く思考法

データ分析の結果、一見すると納得感のある結論が出たとしても、それが「真実の因果」とは限りません。今回は、実社会でもよくある事例をもとに、擬似相関の正体を詳しく解説します。

1. 問題:読書量とテストの点数

【 問題 】 ある小学校で調査したところ、「自宅にある本の数が多い子供ほど、テストの点数が高い」という強い相関が見つかりました。この結果から「子供に本を買い与えれば、成績は必ず上がる」と結論づける際に、最も注意すべき点はどれでしょうか?

① 本のページ数と点数の相関も調べるべきである  
② 「保護者の教育意識や年収」という共通要因が、両方に影響している可能性がある  
③ 統計学的に、本の数と点数が関係することは絶対にありえない  
④ デジタル書籍(Kindleなど)を数に含めていないのが問題である

2. 整理:背後に潜む「黒幕」の正体

二つの事象が連動しているとき、その背後で両方を操っている「第三の変数」が存在しないかを考えます。

【 世界の切り出し 】

[ 表面的な相関 ]
・家の本の数
・テストの点数
(一見、本が点数を上げているように見える)

[ 隠れた交絡因子(黒幕) ]
真の要因は 「保護者の教育への関心・経済力」 などです。

1. 教育意識が高い → 家に本をたくさん買う(結果A)
2. 教育意識が高い → 勉強を教える環境が整う → 点数が高い(結果B)

結論:本を買うこと「だけ」で点数が上がるわけではない

--------------------------

教訓: データの連動=仕組みの解明ではない

3. 解説プロセス

1. もっともらしい仮説を疑う: 「本を読めば頭が良くなる」という仮説は魅力的ですが、データはその証明には不十分です。
2. 共通の原因を探す: 本を買う余裕や習慣がある家庭の「他の特徴」を想像してみます。
3. 打ち手の有効性を考える: もし擬似相関なら、本を配るだけの施策では成績向上(目的達成)には繋がりません。


4. DS検定形式:実戦4択クイズ

問:擬似相関を排除し、真の因果関係を測定するために、対象をランダムに2群に分けて比較する実験手法を何と呼ぶか。

① 主成分分析   ② 時系列分析   ③ ランダム化比較試験(RCT)   ④ 重回帰分析

【 正解: ③ 】

解説: ランダム化比較試験(RCT)は、未知の交絡因子の影響を均等化できるため、因果推論の「黄金律」と呼ばれます。ビジネスの現場では「A/Bテスト」として広く活用されています。


5. まとめ

「本の数」と「学力」の例のように、擬似相関は一見すると正しい論理のように聞こえるのが特徴です。DS検定でも、「この相関を説明できる別の要因はないか?」と常に自問自答する姿勢が求められます。


【DS検定対策】データの罠を見抜く!「相関と因果」の違いを理解するコツ

データ分析で最も陥りやすい罠が、相関関係と因果関係の混同です。今回は、DS検定でも頻出の「擬似相関」を題材に、正しくデータを読み解く考え方を解説します。

1. 問題:アイスと水難事故の関係

【 問題 】 ある地域でデータを取ると、「アイスクリームの売上が増えると、水難事故の件数も増える」という強い正の相関が見られました。この現象の解釈として、最も適切なものはどれでしょうか?

① アイスを食べることが水難事故の直接的な原因である  
② 水難事故が増えると、ストレスでアイスの消費が増える  
③ 「気温の上昇」という共通要因が、両方に影響を与えている  
④ この二つの間には、統計的な関連性は全く存在しない

2. 整理:相関と因果の「世界」を切り分ける

相関があるからといって、すぐに「原因と結果」だと決めつけるのは危険です。背後に隠れた「第三の変数」を疑うのがコツです。

【 世界の切り出し 】

[ 見えている世界(相関関係) ]
・アイスの売上
・水難事故の件数
(統計上、二つは連動して動いている)

[ 本当の世界(因果の構造) ]
真の原因は 「気温の上昇(猛暑)」 です。

1. 気温が上がる → アイスが売れる(因果A)
2. 気温が上がる → 泳ぐ人が増える → 事故が増える(因果B)

結論:アイスと事故に直接の因果はない

--------------------------

この現象の名前: 擬似相関(見せかけの相関)

3. 解説プロセス

1. 連動を確認する: 二つのデータが一緒に動いているなら、まずは「相関あり」と判断します。
2. 黒幕(交絡因子)を疑う: 両方に影響を与えている「第三の変数(今回は気温)」がないか検討します。
3. 因果を判定する: 第三の変数によって説明がつく場合、それは直接の因果ではなく「擬似相関」と呼びます。


4. DS検定形式:実戦4択クイズ

問:原因と結果の両方に影響を与え、あたかも因果関係があるかのように見せてしまう「第三の変数」を何と呼ぶか。

① 独立変数   ② 交絡因子   ③ ダミー変数   ④ 説明変数

【 正解: ② 】

解説: 「交絡因子(こうらくいんし)」は、相関と因果を混同させる原因となる変数です。これを取り除いて分析(変数の制御)をしないと、誤った意思決定をしてしまう可能性があります。


5. まとめ

「相関関係は因果関係を意味しない(Correlation does not imply causation)」という言葉は、データサイエンティストにとっての金言です。数字の連動だけに惑わされず、その裏にある現実の仕組みを想像する力を養いましょう!


【DS検定対策】グループ分けの基準を作る!「判別分析」の仕組み

未知のデータが「Aグループ」か「Bグループ」か、どちらに属するかを予測したい。そんなときに、境界線となる「判別関数」を作り出す手法が「判別分析」です。

1. 【 問題 】

既にどのグループに属しているかが分かっているデータをもとに、未知のデータがどのグループに属するかを判定するための基準(関数)を作成する統計的手法を何と呼ぶでしょうか?

① 主成分分析
② クラスター分析
③ 判別分析
④ 因子分析


2. 【 解答 】

正解: ③ 判別分析

3. 整理:グループを「最も効率よく」分ける線

判別分析は、グループ内のバラツキ(分散)を小さくし、グループ同士の離れ具合(分散)を最大にするような「境界線(判別平面)」を見つけ出します。

【 判別分析のイメージ 】

[ 1. 学習データの準備 ]
「購入した客」と「購入しなかった客」の年齢・年収データ。

[ 2. 判別関数の作成 ]
★ ここが判別分析!
2つのグループが最もきれいに分かれる「物差し(境界線)」を計算。

[ 3. 未知データの判定 ]
新しい客のデータをその物差しに当てはめ、どちらのグループに近いか判定。

--------------------------

特徴: 分類するだけでなく、「どの変数が分類に最も影響を与えているか」を分析できるのも大きなメリットです。

4. 間違いやすいポイント

1. クラスター分析との違い: 判別分析は「答え(グループ名)が既にある」データを使う教師あり学習です。クラスター分析は答えがない状態から分ける「教師なし学習」です。
2. 線形判別分析 (LDA): 最も一般的な手法で、境界線を直線(平面)で引きます。
3. 実務での活用: 銀行の融資審査(貸せるか・貸せないか)や、病気の診断(陽性か・陰性か)などに使われます。


5. DS検定形式:実戦4択クイズ

問:2つのグループを分ける際、境界線が直線で表されるものを「線形判別分析」と呼びますが、境界線が曲線(2次式)になる手法を何と呼ぶか。

① 重回帰分析   ② 2次判別分析   ③ 曲線判別分析   ④ 非線形回帰

【 正解: ② 】

解説: 各グループの分散が異なると仮定し、境界線が曲線(2次の多項式)になるものを「2次判別分析」と呼びます。線形判別よりも複雑な境界を引くことができます。


6. まとめ

DS検定において「未知のデータがどのグループに属するか判定する」「境界線(判別関数)を作る」という記述が出たら「判別分析」が正解です。教師あり学習の分類手法として、ロジスティック回帰と並んで基礎となる重要用語です!