忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】文章を数字の列に変える!Bag-of-Words(BoW)の仕組み

コンピュータは「言葉」をそのまま理解できません。テキストを「単語の出現回数」という数字のリストに変換するのが、Bag-of-Words(BoW)です。

1. 【 問題 】

自然言語処理における前処理(ベクトル化)の手法において、文章中の語順や文法構造をすべて無視し、どの単語が何回出現したかという「頻度」のみに着目して文書を数値化する手法を何と呼ぶでしょうか?

① Word2Vec
② Bag-of-Words(BoW)
③ 形態素解析
④ N-gram


2. 【 解答 】

正解: ② Bag-of-Words(BoW)

3. 整理:文章が「数字のリスト」になるイメージ

例えば、あらかじめ辞書に「私」「カレー」「食べた」「テニス」という単語が登録されているとします。このとき、2つの文章は以下のように数値化(ベクトル化)されます。

【 ベクトル化の具体例 】

辞書の並び: [ 私, カレー, 食べた, テニス ]

・文章A:「私はカレーを食べた」
[ 1, 1, 1, 0 ] (テニスは0回)

・文章B:「私はテニスをした後にカレーを食べた」
[ 1, 1, 1, 1 ] (各1回ずつ)

--------------------------

メリット: 構造が非常にシンプルなため、計算が高速で、ナイーブベイズなどのアルゴリズムと組み合わせて「スパムメール判定」などに古くから大活躍しています。

4. Bag-of-Wordsの限界と発展形

1. 語順が無視される: 「私があなたを好き」と「あなたが私を好き」は、BoWでは全く同じ数値になってしまい、意味の違いを区別できません。
2. 「てにをは」が強くなる: 出現回数だけを数えるため、「〜です」「〜ます」のような、どの文章にも出る定番ワードが一番重要だと誤判定されがちです。

これを解決するのが「TF-IDF」です!
「よく出る単語の価値を低く、特定の文章にしか出ないレア単語の価値を高く」補正するTF-IDFは、BoWの発展形としてDS検定の超・超頻出ポイントです。


5. DS検定形式:実戦4択クイズ

問:Bag-of-Wordsのように単語単位で区切るのではなく、文字や単語を「連続するN個の塊」として区切ることで、語順の情報をある程度残したまま頻度を数える手法を何と呼ぶか。

① TF-IDF   ② コサイン類似度   ③ N-gram   ④ 感情極性辞書

【 正解: ③ 】

解説: 例えば「テニス」を2文字ずつ区切って「テニ」「ニス」として数えるような手法を「N-gram(この場合はBi-gram)」と呼びます。BoWの「語順が消える」という弱点を補うためによく使われます。


6. まとめ

DS検定において「どの単語が何回出現したかを数値化」「語順を無視」というキーワードが出たら「Bag-of-Words(BoW)」です。テキストデータをAIに投入するための第一歩となる重要な手法として、しっかり記憶にセットしておきましょう!

PR

【DS検定対策】画像の中の「位置」を特定せよ!バウンディングボックスの基礎

AIに画像の中の物体を「見つけさせる」技術、物体検出。その検出結果を画面上で表現する「四角い枠」の正体を学びましょう。

1. 【 問題 】

画像認識の「物体検出(Object Detection)」タスクにおいて、AIが検出した対象物(自動車や人間など)の「位置」と「大きさ」を示すために、対象物を囲むように設定される四角形の枠(矩形領域)を何と呼ぶでしょうか?

① アンカーボックス
② バウンディングボックス(Bounding Box)
③ ヒートマップ
④ セグメンテーションマスク


2. 【 解答 】

正解: ② バウンディングボックス(Bounding Box)

3. 整理:エンジニア視点で見る「四角枠」の正体

画面上ではただの四角い線ですが、システム内部(APIのレスポンスやアノテーションデータ)では、主に以下の4つの数値の組み合わせとして表現されています。

【 代表的なデータ表現形式 】

形式1: [ x_min, y_min, x_max, y_max ]
四角形の「左上の座標」と「右下の座標」で表す形式。

形式2: [ x_center, y_center, width, height ](YOLOなどで主流)
四角形の「中心の座標」と「幅」「高さ」で表す形式。

--------------------------

物体検出タスクのゴール:
物体検出AIは、画像の中に「何があるか(クラス分類)」と同時に、この「4つの数値を予測する(回帰)」という2つのタスクを同時にこなしています。

4. セットで覚えたい超頻出指標「IoU」

物体検出の評価では、「IoU(Intersection over Union)」という指標が100%と言っていいほど出題されます。
これは、人間が付けた「正しい枠(正解データ)」と、AIが予測した「バウンディングボックス」がどれくらい重なっているかを0〜1の数値で表したものです。重なりが大きいほど(1に近づくほど)「位置予測の精度が高い」と判定されます。


5. DS検定形式:実戦4択クイズ

問:バウンディングボックスのような「四角い枠」ではなく、物体の輪郭に沿ってピクセル単位で厳密に領域を塗り分けるタスクを何と呼ぶか。

① 画像分類(Classification)   ② セマンティックセグメンテーション   ③ 姿勢推定   ④ 特徴量抽出

【 正解: ② 】

解説: 四角で囲むのが「物体検出」、ピクセル単位で「ここが猫、ここが背景」と塗り分けるのが「セグメンテーション」です。この違いも試験で非常に狙われやすいポイントです。


6. まとめ

DS検定において「物体検出で用いられる検出位置を表す」「対象を囲む矩形(四角)」という記述が出たら「バウンディングボックス」です。データ構造としてはシンプルな4つの数値ベクトルであるという点も、イメージできるようにしておきましょう!

【DS検定対策】AI学習の原点!「ヘッブの学習則」を直感的に理解する

現在のディープラーニングは、ニューロン同士の「結びつきの強さ(重み)」を調整することで学習しています。この仕組みのモデルとなった脳科学の基本原則が「ヘッブの学習則」です。

1. 問題:ヘッブの学習則が示す現象

【 問題 】 脳の神経回路において、「シナプス前細胞とシナプス後細胞が同時に興奮すると、そのシナプス結合が強化される」というヘッブの学習則を説明する言葉として、最も適切なものはどれでしょうか?

① 誤差逆伝播により、神経細胞の出力が抑制される  
② 共に火を吹くニューロンは、互いにつながり合う(連動して強化される)  
③ 脳の神経細胞は、一度結合すると二度と変化しない  
④ 新しい刺激を受けるたびに、すべてのニューロンの結合が一斉にリセットされる

【 正解: ② 】

2. 整理:ヘッブ則の「世界」とメカニズム

ヘッブ則は、よく「Fire together, wire together(共に興奮するものは、共につながる)」という言葉で表現されます。脳が経験を通じて変化する仕組みの基本です。

【 世界の切り出し 】

[ 強化される条件 ]
・信号を「送る側(前)」のニューロンが興奮する ⚡
・同時に「受け取る側(後)」のニューロンも興奮する ⚡
(タイミングがぴったり一致することが条件)

[ 起こる変化 ]
・二つの間を中継している「シナプス」の通りが良くなる。
・次回から、送る側が少し興奮しただけで、受け取る側も簡単に興奮するようになる。= 結合の強化

結論:よく使うルート(回路)ほど、太く強固になる

--------------------------

AIへの応用: 後の「パーセプトロン」や「ニューラルネットワーク」の重み学習の基礎となった

3. 解説プロセス

1. 条件の確認: 「前」と「後」の細胞が「同時」に活性化することがポイントです。片方だけが動いていても結合は強化されません。
2. 記憶の正体: 私たちが何かを「学習」したり「記憶」したりするとき、脳内ではこのヘッブ則によって特定の神経ルートが太くなっています。
3. 答えを出す: ニューロンが同時に興奮(火を吹く)ことで結びつき(ワイヤー)が強くなる現象を表現した が正解です。


4. DS検定形式:実戦4択クイズ

問:ヘッブの学習則のように、生物の脳の神経回路が環境や経験に応じて柔軟に構造を変化させる性質のことを、脳科学の用語で何と呼ぶか。

① 神経可塑性(かそせい)   ② 自己組織化   ③ 線形分離可能性   ④ 局所最適化

【 正解: ① 】

解説: 脳の回路が柔軟に変形・書き換えられる性質を「神経可塑性(Neural Plasticity)」と呼びます。ヘッブ則はこの可塑性を説明する最も代表的なメカニズムであり、機械学習がデータを元に「パラメータを書き換える」という発想の原点になりました。


5. まとめ

「同時に興奮すると結合が強くなる」というヘッブの学習則は、1949年にドナルド・ヘッブによって提唱された古典的かつ超重要な理論です。現代のディープラーニングのアルゴリズム(誤差逆伝播法など)はより複雑に進化していますが、その思想の根底にはこのヘッブ則があることをDS検定の歴史的背景として押さえておきましょう!


【DS検定対策】コイン投げからABテストまで!「二項分布」の基礎

「表か裏か」「購入か非購入か」。結果が2通りしかない試行を繰り返したとき、成功する回数のばらつきを表すのが二項分布です。

1. 【 問題 】

コインを投げたときに「表が出るか裏が出るか」のように、結果が2通りしか存在しない独立な試行(ベルヌーイ試行)を $n$ 回繰り返したとき、目的とする事象がちょうど $k$ 回起こる確率の分布を何と呼ぶでしょうか?

① 正規分布
② ポアソン分布
③ 二項分布
④ 指数分布


2. 【 解答 】

正解: ③ 二項分布

3. 整理:二項分布が成り立つ「条件」

二項分布を適用するためには、その前提となる試行が以下の条件を満たしている必要があります。これを「ベルヌーイ試行」と呼びます。

【 二項分布の3大特徴 】

結果が2択である
 「成功か失敗か」「購入か見送りか」のように、状態が2つだけ。

各試行が独立である
 1回目の結果が、2回目の確率に影響を与えない。

確率が一定である
 何回繰り返しても、1回あたりに成功する確率 $p$ は変わらない。

--------------------------

ビジネスでの具体例:
・メルマガを1000人に配信したとき、何人が開封してくれるか?
・ある部品を50個製造したとき、不良品が何個含まれるか?

4. 超頻出:正規分布との美しいつながり

二項分布は「1回、2回…」と数える**離散確率分布**です。しかし、試行回数 $n$ が十分に大きくなると、この二項分布の形はきれいな左右対称の山型になり、連続確率分布である**「正規分布」**に近似(変化)するという性質を持っています(中心極限定理)。
この「データ数が多ければ正規分布として扱ってよい」という割り切りが、実務での統計的検定(A/Bテストの有意差判定など)を劇的に楽にしています。


5. DS検定形式:実戦4択クイズ

問:1回の成功確率が $p$ である試行を $n$ 回繰り返す二項分布において、その「平均(期待値)」を表す正しい数式はどれか。

① $p$   ② $np$   ③ $np(1-p)$   ④ $\sqrt{np(1-p)}$

【 正解: ② 】

解説: 二項分布の平均は $np$ で非常にシンプルに計算できます(例:成功確率10%のガチャを100回引いたら、平均10回当たる)。ちなみに ③ は「分散」、④ は「標準偏差」の数式です。


6. まとめ

DS検定において「2通りの結果」「$n$ 回繰り返す」「成功回数の分布」という記述が出たら間違いなく「二項分布」です。データ分析の現場でも、コンバージョン率(CVR)のばらつきを評価する際などに裏で必ず使われている、超基本にして最強の武器として押さえておきましょう!

【DS検定対策】結果は1つか、確率か?「確定的モデル」と「確率的モデル」の決定的な違い

同じ入力から常に同じ答えを導き出すモデルか、それとも「確率的なゆらぎ」を考慮するモデルか。データ分析の前提を変える2つのアプローチを整理しましょう。

1. 【 問題 】

データサイエンスにおける予測モデルのうち、「まったく同じデータ(入力値)を与えた場合、内部にランダムな要素を持たないため、何度計算しても必ず完全に同じ予測結果(出力値)が得られるモデル」を何と呼ぶでしょうか?

① 確率的モデル
② 確定的モデル
③ 潜在変数モデル
④ 動的モデル


2. 【 解答 】

正解: ② 確定的モデル

3. 整理:2つのモデルの決定的な違い

それぞれのモデルは、現実世界の捉え方が根本から異なります。

モデル型特徴具体例
確定的
モデル
・偶然の要素(確率)を排除する。
・入力が決まれば、出力は一意に(1つに)決定する。
・数式に「誤差項(ランダムなノイズ)」を含めない。
・ニュートンの運動方程式
・シンプルな線形計画法
・決定木(推論時)
確率的
モデル
・現実の「予測不可能な不確実性」を認める。
・出力が確率分布として得られる(例:○%の確率で雨)。
・乱数や確率変数、誤差項を数式に組み込む。
・ロジスティック回帰
・ポアソン過程(ATMの行列)
・気象予測シミュレーション

4. なぜ使い分けるのか?

1. 確定的モデルのメリット: 計算がシンプルで、結果の解釈や再現が容易です。「条件Aなら結果はB」と言い切れる業務ルールに向いています。
2. 確率的モデルのメリット: 「株価の変動」や「顧客の来店予測」のように、人間の行動や複雑な自然現象など、どうしてもノイズ(不確実性)を無視できない現実的な問題を扱うのに適しています。


5. DS検定形式:実戦4択クイズ

問:確率的モデルにおいて、モデルが予測した結果がどれくらい「不確実」であるかを評価するために、予測値と一緒に算出されることが多い指標はどれか。

① 信頼区間(または予測区間)   ② 決定係数   ③ ダミー変数   ④ 特徴量重要度

【 正解: ① 】

解説: 確率的モデルでは「ピンポイントな1点」だけでなく、「95%の確率でこの範囲に収まります」という不確実性の幅(信頼区間・予測区間)をセットで出すことができるのが大きな強みです。


6. まとめ

DS検定において「同じ入力なら常に同じ出力、ランダム性なし」なら「確定的モデル」、「不確実性や確率分布を考慮する」なら「確率的モデル」です。これまで学んできた多くのアルゴリズムが、このどちらの思想で作られているかを意識してみると、理解がさらに深まります!