【DS検定対策】画像の中の「位置」を特定せよ！バウンディングボックスの基礎

AIに画像の中の物体を「見つけさせる」技術、物体検出。その検出結果を画面上で表現する「四角い枠」の正体を学びましょう。

1. 【問題】

画像認識の「物体検出（Object Detection）」タスクにおいて、AIが検出した対象物（自動車や人間など）の「位置」と「大きさ」を示すために、対象物を囲むように設定される四角形の枠（矩形領域）を何と呼ぶでしょうか？

① アンカーボックス
② バウンディングボックス（Bounding Box）
③ ヒートマップ
④ セグメンテーションマスク

2. 【解答】

正解： ② バウンディングボックス（Bounding Box）

3. 整理：エンジニア視点で見る「四角枠」の正体

画面上ではただの四角い線ですが、システム内部（APIのレスポンスやアノテーションデータ）では、主に以下の4つの数値の組み合わせとして表現されています。

【代表的なデータ表現形式】

・形式1： [ x_min, y_min, x_max, y_max ]

四角形の「左上の座標」と「右下の座標」で表す形式。

・形式2： [ x_center, y_center, width, height ]（YOLOなどで主流）

四角形の「中心の座標」と「幅」「高さ」で表す形式。

--------------------------

◎ 物体検出タスクのゴール：

物体検出AIは、画像の中に「何があるか（クラス分類）」と同時に、この「4つの数値を予測する（回帰）」という2つのタスクを同時にこなしています。

4. セットで覚えたい超頻出指標「IoU」

物体検出の評価では、「IoU（Intersection over Union）」という指標が100%と言っていいほど出題されます。
これは、人間が付けた「正しい枠（正解データ）」と、AIが予測した「バウンディングボックス」がどれくらい重なっているかを0〜1の数値で表したものです。重なりが大きいほど（1に近づくほど）「位置予測の精度が高い」と判定されます。

5. DS検定形式：実戦4択クイズ

問：バウンディングボックスのような「四角い枠」ではなく、物体の輪郭に沿ってピクセル単位で厳密に領域を塗り分けるタスクを何と呼ぶか。

① 画像分類（Classification） ② セマンティックセグメンテーション ③ 姿勢推定 ④ 特徴量抽出

【正解： ② 】

解説： 四角で囲むのが「物体検出」、ピクセル単位で「ここが猫、ここが背景」と塗り分けるのが「セグメンテーション」です。この違いも試験で非常に狙われやすいポイントです。

6. まとめ

DS検定において「物体検出で用いられる検出位置を表す」「対象を囲む矩形（四角）」という記述が出たら「バウンディングボックス」です。データ構造としてはシンプルな4つの数値ベクトルであるという点も、イメージできるようにしておきましょう！