DS検定＞1-2-1. データ把握｜いけいけ機械学習

【DS検定対策】JSONやXMLの正体！「半構造データ」の特徴とメリット

リレーショナルデータベース（RDB）のテーブルのようにカチッと決まった枠はないけれど、テキストファイルとも違う。柔軟性と扱いやすさを両立したのが「半構造データ」です。

1. 【問題】

データサイエンスで扱うデータの分類において、リレーショナルデータベースのテーブルのように「すべてのデータに共通する厳密な定義（スキーマ）」は存在しないものの、各データがタグやキーなどの自己記述的な構造（スキーマ）を内部に持っているデータ形式を何と呼ぶでしょうか？

① 構造化データ
② 半構造データ
③ 非構造化データ
④ メタデータ

2. 【解答】

正解： ② 半構造データ

3. 整理：3つのデータ形式の違いと具体例

試験や実務では、データを「構造化」「半構造」「非構造」の3つに明確にキャラクター分けして整理しておくことが鉄則です。

データの分類	スキーマ（構造）の特徴	具体的なデータ形式
1. 構造化データ	あらかじめ厳密に定義された枠組み（スキーマ）に従って、行と列にきれいに収まっているデータ。	RDB（関係データベース）のテーブル、CSV、Excelファイルなど。
2. 半構造データ ★今回の主役	全体を一律に縛る枠はないが、データ自身の中に「キー」や「タグ」などの構造（メタデータ）が含まれているデータ。	JSON、XML、WebサイトのHTML、設定ファイル（YAML）など。
3. 非構造化データ	定型的なルールや構造を一切持たない、生のデータ。そのままではRDB等に格納して集計することが難しいデータ。	画像、音声、動画、自然言語のテキスト（メール本文や書籍）など。

4. なぜ今「半構造データ」が重要なのか？

WebサービスのAPI通信や、IoTセンサーから送られてくるログデータなどは、そのほとんどがJSON（半構造データ）でやり取りされます。
「ユーザーによって持っている属性情報（カラム）がバラバラ」「後から新しい項目を急に追加したい」といった場合でも、RDBのように `ALTER TABLE` でシステムを止めたりスキーマ変更をしたりする必要がなく、データをそのまま柔軟に吸い込める（高い拡張性を持つ）という点が、モダンなシステム開発やデータ収集において最大の強みとなっています。

5. DS検定形式：実戦4択クイズ

問：半構造データの代表例である「JSON」の記述ルールに関する説明として、最も適切なものはどれか。

① データを「<tag>データ</tag>」のように、カスタムタグで挟むことで構造を表現する。
② データを「"キー" : 値」のペア（Key-Valueペア）の形式で記述し、全体を中括弧 { } や大括弧 [ ] で囲んで表現する。
③ カンマ（,）で区切られたデータ行のみで構成され、階層構造を表現することはできない。
④ バイナリ形式のデータであり、テキストエディタで直接中身を読んで編集することはできない。

【正解： ② 】

解説： まさにJSON（JavaScript Object Notation）の基本定義です。ちなみに①はXMLの説明、③はCSVの説明です。JSONはテキスト形式でありながら複雑な階層構造（ネスト）を表現できるため、半構造データの王座に君臨しています。

6. まとめ

DS検定において「全体の共通スキーマはないが、個々にスキーマを持っているデータ」という非常に精緻な問題文が出たら「半構造データ（JSONやXML）」の事です。構造化データへの前処理（パース）やNoSQLデータベースの文脈でも必ずセットで問われる知識ですので、その柔軟なメリットをしっかり頭に叩き込んでおきましょう！

【DS検定対策】少ないデータで過学習を防ぐ！「データ拡張」の手法

AIの学習には大量のデータが必要ですが、現実には十分なデータが集まらないことも。そんな時にデータを賢く「水増し」するのがデータ拡張です。

1. 【問題】

機械学習（特に深層学習）において、手元にある限られた教師データを加工・変形（回転、反転、拡大縮小など）することで、実質的にデータの種類や量を増やし、過学習を防ぐ手法を何と呼ぶでしょうか？

① データリーケージ
② データ拡張（データオーグメンテーション）
③ アンサンブル学習
④ 次元圧縮

2. 【解答】

正解： ② データ拡張（データオーグメンテーション）

3. 整理：画像認識における代表的な「水増し」手法

データ拡張は、元のデータが持つ「答え（ラベル）」を変えずに、見た目だけを変化させるのがポイントです。

【よく使われる加工パターンの例】

・幾何学的変換：

　左右反転（フリップ）、回転、拡大・縮小、トリミング（切り抜き）

・色調変換：

　明るさの変更、コントラストの調整、ノイズの追加

--------------------------

★ なぜこれで精度が上がるのか？

AIに「横を向いた猫」や「少し暗い場所にいる猫」の画像も同時に学習させることで、カメラの角度や照明条件が変わっても正しく認識できる「頑健（ロバスト）なモデル」に育つためです。

4. データ拡張の注意点（ドメイン知識の重要性）

何でもかんでも変形すれば良いわけではありません。データの本質（意味）を壊さない加工を選ぶ必要があります。
（例）手書き数字の「6」を180度回転させると「9」になってしまい、正解ラベルが変わってしまうため、数字認識での大幅な回転は不適切となります。

5. DS検定形式：実戦4択クイズ

問：2つの異なる画像（例えば犬と猫）を、ある割合で不透明度を変えて重ね合わせ、ラベルもその割合に応じてブレンド（例：犬0.5、猫0.5）する、ユニークなデータ拡張手法を何と呼ぶか。

① Dropout ② Batch Normalization ③ Mixup ④ Data Cleansing

【正解： ③ 】

解説： 画像同士を混ぜ合わせるデータ拡張手法を「Mixup」と呼びます。モデルの決定境界が滑らかになり、未知のデータに対して過剰に自信を持った誤判定をするのを防ぐ効果があります。

6. まとめ

DS検定において「データの水増し」「既存のデータを変形して生成」という記述が出たら「データ拡張」です。過学習（過剰適合）を防ぐための強力な前処理テクニックとして、その目的と具体的な加工方法を覚えておきましょう！

【DS検定対策】AIの表現力を高める工夫！「派生変数」の作り方

元のデータをそのままAIに投入するのではなく、組み合わせて「新しい意味を持つ変数」を作る。これが特徴量エンジニアリングの基本である派生変数です。

1. 【問題】

データ分析の前処理（特徴量エンジニアリング）において、既存の複数の変数（特徴量）を組み合わせたり、計算処理を行ったりすることで新しく導出される変数のことを何と呼ぶでしょうか？

① 目的変数
② 派生変数（派生特徴量）
③ ダミー変数
④ 潜在変数

2. 【解答】

正解： ② 派生変数（派生特徴量）

3. 整理：なぜ「計算してわざわざ増やす」のか？

元のデータ（生データ）だけでは、AIがその本質的な関係性を学習するのに膨大な時間がかかる（あるいは学習できない）ことがあります。あらかじめ人間が計算してあげることで、モデルの予測精度が大きく向上します。

【よくある派生変数の具体例】

・「身長」と「体重」から導出

　→ BMI ＝ 体重(kg) ÷ 身長(m)の2乗

・「売上額」と「客数」から導出

　→ 客単価 ＝ 売上額 ÷ 客数

・「生年月日」から導出

　→ 現在の年齢、生まれた曜日、星座など

--------------------------

◎ ポイント： ドメイン知識（業務知識）を活かして、「どんな派生変数を作るか」がデータサイエンティストの腕の見せ所になります。

4. 派生変数を作る際の注意点

1. 多重共線性（マルチコ）: 元の変数と派生変数の間で強い相関が生まれるため、線形回帰など一部のモデルでは計算が不安定になる原因になります。
2. データリーケージ（情報の漏洩）: 未来のデータを使って派生変数を作ってしまうと、予測モデルが不正解をカンニングした状態になってしまうため注意が必要です。

5. DS検定形式：実戦4択クイズ

問：派生変数の一種で、カテゴリ変数（「東京」「大阪」など）を機械学習モデルが処理できるように、0と1だけで表した変数のことを何と呼ぶか。

① 目的変数 ② 説明変数 ③ ダミー変数 ④ 連続変数

【正解： ③ 】

解説： カテゴリをフラグ化（One-Hotエンコーディング）したものは「ダミー変数」と呼ばれ、これも立派な派生変数の一種です。

6. まとめ

DS検定において「他の変数から導出できる変数」「組み合わせて作る特徴量」という記述が出たら「派生変数」です。データの組み合わせによって、AIに新しい視点を提供する技術として押さえておきましょう！

【DS検定対策】データ解析の第一歩：探索的データ解析（EDA）

データ分析では、いきなり高度な予測モデルを作る前に、データそのものの姿を捉える工程が欠かせません。今回はその基本用語をクイズで学びましょう。

【問題】

問：データ分析において、分析者が事前に特定の仮説を立てることなく、データそのものを観察・可視化することで、その背後にある構造やパターン、知識を抽出するアプローチを何と呼ぶか。

① 探索的データ解析
② 仮説検証型解析
③ アノテーション
④ データの正規化

【正解】

① 探索的データ解析

【解説】

探索的データ解析（EDA：Exploratory Data Analysis）とは、統計学者のジョン・テューキーが提唱した手法です。先入観（仮説）を持たずにデータを要約・可視化し、異常値の発見や新しい仮説の構築につなげる非常に重要な工程です。

■ 図解イメージ

[仮説検証型]：仮説を立てる → 実験 → 検証（Yes/No）
[探索的解析]：データを見る → 特徴を発見 → 仮説を導き出す

■ 選択肢の用語解説

・アノテーション：画像等に「正解ラベル」を付けるAI学習の準備作業。
・データの正規化：単位や桁が違うデータを一定の範囲に揃える加工手法。

まとめ：
「事前の仮説なしにデータから知識を抽出する＝ 探索的データ解析（EDA）」。この定義をしっかり押さえておきましょう！

【DS検定対策】データの種類をマスター！「パネルデータ」は多次元の視点がコツ

データ分析において、データの「持ち方」を理解することは適切な手法を選ぶ第一歩です。今回は、クロスセクションと時系列を掛け合わせた「パネルデータ」の正体をわかりやすく解説します。

1. 問題：パネルデータの特徴

【問題】 統計学における「パネルデータ」の説明として、最も適切なものはどれでしょうか？

① ある1時点において、複数の調査対象（世帯や企業など）を観測したデータ
② 1つの調査対象について、時間の経過とともに連続的に記録したデータ
③ 同一の複数の調査対象（個体）を、複数の時点にわたって追跡して記録したデータ
④ インターネット上の不特定多数から、ランダムに収集された大規模なデータ

2. 整理：データの3つのカタチ

パネルデータは、いわば「クロスセクション（横）」と「時系列（縦）」のハイブリッドです。

【世界の切り出し】

[ 1. クロスセクションデータ ]

ある瞬間の「スナップショット」。

例：2026年4月の「世帯A、世帯B、世帯C」の家計状況

[ 2. 時系列データ ]

ある対象の「履歴」。

例：世帯Aの「1月、2月、3月……」の家計の推移

[ 3. パネルデータ（今回のターゲット） ]

同じ対象をずっと追いかける「追跡調査」。

例：世帯A、世帯B、世帯Cそれぞれの「1月、2月、3月……」の家計データ

★ 結論：個体差と時間変化を同時に分析できる

--------------------------

◎ 具体例： 家計パネル調査、経済統計の企業パネルなど

3. 解説プロセス

1. 次元を確認する: 「どの世帯が（個体識別）」と「いつ（時間軸）」の両方のラベルが付いているかを確認します。
2. 強みを理解する: 特定の世帯が時間の経過でどう変化したか（経年変化）と、世帯ごとの違い（個体差）を切り分けて分析できるのが最大の特徴です。
3. 実用上の意味: 政策の効果測定などで、「同じ人たちが施策の前後でどう変わったか」を正確に把握するために非常に重宝されます。

4. DS検定形式：実戦4択クイズ

問：パネルデータを用いることで、クロスセクションデータのみの分析では困難な「個体固有の観察不可能な要因」を制御できるモデルを何と呼ぶか。

① 固定効果モデル ② ロジスティック回帰モデル ③ 決定木モデル ④ クラスタリングモデル

【正解： ① 】

解説： パネルデータ分析でよく使われる「固定効果モデル」は、各個体が持つ変化しない特性（性格や地域性など）を差し引いて、純粋な変数の影響を測定するために用いられます。これはパネルデータならではの強力な分析手法です。

5. まとめ

「クロスセクション」と「時系列」の両方の性質を持つパネルデータは、情報の密度が非常に高いデータです。DS検定では、それぞれのデータの定義を混同しないように整理しておくことが、確実にスコアを伸ばすポイントになります！

1. 【 問題 】

2. 【 解答 】

3. 整理：3つのデータ形式の違いと具体例

4. なぜ今「半構造データ」が重要なのか？

5. DS検定形式：実戦4択クイズ

6. まとめ

1. 【 問題 】

2. 【 解答 】

3. 整理：画像認識における代表的な「水増し」手法

4. データ拡張の注意点（ドメイン知識の重要性）

5. DS検定形式：実戦4択クイズ

6. まとめ

1. 【 問題 】

2. 【 解答 】

3. 整理：なぜ「計算してわざわざ増やす」のか？

4. 派生変数を作る際の注意点

5. DS検定形式：実戦4択クイズ

6. まとめ

【問題】

【正解】

【解説】

1. 問題：パネルデータの特徴

2. 整理：データの3つのカタチ

3. 解説プロセス

4. DS検定形式：実戦4択クイズ

5. まとめ

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】

1. 【問題】

2. 【解答】