忍者ブログ
統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

【DS検定対策】ベン図で攻略!集合の「和集合」と「積集合」の求め方

データ抽出の基本は集合の操作です。2つのデータ群があったとき、その「どちらかにあるもの」と「両方にあるもの」を正しく区別しましょう。

1. 【 問題 】

以下の2つの集合 A と B があるとき、その「和集合」と「積集合」の組み合わせとして正しいものはどれでしょうか?

集合 A = { 3, 4, 6, 8, 10 }
集合 B = { 3, 6, 9 }

① 和集合:{ 3, 6 } / 積集合:{ 3, 4, 6, 8, 9, 10 }
② 和集合:{ 3, 4, 6, 8, 9, 10 } / 積集合:{ 3, 6 }
③ 和集合:{ 3, 6, 9 } / 積集合:{ 3, 4, 6, 8, 10 }
④ 和集合:{ 4, 8, 9, 10 } / 積集合:{ 3, 6 }


2. 【 解答 】

正解: ② 和集合:{ 3, 4, 6, 8, 9, 10 } / 積集合:{ 3, 6 }

3. 整理:和集合と積集合の違い

【 和集合(A ∪ B):「どちらかにあればOK」 】

AにあるものとBにあるものをすべて合わせます。ただし、重複している数字は1回だけ書きます。
・A = { 3, 4, 6, 8, 10 }
・B = { 3, 6, 9 }

{ 3, 4, 6, 8, 9, 10 }

【 積集合(A ∩ B):「両方に共通するもの」 】

AとBの両方に含まれている数字だけを抜き出します。
・A = { 3, 4, 6, 8, 10 }
・B = { 3, 6, 9 }

{ 3, 6 }

4. データ分析(SQL)との関係

1. 積集合(INTERSECT / AND): 「30代以上」かつ「愛知県在住」など、厳しい条件で絞り込むときに使います。
2. 和集合(UNION / OR): 「学生」または「20歳未満」など、対象を広げるときに使います。
3. 差集合(EXCEPT): AからBに含まれるものを除外する操作です(例:A - B = { 4, 8, 10 })。


5. DS検定形式:実戦4択クイズ

問:2つの条件 P と Q があるとき、「P かつ Q」ではない部分(PとQの共通部分以外すべて)を表すベン図の領域を考える際に利用される、集合論の有名な法則を何と呼ぶか。

① ド・モルガンの法則   ② 大数の法則   ③ ベイズの法則   ④ 推移律

【 正解: ① 】

解説: 集合の否定(〜ではない)に関わる重要なルールが「ド・モルガンの法則」です。データ抽出の複雑な条件式を整理する際に非常に役立ちます。


6. まとめ

DS検定では、ベン図を見て直感的に集合の範囲を答えさせる問題がよく出ます。「積集合=重なり部分(AND)」「和集合=全部(OR)」というイメージを定着させておきましょう!

PR

【Python】SymPyで対数(log)を解く!数学的な厳密計算

Pythonで数学の計算をする際、通常の math.log では小数(浮動小数点数)として結果が返ってくるため、わずかな誤差が生じることがあります。今回は、代数計算ライブラリ「SymPy」を使い、数学的に美しく、正確な答えを導き出す方法を紹介します。

1. 考え方:SymPy(シムパイ)による厳密解

SymPyは「記号計算」を行うためのライブラリです。例えば「log(8, 2)」を計算する場合、単なる数値計算ではなく「2を何乗したら8になるか」という数学的な構造として処理し、正確な「3」という整数を導き出します。

[ 準備 ]
外部ライブラリのため、インストールが必要です。
pip install sympy

[ 計算ルール ]
log(真数, 底) の順で指定します。
・底を省略すると自然対数(底がe)になります。

2. Pythonサンプルプログラム

SymPyの log 関数を使用して、「底を2とする8の対数」を求めます。計算結果が数値ではなくSymPyのオブジェクトとして扱われるのがポイントです。

# -*- coding: utf-8 -*-
from sympy import log

def main():
    # log(真数, 底)
    # 8 = 2^3 なので、結果は 3 になるはずです
    ans = log(8, 2)

    print("SymPyによる対数計算を開始します。")
    print(f"log(8, 2) の結果: {ans}")

if __name__ == "__main__":
    main()

3. 実行結果

SymPyによる対数計算を開始します。
log(8, 2) の結果: 3

4. ステップアップ:文字式のまま計算する

SymPyの真骨頂は、具体的な数字だけでなく「文字」を使って計算できる点にあります。

  • 記号の定義symbols('x') を使うと、xを未知数としたまま計算が可能です。
  • 式の整理simplify() を使えば、複雑な対数式を自動で簡略化してくれます。

5. mathモジュールとの決定的な違い

Python標準の mathSymPy、どちらを使うべきか比較表で確認しましょう。

比較項目math.log (標準)sympy.log (今回)
出力形式 float(小数) Integer / Symbol(整数や記号)
精度 近似値(誤差あり) 完全な精度(誤差なし)
主な用途 高速な数値計算、統計処理 数式の証明、因数分解、方程式を解く

6. まとめ

対数計算において、答えが綺麗に整数になる場合や、文字式として扱いたい場合は SymPy が最適です。標準の math では 2.9999999999999996 のように表示されてしまうケースでも、SymPyならスッキリと 3 と答えてくれます。数学的な美しさを保ちたいプログラムにぜひ取り入れてみてください!

【Python】クラスの基本!設計図と実体(インスタンス)を理解する

Pythonを学んでいると必ず出会うのが「クラス(Class)」です。一見難しそうですが、仕組みを理解するとプログラムの整理整頓が劇的に楽になります。今回は、最もシンプルなクラスを作成しながら、その基本構造を解説します。

1. 考え方:設計図(クラス)と実体(インスタンス)

プログラミングにおけるクラスは、よく「たい焼きの型(設計図)」に例えられます。型があるだけでは食べられませんが、その型から作られた「たい焼き(実体)」は食べることができます。

・クラス (Class):データの「設計図」です。
・インスタンス (Instance):設計図から生成された「実体」です。
・メソッド:クラスの中で定義された「関数(ふるまい)」のことです。

2. Pythonサンプルプログラム

挨拶を表示するだけのシンプルなクラスを作成します。クラスを使うには、まず「実体化(インスタンス化)」を行う必要があります。

# -*- coding: utf-8 -*-

class Test:
    # メソッドの定義。第一引数には必ず「self」を書く決まりです。
    def printTest(self):
        print("Hello")

def main():
    # 1. インスタンス化(設計図から実体を作る)
    test = Test()

    # 2. メソッドを呼び出す
    test.printTest()

if __name__ == "__main__":
    main()

3. 実行結果

Hello

4. ステップアップ:謎の引数「self」の正体

クラス内のメソッドを定義する際、必ず最初に self という引数を書きます。これは一体何でしょうか?

  • 自分自身を指すself は「そのメソッドを呼び出しているインスタンス(自分自身)」を指します。
  • 個別のデータを保持する:同じクラスから複数のインスタンスを作った際、それぞれのインスタンスが持つデータを区別するために self が使われます。

※呼び出すときは test.printTest() のように書き、self に値を渡す必要はありません。Pythonが自動的にインスタンス自身を self に放り込んでくれます。

5. クラスと関数の使い分け

単なる処理のまとまりなら「関数」で十分ですが、クラスを使うと以下のメリットがあります。

機能メリット主な用途
関数 シンプルで軽量 入力に対して出力を返すだけの計算など。
クラス 「状態」を保持できる RPGのキャラ(HPや攻撃力を持つ)のように、データと処理をセットにしたい時。

6. まとめ

クラスは「複雑なものを整理するための箱」です。最初は self の記述に違和感があるかもしれませんが、「クラスからインスタンスを作って、メソッドを呼ぶ」という一連の流れに慣れていくことで、大規模な開発もスムーズに行えるようになります!


【Python】重複を許さない!set(集合)の基本と活用シーン

Pythonの「set(集合)」は、リストと似ていますが、大きな違いが2つあります。それは「重複した値を持てない」ことと「順序がない」ことです。データのユニーク性を保証したい場面で非常に強力なツールとなります。

1. 考え方:set(集合)の世界

数学の「集合」と同じ概念です。同じ値が何度現れても、集合の中では「1つ」としてカウントされます。また、順番という概念がないため、リストよりも高速に値を検索できるのが特徴です。

a = ['1', '1', '2', '2']

[ setに変換した後の動き ]
重複の排除:'1' と '2' の2つだけが残ります。
順不同:取り出す際に 1, 2 の順とは限りません。
一括判定:ある値が含まれているかどうかの確認が爆速です。

2. Pythonサンプルプログラム

重複を含んだリストを set() 関数に渡すことで、簡単にユニークな(重複のない)要素のみを抽出できます。

# -*- coding: utf-8 -*-

def main():
    # 重複のあるリスト
    a = ['1', '1', '2', '2']
    
    # リストを集合(set)に変換
    b = set(a)

    print("集合の中身を順に取り出します。")

    # for文で出力(順序は保証されません)
    for x in b:
        print(x)

if __name__ == "__main__":
    main()

3. 実行結果

集合の中身を順に取り出します。
1
2

4. ステップアップ:いつ使うの?(数学・データ分析)

「あまり使ったことがない」と感じるかもしれませんが、実は数学的な処理やデータクレンジングで大活躍します。

  • 積集合(AND):2つのグループ両方に所属している人を探す。
  • 和集合(OR):2つのグループのメンバーを重複なく合算する。
  • 差集合(DIFF):Aグループにはいるが、Bグループにはいない人を抽出する。

5. リストと集合の使い分け

どちらを使うべきか迷ったときは、以下の基準で判断しましょう。

データ構造主な用途メリット
リスト (list) 並び順が重要なデータ インデックス(添字)でアクセスできる。
集合 (set) 重複確認、グループ比較 検索が圧倒的に速い。重複を自動で消せる。

6. まとめ

Pythonのsetは、単なる「重複削除ツール」以上の価値があります。特に「ベン図」で描けるようなグループ同士の比較(数学的な集合演算)を行う際には、リストでループを回すよりも圧倒的にシンプルで高速なコードが書けます。データ分析の第一歩として、ぜひ使いこなしましょう!


【Python】Counterでリスト要素の出現回数をサクッと集計する

リストの中に「どの値が何個あるか」を数えたい場面は多いですよね。Pythonでは、標準ライブラリの collections.Counter を使うと、ループを回す手間なく一瞬で集計が可能です。

1. 考え方:Counter(カウンター)の仕組み

Counterは辞書(dict)のサブクラスで、要素をキーに、その出現回数を値として保持する特別なデータ構造です。面倒なカウント処理をすべて自動で行ってくれます。

my_list = [1, 2, 3, 1, 3, 3]

[ 集計ルール ]
・1 が現れた回数 → 2回
・2 が現れた回数 → 1回
・3 が現れた回数 → 3回
これらを {要素: 個数} の形式でまとめてくれます。

2. Pythonサンプルプログラム

collections モジュールから Counter をインポートして使用します。変数名に list などの予約語を使わないように注意して記述しましょう。

# -*- coding: utf-8 -*-
from collections import Counter

def main():
    # 集計対象のリスト
    data_list = [1, 2, 3, 1, 3, 3]

    # Counterオブジェクトを作成(ここで自動集計される)
    c = Counter(data_list)

    print("集計結果を表示します。")
    print(c)

    # 特定の要素の回数だけ知りたい場合
    print(f"「3」が出現した回数: {c[3]}")

if __name__ == "__main__":
    main()

3. 実行結果

集計結果を表示します。
Counter({3: 3, 1: 2, 2: 1})
「3」が出現した回数: 3

4. ステップアップ:便利な応用機能

Counterには、単に数えるだけでなく、実務で役立つ便利なメソッドが備わっています。

  • most_common():出現回数の多い順に並べ替えます。 c.most_common(2) とすれば、上位2件だけを取得できます。
  • 演算ができる:Counter同士を足したり引いたりして、集計結果を合算・差分比較することが可能です。

5. 他の手法との違い

要素を数える方法はいくつかありますが、効率面で大きな違いがあります。

手法特徴使い分け
Counter (今回) 一括で全要素を数える リスト全体の分布を知りたいとき。最も高速。
list.count(x) 特定の1種類だけ数える 「特定の要素が何個あるか」だけ知れば良いとき。
for文 + 辞書 手動で加算していく 集計の途中で特殊な条件判定を入れたいとき。

6. まとめ

データの頻度分析は、プログラミングの基本中の基本です。Pythonなら Counter をインポートするだけで、自作すると数行かかるループ処理をたった1行で済ませることができます。読みやすく効率的なコードを目指すなら、ぜひマスターしておきたい道具の一つですね!