忍者ブログ

いけいけ機械学習

統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

Pythonのライブラリ

公開されている資料をもとに、Pythonのライブラリーについて

考えてみたいと思います。

Pythonのライブラリーは、次の5つに分類できる。

(1) Data Manipulation adn Analysis

Pandasなど。PanadasのDataFrameオブジェクトは、

メモリ上のテーブル構造としてデータを操作できる。

CSVファイルやSQLデータベースからオブジェクトをインポートできる。

DataFrameオブジェクトに対しては、コンディションサーチ、

フィルタリング、ソーティング、スライシング、カラム操作などができる。

DataFrameオブジェクトは、フレキシブルにリサイズできる。

時系列データにも活用することができる。

(2) Data Visualization

2D、3Dのレンダリングエンジンを含み、ヒストグラム、

バーチャートなどのグラフをサポートする。

(3) Numeric Computing

NumPyや、SciPyが有名である。

NumPyは、行列演算にフォーカスしており、多次元配列の作成、演算、

次元の変換の機能を提供する。

また、線形代数、フーリエ変換などをサポートする。

SciPyは、NumPyを拡張したもの。

(3) Model Training

元々は、データマイニングのためにデザインされたものであるが、

scikit-learnは、モデルのトレーニングに利用できるライブラリーである。

回帰、分類、クラスタリングに関する有名なアルゴリズムを提供する。

また、次元削減、特徴量の抽出、正規化などのプロセスをサポートする。


PR