(つづきです)
結果、集計なしで行を抽出する場合、PostgreSQLの方が優位であるが、
集計やグルーピングがある場合、time-series databaseの方が優位であった。
2.関連する研究
時系列データベースは、時系列とタイムスタンプデータ用に最適化されたものである。
時系列データに対して、監視、サンプリング、集計などが行われる。
時系列データベースは、時系列データを扱うことに最適化されたもの。
(つづきます)
PR
(つづきです)
1.概要
時系列データは、ファイナンスの分野で利用されていたが、
IoTの発達なので、広く利用されるようになった。
time-series database は、時系列のデータやタイムスタンプのデータに最適化されたデータベースである。
リレーショナルデータベース PostgreSQLと、time-series database InfuxDBへの問い合わせを調査する。
公開されている
「Comparison of Relational and Time-Series Database for Real-Time Massive Datasets」
のキモ部分を読んで、勉強してみたいと思います。
間違いなどあったら、ごめんなさい。
概要
IoTシステムのように、企業では時系列のデータを集めるシステムが多い。
データを効率的に集め、時系列の分析を行うために、時系列に最適化されたデータベースが存在する。
このろんぶんは、時系列データベースである、influxDBとPostgreSQLのパフォーマンスを比較するもの。
(続きます)
一般的に、時系列データは、次から成り立つ
・トレンド 長期的な傾向
・循環変動(周期変動) 季節変動など
・不規則変動
時系列データの分析では
1.時系列データから、トレンドを取り出す
2.周期変動の周期を調べる
3.不規則変動があるか、を調べる
こととなる
相関関数
時系列データなどの関数の類似性を求めるもの
相互相関関数
ある時間と別の時間のデータの相関をみる
自己相関関数
相互相関係数で、両方ともが同じデータである場合
周期性をみる場合などに利用する