忍者ブログ

いけいけ機械学習

統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

統計機械学習用語集

F

F値


適合率と再現率の調和平均であり、

適合率と再現率のバランスを示す指標。

G

GAN(敵対的生成ネットワーク)


生成器がデータを生成し、識別器が生成されたデータと、

元のデータを区別する。この2つを利用し、データの生成能力を

向上させる。


I

IDF(Inverse DOcument Frequency)


文書全体の数 /  対象単語が出現する文書の数。

対象単語の出現数が少ない程、大きな値となり、

めずらしいことが分かる。

L

Light GBM


勾配ブースティングを利用して、決定木をつくるアルゴリズムの一つ。

LoRA(Low-Rank Adapcation)


ファインチューニングの手法で、ファインチューニングで一部のパラメータ

のみを更新する。少数のパラメータを追加することで行う。

LSTM(Long Short-Term Memory 長・短期記憶)


RNNを時系列データ等向け等にしたもの。

R

RAG(Retrieval Augumented Generation)


LLMが有さない知識を外部から検索する仕組みを持つ。


RDD法(ランダム・ディジット・ダイヤリング法)


サンプリング調査を行う方法で、コンピュータでランダムに電話番号をつくり、

その電話番号の人を対象とする方法。

RNN(回帰型ニューラルネットワーク)


前のデータの隠れ層の出力も、次のデータの隠れ層の入力とする

ことで、時系列のデータなどを扱うことができる。

ROC曲線


閾値を変化させた時の、真陽性率と偽陽性率の関係を、

縦軸に真陽性率、横軸に偽陽性率をとり、描いた曲線。

T

TF(Term Frequency)

文書中の単語の出現頻度。

TF-IDFモデル

TFとIDFから導かれる文書をランキングする手法。

V

VAE(変分自己符号化器)


エンコーダーとデコーダーからなるモデル。

エンコーダーで、低次元のベクトル(潜在ベクトル)に変換し、

デコーダーは、洗剤ベクトルから、元のデータに近いものを生成する。

ノイズの除去等に利用される。

Z

Zero-shot CoT


プロンプトのテクニック。プロンプトに「Step by Stepで」などの

プロンプトを与えることで、精度を改善する。

Z値


xのz値は、(x - 平均) / 標準偏差


アプリオリ・アルゴリズム


アソシエーション分析のアルゴリズム。

分析対象のアイテムが増えるに従って、組み合わせが膨大になり、計算が不可能になる。

そのため、支持度が一定以下のアイテムに対しては、信頼度を計算しない。

アンサンブル学習


複数のモデルでの予測から多数決や平均で決定する考え方。

ランダムフォレストもこの考え方を利用。


因子分析


データを少ない潜在的な共通因子で表現する手法。

因果推論


データから変数間の因果を推定するプロセス。




オートエンコーダー


ニューラルネットワークで、入力データを圧縮した後、
元のデータを復元して出力するアルゴリズム。

オートマトン


オートマトンとは、状態と遷移の組み合わせであり

以下の性質を持つもの

 ・外部からの情報(入力)を受け取る

 ・内部状態が保持される

 ・入力情報により、内部状態が遷移する

 ・内部状態により、外部に情報を発信する

オーバーサンプリング


学習用データが不均衡の時、件数うの少ないデータを水増しする。

過学習


訓練データに適合しすぎて、未知のデータに対して適合できない。

確率的勾配降下法


ディープラーニングで、訓練データの一部だけから勾配の近似値を推定し、
それを利用して、パラメータを更新する。


画像レジストレーション


2つの画像を比較する時、位置を一致させる技術。


帰無仮説


統計的仮説検定において、分析者が否定したい仮説。

継続学習


LLMに対して、事前学習ずみのパラメータを初期値として、

学習を行う。



決定木の種類


分類木・・・説明変数が、カテゴリ変数

回帰木・・・説明変数が、量的変数

けんろう性


機械学習の品質特性のうち、入力に対して、

モデルが安定した性能を示すこと。


区間推定


推定のうち、母集団の特性値が含まれると考えられる区間を提示する。

勾配


目的関数を各重みで偏微分したベクトル。


勾配ブースディング決定木


1つ前の木が誤分類したデータを修正するよう、次々決定木を作っていく。

勾配上昇法


アンラーニングの手法。学習時、勾配降下法で正解との差が最小にする

ことの逆を行う。

混合モデル


複数の確率分布の組み合わせで確率密度を示す。


混合ガウス分布


複数のガウス分布を組み合わせてデータを表現する。

再現率


検索結果などを評価するために使われる指標。

検索された情報が全体の中のどれだけを網羅しているか。

残差


回帰分析において、各データと予測値の差のこと。



識別器


GANニューラルネットワークの中で、生成器が生成した(偽物)

データを本物データと比較して、識別するネットワーク。

自己符号器


・教師なし学習で、次元削減を行う。

・入力層への入力と、出力層での出力が同じなるようにする。

・中間層の人工ニューロンを入力層や出力層より減らすことで、

中間層で次元を削減したこととなる。

四分位範囲(IQR)


・第3四分位数から、第1四分位数を引いた値。

・IRQの半分の値を、四分位偏差という。


事前学習


LLMの学習において、ファインチューニングを行う前に行われる

テキスト生成などのための学習。

状態空間モデル


時系列データの予測モデル。観測されていない潜在変数を用いる。

主成分分析


多変量のデータをいくつかにまとめる手法。


順位和検定


比較するグループごとに、データを大きい順に並べた時の順位を合計する。

その値によって差があるか、を見る。

 ウイルコクソン検定やマン・ホイットニーのU検定が、

この考え方を利用している。

重回帰分析


複数の説明変数を利用した回帰分析。


信頼区間


推定したい値が含まれるであろう区間。


生成器

GANニューラルネットワのなかで、入力データから

(偽物を)を生成するネットワーク。



制限付きボルツマンマシン


データの特徴量を発見するため、ニューラルネットワークのニューロン間の

接続をルールに基づいて決める。

ネットワークを入力と推定の2つの部分に分割する。

説明可能性


機械学習の品質特性のうち、入力に対して、出力を得る際の

判断基準が把握できること。

全数調査


母集団のすべてを調べる調査。

全結合層


パーセプトロンの層のなかで、出力がすべての入力と

接続されている層。


相関係数

-1から1までの値をとり、2つの項目間の関連の度合いを示す指標。


対立仮説

統計的仮説検証において、帰無仮説を否定したもの。

ダウンサンプリング

学習用データが不均衡の時、その解消のため、データと

サンプリングを減らす。

単回帰分析

1つの説明変数を利用した回帰分析。

超平面

サポートベクターマシンで使われる、対象のデータの次元を拡張し、
対象データをクラス分けするために使われる。

中間層

多層パーセプトロンで、入力層と出力層の中間にある層。


中心極限定理

もとのデータの分布によらず、十分な個数のサンプルの平均の分布は、
正規分布に従う。


適合率

検索結果などを評価するために使われる指標。

検索された結果に、どれだけ正しいデータが含まれるか。

点推定


推定のうち1つの値を提示する。

データクレンジング


・欠損値、外れ値、表記のゆれ、重複データなどに対応する。

・不適切なデータを除去する。

・誤ったラベルを修正する。

データフレーム


RやPythonで扱われる2次元の表形式データ。


統計的推定


標本を使って統計的に母集団の結論を導く。

トピックモデル


文書のトピック(課題)を推定し、トピックに応じて単語の生成確率を変える。

ドロップアウト


ニューラルネットワークの学習時に、ランダムに一部のニューロンを、

学習させないように無効化し、過学習を回避する。

二値データ


2つ値(1、0など)、しか取らないデータ。


ニューラルネット


ニューロンと重みで構成されるネットワークモデル。

ノーフリーランチの定理


どんな問題もに対応できる汎用的なモデルは存在しない、とするもの。



バギング(アンサンブル手法)

アンサンブル手法の1つで、複数のモデルで多数決をとって

出力を決定する。

半教師あり学習

少量の正解ラベルをもつデータを用いて、ラベルおnないデータを効率的に学習する。


パーセプトロン

複数のニューロンをネットワーク状に繋げたもの。

ハフ変換

画像の中から直線や円など特定の形状を抽出する。


標本

母集団を調べるためにランダムに取り出したもの。

標本調査

母集団の一部の標本を調べる調査。

標準化

平均が0、標準偏差が1、になるようにデータを変換する。

標準正規分布

平均値が0、標準偏差が1、の正規分布。



ビッグデータの特性(4V)

・量(Volume)

・更新速度(Velocity)

・データの種類(Variety)

・価値(Value) or 正確性(Veracity)



ベインジアンフィルター

迷惑メールのフィルタリングに使われる。

ベイズ理論を応用したアルゴリズム。

不均衡データ

・学習用データでクラス毎に、データ数が大きく異なること。

・少ないクラスのデータを増やす「オーバーサンプリング」、

多いクラスのデータを減らす「アンダーサンプリング」で対応する。

物体検出

画像内に写っている物体のカテゴリと入りを推定する。

分類

各データにクラス情報を付け加える。

分類器

分類の方法やアルゴリズム、それを実装したもの。


ホップフィールドネットワーク

すべての人工ニューロンが相互に結合したネットワーク。

物理シミュレーション、最適化問題などに応用される。


未学習

訓練データに適合できていない状態。

訓練誤差が大きすぎて、予測できない。


目的関数

多層ニューラルネットワークの重みを最適化するために、

最小値を目指す関数。


ランダムフォレスト

決定木の中で、ランダムに選んだ学習用データに対応した複数の決定木を用い、

制度を上げる。

ルールベース

人間が作成したルールや知識などに基づき判断する考え方。
PR