忍者ブログ

いけいけ機械学習

統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

統計機械学習用語集

F

F値


適合率と再現率の調和平均であり、

適合率と再現率のバランスを示す指標。


I

IDF(Inverse DOcument Frequency)


文書全体の数 /  対象単語が出現する文書の数。

対象単語の出現数が少ない程、大きな値となり、

めずらしいことが分かる。

L

Light GBM


勾配ブースティングを利用して、決定木をつくるアルゴリズムの一つ。

LoRA(Low-Rank Adapcation)


ファインチューニングの手法で、ファインチューニングで一部のパラメータ

のみを更新する。少数のパラメータを追加することで行う。

LSTM(Long Short-Term Memory 長・短期記憶)


RNNを時系列データ等向け等にしたもの。

R

RAG(Retrieval Augumented Generation)


LLMが有さない知識を外部から検索する仕組みを持つ。


RDD法(ランダム・ディジット・ダイヤリング法)


サンプリング調査を行う方法で、コンピュータでランダムに電話番号をつくり、

その電話番号の人を対象とする方法。

RNN(回帰型ニューラルネットワーク)


前のデータの隠れ層の出力も、次のデータの隠れ層の入力とする

ことで、時系列のデータなどを扱うことができる。

ROC曲線


閾値を変化させた時の、真陽性率と偽陽性率の関係を、

縦軸に真陽性率、横軸に偽陽性率をとり、描いた曲線。

T

TF(Term Frequency)

文書中の単語の出現頻度。

TF-IDFモデル

TFとIDFから導かれる文書をランキングする手法。

Z

Zero-shot CoT


プロンプトのテクニック。プロンプトに「Step by Stepで」などの

プロンプトを与えることで、精度を改善する。

Z値


xのz値は、(x - 平均) / 標準偏差


アプリオリ・アルゴリズム


アソシエーション分析のアルゴリズム。

分析対象のアイテムが増えるに従って、組み合わせが膨大になり、計算が不可能になる。

そのため、支持度が一定以下のアイテムに対しては、信頼度を計算しない。

アンサンブル学習


複数のモデルでの予測から多数決や平均で決定する考え方。

ランダムフォレストもこの考え方を利用。

オートエンコーダー


ニューラルネットワークで、入力データを圧縮した後、
元のデータを復元して出力するアルゴリズム。

オートマトン


オートマトンとは、状態と遷移の組み合わせであり

以下の性質を持つもの

 ・外部からの情報(入力)を受け取る

 ・内部状態が保持される

 ・入力情報により、内部状態が遷移する

 ・内部状態により、外部に情報を発信する

過学習


訓練データに適合しすぎて、未知のデータに対して適合できない。


画像レジストレーション


2つの画像を比較する時、位置を一致させる技術。


継続学習


LLMに対して、事前学習ずみのパラメータを初期値として、

学習を行う。



決定木の種類


分類木・・・説明変数が、カテゴリ変数

回帰木・・・説明変数が、量的変数

けんろう性


機械学習の品質特性のうち、入力に対して、

モデルが安定した性能を示すこと。


区間推定


推定のうち、母集団の特性値が含まれると考えられる区間を提示する。

勾配


目的関数を各重みで偏微分したベクトル。


勾配ブースディング決定木


1つ前の木が誤分類したデータを修正するよう、次々決定木を作っていく。


混合ガウス分布


複数のガウス分布を組み合わせてデータを表現する。

再現率


検索結果などを評価するために使われる指標。

検索された情報が全体の中のどれだけを網羅しているか。


識別器


GANニューラルネットワークの中で、生成器が生成した(偽物)

データを本物データと比較して、識別するネットワーク。

自己符号器


・教師なし学習で、次元削減を行う。

・入力層への入力と、出力層での出力が同じなるようにする。

・中間層の人工ニューロンを入力層や出力層より減らすことで、

中間層で次元を削減したこととなる。

四分位範囲(IQR)


・第3四分位数から、第1四分位数を引いた値。

・IRQの半分の値を、四分位偏差という。


事前学習


LLMの学習において、ファインチューニングを行う前に行われる

テキスト生成などのための学習。


信頼区間


推定したい値が含まれるであろう区間。


生成器

GANニューラルネットワのなかで、入力データから

(偽物を)を生成するネットワーク。



制限付きボルツマンマシン


データの特徴量を発見するため、ニューラルネットワークのニューロン間の

接続をルールに基づいて決める。

ネットワークを入力と推定の2つの部分に分割する。

説明可能性


機械学習の品質特性のうち、入力に対して、出力を得る際の

判断基準が把握できること。

適合率

検索結果などを評価するために使われる指標。

検索された結果に、どれだけ正しいデータが含まれるか。

点推定


推定のうち1つの値を提示する。

データクレンジング


・欠損値、外れ値、表記のゆれ、重複データなどに対応する。

・不適切なデータを除去する。

・誤ったラベルを修正する。


統計的推定


標本を使って統計的に母集団の結論を導く。

トピックモデル


文書のトピック(課題)を推定し、トピックに応じて単語の生成確率を変える。

ドロップアウト


ニューラルネットワークの学習時に、ランダムに一部のニューロンを、

学習させないように無効化し、過学習を回避する。



ノーフリーランチの定理


どんな問題もに対応できる汎用的なモデルは存在しない、とするもの。



バギング(アンサンブル手法)

アンサンブル手法の1つで、複数のモデルで多数決をとって

出力を決定する。

半教師あり学習

少量の正解ラベルをもつデータを用いて、ラベルおnないデータを効率的に学習する。


パーセプトロン

複数のニューロンをネットワーク状に繋げたもの。


ベインジアンフィルター

迷惑メールのフィルタリングに使われる。
ベイズ理論を応用したアルゴリズム。

不均衡データ

・学習用データでクラス毎に、データ数が大きく異なること。

・少ないクラスのデータを増やす「オーバーサンプリング」、

多いクラスのデータを減らす「アンダーサンプリング」で対応する。

物体検出

画像内に写っている物体のカテゴリと入りを推定する。

ホップフィールドネットワーク

すべての人工ニューロンが相互に結合したネットワーク。

物理シミュレーション、最適化問題などに応用される。


未学習

訓練データに適合できていない状態。

訓練誤差が大きすぎて、予測できない。


目的関数

多層ニューラルネットワークの重みを最適化するために、

最小値を目指す関数。


ランダムフォレスト

決定木の中で、ランダムに選んだ学習用データに対応した複数の決定木を用い、

制度を上げる。

ルールベース

人間が作成したルールや知識などに基づき判断する考え方。
PR