統計機械学習用語集

F

F値

適合率と再現率の調和平均であり、

適合率と再現率のバランスを示す指標。

I

IDF(Inverse DOcument Frequency)

文書全体の数 / 対象単語が出現する文書の数。

対象単語の出現数が少ない程、大きな値となり、

めずらしいことが分かる。

L

Light GBM

勾配ブースティングを利用して、決定木をつくるアルゴリズムの一つ。

LoRA(Low-Rank Adapcation)

ファインチューニングの手法で、ファインチューニングで一部のパラメータ

のみを更新する。少数のパラメータを追加することで行う。

LSTM(Long Short-Term Memory 長・短期記憶)

RNNを時系列データ等向け等にしたもの。

R

RAG(Retrieval Augumented Generation)

LLMが有さない知識を外部から検索する仕組みを持つ。

RDD法(ランダム・ディジット・ダイヤリング法)

サンプリング調査を行う方法で、コンピュータでランダムに電話番号をつくり、

その電話番号の人を対象とする方法。

RNN(回帰型ニューラルネットワーク)

前のデータの隠れ層の出力も、次のデータの隠れ層の入力とする

ことで、時系列のデータなどを扱うことができる。

ROC曲線

閾値を変化させた時の、真陽性率と偽陽性率の関係を、

縦軸に真陽性率、横軸に偽陽性率をとり、描いた曲線。

T

TF(Term Frequency)

文書中の単語の出現頻度。

TF-IDFモデル

TFとIDFから導かれる文書をランキングする手法。

Z

Zero-shot CoT

プロンプトのテクニック。プロンプトに「Step by Stepで」などの

プロンプトを与えることで、精度を改善する。

Z値

xのz値は、(x - 平均) / 標準偏差

ア

アプリオリ・アルゴリズム

アソシエーション分析のアルゴリズム。

分析対象のアイテムが増えるに従って、組み合わせが膨大になり、計算が不可能になる。

そのため、支持度が一定以下のアイテムに対しては、信頼度を計算しない。

アンサンブル学習

複数のモデルでの予測から多数決や平均で決定する考え方。

ランダムフォレストもこの考え方を利用。

イ

因子分析

ニデータを少ない潜在的な共通因子で表現する手法。

オ

オートエンコーダー

ニューラルネットワークで、入力データを圧縮した後、
元のデータを復元して出力するアルゴリズム。

オートマトン

オートマトンとは、状態と遷移の組み合わせであり

以下の性質を持つもの

　・外部からの情報(入力）を受け取る

　・内部状態が保持される

　・入力情報により、内部状態が遷移する

　・内部状態により、外部に情報を発信する

カ

過学習

訓練データに適合しすぎて、未知のデータに対して適合できない。

画像レジストレーション

2つの画像を比較する時、位置を一致させる技術。

キ

帰無仮説

統計的仮説検定において、分析者が否定したい仮説。

ケ

継続学習

LLMに対して、事前学習ずみのパラメータを初期値として、

学習を行う。

決定木の種類

分類木・・・説明変数が、カテゴリ変数

回帰木・・・説明変数が、量的変数

けんろう性

機械学習の品質特性のうち、入力に対して、

モデルが安定した性能を示すこと。

ク

区間推定

推定のうち、母集団の特性値が含まれると考えられる区間を提示する。

コ

勾配

目的関数を各重みで偏微分したベクトル。

勾配ブースディング決定木

1つ前の木が誤分類したデータを修正するよう、次々決定木を作っていく。

混合ガウス分布

複数のガウス分布を組み合わせてデータを表現する。

サ

再現率

検索結果などを評価するために使われる指標。

検索された情報が全体の中のどれだけを網羅しているか。

残差

回帰分析において、各データと予測値の差のこと。

シ

識別器

GANニューラルネットワークの中で、生成器が生成した(偽物)

データを本物データと比較して、識別するネットワーク。

自己符号器

・教師なし学習で、次元削減を行う。

・入力層への入力と、出力層での出力が同じなるようにする。

・中間層の人工ニューロンを入力層や出力層より減らすことで、

中間層で次元を削減したこととなる。

四分位範囲(IQR)

・第3四分位数から、第1四分位数を引いた値。

・IRQの半分の値を、四分位偏差という。

事前学習

LLMの学習において、ファインチューニングを行う前に行われる

テキスト生成などのための学習。

主成分分析

多変量のデータをいくつかにまとめる手法。

順位和検定

比較するグループごとに、データを大きい順に並べた時の順位を合計する。

その値によって差があるか、を見る。

ウイルコクソン検定やマン・ホイットニーのU検定が、

この考え方を利用している。

信頼区間

推定したい値が含まれるであろう区間。

セ

生成器

GANニューラルネットワのなかで、入力データから

(偽物を)を生成するネットワーク。

制限付きボルツマンマシン

データの特徴量を発見するため、ニューラルネットワークのニューロン間の

接続をルールに基づいて決める。

ネットワークを入力と推定の2つの部分に分割する。

説明可能性

機械学習の品質特性のうち、入力に対して、出力を得る際の

判断基準が把握できること。

ソ

相関係数

-1から1までの値をとり、2つの項目間の関連の度合いを示す指標。

タ

対立仮説

統計的仮説検証において、帰無仮説を否定したもの。

テ

適合率

検索結果などを評価するために使われる指標。

検索された結果に、どれだけ正しいデータが含まれるか。

点推定

推定のうち1つの値を提示する。

データクレンジング

・欠損値、外れ値、表記のゆれ、重複データなどに対応する。

・不適切なデータを除去する。

・誤ったラベルを修正する。

ト

統計的推定

標本を使って統計的に母集団の結論を導く。

トピックモデル

文書のトピック(課題)を推定し、トピックに応じて単語の生成確率を変える。

ドロップアウト

ニューラルネットワークの学習時に、ランダムに一部のニューロンを、

学習させないように無効化し、過学習を回避する。

ノ

ノーフリーランチの定理

どんな問題もに対応できる汎用的なモデルは存在しない、とするもの。

ハ

バギング(アンサンブル手法)

アンサンブル手法の1つで、複数のモデルで多数決をとって

出力を決定する。

半教師あり学習

少量の正解ラベルをもつデータを用いて、ラベルおｎないデータを効率的に学習する。

パーセプトロン

複数のニューロンをネットワーク状に繋げたもの。

ハフ変換

画像の中から直線や円など特定の形状を抽出する。

ヒ

ビッグデータの特性(4V)

・量(Volume)

・更新速度(Velocity)

・データの種類(Variety)

・価値(Value) or 正確性(Veracity)

ベインジアンフィルター

迷惑メールのフィルタリングに使われる。

ベイズ理論を応用したアルゴリズム。

フ

不均衡データ

・学習用データでクラス毎に、データ数が大きく異なること。

・少ないクラスのデータを増やす「オーバーサンプリング」、

多いクラスのデータを減らす「アンダーサンプリング」で対応する。

物体検出

画像内に写っている物体のカテゴリと入りを推定する。

ホ

ホップフィールドネットワーク

すべての人工ニューロンが相互に結合したネットワーク。

物理シミュレーション、最適化問題などに応用される。

ミ

未学習

訓練データに適合できていない状態。

訓練誤差が大きすぎて、予測できない。

モ

目的関数

多層ニューラルネットワークの重みを最適化するために、

最小値を目指す関数。

ラ

ランダムフォレスト

決定木の中で、ランダムに選んだ学習用データに対応した複数の決定木を用い、

制度を上げる。

ル

ルールベース

人間が作成したルールや知識などに基づき判断する考え方。