統計機械学習用語集
F
F値
適合率と再現率の調和平均であり、
適合率と再現率のバランスを示す指標。
I
IDF(Inverse DOcument Frequency)
文書全体の数 / 対象単語が出現する文書の数。
対象単語の出現数が少ない程、大きな値となり、
めずらしいことが分かる。
L
Light GBM
勾配ブースティングを利用して、決定木をつくるアルゴリズムの一つ。
LoRA(Low-Rank Adapcation)
ファインチューニングの手法で、ファインチューニングで一部のパラメータ
のみを更新する。少数のパラメータを追加することで行う。
LSTM(Long Short-Term Memory 長・短期記憶)
RNNを時系列データ等向け等にしたもの。
R
RAG(Retrieval Augumented Generation)
LLMが有さない知識を外部から検索する仕組みを持つ。
RDD法(ランダム・ディジット・ダイヤリング法)
サンプリング調査を行う方法で、コンピュータでランダムに電話番号をつくり、
その電話番号の人を対象とする方法。
RNN(回帰型ニューラルネットワーク)
前のデータの隠れ層の出力も、次のデータの隠れ層の入力とする
ことで、時系列のデータなどを扱うことができる。
ROC曲線
閾値を変化させた時の、真陽性率と偽陽性率の関係を、
縦軸に真陽性率、横軸に偽陽性率をとり、描いた曲線。
T
TF(Term Frequency)
文書中の単語の出現頻度。TF-IDFモデル
TFとIDFから導かれる文書をランキングする手法。Z
Zero-shot CoT
プロンプトのテクニック。プロンプトに「Step by Stepで」などの
プロンプトを与えることで、精度を改善する。
Z値
xのz値は、(x - 平均) / 標準偏差
ア
アプリオリ・アルゴリズム
アソシエーション分析のアルゴリズム。
分析対象のアイテムが増えるに従って、組み合わせが膨大になり、計算が不可能になる。
そのため、支持度が一定以下のアイテムに対しては、信頼度を計算しない。
アンサンブル学習
複数のモデルでの予測から多数決や平均で決定する考え方。
ランダムフォレストもこの考え方を利用。
オ
オートエンコーダー
ニューラルネットワークで、入力データを圧縮した後、
元のデータを復元して出力するアルゴリズム。
オートマトン
オートマトンとは、状態と遷移の組み合わせであり
以下の性質を持つもの
・外部からの情報(入力)を受け取る
・内部状態が保持される
・入力情報により、内部状態が遷移する
・内部状態により、外部に情報を発信する
カ
過学習
訓練データに適合しすぎて、未知のデータに対して適合できない。
画像レジストレーション
2つの画像を比較する時、位置を一致させる技術。
ケ
継続学習
LLMに対して、事前学習ずみのパラメータを初期値として、
学習を行う。
決定木の種類
分類木・・・説明変数が、カテゴリ変数
回帰木・・・説明変数が、量的変数
けんろう性
機械学習の品質特性のうち、入力に対して、
モデルが安定した性能を示すこと。
ク
区間推定
推定のうち、母集団の特性値が含まれると考えられる区間を提示する。
コ
勾配
目的関数を各重みで偏微分したベクトル。
勾配ブースディング決定木
1つ前の木が誤分類したデータを修正するよう、次々決定木を作っていく。
混合ガウス分布
複数のガウス分布を組み合わせてデータを表現する。
サ
再現率
検索結果などを評価するために使われる指標。
検索された情報が全体の中のどれだけを網羅しているか。
シ
識別器
GANニューラルネットワークの中で、生成器が生成した(偽物)
データを本物データと比較して、識別するネットワーク。
自己符号器
・教師なし学習で、次元削減を行う。
・入力層への入力と、出力層での出力が同じなるようにする。
・中間層の人工ニューロンを入力層や出力層より減らすことで、
中間層で次元を削減したこととなる。
四分位範囲(IQR)
・第3四分位数から、第1四分位数を引いた値。
・IRQの半分の値を、四分位偏差という。
事前学習
LLMの学習において、ファインチューニングを行う前に行われる
テキスト生成などのための学習。
信頼区間
推定したい値が含まれるであろう区間。
セ
生成器
GANニューラルネットワのなかで、入力データから(偽物を)を生成するネットワーク。
制限付きボルツマンマシン
データの特徴量を発見するため、ニューラルネットワークのニューロン間の
接続をルールに基づいて決める。
ネットワークを入力と推定の2つの部分に分割する。
説明可能性
機械学習の品質特性のうち、入力に対して、出力を得る際の
判断基準が把握できること。
テ
適合率
検索結果などを評価するために使われる指標。検索された結果に、どれだけ正しいデータが含まれるか。
点推定
推定のうち1つの値を提示する。
データクレンジング
・欠損値、外れ値、表記のゆれ、重複データなどに対応する。
・不適切なデータを除去する。
・誤ったラベルを修正する。
ト
統計的推定
標本を使って統計的に母集団の結論を導く。
トピックモデル
文書のトピック(課題)を推定し、トピックに応じて単語の生成確率を変える。
ドロップアウト
ニューラルネットワークの学習時に、ランダムに一部のニューロンを、
学習させないように無効化し、過学習を回避する。
ノ
ノーフリーランチの定理
どんな問題もに対応できる汎用的なモデルは存在しない、とするもの。
ハ
バギング(アンサンブル手法)
アンサンブル手法の1つで、複数のモデルで多数決をとって出力を決定する。
半教師あり学習
少量の正解ラベルをもつデータを用いて、ラベルおnないデータを効率的に学習する。パーセプトロン
複数のニューロンをネットワーク状に繋げたもの。ヒ
ベインジアンフィルター
迷惑メールのフィルタリングに使われる。ベイズ理論を応用したアルゴリズム。
フ
不均衡データ
・学習用データでクラス毎に、データ数が大きく異なること。・少ないクラスのデータを増やす「オーバーサンプリング」、
多いクラスのデータを減らす「アンダーサンプリング」で対応する。
物体検出
画像内に写っている物体のカテゴリと入りを推定する。ホ
ホップフィールドネットワーク
すべての人工ニューロンが相互に結合したネットワーク。物理シミュレーション、最適化問題などに応用される。
ミ
未学習
訓練データに適合できていない状態。訓練誤差が大きすぎて、予測できない。
モ
目的関数
多層ニューラルネットワークの重みを最適化するために、最小値を目指す関数。
ラ
ランダムフォレスト
決定木の中で、ランダムに選んだ学習用データに対応した複数の決定木を用い、制度を上げる。
ル
ルールベース
人間が作成したルールや知識などに基づき判断する考え方。PR