統計機械学習用語集
F
F値
適合率と再現率の調和平均であり、
適合率と再現率のバランスを示す指標。
G
GAN(敵対的生成ネットワーク)
生成器がデータを生成し、識別器が生成されたデータと、
元のデータを区別する。この2つを利用し、データの生成能力を
向上させる。
I
IDF(Inverse DOcument Frequency)
文書全体の数 / 対象単語が出現する文書の数。
対象単語の出現数が少ない程、大きな値となり、
めずらしいことが分かる。
L
Light GBM
勾配ブースティングを利用して、決定木をつくるアルゴリズムの一つ。
LoRA(Low-Rank Adapcation)
ファインチューニングの手法で、ファインチューニングで一部のパラメータ
のみを更新する。少数のパラメータを追加することで行う。
LSTM(Long Short-Term Memory 長・短期記憶)
RNNを時系列データ等向け等にしたもの。
R
RAG(Retrieval Augumented Generation)
LLMが有さない知識を外部から検索する仕組みを持つ。
RDD法(ランダム・ディジット・ダイヤリング法)
サンプリング調査を行う方法で、コンピュータでランダムに電話番号をつくり、
その電話番号の人を対象とする方法。
RNN(回帰型ニューラルネットワーク)
前のデータの隠れ層の出力も、次のデータの隠れ層の入力とする
ことで、時系列のデータなどを扱うことができる。
ROC曲線
閾値を変化させた時の、真陽性率と偽陽性率の関係を、
縦軸に真陽性率、横軸に偽陽性率をとり、描いた曲線。
T
TF(Term Frequency)
文書中の単語の出現頻度。TF-IDFモデル
TFとIDFから導かれる文書をランキングする手法。V
VAE(変分自己符号化器)
エンコーダーとデコーダーからなるモデル。
エンコーダーで、低次元のベクトル(潜在ベクトル)に変換し、
デコーダーは、洗剤ベクトルから、元のデータに近いものを生成する。
ノイズの除去等に利用される。
Z
Zero-shot CoT
プロンプトのテクニック。プロンプトに「Step by Stepで」などの
プロンプトを与えることで、精度を改善する。
Z値
xのz値は、(x - 平均) / 標準偏差
ア
アプリオリ・アルゴリズム
アソシエーション分析のアルゴリズム。
分析対象のアイテムが増えるに従って、組み合わせが膨大になり、計算が不可能になる。
そのため、支持度が一定以下のアイテムに対しては、信頼度を計算しない。
アンサンブル学習
複数のモデルでの予測から多数決や平均で決定する考え方。
ランダムフォレストもこの考え方を利用。
イ
因子分析
データを少ない潜在的な共通因子で表現する手法。
因果推論
データから変数間の因果を推定するプロセス。
オ
オートエンコーダー
ニューラルネットワークで、入力データを圧縮した後、
元のデータを復元して出力するアルゴリズム。
オートマトン
オートマトンとは、状態と遷移の組み合わせであり
以下の性質を持つもの
・外部からの情報(入力)を受け取る
・内部状態が保持される
・入力情報により、内部状態が遷移する
・内部状態により、外部に情報を発信する
オーバーサンプリング
学習用データが不均衡の時、件数うの少ないデータを水増しする。
カ
過学習
訓練データに適合しすぎて、未知のデータに対して適合できない。
確率的勾配降下法
ディープラーニングで、訓練データの一部だけから勾配の近似値を推定し、
それを利用して、パラメータを更新する。
画像レジストレーション
2つの画像を比較する時、位置を一致させる技術。
キ
帰無仮説
統計的仮説検定において、分析者が否定したい仮説。
ケ
継続学習
LLMに対して、事前学習ずみのパラメータを初期値として、
学習を行う。
決定木の種類
分類木・・・説明変数が、カテゴリ変数
回帰木・・・説明変数が、量的変数
けんろう性
機械学習の品質特性のうち、入力に対して、
モデルが安定した性能を示すこと。
ク
区間推定
推定のうち、母集団の特性値が含まれると考えられる区間を提示する。
コ
勾配
目的関数を各重みで偏微分したベクトル。
勾配ブースディング決定木
1つ前の木が誤分類したデータを修正するよう、次々決定木を作っていく。
勾配上昇法
アンラーニングの手法。学習時、勾配降下法で正解との差が最小にする
ことの逆を行う。
混合モデル
複数の確率分布の組み合わせで確率密度を示す。
混合ガウス分布
複数のガウス分布を組み合わせてデータを表現する。
サ
再現率
検索結果などを評価するために使われる指標。
検索された情報が全体の中のどれだけを網羅しているか。
残差
回帰分析において、各データと予測値の差のこと。
シ
識別器
GANニューラルネットワークの中で、生成器が生成した(偽物)
データを本物データと比較して、識別するネットワーク。
自己符号器
・教師なし学習で、次元削減を行う。
・入力層への入力と、出力層での出力が同じなるようにする。
・中間層の人工ニューロンを入力層や出力層より減らすことで、
中間層で次元を削減したこととなる。
四分位範囲(IQR)
・第3四分位数から、第1四分位数を引いた値。
・IRQの半分の値を、四分位偏差という。
事前学習
LLMの学習において、ファインチューニングを行う前に行われる
テキスト生成などのための学習。
状態空間モデル
時系列データの予測モデル。観測されていない潜在変数を用いる。
主成分分析
多変量のデータをいくつかにまとめる手法。
順位和検定
比較するグループごとに、データを大きい順に並べた時の順位を合計する。
その値によって差があるか、を見る。
ウイルコクソン検定やマン・ホイットニーのU検定が、
この考え方を利用している。
重回帰分析
複数の説明変数を利用した回帰分析。
信頼区間
推定したい値が含まれるであろう区間。
セ
生成器
GANニューラルネットワのなかで、入力データから(偽物を)を生成するネットワーク。
制限付きボルツマンマシン
データの特徴量を発見するため、ニューラルネットワークのニューロン間の
接続をルールに基づいて決める。
ネットワークを入力と推定の2つの部分に分割する。
説明可能性
機械学習の品質特性のうち、入力に対して、出力を得る際の
判断基準が把握できること。
全数調査
母集団のすべてを調べる調査。
全結合層
パーセプトロンの層のなかで、出力がすべての入力と
接続されている層。
ソ
相関係数
-1から1までの値をとり、2つの項目間の関連の度合いを示す指標。タ
対立仮説
統計的仮説検証において、帰無仮説を否定したもの。ダウンサンプリング
学習用データが不均衡の時、その解消のため、データとサンプリングを減らす。
単回帰分析
1つの説明変数を利用した回帰分析。チ
超平面
サポートベクターマシンで使われる、対象のデータの次元を拡張し、対象データをクラス分けするために使われる。
中間層
多層パーセプトロンで、入力層と出力層の中間にある層。中心極限定理
もとのデータの分布によらず、十分な個数のサンプルの平均の分布は、正規分布に従う。
テ
適合率
検索結果などを評価するために使われる指標。検索された結果に、どれだけ正しいデータが含まれるか。
点推定
推定のうち1つの値を提示する。
データクレンジング
・欠損値、外れ値、表記のゆれ、重複データなどに対応する。
・不適切なデータを除去する。
・誤ったラベルを修正する。
データフレーム
RやPythonで扱われる2次元の表形式データ。
ト
統計的推定
標本を使って統計的に母集団の結論を導く。
トピックモデル
文書のトピック(課題)を推定し、トピックに応じて単語の生成確率を変える。
ドロップアウト
ニューラルネットワークの学習時に、ランダムに一部のニューロンを、
学習させないように無効化し、過学習を回避する。
ニ
二値データ
2つ値(1、0など)、しか取らないデータ。
ニューラルネット
ニューロンと重みで構成されるネットワークモデル。
ノ
ノーフリーランチの定理
どんな問題もに対応できる汎用的なモデルは存在しない、とするもの。
ハ
バギング(アンサンブル手法)
アンサンブル手法の1つで、複数のモデルで多数決をとって出力を決定する。
半教師あり学習
少量の正解ラベルをもつデータを用いて、ラベルおnないデータを効率的に学習する。パーセプトロン
複数のニューロンをネットワーク状に繋げたもの。ハフ変換
画像の中から直線や円など特定の形状を抽出する。ヒ
標本
母集団を調べるためにランダムに取り出したもの。標本調査
母集団の一部の標本を調べる調査。標準化
平均が0、標準偏差が1、になるようにデータを変換する。標準正規分布
平均値が0、標準偏差が1、の正規分布。
ビッグデータの特性(4V)
・量(Volume)・更新速度(Velocity)
・データの種類(Variety)
・価値(Value) or 正確性(Veracity)
ベインジアンフィルター
迷惑メールのフィルタリングに使われる。ベイズ理論を応用したアルゴリズム。
フ
不均衡データ
・学習用データでクラス毎に、データ数が大きく異なること。・少ないクラスのデータを増やす「オーバーサンプリング」、
多いクラスのデータを減らす「アンダーサンプリング」で対応する。
物体検出
画像内に写っている物体のカテゴリと入りを推定する。分類
各データにクラス情報を付け加える。分類器
分類の方法やアルゴリズム、それを実装したもの。ホ
ホップフィールドネットワーク
すべての人工ニューロンが相互に結合したネットワーク。物理シミュレーション、最適化問題などに応用される。
ミ
未学習
訓練データに適合できていない状態。訓練誤差が大きすぎて、予測できない。
モ
目的関数
多層ニューラルネットワークの重みを最適化するために、最小値を目指す関数。
ラ
ランダムフォレスト
決定木の中で、ランダムに選んだ学習用データに対応した複数の決定木を用い、制度を上げる。
ル
ルールベース
人間が作成したルールや知識などに基づき判断する考え方。PR