統計機械学習用語集

3

3シグマ法

平均から標準偏差の3倍以上離れている値を外れ値とみなす。

D

Deep Q-Network(DQN)

強化学習の価値関数を近似的に計算するディープラーニングネットワーク。

E

encoder-decoderモデル

seq2seqやtransformerで使われるモデル。
encoderは、入力データをベクトルへ変換し、decoderは、データを復元する。

F

F値

適合率と再現率の調和平均であり、

適合率と再現率のバランスを示す指標。

G

GAN(敵対的生成ネットワーク)

生成器がデータを生成し、識別器が生成されたデータと、

元のデータを区別する。この2つを利用し、データの生成能力を

向上させる。

GMM推定

(x,y)を時系列データとするとき

・yとxは、非線形の関係がある

・xと誤差εの間に相関関係がある

場合に、モデルのパラメータを推定する方法

I

IDF(Inverse DOcument Frequency)

文書全体の数 / 対象単語が出現する文書の数。

対象単語の出現数が少ない程、大きな値となり、

めずらしいことが分かる。

K

k-means++(k-平均法++)

k-平均法では、初期の中心点は、ランダムになるが、

k-平均++では、初期の中心点を、互いに離れたものとすることで、

収束の高速化や適切な中心点の選択、各データの適切な割り当てを行う。

L

Light GBM

勾配ブースティングを利用して、決定木をつくるアルゴリズムの一つ。

LoRA(Low-Rank Adapcation)

ファインチューニングの手法で、ファインチューニングで一部のパラメータ

のみを更新する。少数のパラメータを追加することで行う。

LSTM(Long Short-Term Memory 長・短期記憶)

RNNを時系列データ等向け等にしたもの。

O

Q

R

RAG(Retrieval Augumented Generation)

LLMが有さない知識を外部から検索する仕組みを持つ。

RDD法(ランダム・ディジット・ダイヤリング法)

サンプリング調査を行う方法で、コンピュータでランダムに電話番号をつくり、

その電話番号の人を対象とする方法。

RNN(回帰型ニューラルネットワーク)

前のデータの隠れ層の出力も、次のデータの隠れ層の入力とする

ことで、時系列のデータなどを扱うことができる。

ROC曲線

閾値を変化させた時の、真陽性率と偽陽性率の関係を、

縦軸に真陽性率、横軸に偽陽性率をとり、描いた曲線。

S

SVM

サポートベクターマシン。超平面を用いて分離を行う

アルゴリズム。

T

TF(Term Frequency)

文書中の単語の出現頻度。

TF-IDFモデル

TFとIDFから導かれる文書をランキングする手法。

V

VAE(変分自己符号化器)

エンコーダーとデコーダーからなるモデル。

エンコーダーで、低次元のベクトル(潜在ベクトル)に変換し、

デコーダーは、洗剤ベクトルから、元のデータに近いものを生成する。

ノイズの除去等に利用される。

Z

Zero-shot CoT

プロンプトのテクニック。プロンプトに「Step by Stepで」などの

プロンプトを与えることで、精度を改善する。

Z値

xのz値は、(x - 平均) / 標準偏差

ア

アプリオリ・アルゴリズム

アソシエーション分析のアルゴリズム。

分析対象のアイテムが増えるに従って、組み合わせが膨大になり、計算が不可能になる。

そのため、支持度が一定以下のアイテムに対しては、信頼度を計算しない。

アンサンブル学習

複数のモデルでの予測から多数決や平均で決定する考え方。

ランダムフォレストもこの考え方を利用。

イ

意味ネットワーク

言葉とおしの意味の管理をネットワークモデルで表現する。

因子分析

データを少ない潜在的な共通因子で表現する手法。

いくつかの変数間に潜む共通の要因(因子)を探る。

因子分析は、データを因子に分解する。

主成分分析は、データを主成分に統合する。

因果推論

データから変数間の因果を推定するプロセス。

因果分析

観測変数と潜在変数で示されたモデルで、変数間の関係の強さを
パス係数で表現する。

オ

オッズ比

確率pに対して、p / (1- p) 事象が起こる確率/ 事象が起こらない確率
を、オッズという。

2つの事象のオッズの比を、オッズ比と言う。

オッズ比は、0から無限大の値を取り、2つの事象の関連の強さを表す。

オートエンコーダー

ニューラルネットワークで、入力データを圧縮した後、
元のデータを復元して出力するアルゴリズム。

オートマトン

オートマトンとは、状態と遷移の組み合わせであり

以下の性質を持つもの

　・外部からの情報(入力）を受け取る

　・内部状態が保持される

　・入力情報により、内部状態が遷移する

　・内部状態により、外部に情報を発信する

オーバーサンプリング

学習用データが不均衡の時、件数うの少ないデータを水増しする。

カ

過学習

訓練データに適合しすぎて、未知のデータに対して適合できない。

確率的勾配降下法

ディープラーニングで、訓練データの一部だけから勾配の近似値を推定し、
それを利用して、パラメータを更新する。

価値観数(強化学習)

将来得られる収益の期待値を表す関数。

画像レジストレーション

2つの画像を比較する時、位置を一致させる技術。

キ

帰無仮説

統計的仮説検定において、分析者が否定したい仮説。

協調フィルタリング

データセット間のデータの間に、パターンを見つける。

新たなデータに対して、アクションを行う。

ケ

継続学習

LLMに対して、事前学習ずみのパラメータを初期値として、

学習を行う。

決定木の種類

分類木・・・説明変数が、カテゴリ変数

回帰木・・・説明変数が、量的変数

けんろう性

機械学習の品質特性のうち、入力に対して、

モデルが安定した性能を示すこと。

ク

区間推定

推定のうち、母集団の特性値が含まれると考えられる区間を提示する。

ケ

ケースクイズ削除

・欠損のあるデータを分析する時の手法。
・相関係数を計算するとき、対象となる2つの変量がともに欠損でなければ、
　計算対象として、どちらか一方が欠損していれば、計算から外す。

コ

勾配

目的関数を各重みで偏微分したベクトル。

勾配ブースディング決定木

1つ前の木が誤分類したデータを修正するよう、次々決定木を作っていく。

勾配上昇法

アンラーニングの手法。学習時、勾配降下法で正解との差が最小にする

ことの逆を行う。

混合モデル

複数の確率分布の組み合わせで確率密度を示す。

混合ガウス分布

複数のガウス分布を組み合わせてデータを表現する。

サ

再現率

検索結果などを評価するために使われる指標。

検索された情報が全体の中のどれだけを網羅しているか。

残差

回帰分析において、各データと予測値の差のこと。

シ

識別器

GANニューラルネットワークの中で、生成器が生成した(偽物)

データを本物データと比較して、識別するネットワーク。

自己相関係数

時系列データにおいて、過去のデータと現在のデータに相関があるかを
調べる係数。

自己符号器

・教師なし学習で、次元削減を行う。

・入力層への入力と、出力層での出力が同じなるようにする。

・中間層の人工ニューロンを入力層や出力層より減らすことで、

中間層で次元を削減したこととなる。

四分位範囲(IQR)

・第3四分位数から、第1四分位数を引いた値。

・IRQの半分の値を、四分位偏差という。

指数平滑法

直前の実測と、直前の予測を利用して、予測値を算出する。

予測値 = α×直前の実測　+　(1-α)×直前の予測。

αは、平滑定数と呼ばれる。

次元の呪い

次元が増えると計算量が爆発的に増えること

事前学習

LLMの学習において、ファインチューニングを行う前に行われる

テキスト生成などのための学習。

状態空間モデル

時系列データの予測モデル。観測されていない潜在変数を用いる。

主成分分析

多変量のデータをいくつかにまとめる手法。

順位和検定

比較するグループごとに、データを大きい順に並べた時の順位を合計する。

その値によって差があるか、を見る。

ウイルコクソン検定やマン・ホイットニーのU検定が、

この考え方を利用している。

重回帰分析

複数の説明変数を利用した回帰分析。

信頼区間

推定したい値が含まれるであろう区間。

ス

スライス

データから必要な部分空間を取り出す。

セ

生成器

GANニューラルネットワのなかで、入力データから

(偽物を)を生成するネットワーク。

制限付きボルツマンマシン

データの特徴量を発見するため、ニューラルネットワークのニューロン間の

接続をルールに基づいて決める。

ネットワークを入力と推定の2つの部分に分割する。

説明可能性

機械学習の品質特性のうち、入力に対して、出力を得る際の

判断基準が把握できること。

全数調査

母集団のすべてを調べる調査。

全結合層

パーセプトロンの層のなかで、出力がすべての入力と

接続されている層。

ソ

相関係数

-1から1までの値をとり、2つの項目間の関連の度合いを示す指標。

タ

対立仮説

統計的仮説検証において、帰無仮説を否定したもの。

ダウンサンプリング

学習用データが不均衡の時、その解消のため、データと

サンプリングを減らす。

単回帰分析

1つの説明変数を利用した回帰分析。

チ

超平面

サポートベクターマシンで使われる、対象のデータの次元を拡張し、
対象データをクラス分けするために使われる。

チェビシェフの定理

1. 少なくとも、4分の3のデータは、平均値から2標準偏差内に位置する。
2.少なくとも、9分の8のデータは、平均値から3標準偏差内に位置する。

中間層

多層パーセプトロンで、入力層と出力層の中間にある層。

中心極限定理

もとのデータの分布によらず、十分な個数のサンプルの平均の分布は、
正規分布に従う。

テ

適合率

検索結果などを評価するために使われる指標。

検索された結果に、どれだけ正しいデータが含まれるか。

点推定

推定のうち1つの値を提示する。

データクレンジング

・欠損値、外れ値、表記のゆれ、重複データなどに対応する。

・不適切なデータを除去する。

・誤ったラベルを修正する。

データフレーム

RやPythonで扱われる2次元の表形式データ。

ト

統計的推定

標本を使って統計的に母集団の結論を導く。

トピックモデル

文書のトピック(課題)を推定し、トピックに応じて単語の生成確率を変える。

トリム平均

異常値を除外して計算した平均。

ドロップアウト

ニューラルネットワークの学習時に、ランダムに一部のニューロンを、

学習させないように無効化し、過学習を回避する。

トークン

自然言語処理で単語などに分割する時、分割された1つ1つのもの。

ニ

二値データ

2つ値(1、0など)、しか取らないデータ。

ニューラルネット

ニューロンと重みで構成されるネットワークモデル。

ノ

ノーフリーランチの定理

どんな問題もに対応できる汎用的なモデルは存在しない、とするもの。

ハ

背景差分

動画等の背景をモデル化し、背景をさしひき、物体を検出する。

バギング(アンサンブル手法)

アンサンブル手法の1つで、複数のモデルで多数決をとって

出力を決定する。

バリアンス

訓練データの選び方で生じる誤差。

半教師あり学習

少量の正解ラベルをもつデータを用いて、ラベルおｎないデータを効率的に学習する。

パーセプトロン

複数のニューロンをネットワーク状に繋げたもの。

ハフ変換

画像の中から直線や円など特定の形状を抽出する。

万能近似定理

任意の関数は、多層パーセプトロンで近似できる。

ヒ

平均への回帰

試行を繰り返すことで、結果が平均に近づいていくこと。

標本

母集団を調べるためにランダムに取り出したもの。

標本調査

母集団の一部の標本を調べる調査。

標準化

平均が0、標準偏差が1、になるようにデータを変換する。

標準正規分布

平均値が0、標準偏差が1、の正規分布。

ビッグデータの特性(4V)

・量(Volume)

・更新速度(Velocity)

・データの種類(Variety)

・価値(Value) or 正確性(Veracity)

ベインジアンフィルター

迷惑メールのフィルタリングに使われる。

ベイズ理論を応用したアルゴリズム。

フ

不均衡データ

・学習用データでクラス毎に、データ数が大きく異なること。

・少ないクラスのデータを増やす「オーバーサンプリング」、

多いクラスのデータを減らす「アンダーサンプリング」で対応する。

物体検出

画像内に写っている物体のカテゴリと入りを推定する。

フォワードプロパゲーション(順伝播)

ニューラルネットワークにおいて、入力データを入力層から。

出力層まで流すこと。

分類

各データにクラス情報を付け加える。

分類器

分類の方法やアルゴリズム、それを実装したもの。

ホ

ホップフィールドネットワーク

すべての人工ニューロンが相互に結合したネットワーク。

物理シミュレーション、最適化問題などに応用される。

母集団

対象すべての観測値や計測値。

ホールドアウト法

訓練でーたを一部を訓練用に、一部を検証用に分割して利用する。

マ

マルコフモデル

次の状態の確率が、直前の状態にだけ依存する。

ミ

未学習

訓練データに適合できていない状態。

訓練誤差が大きすぎて、予測できない。

密度推定

入力などのデータが得られる確率(確率密度)を推定する。

ミニバッチ

データ全体からランダムに指定された個数のデータを選択し、

そのデータでの平均損失を最小にするよう最適化する。

モ

目的関数

多層ニューラルネットワークの重みを最適化するために、

最小値を目指す関数。

ラ

ランダムフォレスト

決定木の中で、ランダムに選んだ学習用データに対応した複数の決定木を用い、

制度を上げる。

リ

リッカード尺度

アンケートで用いられる尺度。
1.強く賛成する。
2.賛成する。
3.どちらでもない。
4.反対である。
5.強く反対する。

ル

ルールベース

人間が作成したルールや知識などに基づき判断する考え方。

ロ

ロジスティック回帰

・目的変数が、2値(0と1)の場合の予測方法。
・各説明変数の時の確率が、0.5をコアエうかで、2値の判定を行う。