・自然言語処理などで利用される、符号化するエンコーダと、復元するデコーダーの組み合わせ。
・Seq2Seqのエンコーダーでは、LSTMが利用される。
PR
文書中の単語を数える手法。文書を単語に分けてカウントする。
・形態素をベクトル化する方法。
・意味的に近い形態素が距離的に近いベクトルへ変換される。
このような表現方法を分散表現ベクトルという。
・分散ベクトルを実現する方法としては,他にも、いろいろある。
・文章の特徴量として、文章ベクトルを利用する
・文章ベクトルは、TFとIDFの値の組
・TF(Term Frequenc )処理は、多く出現する単語は重要である
という前提に基づく
・IDF(Inverse Document Frequency)処理は、ある安吾が
出現する文書の数が少ないほど、より大きな値を与えるもの