忍者ブログ

いけいけ機械学習

統計、機械学習、AIを学んでいきたいと思います。 お役に立てば幸いです。

Seq2Seq

・自然言語処理などで利用される、符号化するエンコーダと、復元するデコーダーの組み合わせ。

・Seq2Seqのエンコーダーでは、LSTMが利用される。


PR


Word2Vec

・形態素をベクトル化する方法。

・意味的に近い形態素が距離的に近いベクトルへ変換される。

このような表現方法を分散表現ベクトルという。

・分散ベクトルを実現する方法としては,他にも、いろいろある。



TF-IDF処理


・文章の特徴量として、文章ベクトルを利用する

・文章ベクトルは、TFとIDFの値の組

・TF(Term Frequenc )処理は、多く出現する単語は重要である

という前提に基づく

・IDF(Inverse Document Frequency)処理は、ある安吾が

出現する文書の数が少ないほど、より大きな値を与えるもの