1.文字種の統一
半角で書かれているもの、全角で書かれているものを揃えるなど
2.用語の統一
同じものを別の言葉で表現しているものの統一など
PR
形態素解析
テキストを単語に分解する
係り受け解析
主語と述語など単語どおしの依存関係を分析する
単語の意味は、前後の単語との関係で決定される
というもの
1.文の抽出
文章を文に分ける
句点やピリオドを利用する
2.形態素解析
形態素は単語にあたるもの
文を形態素へ分割する
3.構文解析
形態素解析の結果を用いて
文の構造を決定する
例えば、名詞+動詞 など
4.意味解析
文の意味を決定する
CBOWモデル
自然言語処理で、対象の単語の前後に現れる単語から、
その単語を推測する