【DS検定対策】AIの「知識の源」!コーパス(Corpus)の重要性
AIが言葉を理解し、生成するためには、お手本となる膨大な文章データが必要です。単なるテキストの集まりを超えた「コーパス」の役割を学びましょう。
1. 【 問題 】
自然言語処理において、言語の法則や構造を抽出するために、実際の言語使用例を大量に集め、検索や分析ができるように構造化したデータベースを何と呼ぶでしょうか?
① 形態素
② コーパス(Corpus)
③ オントロジー
④ シソーラス
2. 【 解答 】
正解: ② コーパス(Corpus)
3. 整理:ただの「文章」と「コーパス」の違い
インターネット上の文章をただ集めただけでは、質の高いAIは育ちません。コーパスには「構造化」という重要な工程が含まれます。
【 コーパスを構成する要素 】
[ 1. 生テキスト(Raw Text) ]
小説、ニュース、SNS、論文など、実際に使われている文章。
[ 2. アノテーション(メタデータ) ]
★ ここが重要!
単語ごとに「品詞情報」を付与したり、文の「感情スコア」を付けたりして、コンピュータが処理しやすい情報を付け加えること。
--------------------------
◎ 代表的なコーパス:
・現代日本語書き言葉均衡コーパス(BCCWJ)
・Wikipediaのダンプデータ
・青空文庫のテキストデータ
小説、ニュース、SNS、論文など、実際に使われている文章。
[ 2. アノテーション(メタデータ) ]
★ ここが重要!
単語ごとに「品詞情報」を付与したり、文の「感情スコア」を付けたりして、コンピュータが処理しやすい情報を付け加えること。
--------------------------
◎ 代表的なコーパス:
・現代日本語書き言葉均衡コーパス(BCCWJ)
・Wikipediaのダンプデータ
・青空文庫のテキストデータ
4. コーパスの活用シーン
1. 辞書・文法作成: 言葉の使われ方を統計的に分析し、より自然な文法モデルを作ります。
2. LLMの学習: ChatGPTなどの大規模言語モデルも、Web上の巨大なコーパスを学習することで言語能力を獲得しています。
3. 翻訳精度向上: 対訳コーパス(日本語と英語が対になったデータ)により、翻訳AIを強化します。
5. DS検定形式:実戦4択クイズ
問:コーパスに品詞情報などの付随情報を追加する作業を一般に何と呼ぶか。
① クレンジング ② アノテーション ③ スクレイピング ④ トークン化
【 正解: ② 】
解説: データに対して「ラベル」や「注釈」を付ける作業をアノテーションと呼びます。コーパスの価値は、このアノテーションの質と量で決まると言っても過言ではありません。
6. まとめ
DS検定において「言語を構造化したデータベース」「大量の使用例」という表現が出たら「コーパス」です。データベースエンジニアとしても、非構造化データを構造化データに変える「情報の宝庫」として覚えておきたい用語ですね!
PR