BLEU スコアは、機械翻訳モデルのパフォーマンスを評価するために広く使用されている指標です。 機械生成された翻訳と XNUMX つ以上の参照翻訳の間の類似性を測定します。 AutoML Translation でトレーニングされたカスタム翻訳モデルのコンテキストでは、BLEU スコアはモデルの出力の品質と有効性についての貴重な洞察を提供できます。
BLEU スコアがどのように使用されるかを理解するには、まず基礎となる概念を理解することが重要です。 BLEU は Bilingual Evaluation Understudy の略で、機械翻訳を人間が作成した参照翻訳と比較することで、機械翻訳の品質を自動的に評価する方法として開発されました。 スコアの範囲は 0 ~ 1 で、スコアが高いほど翻訳が優れていることを示します。
AutoML Translation は、Google Cloud AI Platform が提供する強力なツールで、ユーザーは独自のデータを使用してカスタム翻訳モデルをトレーニングできます。 モデルがトレーニングされると、新しい入力テキストの翻訳を生成するために使用できます。 BLEU スコアを使用して、これらの翻訳の品質を評価できます。
BLEU スコアを計算するには、モデルで生成された翻訳が XNUMX つ以上の参照翻訳と比較されます。 比較は、n 個の単語の連続したシーケンスである n グラムに基づいて行われます。 BLEU スコアでは、モデルが生成した翻訳における N グラムの精度だけでなく、参照翻訳における N グラムの存在も考慮されます。 これは、翻訳の適切性と流暢性の両方を把握するのに役立ちます。
これを例で説明してみましょう。 「猫はマットの上に座っている」という参照翻訳があるとします。 そして、モデルは次の翻訳を生成します:「猫はマットの上に座っています。」 これらの文を N グラムに分割できます。
参照: [「The」、「cat」、「is」、「sitting」、「on」、「the」、「mat」] モデル: [「the」、「cat」、「sits」、「on」、 「ザ」、「マット」]
この場合、モデルは N グラムの大部分を正しく翻訳しますが、動詞の時制 (「ある」と「座っている」) が抜け落ちています。 BLEU スコアは、翻訳に低いスコアを割り当てることでこれを反映します。
BLEU スコアは、修正精度や簡潔さのペナルティなど、さまざまな方法を使用して計算できます。 修正された精度は、翻訳に N グラムが複数回含まれる可能性があるという事実を考慮しており、一方、簡潔さのペナルティにより、参照翻訳よりも大幅に短い翻訳にペナルティが課されます。
AutoML Translation でトレーニングされたカスタム翻訳モデルの BLEU スコアを評価することで、ユーザーはモデルのパフォーマンスについての洞察を得て、改善の余地がある領域を特定できます。 さまざまなモデルまたは反復の BLEU スコアを比較して進捗状況を追跡し、情報に基づいてモデルの選択や微調整に関する意思決定を行うことができます。
BLEU スコアは、AutoML Translation でトレーニングされたカスタム翻訳モデルのパフォーマンスを評価するための貴重な指標です。 機械生成された翻訳を参考翻訳と比較することで、その品質を定量的に測定します。 BLEU スコアを分析することで、ユーザーはモデルの有効性を評価し、データに基づいた意思決定を行って翻訳品質を向上させることができます。
その他の最近の質問と回答 AutoML翻訳:
- AutoML Translation を使用してカスタム翻訳モデルを作成するにはどのような手順が必要ですか?
- AutoML Translation は、一般的な翻訳タスクと専門分野の語彙の間のギャップをどのように埋めるのでしょうか?
- 特定のドメインのカスタム翻訳モデルを作成する際の AutoML Translation の役割は何ですか?
- カスタム翻訳モデルは、機械学習と AI の特殊な用語や概念にどのように役立つのでしょうか?
その他の質問と回答:
- フィールド: Artificial Intelligence
- プログラム: EITC/AI/GCMLGoogleクラウド機械学習 (認定プログラムに進む)
- レッスン: Google CloudAIプラットフォーム (関連するレッスンに行く)
- トピック: AutoML翻訳 (関連トピックに移動)
- 試験の復習