BLEU (Bilingual Evaluation Understudy) is an evaluation metric for measuring the quality of machine-translated texts. The generated output is compared to a human-created reference (“gold standard”)
Eine allgemein akzeptierte Metrik für die [Automatische Evaluation] ist BLEU (Bilingual Evaluation [Understudy]) (Koehn, 2020). BLEU vergleicht einerseits die Anzahl der Wörter im MÜ-Output mit der vorliegenden Referenz, belohnt aber auch die korrekte Wiedergabe von größeren N-Grammen (Koehn, 2020). Kürze Sätze werden hingegen bestraft (engl. brevity penalty), sodass etwaige Auslassungen die Gesamtpunktzahl, die je nach Darstellungskonvention zwischen 0 und 1 bzw. 0 und 100 liegt, nach unten ziehen (Koehn, 2020). Jedoch ist BLEU nicht immer zuverlässig, da es Wörtern keine individuelle Signifikanz zuschreibt. Darüber hinaus ist die berechnete Punktzahl nur der Durchschnitt der einzelnen Sätze. Es wird dementsprechend nur eine globale, aber keine lokale Kohärenz ermittelt.
- Keywords: evaluation-metrics, machine-translation
- Source: @koehn2020
- Modelle bewerten | AutoML Translation-Dokumentation | Google Cloud
- Meine Hausarbeit 🙂
- Related: