Maß zur Bestimmung der stilistischen Ähnlichkeit zwischen Texten
– @buettner2017, p.3
- sehr robust
- funktioniert in verschiedenen Sprachen und Textgattungen
- man weiß nicht so genau, wie oder warum es so gut funktioniert
- Vorgehensweise
- alle im Korpus vorkommenden Types, d.h. alle Wortformen, gesammelt und nach Gesamthäufigkeit sortiert
- dann werden je Dokument die relativen Häufigkeiten berechnet
- diese Werte werden über eine z-transformation normalisiert
- für jedes Wort wird die Differenz zwischen zwei Dokumenten ermittelt
- nun können “die Absolutbeträge der Differenzen für alle Wörter aufaddiert werden” [@buettner2017]
- je kleiner die Differenz, desto größer die Ähnlichkeit
- je größer die Ähnlichkeit, desto höher die Wahrscheinlichkeit, dass beide vom selben Autor verfasst wurden
-
Keywords: authorship, nlp
-
Quellen