Maß zur Bestimmung der stilistischen Ähnlichkeit zwischen Texten
@buettner2017, p.3

  • sehr robust
  • funktioniert in verschiedenen Sprachen und Textgattungen
  • man weiß nicht so genau, wie oder warum es so gut funktioniert
  • Vorgehensweise
    1. alle im Korpus vorkommenden Types, d.h. alle Wortformen, gesammelt und nach Gesamthäufigkeit sortiert
    2. dann werden je Dokument die relativen Häufigkeiten berechnet
    3. für jedes Wort wird die Differenz zwischen zwei Dokumenten ermittelt
      • nun können “die Absolutbeträge der Differenzen für alle Wörter aufaddiert werden” [@buettner2017]
  • je kleiner die Differenz, desto größer die Ähnlichkeit
  • je größer die Ähnlichkeit, desto höher die Wahrscheinlichkeit, dass beide vom selben Autor verfasst wurden