Ansätze der Wortschatzkomplexität

Goethe und Schiller. Ohne allzu tief in einen literaturwissenschaftlichen Diskurs zur Qualität beider Autoren einzusteigen, beobachtete ich im Gespräch mit literarisch Versierten und Interessierten, dass es oft eine leichte Präferenz für einen der beiden gibt. Das Ganze oft kombiniert mit einer ebenso leichten Tendenz des völligen Unverständnisses, warum gerade der Andere besser sein sollte. Wenn man in diesem kritischen Moment nicht aufpasst, kann sich das zu einer ausschweifenden zweistündigen Diskussion über metrische Strukturen in Elegien ausweiten. Das möchte niemand. Um dennoch einen Eindruck zu vermitteln, hier einige Argumente kurz zusammengefasst:

„Ahh, Die Metamorphose der Pflanzen … Oh … toll… Sex unter Pflanzen.”

„Schiller ist halt auch ein Autor, der Zeitlebens im Schatten eines Größeren stand.”

„Wo jetzt genau in Faust I das Drama aufhört und die Altherrenphantasie anfängt, ist ja wohl eine Gretchenfrage.” (in Anlehnung an Jan Böhmermanns Video)

„Wohlwollend kann man Kabale und Liebe ja als Aktualisierung eines Romeo und Juliasujets betrachten… Halt nur in schlecht und bürgerlich.”

Wenn man das Ganze ein wenig weniger polemisch betrachtet, stellt man fest, dass beide Autoren (neben ihrer Bedeutung für den Sturm und Drang sowie die Weimarer Klassik) eine kaum zu überschauende Wirkung bis in die Moderne und Postmoderne haben. Plätze, Straßen, Schulen, Universitäten etc. sind beispielsweise nach Goethe oder Schiller benannt.

 

…straße

…platz

…park

…allee

…gasse

…ring

Schiller…

2232

106

7

9

8

13

Goethe…

2134

74

6

18

0

31

Quelle: https://www.zeit.de/interactive/strassennamen

Beide Autoren sind in den Lehrplänen der Länder zu finden. Marcel Reich-Ranickis verewigte sie mit diversen Werken in seinem Kanon. Und selbst in Umfragen zu Vorbildern geben 13%-15% der Befragten an, dass einer der beiden ein nacheifernswertes Vorbild wäre.

Nun, trotz des Kopf-an-Kopf-Rennens in Umfragen, Straßennamen und literaturwissenschaftlicher Fachdiskussion bleibt die Frage: Gibt es denn innerhalb der Texte einen großen linguistischen Unterschied?

Wissen, wo der h-Punkt ist

Ein Aspekt, der hierbei untersucht werden könnte, wäre die Wortschatzgröße und, damit einhergehend, Vokabulardiversität und lexische Struktur eines Autors. Was einen Wortschatz auszeichnet, ist dabei einfacher, als ihn auch zu messen. Gemeinhin würde man annehmen, dass der Wortschatz sich aus der Gesamtzahl der Wörter ergibt, die eine Person entweder rezeptiv versteht oder produktiv nutzt. Wie dieser, qualitativ gesehen, strukturiert ist, steht dabei auf einem anderen Blatt. Beispielsweise, ob viele Fachwörter, Fremdwörter, Alizismen, Regionalismen, Slangausdrücke oder ähnliches den Wortschatz bestimmen. Übrigens ist das ein Grund, warum der Rapper Haftbefehl im Wortschatzranking knapp hinter Goethe liegt: Er hat einen sehr hohen Anteil an Lehnwörtern aus anderen Sprachen, die bei der Bestimmung eines Wortschatzes ausschlaggebend sind. (Hier erklärt Haftbefehl auch nochmal verschiedene Lehnwörter.)

Und da sieht man schon die ersten Schwierigkeiten, wenn man methodisch ermitteln möchte, wie der Wortschatz einer Person strukturiert ist und wie man beispielsweise die Wortschatzgröße bestimmen will. Allein die Anzahl an Wörtern (Tokens) reicht nicht aus. Und auch die Anzahl der Types ist ein nur eingeschränkter Faktor.  Hierzu ein Beispiel aus meiner letzten Konversation:

Wenn man hier Types und Tokens zählt, sieht das so aus:

  Megan Tony

Types

(Lemmata bzw. unterschiedliche Wörter)

3 (shut, up, creep) 12 (hey, du, haben, morgen, Lust, auf, schwimmen, im, See, sollen, gut, Wetter, sein)

Tokens

(alle Wortformen)

3 (shut, up, creep) 15  (hey, du, hast, du, morgen, Lust, auf, Schwimmen, im See, morgen, soll, gutes, Wetter, werden)

 

Das Ergebnis wäre, dass ich einen Wortschatz von 12 bzw. 15 hätte, meine Chatpartnerin 3… Es ist durchaus unwahrscheinlich, dass anhand dieses Textabschnittes ablesbar ist, dass mein Wortschatz 4x so groß ist. Vielmehr weist das auf ein anderes Problem hin: Nämlich, dass Leute, die sich nicht kurz fassen können (bzw. von denen große Mengen Textmaterial vorliegen), eben deshalb bessere Werte erhalten würden. Eine Möglichkeit, das Ganze zu ändern, wäre daher die lexikalische Vielfalt zu berechnen. Die Idee dahinter ist, zu schauen, wie komplex ein Wortschatz ist. Maße dafür wäre beispielsweise die Type-Token-Ratio (TTR). Diese betrachtet, wie viele Lemmata wie vielen Wortformen gegenüberstehen. Die Idee dahinter ist verhältnismäßig einfach: Man nimmt an, dass ein komplexeres Vokabular sich darin zeigt, dass man öfter unterschiedliche Worte benutzt: Ein Text mit dem Wert 1 würde also bedeuten, dass kein verwendetes Wort sich wiederholt. Je kleiner dieser Wert ist, umso öfter werden Wortformen (Tokens) eines bestimmten Wortstamms (Type) verwendet.

Im oberen Beispiel würde das bedeuten:

Megan hat eine lexikalische diversität von 1 (3 Types / 3 Tokens), ich hingegen von 0,87 (13 Types / 15 Tokens).

Doch auch hier gibt es das Problem, dass bestimmte Wörter in natürlichen Sprachen einfach öfter auftauchen, etwa Präpositionen oder Konjunktionen wie „und”, „in”, „um”, „hinter”, „oder”… (auch aufgrund von mangelnden Synonymen).

Daher entwickelten sich über die Zeit hinweg weitere Maße, die auch textlängenunabhängig lexikalische Vielfältigkeit ausdrücken können. Um nur einige Beispiele zu nennen: MTLD (measure of textual lexical diversity), Guiraud’s Root TTR, Herdan’s C, Mean Segmental Type-Token Ratio, h-Point und weitere… Letzterer gibt übrigens den geometrischen Punkt an, ab welchem ein Text von Synsemantika (oder Funktionswörter) zu autosemantischen Gehalten (Inhaltswörter) übergeht, und ist daher für die Berechnung einer Vielzahl von Indikatoren in der quantitativen Linguistik relevant.

Korpusgrundlage

Um aber auf Goethe und Schiller zurückzukommen: Beide Autoren gelten nicht umsonst als Dichterfürsten. Da sie so unfassbar viel geschrieben haben, hier ein Kurzüberblick, was davon alles in die Analyse mit eingeflossen ist:

 

Goethe Schiller

Dramen

Die Laune des Verliebten

Die Mitschuldigen

Götz von Berlichingen mit der eisernen Hand

Prometheus

Satyros

Götter, Helden und Wieland

Ein Fastnachtsspiel vom Pater Brey

Das Jahrmarktsfest zu Plundersweilern

Erwin und Elmire

Claudine von Villa Bella

Faust [in ursprünglicher Gestalt]

Clavigo

Hanswursts Hochzeit

Stella

Die Geschwister

Proserpina

Der Triumph der Empfindsamkeit

Egmont

Iphigenie auf Tauris

Torquato Tasso

Der Großkophta

Der Bürgergeneral

Die Aufgeregten

Mahomet der Prophet

Die natürliche Tochter

Faust: Der Tragödie erster Teil

Pandora

Des Epimenides Erwachen

Faust: Der Tragödie zweiter Teil

 

Romane

Die Leiden des jungen Werther

Wilhelm Meisters theatralische Sendung

Wilhelm Meisters Lehrjahre

Die Wahlverwandtschaften

Wilhelm Meisters Wanderjahre

 

Erzählungen

Unterhaltungen deutscher Ausgewanderten

Briefe aus der Schweiz

Novellen

 

Versepen

Der ewige Jude

Reineke Fuchs

Hermann und Dorothea

 

Lyrik

Gedichte (Ausgabe letzter Hand)

Gedichte. Nachlese

Xenien und Votivtafeln

West-östlicher Divan

 

Sonstige

Aufzeichnungen und Aphorismen

Studien zur Ästhetik

Studien zu Naturwissenschaft

 

Dramen

Die Räuber

Die Verschwörung des Fiesco zu Genua

Kabale und Liebe

Don Karlos, Infant von Spanien

Wallenstein

Maria Stuart

Die Jungfrau von Orleans

Die Braut von Messina oder die feindlichen Brüder

Wilhelm Tell

Die Huldigung der Künste

Demetrius

Der versöhnte Menschenfeind – Fragment

Semele

 

Erzählungen

Der Verbrecher aus verlorener Ehre

Spiel des Schicksals

Eine großmütige Handlung aus der neuesten Geschichte

Geschichten aus dem alten Pitaval

Merkwürdiges Beispiel einer weiblichen Rache

Der Geisterseher

Der Spaziergang unter den Linden

 

Philosophische Schriften

Gedanken über den Gebrauch des Gemeinen und Niedrigen in der Kunst

Über Anmuth und Würde

Über das Pathetische

Über das Erhabene

Über den Grund des Vergnügens an tragischen Gegenständen

Über den moralischen Nutzen ästhetischer Sitten

Über den Zusammenhang der thierischen Natur des Menschen mit seiner geistigen

Über die ästhetische Erziehung des Menschen

Über die nothwendigen Grenzen beim Gebrauch schöner Formen

Zerstreute Betrachtungen über verschiedene ästhetische Gegenstände

Philosophische Briefe

 

Lyrik

Gedichte:

Gedichte

Xenien

Rätsel aus Turandot

 

Sonstige

Ankündigung der „Rheinischen Thalia“

Über Bürgers Gedichte

Über Egmont, Trauerspiel von Goethe

Über Matthissons Gedichte

Was kann eine gute stehende Schaubühne eigentlich wirken?

Die Horen

Über epische und dramatische Dichtung

Über naive und sentimentalische Dichtung

Brief eines reisenden Dänen

Über die tragische Kunst

Dom Karlos

Briefe über Don Carlos

Repertorium des Mannheimer Nationaltheaters

Wallensteinischer Theaterkrieg

Dramaturgische Preißfragen

Die Schaubühne als eine moralische Anstalt betrachtet

Kallias oder über die Schönheit

Geschichte des dreißigjährigen Kriegs

Geschichte des Abfalls der vereinigten Niederlande von der spanischen Regierung

Was heißt und zu welchem Ende studiert man Universalgeschichte?

Die Gesetzgebung des Lykurgus und Solon

Denkwürdigkeiten aus dem Leben des Marschalls von Vieilleville

Geschichte der Unruhen in Frankreich, welche der Regierung Heinrichs IV. vorangingen

Herzog von Alba bei einem Frühstück auf dem Schlosse zu Rudolstadt, im Jahr 1547

Über Völkerwanderung, Kreuzzüge und Mittelalter

Übersicht des Zustands von Europa zur Zeit des ersten Kreuzzugs

Universalhistorische Uebersicht der merkwürdigsten Staatsbegebenheiten

Etwas über die erste Menschengesellschaft nach dem Leitfaden der mosaischen Urkunde

Die Sendung Moses

Des Grafen Lamoral von Egmont Leben und Tod

Turandot, Prinzessin von China

Der Neffe als Onkel

Der Parasit

Iphigenie in Aulis

Macbeth

Phaedra (Phèdre)

An den Herausgeber der Propyläen

Über den Gartenkalender auf das Jahr 1795

Vorrede zu dem ersten Theile der merkwürdigsten Rechtsfälle nach Pitaval

Vorrede zu der Geschichte des Maltheserordens nach Vertot von M. N. bearbeitet

 

 

Und wer hat nun den größeren?

Die nüchternen Zahlen

  GOETHE SCHILLER
Gesamtlemmata: 61862 48828
Gesamtwörter: 1557576 1221497
Verhältnis von Funktionswörtern zu Inhaltswörtern: 0.5631 0.5629
TTR: 0.0397 0.0399
MLTD: 70.3982 69.0314
SSTR: 0.6827 0.6774
Vocabulary-Richness: 0.4058

0.4379

 

VOCD: 0.8511 0.7830
Durchschnittlicher Verbabstand: 7.0491 7.6066
Durchschnittliche Kommata/Satz: 1,5459 1,3076
Durchschnittliche Satzlänge:

15,1127 Wörter

 

14,2750 Wörter

 

h-Punkt: 408.0

364.5

     
Gesamtlemmata: 61862 48828
Gesamtwörter: 1557576 1221497
Verhältnis von Funktionswörtern zu Inhaltswörtern: 0.5631 0.5629
TTR: 0.0397 0.0399
MLTD: 70.3982 69.0314
SSTR: 0.6827 0.6774
Vocabulary-Richness: 0.4058

0.4379

 

VOCD: 0.8511 0.7830
Durchschnittlicher Verbabstand: 7.0491 7.6066
Durchschnittliche Kommata/Satz: 1,5459 1,3076
Durchschnittliche Satzlänge:

15,1127 Wörter

 

14,2750 Wörter

 

h-Punkt: 408.0 364.5

Und was heißt das alles?

Um Goethe zu verstehen, benötigt man ca. einen Wortschatz von fast 62.000 Lemmata, bei Schiller knapp 49.000. Das mag zunächst einmal nach viel klingen. Bedenkt man aber, dass der aktive Wortschatz im Schnitt bei 12.000 Wörtern und der passive (Wörter die man versteht, ohne sie aktiv zu benutzen) bei 100.000 liegt, relativiert sich das etwas (mehr zu individuellem Wortschatz hier, zu Sprachwortschatz allgemeiner hier). Daraus folgt jedoch nicht zwangsläufig, dass Goethe auch den größeren Wortschatz hat(te), gleichwohl sein Werk auch etwas umfänglicher ist. Denn schaut man sich etwa andere Werte zur Bestimmung der Vokabeldiversität an (TTR, MLTSD, SSTR, VOCD und Vocabulary-Richness), so bemerkt man, dass es dahingehend nahezu keine Unterschiede zwischen den beiden Autoren gibt. Mit einem ganz minimalen Vorsprung für Goethe. Wohl aber lassen sich Unterschiede im Schreibstil erkennen (Verbabstand, Satzlänge, Kommasetzung).

Nun, zumindest weiß ich jetzt, was ich bei der nächsten Diskussion entgegnen kann. Nämlich dass – zumindest linguistisch betrachtet – beide über einen extrem großen und komplexen Wortschatz verfügen, der sich – je nach Messmethode – im Wesentlichen nicht hinsichtlich seiner Struktur unterscheidet. Von daher bleibt mir für die nächste Diskussion wohl doch nichts anderes übrig, als im richtigen Moment das Thema auf etwas Unverfängliches umzulenken. Baden am See beispielsweise und Messmethoden zur Bestimmung von Vokabelreichtum.

Weiterführende Literatur:

Type-Token-Relation Verfügbar unter: http://www.glottopedia.org/ index.php/Type-Token-Relation [15.06.2020]

Jarvis, S. (2013), Capturing the Diversity in Lexical Diversity. Language Learning, 63: 87-106. doi:10.1111/j.1467-9922.2012.00739.x

Mccarthy, P. & Jarvis, S. (2010), MTLD, vocd-D, and HD-D: A validation study of sophisticated approaches to lexical diversity assessment. Behavior research methods. 42. 381-92. doi:10.3758/BRM.42.2.381.