Bildgebende Verfahren zur Analyse des Referenzkorpus Altdeutsch
Lehrstuhlprojekt Prof. Dr. Karin Donhauser, Dr. Lars Erik Zeige, Gohar Schnelle MA, Nico Friesenhan, Martin Klotz (Humboldt-Universität zu Berlin)

Mit Hilfe der ANNIS-Suchabfragen können schnell sehr komplexe Datensätze aus dem Referenzkorpus Altdeutsch erzeugt werden. Um die erweiterten Möglichkeiten, die sich daraus ergeben, im vollen Umfang ausschöpfen zu können, müssen die erzeugten Datenmengen auf eine neue Weise aufbereitet werden. Das Projekt verfolgt die Idee, adäquate bildgebende Verfahren zu entwickeln, die eine intuitive Mustererkennung erlauben – wie ein Röntgenbild die Diagnose des Arztes unterstützt, sollen die im Projekt entwickelten Darstellungsformen dem Linguisten ein Bild der Merkmalsverteilung in der Gesamtüberlieferung an die Hand geben und so die sprachgeschichtliche Hypothesebildung unterstützen und präzisieren. Aber auch im akademischen Unterricht können die Karten helfen, die Informationen in den Sprachstufengrammatiken einzuordnen.

In der ersten Projektphase liegt der Fokus auf der Mustererkennung im Bereich der raumzeitlichen Verteilung sprachlicher Phänomene, die einen wesentlichen Baustein für die Modellierung von Sprachwandelprozessen bildet.

Ein erstes Ergebnis dieser Entwicklungsarbeit ist das Konzept einer chronographischen Karte. Ihren Aufbau erklären wir unten an einem Beispiel.

Eine ausführliche inhaltliche und technische Projektbeschreibung erscheint in Kürze:

  • Karin Donhauser u. Lars Erik Zeige: Bildgebende Verfahren zur Analyse des Referenzkorpus Altdeutsch: Das Konzept der chronographischen Karte. [i.Ersch.]
  • Martin Klotz u. Nico Friesenhan: Bildgebende Verfahren zur Analyse des Referenzkorpus Altdeutsch: Die technische Umsetzung. [i.Ersch.]

 

Chronographische Karten

Darstellungsprinzipien

Bildformat und Bildrahmen. In den chronographischen Karten bildet die Zeit die x-Achse, der Raum die y-Achse. Die Werte der Datenpunkte speisen sich direkt aus den Metadaten 'Time' und 'Dialect' des Referenzkorpus.

Die Dialekträume sind auf der Raum-Achse serial angeordnet, als nach rechts gedrehte Schlange. Dadurch rückt die Süd/Nord-Ausrichtung in den Vordergrund und benachbarte Dialekträume wie Bairisch und Alemannisch (Oberdeutsch) sowie die fränkischen Dialekte (Ostfränkisch, Südrheinfränkisch, Rheinfränkisch und Mittelfränkisch) sind in der Karte adjazent angeordnet. Die wenigen Texte, die räumlich innerhalb des Althochdeutschen nicht genauer zugeordnet werden können, tragen den Wert ‚Althochdeutsch‘.

Die Zeit-Achse verwendet nicht nur die in der Architektur der DDD-Korpora vorgegebenen 50-Jahre-Slots, da nicht alle Textdenkmäler eindeutig datiert werden können. Die standardisierten Metadaten des Referenzkorpus Altdeutsch weisen deshalb nicht nur die Jahrhunderthälften (8.2, 9.1, 9.2, 10.1, 10.2, 11.1, ...) auf, sondern auch Zeitwerte, die ein oder vereinzelt sogar zwei Jahrhunderte (8, 9,... oder 8/9, 9/10) umfassen. In den chronographischen Karten werden die verschiedenen Taktungen (50 Jahre, 100 Jahre, 200 Jahre) so miteinander kombiniert, dass letztlich alle im Korpus vorhandenen Texte auch in der Karte in einer zeitlich logischen Abfolge lokalisierbar sind: Dabei stehen unbestimmtere Werte wie 8, 9, usw. immer zwischen den bestimmteren 8.1 – 8.2, 9.1 – 9.2 usw. in der Erwartung, dass Verlaufsmuster in Abhängigkeit vom Faktor Zeit so am besten erkannt werden können.

Bildauflösung und Bildgestaltung. Im Gegensatz zu den Referenzkorpusprojekten späterer Sprachstufen umfasst das Referenzkorpus Altdeutsch die Textüberlieferung vollständig. Die Datenmengen sind deshalb jedoch nach Raum und Zeit nicht ausgewogen, sondern stark ungleichgewichtig verteilt: So liegt etwa die Textbasis des Datenpunkts 'Alemannisch / 11' bei mehr als 350 000 Textwörtern, für 'Bairisch / 10.2' aber bei unter 50 Wörtern. Überlieferungslücken erscheinen als leere Bereiche (Südrhein- und Ostfrk. im gesamten 11. Jh.). Die Karten aggregieren aus diesem Grund keine Daten für einzelne Zeiten und Räume, sondern setzen auf ein hochauflösendes Verfahren der Kodierung aller Textdenkmäler durch Einzelkreise, deren Größe logarithmisch den Textumfang angibt und deren Einfärbung die Merkmalsausprägung kodiert.

Verlässlichkeitsmaße. Jede Kartendarstellung wird durch Informationen begleitet, die dem Nutzer erlauben, die Relevanz des Musters einzuschätzen. Neben einer Legende, die die Bedeutung der Kreisgrößen und -einfärbungen wiedergibt sind das die Nennung der Gesamtzahl der belegten Merkmalsvorkommen (N) sowie Detailinformationen zu jedem Datenpunkt, die mit Hilfe der Mouse-over-Funktion eingeblendet werden können.

Die Grundkarte

Mit Hilfe dieser Grundkarte ist es nun möglich, die vollständige altdeutsche Textüberlieferung in ihrer raumzeitlichen Verteilung in ihrer Gesamtheit fassbar darzustellen. Dabei tritt die für diese Sprachstufe charakteristische, ungleichgewichtige Überlieferungsstruktur augenfällig zu Tage. Als größte Denkmäler sind der Althochdeutsche Isidor (8/9, rheinfrk.), der Althochdeutsche Tatian (9.1, ostfrk.), Otfrids Evangelienbuch (9.2, srhfrk.), die Überlieferung der Notker-Gruppe (11, alem.) und der Heliand (9.2, as.) deutlich zu erkennen. Ebenso finden raumzeitliche Bereiche schwacher (z. B. rhfrk. nach dem 10. Jh.) und fehlender Überlieferung (das 11. Jh. im srhfrk. und ofrk. Sprachraum) eine eindeutige graphische Form. Unserer Erfahrung nach eignet sich die Darstellung auch für die universitäre Lehre, um den Studierenden die Spezifika der altdeutschen Überlieferungssituation näher zu bringen.

Beispielkarten

Das Projekt erarbeitet bisher drei Typen der chronographischen Karte:

  1. Dominanzkarten, die im Fall sprachlicher Variation die vorherrschenden Ausprägungen eines Merkmals im Verlauf von Raum und Zeit darstellen,
  2. Verteilungskarten, die das Vorkommen eines einzelnen sprachlichen Merkmals im gesamten Überlieferungsraum erfassen,
  3. Kumulationskarten, die vergleichend mehrere Merkmal gemeinsam darstellen können (gegenwärtig in Entwicklung).

Im Folgenden zeigen wir Ihnen ein Kartenset für ein Beispiel aus der Flexionsmorphologie: die graphematische Variation der Flexionsendungen für den Dativ Plural der a-Maskulina/Neutra, die als -um, -un, -om, -on, -em oder -en erscheinen können.

Die Dominanzkarte gibt die Überlieferungssituation im Altdeutschen in ihrer Gesamtheit wieder. Texte, in denen keine DatPl-Endungen für a-Stämme belegt sind, werden als Kreuz dargestellt. Die übrigen Denkmäler erhalten die Farbe der in ihnen am häufigsten belegten Ausprägung der Flexionsendung gemäß der Legende. Zusätzlich variiert die Transparenz der Einfärbung nach dem Anteil der dominierenden Form: Blasse Farben signalisieren eine knappe Dominanz mit Werten nahe 50 Prozent, volle Farben Werte nahe 100 Prozent. Deutlich zeichnet sich die charakteristische u/o-Teilung zwischen fränkischen und oberdeutschen Denkmälern ab sowie die einsetzende Nebensilbenabschwächung. Aber auch einzelne Texte mit atypischem Verhalten werden sichtbar.
Probieren Sie auch die Mouse-over-Funktion aus, die vertiefende Informationen zur Verteilung der Merkmalsausprägungen als Tortendiagramm sowie Angaben zu Textgröße und zu den Vorkommen der Kategorie (hier: DatPl der a-Stämme) liefert.

In den Verteilungskarten steht die Einfärbung der Datenpunkte für die Vorkommenshäufigkeit der einzelnen Merkmalsausprägung: Dunkle Färbungen signalisieren geringe Anteile, helle Färbungen markieren hohe Anteile am Gesamtvorkommen des Merkmals 'DatPl der a-Maskulina/Neutra' im Einzeltext.

om-Endungenon-Endungenum-Endungenun-Endungenem-Endungenen-Endungen

In der Beispielkarte 'en' zeichnet sich beispielsweise deutlich der Bereich der Nebensilbenabschwächung ab, aber auch frühe Vorkommen für e-Schreibungen in vor allem größeren Denkmälern sind zu erkennen. In Verteilungskarten können so Merkmale sichtbar gemacht werden, die in einer Dominanzkarte nur peripher oder gar nicht in Erscheinung treten. Dieser Kartentypus eignet sich aber auch zur Darstellung von Einzelmerkmalen, die keiner Variation unterliegen. Auch in den Verteilungskarten gibt die Mouse-over-Funktion Zusatzinformationen: der Einzeltext mit seiner dialekträumlichen und zeitlichen Einordnung, die Vorkommenshäufigkeit der Variante und der Variable.

Benutzen Sie diese Beispielkarten einmal gemeinsam mit der entsprechenden Darstellung der Althochdeutschen Grammatik (Braune/Reiffenstein 2004, §193 u. A.7) und 'stöbern' Sie in den Datenpunkten!

Technische Umsetzung

Die Daten für die chronographischen Karten werden gegenwärtig mittels ANNIS-Service-Abfragen gesammelt und noch mit verschiedenen R- (ggplot2 und ggiraph) sowie Python-Frameworks (Bokeh) aufbereitet und visualisiert. Eine detaillierte Beschreibung der Pipeline gibt Klotz/Friesenhan (i. Ersch.).

Akzeptieren

Diese Website verwendet Cookies. Durch die Nutzung dieser Webseite erklären Sie sich damit einverstanden, dass Cookies gesetzt werden. Mehr Informationen