Karten: Darstellungsprinzipien

Bildformat und Bildrahmen. In den chronographischen Karten bildet die Zeit die x-Achse, der Raum die y-Achse. Die Werte der Datenpunkte speisen sich direkt aus den Metadaten ‘Time’ und ‘Dialect’ des Referenzkorpus.

Die Dialekträume sind auf der Raum-Achse serial angeordnet, als nach rechts gedrehte Schlange. Dadurch rückt die Süd/Nord-Ausrichtung in den Vordergrund und benachbarte Dialekträume wie Bairisch und Alemannisch (Oberdeutsch) sowie die fränkischen Dialekte (Ostfränkisch, Südrheinfränkisch, Rheinfränkisch und Mittelfränkisch) sind in der Karte adjazent angeordnet. Die wenigen Texte, die räumlich innerhalb des Althochdeutschen nicht genauer zugeordnet werden können, tragen den Wert ‚Althochdeutsch‘.

Die Zeit-Achse verwendet nicht nur die in der Architektur der DDD-Korpora vorgegebenen 50-Jahre-Slots, da nicht alle Textdenkmäler eindeutig datiert werden können. Die standardisierten Metadaten des Referenzkorpus Altdeutsch weisen deshalb nicht nur die Jahrhunderthälften (8.2, 9.1, 9.2, 10.1, 10.2, 11.1, …) auf, sondern auch Zeitwerte, die ein oder vereinzelt sogar zwei Jahrhunderte (8, 9,… oder 89, 910) umfassen. In den chronographischen Karten werden die verschiedenen Taktungen (50 Jahre, 100 Jahre, 200 Jahre) so miteinander kombiniert, dass letztlich alle im Korpus vorhandenen Texte auch in der Karte in einer zeitlich logischen Abfolge lokalisierbar sind: Dabei stehen unbestimmtere Werte wie 8, 9, usw. immer zwischen den bestimmteren 8.1 – 8.2, 9.1 – 9.2 usw. in der Erwartung, dass Verlaufsmuster in Abhängigkeit vom Faktor Zeit so am besten erkannt werden können.

Bildauflösung und Bildgestaltung. Im Gegensatz zu den Referenzkorpusprojekten späterer Sprachstufen umfasst das Referenzkorpus Altdeutsch die Textüberlieferung vollständig. Die Datenmengen sind deshalb jedoch nach Raum und Zeit nicht ausgewogen, sondern stark ungleichgewichtig verteilt: So liegt etwa die Textbasis des Datenpunkts ‘Alemannisch / 11’ bei mehr als 350 000 Textwörtern, für ‘Bairisch / 10.2’ aber bei unter 50 Wörtern. Überlieferungslücken erscheinen als leere Bereiche (Südrhein- und Ostfrk. im gesamten 11. Jh.). Die Karten aggregieren aus diesem Grund keine Daten für einzelne Zeiten und Räume, sondern setzen auf ein hochauflösendes Verfahren der Kodierung aller Textdenkmäler durch Einzelkreise, deren Größe logarithmisch den Textumfang angibt und deren Einfärbung die Merkmalsausprägung kodiert.

Verlässlichkeitsmaße. Jede Kartendarstellung wird durch Informationen begleitet, die dem Nutzer erlauben, die Relevanz des Musters einzuschätzen. Neben einer Legende, die die Bedeutung der Kreisgrößen und -einfärbungen wiedergibt sind das die Nennung der Gesamtzahl der belegten Merkmalsvorkommen (N) sowie Detailinformationen zu jedem Datenpunkt, die mit Hilfe der Mouse-over-Funktion eingeblendet werden können.

Technische Umsetzung

Die Daten für die chronographischen Karten werden gegenwärtig mittels ANNIS-Service-Abfragen gesammelt und noch mit verschiedenen R- (ggplot2 und ggiraph) sowie Python-Frameworks (Bokeh) aufbereitet und visualisiert. Eine detaillierte Beschreibung der Pipeline gibt Klotz/Friesenhan (i. Ersch.).