Das Vorhaben
Problemstellung und Zielsetzung
Texte in deutscher Sprache sind seit dem 9. Jahrhundert in Handschriften und Drucken überliefert. Sie spiegeln einen wesentlichen Teil der europäischen (Kultur-)Geschichte und sind von großem historischen und kulturwissenschaftlichen Interesse. Bislang sind diese Zeugnisse überwiegend in gedruckten Editionen verfügbar, digitalisierte Texte sind auf Einzelkorpora verteilt, die nur zum Teil öffentlich sind und unterschiedlich gut aufbereitet wurden.
Generelle Defizite sind
- die mangelnde Einheitlichkeit der Annotationsstandards
- die eingeschränkte Zugänglichkeit vieler dieser Korpora
- das Fehlen komplexer Such- und Recherchemöglichkeiten, die dem Benutzer die Texte erschließen.
Das Projekt DeutschDiachronDigital ist die Initiative einer interdisziplinären Forschergruppe, die sich zusammengeschlossen hat, um ein Digitales Referenzkorpus des Deutschen zu entwickeln, das die deutsche Textüberlieferung von den Anfängen bis 1900 umfasst. Die Zielsetzung ist eine Digitale Bibliothek, die Faksimiles von Handschriften und Drucken sowie deren Inhalte in Originalsprache und Übersetzung bereitstellt. Für u.a. sprach- und literaturwissenschaftliche Zwecke soll das Material nach neuesten Forschungserkenntnissen aufbereitet und wortweise kommentiert (annotiert) werden. Arbeitsgruppen an verschiedenen Universitäten Deutschlands werden je eine Sprachepoche bearbeiten und die philologisch geprüften und mit linguistischen Annotationen versehenen elektronischen Texte an eine technische Arbeitsstelle (in Berlin) weiterleiten. Diese gliedert die Texte in einer für alle Sprachstufen übereinstimmenden Form in die Digitale Bibliothek ein und verwaltet sie.
- ständige Verfügbarkeit im Internet
- optimale Suchmöglichkeiten (auch innerhalb der Texte)
- komplexe Datenbankanfragen
- linguistische und literaturwissenschaftliche Annotation
- Vernetzung der einzelnen Texte untereinander
- individuelle Anpassung der Optionen an den jeweiligen Nutzer
Ein digitales diachrones Korpus bietet der historischen Sprachforschung des Deutschen neue Forschungsmöglichkeiten: Zum ersten Mal stehen damit die Daten für die Entwicklung und Überprüfung statistischer Modelle zum Sprachwandel zur Verfügung. Die Verwandtschaft und Abstammung von Sprachstufen kann mit Hilfe von genetischen Modellen ermittelt werden.
Annotation
Elektronische Texte werden zusammen mit ihren Annotationen in einer Datenbank gespeichert und über eine Benutzeroberfläche im Web zugänglich gemacht. Die Struktur der Datenbank erlaubt eine flexible Annotation, d.h. dass jedem Text äußerst detaillierte Informationen beigegeben sind. Diese betreffen sowohl den gesamten Text als auch die Einheiten unterhalb der Textebene (Kapitel, Sätze, Wörter usw.).
Alle Annotationen können innerhalb eines Textes, aber auch zwischen verschiedenen Texten zueinander in Beziehung gesetzt werden. Möchte man z.B. die zeitliche Entwicklung eines Wortes untersuchen, kann man nach der Grundform (z.B. hören) suchen und findet alle Textstellen, in denen das Verb in irgendeiner (flektierten) Form vorkommt. Außerdem lassen sich anhand bestimmter Kriterien Teilkorpora erstellen, z.B. alle Texte zum Thema ,Artussage' oder alle Texte, die zwischen 1080 und 1130 entstanden sind.
Die Konsistenz der Bearbeitung sichert ein einheitlicher Leitfaden für die sprachliche Aufschlüsselung und Annotation der Texte.
Technische Realisierung
Der Datenaustausch baut auf dem internationalen korpuslinguistischen Standard XCES auf. Dieser beschreibt XML-Dokumentformate, in denen Texte und die dazugehörigen Annotationen kodiert werden können.
Daneben werden jedoch auch andere Formate unterstützt, die für bereits existierende Korpora verwendet wurden oder von linguistischen und literaturwissenschaftlichen Werkzeugen benutzt werden.
Herausforderung für die Informatik
Die Entwicklung eines historischen Korpus des Deutschen stellt auch die Informatik vor Herausforderungen. Die Korpusarchitektur muss flexibel und robust auf die Anforderungen reagieren:
- die Texte sind unterschiedlich tief annotiert
- die Texte müssen auf verschiedenen Ebenen miteinander verbunden (aligniert) sein
- das Korpus ist multilingual
- das Korpus ist multimodal: Es enthält neben Textdateien auch Bilddateien von Faksimiles und Tondateien.