Das Vorhaben

Problemstellung und Zielsetzung

Texte in deutscher Sprache sind seit dem 9. Jahrhundert in Handschriften und Drucken überliefert. Sie spiegeln einen wesentlichen Teil der europäischen (Kultur-)Geschichte und sind von großem historischen und kulturwissenschaftlichen Interesse. Bislang sind diese Zeugnisse überwiegend in gedruckten Editionen verfügbar, digitalisierte Texte sind auf Einzelkorpora verteilt, die nur zum Teil öffentlich sind und unterschiedlich gut aufbereitet wurden.

Generelle Defizite sind

Das Projekt DeutschDiachronDigital ist die Initiative einer interdisziplinären Forschergruppe, die sich zusammengeschlossen hat, um ein Digitales Referenzkorpus des Deutschen zu entwickeln, das die deutsche Textüberlieferung von den Anfängen bis 1900 umfasst. Die Zielsetzung ist eine Digitale Bibliothek, die Faksimiles von Handschriften und Drucken sowie deren Inhalte in Originalsprache und Übersetzung bereitstellt. Für u.a. sprach- und literaturwissenschaftliche Zwecke soll das Material nach neuesten Forschungserkenntnissen aufbereitet und wortweise kommentiert (annotiert) werden. Arbeitsgruppen an verschiedenen Universitäten Deutschlands werden je eine Sprachepoche bearbeiten und die philologisch geprüften und mit linguistischen Annotationen versehenen elektronischen Texte an eine technische Arbeitsstelle (in Berlin) weiterleiten. Diese gliedert die Texte in einer für alle Sprachstufen übereinstimmenden Form in die Digitale Bibliothek ein und verwaltet sie.

Ein digitales diachrones Korpus bietet der historischen Sprachforschung des Deutschen neue Forschungsmöglichkeiten: Zum ersten Mal stehen damit die Daten für die Entwicklung und Überprüfung statistischer Modelle zum Sprachwandel zur Verfügung. Die Verwandtschaft und Abstammung von Sprachstufen kann mit Hilfe von genetischen Modellen ermittelt werden.

Annotation

Elektronische Texte werden zusammen mit ihren Annotationen in einer Datenbank gespeichert und über eine Benutzeroberfläche im Web zugänglich gemacht. Die Struktur der Datenbank erlaubt eine flexible Annotation, d.h. dass jedem Text äußerst detaillierte Informationen beigegeben sind. Diese betreffen sowohl den gesamten Text als auch die Einheiten unterhalb der Textebene (Kapitel, Sätze, Wörter usw.).

Alle Annotationen können innerhalb eines Textes, aber auch zwischen verschiedenen Texten zueinander in Beziehung gesetzt werden. Möchte man z.B. die zeitliche Entwicklung eines Wortes untersuchen, kann man nach der Grundform (z.B. hören) suchen und findet alle Textstellen, in denen das Verb in irgendeiner (flektierten) Form vorkommt. Außerdem lassen sich anhand bestimmter Kriterien Teilkorpora erstellen, z.B. alle Texte zum Thema ,Artussage' oder alle Texte, die zwischen 1080 und 1130 entstanden sind.

Die Konsistenz der Bearbeitung sichert ein einheitlicher Leitfaden für die sprachliche Aufschlüsselung und Annotation der Texte.

Technische Realisierung

Der Datenaustausch baut auf dem internationalen korpuslinguistischen Standard XCES auf. Dieser beschreibt XML-Dokumentformate, in denen Texte und die dazugehörigen Annotationen kodiert werden können.

Daneben werden jedoch auch andere Formate unterstützt, die für bereits existierende Korpora verwendet wurden oder von linguistischen und literaturwissenschaftlichen Werkzeugen benutzt werden.

Herausforderung für die Informatik

Die Entwicklung eines historischen Korpus des Deutschen stellt auch die Informatik vor Herausforderungen. Die Korpusarchitektur muss flexibel und robust auf die Anforderungen reagieren:


 © 2006 DeutschDiachronDigital | Impressum Letzte Änderung: 13.08.2007, 09:50