Referenzkorpus Altdeutsch

Das Referenzkorpus Altdeutsch erfasst und annotiert die ältesten Sprachdenkmäler des Deutschen vom Beginn der kontinuierlichen schriftlichen Überlieferung um 750 bis etwa 1050 mit einem Umfang von ca. 650 000 Textwörtern. Aufgenommen werden alle in dieser Zeit überlieferten Texte des Althochdeutschen und des Altsächsischen in einer möglichst genauen Wiedergabestufe. Dabei werden die handschriftengetreuesten gedruckten Texteditionen zugrundegelegt. Die Annotation erfasst Header-Informationen, strukturelle (Wort, Satz, Zeile, Absatz etc.) und linguistische Annotationen (Part of Speech-Tagging, Flexionsmorphologie) sowie syntaktische Satzinformationen und erfolgt mit Unterstützung einer semi-automatischen Vorannotation, die mit Hilfe der digitalisierten Sprachstufen- und Textwörterbücher und Glossare zum Althochdeutschen und zum Altsächsischen erzeugt wurde. Die verschiedenen Stufen der Annotation werden in Form einer Mehrebenenarchitektur aufeinander bezogen.

Bei den lateinbasierten Texten werden die lateinischen Textpassagen und Texte miterfasst und in gleicher Weise wie die altdeutschen Texte und Textabschnitte strukturell und positioniell annotiert. Sofern es sich um Paralleltexte handelt, werden die altdeutsche und die lateinische Textfassung mit einander aligniert, so dass Beeinflussungen des deutschen Textes durch die lateinische Vorlage identifizierbar und damit kontrollierbar werden.

Die Projektarbeit erfolgt in Berlin, Frankfurt und Jena unter der Leitung von Prof. Dr. Karin Donhauser (Humboldt-Universität zu Berlin), Prof. Dr. Jost Gippert (Universität Frankfurt am Main) und Prof. Dr. Rosemarie Lühr (Universität Jena).

Mit der Erstellung des Referenzkorpus wird die Basis für ein sprachstufenübergreifendes tiefenannotiertes Korpus historischer Texte des Deutschen gelegt. Die Kooperation mit den Projekten zum Mittel- und Frühneuhochdeutschen an den Universitäten Bonn und Bochum gewährleistet die Kompatibilität der unabhängig voneinander durchgeführten Annotationen, so dass die Korpora zu einem späteren Zeitpunkt zusammengefügt werden können.

Da die annotierte Information in das STTS (Stuttgart-Tübingen Tagset) System überführbar ist, lassen sich die historischen Korpora auch mit den Suchabfragen, wie sie für die Gegenwartssprache erarbeitet worden sind, bearbeiten.

Die bearbeiteten Texte werden in die Datenbank ANNIS eingebaut.