Referenzkorpus Altdeutsch

Das Referenzkorpus Altdeutsch erfasst und annotiert die ältesten Sprachdenkmäler des Deutschen vom Beginn der kontinuierlichen schriftlichen Überlieferung um 750 bis etwa 1050 mit einem Umfang von ca. 650 000 Textwörtern. Aufgenommen werden alle in dieser Zeit überlieferten Texte des Althochdeutschen und des Altsächsischen in einer möglichst genauen Wiedergabestufe. Dabei werden die handschriftengetreuesten gedruckten Texteditionen zugrundegelegt. Die Annotation erfasst Header-Informationen, strukturelle (Wort, Satz, Zeile, Absatz etc.) und linguistische Annotationen (Part of Speech-Tagging, Flexionsmorphologie) sowie syntaktische Satzinformationen und erfolgt mit Unterstützung einer semi-automatischen Vorannotation, die mit Hilfe der digitalisierten Sprachstufen- und Textwörterbücher und Glossare zum Althochdeutschen und zum Altsächsischen erzeugt wurde. Die verschiedenen Stufen der Annotation werden in Form einer Mehrebenenarchitektur aufeinander bezogen.

Bei den lateinbasierten Texten werden die lateinischen Textpassagen und Texte miterfasst und in gleicher Weise wie die altdeutschen Texte und Textabschnitte strukturell und positioniell annotiert. Sofern es sich um Paralleltexte handelt, werden die altdeutsche und die lateinische Textfassung mit einander aligniert, so dass Beeinflussungen des deutschen Textes durch die lateinische Vorlage identifizierbar und damit kontrollierbar werden.

Die Erarbeitung des Referenzkorpus Altdeutsch wurde von 2008 bis 2015 durch die Deutsche Forschungsgemeinschaft gefördert. Die Projektarbeit erfolgte in Berlin, Frankfurt und Jena unter der Leitung von Prof. Dr. Karin Donhauser (Humboldt-Universität zu Berlin), Prof. Dr. Jost Gippert (Universität Frankfurt am Main) und Prof. Dr. Rosemarie Lühr (Universität Jena).

Aktuell wird das Referenzkorpus Altdeutsch wissenschaftlich betreut von: Prof. Dr. Karin Donhauser, Prof. Dr. Jost Gippert, Prof. Dr. Rosemarie Lühr und Dr. Lars Erik Zeige (Humboldt-Universität zu Berlin).

Mit der Erstellung des Referenzkorpus wird die Basis für ein sprachstufenübergreifendes tiefenannotiertes Korpus historischer Texte des Deutschen gelegt. Die Kooperation mit den Projekten zum Mittel- und Frühneuhochdeutschen an den Universitäten Bonn und Bochum gewährleistet die Kompatibilität der unabhängig voneinander durchgeführten Annotationen, so dass die Korpora zu einem späteren Zeitpunkt zusammengefügt werden können.

Da die annotierte Information in das STTS (Stuttgart-Tübingen Tagset) System überführbar ist, lassen sich die historischen Korpora auch mit den Suchabfragen, wie sie für die Gegenwartssprache erarbeitet worden sind, bearbeiten.

Die bearbeiteten Texte werden in die Datenbank ANNIS eingebaut.

 

Akzeptieren

Diese Website verwendet Cookies. Durch die Nutzung dieser Webseite erklären Sie sich damit einverstanden, dass Cookies gesetzt werden. Mehr Informationen