Home Korpus

Digitales Wörterbuch der deutschen Sprache des 20. Jahrhunderts (DWDS)

Ziel des "Digitalen Wörterbuch" ist die Erstellung eines digitalen Wörterbuchsystems auf der Grundlage sehr großer und ausgewogener elektronischer Corpora. Das Projekt soll in drei aufeinanderfolgenden Etappen realisiert werden: der Textcorpuserstellung, der computerlinguistischen Erschließung sowie der anschließenden lexikographischen Arbeit. Der derzeitige Stand umfasst eine XML-kodierte und linguistisch aufbereitete Corpus-Datenbank, die aus einem über die Dekaden und Textsorten ausgewogenen 'Kerncorpus' (80.000 Dokumente) und einem 'Ergänzungscorpus' (2,5 Millionen Dokumente) besteht. Die öffentlich verfügbaren Daten sind linguistisch aufbereitet und über das Internet abfragbar (www.dwds.de). Das "Digitale Wörterbuch" ist seit 2007 Akademievorhaben der BBAW.

Austrian Academy Corpus (AAC)

Das Austrian Academy Corpus (AAC) wird in Österreich unter den Aspekten «Sicherung des kulturellen Erbes» und «Texttechnologie» als nationales Korpusprogramm erarbeitet. Bis zu seiner Fertigstellung soll das AAC einen Umfang von einer Milliarde Textwörtern haben.

Korpus Südtirol

Das Ziel der Initiative Korpus Südtirol ist die Sammlung, Archivierung und korpuslinguistische Erschließung von Südtiroler Texten des 20. Jahrhunderts bis heute, um sie der Allgemeinheit zugänglich zu machen und den Sprachgebrauch des Südtiroler Deutschen zu dokumentieren. Das Textkorpus soll es erlauben, die zur Verfügung stehenden authentischen Sprachdaten sprachhistorisch, lexikalisch, kontakt- und varietätenlinguistisch auszuwerten sowie für didaktische, beraterische und soziolinguistische Zwecke zu nutzen. Die systematische computerlinguistische Herangehensweise erweitert dabei die Möglichkeiten einer manuellen Datenauswertung.

Die Initiative läuft seit September 2005 in Zusammenarbeit der Freien Universität Bozen, der Europäischen Akademie Bozen und der Universität Innsbruck.

Schweizer Textkorpus (CHTK)

Das Schweizer Teilprojekt SCHWEIZER TEXT KORPUS vereint deutschsprachige Texte von Schweizer Autoren aus dem 20. Jahrhundert. Die digitale Sammlung ist anhand formaler, inhaltlicher und zeitlicher Kriterien aufgebaut. Sie stellt eine ausgewogene Repräsentation des Deutschschweizer Wortschatzes dar und kann als Grundlage für spezifisch schweizerische lexikographische Bedürfnisse dienen. 

Das SCHWEIZER TEXT KORPUS wurde von einer Forschungsgruppe des Deutschen Seminars der Universität Basel aufgebaut und zur Hauptsache vom Schweizerischen Nationalfonds finanziert. Seit 2014 wird es, unterstützt von der Schweizerischen Akademie der Geistes- und Sozialwissenschaften (SAGW), beim Schweizerischen Idiotikon weiter betrieben.