Home Korpus

Herzlich willkommen zum Korpus C4 – dem gemeinsamen Korpus des Digitalen Wörterbuchs der deutschen Sprache des 20. Jahrhunderts (DWDS), des Austrian Academy Corpus (AAC), des Korpus Südtirol und des Schweizer Textkorpus (CHTK).

Sie finden auf diesen Seiten allgemeine Informationen zum Korpus C4 sowie Links, die Sie direkt zur Suche im Korpus führen.

Digitales Wörterbuch der deutschen Sprache des 20. Jahrhunderts (DWDS)

Ziel des "Digitalen Wörterbuch" ist die Erstellung eines digitalen Wörterbuchsystems auf der Grundlage sehr großer und ausgewogener elektronischer Corpora. Das Projekt soll in drei aufeinanderfolgenden Etappen realisiert werden: der Textcorpuserstellung, der computerlinguistischen Erschließung sowie der anschließenden lexikographischen Arbeit. Der derzeitige Stand umfasst eine XML-kodierte und linguistisch aufbereitete Corpus-Datenbank, die aus einem über die Dekaden und Textsorten ausgewogenen 'Kerncorpus' (80.000 Dokumente) und einem 'Ergänzungscorpus' (2,5 Millionen Dokumente) besteht. Die öffentlich verfügbaren Daten sind linguistisch aufbereitet und über das Internet abfragbar (www.dwds.de). Das "Digitale Wörterbuch" ist seit 2007 Akademievorhaben der BBAW.

Austrian Academy Corpus (AAC)

Das Austrian Academy Corpus (AAC) wird in Österreich unter den Aspekten «Sicherung des kulturellen Erbes» und «Texttechnologie» als nationales Korpusprogramm erarbeitet. Bis zu seiner Fertigstellung soll das AAC einen Umfang von einer Milliarde Textwörtern haben.

Korpus Südtirol

Das Ziel der Initiative Korpus Südtirol ist die Sammlung, Archivierung und korpuslinguistische Erschließung von Südtiroler Texten des 20. Jahrhunderts bis heute, um sie der Allgemeinheit zugänglich zu machen und den Sprachgebrauch des Südtiroler Deutschen zu dokumentieren. Das Textkorpus soll es erlauben, die zur Verfügung stehenden authentischen Sprachdaten sprachhistorisch, lexikalisch, kontakt- und varietätenlinguistisch auszuwerten sowie für didaktische, beraterische und soziolinguistische Zwecke zu nutzen. Die systematische computerlinguistische Herangehensweise erweitert dabei die Möglichkeiten einer manuellen Datenauswertung.

Die Initiative läuft seit September 2005 in Zusammenarbeit der Freien Universität Bozen, der Europäischen Akademie Bozen und der Universität Innsbruck.

Schweizer Textkorpus (CHTK)

Das Schweizer Teilprojekt SCHWEIZER TEXT KORPUS vereint deutschsprachige Texte von Schweizer Autoren aus dem 20. Jahrhundert. Die digitale Sammlung ist anhand formaler, inhaltlicher und zeitlicher Kriterien aufgebaut. Sie stellt eine ausgewogene Repräsentation des Deutschschweizer Wortschatzes dar und kann als Grundlage für spezifisch schweizerische lexikographische Bedürfnisse dienen. 

Das SCHWEIZER TEXT KORPUS wurde von einer Forschungsgruppe des Deutschen Seminars der Universität Basel aufgebaut und zur Hauptsache vom Schweizerischen Nationalfonds finanziert. Seit 2014 wird es, unterstützt von der Schweizerischen Akademie der Geistes- und Sozialwissenschaften (SAGW), beim Schweizerischen Idiotikon weiter betrieben.

Teilkorpus DWDS

 

Werke/ Textwörter 1900-1924

Werke/ Textwörter 1925-1949

Werke/ Textwörter 1950-1974

Werke/ Textwörter 1975-1999

gesamt

Gebrauchstexte

51

1'003'921

14

1'016'655

22

1'002'770

13

1'002'308

100

Wissenschaft

26

1'018'092

11

1'013'052

15

1'013'032

14

1'030'364

66

Belletristik

58

1'507'331

49

1'500'076

14

1'501'462

22

1'500'048

143

Journalistische Prosa

k. A.

1'508'012

k. A.

1'503'202

k. A.

1'500'002

k. A.

1'500'000

k. A.

gesamt

 

5'037'356

 

5'032'985

 

5'017'266

 

5'032'720

 

tobias.rothtobias.roth

Teilkorpus AAC

 

Werke/ Textwörter 1900-1924

Werke/ Textwörter 1925-1949

Werke/ Textwörter 1950-1974

Werke/ Textwörter 1975-1999

gesamt

Gebrauchstexte

2

106'275

1

27'137

0

0

0

0

3

Sachtexte

23

1'811'433

16

794'136

1

27'037

0

0

40

Belletristik

4

153'754

0

0

0

0

0

0

4

Journalistische Prosa

2

363'309

4

355'019

0

0

0

0

6

 

5

320'344

2

92'399

1

65'275

0

0

6

gesamt

36

2'755'115

23

1'268'691

2

92'312

0

0

61

 

Teilkorpus Korpus Südtirol

 

Werke/ Textwörter 1900-1924

Werke/ Textwörter 1925-1949

Werke/ Textwörter 1950-1974

Werke/ Textwörter 1975-1999

gesamt

Gebrauchstexte

946

259'842

0

0

8

152'209

2

10'280

956

Sachtexte

0

0

0

0

3

70'955

3

126'489

6

Belletristik

0

0

1

52'975

0

0

21

222'546

22

Journalistische Prosa

0

0

0

0

58

75'040

383

447'463

441

gesamt

946

259'842

1

52'975

69

298'204

409

806'778

1'425

Teilkorpus CHTK

 

Werke/ Textwörter 1900-1924

Werke/ Textwörter 1925-1949

Werke/ Textwörter 1950-1974

Werke/ Textwörter 1975-1999

gesamt

Gebrauchstexte

1'042

1'170'099

1'465

1'267'731

969

1'193'200

1'417

1'087'395

4'893

Sachtexte

167

1'450'562

433

2'052'909

804

1'954'529

276

1'891'373

1'680

Belletristik

188

1'116'820

50

1'248'911

159

1'122'447

59

1'149'111

456

Journalistische Prosa

833

513'728

1'107

1'020'160

993

982'098

1'929

1'135'426

4'862

gesamt

2'230

4'251'209

3'055

5'589'711

2'925

5'252'274

3'681

5'263'305

11'891

 

Zusammensetzung

Am Korpus C4 beteiligt sind das Digitale Wörterbuch der deutschen Sprache des 20. Jahrhunderts (DWDS) aus Berlin, das Austrian Academy Corpus (AAC) aus Wien, das Korpus Südtirol aus Bozen und das Schweizer Textkorpus (CHTK) aus Basel/Zürich. 

Das Projekt verfolgt das Ziel, die deutsche Standardsprache des 20. Jahrhunderts möglichst ausgewogen zu erfassen und online zugänglich zu machen. Momentan setzt sich das Korpus aus 20 Mio. Textwörtern des DWDS, 4.1 Mio. Textwörtern des AAC, 1.7 Mio. Textwörtern des Korpus Südtirol und 20 Mio. Textwörtern des CHTK zusammen.

Abfragesystem

Eine technische Besonderheit des Korpus C4 ist die verteilte Abfrage. Jedes Teilprojekt stellt seine Daten auf einem eigenen Server zur Verfügung, und erst zum Zeitpunkt der Abfrage werden die Resultate von den einzelnen Servern abgeholt und zusammengesetzt. Die Zusammenführung der Teilkorpora zu einem gemeinsamen ganzen Korpus C4 ist also nur virtuell. Technisch nutzt das Korpus dazu vor allem Funktionen der linguistischen Suchmaschine DDC, die vom Berliner Teilprojekt DWDS entwickelt wurde.