Der Korpusaufbau beim Schweizer Textkorpus war von Anfang an darauf angelegt, den standarddeutschen Wortschatz des zwanzigsten Jahrhunderts in der Schweiz möglichst breit zu erfassen. Das Korpus besteht daher aus gedruckten und maschinengeschriebenen Texten jeglicher Produktions- und Publikationsform, möglichst ausgewogen zusammengestellt nach zeitlichen (ganzes 20. Jh.) und inhaltlich-sachlichen Kriterien:
- Textsorte: formales Kriterium
- Jahrhundertviertel: zeitliches Kriterium
- Sachgruppe: inhaltliches Kriterium
Dieser ausgewogene und strukturierte Aufbau macht das Schweizer Textkorpus zu einer ausgewogenen Datenbasis für linguistische Fragestellungen.
Das Schweizer Textkorpus ist nach den genannten Kriterien folgendermassen strukturiert:
1900-1924 | 1925-1949 | 1950-1974 | 1975-1999 | 2000-2018 | gesamt | |||||||
W | TW | W | TW | W | TW | W | TW | W | TW | W | TW | |
Gebrauchstexte | 1042 | 1'122'547 | 1'465 | 1'235'998 | 969 | 1'165'808 | 1'417 | 1'036'198 | 1'238 | 944'778 | 6'131 | 5'505'329 |
Sachtexte | 167 | 1'447'644 | 433 | 2'043'191 | 804 | 1'943'462 | 276 | 1'846'198 | 898 | 985'400 | 2'578 | 8'265'832 |
Journalistische Prosa | 833 | 501'527 | 1'107 | 1'006'662 | 993 | 970'560 | 1'929 | 1'117'639 | 1'267 | 973'282 | 6'129 | 4'569'670 |
Belletristik | 188 | 1'116'823 | 50 | 1'248'864 | 159 | 1'122'446 | 59 | 1'147'943 | 40 | 942'760 | 496 | 5'578'836 |
gesamt | 2'230 | 4'188'541 | 3'055 | 5'534'715 | 2'925 | 5'202'276 | 3'681 | 5'147'978 | 3'443 | 3'845'700 | 15'334 | 23'919'667 |
W = Werke
TW = Textwörter (Tokens minus Satzzeichen)