DGS-Korpus

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Das DGS-Korpus ist ein linguistisches Video-Korpus der Deutschen Gebärdensprache (DGS), das von 2009 bis 2023 durch das DGS-Korpus-Projekt am Institut für Deutsche Gebärdensprache und Kommunikation Gehörloser (IDGS) der Universität Hamburg erstellt wird.

Mit über 560 Stunden Filmmaterial und 634.497 Tokens (Stand 1. Oktober 2020) aus gebärdeten Unterhaltungen zu vielfältigen Themen zählt das DGS-Korpus zu den größten gebärdensprachlichen Korpora. Das Öffentliche DGS-Korpus, eine Teilmenge des DGS-Korpus, ist das größte online veröffentlichte und frei zugängliche annotierte Gebärdensprach-Korpus.

Das DGS-Korpus-Projekt[Bearbeiten | Quelltext bearbeiten]

Das DGS-Korpus ist ein linguistisches Korpus, das gefilmte Unterhaltungen und Erzählungen in Deutscher Gebärdensprache (DGS) enthält. Das DGS-Korpus wird im Rahmen des DGS-Korpus-Projekts, einem Langzeitprojekt (2009–2023) der Akademie der Wissenschaften in Hamburg, an der Universität Hamburg erstellt.[1] Das Projekt-Team setzt sich aus tauben, schwerhörigen und hörenden Mitarbeitenden zusammen, und wird durch taube und hörende Studierende, sowie eine externe Gruppe tauber Experten unterstützt.

Das Projekt verfolgt drei Ziele:

  • ein Referenzkorpus der DGS (das DGS-Korpus) zu erstellen,
  • der Öffentlichkeit eine annotierte Teilmenge aus dem DGS-Korpus von etwa 50 Stunden (das Öffentliche DGS-Korpus) frei zur Verfügung zu stellen,
  • ein auf den Daten des DGS-Korpus basierendes Wörterbuch (das Digitale Wörterbuch der Deutschen Gebärdensprache, DW-DGS) zu publizieren.

Das Projekt ist maßgeblich an der Etablierung der Korpuslinguistik für Gebärdensprachen beteiligt und stellt einen Teil der Daten sowohl für die DGS-Sprachgemeinschaft als auch die internationale Forschungsgemeinschaft zur Verfügung.

Datenerhebung[Bearbeiten | Quelltext bearbeiten]

Die Datenerhebung wurde von 2010 bis 2012 durchgeführt. Für die Filmaufnahmen wurde an zwölf Orten in Deutschland ein mobiles Studio mit acht Kameras aufgebaut.[2] Das DGS-Korpus-Team wurde von lokalen Kontaktpersonen aus den jeweiligen regionalen Gehörlosengemeinschaften unterstützt, die während der Aufnahmen auch als Moderatoren fungierten. Im Studio wurde ausschließlich DGS als Kommunikationsmittel genutzt. Es wurden 330 Personen (Informanten) gefilmt. Dabei sind Geschlecht, vier Altersgruppen und 13 Herkunftsregionen im DGS-Korpus ausbalanciert.

Die sich gegenübersitzenden Informanten wurden paarweise bei 20 verschiedenen Erhebungsaufgaben gefilmt. Dabei lag der Schwerpunkt auf möglichst natürlichsprachlichen Unterhaltungen. Die inhaltlichen Themen sollten für die DGS-Sprachgemeinschaft von Interesse sein und somit die Gehörlosenkultur abbilden. Es wurden unter anderem die Schulzeit tauber Personen, Erfahrungen im Zusammenhang mit der Taubheit und gehörlosenspezifische Großveranstaltungen wie z. B. die Deaflympics thematisiert. Ebenfalls im DGS-Korpus enthalten sind Erzählungen darüber, wie die Informanten besondere historische Ereignisse, beispielsweise den Mauerfall, wahrgenommen haben.[3][4][5]

Die Erhebungsaufgaben decken ein breites Spektrum verschiedener Diskursformate ab wie z. B. freie Erzählungen, Nacherzählungen, Diskussionen zu kontroversen Themen, Ablaufbeschreibungen und Berichte. Als Stimuli für die Erhebungsaufgaben wurden Bilder, Bildergeschichten, Filmausschnitte ohne verbale Äußerungen und gebärdete Filme verwendet.[4] Einige Stimuli wurden speziell ausgewählt, um bestimmte sprachliche Phänomene wie z. B. Verneinung und einzelne Begriffe hervorzurufen. Um sprachübergreifende (crosslinguistische) Untersuchungen zu ermöglichen, wurden weiterhin Materialien berücksichtigt, die in der empirischen Laut- und Gebärdensprachforschung bereits etabliert sind, wie z. B. die „Birnengeschichte“ (Pear Story, Chafe 1980) oder ein Cartoon von Sylvester und Tweety.[6][7]

Durch die umfangreiche Erhebung ist im DGS-Korpus die regionale Vielfalt der DGS in Deutschland zum Zeitpunkt der Erhebung abgebildet, zugleich ist das DGS-Korpus auch ein Archiv der DGS.

Zugang[Bearbeiten | Quelltext bearbeiten]

Das DGS-Korpus[Bearbeiten | Quelltext bearbeiten]

Für das DGS-Korpus wurden insgesamt über 1150 Stunden Filmmaterial aufgenommen (inkludiert das Lesen und Zustimmen zur Einverständniserklärung, Aufgabenerläuterungen und Pausen), davon bilden etwa 560 Stunden Dialoge und Erzählungen in natürlichem DGS das DGS-Korpus.

Die Daten werden mit iLex[8] transkribiert, das Annotationswerkzeug und lexikalische Datenbank zugleich ist und als Multi-User-Anwendung zur Annotation und Lemmatisierung von Gebärdensprachdaten konzipiert wurde.[9][10] In iLex können Benutzer Annotationen erstellen, die Daten mittels SQL-Abfragen durchsuchen und die Ergebnisse in Form von Grafiken oder Karten visualisieren.

Das Öffentliche Korpus[Bearbeiten | Quelltext bearbeiten]

Das Öffentliche DGS-Korpus ist eine etwa 50-stündige, annotierte Teilmenge des DGS-Korpus. Aus dem DGS-Korpus sind besonders solche Aufnahmen für das Öffentliche DGS-Korpus ausgewählt worden, die thematisch für die Sprachgemeinschaft von Interesse sind. Außerdem sind Erhebungsformate im Öffentlichen DGS-Korpus enthalten, die sich für sprachvergleichende Studien eignen. Somit ist das Öffentliche DGS-Korpus sowohl eine Forschungsressource als auch ein Archiv der Sprache, Geschichte und Kultur von tauben Personen in Deutschland.[11]

Das Öffentliche DGS-Korpus ist über zwei verschiedene Webseiten frei und ohne Anmeldung zugänglich. Die zwei Portale (MEINE DGS und MEINE DGS – annotiert) richten sich an unterschiedliche Bedürfnisse verschiedener Gruppen von Nutzern.[12]

MEINE DGS[Bearbeiten | Quelltext bearbeiten]

Auf der Seite MEINE DGS können Nutzer 47 Stunden gebärdeter Gespräche oder Erzählungen mit Untertiteln (Übersetzungen ins Deutsche) und 2,4 Stunden Witze (ohne Übersetzung) ansehen. Neben der Hauptseite mit den Videos können auf der Website Informationen über das Projekt eingesehen werden und Videos nach Region, Altersgruppen, Dialogformaten und Hauptthemen gefiltert werden. Die Seite MEINE DGS bietet einen niedrigschwelligen Zugang für Nutzer mit und ohne wissenschaftlichem Hintergrund und richtet sich als Gemeinschaftsportal an die Gehörlosen- und DGS-Sprachgemeinschaft.

MEINE DGS annotiert[Bearbeiten | Quelltext bearbeiten]

MEINE DGS – annotiert enthält zusätzlich zu den Aufzeichnungen von MEINE DGS weitere 1,7 Stunden Datenmaterial, insgesamt also etwa 50 Stunden. Die Videos werden mit zeitalignierten Online-Transkripten bereitgestellt, die Glossen, Mundbilder/Mundgesten und Übersetzungen enthalten. Videos und Transkripte können entweder direkt auf der Website eingesehen werden oder über mehrere Download-Optionen auch lokal gespeichert werden.

Weiterhin stehen auf der Seite zur Verfügung:

Da MEINE DGS – annotiert sich an ein internationales Publikum richtet, steht die Website auf Deutsch und auf Englisch zur Verfügung.

Nutzungsbestimmungen[Bearbeiten | Quelltext bearbeiten]

Die Nutzungsbestimmungen des Öffentlichen DGS-Korpus erlauben eine Nutzung der Daten zu nicht-kommerziellen Zwecken. Daten auf MEINE DGS sind zur privaten Nutzung freigegeben, Downloads sind hier nur zu Unterrichtszwecken erlaubt. Daten von MEINE DGS – annotiert dürfen für Zwecke der sprachwissenschaftlichen Forschung verwendet werden. Für andere Zwecke oder um zusätzliche Daten aus dem DGS-Korpus nutzen zu können, muss ein Vertrag über gesonderte Nutzungsrechte mit dem DGS-Korpus-Projekt geschlossen werden.

DW-DGS[Bearbeiten | Quelltext bearbeiten]

Das Digitale Wörterbuch der Deutschen Gebärdensprache (DW-DGS) ist das erste korpusbasierte Wörterbuch der Deutschen Gebärdensprache.[13][14][15][16] Es wird auf Grundlage der Daten aus dem DGS-Korpus erstellt. Das DW-DGS wird 2023 veröffentlicht. Einige Vorabeinträge können bereits auf der Website des DW-DGS eingesehen werden, dabei handelt es sich allerdings um Work-in-Progress, Änderungen sind hier jederzeit möglich.

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Prillwitz, Siegmund / Hanke, Thomas / König, Susanne / Konrad, Reiner / Langer, Gabriele / Schwarz, Arvid (2008): DGS Corpus Project – Development of a Corpus Based Electronic Dictionary German Sign Language / German. In: Crasborn, Onno et al. (eds.): LREC 2008. 6th International Conference on Language Resources and Evaluation. Workshop Proceedings. W25. 3rd Workshop on Representation and Processing of Sign Languages: Corpora and Sign Language Technologies. June 1, 2008. Marrakech – Morocco. Paris: ELRA. S. 159–164.Artikel Poster
  2. Hanke, Thomas / König, Lutz / Wagner, Sven / Matthes, Silke (2010): DGS Corpus & Dicta-Sign: The Hamburg Studio Setup. In: Dreuw, Philippe et al. (eds.): LREC 2010. 7th International Conference on Language Resources and Evaluation. Workshop Proceedings. W13. 4th Workshop on Representation and Processing of Sign Languages: Corpora and Sign Language Technologies. May 22/23 2010. Valetta – Malta. Paris: ELRA. S. 106–109.Artikel
  3. Hong, Sung-Eun / Hanke, Thomas / König, Susanne / Konrad, Reiner / Langer, Gabriele / Rathmann, Christian (2009): Elicitation materials and their use in sign language linguistics. Poster presented at Sign Language Corpora: Linguistic Issues Workshop 2009, London (GB); 24.-25.07.2009. Poster
  4. a b Nishio, Rie / Hong, Sung-Eun / König, Susanne / Konrad, Reiner / Langer, Gabriele / Hanke, Thomas / Rathmann, Christian (2010): Elicitation methods in the DGS (German Sign Language) Corpus Project. In: Workshop Proceedings. 4th Workshop on Representation and Processing of Sign Languages: Corpora and Sign Language Technologies. Language Resources and Evaluation Conference (LREC), Valetta, Malta, May 22-23 2010. ELRA. S. 178–185. Artikel Poster
  5. Hanke, Thomas / Hong, Sung-Eun / König, Susanne / Langer, Gabriele / Nishio, Rie / Rathmann, Christian (2010): Designing Elicitation Stimuli and Tasks for the DGS Corpus Project. Poster presented at the Theoretical Issues in Sign Language Research Conference (TISLR 10), Sept 30 – Oct 2, 2010 at Purdue University, Indiana, USA.Poster
  6. Chafe, W.L. (ed.) (1980): The Pear Stories. Cognitive, Cultural and Linguistic Aspects of Narrative Production. Norwood, New Jersey: ABLEX.
  7. Warner Brothers (1950): Canary Row. Broadcast on Oct. 7th, 1950.
  8. Universität Hamburg: iLex
  9. Hanke, Thomas. iLex - A tool for Sign Language Lexicography and Corpus Analysis. LREC. 2002. Artikel
  10. Hanke, Thomas / Storz, Jakob / Wagner, Sven (2010). iLex: Handling Multi-Camera Recordings. In: Dreuw, Philippe et al. (eds.): LREC 2010. 7th International Conference on Language Resources and Evaluation. Workshop Proceedings. W13. 4th Workshop on Representation and Processing of Sign Languages: Corpora and Sign Language Technologies. May 22/23 2010. Valetta – Malta. Paris: ELRA. S. 110–111
  11. Blanck, Dolly / Hofmann, Ilona / Jeziorski, Olga / König, Susanne / Langer, Gabriele / Rathmann, Christian (2010). Uses of the DGS Corpus from a Deaf Community Perspective. Poster presented at the 4th SLCN-Workshop (Exploitation) in Berlin, Germany Dec 3.-4., 2010 Poster
  12. Jahn, Elena / Konrad, Reiner / Langer, Gabriele / Wagner, Sven / Hanke, Thomas (2018): Publishing DGS Corpus Data: Different Formats for Different Needs. In: Bono, Mayumi et al. (eds.): Workshop Proceedings. 8th Workshop on the Representation and Processing of Sign Languages: Involving the Language Community. Language Resources and Evaluation Conference (LREC), Miyazaki, Japan, 12 May 2018. ELRA. S. 83–90. Artikel Poster
  13. Müller, Anke / Hanke, Thomas / Konrad, Reiner / Langer, Gabriele / Wähl, Sabrina (2020): From Dictionary to Corpus and Back Again – Linking Heterogeneous Language Resources for DGS. In Efthimiou, Eleni et al. (eds.): Sign Language Resources in the Service of the Language Community, Technological Challenges and Application Perspectives. Proceedings of the 9th Workshop on the Representation and Processing of Sign Languages. 12th International Conference on Language Resources and Evaluation (LREC 2020), Marseille, France, 2020. Paris, France: European Language Resources Association (ELRA), S. 157–164. Artikel
  14. Langer, Gabriele / Müller, Anke / Wähl, Sabrina / Hanke, Thomas (2019): The DGS-Korpus approach to including frequent sign combinations in a corpus-based electronic sign language dictionary. Poster presented at the Theoretical Issues in Sign Language Research (TISLR) 13 Conference, Sep 26-28, 2019 in Hamburg, Germany. Poster
  15. Langer, Gabriele / Müller, Anke / Wähl, Sabrina / Bleicken, Julian (2018): Authentic Examples in a Corpus-Based Sign Language Dictionary – Why and How. In Čibej, Jaka, Gorjanc, Vojko, Kosem, Iztok & Krek, Simon (eds.). Proceedings of the XVIII EURALEX International Congress: Lexicography in Global Contexts. Ljubljana: Ljubljana University Press, Faculty of Arts, S. 483–497. Artikel
  16. Blanck, Dolly / Hanke, Thomas / Hofmann, Ilona / Hong, Sung-Eun / Jeziorski, Olga / Kleyboldt, Thimo / König, Lutz / König, Susanne / Konrad, Reiner / Langer, Gabriele / Nishio, Rie / Rathmann, Christian / Vorwerk, Stephanie / Wagner, Sven (2010): The DGS Corpus Project. Development of a Corpus Based Electronic Dictionary German Sign Language – German. Poster presented at the Theoretical Issues in Sign Language Research (TISLR) 10 Conference, Sept 30–Oct 2, 2010 at Purdue University, Indiana, USA. Poster