• Startseite
  • Projekte
  • Entwicklung eines Sprachmodells zur Analyse deutschsprachiger Tweets und seine Anwendung zur Analyse gendergerechter Sprache

Entwicklung eines Sprachmodells zur Analyse deutschsprachiger Tweets und seine Anwendung zur Analyse gendergerechter Sprache

Cluster Daten-Methoden-Monitoring

Projektleitung: Dr. Jannes Jacobsen

Projektmitarbeitende: Long Nguyen

Laufzeit Januar 2025 bis Dezember 2026
Status Laufendes Projekt

Das Projekt entwickelt und wendet ein speziell auf deutschsprachige Tweets zugeschnittenes Sprachmodell an, um die gendergerechte Sprache im Social-Media-Diskurs empirisch zu untersuchen.

Leitende Forschungsfragen

Wie kann ein Sprachmodell gezielt an die informelle, dynamische Sprache sozialer Medien angepasst werden, insbesondere im Kontext von gendergerechter Sprache?
Welche sozialen und regionalen Dynamiken bestimmen die Verbreitung und Akzeptanz von gendergerechter Sprache auf deutschsprachigem Twitter?
Wie beeinflussen Netzwerkstrukturen und thematische Kontexte die Diffusion und Ablehnung von gendergerechter Sprache?
Der Zuwachs an gendergerechter Sprache ist nicht nur ein sprachliches, sondern auch ein gesellschaftliches Phänomen.
Dr. Anica Waldendorf, Oxford University

Das Forschungsprojekt entwickelt spezialisierte Werkzeuge der natürlichen Sprachverarbeitung (natural language processing – NLP) zur Untersuchung der Alltagskommunikation in deutschsprachigen Online-Sozialnetzwerken, mit dem gendergerechten Sprachdiskurs auf dem deutschsprachigen Twitter als zentralem Anwendungsfall. 

Der methodische Schwerpunkt liegt auf dem systematischen Benchmarking und Fine-Tuning leistungsstarker, vortrainierter deutschsprachiger oder mehrsprachiger Sprachmodelle, um die sprachlichen Muster der deutschen Social-Media-Kommunikation effizient und reliabel zu erfassen. Ausgangspunkt ist ein umfangreicher deutschprachiger Twitter-Datensatz aus den Jahren 2018 bis 2023. 

Inhaltlich erfolgt eine Untersuchung der diskursiven Verbreitung von gendergerechter Sprache sowie ihrer Beziehung zu gesellschaftlichen, regionalen und politischen Faktoren. Dazu werden netzwerk- und zeitbasierte Ansätze eingesetzt, um zu verstehen, wie sich Sprachpraktiken unter Nutzer*innen verbreiten, und wie Themenkontexte die Diffusionsmechanismen gendergerechter Formen moderieren. Das Projekt verbindet damit methodische Innovation in der Sprachmodellierung mit soziologischer Forschung zu öffentlichen Sprachdebatten.

  • Fehlen spezifisch auf informelle, deutschsprachige Online-Sprache trainierter NLP-Modelle, die eine zuverlässige Analyse spezifischer Phänomene wie gendergerechter Sprache ermöglichen 
  • Mangel an empirischer Forschung zur Alltagsnutzung gendergerechter Sprache jenseits institutioneller Kommunikation  
  • Unzureichende Kenntnisse über die Netzwerkeffekte und Diffusionsmechanismen von sprachlichen Innovationen in sozialen Medien 

Das Projekt verfolgt die Entwicklung und Evaluierung eines sprachmodellbasierten Klassifikators zur Identifikation und Analyse gendergerechter Sprache sowie die Untersuchung ihrer zeitlichen, thematischen und sozialen Verbreitung im digitalen Raum. Methodisch soll ein flexibel einsetzbares Modell entstehen, das auch in anderen Forschungsgebieten anwendbar ist. 
Empirisch sollen die Akzeptanz, Verbreitung und Kontextabhängigkeit gendergerechter Sprache im digitalen Diskurs analysiert und das Wissen über die soziale Diffusion und Ablehnung innovativer sprachlicher Praktiken erweitert werden.

Das Vorgehen umfasst zunächst den Aufbau und das Preprocessing eines umfangreichen deutschen Twitter-Korpus. Darauf aufbauend erfolgen das Benchmarking und das Fine-Tuning bestehender universeller Sprachmodelle, um die Besonderheiten gendergerechter Sprachformen und der Plattform zu erfassen. Im Anschluss erfolgt eine quantitative, netzwerkbasierte Analyse der Muster und Diffusionsmechanismen gendergerechter Sprache, die zeitliche Trends, thematische Kontexte und soziale Strukturen berücksichtigt. Abschließend werden die entwickelten Methoden der Forschungsgemeinschaft öffentlich zugänglich gemacht.

Eine erste Studie zeigt zeitliche und regionale Unterschiede in der Nutzung gendergerechter Sprache auf Twitter und weist auf Korrelationen zu demografischen, sozioökonomischen und politischen Merkmalen hin. 

  • Adler, A., & Hansen, K. (2020). Studenten, StudentInnen, Studierende? Aktuelle Verwendungspräferenzen bei Personenbezeichnungen. Muttersprache. Themenheft" Sprache Und Geschlecht". Beiträge Zur Gender-Debatte, 130(1), 47–63. 
  • Chan, B., Schweter, S., & Möller, T. (2020). German’s next language model. In D. Scott, N. Bel, & C. Zong (Eds), Proceedings of the 28th international conference on computational linguistics (pp. 6788–6796). International Committee on Computational Linguistics. doi.org/10.18653/v1/2020.coling-main.598 
  • Dargiewicz, A. (2021). Verstärkung (m/w/d) gesucht. Zur Geschlechtsneutralität in den gegenwärtigen deutschen Stellenanzeigen. Acta Neophilologica, 1(XXIII), 123–140. 
  • Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (No. arXiv:1810.04805). arXiv. doi.org/10.48550/arXiv.1810.04805 
  • Krome, S. (2021). Gendern zwischen Sprachpolitik, orthografischer Norm, Sprach-und Schreibgebrauch. Bestandsaufnahme und orthografische Perspektiven zu einem umstrittenen Thema. Sprachreport, 37(2), 22–29. 
  • Nguyen, D. Q., Vu, T., & Nguyen, A. T. (2020). BERTweet: A pre-trained language model for English Tweets (No. arXiv:2005.10200). arXiv. doi.org/10.48550/arXiv.2005.10200 
  • Nguyen, H. L., Tsolak, D., Karmann, A., Knauff, S., & Kühne, S. (2022). Efficient and reliable geocoding of German Twitter data to enable spatial data linkage to official statistics and other data sources. Frontiers in Sociology, 7, 910111. 
  • Scheible, R., Frei, J., Thomczyk, F., He, H., Tippmann, P., Knaus, J., Jaravine, V., Kramer, F., & Boeker, M. (2024). GottBERT: A pure German Language Model. In Y. Al-Onaizan, M. Bansal, & Y.-N. Chen (Eds), Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing (pp. 21237–21250). Association for Computational Linguistics. doi.org/10.18653/v1/2024.emnlp-main.1183 
  • Tsolak, D., Knauff, S., Kühne, S., & Nguyen, H. L. (2023). X-GTA: The Cross-Topic German Twitter Archive. osf.io/preprints/socarxiv/9tbd4/ 
  • Waldendorf, A. (2024). Words of change: The increase of gender-inclusive language in German media. European Sociological Review, 40(2), 357–374. doi.org/10.1093/esr/jcad044 
  • Zhang, X., Malkov, Y., Florez, O., Park, S., McWilliams, B., Han, J., & El-Kishky, A. (2023). TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for Multilingual Tweet Representations at Twitter (No. arXiv:2209.07562). arXiv. doi.org/10.48550/arXiv.2209.07562

Förderung: Bundesministerium für Bildung, Familie, Senioren, Frauen und Jugend (Institutionelle Förderung)

Kooperationspartner:

Kooperationspartner sind frühere Kolleg*innen der Universität Bielefeld (Institut für interdisziplinäre Konflikt- und Gewaltforschung), insbesondere im Rahmen der FoDiRa-Vorarbeiten. Für die zweite inhaltliche Studie besteht eine Kollaboration mit Dr. Anica Waldendorf (Nuffield College, Oxford University).