Entwicklung eines Sprachmodells zur Analyse deutschsprachiger Tweets und seine Anwendung zur Analyse gendergerechter Sprache
Cluster "Daten - Methoden - Monitoring"
Projektleitung: Dr. Jannes Jacobsen
Projektmitarbeitende: Long Nguyen
In diesem Forschungsprojekt wird ein neues BERT-Sprachmodell entwickelt und angewandt, das auf die Analyse von geschlechtergerechten Sprachdiskursen auf deutschem Twitter zugeschnitten ist.
Der erste Teil des Projektes konzentriert sich auf die methodische Entwicklung, bei der wir ein BERT-Sprachmodell von Grund auf trainieren. Ziel ist es, die Semantik der in Tweets verwendeten Sprache unter Einbeziehung spezieller linguistischer Einheiten wie Emojis und Hashtags, die in der alltäglichen Online-Kommunikation weit verbreitet sind, für quantitative Analyseaufgaben zu erfassen. Bestehende vortrainierte Modelle, die typischerweise auf längeren Texten wie Wikipedia oder Zeitungsartikeln beruhen, bieten oft keine Repräsentation für solche informelle Sprache, insbesondere im deutschsprachigen Kontext. Wir nutzen einen umfangreichen Korpus deutschsprachiger Twitter-Daten, der von September 2018 bis März 2023 reicht und 2 Milliarden Tweets umfasst, die in Zusammenarbeit mit Tsolak et al. an der Universität Bielefeld gesammelt wurden. Das Ergebnis der ersten Phase umfasst einen technischen arXiv-Preprint, der das Training des Modells beschreibt, und die Veröffentlichung des Modells auf huggingface.co für einen breiteren Zugang für die Community.
Der zweite Teil beinhaltet eine inhaltliche Untersuchung des aktuellen geschlechtergerechten Sprachdiskurses (Gender-Inclusive Language, GIL). Wir bewerten die Prävalenz der Verwendung von GIL und die damit verbundenen Haltungen und Einstellungen dazu. Hypothesentests werden sowohl auf aggregierter als auch auf individueller Ebene durchgeführt, wobei räumliche/regionale Unterschiede in Bezug auf demografische und sozioökonomische Merkmale sowie die Korrelation zwischen der Verwendung von GIL und den Einstellungen der Nutzer zu verschiedenen politischen und sozialen Themen wie Migration und Integration untersucht werden.
Diese Forschung trägt sowohl zu methodischen Fortschritten in der Verarbeitung natürlicher Sprache als auch zu einem tieferen Verständnis der geschlechtergerechten Sprachdynamik im Online-Diskurs innerhalb der deutschsprachigen Gemeinschaft bei.
Förderung: Bundesministerium für Familie, Senioren, Frauen und Jugend (Institutionelle Förderung)