Reproduzierbare Textanalysen mit Topic Modeling

Abstract

Topic Modeling ist eine beliebte Text-Mining-Methode, um die zentralen Themen in großen Textsammlungen zu finden. Dabei ermittelt ein Algorithmus Gruppen von Wörtern, die in den Texten häufig gemeinsam vorkommen. Diese Wortgruppen werden als "Topics" bezeichnet. Da somit Textsammlungen beliebiger Größe automatisiert ausgewertet können, kann Topic Modeling ein aufschlussreiches Werkzeug für verschiedene textbasierte Anwendungen sein, etwa bei Social-Media-Studien oder in der Psychotherapieforschung.

Auch wenn es sich bei Topic Modeling um ein Verfahren des "unsupervised machine learning" handelt, müssen viele Parameterentscheidungen von der analysierenden Person selbst getroffen werden. Da diese Entscheidungen starke Auswirkungen auf die Ergebnisse haben können und zum Teil auf Zufallszahlen beruhen, sind eine gute Dokumentation und frei verfügbarer Analyse-Code entscheidend für reproduzierbares Topic Modeling.

In dieser einführenden Demonstration wird die etablierte Topic-Modeling-Variante "Latent Dirichlet Allocation" vorgestellt und auf einen frei verfügbaren Datensatz angewandt. Ein besonderer Schwerpunkt liegt auf Topic-Validität und Topic-Reliabilität – zwei oft übersehene, aber wichtige Modelleigenschaften. Anhand eines Beispiels wird gezeigt, wie die Analyse durch transparenten und detaillierten Code reproduzierbar wird.

Außerdem wird eine kurze Einführung in PsychTopics (psychtopics.org) gegeben, das Open-Source-Tool des ZPID zur Erkundung psychologischer Forschungsthemen und -trends. Dabei werden mit Hilfe eines neuartigen Topic-Modeling-Ansatzes Themen in psychologischen Publikationen dynamisch identifiziert und in einer R Shiny App interaktiv dargestellt.

 

Referent: André Bittermann ist kommissarischer Leiter des Forschungsbereichs Big Data am ZPID und Produktverantwortlicher für PsychTopics.