Hauptnavigation

Seminar Winter 2021/2022

“Topic Modelling”

Prof. Dr. Erich Schubert; Gloria Feher, M.Sc. - Informatik LS8

Ablauf

  • Anmeldung der Wunschthemen mit Priorität (1,2,3) per E-Mail an gloria.feher(at)tu-dortmund.de bis: 18.10.2021
  • Besprechung und Zuteilung der Themen* : t.b.a.
  • Termine des Blockseminars*: 22.-23.11.2021
  • Abgabe des schriftlichen Referats: 01.02.2022

* Termin findet hybrid statt; Zugangslinks werden rechtzeitig versendet.

Rahmenbedingungen

Vorträge

Vortragslänge: 20 min. + 10 min. anschließende Diskussion

Jeder Vortrag stellt einen Fachartikel vor und setzt ihn in Bezug zu dem übergeordneten Themengebiet. Dabei soll das Verstehen, Wiedergeben und Diskutieren von wissenschaftlicher Literatur geübt werden. Die Studierenden lernen sich in ein Thema einzuarbeiten, ausgehend von einem Artikel eigenständig Literaturrecherche zu betreiben, diese korrekt vorzustellen und zu zitieren (sowohl in der Praäsentation als auch in der Ausarbeitung). Fachbegriffe sollen definiert werden, ggf. müssen dabei auch mehrere Definitionen vorgestellt und diskutiert werden. Ziel des mündlichen Referats ist es die im Artikel behandelte Problemstellung, sowie den Lösungsansatz vorzustellen, und diese in den Kontext verwandter Arbeiten einzubetten. Insbesondere sollen Vor- und Nachteile der vorgestellten Methoden beleuchtet und diskutiert werden.

Schriftliche Ausarbeitung

Umfang: 15 – 20 Seiten, inkl. Literaturverzeichnis

Die schriftliche Ausarbeitung beschreibt den Inhalt des Vortrags und kann ggf. an einigen Stellen Aspekte des Themas detaillierter ausarbeiten.

Sowohl bei den Vortragsfolien als auch im schriftlichen Referat ist auf korrekte Rechtschreibung zu achten.

Inhalt

Topic Modelling bezeichnet die automatisierte Erkennung von Themen in einem Textkorpus sowie die Einteilung der Dokumente in die jeweiligen Themen. Eines der bekanntesten und am weistesten verbreiteten Topic Modelle ist Latent Dirichlet Allocation (LDA). Seit dessen Publikation 2003 wurden diverse Erweiterungen entwickelt, u.a. Adaptationen für Text-Streams (z.B. News, Tweets, etc.). Mit dem steigenden Einfluss von Deep Learning und neuronalen Sprachmodellen im Natural Language Processing (NLP), finden auch neuronale Topic Models (NTM) immer weiterreichende Verwendung. Diese können teilweise auch für andere NLP-Problemstellungen wie Textgenerierung-, -zusammenfassung und Übersetzung verwendet werden. Im Rahmen des Seminars wird ein Überblick über die Problemstellung, Lösungsansätze und Limitierungen von Topic Modellen vermittelt.

Artikel

Einführende Pflichtlektüre

LDA & Erweiterungen

Neural Topic Modeling