Phil.-nat. Kompetenznetzwerk Digitalisierung (CND)

NLP Hackathon

Virtueller NLP-Hackathon der Universität Bern am 24. und 25. März 2021

Texte lassen sich mittels Methoden des Natural Language Processing (NLP) auf sprachliche und inhaltliche Informationen untersuchen und auswerten. Um neue Blickwinkel auf die unterschiedlichen NLP-Problemstellungen zu erhalten und neue Arbeitsweisen kennenzulernen, veranstaltet die Universität Bern am Mittwoch und Donnerstag, 24. und 25. März 2021 einen virtuellen NLP-Hackathon.

Erfolgreiche NLP-Anwendungen zeichnen sich durch den Einsatz von maschinellen Lernverfahren aus, die einerseits auf Sprachmodellen basieren und andererseits über genügend Trainingsmaterial verfügen. Die Herausforderungen sind entsprechend vielseitig und betreffen von der textuellen Aufbereitung über den Einsatz von deep learning Algorithmen bis zu Visualisierungsformen unterschiedliche digitale Anwendungen. Im Rahmen des ersten NLP-Hackathon der Universität Bern am Mittwoch und Donnerstag, 24. und 25. März 2021 werden Teilnehmende konkrete Challenges rund um NLP lösen und diese anschliessend einander vorstellen. Vorgängig wurden NLP-Challenges von Uni-internen Stellen und von Externen eingereicht, für die sich die Teilnehmenden anschliessend registrieren.

Ablauf des Hackathon

Meeting im Plenums-Raum auf BigBlueButton: https://bbb.ch-open.ch/b/mat-f4n-qtn

Kommunikation per Slack: https://nlphackathon.slack.com

Anmeldung per Email auf dh@wbkolleg.unibe.ch als Team oder als Einzelperson.

Kickoff am Mittwoch, 24. März 2021, 9:00 - 10:00 Uhr
- Begrüssung und Einführung
- Vorstellung der Challenges
- Team-Building und Besprechung in separaten Räumen:
     Challenge 1: https://bbb.ch-open.ch/b/chr-q2t-z4e
     Challenge 2: https://bbb.ch-open.ch/b/chr-34a-6ve
     Challenge 3: https://bbb.ch-open.ch/b/chr-ezd-t9m
     Challenge 4: https://bbb.ch-open.ch/b/chr-n4p-3fr
     Challenge 5: https://bbb.ch-open.ch/b/chr-xtx-3kx

Präsentation der Resultate am Donnerstag, 25. März 2021, 15:00 - 16:00 Uhr
- Präsentation der Ergebnisse
- ab 16h virtuelles Abschlussbier

Challenges

Folgende fünf Challenges sind aktuell eingereicht:

  1. Forschungsstelle Digitale Nachhaltigkeit Uni Bern: Kompetitive Challenge "Klassifikation von Schweizer Gerichtsurteilen"
    The legal language is very special in many regards compared to regular natural language. It is highly structured, rather complicated, contains its own special terms and uses certain words differently than they are used in regular text. Text classification is simple to define but has a myriad of possible applications and good systems can provide immense value. Common general applications of text classification include for example spam filtering, email priority rating, or topic classification. And in the legal domain text classification includes legal judgement prediction (predict outcome of a case based on description of case's facts) or legal area prediction. So in this challenge, you will predict the chamber based on the text of a court decision. The chamber is structured in the form of {federal level}_{court}_{chamber number} (e.g. SG_KG_002 => St. Gallen, Kantonsgericht, 002).

  2. Statistisches Amt Kanton Zürich: Kreative Challenge "STATBOT.CH" (English Documentation on GitHub)
    If you are searching for some form of statistical information, it is not always easy to find it in the shortest time possible. Particularly in Switzerland, the data and information are not only spread vertically over different federal levels. They are also spread within these federal levels horizontally over different offices and even there sometimes over different sites/channels with different formats. Looking for the needle in the haystack looks comparably easy next to that. Further, even search engines are only of limited help, as they follow an indexing logic that excludes information stored in databases or files. The background of a more difficult search for facts, is also a risk for democratic processes: The harder it is for the average citizen to find truthful information, the easier it is to spread fake news. Therefore, the Statistical Office of the Canton of Zurich, together with other organizations, would like to develop a Swiss Statistical Bot (STATBOT), which would provide data and statistical information directly and quickly across all organizations.

  3. Digital Humanities Uni Bern: Kreative Challenge "NER for Historical Documents"
    Developments towards NER solutions have shown significant outcome in the past few years already. Nevertheless, applications for sparse language data are still a challenge, specially when dealing with data from pre-modern times. In this challenge, we focus on language data from the 16th to the 18th century from the Bernese Turmbücher (legal documents protocolled in the Tower of Bern, Switzerland). These documents are currently hosted in the State Archives of Bern. Language models are not provided.

  4. Digital Humanities Uni Bern: Visualization of Language Models
    Language models (e.g. character embeddings) are essential to succeed in NLP tasks. Especially when it comes to Part-of-Speech and Named Entity Recognition, tasks result in more precise models if supported by adequate language models already. Since the advent of word2vec and large transformer-based language models (such as BERT or GPT-3) a variety of specialized and fine-tuned language models is currently available. Despite the widespread use and the necessity when it comes to specific model training (e.g. for language entities with only sparse data), our understanding of the models themselves is limited at best. In order to strengthen our understanding of language models and to start the process of reflecting them, this challenge asks for creative ways of visualizing language models. We envision 3D-visualizations based on dimension reduction to identify the positioning of e.g. synonym/homonyms in vector spaces or listing of semantic fields (neighboring vector values). For context insensitive approaches (e.g. word2vec or GloVe) we imagine to use the fixed vectors and represent calculations in grids.

  5. Florian Matter: Bootstrapping morphological glossing for underresourced languages
    There are around 6000-7000 human languages in the world, but NLP tools have only been developed for a fraction of them. While language-independent tools exist, they are often not interested in the same kinds of problems as traditional linguistics, which among other things investigates linguistic diversity. A central part of structural linguistics is grammatical or morphological analysis, a process which can be applied to any spoken human language. Morphological analysis establishes the smallest meaning-carrying unit in a language, called morphemes.
     

Zielsetzungen

Bei einem Hackathon finden Personen zusammen, die gemeinsam in kurzer Zeit eine kreative, technische Lösung auf bestimmte Problemstellungen (Challenges) entwickeln wollen. Das übergeordnete Ziel des NLP Hackathon ist der Wissensaufbau, der Erfahrungsaustausch und die verbesserte Vernetzung von Interessierten betreffend NLP. Ausserdem sollen mit der Bearbeitung von konkreten Challenges die Möglichkeiten und Grenzen von heutigen NLP-Technologien getestet und mit neuen Tools experimentiert werden. Zudem sollen die einreichenden Stellen von Lösungsansätzen für ihre Challenges profitieren und bei Interesse die Zusammenarbeit mit den Teilnehmenden fortsetzen.

Berücksichtigung COVID-19

Normalerweise finden Hackathons an einem Veranstaltungsort statt, wo sich alle treffen, austauschen und auch verpflegen können. Da es in der aktuellen Pandemie-Lage jedoch schwierig ist, grössere Anlässe vor Ort zu organisieren, wird dieser NLP Hackathon dezentral durchgeführt werden. Die teilnehmenden Teams arbeiten im Homeoffice oder in ihrer jeweiligen Arbeitsumgebung an der ausgewählten Challenge. Zu Beginn des Hackathons gibt es eine kurze virtuelle Vorstellung aller Teams und gewählten Challenges und zum Abschluss des Hackathons präsentieren die Teams ihre Resultate virtuell.

Veranstaltende

Der Anlass ist eine Fortsetzung des NLP-Workshop im August 2020 und wird durch die Digital Humanities der Phil.-hist. Fakultät, das Phil.-nat. Kompetenznetzwerk Digitalisierung (CND), die Forschungsstelle Digitale Nachhaltigkeit des Instituts für Informatik und die Science IT Support Unit (ScITS) der Universität Bern organisiert. Der NLP-Hackathon ist Teil der vDHd2021 virtual Digital Humanities Community im deutschsprachiger Raum.

Hinweis für Doktorierende

Doktorierende der Graduate School of the Arts and Humanities (GSAH) der Universität Bern erhalten 1 ECTS für die aktive Teilnahme an diesem NLP-Hackathon

Kontaktpersonen

Prof. Dr. Tobias Hodel
Digital Humanities, Phil.-hist. Fakultät
tobias.hodel@wbkolleg.unibe.ch

PD Dr. Matthias Stürmer
Leiter Forschungsstelle Digitale Nachhaltigkeit
Institut für Informatik, Phil.-nat. Fakultät
matthias.stuermer@inf.unibe.ch