Inhalt:

Was ist ASYST?

ASYST ist ein Programm, das Lehrenden die Auswertung von Freitextantworten in Tests erleichtern soll: Mit Hilfe künstlicher Intelligenz macht ASYST Bewertungsvorschläge, die von den Lehrenden gezielt überprüft und ggf. verändert werden können. ASYST ist für die Bewertung von Freitext-Kurzantworten gedacht - diese Kurzantworten sollten etwa ein bis drei Sätze umfassen. Für längere Antworten ist die Anwendung nicht vorgesehen. ASYST hilft der Lehrperson, indem es eine Bewertung vorschlägt. Diese Bewertung kann im Einzelfall durchaus auch falsch sein; die Lehrperson kann sie prüfen und korrigieren. Dabei spart man gegenüber der völlig manuellen Bewertung an zwei Stellen Zeit: Zum Einen ist das Überprüfen von Bewertungen im Allgemeinen schneller als das Bewerten von Grund auf; und zum anderen empfehlen wir, bei der Überprüfung gezielt die ASYST-Bewertungen auszuwählen, die eher fehleranfällig sind (s. Abschnitt Wie arbeit man mit der Ausgabe von ASYST weiter? ). Das Programm ist in Python geschrieben; der Quellcode ist öffentlich zugänglich. Um ASYST einfacher nutzbar zu machen, wurden die Python-Skripte in eine ausführbare Programmdatei umgewandelt, die in Windows 11 nutzbar ist. Die technischen Hintergründe zu ASYST und eine Beispielrechnung zum Einsatz für das Deutsche finden sich in Pado, Eryilmaz und Kirschner, IJAIED 2023.

Welche Sprachen unterstützt ASYST?

ASYST wurde für Deutsch und Englisch getestet. Das Sprachmodell, das Deutsch abdeckt, kann im Prinzip noch weitere Sprachen verarbeiten. Sie können also grundsätzlich "Deutsch" als Spracheinstellung auswählen und Daten in einer der anderen unterstützten Sprachen hochladen. Bitte prüfen Sie die Ergebnisse aber sorgfältig, es liegen keine Erfahrungen vor! (Die Sprachen sind lt. den Modellerstellern: ar, bg, ca, cs, da, de, el, en, es, et, fa, fi, fr, fr-ca, gl, gu, he, hi, hr, hu, hy, id, it, ja, ka, ko, ku, lt, lv, mk, mn, mr, ms, my, nb, nl, pl, pt, pt-br, ro, ru, sk, sl, sq, sr, sv, th, tr, uk, ur, vi, zh-cn, zh-tw.)

Wie verwendet man ASYST?

Wir haben bei der Entwicklung von ASYST versucht, die Verwendung möglichst einfach zu machen sein.

Wie müssen auszuwertende Daten formatiert sein?

Das Programm arbeitet auf Basis Ihrer Daten im Excel-Format .xlsx (das auch von Libre Office Calc und anderen Programmen erzeugt werden kann). Eine Beispieltabelle: ![table_input.png](images%2Ftable_input.png) Dabei müssen die folgende Informationen in der **richtigen Reihenfolge** und mitem **richtigen Titel** der Spalten enthalten sein: 1) **Question**: Die gestellte Frage 2) **referenceAnswer**: Eine korrekte Antwort / Musterlösung / Referenzantwort 3) **studentAnswer**: Die vom Prüfling gegebene Antwort, die bewertet werden soll. 5) (optional) **observed grade**: Hier kann die tatsächliche Bewertung durch die Lehrkraft eingetragen werden, um Kennzahlen über die Richtigkeit der Vorhersagen zu bekommen. Die Beispieltabelle finden Sie unter DE_Demo_Daten.xlsx. Sie enthält einige Fragen und Antworten aus dem CSSAG-Korpus (Computer Science Short Answers in German) der HFT Stuttgart. Das Korpus is CC-BY-NC lizenziert.

Wie führe ich das Programm unter Windows 11 aus?

Zunächst muss die Datei _ASYST.exe_ heruntergeladen werden. Sobald dies geschehen ist, kann das Programm mittels Doppelklick gestartet werden. Der Start des Programmes wird eine Weile dauern (ca 1 Minute). In dieser Zeit wird das System initialisiert. **Hinweis**: Es kann passieren, dass Windows Defender davor warnt, die Anwendung auszuführen, da das Programm kein Sicherheitszertifikat besitzt. Durch Auswählen von _weitere Informationen_ und anschließend _Trotzdem ausführen_ verschwindet die Fehlermeldung und ASYST kann ausgeführt werden. Der Quelltext von ASYST ist offen zugänglich, so dass Sie sich vergewissern können, dass ASYST keine Schadsoftware ist. Nachdem das Programm gestartet wurde, erscheint eine Oberfläche, auf der die Sprache der auszuwertenden Antworten ausgewählt werden kann. Anschließend kann über einen Klick auf das Feld "Input File" die zu verarbeitende Tabelle ausgewählt werden. Hierbei sollten die Daten wie oben beschrieben angeordnet sein. Nach einem Klick auf das "Start"-Feld beginnt ASYST mit der Verarbeitung der Daten. Dies kann wiederum eine Weile dauern (1-2 Minuten, relativ unabhängig von der Menge der zu verarbeitenden Daten). Sobald das Programm alle Einträge verarbeitet und Vorhersagen getroffen hat, öffnet sich eine Tabellenansicht mit der Überschrift "Results" (Ergebnisse). Die Ergebnistabelle enthält alle Spalten der eingelesenen Tabelle, sowie zusätzlich in der Spalte "predicted grade" die von ASYST vorgeschlagene Bewertung der Antworten. Die "incorrect"-Einträge der als falsch eingestuften Antworten sind rot hinterlegt. Sie können in dieser Tabelle allerdings noch keine Bewertungen verändern. Speichern Sie hierzu über einen Klick auf "Save as" die erzeugte Tabelle und öffnen Sie sie dann mit einem Tabellenkalkulationsprogramm. ![table_results.png](images%2Ftable_results.png) Sobald die Ergebnistabelle angezeigt wird, kann ASYST die nächste Tabelle einlesen und verarbeiten. **ACHTUNG: Die Ergebnistabelle wird nicht automatisch gespeichert.** Werden die Ergebnisse nicht gespeichert, wird die Erbgebnistabelle im nächsten Durchlauf überschrieben. Daher sollte, um die Ergebnisse zu sichern, auf den **"Save as"**- Button geklickt und die Ausgabetabelle am gewünschten Ort gespeichert werden.

Wie arbeitet man mit der Ausgabe von ASYST weiter?

Wir empfehlen die folgende **Vorgehensweise** beim Einsatz von ASYST: (Weitere Informationen und eine konkretes Beispiel für das Vorgehen liefert der Artikel _Assessing the Practical Benefit of Automated Short-Answer Graders_.) 1) **Definition der Anforderungen**: Wie genau muss die Bewertung in meinem aktuellen Anwendungsfall sein? 2) **Sammeln von** manuell bewerteten **Testdaten:** Um einen Eindruck von der Genauigkeit und Zuverlässigkeit des automatischen Bewerters zu bekommen, werden annotierte Testdaten benötigt, d.h. Eingabe-Daten, für die eine korrekte Klassifizierung bereits festgelegt ist. Es werden also Daten im einlesbaren Format benötigt, die bereits manuell bewertet wurden. Dies können z.B. Antworten aus früheren Tests sein. Um den Datensatz möglichst robust gegenüber zufälligen Schwankungen zu machen, sollte er idealerweise einige hundert Antworten umfassen -- aber kleinere Datensätze können natürlich ebenfalls verwendet werden. 4) **Analyse** der Leistung der automatischen Bewertung Anhand der manuell bewerteten Testdaten kann nun gemessen werden, wie zuverlässig und treffsicher der Klassifizierer für die spezifischen Fragen arbeitet. Damit bekommen Sie einen Eindruck davon, wie gut die Vorhersage für Ihren eigenen Datensatz funktioniert. Hierzu werden die Fragen und Antworten aus dem Testdatensatz von ASYST verarbeitet und anschließend die erhaltene Klassifikation mit der manuellen Bewertung abgeglichen (z.B. in einer Tabellenkalkulation wie Excel oder Libre Office Calc). Dabei kann der Anteil der korrekt klassifizierten Antworten im gesamten Datensatz ermittelt werden - dieser sollte 85% oder höher betragen (das entspricht einer Fehlerquote von 15% oder weniger). Sie können auch für die einzelnen Bewertungen (richtig/falsch) berechnen, wie groß die Präzision für die verschiedenen Bewertungen jeweils ist. Die Präzision misst, wie viele Vorhersagen einer bestimmten Bewertung tatsächlich richtig waren, d.h. wie vertrauenswürdig die Vorhersagen des Bewerters für ein bestimmtes Label sind. So bedeutet eine Präzision von 75% für die Bewertung "korrekt", dass drei Viertel aller Vorhersagen von "korrekt" gestimmt haben, aber in einem Viertel der Fälle die Antwort laut der manuellen Bewertung falsch war. _(Die Funktion, diese Kenngrößen der Zuverlässigkeit automatisch in einem Testmodus zu generieren soll in Zukunft dem Programm noch hinzugefügt werden.)_ 5) **Entscheidung** wie der Ansatz genutzt werden soll. Anhand der erhobenen Kenngrößen zur Zuverlässigkeit für die oben genannten Kriterien kann nun eine Entscheidung getroffen werden.

Wie kann ich ASYST ausführen, wenn ich kein Windows 11 nutze?

Die klickbare Anwendung "ASYST.exe" eignet sich nur für die Ausführung unter Windows 11. In anderen Betriebssystemen kann ASYST aus einer Entwicklungsumgebung heraus ausgeführt werden. Der ASYST-Quellcode ist ursprünglich in Python geschrieben und kann daher robust in verschiedenen Umgebungen ausgeführt werden. Für Anwender, die mit dem Ausführen von Python-Programmen nicht vertraut sind, wird im folgenden eine Möglichkeit näher beschrieben.

Ausführen von ASYST in der Entwicklungsumgebung Pycharm

  1. Falls noch nicht geschehen, die Entwicklungsumgebung Pycharm aus dem Internet herunterladen und installieren. Für mehr Informationen und Problemlösung siehe Pycharm-Installationsguide.
  2. Python installieren Die Entwicklung von ASYST erfolgte in Python 3.10 - daher wird diese Version für die Ausführung empfohlen. Die zum Betriebssystem passende Version kann unter https://www.python.org/downloads ausgewählt und installiert werden.
  3. Den Quellcode aus Gitlab in die Entwicklungsumgebung herunterladen: Get from VCS im Feld _url_ folgenden Pfad eintragen: git@transfer.hft-stuttgart.de:ulrike.pado/ASYST.git Anschließend auf _clone_ klicken und warten
  4. Entwicklungsumgebung konfigurieren **Python-Interpreter konfigurieren:** Navigiere zu _Settings >> Project ASYST >> Python Interpreter >> Add Interpreter >> Add local Interpreter_ ![add_interpreter.png](images%2Fadd_interpreter.png) ![create_venv.png](images%2Fcreate_venv.png) _Location_: [Projektpfad]/[Projektname]/Source, _Base interpreter_: Pfad zur installierten Pythonversion *Benötigte Pakte installieren:* Falls Pycharm nicht von sich aus vorschlägt, die in der requirements.txt aufgeführten Pakete zu installieren, führe manuell über das Terminal von PyCharm folgende Befehle aus: ''' > cd Source > > > pip install -r requirements.txt '''
  5. ASYST ausführen ![run_button.png](images%2Frun_button.png) Nachdem über das Projektverzeichnis links die Datei _main.py_ ausgewählt wurde, wird der ausgegraute _Startknopf_ oben rechts im Fenster grün. Ein einfacher Klick genügt, und ASYST wird ausgeführt.