Commit ed1636ab authored by Pado's avatar Pado
Browse files

Merge branch 'master' into 'main'

Deleted Source/dist/ASYST.exe, Source/build/main/ASYST.pkg,...

See merge request !2
parents ebbf788e 30cec443
# Default ignored files
/shelf/
/workspace.xml
<?xml version="1.0" encoding="UTF-8"?>
<module type="PYTHON_MODULE" version="4">
<component name="NewModuleRootManager">
<content url="file://$MODULE_DIR$">
<excludeFolder url="file://$MODULE_DIR$/venv" />
</content>
<orderEntry type="jdk" jdkName="Python 3.10 (Asyst_code)" jdkType="Python SDK" />
<orderEntry type="sourceFolder" forTests="false" />
</component>
</module>
\ No newline at end of file
<component name="InspectionProjectProfileManager">
<settings>
<option name="USE_PROJECT_PROFILE" value="false" />
<version value="1.0" />
</settings>
</component>
\ No newline at end of file
<?xml version="1.0" encoding="UTF-8"?>
<project version="4">
<component name="Black">
<option name="sdkName" value="Python 3.8" />
</component>
<component name="ProjectRootManager" version="2" project-jdk-name="Python 3.10 (Asyst_code)" project-jdk-type="Python SDK" />
<component name="PythonCompatibilityInspectionAdvertiser">
<option name="version" value="3" />
</component>
</project>
\ No newline at end of file
<?xml version="1.0" encoding="UTF-8"?>
<project version="4">
<component name="ProjectModuleManager">
<modules>
<module fileurl="file://$PROJECT_DIR$/.idea/Asyst_code.iml" filepath="$PROJECT_DIR$/.idea/Asyst_code.iml" />
</modules>
</component>
</project>
\ No newline at end of file
<?xml version="1.0" encoding="UTF-8"?>
<project version="4">
<component name="VcsDirectoryMappings">
<mapping directory="$PROJECT_DIR$" vcs="Git" />
</component>
</project>
\ No newline at end of file
No preview for this file type
No preview for this file type
......@@ -28,11 +28,11 @@ und zum anderen empfehlen wir, bei der Überprüfung gezielt die ASYST-Bewertung
Das Programm ist in Python geschrieben; der Quellcode ist öffentlich zugänglich. Um ASYST einfacher nutzbar zu machen, wurden die Python-Skripte
in eine ausführbare Programmdatei umgewandelt, die in Windows 11 nutzbar ist.
Die technischen Hintergründe zu ASYST und eine Beispielrechnung zum Einsatz für das Deutsche finden sich in <a href="https://rdcu.be/dxPLg">Pado, Eryilmaz und Kirschner, IJAIED 2023</a>.
Die technischen Hintergründe zu ASYST und eine Beispielrechnung zum Einsatz für das Deutsche finden sich in Pado, Eryilmaz und Kirschner, IJAIED 2023.
<h2 id=2>Welche Sprachen unterstützt ASYST?</h2>
ASYST wurde für <a href="https://rdcu.be/dxPLg">Deutsch</a> und <a href="https://nlpado.de/~ulrike/papers/Pado22.pdf">Englisch</a> getestet.
ASYST wurde für Deutsch und <a href="https://nlpado.de/~ulrike/papers/Pado22.pdf">Englisch</a> getestet.
Das Sprachmodell, das Deutsch abdeckt, kann im Prinzip noch weitere Sprachen verarbeiten. Sie können also grundsätzlich "Deutsch" als Spracheinstellung auswählen und Daten in einer der anderen unterstützten Sprachen hochladen. Bitte prüfen Sie die Ergebnisse aber sorgfältig, es liegen keine Erfahrungen vor! (Die Sprachen sind <a href="https://www.sbert.net/docs/pretrained_models.html#multi-lingual-models">lt. den Modellerstellern</a>: ar, bg, ca, cs, da, de, el, en, es, et, fa, fi, fr, fr-ca, gl, gu, he, hi, hr, hu, hy, id, it, ja, ka, ko, ku, lt, lv, mk, mn, mr, ms, my, nb, nl, pl, pt, pt-br, ro, ru, sk, sl, sq, sr, sv, th, tr, uk, ur, vi, zh-cn, zh-tw.)
......@@ -49,7 +49,7 @@ Dabei müssen die folgende Informationen in der **richtigen Reihenfolge** und mi
1) **Question**: Die gestellte Frage
2) **referenceAnswer**: Eine korrekte Antwort / Musterlösung / Referenzantwort
3) **studentAnswer**: Die vom Prüfling gegebene Antwort, die bewertet werden soll.
5) (optional) **observed grade**: Hier kann die tatsächliche Bewertung durch die Lehrkraft eingetragen werden, um Kennzahlen über die Richtigkeit der Vorhersagen zu bekommen.
5) **observed grade**: Hier kann die tatsächliche Bewertung durch die Lehrkraft eingetragen werden, um Kennzahlen über die Richtigkeit der Vorhersagen zu bekommen. Wenn keine Bewertungen existieren, tragen Sie NONE ein.
Die Beispieltabelle finden Sie unter <a href="https://transfer.hft-stuttgart.de/gitlab/ulrike.pado/ASYST/-/blob/main/DE_Demo_Daten.xlsx">DE_Demo_Daten.xlsx</a>. Sie enthält einige Fragen und Antworten aus dem CSSAG-Korpus (Computer Science Short Answers in German) der HFT Stuttgart. Das Korpus is CC-BY-NC lizenziert.
......@@ -72,17 +72,14 @@ Anschließend kann über einen Klick auf das Feld "Input File" die zu verarbeite
Hierbei sollten die Daten wie oben beschrieben angeordnet sein.
Nach einem Klick auf das "Start"-Feld beginnt ASYST mit der Verarbeitung der Daten. Dies kann wiederum eine Weile dauern (1-2 Minuten, relativ unabhängig von der Menge der zu verarbeitenden Daten).
Sobald das Programm alle Einträge verarbeitet und Vorhersagen getroffen hat, öffnet sich eine Tabellenansicht mit der Überschrift "Results" (Ergebnisse).
Sobald das Programm alle Einträge verarbeitet und Vorhersagen getroffen hat, öffnet sich ein Fenster, das Ihnen erlaubt, die Ergebnisse wiederum im Excel-Format .xlsx zu speichern. Nach dem Speichern öffnet sich die Datei automatisch, so dass Sie die Bewertungsvorschläge bearbeiten können.
Die Ergebnistabelle enthält alle Spalten der eingelesenen Tabelle, sowie zusätzlich in der Spalte "predicted grade" die von ASYST vorgeschlagene Bewertung der Antworten. Die "incorrect"-Einträge der als falsch eingestuften Antworten sind rot hinterlegt. Sie können in dieser Tabelle allerdings noch keine Bewertungen verändern. Speichern Sie hierzu über einen Klick auf "Save as" die erzeugte Tabelle und öffnen Sie sie dann mit einem Tabellenkalkulationsprogramm.
![table_results.png](images%2Ftable_results.png)
Die Ergebnistabelle enthält alle Spalten der eingelesenen Tabelle, sowie zusätzlich in der Spalte **predicted grade** die von ASYST vorgeschlagene Bewertung der Antworten. Die "incorrect"-Einträge der als falsch eingestuften Antworten sind rot hinterlegt.
Sobald die Ergebnistabelle angezeigt wird, kann ASYST die nächste Tabelle einlesen und verarbeiten.
**ACHTUNG: Die Ergebnistabelle wird nicht automatisch gespeichert.** Werden die Ergebnisse nicht gespeichert,
wird die Erbgebnistabelle im nächsten Durchlauf überschrieben.
Daher sollte, um die Ergebnisse zu sichern, auf den **"Save as"**- Button geklickt und die Ausgabetabelle am gewünschten Ort gespeichert werden.
Sie sehen in der Ergebnistabelle auch eine Evaluation der ASYST-Ausgaben, falls Sie in der Spalte **observed grade** die tatsächliche Bewertung eingegeben haben. Hier ist besonders die Ausgabe in Spalte **precision** für die beiden Bewertungen "correct" und "incorrect" wichtig: Eine hoher Wert für "precision" (ca. 0.8 und höher) bedeutet, dass die Vorhersage von ASYST für diese Bewertung voraussichtlich verlässlich ist. S. auch Abschnitt "Wie arbeitet man mit der Ausgabe von ASYST weiter?"
<h2 id=6>Wie arbeitet man mit der Ausgabe von ASYST weiter?</h2>
......@@ -111,18 +108,18 @@ Wir empfehlen die folgende **Vorgehensweise** beim Einsatz von ASYST:
Hierzu werden die Fragen und Antworten aus dem Testdatensatz von ASYST verarbeitet und anschließend die erhaltene Klassifikation mit der manuellen Bewertung abgeglichen (z.B. in einer Tabellenkalkulation wie Excel oder Libre Office Calc).
Dabei kann der Anteil der korrekt klassifizierten Antworten im gesamten Datensatz ermittelt werden - dieser sollte 85% oder höher betragen (das entspricht einer Fehlerquote von 15% oder weniger).
Dabei kann der Anteil der korrekt klassifizierten Antworten im gesamten Datensatz (Kennzahl "Accurady") ermittelt werden - dieser sollte für rein automaticshe Korrektur 85% oder höher betragen (das entspricht einer Fehlerquote von 15% oder weniger).
Sie können auch für die einzelnen Bewertungen (richtig/falsch) berechnen, wie groß die Präzision für die verschiedenen Bewertungen jeweils ist. Die Präzision misst, wie viele Vorhersagen einer bestimmten Bewertung tatsächlich richtig waren, d.h. wie vertrauenswürdig die Vorhersagen des Bewerters für ein bestimmtes Label sind. So bedeutet eine Präzision von 75% für die Bewertung "korrekt", dass drei Viertel aller Vorhersagen von "korrekt" gestimmt haben, aber in einem Viertel der Fälle die Antwort laut der manuellen Bewertung falsch war.
_(Die Funktion, diese Kenngrößen der Zuverlässigkeit automatisch in einem Testmodus zu generieren soll in Zukunft dem Programm noch hinzugefügt werden.)_
Wie oben unter "Wie verwendet man ASYST?" beschrieben, werden diese Kenngrößen automatisch berechnet, sobald Sie zu den zu bewertenden Fragen **observed grades** liefern.
5) **Entscheidung** wie der Ansatz genutzt werden soll.
Anhand der erhobenen Kenngrößen zur Zuverlässigkeit für die oben genannten Kriterien kann nun eine Entscheidung getroffen werden.
<ul>
<li> Wie groß ist der Anteil der korrekt vorhergesagten Bewertungen? Beträgt er >85%, können Sie die ASYST-Vorhersagen sogar unverändert übernehmen, falls Sie dies wünschen. </li>
<li> Wie ist die Präzision der einzelnen Bewertungsklassen (richtig/falsch)? Wenn eine der Klassen deutlich zuverlässiger vorhergesagt wird, können Sie entscheiden, diese Vorhersagen ungeprüft zu übernehmen und <b>nur</b> die Vorhersagen für die weniger verlässlich erkannte Klasse zu überprüfen. Dies führt in der Praxis zu einer deutlichen Zeitersparnis. </li>
<li> Wie ist die Präzision der einzelnen Bewertungsklassen (richtig/falsch)? Wenn eine der Klassen deutlich zuverlässiger vorhergesagt wird, können Sie entscheiden, diese Vorhersagen ungeprüft zu übernehmen und <b>nur</b> die Vorhersagen für die weniger verlässlich erkannte Klasse zu überprüfen. Dies führt in der Praxis zu einer deutlichen Zeitersparnis. Ein Richtwert ist eine Präzision von 0,8 oder höher. </li>
<li>Wie ist der Bewertungsfehler verteilt? Werden übermäßig viele korrekte Antworten als falsch bewertet, oder umgekehrt? Ist dies für Ihre Situation akzeptabel? </li>
<li> Wie viel Bewertungsaufwand hätten Sie für den Beispieldatensatz eingespart, z.B. indem Sie die verlässlichere Bewertungsklasse ungeprüft akzeptieren?
</ul>
......
......@@ -28,11 +28,12 @@ and second, we recommend reviewing mostly those ASYST grades that are most prone
The program is written in Python; the source code is publicly available. To make ASYST easier to use, the Python scripts have been
converted into an executable that is usable in Windows 11.
The technical background and development history of ASYST are described in <a href="https://rdcu.be/dxPLg"> Pado, Eryilmaz and Kirschner, IJAIED 2023</a> along with a worked example for German data. For English data, a similar example is available in <a href="https://nlpado.de/~ulrike/papers/Pado22.pdf">Pado, AIED 2022</a>
The technical background and development history of ASYST are described in Pado, Eryilmaz and Kirschner, IJAIED 2023 along with a worked example for German data. For English data, a similar example is available in Pado, AIED 2022
<h2 id=2>Which languages are supported by ASYST?</h2>
ASYST has been tested for <a href="https://rdcu.be/dxPLg">German</a> and <a href="https://nlpado.de/~ulrike/papers/Pado22.pdf">English</a>.
ASYST has been tested for German and <a href="https://nlpado.de/~ulrike/papers/Pado22.pdf">English</a>.
The language model that covers German can in principle handle other languages, as well. So, in principle, you could select "German" as language setting and upload data in one of the other languages covered by the model. If you try this, please check the results carefully, as this is untested! (<a href="https://www.sbert.net/docs/pretrained_models.html#multi-lingual-models">According to the model developers,</a> the covered languages are: ar, bg, ca, cs, da, de, el, en, es, et, fa, fi, fr, fr-ca, gl, gu, he, hi, hr, hu, hy, id, it, ja, ka, ko, ku, lt, lv, mk, mn, mr, ms, my, nb, nl, pl, pt, pt-br, ro, ru, sk, sl, sq, sr, sv, th, tr, uk, ur, vi, zh-cn, zh-tw.)
......@@ -50,7 +51,7 @@ The following information needs to be included in the **correct order** and with
1) **question**: The question that was asked
2) **referenceAnswer**: A correct answer / reference answer
3) **studentAnswer**: The student answer that is to be evaluated
5) (optional) **observed grade**: The grade given by the teacher can be entered here in order to evaluate the accuracy of the ASYST predictions.
5) **observed grade**: The grade given by the teacher can be entered here in order to evaluate the accuracy of the ASYST predictions. If no grades exist, enter NONE.
The example table can be found at <a href="https://transfer.hft-stuttgart.de/gitlab/ulrike.pado/ASYST/-/blob/main/DE_Demo_Daten.xlsx">DE_Demo_Daten.xlsx</a>. It contains some questions and answers from the CSSAG corpus (Computer Science Short Answers in German) of HFT Stuttgart. The corpus is licensed as CC-BY-NC.
......@@ -72,17 +73,13 @@ After the program has been started, a window appears. First, select the language
The table to be processed can then be selected by clicking on the “Input File” field. The data should be arranged as described above.
After clicking on the “Start” field, ASYST begins processing the data. Again, this can take a while (1-2 minutes, relatively independent of the amount of data being processed).
Once the program has processed all answers and made predictions, a table view headed "Results" opens.
The results table contains all columns of the input table, as well as the grades suggested by ASYST -- see the the "predicted grade" column. The grades for answers classified as incorrect are highlighted in red. You cannot make change in this table. Instead, save the data by clicking on “Save as” and then open the resulting .xlsx file with a spreadsheet program.
Once the program has processed all answers and made predictions, a window opens that allows you to save the results as another Excel file in .xslx format. After saving, the file opens automatically, so the grade predictions can be edited.
![table_results.png](images%2Ftable_results.png)
The results table contains all columns of the input table, as well as the grades suggested by ASYST -- see the the "predicted grade" column. The grades for answers classified as incorrect are highlighted in red.
As soon as the result table is displayed, ASYST can read and process the next input table.
**ATTENTION: The results table is not saved automatically.**
Therefore, to save the results, the **"Save as"** button should be clicked and the output table should be saved at the desired location.
In the results table, you also find evaluation output for the ASYST predictions if you provided **observed grades**. The most important information is in column **precision** for the grades "correct" and "incorrect". A high precision value (ca. 0.8 and higher) means that the ASYST predictions for this grade are probably reliable. See also seciton "How do I continue with the output from ASYST?"
<h2 id=6>How do I continue with the output from ASYST?</h2>
......@@ -110,18 +107,16 @@ We recommend the following **process** when using ASYST:
For this purpose, process the questions and answers from the test data set using ASYST and compare the grade predictions with the manual assessment (e.g. in a spreadsheet such as Excel or Libre Office Calc).
The proportion of correctly classified answers in the entire data set gives you the system accuracy (which should be at around 85% or higher, which means disagreement between the manual and machine grades of 15% or less).
The proportion of correctly classified answers in the entire data set gives you the system accuracy (which should be at around 85% or higher for fully automated grading, which means disagreement between the manual and machine grades of 15% or less).
You can also calculate the precision for each grade ("correct"/"incorrect"). Precision measures how many predictions of a given grade were actually correct, i.e. how trustworthy the ASYST's predictions are for a given label. A precision of 75% for the rating "correct" means that three quarters of all predictions of "correct" were in fact right, but for a quarter of the cases the answer was actually wrong according to the manual grades.
_(We plan to add functionality to automatically generate these reliability parameters in the future.)_
ASYST also calculates the precision for each grade ("correct"/"incorrect") as soon as observed grades are provided. Precision measures how many predictions of a given grade were actually correct, i.e. how trustworthy the ASYST's predictions are for a given label. A precision of 75% for the rating "correct" means that three quarters of all predictions of "correct" were in fact right, but for a quarter of the cases the answer was actually wrong according to the manual grades.
5) **Decide** how to use ASYST's predictions.
A usage decision can now be made based on the reliability parameters collected for the criteria mentioned above.
<ul>
<li> How large is the proportion of correctly predicted reviews? If it is >85%, you can even adopt the ASYST predictions unchanged if you wish. </li>
<li> What is the precision of the grade labels ("correct"/"incorrect")? If one of the grade labels is likely to be significantly more reliable, you can decide to accept these predictions without review and <b>only</b> check the predictions for the less reliable grade predictions. In practice, this leads to significant time savings. </li>
<li> What is the precision of the grade labels ("correct"/"incorrect")? If one of the grade labels is likely to be significantly more reliable, you can decide to accept these predictions without review and <b>only</b> check the predictions for the less reliable grade predictions. In practice, this leads to significant time savings. As a rule of thumb, a precision of 0.8 or higher may be chosen.</li>
<li>How is the grading error distributed? Are correct answers frequently predicted to be incorrect, or vice versa? Is this acceptable for your situation? </li>
<li> How much evaluation effort would you have saved for the example data set, e.g. by accepting the more reliable grade label without review?
</ul>
......
......@@ -33,6 +33,7 @@ import torch
from torch.utils.data import DataLoader, SequentialSampler, TensorDataset
from sklearn.metrics import f1_score, accuracy_score
from sklearn.metrics import classification_report
from transformers import (
BertConfig,
......@@ -491,10 +492,53 @@ def print_predictions(args, preds):
processor.get_test_examples(args.data_dir)
)
# observed grade list created
obs_grade = [ex.label for ex in examples]
# suggested grade list created
sugg_grade = ['correct' if pred == 0 else 'incorrect' for pred in preds]
# flag: do observed grades exist?
count=0
# Check if obs_grade contains "NONE" values or is empty
if not obs_grade or all(grade == 'NONE' for grade in obs_grade):
count += 1
else:
# classification report
classification_rep = classification_report(obs_grade, sugg_grade)
report_string = classification_rep
report_lines = report_string.split('\n')
# print(report_lines)
# accuracy line
formatted_accuracy_line = "\t".join(report_lines[5].split())
formatted_acc_line_with_tabs = (formatted_accuracy_line[:formatted_accuracy_line.index('\t',
formatted_accuracy_line.index(
'\t'))] + '\t\t' +
formatted_accuracy_line[
formatted_accuracy_line.index('\t', formatted_accuracy_line.index('\t')):])
# #weighted avg printing
#
wt_avg_line = "\t".join(report_lines[7].split())
new_wt_avg_line = wt_avg_line.replace("\t", " ", 1)
# Join the entire newly formatted list into a single string
formatted_output = "\n".join([
"\t precision \t recall \t f1-score \t support",
"\t".join(report_lines[2].split()),
"\t".join(report_lines[3].split()),
formatted_acc_line_with_tabs,
new_wt_avg_line
])
with open(args.data_dir + "/" + dir_name + "/predictions.txt", "w", encoding="utf8") as writer:
# print("# examples: " + str(len(examples)))
# print("# labels: " + str(len(labels)))
# print("# preds: " + str(len(preds)))
writer.write(
"question\treferenceAnswer\tstudentAnswer\tsuggested grade\tobserved grade\n")
......@@ -519,7 +563,17 @@ def print_predictions(args, preds):
+ examples[i].label
+ "\n"
)
# else: print("Labels don't match! "+str(i)+": "+str(examples[i].label)+" "+str(labels[i]))
if count == 1:
writer.write("\nClassification Report cannot be printed as observed grade column is empty or filled "
"with 'NONE' or 'none' values\n")
else:
# Write the classification report to the file
writer.write(
"\nClassification Report - high Precision for classes correct or incorrect indicates that the class prediction is reliable:\n")
writer.write(formatted_output)
if __name__ == "__main__":
......
......@@ -11,7 +11,8 @@ import argparse
from sklearn import metrics
from sentence_transformers import models, SentenceTransformer
from sklearn.linear_model import LogisticRegression, Perceptron
from sklearn.metrics import confusion_matrix
from sklearn.metrics import f1_score
from sklearn.metrics import classification_report
from sklearn.model_selection import cross_validate, cross_val_predict
__author__ = "Yunus Eryilmaz"
......@@ -20,7 +21,6 @@ __date__ = "21.07.2021"
__source__ = "https://pypi.org/project/sentence-transformers/0.3.0/"
def main():
parser = argparse.ArgumentParser()
......@@ -33,8 +33,8 @@ def main():
# Required parameters
parser.add_argument(
"--data",
#default=None,
default=location+"\\Skript\\outputs\\test.tsv",
# default=None,
default=location + "\\Skript\\outputs\\test.tsv",
type=str,
# required=True,
required=False,
......@@ -43,7 +43,7 @@ def main():
parser.add_argument(
"--output_dir",
# default=None,
default=location+"\\Skript\\outputs\\",
default=location + "\\Skript\\outputs\\",
type=str,
# required=True,
required=False,
......@@ -52,7 +52,7 @@ def main():
parser.add_argument(
"--model_dir",
# default=None,
default=location+"\\Skript\\german\\models",
default=location + "\\Skript\\german\\models",
type=str,
# required=True,
required=False,
......@@ -70,7 +70,7 @@ def main():
# print("Reading from",args.data, file=out);
with open(os.path.join(location,args.data)) as ft:
with open(os.path.join(location, args.data)) as ft:
dft = pd.read_csv(ft, delimiter='\t')
# Sentences we want sentence embeddings for
......@@ -78,6 +78,8 @@ def main():
sentences2_test = dft['studentAnswer'].values.tolist()
# print("Input read:",sentences2_test, file=out);
# print(sentences1_test)
# Use BERT for mapping tokens to embeddings
word_embedding_model = models.Transformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
# pooling operation can choose by setting true (Apply mean pooling to get one fixed sized sentence vector)
......@@ -119,9 +121,83 @@ def main():
# print('--------Evaluate on Testset------- ', file=out)
predictions = clf_log.predict(X_test)
# new code inserted here
count = 0
# observed grade list created
observed_grade_column = dft['observed grade']
obs_grade = observed_grade_column.tolist()
# suggested grade list created
temp_sugg_grade = predictions
sugg_grade = ['correct' if pred == 1 else 'incorrect' for pred in temp_sugg_grade]
# Check if obs_grade contains "NONE" values or is empty
if not obs_grade or all(grade == 'NONE' for grade in obs_grade):
# print("obs_grade is empty or contains 'NONE' values. Skipping classification report.")
count += 1
else:
# classification report
classification_rep = classification_report(obs_grade, sugg_grade)
report_string = classification_rep
report_lines = report_string.split('\n')
# print(report_lines)
# accuracy line
formatted_accuracy_line = "\t".join(report_lines[5].split())
formatted_acc_line_with_tabs = (formatted_accuracy_line[:formatted_accuracy_line.index('\t',
formatted_accuracy_line.index(
'\t'))] + '\t\t' +
formatted_accuracy_line[
formatted_accuracy_line.index('\t', formatted_accuracy_line.index('\t')):])
# #weighted avg printing
#
wt_avg_line = "\t".join(report_lines[7].split())
# print(wt_avg_line)
new_wt_avg_line = wt_avg_line.replace("\t", " ", 1)
# print(new_wt_avg_line)
#
# wt_avg_line = report_lines[7].split()
#
# #wt_avg_line
#
# wg_element_1 = wt_avg_line[0]
# wg_element_2 = wt_avg_line[1]
#
# print(wg_element_1)
# print(wg_element_2)
#
# new_wt_line_out_1_2 =
# formatted_wt_with_tabs = (wt_avg_line[:wt_avg_line.index('\t',
# wt_avg_line.index('\t')) +1 ] + '\t' +
# wt_avg_line[wt_avg_line.index('\t', wt_avg_line.index('\t')):])
# Join the entire newly formatted list into a single string
formatted_output = "\n".join([
"\t precision \t recall \t f1-score \t support",
"\t".join(report_lines[2].split()),
"\t".join(report_lines[3].split()),
formatted_acc_line_with_tabs,
new_wt_avg_line
])
# Print the entire formatted output
# print("\nFormatted Output:")
# print(formatted_output)
# UP print results
with open(args.output_dir + "\\predictions.txt", "w") as writer:
writer.write("question\treferenceAnswer\tstudentAnswer\tsuggested grade\tobserved grade\n")
writer.write("question\treferenceAnswer\tstudentAnswer\tsuggested_grade\tobserved_grade\n")
for i in range(len(dft)):
hrpred = "incorrect"
if predictions[i] == 1:
......@@ -139,6 +215,16 @@ def main():
+ "\n"
)
if count == 1:
writer.write("\nClassification Report cannot pe printed as observed grade column is empty or filled "
"with 'NONE' or 'none' values\n")
else:
# Write the classification report to the file
writer.write("\nClassification Report - high Precision for classes correct or incorrect indicates that the class prediction is reliable:\n")
writer.write(formatted_output)
# print('\nExecution time:', time.strftime("%H:%M:%S", time.gmtime(time.time() - start_time)),file=out)
......
question referenceAnswer studentAnswer suggested_grade observed_grade
Warum braucht man für XML-Tags Namensräume? Da jeder Benutzer frei XML-Tags definieren kann, kann es passieren, dass dasselbe Tag in mehreren Dokumenten vorkommt und jeweils eine unterschiedliche Bedeutung hat. Namensräume sorgen dafür, dass diese unterschiedlichen Bedeutungen eindeutig auseinandergehalten werden können, indem die Tags qualifiziert werden. Namensräume verknüpfen Tags mit einer Anwendung: weil sich die Namen von Tags aus einzelnen XML Dateien überschneiden können.Deshlab qualifizierte Namen das bedeuteet dass die Namen sich auf einen Namenraum beziehen und der Namenraum ist als Attribut an Elemente gebunden. correct correct
Warum möchten Sie bei der Objektserialisierung mit Hilfe von transient bzw. serialPersistentFields[] die Kontrolle darüber haben, welche Felder serialisiert werden? Wenn das Objekt schützenswerte Information enthält wie z.B. Passwörter, müssen diese bei der Serialisierung ausgeschlossen werden, da sie sonst aus dem serialisierten Objekt problemlos auszulesen sind. Außerdem gibt es Felder, die nicht serialisierbar sind (z.B. Sockets oder Threads). Diese Felder möchte man auch ausschließen. Wenn Attribute mit transient markiert werden, dann werden sie bei der Serialisierung übersprungen. serialPersistentFields[] kann man die zu serialisierenden Attribute aufzählen correct incorrect
Warum braucht man für XML-Tags Namensräume? Da jeder Benutzer frei XML-Tags definieren kann, kann es passieren, dass dasselbe Tag in mehreren Dokumenten vorkommt und jeweils eine unterschiedliche Bedeutung hat. Namensräume sorgen dafür, dass diese unterschiedlichen Bedeutungen eindeutig auseinandergehalten werden können, indem die Tags qualifiziert werden. Namensräume verknüpfen Tags mit einer Anwendung: Namensräume verknüft ein XML-Element mit einer Anwendung. Der Gültigkeitsbereich gilt für den Bereich mit dem Präfix versehenen Elemente und Attribute. correct correct
Sie möchten ein protected-Feld und mehrere unimplementierte Methoden vererben. Benutzen Sie eine Schnittstelle oder eine abstrakte Klasse? Warum? abstrakte Klasse. Schnittstellen können nur Konstanten vererben, abstrakte Klassen vererben Felder. alternativ: abstrakte Klassen vererben unimplementierte Methoden ich würde eine abstrakte Klasse benutzen, weil die Schinttstellen können nur Konstanten haben. correct correct
Warum braucht man bei der Arbeit mit Threads Synchronisation? Man muss vermeiden, dass verschiedene Threads gleichzeitig auf Daten oder Objekte zugreifen, weil es dadurch zur Zerstörung von Werten und zu inkonsistenten Zuständen kommen kann. Wenn zwei oder mehrere parallel laufende Threads dasselbe Objekt ansprechen, kann es zu Problemem kommen, da beide gleichzeitig das Objekt ändern. Deswegen benutzt man Monitore, wobei die dazugehörigen Objekte in ein Monitor eingeschlossen werden. Eingekapselt werden kritische Abschnitte. incorrect incorrect
Wie wird bei Methodenschablonen ermittelt, welchen konkreten Typ T zur Laufzeit annimmt? Wie wird dies bei Klassenschablonen ermittelt? Bei Methodenschablonen wird T aus den angegebenen Parametern abgeleitet (deshalb muss T als einer der Parametertypen vorliegen). Wenn die Parameter nicht den gleichen Typ haben, wird T als der unterste gemeinsame Muttertyp in der Ableitungshierarchie gewählt. Bei Klassenschablonen wird beim Erstellen eines neuen Objekts die Typinstanziierung angegeben. Bei der instanzierung. Die in der Klammer verwendeten Typen. incorrect correct
Warum können verschiedene Instanzen von Enumerationstypen in switch-case-Konstrukten genutzt werden? Weil es von jedem Objekt nur eine Instanz gibt, so dass == mit equals() identisch ist. Weil die Enumerationstypen stets public, final und static sind. incorrect incorrect
Wie bestimmen Sie bei einem XML-Dokument Gültigkeit und Wohlgeformtheit? Kann eines ohne das andere vorkommen? Wohlgeformtheit bestimmt sich aus den Syntaxvorschriften für XML-Dokumente (z.B. müssen alle Tags geschlossen werden, es darf nur ein Wurzelelement geben, reservierte Zeichen müssen vermieden werden). Gültigkeit liegt vor, wenn das XML-Dokument darüber hinaus der Elementdefinition aus der DTD entspricht. Ein XML-Dokument kann wohlgeformt sein, ohne gültig zu sein, aber zur Gültigkeit ist die Wohlgeformtheit Voraussetzung. Alternativ: Dokumente werden mit ""validate"" auf Gültigkeit und Wohlgeformtheit geprüft Ein XML Dokument muss einen internen und externen DTD enthalten. Die DTD-Datei beschreibt die Struktur. Diese muss gut geformt sein. Eine XML Datei kann ohne DTD nicht vorkommen, denn dann ist Struktur nicht wohlgeformt. incorrect incorrect
In einer Swing-Demo ändert sich beim Klick auf einen Button der Text auf dem Button. Wie sieht der mehrschrittige Ablauf hinter den Kulissen aus? Der Klick auf den Button erzeugt ein ActionEvent. Das ActionEvent wird von einem Listener aufgefangen, der beim Button registriert ist. Dieser Listener führt daraufhin seinen Code aus, der den Text ändert. es wird mit einer actionEvent erzeugt incorrect correct
Classification Report:
precision recall f1-score support
correct 0.75 0.60 0.67 5
incorrect 0.60 0.75 0.67 4
accuracy 0.67 9
weighted avg 0.68 0.67 0.67 9
\ No newline at end of file
question referenceAnswer studentAnswer observed grade
Warum braucht man für XML-Tags Namensräume? Da jeder Benutzer frei XML-Tags definieren kann, kann es passieren, dass dasselbe Tag in mehreren Dokumenten vorkommt und jeweils eine unterschiedliche Bedeutung hat. Namensräume sorgen dafür, dass diese unterschiedlichen Bedeutungen eindeutig auseinandergehalten werden können, indem die Tags qualifiziert werden. Namensräume verknüpfen Tags mit einer Anwendung: weil sich die Namen von Tags aus einzelnen XML Dateien überschneiden können.Deshlab qualifizierte Namen das bedeuteet dass die Namen sich auf einen Namenraum beziehen und der Namenraum ist als Attribut an Elemente gebunden. correct
Warum möchten Sie bei der Objektserialisierung mit Hilfe von transient bzw. serialPersistentFields[] die Kontrolle darüber haben, welche Felder serialisiert werden? Wenn das Objekt schützenswerte Information enthält wie z.B. Passwörter, müssen diese bei der Serialisierung ausgeschlossen werden, da sie sonst aus dem serialisierten Objekt problemlos auszulesen sind. Außerdem gibt es Felder, die nicht serialisierbar sind (z.B. Sockets oder Threads). Diese Felder möchte man auch ausschließen. Wenn Attribute mit transient markiert werden, dann werden sie bei der Serialisierung übersprungen. serialPersistentFields[] kann man die zu serialisierenden Attribute aufzählen incorrect
Warum braucht man für XML-Tags Namensräume? Da jeder Benutzer frei XML-Tags definieren kann, kann es passieren, dass dasselbe Tag in mehreren Dokumenten vorkommt und jeweils eine unterschiedliche Bedeutung hat. Namensräume sorgen dafür, dass diese unterschiedlichen Bedeutungen eindeutig auseinandergehalten werden können, indem die Tags qualifiziert werden. Namensräume verknüpfen Tags mit einer Anwendung: Namensräume verknüft ein XML-Element mit einer Anwendung. Der Gültigkeitsbereich gilt für den Bereich mit dem Präfix versehenen Elemente und Attribute. correct
Sie möchten ein protected-Feld und mehrere unimplementierte Methoden vererben. Benutzen Sie eine Schnittstelle oder eine abstrakte Klasse? Warum? abstrakte Klasse. Schnittstellen können nur Konstanten vererben, abstrakte Klassen vererben Felder. alternativ: abstrakte Klassen vererben unimplementierte Methoden ich würde eine abstrakte Klasse benutzen, weil die Schinttstellen können nur Konstanten haben. correct
Warum braucht man bei der Arbeit mit Threads Synchronisation? Man muss vermeiden, dass verschiedene Threads gleichzeitig auf Daten oder Objekte zugreifen, weil es dadurch zur Zerstörung von Werten und zu inkonsistenten Zuständen kommen kann. Wenn zwei oder mehrere parallel laufende Threads dasselbe Objekt ansprechen, kann es zu Problemem kommen, da beide gleichzeitig das Objekt ändern. Deswegen benutzt man Monitore, wobei die dazugehörigen Objekte in ein Monitor eingeschlossen werden. Eingekapselt werden kritische Abschnitte. incorrect
Wie wird bei Methodenschablonen ermittelt, welchen konkreten Typ T zur Laufzeit annimmt? Wie wird dies bei Klassenschablonen ermittelt? Bei Methodenschablonen wird T aus den angegebenen Parametern abgeleitet (deshalb muss T als einer der Parametertypen vorliegen). Wenn die Parameter nicht den gleichen Typ haben, wird T als der unterste gemeinsame Muttertyp in der Ableitungshierarchie gewählt. Bei Klassenschablonen wird beim Erstellen eines neuen Objekts die Typinstanziierung angegeben. Bei der instanzierung. Die in der Klammer verwendeten Typen. correct
Warum können verschiedene Instanzen von Enumerationstypen in switch-case-Konstrukten genutzt werden? Weil es von jedem Objekt nur eine Instanz gibt, so dass == mit equals() identisch ist. Weil die Enumerationstypen stets public, final und static sind. incorrect
Wie bestimmen Sie bei einem XML-Dokument Gültigkeit und Wohlgeformtheit? Kann eines ohne das andere vorkommen? Wohlgeformtheit bestimmt sich aus den Syntaxvorschriften für XML-Dokumente (z.B. müssen alle Tags geschlossen werden, es darf nur ein Wurzelelement geben, reservierte Zeichen müssen vermieden werden). Gültigkeit liegt vor, wenn das XML-Dokument darüber hinaus der Elementdefinition aus der DTD entspricht. Ein XML-Dokument kann wohlgeformt sein, ohne gültig zu sein, aber zur Gültigkeit ist die Wohlgeformtheit Voraussetzung. Alternativ: Dokumente werden mit ""validate"" auf Gültigkeit und Wohlgeformtheit geprüft Ein XML Dokument muss einen internen und externen DTD enthalten. Die DTD-Datei beschreibt die Struktur. Diese muss gut geformt sein. Eine XML Datei kann ohne DTD nicht vorkommen, denn dann ist Struktur nicht wohlgeformt. incorrect
In einer Swing-Demo ändert sich beim Klick auf einen Button der Text auf dem Button. Wie sieht der mehrschrittige Ablauf hinter den Kulissen aus? Der Klick auf den Button erzeugt ein ActionEvent. Das ActionEvent wird von einem Listener aufgefangen, der beim Button registriert ist. Dieser Listener führt daraufhin seinen Code aus, der den Text ändert. es wird mit einer actionEvent erzeugt correct
import tkinter as tk
from tkinter import filedialog
from tkinter import BOTTOM, RIDGE, RIGHT, Label, Menu, Toplevel, ttk
from tkinter.messagebox import showwarning
from tkinter.font import NORMAL
......@@ -11,9 +12,14 @@ import xlsxwriter
import tkinter
##import sentence_transformers
import pandas as pd
import sys
import os
from sklearn.metrics import f1_score
from matplotlib import pyplot as plt
from sklearn.metrics import confusion_matrix, classification_report
import seaborn as sns
from Skript.english.run_SAG_mnli import main as english_backend
from Skript.german.run_LR_SBERT import main as german_backend
......@@ -74,22 +80,22 @@ class App(ttk.Frame):
output_str = resource_path(output_str)
# Excel files are parsed into csv files
if (indexIdent.endswith('.xlsx')):
if indexIdent.endswith('.xlsx'):
# Check if file exists
if (os.path.exists(csv_file_path)):
if os.path.exists(csv_file_path):
# showinfo(title="debug_info", message=output_str + "\n" + indexIdent)
read_file = pd.read_excel(indexIdent)
read_file.to_csv(output_str, index=None, header=True, quoting=csv.QUOTE_NONE, escapechar="\t", sep='\t')
read_file.to_csv(output_str, index=None, header=True, quoting=csv.QUOTE_NONE, escapechar="\t",
sep='\t')
# when the input data has been loaded, highlight the Start button to indicate that
# grading can now commence
self.style = ttk.Style(self)
self.style.configure('Wild.TButton',font=('Helvetica', 14, 'bold'),
foreground='green')
self.style.configure('Wild.TButton', font=('Helvetica', 14, 'bold'),
foreground='green')
self.button1.config(state=NORMAL,style='Wild.TButton')
self.button1.config(state=NORMAL, style='Wild.TButton')
print(self.button1.winfo_class())
labelframe.update()
......@@ -100,7 +106,7 @@ class App(ttk.Frame):
showinfo(
title="Information",
message="File " + csv_file_path + " could not be found."
# message="Please choose a file"
# message="Please choose a file"
)
......@@ -112,76 +118,81 @@ class App(ttk.Frame):
# message="Please choose a file"
)
# New output window for showing the content of a csv file
# New outputwinodow for showing the content of a csv file
def open_new_window():
new_window = Toplevel(root)
new_window.protocol("WM_DELETE_WINDOW", new_window.destroy)
new_window.title("ASYST Evaluated Results")
#new_window.geometry("1920x1080")
new_window.iconbitmap(resource_path("icon.ico"))
lab = Label(new_window, text="Results", font=("Segoeui 20 bold"))
lab.pack(padx=0, pady=35)
container = ttk.Frame(new_window)
canvas = tk.Canvas(container)
scrollbary = ttk.Scrollbar(container, orient='vertical', command=canvas.yview)
scrollbar = ttk.Scrollbar(container, orient="horizontal", command=canvas.xview)
scrollable_frame = ttk.Frame(canvas)
scrollable_frame.bind(
"<Configure>",
lambda e: canvas.configure(
scrollregion=canvas.bbox("all")
)
)
canvas.configure(scrollregion=canvas.bbox("all"))
canvas.create_window((4, 4), window=scrollable_frame)
csv_file_path = resource_path("Skript\\outputs\\predictions.txt");
# Read the csv file and parse it into the table
with open((csv_file_path), "r", newline="", encoding="utf8") as f:
reader = csv.reader(f, delimiter="\t")
r = 0
for col in reader:
c = 0
for row in col:
# variable column width
col_width = 65
anch= 'center'
match c:
case 0:
col_width = 10 # ID is short
anch='w'
case 3:
col_width = 20 # label is short
anch='w'
case 4:
col_width = 20 # label is short
anch = 'w'
label = Label(scrollable_frame, width=col_width, height=4, text=row, wraplength=500, anchor=anch, relief=RIDGE,
font=("Segoeui 10"))
label.grid(row=r + 1, column=c + 1)
string_c = "incorrect"
if string_c in row:
label.config(bg="red")
c += 1
r += 1
canvas.config(height=500, width=1500, xscrollcommand=scrollbar.set, yscrollcommand=scrollbary.set)
canvas.configure(xscrollcommand=scrollbar.set, yscrollcommand=scrollbary.set)
scrollbary.pack(side=RIGHT, fill=tk.Y)
scrollbar.pack(side=BOTTOM, fill=tk.X)
save_button = ttk.Button(new_window, text="Save as ...", command=save_as_excel)
save_button.pack(side=BOTTOM, expand=True)
container.pack(padx=30, pady=15,fill="both", expand=True)
canvas.pack(fill="both", expand=True)
new_window = Toplevel(root)
new_window.protocol("WM_DELETE_WINDOW", new_window.destroy)
new_window.title("ASYST Evaluated Results")
new_window.geometry("850x500")
new_window.iconbitmap(resource_path("icon.ico"))
lab = Label(new_window, text="Results\n\nClick on Save As button below to view the file",
font=("Segoeui 20 bold"))
lab.pack(padx=0, pady=35)
# container = ttk.Frame(new_window)
# canvas = tk.Canvas(container)
# scrollbary = ttk.Scrollbar(container, orient='vertical', command=canvas.yview)
# scrollbar = ttk.Scrollbar(container, orient="horizontal", command=canvas.xview)
# scrollable_frame = ttk.Frame(canvas)
# scrollable_frame.bind(
# "<Configure>",
# lambda e: canvas.configure(
# scrollregion=canvas.bbox("all")
# )
# )
# canvas.configure(scrollregion=canvas.bbox("all"))
# canvas.create_window((4, 4), window=scrollable_frame)
csv_file_path = resource_path("Skript\\outputs\\predictions.txt");
#############
# Read the csv file and parse it into the table
# with open((csv_file_path), "r", newline="", encoding="utf8") as f:
#
# reader = csv.reader(f, delimiter="\t")
# r = 0
# for col in reader:
# c = 0
# for row in col:
# # variable column width
# col_width = 65
# anch = 'center'
# match c:
# case 0:
# col_width = 10 # ID is short
# anch = 'w'
# case 3:
# col_width = 20 # label is short
# anch = 'w'
# case 4:
# col_width = 20 # label is short
# anch = 'w'
#
# label = Label(scrollable_frame, width=col_width, height=4, text=row, wraplength=500,
# anchor=anch, relief=RIDGE,
# font=("Segoeui 10"))
# label.grid(row=r + 1, column=c + 1)
# string_c = "incorrect"
# if string_c in row:
# label.config(bg="red")
# c += 1
# r += 1
#
# canvas.config(height=500, width=1500, xscrollcommand=scrollbar.set, yscrollcommand=scrollbary.set)
# canvas.configure(xscrollcommand=scrollbar.set, yscrollcommand=scrollbary.set)
# scrollbary.pack(side=RIGHT, fill=tk.Y)
# scrollbar.pack(side=BOTTOM, fill=tk.X)
################################
save_button = ttk.Button(new_window, text="Save as ...", command=save_as_excel)
save_button.pack(side=BOTTOM, expand=True)
# container.pack(padx=30, pady=15, fill="both", expand=True)
# canvas.pack(fill="both", expand=True)
def save_as_excel():
......@@ -194,15 +205,40 @@ class App(ttk.Frame):
t = tkinter.filedialog.asksaveasfile(initialfile=name, mode='w',
filetypes=[("All Files", "*.*"), ("Excel Files", "*.xlsx")],
defaultextension=".xlsx")
if t is not None: # Check if the user didn't click Cancel
file_path = t.name # Save the location of the saved file
# print(file_path)
workbook = xlsxwriter.Workbook(t.name)
# changes here for format highlight correct and incorrect
cell_format1 = workbook.add_format()
cell_format1.set_pattern(1) # This is optional when using a solid fill.
cell_format1.set_bg_color('green')
cell_format1.set_bold()
cell_format2 = workbook.add_format()
cell_format2.set_pattern(1) # This is optional when using a solid fill.
cell_format2.set_bg_color('red')
cell_format2.set_bold()
worksheet = workbook.add_worksheet()
with open(csvfile, 'rt', encoding='utf8') as f:
reader = csv.reader(f, delimiter="\t")
for r, row in enumerate(reader):
for c, col in enumerate(row):
worksheet.write(r, c, col)
if col == "correct":
worksheet.write(r, c, col, cell_format1)
elif col == "incorrect":
worksheet.write(r, c, col, cell_format2)
else:
worksheet.write(r, c, col)
workbook.close()
t.close()
os.startfile(file_path)
def start_progress():
......@@ -212,15 +248,14 @@ class App(ttk.Frame):
self.button2.config(state=DISABLED)
root.update()
# start the correct backend pipeline
if (self.combobox.get() == 'English'):
if self.combobox.get() == 'English':
showinfo(
title="Information",
message="Generating grade suggestions for English student answers. This may take a little while.")
# run English backend
english_backend()
elif (self.combobox.get() == 'German'):
elif self.combobox.get() == 'German':
showinfo(
title="Information",
message="Generating grade suggestions for German student answers. This may take a little while.")
......@@ -247,7 +282,7 @@ class App(ttk.Frame):
def set_buttons_state(event):
self.button2.config(state="normal")
# print('State changed')
if (self.combobox.get() == 'Spanish'):
if self.combobox.get() == 'Spanish':
showwarning(title="Information", message="Not available")
self.button1.config(state="disabled")
self.button2.config(state="disabled")
......@@ -256,7 +291,7 @@ class App(ttk.Frame):
self.combobox.bind('<<ComboboxSelected>>', set_buttons_state)
self.button1 = ttk.Button(self.widgets_frame, text="Start",
command=start_progress,
command=start_progress,
state=tk.DISABLED)
self.button1.grid(row=12, column=0, padx=1, pady=5, sticky="nsew")
......@@ -268,6 +303,8 @@ def resource_path(relative_path):
else:
bundle_dir = os.path.dirname(os.path.abspath(__file__))
return os.path.join(bundle_dir, relative_path)
# Override stdout and stderr with NullWriter in GUI --noconsole mode
# This allows us to avoid a bug where tqdm try to write on NoneType
# https://github.com/tqdm/tqdm/issues/794
......@@ -275,6 +312,7 @@ class NullWriter:
def write(self, data):
pass
if __name__ == "__main__":
# Override stdout and stderr with NullWriter in GUI --noconsole mode
......@@ -286,7 +324,6 @@ if __name__ == "__main__":
if sys.stderr is None:
sys.stderr = NullWriter()
root = tk.Tk()
root.title("ASYST")
......
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment