Methoden

Automatische Aufsatzbewertung

Die Methode zur automatischen Aufsatzbewertung wird derzeit im Rahmen eines Forschungsprojekts gemeinsam mit der Universität Zürich und der EPFL in Lausanne entwickelt. Das von Innosuisse finanziell geförderte Projekt wurde im September 2024 gestartet und läuft bis Ende August 2026.

Datenschutz und Datensicherheit

Verarbeitung ausschliesslich in der Schweiz

Alle Texte werden auf Servern des Schweizer Cloud-Anbieters Exoscale verarbeitet. Für die automatische Bewertung wird ein Server von oriented.net genutzt – ebenfalls in der Schweiz.

Keine Weitergabe oder Auslandübermittlung

Die Texte werden nicht ins Ausland übermittelt, nicht an Dritte weitergegeben und nicht für Trainings externer KI-Systeme verwendet.

Speicherung und Löschung

Schülertexte werden nach der Bewertung automatisch gelöscht (auf den Servern von oriented.net). Nur vollständig anonymisierte Texte können zur Qualitätsentwicklung verwendet werden.

Diese Massnahmen stellen sicher, dass die automatische Aufsatzbewertung den hohen Anforderungen an Datenschutz und Datensicherheit im Schweizer Bildungswesen entspricht.

‍



Punktebewertung

Klassenstufenbezogene Bewertung

Die KI bewertet die Aufsätze auf einer vierstufigen Skala von 1 bis 4 Punkten. Die Punktvergabe erfolgt klassenstufenbezogen, das heisst: die Punktzahl in einer Klassenstufe kann nur mit Punktzahlen der gleichen Klassenstufe verglichen werden.

Entwicklung auf Basis menschlicher Bewertungen

Für die Entwicklung der kassenstufenbezogenen Bewertung wurden zwei verschiedene Datensätze der Primarstufe und der Sekundarstufe I verwendet.

Texte der Primarstufe (3.–6. Klasse)

Grundlage der Bewertung in der Primarstufe ist eine repräsentative Stichprobe von rund 2'000 Aufsätzen in Deutsch, die 2013 von Sprachexpertinnen und -experten im Rahmen der Entwicklung einer vertikalen Skala bewertet wurden. Diese Skala ermöglicht eine vergleichende, jahrgangsübergreifende Einschätzung der Schreibkompetenz – unabhängig von der Klassenstufe.

Sekundarstufe I (7.–9. Klasse)

Für die Sekundarstufe wurde 2024 eine umfassende Pilotstudie zur hybriden Bewertung durchgeführt. Dabei wurden folgende Aufsatzmengen doppelt – von Sprachexpertinnen und -experten und von Sprachmodellen (Large Language Models) – bewertet.

Deutsch: 2’598
Englisch: 987
Französisch: 821

Zudem flossen rund 6'000 zusätzlich vorliegende Texte (Deutsch und Englisch) ein, die im Rahmen der Checks S2 und S3 hybrid beurteilt worden waren.

Vertikale Skala und Kompetenzstufen

Basierend auf diesen Daten wurde eine vertikale Skala über die gesamte Spanne von der 3. Primarstufe bis zur 3. Sekundarstufe modelliert. Diese berücksichtigt den erwartbaren Kompetenzzuwachs in allen acht Bewertungskriterien (z. B. Inhalt, Textzusammenhang, Grammatik, Rechtschreibung, Stil).

Zur Konkretisierung wurden mit Hilfe von Sprachmodellen für jedes der acht Kriterien sechs Kompetenzstufen definiert, welche den typischen Lernfortschritt beschreiben. Sämtliche Aufsätze wurden in den acht Kriterien einer Kompetenzstufen zugeordnet – so lässt sich der individuelle Fortschritt präzise und jahrgangsübergreifend darstellen.

Lernverlauf über die Schuljahre

Die modellierte Skala zeigt, dass der Lernzuwachs in der Primarstufe stärker ausfällt als gegen Ende der Sekundarstufe. So steigt etwa die erwartete Punktzahl pro Kriterium pro Schuljahr in der Primarstufe um rund einen Punkt an – mit abnehmender Steigung im Verlauf der Sekundarstufe.

Transformation auf die 4-Punkte-Skala

Für eine klassenstufenbezogene Rückmeldung wird vertikale Skala mit 6 Punkten pro Klassenstufe auf die 4-Punkte-Skala transformiert. Das bedeutet: Innerhalb jeder Klassenstufe sind Punktwerte von 1 bis 4 möglich.

Automatische Bewertung mit KI

Für die automatische Bewertung kommt ein feinabgestimmtes Sprachmodell (LLM) von Mistral zum Einsatz, das auf Basis der oben beschriebenen Daten per Full Finetuning trainiert wurde. Die KI ordnet jedem Text für jedes der acht Kriterien einen Punktwert (1–4) zu – auf der Basis der vertikalen Skala und der klassenstufenbezogenen Transformation.



Verbales Feedback und Verbesserungsvorschläge

Rückmeldung für den Lernprozess
Zusätzlich zur Punktebewertung erhalten die Schülerinnen und Schüler ein verbal formuliertes Feedback in vier Bereichen:

Inhalt
Textzusammenhang
Sprachrichtigkeit
Stil

Die Rückmeldungen sind altersgerecht formuliert, auf eine angemessene Länge reduziert und sollen die Lernenden gezielt bei der Weiterentwicklung ihrer Schreibkompetenz unterstützen.

Generierung von Feedbacktexten

Die Entwicklung von verbalen Feedbacks und Verbesserungsvorschlägen erfolgte in mehreren Schritten:

Erstellung idealer Feedbacks (Human-in-the-Loop)
Sprachexpertinnen und -experten formulierten zunächst eine Reihe von idealen Rückmeldungen für unterschiedliche Punktwerte, Klassenstufen und Textqualitäten. Dabei wurde gezielt auf pädagogische Qualität, sprachliche Korrektheit und altersgerechte Formulierungen geachtet.
Massengenerierung via Few-shot Prompting
Diese idealen Feedbacks dienten als Beispiele für das Few-shot Prompting. Mit dieser Methode wurden mithilfe von Sprachmodellen (LLMs) tausende zusätzliche Rückmeldungen für vorhandene Texte aus der Primarstufe und Sekundarstufe I generiert.
Qualitätssicherung in mehreren Runden
Die generierten Rückmeldungen wurden von Sprachexpertinnen und -experten sorgfältig überprüft und sprachlich korrigiert. In mehreren Feedbackschlaufen wurden sowohl die Prompts als auch die Ausgabequalität verbessert. Dabei kam zusätzlich LanguageTool zum Einsatz, um Fehlerquellen systematisch zu erkennen und zu minimieren – insbesondere bei Grammatik, Zeichensetzung und Rechtschreibung.
Erstellung eines validierten Trainingsdatensatzes
Nach mehreren Iterationen entstand ein qualitativ hochwertiger Datensatz, der vollständig fehlerbereinigt und didaktisch geprüft war. Dieser Datensatz diente als Grundlage für das Finetuning des Sprachmodells.

Automatische Generierung mit feinabgestimmtem Sprachmodell

Für die finale Rückmeldung wird ein feinabgestimmtes LLaMA-Sprachmodell eingesetzt, das auf den überarbeiteten Rückmeldedaten trainiert wurde, sowie das LaguageTool. Die Modelle können zuverlässig verbale Rückmeldungen in den vier Dimensionen erzeugen – differenziert nach Textqualität, Altersstufe und Bewertungskriterium.

‍



Qualitätssicherung und Evaluation

Kombination aus menschlicher Expertise und systematischer Prüfung

Die automatische Aufsatzbewertung wird laufend überprüft und weiterentwickelt, um eine möglichst hohe Übereinstimmung mit menschlichen Beurteilungen zu gewährleisten. Dabei kommen drei zentrale Verfahren zum Einsatz:

Abgleich mit menschlicher Bewertung (Hybridverfahren)
Die Qualität der automatischen Bewertung wird regelmässig anhand des Vergleichs von KI- mit menschlichen Bewertungen überprüft. Im Rahmen der Entwicklung wurden bisher mehr als 8'000 Aufsätze sowohl von KI als auch von Fachpersonen bewertet – in Deutsch, Englisch und Französisch.
Diese Daten bilden die Grundlage für ...
- statistische Analysen zur Übereinstimmung von KI- und menschlicher Bewertung
- den Nachweis der Zuverlässigkeit und Fairness der KI-Bewertung
- die Optimierung von Bewertungsmodellen anhand systematischer Abweichungsanalysen
Fairness-Prüfung und Bias-Erkennung
Wir legen grossen Wert auf eine faire Bewertung aller Schülerinnen und Schüler – unabhängig von Geschlecht, Herkunft oder sprachlichem Niveau. Deshalb werden die Bewertungsmodelle gezielt auf mögliche systematische Verzerrungen (Bias) geprüft. Ergibt sich aus diesen Analysen ein Risiko für systematischeBenachteiligung, werden die Trainingsdaten oder die Bewertungslogik angepasst.
Dabei analysieren wir:
- Verteilung von Punktwerten nach relevanten Gruppen (Differential Item Functioning)
- Abweichung zwischen KI und menschlicher Bewertung innerhalb relevanter Gruppen
- Repräsentativität des Trainingsdatensatzes hinsichtlich Textlänge, Sprache, Klassenstufe, etc.
Transparenz
Alle neuen Nutzungsdaten (z. B. Texte, Bewertungen, Bewertungsdiskrepanzen, Feedbacks) werden in anonymisierter Form zur Weiterentwicklung der automatischen Aufsatzbewertung genutzt.



Hybride Aufsatzbewertung

Die Methode zur hybriden Aufsatzbewertung wird derzeit im Rahmen eines Forschungsprojekts gemeinsam mit der Universität Zürich und der EPFL in Lausanne entwickelt. Das von Innosuisse finanziell geförderte Projekt wurde im September 2024 gestartet und läuft bis Ende August 2026.

Die im Rahmen des «Check S2» eingesetzte Methode wurde im Herbst 2024 erstmals mit Schulen pilotiert und anschliessend auf der Grundlage von Rückmeldungen aus der Praxis optimiert. Die Weiterentwicklung erfolgt kontinuierlich und wird wissenschaftlich begleitet.

Die wissenschaftlichen Analysen zeigen bereits deutlich, dass der Einsatz von Sprachmodellen die Zuverlässigkeit der menschlichen Bewertung bzw. der Punktzahl auf der vertikalen Check-Skala erheblich erhöht.

Datenschutz und Datensicherheit

Verarbeitung ausschliesslich in der Schweiz

Die Texte wurden ausschliesslich in der Schweiz verarbeitet – entweder auf Microsoft-Azure-Servern mit Standort Schweiz oder auf einer gesicherten Serverinstanz der EPFL in Lausanne. Dabei wurden keine personenbezogenen Daten gespeichert. Die Verarbeitung erfolgte im Einklang mit den geltenden Datenschutzbestimmungen.

Anonymisierung der Texte

Zu Beginn wurden mehrere Softwarepakete zur automatisierten Anonymisierung evaluiert. Eingesetzt wurde schliesslich jenes System, das personenbezogene Angaben in den Texten am zuverlässigsten erkennt und entfernt. Dazu zählen insbesondere Namen von Personen, Organisationen, Orten, Telefonnummern und E-Mail-Adressen.

Das Anonymisierungsverfahren wurde speziell für die drei Sprachen Deutsch, Englisch und Französisch angepasst, da beispielsweise typische Eigennamen je nach Sprache stark variieren.



Punktebewertung

Im zweiten Schritt wurden die Texte mithilfe von GPT-4o über die Microsoft-Azure-Plattform bewertet. Grundlage bildeten standardisierte Anweisungen (Prompts), die gemeinsam mit Sprachexpertinnen und -experten entwickelt wurden. Diese waren jeweils auf die Sprache und die Textsorte des Aufsatzes abgestimmt. So wurde das Modell bei einem Brief beispielsweise explizit angewiesen zu prüfen, ob Anrede und Grussformel korrekt formuliert wurden.

Die Bewertung der Texte mithilfe von GPT-4o erfolgte anhand von acht Kriterien, die auch von den Mitarbeitenden des IBE zur Bewertung der Texte genutzt wurden. Für jedes Kriterium wurden 1 bis 4 Punkte vergeben.



Verbales Feedback und Verbesserungsvorschläge

In einem weiteren Schritt wurde GPT-4o angewiesen, zu jedem bewerteten Text ein verbales Feedback zu formulieren. Dieses enthält sowohl eine kurze Beurteilung als auch konkrete Verbesserungsvorschläge.

Das generierte Feedback wurde anschliessend durch eine zweite Anwendung von GPT-4o überprüft. Mithilfe eines zusätzlichen Prompts wurden unklare, wenig hilfreiche oder potenziell missverständliche Formulierungen erkannt und verbessert. Dieses Verfahren orientiert sich an der Methode des «reflektierenden Promptens»¹.

Wichtig: Die Punktebewertung blieb dabei vollständig unverändert – es wurde ausschliesslich das verbale Feedback überarbeitet.

Sprachexpertinnen und -experten begleiteten den Prozess und prüften stichprobenartig, ob die Qualität der Rückmeldungen durch dieses Verfahren verbessert wurde.



Qualitätssicherung und Evaluation

Inter-Rater-Reliabilität

Iiner Pilotierung im Herbst 2024 wurde die Übereinstimmung zwischen den Bewertungen durch Sprachmodelle und durch Sprachexpertinnen und -experten systematisch überprüft. Als Richtwert gilt: Zwei menschliche Bewerterinnen oder Bewerter sollten idealerweise eine Korrelation von r = 0.80 oder höher erreichen. Dieses Ziel wurde auch für die Übereinstimmung zwischen Mensch und Sprachmodell angestrebt. Im Durchschnitt lag die Korrelation (Pearson) zwischen den Sprachmodellen und den Expertinnen und Experten bei r = 0.70. Wurde das Modell zuvor mit bereits bewerteten Texten feinjustiert (Fine-Tuning), konnte eine Korrelation von r  ≥ 0.80 erreicht werden. Die Werte können zwischen r = –1 (vollständig negativer Zusammenhang) und r = +1 (vollständig positiver Zusammenhang) liegen.

Stabilität der Ergebnisse

Zur Überprüfung der Ergebnisstabilität wurden ausgewählte Texte aus der Piloterhebung im Herbst 2024 im Februar 2025 erneut zweimal durch GPT-4o bewertet. Dabei wurden zwei Arten von Übereinstimmung untersucht:

Die Übereinstimmung zwischen der ursprünglichen Bewertung im Herbst 2024 und der erneuten Bewertung im Februar 2025 – um mögliche Veränderungen im Modellverhalten zu erkennen (Modellkonsistenz).
Die Übereinstimmung zwischen den beiden Bewertungen im Februar 2025 – zur Messung der Retest-Reliabilität.

In beiden Fällen ist ein Wert von r ≥ 0.70 wünschenswert. Modellkonsistenz wie auch Retest-Reliabilität lagen bei r ≥ 0.95. Eine vollständige Übereinstimmung wäre mit Open-Source-Modellen wie Llama 3.3 (70B) auf einer eigenen Instanz möglich. Der Einsatz solcher Modelle ist für die kommenden Monate vorgesehen.

Differenz der Gesamtwerte

Die Gesamtwerte auf der vertikalen Skala von 0 bis 1200 Punkten, die sich aus der Bewertung durch die Sprachmodelle ergaben, wurden mit jenen der Sprachexpertinnen und -experten des IBE verglichen.

Zur Bestimmung des Unterschieds wurde die Differenz zwischen den Mittelwerten berechnet und durch die Quadratwurzel des Mittelwerts der beiden Streuungen geteilt (Cohen’s d)³. Ein positiver Wert zeigt an, dass das Sprachmodell im Durchschnitt höhere Bewertungen vergeben hat als die menschlichen Fachpersonen. Ein Unterschied von d < 0.15 gilt als unproblematisch. Der beobachtete Wert lag bei d = 0.02 – und damit deutlich unterhalb der Schwelle.

Intraklassenkorrelation

Zur weiteren Absicherung der Bewertungszuverlässigkeit wurde die Intraklassenkorrelation (ICC) berechnet. Sie misst die Konsistenz der Bewertungen innerhalb einer Gruppe – also z. B. innerhalb der Sprachmodelle oder innerhalb der menschlichen Beurteilungen.

Im Fokus stand hier die Übereinstimmung innerhalb der Gruppe der Bewertungen durch Sprachmodelle bzw. durch Menschen – über verschiedene Texte, Sprachen und Themen hinweg. Die ICC-Werte für alle acht Bewertungskriterien betragen durchgehend r  ≥ 0.80 – ein sehr guter Wert, der auf eine hohe interne Zuverlässigkeit hinweist.

Verbales Feedback

Die sprachliche Rückmeldung zu den Texten – bestehend aus einer Beurteilung und konkreten Verbesserungsvorschlägen – wurde durch GPT-4o generiert.

Aufgrund der grossen Anzahl an Texten war es dem Bewertungsteam nicht möglich, sämtliche Rückmeldungen manuell zu überprüfen. In Einzelfällen kann es daher zu sprachlichen Unstimmigkeiten oder sachlichen Fehlern im Feedback kommen.

Gemeinsam mit der Universität Zürich und der EPFL Lausanne arbeiten wir kontinuierlich an der Weiterentwicklung und Qualitätsverbesserung. Ziel ist es, bereits im Sommer 2025 eine deutlich optimierte Version des verbalen Feedbacks einsetzen zu können.

Evaluierte Sprachmodelle

Im Rahmen des Entwicklungsprozesses wurden bisher verschiedene aktuelle Sprachmodelle eingesetzt: BERT (Google), Gemini 2.0 (Google), GPT-4o (OpenAI), Llama 3.1 und 3.3 (Meta) sowie DeepSeek-R1-Distill-Llama.

Insgesamt erzielte GPT-4o die besten Ergebnisse. Die Modelle Llama 3.3 und DeepSeek zeigten bei der Punktbewertung vergleichbare Leistungen, für das sprachliche Feedback war GPT-4o jedoch klar überlegen.

Prompting versus Fine-Tuning

Ein gezieltes Fine-Tuning der Sprachmodelle führt nachweislich zu signifikant besseren Ergebnissen – sowohl bei der Punktebewertung als auch beim sprachlichen Feedback.

Im Rahmen des «Check S2» konnte das eigens trainierte GPT-4o-Modell jedoch nicht eingesetzt werden, da Microsoft Azure nicht garantieren konnte, dass das feinjustierte Modell ausschliesslich über Rechenzentren in der Schweiz betrieben wird.

Derzeit wird daher mit Open-Source-Modellen gearbeitet, die lokal betrieben werden können und in ersten Tests vergleichbare Leistungen zu GPT-4o erzielen.



Lernen sichtbar machen

Unterricht ist dann erfolgreich, wenn Lehrpersonen das Lernen «mit den Augen der Schülerinnen und Schüler» betrachten. Sie sind daran interessiert, Rückmeldungen über die Wirkung ihres didaktischen Handelns einzuholen und den Lernenden Rückmeldungen zu ihrem Fortschritt zu geben. Lehrpersonen wissen, welche Wirkung sie haben – Schülerinnen und Schüler wissen, wie Erfolg aussieht.

Inspiriert durch die Forschung des renommierten Bildungsforschers John Hattie, der in seinem Werk «Visible Learning» die Ergebnisse von über 800 Metaanalysen zu wirksamem Lernen zusammengefasst hat, haben wir Check-Dein-Wissen.ch und Mindsteps.ch entwickelt. Hattie hebt hervor, wie entscheidend es für den Lernerfolg ist, dass Lehrkräfte.

die Wirkung ihres didaktischen Handelns regelmässig überprüfen,
den Schülerinnen und Schülern klares und zielgerichtetes Feedback geben,
ihren Unterricht an die Bedürfnisse der Lernenden anpassen.

Diese Prinzipien des sichtbaren Lernens bilden das Fundament unserer Softwareprodukte. Unsere Instrumente ermöglichen nicht nur unabhängige Standortbestimmungen, sondern auch kontinuierliche Rückmeldungen zum Lernfortschritt – Schülerinnen und Schüler sollen wissen, wie Erfolg aussieht. Ausserdem erleichtern sie Lehrpersonen die Überprüfung der Lehrplanziele und machen die Lernentwicklung über die gesamte Schulzeit hinweg sichtbar.

Literatur

Hattie, John A. C. (2009). Visible Learning: A synthesis of over 800 meta-analyses relating on achievement. London & New York: Routledge.

Tomasik, M. J., Berger, S., & Moser, U. (2018). On the development of a computer-based tool for formative student assessment: Epistemological, methodological, and practical issues. Frontiers in Psychology, 9, 2245. doi: 10.3389/fpsyg.2018.02245



Aufgabenpool

Unser Aufgabenpool bildet die Grundlage, um Lernprozesse durch gezieltes Feedback messbar und sichtbar zu machen. Die Aufgaben sind in einer sogenannten Item-Bank systematisch nach inhaltlichen Metadaten und Schwierigkeitsgraden organisiert. Sie können entsprechend den individuellen Bedürfnissen und Fähigkeiten der Schülerinnen und Schüler abgerufen werden, was ein klares und zielgerichtetes Feedback ermöglicht.

Aufgabenentwicklung

Herzstück unserer Bemühungen, Lernen durch Feedback sichtbar zu machen, sind sorgfältig konzipierte Aufgaben, die Lernende selbständig lösen können. In Zusammenarbeit mit der Pädagogischen Hochschule der Fachhochschule Nordwestschweiz haben wir für Check-Dein-Wissen und Mindsteps einen Pool mit über 60’000 Aufgaben aus den Fachbereichen Deutsch, Englisch, Französisch, Mathematik sowie Natur und Technik entwickelt. Alle Aufgaben sind als Elemente in einer digitalen Sammlung abgelegt, einer sogenannten Item-Bank



Item-Bank

Während früher für Aufgaben auf Papier eingesetzt wurden, können heutzutage Aufgaben in einer digitalen Item-Bank abgelegt werden, die so umfangreich ist, dass sich das Wissen und Können in unterschiedlichen Domänen und auf verschiedenen Klassenstufen in Form von Aufgaben über eine sehr grosse Zeitspanne, beispielsweise über die gesamte obligatorische Schulzeit hinweg, abbilden lassen. Die Aufgaben werden mit didaktisch relevanten Metadaten zum Inhalt, zu den kognitiven Anforderungen und zur Schwierigkeit verknüpft. Diese Metadaten dienen dazu, den Schülerinnen und Schülern Aufgaben zuzuweisen, die ihren Fähigkeiten entsprechen, und Rückmeldungen zum Lernstand und zum Lernfortschritt zu generieren, die sich mit Bezug zum kumulativen Aufbau von Wissen und Können interpretieren lassen.



Aufgabenkalibrierung

Unsere Item-Bank deckt in den genannten Fachbereichen die meisten vom Lehrplan 21 geforderten Kompetenzen und Lernziele ab – von der dritten Klasse der Primarstufe bis zur dritten Klasse der Sekundarstufe I. Die Aufgaben variieren in ihrem Schwierigkeitsgrad und können so das gesamte Leistungsspektrum der Schülerinnen und Schüler abbilden. Ein besonderes Merkmal unserer Item-Bank ist die Kalibrierung der Aufgaben: Jede einzelne ist einer spezifischen Kompetenz gemäss Lehrplan 21 zugeordnet und mit einem Schwierigkeitsparameter versehen. Diese Metadaten ermöglichen es, jede Aufgabe präzise auf einer vertikalen Skala zu verorten, die von 0 bis 1200 Punkte reicht und alle Aufgaben respektive Lerninhalte von der dritten Primarklasse bis und mit Sekundarstufe I abbildet.



Literatur

Berger, S. (2019). Implementation and validation of an item response theory scale for formative assessment. Enschede: University of Twente. doi: 10.3990/1.9789036547932

Berger, S., Verschoor, A. J., Eggen, Theo J. H. M., & Moser, U. (2019a). Development and validation of a vertical scale for formative assessment in mathematics. Frontiers in Education, 4, 103. doi: 10.3389/feduc.2019.00103



Vertikale Skala

Unsere innovative Bewertungsmethode verwendet eine einheitliche, vertikale Skala, um Ergebnisrückmeldungen und Lernfortschritte von der Primarschule bis zur Berufsbildung darzustellen. Durch die systematische, empirische Zuordnung aller Aufgaben und Rückmeldungen auf diese Skala schaffen wir nicht nur einen konstanten Massstab für die Beurteilung, sondern ermöglichen auch eine präzise Interpretation der Ergebnisrückmeldungen und Lernfortschritte entsprechend den festgelegten Lernzielen und Kompetenzen des Lehrplans 21.

Lernfortschritt auf der vertikalen Skala verfolgen

Auf der gleichen Skala weisen Check-Dein-Wissen und Mindsteps die Ergebnisrückmeldungen der Lernenden aus. Die Übertragung sowohl von Aufgaben als auch von Lernergebnissen auf eine einheitliche Skala ermöglicht eine direkte Interpretation der Ergebnisse im Kontext von Aufgaben und Lernzielen. Das heisst: Jeder Punktwert zwischen 0 und 1200 wird durch Aufgabenbeispiele repräsentiert, die für eine spezifische Kompetenz im Lehrplan 21 stehen. So wird sicht- und vor allem auch messbar, was Schülerinnen und Schüler an Wissen und Können erworben haben und welche Lernziele als Nächstes anstehen.



Konstanter Beurteilungsmassstab

Unsere Aufgaben erfüllen eine besonders wertvolle Feedbackfunktion, da sie detailliert Einblick in das Fachwissen der Lernenden geben, sowohl in Bezug auf die Lehrplanziele als auch den individuellen Lernfortschritt. Die konsistente Skalierung von Aufgaben und Ergebnissen ermöglicht ausserdem den Vergleich von Lernresultaten über verschiedene Tests und Aufgabenserien hinweg – unabhängig davon, welche Aufgaben gelöst wurden. So lassen sich Fortschritte und Veränderungen im Lernstand dokumentieren und analysieren, und zwar über die gesamte Schulzeit der Lernenden hinweg.



Literatur

Berger, S. (2019). Implementation and validation of an item response theory scale for formative assessment. Enschede: University of Twente. doi: 10.3990/1.9789036547932



Adaptives Testen und Lernen

Unsere Item-Bank bildet das Fundament sowohl für unabhängige Standortbestimmungen durch adaptive Tests mit Check-Dein-Wissen als auch für die Begleitung von Schülerinnen und Schülern auf ihrem Lernweg im Unterricht mit Mindsteps. Adaptives Testen und Lernen passt sich den individuellen Lernvoraussetzungen und Fähigkeiten der Lernenden an, was Freude am Lernen fördert und wertvolles formatives Feedback ermöglicht.

Algorithmen für die Aufgabenauswahl

Damit die Aufgaben weder zu schwierig noch zu einfach sind, steuert ein Algorithmus die Auswahl der Aufgaben – und zwar basierend auf dem Lösungsverhalten der Schülerinnen und Schüler. Der Algorithmus berechnet auf dieser Grundlage fortwährend den Wissensstand der Lernenden und wählt die nächste Aufgabe jeweils so aus, dass sie optimal auf die Fähigkeiten der Schülerin oder des Schülers abgestimmt ist. Dies wirkt sich positiv auf deren Motivation aus und verhindert Langeweile, Frust und Überforderung.



Adaptive Multistage-Tests

Bei Check-Dein-Wissen setzten wir modernste adaptive Tests ein, die eine faire und unabhängige Standortbestimmung ermöglichen. Im Gegensatz zu herkömmlichen adaptiven Tests, in denen der Algorithmus auf jede gelöste Aufgabe eine weitere vorschlägt, arbeitet der Algorithmus in unseren adaptiven Multistage-Tests so, dass er gleich ganze Aufgabengruppen mit passendem Schwierigkeitsgrad wählt. Dieses Verfahren stellt sicher, dass alle Schülerinnen und Schüler dieselbe Anzahl Aufgaben in der gleichen Zeit bearbeiten und bietet darüber hinaus die Möglichkeit, Aufgaben innerhalb einer Aufgabengruppe zu überspringen oder zu überarbeiten. Zudem werden inhaltlich zusammenhängende Aufgaben, wie beispielsweise mehrere Fragen zu einem längeren Lesetext, gemeinsam präsentiert. Die Aufgabengruppen sind so zusammengestellt, dass sie bezüglich des Lehrplans und des Aufgabenformats übereinstimmen. Multistage-Tests gewährleisten durch gleiche Durchführungsbedingungen und identische Testinhalte eine hohe Fairness. Dies garantiert wichtige psychometrische Gütekriterien wie Validität, Reliabilität und Objektivität.



Adaptives Lernen

Mindsteps setzt ebenfalls adaptive Algorithmen für das Lernen ein. Darüber hinaus haben Lehrpersonen sowie Schülerinnen und Schüler die Möglichkeit, Aufgaben nach individuellen Bedürfnissen auszuwählen, also Schwierigkeitsgrad und Inhalte zu variieren. Lehrpersonen können die Aufgabenserien auf drei verschiedene Arten einsetzen: als personalisiertes Feedback zum Lernfortschritt der Schülerinnen und Schüler, als Lernkontrolle zu einem Unterrichtsthema sowie zur Erstellung von Kompetenzprofilen, anhand derer Lehrpersonen sicherstellen können, dass die Lehrplanziele erreicht wurden. Derweil können Schülerinnen und Schüler durch massgeschneiderte Aufgabenserien ihren Fortschritt überprüfen und feststellen, welche Inhalte sie sicher beherrschen oder noch vertiefen müssen und was als Nächstes ansteht.



Literatur

Berger, S., Verschoor, A. J., Eggen, Theo J. H. M., & Moser, U. (2019b). Efficiency of targeted multistage calibration designs under practical constraints: A simulation study. Journal of Educational Measurement, 56 (1), 121–146. doi: 10.1111/jedm.12203

Berger, S., Verschoor, A. J., Eggen, Theo J. H. M., & Moser, U. (2019c). Improvement of measurement efficiency in multistage tests by targeted assignment. Frontiers in Education, 4, 1. doi: 10.3389/feduc.2019.00001



Methodische Grundlage

Unsere Methodik nutzt die Item-Response-Theory (IRT), eine mathematische Theorie, die die Beziehung zwischen dem Antwortverhalten einer Person, der Schwierigkeit einer Aufgabe und der Fähigkeit der Person beschreibt. Das Rasch-Modell, das einfachste Modell innerhalb der IRT, modelliert die Wahrscheinlichkeit einer korrekten Antwort als Funktion der Personenfähigkeit und der Aufgabenschwierigkeit. Die IRT wird eingesetzt, um sowohl die Schwierigkeiten der Aufgaben als auch die Fähigkeiten der Schülerinnen und Schüler zu bestimmen. Zudem sind die Modelle der IRT essenziell für das adaptive Testen und die Visualisierung des Lernfortschritts auf einer vertikalen Skala.

Kalibrierung von Aufgaben und Schätzung von Fähigkeiten

Die Item-Response-Theory erfüllt aus unserer Sicht zwei entscheidende Funktionen: Erstens ermöglicht sie die Verortung aller Aufgaben auf der vertikalen Skala – jede Aufgabe in unserer Item-Bank wird kalibriert und erhält einen stichprobenunabhängigen Schwierigkeitsparameter. Neue Aufgaben können problemlos integriert und ihr Schwierigkeitsgrad im Vergleich zur Erfolgsquote bereits kalibrierter Aufgaben ermittelt werden. Zweitens dienen die Modelle der IRT und die kalibrierten Aufgaben dem Algorithmus beim Durchlauf eines adaptiven Tests als Grundlage zur Schätzung der Fähigkeiten der Lernenden.



Die Bedeutung der IRT für sichtbares Lernen und adaptives Feedback

Die IRT bietet verfügt über Eigenschaften, die für die Umsetzung des Prinzips sichtbaren Lernens und das zugehörige Feedback entscheidend sind. Ein zentrales Merkmal ist die spezifische Objektivität. Sie gewährleistet eine Einschätzung der Fähigkeit der Schülerin oder des Schülers über die gelösten Aufgaben hinaus. Konkret bedeutet dies: Selbst wenn ein Test nur eine begrenzte Anzahl von Aufgaben beinhaltet, widerspiegelt die daraus resultierende Fähigkeitseinschätzung nicht nur die Fähigkeit der Lernenden zur Lösung dieser spezifischen Aufgaben, sondern auch ihre Fähigkeit, ähnliche Aufgaben zu bewältigen. Diese Eigenschaft ist insbesondere für das adaptive Testen unerlässlich, da ein Algorithmus die Aufgabenauswahl fortlaufend an die individuellen Fähigkeiten der Person anpasst. Adaptive Testalgorithmen schätzen wie gesagt kontinuierlich die Fähigkeit der Person ein und wählen darauf abgestimmt Aufgaben aus, die deren aktuellen Fähigkeiten entsprechen und somit für ein zuverlässiges Ergebnis besonders geeignet sind. Die spezifische Objektivität der IRT garantiert zuletzt auch, dass das Feedback nicht davon abhängt, welche spezifischen Aufgaben eine Person bearbeitet hat. So wird ein direkter Vergleich verschiedener Feedbacks möglich, auch wenn unterschiedliche Aufgaben bearbeitet wurden.



Sicherung eines konstanten Beurteilungsmassstabs

Durch den konsequenten Einsatz der Item-Response-Theory (IRT) bei der Kalibrierung der Aufgaben und der Schätzung der Schülerfähigkeiten gewährleisten wir einen konstanten Beurteilungsmassstab. Über die Zeit verbessern sich die Fähigkeiten der Lernenden, und der adaptive Algorithmus passt die Aufgaben entsprechend an, indem anspruchsvollere Aufgaben gestellt werden. Trotz dieser Anpassungen bleibt das Feedback konsistent, da es auf einer konstanten Skala basiert und nicht von einzelnen Tests oder Aufgabenserien abhängig ist. Diese Standardisierung der Metrik ist essentiell, um Lernfortschritte verlässlich nachzuweisen und zu dokumentieren. Durch diese Methode ist es möglich, Feedback aus verschiedenen Phasen der Schulzeit direkt miteinander zu vergleichen, was eine kontinuierliche und vergleichbare Messung des Lernfortschritts ermöglicht und ein entscheidender Vorteil unserer pädagogischen Instrumente Check-Dein-Wissen.ch und Mindsteps.ch ist.



Standardisierte Punktzahl von 0 bis 1200

Die IRT bildet auch die Grundlage für die Berechnung der Ergebnisse beziehungsweise des Feedbacks. Je nach Anwendungsbereich – ob Multistage-Tests oder adaptives Lernen mit Aufgabenserien – kommen zwar unterschiedliche Modelle der IRT zur Anwendung. Das Grundprinzip lässt sich aber am einfachen Rasch-Modell erklären: Die Wahrscheinlichkeit einer richtigen Lösung auf eine Aufgabe wird wie gesagt als Funktion der Fähigkeit der Person und der Schwierigkeit der Aufgabe beschrieben. Die Skala ist so konstruiert, dass bei einer Entsprechung von Schwierigkeit und Fähigkeit die Erfolgswahrscheinlichkeit 50 Prozent beträgt. Da die Schwierigkeiten der Aufgaben unserer Item-Bank bekannt sind, lässt sich nach dem Lösen der Aufgabe (richtig oder falsch) die Fähigkeit einfach bestimmen. Theoretisch reicht die Skala von -¥ bis +¥. Eine solche logistische Skala wäre allerdings nicht lesefreundlich, weshalb wir sie in eine Skala von 0 bis 1200 Punkte transformiert haben.



Aufgabenbezogene Rückmeldungen und ihre Bedeutung für den Lernprozess

Die Beziehung zwischen Lösungswahrscheinlichkeit, Fähigkeit der Person und Schwierigkeit der Aufgabe ist für die Rückmeldung an die Lernenden von entscheidender Bedeutung. So lässt sich das Feedback auf die Ergebnisse nämlich mit Bezug zu den Kompetenzstufen gemäss Lehrplan 21 interpretieren, die den Aufbau von Wissen und Können zusammenfassen und abbilden. Die einzelnen Aufgaben stellen also das Bindeglied zwischen Fähigkeit der Lernenden und dem kumulativen Aufbau von Fähigkeiten im Lehrplan dar – was die zugrundeliegende Theorie mit dem Namen Item-Response nicht zuletzt auch andeutet.5.7 Gewährleistung fairer und valider ErgebnisrückmeldungenDank der IRT können sowohl die Schwierigkeitsparameter der Aufgaben als auch die Fähigkeiten der Schülerinnen und Schüler präzise auf der vertikalen Skala abgebildet und interpretiert werden. Diese Skalierung stellt sicher, dass die Testergebnisse objektiv und fair sowie vergleichbar sind, unabhängig vom adaptiven Test oder von der gewählten Aufgabenserie. Dadurch können Lernfortschritte über alle Bildungsstufen hinweg zuverlässig verfolgt und dargestellt werden.



Literatur

Berger, S. & Moser, U. (2020). Adaptives Lernen und Testen. Journal für LehrerInnenbildung, 20(1), 42-53.

Helbling, L. A. & Tomasik, M. J., & Moser, U. (2019). Long-term trajectories of academic performance in the context of social disparities: Longitudinal findings from Switzerland. Journal of Educational Psychology. 10.1037/edu0000341

Verschoor, A. V., Berger, S., Moser, U., & Kleintjes, F. (2019). On-the-fly calibration in computerized adaptive testing. In B. Veldkamp & C. Sluijter (Eds.), Theoretical and practical advances in computer-based educational measurement (pp. 307-323). Cham, CH: Springer Open. doi: 10.1007/978-3-030-18480-3_16



Nutzungsmöglichkeiten

Unsere Plattformen Check-Dein-Wissen und Mindsteps machen das Lernen durch innovative Methoden sichtbar. Sie nutzen systematisch kategorisierte Aufgaben aus einer umfangreichen Item-Bank und setzen fortschrittliche Algorithmen für adaptives Testen und Lernen ein. Dank der Anwendung der Item-Response-Theorie generieren sie detaillierte Rückmeldungen entlang einer vertikalen Skala, die von der Primarschule bis zur Berufsbildung reicht. Trotz nahezu gleicher Methodik unterscheiden sich die beiden Plattformen grundlegend in ihren Nutzungsmöglichkeiten: Während Check-Dein-Wissen standardisierte, unabhängige Standortbestimmungen bietet, fördert Mindsteps kontinuierliches, personalisiertes Lernen im Unterricht.

Unabhängige Standortbestimmungen

Unsere Onlinetests auf Check-Dein-Wissen.ch sind standardisiert, um faire und zuverlässige Standortbestimmungen zu gewährleisten. Die Testergebnisse werden als Punktzahl zwischen 0 und 1200 ausgewiesen und können auf unterschiedliche Art und Weise interpretiert werden:

Im Vergleich mit Kompetenzstufen: Weist die Fähigkeiten von Schülerinnen und Schülern im Kontext der erreichten Kompetenzstufen gemäss Lehrplan 21 aus.
Im sozialen Vergleich: Die Ergebnisse der Lernenden werden mit Ergebnissen aller Schülerinnen und Schülern der gleichen Klassenstufe verglichen.
Über die Zeit: Fortschritte werden individuell über die Schuljahre hinweg verfolgt.
Anforderungsprofile für berufliche Grundbildung: Ermöglicht einen Abgleich des Fähigkeitsprofils von Lernenden mit den schulischen Anforderungen verschiedener Berufslehren.

Alle Ergebnisse sind sowohl für die einzelnen Schülerinnen und Schüler als auch auf Klassen- und Schulebene verfügbar.



Lernen im Unterricht sichtbar machen

Mindsteps.ch bietet Aufgabenserien an, die im Unterricht oder für das Lernen zu Hause genutzt werden. Die Ergebnisse werden je nach Anwendung wie folgt zurückgemeldet:

Lernfortschritt: Die Ergebnisse werden als Punktzahl zwischen 0 und 1200 Punkten angezeigt, was Lernfortschritte sichtbar macht.
Kompetenzprofil: Die Ergebnisse werden als Kompetenzprofil ausgewiesen, das anzeigt, welche Kompetenzstufen gemäss Lehrplan 21 erreicht wurden.
Lernkontrolle: Misst den Lernerfolg durch den Prozentsatz korrekt gelöster Aufgaben.
Steps: Hier erfahren Schülerinnen und Schüler durch eine kategorisierte Rückmeldung von «eher unsicher» bis «sicher», wie sattelfest sie im jeweiligen Themenbereich sind.

Ergebnisse für Lernfortschritt, Kompetenzprofil und Lernkontrolle sind sowohl für Schülerinnen und Schüler als auch auf Klassenebene verfügbar, während die Ergebnisse von Steps ausschliesslich individuell zugänglich sind.

‍



Literatur

Bez, Sarah; Tomasik, Martin J; Merk, Samuel (2023). Data-based decision making in einer digitalen Welt: Data Literacy von Lehrpersonen als notwendige Voraussetzung. In: Scheiter, Katharina; Gogolin, Ingrid. Bildung für eine digitale Zukunft. Wiesbaden: Springer (Bücher), 339-362



Wissenschaftlich fundiert

Automatische Aufsatzbewertung

Datenschutz und Datensicherheit

Verarbeitung ausschliesslich in der Schweiz

Keine Weitergabe oder Auslandübermittlung

Speicherung und Löschung

Punktebewertung

Klassenstufenbezogene Bewertung

Entwicklung auf Basis menschlicher Bewertungen

Texte der Primarstufe (3.–6. Klasse)

Sekundarstufe I (7.–9. Klasse)

Vertikale Skala und Kompetenzstufen

Lernverlauf über die Schuljahre

Transformation auf die 4-Punkte-Skala

Automatische Bewertung mit KI

Verbales Feedback und Verbesserungsvorschläge

Generierung von Feedbacktexten

Automatische Generierung mit feinabgestimmtem Sprachmodell

Qualitätssicherung und Evaluation

Kombination aus menschlicher Expertise und systematischer Prüfung

Hybride Aufsatzbewertung

Datenschutz und Datensicherheit

Verarbeitung ausschliesslich in der Schweiz

Anonymisierung der Texte

Punktebewertung

Verbales Feedback und Verbesserungsvorschläge

Qualitätssicherung und Evaluation

Inter-Rater-Reliabilität

Stabilität der Ergebnisse

Differenz der Gesamtwerte

Intraklassenkorrelation

Verbales Feedback

Evaluierte Sprachmodelle

Prompting versus Fine-Tuning

Lernen sichtbar machen

Literatur

Aufgabenpool

Aufgabenentwicklung

Item-Bank

Aufgabenkalibrierung

Literatur

Vertikale Skala

Lernfortschritt auf der vertikalen Skala verfolgen

Konstanter Beurteilungsmassstab

Literatur

Adaptives Testen und Lernen

Algorithmen für die Aufgabenauswahl

Adaptive Multistage-Tests

Adaptives Lernen

Literatur

Methodische Grundlage

Kalibrierung von Aufgaben und Schätzung von Fähigkeiten

Die Bedeutung der IRT für sichtbares Lernen und adaptives Feedback

Sicherung eines konstanten Beurteilungsmassstabs

Standardisierte Punktzahl von 0 bis 1200

Aufgabenbezogene Rückmeldungen und ihre Bedeutung für den Lernprozess

Literatur

Nutzungsmöglichkeiten

Unabhängige Standortbestimmungen

Lernen im Unterricht sichtbar machen

Literatur

Neuste Beiträge

Automatische Aufsatzbewertung mit Echtzeitfeedback

Von der Pilotierung zur Praxis: KI-basierte Aufsatzbewertung im Check S2

Werden Sie Multiplikator/-in für Mindsteps oder Check dein Wissen!

KI-basierte Aufsatzbewertung: Ergebnisse des Pilotprojekts veröffentlicht

Gestalten Sie die Zukunft des Bildungswesens gemeinsam mit uns.

IBE

Produkte

Rechtliches