Unsere Produkte und Leistungen basieren auf wissenschaftlichen Erkenntnissen
Die Methode zur automatisierten Aufsatzbewertung wird derzeit im Rahmen eines Forschungsprojekts gemeinsam mit der Universität Zürich und der EPFL in Lausanne entwickelt. Das von Innosuisse finanziell geförderte Projekt wurde im September 2024 gestartet und läuft bis Ende August 2026.
Die im Rahmen des «Check S2» eingesetzte Methode wurde im Herbst 2024 erstmals mit Schulen pilotiert und anschliessend auf der Grundlage von Rückmeldungen aus der Praxis optimiert. Die Weiterentwicklung erfolgt kontinuierlich und wird wissenschaftlich begleitet.
Die wissenschaftlichen Analysen zeigen bereits deutlich, dass der Einsatz von Sprachmodellen die Zuverlässigkeit der menschlichen Bewertung bzw. der Punktzahl auf der vertikalen Check-Skala erheblich erhöht.
Die Texte wurden ausschliesslich in der Schweiz verarbeitet – entweder auf Microsoft-Azure-Servern mit Standort Schweiz oder auf einer gesicherten Serverinstanz der EPFL in Lausanne. Dabei wurden keine personenbezogenen Daten gespeichert. Die Verarbeitung erfolgte im Einklang mit den geltenden Datenschutzbestimmungen.
Zu Beginn wurden mehrere Softwarepakete zur automatisierten Anonymisierung evaluiert. Eingesetzt wurde schliesslich jenes System, das personenbezogene Angaben in den Texten am zuverlässigsten erkennt und entfernt. Dazu zählen insbesondere Namen von Personen, Organisationen, Orten, Telefonnummern und E-Mail-Adressen.
Das Anonymisierungsverfahren wurde speziell für die drei Sprachen Deutsch, Englisch und Französisch angepasst, da beispielsweise typische Eigennamen je nach Sprache stark variieren.
Im zweiten Schritt wurden die Texte mithilfe von GPT-4o über die Microsoft-Azure-Plattform bewertet. Grundlage bildeten standardisierte Anweisungen (Prompts), die gemeinsam mit Sprachexpertinnen und -experten entwickelt wurden. Diese waren jeweils auf die Sprache und die Textsorte des Aufsatzes abgestimmt. So wurde das Modell bei einem Brief beispielsweise explizit angewiesen zu prüfen, ob Anrede und Grussformel korrekt formuliert wurden.
Die Bewertung der Texte mithilfe von GPT-4o erfolgte anhand von acht Kriterien, die auch von den Mitarbeitenden des IBE zur Bewertung der Texte genutzt wurden. Für jedes Kriterium wurden 1 bis 4 Punkte vergeben.
In einem weiteren Schritt wurde GPT-4o angewiesen, zu jedem bewerteten Text ein verbales Feedback zu formulieren. Dieses enthält sowohl eine kurze Beurteilung als auch konkrete Verbesserungsvorschläge.
Das generierte Feedback wurde anschliessend durch eine zweite Anwendung von GPT-4o überprüft. Mithilfe eines zusätzlichen Prompts wurden unklare, wenig hilfreiche oder potenziell missverständliche Formulierungen erkannt und verbessert. Dieses Verfahren orientiert sich an der Methode des «reflektierenden Promptens»1.
Wichtig: Die Punktebewertung blieb dabei vollständig unverändert – es wurde ausschliesslich das verbale Feedback überarbeitet.
Sprachexpertinnen und -experten begleiteten den Prozess und prüften stichprobenartig, ob die Qualität der Rückmeldungen durch dieses Verfahren verbessert wurde.
Einige Texte fielen durch aussergewöhnlich fehlerfreie und stilistisch überdurchschnittlich ausgefeilte Formulierungen auf – wie sie unter Prüfungsbedingungen nur selten zu erwarten sind. Eine nachträgliche Analyse mit GPT-4o bestätigte diesen Eindruck, auch wenn Sprachmodelle keine verlässliche KI-Erkennung garantieren können2. In 209 Fällen (rund 1,2 % der insgesamt 17'081 Texte) wurde eine KI-Generierung als eher wahrscheinlich eingestuft.
Solche Fälle sind nur möglich, wenn die Vorgaben zur standardisierten Testdurchführung nicht konsequent eingehalten werden.
Wir nehmen diese Problematik sehr ernst. Deshalb wird das aktuelle Verfahren zur Durchführung des «Texte Schreiben» im Rahmen der Checks überprüft. Für kommende Durchführungen werden gezielte Anpassungen vorgenommen, um verlässliche Ergebnisse und faire Bedingungen für alle Schülerinnen und Schüler sicherzustellen.
Im Rahmen einer Pilotierung im Herbst 2024 wurde die Übereinstimmung zwischen den Bewertungen durch Sprachmodelle und durch Sprachexpertinnen und -experten systematisch überprüft. Als Richtwert gilt: Zwei menschliche Bewerterinnen oder Bewerter sollten idealerweise eine Korrelation von r = 0.80 oder höher erreichen. Dieses Ziel wurde auch für die Übereinstimmung zwischen Mensch und Sprachmodell angestrebt. Im Durchschnitt lag die Korrelation (Pearson) zwischen den Sprachmodellen und den Expertinnen und Experten bei r = 0.70. Wurde das Modell zuvor mit bereits bewerteten Texten feinjustiert (Fine-Tuning), konnte eine Korrelation von r ≥ 0.80 erreicht werden. Die Werte können zwischen r = –1 (vollständig negativer Zusammenhang) und r = +1 (vollständig positiver Zusammenhang) liegen.
Zur Überprüfung der Ergebnisstabilität wurden ausgewählte Texte aus der Piloterhebung im Herbst 2024 im Februar 2025 erneut zweimal durch GPT-4o bewertet. Dabei wurden zwei Arten von Übereinstimmung untersucht:
In beiden Fällen ist ein Wert von r ≥ 0.70 wünschenswert. Modellkonsistenz wie auch Retest-Reliabilität lagen bei r ≥ 0.95. Eine vollständige Übereinstimmung wäre mit Open-Source-Modellen wie Llama 3.3 (70B) auf einer eigenen Instanz möglich. Der Einsatz solcher Modelle ist für die kommenden Monate vorgesehen.
Die Gesamtwerte auf der vertikalen Skala von 0 bis 1200 Punkten, die sich aus der Bewertung durch die Sprachmodelle ergaben, wurden mit jenen der Sprachexpertinnen und -experten des IBE verglichen.
Zur Bestimmung des Unterschieds wurde die Differenz zwischen den Mittelwerten berechnet und durch die Quadratwurzel des Mittelwerts der beiden Streuungen geteilt (Cohen’s d) 3. Ein positiver Wert zeigt an, dass das Sprachmodell im Durchschnitt höhere Bewertungen vergeben hat als die menschlichen Fachpersonen. Ein Unterschied von d < 0.15 gilt als unproblematisch. Der beobachtete Wert lag bei d = 0.02 – und damit deutlich unterhalb der Schwelle.
Zur weiteren Absicherung der Bewertungszuverlässigkeit wurde die Intraklassenkorrelation (ICC) berechnet. Sie misst die Konsistenz der Bewertungen innerhalb einer Gruppe – also z. B. innerhalb der Sprachmodelle oder innerhalb der menschlichen Beurteilungen.
Im Fokus stand hier die Übereinstimmung innerhalb der Gruppe der Bewertungen durch Sprachmodelle bzw. durch Menschen – über verschiedene Texte, Sprachen und Themen hinweg. Die ICC-Werte für alle acht Bewertungskriterien betragen durchgehend r ≥ 0.80 – ein sehr guter Wert, der auf eine hohe interne Zuverlässigkeit hinweist.
Die sprachliche Rückmeldung zu den Texten – bestehend aus einer Beurteilung und konkreten Verbesserungsvorschlägen – wurde durch GPT-4o generiert.
Aufgrund der grossen Anzahl an Texten war es dem Bewertungsteam nicht möglich, sämtliche Rückmeldungen manuell zu überprüfen. In Einzelfällen kann es daher zu sprachlichen Unstimmigkeiten oder sachlichen Fehlern im Feedback kommen.
Gemeinsam mit der Universität Zürich und der EPFL Lausanne arbeiten wir kontinuierlich an der Weiterentwicklung und Qualitätsverbesserung. Ziel ist es, bereits im Sommer 2025 eine deutlich optimierte Version des verbalen Feedbacks einsetzen zu können.
Im Rahmen des Entwicklungsprozesses wurden bisher verschiedene aktuelle Sprachmodelle eingesetzt: BERT (Google), Gemini 2.0 (Google), GPT-4o (OpenAI), Llama 3.1 und 3.3 (Meta) sowie DeepSeek-R1-Distill-Llama.
Insgesamt erzielte GPT-4o die besten Ergebnisse. Die Modelle Llama 3.3 und DeepSeek zeigten bei der Punktbewertung vergleichbare Leistungen, für das sprachliche Feedback war GPT-4o jedoch klar überlegen.
Ein gezieltes Fine-Tuning der Sprachmodelle führt nachweislich zu signifikant besseren Ergebnissen – sowohl bei der Punktebewertung als auch beim sprachlichen Feedback.
Im Rahmen des «Check S2» konnte das eigens trainierte GPT-4o-Modell jedoch nicht eingesetzt werden, da Microsoft Azure nicht garantieren konnte, dass das feinjustierte Modell ausschliesslich über Rechenzentren in der Schweiz betrieben wird.
Derzeit wird daher mit Open-Source-Modellen gearbeitet, die lokal betrieben werden können und in ersten Tests vergleichbare Leistungen zu GPT-4o erzielen.
Die Methode wird bis zum Einsatz im Rahmen des Check S3 gezielt weiterentwickelt – insbesondere im Hinblick auf die Qualität des verbalen Feedbacks, die Robustheit der Bewertungen bei unterschiedlichen Textsorten sowie die Integration zusätzlicher, differenzierter Verbesserungsvorschläge.
Ab August 2025 steht die automatische Aufsatzbewertung zudem als Funktion innerhalb von Mindsteps zur Verfügung. Damit können Schulen die Technologie auch ausserhalb der standardisierten Checks nutzen.
1 Vgl. Fengyuan Liu, Nouar AlDahoul, Gregory Eady, Yasir Zaki, Talal Rahwan (2025). Self-Reflection Makes Large Language Models Safer, Less Biased, and Ideologically Neutral.
2 Vgl. Jiazhou Ji, Jie Guo, Weidong Qiu, Zheng Huang, Yang Xu, Xinru Lu, Xiaoyu Jiang, Ruizhe Li, Shujun Li (2025). "I know myself better, but not really greatly": Using LLMs to Detect and Explain LLM-Generated Texts.
3 Vgl. Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155 – 159.
Unterricht ist dann erfolgreich, wenn Lehrpersonen das Lernen «mit den Augen der Schülerinnen und Schüler» betrachten. Sie sind daran interessiert, Rückmeldungen über die Wirkung ihres didaktischen Handelns einzuholen und den Lernenden Rückmeldungen zu ihrem Fortschritt zu geben. Lehrpersonen wissen, welche Wirkung sie haben – Schülerinnen und Schüler wissen, wie Erfolg aussieht.
Inspiriert durch die Forschung des renommierten Bildungsforschers John Hattie, der in seinem Werk «Visible Learning» die Ergebnisse von über 800 Metaanalysen zu wirksamem Lernen zusammengefasst hat, haben wir Check-Dein-Wissen.ch und Mindsteps.ch entwickelt. Hattie hebt hervor, wie entscheidend es für den Lernerfolg ist, dass Lehrkräfte.
Diese Prinzipien des sichtbaren Lernens bilden das Fundament unserer Softwareprodukte. Unsere Instrumente ermöglichen nicht nur unabhängige Standortbestimmungen, sondern auch kontinuierliche Rückmeldungen zum Lernfortschritt – Schülerinnen und Schüler sollen wissen, wie Erfolg aussieht. Ausserdem erleichtern sie Lehrpersonen die Überprüfung der Lehrplanziele und machen die Lernentwicklung über die gesamte Schulzeit hinweg sichtbar.
Hattie, John A. C. (2009). Visible Learning: A synthesis of over 800 meta-analyses relating on achievement. London & New York: Routledge.
Tomasik, M. J., Berger, S., & Moser, U. (2018). On the development of a computer-based tool for formative student assessment: Epistemological, methodological, and practical issues. Frontiers in Psychology, 9, 2245. doi: 10.3389/fpsyg.2018.02245
Unser Aufgabenpool bildet die Grundlage, um Lernprozesse durch gezieltes Feedback messbar und sichtbar zu machen. Die Aufgaben sind in einer sogenannten Item-Bank systematisch nach inhaltlichen Metadaten und Schwierigkeitsgraden organisiert. Sie können entsprechend den individuellen Bedürfnissen und Fähigkeiten der Schülerinnen und Schüler abgerufen werden, was ein klares und zielgerichtetes Feedback ermöglicht.
Herzstück unserer Bemühungen, Lernen durch Feedback sichtbar zu machen, sind sorgfältig konzipierte Aufgaben, die Lernende selbständig lösen können. In Zusammenarbeit mit der Pädagogischen Hochschule der Fachhochschule Nordwestschweiz haben wir für Check-Dein-Wissen und Mindsteps einen Pool mit über 60’000 Aufgaben aus den Fachbereichen Deutsch, Englisch, Französisch, Mathematik sowie Natur und Technik entwickelt. Alle Aufgaben sind als Elemente in einer digitalen Sammlung abgelegt, einer sogenannten Item-Bank
Während früher für Aufgaben auf Papier eingesetzt wurden, können heutzutage Aufgaben in einer digitalen Item-Bank abgelegt werden, die so umfangreich ist, dass sich das Wissen und Können in unterschiedlichen Domänen und auf verschiedenen Klassenstufen in Form von Aufgaben über eine sehr grosse Zeitspanne, beispielsweise über die gesamte obligatorische Schulzeit hinweg, abbilden lassen. Die Aufgaben werden mit didaktisch relevanten Metadaten zum Inhalt, zu den kognitiven Anforderungen und zur Schwierigkeit verknüpft. Diese Metadaten dienen dazu, den Schülerinnen und Schülern Aufgaben zuzuweisen, die ihren Fähigkeiten entsprechen, und Rückmeldungen zum Lernstand und zum Lernfortschritt zu generieren, die sich mit Bezug zum kumulativen Aufbau von Wissen und Können interpretieren lassen.
Unsere Item-Bank deckt in den genannten Fachbereichen die meisten vom Lehrplan 21 geforderten Kompetenzen und Lernziele ab – von der dritten Klasse der Primarstufe bis zur dritten Klasse der Sekundarstufe I. Die Aufgaben variieren in ihrem Schwierigkeitsgrad und können so das gesamte Leistungsspektrum der Schülerinnen und Schüler abbilden. Ein besonderes Merkmal unserer Item-Bank ist die Kalibrierung der Aufgaben: Jede einzelne ist einer spezifischen Kompetenz gemäss Lehrplan 21 zugeordnet und mit einem Schwierigkeitsparameter versehen. Diese Metadaten ermöglichen es, jede Aufgabe präzise auf einer vertikalen Skala zu verorten, die von 0 bis 1200 Punkte reicht und alle Aufgaben respektive Lerninhalte von der dritten Primarklasse bis und mit Sekundarstufe I abbildet.
Berger, S. (2019). Implementation and validation of an item response theory scale for formative assessment. Enschede: University of Twente. doi: 10.3990/1.9789036547932
Berger, S., Verschoor, A. J., Eggen, Theo J. H. M., & Moser, U. (2019a). Development and validation of a vertical scale for formative assessment in mathematics. Frontiers in Education, 4, 103. doi: 10.3389/feduc.2019.00103
Unsere innovative Bewertungsmethode verwendet eine einheitliche, vertikale Skala, um Ergebnisrückmeldungen und Lernfortschritte von der Primarschule bis zur Berufsbildung darzustellen. Durch die systematische, empirische Zuordnung aller Aufgaben und Rückmeldungen auf diese Skala schaffen wir nicht nur einen konstanten Massstab für die Beurteilung, sondern ermöglichen auch eine präzise Interpretation der Ergebnisrückmeldungen und Lernfortschritte entsprechend den festgelegten Lernzielen und Kompetenzen des Lehrplans 21.
Auf der gleichen Skala weisen Check-Dein-Wissen und Mindsteps die Ergebnisrückmeldungen der Lernenden aus. Die Übertragung sowohl von Aufgaben als auch von Lernergebnissen auf eine einheitliche Skala ermöglicht eine direkte Interpretation der Ergebnisse im Kontext von Aufgaben und Lernzielen. Das heisst: Jeder Punktwert zwischen 0 und 1200 wird durch Aufgabenbeispiele repräsentiert, die für eine spezifische Kompetenz im Lehrplan 21 stehen. So wird sicht- und vor allem auch messbar, was Schülerinnen und Schüler an Wissen und Können erworben haben und welche Lernziele als Nächstes anstehen.
Unsere Aufgaben erfüllen eine besonders wertvolle Feedbackfunktion, da sie detailliert Einblick in das Fachwissen der Lernenden geben, sowohl in Bezug auf die Lehrplanziele als auch den individuellen Lernfortschritt. Die konsistente Skalierung von Aufgaben und Ergebnissen ermöglicht ausserdem den Vergleich von Lernresultaten über verschiedene Tests und Aufgabenserien hinweg – unabhängig davon, welche Aufgaben gelöst wurden. So lassen sich Fortschritte und Veränderungen im Lernstand dokumentieren und analysieren, und zwar über die gesamte Schulzeit der Lernenden hinweg.
Berger, S. (2019). Implementation and validation of an item response theory scale for formative assessment. Enschede: University of Twente. doi: 10.3990/1.9789036547932
Berger, S., Verschoor, A. J., Eggen, Theo J. H. M., & Moser, U. (2019a). Development and validation of a vertical scale for formative assessment in mathematics. Frontiers in Education, 4, 103. doi: 10.3389/feduc.2019.00103
Unsere Item-Bank bildet das Fundament sowohl für unabhängige Standortbestimmungen durch adaptive Tests mit Check-Dein-Wissen als auch für die Begleitung von Schülerinnen und Schülern auf ihrem Lernweg im Unterricht mit Mindsteps. Adaptives Testen und Lernen passt sich den individuellen Lernvoraussetzungen und Fähigkeiten der Lernenden an, was Freude am Lernen fördert und wertvolles formatives Feedback ermöglicht.
Damit die Aufgaben weder zu schwierig noch zu einfach sind, steuert ein Algorithmus die Auswahl der Aufgaben – und zwar basierend auf dem Lösungsverhalten der Schülerinnen und Schüler. Der Algorithmus berechnet auf dieser Grundlage fortwährend den Wissensstand der Lernenden und wählt die nächste Aufgabe jeweils so aus, dass sie optimal auf die Fähigkeiten der Schülerin oder des Schülers abgestimmt ist. Dies wirkt sich positiv auf deren Motivation aus und verhindert Langeweile, Frust und Überforderung.
Bei Check-Dein-Wissen setzten wir modernste adaptive Tests ein, die eine faire und unabhängige Standortbestimmung ermöglichen. Im Gegensatz zu herkömmlichen adaptiven Tests, in denen der Algorithmus auf jede gelöste Aufgabe eine weitere vorschlägt, arbeitet der Algorithmus in unseren adaptiven Multistage-Tests so, dass er gleich ganze Aufgabengruppen mit passendem Schwierigkeitsgrad wählt. Dieses Verfahren stellt sicher, dass alle Schülerinnen und Schüler dieselbe Anzahl Aufgaben in der gleichen Zeit bearbeiten und bietet darüber hinaus die Möglichkeit, Aufgaben innerhalb einer Aufgabengruppe zu überspringen oder zu überarbeiten. Zudem werden inhaltlich zusammenhängende Aufgaben, wie beispielsweise mehrere Fragen zu einem längeren Lesetext, gemeinsam präsentiert. Die Aufgabengruppen sind so zusammengestellt, dass sie bezüglich des Lehrplans und des Aufgabenformats übereinstimmen. Multistage-Tests gewährleisten durch gleiche Durchführungsbedingungen und identische Testinhalte eine hohe Fairness. Dies garantiert wichtige psychometrische Gütekriterien wie Validität, Reliabilität und Objektivität.
Mindsteps setzt ebenfalls adaptive Algorithmen für das Lernen ein. Darüber hinaus haben Lehrpersonen sowie Schülerinnen und Schüler die Möglichkeit, Aufgaben nach individuellen Bedürfnissen auszuwählen, also Schwierigkeitsgrad und Inhalte zu variieren. Lehrpersonen können die Aufgabenserien auf drei verschiedene Arten einsetzen: als personalisiertes Feedback zum Lernfortschritt der Schülerinnen und Schüler, als Lernkontrolle zu einem Unterrichtsthema sowie zur Erstellung von Kompetenzprofilen, anhand derer Lehrpersonen sicherstellen können, dass die Lehrplanziele erreicht wurden. Derweil können Schülerinnen und Schüler durch massgeschneiderte Aufgabenserien ihren Fortschritt überprüfen und feststellen, welche Inhalte sie sicher beherrschen oder noch vertiefen müssen und was als Nächstes ansteht.
Berger, S., Verschoor, A. J., Eggen, Theo J. H. M., & Moser, U. (2019b). Efficiency of targeted multistage calibration designs under practical constraints: A simulation study. Journal of Educational Measurement, 56 (1), 121–146. doi: 10.1111/jedm.12203
Berger, S., Verschoor, A. J., Eggen, Theo J. H. M., & Moser, U. (2019c). Improvement of measurement efficiency in multistage tests by targeted assignment. Frontiers in Education, 4, 1. doi: 10.3389/feduc.2019.00001
Unsere Methodik nutzt die Item-Response-Theory (IRT), eine mathematische Theorie, die die Beziehung zwischen dem Antwortverhalten einer Person, der Schwierigkeit einer Aufgabe und der Fähigkeit der Person beschreibt. Das Rasch-Modell, das einfachste Modell innerhalb der IRT, modelliert die Wahrscheinlichkeit einer korrekten Antwort als Funktion der Personenfähigkeit und der Aufgabenschwierigkeit. Die IRT wird eingesetzt, um sowohl die Schwierigkeiten der Aufgaben als auch die Fähigkeiten der Schülerinnen und Schüler zu bestimmen. Zudem sind die Modelle der IRT essenziell für das adaptive Testen und die Visualisierung des Lernfortschritts auf einer vertikalen Skala.
Die Item-Response-Theory erfüllt aus unserer Sicht zwei entscheidende Funktionen: Erstens ermöglicht sie die Verortung aller Aufgaben auf der vertikalen Skala – jede Aufgabe in unserer Item-Bank wird kalibriert und erhält einen stichprobenunabhängigen Schwierigkeitsparameter. Neue Aufgaben können problemlos integriert und ihr Schwierigkeitsgrad im Vergleich zur Erfolgsquote bereits kalibrierter Aufgaben ermittelt werden. Zweitens dienen die Modelle der IRT und die kalibrierten Aufgaben dem Algorithmus beim Durchlauf eines adaptiven Tests als Grundlage zur Schätzung der Fähigkeiten der Lernenden.
Die IRT bietet verfügt über Eigenschaften, die für die Umsetzung des Prinzips sichtbaren Lernens und das zugehörige Feedback entscheidend sind. Ein zentrales Merkmal ist die spezifische Objektivität. Sie gewährleistet eine Einschätzung der Fähigkeit der Schülerin oder des Schülers über die gelösten Aufgaben hinaus. Konkret bedeutet dies: Selbst wenn ein Test nur eine begrenzte Anzahl von Aufgaben beinhaltet, widerspiegelt die daraus resultierende Fähigkeitseinschätzung nicht nur die Fähigkeit der Lernenden zur Lösung dieser spezifischen Aufgaben, sondern auch ihre Fähigkeit, ähnliche Aufgaben zu bewältigen. Diese Eigenschaft ist insbesondere für das adaptive Testen unerlässlich, da ein Algorithmus die Aufgabenauswahl fortlaufend an die individuellen Fähigkeiten der Person anpasst. Adaptive Testalgorithmen schätzen wie gesagt kontinuierlich die Fähigkeit der Person ein und wählen darauf abgestimmt Aufgaben aus, die deren aktuellen Fähigkeiten entsprechen und somit für ein zuverlässiges Ergebnis besonders geeignet sind. Die spezifische Objektivität der IRT garantiert zuletzt auch, dass das Feedback nicht davon abhängt, welche spezifischen Aufgaben eine Person bearbeitet hat. So wird ein direkter Vergleich verschiedener Feedbacks möglich, auch wenn unterschiedliche Aufgaben bearbeitet wurden.
Durch den konsequenten Einsatz der Item-Response-Theory (IRT) bei der Kalibrierung der Aufgaben und der Schätzung der Schülerfähigkeiten gewährleisten wir einen konstanten Beurteilungsmassstab. Über die Zeit verbessern sich die Fähigkeiten der Lernenden, und der adaptive Algorithmus passt die Aufgaben entsprechend an, indem anspruchsvollere Aufgaben gestellt werden. Trotz dieser Anpassungen bleibt das Feedback konsistent, da es auf einer konstanten Skala basiert und nicht von einzelnen Tests oder Aufgabenserien abhängig ist. Diese Standardisierung der Metrik ist essentiell, um Lernfortschritte verlässlich nachzuweisen und zu dokumentieren. Durch diese Methode ist es möglich, Feedback aus verschiedenen Phasen der Schulzeit direkt miteinander zu vergleichen, was eine kontinuierliche und vergleichbare Messung des Lernfortschritts ermöglicht und ein entscheidender Vorteil unserer pädagogischen Instrumente Check-Dein-Wissen.ch und Mindsteps.ch ist.
Die IRT bildet auch die Grundlage für die Berechnung der Ergebnisse beziehungsweise des Feedbacks. Je nach Anwendungsbereich – ob Multistage-Tests oder adaptives Lernen mit Aufgabenserien – kommen zwar unterschiedliche Modelle der IRT zur Anwendung. Das Grundprinzip lässt sich aber am einfachen Rasch-Modell erklären: Die Wahrscheinlichkeit einer richtigen Lösung auf eine Aufgabe wird wie gesagt als Funktion der Fähigkeit der Person und der Schwierigkeit der Aufgabe beschrieben. Die Skala ist so konstruiert, dass bei einer Entsprechung von Schwierigkeit und Fähigkeit die Erfolgswahrscheinlichkeit 50 Prozent beträgt. Da die Schwierigkeiten der Aufgaben unserer Item-Bank bekannt sind, lässt sich nach dem Lösen der Aufgabe (richtig oder falsch) die Fähigkeit einfach bestimmen. Theoretisch reicht die Skala von -¥ bis +¥. Eine solche logistische Skala wäre allerdings nicht lesefreundlich, weshalb wir sie in eine Skala von 0 bis 1200 Punkte transformiert haben.
Die Beziehung zwischen Lösungswahrscheinlichkeit, Fähigkeit der Person und Schwierigkeit der Aufgabe ist für die Rückmeldung an die Lernenden von entscheidender Bedeutung. So lässt sich das Feedback auf die Ergebnisse nämlich mit Bezug zu den Kompetenzstufen gemäss Lehrplan 21 interpretieren, die den Aufbau von Wissen und Können zusammenfassen und abbilden. Die einzelnen Aufgaben stellen also das Bindeglied zwischen Fähigkeit der Lernenden und dem kumulativen Aufbau von Fähigkeiten im Lehrplan dar – was die zugrundeliegende Theorie mit dem Namen Item-Response nicht zuletzt auch andeutet.5.7 Gewährleistung fairer und valider ErgebnisrückmeldungenDank der IRT können sowohl die Schwierigkeitsparameter der Aufgaben als auch die Fähigkeiten der Schülerinnen und Schüler präzise auf der vertikalen Skala abgebildet und interpretiert werden. Diese Skalierung stellt sicher, dass die Testergebnisse objektiv und fair sowie vergleichbar sind, unabhängig vom adaptiven Test oder von der gewählten Aufgabenserie. Dadurch können Lernfortschritte über alle Bildungsstufen hinweg zuverlässig verfolgt und dargestellt werden.
Berger, S. & Moser, U. (2020). Adaptives Lernen und Testen. Journal für LehrerInnenbildung, 20(1), 42-53.
Helbling, L. A. & Tomasik, M. J., & Moser, U. (2019). Long-term trajectories of academic performance in the context of social disparities: Longitudinal findings from Switzerland. Journal of Educational Psychology. 10.1037/edu0000341
Verschoor, A. V., Berger, S., Moser, U., & Kleintjes, F. (2019). On-the-fly calibration in computerized adaptive testing. In B. Veldkamp & C. Sluijter (Eds.), Theoretical and practical advances in computer-based educational measurement (pp. 307-323). Cham, CH: Springer Open. doi: 10.1007/978-3-030-18480-3_16
Unsere Plattformen Check-Dein-Wissen und Mindsteps machen das Lernen durch innovative Methoden sichtbar. Sie nutzen systematisch kategorisierte Aufgaben aus einer umfangreichen Item-Bank und setzen fortschrittliche Algorithmen für adaptives Testen und Lernen ein. Dank der Anwendung der Item-Response-Theorie generieren sie detaillierte Rückmeldungen entlang einer vertikalen Skala, die von der Primarschule bis zur Berufsbildung reicht. Trotz nahezu gleicher Methodik unterscheiden sich die beiden Plattformen grundlegend in ihren Nutzungsmöglichkeiten: Während Check-Dein-Wissen standardisierte, unabhängige Standortbestimmungen bietet, fördert Mindsteps kontinuierliches, personalisiertes Lernen im Unterricht.
Unsere Onlinetests auf Check-Dein-Wissen.ch sind standardisiert, um faire und zuverlässige Standortbestimmungen zu gewährleisten. Die Testergebnisse werden als Punktzahl zwischen 0 und 1200 ausgewiesen und können auf unterschiedliche Art und Weise interpretiert werden:
Alle Ergebnisse sind sowohl für die einzelnen Schülerinnen und Schüler als auch auf Klassen- und Schulebene verfügbar.
Mindsteps.ch bietet Aufgabenserien an, die im Unterricht oder für das Lernen zu Hause genutzt werden. Die Ergebnisse werden je nach Anwendung wie folgt zurückgemeldet:
Ergebnisse für Lernfortschritt, Kompetenzprofil und Lernkontrolle sind sowohl für Schülerinnen und Schüler als auch auf Klassenebene verfügbar, während die Ergebnisse von Steps ausschliesslich individuell zugänglich sind.
Bez, Sarah; Tomasik, Martin J; Merk, Samuel (2023). Data-based decision making in einer digitalen Welt: Data Literacy von Lehrpersonen als notwendige Voraussetzung. In: Scheiter, Katharina; Gogolin, Ingrid. Bildung für eine digitale Zukunft. Wiesbaden: Springer (Bücher), 339-362