Unsere Produkte und Leistungen basieren auf wissenschaftlichen Erkenntnissen
Die Methode zur automatischen Aufsatzbewertung wird derzeit im Rahmen eines Forschungsprojekts gemeinsam mit der Universität Zürich und der EPFL in Lausanne entwickelt. Das von Innosuisse finanziell geförderte Projekt wurde im September 2024 gestartet und läuft bis Ende August 2026.
Alle Texte werden auf Servern des Schweizer Cloud-Anbieters Exoscale verarbeitet. Für die automatische Bewertung wird ein Server von oriented.net genutzt – ebenfalls in der Schweiz.
Die Texte werden nicht ins Ausland übermittelt, nicht an Dritte weitergegeben und nicht für Trainings externer KI-Systeme verwendet.
Schülertexte werden nach der Bewertung automatisch gelöscht (auf den Servern von oriented.net). Nur vollständig anonymisierte Texte können zur Qualitätsentwicklung verwendet werden.
Diese Massnahmen stellen sicher, dass die automatische Aufsatzbewertung den hohen Anforderungen an Datenschutz und Datensicherheit im Schweizer Bildungswesen entspricht.
Die KI bewertet die Aufsätze auf einer vierstufigen Skala von 1 bis 4 Punkten. Die Punktvergabe erfolgt klassenstufenbezogen, das heisst: die Punktzahl in einer Klassenstufe kann nur mit Punktzahlen der gleichen Klassenstufe verglichen werden.
Für die Entwicklung der kassenstufenbezogenen Bewertung wurden zwei verschiedene Datensätze der Primarstufe und der Sekundarstufe I verwendet.
Grundlage der Bewertung in der Primarstufe ist eine repräsentative Stichprobe von rund 2'000 Aufsätzen in Deutsch, die 2013 von Sprachexpertinnen und -experten im Rahmen der Entwicklung einer vertikalen Skala bewertet wurden. Diese Skala ermöglicht eine vergleichende, jahrgangsübergreifende Einschätzung der Schreibkompetenz – unabhängig von der Klassenstufe.
Für die Sekundarstufe wurde 2024 eine umfassende Pilotstudie zur hybriden Bewertung durchgeführt. Dabei wurden folgende Aufsatzmengen doppelt – von Sprachexpertinnen und -experten und von Sprachmodellen (Large Language Models) – bewertet.
Deutsch: 2’598
Englisch: 987
Französisch: 821
Zudem flossen rund 6'000 zusätzlich vorliegende Texte (Deutsch und Englisch) ein, die im Rahmen der Checks S2 und S3 hybrid beurteilt worden waren.
Basierend auf diesen Daten wurde eine vertikale Skala über die gesamte Spanne von der 3. Primarstufe bis zur 3. Sekundarstufe modelliert. Diese berücksichtigt den erwartbaren Kompetenzzuwachs in allen acht Bewertungskriterien (z. B. Inhalt, Textzusammenhang, Grammatik, Rechtschreibung, Stil).
Zur Konkretisierung wurden mit Hilfe von Sprachmodellen für jedes der acht Kriterien sechs Kompetenzstufen definiert, welche den typischen Lernfortschritt beschreiben. Sämtliche Aufsätze wurden in den acht Kriterien einer Kompetenzstufen zugeordnet – so lässt sich der individuelle Fortschritt präzise und jahrgangsübergreifend darstellen.
Die modellierte Skala zeigt, dass der Lernzuwachs in der Primarstufe stärker ausfällt als gegen Ende der Sekundarstufe. So steigt etwa die erwartete Punktzahl pro Kriterium pro Schuljahr in der Primarstufe um rund einen Punkt an – mit abnehmender Steigung im Verlauf der Sekundarstufe.
Für eine klassenstufenbezogene Rückmeldung wird vertikale Skala mit 6 Punkten pro Klassenstufe auf die 4-Punkte-Skala transformiert. Das bedeutet: Innerhalb jeder Klassenstufe sind Punktwerte von 1 bis 4 möglich.
Für die automatische Bewertung kommt ein feinabgestimmtes Sprachmodell (LLM) von Mistral zum Einsatz, das auf Basis der oben beschriebenen Daten per Full Finetuning trainiert wurde. Die KI ordnet jedem Text für jedes der acht Kriterien einen Punktwert (1–4) zu – auf der Basis der vertikalen Skala und der klassenstufenbezogenen Transformation.
Rückmeldung für den Lernprozess
Zusätzlich zur Punktebewertung erhalten die Schülerinnen und Schüler ein verbal formuliertes Feedback in vier Bereichen:
Die Rückmeldungen sind altersgerecht formuliert, auf eine angemessene Länge reduziert und sollen die Lernenden gezielt bei der Weiterentwicklung ihrer Schreibkompetenz unterstützen.
Die Entwicklung von verbalen Feedbacks und Verbesserungsvorschlägen erfolgte in mehreren Schritten:
Für die finale Rückmeldung wird ein feinabgestimmtes LLaMA-Sprachmodell eingesetzt, das auf den überarbeiteten Rückmeldedaten trainiert wurde, sowie das LaguageTool. Die Modelle können zuverlässig verbale Rückmeldungen in den vier Dimensionen erzeugen – differenziert nach Textqualität, Altersstufe und Bewertungskriterium.
Die automatische Aufsatzbewertung wird laufend überprüft und weiterentwickelt, um eine möglichst hohe Übereinstimmung mit menschlichen Beurteilungen zu gewährleisten. Dabei kommen drei zentrale Verfahren zum Einsatz:
Die Methode zur hybriden Aufsatzbewertung wird derzeit im Rahmen eines Forschungsprojekts gemeinsam mit der Universität Zürich und der EPFL in Lausanne entwickelt. Das von Innosuisse finanziell geförderte Projekt wurde im September 2024 gestartet und läuft bis Ende August 2026.
Die im Rahmen des «Check S2» eingesetzte Methode wurde im Herbst 2024 erstmals mit Schulen pilotiert und anschliessend auf der Grundlage von Rückmeldungen aus der Praxis optimiert. Die Weiterentwicklung erfolgt kontinuierlich und wird wissenschaftlich begleitet.
Die wissenschaftlichen Analysen zeigen bereits deutlich, dass der Einsatz von Sprachmodellen die Zuverlässigkeit der menschlichen Bewertung bzw. der Punktzahl auf der vertikalen Check-Skala erheblich erhöht.
Die Texte wurden ausschliesslich in der Schweiz verarbeitet – entweder auf Microsoft-Azure-Servern mit Standort Schweiz oder auf einer gesicherten Serverinstanz der EPFL in Lausanne. Dabei wurden keine personenbezogenen Daten gespeichert. Die Verarbeitung erfolgte im Einklang mit den geltenden Datenschutzbestimmungen.
Zu Beginn wurden mehrere Softwarepakete zur automatisierten Anonymisierung evaluiert. Eingesetzt wurde schliesslich jenes System, das personenbezogene Angaben in den Texten am zuverlässigsten erkennt und entfernt. Dazu zählen insbesondere Namen von Personen, Organisationen, Orten, Telefonnummern und E-Mail-Adressen.
Das Anonymisierungsverfahren wurde speziell für die drei Sprachen Deutsch, Englisch und Französisch angepasst, da beispielsweise typische Eigennamen je nach Sprache stark variieren.
Im zweiten Schritt wurden die Texte mithilfe von GPT-4o über die Microsoft-Azure-Plattform bewertet. Grundlage bildeten standardisierte Anweisungen (Prompts), die gemeinsam mit Sprachexpertinnen und -experten entwickelt wurden. Diese waren jeweils auf die Sprache und die Textsorte des Aufsatzes abgestimmt. So wurde das Modell bei einem Brief beispielsweise explizit angewiesen zu prüfen, ob Anrede und Grussformel korrekt formuliert wurden.
Die Bewertung der Texte mithilfe von GPT-4o erfolgte anhand von acht Kriterien, die auch von den Mitarbeitenden des IBE zur Bewertung der Texte genutzt wurden. Für jedes Kriterium wurden 1 bis 4 Punkte vergeben.
In einem weiteren Schritt wurde GPT-4o angewiesen, zu jedem bewerteten Text ein verbales Feedback zu formulieren. Dieses enthält sowohl eine kurze Beurteilung als auch konkrete Verbesserungsvorschläge.
Das generierte Feedback wurde anschliessend durch eine zweite Anwendung von GPT-4o überprüft. Mithilfe eines zusätzlichen Prompts wurden unklare, wenig hilfreiche oder potenziell missverständliche Formulierungen erkannt und verbessert. Dieses Verfahren orientiert sich an der Methode des «reflektierenden Promptens»1.
Wichtig: Die Punktebewertung blieb dabei vollständig unverändert – es wurde ausschliesslich das verbale Feedback überarbeitet.
Sprachexpertinnen und -experten begleiteten den Prozess und prüften stichprobenartig, ob die Qualität der Rückmeldungen durch dieses Verfahren verbessert wurde.
Iiner Pilotierung im Herbst 2024 wurde die Übereinstimmung zwischen den Bewertungen durch Sprachmodelle und durch Sprachexpertinnen und -experten systematisch überprüft. Als Richtwert gilt: Zwei menschliche Bewerterinnen oder Bewerter sollten idealerweise eine Korrelation von r = 0.80 oder höher erreichen. Dieses Ziel wurde auch für die Übereinstimmung zwischen Mensch und Sprachmodell angestrebt. Im Durchschnitt lag die Korrelation (Pearson) zwischen den Sprachmodellen und den Expertinnen und Experten bei r = 0.70. Wurde das Modell zuvor mit bereits bewerteten Texten feinjustiert (Fine-Tuning), konnte eine Korrelation von r ≥ 0.80 erreicht werden. Die Werte können zwischen r = –1 (vollständig negativer Zusammenhang) und r = +1 (vollständig positiver Zusammenhang) liegen.
Zur Überprüfung der Ergebnisstabilität wurden ausgewählte Texte aus der Piloterhebung im Herbst 2024 im Februar 2025 erneut zweimal durch GPT-4o bewertet. Dabei wurden zwei Arten von Übereinstimmung untersucht:
In beiden Fällen ist ein Wert von r ≥ 0.70 wünschenswert. Modellkonsistenz wie auch Retest-Reliabilität lagen bei r ≥ 0.95. Eine vollständige Übereinstimmung wäre mit Open-Source-Modellen wie Llama 3.3 (70B) auf einer eigenen Instanz möglich. Der Einsatz solcher Modelle ist für die kommenden Monate vorgesehen.
Die Gesamtwerte auf der vertikalen Skala von 0 bis 1200 Punkten, die sich aus der Bewertung durch die Sprachmodelle ergaben, wurden mit jenen der Sprachexpertinnen und -experten des IBE verglichen.
Zur Bestimmung des Unterschieds wurde die Differenz zwischen den Mittelwerten berechnet und durch die Quadratwurzel des Mittelwerts der beiden Streuungen geteilt (Cohen’s d) 3. Ein positiver Wert zeigt an, dass das Sprachmodell im Durchschnitt höhere Bewertungen vergeben hat als die menschlichen Fachpersonen. Ein Unterschied von d < 0.15 gilt als unproblematisch. Der beobachtete Wert lag bei d = 0.02 – und damit deutlich unterhalb der Schwelle.
Zur weiteren Absicherung der Bewertungszuverlässigkeit wurde die Intraklassenkorrelation (ICC) berechnet. Sie misst die Konsistenz der Bewertungen innerhalb einer Gruppe – also z. B. innerhalb der Sprachmodelle oder innerhalb der menschlichen Beurteilungen.
Im Fokus stand hier die Übereinstimmung innerhalb der Gruppe der Bewertungen durch Sprachmodelle bzw. durch Menschen – über verschiedene Texte, Sprachen und Themen hinweg. Die ICC-Werte für alle acht Bewertungskriterien betragen durchgehend r ≥ 0.80 – ein sehr guter Wert, der auf eine hohe interne Zuverlässigkeit hinweist.
Die sprachliche Rückmeldung zu den Texten – bestehend aus einer Beurteilung und konkreten Verbesserungsvorschlägen – wurde durch GPT-4o generiert.
Aufgrund der grossen Anzahl an Texten war es dem Bewertungsteam nicht möglich, sämtliche Rückmeldungen manuell zu überprüfen. In Einzelfällen kann es daher zu sprachlichen Unstimmigkeiten oder sachlichen Fehlern im Feedback kommen.
Gemeinsam mit der Universität Zürich und der EPFL Lausanne arbeiten wir kontinuierlich an der Weiterentwicklung und Qualitätsverbesserung. Ziel ist es, bereits im Sommer 2025 eine deutlich optimierte Version des verbalen Feedbacks einsetzen zu können.
Im Rahmen des Entwicklungsprozesses wurden bisher verschiedene aktuelle Sprachmodelle eingesetzt: BERT (Google), Gemini 2.0 (Google), GPT-4o (OpenAI), Llama 3.1 und 3.3 (Meta) sowie DeepSeek-R1-Distill-Llama.
Insgesamt erzielte GPT-4o die besten Ergebnisse. Die Modelle Llama 3.3 und DeepSeek zeigten bei der Punktbewertung vergleichbare Leistungen, für das sprachliche Feedback war GPT-4o jedoch klar überlegen.
Ein gezieltes Fine-Tuning der Sprachmodelle führt nachweislich zu signifikant besseren Ergebnissen – sowohl bei der Punktebewertung als auch beim sprachlichen Feedback.
Im Rahmen des «Check S2» konnte das eigens trainierte GPT-4o-Modell jedoch nicht eingesetzt werden, da Microsoft Azure nicht garantieren konnte, dass das feinjustierte Modell ausschliesslich über Rechenzentren in der Schweiz betrieben wird.
Derzeit wird daher mit Open-Source-Modellen gearbeitet, die lokal betrieben werden können und in ersten Tests vergleichbare Leistungen zu GPT-4o erzielen.
Unterricht ist dann erfolgreich, wenn Lehrpersonen das Lernen «mit den Augen der Schülerinnen und Schüler» betrachten. Sie sind daran interessiert, Rückmeldungen über die Wirkung ihres didaktischen Handelns einzuholen und den Lernenden Rückmeldungen zu ihrem Fortschritt zu geben. Lehrpersonen wissen, welche Wirkung sie haben – Schülerinnen und Schüler wissen, wie Erfolg aussieht.
Inspiriert durch die Forschung des renommierten Bildungsforschers John Hattie, der in seinem Werk «Visible Learning» die Ergebnisse von über 800 Metaanalysen zu wirksamem Lernen zusammengefasst hat, haben wir Check-Dein-Wissen.ch und Mindsteps.ch entwickelt. Hattie hebt hervor, wie entscheidend es für den Lernerfolg ist, dass Lehrkräfte.
Diese Prinzipien des sichtbaren Lernens bilden das Fundament unserer Softwareprodukte. Unsere Instrumente ermöglichen nicht nur unabhängige Standortbestimmungen, sondern auch kontinuierliche Rückmeldungen zum Lernfortschritt – Schülerinnen und Schüler sollen wissen, wie Erfolg aussieht. Ausserdem erleichtern sie Lehrpersonen die Überprüfung der Lehrplanziele und machen die Lernentwicklung über die gesamte Schulzeit hinweg sichtbar.
Hattie, John A. C. (2009). Visible Learning: A synthesis of over 800 meta-analyses relating on achievement. London & New York: Routledge.
Tomasik, M. J., Berger, S., & Moser, U. (2018). On the development of a computer-based tool for formative student assessment: Epistemological, methodological, and practical issues. Frontiers in Psychology, 9, 2245. doi: 10.3389/fpsyg.2018.02245
Unser Aufgabenpool bildet die Grundlage, um Lernprozesse durch gezieltes Feedback messbar und sichtbar zu machen. Die Aufgaben sind in einer sogenannten Item-Bank systematisch nach inhaltlichen Metadaten und Schwierigkeitsgraden organisiert. Sie können entsprechend den individuellen Bedürfnissen und Fähigkeiten der Schülerinnen und Schüler abgerufen werden, was ein klares und zielgerichtetes Feedback ermöglicht.
Herzstück unserer Bemühungen, Lernen durch Feedback sichtbar zu machen, sind sorgfältig konzipierte Aufgaben, die Lernende selbständig lösen können. In Zusammenarbeit mit der Pädagogischen Hochschule der Fachhochschule Nordwestschweiz haben wir für Check-Dein-Wissen und Mindsteps einen Pool mit über 60’000 Aufgaben aus den Fachbereichen Deutsch, Englisch, Französisch, Mathematik sowie Natur und Technik entwickelt. Alle Aufgaben sind als Elemente in einer digitalen Sammlung abgelegt, einer sogenannten Item-Bank
Während früher für Aufgaben auf Papier eingesetzt wurden, können heutzutage Aufgaben in einer digitalen Item-Bank abgelegt werden, die so umfangreich ist, dass sich das Wissen und Können in unterschiedlichen Domänen und auf verschiedenen Klassenstufen in Form von Aufgaben über eine sehr grosse Zeitspanne, beispielsweise über die gesamte obligatorische Schulzeit hinweg, abbilden lassen. Die Aufgaben werden mit didaktisch relevanten Metadaten zum Inhalt, zu den kognitiven Anforderungen und zur Schwierigkeit verknüpft. Diese Metadaten dienen dazu, den Schülerinnen und Schülern Aufgaben zuzuweisen, die ihren Fähigkeiten entsprechen, und Rückmeldungen zum Lernstand und zum Lernfortschritt zu generieren, die sich mit Bezug zum kumulativen Aufbau von Wissen und Können interpretieren lassen.
Unsere Item-Bank deckt in den genannten Fachbereichen die meisten vom Lehrplan 21 geforderten Kompetenzen und Lernziele ab – von der dritten Klasse der Primarstufe bis zur dritten Klasse der Sekundarstufe I. Die Aufgaben variieren in ihrem Schwierigkeitsgrad und können so das gesamte Leistungsspektrum der Schülerinnen und Schüler abbilden. Ein besonderes Merkmal unserer Item-Bank ist die Kalibrierung der Aufgaben: Jede einzelne ist einer spezifischen Kompetenz gemäss Lehrplan 21 zugeordnet und mit einem Schwierigkeitsparameter versehen. Diese Metadaten ermöglichen es, jede Aufgabe präzise auf einer vertikalen Skala zu verorten, die von 0 bis 1200 Punkte reicht und alle Aufgaben respektive Lerninhalte von der dritten Primarklasse bis und mit Sekundarstufe I abbildet.
Berger, S. (2019). Implementation and validation of an item response theory scale for formative assessment. Enschede: University of Twente. doi: 10.3990/1.9789036547932
Berger, S., Verschoor, A. J., Eggen, Theo J. H. M., & Moser, U. (2019a). Development and validation of a vertical scale for formative assessment in mathematics. Frontiers in Education, 4, 103. doi: 10.3389/feduc.2019.00103
Unsere innovative Bewertungsmethode verwendet eine einheitliche, vertikale Skala, um Ergebnisrückmeldungen und Lernfortschritte von der Primarschule bis zur Berufsbildung darzustellen. Durch die systematische, empirische Zuordnung aller Aufgaben und Rückmeldungen auf diese Skala schaffen wir nicht nur einen konstanten Massstab für die Beurteilung, sondern ermöglichen auch eine präzise Interpretation der Ergebnisrückmeldungen und Lernfortschritte entsprechend den festgelegten Lernzielen und Kompetenzen des Lehrplans 21.
Auf der gleichen Skala weisen Check-Dein-Wissen und Mindsteps die Ergebnisrückmeldungen der Lernenden aus. Die Übertragung sowohl von Aufgaben als auch von Lernergebnissen auf eine einheitliche Skala ermöglicht eine direkte Interpretation der Ergebnisse im Kontext von Aufgaben und Lernzielen. Das heisst: Jeder Punktwert zwischen 0 und 1200 wird durch Aufgabenbeispiele repräsentiert, die für eine spezifische Kompetenz im Lehrplan 21 stehen. So wird sicht- und vor allem auch messbar, was Schülerinnen und Schüler an Wissen und Können erworben haben und welche Lernziele als Nächstes anstehen.
Unsere Aufgaben erfüllen eine besonders wertvolle Feedbackfunktion, da sie detailliert Einblick in das Fachwissen der Lernenden geben, sowohl in Bezug auf die Lehrplanziele als auch den individuellen Lernfortschritt. Die konsistente Skalierung von Aufgaben und Ergebnissen ermöglicht ausserdem den Vergleich von Lernresultaten über verschiedene Tests und Aufgabenserien hinweg – unabhängig davon, welche Aufgaben gelöst wurden. So lassen sich Fortschritte und Veränderungen im Lernstand dokumentieren und analysieren, und zwar über die gesamte Schulzeit der Lernenden hinweg.
Berger, S. (2019). Implementation and validation of an item response theory scale for formative assessment. Enschede: University of Twente. doi: 10.3990/1.9789036547932
Berger, S., Verschoor, A. J., Eggen, Theo J. H. M., & Moser, U. (2019a). Development and validation of a vertical scale for formative assessment in mathematics. Frontiers in Education, 4, 103. doi: 10.3389/feduc.2019.00103
Unsere Item-Bank bildet das Fundament sowohl für unabhängige Standortbestimmungen durch adaptive Tests mit Check-Dein-Wissen als auch für die Begleitung von Schülerinnen und Schülern auf ihrem Lernweg im Unterricht mit Mindsteps. Adaptives Testen und Lernen passt sich den individuellen Lernvoraussetzungen und Fähigkeiten der Lernenden an, was Freude am Lernen fördert und wertvolles formatives Feedback ermöglicht.
Damit die Aufgaben weder zu schwierig noch zu einfach sind, steuert ein Algorithmus die Auswahl der Aufgaben – und zwar basierend auf dem Lösungsverhalten der Schülerinnen und Schüler. Der Algorithmus berechnet auf dieser Grundlage fortwährend den Wissensstand der Lernenden und wählt die nächste Aufgabe jeweils so aus, dass sie optimal auf die Fähigkeiten der Schülerin oder des Schülers abgestimmt ist. Dies wirkt sich positiv auf deren Motivation aus und verhindert Langeweile, Frust und Überforderung.
Bei Check-Dein-Wissen setzten wir modernste adaptive Tests ein, die eine faire und unabhängige Standortbestimmung ermöglichen. Im Gegensatz zu herkömmlichen adaptiven Tests, in denen der Algorithmus auf jede gelöste Aufgabe eine weitere vorschlägt, arbeitet der Algorithmus in unseren adaptiven Multistage-Tests so, dass er gleich ganze Aufgabengruppen mit passendem Schwierigkeitsgrad wählt. Dieses Verfahren stellt sicher, dass alle Schülerinnen und Schüler dieselbe Anzahl Aufgaben in der gleichen Zeit bearbeiten und bietet darüber hinaus die Möglichkeit, Aufgaben innerhalb einer Aufgabengruppe zu überspringen oder zu überarbeiten. Zudem werden inhaltlich zusammenhängende Aufgaben, wie beispielsweise mehrere Fragen zu einem längeren Lesetext, gemeinsam präsentiert. Die Aufgabengruppen sind so zusammengestellt, dass sie bezüglich des Lehrplans und des Aufgabenformats übereinstimmen. Multistage-Tests gewährleisten durch gleiche Durchführungsbedingungen und identische Testinhalte eine hohe Fairness. Dies garantiert wichtige psychometrische Gütekriterien wie Validität, Reliabilität und Objektivität.
Mindsteps setzt ebenfalls adaptive Algorithmen für das Lernen ein. Darüber hinaus haben Lehrpersonen sowie Schülerinnen und Schüler die Möglichkeit, Aufgaben nach individuellen Bedürfnissen auszuwählen, also Schwierigkeitsgrad und Inhalte zu variieren. Lehrpersonen können die Aufgabenserien auf drei verschiedene Arten einsetzen: als personalisiertes Feedback zum Lernfortschritt der Schülerinnen und Schüler, als Lernkontrolle zu einem Unterrichtsthema sowie zur Erstellung von Kompetenzprofilen, anhand derer Lehrpersonen sicherstellen können, dass die Lehrplanziele erreicht wurden. Derweil können Schülerinnen und Schüler durch massgeschneiderte Aufgabenserien ihren Fortschritt überprüfen und feststellen, welche Inhalte sie sicher beherrschen oder noch vertiefen müssen und was als Nächstes ansteht.
Berger, S., Verschoor, A. J., Eggen, Theo J. H. M., & Moser, U. (2019b). Efficiency of targeted multistage calibration designs under practical constraints: A simulation study. Journal of Educational Measurement, 56 (1), 121–146. doi: 10.1111/jedm.12203
Berger, S., Verschoor, A. J., Eggen, Theo J. H. M., & Moser, U. (2019c). Improvement of measurement efficiency in multistage tests by targeted assignment. Frontiers in Education, 4, 1. doi: 10.3389/feduc.2019.00001
Unsere Methodik nutzt die Item-Response-Theory (IRT), eine mathematische Theorie, die die Beziehung zwischen dem Antwortverhalten einer Person, der Schwierigkeit einer Aufgabe und der Fähigkeit der Person beschreibt. Das Rasch-Modell, das einfachste Modell innerhalb der IRT, modelliert die Wahrscheinlichkeit einer korrekten Antwort als Funktion der Personenfähigkeit und der Aufgabenschwierigkeit. Die IRT wird eingesetzt, um sowohl die Schwierigkeiten der Aufgaben als auch die Fähigkeiten der Schülerinnen und Schüler zu bestimmen. Zudem sind die Modelle der IRT essenziell für das adaptive Testen und die Visualisierung des Lernfortschritts auf einer vertikalen Skala.
Die Item-Response-Theory erfüllt aus unserer Sicht zwei entscheidende Funktionen: Erstens ermöglicht sie die Verortung aller Aufgaben auf der vertikalen Skala – jede Aufgabe in unserer Item-Bank wird kalibriert und erhält einen stichprobenunabhängigen Schwierigkeitsparameter. Neue Aufgaben können problemlos integriert und ihr Schwierigkeitsgrad im Vergleich zur Erfolgsquote bereits kalibrierter Aufgaben ermittelt werden. Zweitens dienen die Modelle der IRT und die kalibrierten Aufgaben dem Algorithmus beim Durchlauf eines adaptiven Tests als Grundlage zur Schätzung der Fähigkeiten der Lernenden.
Die IRT bietet verfügt über Eigenschaften, die für die Umsetzung des Prinzips sichtbaren Lernens und das zugehörige Feedback entscheidend sind. Ein zentrales Merkmal ist die spezifische Objektivität. Sie gewährleistet eine Einschätzung der Fähigkeit der Schülerin oder des Schülers über die gelösten Aufgaben hinaus. Konkret bedeutet dies: Selbst wenn ein Test nur eine begrenzte Anzahl von Aufgaben beinhaltet, widerspiegelt die daraus resultierende Fähigkeitseinschätzung nicht nur die Fähigkeit der Lernenden zur Lösung dieser spezifischen Aufgaben, sondern auch ihre Fähigkeit, ähnliche Aufgaben zu bewältigen. Diese Eigenschaft ist insbesondere für das adaptive Testen unerlässlich, da ein Algorithmus die Aufgabenauswahl fortlaufend an die individuellen Fähigkeiten der Person anpasst. Adaptive Testalgorithmen schätzen wie gesagt kontinuierlich die Fähigkeit der Person ein und wählen darauf abgestimmt Aufgaben aus, die deren aktuellen Fähigkeiten entsprechen und somit für ein zuverlässiges Ergebnis besonders geeignet sind. Die spezifische Objektivität der IRT garantiert zuletzt auch, dass das Feedback nicht davon abhängt, welche spezifischen Aufgaben eine Person bearbeitet hat. So wird ein direkter Vergleich verschiedener Feedbacks möglich, auch wenn unterschiedliche Aufgaben bearbeitet wurden.
Durch den konsequenten Einsatz der Item-Response-Theory (IRT) bei der Kalibrierung der Aufgaben und der Schätzung der Schülerfähigkeiten gewährleisten wir einen konstanten Beurteilungsmassstab. Über die Zeit verbessern sich die Fähigkeiten der Lernenden, und der adaptive Algorithmus passt die Aufgaben entsprechend an, indem anspruchsvollere Aufgaben gestellt werden. Trotz dieser Anpassungen bleibt das Feedback konsistent, da es auf einer konstanten Skala basiert und nicht von einzelnen Tests oder Aufgabenserien abhängig ist. Diese Standardisierung der Metrik ist essentiell, um Lernfortschritte verlässlich nachzuweisen und zu dokumentieren. Durch diese Methode ist es möglich, Feedback aus verschiedenen Phasen der Schulzeit direkt miteinander zu vergleichen, was eine kontinuierliche und vergleichbare Messung des Lernfortschritts ermöglicht und ein entscheidender Vorteil unserer pädagogischen Instrumente Check-Dein-Wissen.ch und Mindsteps.ch ist.
Die IRT bildet auch die Grundlage für die Berechnung der Ergebnisse beziehungsweise des Feedbacks. Je nach Anwendungsbereich – ob Multistage-Tests oder adaptives Lernen mit Aufgabenserien – kommen zwar unterschiedliche Modelle der IRT zur Anwendung. Das Grundprinzip lässt sich aber am einfachen Rasch-Modell erklären: Die Wahrscheinlichkeit einer richtigen Lösung auf eine Aufgabe wird wie gesagt als Funktion der Fähigkeit der Person und der Schwierigkeit der Aufgabe beschrieben. Die Skala ist so konstruiert, dass bei einer Entsprechung von Schwierigkeit und Fähigkeit die Erfolgswahrscheinlichkeit 50 Prozent beträgt. Da die Schwierigkeiten der Aufgaben unserer Item-Bank bekannt sind, lässt sich nach dem Lösen der Aufgabe (richtig oder falsch) die Fähigkeit einfach bestimmen. Theoretisch reicht die Skala von -¥ bis +¥. Eine solche logistische Skala wäre allerdings nicht lesefreundlich, weshalb wir sie in eine Skala von 0 bis 1200 Punkte transformiert haben.
Die Beziehung zwischen Lösungswahrscheinlichkeit, Fähigkeit der Person und Schwierigkeit der Aufgabe ist für die Rückmeldung an die Lernenden von entscheidender Bedeutung. So lässt sich das Feedback auf die Ergebnisse nämlich mit Bezug zu den Kompetenzstufen gemäss Lehrplan 21 interpretieren, die den Aufbau von Wissen und Können zusammenfassen und abbilden. Die einzelnen Aufgaben stellen also das Bindeglied zwischen Fähigkeit der Lernenden und dem kumulativen Aufbau von Fähigkeiten im Lehrplan dar – was die zugrundeliegende Theorie mit dem Namen Item-Response nicht zuletzt auch andeutet.5.7 Gewährleistung fairer und valider ErgebnisrückmeldungenDank der IRT können sowohl die Schwierigkeitsparameter der Aufgaben als auch die Fähigkeiten der Schülerinnen und Schüler präzise auf der vertikalen Skala abgebildet und interpretiert werden. Diese Skalierung stellt sicher, dass die Testergebnisse objektiv und fair sowie vergleichbar sind, unabhängig vom adaptiven Test oder von der gewählten Aufgabenserie. Dadurch können Lernfortschritte über alle Bildungsstufen hinweg zuverlässig verfolgt und dargestellt werden.
Berger, S. & Moser, U. (2020). Adaptives Lernen und Testen. Journal für LehrerInnenbildung, 20(1), 42-53.
Helbling, L. A. & Tomasik, M. J., & Moser, U. (2019). Long-term trajectories of academic performance in the context of social disparities: Longitudinal findings from Switzerland. Journal of Educational Psychology. 10.1037/edu0000341
Verschoor, A. V., Berger, S., Moser, U., & Kleintjes, F. (2019). On-the-fly calibration in computerized adaptive testing. In B. Veldkamp & C. Sluijter (Eds.), Theoretical and practical advances in computer-based educational measurement (pp. 307-323). Cham, CH: Springer Open. doi: 10.1007/978-3-030-18480-3_16
Unsere Plattformen Check-Dein-Wissen und Mindsteps machen das Lernen durch innovative Methoden sichtbar. Sie nutzen systematisch kategorisierte Aufgaben aus einer umfangreichen Item-Bank und setzen fortschrittliche Algorithmen für adaptives Testen und Lernen ein. Dank der Anwendung der Item-Response-Theorie generieren sie detaillierte Rückmeldungen entlang einer vertikalen Skala, die von der Primarschule bis zur Berufsbildung reicht. Trotz nahezu gleicher Methodik unterscheiden sich die beiden Plattformen grundlegend in ihren Nutzungsmöglichkeiten: Während Check-Dein-Wissen standardisierte, unabhängige Standortbestimmungen bietet, fördert Mindsteps kontinuierliches, personalisiertes Lernen im Unterricht.
Unsere Onlinetests auf Check-Dein-Wissen.ch sind standardisiert, um faire und zuverlässige Standortbestimmungen zu gewährleisten. Die Testergebnisse werden als Punktzahl zwischen 0 und 1200 ausgewiesen und können auf unterschiedliche Art und Weise interpretiert werden:
Alle Ergebnisse sind sowohl für die einzelnen Schülerinnen und Schüler als auch auf Klassen- und Schulebene verfügbar.
Mindsteps.ch bietet Aufgabenserien an, die im Unterricht oder für das Lernen zu Hause genutzt werden. Die Ergebnisse werden je nach Anwendung wie folgt zurückgemeldet:
Ergebnisse für Lernfortschritt, Kompetenzprofil und Lernkontrolle sind sowohl für Schülerinnen und Schüler als auch auf Klassenebene verfügbar, während die Ergebnisse von Steps ausschliesslich individuell zugänglich sind.
Bez, Sarah; Tomasik, Martin J; Merk, Samuel (2023). Data-based decision making in einer digitalen Welt: Data Literacy von Lehrpersonen als notwendige Voraussetzung. In: Scheiter, Katharina; Gogolin, Ingrid. Bildung für eine digitale Zukunft. Wiesbaden: Springer (Bücher), 339-362