Wenn medizinische KI in den Betrieb geht: Warum Monitoring genauso wichtig ist wie Modelltraining
Medizinische KI steht an einem Wendepunkt. Während Modelle in Studien beeindruckende Resultate erzielen, beginnt die eigentliche Herausforderung erst danach: im Betrieb, mit realen Daten, realen Prozessen und realer Verantwortung.
Als Beitrag zur SAIMI-Konferenz (Symposium on Artificial Intelligence in Medical Imaging, 18.06.2026 in Bern) stellen wir ein Open-Source-Framework vor, das den gesamten Lifecycle von AI-Modellen in der klinischen Praxis unterstützt. Das Repository stellen wir kostenlos zur Verfügung. Der Ansatz ist bewusst modular aufgebaut und kann auch auf andere Use Cases übertragen werden.
TL;DR
Wir haben ein Open-Source-MLOps-Framework aufgebaut, das medizinische Bildmodelle nicht nur trainiert, sondern auch Drift, Modellverhalten und Lifecycle-Entscheidungen überwacht. Das ist wichtig, weil sich medizinische Daten im Betrieb verändern können und ein gutes Testresultat allein keine langfristige Zuverlässigkeit garantiert. Besonders spannend: Das Framework wird als Open-Source-Repository verfügbar gemacht und kann von anderen Teams nachvollzogen, getestet und weiterentwickelt werden.
Künstliche Intelligenz in der medizinischen Bildgebung hat grosses Potenzial. Modelle können Muster in Röntgenbildern erkennen, klinische Prozesse unterstützen und Entscheidungen vorbereiten. Doch ein gut trainiertes Modell ist noch kein zuverlässig betriebenes System.
Genau hier setzt unser Projekt an: ein Open-Source-MLOps-Framework für drift-aware Medical AI Deployment. Ziel ist es, medizinische KI-Modelle nach dem Training kontinuierlich zu überwachen, Veränderungen früh zu erkennen und daraus nachvollziehbare Lifecycle-Entscheidungen abzuleiten.
Der unsichtbare Risikofaktor im Modellbetrieb
Im medizinischen Alltag verändern sich Daten laufend: andere Geräte, andere Bildprotokolle, andere Kliniken, andere Patientenkohorten oder veränderte Bildqualität. Dadurch können neue Daten von der ursprünglichen Trainingsverteilung abweichen.
Die harte Realität: Ein Modell kann im Testset gut performen und im produktionsnahen Einsatz trotzdem an Zuverlässigkeit verlieren. Dieses Phänomen wird als Drift bezeichnet. Relevant sind insbesondere Data Drift, Domain Shift, Concept Drift und Performance Drift.
Besonders kritisch: Sinkende Modellleistung wird oft erst spät sichtbar, weil dafür gelabelte Daten benötigt werden. Deshalb braucht es frühere Signale wie Bildfeatures, Embeddings und Prediction-Verteilungen.
Vom Experiment zum MLOps-Framework
Im Proof of Concept verwenden wir Chest-X-ray-Daten und trainieren ein DenseNet-121-Modell für Multi-Label-Klassifikation. Der Fokus liegt jedoch nicht nur auf dem Modell, sondern auf dem gesamten MLOps-Lifecycle:
- Training und Experiment Tracking mit MLflow
- Drift-Analysen für Bildfeatures, Embeddings, Predictions und Performance
- Reports und Monitoring-Dashboard als zentrale Übersicht
- Alerts, Retraining-Trigger und Candidate Validation
- Model Registry, Promotion, Rollback und Human-in-the-loop-Entscheidungen
Ein Beispiel ist der Vergleich von AP- und PA-Thoraxröntgenbildern. Beide zeigen denselben anatomischen Bereich, unterscheiden sich aber in Aufnahmeposition und Bildcharakteristik. Solche Unterschiede können interne Modell-Repräsentationen, Vorhersagen und Performance messbar beeinflussen.
Mehr als Monitoring: kontrollierte Automatisierung
Der zentrale Gedanke: Medizinische KI darf nicht als isoliertes Modell betrachtet werden. Sie ist Teil eines Systems, das Daten verarbeitet, Entscheidungen vorbereitet und im Betrieb stabil bleiben muss.
Monitoring macht sichtbar, ob neue Daten noch zur Referenz passen, ob sich Predictions verändern und ob ein Modell genauer analysiert, neu trainiert oder zurückgerollt werden sollte. Gerade im Gesundheitswesen ist dabei kontrollierte Automatisierung entscheidend: Ein Alert sollte keine blinde Production-Promotion auslösen, sondern einen validierten Prozess mit fachlicher Review.
Warum das für AKROS relevant ist
AKROS entwickelt individuelle Software-, Integrations- und Datenlösungen für anspruchsvolle Umgebungen. Im Gesundheitswesen sind Stabilität, Nachvollziehbarkeit, Interoperabilität und regulatorische Anforderungen besonders wichtig. Genau diese Prinzipien treffen auch auf den Betrieb von KI-Systemen zu.
Unser Projekt zeigt, wie Data Engineering, Machine Learning, Observability und Lifecycle Management zu einem belastbaren Ansatz verbunden werden können. Der Wert liegt nicht nur im trainierten Modell, sondern darin, Modellverhalten im Betrieb sichtbar, versioniert und steuerbar zu machen.
Der Moment der Wahrheit
Medizinische KI endet nicht beim Modelltraining. Dort beginnt die operative Verantwortung.
Teams, die KI-Systeme langfristig zuverlässig betreiben wollen, brauchen mehr als gute Metriken im Training. Sie brauchen Transparenz, Monitoring, klare Entscheidungsprozesse und die Möglichkeit, Modelle kontrolliert weiterzuentwickeln. Genau dafür schafft unser Open-Source-Framework die Grundlage.