Datenqualität und KI: Praxis Guide

Amazon hat es jahrelang nicht gemerkt. Zwischen 2014 und 2017 baute der Konzern ein AI System, das Bewerberlebensläufe automatisch bewertete. Das Modell hatte Zugriff auf eine Dekade Einstellungsdaten. Es lernte fleißig. Und es lernte das Falsche.

Die Tech Industrie war in diesem Jahrzehnt überwiegend männlich. Das Modell erkannte dieses Muster und behandelte es als Erfolgskriterium. Wörter wie "women's chess club" senkten automatisch den Score. Lebensläufe von Absolventinnen reiner Frauencolleges wurden abgewertet. Maskulin konnotierte Formulierungen wurden bevorzugt. Amazon bemerkte das Problem erst nach drei Jahren, konnte den Bias trotz intensiver Nacharbeit nicht bereinigen und stellte das Projekt 2017 still.

Das Modell war technisch tadellos. Die Daten, auf denen es trainiert wurde, waren es nicht.

Und das ist kein Amazon Problem. Es ist das häufigste AI Problem überhaupt.

Das eigentliche Problem ist nicht der Algorithmus

Wir erleben gerade eine seltsame Debatte. Unternehmen diskutieren, welches AI Modell das beste ist, welcher Anbieter die cleversten Architekturen hat. Diese Diskussionen sind nicht falsch. Aber sie sind zweitrangig.

Gartner hat Anfang 2025 in einer Befragung von 248 Data Management Führungskräften eine unmissverständliche Prognose veröffentlicht: Bis 2026 werden Unternehmen 60 % ihrer AI Projekte aufgeben, weil sie keine "AI-ready Data" haben. 63 % dieser Unternehmen wissen bereits heute, dass sie entweder nicht die richtigen Datenmanagement Praktiken für AI haben oder sich dessen schlicht nicht sicher sind.

Laut übereinstimmenden Analysen von Gartner, McKinsey und Deloitte liegen 70 % aller AI Fehler nicht am Algorithmus. Sie liegen an den Daten, mit denen er trainiert wurde.

S&P Global meldet für 2025, dass 42 % der Unternehmen die Mehrheit ihrer AI Initiativen abgebrochen haben. 2024 waren es 17 %. Der Anstieg ist dramatisch. Unternehmen starten Projekte, merken nach Wochen, dass die Datenbasis nicht taugt, und brechen ab. Mit leerem Ergebnis, investiertem Budget und einem Team, das das Vertrauen in AI verloren hat.

Das ist die eigentliche AI Krise. Nicht halluzinierende Modelle. Schlechte Daten.

Datenqualität Kosten: Was schlechte Daten konkret kosten

Gartner beziffert den durchschnittlichen jährlichen Schaden durch schlechte Datenqualität auf 12,9 Millionen US Dollar pro Unternehmen. Forrester geht weiter: Über 25 % der Organisationen verlieren jährlich mehr als 5 Millionen durch schlechte Daten. 7 % berichten Verluste von über 25 Millionen.

Für ein mittelständisches Unternehmen klingt das weit weg. Konkreter wird es bei Zillow. Das Immobilienportal setzte 2021 einen AI Algorithmus ein, der automatisch Häuser bewertet und Kaufangebote macht. Das System lernte aus strukturierten Daten: Wohnfläche, Zimmerzahl, historische Verkaufspreise. Was es nicht konnte: Schulqualität im Einzugsgebiet einschätzen, Nachbarschaftsdynamik verstehen, lokale Wirtschaftsentwicklung abbilden.

Das Modell war selbstsicher und systematisch falsch. Es kaufte Häuser zu überhöhten Preisen. Wenige Monate später stand Zillow vor einem Verlust von über 500 Millionen Dollar. 2.000 Mitarbeiter:innen wurden entlassen. Das gesamte iBuying Geschäftsfeld schloss.

Tatsächlich war das Problem nicht, dass Zillow AI einsetzte. Das Problem war, dass die Datenstrategie hinter dem Modell einen blinden Fleck hatte, den niemand vor dem Start identifiziert hatte.

IBM hat außerdem dokumentiert, wie ein Einzelhandelsunternehmen AI gestützte Schichtplanung einführen wollte. Das Modell bekam ungenaue historische Schichtdaten. Ergebnis: Manager überschrieben in über 6.000 Filialen 84 % der AI generierten Pläne manuell. Das System lief, produzierte Output, und wurde systematisch ignoriert. Der eigentliche Schaden war nicht nur die vergeudete Investition, sondern der Vertrauensverlust, der nachfolgende Projekte von Anfang an diskreditierte.

Amazon, Optum, Epic: Wenn Daten Menschen schaden

Nicht jedes Datenqualitätsproblem kostet nur Geld. Drei gut dokumentierte Fälle zeigen, was passiert, wenn AI in sensiblen Bereichen mit schlechter Datenbasis läuft.

Amazon. Das Recruiting Modell lernte aus einer Dekade männerdominierter Tech Einstellungen und internalisierte dieses Muster als Erfolgsregel. P.K. Kannan von der University of Maryland: "Amazons Problem lag in den Daten, nicht zwingend in den Algorithmen." Das Modell hat nicht diskriminiert, weil es böse programmiert wurde. Es hat präzise gelernt, was in den Daten steckte. Und in den Daten steckte Bias.

Optum. Ein Algorithmus von UnitedHealth, der in US Krankenhäusern für rund 200 Millionen Patienten jährlich entschied, welche Personen intensive Betreuung bekommen. Als Maßstab für Gesundheitsbedarf nutzte das System Gesundheitskosten. Das klingt sinnvoll. Es ist es nicht: Schwarze Patienten gaben historisch weniger für Gesundheitsversorgung aus, nicht weil sie gesünder waren, sondern wegen struktureller Zugangsbarrieren. Das Modell interpretierte niedrigere Kosten als niedrigeres Risiko und empfahl schwarzen Patienten systematisch seltener intensive Betreuung. Die Unteridentifikation lag laut einer Studie in Science (Obermeyer et al., 2019) bei über 50 %. Nach der Modellkorrektur stieg der Anteil korrekt identifizierter hochriskanter schwarzer Patienten von 17,7 % auf 46,5 %.

Epic. Das Sepsis Vorhersagemodell des Klinik Informationssystems wurde in Hunderten US Krankenhäusern eingesetzt. Eine unabhängige Validierungsstudie der University of Michigan, 2021 in JAMA Internal Medicine publiziert, fand: Das Modell verfehlte zwei Drittel der tatsächlichen Sepsis Fälle und erzeugte bei 18 % aller Patienten Fehlalarme. Kliniker:innen lernten, die Alarme zu ignorieren, weil zu viele davon falsch waren. Das Modell untergrub damit aktiv die Aufmerksamkeit für echte Risikosignale.

Diese drei Beispiele kommen nicht aus kleinen Unternehmen mit dünner IT Abteilung. Das Datenproblem macht keinen Unterschied zwischen groß und klein.

Datenqualität Dimensionen: Fünf Kriterien, die jede:r kennen sollte

Datenqualität ist kein binäres Konzept. Es gibt nicht "gute Daten" und "schlechte Daten". Es gibt fünf Dimensionen, die jede für sich ein Projekt zum Scheitern bringen kann.

Vollständigkeit. Sind alle relevanten Felder befüllt? Ein Prognose Modell, dem für 30 % der Transaktionen die Produktkategorie fehlt, kann keine sinnvollen Kategorie Vorhersagen liefern. Es gibt trotzdem eine Zahl aus. Nur keine verlässliche. Vollständigkeit entsteht nicht durch Technik allein, sondern durch klare Anforderungen bei der Datenerfassung. Wenn ein Formularfeld kein Pflichtfeld ist, füllen manche es aus und andere nicht. Über Jahre akkumuliert sich daraus eine Datenbasis mit strukturellen Lücken.

Konsistenz. "München", "MÜNCHEN", "Muenchen", "Munich" – vier Schreibweisen, ein Ort, ein System, das vier verschiedene Einträge daraus macht. Wenn das CRM "Umsatz" als Bruttoerlös definiert, das ERP System aber als Nettoerlös nach Retouren, diskutieren Vertrieb und Controlling über verschiedene Zahlen und merken es erst im nächsten Meeting.

Gartner bezeichnet Inkonsistenz als das herausforderndste Datenqualitätsproblem in Unternehmen. Die Ursache ist fast immer historisches Wachstum: Systeme wurden zu verschiedenen Zeiten eingeführt, mit verschiedenen Datenmodellen, und nie aufeinander abgestimmt. Für Reporting ist das ärgerlich. Für AI ist es gefährlich, weil ein Modell keine Inkonsistenz "erkennt". Es lernt alles, was in den Daten steht, inklusive aller Widersprüche.

Aktualität. 70,8 % der Kontaktdaten ändern sich innerhalb von zwölf Monaten. Ein Churn Modell, das auf Kundendaten aus 2022 trainiert wurde, hat das Kaufverhalten unter Inflation und Zinswende nie gelernt. Es prognostiziert Muster aus einer anderen Welt. Besonders heikel ist Aktualität bei Echtzeit Systemen. Ein Betrugserkennungs Modell, das auf Transaktionsdaten basiert, die Stunden veraltet sind, hat blinde Flecken.

Korrektheit. Negative Bestellmengen, Geburtsdaten aus dem Jahr 1900, Umsatzzahlen, die keine Buchhaltung bestätigt. IBM dokumentiert einen Fall, in dem ein Produktionsunternehmen monatelang ein ML Modell zur Prozessoptimierung mit Sensordaten betrieb. Ein kritischer Sensor lieferte seit Monaten defekte Werte. Das Modell optimierte auf Basis dieser Eingaben. Die Empfehlungen waren in sich konsistent, aber falsch. Rüstzeiten stiegen statt zu sinken. Erst als das Team die Rohdaten prüfte, wurde der Sensor identifiziert. Monate Arbeit, vergeblich.

Repräsentativität. Das subtilste Problem und gleichzeitig das folgenreichste. Die Daten sind korrekt, vollständig, konsistent und aktuell. Aber sie bilden die Realität verzerrt ab, weil bestimmte Gruppen oder Situationen unter- oder überrepräsentiert sind. Das ist das Optum Problem. Das ist das Amazon Problem. Und es ist eines, das rein technische Qualitätsprüfungen nicht finden, wenn niemand den Test auf faire Repräsentanz definiert hat.

Schlechte Daten KI: Warum AI das Problem massiv potenziert

In einer klassischen Reporting Umgebung zeigt ein Dashboard einen falschen Wert. Jemand im Meeting bemerkt es. Die Analyse wird vertagt, der Fehler behoben, das Reporting korrigiert.

In einer AI Umgebung passiert das nicht mehr automatisch. Ein Modell, das täglich läuft, trifft täglich hunderte oder tausende Entscheidungen. Automatisch. Ohne dass jemand jede einzelne prüft. Der Fehler akkumuliert sich still.

IBM fasst es präzise: "AI systems inherit and amplify data quality issues. When that data is inconsistent, incomplete, biased or outdated, both models and the agents built on top of them are less accurate and prone to spreading issues at scale."

"Spreading at scale" ist der entscheidende Teil. AI skaliert Entscheidungen. Damit skaliert sie auch Fehler. Ein menschlicher Sachbearbeiter, der einen Fehler macht, macht ihn einmal. Ein Modell, das denselben Fehler gelernt hat, macht ihn millionenfach.

Das verändert die Risikogleichung grundlegend. Schlechte Daten, die im Reporting störend sind, können in AI Systemen existenzbedrohend werden.

Gartner Analyst Daryl Plummer formuliert es für generative AI konkret: Schlechte Datenqualität produziert unzuverlässige Outputs, lässt RAG Implementierungen scheitern und verhindert effektives Fine-Tuning von Modellen. Es ist kein punktuelles Versagen. Es ist ein systemisches.

Was der EU AI Act jetzt von euch verlangt

Für viele Unternehmen ist der EU AI Act noch abstraktes Regulierungsthema. Das ändert sich, sobald man Artikel 10 liest.

Artikel 10 ist die Kernanforderung an Datenqualität für Hochrisiko AI Systeme. Er ist seit August 2025 in Kraft und wird ab August 2026 vollständig durchgesetzt. Er verlangt:

Trainingsdaten müssen qualitätsgesichert sein. Die Herkunft der Daten muss dokumentiert sein. Die Vorbereitungsprozesse (Bereinigung, Labeling, Filterung) müssen nachvollziehbar sein. Mögliche Verzerrungen müssen erkannt, bewertet und adressiert sein. Die Datensätze müssen relevant, hinreichend repräsentativ und möglichst fehlerfrei sein.

Hochrisiko AI umfasst unter anderem: AI im Personalbereich (Recruiting, Leistungsbewertung), Kreditvergabe, medizinische Diagnose, Steuerung kritischer Infrastruktur. Wer in diesen Bereichen AI einsetzt, unterliegt diesen Anforderungen.

Die Strafen bei Verstößen gegen Datenqualitätspflichten für Hochrisiko AI betragen bis zu 15 Millionen Euro oder 3 % des weltweiten Jahresumsatzes, je nachdem was höher ist.

Die entscheidende Erkenntnis dabei: Was der EU AI Act für Compliance verlangt, ist dieselbe Datenbasis, die man für gute AI Ergebnisse braucht. Das ist kein Entweder-oder zwischen Sicherheit und Fortschritt. Wer heute für Compliance investiert, investiert in bessere AI.

Datenqualität prüfen lassen?

Wir analysieren eure Daten für den geplanten AI Use Case — ehrlich, strukturiert, in einem halben Tag.

Analyse anfragen

Die 1-10-100 Regel für Datenqualität: Warum früh handeln günstiger ist

In der Datenqualität gibt es eine Faustregel, die in der Praxis regelmäßig bestätigt wird: Ein Problem bei der Erfassung zu beheben kostet 1 Einheit. Wenn es sich im System propagiert hat, kostet es 10. Wenn es eine Entscheidung beeinflusst hat, kostet es 100.

Stellt euch einen falsch zugeordneten Artikel im Produktstamm vor. Im ERP eingegeben, speist es das Data Warehouse. Das Data Warehouse speist das AI Modell für Absatzprognosen. Das Modell macht wochenlange Prognosen auf fehlerhafter Basis. Die Einkaufsabteilung bestellt auf Basis dieser Prognosen. Fehler multiplizieren sich über die gesamte Wertschöpfungskette.

Der ursprüngliche Fehler war minimal. Die Behebungskosten sind alles andere als minimal.

Das ist der Kerngedanke hinter proaktiver Datenqualitätssicherung: Nicht warten, bis das Modell schlechte Ergebnisse liefert. Prüfen, bevor es trainiert wird.

Datenqualität verbessern: Was ihr heute konkret tun könnt

Datenqualität verbessert man nicht mit einem Tool. Man verbessert sie mit Verantwortung und einem strukturierten Vorgehen.

Einen Datenbereich wirklich ansehen. Nicht das Bauchgefühl. Die tatsächlichen Daten. Wie viele Null Werte gibt es in kritischen Feldern? Wie hoch ist die Duplikatrate? Diese Analyse braucht zwei Stunden. Ihre Ergebnisse sind meistens überraschend. Das ist gut, denn was sichtbar ist, kann adressiert werden.

Für jeden relevanten Datenbereich eine verantwortliche Person benennen. Nicht die IT. Jemanden aus dem Fachbereich. Ohne Ownership verbessert sich Datenqualität nicht. Sie verschlechtert sich.

Drei Qualitätskriterien pro Datenbereich definieren. Was ist ein vollständiger Datensatz? Was ist ein korrekter Wert? Was ist eine akzeptable Aktualität? Schriftlich, geteilt, für alle sichtbar. Wenn niemand definiert hat, was "gut" ist, kann niemand prüfen, ob Daten gut sind.

Automatische Qualitätsprüfungen einrichten. Wenn Daten aus Quellsystemen in Analysen oder AI Modelle fließen, können einfache Validierungsregeln automatisch prüfen: Sind Pflichtfelder befüllt? Liegen Werte im plausiblen Bereich? Gibt es Duplikate? Diese Prüfungen fangen viele Fehler ab, bevor sie in Modelle fließen.

Eine Review Frequenz festlegen. Datenqualität ist kein einmaliges Projekt. Märkte verändern sich, Systeme werden angepasst, neue Datenquellen kommen hinzu. Quartalsweise Reviews sind kein Aufwand. Sie sind Versicherung gegen still akkumulierende Fehler.

Was "gut genug" wirklich bedeutet

Wir schließen mit einem Gedanken, der wichtig ist: AI braucht keine perfekten Daten. Es gibt keine perfekten Daten.

Was AI braucht, ist Daten, denen man für den spezifischen Use Case vertrauen kann. "Fit for purpose" ist der relevante Standard, nicht "makellos".

Ein Churn Modell braucht vollständige, konsistente Transaktionshistorie und aktuelle Kundenkontaktdaten. Es braucht nicht zwingend lückenlose demografische Daten, wenn das Modell auf Transaktionsmustern basiert.

Die Frage ist nicht: "Sind unsere Daten perfekt?" Die Frage ist: "Sind unsere Daten gut genug für das, was wir damit tun wollen?"

Diese Frage zu stellen, bevor ein AI Projekt startet, verhindert die teuersten Fehler. Und sie ist der eigentliche Startpunkt jeder ernsthaften AI Initiative.

Verwandte Artikel:

Datenqualität und KI: Garbage in, garbage out