Was ist ein Data Warehouse?

Stell dir vor, dein Unternehmen ist ein großes Bürogebäude. In jedem Stockwerk sitzt eine Abteilung: Vertrieb im dritten, Einkauf im fünften, Buchhaltung im siebten, Produktion im Erdgeschoss. Jede Abteilung hat ihren eigenen Schrank, ihr eigenes Ablagesystem, ihre eigenen Ordner.

Wenn du wissen willst, wie das Unternehmen letztes Quartal gelaufen ist, musst du in jeden Schrank schauen. Der Vertrieb hat Umsatzzahlen. Die Buchhaltung hat andere Umsatzzahlen. Der Einkauf weiß, was bestellt wurde, aber nicht was wirklich verkauft wurde. Und die Produktion führt noch eine eigene Liste, die mit keiner der anderen übereinstimmt.

Irgendwann fragt jemand in der Chefetage: "Wie war unser Quartal?" Und niemand kann die Frage mit einer einzigen, verlässlichen Antwort beantworten.

Ein Data Warehouse ist das, was dieses Problem löst. Es ist das zentrale Archiv, in dem alle Daten aus allen Stockwerken zusammenfließen, aufbereitet werden und in einer konsistenten Form zur Verfügung stehen.

Die einfachste Erklärung, die es gibt

Wenn ich jemandem erkläre, was ein Data Warehouse ist, nehme ich oft diese Analogie:

Stell dir vor, du hast zehn verschiedene Notizbücher. In einem steht, was du eingekauft hast. In einem anderen, was du ausgegeben hast. In einem dritten, wen du getroffen hast. In einem vierten, was du geplant hattest. Jedes Notizbuch hat ein anderes Format, eine andere Schrift, eine andere Struktur.

Wenn jetzt jemand fragt: "Was haben wir letzten Monat wirklich gemacht?" – dann musst du alle zehn Bücher durchblättern, zusammenführen, vergleichen und hoffen, dass keine Widersprüche auftauchen.

Ein Data Warehouse ist das Digitale, das diese zehn Notizbücher in ein einziges, übersichtliches Register überführt. In einheitlicher Sprache, mit einheitlichen Definitionen, mit einer einheitlichen Zeitstruktur.

Die Fachleute nennen das auch "Single Source of Truth". Eine einzige verlässliche Quelle der Wahrheit. Für alle Fragen. Für alle Abteilungen. Für alle Zeiträume.

Warum hat nicht jedes Unternehmen das schon lange?

Gute Frage. Viele Unternehmen haben jahrzehntelang gut ohne Data Warehouse funktioniert. Warum also jetzt?

Weil die Menge an Daten, die Unternehmen heute produzieren, eine andere Größenordnung hat als noch vor zwanzig Jahren. Ein mittelständisches Unternehmen mit 200 Mitarbeitenden hat heute Daten aus CRM Systemen, ERP Systemen, Webanalytics, Produktionssystemen, HR Plattformen, vielleicht noch einem Webshop und externen Marktdaten. Täglich, stündlich, manchmal sekündlich.

Das ist kein Problem, das sich mit Excel lösen lässt.

Der zweite Grund: AI. Wer heute AI in seinem Unternehmen einsetzen will, braucht eine saubere, konsolidierte Datenbasis. AI Modelle lernen aus Daten. Wenn diese Daten in zehn verschiedenen Notizbüchern stecken, mit zehn verschiedenen Definitionen von "Umsatz" und "aktivem Kunden" – dann lernt das Modell Durcheinander. Ein Data Warehouse ist nicht optional für AI. Es ist die Voraussetzung.

Gartner prognostiziert, dass bis 2026 Unternehmen 60 % ihrer AI Projekte aufgeben werden, weil sie keine "AI-ready Data" haben. Die meisten dieser Unternehmen scheitern nicht an schlechten Algorithmen. Sie scheitern daran, dass niemand zuerst das Archiv in Ordnung gebracht hat.

Was ein Data Warehouse konkret tut

Lass uns konkreter werden. Ein Data Warehouse macht drei Dinge:

Es sammelt. Einmal täglich (oder öfter) zieht es Daten aus allen Quellsystemen ab. Aus dem CRM System kommen die Kundendaten. Aus dem ERP kommen Bestellungen und Rechnungen. Aus dem Produktionssystem kommen Mengen und Qualitätsdaten. All das wird in das Warehouse geladen.

Es vereinheitlicht. Bevor die Daten gespeichert werden, passiert Aufbereitungsarbeit. "München" und "MÜNCHEN" und "Muenchen" werden zum selben Eintrag. "Umsatz" bekommt eine einzige Definition, die alle Abteilungen akzeptiert haben. Datumformate werden standardisiert. Duplikate werden entfernt.

Es strukturiert. Die Daten werden in einer Form abgelegt, die für Analysen optimiert ist. Nicht so, wie sie aus den Quellsystemen kommen (das ist für die tägliche Arbeit optimiert, nicht für Auswertungen), sondern so, wie jemand Fragen stellt: "Zeig mir den Umsatz nach Produktkategorie und Region für die letzten drei Jahre."

Das Ergebnis ist ein System, in dem Fragen schnell und verlässlich beantwortet werden. Nicht "ich schau mal kurz ins ERP und hoffe, dass die Zahlen passen" – sondern: eine Abfrage, eine Wahrheit.

Datenbank vs DWH: Was ist der Unterschied?

Viele Unternehmen haben Datenbanken. Ihr CRM ist eine Datenbank. Ihr ERP ist eine Datenbank. Was ist also der Unterschied?

Der Unterschied liegt im Zweck.

Normale Datenbanken sind für das Tagesgeschäft gebaut. Sie sind optimiert dafür, schnell einen einzelnen Datensatz zu finden, zu ändern oder zu speichern. "Ändere die Adresse von Kunde 12345" ist eine Frage, die eine normale Datenbank in Millisekunden beantwortet.

Ein Data Warehouse ist für Analysen gebaut. Es ist optimiert dafür, über Millionen von Datensätzen hinweg Muster, Trends und Aggregate zu berechnen. "Was war der durchschnittliche Bestellwert pro Kundensegment in den letzten 24 Monaten, aufgeschlüsselt nach Region?" ist eine Frage, die ein CRM mit 5 Millionen Datensätzen für Minuten lahmlegen würde. Ein Data Warehouse beantwortet sie in Sekunden.

Stell dir eine Bibliothek vor. Das CRM ist die Leihtheke: optimiert für einzelne Transaktionen, schnell, auf eine Person ausgerichtet. Das Data Warehouse ist das Archiv im Keller: nicht für tägliche Ausleihe gebaut, aber unverzichtbar, wenn jemand einen umfassenden Überblick über alle Bücher der letzten zwanzig Jahre braucht.

DWH vs Data Lake: Warum ein Lake nicht dasselbe ist

Hier taucht regelmäßig Verwirrung auf: Was ist der Unterschied zwischen einem Data Warehouse und einem Data Lake?

Data Lake klingt wie eine neuere, bessere Version eines Data Warehouse. Es ist aber etwas anderes.

Ein Data Lake ist das Pendant zu einer Garage. Du wirfst alles rein, was du hast. Rohdaten, Logfiles, Bilder, JSON Exporte aus alten Systemen, gescannte Dokumente. Alles landet dort, unaufbereitet, in der Form, in der es angekommen ist. Der Vorteil: Nichts geht verloren. Du kannst später entscheiden, was du brauchst. Der Nachteil: Eine Garage, in der du nichts findest, weil alles wild gestapelt ist, ist keine verlässliche Informationsquelle.

Ein Data Warehouse ist das Archiv. Sauber beschriftet, einheitlich sortiert, nach klaren Regeln abgelegt. Der Vorteil: Alles ist sofort zugänglich, konsistent und verlässlich. Der Nachteil: Du kannst nur das drin haben, was du vorab strukturiert hast. Unvorhergesehene Fragen, die Rohdaten brauchen, beantwortet das Warehouse nicht.

Viele Unternehmen brauchen heute beides: den Data Lake für rohe, unstrukturierte Daten und für AI Training Datasets, das Data Warehouse für verlässliche Business Kennzahlen und strukturierte Analysen.

Den modernen Ansatz, der beides vereinen will, nennt man "Data Lakehouse" – ein Archiv, das so flexibel ist wie eine Garage, aber so geordnet wie ein richtiges Archiv. Plattformen wie Databricks bauen genau darauf.

Data Warehouse Beratung?

Wir analysieren eure Datenlandschaft und zeigen, ob und wie ein Data Warehouse für euch sinnvoll ist.

Beratung anfragen

Ein konkretes Beispiel aus der Praxis

Nehmen wir ein konkretes Beispiel. Ein Handelsunternehmen mit 50 Mitarbeitenden und 3.000 aktiven Kunden.

Das Unternehmen nutzt ein ERP System für Bestellungen und Rechnungen, Salesforce als CRM für Kundenkommunikation und einen Webshop auf Shopify.

Ohne Data Warehouse sieht das so aus: Das ERP weiß, was bestellt und geliefert wurde. Salesforce weiß, welche Kunden zuletzt kontaktiert wurden. Shopify weiß, was im Webshop bestellt wurde. Wenn ein Vertriebsleiter wissen will, welche Kunden in den letzten sechs Monaten weniger bestellt haben als im Vorjahr – und ob diese Kunden in Salesforce als "aktiv betreut" markiert sind – dann muss jemand drei Exporte ziehen, manuell zusammenführen und hoffen, dass die Kundennummern überall gleich formatiert sind.

Das dauert einen halben Tag. Es passiert selten. Weil es selten passiert, bleiben Frühwarnsignale für Kundenabwanderung unentdeckt.

Mit Data Warehouse sieht es so aus: Jeden Morgen um 3 Uhr werden Daten aus ERP, Salesforce und Shopify in das Warehouse geladen. Ein einheitliches Kundenprofil wird zusammengeführt. Bestellhistorie, Kommunikationshistorie, Webshop Aktivität – alles auf einem Datensatz pro Kunde.

Wenn der Vertriebsleiter die Frage stellt, beantwortet das Warehouse sie in Sekunden. Nicht weil jemand eine halbe Stunde Daten zusammengebaut hat, sondern weil diese Aufbereitung täglich automatisch passiert.

Und wenn das Unternehmen ein AI Modell für Churn Prognose bauen will – wer könnte in den nächsten 90 Tagen abwandern? – dann hat das Modell genau diese Daten zur Verfügung. Sauber, konsistent, historisch tief, tagesfrisch.

Die vier Fragen, die ein DWH beantwortet

Ein Data Warehouse ist im Kern ein Werkzeug, das vier Typen von Fragen beantwortet:

Was ist passiert? Beschreibende Analysen. Wie war unser Umsatz letzten Monat? Wie hoch war die Retourenquote? Welche Regionen haben zugelegt? Das ist klassisches Reporting.

Warum ist es passiert? Diagnostische Analysen. Warum ist der Umsatz in Region Nord zurückgegangen? Was ist der Unterschied zwischen Kunden, die wiederbestellen, und solchen, die es nicht tun? Dafür braucht man Zusammenhänge über mehrere Datenbereiche hinweg – genau das, was ein Data Warehouse ermöglicht.

Was wird passieren? Prädiktive Analysen. Das ist der Punkt, wo AI ins Spiel kommt. Ein Prognosemodell, das auf der sauberen Datenbasis im Warehouse trainiert wurde, sagt vorher: Welche Kunden werden in den nächsten 90 Tagen abwandern? Welche Produkte werden nächsten Monat knapp? Welche Maschine wird in den nächsten 30 Tagen Wartung brauchen?

Was sollen wir tun? Präskriptive Analysen. Das geht noch einen Schritt weiter: nicht nur Vorhersage, sondern Empfehlung. Welchem Kunden soll heute ein Vertriebsanruf gemacht werden? Welches Produkt soll in welcher Menge nachbestellt werden?

Die ersten zwei Kategorien machen BI Tools. Die letzten zwei brauchen AI. Und alle vier brauchen ein Data Warehouse als Fundament.

Was "AI-ready Data" wirklich bedeutet

Der Begriff taucht überall auf. Was steckt dahinter?

AI-ready Data bedeutet, dass die Daten, auf denen AI Modelle trainiert und betrieben werden sollen, vier Eigenschaften haben:

Sie sind vollständig – keine wesentlichen Lücken in kritischen Feldern.

Sie sind konsistent – dieselben Konzepte heißen überall gleich und werden gleich gemessen.

Sie sind historisch – es gibt ausreichend Vergangenheitsdaten, damit ein Modell Muster lernen kann. Ein Churn Modell, das nur drei Monate Geschichte hat, kann saisonale Effekte nicht von echten Abwanderungsmustern unterscheiden.

Sie sind zugänglich – Data Scientists und ML Engineers können auf die relevanten Daten zugreifen, ohne wochenlang auf IT Tickets zu warten.

Ein gut aufgebautes Data Warehouse liefert alle vier. Das ist der Grund, warum es für AI keine Option ist. Es ist die Infrastruktur.

Wann ihr noch ohne DWH auskommt

Fairerweise: Nicht jedes Unternehmen braucht sofort ein vollständiges Data Warehouse.

Wenn euer Unternehmen weniger als 20 Mitarbeitende hat, ihr mit zwei oder drei Systemen arbeitet und Analysen wöchentliche oder monatliche Frequenz haben: Ein gut strukturierter Datensatz in Excel oder Google Sheets reicht oft noch.

Wenn ihr anfangt zu merken, dass dieselbe Frage je nach Datenbasis verschiedene Antworten liefert, dann seid ihr am Punkt. Wenn Reports manuell zusammengeführt werden, weil kein System das automatisch kann, dann seid ihr am Punkt. Wenn AI ein strategisches Ziel wird, dann seid ihr definitiv am Punkt.

Der richtige Zeitpunkt ist nicht "so früh wie möglich". Er ist "bevor das manuelle Zusammenführen mehr kostet als das Aufbauen".

Wie man anfängt

Der häufigste Fehler beim Einstieg in Data Warehousing: zu groß anfangen. Ein vollständiges, integriertes Warehouse mit allen Systemen auf einmal. Das dauert zu lange, kostet zu viel und bricht meistens vor der Fertigstellung zusammen, weil sich die Anforderungen in der Zwischenzeit verändert haben.

Der bessere Ansatz: mit einem Use Case starten.

Welche Geschäftsentscheidung würdet ihr heute besser treffen, wenn ihr bessere Daten hättet? Welche Frage kostet euch jeden Monat einen halben Tag, weil niemand die Antwort direkt aus einem System ziehen kann?

Das ist euer erster Use Case. Für diesen Use Case identifiziert ihr die relevanten Datenquellen. Für diese Quellen baut ihr die erste Pipeline. Und auf dieser Basis entsteht mit der Zeit ein Data Warehouse, das mit echten Geschäftsproblemen gewachsen ist, nicht mit Architektur Idealen aus einem Whitepaper.

Data Warehouse und KI: Warum AI ohne Warehouse nicht funktioniert

Wir kommen zum Ausgangspunkt zurück: Warum jetzt?

AI ist der Katalysator, der Data Warehousing aus dem Bereich "gut zu haben" in "strategisch notwendig" verschoben hat. Nicht weil AI ohne Data Warehouse unmöglich wäre – man kann auch auf schlechten Daten Modelle trainieren, sie liefern nur keine verlässlichen Ergebnisse. Sondern weil der Geschäftsschaden durch AI auf schlechter Datenbasis real und messbar ist.

Das Amazon Recruiting Modell, das aus zehn Jahren Bias lernte. Das Epic Modell, das zwei Drittel der Sepsis Fälle verfehlte. Das Zillow Modell, das 500 Millionen Dollar vernichtete, weil es keine vollständige Datenbasis hatte. All das sind Konsequenzen davon, dass AI auf Daten losgelassen wurde, die nicht bereit waren.

Ein Data Warehouse ist die Infrastruktur, die das verhindert. Es ist nicht sexy. Es taucht nicht in Pressemitteilungen auf. Aber es ist die Grundlage, auf der jede verlässliche AI Anwendung steht.

Das Bürogebäude aus unserem Einstieg: Wenn jetzt jemand in der Chefetage fragt, wie das Quartal war, gibt es eine Antwort. Eine einzige. Aus einer Quelle. Verlässlich.

Das ist das Versprechen eines Data Warehouse. Und das ist, warum AI ohne es nicht hält, was sie verspricht.

Was ist ein Data Warehouse? Einfach erklärt für Führungskräfte