Self Service BI mit Databricks Genie

Self Service BI war ein schönes Versprechen. Fachabteilungen sollten unabhängig werden. Keine Tickets mehr an die IT. Keine Wartezeit auf Reports. Jeder zieht sich seine Daten selbst.

In der Praxis hat es für vielleicht 20 % der Nutzer:innen funktioniert. Für die anderen 80 % blieb BI ein Werkzeug für Menschen, die ohnehin schon mit Daten arbeiten. Die Hürde war gesunken, aber nicht verschwunden. Statt SQL zu lernen, musste man ein Datenmodell verstehen. Statt auf einen Report zu warten, musste man selbst herausfinden, welches Dashboard die richtige Antwort enthält. Und wenn man die Frage an jemand anderen weitergab, weil es zu komplex wurde, war man wieder am Anfang.

Databricks hat diese Gleichung fundamental verändert. Nicht indem sie die Oberfläche vereinfacht haben. Sondern indem sie etwas gebaut haben, das es vorher so nicht gab: eine vollständig integrierte Plattform, auf der Datenqualität, Governance, Metriken und konversationelle AI nicht separate Tools sind, sondern eine zusammenhängende Architektur.

Was das Problem mit klassischem Self Service wirklich war

Bevor wir zu Databricks kommen, lohnt sich ein ehrlicher Blick auf die Wurzel des Problems.

Self Service BI der ersten Generation hatte einen strukturellen Fehler: Es hat die Komplexität verschoben, nicht gelöst. Ein Drag and Drop Interface ist nur dann Self Service, wenn die Person weiß, was sie wohin ziehen soll. Das setzt voraus, dass das Datenmodell verstanden wird. Dass Feldnamen selbsterklärend sind. Dass jemand vorab definiert hat, was "Umsatz" in diesem Kontext bedeutet.

Genau das war selten gegeben. Data Engineering Teams haben Datenmodelle gebaut, die für Analysen technisch korrekt, aber für Fachabteilungen semantisch opak waren. "fct_orders.revenue_net_eur" ist keine Selbsterklärung für einen Vertriebsleiter. "Nettoumsatz in Euro" wäre es.

Das zweite Problem: Konsistenz. Wenn eine Marketingmanagerin in Power BI "Umsatz" abfragt und der Controller in Excel eine andere Zahl hat, ist Self Service nicht Autonomie, sondern Chaos. Gartner hat das pointiert beschrieben: Ohne eine gemeinsame semantische Schicht produziert Self Service BI nicht Unabhängigkeit, sondern eine Proliferation widersprüchlicher Wahrheiten.

Das dritte Problem: Governance. Wer darf was sehen? In klassischen BI Tools ist das eine Konfiguration pro Tool. Wer dieselben Daten in Tableau und Power BI und einem Ad hoc Query Tool hat, konfiguriert Zugriffsrechte dreimal. Und hofft, dass alle drei konsistent sind.

Databricks löst alle drei Probleme. Nicht mit besserem Drag and Drop. Sondern mit einer grundlegend anderen Architektur.

Unity Catalog: Der unsichtbare Vorteil, der alles zusammenhält

Das Herzstück des Databricks Ansatzes ist Unity Catalog. Für Nicht-Techniker:innen klingt das nach einem weiteren IT Tool. Tatsächlich ist es das, was Self Service BI erst möglich macht.

Unity Catalog ist der zentrale Governance Layer der gesamten Databricks Plattform. Nicht "ein Governance Tool unter vielen" – sondern die einzige Schicht, die für alles gilt: für Tabellen, für ML Modelle, für Dashboards, für Genie Anfragen, für Notebooks, für Pipelines.

Was bedeutet das in der Praxis?

Ein einziger Ort, der definiert, wer was sehen darf. Wenn ein Abteilungsleiter keinen Zugriff auf personenbezogene Kundendaten haben soll, wird das einmal in Unity Catalog festgelegt. Ab diesem Moment gilt es automatisch – egal ob er über ein Dashboard auf die Daten zugreift, eine Genie Frage stellt oder direkt SQL schreibt. Die Zugriffskontrolle reist mit den Daten, nicht mit dem Tool.

Row Level Security und Column Masking ohne Mehraufwand. In einem klassischen Setup würde der Vertrieb von Region Nord nur die Kunden aus Region Nord sehen dürfen. Das in jedem BI Tool einzeln zu konfigurieren ist Aufwand und fehleranfällig. In Unity Catalog: einmal definiert, überall wirksam.

Data Lineage automatisch. Unity Catalog verfolgt, woher jeder Datenpunkt kommt. Welche Pipeline hat diese Tabelle befüllt? Welches Dashboard nutzt dieses Feld? Wenn in einem Report ein falscher Wert erscheint, kann man in Unity Catalog in Minuten nachvollziehen, wo in der Kette der Fehler entstanden ist.

Für Self Service BI ist das ein Grundsatzwechsel. Fachabteilungen können explorieren, ohne dass ein Admin vorher jeden möglichen Zugriffspfad absichern muss. Die Absicherung ist strukturell in der Plattform eingebaut.

Data Catalog im Unternehmen: Wissen, was man hat – bevor man fragt

Der zweite Baustein, der Self Service BI bei Databricks anders macht, ist der integrierte Data Catalog in Unity Catalog.

In klassischen Setups ist ein Datenkatalog ein separates Tool (Alation, Collibra, OpenMetadata), das manuell gepflegt wird, parallel zur eigentlichen Plattform läuft und oft veraltet ist, weil niemand Zeit hat, es aktuell zu halten. Das Ergebnis: Data Scientists verbringen laut IBM 50–80 % ihrer Zeit damit, Daten zu suchen, zu verstehen und aufzubereiten.

Databricks hat den Katalog direkt in Unity Catalog eingebettet. Jede Tabelle, jedes Feld, jede ML Metrik – alles hat seinen Platz im Catalog. Und es wird nicht manuell gepflegt, sondern automatisch angereichert.

Automatische Dokumentation aus dem Betrieb. Unity Catalog lernt aus der tatsächlichen Nutzung: Welche Tabellen werden oft abgefragt? Welche Dashboards bauen auf welchen Daten auf? Welche Queries laufen täglich? Diese Nutzungsinformationen werden als Kontext gespeichert und helfen dabei, relevante Daten leichter zu finden.

AI gestützte Empfehlungen im Catalog. Wenn jemand nach "Kundenumsatz" sucht, schlägt der Catalog die relevantesten Tabellen vor, inklusive Beschreibung, Owner, letztem Aktualisierungszeitpunkt und Qualitätsstatus.

Zertifizierung von Datensätzen. Ein Data Steward kann Tabellen als "zertifiziert" markieren. Das ist das Signal an Fachanwender:innen: Dieser Datensatz ist geprüft, verlässlich, für Self Service geeignet. Wer eine Genie Anfrage stellt, bekommt keine Antwort auf Basis eines ungeprüften Rohdatensatzes, wenn es eine zertifizierte Alternative gibt.

Das ist der Unterschied, der in der Praxis den größten Impact hat. Wenn jemand nicht weiß, welche Daten es gibt, kann er nicht Self Service arbeiten. Der Catalog macht das sichtbar, ohne dass jemand fragen muss.

Unity Catalog Metrics: Einmal definieren, überall verwenden

Das dritte Element, das 2025 dazugekommen ist und Self Service BI auf eine neue Stufe hebt: Unity Catalog Metrics, seit 2025 in Public Preview, GA später im Jahr.

Das löst das tiefste Problem von Self Service BI: die "welche-Zahl-stimmt"-Diskussion.

Stell dir ein Unternehmen vor, in dem drei Abteilungen "monatlichen Umsatz" unterschiedlich berechnen. Marketing zählt abgeschlossene Leads. Vertrieb zählt ausgelieferte Bestellungen. Controlling zählt gebuchte Rechnungen. Alle drei haben Recht für ihren Kontext. Alle drei haben eine andere Zahl. Und kein Dashboard, kein BI Tool, kein AI Modell kann das automatisch auflösen – außer mit Unity Catalog Metrics.

Metrics erlauben es, Metriken als First Class Objects im Lakehouse zu definieren. "Monatlicher Nettoumsatz" wird einmal definiert: welche Tabelle, welches Feld, welche Berechnung, welche Filter, welcher Zeitbezug. Ab diesem Moment gilt diese Definition überall – in AI/BI Dashboards, in Genie Anfragen, in Notebooks, in ML Modellen, in automatisierten Pipelines.

"Define once, use everywhere." Das klingt einfach. Es ist eine fundamentale Lösung für ein Problem, das Unternehmen jahrelang mit manueller Abstimmung und Excel Offline Berechnungen gemanagt haben.

Der Vorteil für Self Service ist unmittelbar. Wenn ein Vertriebsleiter Genie fragt "Was war unser Umsatz letzten Monat?", berechnet Genie nicht selbst, was Umsatz bedeutet. Es zieht die zertifizierte Metrik aus Unity Catalog. Das Ergebnis ist dasselbe, das der Controller sieht. Das Misstrauen in Self Service Ergebnisse verschwindet, wenn man weiß, dass die Zahl auf derselben Definition basiert wie der offizielle Report.

AI/BI Genie: Natural Language Analytics und NL-to-SQL in der Praxis

Jetzt kommt der Teil, der in den letzten zwölf Monaten die meiste Aufmerksamkeit bekommen hat.

Databricks hat AI/BI im Juni 2024 angekündigt und im Juni 2025 als Generally Available released. Das Herzstück ist Genie: eine konversationelle Analytics Oberfläche, die in natürlicher Sprache Fragen beantwortet.

Genie ist nicht ein Chatbot auf einem Dashboard. Es ist ein Compound AI System, das bei jeder Frage dynamisch SQL generiert, die Abfrage gegen die echten Daten ausführt und das Ergebnis als Tabelle, Chart oder natürlichsprachliche Erklärung zurückgibt.

Die Adoptionszahlen sind bemerkenswert: 81 % aller Databricks Kunden nutzen Genie aktiv. Die monatlich aktiven Nutzer:innen sind im Jahresvergleich um über 300 % gewachsen. 98 % der Databricks SQL Warehouse Kunden nutzen AI/BI.

Wie Genie konkret funktioniert

Jeder Genie Space wird für einen spezifischen Use Case konfiguriert – zum Beispiel Sales Analytics oder Supply Chain. In diesem Space werden relevante Unity Catalog Tabellen, Business Definitionen, zertifizierte Antworten für häufige Fragen und Beispiel Queries hinterlegt.

Das Modell lernt: Was bedeutet "Q1" in eurem Unternehmen (vielleicht März bis Mai, nicht Januar bis März)? Welche Produktkategorien gibt es? Wie wird Attribution berechnet? Diese Definitionen werden eingetragen, nicht als Daten, sondern als Business Kontext.

Wenn ein:e Nutzer:in fragt: "Zeig mir die umsatzstärksten Kunden der letzten 90 Tage, aufgeschlüsselt nach Region" – generiert Genie SQL, führt es aus, visualisiert das Ergebnis und erklärt auf Wunsch, was der Trend bedeutet.

Wenn jemand fragt "Warum ist Kunde X im letzten Quartal weniger bestellt?" – analysiert Genie die verfügbaren Datenpunkte, vergleicht Zeitreihen und liefert eine narrative Erklärung, nicht nur eine Tabelle.

Das Marge Beispiel: Was 200 Marketingnutzer:innen in der Praxis zeigen

Databricks hat Genie nicht nur gebaut, sondern intern deployed und die Erfahrungen dokumentiert. Ihr Marketing Team konfigurierte einen Genie Space namens "Marge" mit Daten zu Kundensegmenten, Kampagnenperformance und Attribution.

Was als Experiment für 10 Nutzer:innen begann, wuchs auf über 200 aktive Marketing Nutzer:innen und mehr als 800 Anfragen pro Monat. Diese Nutzer:innen hatten vorher keinen direkten Datenzugang. Sie warteten auf Reports.

Die wichtigste Lektion aus diesem Rollout: Genie ist nicht Plug and Play. Die fünf Erkenntnisse, die Databricks dokumentiert hat:

Erstens: Datenmodell Dokumentation ist die Grundarbeit. Genie braucht gut annotierte Tabellen und Felder. Primärschlüssel, Fremdschlüssel, Feldbeschreibungen, Business Glossar Einträge. Ohne diese Grundlage generiert das Modell zwar SQL, aber mit weniger Präzision, weil es die Business Semantik nicht kennt. Die Dokumentation ist keine technische, sondern eine fachliche Aufgabe.

Zweitens: Zertifizierte Antworten schaffen Vertrauen. Für häufige, kritische Fragen kann man goldene SQL Abfragen hinterlegen. Wenn jemand fragt "Was ist unser monatlicher Umsatz?", gibt Genie die zertifizierte Version zurück. Das ist der Mechanismus, der sicherstellt, dass Standardfragen immer dieselbe geprüfte Antwort liefern.

Drittens: Feedback Loops verbessern Qualität über Zeit. Nutzer:innen können Antworten bewerten. Genie lernt und verbessert sich. Das Modell wird nicht einmal konfiguriert und vergessen, sondern kontinuierlich kalibriert.

Viertens: Business Kontext muss explizit sein. Was bedeutet "aktive Kampagne"? Wie wird Attribution berechnet? Diese Definitionen müssen als "Instructions" eingetragen werden. Das ist fachliche Arbeit, keine IT Arbeit.

Fünftens: Unity Catalog muss sauber sein. Genie funktioniert so gut, wie die Governance Grundlage es erlaubt. Wer hofft, dass Genie schlechte Datenverwaltung überdeckt, wird enttäuscht.

Databricks und Genie einführen?

Wir bauen den Databricks Stack, auf dem Self Service BI und AI/BI Genie wirklich funktionieren.

Gespräch vereinbaren

Genie Code: Wenn Self Service auch für Datenpipelines gilt

Neben dem klassischen Genie für Business Analytics gibt es seit Ende 2025 Genie Code – eine Erweiterung für Data Teams.

Genie Code versteht den Enterprise Datenkontext durch Unity Catalog: Lineage, Governance Policies, Business Semantik. Es arbeitet direkt in Notebooks, SQL Editoren und Lakeflow Pipelines. Data Engineers können in natürlicher Sprache beschreiben, was sie bauen wollen, und Genie Code übersetzt das in lauffähigen Code, der die Team Konventionen und Datenmodelle bereits kennt.

Das ist Self Service in einer anderen Dimension: Nicht nur Analysen werden zugänglich, auch die Entwicklung von Datenpipelines wird für weniger erfahrene Engineers niedrigschwelliger.

Genie Conversation API: Self Service Analytics dort, wo die Arbeit stattfindet

Ein letzter Baustein, der das Bild vervollständigt: Die Genie Conversation APIs, seit März 2025 in Public Preview.

Sie ermöglichen es, Genie Anfragen aus jedem Tool zu stellen – Slack, Teams, SharePoint, eigene Anwendungen, andere AI Agents. Der Vertriebsleiter öffnet nicht mehr ein separates Analytics Portal. Er fragt direkt im Teams Channel: "Wie waren unsere Zahlen letzte Woche?" Und bekommt eine Antwort aus Genie, die auf den echten, governten Daten im Lakehouse basiert.

Das ist das Ende des "BI Tool Öffnens". Analytics passiert dort, wo die Arbeit stattfindet.

Was das alles für Fachabteilungen bedeutet

Nehmen wir einen konkreten Fall. Eine Marketingleiterin eines mittelständischen Unternehmens möchte verstehen, welche Kampagnen im letzten Quartal wirklich den Umsatz getrieben haben – nicht nur Traffic oder Leads, sondern echten Umsatz.

In einem klassischen Setup: Sie öffnet das BI Tool. Findet drei Dashboards mit "Marketing Performance" im Namen. Ist nicht sicher, welches das aktuelle ist. Versucht, einen Filter zu setzen, der nicht funktioniert, weil das Feld nicht korrekt konfiguriert ist. Schickt ein Ticket an das BI Team. Drei Tage später kommt ein Report, der die Frage halb beantwortet.

Mit Databricks Genie, Unity Catalog und zertifizierten Metriken: Sie öffnet den Marketing Genie Space. Sie fragt: "Welche Kampagnen haben im letzten Quartal den höchsten Nettoumsatz erzeugt? Bitte aufgeschlüsselt nach Kanal und Kundensegment." Genie generiert die Abfrage, zieht die zertifizierte Umsatz Metrik aus Unity Catalog, liefert das Ergebnis in 30 Sekunden als Tabelle und Chart. Sie fragt nach: "Welche dieser Kampagnen haben auch die höchste Kundenbindung nach 90 Tagen?" Genie analysiert weiter.

Das ist Self Service. Nicht "leichtere Version von BI für Fortgeschrittene". Sondern ein System, das Fachbereichsarbeit auf dem Stand der verfügbaren Daten ermöglicht, ohne Abhängigkeit von IT oder BI Teams.

Was vor dem Einsatz stimmen muss

Ehrlichkeit gehört dazu: Genie ist mächtig, aber kein Selbstläufer.

Unity Catalog muss stehen. Genie nutzt Unity Catalog als Governance und Kontextlayer. Ohne sauber konfigurierte Zugriffsrechte, ohne Tabellendokumentation, ohne Metadaten gibt es keine verlässlichen Antworten. Unity Catalog ist nicht optional.

Die Datenbasis muss sauber sein. Genie generiert SQL auf echten Daten. Wenn die Daten inkonsistent, unvollständig oder schlecht modelliert sind, gibt Genie inkonsistente, unvollständige oder falsch interpretierbare Antworten. AI löst kein Datenproblem. Sie macht es sichtbarer.

Business Kontext muss eingetragen sein. Die Investition in einen gut funktionierenden Genie Space ist primär inhaltlich. Wer Zeit investiert, Feldnamen zu dokumentieren, Business Definitionen einzutragen, häufige Fragen zu zertifizieren und Unity Catalog Metrics zu definieren, bekommt ein Tool, das sich über Nutzung selbst verbessert.

Genie ist auf Databricks beschränkt. Wer kein Databricks Stack hat, kann Genie nicht nutzen. Das ist kein Nachteil, den man wegdiskutieren sollte – es ist eine reale Voraussetzung. Für Unternehmen, die Databricks als Plattform nutzen oder aufbauen, ist Genie die logische nächste Stufe. Für andere ist es ein Modell, das zeigt, wohin die Reise geht.

Die eigentliche Erkenntnis

Was Databricks mit Genie, Unity Catalog, dem integrierten Data Catalog und Unity Catalog Metrics gebaut hat, ist mehr als ein besseres BI Tool.

Es ist eine Antwort auf die Frage, die Self Service BI nie vollständig beantwortet hat: Wie kann jemand, der keine technischen Vorkenntnisse hat, verlässlich auf Unternehmensdaten zugreifen, ohne dass Governance, Qualität oder Konsistenz dafür geopfert werden?

Die Antwort ist: indem Governance, Qualität und Konsistenz nicht Konfiguration in einem Tool sind, sondern strukturell in der Plattform eingebaut. Einmal aufgebaut, gilt es für jeden – Dashboards, Abfragen, AI Modelle, Genie Konversationen.

81 % Adoption unter Databricks Kunden ist keine Marketing Zahl. Es ist ein Signal, dass das Versprechen von Self Service BI sich erst dann einlöst, wenn die Infrastruktur darunter stimmt.

Verwandte Artikel:

Self Service BI mit Databricks Genie: Warum es jetzt wirklich funktioniert