Heutzutage können es sich Unternehmen nicht mehr leisten, auf Dateneinblicke zu warten, da sie sich darauf konzentrieren müssen, Geschäftsanforderungen zu erfüllen und Ergebnisse in der Geschwindigkeit der Entscheidungsfindung zu liefern. Allerdings konzentrieren sich viele Datenexperten zu sehr auf die Technologie, was zu suboptimalen und kostspieligen Entscheidungen führen kann. Um diesem Problem entgegenzuwirken, verfolgen viele eine Denkweise, bei der das Geschäftsergebnis an erster Stelle steht. Dieser Wandel erfordert jedoch nicht nur einen anderen Denkprozess, sondern auch eine neue technologische Ausrichtung. Eine neue Alternative namens „Intelligent Data Architecture Platform“ (IDAP) ist ein Ansatz, der dies durch die Vereinheitlichung von Daten und Metadaten erreicht und so zu einer schnelleren Entwicklung von Datenprodukten führt.
Als intelligenter Datenorchestrierer nutzt IDAP maschinelles Lernen und unterstützt die Metadatenerfassung und -erkennung, die zur Ausführung der erforderlichen Aufgaben erforderlich sind. Hier treiben die Metadaten die Automatisierungs- und Orchestrierungs-Backplane an und schaffen so eine einheitliche Engine, die es Daten- und Geschäftsteams ermöglicht, Datenprodukte gemeinsam zu erstellen und zu verwalten. Noch einen Schritt weiter geht ein Prozess, der als aktives Metadatenmanagement (AMM) bekannt ist. Im Gegensatz zur herkömmlichen Metadatenverwaltung analysiert AMM Metadaten und liefert bei Bedarf zeitnahe Warnungen und Empfehlungen zur Behebung von Problemen wie Datenpipelinefehlern und Schemaabweichungen. Dieser proaktive Ansatz gewährleistet auch einen gesunden und aktualisierten modernen Datenstapel.
Genauer gesagt umfasst IDAP die folgenden Komponenten, die zusammenarbeiten:
- Aufnahme und Profilerstellung: Unter Datenaufnahme versteht man den Prozess des Importierens oder Empfangens von Daten aus verschiedenen Quellen in ein Zielsystem oder eine Zieldatenbank zur Speicherung, Verarbeitung und Analyse. Dabei werden Daten aus Quellsystemen extrahiert, in ein nutzbares Format umgewandelt und in das Zielsystem geladen – ein entscheidender Schritt beim Aufbau einer zuverlässigen und effizienten Datenpipeline. Einige Daten werden im Batch-Modus mithilfe von Datenverschiebungsoptionen wie Secure FTP erfasst, und einige Quellen ermöglichen die Echtzeiterfassung mithilfe von Pub/Sub-Mechanismen wie Apache Kafka oder APIs. Der IDAP muss nicht nur die unterschiedlichen Häufigkeiten der Datenaufnahme verwalten, sondern auch sein Schema erkennen und Änderungen wie Schemaabweichungen verarbeiten. Sobald dies erledigt ist, werden Daten aus Betriebs- und Transaktionsquellen in ein Data Warehouse oder einen Data Lake geladen, wo sie dann integriert und für die Nutzung durch nachgelagerte Systeme und Datenkonsumenten modelliert werden. Bevor diese Daten jedoch intelligent genutzt werden können, müssen sie profiliert werden.
Herkömmliche Systeme bieten Mechanismen zum Profilieren erfasster Daten und zum Extrahieren technischer Metadaten wie Spaltenstatistiken, Schemainformationen und grundlegende Datenqualitätsattribute wie Vollständigkeit, Eindeutigkeit, fehlende Werte, um technische Metadaten usw. zu erstellen. IDAP tut dies ebenfalls, verwendet jedoch auch ML um einen Wissensgraphen zu erstellen, damit er Beziehungen und Datenqualitätsregeln ableiten kann. Der Ansatz hilft auch bei der Generierung operativer Metadaten, also Informationen darüber, wie und wann Daten erstellt oder transformiert wurden.
Traditionell wurden aktivierende Metadaten als statische Ressource betrachtet, die zusammen mit den Daten, die sie beschreiben, erstellt und gespeichert wurde. Mit zunehmender Komplexität und zunehmendem Datenvolumen in modernen Systemen ist jedoch ein aktives Metadatenmanagement unerlässlich geworden. Dabei geht es darum, Metadaten als dynamisches und wertvolles Gut zu behandeln, das für verschiedene Zwecke aktiv genutzt werden kann. IDAP aktiviert die Metadaten, sodass sie über moderne Datentool-Stacks übertragen und alle Daten-Workloads aktiv verwalten können. IDAP verwendet die Metadatenanalyse, um Dateningenieuren Empfehlungen zu geben, damit diese Datenpipelines effektiv verwalten, Datenqualitätsprobleme melden können, um die Produktivität zu steigern, und eine gute Datenbereitstellung für Datenkonsumenten sicherstellen können.
- Kuration: Die Datenkuratierung umfasst die Auswahl, Organisation und Pflege von Daten, um deren Genauigkeit, Zuverlässigkeit und Nützlichkeit für Analyse und Entscheidungsfindung sicherzustellen. Dazu gehören Aktivitäten wie Datenbereinigung, -transformation und -anreicherung sowie die Erstellung und Dokumentation von Metadaten. Eine effektive Datenkuratierung ist unerlässlich, um Datensätze zu normalisieren, zu standardisieren und zu harmonisieren und erfolgreiche datengesteuerte Projekte durchzuführen.
Um die geschäftsorientierte Datenproduktentwicklung zu beschleunigen, werden die technischen Metadaten – die aus technischen Spaltennamen bestehen – in geschäftsfreundliche Begriffe umgewandelt, um Geschäftsmetadaten zu erstellen. In diesem Schritt werden die geschäftlichen Metadaten mit technischen Metadaten verknüpft und dem Business-Glossar hinzugefügt.
- Datenqualität: Durch die Einbettung von Qualitätsprüfungen in Datenpipelines werden Datenungenauigkeiten, Duplikate und Inkonsistenzen behoben. Durch die Bereitstellung dieser Fähigkeit liefert IDAP außergewöhnliche Datenprodukte und erhöht gleichzeitig die Zuverlässigkeit der Daten für Unternehmen.
- Transformation/Test: Dies soll eine hervorragende Entwicklererfahrung bieten und zur Steigerung der Produktivität beitragen. Hier wird ein kollaborativer Arbeitsbereich zum Entwickeln und Bereitstellen von Code genutzt, da das IDAP Best Practices aus der Softwareentwicklung der agilen und schlanken Entwicklung übernimmt, einschließlich der Wiederverwendbarkeit des Datentransformationscodes.
Darüber hinaus verwendet es eine No/Low-Code-Transformations-Engine, die in das IDAP integriert oder in eine vorhandene Engine integriert werden kann, um die Entwicklung zu beschleunigen. Schließlich werden Schlüsselkomponenten der DevOps-Philosophie wie kontinuierliches Testen und Automatisierung auf das Datenmanagement angewendet. Die beschriebene Disziplin heißt DataOps und entwickelt sich schnell weiter.
- Kontinuierliche Entwicklung und Bereitstellung: Bei der Bereitstellung werden Best Practices von DataOps genutzt, um den Code auf kontrollierte und sichere Weise in die Produktion zu übertragen. Dadurch können Geschäftsanwender das Experimentieren beschleunigen, indem sie neue Funktionen verzweigen und testen, ohne Breaking Changes in die Produktionspipelines einzuführen. Bei Bedarf können Funktionen auch schnell zurückgesetzt werden. Schließlich führt das IDAP die dringend benötigten A/B-Testfunktionen in die Entwicklung von Datenprodukten ein.
- Beobachtbarkeit: IDAP verwendet ML zur Erkennung von Anomalien und verfügt über eine Warn- und Benachrichtigungs-Engine zur Eskalation kritischer Probleme. Herkömmliche Systeme waren regelbasiert und führten zu einer großen Anzahl von Benachrichtigungen, was zu einer „Alarmmüdigkeit“ führte. Moderne Observability-Systeme nutzen ML, um Anomalien zu erkennen, und verfügen über eine Warn- und Benachrichtigungs-Engine, um kritische Probleme zu eskalieren. Der Prozess ermöglicht es dem Unternehmen, Anomalien proaktiv zu erkennen, um Ausfallzeiten zu vermeiden, und gleichzeitig Benachrichtigungen intelligent zu verarbeiten, um die Überlastung zu reduzieren.
Der Aufbau eines besseren Geschäftswerts beginnt damit, „geschäftsorientiert“ zu sein.
Die Zukunft gehört Organisationen, die von Geschäftsergebnissen geleitet werden und nicht von Technologie angetrieben werden. Diese Unternehmen konzentrieren sich voll und ganz darauf, jederzeit geschäftlichen Mehrwert zu liefern, und haben die Dringlichkeit, Anwendungsfälle für Stand-up-Analytics schnell umzuwandeln und kontinuierlich Innovationen einzuführen. Dies erfordert jedoch häufig die Annahme eines hybriden Ansatzes, der die besten zentralisierten Infrastrukturen mit der domänengesteuerten Datenproduktentwicklung integriert. Es muss auch die Erfahrungen/Bedürfnisse der Benutzer berücksichtigen. Dadurch trägt diese Methode dazu bei, schneller Ergebnisse zu liefern, passt sich gut der Unternehmenskultur und den Fähigkeiten an und schafft Lösungen mit mehr Wert für Kunden/Kunden.
Partner, die eine integrierte Plattform bereitstellen, die das aktive Metadatenmanagement unterstützt, sparen ihren Kunden Zeit und Geld und liefern gleichzeitig zuverlässige Geschäftsergebnisse. Die Zeitersparnis ergibt sich aus der Vermeidung der Notwendigkeit, mehrere Technologien zu integrieren, und einer deutlich höheren Effizienz des Unternehmens. Beispielsweise können Unternehmen die Vorteile wie das Verhältnis erfolgreicher Projekte, bereitgestellter Anwendungsfälle und die Häufigkeit neuer Releases leicht messen, was zu einem höheren Vertrauen in die Daten führt. Sie können den Ansatz auch nutzen, um Skaleneffekte zu erzielen und unnötige Ausfallzeiten zu vermeiden.
Schließlich profitieren diese Produkte von Skaleneffekten, und so wie ein ML-Modell durch häufiges Umschulen besser wird, tun dies auch diese cloudnativen, mandantenfähigen Datenframeworks. Durch die Verlagerung des Fokus von der Technologie auf die Ergebnisse erreichen Unternehmen, die IDAP in Betracht ziehen, endlich das ehrgeizige Ziel, wirklich datengesteuert zu werden.