Ontgrendel Bedrijfspotentieel met Metadata-gedreven Pipelines in Microsoft Azure Fabric

Data Engineering Microsoft Fabric Metadata

Gepubliceerd op 3 september 2023

Metadata-gedreven pipelines in Azure Data Factory, Synapse Pipelines en nu Microsoft Fabric bieden u de mogelijkheid om gegevens in te nemen en te transformeren met minder code, verminderd onderhoud en grotere schaalbaarheid dan het schrijven van code of pipelines voor elke gegevensbron die moet worden ingenomen en getransformeerd. De sleutel ligt in het identificeren van de patronen voor gegevensinname en -transformatie voor uw gegevensbronnen en bestemmingen, en vervolgens het bouwen van het raamwerk om elk patroon te ondersteunen.

Overzicht van Metadata Gedreven Pipelines in Microsoft Fabric

In deze blogpost zal ik een overzicht geven van een Metadata-gedreven pipeline in Microsoft Fabric die het medaillon-architectuur (Bronze, Silver, Gold) volgt. Het doel is niet om een volledige tutorial te bieden over het bouwen van metadata-gedreven pipelines of Microsoft Fabric, maar eerder om u enkele nieuwe functies van Fabric te laten zien en u enkele ideeën te geven om metadata-gedreven pipelines in Fabric te implementeren.

Metadata-gedreven Architectuur voor Fabric Modern Data Warehouse

Het doel van deze oplossing is om een Star Schema te bouwen in een Microsoft Fabric Lakehouse met Delta Tables, een Power BI Direct Lake Dataset en gerelateerde rapporten voor eindgebruikers. De oplossing bevat volledige of incrementele belastingen naar de Bronze Lakehouse, maakt gebruik van SQL Views als de Silver Layer en voert volledige of incrementele belastingen uit naar de Gold Lakehouse.

Hier zijn meer details over elk genummerd onderdeel in het architectuurschema:

Definieer pipeline-configuratietabellen

Tabellen worden gedefinieerd die de configuratie bevatten voor elk type gegevensbelasting, 1 tabel voor het laden vanuit de bron SQL-database naar de Bronze Fabric Lakehouse en een 2e tabel gedefinieerd voor het laden vanuit de Bronze Fabric Lakehouse naar de Gold Lakehouse. Elke tabel bevat een rij voor elke combinatie van bron/bestemming en bevat velden zoals de naam van de brontabel, het bronschema, de datum-sleutel, de startdatum en het belastingstype (volledig of incrementeel).

Haal configuratiedetails op voor tabellen om van bron naar Bronze Lakehouse te laden

De orchestrator-pipeline bevat een Lookup-activiteit op de Source to Bronze-configuratietabel om de lijst met tabellen op te halen die van de bron naar de Bronze moeten worden geladen.

Roep een child-pipeline aan om gegevens van bron naar Bronze Lakehouse te laden

Voor elke tabel die is gedefinieerd in de Lookup-activiteit, roep een child-pipeline aan om de gegevens van de bron naar de Bronze Lakehouse te laden, waarbij de configuratiedetails worden doorgegeven vanuit de lookup.

Kopieer Gegevens van Bron naar Bronze Lakehouse

Een stap om een variabele genaamd “datepredicate” in te stellen, maakt deel uit van deze pipeline. Een selectiepredicaat op basis van datum is nodig voor incrementele belastingen vanuit de bron of als u slechts een subset van de gegevens wilt laden. Hierdoor wordt de creatie van de SQL-bronquerystring vereenvoudigd in de daaropvolgende Copy Data-activiteit.

Roep een Notebook aan voor incrementele belastingssamenvoeging

Alleen voor incrementele belastingen, roep een Spark Notebook aan om de incrementele gegevens samen te voegen met de Bronze Delta Lake-tabel.

Sla pipeline-uitvoerresultaten op in de configuratietabel

Voor elke geladen tabel, werk de configuratietabel bij met de laaddetails zoals het aantal ingevoegde, bijgewerkte en status van rijen, de maximale tabeltransactiedatum, die na elke tabelbelasting wordt bijgewerkt.

Conclusie

In deze blogpost heb ik verschillende functies van Microsoft Fabric geïllustreerd om metadata-gedreven pipelines te bouwen voor uw gegevensworkloads. Microsoft Fabric biedt een one-stop-shop voor het bouwen van een Modern Data Warehouse in een Lakehouse met Delta Lake-tables. Power BI Direct Lake-connectiviteit met de Fabric Lakehouse Delta Lake-tabellen biedt de prestaties van de Power BI Import-opslagmodus met de toegankelijkheid van Direct Query, waardoor kritieke gegevens snel bij uw eindgebruikers kunnen komen zonder de overhead van importeren en plannen van gegevensverversingen of de prestatievertragingen van Direct Query.