Crayon Consulting logo

Er datamodellering hot or not?

Datamodellering har vært en bærebjelke i datahåndtering i flere tiår, men med nye teknikker og arkitekturer som vinner terreng, er det naturlig å spørre: Er datamodellering fortsatt «hot», eller har det blitt en tungrodd øvelse i en stadig mer fleksibel og desentralisert datahverdag?

Artikkelen er skrevet av David Aas Correia, dataingeniør, informasjonsarkitekt og konsulent i Crayon Consulting.

07.02.2025

Lesetid: 8 min

David Aas Correia på Crayons hovedkontor i Nydalen

Hva er datamodellering?

Datamodellering er en nøkkelprosess for å strukturere og organisere data på en måte som gjør de enkelt og effektivt å bruke. Dette innebærer å skape en visuell representasjon av data og kan sammenlignes med å lage et «kart» over dataene dine, hvor du definerer viktige objekter (entiteter), deres egenskaper (attributter), og hvordan de henger sammen (relasjoner).

Datamodellering kan gjøres på ulike detaljeringsnivåer. Fra en overordnet konseptuell modell til en detaljert logisk modell, og den faktisk implementerte datamodellen. Prosessen forenkler og legger til rette for bruk av data, og gjør at organisasjoner kan sikre at dataene er nøyaktige, konsistente og pålitelige. Dette er avgjørende kvaliteter hvis man skal ta riktige, informerte beslutninger og oppnå sine strategiske og forretningsmessige målsetninger.

Utvikling i prinsipper og metoder

Datamodellering har vært viktig siden informasjonsteknologiens fremmarsj på 1960- og 1970-tallet. Det startet med at forskere og ingeniører måtte utvikle metoder for å strukturere og organisere data for sine analyser. Samtidig begynte datamaskiner å bli mer tilgjengelige og behovet for effektive måter å håndtere data på ble stadig viktigere. Mange av de tidlige prinsippene er fortsatt aktuelle og benyttes fortsatt i utstrakt grad.Her er noen av de mest fundamentale modelleringsprinsipper og -metoder:

  1. ER-modellen: Peter Chen utviklet entitets-relasjonsmodellen. ER-diagram er en standard måte for å visualisere og strukturere data – dvs entititer, attributter og relasjoner.
  2. Den dimensjonale modellen: Ralph Kimball er kjent for dimensjonal modellering, en tilnærming hvor man bruker stjerneskjema og snøfnuggskjema for å organisere data i henholdvis fakta- og dimensjonstabeller.
  3. Den normaliserte modellen: Bill Inmon introduserte den normaliserte datamodellen og «Corporate Information Factory», det vi kjenner som datavarehusarkitektur og samling av data fra ulike kilder til ulike formål.
  4. Data Vault: Dan Linstedt er kjent for «Data Vault»-metodikken som kombinerer normalisering og dimensjonal modellering, bestående av hovedkonseptene hubs, links og satellites, som alle har sine funksjoner for å sikre historikk, kontekst og sammenheng mellom data.

Disse metodene har lagt grunnlaget for hva vi kjenner som datamodellering i dag. Mye har skjedd de siste årene sammen med den hyppige utviklingen innen data og teknologi som har ført til at nye, populære prinsipper og teknikker har vokst frem:

  1. Medaljongarkitekturen: opprinnelig fra Databricks, er en teknikk hvor man strukturerer data i flere lag (bronse, sølv og gull), hvor man progressivt forbedrer datakvalitet gjennom hvert datalag og tilrettelegger for ulike forretningsbehov.
  2. One big table: innebærer at man legger all data i én tabell, for å både forenkle databehandlingen og sammenslåinger, og fokuserer på å løse et spesifikt forretningsbehov.
  3. Data mesh: popularisert av Zhamak Dehgani, fokuserer på å desentralisere dataarkitekturen og dele dataansvar mellom ulike domener. Hovedprinsippene inkluderer domeneorientert dataeierskap, data som et produkt, selvbetjent datainfrastruktur, og sentral styring.

Positive vs. negative effekter

Med alle disse prinsippene og metodene blir det viktig å vurdere deres positive og negative innvirkning i den konteksten de brukes. Dette påvirker videre hvordan og hvilke datamodelleringsteknikker som er fornuftig å bruke – og hvordan man kan evaluere de ulike effektene mot hverandre.

Positive effekter

  1. Bedre datakvalitet: definerer klare datastrukturer og relasjoner, som sikrer at data er nøyaktige, konsistente og pålitelige.
  2. Forbedret effektivitet: standardiserer database design og utvikling.
  3. Bedre kommunikasjon: ett felles språk mellom interessenter og tilrettelegger for tydelig og visuell representasjon av dataens egenskaper.
  4. Skalerbarhet og ytelse: laget for å håndtere vekst og endringer i datamengder og kompleksitet.
  5. Styring og sikkerhet: legger til rette for at data er dokumentert, håndtert og kontrollert.

Negative effekter

  1. Kompleksitet: å definere og vedlikeholde datamodeller kan være tungt og de kan være vanskelige å forstå.
  2. Rigiditet: kan være tidskrevende og vanskelig å endre.
  3. Ressursintensivt: krever kompetente ressurser, tid (både for å planlegge og kartlegge, men også vedlikeholde) og effektiv teknologi
  4. Risiko for unøyaktighet: datamodeller kan være basert på feil antagelser eller feil i data, som kan skape misledende innsikt og tap av tillit.
  5. Potensial for overarbeid: datamodeller kan gå forbi forretningskrav og bli for overkompliserte og -detaljerte.

Noen nøkkelfaktorer for å vurdere disse effektene mot hverandre:

  1. Forståelse av forretningsbehov: kontinuerlig dialog for å tilpasse datamodell etter behov og nødvendige endringer.
  2. Kompetanse og ressurser: profesjonelle som forstår både teknisk og forretningsmessig kontekst.
  3. Styring av data: standarder, tilgangskontroll og retningslinjer som sikrer datakvalitet, sikkerhet og styring.
  4. Skalerbarhet og fleksibilitet: datamodeller som trenger minst mulig tilpasning.
  5. Kommunikasjon og dokumentasjon: klar og tydelig dokumentasjon av datamodeller, deres formål og hvordan man kan bruke dem.
  6. Overvåking og vedlikehold: tester som sikrer at løsningen oppfyller krav over tid og sikrer at dataene er nøyaktige og pålitelige.

Så, er resultatet ‘Hot – or not’?

David Aas Correia foredrag om datamodellering i regi av dataforeningen

Foto: Oclin

I fjor høst (2024) la jeg ut på «Norgesturné» med Dataforeningens årlige konferanse Make Data Smart i Oslo, Trondheim og Bergen for å høre hva fagfolket tenkte om datamodellering, de ulike konseptene og hvilken verdi de ga. De fleste ga tilbakemelding om at datamodellering var en viktig øvelse for å forstå og strukturere dataene sine. Det var mer usikkerhet og diskusjon rundt de ulike teknikkene, hvor «rigiditeten» til normalisert og dimensjonal modellering ofte ble vurdert opp mot «fleksibiliteten» til blant annet medaljongarkitektur.

Jeg mener datamodellering er et viktig og verdifullt verktøy for å få kontroll på dataene og skalerbare løsninger over tid. Det er alltid viktig å veie positive og negative effekter mot hverandre. Min klare mening er iallfall at datamodellering er «HOT» .

Her har jeg samlet noen punkter med oppsummerende refleksjoner og anbefalinger for effektiv bruk av datamodellering:

  1. Sentral styring, det vil si sentrale retningslinjer og standarder, som man utvikler, forbedrer og forankrer i fellesskap, er avgjørende for suksess over tid.
  2. Velg dataarkitektur og modelleringsprinsipper som er fleksible og tydelige, og sørg for at de alltid er tilpasset forretningsbehovene og målsetningene for dataene.
  3. Normalisering av data gjør det enkelt å jobbe med datakvalitet og sikre integritet mellom data, samt tilrettelegger for domeneorientert dataeierskap, datadeling og full fleksibilitet på de løsningene man skal levere til forretning, applikasjoner eller andre formål.
  4. Progresjon av datakvalitet gjennom dataarkitekturen er et universelt prinsipp som kan stå seg på tvers av flere teknikker, uavhengig om man kaller det sølv, EDW eller integrert sone. Teknologi lar seg skalere og gir oss fleksibilitet til å velge den dataarkitekturen som passer oss best.
  5. Involver sluttbruker så tidlig og mye som mulig. Dataarkitekturen og modellering skal være designet etter deres behov. One bigtable kan noen ganger være den beste løsningen. Pust med magen, du trenger ikke alltid en fakta og dimensjoner.

Helt til slutt vil jeg legge til at datamodellering også kan ha negativ effekt og være «not» da det definitivt er en krevende øvelse. Det er nok noe som mange av de som jobber med data smertefullt har kjent på. Dette er ikke første gangen jeg har diskutert datamodellering, og det blir ikke siste gang, så jeg sier bare to be continued.

Kanskje det blir en ny 🔥 or 👎 i 2025 også?

Hvem er David?

David Aas Correia er en dyktig dataingeniør og informasjonsarkitekt som hjelper virksomheter med å bruke data til å få bedre innsikt i forretningen. Bli bedre kjent med david her.

Vil du slå av en prat med meg?

David Aas Correia, senior datainnsikt-konsulent i Inmeta

David Aas Correia

Senior konsulent