Opsio - Cloud and AI Solutions
AI10 min read· 2,361 words

Maskinlæring i skyen: Bygg, distribuer og skaler ML i produksjon

Praveena Shenoy
Praveena Shenoy

Country Manager, India

Published: ·Updated: ·Reviewed by Opsio Engineering Team

Quick Answer

Maskinlæring i skyen: Bygg, distribuer og skaler ML i produksjon Å kjøre maskinlæringsarbeidsbelastninger i skyen gir team elastisk GPU/TPU-beregning,...

Maskinlæring i skyen: Bygg, distribuer og skaler ML i produksjon

Å kjøre maskinlæringsarbeidsbelastninger i skyen gir team elastisk GPU/TPU-beregning, administrerte treningspipelines og produksjonsklare inferens-endepunkter – uten å eie maskinvare. Men gapet mellom en notebook-prototype og et pålitelig, kostnadskontrollert og regeletterlevende produksjonssystem er der de fleste organisasjoner stanser opp. Denne guiden dekker arkitekturvalg, verktøy hos skytjenesteleverandørene, kostnadskontroll, etterlevelsesrealiteter og operasjonelle mønstre hentet fra det Opsios ingeniørteam ser på tvers av multi-cloud-miljøer daglig.

Nøkkelpunkter

  • Alle de store skytjenesteleverandørene tilbyr administrerte ML-tjenester, men den egentlige utfordringen er å operasjonalisere modeller i produksjon – ikke å trene dem.
  • GDPR og NIS2 stiller konkrete krav til hvor ML-treningsdata lagres og hvordan inferens-endepunkter styres innenfor EØS.
  • GPU-kostnader dominerer ML-budsjetter i skyen; spot-/preemptible-instanser, autoskalert inferens og riktig dimensjonerte instansfamilier kan redusere utgiftene dramatisk.
  • Multi-cloud ML blir stadig vanligere, men tilfører pipeline-kompleksitet – standardiser på containere og ONNX for å bevare portabilitet.
  • MLOps-modenhet – versjonskontroll for data, modeller og pipelines – skiller team som leverer fra team som prototyper i det uendelige.

Hvorfor maskinlæring kjøres i skyen

Å trene en meningsfull ML-modell krever beregningskapasitet som er dyr å kjøpe, krevende å vedlikeholde og inaktiv mesteparten av tiden. En enkelt treningskjøring på en stor visjonsmodell kan forbruke titalls GPU-er i flere dager, for deretter å stå ubrukt i uker mens teamet itererer på data og funksjoner. Skyinfrastruktur konverterer den kapitalutgiften til en driftskostnad per time som skaleres til null når du ikke trener.

Utover ren økonomi oppdaterer skyleverandørene kontinuerlig GPU- og akseleratorflåtene sine. AWS har gjort NVIDIA H100-instanser (P5) generelt tilgjengelige, Azure tilbyr ND H100 v5-serien, og Google Cloud tilbyr TPU v5p-pods. Å anskaffe tilsvarende maskinvare lokalt betyr 6–12 måneders leveringstid og binding til én enkelt akseleratorgenerasjon. I skyen bytter du instanstype mellom eksperimenter.

Den tredje driveren er økosystemet av administrerte tjenester. Feature stores, eksperimentloggere, modellregistre og autoskalere for inferens tilbys som førstepartsprodukter. Å bygge denne stakken selv er mulig – MLflow, Feast og Seldon Core eksisterer – men å vedlikeholde dem i produksjon krever dedikert plattformingeniørkapasitet som mange mellomstore organisasjoner mangler.

administrerte skytjenester

Gratis eksperthjelp

Trenger dere hjelp med cloud?

Book et gratis 30-minutters møte med en av våre spesialister innen cloud. Vi analyserer behovet ditt og gir konkrete anbefalinger — helt uten forpliktelse.

Solution ArchitectAI-spesialistSikkerhetsekspertDevOps-ingeniør
50+ sertifiserte ingeniører4.9/5 kundevurdering24/7 support
Helt gratis — ingen forpliktelseSvar innen 24t

Sammenligning av ML-plattformene hos de store skyleverandørene

Hver skyleverandør har konvergert mot en bredt lik ML-plattformarkitektur: et notebook-/IDE-lag, et treningsorkestreringsag, et modellregister og et inferenshosting-lag. Forskjellene ligger i detaljene.

FunksjonalitetAWS (SageMaker)Azure (Azure ML)GCP (Vertex AI)
Administrerte notebooksSageMaker Studio (JupyterLab-basert)Azure ML Studio NotebooksVertex AI Workbench (JupyterLab)
TreningsorkestreringSageMaker Training Jobs, SageMaker PipelinesAzure ML Pipelines, Designer (lavkode)Vertex AI Training, Vertex AI Pipelines (Kubeflow-basert)
AutoMLSageMaker AutopilotAzure AutoMLVertex AI AutoML
ModellregisterSageMaker Model RegistryAzure ML Model RegistryVertex AI Model Registry
InferenshostingSageMaker Endpoints (sanntid, serverless, asynkron)Azure ML Managed Online/Batch EndpointsVertex AI Prediction (online/batch)
Spesialtilpassede akseleratorerTrainium / Inferentia (AWS-egenutviklet silisium)N/A (NVIDIA-basert)TPU v5e / v5p
Tilgang til grunnmodellerBedrock (Anthropic, Meta, Cohere m.fl.)Azure OpenAI Service (GPT-4o, o1)Vertex AI Model Garden (Gemini, åpne modeller)
EU-regiondekningFrankfurt, Irland, Stockholm (eu-north-1), Milano, Paris, Zürich, SpaniaFlere EU-regioner inkl. Sweden CentralNederland, Finland, Belgia, Tyskland, Italia

Opsios operasjonelle perspektiv: Team som satser fullt på én leverandørs ML-plattform får den mest friksjonsfrie opplevelsen. Men hvis organisasjonen din allerede kjører multi-cloud – noe som er vanlig blant nordiske virksomheter som bruker Azure for Microsoft 365 og AWS for kjerneinfrastruktur – trenger du en portabilitetsstrategi. Vi ser jevnlig at kunder kontaineriserer treningskoden med Docker og et rammeverksuavhengig serveringslag (Triton Inference Server, TorchServe eller ONNX Runtime), slik at modellartefaktet ikke blir låst til SageMaker eller Vertex AI.

skymigrering

De fire typene maskinlæring (og hvor skyen passer inn)

Å forstå ML-kategoriene er viktig fordi de har ulike beregnings- og dataprofiler i skyen.

Veiledet læring

Modellen lærer fra merkede eksempler (inndata → kjent utdata). Klassifisering og regresjonsoppgaver dominerer virksomhets-ML: svindeldeteksjon, etterspørselsprognostisering, churp-prediksjon. Skytilpasning: enkelt – distribuert trening på merkede datasett, distribuer som sanntids-endepunkt. SageMaker Built-in Algorithms, Azure AutoML og Vertex AI AutoML retter seg alle mot dette mønsteret.

Uveiledet læring

Ingen merking. Modellen avdekker struktur: klynging, dimensjonsreduksjon, anomalideteksjon. Skytilpasning: krever ofte instanser med stort minne for avstandsberegninger på tvers av høydimensjonale data. Elastisk skalering hjelper fordi hyperparametersøk for antall klynger kan kjøres parallelt.

Semi-veiledet og selvveiledet læring

Et lite merket datasett kombinert med et stort umerket korpus. Forhåndstrening av grunnmodeller (BERT, GPT, visjonstransformere) faller inn her. Skytilpasning: dette er der GPU-kostnadene eksploderer. Forhåndstrening av en stor språkmodell kan koste hundretusenvis av kroner i beregningskapasitet. Spot-instanser og sjekkpunkting er uforhandlbart.

Forsterkningslæring

En agent lærer ved å samhandle med et miljø og motta belønninger. Brukes i robotikksimulering, spill-AI og anbefalingsoptimalisering. Skytilpasning: simuleringsmiljøer (AWS RoboMaker, spesialtilpassede miljøer på GKE) forbruker CPU og GPU i støt. Autoskalering og preemptible VM-er holder kostnadene håndterbare.

Bygge en ML-pipeline som faktisk leverer

Den skitne hemmeligheten innen virksomhets-ML er at de fleste modeller aldri når produksjon. Ifølge Gartners forskning på AI-utrulling stanser majoriteten av ML-prosjekter mellom konseptbevis og produksjonsdistribusjon. Løsningen er ikke bedre algoritmer – det er MLOps-disiplin.

Dataversjonering og feature engineering

Versjoner treningsdataene dine på samme måte som du versjonerer kode. DVC (Data Version Control), LakeFS eller skynative linjevalgsverktøy (AWS Glue Data Catalog, Azure Purview, Google Dataplex) sporer hvilke data som produserte hvilken modell. Feature stores – Amazon SageMaker Feature Store, Feast på GKE, Tecton – sikrer at trenings-/serveringsskjevhet ikke stille degraderer modellkvaliteten.

Eksperimentsporing

MLflow (åpen kildekode, bredt adoptert), Weights & Biases, eller skyleverandørens egne eksperimentloggere (SageMaker Experiments, Azure ML Experiments, Vertex AI Experiments) logger hyperparametere, metrikker og artefakter. Uten dette kan du verken reprodusere resultater eller forklare for en revisor hvorfor en modell oppfører seg som den gjør.

Kontinuerlig trening og CI/CD for modeller

Behandle gjentrening av modeller som en planlagt pipeline, ikke en manuell notebook-kjøring. SageMaker Pipelines, Azure ML Pipelines og Vertex AI Pipelines støtter alle DAG-basert orkestrering med betingede steg (gjentren kun dersom datadrift overstiger en terskel). Integrer med standard CI/CD-verktøy – GitHub Actions, GitLab CI, Azure DevOps – slik at modellpromotering går gjennom kodegjennomgang og automatisert validering.

Modelloverervåking i produksjon

Distribuerte modeller degraderes. Inndatafordelinger endres, oppstrøms dataskjemaer endres, og virkelig atferd avviker fra treningsdataene. Instrumenter inferens-endepunkter med:

  • Datadriftdeteksjon: SageMaker Model Monitor, Azure ML Data Drift, Vertex AI Model Monitoring, eller åpen kildekode-verktøyet EvidentlyAI.
  • Ytelsesmetrikker: spor nøyaktighet/F1/AUC på et merket utvalg, latens p50/p95/p99, feilrater.
  • Varsling: rut drift- og degraderingssignaler gjennom PagerDuty eller Opsgenie inn i eksisterende hendelseshåndteringsarbeidsflyter.

Opsios NOC integrerer ML-modellhelsesignaler i de samme CloudWatch/Azure Monitor/Datadog-dashboardene som overvåker infrastruktur. Et degradert modellendepunkt får samme triageringsprioritet som en degradert API-gateway.

administrert DevOps

Kostnadskontroll for ML-arbeidsbelastninger

GPU-beregning er den desidert største enkelposten i et ML-budsjett i skyen. En enkelt p5.48xlarge-instans (8x H100) på AWS koster over 98 USD/time (ca. 1 050 NOK/time) etter on-demand-prising. Multipliser med en flerdag treningskjøring, og kostnadene når femsifrede beløp raskt.

Praktiske strategier for kostnadsreduksjon

Spot- og preemptible-instanser: AWS Spot, Azure Spot VMs og GCP Preemptible/Spot VMs gir typisk 60–90 % besparelser sammenlignet med on-demand-prising for GPU-instanser. Avveiningen er risiko for avbrudd. Reduser risikoen med hyppig sjekkpunkting (hvert 15.–30. minutt) og rammeverk som støtter elastisk trening (PyTorch Elastic, Horovod).

Riktig dimensjoner instansfamilier: Ikke alle treningsjobber trenger en H100. Mange modeller basert på tabelldata trener effektivt på CPU (C-familieinstanser) eller eldre GPU-generasjoner (T4, A10G). Reserver H100/A100-instanser til trening av store modeller og finjustering der gjennomstrømningsforskjellen rettferdiggjør kostnaden.

Autoskaler inferens-endepunkter: Et sanntids inferens-endepunkt som kjører 24/7 på en GPU-instans kan koste mer per år enn treningen som produserte modellen. Bruk SageMaker Serverless Inference, Azure ML Serverless Endpoints eller Vertex AI-autoskalering for å skalere til null utenom trafikktoppene.

Reservert kapasitet og spareplaner: For stabile inferensarbeidsbelastninger som genuint kjører 24/7, gir AWS Savings Plans eller Azure Reserved Instances for GPU-VM-er betydelige rabatter (typisk 30–60 % avhengig av forpliktelsesperiode og betalingsalternativ).

Overervåk inaktive ressurser: Opsios FinOps-praksis finner jevnlig foreldreløse SageMaker-notebook-instanser, stoppede-men-ikke-terminerte treningsklynger og overdimensjonerte endepunktinstanser. Taggingdisiplin og automatiserte varsler for inaktive ressurser (AWS Cost Anomaly Detection, Azure Cost Management) fanger opp disse før de akkumuleres.

cloud FinOps

Etterlevelse og datasuverenitet for ML i EØS

GDPR og NIS2

GDPR forbyr ikke ML på personopplysninger – det krever et lovlig behandlingsgrunnlag (artikkel 6), åpenhet om automatisert beslutningstaking (artikkel 22) og dataminimering. I praksis betyr dette:

  • Dataoppbevaring: Treningsdata som inneholder personopplysninger om EØS-borgere bør lagres i EU/EØS-regioner med mindre du har en adekvat overføringsmekanisme (Standard Contractual Clauses, adekvansbeslutning). Alle tre store skyleverandørene tilbyr EU-baserte regioner med alternativer for dataoppbevaring. For nordiske arbeidsbelastninger er eu-north-1 (Stockholm) og eu-west-1 (Irland) de mest brukte AWS-regionene.
  • Retten til sletting vs. modellmemorisering: Dersom en registrert person begjærer sletting etter artikkel 17, må du vurdere om modellen beholder memoriserte personopplysninger. Differensiell personvern under trening og dataanonimiseringspipelines reduserer denne risikoen. Datatilsynet har i sin veiledning om kunstig intelligens understreket at organisasjoner må ha kontroll over personopplysninger gjennom hele ML-livssyklusen.
  • NIS2-direktivet: Dersom organisasjonen din er klassifisert som vesentlig eller viktig under NIS2 (gjeldende for enheter i 18 sektorer, implementert i Norge gjennom nasjonal lovgivning), faller ML-inferens-endepunkter som understøtter kritiske tjenester inn under kravene til risikostyring og hendelsesrapportering. Behandle dem som ethvert annet produksjonssystem: patchet, overvåket og klart for hendelsesrespons.

Digitaliseringsdirektoratets veiledning

Digitaliseringsdirektoratet har publisert retningslinjer for bruk av kunstig intelligens i offentlig sektor. Norske offentlige virksomheter som tar i bruk ML i skyen bør sikre etterlevelse av disse prinsippene, inkludert åpenhet, forklarlighet og rettferdighet i automatiserte beslutninger. Dette gjelder selv om modellene kjøres på tredjeparts skyinfrastruktur.

SOC 2 og ISO 27001

ML-plattformer arver etterlevelsesposisjonen til den underliggende skykontoen. Dersom din AWS-konto er innenfor et ISO 27001-sertifisert omfang, arver SageMaker-arbeidsbelastninger den sertifiseringens dekning – men bare hvis du konfigurerer IAM, kryptering, VPC-isolasjon og logging korrekt. Opsios SOC sikrer at ML-arbeidsbelastninger dekkes av den samme kontinuerlige etterlevelsesovervåkingen som gjelder for resten av skyporteføljen.

skysikkerhet

Lokalt vs. skyen for ML: En ærlig sammenligning

FaktorLokalt (on-premises)ML i skyen
ForhåndskostnadHøy (GPU-servere, nettverk, kjøling)Ingen (betal per bruk)
SkaleringUker for å anskaffe maskinvareMinutter for å starte instanser
Nyeste akseleratorer6–12 måneders anskaffelsessyklusTilgjengelig ved lansering eller kort tid etter
DatasuverenitetFull fysisk kontrollAvhengig av regionvalg og leverandørgarantier
Latens (inferens)Lav dersom data er lokaltVariabel; edge-distribusjonsalternativer finnes
Operasjonell byrdeHøy (drivere, CUDA, nettverk, kjøling, strøm)Lav (administrerte tjenester); middels (selvadministrert på IaaS)
InaktivitetskostnadMaskinvare avskrives enten den brukes eller ikkeSkalering til null er mulig
Nødvendig kompetanseInfrastruktur + MLML + skyarkitektur

Trenden Opsio ser blant mellomstore og store nordiske kunder: tren i skyen, distribuer inferens der det gir mening. For en dagligvareaktør som kjører datasyn i butikk betyr det skytrening med edge-inferens på NVIDIA Jetson eller AWS Panorama-enheter. For et SaaS-selskap lever både trening og inferens i skyen med autoskalering.

Grunnmodeller og generativ AI i skyen

Den generative AI-bølgen har gjort tilgang til grunnmodeller til en førsteklasses skytjeneste. AWS Bedrock, Azure OpenAI Service og Google Vertex AI Model Garden gir API-tilgang til modeller fra Anthropic, OpenAI, Meta, Mistral med flere. Dette er relevant for ML-strategien i skyen fordi:

1. Finjustering erstatter trening fra bunnen av for mange bruksområder. I stedet for å trene en tekstklassifikator fra null, finjusterer du en grunnmodell på dine domenedata. Dette kutter beregningskostnader og tid dramatisk.

2. Retrieval-Augmented Generation (RAG)-pipelines kombinerer vektordatabaser (Amazon OpenSearch Serverless, Azure AI Search, Pinecone, Weaviate) med grunnmodeller for å forankre utdata i virksomhetsdata – noe som reduserer hallusinering og øker relevans.

3. Ansvarlig AI-styring blir kritisk. Modellevaluering, innholdsfiltrering og revisjonslogging er innebygd i Bedrock Guardrails, Azure AI Content Safety og Vertex AIs sikkerhetsfiltre. Europeiske organisasjoner underlagt AI-forordningen (som trådte i kraft trinnvis fra 2024) trenger disse kontrollene dokumentert. Norske virksomheter bør følge med på gjennomføringen av AI-forordningen i norsk rett via EØS-avtalen.

Opsios anbefaling: bruk administrerte grunnmodell-API-er for prototyping og lav-til-middels-volum inferens. For høy-gjennomstrømnings inferens eller når du trenger full kontroll over modellvektene (av etterlevelses- eller tilpasningsgrunner), distribuer åpne modeller (Llama 3, Mistral, Gemma) på dedikerte GPU-instanser bak din egen inferensserver.

Kom i gang: Et pragmatisk veikart

1. Revider dataene dine. Før du velger noen ML-plattform, kartlegg hvilke data du har, hvor de befinner seg, kvaliteten og styringsklassifiseringen. ML-modeller er bare så gode som treningsdataene sine.

2. Velg én ML-plattform i skyen og gå i dybden. Motstå fristelsen til å evaluere alle tre samtidig. Dersom organisasjonen primært kjører på AWS, start med SageMaker. Azure-basert? Azure ML. Byttekostnaden er lavere enn du tror dersom du kontaineriserer treningskoden.

3. Invester i MLOps før du skalerer antall modeller. Én modell i produksjon med ordentlig overvåking, gjentreningspipelines og driftdeteksjon er verdt mer enn ti modeller i notebooks.

4. Sett kostnadsrekkverk fra dag én. Budsjettvarsler, spot-instanspolicyer og regler for autoskalering av endepunkter bør være på plass før den første treningsjobben starter.

5. Involver etterlevelse tidlig. Dersom du behandler personopplysninger eller opererer i en regulert sektor, involver personvernombudet og etterlevelseteamet under utformingen av datapipelinen – ikke etter at modellen er i produksjon.

administrerte skytjenester

Ofte stilte spørsmål

Hva er maskinlæring i skyen?

Maskinlæring i skyen innebærer å bruke infrastruktur fra skytjenesteleverandører – GPU/TPU-beregning, administrerte treningstjenester, feature stores og inferens-endepunkter – i stedet for lokal maskinvare. Det flytter kapitalutgifter til driftskostnader, lar team skalere treningsjobber elastisk og fjerner byrden med å vedlikeholde GPU-drivere, CUDA-stakker og nettverksfabrikk.

Er ChatGPT AI eller ML?

ChatGPT er begge deler. Det er et AI-produkt bygget på en stor språkmodell (GPT) som ble trent med maskinlæringsteknikker – nærmere bestemt veiledet finjustering og forsterkningslæring fra menneskelig tilbakemelding (RLHF). ML er metoden; AI er det bredere fagfeltet. ChatGPT er en anvendelse av ML innenfor AI-feltet.

Hva er de fire typene maskinlæring?

De fire vanligste typene er veiledet læring (merket treningsdata), uveiledet læring (uten merking, mønstergjenkjenning), semi-veiledet læring (lite merket datasett kombinert med stort umerket datasett) og forsterkningslæring (agent lærer via belønningssignaler). Noen taksonomier folder semi-veiledet inn i veiledet; andre legger til selvveiledet læring som en femte kategori.

Er lokal ML fortsatt levedyktig sammenlignet med ML i skyen?

For latensskritisk edge-inferens eller luftgapte miljøer med strenge krav til datasuverenitet er lokal ML fortsatt relevant. Men for iterativ trening, elastisk skalering og tilgang til de nyeste GPU-generasjonene er skyen mer praktisk. De fleste organisasjoner kjører en hybridmodell: trener i skyen og kjører inferens nærmere datakildene der latens eller regulering krever det.

Hvordan påvirker GDPR maskinlæringstrening i skyen?

GDPR krever et lovlig behandlingsgrunnlag for personopplysninger som brukes i trening. Du må dokumentere datalinjer, etterkomme slettekrav (som kan komme i konflikt med modellmemorisering) og sikre at overføringer på tvers av landegrenser er i tråd med kapittel V-bestemmelsene. Trening på personopplysninger om EØS-borgere i en ren USA-region uten tilstrekkelige sikkerhetstiltak er et brudd på regelverket. Differensiell personvern og dataanonimiseringspipelines bidrar til å redusere risikoen.

Written By

Praveena Shenoy
Praveena Shenoy

Country Manager, India at Opsio

Praveena leads Opsio's India operations, bringing 17+ years of cross-industry experience spanning AI, manufacturing, DevOps, and managed services. She drives cloud transformation initiatives across manufacturing, e-commerce, retail, NBFC & banking, and IT services — connecting global cloud expertise with local market understanding.

Editorial standards: Denne artikkelen er skrevet av skypraktikere og fagfellevurdert av vårt ingeniørteam. Vi oppdaterer innhold kvartalsvis. Opsio opprettholder redaksjonell uavhengighet.