Maskinlæring i skyen: Bygg, distribuer og skaler ML i produksjon

Question

Praveena Shenoy · Accepted Answer

Maskinlæring i skyen: Bygg, distribuer og skaler ML i produksjon Å kjøre maskinlæringsarbeidsbelastninger i skyen gir team elastisk GPU/TPU-beregning, administrerte treningspipelines og produksjonsklare inferens-endepunkter – uten å eie maskinvare. Men gapet mellom en notebook-prototype og et pålitelig, kostnadskontrollert og regeletterlevende produksjonssystem er der de fleste organisasjoner stanser opp. Denne guiden dekker arkitekturvalg, verktøy hos skytjenesteleverandørene, kostnadskontroll, etterlevelsesrealiteter og operasjonelle mønstre hentet fra det Opsios ingeniørteam ser på tvers av multi-cloud-miljøer daglig. Nøkkelpunkter Alle de store skytjenesteleverandørene tilbyr administrerte ML-tjenester, men den egentlige utfordringen er å operasjonalisere modeller i produksjon – ikke å trene dem. GDPR og NIS2 stiller konkrete krav til hvor ML-treningsdata lagres og hvordan inferens-endepunkter styres innenfor EØS. GPU-kostnader dominerer ML-budsjetter i skyen; spot-/preemptible-instanser, autoskalert inferens og riktig dimensjonerte instansfamilier kan redusere utgiftene dramatisk. Multi-cloud ML blir stadig vanligere, men tilfører pipeline-kompleksitet – standardiser på containere og ONNX for å bevare portabilitet. MLOps-modenhet – versjonskontroll for data, modeller og pipelines – skiller team som leverer fra team som prototyper i det uendelige. Hvorfor maskinlæring kjøres i skyen Å trene en meningsfull ML-modell krever beregningskapasitet som er dyr å kjøpe, krevende å vedlikeholde og inaktiv mesteparten av tiden. En enkelt treningskjøring på en stor visjonsmodell kan forbruke titalls GPU-er i flere dager, for deretter å stå ubrukt i uker mens teamet itererer på data og funksjoner. Skyinfrastruktur konverterer den kapitalutgiften til en driftskostnad per time som skaleres til null når du ikke trener. Utover ren økonomi oppdaterer skyleverandørene kontinuerlig GPU- og akseleratorflåtene sine. AWS har gjort NVIDIA H100-instanser (P5) generelt tilgjengelige, Azure tilbyr ND H100 v5-serien, og Google Cloud tilbyr TPU v5p-pods. Å anskaffe tilsvarende maskinvare lokalt betyr 6–12 måneders leveringstid og binding til én enkelt akseleratorgenerasjon. I skyen bytter du instanstype mellom eksperimenter. Den tredje driveren er økosystemet av administrerte tjenester. Feature stores, eksperimentloggere, modellregistre og autoskalere for inferens tilbys som førstepartsprodukter. Å bygge denne stakken selv er mulig – MLflow, Feast og Seldon Core eksisterer – men å vedlikeholde dem i produksjon krever dedikert plattformingeniørkapasitet som mange mellomstore organisasjoner mangler. administrerte skytjenester Sammenligning av ML-plattformene hos de store skyleverandørene Hver skyleverandør har konvergert mot en bredt lik ML-plattformarkitektur: et notebook-/IDE-lag, et treningsorkestreringsag, et modellregister og et inferenshosting-lag. Forskjellene ligger i detaljene. Funksjonalitet AWS (SageMaker) Azure (Azure ML) GCP (Vertex AI) Administrerte notebooks SageMaker Studio (JupyterLab-basert) Azure ML Studio Notebooks Vertex AI Workbench (JupyterLab) Treningsorkestrering SageMaker Training Jobs, SageMaker Pipelines Azure ML Pipelines, Designer (lavkode) Vertex AI Training, Vertex AI Pipelines (Kubeflow-basert) AutoML SageMaker Autopilot Azure AutoML Vertex AI AutoML Modellregister SageMaker Model Registry Azure ML Model Registry Vertex AI Model Registry Inferenshosting SageMaker Endpoints (sanntid, serverless, asynkron) Azure ML Managed Online/Batch Endpoints Vertex AI Prediction (online/batch) Spesialtilpassede akseleratorer Trainium / Inferentia (AWS-egenutviklet silisium) N/A (NVIDIA-basert) TPU v5e / v5p Tilgang til grunnmodeller Bedrock (Anthropic, Meta, Cohere m.fl.) Azure OpenAI Service (GPT-4o, o1) Vertex AI Model Garden (Gemini, åpne modeller) EU-regiondekning Frankfurt, Irland, Stockholm (eu-north-1), Milano, Paris, Zürich, Spania Flere EU-regioner inkl. Sweden Central Nederland, Finland, Belgia, Tyskland, Italia Opsios operasjonelle perspektiv: Team som satser fullt på én leverandørs ML-plattform får den mest friksjonsfrie opplevelsen. Men hvis organisasjonen din allerede kjører multi-cloud – noe som er vanlig blant nordiske virksomheter som bruker Azure for Microsoft 365 og AWS for kjerneinfrastruktur – trenger du en portabilitetsstrategi. Vi ser jevnlig at kunder kontaineriserer treningskoden med Docker og et rammeverksuavhengig serveringslag (Triton Inference Server, TorchServe eller ONNX Runtime), slik at modellartefaktet ikke blir låst til SageMaker eller Vertex AI. skymigrering De fire typene maskinlæring (og hvor skyen passer inn) Å forstå ML-kategoriene er viktig fordi de har ulike beregnings- og dataprofiler i skyen. Veiledet læring Modellen lærer fra merkede eksempler (inndata → kjent utdata). Klassifisering og regresjonsoppgaver dominerer virksomhets-ML: svindeldeteksjon, etterspørselsprognostisering, churp-prediksjon. Skytilpasning: enkelt – distribuert trening på merkede datasett, distribuer som sanntids-endepunkt. SageMaker Built-in Algorithms, Azure AutoML og Vertex AI AutoML retter seg alle mot dette mønsteret. Uveiledet læring Ingen merking. Modellen avdekker struktur: klynging, dimensjonsreduksjon, anomalideteksjon. Skytilpasning: krever ofte instanser med stort minne for avstandsberegninger på tvers av høydimensjonale data. Elastisk skalering hjelper fordi hyperparametersøk for antall klynger kan kjøres parallelt. Semi-veiledet og selvveiledet læring Et lite merket datasett kombinert med et stort umerket korpus. Forhåndstrening av grunnmodeller (BERT, GPT, visjonstransformere) faller inn her. Skytilpasning: dette er der GPU-kostnadene eksploderer. Forhåndstrening av en stor språkmodell kan koste hundretusenvis av kroner i beregningskapasitet. Spot-instanser og sjekkpunkting er uforhandlbart. Forsterkningslæring En agent lærer ved å samhandle med et miljø og motta belønninger. Brukes i robotikksimulering, spill-AI og anbefalingsoptimalisering. Skytilpasning: simuleringsmiljøer (AWS RoboMaker, spesialtilpassede miljøer på GKE) forbruker CPU og GPU i støt. Autoskalering og preemptible VM-er holder kostnadene håndterbare. Bygge en ML-pipeline som faktisk leverer Den skitne hemmeligheten innen virksomhets-ML er at de fleste modeller aldri når produksjon. Ifølge Gartners forskning på AI-utrulling stanser majoriteten av ML-prosjekter mellom konseptbevis og produksjonsdistribusjon. Løsningen er ikke bedre algoritmer – det er MLOps -disiplin. Dataversjonering og feature engineering Versjoner treningsdataene dine på samme måte som du versjonerer kode. DVC (Data Version Control), LakeFS eller skynative linjevalgsverktøy (AWS Glue Data Catalog, Azure Purview, Google Dataplex) sporer hvilke data som produserte hvilken modell. Feature stores – Amazon SageMaker Feature Store, Feast på GKE, Tecton – sikrer at trenings-/serveringsskjevhet ikke stille degraderer modellkvaliteten. Eksperimentsporing MLflow (åpen kildekode, bredt adoptert), Weights & Biases, eller skyleverandørens egne eksperimentloggere (SageMaker Experiments, Azure ML Experiments, Vertex AI Experiments) logger hyperparametere, metrikker og artefakter. Uten dette kan du verken reprodusere resultater eller forklare for en revisor hvorfor en modell oppfører seg som den gjør. Kontinuerlig trening og CI/CD for modeller Behandle gjentrening av modeller som en planlagt pipeline , ikke en manuell notebook-kjøring. SageMaker Pipelines, Azure ML Pipelines og Vertex AI Pipelines støtter alle DAG-basert orkestrering med betingede steg (gjentren kun dersom datadrift overstiger en terskel). Integrer med standard CI/CD-verktøy – GitHub Actions , GitLab CI , Azure DevOps – slik at modellpromotering går gjennom kodegjennomgang og automatisert validering. Modelloverervåking i produksjon Distribuerte modeller degraderes. Inndatafordelinger endres, oppstrøms dataskjemaer endres, og virkelig atferd avviker fra treningsdataene. Instrumenter inferens-endepunkter med: Datadriftdeteksjon : SageMaker Model Monitor, Azure ML Data Drift, Vertex AI Model Monitoring, eller åpen kildekode-verktøyet EvidentlyAI. Ytelsesmetrikker : spor nøyaktighet/F1/AUC på et merket utvalg, latens p50/p95/p99, feilrater. Varsling : rut drift- og degraderingssignaler gjennom PagerDuty eller Opsgenie inn i eksisterende hendelseshåndteringsarbeidsflyter. Opsios NOC integrerer ML-modellhelsesignaler i de samme CloudWatch/Azure Monitor/ Datadog -dashboardene som overvåker infrastruktur. Et degradert modellendepunkt får samme triageringsprioritet som en degradert API-gateway. administrert DevOps Kostnadskontroll for ML-arbeidsbelastninger GPU-beregning er den desidert største enkelposten i et ML-budsjett i skyen. En enkelt p5.48xlarge -instans (8x H100) på AWS koster over 98 USD/time (ca. 1 050 NOK/time) etter on-demand-prising. Multipliser med en flerdag treningskjøring, og kostnadene når femsifrede beløp raskt. Praktiske strategier for kostnadsreduksjon Spot- og preemptible-instanser: AWS Spot, Azure Spot VMs og GCP Preemptible/Spot VMs gir typisk 60–90 % besparelser sammenlignet med on-demand-prising for GPU-instanser. Avveiningen er risiko for avbrudd. Reduser risikoen med hyppig sjekkpunkting (hvert 15.–30. minutt) og rammeverk som støtter elastisk trening (PyTorch Elastic, Horovod). Riktig dimensjoner instansfamilier: Ikke alle treningsjobber trenger en H100. Mange modeller basert på tabelldata trener effektivt på CPU (C-familieinstanser) eller eldre GPU-generasjoner (T4, A10G). Reserver H100/A100-instanser til trening av store modeller og finjustering der gjennomstrømningsforskjellen rettferdiggjør kostnaden. Autoskaler inferens-endepunkter: Et sanntids inferens-endepunkt som kjører 24/7 på en GPU-instans kan koste mer per år enn treningen som produserte modellen. Bruk SageMaker Serverless Inference, Azure ML Serverless Endpoints eller Vertex AI-autoskalering for å skalere til null utenom trafikktoppene. Reservert kapasitet og spareplaner: For stabile inferensarbeidsbelastninger som genuint kjører 24/7, gir AWS Savings Plans eller Azure Reserved Instances for GPU-VM-er betydelige rabatter (typisk 30–60 % avhengig av forpliktelsesperiode og betalingsalternativ). Overervåk inaktive ressurser: Opsios FinOps -praksis finner jevnlig foreldreløse SageMaker-notebook-instanser, stoppede-men-ikke-terminerte treningsklynger og overdimensjonerte endepunktinstanser. Taggingdisiplin og automatiserte varsler for inaktive ressurser (AWS Cost Anomaly Detection, Azure Cost Management) fanger opp disse før de akkumuleres. cloud FinOps Etterlevelse og datasuverenitet for ML i EØS GDPR og NIS2 GDPR forbyr ikke ML på personopplysninger – det krever et lovlig behandlingsgrunnlag (artikkel 6), åpenhet om automatisert beslutningstaking (artikkel 22) og dataminimering. I praksis betyr dette: Dataoppbevaring: Treningsdata som inneholder personopplysninger om EØS-borgere bør lagres i EU/EØS-regioner med mindre du har en adekvat overføringsmekanisme (Standard Contractual Clauses, adekvansbeslutning). Alle tre store skyleverandørene tilbyr EU-baserte regioner med alternativer for dataoppbevaring. For nordiske arbeidsbelastninger er eu-north-1 (Stockholm) og eu-west-1 (Irland) de mest brukte AWS-regionene. Retten til sletting vs. modellmemorisering: Dersom en registrert person begjærer sletting etter artikkel 17, må du vurdere om modellen beholder memoriserte personopplysninger. Differensiell personvern under trening og dataanonimiseringspipelines reduserer denne risikoen. Datatilsynet har i sin veiledning om kunstig intelligens understreket at organisasjoner må ha kontroll over personopplysninger gjennom hele ML-livssyklusen. NIS2-direktivet : Dersom organisasjonen din er klassifisert som vesentlig eller viktig under NIS2 (gjeldende for enheter i 18 sektorer, implementert i Norge gjennom nasjonal lovgivning), faller ML-inferens-endepunkter som understøtter kritiske tjenester inn under kravene til risikostyring og hendelsesrapportering. Behandle dem som ethvert annet produksjonssystem: patchet, overvåket og klart for hendelsesrespons. Digitaliseringsdirektoratets veiledning Digitaliseringsdirektoratet har publisert retningslinjer for bruk av kunstig intelligens i offentlig sektor. Norske offentlige virksomheter som tar i bruk ML i skyen bør sikre etterlevelse av disse prinsippene, inkludert åpenhet, forklarlighet og rettferdighet i automatiserte beslutninger. Dette gjelder selv om modellene kjøres på tredjeparts skyinfrastruktur. SOC 2 og ISO 27001 ML-plattformer arver etterlevelsesposisjonen til den underliggende skykontoen. Dersom din AWS-konto er innenfor et ISO 27001 -sertifisert omfang, arver SageMaker-arbeidsbelastninger den sertifiseringens dekning – men bare hvis du konfigurerer IAM, kryptering, VPC-isolasjon og logging korrekt. Opsios SOC sikrer at ML-arbeidsbelastninger dekkes av den samme kontinuerlige etterlevelsesovervåkingen som gjelder for resten av skyporteføljen. skysikkerhet Lokalt vs. skyen for ML: En ærlig sammenligning Faktor Lokalt (on-premises) ML i skyen Forhåndskostnad Høy (GPU-servere, nettverk, kjøling) Ingen (betal per bruk) Skalering Uker for å anskaffe maskinvare Minutter for å starte instanser Nyeste akseleratorer 6–12 måneders anskaffelsessyklus Tilgjengelig ved lansering eller kort tid etter Datasuverenitet Full fysisk kontroll Avhengig av regionvalg og leverandørgarantier Latens (inferens) Lav dersom data er lokalt Variabel; edge-distribusjonsalternativer finnes Operasjonell byrde Høy (drivere, CUDA, nettverk, kjøling, strøm) Lav (administrerte tjenester); middels (selvadministrert på IaaS) Inaktivitetskostnad Maskinvare avskrives enten den brukes eller ikke Skalering til null er mulig Nødvendig kompetanse Infrastruktur + ML ML + skyarkitektur Trenden Opsio ser blant mellomstore og store nordiske kunder: tren i skyen, distribuer inferens der det gir mening. For en dagligvareaktør som kjører datasyn i butikk betyr det skytrening med edge-inferens på NVIDIA Jetson eller AWS Panorama-enheter. For et SaaS-selskap lever både trening og inferens i skyen med autoskalering. Grunnmodeller og generativ AI i skyen Den generative AI-bølgen har gjort tilgang til grunnmodeller til en førsteklasses skytjeneste. AWS Bedrock, Azure OpenAI Service og Google Vertex AI Model Garden gir API-tilgang til modeller fra Anthropic, OpenAI, Meta, Mistral med flere. Dette er relevant for ML-strategien i skyen fordi: 1. Finjustering erstatter trening fra bunnen av for mange bruksområder. I stedet for å trene en tekstklassifikator fra null, finjusterer du en grunnmodell på dine domenedata. Dette kutter beregningskostnader og tid dramatisk. 2. Retrieval-Augmented Generation (RAG) -pipelines kombinerer vektordatabaser (Amazon OpenSearch Serverless, Azure AI Search, Pinecone, Weaviate) med grunnmodeller for å forankre utdata i virksomhetsdata – noe som reduserer hallusinering og øker relevans. 3. Ansvarlig AI-styring blir kritisk. Modellevaluering, innholdsfiltrering og revisjonslogging er innebygd i Bedrock Guardrails, Azure AI Content Safety og Vertex AIs sikkerhetsfiltre. Europeiske organisasjoner underlagt AI-forordningen (som trådte i kraft trinnvis fra 2024) trenger disse kontrollene dokumentert. Norske virksomheter bør følge med på gjennomføringen av AI-forordningen i norsk rett via EØS-avtalen. Opsios anbefaling: bruk administrerte grunnmodell-API-er for prototyping og lav-til-middels-volum inferens. For høy-gjennomstrømnings inferens eller når du trenger full kontroll over modellvektene (av etterlevelses- eller tilpasningsgrunner), distribuer åpne modeller (Llama 3, Mistral, Gemma) på dedikerte GPU-instanser bak din egen inferensserver. Kom i gang: Et pragmatisk veikart 1. Revider dataene dine. Før du velger noen ML-plattform, kartlegg hvilke data du har, hvor de befinner seg, kvaliteten og styringsklassifiseringen. ML-modeller er bare så gode som treningsdataene sine. 2. Velg én ML-plattform i skyen og gå i dybden. Motstå fristelsen til å evaluere alle tre samtidig. Dersom organisasjonen primært kjører på AWS, start med SageMaker. Azure-basert? Azure ML. Byttekostnaden er lavere enn du tror dersom du kontaineriserer treningskoden. 3. Invester i MLOps før du skalerer antall modeller. Én modell i produksjon med ordentlig overvåking , gjentreningspipelines og driftdeteksjon er verdt mer enn ti modeller i notebooks. 4. Sett kostnadsrekkverk fra dag én. Budsjettvarsler, spot-instanspolicyer og regler for autoskalering av endepunkter bør være på plass før den første treningsjobben starter. 5. Involver etterlevelse tidlig. Dersom du behandler personopplysninger eller opererer i en regulert sektor, involver personvernombudet og etterlevelseteamet under utformingen av datapipelinen – ikke etter at modellen er i produksjon. administrerte skytjenester Ofte stilte spørsmål Hva er maskinlæring i skyen? Maskinlæring i skyen innebærer å bruke infrastruktur fra skytjenesteleverandører – GPU/TPU-beregning, administrerte treningstjenester, feature stores og inferens-endepunkter – i stedet for lokal maskinvare. Det flytter kapitalutgifter til driftskostnader, lar team skalere treningsjobber elastisk og fjerner byrden med å vedlikeholde GPU-drivere, CUDA-stakker og nettverksfabrikk. Er ChatGPT AI eller ML? ChatGPT er begge deler. Det er et AI-produkt bygget på en stor språkmodell (GPT) som ble trent med maskinlæringsteknikker – nærmere bestemt veiledet finjustering og forsterkningslæring fra menneskelig tilbakemelding (RLHF). ML er metoden; AI er det bredere fagfeltet. ChatGPT er en anvendelse av ML innenfor AI-feltet. Hva er de fire typene maskinlæring? De fire vanligste typene er veiledet læring (merket treningsdata), uveiledet læring (uten merking, mønstergjenkjenning), semi-veiledet læring (lite merket datasett kombinert med stort umerket datasett) og forsterkningslæring (agent lærer via belønningssignaler). Noen taksonomier folder semi-veiledet inn i veiledet; andre legger til selvveiledet læring som en femte kategori. Er lokal ML fortsatt levedyktig sammenlignet med ML i skyen? For latensskritisk edge-inferens eller luftgapte miljøer med strenge krav til datasuverenitet er lokal ML fortsatt relevant. Men for iterativ trening, elastisk skalering og tilgang til de nyeste GPU-generasjonene er skyen mer praktisk. De fleste organisasjoner kjører en hybridmodell: trener i skyen og kjører inferens nærmere datakildene der latens eller regulering krever det. Hvordan påvirker GDPR maskinlæringstrening i skyen? GDPR krever et lovlig behandlingsgrunnlag for personopplysninger som brukes i trening. Du må dokumentere datalinjer, etterkomme slettekrav (som kan komme i konflikt med modellmemorisering) og sikre at overføringer på tvers av landegrenser er i tråd med kapittel V-bestemmelsene. Trening på personopplysninger om EØS-borgere i en ren USA-region uten tilstrekkelige sikkerhetstiltak er et brudd på regelverket. Differensiell personvern og dataanonimiseringspipelines bidrar til å redusere risikoen.

Funksjonalitet	AWS (SageMaker)	Azure (Azure ML)	GCP (Vertex AI)
Administrerte notebooks	SageMaker Studio (JupyterLab-basert)	Azure ML Studio Notebooks	Vertex AI Workbench (JupyterLab)
Treningsorkestrering	SageMaker Training Jobs, SageMaker Pipelines	Azure ML Pipelines, Designer (lavkode)	Vertex AI Training, Vertex AI Pipelines (Kubeflow-basert)
AutoML	SageMaker Autopilot	Azure AutoML	Vertex AI AutoML
Modellregister	SageMaker Model Registry	Azure ML Model Registry	Vertex AI Model Registry
Inferenshosting	SageMaker Endpoints (sanntid, serverless, asynkron)	Azure ML Managed Online/Batch Endpoints	Vertex AI Prediction (online/batch)
Spesialtilpassede akseleratorer	Trainium / Inferentia (AWS-egenutviklet silisium)	N/A (NVIDIA-basert)	TPU v5e / v5p
Tilgang til grunnmodeller	Bedrock (Anthropic, Meta, Cohere m.fl.)	Azure OpenAI Service (GPT-4o, o1)	Vertex AI Model Garden (Gemini, åpne modeller)
EU-regiondekning	Frankfurt, Irland, Stockholm (eu-north-1), Milano, Paris, Zürich, Spania	Flere EU-regioner inkl. Sweden Central	Nederland, Finland, Belgia, Tyskland, Italia

Faktor	Lokalt (on-premises)	ML i skyen
Forhåndskostnad	Høy (GPU-servere, nettverk, kjøling)	Ingen (betal per bruk)
Skalering	Uker for å anskaffe maskinvare	Minutter for å starte instanser
Nyeste akseleratorer	6–12 måneders anskaffelsessyklus	Tilgjengelig ved lansering eller kort tid etter
Datasuverenitet	Full fysisk kontroll	Avhengig av regionvalg og leverandørgarantier
Latens (inferens)	Lav dersom data er lokalt	Variabel; edge-distribusjonsalternativer finnes
Operasjonell byrde	Høy (drivere, CUDA, nettverk, kjøling, strøm)	Lav (administrerte tjenester); middels (selvadministrert på IaaS)
Inaktivitetskostnad	Maskinvare avskrives enten den brukes eller ikke	Skalering til null er mulig
Nødvendig kompetanse	Infrastruktur + ML	ML + skyarkitektur

Maskinlæring i skyen: Bygg, distribuer og skaler ML i produksjon

Maskinlæring i skyen: Bygg, distribuer og skaler ML i produksjon

Nøkkelpunkter

Hvorfor maskinlæring kjøres i skyen

Trenger dere hjelp med cloud?

Sammenligning av ML-plattformene hos de store skyleverandørene

De fire typene maskinlæring (og hvor skyen passer inn)

Veiledet læring

Uveiledet læring

Semi-veiledet og selvveiledet læring

Forsterkningslæring

Bygge en ML-pipeline som faktisk leverer

Dataversjonering og feature engineering

Eksperimentsporing

Kontinuerlig trening og CI/CD for modeller

Modelloverervåking i produksjon

Kostnadskontroll for ML-arbeidsbelastninger

Praktiske strategier for kostnadsreduksjon

Etterlevelse og datasuverenitet for ML i EØS

GDPR og NIS2

Digitaliseringsdirektoratets veiledning

SOC 2 og ISO 27001

Lokalt vs. skyen for ML: En ærlig sammenligning

Grunnmodeller og generativ AI i skyen

Kom i gang: Et pragmatisk veikart

Ofte stilte spørsmål

Hva er maskinlæring i skyen?

Er ChatGPT AI eller ML?

Hva er de fire typene maskinlæring?

Er lokal ML fortsatt levedyktig sammenlignet med ML i skyen?

Hvordan påvirker GDPR maskinlæringstrening i skyen?