AI-produktivitet för utvecklare: Studie visar 19% nedgång

AI-produktivitet för utvecklare – är det verkligen så enkelt som vi tror? En uppmärksammad studie från METR (Model Evaluation & Threat Research) visar överraskande resultat: erfarna open source-utvecklare blev 19% långsammare när de använde AI-verktyg. Och det trots att både utvecklarna själva, ML-experter och ekonomer förväntade sig betydande tidsbesparingar. För projektledare är detta en viktig varningsklocka.

Studiens upplägg

Forskarna genomförde en randomiserad kontrollerad studie (RCT) – guldstandarden för kausal evidens:

16 utvecklare med i genomsnitt 5 års erfarenhet av sina respektive repositories
246 uppgifter på mogna open source-projekt (genomsnitt 23 000 stjärnor på GitHub)
2 timmar genomsnittlig uppgiftslängd
Varje uppgift slumpmässigt tilldelad: AI tillåtet eller AI förbjudet
Skärminspelningar för verifiering och analys

AI-verktygen: Cursor Pro med Claude 3.5/3.7 Sonnet (frontier-modeller februari–juni 2025).

Praktisk åtgärd: Var skeptisk mot produktivitetslöften. Mät själv i din kontext.

Det överraskande resultatet

Alla förväntade sig att AI skulle snabba upp utvecklarna:

Källa	Förväntad tidsbesparing
Utvecklarnas prognos (före)	24% snabbare
Utvecklarnas uppskattning (efter)	20% snabbare
ML-experter	38% snabbare
Ekonomer	39% snabbare

Faktiskt resultat: 19% långsammare.

Utvecklare tog 19% längre tid att slutföra uppgifter när de använde AI-verktyg.

Praktisk åtgärd: Experta förutsägelser kan vara fundamentalt fel. Lita på empirisk data från din egen miljö.

Varför även utvecklarna hade fel

Det mest anmärkningsvärda: även efter att ha genomfört studien trodde utvecklarna fortfarande att de hade blivit snabbare. De uppskattade 20% tidsbesparing – trots att de faktiskt var 19% långsammare.

Detta visar en djup kognitiv bias: vi tror att AI hjälper oss, även när det inte gör det.

Praktisk åtgärd: Subjektiva upplevelser är opålitliga för att mäta AI-produktivitet. Använd objektiva mätvärden.

Hur tiden spenderades

Genom manuell analys av 143 timmar skärminspelningar kartlade forskarna hur tiden fördelades:

Med AI tillåtet spenderade utvecklare:

Mindre tid på aktiv kodning
Mindre tid på att läsa/söka information
Mer tid på att prompta AI-system
Mer tid på att vänta på AI-generationer
Mer tid på att granska AI-output
Mer tid idle/inaktiva

Praktisk åtgärd: AI-användning innebär inte automatiskt produktivitet. Tid som “sparas” kan gå åt till AI-hantering.

Fem faktorer som bidrog till nedgången

Studien identifierade 21 potentiella faktorer och fann evidens för att fem bidrog till nedgången:

1. Överoptimism om AI:s användbarhet Utvecklare trodde AI skulle hjälpa mer än det gjorde och investerade tid i verktyg som inte levererade.

2. Hög utvecklarfamiljaritet med repositories Utvecklare som kände sina kodbaser väl blev mer nedslagna av AI. Deras expertkunskap var svår för AI att matcha.

3. Stora och komplexa repositories AI presterade sämre i stora, komplexa miljöer med över 1 100 000 rader kod.

4. Låg AI-tillförlitlighet Utvecklare accepterade mindre än 44% av AI-generationer. Majoriteten rapporterade att de gjorde stora ändringar för att städa upp AI-kod. 9% av tiden gick åt till att granska/rensa AI-output.

5. Implicit repository-kontext AI saknade tillgång till viktig tyst kunskap och kontext som erfarna utvecklare har internaliserat.

Praktisk åtgärd: Förvänta dig lägre AI-nytta för erfarna teammedlemmar i komplexa, mogna kodbaser.

Kursinfo: AI för projektledare

Vad studien INTE säger

Forskarna är tydliga med begränsningar:

Resultaten gäller specifikt erfarna utvecklare på mogna projekt
Tidigare forskning visar att AI hjälper oerfarna utvecklare mer
Framtida AI-modeller kan prestera bättre
Bättre prompting/scaffolding kan förbättra resultat

Studien säger inte att AI är värdelöst – den säger att effekten beror på kontext.

Praktisk åtgärd: Differensiera AI-strategin baserat på erfarenhetsnivå och projektkomplexitet.

Benchmark vs. verklighet

Studien adresserar ett kritiskt gap: AI presterar imponerande på benchmarks (HumanEval, SWE-bench) men dessa är artificiella och självständiga uppgifter.

Verklig utveckling involverar:

Stora, evolverande kodbaser
Teamkoordinering med olika kodstandarder
Integration med befintliga verktygskedjor
Tyst kunskap och organisatorisk kontext

Praktisk åtgärd: Benchmark-resultat översätts inte automatiskt till produktionsnytta.

Implikationer för projektledare

Studien har flera direkta implikationer:

Mät faktisk produktivitet, inte upplevd. Utvecklares subjektiva uppfattning var helt fel.
Var försiktig med generalisering. AI som hjälper juniorer kan sakta ner seniorer.
Kontext avgör. Stora, komplexa projekt med erfarna team är svårare att AI-assistera.
Räkna med inlärningskostnader. Även med träning såg studien ingen tydlig inlärningseffekt över 30-50 timmar.
Ifrågasätt expertkonsensus. ML-experter och ekonomer var fundamentalt fel i sina förutsägelser.

Vad bör du göra?

Baserat på studien:

Pilotprojekt med mätning. Innan bred utrullning, mät faktisk produktivitet i din miljö.
Segmentera efter erfarenhet. AI-strategin bör skilja mellan juniora och seniora utvecklare.
Projekttyp spelar roll. Nya, mindre projekt kan gynnas mer än mogna, komplexa system.
Objektiva mätvärden. Tid till completion, inte självrapporterad upplevelse.
Uppdatera kontinuerligt. AI-kapacitet förändras snabbt – dagens resultat kanske inte gäller om ett år.

Slutsats

Denna studie är en påminnelse om vikten av rigorös mätning. AI-hype är reell, men faktiska produktivitetseffekter varierar dramatiskt beroende på kontext.

För projektledare är budskapet: lita inte blint på löften – varken från leverantörer, experter eller ditt eget team. Mät, analysera och anpassa.

Och var beredd på att resultaten kan överraska dig.

Källa: “Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity” av Joel Becker, Nate Rush, Beth Barnes och David Rein, METR (Model Evaluation & Threat Research), publicerad 25 juli 2025.

Tillbaka till artiklarna

När AI saktar ner istället för att snabba upp: Kontroversiell studie utmanar antaganden

Studiens upplägg

Det överraskande resultatet

Varför även utvecklarna hade fel

Hur tiden spenderades

Fem faktorer som bidrog till nedgången

Vad studien INTE säger

Benchmark vs. verklighet

Implikationer för projektledare

Vad bör du göra?

Slutsats