
Google DeepMind presenterade den 5 augusti 2025 Genie 3 — en världsmodell som genererar interaktiva miljöer från textbeskrivningar i realtid. Användaren kan navigera i de genererade världarna vid 24 bilder per sekund i 720p-upplösning. För projektledare inom simulering, utbildning, robotik och spel är tekniken relevant som ett konkret steg mot AI-genererade tränings- och testmiljöer.
Genie 3 – huvudpunkter
- Genie 3 är Google DeepMinds första världsmodell som möjliggör realtidsinteraktion. Användaren kan navigera i AI-genererade miljöer vid 24 bilder per sekund i 720p-upplösning, med konsistens i flera minuter (källa: Google DeepMind, 2025-08-05).
- Genie 3 introducerar “promptable world events” — möjligheten att ändra den genererade världen med textkommandon under pågående session. Det inkluderar väderförändringar, introduktion av nya objekt och karaktärer samt kontrafaktiska “vad om”-scenarion (källa: Google DeepMind, 2025-08-05).
- Miljöernas visuella minne sträcker sig upp till en minut bakåt. Det gör att modellen kan hålla miljön konsistent när användaren återvänder till en plats den besökt tidigare (källa: Google DeepMind, 2025-08-05).
- Google DeepMind testade Genie 3 som träningsmiljö för SIMA-agenten — deras generalistiska AI-agent för 3D-miljöer. Agenten skickade navigationsåtgärder till Genie 3 för att uppnå specifika mål, utan att Genie 3 kände till agentens mål (källa: Google DeepMind, 2025-08-05).
- Genie 3 lanseras som begränsad forskningsförhandsgranskning med tillgång för en liten grupp akademiker och skapare. Google DeepMind anger att detta möjliggör insamling av feedback och tvärvetenskapliga perspektiv (källa: Google DeepMind, 2025-08-05).
- Kända begränsningar inkluderar begränsat handlingsutrymme för agenter, svårigheter att modellera interaktioner mellan flera oberoende agenter, bristande geografisk precision för verkliga platser, inkonsekvent textrendering och en maximal interaktionslängd på några minuter (källa: Google DeepMind, 2025-08-05).
- Google DeepMind anger att Genie 3 kan skapa möjligheter för utbildning och träning, ge träningsutrymme för robotar och autonoma system samt möjliggöra utvärdering av agenters prestanda och svagheter (källa: Google DeepMind, 2025-08-05).
Vad detta betyder för projektledare
- Simulerade träningsmiljöer utan manuell miljöskapande. Genie 3 kan generera träningsscenarier från textbeskrivningar. Det är relevant för projekt inom robotik, autonoma system och operatörsutbildning — miljöer som tidigare krävde manuellt byggda simulatorer kan i framtiden genereras på begäran.
- Kontrafaktiska scenarion för riskanalys. Promptable world events möjliggör “vad om”-scenarion i realtid. För projektledare inom säkerhetskritiska branscher — transport, energi, försvar — öppnar det för en ny typ av riskanalys och stresstest av AI-agenter i simulerade miljöer.
- Tekniken är i forskningsstadiet — inte produktionsmogen. Genie 3 lanseras som begränsad forskningsförhandsgranskning med en rad kända begränsningar. Projektledare bör inte planera för produktionsanvändning i närtid, men bör följa tekniken som ett område att bevaka i treåriga AI-roadmaps.
- Världsmodeller är en nyckelkomponent mot AGI. Google DeepMind beskriver världsmodeller som en central del på vägen mot AGI. Projektledare som arbetar med långsiktig AI-strategi bör följa hur Genie-tekniken mognar och sprids till kommersiella tillämpningar.
Begrepp i artikeln
- Världsmodell (world model): AI-system som simulerar hur en miljö förändras och hur handlingar påverkar den — används för att träna agenter utan att de behöver interagera med den verkliga världen.
- Promptable world events: Genie 3:s funktion för att ändra den genererade miljön med textkommandon under pågående session — exempelvis lägga till regn eller introducera ett nytt objekt.
- SIMA-agenten: Google DeepMinds generalistiska AI-agent för 3D-miljöer, testad som navigationsagent i Genie 3-genererade världar.
- NeRF/Gaussian Splatting: Alternativa tekniker för konsistenta navigerbara 3D-miljöer som kräver en explicit 3D-representation — till skillnad från Genie 3 som genererar frame för frame.
Vanliga frågor
Vad är Genie 3? Genie 3 är Google DeepMinds världsmodell som genererar interaktiva miljöer från textbeskrivningar i realtid. Användaren kan navigera i de genererade världarna vid 24 bilder per sekund i 720p-upplösning, med miljökonsistens i flera minuter (källa: Google DeepMind, 2025-08-05).
Vad är promptable world events i Genie 3? Promptable world events är en funktion i Genie 3 som låter användaren ändra den genererade miljön med textkommandon under pågående session. Det inkluderar väderförändringar, introduktion av nya objekt och kontrafaktiska scenarion som “vad händer om det börjar brinna?” (källa: Google DeepMind, 2025-08-05).
Kan Genie 3 användas för att träna AI-agenter? Ja. Google DeepMind testade Genie 3 som träningsmiljö för SIMA-agenten. Agenten navigerade i Genie 3-genererade världar för att uppnå specifika mål. DeepMind anger att världsmodeller är en nyckelkomponent för att träna AI-agenter i obegränsade simulerade miljöer.
Vilka är Genie 3:s nuvarande begränsningar? Begränsningarna inkluderar ett begränsat handlingsutrymme för agenter, svårigheter att modellera interaktioner mellan flera agenter, bristande geografisk precision för verkliga platser, inkonsekvent textrendering och en maximal interaktionslängd på några minuter (källa: Google DeepMind, 2025-08-05).
Källa: Genie 3: A new frontier for world models / Google DeepMind, Jack Parker-Holder och Shlomi Fruchter, publicerad 2025-08-05.
Läs även
- Gemini 3.1 Flash Image – Googles AI-modell för bildgenerering
- Google Veo 3 och deepfake-risker – vad AI-genererade videor betyder
- Framtidens projektledning: AI som verktyg för förutsägelse och planering
