DeepSeek: Ett uppvaknande för AI-världen
DeepSeek, en kinesisk AI-startup, skickade nyligen chockvågor genom teknikindustrin. Dess AI-drivna app sköt i höjden till toppen av den amerikanska App Stores gratis nedladdningslistor, samtidigt som Nvidias aktie sjönk dramatiskt med 17%, vilket resulterade i nästan 600 miljarder dollar lägre marknadsvärde. Denna omvälvning har väckt en avgörande fråga: Är DeepSeek en verklig förändrare, eller är uppståndelsen kring den överdriven? Verkligheten är nyanserad, men en sak är klar: DeepSeeks uppgång signalerar ett betydande skifte i AI-landskapet, ett som i slutändan kommer att gynna området som helhet.
Bortom hypen: Var DeepSeek verkligen står och vem står bakom?
Även om DeepSeeks snabba uppgång är imponerande, är det viktigt att skilja mellan hype och verklighet. Mycket av uppståndelsen kring företaget blandar ihop framgången för dess populära app med kapaciteten hos dess mest avancerade modell, DeepSeek R1. Appen använder emellertid V3-modellen, som släpptes i december. Även om V3 presterar bra, rankas den för närvarande på 8:e plats på lmarena.ai:s ledartavla, ett allmänt erkänt system för att ranka AI-språkmodeller. Den ligger efter etablerade branschledare som OpenAIs ChatGPT 4o, Anthropics Claude och Googles Gemini. Detta understryker en viktig punkt: DeepSeek är en stark utmanare, men ännu inte en dominerande kraft. Dessutom fokuserar nuvarande utvärderingar av DeepSeeks modeller främst på engelska och kinesiska. Det finns begränsade data tillgängliga för att bedöma deras prestanda på andra språk, särskilt europeiska, vilket väcker frågor om deras verkliga globala tillämplighet.
Det är också viktigt att förstå att DeepSeek inte är ett litet sidoprojekt. Det backas upp och ägs av High-Flyer, en kinesisk hedgefond som 2020 förvaltade tillgångar på över 7 miljarder dollar. Deras team består av olympiska medaljörer i matematik, fysik och informatik. De förfogar dessutom över en betydande beräkningskraft med cirka 50 000 GPU:er.
Öppen källkod-revolutionen: Hur kinesiska företag, inklusive DeepSeek, förändrar spelplanen
En stor trend inom AI är kinesiska företags, som DeepSeek, satsning på öppen källkod. Detta skiljer sig från västerländska teknikjättars slutna modeller. Genom att bygga på öppet tillgänglig kod har de vunnit mark i AI-sfären, trots försök att marginalisera dem (t.ex. Mistral utesluter Qwen). Denna öppna modell sänker trösklarna för AI-utveckling, ökar konkurrensen och visar att öppen källkod driver innovation och adoption. Trenden där kunskapsdelning är centralt påverkar marknaden och AI:s framtid.
Illusionen om billig AI: Jevons paradox i praktiken
Det är avgörande att förstå de verkliga kostnaderna förknippade med både utveckling och driftsättning av banbrytande AI-modeller som DeepSeek R1. Tidiga rapporter antydde felaktigt att DeepSeeks utvecklingskostnader var under 6 miljoner dollar. Verkligheten är betydligt mer komplex. Beräkningen för enbart basmodellen (exklusive förstärkningsinlärning) förbrukade GPU-timmar motsvarande 5,5 miljoner dollar. Denna siffra tar inte hänsyn till de många ablationer, mindre experimentella körningar, datagenerering eller någon av den efterföljande träning som krävs för att skapa den avancerade DeepSeek R1-modellen.
Utöver utvecklingen är en vanlig missuppfattning att billigare träning automatiskt leder till billig driftsättning. Detta förbiser de betydande beräkningsresurser som krävs för att köra dessa modeller, särskilt i stor skala. Den verkliga DeepSeek R1-modellen, till exempel, är en massiv 671B Mixture of Experts (MoE)-modell. Den kräver betydande hårdvara, hela 16 stycken 80 GB H100 GPU:er, som var och en kostar runt 30 000 dollar. Detta illustrerar en grundläggande sanning: att driftsätta AI-modeller för miljontals användare är beräkningsintensivt och dyrt. Även välfinansierade företag som Anthropic, med miljarder i resurser, måste begränsa åtkomsten för stora kunder på grund av dessa inneboende infrastrukturkostnader.
Denna situation är ett praktiskt exempel på Jevons paradox: när en teknik gör resursanvändningen mer effektiv tenderar vi att använda mer av den, inte mindre, vilket ofta upphäver de initiala kostnadsbesparingarna. Den ökande efterfrågan på och komplexiteten hos AI-modeller kommer sannolikt att fortsätta driva upp driftsättningskostnaderna, oavsett potentiella effektivitetsvinster under utvecklingsfasen.
DeepSeeks hemliga vapen: Förenkla AI-träning
DeepSeeks tekniska fördel kommer från att förenkla hur AI-modeller tränas. De har kombinerat flera komplexa metoder till en strömlinjeformad process.
Här är en snabb titt på några grundläggande träningsprinciper:
- Förstärkningsinlärning (RL): Modellen lär sig som ett spel och får belöningar för bra handlingar och straff för dåliga.
- Övervakad finjustering (SFT): Omskolning av en modell med märkta exempel för att förbättra den på en specifik uppgift.
- Flerstegsträning: Träna modellen i faser, som att gå upp i nivå.
DeepSeek-R1-Zero: Experimentet
DeepSeek-R1-Zero tränades endast med hjälp av RL, utan märkt data. Detta är som att lära sig cykla utan stödhjul. Det är långsammare till en början, men det hoppar över det kostsamma steget att skapa märkta datamängder. Denna modell presterade förvånansvärt bra och matchade OpenAIs O1 på vissa tester.
GRPO: Ingen ”tränare” behövs
Traditionell RL använder en ”tränare” (kritiker) som förlitar sig på märkt data. DeepSeek använde Group Relative Policy Optimization (GRPO), som inte behöver en tränare. Istället poängsätts modellens utdata baserat på enkla regler som koherens och flyt. Modellen lär sig genom att jämföra sina poäng med andras.
DeepSeek-R1: Den förfinade modellen och dess kapacitet
För att förbättra R1-Zero använde DeepSeek ett flerstegs tillvägagångssätt för R1:
- Grund: Börja med en basmodell och en del grundläggande ”kallstart”-data.
- Resonemangsboost: Använd ren RL för att förbättra resonemangsförmågan.
- Självförbättring: Modellen skapar sin egen märkta data (syntetisk data) från sina bästa utdata.
- Kunskapsexpansion: Kombinera dessa nya data med andra övervakade data.
- Finslipning: En sista runda av RL för övergripande förbättring.
Denna steg-för-steg-process ledde till att DeepSeek-R1-modellen uppnådde höga poäng på olika riktmärken. Och ja, DeepSeek R1 671B-modellen är riktigt bra! De har också bidragit med värdefullt arbete inom öppen källkod och vetenskap i över två år. Det är värt att notera att de har släppt 6 “destillerade” versioner av R1, som är finjusterade Qwen- och Llamamodeller tränade på 800 000 exempel (utan RL). Den minsta av dessa, på 1,5B parametrar, kan köras lokalt men är inte i närheten av R1:s kapacitet.
ChatGPT-skuggan: Frågor om dataursprung
Viskningar inom AI-gemenskapen tyder på att DeepSeek kan ha använt data genererade av ChatGPT för att träna sina modeller. Även om detta är obekräftat, väcker det frågor om det verkliga oberoendet av deras utveckling och belyser den sammankopplade naturen hos AI-världen, där det kan vara utmanande att spåra ursprunget till träningsdata. Det är också värt att notera att den hostade versionen på chat.deepseek.com kan använda dina data för att träna nya modeller (enligt deras användarvillkor).
En ljusglimt: Varför DeepSeek-hypen spelar roll
Trots behovet av ett balanserat perspektiv på DeepSeeks nuvarande kapacitet, och en korrigering av vissa missuppfattningar, är uppmärksamheten kring företaget i slutändan en positiv kraft för AI-utveckling. Den ökade konkurrensen som drivs av aktörer som DeepSeek tvingar alla inom fältet att innovera snabbare. Den öppna källkodsstrategi som antagits av kinesiska företag främjar ett mer samarbetsvilligt och inkluderande AI-ekosystem. Sänkta inträdeshinder innebär att fler begåvade hjärnor kan bidra till framstegen inom AI.
Även om DeepSeek kanske inte avsätter AI-jättar ännu, fungerar hypen kring dem som en avgörande väckarklocka. AI-landskapet utvecklas i en rasande takt, och framtiden för fältet kommer att formas av ökad konkurrens, samarbete kring öppen källkod och en global kapplöpning om innovation. Denna dynamiska miljö lovar att driva framsteg som fundamentalt kommer att omforma det tekniska landskapet och gynna oss alla.
Se alla våra lediga utvecklare här.
Författare/ Andrey K. / Senior utvecklare