Globalt
Det kinesiska AI-företaget DeepSeek har skakat om teknikvärlden med lanseringen av extremt effektiva AI-modeller som kan konkurrera med topprodukter från amerikanska företag som OpenAI och Anthropic. Grundat 2023, har DeepSeek uppnått sina resultat med en bråkdel av de resurser som konkurrenterna använt.
DeepSeeks ”reasoning” R1-modell, lanserad förra veckan, väckte entusiasm bland forskare, chock hos investerare och respons från AI-jättar. Företaget följde upp med en modell som kan hantera både bilder och text den 28 januari.
Vad har DeepSeek gjort?
I december lanserade DeepSeek sin V3-modell, en kraftfull ”standard” stor språkmodell som presterar på samma nivå som OpenAIs GPT-4 och Anthropics Claude 3.5. Dessa modeller kan utföra uppgifter som att svara på frågor, skriva essäer och generera kod, men de är också benägna att göra fel och ibland uppfinna egna fakta. På vissa problem-lösande och matematiska test presterar de bättre än genomsnittet av människor.
V3 tränades till en kostnad av cirka 5,58 miljoner dollar, vilket är dramatiskt billigare än GPT-4, som kostade över 100 miljoner dollar att utveckla. DeepSeek påstår sig också ha tränat V3 med cirka 2 000 specialiserade datorchip, specifikt NVIDIAs H800 GPU:er, vilket är betydligt färre än vad andra företag använt.
Den 20 januari lanserade DeepSeek sin R1-modell, en ”reasoning”-modell som försöker lösa komplexa problem steg för steg. Denna modell verkar vara bättre på många uppgifter som kräver sammanhang och har flera inbördes relaterade delar, som läsförståelse och strategisk planering.
Hur gjorde DeepSeek det?
DeepSeeks genombrott handlar om att uppnå större effektivitet: bra resultat med färre resurser. Företagets utvecklare har varit pionjärer inom två tekniker som kan komma att användas mer brett av AI-forskare.
Den första tekniken handlar om ett matematiskt begrepp kallat ”sparsity”. AI-modeller har många parametrar som bestämmer deras svar på indata (V3 har cirka 671 miljarder), men endast en liten bråkdel av dessa parametrar används för ett givet indata. DeepSeek använde en ny teknik för att förutse vilka parametrar som kommer att behövas och tränade endast dessa. Som ett resultat behövde deras modeller betydligt mindre träning än en konventionell metod.
Den andra tekniken handlar om hur V3 lagrar information i datorns minne. DeepSeek har funnit ett smart sätt att komprimera relevanta data, så att de är lättare att lagra och snabbt komma åt.
Vad betyder det?
DeepSeeks modeller och tekniker har släppts under den fria MIT-licensen, vilket innebär att vem som helst kan ladda ner och modifiera dem. Även om detta kan vara dåliga nyheter för vissa AI-företag, vars vinst kan undermineras av tillgängligheten av kraftfulla, gratis modeller, är det bra nyheter för den bredare AI-forskningsgemenskapen.
För konsumenter kan tillgången till AI bli billigare. Fler AI-modeller kan köras på användarnas egna enheter, som bärbara datorer eller mobiltelefoner, istället för att köra ”i molnet” för en prenumerationsavgift.
För forskare som redan har många resurser kan ökad effektivitet ha mindre effekt. Det är oklart om DeepSeeks metod kommer att hjälpa till att skapa modeller med bättre prestanda överlag, eller enbart modeller som är mer effektiva.
Källa: The Conversation
Taggar: #AI #DeepSeek #Teknik #Effektivitet #Investeringar #Konkurrens