Update articol:

DeepSeek din China lansează un model AI de ultimă generație

  • DeepSeek a anunțat luni lansarea unei versiuni experimentale a modelului său actual DeepSeek-V3.1-Terminus.

  • În ciuda speculațiilor privind formarea unei bule, AI rămâne în centrul competiției geopolitice, SUA și China luptându-se pentru locul întâi.

Cel mai recent model experimental al startup-ului chinez DeepSeek promite să crească eficiența și să îmbunătățească capacitatea AI de a gestiona o mulțime de informații la un cost redus, dar rămân întrebări cu privire la eficacitatea și siguranța arhitecturii, potrivit CNBC.

DeepSeek a provocat frenezia în Silicon Valley când a lansat primul său model R1 anul trecut, demonstrând că este posibil să se antreneze rapid modele lingvistice de mari dimensiuni (LLM) pe cipuri mai puțin puternice, folosind mai puține resurse.

Compania a lansat luni DeepSeek-V3.2-Exp, o versiune experimentală a modelului său actual DeepSeek-V3.1-Terminus, care se bazează în continuare pe misiunea sa de a crește eficiența sistemelor de IA, potrivit unei postări pe forumul de IA Hugging Face.

„DeepSeek V3.2 continuă să se concentreze pe eficiență, reducerea costurilor și partajarea open-source”, a declarat Adina Yakefu, liderul comunității chineze la Hugging Face, pentru CNBC. „Marea îmbunătățire este o nouă caracteristică numită DSA (DeepSeek Sparse Attention), care face ca AI-ul să fie mai bun în gestionarea documentelor și conversațiilor lungi. De asemenea, reduce costul de funcționare al AI-ului la jumătate în comparație cu versiunea anterioară.”

„Este important deoarece ar trebui să facă modelul mai rapid și mai rentabil de utilizat, fără o scădere semnificativă a performanței”, a declarat Nick Patience, vicepreședinte și lider de practică pentru AI la The Futurum Group. „Acest lucru face ca AI-ul puternic să fie mai accesibil pentru dezvoltatori, cercetători și companii mai mici, ceea ce ar putea duce la o serie de aplicații noi și inovatoare.”

Avantajele și dezavantajele “atenției dispersate”

Un model AI ia decizii pe baza datelor sale de antrenament și a informațiilor noi, cum ar fi o solicitare. Să presupunem că o companie aeriană dorește să găsească cea mai bună rută de la A la B. Deși există multe opțiuni, nu toate sunt fezabile. Prin filtrarea rutelor mai puțin viabile, se reduce dramatic timpul, combustibilul și, în cele din urmă, banii necesari pentru a efectua călătoria. Exact asta face atenția dispersată: ia în considerare doar datele pe care le consideră importante pentru sarcina respectivă, spre deosebire de alte modele de până acum, care au prelucrat toate datele din model.

„Practic, elimini lucrurile pe care le consideri neimportante”, a spus Ekaterina Almasque, cofondatoare și parteneră administrativă a noului fond de capital de risc BlankPage Capital.

Atenția sporadică este un avantaj pentru eficiență și capacitatea de a scala IA, având în vedere că sunt necesare mai puține resurse, dar o preocupare este că ar putea duce la o scădere a fiabilității modelelor din cauza lipsei de supraveghere a modului și motivului pentru care se ignoră informațiile.

„Realitatea este că [modelele de atenție sporadică] au pierdut multe nuanțe”, a spus Almasque, care a fost unul dintre primii susținători ai Dataiku și Darktrace și investitor în Graphcore. „Și atunci adevărata întrebare este: aveau mecanismul potrivit pentru a exclude datele neimportante sau există un mecanism care exclude datele cu adevărat importante, iar rezultatul va fi mult mai puțin relevant?”

Acest lucru ar putea fi deosebit de problematic pentru siguranța și incluziunea AI, a remarcat investitorul, adăugând că s-ar putea să nu fie „cel mai optim sau cel mai sigur” model de AI de utilizat în comparație cu concurenții sau arhitecturile tradiționale.

DeepSeek, însă, afirmă că modelul experimental funcționează la fel de bine ca V3.1-Terminus. În ciuda speculațiilor privind formarea unei bule, IA rămâne în centrul competiției geopolitice, SUA și China luptându-se pentru primul loc. Yakefu a remarcat că modelele DeepSeek funcționează „din prima” cu cipuri AI fabricate în China, precum Ascend și Cambricon, ceea ce înseamnă că pot rula local pe hardware intern fără nicio configurare suplimentară.

DeepSeek a împărtășit, de asemenea, codul de programare și instrumentele necesare pentru utilizarea modelului experimental, a spus ea. „Acest lucru înseamnă că alte persoane pot învăța din el și pot crea propriile îmbunătățiri.”

Dar pentru Almasque, însăși natura acestui lucru înseamnă că tehnologia ar putea să nu fie defensibilă. „Abordarea nu este foarte nouă”, a spus ea, menționând că industria „vorbește despre modele rare din 2015” și că DeepSeek nu poate breveta tehnologia sa din cauza faptului că este open source. Prin urmare, avantajul competitiv al DeepSeek trebuie să rezide în modul în care decide ce informații să includă, a adăugat ea.

Compania însăși recunoaște că V3.2-Exp este un „pas intermediar către arhitectura noastră de nouă generație”, conform postării Hugging Face.
După cum a subliniat Patience, „aceasta este valoarea DeepSeek în ansamblu: eficiența devine la fel de importantă ca puterea brută”.
„DeepSeek joacă pe termen lung pentru a menține comunitatea interesată de progresul său”, a adăugat Yakefu. „Oamenii vor alege întotdeauna ceea ce este ieftin, fiabil și eficient”.

BVB | Știri BVB

CEC 2028 EURO (CECRO28E) (30/09/2025)

Rezultat financiar interimar S1 2025

CEC 2029 EURO (CECRO29E) (30/09/2025)

Rezultat financiar interimar S1 2025

FONDUL PROPRIETATEA (FP) (30/09/2025)

Hotarari AGA O & E 29 septembrie 2025

LION CAPITAL S.A. (LION) (30/09/2025)

Raport semestrial consolidat S1 2025