8 miliarde de token-uri pe zi și lecția de arhitectură pe care AT&T a dat-o industriei (analiză Echipa Invergent)

Autor: Laboratoarele invergent.ai

Când AI-ul se lovește zidul scalării, problema nu mai este modelul. Este infrastructura.

Există un moment în viața oricărui sistem de AI în care experimentul se termină și începe realitatea. AT&T a trăit acest moment și a decis să vorbească despre el.

Compania procesa în jur de 8 miliarde de token-uri pe zi prin sistemele sale interne de AI. Un număr care pare impresionant până când îl privești din perspectiva ingineriei: la acea scară, să trimiți totul către modele mari de raționament devine pur și simplu imposibil. E lent, scump și prea fragil.

Soluția nu a venit dintr-un model mai bun. A venit dintr-o arhitectură diferită.

De la un model care face tot la o orchestră de modele specializate

Echipele AT&T au reconstruit stackul. În loc de un singur model mare care gestionează totul, au creat un sistem în care modelele mari coordonează zeci de modele mai mici, fiecare specializat pe un tip specific de task. Modelul mare gândește, planifică, distribuie. Modelele mici execută, rapid și eficient, exact ceea ce știu să facă.

Rezultatele au fost clare:

→ până la 90% reducere a costurilor per request

→ timpi de răspuns semnificativ mai mici

→ throughput crescut de la 8 miliarde la 27 de miliarde de token-uri pe zi

Aceleași resurse hardware, o arhitectură diferită, de trei ori mai mult output.

Viitorul nu este un model gigantic care face totul. Este o colecție de modele specializate care cooperează — iar problema reală de inginerie devine coordonarea lor eficientă.

Nu e prima oară că AT&T rescrie regulile rețelei

Există o ironie frumoasă în această poveste. AT&T este compania care, cu câteva decenii în urmă, a contribuit la definirea arhitecturii rețelelor globale de comunicații. Nu construind fiecare telefon, ci construind sistemul care le conectează.

Internetul, la origine, nu a fost o rețea centralizată. A fost o rețea de rețele. Inteligența era distribuită. Fiecare nod știa să facă ceva specific. Coordonarea era ce conta.

AI-ul se îndreaptă acum spre același punct de inflexiune.

Primii ani ai valului generativ au fost dominați de o singură întrebare: cine construiește cel mai mare model? Cine are cei mai mulți parametri, cel mai mult compute, cel mai mare buget de antrenare? A fost o cursă pe verticală.

Dar când sistemele ating scala de producție reală, apare o altă întrebare, mult mai practică: cum coordonezi totul fără să pierzi eficiența? Cum te asiguri că fiecare cerere ajunge la modelul potrivit, la momentul potrivit, fără idle time pe GPU-uri, fără latențe neașteptate, fără costuri care explodează?

Aceasta nu mai este o întrebare despre modele. Este o întrebare despre infrastructură.

Orchestrarea ca problemă de inginerie serioasă

În telecomunicații, infrastructura a câștigat mereu. Nu compania cu cel mai bun dispozitiv terminal, ci cea care a construit rețeaua. Nu cel care a inventat vocea, ci cel care a construit cablul transcontinental.

În AI, se produce o mutare similară. Companiile care vor câștiga pe termen lung nu sunt neapărat cele cu cel mai sofisticat model. Sunt cele care știu să ruleze modele la scală, eficient, predictibil, cu costuri controlabile.

Asta înseamnă routing inteligent al cererilor. Înseamnă GPU sharding și management al replicilor. Înseamnă să știi când să folosești un model mic de 7B parametri și când ai nevoie de puterea unui model de 70B. Înseamnă latență aproape zero între componentele unui pipeline complex.

Exact această problemă o rezolvăm la Invergent cu Surogate. Nu am construit un model. Am construit engine-ul de orchestrare — infrastructura care permite ca modelele, indiferent de dimensiunea lor, să ruleze împreună, coordonat, la scală enterprise.

Training și deployment sunt doar jumătate din poveste. Adevăratul bottleneck apare când începi să rulezi modele în producție reală, pe mai multe GPU-uri, pe workload-uri care trebuie să mute date și compute cu timp mort aproape zero.

AT&T a descoperit asta cu 8 miliarde de token-uri pe zi. Companiile care construiesc sisteme serioase de AI vor descoperi același lucru, mai devreme sau mai târziu.

Întrebarea nu este dacă vei ajunge la această problemă. Întrebarea este dacă ai infrastructura pregătită când ajungi.

8 miliarde de token-uri pe zi și lecția de arhitectură pe care AT&T a dat-o industriei (analiză Echipa Invergent)

Pe același subiect:

Opțiuni de politici autohtone pentru șocul prețului petrolului (Laurian Lungu)

Germania nu va participa la războiul americano-israelian împotriva Iranului, subliniază cancelarul Merz

Trump le reproşează aliaţilor lipsa “entuziasmului” de a se implica militar în securizarea Strâmtorii Ormuz

Premierul slovac a discutat despre reluarea fluxurilor de petrol prin conducta Drujba cu şeful Consiliului UE

Fatih Birol: Statele membre IEA ar putea scoate o cantitate mai mare din rezervele strategice de petrol

Scadența de 10 ani în euro – cea mai accesată tranșă în ediția de titluri de stat FIDELIS din martie (MFP)

Andreea Paul (ASE, INACO): Doar 10% dintre universitățile românești au ghiduri publice de folosire a IA. Etica academică impune astfel de reglementări

Premierul Ilie Bolojan, întrevedere cu reprezentantii companiei OMV: Guvernul analizează toate scenariile în funcție de evoluția situației și a punctat rolul Petrom ca ancoră pe piața carburanților din România

MAE: România nu este parte a conflictului din Orientul Mijlociu. Sistemul antirachetă din țară are caracter strict defensiv

Pe același subiect:

Abonează-te la newsletterul Financial Intelligence