La nuova svolta dell'IA potrebbe portare il FSD V14 completo ai veicol

Per i proprietari di veicoli Tesla dotati di HW3, l’attesa per le nuove versioni di FSD si è trasformata in una lunga pausa. FSD v12.6.4 è stato l’ultimo aggiornamento rilasciato sull’hardware legacy di Tesla circa 13 mesi fa, ed era un aggiornamento incrementale all’interno della stessa versione principale.

Con la crescita delle reti neurali end-to-end di Tesla, sempre più grandi e complesse, il team AI ha faticato a far girare le iterazioni di FSD di fascia alta, come la v14, sui computer più vecchi. L’azienda ha dichiarato di voler preparare una build di FSD v14-lite per i veicoli HW3 nell’estate 2026, ma lo sviluppo di FSD ha subito un forte rallentamento negli ultimi mesi a causa dell’attenzione su Robotaxi e FSD non supervisionato.

Questo lascia poco tempo per ottimizzare una build moderna per i veicoli legacy. Un recente progresso di NVIDIA nei Large Language Models (LLM) potrebbe offrire una strada concettuale per mantenere HW3 altamente capace senza dover ridurre FSD all’osso.

Il collo di bottiglia di HW3: è tutta una questione di memoria

Anche se HW3 ha meno potenza di calcolo grezza rispetto al più recente hardware AI4, il vincolo principale per l’AI contemporanea è la memoria.

L'esecuzione di una grande rete neurale richiede una notevole memoria di lavoro per operare in tempo reale. Negli LLM come ChatGPT, questa memoria di lavoro è la cache KV (Key-Value), che memorizza il contesto della conversazione così il Model non deve rielaborare l'intera cronologia a ogni passaggio.

Il FSD di Tesla funziona in modo simile, usando la memoria spazio-temporale per mantenere il contesto nel tempo. Ad esempio, se un pedone passa dietro un furgone per le consegne parcheggiato, la memoria temporale dell’auto tiene traccia del fatto che il pedone è ancora presente anche quando le telecamere perdono il contatto visivo. Man mano che FSD migliora, questa cache di memoria temporale si espande, esaurendo rapidamente la RAM limitata del computer HW3.

La svolta di NVIDIA nella compressione 20x

Come riportato da VentureBeat, i ricercatori NVIDIA hanno introdotto una tecnica che riduce di 20x l’ingombro di memoria della cache di lavoro di un LLM.

Fondamentalmente, ci riesce senza alterare i pesi del Model.

Il metodo, KV Cache Transform Coding (KVTC), prende in prestito concetti dalla compressione multimediale classica come JPEG. Invece di eliminare definitivamente le informazioni, identifica i componenti più critici della memoria di lavoro e comprime il resto al volo.

Storicamente, far rientrare Model enormi in hardware con risorse limitate ha spesso richiesto di modificare permanentemente il Model tramite "quantizzazione" o "potatura" (letteralmente tagliando i percorsi neurali). Anche se questo fa risparmiare spazio, può ridurre l'intelligenza dell'IA.

L’approccio di NVIDIA aggira questo compromesso. Comprimendo in modo aggressivo la memoria di lavoro durante l’inferenza, l’LLM conserva la sua intelligenza originale con una penalità di accuratezza inferiore all’1%, consumando solo una frazione della memoria hardware.

Applicare il metodo JPEG alle reti neurali

Sebbene il lavoro di NVIDIA sia rivolto agli LLM basati su testo, la matematica e l’architettura sottostanti possono essere adattate all’AI incentrata sulla visione che alimenta una Tesla.

Se il team di ingegneria Autopilot di Tesla impiega una simile sparsificazione dinamica della memoria o il transform coding per la memoria spazio-temporale di FSD, l’impatto su HW3 potrebbe essere notevole. Comprimendo pesantemente in tempo reale la "memoria video" dell’ambiente recente del veicolo, Tesla potrebbe ridurre drasticamente la VRAM totale necessaria per eseguire il software.

Il vantaggio è che liberare cache eliminerebbe la necessità di ridurre la rete neurale principale per farla entrare.

Invece di offrire un v14-lite pesantemente potato che rimuove milioni di parametri e riduce la capacità di guida, Tesla potrebbe distribuire a HW3 una versione molto più capace del Model v14. L'auto eseguirebbe comunque una logica di guida end-to-end avanzata, usando una memoria temporale altamente compressa, in stile JPEG, per restare entro i limiti dell'hardware.

Spremere il silicio

HW3 è silicio datato e, prima o poi, raggiungerà un limite oltre il quale non potrà elaborare i dati abbastanza velocemente da soddisfare i requisiti dell’autonomia non supervisionata.

Detto questo, il KVTC di NVIDIA dimostra che il settore sta trovando modi per ottimizzare l’inferenza senza affidarsi a chip più grandi e più costosi. Mentre Tesla si prepara a unificare la propria flotta sull’architettura v14, tecniche avanzate di compressione della memoria come queste offrono un modo per estrarre la massima capacità dall’hardware legacy fino a quando non arriverà l’upgrade di HW3.