Come funziona FSD di Tesla Parte 5: Modellare un mondo fisico senza Li

Tesla ha depositato un brevetto dettagliato che descrive i meccanismi interni della sua rete di occupazione basata sulla visione. Il documento, intitolato Tecniche di modellazione dell'intelligenza artificiale per la determinazione dell'occupazione basata sulla visione, è stato pubblicato il 12 marzo 2026.

Scritto da un gruppo di ingegneri che include Ashok Elluswamy, il documento spiega come Tesla applichi l'intelligenza artificiale per percepire e usare il Model dell'ambiente fisico senza utilizzare radar o LiDAR.

Comprendere la griglia di voxel

La rete di occupazione è organizzata attorno ai voxel, che sono pixel tridimensionali che rappresentano punti all'interno di una griglia volumetrica che circonda il veicolo. Per costruire questa griglia, il Model elabora immagini provenienti dalle otto telecamere esterne del veicolo e prevede se ciascun voxel è occupato da un oggetto dotato di massa.

Etichettare manualmente milioni di punti 3D richiederebbe troppo tempo, quindi il brevetto osserva che Tesla fa grande affidamento su metodi di addestramento non supervisionati per ampliare l'addestramento del Model.

Risoluzione variabile e sotto-voxel

Il brevetto descrive una strategia per gestire il calcolo ridimensionando dinamicamente i voxel. La dimensione predefinita di un voxel è di 33 centimetri per ciascun vertice, il che è sufficiente per le aree lontane o per le zone al di fuori della superficie di guida immediata.

Per le aree occupate e entro una distanza di soglia dal veicolo, FSD può ridurre la dimensione dei voxel a 10 centimetri per catturare dettagli più fini. Le reti neurali possono anche rappresentare un'occupazione parziale suddividendo le aree occupate in sotto-voxel più piccoli.

Questa granularità aggiuntiva aiuta il sistema a recuperare la forma precisa degli oggetti curvi. Inoltre, un server di analisi può applicare l'interpolazione trilineare per stimare lo stato di occupazione di qualsiasi punto specifico all'interno di un voxel.

Fusione temporale e semantica 3D

L'IA non considera i frame come istantanee isolate. Un transformer aggrega i dati immagine 2D in una rappresentazione 3D unificata e poi li fonde con le rappresentazioni dei timestamp precedenti. La combinazione del contesto spaziale e temporale consente alla rete di calcolare il flusso di occupazione, che indica la velocità esatta dei voxel in movimento.

Il sistema applica quindi una comprensione semantica 3D per dedurre il tipo di oggetto, distinguendo, ad esempio, tra un'auto in movimento, un edificio statico o il cordolo di una strada. Dà priorità a determinate forme semantiche; un veicolo in movimento vicino all'ego viene esaminato in modo più approfondito rispetto a una struttura statica lontana.

Alimentare i veicoli e Optimus

Le informazioni risultanti vengono compilate continuamente in un set di dati interrogabile. FSD può interrogare questo set di dati per ottenere gli stati di occupazione e prendere decisioni di guida in tempo reale. Lo stesso set di dati viene inoltre utilizzato per renderizzare la mappa ambientale 3D presentata nell'interfaccia utente del veicolo.

Sebbene il brevetto sia incentrato sui veicoli autonomi, sottolinea che l'approccio sottostante è altamente adattabile. Il documento specifica che la stessa rete di occupazione basata sulla visione può essere implementata su un robot umanoide bipede di uso generale per attraversare terreni diversi.

Per ulteriori letture sui brevetti Tesla relativi a FSD: