Come funziona FSD Parte 4: come funziona Tesla Vision

Questo episodio continua una serie sulla tecnologia alla base di FSD di Tesla, che finora ha trattato il traduttore universale che mappa FSD su hardware diversi, le pipeline di dati che automatizzano l’etichettatura e ciò che il veicolo percepisce nell’ambiente circostante.

Resta da capire come il sistema percepisce visivamente il mondo. Due domande di brevetto di Tesla offrono indicazioni chiave.

Qualsiasi sistema autonomo nel mondo reale deve risolvere due problemi fondamentali: determinare con precisione la distanza e la velocità di un oggetto, e elaborare l’enorme quantità di input visivi provenienti da più camere ad alta risoluzione che catturano scene sia vicine sia lontane, senza richiedere un supercomputer in ogni veicolo.

Mentre molti concorrenti affrontano questo problema con hardware aggiuntivo costoso e complessi sistemi di fusione dei sensori, Tesla si affida alla visione e affronta queste sfide in modo diverso.

Risolvere la profondità

Il primo brevetto, intitolato “Estimating Object Properties Using Visual image Data”, spiega perché Tesla non si affida a LiDAR se non per la validazione. L’idea centrale è costruire un set di dati di training molto ampio.

Il set di dati copre milioni di miglia percorse dai normali clienti, integrate da veicoli di ingegneria per la validazione. Le auto di validazione utilizzano sensori ausiliari per fornire misurazioni ground truth altamente accurate di distanza e velocità precise, che vengono poi usate per addestrare FSD.

Tesla impiega una pipeline automatizzata per addestrare la rete neurale visiva. Mentre un veicolo di validazione guida, registra una serie temporale di immagini delle camere insieme ai dati ausiliari. Tracciando un veicolo o un oggetto su più frame, il sistema risolve le ambiguità — come due auto vicine tra loro o occlusioni parziali — e associa i dati precisi dei sensori ausiliari al corretto oggetto nelle immagini.

Questo processo produce un dataset enorme e altamente accurato utilizzato per addestrare la rete visiva FSD. Consente a FSD di dedurre profondità e velocità da immagini 2D con una precisione vicina a quella dei sensori ausiliari. Una volta che il Model è addestrato con un elevato grado di accuratezza e convalidato, può essere distribuito sull'intera flotta dei clienti, eliminando la necessità di costoso hardware di convalida in quei veicoli.

In sostanza, Tesla Vision sostituisce costosi sensori fisici con una potente rete neurale.

Risolvere l’efficienza

La sfida successiva è gestire l’enorme quantità di dati provenienti da più camere ad alta risoluzione senza sovraccaricare il computer del veicolo. Un secondo brevetto, “Enhanced Object Detection for Autonomous Vehicles Based on Field of View”, descrive un metodo elegante.

Elaborare un frame a piena risoluzione da una camera frontale è costoso dal punto di vista computazionale. Una soluzione comune è il downsampling, ma ciò rende più difficile rilevare piccoli oggetti lontani o leggere dettagli come i cartelli della velocità. Un’auto che è evidente a 200 meters può diventare un indistinto insieme di pixel, oppure un cartello che indica 80 può essere letto come 30 dopo il downsampling.

L’approccio di Tesla richiama l’occhio umano. Il sistema seleziona un campo visivo prioritario — in genere una fascia orizzontale vicino all’orizzonte — dove è più probabile che compaiano oggetti distanti ma importanti.

FSD esegue quindi due attività in parallelo:

Analizzare un ritaglio ad alta risoluzione di quella regione prioritaria per mantenere la nitidezza degli oggetti lontani.
Analizzare una versione ridotta, a risoluzione inferiore, del resto dell’immagine per rilevare in modo efficiente gli oggetti più vicini che non richiedono dettagli aggiuntivi.

Le due uscite vengono fuse, offrendo al veicolo un quadro completo che è sia a lungo raggio sia efficiente dal punto di vista computazionale. In termini di rendering, questo corrisponde al foveated rendering — qui applicato al contrario. Concentrando la potenza di calcolo dove serve di più, FSD rimane scalabile senza dover trasportare un cluster di calcolo in ogni veicolo.

Una soluzione unificata e scalabile

Insieme, questi due brevetti mostrano come Tesla stia portando avanti la propria strategia solo Vision: affrontare i problemi più difficili dell’autonomia costruendo uno stack software più intelligente ed efficiente, invece di compensare con più hardware.

Per approfondimenti correlati sui brevetti Tesla e su FSD: