4

Days

15

Hours

59

Mins

9

Secs

La spinta verso la guida autonoma ha prodotto una netta divisione nelle strategie. La maggior parte delle case automobilistiche e delle aziende tecnologiche sostiene la sensor fusion, combinando telecamere, radar e LiDAR per una ridondanza a più livelli. Tesla, al contrario, ha seguito un percorso a singolo sensore centrato sulle telecamere, arrivando persino a rimuovere e disattivare il radar nei propri veicoli. Per capire perché, è utile comprendere cosa Tesla ha scelto di non usare.

Che cos'è la Sensor Fusion?

La fusione dei sensori cerca di unire input complementari provenienti da diversi tipi di sensori in un unico Model dell'ambiente circostante di un veicolo. Ogni sensore ha punti di forza e compromessi, e la loro fusione mira a compensare le singole debolezze.

Le telecamere offrono la visione più ricca e ad alta risoluzione, catturando colore e texture, leggendo i segnali, riconoscendo i colori dei semafori e interpretando contesti visivi complessi. Tuttavia, possono essere penalizzate da scarsa illuminazione e condizioni meteorologiche avverse, e faticano a misurare direttamente la velocità relativa.

Il radar eccelle nella misurazione di distanza e velocità, anche in caso di pioggia, nebbia e neve. Il suo limite è la bassa risoluzione. Per eguagliare la risoluzione di una singola telecamera in una direzione servirebbe un array radar quadrato di 12-foot per 12-foot dal costo di milioni. Il radar indica in modo affidabile che qualcosa è presente e quanto velocemente si sta muovendo—purché si stia muovendo—ma ha difficoltà a identificare il tipo di oggetto e a rilevare in modo affidabile gli oggetti fermi.

Il LiDAR, che usa laser, crea una precisa nuvola di punti 3D e misura distanza e forma con alta precisione, consentendo modelli dettagliati dell'ambiente 3D. I suoi principali svantaggi sono il costo relativamente elevato del sensore e prestazioni degradate in nebbia, neve e pioggia. Inoltre genera volumi di dati così grandi che il semplice organizzare l'input richiede un'enorme potenza di calcolo.

Aziende come Waymo e Cruise adottano l'approccio consolidato di fondere telecamere, radar e LiDAR per offrire ridondanza.

Da dove è partita Tesla: un approccio multisensore

Tesla non è partita dal solo vision. I primi sistemi Autopilot, fino al 2021, abbinavano le telecamere a un radar frontale fornito da aziende del settore automotive come Bosch. In quella configurazione convenzionale di fusion, il radar era la fonte principale per misurare distanza e velocità del veicolo che precede, abilitando funzioni come Traffic-Aware Cruise Control e le prime iterazioni di FSD Beta.

Per anni, questo design multisensore è stato la norma, e ci si aspettava che il radar restasse un elemento chiave di sicurezza mentre Tesla sviluppava il proprio hardware FSD personalizzato. Poi, nel 2021, Tesla ha cambiato rotta.

La svolta: perché Tesla ha abbandonato il radar

Nell'estate del 2021, Tesla ha annunciato che avrebbe rimosso il radar dai nuovi veicoli Model 3 e Model Y e sarebbe passata a un sistema basato esclusivamente su telecamere chiamato Tesla Vision. La decisione ha fatto seguito all'argomentazione di Elon Musk basata sui primi principi, secondo cui input contrastanti dei sensori possono compromettere la sicurezza.

In questa visione, la sensor fusion introduce un conflitto tra sensori: quando gli input non coincidono, il sistema deve decidere a quale fidarsi. La priorità va fissata in anticipo o scelta al volo? Questa ambiguità può paralizzare il processo decisionale nei momenti critici per la sicurezza.

Gli ingegneri FSD di Tesla hanno citato debolezze pratiche. L'ingegnere AI di Tesla Yun-Ta Tsai ha osservato che il radar fatica a distinguere oggetti fermi che non producono spostamenti di frequenza, oggetti con sezioni trasversali sottili e oggetti con bassa riflettività radar. Questi limiti hanno contribuito ai passati episodi di phantom braking in cui un'auto poteva scambiare un cavalcavia fermo o una lattina di alluminio abbandonata per un veicolo fermo.

Dal punto di vista di Tesla, la strada scalabile verso l'autonomia è padroneggiare il vision. Gli esseri umani guidano con due telecamere e una rete neurale, e se la computer vision può essere risolta in modo robusto, altri sensori al massimo aggiungono costi e complessità e, nel peggiore dei casi, introducono un'ambiguità pericolosa.

Dove siamo oggi: il vision sul vision

Oggi, ogni nuova Tesla si affida solo a Tesla Vision e alle sue otto telecamere. Una sofisticata rete neurale costruisce una rappresentazione dello spazio vettoriale 3D dell'ambiente, all'interno della quale il veicolo analizza e si muove.

C'è una nota importante. Quando Tesla ha lanciato il suo Hardware 4 (ora AI4), i nuovi veicoli Model S e Model X includevano un radar ad alta definizione. Tesla non ha attivato questi radar per l'uso con FSD.

In realtà, l'FSD è più avanzato sul Model Y, il veicolo più comune di Tesla, piuttosto che sui modelli con il sensore aggiuntivo. Sebbene Tesla probabilmente raccolga alcuni dati da quei radar e ne convalidi le prestazioni, non fanno parte della suite FSD.

Un esito binario

L'abbandono della sensor fusion è il fattore che distingue più chiaramente l'approccio Tesla dal resto del settore. È una scommessa ad alto rischio, tutto o niente—e finora Tesla sembra essere avanti.

Tesla, Elon, Ashok e il team Tesla AI sostengono che l'unica strada verso un sistema autonomo scalabile e general-purpose con intelligenza simile a quella umana sia risolvere completamente il vision. Se la scommessa funziona, il sistema risultante potrebbe essere molto più economico e immensamente più scalabile dei costosi progetti dei rivali, ricchi di sensori.

Se la scommessa fallisce, Tesla potrebbe incontrare un limite prestazionale che richiede proprio quei sensori. Ad oggi, non ci sono stati segnali chiari di un simile limite. Tesla resta pienamente impegnata in un sistema basato solo sul vision, e i suoi progressi e le sue capacità sono evidenti.