Come la vista rappresenta per l’essere umano uno dei sensi più importanti per percepire e interpretare gli stimoli provenienti dall’ambiente circostante, le camere permettono ai robot mobili di interagire con l’ambiente in cui operano in maniera sicura ed efficiente.
Per un robot “vedere” significa acquisire informazioni attraverso un sensore ottico, elaborarle in tempo reale per poter individuali ostacoli, riconoscere oggetti e poter pianificare dei percorsi in sicurezza.
Com’ è fatta una telecamera
In linea generale il funzionamento delle varie tipologie di camere è simile: la luce riflessa da un oggetto viene acquisita e trasformata in informazione (intensità di colore) che può essere successivamente elaborata tramite un processore. Dal punto di vista costruttivo, questa unità di calcolo, può essere separata dalla camera o installato direttamente su di essa.
La struttura di una telecamera è generalmente costituita da questi componenti:
- ottica: lenti attraverso cui la luce viene convogliata verso il sensore;
- sensore: dispositivo elettronico che trasforma la radiazione luminosa in corrente elettrica;
- processing unit: unità di calcolo destinata all’elaborazione del segnale acquisito dal sensore.

Telecamere per la robotica: tecnologie a confronto
Le principali tipologie di camere utilizzate in robotica sono:
- Camere RGB: acquisiscono immagini nei tre canali Rosso-Verde-Blu (visibile umano);
- Camera RGBD: in aggiunta all’informazione sul colore della scena osservata forniscono anche una misura di distanza di ogni pixel;
- Camera multispettrale: acquisiscono immagini in più bande (oltre il visibile), spesso nel vicino infrarosso.
La tabella ne riassume brevemente le caratteristiche più importanti.
| Caratteristica | Camera RGB (visione monoculare) | Camera RGBD (visione stereoscopica) | Camera Multispettrale (visione monoculare) |
| Illuminazione Ambientale | Necessaria | Non necessaria se stereovisione “attiva” | Necessaria |
| Costo | Basso | Medio | Alto |
| Ricostruzione tridimensionale | No | Si | Si |
| Riconoscimento oggetti/persone | Si | Si | Si |
| Indici di vegetazione | No | No | Si |

Il gradiente di colore dal rosso al verde rappresenta l’NDVI.
Il verde corrisponde al fogliame della vigna.
Visione monoculare e visione stereoscopica
In entrambi i casi si sfruttano lo stesso tipo di camere, la differenza principale tra questi due metodi risiede nella percezione della profondità.
- La visione monoculare utilizza una sola telecamera e per questa ragione non può essere utilizzata direttamente per ottenere informazioni sulla profondità della scena. In questo caso l’informazione acquisita è un’immagine bidimensionale dell’ambiente. Questo è il caso di camere RGB e multispettrali.
- Nelle telecamere RGBD si utilizza la stereoscopia per ottenere una misura di profondità. La visione stereoscopica sfrutta quindi due o più camere posizionate ad una distanza nota fra di loro per ottenere una misura di distanza. Confrontando le differenze fra le immagini acquisite dai due sensori simultaneamente è possibile ricostruire la profondità della scena tramite triangolazione. Esistono inoltre in commercio alcuni tipi di telecamere che effettuano un tipo di stereo visione “attiva”. In questo caso non è necessaria una fonte di luce esterna, ma è la stessa camera che illumina la scena attraverso una sorgente infrarossa.

Visione monoculare: applicazioni
- Riconoscimento, classificazione e segmentazione: dato un frame acquisito tramsite una camera RGB è possibile, tramite alcune tecniche di computer vision, riconoscere determinati oggetti all’interno della scena (es. “persone”, “cartelli stradali”, “strisce a terra” o “ostacoli”).
Questo tipo di applicazione offre particolari vantaggi nella robotica mobile, in particolare nel contesto della logistica. Infatti, un veicolo terrestre in grado di riconoscere delle strisce sul terreno, le può facilmente utilizzare come riferimento per spostarsi. In questo modo una sola solo una telecamera è sufficiente per garantire l’autonomia del robot.

- Absolute visual localization for UAV: in zone in cui il segnale GPS non è disponibile è necessario fare affidamento su altri tipi di sensori per determinare la posizione di un veicolo aereo. Esistono alcuni metodi che, sfruttando immagini aeree ottenute tramite camera RGB e confrontandole con delle mappe precaricate, sono in grado di calcolare la posizione assoluta del veicolo.
Visione stereoscopica: applicazioni
- 3D SLAM: l’informazione aggiuntiva sulla distanza di ogni pixel può essere utilizzata per generare delle pointcloud della scena osservata (figura sopra). Man mano che il robot si sposta, l’algoritmo di SLAM associa nuove pointcloud a quelle create in precedenza, calcolando la propria traiettoria e, al contempo, costruendo una mappa tridimensionale dell’ambiente, fondamentale per la navigazione autonoma e l’obstacle avoidance. In questa applicazione la mappa ottenuta non contiene solo la struttura 3D dell’ambiente, ma anche informazioni sul tipo di oggetto mappato. Il robot non rileva più solo un insieme di punti, ma è in grado di identificare ed etichettare gli oggetti (es. “sedie”, “tavoli”, “muri” o “persone”).
- 3D people detection: le immagini rgb vengono utilizzate per identificare persone attraverso algoritmi di computer vision (es. reti neurali). Questa informazione viene poi sfruttata, insieme alla pointcloud della scena, per determinare la loro posizione in 3D. In questo modo è possibile monitorare una zona potenzialmente pericolosa e assicurasi che non ci siano persone all’interno.
Questa applicazione sfrutta la stereo camera Sick Visionary B per ottenere immagine rgb e pointcloud. Questi dati sono poi elaborati da una Nvidia Jetson Orin dotata di GPU per il riconoscimento di persone e il calcolo della loro posizione. Nella figura sotto sono anche rappresentate le aree di monitoraggio di colore diverso (rosso, arancione e giallo)

Schema di funzionamento del sistema di 3D people detection per il monitoraggio di una zona di lavoro.
Problemi e soluzioni proposte in Aitronik
Nel passaggio dalla teoria alla pratica, ci siamo ritrovati spesso a dover affrontare diverse sfide legate all’integrazione di questi sensori a bordo di veicoli autonomi.
Ecco un breve riepilogo dei problemi osservati e delle soluzioni che abbiamo messo in atto.
- Connettore USB 3.0 di una camera stereo (Realsense D435) interferisce con un generico ricevitore GPS se troppo vicini a causa di una sovrapposizione delle frequenze di lavoro. Questo comporta una perdita di precisione nella stima di posizione fino a decine di centimetri.
Soluzione:: Schermare il connettore con USB o mantenere una distanza di almeno 1.5 m tra i due dispositivi.
- Il calcolo degli indici di vigore (NDVI) a partire da immagini acquisite tramite camere multispettrale è fortemente influenzato dalle condizioni di luce e ombra.
Soluzione: mantenere costante la luminosità della zona osservata riprendendo dall’alto o illuminando artificialmente.

- Macchina autonoma che si muove: per i veicoli autonomi, un parametro costruttivo fondamentale, comune a tutti i tipi di telecamere utilizzate su una macchina autonoma in movimento, è il tipo di otturatore.. Quando un veicolo autonomo è in movimento, la scena davanti alla telecamera cambia rapidamente: oggetti, segnali e ostacoli si spostano rispetto al sensore nell’arco di pochi millisecondi. Le camere con otturatore di tipo “rolling shutter” acquisiscono l’immagine a “righe” dal basso verso l’alto, si possono quindi generare distorsioni e deformazioni, compromettendo la percezione dell’ambiente. Le camere di tipo “global shutter” acquisiscono tutto il frame in un solo istante, eliminando tutti gli artefatti legati al movimento.
Soluzione: utilizzo di camere global shutter se il veicolo necessità di muoversi a velocità sostenuta.
Le telecamere rappresentano uno strumento essenziale per dotare i robot di una percezione affidabile e completa dell’ambiente circostante. Dalle semplici camere RGB alle multispettrali e alle più evolute RGBD, ogni tecnologia offre vantaggi specifici che la rendono adatta a differenti scenari applicativi. Le tecniche di visione monoculare garantiscono funzioni fondamentali come riconoscimento e classificazione, mentre la visione stereoscopica permette ricostruzioni 3D indispensabili per SLAM, obstacle avoidance e rilevamento avanzato di persone. Tuttavia, l’integrazione pratica di questi sensori pone sfide tecniche non trascurabili, che richiedono soluzioni mirate per garantire affidabilità e precisione. L’esperienza sul campo dimostra che la scelta del sensore, la gestione dell’illuminazione, le interferenze elettromagnetiche e il tipo di otturatore possono fare la differenza nelle prestazioni complessive del sistema. Proseguire nello sviluppo di hardware e algoritmi robusti permetterà ai robot di essere sempre più autonomi, sicuri ed efficienti.