Aldo Agostinelli

Macchine che riconosco ed elaborano immagini, grazie agli avanzati processi di apprendimento automatico. Tutto quello che c’è da sapere.

La Computer vision o visione artificiale è una branca dell’intelligenza artificiale che permette ad una macchina di agire come un vero e proprio occhio umano, ma con molte più potenzialità. È sfruttata in tanti campi, dalla produzione industriale alla medicina, e alla base del suo funzionamento ci sono avanzati algoritmi e operazioni di calcolo.

Cosa si intende con il termine Computer vision?

La Computer vision  è un sistema di visione artificiale attraverso il quale un computer è in grado di ottenere ed elaborare informazioni utili da immagini digitali singole o in sequenza, come i video. Riconosce oggetti, persone e animali e in questo modo riproduce le funzioni e i processi dell’apparato visivo umano.

Le macchine possono così capire elementi come la distanza o il movimento e intuire se ci siano degli errori all’interno dell’immagine in pochi istanti, grazie alle telecamere, ai dati raccolti e agli algoritmi con i quali si muovono.

Non è quindi un caso che la visione artificiale trovi applicazione in settori come l’industria automobilistica e manifatturiera, dove ispeziona quanto viene prodotto per individuare eventuali difetti o problemi altrimenti impercettibili all’occhio umano.

Altri campi in cui i sistemi di Computer vision possono essere sfruttati riguardano:

  • la telemedicina, con il riconoscimento di dati biometrici e l’analisi diagnostica;
  • la sorveglianza affidata a videocamere intelligenti o in cloud per identificare delle infrazioni;
  • la manutenzione predittiva, per il monitoraggio di macchinari industriali ed evitare possibile guasti in fase di lavorazione;
  • la sicurezza sui luoghi di lavoro, con il controllo delle immagini esteso a lavoratori e impianti per scovare situazioni di rischio e prevenire incidenti.

Leggi anche: Cos’è il reinforcement learning e a che cosa serve

Che tipo di algoritmo utilizza la Computer vision?

Perché la macchina riconosca le immagini deve elaborare una grande quantità di dati per apprendere le differenze e l’insieme di elementi relativi alla singola immagine chiamata ad analizzare, proprio con l’intento che riesca a scoprire gli errori.

Sono due le tecnologie adottate per raggiungere l’obiettivo:

  • una tipologia di machine learning denominata deep learning;
  • una rete neurale convoluzionale, in inglese Convolutional Neural Network (CNN).

Il machine learning impiega modelli di algoritmi con i quali il computer può imparare in autonomia. Significa che apprende e distingue da solo le diverse immagini, a fronte dell’immissione di un numero sufficientemente alto di dati. È l’algoritmo il motore che consente alla macchina di agire da sé e senza che sia qualcuno dall’esterno a programmarla per riconoscere le immagini.

Con un Convolutional Neural Network la macchina compie un passo in più, scomponendo le immagini in pixel e attribuendo delle tag. Queste tag (o etichette) permettono di svolgere delle operazioni matematiche per arrivare a riconoscere o vedere le immagini allo stesso modo di un essere umano. In una prima fase il computer rileva bordi, spigoli e curve: con il susseguirsi di operazioni matematiche (convoluzioni) arriva a riconoscere persone, oggetti e animali.

Il risultato finale dei modelli di deep learning e delle fasi CNN si traducono in compiti diversi che la Visione artificiale può essere chiamata a risolvere.

  • Face recognition: è il riconoscimento facciale delle persone.
  • Action recognition: vengono identificate una o più attività, messe in relazione per determinare e descrivere specifiche azioni.
  • Emotion Recognition: riguarda il rilevamento del sentiment di un’immagine.
  • Object Detection: è l’identificazione di una o più oggetti nell’immagine.
  • Visual Relationship Detection: indica la relazione tra gli oggetti all’interno di una immagine.
  • Image Classification: la classificazione delle immagini secondo l’analisi del loro contenuto.
  • Image Segmentation: procede alla suddivisione dell’immagine in più sezioni.
  • Image Editing: le immagini vengono modificate.

Deep Learning e CNN sono continuo oggetti di studio e approfondimento nella ricerca scientifica ed universitaria, come dimostra, ad esempio, il “Biomedical Computer Vision Course” del Politecnico di Milano (Polimi).

Come funziona il deep learning?

Deep learning e Computer vision: un legame inevitabile. Perché se la macchina è in grado di operare, come visto in precedenza, lo deve proprio al deep learning, un metodo IA per insegnare al computer a dare forma come farebbe il cervello umano.

I modelli di deep learning riconoscono non solo le immagini, ma anche i testi e suoni, per produrre contenuti e informazioni che siano il più possibile corretti e accurati.

Apprende e approfondisce tramite delle reti neurali che vanno a costituire gli algoritmi, ricalcando proprio il funzionamento del cervello dell’uomo, al cui interno milioni di neuroni connessi tra loro operano assieme sulle informazioni ricevute.

In modo analogo, il deep learning sfrutta delle reti neurali artificiali, vale a dire dei software chiamati nodi. Con l’ausilio di calcoli matematici, analizzano i dati per risolvere problemi e quesiti.

Per ottenere risultati efficienti, gli algoritmi richiedono vaste quantità di dati di alta qualità. Grandi numeri, a loro volta, necessitano di una grande potenza di elaborazione e di una infrastruttura di calcolo per procedere in modo rapido nelle operazioni di calcolo.

Leggi anche: Web development: tutto quello che c’è da sapere

Qual è la differenza tra machine learning e deep learning?

Il deep learning è strettamente connesso anche con la machine learning. Rientra infatti nella gamma delle metodologie di apprendimento automatico, tanto che gli algoritmi che contraddistinguono il deep learning sono il frutto dello sforzo per rendere le tecniche di machine learning più efficienti.

Non deve sorprendere. Il machine learning è la base su cui poggiano molte attività condotte quotidianamente online o meno. Lo ritroviamo quando si effettua una ricerca o si applicano dei filtri ai contenuti oppure ancora quando riconosce le preferenze dell’utente proponendo determinati prodotti su una piattaforma di e-commerce.

Se con la Computer vision arriva a comprendere quali informazioni sono contenute nelle immagini, unendo aspetti come il riconoscimento vocale e l’elaborazione del linguaggio naturale può trascrivere il parlato in un testo.

Aldo Agostinelli