Számítógépes látás: Hogyan „lát” az AI?

A számítógépes látás az utóbbi évek egyik leglátványosabb technológiai ugrása. Ami régen sci-finek tűnt, hogy egy gép felismerje az arcokat, nyomon kövesse a mozgást, megállapítsa, hogy mi van egy fényképen, vagy akár diagnosztizáljon betegségeket, ma már hétköznapi valóság.

A háttérben nincs varázslat: matematikai modellek és hatalmas mennyiségű adat tanítja meg az algoritmusokat arra, amit mi ösztönösen teszünk, amikor a világra nézünk. A kérdés már csak az: hogyan tanul meg „látni” egy gép?

Mi számít látásnak egy számítógép számára?

Az emberi agy a színekből, formákból, fényekből és mozgásokból pillanatok alatt összerakja, mit lát. Egy számítógépnek azonban minden pixel csak szám. Nincsenek macskák vagy emberek, csak értékek.

Amikor egy fényképet megnyitunk, a háttérben több százezer vagy több millió pixel adatai jelennek meg. Minden pixel három értéket hordoz (vörös, zöld, kék intenzitása), és ezekből áll össze a teljes kép.

Egy gépnek tehát ebből az óriási mátrixból kell rájönnie például arra, hogy egy kutya szerepel a képen, nem pedig egy macska, és hogy a kutya hol helyezkedik el a képen.

Ez még néhány évvel ezelőtt is szinte lehetetlen feladatnak tűnt.

A fordulópont: amikor nem az ember írja a szabályokat

A régebbi képfeldolgozó rendszerek úgy működtek, hogy mérnökök előre meghatározták, milyen mintákat keressen a program: például éleket, sarkokat, téglalap alakú formákat.

Ez egy darabig működött, de minden kivétel gondot okozott: ha más volt a fény, ha a tárgy részben kitakarta magát, ha más szögből készült a kép, stb.

A modern AI teljesen más irányból közelít: nem szabályokat adunk neki, hanem példákat. És a példákból maga alkotja meg a szabályokat. Ez a mélytanulás lényege.

A konvolúciós neurális hálózat: a gépi látásérzékelő

A mai számítógépes látás rendszerek motorja a konvolúciós neurális hálózat (CNN). A CNN egy olyan matematikai modell, amely rétegről rétegre vizsgálja a képet.

A működése meglepően hasonlít az emberi látásra:

az első réteg csupán egyszerű alakzatokra figyel (élek, kontraszt),
későbbi rétegek már mintázatokat ismernek fel (szőrzet, kerek formák, szemek),
a mélyebb rétegek pedig teljes objektumokat (kutya, autó, emberi arc).

A hálózat tehát nem „programozva lát”, hanem megtanulja, hogy milyen vizuális elemekből áll össze egy tárgy.

Nem csak felismerés: a gépnek azt is tudnia kell, hol mi található

Sokan azt gondolják, hogy a gépi látás lényege annyi, hogy megmondja a képen szereplő dolgok nevét. Valójában az alkalmazások többsége ennél sokkal többet igényel.

A számítógépes látás feladatai általában három szinten jelennek meg:

Osztályozás: mi látható a képen?
(összesen egy címke: kutya)
Detektálás: mi látható és hol található?
(téglalapot rajzol a kutya köré)
Szegmentálás: pixelenként megmondja, hol van az objektum
(minden kutya-pixel színezve, háttér nélkül)

Az önvezető autóknál például nem elég felismerni, hogy ez egy gyalogos.
Fontos tudni hol áll a gyalogos, merre mozog, milyen messze van, összeütközési pályán van-e, stb.

Milyen módszerek működnek a gyakorlatban?

A blog olvasói számára valószínűleg ismerősek lehetnek a nevek, amelyek a gépi látás legújabb technológiáit jelölik:

YOLO : szinte valós időben követ és jelöl meg objektumokat (például autókat vagy járókelőket videóban)
Mask-RCNN : a detektálás mellett precíz pixeles szegmentálást is végez
Vision Transformer (ViT) : a szövegfeldolgozásban használt transformer-technológiát alkalmazza a képekre
CLIP : képet és leírást közösen ért, így képes megtalálni a szöveghez legjobban illő képet vagy fordítva

A generatív képi AI megjelenése (DALL-E, Midjourney, Stable Diffusion) szintén a számítógépes látás kutatásaiból nőtt ki — a gép nem csak felismerni tanult meg, hanem alkotni is.

Hol találkozunk mindezzel a hétköznapokban?

A legtöbb felhasználó észre sem veszi, milyen gyakran támaszkodik számítógépes látásra.
Csak néhány példa:

Face ID feloldás a telefonon
Google Photos automatikus rendezése
automatikus képretusálás a mobilban
bolti önkiszolgáló kasszákban objektumfelismerés
rendszámtábla-azonosítás parkolásnál
mezőgazdasági drónok, amelyek felismerik a beteg növényeket
orvosi AI, amely MRI-felvételeken daganatot vagy elváltozást emel ki
gyártósorokon kamerával vezérelt minőségellenőrzés

A technológia már most ott van körülöttünk — és sokszor észre sem vesszük.

A jövő kihívásai és lehetőségei

A számítógépes látás elképesztő fejlődésen ment keresztül, de nem tökéletes.

A fényviszonyok, tükröződések vagy rossz minőségű képek még mindig megzavarhatják.
Az adatok minősége meghatározza a modell teljesítményét.
Adatvédelmi kérdések merülnek fel az arcfelismeréssel kapcsolatban.
A képek becsaphatók apró, szabad szemmel alig érzékelhető módosításokkal.

Ezzel párhuzamosan a technológia fejlődése óriási lehetőségeket tartogat. Jelenleg is aktívan fejlesztik azokat a rendszereket, amelyek:

valós időben képesek értelmezni a 3D teret,
egyszerre kezelik a szöveget, a képet, a hangot és a videót,
képesek következtetéseket levonni a látottakból.

Nem az a kérdés, hogy lesz-e teljesen autonóm vizuális mesterséges intelligencia — hanem az, hogy mikor.

A számítógépes látás célja, hogy a gépek vizuális információt ne csak rögzítsenek, hanem értelmezzenek is. Ez a képesség ma már nem laboratóriumi érdekesség, hanem széles körben használt technológia — a mobiltelefonok kamerájától az önvezető autókig és a diagnosztikai eszközökig.

Néhány évtized alatt eljutottunk oda, hogy a gépek már nem csak „néznek”, hanem ténylegesen „látnak”. A következő lépés az lesz, hogy meg is értsék a látott világ összefüggéseit, és emberi beavatkozás nélkül tudjanak reagálni — akár fizikai környezetben is.