A számítógépes látás az utóbbi évek egyik leglátványosabb technológiai ugrása. Ami régen sci-finek tűnt, hogy egy gép felismerje az arcokat, nyomon kövesse a mozgást, megállapítsa, hogy mi van egy fényképen, vagy akár diagnosztizáljon betegségeket, ma már hétköznapi valóság.
A háttérben nincs varázslat: matematikai modellek és hatalmas mennyiségű adat tanítja meg az algoritmusokat arra, amit mi ösztönösen teszünk, amikor a világra nézünk. A kérdés már csak az: hogyan tanul meg „látni” egy gép?
Mi számít látásnak egy számítógép számára?
Az emberi agy a színekből, formákból, fényekből és mozgásokból pillanatok alatt összerakja, mit lát. Egy számítógépnek azonban minden pixel csak szám. Nincsenek macskák vagy emberek, csak értékek.
Amikor egy fényképet megnyitunk, a háttérben több százezer vagy több millió pixel adatai jelennek meg. Minden pixel három értéket hordoz (vörös, zöld, kék intenzitása), és ezekből áll össze a teljes kép.
Egy gépnek tehát ebből az óriási mátrixból kell rájönnie például arra, hogy egy kutya szerepel a képen, nem pedig egy macska, és hogy a kutya hol helyezkedik el a képen.
Ez még néhány évvel ezelőtt is szinte lehetetlen feladatnak tűnt.
A fordulópont: amikor nem az ember írja a szabályokat
A régebbi képfeldolgozó rendszerek úgy működtek, hogy mérnökök előre meghatározták, milyen mintákat keressen a program: például éleket, sarkokat, téglalap alakú formákat.
Ez egy darabig működött, de minden kivétel gondot okozott: ha más volt a fény, ha a tárgy részben kitakarta magát, ha más szögből készült a kép, stb.
A modern AI teljesen más irányból közelít: nem szabályokat adunk neki, hanem példákat. És a példákból maga alkotja meg a szabályokat. Ez a mélytanulás lényege.
A konvolúciós neurális hálózat: a gépi látásérzékelő
A mai számítógépes látás rendszerek motorja a konvolúciós neurális hálózat (CNN). A CNN egy olyan matematikai modell, amely rétegről rétegre vizsgálja a képet.
A működése meglepően hasonlít az emberi látásra:
- az első réteg csupán egyszerű alakzatokra figyel (élek, kontraszt),
- későbbi rétegek már mintázatokat ismernek fel (szőrzet, kerek formák, szemek),
- a mélyebb rétegek pedig teljes objektumokat (kutya, autó, emberi arc).
A hálózat tehát nem „programozva lát”, hanem megtanulja, hogy milyen vizuális elemekből áll össze egy tárgy.
Nem csak felismerés: a gépnek azt is tudnia kell, hol mi található
Sokan azt gondolják, hogy a gépi látás lényege annyi, hogy megmondja a képen szereplő dolgok nevét. Valójában az alkalmazások többsége ennél sokkal többet igényel.
A számítógépes látás feladatai általában három szinten jelennek meg:
- Osztályozás: mi látható a képen?
(összesen egy címke: kutya) - Detektálás: mi látható és hol található?
(téglalapot rajzol a kutya köré) - Szegmentálás: pixelenként megmondja, hol van az objektum
(minden kutya-pixel színezve, háttér nélkül)
Az önvezető autóknál például nem elég felismerni, hogy ez egy gyalogos.
Fontos tudni hol áll a gyalogos, merre mozog, milyen messze van, összeütközési pályán van-e, stb.
Milyen módszerek működnek a gyakorlatban?
A blog olvasói számára valószínűleg ismerősek lehetnek a nevek, amelyek a gépi látás legújabb technológiáit jelölik:
- YOLO : szinte valós időben követ és jelöl meg objektumokat (például autókat vagy járókelőket videóban)
- Mask-RCNN : a detektálás mellett precíz pixeles szegmentálást is végez
- Vision Transformer (ViT) : a szövegfeldolgozásban használt transformer-technológiát alkalmazza a képekre
- CLIP : képet és leírást közösen ért, így képes megtalálni a szöveghez legjobban illő képet vagy fordítva
A generatív képi AI megjelenése (DALL-E, Midjourney, Stable Diffusion) szintén a számítógépes látás kutatásaiból nőtt ki — a gép nem csak felismerni tanult meg, hanem alkotni is.
Hol találkozunk mindezzel a hétköznapokban?
A legtöbb felhasználó észre sem veszi, milyen gyakran támaszkodik számítógépes látásra.
Csak néhány példa:
- Face ID feloldás a telefonon
- Google Photos automatikus rendezése
- automatikus képretusálás a mobilban
- bolti önkiszolgáló kasszákban objektumfelismerés
- rendszámtábla-azonosítás parkolásnál
- mezőgazdasági drónok, amelyek felismerik a beteg növényeket
- orvosi AI, amely MRI-felvételeken daganatot vagy elváltozást emel ki
- gyártósorokon kamerával vezérelt minőségellenőrzés
A technológia már most ott van körülöttünk — és sokszor észre sem vesszük.
A jövő kihívásai és lehetőségei
A számítógépes látás elképesztő fejlődésen ment keresztül, de nem tökéletes.
- A fényviszonyok, tükröződések vagy rossz minőségű képek még mindig megzavarhatják.
- Az adatok minősége meghatározza a modell teljesítményét.
- Adatvédelmi kérdések merülnek fel az arcfelismeréssel kapcsolatban.
- A képek becsaphatók apró, szabad szemmel alig érzékelhető módosításokkal.
Ezzel párhuzamosan a technológia fejlődése óriási lehetőségeket tartogat. Jelenleg is aktívan fejlesztik azokat a rendszereket, amelyek:
- valós időben képesek értelmezni a 3D teret,
- egyszerre kezelik a szöveget, a képet, a hangot és a videót,
- képesek következtetéseket levonni a látottakból.
Nem az a kérdés, hogy lesz-e teljesen autonóm vizuális mesterséges intelligencia — hanem az, hogy mikor.
A számítógépes látás célja, hogy a gépek vizuális információt ne csak rögzítsenek, hanem értelmezzenek is. Ez a képesség ma már nem laboratóriumi érdekesség, hanem széles körben használt technológia — a mobiltelefonok kamerájától az önvezető autókig és a diagnosztikai eszközökig.
Néhány évtized alatt eljutottunk oda, hogy a gépek már nem csak „néznek”, hanem ténylegesen „látnak”. A következő lépés az lesz, hogy meg is értsék a látott világ összefüggéseit, és emberi beavatkozás nélkül tudjanak reagálni — akár fizikai környezetben is.


