-
Segment Anything Model (SAM): A Meta AI forradalmasítja a képi szegmentációt
A számítógépes látás (Computer Vision) egyik „Szent Grálja” mindig is a szegmentáció volt: megmondani egy algoritmusnak, hogy pontosan hol végződik a kutya, és hol kezdődik a kanapé. Eddig ehhez minden egyes feladathoz külön modellt kellett tanítani, rengeteg címkézett adattal. A Meta AI (Facebook Research) azonban borította az asztalt a Segment Anything Model (SAM) kiadásával. Ez…
-
Depth Anything V2: Amikor a számítógép végre „térben lát” egyetlen képről
Mi, emberek, természetesnek vesszük a térlátást. Ha becsukjuk az egyik szemünket, az agyunk tapasztalati úton akkor is tudja, hogy a monitor közelebb van, mint a fal. A számítógépes látás számára azonban egy 2D fotó csupán egy lapos pixelmátrix volt – egészen mostanáig. A Depth Anything V2 megérkezett, és nem túlzás azt állítani, hogy letarolta a…
-
Modern Arcfelismerés
Hogyan építsünk saját biometrikus rendszert videók alapján? A mesterséges intelligencia és a számítógépes látás (Computer Vision) egyik legizgalmasabb területe az arcfelismerés. Sokan azt hiszik, hogy ehhez bonyolult felhős infrastruktúra vagy óriási adatközpontok kellenek, pedig megfelelő modellekkel és okos adatfeldolgozással lokálisan, akár egy erősebb PC-n is lenyűgöző eredményeket érhetünk el. A legújabb projektemben egy olyan Python…
-
T-Rex Labeler: Amikor a COCO dataset már nem elég
Így gyorsítsd fel az egyedi adatgyűjtést AI fejlesztőként és kutatóként gyakran szembesülünk a gépi látás (Computer Vision) egyik legfájdalmasabb paradoxonával: a modellek architektúrája ma már szinte bárki számára elérhető, de a minőségi, probléma-specifikus adat aranyat ér – és ritka, mint a fehér holló. Míg a tanulási fázisban a Hugging Face-ről pillanatok alatt behúzhatunk egy state-of-the-art…
