A számítógépes látás fejlődése elősegíti a közlekedési autonómiát

A látás egy erőteljes emberi érzékszervi bemenet. Komplex feladatokat és folyamatokat tesz lehetővé, amelyeket természetesnek tartunk. Az AoT™ (dolgok autonómiája) növekedésével a különféle alkalmazásokban, a közlekedéstől és a mezőgazdaságtól a robotikáig és az orvostudományig, a kamerák, a számítástechnika és a gépi tanulás szerepe az emberszerű látás és megismerés biztosításában egyre jelentősebbé válik. A számítógépes látás mint tudományág az 1960-as években terjedt el, elsősorban a mesterséges intelligencia (AI) és a gépi tanulás feltörekvő területével foglalkozó egyetemeken. A következő négy évtizedben drámai fejlődésen ment keresztül, ahogy a félvezető- és számítástechnikai technológiák jelentős fejlődésen mentek keresztül. A mély tanulás és a mesterséges intelligencia terén elért legújabb fejlemények tovább gyorsították a számítógépes látás alkalmazását a környezet valós idejű, alacsony késleltetésű észlelésének és megismerésének biztosítására, lehetővé téve az autonómiát, a biztonságot és a hatékonyságot a különböző alkalmazásokban. A közlekedés az egyik olyan terület, amely jelentős haszonnal járt.

A LiDAR (Light Detection and Ranging) egy aktív optikai képalkotási megközelítés, amely lézereket használ az objektum körüli 3D környezet meghatározására. Ez az egyik olyan technológia, amelyet a számítógépes látási megoldások (amelyek tisztán a környezeti fényre támaszkodnak, és nem használnak lézert a 3D-s érzékeléshez) megpróbálnak megzavarni. A közös téma az, hogy az emberi vezetőknek nincs szükségük LiDAR-ra a mélységérzékeléshez, így a gépeknek sem. A jelenlegi kereskedelmi L3 autonóm vezetési funkciók (teljes autonómia meghatározott földrajzi helyeken és időjárási körülmények között, a vezető másodpercek alatt készen áll az irányításra) használd a LiDAR-t. A tisztán látáson alapuló technikák még mindig nem tudták ezt a képességet kereskedelmi forgalomban kínálni.

REKLÁM

TeslaTSLA
domináns támogatója a passzív kamera alapú számítógépes látás használatának a személygépjárművek autonómiájának biztosítására. A cég legutóbbi AI Day rendezvényén Elon Musk és mérnökei lenyűgöző előadást tartottak AI, adatkezelési és számítási képességei, amelyek többek között támogatják a Full Self Driving (FSD) funkciót több Tesla modellen. Az FSD megköveteli, hogy az emberi vezető mindig részt vegyen a vezetési feladatban (ami összhangban van az L2 autonómiával). Jelenleg ez az opció 160,000 8 járművön érhető el, amelyeket az Egyesült Államokban és Kanadában vásároltak. Minden járműben 360 kamerából álló csomag 75°-os kihasználtsági térképet biztosít. Az ezekből a járművekből származó kamera (és egyéb) adatok arra szolgálnak, hogy neurális hálózatát (amely automatikus címkézést használ) betanítsák az objektumok felismerésére, a potenciális járműpályák ábrázolására, az optimálisak kiválasztására és a megfelelő vezérlési műveletek aktiválására. Az elmúlt 12 hónapban ~1 ezer frissítés történt a neurális hálózaton (~7 frissítés 4 percenként), mivel folyamatosan új adatokat gyűjtenek, és címkézési vagy manőverezési hibákat észlelnek. A képzett hálózat tervezési és vezérlési műveleteket hajt végre egy beépített, redundáns, erre a célra épített számítási elektronika architektúráján keresztül. A Tesla arra számít, hogy az FSD végül autonóm járművekhez (AV-k) fog vezetni, amelyek bizonyos működési tervezési területeken teljes autonómiát biztosítanak, emberi vezetői beavatkozás nélkül (más néven LXNUMX autonómia).

Más cégek, mint a Phiar, a Helm.ai és a NODAR is folytatják a számítógépes látást. A NODAR célja a sztereó kamerarendszerek képalkotási tartományának és 3D-s érzékelésének jelentős bővítése azáltal, hogy szabadalmaztatott gépi tanulási algoritmusokon keresztül megtanul alkalmazkodni a kamera eltolódásához és a vibrációs hatásokhoz. Nemrég 12 millió dollár gyűlt össze zászlóshajójának, a Hammerhead™-nek a gyártásához, amely „gyári” autóipari minőségű kamerákat és szabványos számítási platformokat használ.

A költségeken és a méreteken kívül a LiDAR használata ellen gyakran felhozott érv, hogy a kamerákhoz képest korlátozott a hatótávolsága és a felbontása. Például manapság már elérhetőek a 200 m-es hatótávolságú és 5-10 M pont/sec (PPS hasonló felbontású) LiDAR-ok. 200 m-en az olyan kis akadályok, mint a tégla vagy a gumiabroncs törmelékei nagyon kevés pontot észlelnek (legfeljebb 2-3 függőleges és 3-5 vízszintes irányban), ami megnehezíti a tárgyak felismerését. A dolgok még durvábbá válnak hosszabb távon. Összehasonlításképpen, a szabványos, 30 Hz-en működő megapixeles kamerák 30 megapixeles képpont/másodperc sebességet tudnak generálni, így még nagy hatótávolságon is kiváló tárgyfelismerést tesznek lehetővé. A fejlettebb kamerák (12 M pixel) ezt még tovább növelhetik. A kérdés az, hogyan lehet hasznosítani ezeket a hatalmas adatokat, és ezredmásodperces szintű késleltetéssel, alacsony energiafogyasztással és rossz fényviszonyokkal működőképes érzékelést produkálni.

REKLÁM


Felismerni, egy kaliforniai székhelyű cég próbálja megoldani ezt a problémát. Mark Bolitho vezérigazgató szerint küldetése, hogy „emberfeletti vizuális érzékelést biztosít a teljesen autonóm járművek számára.” A céget 2017-ben alapították, eddig 75 millió dollárt gyűjtött össze, és 70 alkalmazottat foglalkoztat. RK Anand, a Juniper Networks egyik munkatársa, az egyik társalapító és termékigazgató. Úgy véli, hogy a nagyobb felbontású, 120 dB-nél nagyobb dinamikatartománnyal rendelkező, nagy képsebességgel működő kamerák (például OnSemi, Sony és Omnivision) biztosítják a nagy felbontású 3D információk létrehozásához szükséges adatokat, amelyek kritikusak az AV-k megvalósításához. Ennek elősegítői a következők:

  1. Egyedi tervezésű ASIC-ek az adatok hatékony feldolgozásához, valamint pontos és nagy felbontású 3D-s térképek készítéséhez az autók környezetéről. Ezek TSMC 7 nm-es eljárással készülnek, 100 mm² chipmérettel, 1 GHz-es frekvencián működnek.
  2. Szabadalmaztatott gépi tanulási algoritmusok adatpontok millióinak offline feldolgozásához, hogy létrehozzák a betanított neurális hálózatot, amely aztán hatékonyan működik és folyamatosan tanul. Ez a hálózat biztosítja az érzékelést, és magában foglalja az objektumok osztályozását és észlelését, szemantikai szegmentálást, sávfelismerést, közlekedési táblákat és közlekedési lámpák felismerését
  3. Minimalizálja a chipen kívüli tárolási és szorzási műveleteket, amelyek energiaigényesek és magas késleltetést okoznak. A Recogni ASIC-tervezése logaritmikus matematikára van optimalizálva, és összeadást használ. További hatékonyság érhető el a súlyok optimális klaszterezésével a betanított neurális hálózatban.

A betanítási szakaszban egy kereskedelmi LiDAR-t használnak alapigazságként a nagy felbontású, nagy dinamikatartományú sztereó kameraadatok betanítására a mélységinformációk kinyerésére, és robusztussá teszik azt az elmozdulások és a vibrációs hatások ellen. Anand úr szerint a gépi tanulási megvalósításuk olyan hatékony, hogy a kalibrációs LiDAR által biztosított képzési tartományokon túl is képes a mélységbecsléseket extrapolálni (amely 100 m-es tartományra adja meg az alapigazságot).

REKLÁM

A fenti képzési adatokat nappal végeztük egy sztereó 8.3 megapixeles kamerával, amely 30 Hz-es képsebességgel (~0.5 milliárd pixel/másodperc) működött. Bemutatja a betanított hálózat azon képességét, hogy 3D információt nyerjen ki a jelenetben a betanított 100 méteres tartományon túl. A Recogni megoldása a nappali adatokkal való tanulását az éjszakai teljesítményre is extrapolálja (2. ábra).

REKLÁM

Mr. Anand szerint a hatótávolság adatok pontosak 5%-on belül (hosszú tartományok esetén) és közel 2%-ig (rövidebb tartományokban). A megoldás 1000 TOPS-t (billió művelet másodpercenként) biztosít, 6 ms-os késleltetéssel és 25 W-os energiafogyasztással (40 TOPS/W), ami az iparág éllovasa. Az egész számokat használó versenytársak több mint 10-szer alacsonyabbak ezen a mutatón. A Recogni megoldását jelenleg több autóipari Tier 1 beszállítónál tesztelik.

Prófétál ("jósolni és látni, hol van a cselekvés")A franciaországi székhelyű cég eseményalapú kameráit AV-khoz, Advanced Driver Assistance Systems (ADAS), ipari automatizáláshoz, fogyasztói alkalmazásokhoz és egészségügyhöz használja. A 2014-ben alapított a cég nemrég zárta le 50 millió dolláros C-köri finanszírozását, a mai napig összesen 127 millió dollár gyűlt össze. A Xiaomi, a mobiltelefonok vezető gyártója az egyik befektető. A Prophesee célja az emberi látás utánzása, amelyben a retina receptorai reagálnak a dinamikus információkra. Az emberi agy a jelenet változásainak feldolgozására összpontosít (különösen a vezetésnél). Az alapötlet az, hogy olyan kamera- és pixelarchitektúrákat használjunk, amelyek érzékelik a fényintenzitás küszöbérték (esemény) feletti változásait, és csak ezeket az adatokat továbbítják a számítási veremhez további feldolgozás céljából. A pixelek aszinkron módon (nem bekeretezve, mint a hagyományos CMOS kamerákban) és sokkal nagyobb sebességgel működnek, mivel nem kell fotonokat integrálniuk, mint egy hagyományos képkocka alapú kamerában, és meg kell várniuk, hogy a teljes képkocka befejezze ezt az adatok kiolvasása előtt. Az előnyök jelentősek – kisebb adatsávszélesség, döntési késleltetés, tárolás és energiafogyasztás. A vállalat első kereskedelmi minőségű VGA eseményalapú látásérzékelője nagy dinamikatartománnyal (>120 dB), alacsony energiafogyasztással (26 mW szenzorszinten vagy 3 nW/esemény) rendelkezett. Egy HD (High Definition) verzió (a Sony-val közösen fejlesztett), piacvezető pixelmérettel (< 5 μm) is megjelent.

REKLÁM

Ezek az érzékelők alkotják a Metavision® érzékelőplatform magját, amely mesterséges intelligencia segítségével intelligens és hatékony észlelést biztosít az autonómia alkalmazásokhoz, és a szállítási területen több vállalat is értékeli. Az AV-k és az ADAS előre néző észlelése mellett a Prophesee aktívan együttműködik az ügyfelekkel az L2 és L3 alkalmazások vezetőjének kabinon belüli megfigyelésében, lásd a 4. ábrát:

Az autóipari lehetőségek jövedelmezőek, de a tervezési ciklusok hosszúak. Az elmúlt két évben a Prophesee jelentős érdeklődést és vonzerőt tapasztalt az ipari alkalmazások gépi látási területe iránt. Ezek közé tartozik a nagy sebességű számlálás, a felületvizsgálat és a rezgésfigyelés.

REKLÁM

A Prophesee nemrégiben bejelentette az együttműködést a gépi látásrendszerek vezető fejlesztőivel, hogy kiaknázzák az ipari automatizálás, a robotika, az autóipar és az IoT (dolgok internete) kínálta lehetőségeket. További azonnali lehetőségek a képek elmosódásának korrekciója mobiltelefonokhoz és AR/VR alkalmazásokhoz. Ezek alacsonyabb formátumú érzékelőket használnak, mint a hosszabb távú ADAS/AV lehetőségekhez használtak, még alacsonyabb energiát fogyasztanak, és lényegesen kisebb késleltetéssel működnek.


Izrael a csúcstechnológia vezető innovátora, jelentős kockázati befektetésekkel és aktív induló környezettel. 2015 óta mintegy 70 milliárd dollárnyi kockázati alapú befektetés történt a technológiai szektorban. Ennek egy része a számítógépes látás területén található. A Mobileye élére állt ennek a forradalomnak 1999-ben, amikor Amnon Shashua, a Héber Egyetem vezető mesterséges intelligencia-kutatója megalapította a vállalatot, hogy az ADAS és AV-k kamera-alapú érzékelésére összpontosítson. A cég 2014-ben tőzsdei bevezetést nyújtott be, és az Intel felvásároltaINTC
2017-ben 15 milliárd dollárért. Ma könnyen vezető szereplővé vált a számítógépes látás és AV tartományban, és mostanában bejelentette tőzsdei bevezetési szándékát és önálló entitássá válni. A Mobileye évi 1.4 milliárd dolláros bevételt és szerény veszteséget (75 millió dollár) ért el. Számítógépes látási képességeket biztosít 50 autóipari OEM-nek, akik 800 autómodellben alkalmazzák az ADAS-képességekhez. A jövőben az Intel szilíciumfotonikai platformján alapuló számítógépes látási szakértelemmel és LiDAR-képességekkel kívánnak vezetni az L4-es járművek autonómiájában (nincs szükség sofőrre). A Mobileye értékét ~50 milliárd dollárra becsülik, amikor végre tőzsdére lépnek.

REKLÁM

Champel fővárosaA jeruzsálemi székhelyű cég élen jár az olyan vállalatokba történő befektetések terén, amelyek számítógépes látásmódon alapuló termékeket fejlesztenek különféle alkalmazásokhoz a szállítástól és a mezőgazdaságtól a biztonságig. Amir Weitman társalapító és ügyvezető partner, és 2017-ben alapította kockázati társaságát. Az első alap 20 millió dollárt fektetett be 14 vállalatba. Az egyik befektetésük az Innovizben volt, amely 2018-ban SPAC egyesülés révén tőzsdére ment, és LiDAR unikornis lett. Omer Keilaf vezetésével (aki az Izraeli Védelmi Erők Hírszerző Hadtestének technológiai egységéből származott), a vállalat ma vezető szerepet tölt be az ADAS és AV-k LiDAR bevezetésében, és többszörös dizájngyőzelmet szerzett a BMW-nél és a Volkswagennél.

A Champel Capital második alapja (Impact Deep Tech Fund II) 2022 januárjában indult, és a mai napig 30 millió dollárt gyűjtött (a cél 100 végére 2022 millió dollár). A domináns hangsúly a számítógépes látáson van, öt vállalatnál 12 millió dollárt telepítettek. Ezek közül három számítógépes látást használ a közlekedéshez és a robotikához.

TankU, Haifában székhellyel, 2018-ban kezdte meg működését, és 10 millió dollárt gyűjtött össze. Dan Valdhorn a vezérigazgató, és a Unit 8200-ban végzett, amely egy elit high-tech csoport az izraeli védelmi erőn belül, amely a jelek intelligenciájáért és a kód visszafejtéséért felelős. A TankU SaaS (Software as a Service) termékei automatizálják és biztonságossá teszik a folyamatokat komplex kültéri környezetben, a járművek és a vezetők kiszolgálása során. Ezeket a termékeket járműflották, személygépkocsik, üzemanyagtöltő és elektromos töltőállomások tulajdonosai használják az automatizált pénzügyi tranzakciók során előforduló lopások és csalások megelőzésére. A jármű-üzemanyag-szolgáltatások évente kb. 2 tonna globális bevételt generálnak, amelynek 40%-át vagy 800 milliárd dollárt fogyasztanak el a magán- és haszongépjármű-tulajdonosok. A kiskereskedők és a flottatulajdonosok évente ~100 milliárd dollárt veszítenek lopás és csalás miatt (például a flotta üzemanyagkártyájának használata jogosulatlan magánjárművekhez). A CNP (kártya nincs jelen) csalás és az üzemanyag manipulálása/lopása további veszteségforrások, különösen akkor, ha ellopott kártyaadatokat használnak mobilalkalmazásokban fizetésre.

REKLÁM

A cég TUfuel terméke megkönnyíti az egyérintéses biztonságos fizetést, blokkolja a legtöbb csalási típust, és figyelmezteti az ügyfeleket, ha csalás gyanúja merül fel. Ezt egy mesterséges intelligencia-motoron alapul, amely az ezekben a létesítményekben meglévő CCTV-k adataira és a digitális tranzakciós adatokra (beleértve a POS-t és más háttéradatokat) képezi. Az olyan paraméterek, mint a jármű pályája és dinamikája, a jármű azonosítója, az utazási idő, a futásteljesítmény, a tankolási idő, az üzemanyag mennyisége, az üzemanyag előzményei és a járművezetői viselkedés, olyan jellemzők, amelyeket a csalás észlelése érdekében figyelnek. Ezek az adatok segítenek a kiskereskedőknek a webhely működésének optimalizálásában, a vásárlói hűség fokozásában és a jövőkép-alapú marketingeszközök alkalmazásában. Dan Valdhorn vezérigazgató szerint megoldásuk a flotta 70%-át, a hitelkártyákkal kapcsolatos 90%-át és a manipulációval kapcsolatos csalási események 70%-át észleli.

Sonol egy energiaszolgáltató vállalat, amely Izrael-szerte 240 állomásból és kisboltból álló hálózatot birtokol és üzemeltet. A TUfuel-t a telephelyeiken telepítik, és fokozott biztonságról, csalásmegelőzésről és vásárlói hűségről tett tanúbizonyságot. Termékpróbák folynak az Egyesült Államokban a benzinkutak és kisboltok egyik vezető globális szállítójával együttműködésben. Hasonló kezdeményezések folynak Afrikában és Európában is.

REKLÁM

Tel-Aviv székhelyű ITC 2019-ben alapították a Ben-Gurion Egyetem gépi tanulási oktatói. Az ITC olyan SaaS termékeket hoz létre, amelyek „Mérje meg a forgalmi áramlást, jelezze előre a torlódásokat, és csökkentse azt a közlekedési lámpák intelligens manipulálásával – még mielőtt dugók képződnének.” A TankU-hoz hasonlóan a (számos közlekedési kereszteződésben már telepített) készen lévő kamerák adatait használja az élő forgalmi adatok beszerzéséhez. Egy város több ezer kamerájának adatait elemzik, és olyan paramétereket, mint a járműtípus, a sebesség, a mozgás iránya és a járműtípusok sorrendje (teherautók vs. személygépkocsik), kinyerik a szabadalmaztatott AI-algoritmusok segítségével. A szimulációk akár 30 perccel előre megjósolják a forgalmi áramlást és a lehetséges forgalmi dugó helyzeteket. A közlekedési lámpák beállítása ezen eredmények alapján történik a forgalom simítása és a dugók elkerülése érdekében.

A mesterséges intelligencia rendszer betanítása egy hónapnyi vizuális adatokat vesz igénybe egy tipikus városban, és magában foglalja a felügyelt és a felügyelet nélküli tanulás kombinációját. Az ITC megoldását már bevezették Tel-Avivban (25-ban a 2020. helyen áll a világ legzsúfoltabb városai között), több száz, közlekedési lámpával vezérelt kereszteződésben több ezer kamerát telepítettek. Az ITC rendszere jelenleg 75 ezer járművet kezel, amely várhatóan tovább fog növekedni. A cég telepíti a hasonló képességben Luxemburgban, és az Egyesült Államok nagyobb városaiban kezdik a kísérleteket. Globálisan megoldása 300,000 XNUMX járművet kezel Izraelben, az Egyesült Államokban, Brazíliában és Ausztráliában. Dvir Kenig, a műszaki igazgató szenvedélyesen törekszik a probléma megoldására – hogy visszaadja az emberek személyes idejét, csökkentse az üvegházhatást okozó gázok kibocsátását, növelje az általános termelékenységet, és ami a legfontosabb, csökkentse a zsúfolt kereszteződésekben a balesetek számát. Mr. Kenig szerint „Bevetéseink a forgalmi dugók 30%-os csökkenését mutatják, csökkentve a terméketlen vezetési időt, a stresszt, az üzemanyag-fogyasztást és a környezetszennyezést.”

REKLÁM

Beltéri robotika volt az 2018-ben alapították és a nemrég 18 millió dollár támogatást gyűjtött össze. Az izraeli Tel-Aviv közelében található cég autonóm drónmegoldásokat fejleszt és értékesít beltéri biztonságra, biztonságra és karbantartás-felügyeletre. A vezérigazgató és társalapító Doron Ben-David jelentős robottechnikai és repülési tapasztalattal rendelkezik az IAI-nál.IAI
(egy jelentős védelmi fővállalkozó) és a MAFAT (az izraeli védelmi minisztérium fejlett kutatószervezete), amely hasonló az Egyesült Államokban működő DARPA-hoz. Az intelligens épületekbe és a kereskedelmi biztonsági piacterekbe történő növekvő befektetések megnövelik az autonóm rendszerek iránti igényt, amelyek képesek számítógépes látást és egyéb szenzoros bemeneteket használni kis és nagy belső kereskedelmi terekben (irodák, adatközpontok, raktárak és kiskereskedelmi helyiségek). Az Indoor Robotics ezt a piacot célozza meg olyan beltéri drónokkal, amelyek készen kapható kamerákkal, valamint hő- és infravörös tartományérzékelőkkel vannak felszerelve.

Ofir Bar-Levav az üzleti vezérigazgató. Elmagyarázza, hogy a GPS hiánya akadályozta a beltéri drónokat abban, hogy lokalizálják magukat az épületeken belül (jellemzően a GPS-t megtagadják vagy pontatlanok). Ezenkívül hiányoztak a kényelmes és hatékony dokkolási és tápellátási megoldások. Az Indoor Robotics négy drónra szerelt kamerával (felül, lent, balra, jobbra) és egyszerű hatótávolság-érzékelőkkel oldja meg ezt a problémát, amelyek pontosan leképezik a beltéri teret és annak tartalmát. A kameraadatokat (a kamerák lokalizációs és leképezési adatokat szolgáltatnak) és a hőérzékelőket (a drónra is felszerelve) egy mesterséges intelligencia rendszer elemzi, hogy észlelje a lehetséges biztonsági, biztonsági és karbantartási problémákat, és figyelmeztesse az ügyfeleket. A drónok egy mennyezetre szerelt „dokkolólapon” keresztül táplálják magukat, amely értékes alapterületet takarít meg, és lehetővé teszi az adatgyűjtést töltés közben. Ezeknek a hétköznapi folyamatoknak az automatizálásának pénzügyi előnyei nyilvánvalóak, ahol az emberi munkaerő összetett és drága a toborzás, a megtartás és a képzés szempontjából. A légi drónok használata a földi robotokkal szemben jelentős előnyökkel jár a tőke- és működési költségek, a jobb alapterület-kihasználás, az akadályok nélküli mozgás szabadsága és a kamerás adatrögzítés hatékonysága tekintetében is. Mr. Bar-Levav szerint az Indoor Robotics TAM-ja (Total Addressable Market) a beltéri intelligens biztonsági rendszerek terén 80-ra 2026 milliárd dollár lesz. A kulcsfontosságú ügyfélhelyek ma vezető globális vállalatok raktárai, adatközpontjai és irodai kampuszai.

REKLÁM


A számítógépes látás forradalmasítja az autonómia játékot – a mozgásautomatizálás, a biztonság, az intelligens épületfelügyelet, a csalások felderítése és a forgalomkezelés terén. A félvezetők és a mesterséges intelligencia ereje erőteljes lehetővé teszi. Miután a számítógépek skálázható módon elsajátítják ezt a hihetetlen szenzoros modalitást, a lehetőségek végtelenek.

Forrás: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/