Mit jelent az Nvidia új szövegből 3D-be átalakítása a tervezéshez és a terméktervezéshez

tl; dr: A generatív AI izgalmas ütemben fejlődik. Az Nvidia legújabb algoritmusa kétszer olyan gyorsan alakítja át a szöveget 3D hálóvá, mint az alig 2 hónappal ezelőtt közzétett projektek. Ez azt jelenti, hogy a technikai képességek már most felülmúlják a velük való munkaképességünket.

A múlt héten papír Az Nvidia tudósai kimutatták, milyen exponenciális sebességgel fejlődik a generatív AI-tér. A tevékenységnek ez a robbanásszerű növekedése – különösen az elmúlt 9 hónapban – hatással lesz az élet minden területére, nem utolsósorban a terméktervezésre, a tervezésre és a gyártásra. A változtatások felszabadítják az ipart az ötletek közlésének módjával kapcsolatos strukturális korlátoktól, gyorsabb innovációs ciklusokat tesznek lehetővé, és végső soron lehetővé teszik fenntarthatósági ígéreteinek teljesítését.

Miután évek óta azt mondták, hogy az AI alapjaiban forradalmasítja munkamódszerünket, kevesen számítottak arra, hogy a kreatív szektor lesz az első áldozatai között. A GPT-3 emberszerű szöveggenerátorának 2020-as megjelenése a lehetőségeket élesebben fókuszálta. Azóta vad menet: a DALL-E (szöveg-kép), a Whisper (beszédfelismerés), és legutóbb a Stable Diffusion (szöveg-kép) nemcsak a beszéd- és vizuális AI-eszközök képességeit növelte, hanem csökkentette a használatukhoz szükséges erőforrásokat (175 milliárd GPT-3 paraméterről 900 millióra a stabil diffúzióhoz).

A Stable Diffusion mérete 5 GB-nál kevesebb lemezterületet jelent – ​​bármilyen laptopon futtatható. Nem csak az; Ellentétben az OpenAI-val (amelyet főleg a Microsoft finanszíroz, és GPT-3, DALL-E és Whisper jelent meg), a Stable Diffusion nyílt forráskódú, ami azt jelenti, hogy mások sokkal könnyebben építhetnek a tanulságaira. Ez azt jelenti, hogy még csak az innovatív ciklus kezdetét látjuk – sokkal több van még hátra, amint azt az Nvidia tanulmánya is mutatja.

A Stable Diffusion támogatói (stability.ai) tovább turbózzák ezt a trendet azzal, hogy technológiai és pénzügyi támogatásokat nyújtanak más csapatoknak, amelyek új irányokba viszik a kutatást. Emellett projektek tömkelege teszi elérhetővé az eszközöket a felhasználók egyre szélesebb köre számára. Köztük a Blender bővítményei, egy nyílt forráskódú tervezőeszköz, és az Adobe szabadalmaztatott Photoshop megfelelője. Az eszközökhöz való teljes API-hozzáférést nagy kockázati tőke dollárból finanszírozzák, ami azt jelenti, hogy szoftverfejlesztők százmilliói, nem csak néhány százezer adatmérnök, mostantól saját eszközöket készítenek ezeken az algoritmusokon.

A beszéd, a képek és a szöveg az elsők között van, amelyet ezek a technológiák megzavarnak. De a 3D sem marad el. A niche-generatív művészeten túl a rajzfilmek az első nyilvánvaló alkalmazási pontok. Már van egy Pokémon generátor, amely a Stable Diffusion alapú. A vizuális effektusok és a filmek következnek. De valószínűleg sok más ágazat is felborul – köztük a belsőépítészet, az Interiorai.com vezetésével.

Ebben az izgalomban az újítások tervezése és tervezése terén utólagos gondolatnak tűnik. Valószínűleg azonban végső soron ez lesz a leginkább érintett terület. Természetesen vannak kezdeti kihívások: egyrészt a Stable Diffusion és honfitársai még nem túl pontosak. Ez nem jelent problémát a rajzfilmeknél, de komoly kihívást jelent minden olyan kísérletnél, amely a szöveget ipari környezetben használt teljes 3D geometriákká alakítja át. Ez egy olyan terület, amely kezdetben kezdett érdeklődni (a Bits101 nevű projektet 2015-ben indították el Izraelben). Lehet, hogy ez az ipar szent grálja, de sok köztes kihívás van, amelyeket sokkal könnyebb megoldani. Ezek közé tartozik a továbbfejlesztett objektumfelismerés (a Yolo algoritmust már nagyon jól használják), ami javítja az idézeteket és a megjegyzéseket – javítva a minőséget és csökkentve a hibákat. A beépülő moduloknak azt is meg kell könnyíteniük, hogy a Generative AI használatát alapvető tervek (Primitívek) kifejlesztésére használják, amelyeket aztán tovább lehet szerkeszteni a tervezőeszközökben a tolerancia igény szerinti javítása érdekében. Ezt a megközelítést már az Altair's Inspire-ben is alkalmazták, amely a Végeselem-elemzést használta ugyanerre. Ezek a primitívek annotált modellek szintetikus adatbázisaként is szolgálhatnak, amelyekből hiány van a 3D CAD-iparban. A Physna vezérigazgatója és alapítója utal erre egy cikkben részletezik saját kísérleteiket, hogy ezeket az új módszereket használják részletes 3D tervek létrehozására, ami rávilágít számos buktatóra is, ha szintetikus adatokat használnak ezen algoritmusok meghajtására. A 3D tervek létrehozása 2D rajzokból egy másik lehetséges alkalmazási terület, csakúgy, mint az intelligens CAM – amely egy szerszámkopás könyvtára a legjobb megmunkálási stratégiák meghatározásához.

Ezek a kihívások önmagukban és önmagukban is fontosak és jövedelmezőek. Fő hatásuk azonban az lesz, hogy segítik az ötlettől a tervezésig vezető utat azáltal, hogy végső soron csökkentik a 3D-s tervektől való függést a szándékok közlésében. A 2D-s vagy 3D-s tervek elsődleges eszközként szolgáltak a vásárlók igényeinek a végtermékekké alakításában. Ez korlátozza az ipart, mert ezek a tervek fekete dobozként szolgálnak, amelyben minden értékes vásárlói betekintést, gyártási korlátokat és vállalati célkitűzéseket tárolnak, amelyeket nem lehet szétválasztani, de mégis egyedül azonosíthatók. Ez azt jelenti, hogy amikor valami megváltozik, szinte lehetetlen egyszerűen módosítani a dizájnt. Ez az oka annak, hogy a gyártási innovációk, például a 3D-nyomtatás olyan hosszú időt vesz igénybe, hogy elfogadják, és örökre csalódást okoznak a rövid távú befektetőknek. A repülőgépet alkotó alkatrészeket a tervezés pillanatától kezdve „beállítják”, a több mint 20 éves produktív élettartam ellenére. Szinte nincs lehetőség az innovációra – ezeknek meg kell várniuk a következő generáció megjelenését.

Ha egyetlen megszorítást módosíthatunk, és lehetővé válik egy olyan algoritmus, mint például a Stable Diffusion, hogy helyreállítsa a tervezési és gyártási paramétereket, jelentősen felgyorsítja az új innovációk elfogadását, és lehetővé teszi számunkra, hogy könnyebb, jobb teljesítményű termékeket készítsünk gyorsabban. Ahogyan a Forma 1-ben vagy a rendszertervezésben teszik, a jövő mérnökei kényszer-menedzserként fognak működni, akik képesek szavakkal és adatforrásokra hivatkozva kifejezni a termék céljait és korlátait.

Anélkül, hogy ilyen módon felgyorsítanánk az új és a meglévő termékek tervezési folyamatát, szinte semmilyen eszközünk sincs a magunk elé kitűzött ambiciózus fenntarthatósági célok elérésére. Ehhez először meg kell állapodnunk egy nyelvben, amellyel a terveken túl is kommunikálhatunk. Ez az új szemantikai modell a nyilvánvaló hiányosság a fent vázolt innovációkban. Számos cég kezdett már vele kísérletezni, mint pl nTopológia a mező fogalmaival. És mégis, a változás üteme lassú, ellentétben azokkal az algoritmusokkal, amelyeket a szemantikai modell táplál. Az Nvidia új algoritmusa állítólag több mint kétszer olyan gyors, mint DreamFusion, kevesebb mint 2 hónapja jelent meg. A termék- és mérnöki cégeknek most azon kell dolgozniuk, hogy ötleteiket új, jövőbiztos módszerekkel ragadják meg, hogy a lehető legtöbbet hozhassák ki a generatív mesterséges intelligencia robbanásszerű lehetőségeiből. Az algoritmusok változásának sebessége ismét megmutatta, hogy a Morse-törvény mindenhol érvényes, ahol az eszközöket digitalizálják. A kihívás továbbra is az, hogy a feladat sürgőssége ellenére emberi képtelenségünk elfogadni ezt a változást és olyan új kommunikációs módszereket bevetni, amelyek képesek kibontakozni potenciáljukat.

Forrás: https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/