Egy pillantás az új Al Generative Art-ra

Al Generative Art a legtöbb esetben vizuális művészet, amely az ember és egy autonóm rendszer együttműködésén alapul. Az „autonóm rendszert” úgy határozzuk meg, mint egy Mesterséges Intelligencia szoftver, algoritmus vagy modell, amely képes bonyolult műveletek végrehajtására programozói beavatkozás nélkül.

által létrehozott képek bizarr egymás mellé helyezéseiből Dall-E Mini hoz NFT A piacon a mesterséges intelligencia algoritmusai által generált képek egyre inkább bekerülnek a mainstream képzeletbe. Valójában két fontos projekt a témában, amelyeket érdemes elemezni: középút és a DALL-E2.

A hír természetesen a Twitterre is eljutott. Ezt többek között Charles Hoskinson kommentálja, aki ezt írta:

AI által generált művészet. Ezt a képet pár perc alatt sikerült elkészítenem. El sem tudom képzelni, milyen figyelemre méltó lesz ez a technológia 3 év múlva pic.twitter.com/jOToCZj7ki
- Charles Hoskinson (@IOHK_Charles) Február 1, 2023

Al Generative Art: korai kísérletek és jellemzők

Miután megértette, mi a generatív művészet, fontos hangsúlyozni az egyik alapelvét: véletlenszerűség. Ami a generatív művészet alapvető tulajdonsága.

Valójában a szoftver típusától függően az autonóm rendszer képes olyan eredményeket feldolgozni, amelyek mindig eltérőek és egyediek a generálási parancs minden egyes végrehajtásakor, vagy változó számú eredményt adhat vissza a felhasználói bevitelre válaszul.

A generatív művészet első kísérletei az 1960-as évekre nyúlnak vissza a kísérletekkel Harold Cohen és az ő ÁRON program. Cohen először használt önálló szoftvert a pop art szitanyomások által ihletett absztrakt műalkotások előállításához. Cohen munkái most a londoni Tate Gallery-ben láthatók.

A Generative Art másik attribútuma, amely azonban egyre kevésbé kiváltságos, a programozó által biztosított minták vagy absztrakt elemek ismétlése a szoftverkódon belül.

Emellett a szöveg-kép asszociáción működő, egyre bonyolultabb neurális hálózatok fejlődése lehetővé tette olyan generatív modellek kifejlesztését, amelyek egyre valósághűbb és pontosabb képeket hozhatnak létre. A generatív művészet e kategóriájának legismertebb példája az Lap.

A Dall-E egy multimodális neurális hálózat, amely a GPT-3 mély tanulási modelltől OpenAI, ugyanaz a cég, amely szintén nemrégiben fejlődött ChatGPT, a chatbot 2022 novemberében indult, és arra lett optimalizálva "felügyelt" és megerősítő tanulási technikák.

Visszatérve a Dall-E-hez, azt látjuk, hogy ez a rendszer képes képeket generálni szöveges leírásból, ún. "gyors," szöveg-kép párokból álló adathalmaz alapján.

A Dall-E első változata, amelyet 2021 januárjában mutattak be a nagyközönségnek, és továbbra is kevés szakember kiváltsága maradt a területen, igazi forradalmat jelentett az ilyen típusú generatív modellek tekintetében, felülmúlva a GPT-innovációkat. 3 magát.

Szintén fontos az a tény, hogy a Dall-E által feldolgozott eredmények pontossága tökéletes terepet jelent egy másik OpenAI megoldás számára: CLIP (Kontrasztív nyelv-kép előképzés).

Szöveg-kép asszociációk, például az interneten található feliratok alapján képzett képosztályozó és rangsoroló neurális hálózat. A CLIP beavatkozásának köszönhetően, amely 32-re csökkenti a felhasználónak promptonként javasolt eredmények számát, a Dall-E a legtöbb esetben kielégítő képeket adott vissza.

Midjourney: tervezés, emberi infrastruktúra és mesterséges intelligencia

Ahogy az várható volt, középút egy fontos projekt, amely a feltörekvő Al Generative Art koncepció része. Pontosabban, a Midjourney egy független kutatólaboratórium, amely a gondolkodás új eszközeit kutatja, és kiterjeszti az emberi faj képzelőerejét.

Használata egyszerű: először létre kell hozni egy fiókot Viszály, egy platform, amely különféle közösségeknek ad otthont, ahol a Midjourney is ezek közé tartozik. Az alkalmazáson belül találhatók a különféle chatszobák, amelyekben aktívan részt vehet a megbeszélésekben, vagy sem.

Fontos kiemelni, hogy a mesterséges intelligencia használatának első alkalommal történő kipróbálásához el kell menni a "újoncok" csatornák, hol 25 ingyenes renderelés rendelkezésre állnak.

Egy renderelés négy különböző változat generálásának felel meg, amelyeket ugyanabból a szövegbevitelből generálnak.

Így a 25 renderelés a Midjourney bot által végzett 25 feldolgozási feladatra vonatkozik. Következésképpen a kép létrehozásához interakcióra van szükség a Midjourney bottal egy „prompt” nevű szöveges üzeneten keresztül, amelyben kulcsszavak találhatók, amelyek leírják a felhasználó által elképzelt képet.

Annyi részletet adhat hozzá, amennyit csak akar, a fontos, hogy a kulcsszavakat vesszővel osszuk el. A renderelés befejezése után a számítógép négy különböző képet ad vissza a választható leírások alapján.

Ezen kívül, ha a program befejezte a megjelenítést, a képek alapján közölheti a preferenciáit, és ha akarja, újabb négy verziót generálhat újra.

DALL-E 2: az új mesterséges intelligencia rendszer műalkotásokhoz

A Midjourney mellett a DALL-E 2 az új mesterséges intelligencia rendszer is, amely valósághű képeket és műalkotásokat tud létrehozni természetes nyelvű leírásból. Nem csak ez, a DALL-E 2 képes kombinálni a fogalmakat, attribútumokat és stílusokat is.

Az új mesterséges intelligencia rendszer erőssége abban is rejlik, hogy képes a képeket az eredeti vásznon túlmutató kiterjeszteni, létrehozni új kiterjedt kompozíciók. Ezen túlmenően valósághű változtatásokat tud végrehajtani a meglévő képeken a természetes nyelvű feliratokból, és hozzáadhat és eltávolíthat elemeket, figyelembe véve az árnyékokat, a tükröződéseket és a textúrákat.

A DALL-E 2 képességei közé tartozik az is, hogy képet készít, és annak több változatát készíti az eredeti ihlette. A DALL-E 2 megtanulta a képek és a leírásukhoz használt szöveg közötti kapcsolatot.

Az úgynevezett folyamatot használja „diffúzió”, amely véletlenszerű pontokból álló mintával kezdődik, és fokozatosan egy kép irányába változtatja ezt a mintát, amikor felismeri a kép bizonyos aspektusait.

Így, miután az OpenAI 2021 januárjában bemutatta a DALL-E-t, most a legújabb rendszer, a DALL-E 2 valósághűbb és pontosabb képeket készít négyszer nagyobb felbontással.

A DALL-E 2 kutatási projektként indult, és ma már elérhető a béta verzió. A rendszer által kifejlesztett és folyamatosan fejlesztendő biztonsági intézkedések közé tartozik: a rendszer erőszakos, gyűlöletkeltő vagy felnőttkori képeket generáló képességének korlátozása, valamint a tanuláson alapuló szakaszos telepítés.

Forrás: https://en.cryptonomist.ch/2023/02/02/ai-generative-art/