Az OpenAI és a Microsoft megvalósítja a Vall-E-t

OpenAI és Microsoft megvalósításával folytassa a harcot a Google-lal a mesterséges intelligencia területén Vall-E, az új hangos chatbot. Ez egy beszédszintézis szoftver, amely már három másodpercnyi hallgatás után képes szimulálni az emberi hangot.

Vagyis ez a Microsoft és az OpenAI által fejlesztett generatív mesterséges intelligencia rendszer legújabb darabja, amellyel 2019 óta a kolosszus Bill Gates több év köti össze, több milliárd dolláros partnerség.

Vall-E: minden részlet az OpenAI és a Microsoft új chatbotjáról

A Valle-E az AGI eszköze, Mesterséges általános intelligencia, vagyis egy „általános” vagy „erős” mesterséges intelligencia, amely képes szimulálni az emberi intelligenciát. Így szemben azzal, amit eddig ismertünk, ami „szűk” vagy „gyenge” AI.

Ez utóbbi képes előre beállított műveletekkel válaszolni meghatározott feladatokra, de nem reagál egy nem tervezett műveletre. Az elmúlt években az AI chatbotok nem teljesítettek úgy, ahogyan azt az alkotók várták, mert kis feladatokra korlátozódtak, és magas volt a hibaarányuk.

A Valle-E-t a vele való használatra fejlesztették ki jó minőségű beszédszintézis eszközöket, és eredeti hangot hozhat létre egy példamintából. Az OpenAI a Valle-E-t a "természetes kodek nyelvi modell", mivel működése az úgynevezett technológián alapul InCodec.

A startup, finanszírozta Elon Musk és Sam Altman, többek között a ChatGPT létrehozásával is büszkélkedhet, egy olyan chatbottal, amely képes fenntartani az interaktív beszélgetést a felhasználókkal azáltal, hogy emlékezik és tanul azokból a korábbi tevékenységekből és precedensekből.

Ezért éppen úgy ChatGPT képes önállóan kódokat generálni, a Valle-E-t arra is tervezték, hogy különálló hangkodekeket hozzon létre egy hangminta meghallgatásából.

Pontosan emberként viselkedni.

Együtt a GPT-3 szoftver szöveges és Dall-E/Stable Diffusion a képek esetében a Valle-E audiorendszer kiegészíti a ChatGPT triptichont, és célja, hogy forradalmasítsa a generatív AI.

Speaker Prompt, Ground Truth, Baseline és Vall-E.

Az OpenAI és a Microsoft által elindított új eszköz kifinomultsága abban rejlik, hogy a Valle-E képes felismerni a hangszín, inflexió és érzelmi hang a beszélő személyétől, és már három másodperces hallgatás után játssza le újra.

A pályázatok be audio szerkesztés sok, csakúgy, mint a szoftver manipulációs és visszaélési lehetőségével kapcsolatos kritikák. Nem meglepő, hogy a ChatGPT-vel ellentétben a Microsoft nem adta meg a Vall-E kódját, hogy mások kísérletezzenek vele.

A szoftver által már szintetizált beszédminták is megtalálhatók a Valle-E oldalán. Különösen több mintavételi változat hallható, többek között: Speaker Prompt, Ground Truth, Baseline és Vall-E.

Az első lehetőség egy hangklip, amelynek a beszéd konnotációit az AI-nak kell reprodukálnia; a másodikban egy mondat hangzik el, amelyhez az MI-nek összehasonlítást kell javasolnia. A harmadik viszont a jelenleg elérhető beszédszintézis technológiákkal előállított példa. Végül a Vall-E a Microsoft szoftvere által generált eredeti beszéd.

Az OpenAI és a Microsoft AI lehetőségei és veszélyei.

Úgy tűnik, hogy a Microsoft és az OpenAI kutatói tisztában vannak e technológia lehetséges ártalmaival. Valójában egy nyilvános lapban a következőket közölték:

"Mivel a Vall-E olyan beszédet tud szintetizálni, amely megőrzi a beszélő személyazonosságát, az ilyen technológia potenciális kockázatokat jelenthet a modell helytelen használatával kapcsolatban, mint például a hangazonosítás meghamisítása vagy valakinek a megszemélyesítése."

Ezért a Microsoft hozzáteszi, hogy az ilyen kockázatok mérséklése érdekében fel lehet építeni egy észlelési modellt, amely megkülönbözteti, hogy egy hangfelvételt a Vall-E szintetizált-e. Ennek kapcsán a két óriáscég a további modellfejlesztés során a Microsoft mesterséges intelligencia elveit is megvalósítja.

Az emuláció kockázata azonban nem az egyetlen szkepticizmust és félelmet generáló tényező. Vall-E-t a LibriLight audiokönyvtár segítségével képezték ki meta, ami tartalmaz 60 ezer több órányi angol nyelvű beszéd, amelyet többnyire közkincs hangoskönyvekből vontak ki, önkéntesek vettek fel és olvastak fel.

Mindenesetre szintézis kapacitásának növelése érdekében a Vall-E-nek ki kell terjesztenie tanulási készletét a teljes internetre. Ez a következő lépés tette lehetővé a GPT-3, a ChatGPT elődjének elérését lenyűgöző mondatfeldolgozás, írási és összeállítási képességek.

Ennek ellenére a szoftver hajlamos volt erőszakos, szexista és rasszista tartalmak megfogalmazására is, mivel az egész webről válogatás nélkül vett példákon dolgozott. Ez történhet az új Vall-E-vel is.

Ebben az esetben a szűrési műveletekhez számos emberre lenne szükség, amit jelenleg a nagy digitális óriások nem látnak előre, tekintettel a nagytechnológiát sújtó elbocsátási hullámra.

A Google bemutatja a Bardot, hogy versenyezzen az OpenAI-val és a Microsofttal

Ahogy az várható volt, a Microsoft és az OpenAI versenytársa a Google, amely bemutatásra kerül Dalnok, a chatbot innen DeepMind, a Google által felvásárolt cég Ábécé. A Bard a ChatGPT pontos másolatának tűnik, de a frissítések hibája nélkül.

Sundar Pichai, a Google vezérigazgatója az új szoftvert egy olyan eszközként mutatta be, amely információkat merít az internetről, hogy friss, jó minőségű válaszokat adjon. A „friss” alatt azt érti, hogy folyamatosan frissítik, amit a Microsoft mesterséges intelligencia továbbra sem képes megtenni.

Dióhéjban Bard célja, hogy egyszerű kérdésekre részletes válaszokat adjon. Működése azon alapul TheMDA, a párbeszédes alkalmazások nyelvi modellje, amelyet a Google egyik saját mérnöke korábban „érzőnek” minősített.

Tagadhatatlan, hogy a technológiai rajongók várták a Google bejelentését a Bard indulásáról. Végül is a jelentések szerint a Wall Street Journal, Alphabet, a Google anyacége többet fektetett be, mint 31 milliárd $ A mesterséges intelligencia területén 2021-ben több, mint bármely más versenytárs.

A ChatGPT sikere után a cég ezért úgy döntött, hogy megidézi a legjobbakat: az alapítókat Larry Page és Sergey Brin. Mindenesetre kétségtelen, hogy a mesterséges intelligencia szoftverek felbecsülhetetlen értékű erőforrást jelentenek az innováció területén.

Sőt, sőt Amazon, Meta és Apple biztosan nem dőlnek hátra és nézik, mit csinálnak mások anélkül, hogy intézkednének. Bár a verseny nagyszerű gyorsító a kutatás szempontjából, fennáll a veszélye annak, hogy a legjobb mesterséges intelligenciáért folytatott versenyben hibás rendszereket használnak fel hibákkal, korlátokkal és kockázatokkal anélkül, hogy túlzottan odafigyelnének az összképre.

Forrás: https://en.cryptonomist.ch/2023/02/14/openai-microsoft-implement-vall-e/