Čo znamená nový prevod textu na 3D od spoločnosti Nvidia pre inžinierstvo a dizajn produktov

tl; dr: Generatívna AI sa vyvíja vzrušujúcim tempom. Najnovší algoritmus od Nvidie prevádza text na 3D sieť dvakrát rýchlejšie ako projekty publikované sotva pred 2 mesiacmi. To znamená, že technické možnosti už teraz prevyšujú našu schopnosť s nimi pracovať.

Minulý týždeň papier Vedci z Nvidie preukázali exponenciálnu rýchlosť, akou sa generatívny priestor AI vyvíja. Táto explózia aktivity – viditeľná najmä za posledných 9 mesiacov – bude mať vplyv na každú časť života, v neposlednom rade na dizajn produktu, konštrukciu a výrobu. Zmeny odpútajú priemysel od štrukturálnych obmedzení v spôsobe komunikácie nápadov, umožnia rýchlejšie inovačné cykly a v konečnom dôsledku mu umožnia splniť sľuby týkajúce sa udržateľnosti.

Príklad siete z algoritmov Magic 3D Nvidia Research s výzvami použitými na ich generovanie.

Nvidia Deep Imagination Research

Keďže sa roky hovorilo, že AI zásadne zmení spôsob, akým pracujeme, málokto očakával, že kreatívny sektor bude medzi jej prvými obeťami. Príchod generátora textu podobného človeku GPT-3 v roku 2020 priniesol možnosti do ostrejšieho zamerania. Odvtedy to bola divoká jazda: DALL-E (text-to-image), Whisper (rozpoznávanie reči) a najnovšie Stable Diffusion (text-to-image) nielen zvýšili možnosti rečových a vizuálnych nástrojov AI, ale aj znížila zdroje potrebné na ich použitie (zo 175 miliárd parametrov pre GPT-3 na 900 miliónov pre Stable Diffusion).

Veľkosť Stable Diffusion znamená menej ako 5 GB miesta na disku – je možné ho spustiť na akomkoľvek notebooku. Nielen to; na rozdiel od OpenAI (ktorý je financovaný hlavne spoločnosťou Microsoft a vydáva GPT-3, DALL-E a Whisper), Stable Diffusion je open source, čo znamená, že ostatní môžu oveľa ľahšie stavať na jeho poznatkoch. To znamená, že vidíme len začiatok inovačného cyklu – ako teraz ukazuje dokument Nvidie, čaká nás ešte oveľa viac.

Podporovatelia Stable Diffusion (stability.ai) ďalej posilňujú tento trend poskytovaním technologických a finančných grantov iným tímom, ktoré posúvajú prieskum novými smermi. Okrem toho množstvo projektov sprístupňuje nástroje stále širšiemu okruhu používateľov. Medzi nimi sú pluginy pre Blender, open-source dizajnový nástroj, a proprietárny ekvivalent Photoshopu od Adobe. Úplný API prístup k nástrojom je financovaný veľkými dolármi Venture Capital, čo znamená, že stovky miliónov vývojárov softvéru, nielen niekoľko stoviek tisíc dátových inžinierov, si teraz vytvoria svoje vlastné nástroje na týchto algoritmoch.

Reč, obrázky a text patria medzi prvé vertikály, ktoré tieto technológie narúšajú. 3D však nezaostáva. Okrem špecializovaného generatívneho umenia sú karikatúry jasným prvým bodom aplikácie. Už existuje generátor Pokémonov založený na Stable Diffusion. Nasledujú vizuálne efekty a filmy. Pravdepodobne však bude narušených mnoho ďalších sektorov – medzi nimi interiérový dizajn, na čele ktorého stojí Interiorai.com.

Pri všetkom tomto vzrušení vám aplikácia inovácií v dizajne a inžinierstve pripadá ako dodatočný nápad. Je však pravdepodobné, že to bude oblasť, ktorá bude v konečnom dôsledku najviac ovplyvnená. Samozrejme, existujú počiatočné výzvy: Po prvé, Stable Diffusion a jeho krajania ešte nie sú veľmi presní. To nie je problém pre karikatúry, ale je to veľká výzva pre akýkoľvek pokus o transformáciu textu do úplnej 3D geometrie používanej v priemyselnom kontexte. To je oblasť, ktorá má nejaký rodiaci sa záujem (projekt s názvom Bits101 bol spustený v Izraeli v roku 2015). Toto môže byť svätý grál tohto odvetvia, ale existuje mnoho prechodných výziev, ktoré možno oveľa ľahšie vyriešiť. Patrí medzi ne vylepšené rozpoznávanie objektov (algoritmus Yolo sa už používa s veľkým efektom), čo povedie k zlepšeniu citácií a anotácií – zlepšenie kvality a zníženie chýb. Zásuvné moduly by tiež mali uľahčiť používanie generatívnej AI na vývoj základných návrhov (Primitives), ktoré sa potom môžu ďalej upravovať v nástrojoch na návrh, aby sa zlepšila tolerancia podľa požiadaviek. To je prístup už použitý v Altair's Inspire, ktorý na to isté použil analýzu konečných prvkov. Tieto Primitives môžu slúžiť aj ako syntetická databáza anotovaných modelov, ktorých je v 3D CAD priemysle nedostatok. Generálny riaditeľ a zakladateľ spoločnosti Physna poukazuje na to v článku podrobne rozoberajú svoje vlastné pokusy o použitie týchto nových metód na vytváranie podrobných 3D návrhov, čo tiež poukazuje na množstvo úskalí pri používaní syntetických údajov na riadenie týchto algoritmov Vytváranie 3D návrhov z 2D výkresov je ďalšou potenciálnou oblasťou použitia, rovnako ako inteligentný CAM – napĺňanie knižnica opotrebovania nástrojov na určenie najlepších stratégií obrábania.

Tieto výzvy je dôležité a lukratívne riešiť sami a pre seba. Ich hlavným dopadom však bude pomôcť pri vývoji cesty od nápadu k návrhu tým, že sa v konečnom dôsledku zníži závislosť od 3D návrhov pri komunikácii zámerov. Návrhy, či už 2D alebo 3D, slúžili ako primárny prostriedok na preklad potrieb zákazníkov do finálnych produktov. To obmedzuje priemysel, pretože tieto návrhy slúžia ako čierna skrinka, v ktorej sú uložené všetky tie cenné poznatky o zákazníkoch, výrobné obmedzenia a ciele spoločnosti, ktoré sa nedajú rozlúštiť, a predsa sú osamotené. To znamená, že keď sa niečo zmení, je takmer nemožné jednoducho upraviť dizajn. To je dôvod, prečo výrobným inováciám, ako je 3D tlač, trvá tak dlho, kým sa osvoja a neustále sklamajú krátkodobých investorov. Komponenty, ktoré tvoria lietadlo, sú „nastavené“ od momentu, keď sú navrhnuté, a to aj napriek viac ako 20-ročnej produktívnej životnosti. Neexistuje takmer žiadny rozsah inovácií – tieto musia počkať na uvedenie novej generácie.

Schopnosť zmeniť jediné obmedzenie a umožniť algoritmu, ako je Stable Diffusion, rekonštituovať dizajn a výrobné parametre, výrazne urýchli prijatie nových inovácií a umožní nám rýchlejšie vytvárať ľahšie a výkonnejšie produkty. Rovnako ako vo Formule 1 alebo v dizajne systémov budú budúci inžinieri pôsobiť ako manažéri obmedzení schopní vyjadriť slovami a odkazom na zdroje údajov, aký je cieľ a obmedzenia produktu.

Bez urýchlenia technického procesu pre nové a existujúce produkty týmto spôsobom nemáme takmer žiadne prostriedky na dosiahnutie ambicióznych cieľov udržateľnosti, ktoré si musíme stanoviť. Aby sme to dosiahli, musíme sa najprv dohodnúť na jazyku, ktorý môžeme použiť na komunikáciu nad rámec dizajnu. Tento nový sémantický model je zjavnou medzerou vo vyššie načrtnutých inováciách. Už s ním začalo experimentovať množstvo firiem, ako napr nTopológia s jej konceptmi polí. Napriek tomu je tempo zmien pomalé, na rozdiel od algoritmov, ktoré bude napájať sémantický model. Nový algoritmus Nvidie je údajne viac ako dvakrát rýchlejší ako DreamFusion, uverejnené pred menej ako 2 mesiacmi. Produktové a inžinierske spoločnosti musia už teraz pracovať na zachytení svojich nápadov novými spôsobmi odolnými voči budúcnosti, aby čo najlepšie využili možnosti, ktoré táto explózia generatívnej AI ponúka. Rýchlosť zmien v algoritmoch opäť raz ukázala, že Morseov zákon platí všade tam, kde sa nástroje digitalizujú. Výzvou zostáva naša ľudská neschopnosť prijať túto zmenu a nasadiť nové komunikačné metódy schopné uvoľniť ich potenciál, a to aj napriek naliehavosti úlohy.

Zdroj: https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/