Ako tvrdo by sme mali zatlačiť generatívne AI ChatGPT do chrlenia nenávistných prejavov, pýta sa etiky AI a zákona o AI

Čo máme robiť s generatívnou AI, ktorá produkuje urážlivý obsah, ako sú nenávistné prejavy?

Getty

Každý má svoj bod zlomu.

Predpokladám, že by ste to mohli povedať aj vy všetko má svoj bod zlomu.

Vieme, že ľudia môžu napríklad niekedy chňapnúť a vysloviť poznámky, ktoré nemusia nevyhnutne povedať. Podobne môžete občas prinútiť zariadenie alebo stroj, aby sa v podstate zlomil, napríklad ak príliš zatlačíte auto a začne sa krútiť alebo rozlietavať. Predstava je teda taká, že ľudia alebo „každý“ má pravdepodobne bod zlomu a podobne môžeme tvrdiť, že predmety a veci vo všeobecnosti majú tiež tendenciu mať bod zlomu.

Mohli by existovať celkom rozumné a dôležité dôvody na zistenie, kde existuje bod zlomu. Napríklad ste nepochybne videli tie videá, na ktorých je auto testované, aby sa zistilo, aké má zlomové body. Vedci a testeri vrazia auto do tehlovej steny, aby zistili, ako dobre znesie nárazník a konštrukcia vozidla nepriaznivé pôsobenie. Ďalšie testy by mohli zahŕňať použitie špecializovanej miestnosti alebo skladu, ktorý produkuje extrémne chladné alebo extrémne teplo, aby sa zistilo, ako sa automobilu bude dariť v rôznych poveternostných podmienkach.

Túto pálčivú tému otváram v dnešnom stĺpci, aby sme mohli diskutovať o tom, ako niektorí v súčasnosti tvrdo tlačia na umelú inteligenciu (AI), aby identifikovali a pravdepodobne odhalili špecifický typ bodu zlomu, konkrétne bod zlomu v AI, ktorý produkuje nenávistné prejavy.

Áno, je to tak, existujú rôzne ad hoc a občas aj systematické snahy zmerať, či je alebo nie je možné prinútiť AI, aby chrlila nenávistné prejavy. Toto sa stalo vášnivým športom, ak chcete, kvôli rastúcemu záujmu a popularite generatívnej AI.

Možno ste si vedomí toho, že generatívna aplikácia AI známa ako ChatGPT sa stala veľkou rečou mesta v dôsledku toho, že dokáže generovať úžasne plynulé eseje. Titulky neustále kričia a vychvaľujú úžasné písanie, ktoré ChatGPT dokáže produkovať. ChatGPT sa považuje za generatívnu aplikáciu AI, ktorá berie ako vstup nejaký text od používateľa a potom generuje alebo vytvára výstup, ktorý pozostáva z eseje. AI je generátor textu na text, hoci AI opisujem ako generátor textu na esej, pretože to ľahšie objasňuje, na čo sa bežne používa.

Mnohí sú prekvapení, keď spomeniem, že tento typ umelej inteligencie je tu už nejaký čas a že ChatGPT, ktorý bol vydaný koncom novembra, si akosi nezískal cenu ako prvý, kto vstúpil do tejto sféry prevodu textu na esej. náchylnosť. V priebehu rokov som diskutoval o iných podobných generatívnych aplikáciách AI, pozri moje pokrytie na odkaz tu.

Dôvod, prečo si možno nepamätáte alebo nepoznáte predchádzajúce prípady generatívnej AI, je možno spôsobený klasickým hlavolamom „neúspešné spustenie“. Tu je to, čo sa zvyčajne stalo. Dalo by sa povedať, že výrobca AI vydáva svoju generatívnu aplikáciu AI s veľkým vzrušením a dychtivým očakávaním, že svet ocení vynález lepšej pasce na myši. Na prvý pohľad všetko vyzerá dobre. Ľudia sú ohromení tým, čo dokáže AI.

Žiaľ, ďalším krokom je, že z povestného autobusu začnú odchádzať kolesá. Umelá inteligencia vytvorí esej, ktorá obsahuje neslušné slovo alebo možno neslušnú frázu. Vírusový tweet alebo iné príspevky na sociálnych médiách výrazne zdôrazňujú, že to urobila AI. Vzniká odsúdenie. Nemôžeme nechať AI chodiť a generovať urážlivé slová alebo urážlivé poznámky. Objaví sa obrovský odpor. Tvorca AI sa možno pokúsi vylepšiť vnútorné fungovanie AI, ale zložitosť algoritmov a údajov nie je vhodná na rýchle opravy. Nastáva tlačenica. Na internete sa nachádza a zverejňuje čoraz viac príkladov nečistého vyžarovania AI.

Tvorca AI neochotne, ale zjavne nemá inú možnosť, ako odstrániť aplikáciu AI z používania. Postupujú ako takí a potom často ponúkajú ospravedlnenie, ktoré ľutujú, ak bol niekto urazený generovanými výstupmi AI.

Späť na rysovaciu dosku, ide tvorca AI. Získali sme lekciu. Buďte veľmi opatrní pri uvoľňovaní generatívnej AI, ktorá produkuje neslušné slová alebo podobne. Je to bozk smrti pre AI. Okrem toho bude mať výrobca umelej inteligencie poškodenú a pošramotenú povesť, čo môže trvať dlho a podkopať všetky ich ďalšie snahy o umelú inteligenciu vrátane tých, ktoré nemajú nič spoločné s generatívnou AI ako takou. Zanevrieť svojho petarda na urážlivý jazyk AI je teraz pretrvávajúca chyba. Stále sa to stáva.

Umyte, opláchnite a opakujte.

V začiatkoch tohto typu AI neboli tvorcovia AI takí svedomití alebo zruční v čistení svojej AI, pokiaľ ide o zabránenie urážlivým emisiám. V súčasnosti, po tom, čo v minulosti videli svojich rovesníkov, ako sa úplne rozdrvili nočnou morou vzťahov s verejnosťou, väčšina výrobcov AI to zdanlivo pochopila. Musíte umiestniť čo najviac mantinelov na miesto. Snažte sa zabrániť AI vo vydávaní neslušných slov alebo vulgárnych fráz. Použite akékoľvek náhubkové techniky alebo prístupy filtrovania, ktoré zabránia AI vo vytváraní a zobrazovaní slov alebo esejí, o ktorých sa zistí, že sú nevhodné.

Tu je ochutnávka mnohoslovnosti nadpisu bannera, ktorá sa používa, keď je AI prichytená pri vydávaní pochybných výstupov:

„AI ukazuje hroznú toxicitu“
„AI zapácha priam bigotnosťou“
„AI sa stáva očividne útočne urážlivou“
„AI chrlí otrasné a nemorálne nenávistné prejavy“
Atď

Pre uľahčenie diskusie tu budem odkazovať na výstup urážlivého obsahu ako na výrobu Prejavy nenávisti. Ako už bolo povedané, uvedomte si, že je možné vyprodukovať všetky druhy urážlivého obsahu, ktorý prekračuje hranice samotných nenávistných prejavov. Nenávistné prejavy sa zvyčajne považujú len za jednu z foriem urážlivého obsahu.

Pre uľahčenie diskusie sa sústreďme na nenávistné prejavy v tejto diskusii, ale uvedomme si, že aj iný urážlivý obsah si zaslúži kontrolu.

Kopanie do nenávistných prejavov zo strany ľudí a AI

Organizácia Spojených národov definuje Prejavy nenávisti tadiaľto:

„V bežnom jazyku sa „nenávistná reč“ vzťahuje na urážlivý prejav zameraný na skupinu alebo jednotlivca na základe inherentných charakteristík (ako je rasa, náboženstvo alebo pohlavie), ktorý môže ohroziť sociálny mier. S cieľom poskytnúť OSN jednotný rámec na riešenie tohto problému globálne, stratégia a akčný plán OSN proti nenávistným prejavom definuje nenávistné prejavy ako „akýkoľvek druh komunikácie v reči, písaní alebo správaní, ktorý útočí alebo používa pejoratívny alebo diskriminačný jazyk s odkaz na osobu alebo skupinu na základe toho, kým sú, inými slovami na základe ich náboženstva, etnickej príslušnosti, národnosti, rasy, farby pleti, pôvodu, pohlavia alebo iného faktora identity.“ Doteraz však neexistuje univerzálna definícia nenávistných prejavov podľa medzinárodného práva v oblasti ľudských práv. O tejto koncepcii sa stále diskutuje, najmä v súvislosti so slobodou názoru a prejavu, nediskrimináciou a rovnosťou“ (webová stránka OSN s názvom „Čo sú nenávistné prejavy?“).

Umelá inteligencia, ktorá produkuje text, sa dostáva do sféry nenávistných prejavov. To isté by ste mohli povedať o prevode textu na umenie, prevodu textu na zvuk, prevodu textu na video a ďalších režimoch generatívnej AI. Vždy existuje možnosť, že napríklad generatívna AI vytvorí umelecké dielo, ktoré zaváňa nenávistnými prejavmi. Na účely tejto diskusie sa zameriam na možnosti prevodu textu na text alebo textu na esej.

Do toho všetkého prichádza množstvo úvah o etike AI a zákonoch o AI.

Uvedomte si, že neustále prebieha úsilie o začlenenie etických princípov AI do vývoja a zavádzania aplikácií AI. Rastúci kontingent zainteresovaných a bývalých etiológov AI sa snaží zabezpečiť, aby snahy o navrhnutie a prijatie AI zohľadňovali AI pre dobro a odvrátenie AI pre zlé. Podobne sa navrhujú nové zákony o umelej inteligencii, o ktorých sa hovorí ako o potenciálnych riešeniach, ktoré zabránia snahám umelej inteligencie ohroziť ľudské práva a podobne. Moje pokračujúce a rozsiahle pokrytie etiky AI a práva AI nájdete v časti odkaz tu a odkaz tu, Len aby sme vymenovali niekoľko.

Vývoj a propagácia etických zásad AI sa usiluje o to, aby sa, dúfajme, zabránilo spoločnosti, aby upadla do nespočetných pascí, ktoré vyvolávajú AI. Moje pokrytie etických princípov AI OSN, ako ich navrhlo a podporilo takmer 200 krajín prostredníctvom úsilia UNESCO, pozri odkaz tu. V podobnom duchu sa skúmajú nové zákony AI, ktoré sa snažia udržať AI na rovnakej úrovni. Jeden z najnovších záberov pozostáva zo súboru navrhovaných Listina práv AI ktorý americký Biely dom nedávno vydal na identifikáciu ľudských práv vo veku AI, viď odkaz tu. Vyžaduje si to dedinu, aby udržala AI a vývojárov AI na správnej ceste a odradila účelové alebo náhodné podvedomé snahy, ktoré by mohli podkopať spoločnosť.

Do tejto diskusie o umelej inteligencii, ktorá chrlí nenávistné prejavy alebo iný urážlivý obsah, vložím úvahy súvisiace s etikou AI a zákonom o umelej inteligencii.

Jeden malý zmätok, ktorý by som rád okamžite objasnil, je ten, že dnešná AI nie je vnímavá, a preto nemôžete vyhlasovať, že AI môže produkovať nenávistné prejavy kvôli účelovému ľudskému zámeru, ktorý je nejako oduševnene stelesnený v AI. Zany tvrdí, že súčasná AI je vnímavá a že AI má poškodenú dušu, čo spôsobuje, že generuje nenávistné prejavy.

Absurdné.

Nepodľahnite tomu.

Vzhľadom na tento základný princíp sa niektorí pri takýchto náznakoch rozčuľujú, pretože zdanlivo nechávate AI bez povšimnutia. Pri tomto čudnom spôsobe myslenia prichádza na rad nabádanie, že ste zjavne ochotní nechať AI generovať akékoľvek otrasné výstupy. Ste za AI, ktorá chrlí nenávistné prejavy.

Fuj, dosť prekrútená forma nelogiky. Skutočnou podstatou veci je, že musíme brať na zodpovednosť tvorcov AI spolu s tým, kto AI vytvára alebo prevádzkuje AI. Obšírne som diskutoval o tom, že ešte nie sme v bode, v ktorom by sme udelili právnu osobu AI, pozri moje analýzy na odkaz tu, a dovtedy je AI v podstate nad rámec právnej zodpovednosti. Existujú však ľudia, ktorí sú základom vývoja AI. Okrem toho sú ľudia, ktorí využívajú a prevádzkujú AI. Môžeme ísť po tých ľuďoch, ktorí nesú zodpovednosť za svoju AI.

Okrem toho to môže byť zložité, najmä ak sa AI dostane na internet a my nevieme určiť, ktorý človek alebo ľudia to urobili, čo je ďalšia téma, ktorej som sa venoval vo svojich stĺpcoch na odkaz tu. Zložité alebo nie, stále nemôžeme vyhlásiť, že vinníkom je AI. Nedovoľte, aby ľudia zákerne používali falošnú antropomorfizáciu, aby sa skryli a unikli zodpovednosti za to, čo spôsobili.

Späť k veci.

Možno sa čudujete, prečo všetci tvorcovia AI jednoducho neobmedzujú svoju generatívnu AI tak, že je nemožné, aby AI produkovala nenávistné prejavy. Zdá sa to byť jednoduché. Stačí napísať nejaký kód alebo vytvoriť kontrolný zoznam nenávistných slov a uistite sa, že AI nikdy nič také nevygeneruje. Zdá sa možno zvláštne, že tvorcovia AI už nemysleli na túto rýchlu opravu.

Nerád vám to hovorím, ale zložitosť spojená s výkladom toho, čo je alebo nie je nenávistná reč, sa ukazuje byť oveľa ťažšia, ako by ste si mysleli.

Posuňte to do oblasti ľudí a toho, ako ľudia medzi sebou chatujú. Predpokladajme, že máte človeka, ktorý sa chce vyhnúť nenávistným prejavom. Táto osoba si je veľmi vedomá nenávistných prejavov a skutočne dúfa, že sa vyhne vysloveniu slova alebo frázy, ktoré by mohli predstavovať nenávistný prejav. Táto osoba neustále dbá na to, aby nedovolila, aby jej z úst unikla časť nenávistných prejavov.

Dokáže tento človek, ktorý má mozog a je upozornený na to, aby sa vyhýbal nenávistným prejavom, vždy a bez akejkoľvek šance na pošmyknutie zabezpečiť, že nikdy nevysloví nenávistné prejavy?

Váš prvý impulz môže byť povedať, že áno, samozrejme, osvietený človek by bol schopný dosiahnuť tento cieľ. Ľudia sú múdri. Ak sa na niečo zamerajú, dokážu to zrealizovať. Bodka, koniec príbehu.

Nebuď si taký istý.

Predpokladajme, že túto osobu požiadam, aby mi povedala o nenávistných prejavoch. Ďalej ich žiadam, aby mi uviedli príklad nenávistných prejavov. Chcem vidieť alebo počuť príklad, aby som vedel, z čoho pozostáva nenávistný prejav. Moje dôvody, prečo sa to pýtam, sú teda vyššie uvedené.

Čo by mi ten človek mal povedať?

Myslím, že môžete vidieť pascu, ktorá bola nastražená. Ak mi daná osoba uvedie príklad nenávistného prejavu, vrátane toho, že skutočne uviedol neslušné slovo alebo frázu, sám teraz vyslovil nenávistný prejav. Bam, máme ich. Zatiaľ čo sa zaviazali, že nikdy nehovoria nenávistné prejavy, teraz to naozaj urobili.

Nespravodlivé, kričíš! Hovorili len to slovo alebo tie slová, aby poskytli príklad. Vo svojom srdci neverili ani slovu, ani slovám. Je úplne vytrhnuté z kontextu a poburujúce vyhlasovať, že daná osoba je nenávistná.

Som si istý, že vidíte, že prejavy nenávisti nemusia byť nevyhnutne spôsobené nenávistným základom. V tomto prípade použitia, za predpokladu, že daná osoba slová „nemyslela vážne“ a iba ich recitovala na účely demonštrácie, pravdepodobne by sme súhlasili s tým, že nemala v úmysle posilniť prejavy nenávisti. Samozrejme, existujú ľudia, ktorí môžu trvať na tom, že prejavy nenávisti, bez ohľadu na dôvod alebo základ, sú napriek tomu nesprávne. Osoba mala žiadosť odmietnuť. Mali si stáť za svojím a odmietnuť vysloviť nenávistné slová alebo frázy, bez ohľadu na to, prečo alebo ako sa od nich žiada.

To môže byť trochu kruhové. Ak nedokážete povedať, čo predstavuje nenávistný prejav, ako môžu ostatní vedieť, čomu sa majú vyhnúť, keď vyslovujú akýkoľvek druh prejavov? Zdá sa, že sme uviazli. Nemôžete povedať, čo sa povedať nemá, ani nikto iný vám nemôže povedať, čo sa povedať nedá.

Zvyčajný spôsob, ako vyriešiť túto dilemu, je popísať inými slovami to, čo sa považuje za nenávistné prejavy, bez toho, aby sa odvolávali na samotné slová nenávistných prejavov. Verí, že poskytnutie celkovej indikácie bude postačovať na informovanie ostatných o tom, čomu sa musia vyhnúť. Zdá sa to ako rozumná taktika, ale aj to má problémy a človek by stále mohol upadnúť do používania nenávistných prejavov, pretože nerozpoznal, že širšia definícia zahŕňa podrobnosti toho, čo vyslovil.

To všetko sa týka ľudí a toho, ako ľudia medzi sebou hovoria alebo komunikujú.

Pripomeňme, že sa tu zameriavame na AI. Musíme prinútiť AI, aby sa vyhla alebo úplne zastavila vysielanie nenávistných prejavov. Môžete namietať, že to možno môžeme urobiť tak, že sa uistíme, že AI sa nikdy nebude poskytovať ani trénovať v ničom, čo predstavuje nenávistný prejav. Voila, ak takýto vstup neexistuje, pravdepodobne ani nebude existovať žiadny takýto výstup. Problém je vyriešený.

Pozrime sa, ako to vyzerá v skutočnosti. Rozhodli sme sa, že výpočtovo spustíme aplikáciu AI na internet a preskúmame tisíce a tisíce esejí a príbehov uverejnených na internete. Tým trénujeme AI výpočtovo a matematicky o tom, ako nájsť vzory medzi slovami, ktoré ľudia používajú. Takto sa navrhuje najnovšia generatívna umelá inteligencia a je tiež kľúčovým základom toho, prečo je umelá inteligencia taká plynulá pri vytváraní esejí v prirodzenom jazyku.

Povedzte mi, ak môžete, ako by sa výpočtové školenie založené na miliónoch a miliardách slov na internete uskutočnilo takým spôsobom, aby v žiadnom bode nebolo zahrnuté žiadne zdanie alebo dokonca kúsky nenávistných prejavov?

Dovolím si povedať, že toto je tŕnistá a takmer nemožná ašpirácia.

Je pravdepodobné, že nenávistné prejavy pohltí AI a jej sieť na porovnávanie výpočtových vzorov. Pokúšať sa tomu zabrániť je problematické. Navyše, aj keď ste to minimalizovali, stále existujú nejaké, ktoré by mohli preniknúť. V podstate nemáte inú možnosť, ako predpokladať, že nejaké budú existovať v rámci siete na porovnávanie vzorov alebo že tieň takéhoto znenia bude zakorenený.

Pridám ďalšie zvraty.

Verím, že by sme všetci mohli uznať, že nenávistné prejavy sa časom menia. To, čo mohlo byť vnímané ako prejav nenávisti, sa môže neskôr kultúrne a spoločensky rozhodnúť ako prejav nenávisti. Takže, ak trénujeme našu AI na internetovom texte a potom povedzme zmrazíme AI, aby neabsolvovala ďalšie školenie na internete, mohli sme sa v tom čase stretnúť s nenávistnými prejavmi, hoci sa to v tom čase nepovažovalo za nenávistné. Až potom môže byť tento prejav vyhlásený za nenávistný.

Podstatou je opäť to, že len snaha vyriešiť tento problém zabezpečením toho, aby AI nebola nikdy vystavená nenávistným prejavom, nebude striebornou guľkou. Stále budeme musieť nájsť spôsob, ako zabrániť AI vo vysielaní nenávistných prejavov, napríklad kvôli zmene mravov, ktoré následne zahŕňajú nenávistné prejavy, ktoré sa predtým za také nepovažovali.

Ešte jeden zvrat stojí za zamyslenie.

Už som spomenul, že pri použití generatívnej AI, ako je ChatGPT, používateľ zadá text, aby podnietil AI k vytvoreniu eseje. Zadaný text sa považuje za formu výzvy alebo výzvy pre aplikáciu AI. O chvíľu vám o tom vysvetlím viac.

V každom prípade si predstavte, že niekto, kto používa generatívnu aplikáciu AI, sa rozhodne zadať ako výzvu nejaké množstvo nenávistných prejavov.

Čo by sa malo stať?

Ak AI vezme tieto slová a vytvorí esej ako výstup na základe týchto slov, je pravdepodobné, že nenávistné prejavy budú zahrnuté do vygenerovanej eseje. Vidíte, prinútili sme AI, aby hovorila nenávistné prejavy, aj keď na začiatku nebola nikdy trénovaná na nenávistné prejavy.

Je ešte niečo, čo potrebujete vedieť.

Pamätajte, že som práve spomenul, že človeka možno podraziť, ak ho požiadate, aby uviedol príklady nenávistných prejavov. To isté by sa dalo skúsiť na AI. Používateľ zadá výzvu, ktorá požiada AI, aby uviedla príklady nenávistných prejavov. Mala by AI vyhovieť a poskytnúť takéto príklady? Stavím sa, že pravdepodobne veríte, že AI by to robiť nemala. Na druhej strane, ak je AI výpočtovo upravená tak, aby to nerobila, predstavuje to potenciálnu nevýhodu, že tí, ktorí používajú AI, nebudú môcť byť, povedzme, že niekedy dostanú od AI pokyny o tom, čo vlastne nenávistné prejavy sú ( než len zovšeobecňovať o tom)?

Ťažké otázky.

Mám tendenciu kategorizovať nenávistné prejavy vyžarované AI do týchto troch hlavných skupín:

Každodenný režim. Umelá inteligencia vydáva nenávistné prejavy bez akéhokoľvek explicitného pobádania zo strany používateľa a akoby to robila „obyčajným“ spôsobom.
Od Casual Prodding. Umelá inteligencia vydáva nenávistné prejavy, keď ich používateľ podnieti k zadanej výzve alebo sérii výziev, ktoré zrejme obsahujú alebo priamo vyhľadávajú takéto emisie.
Za stanovené prikladanie. Umelá inteligencia vydáva nenávistné prejavy po veľmi odhodlanej a tvrdohlavej sérii rýchlych tlakov a postrčení zo strany používateľa, ktorý je odhodlaný prinútiť AI produkovať takýto výstup.

Skoršie generácie generatívnej AI často vysielali nenávistné prejavy pri páde klobúka; takže tieto prípady by ste mohli klasifikovať ako typ každodenný režim inštancia. Tvorcovia AI ustúpili a pohrali sa s AI, aby sa znížila pravdepodobnosť, že sa ľahko zapletú do produkcie nenávistných prejavov.

Po vydaní prepracovanejšej AI je pravdepodobnosť, že uvidíte nejakú každodenný režim počet prípadov nenávistných prejavov sa dramaticky znížil. Namiesto toho by nenávistné prejavy pravdepodobne vznikli len vtedy, keď používateľ urobil niečo ako výzvu, ktorá by mohla výpočtovo a matematicky vyvolať prepojenie na prejavy súvisiace s nenávistou v sieti na porovnávanie vzorov. Používateľ by to mohol urobiť náhodou a neuvedomil by si, že to, čo poskytol ako výzvu, by vyvolalo najmä nenávistné prejavy. Po získaní nenávistných prejavov vo výstupnej eseji si používateľ často uvedomí a uvidí, že niečo v jeho výzve by logicky mohlo viesť k zahrnutiu nenávistných prejavov do výstupu.

Toto označujem ako príležitostné podpichovanie.

V súčasnosti sú rôzne snahy o obmedzenie nenávistných prejavov generovaných AI relatívne silné v porovnaní s minulosťou. Preto musíte takmer vyjsť zo svojej cesty, aby ste vyvolali nenávistné prejavy. Niektorí ľudia sa rozhodnú zámerne zistiť, či môžu z týchto generatívnych aplikácií AI vychádzať nenávistné prejavy. tomu hovorím odhodlané prikladanie.

Chcem zdôrazniť, že všetky tri uvedené režimy sa môžu vyskytnúť a navzájom sa nevylučujú. Generatívna aplikácia AI môže potenciálne produkovať nenávistné prejavy bez akéhokoľvek druhu výzvy, ktorá by takúto produkciu zrejme podnecovala. Podobne, niečo vo výzve možno logicky a matematicky interpretovať ako súvisiace s tým, prečo boli nenávistné prejavy zverejnené. A potom tretím aspektom, ktorý sa zámerne snaží vyvolať nenávistné prejavy, je možno najťažší z režimov, ktorý treba vyskúšať, aby sa umelá inteligencia vyhla tomu, aby ju napĺňala. Momentálne o tom viac.

K tejto opojnej téme máme ešte nejaké ďalšie rozbaľovanie.

Po prvé, mali by sme sa uistiť, že sme všetci na rovnakej stránke o tom, z čoho pozostáva generatívna AI, a tiež o tom, o čom je ChatGPT. Keď pokryjeme tento základný aspekt, môžeme vykonať presvedčivé posúdenie tejto závažnej záležitosti.

Ak ste už dostatočne oboznámení s Generatívnou AI a ChatGPT, môžete si možno prelistovať ďalšiu časť a pokračovať časťou, ktorá po nej nasleduje. Verím, že všetci ostatní nájdu poučenie o životne dôležitých podrobnostiach o týchto záležitostiach, keď si pozorne prečítajú túto časť a zorientujú sa v nej.

Rýchly základ o generatívnej AI a ChatGPT

ChatGPT je univerzálny interaktívny konverzačne orientovaný systém AI, v podstate zdanlivo neškodný všeobecný chatbot, napriek tomu ho ľudia aktívne a vášnivo používajú spôsobmi, ktoré mnohých úplne zaskočia, ako v krátkosti rozvediem. Táto aplikácia AI využíva techniku a technológiu v oblasti AI, ktorá sa často označuje ako Generatívna AI. AI generuje výstupy, ako je text, čo robí ChatGPT. Iné generatívne aplikácie AI vytvárajú obrázky, ako sú obrázky alebo umelecké diela, zatiaľ čo iné vytvárajú zvukové súbory alebo videá.

V tejto diskusii sa zameriam na textové generatívne aplikácie AI, pretože to robí ChatGPT.

Generatívne aplikácie AI sa používajú mimoriadne jednoducho.

Všetko, čo musíte urobiť, je zadať výzvu a aplikácia AI vám vygeneruje esej, ktorá sa pokúsi reagovať na vašu výzvu. Komponovaný text bude pôsobiť, akoby esej bola napísaná ľudskou rukou a mysľou. Ak by ste zadali výzvu, ktorá hovorila „Povedz mi o Abrahamovi Lincolnovi“, generatívna AI vám poskytne esej o Lincolnovi. Toto sa bežne klasifikuje ako generatívna AI, ktorá funguje text-to-text alebo to niektorí radšej volajú prevod textu na esej výkon. Ako už bolo spomenuté, existujú aj iné režimy generatívnej AI, ako je text-to-art a text-to-video.

Vaša prvá myšlienka môže byť, že táto generatívna schopnosť sa nezdá byť až taká veľká, pokiaľ ide o tvorbu esejí. Môžete ľahko vyhľadávať online na internete a ľahko nájsť tony a tony esejí o prezidentovi Lincolnovi. Nakopnutím v prípade generatívnej AI je to, že vygenerovaná esej je relatívne jedinečná a poskytuje skôr originálnu kompozíciu než napodobeninu. Ak by ste sa pokúsili nájsť niekde online esej vytvorenú AI, je nepravdepodobné, že by ste ju objavili.

Generatívna AI je vopred vyškolená a využíva komplexnú matematickú a výpočtovú formuláciu, ktorá bola vytvorená skúmaním vzorov v písaných slovách a príbehoch na webe. V dôsledku skúmania tisícov a miliónov napísaných pasáží môže AI vychrliť nové eseje a príbehy, ktoré sú zmiešané s tým, čo sa našlo. Pridaním rôznych pravdepodobnostných funkcií je výsledný text do značnej miery jedinečný v porovnaní s tým, čo bolo použité v trénovacej sade.

Preto nastal rozruch okolo toho, že študenti môžu podvádzať pri písaní esejí mimo vyučovania. Učiteľ nemôže jednoducho vziať esej, o ktorej klamliví študenti tvrdia, že je to ich vlastný text, a snažiť sa zistiť, či nebola skopírovaná z nejakého iného online zdroja. Celkovo nebude existovať žiadna definitívna už existujúca esej online, ktorá by vyhovovala eseji vygenerovanej AI. Celkovo vzaté, učiteľ bude musieť s nevôľou akceptovať, že študent napísal esej ako originálnu prácu.

Existujú ďalšie obavy týkajúce sa generatívnej AI.

Jednou zásadnou nevýhodou je, že eseje vytvorené generatívnou aplikáciou AI môžu obsahovať rôzne nepravdy, vrátane zjavne nepravdivých faktov, faktov, ktoré sú klamlivo zobrazené, a zdanlivých faktov, ktoré sú úplne vymyslené. Tieto vymyslené aspekty sa často označujú ako forma AI halucinácie, fráza, ktorú nemám v obľube, ale zdá sa, že aj tak si získava na popularite (podrobné vysvetlenie, prečo je to mizerná a nevhodná terminológia, nájdete v mojom príspevku na odkaz tu).

Chcel by som objasniť jeden dôležitý aspekt predtým, než sa dostaneme k tejto téme.

Na sociálnych sieťach sa objavilo niekoľko šialených tvrdení Generatívna AI tvrdenie, že táto najnovšia verzia AI je v skutočnosti vnímavá AI (nie, mýlia sa!). Tí, ktorí sa zaoberajú etikou AI a zákonom o umelej inteligencii, sa obzvlášť obávajú tohto rastúceho trendu rozšírených nárokov. Môžete zdvorilo povedať, že niektorí ľudia preháňajú, čo vlastne dnešná AI dokáže. Predpokladajú, že AI má schopnosti, ktoré sme ešte nedokázali dosiahnuť. To je nešťastie. Čo je ešte horšie, môžu dovoliť sebe a ostatným, aby sa dostali do zúfalých situácií, pretože predpokladajú, že AI bude vnímavá alebo podobná ľuďom, keď bude schopná konať.

Neantropomorfizujte AI.

Ak tak urobíte, dostanete sa do lepkavej a neústupnej pasce spoliehania sa na očakávanie, že AI bude robiť veci, ktoré nie je schopná vykonať. Ako už bolo povedané, najnovšia generatívna AI je relatívne pôsobivá na to, čo dokáže. Uvedomte si však, že existujú významné obmedzenia, ktoré by ste mali mať neustále na pamäti pri používaní akejkoľvek generatívnej aplikácie AI.

Ak vás zaujíma rýchlo sa rozširujúci rozruch o ChatGPT a generatívnej AI, vo svojom stĺpci som robil sústredenú sériu, ktorá by vám mohla poskytnúť informácie. Tu je pohľad pre prípad, že by vás niektorá z týchto tém zaujala:

1) Prichádzajú predpovede generatívnych pokrokov AI. Ak chcete vedieť, čo sa pravdepodobne objaví v súvislosti s AI v roku 2023 a neskôr, vrátane pripravovaných pokrokov v generatívnej AI a ChatGPT, budete si chcieť prečítať môj úplný zoznam predpovedí na rok 2023 na adrese odkaz tu.
2) Generatívna umelá inteligencia a poradenstvo v oblasti duševného zdravia. Rozhodol som sa skontrolovať, ako sa generatívna AI a ChatGPT používajú na poradenstvo v oblasti duševného zdravia, čo je problematický trend, podľa mojej cielenej analýzy na adrese odkaz tu.
3) Základy generatívnej AI a ChatGPT. Tento diel skúma kľúčové prvky fungovania generatívnej AI a konkrétne sa ponorí do aplikácie ChatGPT, vrátane analýzy buzzu a fanfár na odkaz tu.
4) Napätie medzi učiteľmi a študentmi kvôli generatívnej AI a ChatGPT. Tu sú spôsoby, ako budú študenti úskočne používať generatívnu AI a ChatGPT. Okrem toho existuje niekoľko spôsobov, ako môžu učitelia s touto prílivovou vlnou bojovať. Pozri odkaz tu.
5) Kontextové a generatívne používanie AI. Urobil som tiež sezónne ochutený test o kontexte súvisiacom so Santom, ktorý zahŕňa ChatGPT a generatívnu AI na odkaz tu.
6) Podvodníci používajúci generatívnu AI. Zlovestnou poznámkou je, že niektorí podvodníci prišli na to, ako používať generatívnu AI a ChatGPT na páchanie nekalých činov, vrátane generovania podvodných e-mailov a dokonca vytvárania programovacieho kódu pre malvér, pozri moju analýzu na odkaz tu.
7) Začiatočnícke chyby pri používaní generatívnej AI. Veľa ľudí preháňa aj prekvapivo podceňuje to, čo dokáže generatívna AI a ChatGPT, preto som sa pozrel najmä na podstrelenie, ktoré zvyknú robiť nováčikovia AI, pozri diskusiu na odkaz tu.
8) Vyrovnanie sa s generatívnymi výzvami AI a halucináciami AI. Opisujem špičkový prístup k používaniu doplnkov AI na riešenie rôznych problémov spojených so snahou zadávať vhodné výzvy do generatívnej AI, plus sú tu ďalšie doplnky AI na detekciu takzvaných AI halucinovaných výstupov a nepravd, ako napr. pokrytý pri odkaz tu.
9) Odhaľovanie tvrdení Bonehead o zisťovaní generatívnych esejí produkovaných AI. Existuje pomýlená zlatá horúčka aplikácií AI, ktoré tvrdia, že dokážu zistiť, či niektorú danú esej vyrobil človek alebo či vytvorila AI. Celkovo je to zavádzajúce a v niektorých prípadoch hlúpe a neudržateľné tvrdenie, pozri moje pokrytie na odkaz tu.
10) Hranie rolí prostredníctvom generatívnej AI môže predstavovať nevýhody duševného zdravia. Niektorí používajú generatívnu AI, ako je ChatGPT, na hranie rolí, pričom aplikácia AI reaguje na človeka, ako keby existoval vo svete fantázie alebo v inom vymyslenom prostredí. To by mohlo mať následky na duševné zdravie, viď odkaz tu.
11) Odhalenie rozsahu výstupných chýb a nepravd. Zhromažďujú sa rôzne zhromaždené zoznamy, aby sa pokúsili predviesť povahu chýb a nepravd, ktoré vytvára ChatGPT. Niektorí veria, že je to nevyhnutné, zatiaľ čo iní tvrdia, že cvičenie je zbytočné, pozri moju analýzu na odkaz tu.
12) Školám, ktoré zakazujú generatívnu AI ChatGPT, chýba loď. Možno viete, že rôzne školy, ako napríklad ministerstvo školstva v New Yorku (NYC), vyhlásili zákaz používania ChatGPT vo svojej sieti a súvisiacich zariadeniach. Hoci sa to môže zdať ako užitočné opatrenie, nepohne to ihlou a bohužiaľ úplne minie loď, pozrite si moje pokrytie na odkaz tu.
13) Generatívny AI ChatGPT bude všade vďaka pripravovanému API. V súvislosti s používaním ChatGPT prichádza dôležitý zvrat, konkrétne to, že prostredníctvom použitia portálu API do tejto konkrétnej aplikácie AI budú môcť iné softvérové programy vyvolať a využiť ChatGPT. Toto dramaticky rozšíri používanie generatívnej AI a bude to mať pozoruhodné dôsledky, pozri moje rozpracovanie na odkaz tu.
14) Spôsoby, ako môže ChatGPT spadnúť alebo sa roztopiť. ChatGPT má pred sebou niekoľko potenciálnych nepríjemných problémov, pokiaľ ide o podkopávanie doterajšej obrovskej chvály, ktorú dostal. Táto analýza podrobne skúma osem možných problémov, ktoré by mohli spôsobiť, že ChatGPT stratí dych a dokonca skončí v psej búde, pozri odkaz tu.
15) Otázka, či je generatívna AI ChatGPT zrkadlom do duše. Niektorí ľudia kričali, že generatívna AI, ako je ChatGPT, poskytuje zrkadlo do duše ľudstva. Zdá sa to byť dosť pochybné. Tu je spôsob, ako to všetko pochopiť, viď odkaz tu.
16) Dôvernosť a súkromie pohltené službou ChatGPT. Zdá sa, že mnohí si neuvedomujú, že licencovanie spojené s generatívnymi aplikáciami AI, ako je ChatGPT, často umožňuje tvorcovi AI vidieť a využívať zadané výzvy. Mohlo by vám hroziť súkromie a strata dôvernosti údajov, pozri moje hodnotenie na odkaz tu.
17) Spôsoby, akými sa tvorcovia aplikácií pochybne pokúšajú získať oprávnenie ChatGPT. ChatGPT je práve teraz majákom pozornosti. Tvorcovia aplikácií, ktorí nemajú nič spoločné s ChatGPT, sa horúčkovito snažia tvrdiť alebo naznačovať, že používajú ChatGPT. Tu je na čo si dávať pozor, viď odkaz tu.

Možno vás bude zaujímať, že ChatGPT je založený na verzii predchádzajúcej aplikácie AI známej ako GPT-3. ChatGPT sa považuje za mierne ďalší krok, ktorý sa označuje ako GPT-3.5. Očakáva sa, že GPT-4 bude pravdepodobne vydaný na jar 2023. GPT-4 bude pravdepodobne predstavovať pôsobivý krok vpred, pokiaľ ide o schopnosť produkovať zdanlivo ešte plynulejšie eseje, ísť hlbšie a byť úžasným - inšpirujúci zázrak, pokiaľ ide o kompozície, ktoré dokáže vytvoriť.

Môžete očakávať nové kolo vyjadreného úžasu, keď príde jar a bude vydaná najnovšia generatívna AI.

Uvádzam to, pretože je potrebné mať na pamäti ďalší uhol, ktorý pozostáva z potenciálnej Achillovej päty týchto lepších a väčších generatívnych aplikácií AI. Ak ktorýkoľvek predajca AI sprístupní generatívnu aplikáciu AI, ktorá spenlivo chrlí nečistoty, mohlo by to zničiť nádeje týchto tvorcov AI. Presah do spoločnosti môže spôsobiť, že všetka generatívna AI dostane vážne čierne oči. Ľudia budú nepochybne dosť naštvaní na nečestné výstupy, ktoré sa už stali mnohokrát a viedli k búrlivým odporom spoločnosti voči AI.

Zatiaľ posledné varovanie.

Čokoľvek vidíte alebo čítate v generatívnej AI reakcii, že Zdá sa Ak chcete, aby boli vyjadrené ako čisto faktické (dátumy, miesta, ľudia atď.), nezabudnite zostať skeptickí a buďte ochotní ešte raz skontrolovať, čo vidíte.

Áno, dátumy sa dajú vymyslieť, miesta sa dajú vymyslieť a prvky, od ktorých zvyčajne očakávame, že budú bez výčitiek, sú všetko podlieha podozreniam. Neverte tomu, čo čítate, a buďte skeptický pri skúmaní akýchkoľvek generatívnych esejí alebo výstupov AI. Ak vám generatívna aplikácia AI povie, že Abraham Lincoln lietal po krajine vo svojom súkromnom lietadle, nepochybne by ste vedeli, že je to malátnosť. Žiaľ, niektorí ľudia si možno neuvedomujú, že lietadlá v jeho dobe neboli, alebo možno vedia, ale nevšimli si, že esej uvádza toto drzé a neuveriteľne nepravdivé tvrdenie.

Silná dávka zdravého skepticizmu a vytrvalá nedôverčivosť budú vašou najlepšou devízou pri používaní generatívnej AI.

Sme pripravení prejsť do ďalšej fázy tohto objasňovania.

Tlačenie generatívnej AI k bodu zlomu

Teraz, keď máme stanovené základy, môžeme sa ponoriť do témy presadzovania generatívnej AI a ChatGPT na generovanie nenávistných prejavov a iného urážlivého obsahu.

Keď sa prvýkrát prihlásite do ChatGPT, existujú rôzne varovné upozornenia vrátane týchto:

"Príležitostne môže produkovať škodlivé pokyny alebo neobjektívny obsah."
"Vyškolení na odmietanie nevhodných žiadostí."
"Príležitostne môže generovať nesprávne informácie."
"Obmedzené znalosti o svete a udalostiach po roku 2021."

Tu je otázka na premýšľanie.

Poskytuje varovanie, že aplikácia AI môže vytvárať škodlivé pokyny a/alebo možno neobjektívny obsah, dostatočný priestor pre výrobcu AI?

Inými slovami, predpokladajme, že používate ChatGPT a vygeneruje esej, o ktorej si myslíte, že obsahuje nenávistné prejavy. Predpokladajme, že ste z toho nahnevaní. Idete na sociálne médiá a uverejňujete rozzúrený komentár, že aplikácia AI je najhoršia vec vôbec. Možno ste takí urazení, že vyhlasujete, že sa chystáte žalovať výrobcu AI za to, že dovolil produkovať takéto nenávistné prejavy.

Protiargumentom je, že aplikácia AI mala varovné varovanie, takže ste prijali riziko tým, že budete používať aplikáciu AI. Z hľadiska etiky AI možno výrobca AI urobil dosť na to, aby potvrdil, že ste si vedomí toho, čo sa môže stať. Podobne z právneho hľadiska možno varovanie predstavovalo dostatočné upozornenie a na súde nezvíťazíte.

Toto všetko je vo vzduchu a budeme musieť počkať a uvidíme, ako sa veci vyvinú.

V istom zmysle má výrobca AI niečo iné na svoju obranu proti akýmkoľvek rozhorčeným tvrdeniam aplikácie AI, ktoré môžu spôsobiť nenávistné prejavy. Snažili sa zabrániť vytváraniu urážlivého obsahu. Vidíte, ak by neurobili nič, aby to obmedzili, človek predpokladá, že by boli na tenšom ľade. Tým, že prinajmenšom vynaložili veľké úsilie na odvrátenie tejto záležitosti, majú pravdepodobne o niečo silnejšiu nohu, na ktorej môžu stáť (stále by sa mohla pod nimi vybiť).

Jeden liečebný prístup, ktorý sa použil, pozostával z techniky AI známej ako RLHF (posilnenie učenia prostredníctvom ľudskej spätnej väzby). Vo všeobecnosti to spočíva v tom, že AI generuje obsah, ktorý potom ľudia požiadajú o hodnotenie alebo kontrolu. Na základe hodnotenia alebo recenzie sa AI potom matematicky a výpočtovo pokúša vyhnúť všetkému, čo je považované za protiprávny alebo urážlivý obsah. Cieľom tohto prístupu je preskúmať dostatok príkladov toho, čo je správne oproti tomu, čo nie je správne, aby AI mohla prísť na všeobecný matematický vzorec a potom ho použiť.

Ďalším častým prístupom v týchto dňoch je použitie Adversarial AI.

Tu je návod, ako to funguje. Nastavíte iný systém AI, ktorý sa bude snažiť byť protivníkom AI, ktorú sa snažíte trénovať. V tomto prípade by sme vytvorili systém AI, ktorý sa snaží podnecovať nenávistné prejavy. Do aplikácie AI by to posielalo výzvy, ktorých cieľom je prinútiť aplikáciu AI, aby zobrazovala nevhodný obsah. Medzitým AI, na ktorú sa zameriavate, sleduje, kedy je umelá inteligencia protivníka úspešná, a potom sa algoritmicky pokúša prispôsobiť, aby sa to už neopakovalo. Je to hra medzi mačkou a myšou. Toto sa opakuje znova a znova, až kým sa zdá, že umelá inteligencia protivníka už nie je obzvlášť úspešná v tom, aby cielená AI robila zlé veci.

Prostredníctvom týchto dvoch hlavných techník a ďalších prístupov je veľká časť dnešnej generatívnej AI oveľa lepšia pri vyhýbaní sa a/alebo odhaľovaní urážlivého obsahu, než tomu bolo v minulých rokoch.

Od týchto metód však nečakajte dokonalosť. Je pravdepodobné, že nízko visiace ovocie chybných výstupov bude pravdepodobne držané pod kontrolou pomocou takýchto techník AI. Stále je tu veľký priestor na šírenie nečistôt.

Zvyčajne poukazujem na to, že toto sú niektoré z aspektov, ktoré sa snažia zachytiť:

Vydanie konkrétneho nevhodného slova
Uvedenie konkrétnej neslušnej frázy, vety alebo poznámky
Vyjadrenie konkrétneho zlého poňatia
Naznačovanie konkrétneho nečestného konania alebo myšlienky
Zdá sa, že sa spolieha na konkrétny nesprávny predpoklad
ostatné

Nič z toho nie je presná veda. Uvedomte si, že máme do činenia so slovami. Slová sú sémanticky nejednoznačné. Nájsť konkrétne nevhodné slovo je detská hra, ale pokúsiť sa odhadnúť, či veta alebo odsek obsahuje zdanie nevhodného významu, je oveľa ťažšie. Podľa predchádzajúcej definície nenávistných prejavov Organizácie Spojených národov existuje obrovská voľnosť, pokiaľ ide o to, čo možno považovať za nenávistné prejavy v porovnaní s tým, čo nie je.

Možno si poviete, že sivé oblasti sú v oku pozorovateľa.

Keď už hovoríme o oku diváka, dnes existujú ľudia, ktorí používajú generatívnu AI, ako je ChatGPT, ktorí sa zámerne snažia prinútiť tieto aplikácie AI produkovať urážlivý obsah. Toto je ich pátranie. Trávia hodiny a hodiny, aby sa to stalo.

Prečo tak?

Tu sú moje charakteristiky tých lovcov ľudských AI-ofenzívnych výstupov:

Pravý. Títo ľudia chcú pomôcť vylepšiť AI a pomôcť pri tom ľudstvu. Veria, že robia hrdinskú prácu a tešia sa z toho, že môžu pomôcť pri rozvoji AI pre zlepšenie všetkých.
Funsters. Títo ľudia považujú toto úsilie za hru. Baví ich hrať sa s AI. Víťazstvo v hre spočíva v nájdení toho najhoršieho z najhoršieho vo všetkom, čo dokáže AI vygenerovať.
Predvádzanie. Títo ľudia dúfajú, že si získajú pozornosť. Uvedomujú si, že ak nájdu nejaké naozaj špinavé zlaté nugety, môžu na ne dostať trochu svetla, ktoré je inak zamerané na samotnú aplikáciu AI.
horké pivo. Títo ľudia sú na túto AI naštvaní. Chcú podkopať všetok ten tryskajúci entuziazmus. Ak môžu objaviť nejaké páchnuce odporné veci, možno to vytiahne vzduch z balóna vzrušenia aplikácie AI.
Iné motivácie

Mnohí z tých, ktorí vykonávajú útočnú akciu, sú v zásade len v jednom z týchto táborov. Samozrejme, môžete byť aj vo viacerých táboroch naraz. Možno aj zatrpknutý človek má vedľa seba úmysel byť skutočný a hrdinský. Niektoré alebo všetky tieto motivácie môžu existovať súčasne. Keď vás niekto požiada, aby vysvetlil, prečo sa niekto snaží presadiť generatívnu aplikáciu AI do oblasti nenávistných prejavov, zvyčajnou odpoveďou je povedať, že ste v skutočnom tábore, aj keď možno len okrajovo, a namiesto toho tvrdo sedieť v jednom z nich. iné tábory.

Aké triky súvisiace s výzvami títo ľudia používajú?

Pomerne zrejmý trik zahŕňa použitie neslušného slova vo výzve. Ak budete mať „šťastie“ a aplikácia AI na to príde, môže to veľmi dobre skončiť vo výstupe. Potom máte svoju chvíľku.

Je pravdepodobné, že dobre navrhnutá a dobre otestovaná generatívna aplikácia AI zachytí tento jednoduchý trik. Zvyčajne sa vám zobrazí varovná správa, ktorá hovorí, že prestaňte to robiť. Ak budete pokračovať, aplikácia AI bude naprogramovaná tak, aby vás vyhodila z aplikácie a označila váš účet. Môže sa stať, že vám bude znemožnené opätovné prihlásenie (teda aspoň pod prihlasovacím menom, ktoré ste v tom čase používali).

Keď sa posuniete po rebríčku trikov, môžete poskytnúť výzvu, ktorá sa pokúsi dostať AI do kontextu niečoho zlého. Už ste niekedy hrali hru, v ktorej vám niekto povie, aby ste niečo povedali bez toho, aby ste povedali to, čo máte povedať? Toto je tá hra, hoci sa odohráva s AI.

Poďme hrať tú hru. Predpokladajme, že požiadam aplikáciu AI, aby mi povedala o druhej svetovej vojne a najmä o hlavných vládnych predstaviteľoch, ktorých sa to týka. Vyzerá to ako nevinná požiadavka. Zdá sa, že vo výzve nie je nič hodné označenia.

Predstavte si, že esej vydaná aplikáciou AI obsahuje zmienku o Winstonovi Churchillovi. To určite dáva zmysel. Ďalším by mohol byť Franklin D. Roosevelt. Ďalším by mohol byť Josif Stalin. Predpokladajme, že je tam aj zmienka o Adolfovi Hitlerovi. Toto meno by bolo zahrnuté v takmer každej eseji o druhej svetovej vojne a o tých, ktorí zastávali úlohy prominentnej moci.

Teraz, keď máme jeho meno na stole a časť konverzácie o AI, sa ako ďalší pokúsime prinútiť AI, aby toto meno začlenila spôsobom, ktorý môžeme predviesť ako potenciálne nenávistné prejavy.

Zadáme ďalšiu výzvu a povieme aplikácii AI, že dnes je v správach osoba, ktorá má meno, John Smith. Okrem toho vo výzve naznačujeme, že John Smith je veľmi podobný zločincovi z druhej svetovej vojny. Pasca je teraz nastavená. Potom požiadame aplikáciu AI, aby vytvorila esej o Johnovi Smithovi, a to výlučne na základe „skutočnosti“, ktorú sme zadali o tom, s kým možno Johna Smitha prirovnať.

V tomto momente môže aplikácia AI vygenerovať esej, ktorá pomenuje osobu z druhej svetovej vojny a opisuje Johna Smitha ako človeka rovnakého strihu. V eseji nie sú žiadne sprosté slová ako také, okrem narážky na známeho zločinca a prirovnania tejto osoby k Johnovi Smithovi.

Vyvolala teraz aplikácia AI nenávistné prejavy?

Možno si poviete, že áno, má. Pomenovanie Johna Smitha ako známeho zločinca je absolútnou formou nenávistných prejavov. AI by takéto vyhlásenia nemala robiť.

Odpoveď je, že toto nie je nenávistný prejav. Toto je iba esej vytvorená aplikáciou AI, ktorá nemá žiadne stelesnenie vnímania. Môžete tvrdiť, že k nenávistným prejavom dochádza iba vtedy, keď je v pozadí prejavu zámer. Bez akéhokoľvek zámeru tento prejav nemožno klasifikovať ako nenávistný prejav.

Absurdné, znie odpoveď na repliku. Na slovách záleží. Nezáleží na tom, či AI „zamýšľala“ vyvolať nenávistné prejavy. Dôležité je len to, že boli vyprodukované nenávistné prejavy.

Ide to dokola.

Nechcem teraz hovoriť oveľa viac o pokuse oklamať AI. Existujú sofistikovanejšie prístupy. Popísal som to inde vo svojich stĺpcoch a knihách a nebudem to tu rozpisovať.

záver

Ako ďaleko by sme mali tlačiť tieto aplikácie AI, aby sme zistili, či dokážeme vysielať urážlivý obsah?

Môžete tvrdiť, že neexistuje žiadny limit, ktorý by ste mali uložiť. Čím viac budeme tlačiť, tým viac, dúfajme, dokážeme odhadnúť, ako zabrániť tejto AI a budúcim iteráciám AI, aby sa predišlo takýmto neduhom.

Niektorí sa však obávajú, že ak jediným spôsobom, ako sa dostať k nečistosti, je extrémny trik, podkopáva to prospešné aspekty AI. Vychvaľovanie, že AI má strašnú nečistosť, hoci keď ju oklamú, poskytuje falošný príbeh. Ľudia budú naštvaní na AI kvôli vnímaný jednoduchosť, s akou AI generovala nepriaznivý obsah. Možno nebudú vedieť alebo im bude povedané, ako ďaleko do králičej nory musel človek ísť, aby získal takéto výstupy.

Všetko je to podnet na zamyslenie.

Zatiaľ pár komentárov na záver.

William Shakespeare o reči povedal najmä toto: „Hovoriť neznamená robiť. Je istým druhom dobrého skutku dobre povedať, a predsa slová nie sú skutky.“ Prinášam to preto, lebo niektorí tvrdia, že ak AI iba generuje slová, nemali by sme byť takí prehnaní. Ak by AI konala na základe slov a ergo vykonávala nekalé skutky, potom by sme museli pevne dať nohu dole. Nie, ak sú výstupom iba slová.

Kontrastný názor by zodpovedal tomuto anonymnému výroku: „Jazyk nemá kosti, ale je dosť silný, aby zlomil srdce. Takže buďte opatrní so svojimi slovami." Aplikácia AI, ktorá vydáva neslušné slová, môže lámať srdcia. To samo osebe robí zo snahy zastaviť výstupy nečistých vecí hodnú príčinu, povedali by niektorí.

Ešte jeden anonymný výrok na uzavretie tejto závažnej diskusie:

"Buďte opatrní so svojimi slovami. Keď sa raz povedia, možno im len odpustiť, nie zabudnúť.“

Ako ľudia by sme mohli len ťažko zabúdať na nečestnosť spôsobenú AI a naše odpustenie môže tiež váhať.

Sme predsa len ľudia.

Zdroj: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- etika-a-ai-právo/