Právny súdny deň pre generatívny chat AI GPT, ak bude prichytený pri plagiátorstve alebo porušovaní práv, varuje pred etikou AI a zákonom o AI

Okráda generatívna AI, ako je ChatGPT, naše webové stránky a obsah vytvorený ľuďmi? Buďte si vedomí, buďte … [+] naštvaný, buď pripravený.

Getty

Poskytnite úver tam, kde je splatný úver.

To je trocha múdrej múdrosti, v ktorú ste možno boli vychovaní, aby ste v ňu pevne verili. Vskutku, jeden predpokladá alebo si predstavuje, že by sme sa všetci mohli do istej miery zhodnúť na tom, že toto je spravodlivé a rozumné životné pravidlo. Keď niekto urobí niečo, čo si zaslúži uznanie, uistite sa, že dostane zaslúžené uznanie.

Opačný pohľad by sa zdal oveľa menej presvedčivý.

Ak by niekto šiel okolo a trval na tom, že by mal úver nie byť uznaný, keď je splatný úver, no, môžete tvrdiť, že takéto presvedčenie je nezdvorilé a možno aj nerozumné. Často sa cítime hlučne znepokojení, keď je kredit podvedený niekým, kto dosiahol niečo pozoruhodné. Dovolím si tvrdiť, že obzvlášť nemilujeme, keď si iní falošne pripisujú zásluhy za prácu iných. To je znepokojujúca dvojitá rana. Osobe, ktorá mala získať uznanie, je odopretá chvíľa na slnku. Okrem toho si podvodník vychutnáva pozornosť, hoci nás neprávom oklamú, aby sme si prisvojili naše priaznivé náklonnosti.

Prečo celý tento diskurz o získavaní zásluh tými najsprávnejšími spôsobmi a odvracaní nesprávnych a opovrhnutiahodných spôsobov?

Pretože sa zdá, že čelíme podobnej nepríjemnej situácii, pokiaľ ide o najnovšiu verziu umelej inteligencie (AI).

Áno, tvrdí sa, že sa to deje preukázateľne prostredníctvom typu AI známeho ako Generatívna AI. Existuje veľa problémov, že generatívna AI, najhorúcejšia AI v týchto dňoch, si už pripísala zásluhy za to, za čo si nezaslúži. A to sa pravdepodobne zhorší, keď sa generatívna AI bude čoraz viac rozširovať a využívať. Generatívnej umelej inteligencii sa pripisuje čoraz viac kreditov, zatiaľ čo tie, ktoré si skutočne zaslúžia skutočnú zásluhu, zostanú zapadnuté prachom.

Môj ponúkaný spôsob, ako presne označiť tento údajný jav, je pomocou dvoch vtipných fráz:

1) Plagiátorstvo vo veľkom rozsahu
2) Porušenie autorských práv vo veľkom rozsahu

Predpokladám, že by ste si mohli byť vedomí generatívnej AI vďaka veľmi populárnej aplikácii AI známej ako ChatGPT, ktorá bola vydaná v novembri spoločnosťou OpenAI. Momentálne poviem viac o generatívnej AI a ChatGPT. Vydrž.

Prejdime hneď k jadru toho, čo ľudom takpovediac dostáva kozy.

Niektorí sa horlivo sťažujú, že generatívna AI potenciálne okráda ľudí, ktorí vytvorili obsah. Vidíte, väčšina generatívnych aplikácií AI sú údaje trénované skúmaním údajov nájdených na internete. Na základe týchto údajov môžu algoritmy zdokonaliť rozsiahlu internú sieť na porovnávanie vzorov v rámci aplikácie AI, ktorá môže následne produkovať zdanlivo nový obsah, ktorý úžasne vyzerá, akoby bol vytvorený ľudskou rukou a nie ako súčasť automatizácie.

Tento pozoruhodný čin je do značnej miery spôsobený využívaním obsahu naskenovaného z internetu. Bez objemu a bohatosti internetového obsahu ako zdroja pre trénovanie údajov by generatívna umelá inteligencia bola takmer prázdna a jej použitie by malo malý alebo žiadny záujem. Tým, že umelá inteligencia preskúma milióny a milióny online dokumentov a textu, spolu so všetkými možnými druhmi súvisiaceho obsahu, postupne sa odvodí zhoda vzorov, aby sa pokúsila napodobniť obsah vytvorený ľuďmi.

Čím viac skúmaného obsahu, tým je pravdepodobné, že zhoda vzorov bude vylepšená a bude ešte lepšia v mimike, pričom všetko ostatné bude rovnaké.

Tu je otázka za milióny dolárov:

Veľká otázka: Ak máte vy alebo iní na internete obsah, na ktorom bola trénovaná nejaká generatívna aplikácia AI, pravdepodobne bez vášho priameho povolenia a možno úplne bez vášho vedomia, mali by ste mať nárok na kúsok koláča, pokiaľ ide o akúkoľvek hodnotu, ktorá z toho vyplýva ten generatívny tréning dát AI?

Niektorí vehementne tvrdia, že jediná správna odpoveď je Áno, najmä, že títo tvorcovia ľudského obsahu si skutočne zaslúžia svoj kúsok akcie. Ide o to, že by ste ťažko hľadali niekoho, kto dostal svoj spravodlivý podiel, a čo je ešte horšie, takmer nikto nezískal žiadny podiel. Tvorcom internetového obsahu, ktorí nedobrovoľne a nevedome prispeli, sa v podstate odopiera ich právoplatné uznanie.

To by sa dalo charakterizovať ako kruté a poburujúce. Práve sme prešli rozbaľovaním múdrej múdrosti, že úver by sa mal udeľovať tam, kde sa úver patrí. V prípade generatívnej AI to tak zrejme nie je. Zdá sa, že dlhoročné a cnostné pravidlo o úvere sa bezohľadne porušuje.

Fúha, odpoveď znie, úplne preháňaš a uvádzaš zle situáciu. Samozrejme, generatívna AI skúmala obsah na internete. Iste, bolo to veľmi užitočné ako súčasť tréningu údajov generatívnej AI. Je pravda, že dnešné pôsobivé generatívne aplikácie AI by bez tohto uváženého prístupu neboli také pôsobivé. Ale zašli ste príliš ďaleko, keď ste povedali, že tvorcom obsahu by sa mala prisúdiť akákoľvek konkrétna zásluha.

Logika je nasledovná. Ľudia chodia na internet a učia sa veci z internetu, pričom to robia bežne a bez akéhokoľvek rozruchu ako takého. Osoba, ktorá číta blogy o inštalatérstve a potom si prezerá voľne dostupné videá o inštalatérskych prácach, môže na druhý deň ísť von a zamestnať sa ako inštalatér. Potrebujú dať časť svojej platby súvisiacej s inštalatérstvom blogerovi, ktorý písal o tom, ako nainštalovať umývadlo? Potrebujú zaplatiť poplatok vlogerovi, ktorý natočil video s krokmi na opravu deravej vane?

Takmer určite nie.

Tréning údajov generatívnej AI je len prostriedkom na vývoj vzorov. Pokiaľ výstupy z generatívnej AI nie sú len regurgitáciou presne toho, čo sa skúmalo, mohli by ste presvedčivo tvrdiť, že sa „naučili“, a preto nepodliehajú žiadnemu konkrétnemu zdroju priznávania žiadneho konkrétneho kreditu. Pokiaľ nedokážete zachytiť generatívnu AI pri vykonávaní presnej regurgitácie, naznačuje to, že AI zovšeobecnila mimo akéhokoľvek konkrétneho zdroja.

Nikomu nepatria žiadne úvery. Alebo, dalo by sa povedať, že úver patrí každému. Súhrnný text a ďalší obsah ľudstva, ktorý sa nachádza na internete, získava uznanie. Všetci získame zásluhy. Pokúšať sa určiť kredit konkrétnemu zdroju je nezmyselné. Buďte šťastní, že AI sa vyvíja a že z toho bude mať prospech celé ľudstvo. Tieto príspevky na internete by sa mali cítiť poctené, že prispeli k budúcemu pokroku v AI a ako to pomôže ľudstvu na večnosť.

Poviem viac o oboch týchto protichodných názoroch.

Medzitým sa prikláňate k táboru, ktorý hovorí, že úver je splatný a oneskorený pre tých, ktorí majú webové stránky na internete, alebo zistíte, že protistrana, ktorá tvrdí, že tvorcovia internetového obsahu sú rozhodne nie nechať sa vytrhnúť je presvedčivejšie držanie tela?

Záhada a hádanka sa spojili.

Poďme to rozbaliť.

V dnešnom stĺpci sa budem zaoberať týmito vyjadrenými obavami, že generatívna AI v podstate plagiuje alebo možno porušuje autorské práva na obsah, ktorý bol zverejnený na internete (čo sa považuje za problém duševného vlastníctva alebo IP). Pozrime sa na základ pre tieto výčitky. Počas tejto diskusie budem občas odkazovať na ChatGPT, pretože je to 600-librová gorila generatívnej AI, aj keď majte na pamäti, že existuje veľa iných generatívnych aplikácií AI a vo všeobecnosti sú založené na rovnakých všeobecných princípoch.

Medzitým sa možno pýtate, čo je vlastne generatívna AI.

Poďme sa najprv venovať základom generatívnej AI a potom sa môžeme bližšie pozrieť na naliehavú záležitosť.

Do toho všetkého prichádza množstvo úvah o etike AI a zákonoch o AI.

Uvedomte si, že neustále prebieha úsilie o začlenenie etických princípov AI do vývoja a zavádzania aplikácií AI. Rastúci kontingent zainteresovaných a bývalých etiológov AI sa snaží zabezpečiť, aby snahy o navrhnutie a prijatie AI zohľadňovali AI pre dobro a odvrátenie AI pre zlé. Podobne sa navrhujú nové zákony o umelej inteligencii, o ktorých sa hovorí ako o potenciálnych riešeniach, ktoré zabránia snahám umelej inteligencie ohroziť ľudské práva a podobne. Moje pokračujúce a rozsiahle pokrytie etiky AI a práva AI nájdete v časti odkaz tu a odkaz tu, Len aby sme vymenovali niekoľko.

Vývoj a propagácia etických zásad AI sa usiluje o to, aby sa, dúfajme, zabránilo spoločnosti, aby upadla do nespočetných pascí, ktoré vyvolávajú AI. Moje pokrytie etických princípov AI OSN, ako ich navrhlo a podporilo takmer 200 krajín prostredníctvom úsilia UNESCO, pozri odkaz tu. V podobnom duchu sa skúmajú nové zákony AI, ktoré sa snažia udržať AI na rovnakej úrovni. Jeden z najnovších záberov pozostáva zo súboru navrhovaných Listina práv AI ktorý americký Biely dom nedávno vydal na identifikáciu ľudských práv vo veku AI, viď odkaz tu. Vyžaduje si to dedinu, aby udržala AI a vývojárov AI na správnej ceste a odradila účelové alebo náhodné podvedomé snahy, ktoré by mohli podkopať spoločnosť.

Do tejto diskusie vložím úvahy súvisiace s etikou AI a zákonom o AI.

Základy generatívnej AI

Najznámejšia inštancia generatívnej AI je reprezentovaná aplikáciou AI s názvom ChatGPT. ChatGPT sa dostal do povedomia verejnosti už v novembri, keď ho vydala výskumná spoločnosť AI OpenAI. Odvtedy, čo ChatGPT získal veľké titulky a prekvapivo prekročil svojich pätnásť minút slávy.

Hádam ste už počuli o ChatGPT alebo možno dokonca poznáte niekoho, kto ho používal.

ChatGPT sa považuje za generatívnu aplikáciu AI, pretože berie ako vstup nejaký text od používateľa a potom generuje alebo vytvorí výstup, ktorý pozostáva z eseje. AI je generátor textu na text, hoci AI opisujem ako generátor textu na esej, pretože to ľahšie objasňuje, na čo sa bežne používa. Generatívnu umelú inteligenciu môžete použiť na zostavovanie dlhých kompozícií alebo ju môžete prinútiť ponúkať skôr krátke chúlostivé komentáre. Všetko je na vašej ponuke.

Všetko, čo musíte urobiť, je zadať výzvu a aplikácia AI vám vygeneruje esej, ktorá sa pokúsi reagovať na vašu výzvu. Komponovaný text bude pôsobiť, akoby esej bola napísaná ľudskou rukou a mysľou. Ak by ste zadali výzvu, ktorá hovorila „Povedz mi o Abrahamovi Lincolnovi“, generatívna AI vám poskytne esej o Lincolnovi. Existujú aj iné režimy generatívnej AI, ako je text-to-art a text-to-video. Zameriam sa tu na variáciu textu na text.

Vaša prvá myšlienka môže byť, že táto generatívna schopnosť sa nezdá byť až taká veľká, pokiaľ ide o tvorbu esejí. Môžete ľahko vyhľadávať online na internete a ľahko nájsť tony a tony esejí o prezidentovi Lincolnovi. Nakopnutím v prípade generatívnej AI je to, že vygenerovaná esej je relatívne jedinečná a poskytuje skôr originálnu kompozíciu než napodobeninu. Ak by ste sa pokúsili nájsť niekde online esej vytvorenú AI, je nepravdepodobné, že by ste ju objavili.

Generatívna AI je vopred vyškolená a využíva komplexnú matematickú a výpočtovú formuláciu, ktorá bola vytvorená skúmaním vzorov v písaných slovách a príbehoch na webe. V dôsledku skúmania tisícov a miliónov napísaných pasáží môže AI vychrliť nové eseje a príbehy, ktoré sú zmiešané s tým, čo sa našlo. Pridaním rôznych pravdepodobnostných funkcií je výsledný text do značnej miery jedinečný v porovnaní s tým, čo bolo použité v trénovacej sade.

Existuje veľa obáv z generatívnej AI.

Jednou zásadnou nevýhodou je, že eseje vytvorené generatívnou aplikáciou AI môžu obsahovať rôzne nepravdy, vrátane zjavne nepravdivých faktov, faktov, ktoré sú klamlivo zobrazené, a zdanlivých faktov, ktoré sú úplne vymyslené. Tieto vymyslené aspekty sa často označujú ako forma AI halucinácie, fráza, ktorú nemám v obľube, ale zdá sa, že aj tak si získava na popularite (podrobné vysvetlenie, prečo je to mizerná a nevhodná terminológia, nájdete v mojom príspevku na odkaz tu).

Ďalšou obavou je, že ľudia si môžu ľahko pripísať zásluhy za generatívnu esej vytvorenú umelou inteligenciou, napriek tomu, že esej sami nenapísali. Možno ste už počuli, že učitelia a školy sú dosť znepokojení vznikom generatívnych aplikácií AI. Študenti môžu potenciálne použiť generatívnu AI na písanie svojich pridelených esejí. Ak študent tvrdí, že esej bola napísaná ich vlastnou rukou, je malá šanca, že učiteľ bude schopný rozoznať, či nebola sfalšovaná generatívnou AI. Pre moju analýzu tohto mätúceho aspektu študenta a učiteľa si pozrite moje pokrytie na odkaz tu a odkaz tu.

Na sociálnych sieťach sa objavilo niekoľko šialených prehnaných tvrdení Generatívna AI tvrdenie, že táto najnovšia verzia AI je v skutočnosti vnímavá AI (nie, mýlia sa!). Tí, ktorí sa zaoberajú etikou AI a zákonom o umelej inteligencii, sa obzvlášť obávajú tohto rastúceho trendu rozšírených nárokov. Môžete zdvorilo povedať, že niektorí ľudia preháňajú, čo vlastne dnešná AI dokáže. Predpokladajú, že AI má schopnosti, ktoré sme ešte nedokázali dosiahnuť. To je nešťastie. Čo je ešte horšie, môžu dovoliť sebe a ostatným, aby sa dostali do zúfalých situácií, pretože predpokladajú, že AI bude vnímavá alebo podobná ľuďom, keď bude schopná konať.

Neantropomorfizujte AI.

Ak tak urobíte, dostanete sa do lepkavej a neústupnej pasce spoliehania sa na očakávanie, že AI bude robiť veci, ktoré nie je schopná vykonať. Ako už bolo povedané, najnovšia generatívna AI je relatívne pôsobivá na to, čo dokáže. Uvedomte si však, že existujú významné obmedzenia, ktoré by ste mali mať neustále na pamäti pri používaní akejkoľvek generatívnej aplikácie AI.

Zatiaľ posledné varovanie.

Čokoľvek vidíte alebo čítate v generatívnej AI reakcii, že Zdá sa Ak chcete, aby boli vyjadrené ako čisto faktické (dátumy, miesta, ľudia atď.), nezabudnite zostať skeptickí a buďte ochotní ešte raz skontrolovať, čo vidíte.

Áno, dátumy sa dajú vymyslieť, miesta sa dajú vymyslieť a prvky, od ktorých zvyčajne očakávame, že budú bez výčitiek, sú všetko podlieha podozreniam. Neverte tomu, čo čítate, a buďte skeptický pri skúmaní akýchkoľvek generatívnych esejí alebo výstupov AI. Ak vám generatívna aplikácia AI povie, že Abraham Lincoln lietal po krajine vo svojom súkromnom lietadle, nepochybne by ste vedeli, že ide o maláriu. Žiaľ, niektorí ľudia si možno neuvedomujú, že lietadlá v jeho dobe neboli, alebo možno vedia, ale nevšimli si, že esej uvádza toto drzé a neuveriteľne nepravdivé tvrdenie.

Silná dávka zdravého skepticizmu a vytrvalá nedôverčivosť budú vašou najlepšou devízou pri používaní generatívnej AI.

Sme pripravení prejsť do ďalšej fázy tohto objasňovania.

Internet a generatívna AI sú v tom spolu

Teraz, keď už máte zdanie, čo je generatívna AI, môžeme preskúmať nepríjemnú otázku, či generatívna AI spravodlivo alebo nespravodlivo „využíva“, alebo by niektorí povedali nehanebne využívanie internetový obsah.

Tu sú moje štyri dôležité témy týkajúce sa tejto záležitosti:

1) Dvojitý problém: Plagiátorstvo a porušovanie autorských práv
2) Pokúste sa dokázať plagiátorstvo alebo porušenie autorských práv
3) Objasňovanie plagiátorstva alebo porušovania autorských práv
4) Legálne nášľapné míny čakajú

Pokryjem každú z týchto dôležitých tém a ponúknem dômyselné úvahy, nad ktorými by sme mali všetci vedome premýšľať. Každá z týchto tém je neoddeliteľnou súčasťou väčšej skladačky. Nedá sa pozerať len na jeden kus. Ani sa nemôžete pozerať na žiadny kus izolovane od ostatných kusov.

Ide o zložitú mozaiku a celej skladačke je potrebné venovať náležitú harmonickú úvahu.

Double Trouble: Plagiátorstvo a porušovanie autorských práv

Dvojitý problém, ktorému čelia tí, ktorí vyrábajú a využívajú generatívnu AI, je ten, že ich tovar môže robiť dve zlé veci:

1) Plagiátorstvo. Generatívna AI by sa dala chápať ako plagiátorstvo obsah, ktorý existuje na internete podľa skenovania internetu, ktoré sa uskutočnilo počas tréningu údajov AI.
2) Porušenie autorských práv. Generatívna umelá inteligencia by sa mohla uplatniť ako podnik porušenie autorských práv spojené s internetovým obsahom, ktorý bol naskenovaný počas tréningu údajov.

Aby sme to objasnili, na internete je oveľa viac obsahu, ako sa v skutočnosti zvyčajne skenuje na trénovanie údajov generatívnej AI. Zvyčajne sa používa iba malá časť internetu. Môžeme teda predpokladať, že akýkoľvek obsah, ktorý nebol naskenovaný počas trénovania údajov, nemá žiadnu zvláštnu hrubú silu s generatívnou AI.

To je však trochu diskutabilné, pretože by ste potenciálne mohli nakresliť čiaru, ktorá spája iný obsah, ktorý bol naskenovaný, s obsahom, ktorý nebol naskenovaný. Ďalšou dôležitou výhradou je, že aj keď existuje obsah, ktorý nebol naskenovaný, stále by sa dalo tvrdiť, že ide o plagiát a/alebo porušenie autorských práv, ak výstupy generatívnej AI pravdepodobne pristanú rovnakému slovesu. Ide mi o to, že v tom všetkom je veľa šmrncov.

Zrátané a podčiarknuté: Generatívna AI je plná potenciálnych právnych rébusov týkajúcich sa etiky a zákona o AI, pokiaľ ide o plagiátorstvo a porušovanie autorských práv podporu prevládajúcich postupov školenia údajov.

Tvorcovia umelej inteligencie a výskumníci umelej inteligencie zatiaľ prešli týmto celkom bez škvŕn, a to aj napriek hroziacemu a neisto visiacemu meču, ktorý nad nimi visí. Proti týmto praktikám bolo doteraz začatých len niekoľko súdnych sporov. Možno ste už počuli alebo videli spravodajské články o takýchto právnych krokoch. Jedna napríklad zahŕňa spoločnosti Midjourney a Stability AI pre prevod textu na obrázok za porušovanie autorských práv umeleckého obsahu zverejneného na internete. Ďalší znamená porušenie prevodu textu na kód proti GitHub, Microsoft a OpenAI v dôsledku softvéru Copilot produkujúceho aplikácie AI. Spoločnosť Getty Images sa tiež zamerala na porušovanie umelej inteligencie Stability pre porušovanie textu na obrázok.

Môžete očakávať, že takýchto žalôb bude podaných viac.

Práve teraz je trochu pravdepodobné začať tieto súdne spory, pretože výsledok je relatívne neznámy. Bude súd stáť na strane tvorcov AI alebo budú víťazmi tí, ktorí veria, že ich obsah bol nespravodlivo zneužitý? Nákladná právna bitka je vždy vážna vec. Vynaloženie rozsiahlych súdnych nákladov musí byť porovnané s šancami na výhru alebo prehru.

Zdá sa, že tvorcovia AI nemajú takmer inú možnosť, ako bojovať. Ak by čo i len trochu ustúpili, je pravdepodobné, že by to viedlo k množstvu ďalších súdnych sporov (v podstate by otvorili dvere zvýšeným šanciam, že prevládnu aj ostatní). Akonáhle je vo vode legálna krv, zvyšní legálni žraloci sa rozbehnú na zvažované „ľahké skóre“ a určite nastane krvavý krvavý kúpeľ.

Niektorí veria, že by sme mali prijať nové zákony o AI, ktoré by chránili tvorcov AI. Ochrana môže byť dokonca retroaktívna. Základom toho je, že ak chceme vidieť generatívne vylepšenia AI, musíme poskytnúť tvorcom AI nejakú dráhu bezpečnej zóny. Akonáhle začnú súdne spory víťaziť nad tvorcami AI, ak k tomu dôjde (ešte nevieme), obávame sa, že generatívna AI sa vyparí, pretože nikto nebude ochotný poskytnúť firmám AI žiadnu podporu.

Ako bolo šikovne zdôraznené v nedávnom článku zákona Bloomberg s názvom „ChatGPT: IP, kybernetická bezpečnosť a ďalšie právne riziká generatívnej AI“ od Dr. Iliu Koločenka a Gordona Platta, zákon Bloomberg, február 2023, tu sú dva dôležité úryvky, ktoré odrážajú tieto názory:

„Medzi americkými právnikmi a profesormi práva duševného vlastníctva teraz zúri horúca diskusia o tom, či neoprávnené zoškrabovanie a následné použitie údajov chránených autorskými právami predstavuje porušenie autorských práv. Ak preváži názor právnikov, ktorí vidia porušovanie autorských práv v takejto praxi, používatelia takýchto systémov AI môžu byť tiež zodpovední za sekundárne porušenie a potenciálne čeliť právnym následkom.“
„Na komplexné riešenie tejto výzvy by zákonodarcovia mali zvážiť nielen modernizáciu existujúcich právnych predpisov o autorských právach, ale aj implementáciu súboru zákonov a nariadení špecifických pre AI.“

Pripomeňme, že ako spoločnosť sme zaviedli právnu ochranu rozšírenie internetu, čoho dôkazom je teraz Najvyšší súd, ktorý skúma slávnu alebo neslávne známu sekciu 230. Zdá sa teda, že v rozumnej miere a precedense by sme mohli byť ochotní urobiť nejakú podobnú ochranu pre rozvoj generatívnej AI. Možno by sa ochrany mohli nastaviť dočasne, pričom platnosť vyprší potom, čo generatívna AI dosiahne určitú vopred stanovenú úroveň odbornosti. Mohli by sa navrhnúť iné ochranné opatrenia.

Čoskoro zverejním svoju analýzu toho, ako by hodnotenie Najvyššieho súdu a konečné rozhodnutie o § 230 mohlo ovplyvniť príchod generatívnej AI. Sledujte tento nadchádzajúci príspevok!

Späť k ostro vyjadrenému názoru, že by sme mali ponechať priestor pre technologickú inováciu, ktorá vzbudzovala spoločenský rešpekt, známu ako generatívna AI. Niektorí by povedali, že aj keď k údajnému porušeniu autorských práv dôjde alebo k nemu dochádza, spoločnosť ako celok by mala byť ochotná to povoliť na špecifické účely rozvoja generatívnej AI.

Dúfame, že nové zákony o AI budú starostlivo vytvorené a vyladené na podrobnosti spojené s tréningom údajov pre generatívnu AI.

Existuje veľa protiargumentov proti tejto predstave o navrhovaní nových zákonov o AI na tento účel. Jednou z obáv je, že každý takýto nový zákon o AI otvorí stavidlá pre všetky druhy porušovania autorských práv. Budeme ľutovať deň, keď sme dovolili, aby sa takéto nové zákony AI dostali do účtovníctva. Bez ohľadu na to, ako veľmi sa to snažíte obmedziť len na školenie údajov AI, iní potajomky alebo šikovne nájdu medzery, ktoré budú znamenať nespútané a nekontrolovateľné porušovanie autorských práv.

Argumenty idú dookola.

Jeden argument, ktorý nijako zvlášť neobstojí, súvisí so snahou žalovať samotnú AI. Všimnite si, že som označoval výrobcu AI alebo výskumníkov AI ako vinníkov. Sú to ľudia a firmy. Niektorí naznačujú, že by sme sa mali zamerať na AI ako na stranu, ktorá bude žalovaná. Vo svojom stĺpčeku som obšírne diskutoval o tom, že zatiaľ právnu osobu nepripisujeme AI, viď odkaz tu Napríklad takéto žaloby zamerané na AI by sa v súčasnosti považovali za nezmyselné.

Ako dodatok k otázke, koho alebo čo treba žalovať, to prináša ďalšiu šťavnatú tému.

Predpokladajme, že konkrétnu generatívnu aplikáciu AI vymyslel nejaký výrobca AI, ktorý budeme nazývať Widget Company. Widget Company je relatívne malá čo do veľkosti a nemá veľké príjmy, ani veľa aktív. Žalovaním sa im pravdepodobne nezíska veľké bohatstvo, o ktoré by človek mohol usilovať. Nanajvýš by ste mali len uspokojenie z nápravy toho, čo vnímate ako nesprávne.

Chcete ísť za veľkou rybou.

Tu je návod, ako to vznikne. Výrobca AI sa rozhodol sprístupniť svoju generatívnu AI spoločnosti Big Time Company, veľkému konglomerátu s tonami cesta a tonami aktív. Žaloba s názvom Widget Company by teraz mala lepší cieľ, a to aj pomenovaním Big Time Company. Toto je súboj Dávida a Goliáša, ktorý by si právnici vychutnali. Samozrejme, Big Time Company sa nepochybne pokúsi vykrútiť z rybárskeho háčika. Či tak môžu urobiť, je opäť právna otázka, ktorá je neistá a mohli by sa beznádejne utápať v bahne.

Predtým, ako sa k tomu dostaneme oveľa ďalej, rád by som dostal na stôl niečo zásadné o sporných zásahoch generatívnej AI v dôsledku tréningu údajov. Som si istý, že intuitívne chápete, že plagiátorstvo a porušovanie autorských práv sú dve trochu odlišné zvery. Majú veľa spoločného, aj keď sa výrazne líšia.

Tu je praktický stručný popis z Duke University, ktorý vysvetľuje tieto dva:

„Plagiátorstvo je najlepšie definované ako nepriznané použitie práce inej osoby. Ide o etický problém týkajúci sa nároku na uznanie za prácu, ktorú navrhovateľ nevytvoril. Niekto môže plagiovať dielo niekoho iného bez ohľadu na stav autorských práv tohto diela. Napriek tomu je plagiátom napríklad kopírovanie z knihy alebo článku, ktoré sú príliš staré na to, aby sa na ne vzťahovali autorské práva. Plagiátorstvom je aj používanie údajov prevzatých z neuznaného zdroja, aj keď faktický materiál, ako napríklad údaje, nemusí byť chránený autorským právom. Plagiátorstvo sa však dá ľahko vyliečiť – správna citácia pôvodného zdroja materiálu.“
„Porušenie autorských práv je na druhej strane neoprávnené použitie cudzieho diela. Ide o právny problém, ktorý závisí od toho, či dielo je alebo nie je chránené autorským právom, ako aj od špecifikácií, ako je množstvo a účel použitia. Ak sa skopíruje príliš veľa chráneného diela alebo sa kopíruje na neoprávnený účel, jednoduchým potvrdením pôvodného zdroja sa problém nevyrieši. Riziku poplatku za porušenie autorských práv sa vyhneme iba vyžiadaním predchádzajúceho povolenia od držiteľa autorských práv.“

Poukazujem na dôležitosť týchto dvoch obáv, aby ste si uvedomili, že nápravné opatrenia sa môžu podľa toho líšiť. Obidve sú tiež zapletené do úvah, ktoré prenikajú etikou umelej inteligencie a zákonom o umelej inteligencii, vďaka čomu sa oplatí preskúmať ich rovnako.

Poďme preskúmať nárokovaný liek alebo riešenie. Uvidíte, že to môže pomôcť jednému z dvojitých problémov, ale nie druhému.

Niektorí trvali na tom, že všetko, čo musia tvorcovia AI urobiť, je citovať svoje zdroje. Keď generatívna umelá inteligencia vytvorí esej, uveďte iba konkrétne citácie toho, čo je v eseji uvedené. Uveďte rôzne adresy URL a iné údaje o tom, aký internetový obsah bol použitý. Zdá sa, že ich to zbaví pochybností o plagiátorstve. Výstupná esej by pravdepodobne jasne identifikovala, aké zdroje boli použité pre vyrábané znenie.

V tomto nárokovanom riešení sú nejaké dohady, ale na úrovni 30,000 XNUMX stôp povedzme, že to slúži ako čiastočne uspokojivý liek na dilemu plagiátorstva. Ako je uvedené vyššie vo vysvetlení porušenia autorských práv, citovanie zdrojového materiálu vás nemusí nutne dostať z psieho búdky. Za predpokladu, že obsah bol chránený autorskými právami, a v závislosti od iných faktorov, ako je množstvo použitého materiálu, môže čakajúci meč porušovania autorských práv prudko a definitívne zasiahnuť.

Dvojitý problém je tu heslom.

Pokúsime sa dokázať plagiátorstvo alebo porušenie autorských práv

Dokázať to!

To je ten opotrebovaný refrén, ktorý sme všetci počuli v rôznych obdobiach svojho života.

Vieš ako to chodí. Môžete tvrdiť, že sa niečo deje alebo stalo. Možno vo svojom srdci viete, že sa to stalo. Ale keď príde na zatlačenie-verzus-strč, musíte mať dôkaz.

V dnešnom jazyku musíte ukázať príjmy, ako vravia.

Moja otázka na vás je takáto: Ako preukázateľne dokážeme, že generatívna AI nevhodne využívala internetový obsah?

Človek predpokladá, že odpoveď by mala byť jednoduchá. Požiadate alebo poviete generatívnej AI, aby vytvorila výstupnú esej. Potom vezmete esej a porovnáte ju s tým, čo sa dá nájsť na internete. Ak nájdete esej, bam, máte generatívnu AI pribitú k povestnej stene.

Zdá sa, že život nikdy nebude taký ľahký.

Predstavte si, že získame generatívnu AI na vytvorenie eseje, ktorá obsahuje asi 100 slov. Ideme okolo a snažíme sa dostať do všetkých zákutí internetu, hľadáme tých 100 slov. Ak nájdeme tých 100 slov zobrazených v rovnakom presnom poradí a rovnakým spôsobom, zdá sa, že sme sa pristihli pri jednom.

Predpokladajme však, že na internete nájdeme zdanlivo „porovnateľnú“ esej, hoci sa zhoduje len s 80 zo 100 slov. Toto sa zdá byť stále dostatočné. Predstavte si však, že nájdeme iba príklad 10 slov zo 100, ktoré sa zhodujú. Stačí to na vyhlasovanie, že buď došlo k plagiátorstvu, alebo že došlo k porušeniu autorských práv?

Šedosť existuje.

Text je takto vtipný.

Porovnajte to s okolnosťami prevodu textu na obrázok alebo textu na umenie. Keď generatívna AI poskytuje možnosť prevodu textu na obrázok alebo textu na umenie, zadáte textovú výzvu a aplikácia AI vytvorí obrázok na základe výzvy, ktorú ste poskytli. Obrázok sa môže líšiť od akéhokoľvek obrázka, ktorý bol kedy videný na tejto alebo inej planéte.

Na druhej strane môže obrázok pripomínať iné obrázky, ktoré existujú. Môžeme sa pozrieť na generatívny obrázok vytvorený AI a trochu inštinktom povedať, že to určite vyzerá ako nejaký iný obrázok, ktorý sme už videli. Všeobecne platí, že vizuálny aspekty porovnávania a kontrastu sú o niečo jednoduchšie. Ako už bolo povedané, uvedomte si, že obrovské právne diskusie zabezpečujú, čo predstavuje prekrývanie alebo replikáciu jedného obrázka s iným.

Ďalšia podobná situácia je s hudbou. Existujú generatívne aplikácie AI, ktoré vám umožňujú zadať textovú výzvu a výstupom produkovaným AI je zvuková hudba. Tieto funkcie umelej inteligencie na prevod textu na zvuk alebo text na hudbu sa práve teraz začínajú objavovať. Jedna vec, na ktorú môžete staviť svoj najvyšší dolár, je, že hudba produkovaná generatívnou AI bude prísne kontrolovaná z hľadiska porušenia. Zdá sa, že vieme, keď počujeme hudobné porušovanie práv, aj keď opäť ide o zložitý právny problém, ktorý nie je založený len na tom, ako vnímame vnímanú replikáciu.

Dovoľte mi ešte jeden príklad.

Generatívna AI prevodu textu na kód vám poskytuje možnosť zadať textovú výzvu a AI vám vytvorí programovací kód. Tento kód potom môžete použiť na prípravu počítačového programu. Môžete použiť kód presne tak, ako bol vygenerovaný, alebo sa môžete rozhodnúť upraviť a upraviť kód tak, aby vyhovoval vašim potrebám. Je tiež potrebné uistiť sa, že kód je vhodný a funkčný, pretože je možné, že vo vygenerovanom kóde môžu vzniknúť chyby a nepravdy.

Váš prvý predpoklad môže byť, že programovací kód sa nelíši od textu. Je to len text. Iste, je to text, ktorý poskytuje konkrétny účel, ale stále je to text.

No nie presne. Väčšina programovacích jazykov má striktný formát a štruktúru zodpovedajúcu povahe kódovacích príkazov daného jazyka. Toto je v istom zmysle oveľa užšie ako voľne plynúci prirodzený jazyk. Ste trochu zaškatuľkovaní v tom, ako sú formulované kódovacie príkazy. Podobne aj postupnosť a spôsob, akým sú príkazy využívané a usporiadané, sú trochu ohraničené.

Celkovo vzaté, možnosť predviesť, že programovací kód bol plagiátom alebo porušeným autorským právom, je takmer jednoduchšia ako všetko povedané v prirodzenom jazyku. Keď teda generatívna AI naskenuje programovací kód na internete a neskôr vygeneruje programovací kód, šanca na tvrdenie, že kód bol nehanebne replikovaný, bude relatívne presvedčivejšia. Nie je to slam dunk, takže očakávajte, že sa o to budú viesť kruté bitky.

Mojím hlavným bodom je, že budeme mať rovnaké problémy s etikou AI a zákonom o AI, ktoré budú konfrontovať všetky spôsoby generatívnej AI.

Plagiátorstvo a porušovanie autorských práv bude problematické pre:

Prevod textu na text alebo text do eseje
Prevod textu na obrázok alebo text na umenie
Text-to-audio alebo text-to-hudba
Prevod textu na video
Prevod textu na kód
Atď

Všetci podliehajú rovnakým obavám. Niektoré môže byť o niečo jednoduchšie „dokázať“ ako iné. Všetky budú mať svoje vlastné nočné mory založené na etike a zákonoch AI.

Ako argumentovať pre plagiátorstvo alebo porušovanie autorských práv

Na účely diskusie sa zamerajme na generatívnu AI prevodu textu na text alebo textu na esej. Čiastočne tak robím kvôli obrovskej popularite ChatGPT, čo je typ generatívnej AI s prevodom textu na text. Existuje veľa ľudí, ktorí používajú ChatGPT, spolu s mnohými ďalšími, ktorí používajú rôzne podobné aplikácie AI na generovanie textu na text.

Vedia tí ľudia, ktorí používajú generatívne aplikácie AI, že sa potenciálne spoliehajú na plagiátorstvo alebo porušenie autorských práv?

Zdá sa pochybné, že áno.

Dovolím si tvrdiť, že prevládajúci predpoklad je, že ak je generatívna aplikácia AI dostupná na použitie, výrobca AI alebo spoločnosť, ktorá AI nasadila, musí vedieť alebo si byť istá, že na tovare, ktorý ponúkajú na použitie, nie je nič zlé. Ak ho môžete použiť, musí byť nad palubou.

Vráťme sa k môjmu predchádzajúcemu komentáru o tom, ako sa pokúsime dokázať, že konkrétna generatívna AI pracuje na nesprávnom základe, pokiaľ ide o tréning údajov.

Mohol by som tiež dodať, že ak dokážeme chytiť jednu generatívnu AI, ako to robí, šance na zachytenie ostatných sa pravdepodobne zvýšia. Nehovorím, že všetky generatívne aplikácie AI by boli na jednej lodi. Ale ocitnú sa v dosť drsných moriach, keď bude jeden z nich prikovaný k stene.

Aj preto sa nesmierne oplatí sledovať existujúce súdne spory. Prvá, ktorá zvíťazí, pokiaľ ide o nárokované porušenie, ak k tomu dôjde, bude pravdepodobne znamenať skazu a temnotu pre ostatné generatívne aplikácie AI, pokiaľ určitá úzka neunikne širším problémom. Tie, ktoré prehrajú v súvislosti s údajným porušením, nemusia nevyhnutne znamenať, že generatívne aplikácie AI môžu zvoniť a oslavovať. Môže sa stať, že strata je pripísaná iným faktorom, ktoré nie sú také relevantné pre iné generatívne aplikácie AI atď.

Spomenul som, že ak zoberieme 100-slovnú esej a pokúsime sa nájsť presné slová v rovnakom poradí na internete, mohli by sme mať relatívne solídny dôvod na plagiátorstvo alebo porušenie autorských práv, ak by boli všetky ostatné rovnaké. Ak je však počet zhodných slov nízky, zdá sa, že sme na tenkom ľade.

Chcel by som sa tomu venovať hlbšie.

Zrejmý aspekt porovnávania pozostáva z presne rovnakých slov v presne rovnakom poradí. To sa môže vyskytnúť pre celé pasáže. Bolo by vhodné si to všimnúť, takmer ako keby ste nám ich podávali na striebornom podnose.

Tiež by nám mohlo byť podozrivé, keby sa zhodoval iba úryvok slov. Cieľom by bolo zistiť, či sú to kľúčové slová alebo možno výplňové slová, ktoré môžeme ľahko odstrániť alebo ignorovať. Nechceme sa tiež nechať oklamať používaním slov v ich minulom alebo budúcom čase alebo inou hlúposťou. Mali by sa zvážiť aj tieto variácie slov.

Iná úroveň porovnania by bola, keď slová nie sú do veľkej miery rovnaké slová, no napriek tomu sa zdá, že slová, dokonca aj v rôznom stave, stále poukazujú na to isté. Napríklad súhrn bude často používať dosť podobné slová ako pôvodný zdroj, ale môžeme rozpoznať, že sa zdá, že súhrn vychádza z pôvodného zdroja.

Najťažšia úroveň porovnávania by bola založená na konceptoch alebo nápadoch. Predpokladajme, že vidíme esej, ktorá nemá rovnaké alebo podobné slová ako základ na porovnanie, ale podstata alebo myšlienky sú rovnaké. Priznávame, že sa dostávame do drsného územia. Ak by sme ochotne povedali, že myšlienky sú prísne chránené, prikryli by sme takmer všetky formy vedomostí a rozširovania vedomostí.

Opäť sa môžeme odvolať na praktické vysvetlenie z Duke University:

„Autorské práva nechránia myšlienky, iba konkrétne vyjadrenie myšlienky. Napríklad súd rozhodol, že Dan Brown pri písaní neporušil autorské práva predchádzajúcej knihy Da Vinci Code pretože všetko, čo si požičal zo skoršieho diela, boli základné myšlienky, nie špecifiká zápletky alebo dialógu. Keďže cieľom autorského práva je podporovať tvorivú produkciu, použitie nápadov niekoho iného na vytvorenie nového a originálneho diela podporuje účel autorského práva, neporušuje ho. Autorské právo môže byť porušené iba vtedy, ak niekto bez povolenia kopíruje vyjadrenie iného.“
„Na druhej strane, aby sme sa vyhli plagiátorstvu, musíme uznať zdroj dokonca aj myšlienok, ktoré sú požičané od niekoho iného, bez ohľadu na to, či je vyjadrenie týchto myšlienok požičané spolu s nimi. Parafráza teda vyžaduje citáciu, aj keď len zriedka vyvoláva akýkoľvek problém s autorskými právami.“

Vezmite prosím na vedomie, ako už bolo uvedené, rozdiely medzi dvojitými problémovými aspektmi.

Zavedenie porovnávacích prístupov do praxe je teda niečo, čo sa deje už mnoho rokov. Myslite na to takto. Študenti, ktorí píšu eseje do školy, môžu byť v pokušení chytiť obsah z internetu a predstierať, že sú autorom slov, ktoré získali Pulitzerovu cenu triedy A.

Učitelia na to už dlho používajú programy na kontrolu plagiátov. Učiteľ vezme študentskú esej a vloží ju do nástroja na kontrolu plagiátov. V niektorých prípadoch získa licenciu na používanie programu na kontrolu plagiátov celá škola. Vždy, keď študenti odovzdávajú esej, musia ju najskôr poslať do programu na kontrolu plagiátov. Učiteľ je informovaný o tom, čo program hlási.

Žiaľ, musíte byť veľmi opatrní, pokiaľ ide o to, čo tieto programy na kontrolu plagiátorstva hovoria. Je dôležité dôkladne posúdiť, či sú hlásené indikácie platné. Ako už bolo spomenuté, schopnosť zistiť, či bolo dielo skopírované, môže byť zahmlené. Ak bezmyšlienkovite prijmete výsledok kontrolného programu, môžete nepravdivo obviniť študenta z kopírovania, keď tak neurobil. To môže byť zdrvujúce pre dušu.

Pokračujeme, môžeme sa pokúsiť použiť programy na kontrolu plagiátov v oblasti testovania generatívnych výstupov AI. S esejami vydanými z generatívnej aplikácie AI zaobchádzajte tak, ako keby ich písal študent. Potom zhodnotíme, čo hovorí kontrolór plagiátorstva. Robí sa to s rezervou.

Existuje nedávna výskumná štúdia, ktorá sa pokúsila sfunkčniť tieto typy porovnaní v kontexte generatívnej AI práve týmto spôsobom. Rád by som s vami prebral zaujímavé zistenia.

Najprv je potrebné pridať nejaké pozadie. Generatívna AI sa niekedy označuje ako LLM (veľké jazykové modely) alebo jednoducho LM (jazykové modely). Po druhé, ChatGPT je založený na verzii iného generatívneho balíka AI OpenAI s názvom GPT-3.5. Pred GPT-3.5 existoval GPT-3 a predtým GPT-2. V súčasnosti sa GPT-2 považuje v porovnaní s neskoršou sériou za dosť primitívnu a všetci netrpezlivo očakávame nadchádzajúce odhalenie GPT-4, pozri moju diskusiu na odkaz tu.

Výskumná štúdia, ktorú chcem stručne preskúmať, pozostávala zo skúmania GPT-2. To je dôležité si uvedomiť, pretože teraz sme ďalej za možnosťami GPT-2. Nerobte žiadne unáhlené závery, pokiaľ ide o výsledky tejto analýzy GPT-2. Napriek tomu sa z hodnotenia GPT-2 môžeme veľa naučiť. Štúdia má názov „Plagiujú jazykové modely? od Jooyoung Lee, Thai Le, Jinghui Chen a Dongwon Lee, ktoré sa objavujú na ACM WWW '23, 1. – 5. mája 2023, Austin, TX, USA.

Toto je ich hlavná výskumná otázka:

"Do akej miery (neobmedzené na zapamätanie) využívajú LM frázy alebo vety zo svojich tréningových vzoriek?"

Použili tieto tri úrovne alebo kategórie potenciálneho plagiátorstva:

"Doslovný plagiát: Presné kópie slov alebo fráz bez transformácie."
"Plagiátorstvo parafráz: Synonymná substitúcia, zmena poradia slov a/alebo spätný preklad."
"Plagiátorstvo nápadov: Reprezentácia základného obsahu v predĺženej forme."

GPT-2 bol skutočne vyškolený na internetových údajoch, a preto je vhodným kandidátom na tento typ analýzy:

„GPT-2 je vopred natrénovaný na WebText, ktorý obsahuje viac ako 8 miliónov dokumentov získaných zo 45 miliónov odkazov Reddit. Keďže OpenAI verejne neuverejnila WebText, používame OpenWebText, ktorý je open source rekreáciou korpusu WebText. Predchádzajúca literatúra ho spoľahlivo používala.“

Selektívne kľúčové zistenia vyňaté zo štúdie pozostávajú z:

"Zistili sme, že vopred vyškolené rodiny GPT-2 plagiujú z OpenWebText."
"Naše zistenia ukazujú, že jemné ladenie výrazne znižuje prípady doslovného plagiátorstva z OpenWebText."
“V súlade s Carlini et al. a Carlini et al., zistili sme, že väčšie modely GPT-2 (veľké a xl) vo všeobecnosti generujú plagiované sekvencie častejšie ako menšie.
"Rôzne LM však môžu vykazovať rôzne vzory plagiátorstva, a preto sa naše výsledky nemusia priamo zovšeobecňovať na iné LM, vrátane novších LM, ako sú GPT-3 alebo BLOOM."
„Okrem toho je známe, že automatické detektory plagiátov majú mnoho spôsobov zlyhania (v falošne negatívnych aj falošne pozitívnych výsledkoch).
„Vzhľadom na to, že väčšina tréningových údajov LM sa sťahuje z webu bez informovania vlastníkov obsahu, ich opakovanie slov, fráz a dokonca aj základných myšlienok z tréningových súborov do generovaných textov má etické dôsledky.“

Určite potrebujeme oveľa viac štúdií tohto druhu.

Ak vás zaujíma, ako sa GPT-2 porovnáva s GPT-3, pokiaľ ide o trénovanie údajov, je tu dosť výrazný kontrast.

Podľa hlásených údajov bolo školenie údajov pre GPT-3 oveľa rozsiahlejšie:

„Model bol trénovaný pomocou textových databáz z internetu. To zahŕňalo neuveriteľných 570 GB údajov získaných z kníh, webových textov, Wikipédie, článkov a iných kúskov písania na internete. Aby som bol ešte presnejší, do systému bolo vložených 300 miliárd slov“ (BBC Science Focus časopis, „ChatGPT: Všetko, čo potrebujete vedieť o nástroji OpenAI GPT-3“ od Alexa Hughesa, február 2023).

Pre tých z vás, ktorí majú záujem o podrobnejšie popisy tréningu údajov pre GPT-3, tu je úryvok z oficiálnej karty modelu GPT-3 zverejnenej na GitHub (dátum poslednej aktualizácie je september 2020):

„Tréningový súbor údajov GPT-3 sa skladá z textu uverejneného na internete alebo z textu nahraného na internet (napr. knihy). Internetové údaje, na ktorých boli doteraz trénované a hodnotené, zahŕňajú: (1) verziu súboru údajov CommonCrawl, filtrovanú na základe podobnosti s vysokokvalitnými referenčnými korpusmi, (2) rozšírenú verziu súboru údajov Webtext, (3 ) dva internetové knižné korpusy a (4) Wikipedia v anglickom jazyku.“
„Vzhľadom na údaje o školeniach sú výstupy a výkon GPT-3 reprezentatívnejšie pre populáciu pripojenú na internet ako pre tých, ktorí sú ponorení do verbálnej, nedigitálnej kultúry. Populácia pripojená na internet viac zastupuje rozvinuté krajiny, má bohaté, mladšie a mužské názory a je väčšinou zameraná na USA. Bohatšie národy a populácie vo vyspelých krajinách vykazujú vyššiu penetráciu internetu. Digitálna rodová priepasť tiež ukazuje, že celosvetovo je na internete zastúpených menej žien. Navyše, keďže rôzne časti sveta majú rôzne úrovne penetrácie a prístupu k internetu, súbor údajov nedostatočne predstavuje menej prepojené komunity.“

Jedným z poznatkov z vyššie uvedeného údaja o GPT-3 je, že pravidlom medzi tými, ktorí vytvárajú generatívnu AI, je, že čím viac internetových údajov dokážete naskenovať, tým sa zvyšuje pravdepodobnosť zlepšenia alebo rozvoja generatívnej AI.

Môžete sa na to pozrieť jedným z dvoch spôsobov.

1) vylepšená AI. Budeme mať generatívnu AI, ktorá sa bude plaziť po čo najväčšej časti internetu. Vzrušujúcim výsledkom je, že generatívna AI bude lepšia ako doteraz. Je sa na čo tešiť.
2) Kopírovanie veľa potenciálu. Toto rozšírenie skenovania internetu nepríjemne a pútavo robí problém plagiátorstva a porušovania autorských práv potenciálne väčším a väčším. Zatiaľ čo predtým nebolo ovplyvnených toľko tvorcov obsahu, veľkosť bude kvitnúť. Ak ste právnik na strane tvorcov obsahu, vháňajú sa vám slzy do očí (možno slzy zdesenia alebo radosti z toho, aké vyhliadky to prináša v súvislosti so súdnymi spormi).

Je pohár poloplný alebo poloprázdny?

Ty rozhodni.

Legálne nášľapné míny čakajú

Otázkou, nad ktorou možno uvažujete, je, či sa váš zverejnený internetový obsah považuje za férovú hru na to, aby bol naskenovaný. Ak sa váš obsah nachádza za plateným múrom, pravdepodobne to nie je cieľ na skenovanie, pretože ho nemožno ľahko dosiahnuť v závislosti od sily plateného múru.

Hádal by som, že väčšina bežných ľudí nemá svoj obsah zastrčený za výplatnou stenou. Chcú, aby bol ich obsah verejne dostupný. Predpokladajú, že si to ľudia pozrú.

Znamená to, že váš obsah je verejne dostupný, axiomaticky znamená, že schvaľujete jeho skenovanie na použitie generatívnou AI, ktorá sa trénuje na základe údajov?

Možno áno možno nie.

Je to jedna z tých právnických záležitostí na prevracanie očí.

Vráťme sa k vyššie uvedenému Bloombergov zákon V článku autori spomínajú dôležitosť Zmluvných podmienok (T&C) spojených s mnohými webovými stránkami:

„Právna nášľapná mína, ktorú nevedomé spoločnosti AI, ktoré prevádzkujú online roboty na zoškrabovanie údajov, vo veľkej miere ignorujú, je skrytá v podmienkach bežne dostupných na verejných webových stránkach všetkých typov. Na rozdiel od v súčasnosti neusporiadaného práva duševného vlastníctva a dilemy týkajúcej sa porušenia autorských práv sú zmluvné podmienky webových stránok podporené dobre zavedeným zmluvným právom a zvyčajne ich možno vymáhať na súde na základe dostatočného počtu precedensov.“

Naznačujú, že za predpokladu, že váš web má stránku súvisiacu s licencovaním, je pravdepodobné, že ak ste použili štandardizovanú modernú šablónu, mohla by obsahovať zásadnú klauzulu:

„Väčšina štandardných zmluvných podmienok pre webové stránky – hojne dostupných vo voľnom prístupe – teda obsahuje klauzulu zakazujúcu automatické zoškrabovanie údajov. Je iróniou, že takéto voľne dostupné šablóny sa možno použili na školenie ChatGPT. Vlastníci obsahu si preto môžu chcieť prečítať svoje zmluvné podmienky a vložiť samostatnú klauzulu, ktorá jednoznačne zakazuje akékoľvek používanie akéhokoľvek obsahu z webových stránok na školenia AI alebo na akékoľvek súvisiace účely, či už zbierané manuálne alebo automaticky, bez predchádzajúceho písomného súhlasu vlastníka webovej lokality. .“

V ich analýze potenciálnych akcií, ktoré môžu tvorcovia obsahu vykonať na svojich webových stránkach, je zahrnutý ďalší stimul:

„Preto vloženie vykonateľného ustanovenia o náhrade škody za každé porušenie klauzuly o zákaze skartovania, rozšíreného o ustanovenie o súdnom príkaze bez viazanosti, môže byť udržateľným riešením pre tých autorov kreatívneho obsahu, ktorí nemajú záujem poskytovať plody svojho intelektuálna práca na účely školenia AI bez toho, aby za to dostali zaplatené alebo aspoň dostali za svoju prácu náležité uznanie.“

Možno by ste sa o tom mali poradiť so svojím právnikom.

Niektorí hovoria, že je to životne dôležitý spôsob, ako sa pokúsiť povedať tvorcom AI, že tvorcovia obsahu to s ochranou svojho obsahu myslia veľmi vážne. Zdá sa, že uistenie sa, že vaša licencia má správne znenie, upozorní tvorcov AI.

Iní sú však trochu sklamaní. Skromne hovoria, že môžete na svoju webovú stránku umiestniť ten najtvrdší a najsmrteľnejší právny jazyk, ale nakoniec to tvorcovia AI naskenujú. Nebudete vedieť, že tak urobili. Budete mať čertovský čas dokázať, že áno. Je nepravdepodobné, že zistíte, že ich výstupy odrážajú váš obsah. Je to náročný boj, ktorý nevyhráte.

Protiargumentom je, že sa vzdávate bitky ešte predtým, než sa vôbec viedla. Ak nemáte aspoň dostatočný právnický jazyk a ak ich niekedy chytíte, budú sa krútiť a predierať sa cestou, aby unikli akejkoľvek zodpovednosti. Všetko preto, že ste nezverejnili správny druh právneho žargónu.

Medzitým by ďalší prístup, ktorý sa snaží získať trakciu, pozostával z značkovanie váš web s niečím, čo hovorí, že web nemá byť skenovaný generatívnou AI. Myšlienkou je, že by sa vymyslel štandardizovaný marker. Webové stránky by pravdepodobne mohli pridať značku na svoje stránky. Tvorcom AI by bolo povedané, že by mali zmeniť skenovanie údajov tak, aby preskočili označené webové stránky.

Môže byť markerový prístup úspešný? Obavy zahŕňajú náklady na získanie a odoslanie značiek. Spolu s tým, či budú tvorcovia AI dodržiavať značky a zabezpečiť, aby sa vyhli skenovaniu označených miest. Ďalšou perspektívou je, že aj keď tvorcovia AI nesúhlasia s označeniami, poskytuje to ďalšie poučné vodítko na to, aby ste sa obrátili na súd a tvrdili, že tvorca obsahu urobil poslednú míľu, aby sa pokúsil varovať pred skenovaním AI.

Fuj, z toho všetkého sa ti zatočí hlava.

záver

Pár poznámok na záver k tejto chúlostivej téme.

Ste pripravení na ohromujúci pohľad na celú túto AI ako dilemu plagiátora a porušovateľa autorských práv?

Veľká časť predpokladov o „chytení“ generatívnej AI pri čine plagiátorstva alebo porušovania autorských práv závisí od objavenia výstupov, ktoré veľmi podobajú predchádzajúce diela, ako je obsah na internete, ktorý bol potenciálne naskenovaný počas tréningu údajov.

Predpokladajme však, že sa tu hrá o trik rozdeľuj a panuj.

Tu je to, čo mám na mysli.

Ak si generatívna umelá inteligencia požičia malý kúsok odtiaľto a malý kúsok odtiaľ, čím ich v konečnom dôsledku zmieša a vytvorí akýkoľvek konkrétny výstup, šanca, že budete môcť zažiť chúlostivý moment, sa výrazne zníži. Akýkoľvek výstup zdanlivo nestúpne na dostatočnú hranicu, aby ste mohli s istotou povedať, že bol kopírovaný z jedného konkrétneho zdroja. Výsledná esej alebo iné spôsoby výstupu budú prispôsobiteľné len čiastočne. A zvyčajným prístupom, keď sa pokúšate argumentovať, že došlo k plagiátorstvu alebo porušeniu autorských práv, zvyčajne musíte predviesť viac, než je v hre nejaká malinká maličkosť, najmä ak toto sústo nie je výnimočné a možno ho nájsť na internete (podceňovanie akékoľvek primerané dôkazné bremeno o sprenevere).

Môžete stále presvedčivo vyhlásiť, že trénovanie údajov pomocou generatívnej AI okradlo webové stránky a tvorcov obsahu, aj keď navrhovaný dôkaz je zdanlivo nepodstatný?

Premýšľajte o tom.

Ak čelíme potenciálnemu plagiátorstvu vo veľkom rozsahu a porušovaniu autorských práv vo veľkom rozsahu, možno budeme musieť zmeniť náš prístup k definovaniu toho, čo predstavuje plagiátorstvo a/alebo porušenie autorských práv. Možno existuje dôvod na plagiátorstvo alebo porušenie autorských práv vo všeobecnosti alebo vo všeobecnosti. Mozaika pozostávajúca z tisícok alebo miliónov nepatrných útržkov by sa dala vykladať ako páchanie takýchto porušení. Zjavným problémom však je, že to môže spôsobiť, že sa všetok obsah náhle dostane pod záštitu porušení. Môže to byť klzký svah.

Ťažké myšlienky.

Leo Tolstoj, legendárny spisovateľ, o veľkých myšlienkach povedal: „Jediným zmyslom života je slúžiť ľudstvu.

Ak sú vaše webové stránky a webové stránky iných kontrolované kvôli zlepšeniu AI, a hoci za to nedostanete ani cent, môžete mať vážnu útechu v horlivej viere, že prispievate k budúcnosti ľudstva? Zdá sa, že je to malá cena.

No, pokiaľ sa AI neukáže ako obávané existenčné riziko, ktoré vymaže všetkých ľudí z existencie. Nemali by ste si za to pripisovať zásluhy. Predpokladám, že by ste tak skoro neprispeli k tomuto hroznému výsledku. Odhliadnuc od tejto katastrofálnej predpovede, možno si myslíte, že ak tvorcovia AI zarábajú na svojej generatívnej AI a zdá sa, že si užívajú zisk, mali by ste dostať kúsok koláča aj vy. Zdieľajte a zdieľajte rovnako. Tvorcovia AI by mali požiadať o povolenie skenovať akúkoľvek webovú stránku a potom tiež vyjednať cenu, ktorú majú zaplatiť za povolenie vykonať skenovanie.

Poskytnite úver tam, kde je splatný úver.

Teraz dajme sirovi Walterovi Scottovi posledné slovo: „Ach, akú zamotanú sieť utkávame. Keď prvýkrát cvičíme, aby sme klamali.“

Možno to platí, ak si myslíte, že sa klame, alebo možno neplatí, ak si myslíte, že všetko je v poriadku, úplne priame a legitímne. Prosím, veľkoryso si priznajte, že ste si to premysleli. Zaslúžiš si to.

Zdroj: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- and-ai-law/