
Šta voli da čita ChatGPT?
Profesor Dejvid Beman sa Univerziteta Berkli u Kaliforniji nedavno je pokušao da izvrši kompjutersku analizu romana „Gordost i predrasude“. Ovaj informatičar, jedan od nekolicine naučnika čiji je zadatak da nauče kompjutere da razmišljaju o umetnosti, planira da stvori nešto što naziva „algoritamskim mernim instrumentima za kulturu“. Da bi to postigao, potrebno je da iz što većeg broja dela klasične književnosti izvuče podatke koji se odnose na razne elemente poput, recimo, karaktera likova, njihovih međusobnih odnosa i slično. U slučaju poznatog romana Džejn Ostin, Beman je rešio da počne od pitanja na koje bi lako odgovorila i jedva pismena osoba: Da li su Lizi i Džejn najbolje prijateljice ili samo sestre?
Prvo je, šale radi, odlučio da pitanje postavi veštački inteligentnom softveru ChatGPT. Šta bi se desilo kada bi u program uneo 4.000 reči iz „Gordosti i predrasuda“ i postavo jednostavno pitanje: Kakvi su odnosi između likova?
Na njegovo iznenađenje, upalilo je. Verzija GPT-4 popularnog četbota kompanije OpenAI je sa zapanjujućom preciznošću opisala porodično stablo porodice Benet. Delovalo je skoro kao da je unapred proučila roman. „Odgovor je bio toliko dobar da me je pomalo uznemirio“, kaže Beman. „Ili mu je zadatak već bio dobro poznat, ili je ’Gordost i predrasude’ video milion puta na internetu i zbog toga odlično poznaje knjigu.“
Problem je u tome što mi ne možemo da saznamo kako je GPT-4 znao ono što je znao. Unutrašnji procesi velikih jezičkih modela, bez kojih četbot ne bi mogao da funkcioniše, predstavljaju crnu kutiju; setovi podataka na kojima se „obučavaju“ toliko su važni za njihovo funkcionisanje da ih tvorci softvera smatraju poslovnom tajnom. Zato su Beman i njegov tim istraživača odlučili da postanu „arheolozi podataka“. Da bi otkrili šta je GPT-4 sve pročitao, počeli su da ispituju njegovo znanje o različitim knjigama, kao da se radi o srednjoškolcu, a zatim bi mu dali ocenu za svaku od njih. Što je ocena bila viša, to je veća bila verovatnoća da je ta knjiga bila deo botove obuke – ne samo sažvakana da bi bot usvojio novi jezik, već zapamćena.
Bemanov tim je krajem aprila ove godine objavio rezultate svog istraživanja. Kao što se i moglo očekivati, najveći deo četbotove lektire predstavljaju klasici: od „Mobi Dika“ i „Skerletnog slova“ do „Plodova gneva“ i, naravno, „Gordosti i predrasuda“. Tu je i gomila popularnih romana, od onih o Hariju Poteru i Šerloku Holmsu do „Da Vinčijevog koda“ i „Pedeset nijansi sive“. Ali ono što ih je naročito iznenadilo bila je količina naslova fantastike i naučne fantastike na kojima se temelji botovo poznavanje književnosti. Taj spisak je, u najmanju ruku, impresivan: Dž. R. R. Tolkin, Rej Bredberi, Vilijam Gibson, Orson Skot Kard, Filip K. Dik, Margaret Atvud, „Igra prestola“, čak i „Autostoperski vodič kroz galaksiju“.
Pitanje sadržaja ovog spiska literature nije isključivo akademsko. Botovi nisu inteligentni. Oni ne razumeju svet na način na koji to čine ljudi. Ali jedan od najboljih načina da upoznate nekoga – ili, u ovom slučaju, nešto – jeste da proučite njegovu policu sa knjigama. A na osnovu onoga što čitamo u Bemanovoj studiji, stiče se utisak da je GPT-4 jedan veliki štreber.
Da li je važno šta veštačka inteligencija čita?
Baza podataka GPT-4 je ogromna. Nagađa se da se sastoji od jednog petabajta podataka. Ne postoji, dakle, jedan konkretan roman – čak ni pedeset njih – koji bi ovog bota naučio da staranje o ukletom hotelu nije lek za kreativnu blokadu („Isijavanje“ je na 49. mestu), niti da je strah „ubica uma“ („Dini“ pripada 13. pozicija). Ostrva fikcije plivaju u okeanu podataka. „Set podataka koji se koristi u predobuci botova sastoji se od ogromnog broja tekstova“, kaže Ted Andervud, profesor informatičkih nauka na Univerzitetu Ilinoisa. „Nisam siguran koliko sklonost nekom žanru može da utiče na ponašanje rezultirajućih jezičkih modela.“
Sasvim je moguće da je prisustvo pomenutih naslova u digitalnoj duši GPT-4 jednostavno odraz njihove sveprisutnosti na internetu. Internet je, naposletku, izvor svih podataka kojima se GPT-4 „hrani“. Kada je Bemanov tim u svoje testove uključio knjige iz javnog domena, rezultati su bili još viši – „Alisa u Zemlji čuda“ se našla na prvom mestu spiska sa zapanjujućim rezultatom od 98%. A pritom je dobro poznato da i internet i kompanije koje prave botove favorizuju sredovečne bele heteroseksualce i naučnu fantastiku koju ovi vole. Bemanov tim je otkrio da su knjige za koje su veliki jezički modeli dobili visoke ocene zaista najzastupljenije na internetu. I to ima smisla. Četbotovi nisu sami izabrali svoje „omiljene“ knjige. Izabrala ih je internet kultura.
Pa ipak, nije teško zamisliti scenario u kome bi naučnofantastična literatura mogla da ima podjednako loš uticaj na botove kao i svi ostali podaci na kojima se obučavaju, izazivajući istu vrstu neočekivanih predrasuda koje se redovno pojavljuju u njihovim odgovorima na pitanja korisnika. Botovi se ponekad služe rasističkim rečnikom. Ponekad neistinite informacije predstavljaju kao istinu, jer se laži na internetu veoma lako šire i umnožavaju. Sve ovo su dobro poznati rizici, a takođe i jedan od razloga zbog kojih je Sem Altman, generalni direktor OpenAI, nedavno od američkog Kongresa zahtevao da se uvede zakonska regulativa u oblast u kojoj posluje njegova kompanija.
„Izvori na kojima se veliki jezički modeli obučavaju imaće presudan uticaj na njihovo ponašanje i vrednosti koje će zastupati“, kaže Beman. Ukoliko budu čitali isključivo knjige Kormaka Makartija, verovatno će imati sumoran pogled na svet i surov rečnik, smatra on. A šta ako proguta svu raspoloživu literaturu o mračnim, distopijskim svetovima, ispunjenim Igrama gladi, Ceremonijama odabira i Belim hodačima? „Kako će ovaj žanr uticati na ponašanje jezičkih modela u situacijama nevezanim za književnost i pripovedanje?“, pita se Beman. „Mislim da još uvek nemamo odgovor na to pitanje.“
Kao veliki ljubitelj naučne fantastike, pokušaću da mu odgovorim. Mislim da je velika zastupljenost tih knjiga u bazi podataka GPT-4 dobra stvar. Mi ovde ne govorimo o pričama nadobudnih polaznika radionica za kreativno pisanje u Ajovi, krcate vanbračnim ljubavnim poniženjima sredovečnih intelektualaca. Žanrovska književnost (naučna fantastika, trileri, ljubići, horori i sl.) uopšteno govoreći, neuporedivo je interesantnija od ostatka književnosti, delom zbog toga što se u tim knjigama nešto zaista dešava. Spisak lektire GPT-4 je prava borhesovska lista epizodnih veza, klifhengera, komplikacija u trećem činu i likova koji se dižu na oružje protiv mora nedaća (i kitova).
I više od toga: naučna fantastika, fantastika i horor otvaraju prostor za promišljanje o idejama i mogućnostima. „Dina“ govori o religiji i politici revolucije. „Gospodar prstenova“ suprotstavlja pastoralizam industrijalizaciji. „Sluškinjina priča“ nas uči da seksizam i fašizam uvek idu podruku. Mogao bih da nabrajam do sutra. Nemam apsolutno ništa protiv veštačke inteligencije sa sintaksičkim pogledom na svet, utemeljenim na hipersvemiru i peščanim crvima – ili bar veštačke inteligencije koja je pročitala sve priče o tome kako veštačke inteligencije mogu da polude. Pored toga, ne bih imao ništa protiv kada bi joj se malo proširili vidici. Zašto joj, na primer, ne bismo ponudili knjige Oktavije Batler, Čarli Džejn Anders, Lavija Tidara, Semjuela Dilejnija, Čajne Mjevila... Vreme je da proširimo univerzum mogućih univerzuma.
Knjige koje čitamo menjaju način na koji razmišljamo o svetu. Ali četbotovi ne razmišljaju ni o čemu. Oni uspostavljaju statističke i vektorske veze između reči. Koga briga da li su te reči naučnofantastične? „Ono što se bez ikakve sumnje menja jesu asocijacije između koncepata koje smatraju mogućim, ili jakim, ili sistematičnim, ili periodičnim“, kaže Eli Pavlik, profesorka informatike sa Univerziteta Braun koja radi kao istraživač za Google AI. „Možda bi trebalo da se zapitamo kakvo je njihovo viđenje sveta. Uprošćeno gledano, to su samo veze između reči i koncepata, ali priroda tih veza ipak zavisi od materijala koji čitaju.“
Sve dok OpenAI i drugi tvorci četbotova ne upoznaju javnost sa sadržajem setova podataka koje koriste u obuci svojih jezičkih modela, nećemo znati u kojoj meri pročitana književna dela utiču na rezultate njihovog rada. „Ako imate model u koji je uneta ogromna količina naučne fantastike, i imate poseban model koji ste obučavali na materijalu koji izlazi iz radionice za kreativno pisanje u Ajovi“, kaže Beman, „mogli biste da im istovremeno postavite zadatak tipa: Daj mi deset prioriteta za ovaj sastanak.“ Moguće je da će bot koji je čitao isključivo pisce iz Ajove predložiti da svi učesnici sastanka opišu svoje komplikovane odnose sa roditeljima, a da će onaj drugi predložiti da se podelite na hogvortske kuće.
Ne zaboravimo, ipak, da Bemanova prvobitna namera nije bila da se bavi odgovaranjem na pitanja o autorskim pravima i čitalačkom ukusu veštačke inteligencije. On je samo želeo da zna može li četbot da mu odgovori na pitanje o konkretnom romanu. Naučnik objašnjava da mu je u međuvremenu postalo jasno da se u trenutku kada mu je GPT-4 dao odgovor o „Gordosti i predrasudama“ pomalo zaneo. Na trenutak je pomislio da pred sobom ima potencijalnog književnog analitičara. Kaže i da sada shvata da se botovi zapravo ponašaju kao studenti kojima je zadato da do sutra napišu deset strana dug esej o „Džejn Ejr“. Najveći deo tih eseja obično čine dugi citati iz knjige. I studenti i botovi samo gomilaju reči, bez želje da pruže bilo kakvu vrstu uvida.
Beman predlaže da digitalni humanisti koji koriste četbotove za sada ograniče svoju kulturnu analizu na manje poznata književna dela, koja se verovatno ne nalaze u setovima podataka za obuku. Pokušajte da otkrijete šta bot misli o „Knjizi Novog sunca“ Džina Vulfa, ili o romanu „Trava“ Šeri Teper. Tako ćemo iz onoga što botovi kažu saznati nešto više o tim knjigama, jer će im oni prići neopterećeni postojećim znanjem i predrasudama. Od koristi će biti i to što će botovi na taj način biti izloženi širim i raznovrsnijim setovima podataka. Jedino tako će dobiti priliku da kažu nešto novo i interesantno o knjigama koje čitamo – a i o svemu drugom.
Autor: Adam Rodžers
Izvor: businessinsider.com
Prevod: Jelena Tanasković