
Zamislite milijune ljudi koji tiho postavljaju pitanja istom nevidljivom savjetniku o tome što da rade s partnerima, glasovima, djecom i karijerama. Taj savjetnik odgovara trenutno, zvuči samopouzdano i nikad se ne umara. Milijarde tih odgovora sada dolaze od AI chatbotova. Oni se uvlače u svakodnevne odluke, preoblikuju ono što se čini normalnim i utječu na to kako govorimo o dobru i zlu, često bez da itko to primijeti ili se složi tko je postavio pravila.
Milijarde pitanja svakodnevno pristižu AI chatbotovima, od zadaća do poruka o prekidu i karjernih dilema, a ti odgovori tiho oblikuju ono što ljudi vide kao prihvatljivo, štetno, pošteno ili nepošteno. 2023. godine Pew Research Center izvijestio je da je oko 23 posto odraslih Amerikanaca koristilo chatbot poput ChatGPT-a, a mnogi kažu da se oslanjaju na AI alate za informacije i podršku u odlučivanju u svakodnevnom životu. Kako chatbotovi postaju prvi odgovorni za moralna pitanja, oni ne samo odražavaju naše vrijednosti, već aktivno prepisuju granice između dobra i zla, često na načine koji su nevidljivi i neravnomjerno upravljani.
Ključni zaključci
- AI chatbotovi nemaju moral, ipak vrše moralni utjecaj jer tvrtke ugrađuju vrijednosti, pravila i kalkulacije rizika u svoje sustave obuke i sigurnosti.
- Ovi sustavi kodiraju specifične poglede na štetu, prava i prihvatljiv govor, što može biti u sukobu između kultura i pravnih režima te se može mijenjati kroz vrijeme bez jasnog javnog doprinosa.
- Korisnici sve više tretiraju chatbotove kao neutralne savjetnike, iako istraživanja pokazuju političke, kulturne i komercijalne pristranosti u njihovim odgovorima, osobito kod osjetljivih tema.
- Vlade, tijela za standarde i grupe civilnog društva žure definirati pouzdanu AI, ali pojedinci i dalje trebaju praktične strategije kada postavljaju chatbotovima moralna ili životna pitanja.
Što stvarno znači reći da chatbotovi prepisuju dobro i zlo
Što je AI moralnost u ovom kontekstu?
AI moralnost, u ovom kontekstu, skup je vrijednosti, pravila i pragova rizika koji usmjeravaju kako AI chatbot odgovara na pitanja koja uključuju štetu, pravednost, prava ili dužnosti. To ne znači da stroj ima savjest, već da su ljudski sudovi o dobru i zlu operacionalizirani kroz podatke za obuku, sigurnosne politike i tehnička ograničenja koja oblikuju koji se rezultati potiču, obeshrabruju ili blokiraju.
Na konceptualnoj razini, filozofi poput Nicka Bostroma s Oxforda i istraživači iz Instituta za budućnost čovječanstva govore o usklađenosti kao o problemu činjenja naprednih AI sustava da djeluju na načine koji se slažu s ljudskim vrijednostima. Za chatbotove, usklađenost je mnogo svakidašnja i neposredna, jer se pojavljuje kada sustav odbije dati upute za samoozljeđivanje ili kada upozori da bi politički odgovor mogao biti pristran. Te granice su specifični moralni i pravni sudovi koje su programeri, pravnici i politički timovi napisali u smjernicama mnogo prije nego što je bilo koji korisnik postavio pitanje. Ono što mnogi podcjenjuju jest da se te granice razlikuju između tvrtki i mogu se tiho mijenjati kada se model ažurira ili ponovno trenira.
Na tehničkoj razini, veliki jezični modeli treniraju se na ogromnim tekstualnim korpusima, a zatim se precizniji kroz tehnike poput pojačavajućeg učenja iz ljudske povratne informacije, često skraćeno RLHF. U RLHF-u, ljudski recenzenti ocjenjuju AI odgovore prema kriterijima poput korisnosti, bezškodnosti i iskrenosti, a te ocjene treniraju model prema nekim ponašanjima, a od drugih ga odvode. Ovaj proces uopće nije neutralan, on utiskuje određenu interpretaciju onoga što se smatra štetnim ili poštovanim u obrasce koje model uči. To je jedan razlog zašto dva različita chatbota mogu odgovoriti na isto moralno pitanje u suptilno različitim tonovima ili sudovima, čak i ako oba tvrde da su neutralni.
Industrijske inicijative poput Partnership on AI i tijela za standarde kao što je IEEE opisuju te projektne odluke kao dio “etički usklađenog dizajna” i “pouzdane AI”. Na primjer, IEEE-jevo vodstvo za etički usklađen dizajn i OECD AI principi naglašavaju ljudska prava, pravednost i transparentnost kao temelje AI sustava. Kada programeri implementiraju te ideje u konverzacijsku AI, donose konkretne izbore o tome treba li prioritet dati smanjenju štete, autonomiji korisnika ili usklađenosti sa zakonom kada se vrijednosti sukobljavaju. Ti dizajnerski izbori polako utječu na korisnikov vlastiti rječnik o dobru i zlu, jer chatbotova objašnjenja dolaze pakirana kao miran, autoritativan govor.
Na društvenoj razini, Pew Research i Edelmanov Trust Barometer otkrili su da se veliki dijelovi javnosti brinu o AI utjecaju na poslove i dezinformacije, ipak se mnogi ljudi još uvijek oslanjaju na tražilice i digitalne asistente kao izvore informacija. Kada chatbot dosljedno gura korisnike prema deeskalaciji u svađama ili izdaje čvrsta upozorenja o govoru mržnje, ti gurovi postaju dio načina na koji ljudi vide moralnu kartu online svijeta. S vremenom se razlika između političke odluke i moralnih činjenica zamućuje, osobito za mlađe korisnike koji odrastaju tretirajući AI kao normalnog konverzacijskog partnera.
Interpretacija: Reći da AI chatbotovi prepisuju dobro i zlo ne znači da izmišljaju potpuno nove moralnosti preko noći. To znači da se distribucija i praktična provedba moralnih granica pomiče od obitelji, učitelja i zajednica u algoritamske usluge upravljane mješavinom korporativnih politika i nastajućih propisa. Ta promjena postavlja pitanja o tome čije su vrijednosti kodirane, kako se ažuriraju i koliko autonomije korisnici zadržavaju kada najlakši odgovor uvijek stiže u roku od nekoliko sekundi od stroja.
Unutar stroja: Kako chatbotovi uče moralne granice
Od sirovog teksta do vrijednosno filtriranog razgovora
Da bismo razumjeli kako chatbotovi oblikuju ideje o dobru i zlu, pomaže kratko pogledati kako su izgrađeni. Sustavi od tvrtki poput OpenAI, Google DeepMind, Anthropic i Meta počinju od općenamjenskih velikih jezičnih modela treniranih na velikim prikupljenim skupovima podataka koji uključuju knjige, web stranice, repozitorije koda i sadržaj koji generiraju korisnici. Ova sirova faza obuke uglavnom se odnosi na predviđanje sljedeće riječi u nizu, a ne na istinu ili moral. Proizvodi model koji je vrlo dobar u oponašanju obrazaca jezika, ali koji bi mogao slobodno generirati uvredljiv, nesiguran ili obmanjujući tekst ako se ostavi bez ograničenja.
Druga faza uvodi eksplicitne ljudske vrijednosti kroz procese poput RLHF-a i ugađanja politike. OpenAI je opisao ovu metodu u tehničkim blog postovima, objašnjavajući da ljudski anotatori uspoređuju više kandidatskih odgovora na poticaje i rangiraju ih, zatim ti rangovi treniraju model nagrade koji usmjerava osnovni model prema željenim ponašanjima. Anthropicov pristup “ustavne AI”, dokumentiran u radu iz 2022., koristi pisani “ustav” principa, kao što je izbjegavanje promicanja nezakonite aktivnosti i poštovanje ljudskih prava, za automatsko generiranje kritika i revizija rezultata modela tijekom obuke. U oba slučaja, programeri definiraju što sigurnost, poštovanje i smanjenje štete znače u praksi.
Industrijski kodeksi poput ACM kodeksa etike i IEEE dokumenta o etički usklađenom dizajnu pozivaju programere da razmotre pravednost, nediskriminaciju i javno dobro pri dizajniranju AI sustava. Mnoge velike tvrtke imaju interne odgovorne AI timove koji prevode te široke težnje u specifične sadržajne politike, kao što su pravila koja zabranjuju pružanje detaljnih uputa o samoozljeđivanju, terorizmu ili ciljanom uznemiravanju. Ta se pravila provode kroz kombinaciju klasifikacijskih modela koji otkrivaju zabranjeni sadržaj i mehanizama pojačavanja koji kažnjavaju nesigurne rezultate tijekom finog ugađanja. Jedna stvar koja postaje jasna u praksi jest da tehnički izbori, poput osjetljivosti klasifikatora toksičnosti, izravno utječu na to koja gledišta se čine “moralno prihvatljivima” korisnicima.
Postoji i snažna upravljačka razina oblikovana regulatorima, tijelima za standarde i globalnim organizacijama. OECD AI principi, koje je usvojilo desetke zemalja, ocrtavaju zahtjeve kao što su vrijednosti usmjerene na čovjeka i robusnost, te su utjecali na nacionalne AI strategije. Zakon EU-a o AI-u, koji se očekuje da potpuno stupi na snagu nakon 2024., klasificira neke AI sustave kao visokorizične i nameće zahtjeve transparentnosti i nadzora, uključujući određene konverzacijske AI koji mogu utjecati na političke procese. UNESCO-va preporuka o etici umjetne inteligencije, koju podržavaju gotovo sve države članice, naglašava ljudska prava, raznolikost i održivost okoliša kao temeljna uporišta za implementaciju AI-a.
Evaluacije i revizije pružaju povratne petlje o tome koliko dobro se te moralne namjere drže u stvarnosti. Istraživački timovi na Stanfordu, Carnegie Mellonu i drugim sveučilištima testirali su glavne modele na političku pristranost i kulturno naginjanje. Na primjer, neke studije objavljene 2023. otkrile su da vodeći jezični modeli imaju tendenciju proizvodnje odgovora više usklađenih s liberalnim ili centrističkim pozicijama u američkom političkom spektru kada su pitani o političkim pitanjima. Druga istraživanja dokumentiraju koliko često modeli odbijaju odgovoriti na pitanja označena kao štetna ili nezakonita, otkrivajući koliko su striktni sadržajni filteri. Ovi empirijski nalazi pokazuju da usklađenost nije riješen problem i da kodirane moralne granice još uvijek mogu naginjati u određenim ideološkim smjerovima unatoč tvrdnjama o neutralnosti.
Stručno mišljenje: “Kada pažljivo pogledate RLHF i ugađanje politike, shvaćate da su ti sustavi manje poput ogledala, a više poput uređenih udžbenika. Ne vidite kakav je svijet, već vidite kako je nekoliko timova odlučilo da bi svijet trebao izgledati”, kaže istraživač povezan sa Stanfordovim Institutom za umjetnu inteligenciju usmjerenu na čovjeka, sažimajući zabrinutost koju dijeli mnogo etičara.
Sedam načina kako chatbotovi tiho oblikuju svakodnevnu moralnost
Outsourcing isprika i emocionalnog rada
Evo sedam načina kako AI chatbotovi mijenjaju način na koji razmišljamo o dobru i zlu u svakodnevnom životu. Jedan od najjasnijih je outsourcing isprika i emocionalnog rada. Studenti, profesionalci, pa čak i politički djelatnici koriste chatbotove za pisanje e-mailova s isprikama, bilješki sućuti i poruka o prekidu. Generirani jezik može biti elokventan i pažljiv, često uglađeniji od pošiljateljevog prirodnog izražavanja. To postavlja pitanje leži li moralna odgovornost u tome da imamo prave osjećaje ili u tome da proizvodimo prave riječi, te je li iskrenost podorvan kada se emocionalni rad delegira.
Po mom iskustvu, ljudi često racionaliziraju ovaj outsourcing govoreći da su osjećaji još uvijek njihovi, a chatbot im samo pomaže da te osjećaje jasnije izraze. Ipak, granica između pomoći i zamjene može se brzo zamutiti. Kada chatbot predlaže moralni okvir isprike, kao što je naglašavanje učenja i osobnog rasta, on također suptilno uokviruje što se smatra dovoljnim moralnim odgovorom. S vremenom, ako se mnogi ljudi oslanjaju na slične AI alate, norme o tome kako izgleda “dobra” isprika mogu se uskladiti oko stila koji ti sustavi proizvode, čak i kroz različite kulture i dobne skupine
