
Viime viikolla kirjoitin tekoälyuupumuksesta, ja miksi se on ihan oikea ja vakavasti otettava ilmiö. Nyt pähkäilen, missä määrin tekoälyn tuottaman sisällön objektiivisuuteen voidaan luottaa.
Aihe putosi syliin tekoälyteemaisesta lounaskeskustelusta, kun ystäväni kertoi käyttävänsä tekoälyä muun muassa sen takia, että se on objektiivinen. En alkanut inttää vastaan, koska toisaalta ystävä oli ihan oikeassa. Ja toisaalta sitten taas…
Kuvittele, että palkkaatte yritykseen konsultin, joka on lukenut kaiken maailman tekstin (kyseessä ei ole Paavo Väyrynen, jos joku jo ehti säikähtää).
Siihen kaikkeen mahtuu miljoonia niteitä huippulaadukasta ja monipuolista aineistoa, mutta myös nettikommentteja, viiden pennin bisneskirjoja, jenkkifirmojen sisäisiä viestejä ynnä muuta epäkuranttia scheibaa.
Eikä konsultti kullan kiilto silmissään ole vaivautunut valikoimaan, mitkä lähteet ovat legittejä ja mitkä eivät.
Onko näin koulutettu kone siis objektiivinen tietolähde? Ei ole, ei ainakaan ilman kunnollista ohjeistamista (mistä enemmän lopussa).
Kuten todettua, kielimallit koulutetaan massiivisilla määrillä internetistä kaavittua (ja pöllittyä) dataa. Aineisto ei suinkaan ole neutraalia vaan täynnä historiallisia vääristymiä, kiistanalaisia näkökulmia ja mielipiteitä, joissa menevät puurot ja vellit sekaisin.
Länsimaiset mallit on koulutettu pääosin länsimaisella datalla, joten ne priorisoivat länsimaisia normeja. Sairaanhoitaja assosioidaan naiseen, insinööri mieheen – ei sen takia, että malli olisi tietoisesti epäsukupuolineutraali (onkohan tuo edes sana?), vaan koska data on sellaista.
Sitten ovat vielä teknologiayhtiöiden omat arvomaailmat, jotka heijastavat kehittäjiensä poliittisia näkemyksiä. ChatGPT ei siis ole vain OpenAI:n tuote – se on myös heidän maailmankuvansa tuote. Tästä ei hirveästi huudella, mutta näin ovat marjat.
Kielimalleja hienosäädetään ihmisarviointien perusteella: oikeat ihmiset pisteyttävät vastauksia, ja malli oppii tuottamaan enemmän sitä, mistä se palkitaan.
Kuulostaa järkevältä – ja sinänsä onkin, mutta pienellä sivuvaikutustwistillä: malli oppii myötäilemään ja vahvistamaan käyttäjän mielipiteitä ja oletuksia, vaikka ne olisivat faktojen puolesta kuinka hatelikossa.
Tiedätte nämä “Loistavaa, Arttu!”, “Erinomainen oivallus, Arttu!”, “Olet komea ikäiseksesi, Arttu!” (ok, tuo viimeinen oli omaa hallusinointiani) yms. kehut, jotka ovat alussa hauskoja ja imarteleviakin, mutta pian huomaat, että täydellinen kriittisyyden puute vääjäämättä vääristää lopputulemaa.
Hallusinaatiot eli AI:n tuottama uskottava mutta keksitty tieto on tässä vaiheessa jo tuttu käsite. Eikä siinä kaikki: mallit voivat keksiä myös olemattomia tutkimuksia, tilastoja ja viittauksia – täydellisine tekijätietoineen – jotka näyttävät aivan autenttiseilta.
Tässä kohtaa on tosin todettava, että käytän 3-4 tekoälytyökalua päivittäin, ja en ole vuosiin törmännyt tilanteeseen, jossa kielimalli olisi päästellyt aivan omiaan - ainakaan suuremmassa mittakaavassa.
Tilanne on siis hallusinoinnin osalta parempi kuin vaikka vuosi sitten ja paranee koko ajan.
Koska edellinen, eihän näitä työkaluja uskalla käyttää mihinkään? Uskaltaa kyllä, mutta tämä kaikki on hyvä ymmärtää. Jo pelkästään siksi, että se vaikuttaa siihen, miten kielimalleja pitää käyttää.
Esimerkiksi:
Tämän päivän kielimallit ovat huikean hyödyllisiä todella monessa. Mutta ne ovat edelleen tilastollisia kielenkäyttäjiä ja nojaavat opetusaineistoon niin hyvässä kuin pahassa.
Sen kun pidät mielessä, ajoja vaan!