AI mikä kielimalli on paras juuri nyt?

Parilla edellisellä kerralla (osa 1, osa 2) kirjoitin AI-agenteista ja mitä ne ovat ja mitä ne eivät ole, ja miksi ketään kiinnostaisi.

Näin vuoden lopussa käytän palstatilani analysoimalla, missä kielimallikisassa mennään juuri nyt, ja vuoden viimeisessä kirjeessä ensi viikolla pyyhin pölyt kristallipallostani ja luon AI-katsauksen ensi vuoteen.

Sitten asiaan. Vielä pari vuotta sitten tekoälykeskustelu oli simppeliä: OpenAI:n ChatGPT oli ykkönen ja muut rimpuilivat perässä. ChatGPT:n lanseeraus vuonna 2022 oli se kuuluisa "iPhone-hetki", mistä johtuu, että ChatGPT:tä tupataan edelleen käyttämään yleisnimenä suurista kielimalleista - ja tekoälystä yleensäkin - puhuttaessa.

Kieltämättä ChatGPT nosti riman niin korkealle, että kilpailijoiden oli pakko reagoida. Ja sen ne myös tekivät.

Nyt kilpailutilanne onkin jo aivan toinen ja muuttuu koko ajan. Tämän takia työkaluja ei kannata joka toinen viikko vaihtaa, vaikka millainen superversio ulos putkahtaisi.

Kehityksestä kertoo jotain, että pelkästään marraskuun puolivälistä joulukuun alkuun neljä kärkitoimijaa julkaisi uuden lippulaivamallinsa. Se on sellaista haipakkaa, että moista ei ole ennen nähty.

Gemini 3 porskuttaa kärjessä

Uusimmista käänteistä kannattaa noteerata ainakin Googlen Gemini 3, jota yleisesti pidetään parhaana kielimallina juuri nyt. "Parhautta" mitataan monilla tavoilla, mutta peruskäyttäjälle se näkyy esimerkiksi kykynä analysoida videoita, kuvia ja tekstiä yhdessä – esimerkiksi "katso tämä video ja kerro, mistä siinä puhutaan".

Kun kielimalleja putiikista riippumatta on pyytänyt tekemään kuvia, joissa on tekstiä, on lopputulos on ollut jotain naurettavan ja säälittävän välimaastossa. Ei ole enää.

Käytän itse joka päivä ChatGPT:tä, Geminiä ja Claudea iloisesti ristiin, ja jos nyt pitäisi valita näistä yksi, kyllä se olisi Gemini.

Aiemmin viisari olisi ilman muuta osoittanut ChatGPT:hen, joka on eräänlainen kielimallien sveitsiläinen linkkari. Kuin varkain Geministä on tullut vielä sveitsiläisempi ja linkkarimpi (huomatkaa toimittajataustani).

Gemini 3 itse asiassa aiheutti OpenAI:n leirissä "Code red" -tason hälytyksen, jonka voi vapaasti suomentaa "Kakka housussa" -reaktioksi. Eli että jotain tarttee tehdä ja äkkiä.

Siitä jostain esimakua antoi samoihin aikoihin tapahtunut GPT 5.2 -version julkistus. Se on parasta Open AI -seppälää tähän saakka, ja jälleen selkeä parannus etenkin konttorirottien käyttöön: taulukot, esitykset, pitkien dokumenttien louhiminen yms. vastaavat askareet onnistuvat taas astetta paremmin.

Anthropicin Claude, josta on menossa versio 4.5, jää usein kahden edellä mainitun varjoon, mutta se on todella soiva peli. Koodaarit nukkuvatkin Claude tyynyn alla, mutta se taipuu vallan mainiosti muun muassa sisällöntuotantoon.

Esimerkiksi minulla Claude on kiistaton kunkku etenkin pitkissä ja veivaamista vaatimissa sisällöissä kuten koulutusmateriaalien rakentamisessa.

Siinä kolmen kärki juuri nyt.

Haastajat

Elon Muskin Grok on noussut jossain määrin yllättäen monissa vertailuissa kärkeen. Grokin selkeä etu on se, että on rakennettu tiukasti X-alustaan (siis Twitter), mikä antaa sille reaaliaikaisen pääsyn uutisvirtaan.

Tietoturvasta ja moderoinnista sen verran: jos vihapuhegeneraattoria olet vailla, Grok on valintasi!

Kiinalaisilla DeepSeekillä ja Qwenillä riittää markkinaa omassa pitäjässä, mutta kyllä niitä lännessäkin käytetään. Niiden etu on vähemmän yllättäen edullinen hintapolitiikka.

Metan Llama on ollut avoimen lähdekoodin ykkönen, mutta nyt huhutaan, että seuraava malli julkaistaan suljettuna. Käytännössä tämä tarkoittaa, että etenkin pienemmät toimijat joutuvat valinnan eteen: joko maksat isoille amerikkalaisille (OpenAI, Google, Anthropic) tai käytät kiinalaisia avoimia malleja.

Jos länsimainen ilmaisvaihtoehto katoaa, kiinalaiset täyttävät tyhjiön. Itse asiassa Alibaban Qwen on jo ohittanut Llaman maailman ladatuimpana avoimena mallina.

Microsoft Copilot ei ole varsinaisesti oma malli vaan tuote, joka käyttää taustalla ChatGPT:tä. Se on integroitu Wordiin, Exceliin ja muihin Microsoft-sovelluksiin.

Siksi Copilot antaa helposti väärän kuvan siitä, mihin tekoäly pystyy ja mihin ei pysty, ja vaatii käytännössä rinnalleen jonkun toisen työkalun.

So?

Jos olet tavallinen käyttäjä, hyvä uutinen on tämä: kilpailu on kovempaa kuin koskaan, ja se näkyy sinulle parempana laatuna ja maltillisina hintoina.

Ja kuten sanoin, ei kannata juosta päivitysten perässä vaan luottaa siihen työkaluun, jota jo käytät. Jos rako vaikkapa ChatGPT:n ja Geminin välillä alkaa kasvaa liian isoksi jomman kumman hyväksi, minä kyllä infoan asiasta.

Suurin ero mallien välillä näkyy erityisissä käyttökohteissa (koodauksessa, videoanalyysissa, tieteellisessä työssä jne.) ja silloin mallilla on enemmän väliä. Plus tässä kohtaa työkalupakissa on paljon muutakin kuin vain muutama iso kielimalli.

Peruskäytössä (kirjoittaminen, ideointi, tiedonhaku) erot ovat pieniä. Tärkeintä on, että käytät jotain näistä ja käytät sitä joka päivä fiksummin. Tässä pystyn auttamaan, jos on tarvis.

Tsemppiä viikkoon!

Arttu

Takaisin
cross