Olenko vain tekstitiedosto?

May 23

Kysymys siitä, voiko tekoälyn avulla kirjoittaa kirjan on tavallaan turha. Mikään ei estä käyttämästä suuriin kielimalleihin perustuvia palveluita (ChatGPT, Gemini, Claude yms) kirjan kirjoittamiseen ja niin on tehtykin. Teknisenä rajoitteena on lähinnä yksittäiselle käyttäjälle tarjottavien palveluiden laskennallinen kapasiteetti: kielimallipalveluiden normaaleilla käyttäjätileillä on rajoituksensa sen suhteen, kuinka paljon ja missä ajassa laskentatehoa käyttöönsä saa. Tämän rajoituksen ympäri pääsee maksamalla tarpeeksi rahaa eli ostamalla kalliimman ja tehokkaamman tilauksen tai jakamalla tehtävän tarpeeksi pitkälle ajalle käyttäen halvempaa tilausmallia.

Tällä tavalla voi siis puristaa tekoälypalvelusta kylliksi sanoja, jotka yhdessä muodostavat esimerkiksi romaanin verran sivuja. Ongelma on, että edes huolellisella kehotteiden sorvauksella palvelut eivät pysty tekemään koherenttia kokonaisuutta. Esteeksi muodostuu kaksi asiaa: tekstin tyyli ja tekstin sisältö.

Ongelmaa kuvataan tekoälykeskustelussa käsitteellä kontekstin rapautuminen. Lyhyesti ja yksinkertaistaen kyse on siitä, että kielimalli ei “muista” tekstiä samalla tavalla kuin ihminen. Tämä on ongelma varsinkin pitkissä teksteissä. Mikäli kielimallille antaa tehtäväksi kirjoittaa näytelmä Shakespearen tyylillä, saattaa tekstin alku olla ainakin pinnallisesti samankaltaista kuin Shakespearella, mutta mitä pidemmälle tehtävässään kielimalli etenee, sitä enemmän tyyli alkaa horjua.

Ja koska kielimalli ei muista, se ei myöskään pysty tuottamaan järjellisiä juonia samalla tavalla kuin ihminen pelkästään kehotteen varassa. Henkilöt, tapahtumapaikat ja syy-seuraussuhteet alkavat mädäntyä, kadota ja ilmestyä uudelleen kuin houreunessa. Henkilöhahmot tietävät asioita, joita ne eivät voi tietää tai tekevät outoja, asiaankuulumattomia asioita.

Kielimallien ja niiden käyttämiseen tarkoitettujen palveluiden kehitys alkaa kuitenkin paikata näitä ongelmia. Perimmältään kysymys on keinoista rakentaa kontekstia kielimallille, jotta se ainakin näyttää muistavan tekstiä ja tuottaa sitä enemmän halutulla tavalla. Tämä tosin vaatii jonkin verran viitseliäisyyttä käyttäjältä.

Olen viime aikoina kokeillut Anthropicin Claude-kielimallia ja sen kyvykkyyttä tuottaa tekstiä samalla tavalla kuin minä. Olen antanut Clauden analysoitavaksi kahden kirjani käsikirjoituksen. Clauden tuottama analyysi kirjoitustavastani ei ole aivan pielessä: se kuvaa mielestäni melko hyvin kirjojeni tyyliä. Koko tyylikuvaus löytyy linkin takaa Google Docs -dokumenttina, koska kuvaus on melko pitkä.

Tästä tyylikuvauksesta olen teettänyt Claudella niin sanotun taidon (skill); tätä taitoa Clauden pitäisi siis käyttää, kun käsken sitä kirjoittamaan jotakin minun tyylilläni. Tyylitiedostolla (ja muutamalla muulla kieleen liittyvällä skill-taidolla), sen pitäisi pystyä kirjoittamaan samalla tavalla kuin minä.

Täytyy myöntää, että ajatus siitä, että oikeastaan ainoa asia, jonka voin sanoa osaavani eli kirjoittaminen on redusoitavissa lyhyeksi tyylimanuaaliksi, on hieman pelottava. Mutta pelkoa päin on kuljettava, tässäkin asiassa.

Kehotin siis Claudea kirjoittamaan tyylimäärittelyn avulla 500 sanaa pitkän kohtauksen, jossa kirjoittamieni kirjojen päähenkilö Jari Karhu on uuden työnantajan haastateltavana. Tämä oli koko kehote: en antanut ympäristöä, muita henkilöitä tai mitään muuta ohjetta. Alla on koko Clauden tuotos:

Café Charli oli kapealla kadulla kahden korttelin päässä Schumanin aukiolta, talon toisessa kerroksessa. Olin tilannut espresson ja istunut ikkunan vieressä olevaan pöytään, josta näin ulko-oven ja portaat. Pöytä ei ollut nurkassa, mutta riitti.

Mies tuli viisi minuuttia myöhässä. Hän oli ehkä kuusissakymmenissä, harmaa puku ja musta poolopaita. Lyhyt parta. Hän ei kantanut salkkua eikä puhelinta kädessään. Hän tuli pöytään, nyökkäsi ja istui vastapäätä.

– Olet Karhu.

Nyökkäsin. Mies tilasi tarjoilijalta lasin vettä ja odotti, kunnes tarjoilija oli mennyt.

– Cantor. Sano vain niin. Sait ystävältäsi minun yhteystietoni.

– Kerro mitä haluat.

Cantor avasi takkinsa napin ja katseli minua hetken.

– Yksi mies on lähdössä Helsingistä Riikaan ensi viikolla. Hän kuljettaa muistitikulla aineistoa, joka ei saa päätyä vastaanottajalle.

– Kenelle aineisto pitäisi päätyä?

– Minulle.

– Ja minulle pitäisi maksaa siitä, että nappaan miehen ja vien tikun sinulle.

Cantor nyökkäsi. Tarjoilija toi veden. Cantor ei koskenut lasiin.

– Maksu on neljäkymmentätuhatta. Puolet ennen, puolet kun aineisto on minulla.

– Kuka mies on?

– Suomalainen. Ammattisotilas, kuten sinä. Asuu nykyään Vilnassa. Tulee Riikaan junalla.

– Pitääkö hänen jäädä eloon?

Cantor kohautti olkapäitään.

– Se on sinun harkinnassasi. Minulle samantekevää, mutta isoja jälkiä ei saa jäädä. Latvia ei ole hyvä paikka sotkulle juuri nyt.

Mietin. Neljäkymmentätuhatta oli mukavaa rahaa, mutta liian halpaa siihen, mitä Cantor kuvasi. Joko hän jätti jotain kertomatta, tai työ oli helpompi kuin miltä se kuulosti. Kummassakaan tapauksessa hinta ei ollut oikea.

– Kahdeksankymmentä. Puolet ennen.

Cantor hymyili lyhyesti.

– Viisikymmentä.

Pudistin päätäni.

– Seitsemänkymmentä.

Cantor mietti hetken.

– Kuusikymmentä ja kulut päälle. Bensa, hotellit, lentoliput, kuitteja vastaan.

– Sovittu.

Cantor nousi.

– Tarkat tiedot tulevat sähköpostiin tänään illalla. Älä vastaa siihen. Anna tilinumerosi nyt.

Kirjoitin numeron lautasliinaan ja työnsin sen pöydän yli. Cantor taittoi liinan kahtia. Hänen oikean kätensä etusormi puuttui ensimmäisestä nivelestä. Hän pani liinan takkinsa sisätaskuun, nyökkäsi ja lähti.

Tarjoilija toi laskun. Cantor oli jättänyt vesilasinsa koskemattomana. Maksoin espresson käteisellä ja kävelin alas portaita.

Kadulla satoi. En ollut ottanut sateenvarjoa hotellista. Kävelin metroaseman suuntaan ja mietin, oliko Cantor oikea nimi. Veikkasin, että ei.

Tuotos ei ole huono. Tekstissä on muutamia asioita ja muotoiluja, jotka tekisin itse eri tavalla, mutta muuten se on mielestäni aivan kelvollinen pastissi. Kävisikö se minun kirjoittamastani ulkopuoliselle lukijalle? Vaikea sanoa.

Ainakin voi testata sitä, vaikuttaako teksti ihmisen kirjoittamalta. The Verge -tietotekniikkajulkaisun toimittaja Gaby Del Valle kirjoitti toukokuun lopussa Commonwealth Short Story Price -kilpailun voittaneesta novellista, jonka Granta-kirjallisuuslehti julkaisi ja jota on epäilty tekoälyn kirjoittamaksi. Del Valle testasi novellia Pangram-palvelulla, jonka avulla voi kokeilla, onko jokin teksti AI:n tuottama. Pangramin mukaan Jamir Nazirin nimissä ilmestynyt novelli on 100-prosenttisesti AI:n tuottama.

Clauden tekemän Jari Karhu -tekstin Pangram tuomitsi 52-prosenttisesti AI:n tekemäksi. Varmuuden vuoksi testasin palvelulla aiemmin kirjoittamastani kirjasta yhden luvun, jonka palvelu määritteli 100% ihmisen tekemäksi, samoin kuin pätkän Ilkka Remeksen tuoreimmasta kirjasta. Viime vuonna Storytelin julkaisemasta ja täysin tekoälyllä tehdystä New Horizon -kirjasta napatun luvun Pangram kertoi olevan 50-prosenttisesti tekoälyn tekemää.

Mitä kokeilustani siis voisi päätellä? Ainakin sen, että huolellisella kontekstoinnillakin jopa lyhyt fiktion pätkä kuulostaa edelleen hieman väärältä ja vaikuttaa testipalvelussa epäilyttävän paljon tekoälyn tuottamalta. Mutta se ei ole niin selkeästi tekoälyn tekemä kuin arvostetun kilpailun voittanut ja kirjallisuuslehden julkaisema novelli, joka näyttäisi olevan tuotettu ilman tarkkoja tyylimäärittelyjä tai edes huolellista editointia.

On aivan mahdollista, että idea hyvän kirjan tekemisestä kielimallin avulla on mahdoton, kuten kirjailija Ian Leslie vuonna 2023 kirjoitti. Silti sanoisin, että kielimallien kehitystä kannattaa pitää silmällä, kirjailijoidenkin.

Kari Haakana

Olenko vain tekstitiedosto?

Entä jos kirjailija tietää, missä kohtaa lukija luovuttaa?

Kielimallit ja kirjallisuus, seuraava erä