Tehisintellekti ja suurte keelemudelite (LLM) võidukäik on viimastel aastatel muutnud radikaalselt seda, kuidas me tehnoloogiaga suhtleme. Alates ChatGPT ja Claude’i ilmumisest on miljonid inimesed katsetanud vestlusrobotite võimekust kirjutada koodi, luua luuletusi või koostada äriplaane. Kuid eestlaste jaoks on selle tehnoloogilise revolutsiooni keskmes üks põletav ja kriitiline küsimus: kui hästi mõistab see “tark masin” tegelikult meie emakeelt? Kas tegemist on vaid inglise keele kohmaka otsetõlkega või suudab tehisaru tabada ka eesti keele sügavamaid grammatilisi nüansse ja kultuurilist konteksti? Keeletehnoloogia eksperdid ja analüütikud on sellele küsimusele otsinud vastust, testides erinevaid mudeleid piirsituatsioonides, ja tulemused on ühtaegu nii muljetavaldavad kui ka hoiatavad.
Suured keelemudelid ja “väikese keele” väljakutse
Selleks, et mõista AI võimekust eesti keeles, tuleb esmalt vaadata, kuidas need süsteemid õpivad. Suured keelemudelid, nagu GPT-4 või Google Gemini, on treenitud tohututel tekstiandmetel, mis on kogutud internetiavarustest. Siin peitubki eesti keele jaoks esimene ja suurim takistus. Globaalses mastaabis on eesti keel niinimetatud madala ressursiga keel (low-resource language).
Kui inglise keel moodustab treeningandmetest sageli üle 50% või isegi rohkem, siis eesti keele osakaal on kaduvväike – sageli murdosa ühest protsendist. See tähendab, et tehisintellektil on eesti keele “õppimiseks” miljoneid kordi vähem materjali kui suurte maailmakeelte puhul. Hoolimata sellest vähesest andmemahust, on kaasaegsed mudelid suutnud saavutada üllatavalt kõrge taseme, peamiselt tänu oma võimele kanda üle keelelisi mustreid ja loogikat ühest keelest teise (transfer learning).
Miks see oluline on?
Kuna mudelid “mõtlevad” sageli varjatult inglise keelele tuginedes, tekib fenomen, mida keeleteadlased nimetavad varjatud anglistikaks. Masin võib genereerida grammatiliselt korrektse lause, kuid selle sõnastus või lauseehitus on eesti keele jaoks ebaloomulik, järgides inglise keele süntaksit. See on peamine põhjus, miks AI poolt loodud tekstid tunduvad emakeelekõnelejale sageli “kandilised” või hingetud.
Grammatika karid: 14 käänet vs masinloogika
Eesti keele morfoloogia ehk vormiõpetus on kurikuulsalt keeruline. Kui inglise keeles piisab sageli eessõnade (prepositions) lisamisest, siis eesti keeles muutuvad sõnade tüved ja lõpud vastavalt ühele neljateistkümnest käändest. Lisaks on meil pööramine, astmevaheldus ja ühildumine.
Ekspertide hinnangul saavad tipptasemel mudelid (nagu GPT-4) hakkama põhigrammatikaga umbes 90–95% ulatuses, kuid vead ilmnevad just keerulisemates lausekonstruktsioonides. Tüüpilised vead, mida AI teeb:
- Ühildumisvead: Omadussõna ja nimisõna ei ole samas käändes või arvus (nt “ilusad majas” asemel “ilusas majas”).
- Väärad käändelõpud: Sõna tüvi on õige, kuid lõpp on valitud konteksti mittesobivalt, muutes lause tähendust.
- Sõnajärg: Eesti keele sõnajärg on küllaltki vaba, kuid see kannab rõhuasetusi. AI kipub kasutama jäika, inglispärast sõnajärge, mis kaotab lause nüansi.
- Liitsõnad: Eesti keel on rikas liitsõnade poolest. AI kipub neid sageli lahku kirjutama (nt “sünnipäeva tort” vs “sünnipäevatort”), kuna inglise keeles kirjutatakse analoogsed fraasid eraldi.
Siiski on areng olnud kiire. Kui veel paar aastat tagasi olid tekstid täis elementaarseid vigu, siis täna suudab AI kirjutada lihtsama uudisloo või e-kirja tasemel, mis vajab vaid minimaalset toimetamist.
Kultuuriline kontekst ja idioomid
Keele valdamine ei tähenda ainult sõnade ja grammatikareeglite tundmist. Tõeline meisterlikkus peitub kultuurilise tausta ja piltlike väljendite mõistmises. Siin on tehisintellektil endiselt kõige suuremad lüngad. Eesti keel on rikas vanasõnade, kõnekäändude ja unikaalsete väljendite poolest, mida ei saa otse tõlkida.
Näiteks väljend “viskas vedru välja” (suri või väsis totaalselt ära) võib masintõlkes muutuda füüsiliseks vedru viskamise kirjelduseks. Või fraas “paneb puusse” (eksib rängalt) võib saada metsandusliku tähenduse. Kuigi uuemad mudelid, mis on treenitud suuremal hulgal internetifoorumite ja eestikeelse kirjanduse peal, hakkavad neid nüansse tabama, puudub neil maailmatunnetus.
Ekspertide sõnul on huumor ja iroonia need alad, kus AI eesti keeles kõige sagedamini põrub. Eesti huumor on sageli kontekstipõhine ja keelemänguline. AI, mis opereerib statistiliste tõenäosuste alusel, valib tavaliselt kõige loogilisema ja levinuma jätku, mis tapab nalja iva.
Praktiline kasutus: Kus AI särab ja kus tuhmub?
Vaatamata puudujääkidele, on AI eesti keeles juba praegu äärmiselt kasulik tööriist, kui kasutaja on teadlik selle piiridest. Erinevates valdkondades on tulemused varieeruvad:
- Turundus ja sisu loomine: AI on suurepärane ideede generaator ja mustandite kirjutaja. Ta suudab luua blogipostituse struktuuri või sotsiaalmeedia pealkirju eesti keeles. Kuid inimese poolne toimetamine on kohustuslik, et tekst kõlaks loomulikult ja emotsionaalselt.
- Klienditugi: Eestikeelsed juturobotid on muutunud nutikamaks. Nad suudavad vastata tüüpküsimustele korrektses keeles, vähendades inimetöötajate koormust. Probleemid tekivad keerulisemate, mitmetähenduslike probleemide lahendamisel.
- Tõlkimine: Kuigi Google Translate ja DeepL on tasemel, suudavad suured keelemudelid (LLM-id) sageli paremini tabada teksti tooni. Siiski, juriidiliste ja meditsiiniliste tekstide puhul ei tohi AI-d pimesi usaldada, kuna üks vale käändelõpp võib muuta lepingu sisu.
- Programmeerimine ja tehniline dokumentatsioon: Huvitaval kombel saab AI tehnilise eesti keelega sageli paremini hakkama kui ilukirjanduslikuga, kuna tehniline keel on standardiseeritum ja vähem metafoorne.
Korduma kippuvad küsimused (KKK)
Milline AI mudel oskab praegu kõige paremini eesti keelt?
Hetkeseisuga peetakse parimateks tasulisi mudeleid nagu OpenAI GPT-4 ja Anthropicu Claude 3. Need mudelid suudavad luua pikki ja sidusaid eestikeelseid tekste minimaalsete grammatikavigadega. Tasuta versioonid (nagu GPT-3.5) teevad tunduvalt rohkem vigu käänete ja lauseehitusega.
Kas AI asendab eesti keele toimetajad ja tõlkijad?
Lähitulevikus kindlasti mitte. AI toimib pigem “kaaspiloodina”. Ta suurendab tõlkijate ja toimetajate produktiivsust, tehes ära musta töö, kuid ei suuda asendada inimese kultuuritunnetust, stiilitaju ja vastutust teksti õigsuse eest.
Miks AI vahel eesti keeles “hallutsineerib” ehk valetab?
Kuna eestikeelne treeningandmestik on väike, võib mudel lünkade täitmiseks genereerida usutavana tunduvat, kuid faktiliselt vale teksti. Samuti võib ta leiutada olematuid sõnu (neologisme), mis kõlavad eesti sõnade moodi, kuid mida tegelikult ei eksisteeri.
Kuidas ma saan parandada AI eestikeelseid vastuseid?
Andke AI-le selge kontekst ja roll. Näiteks: “Käitu nagu professionaalne eesti keele toimetaja.” Samuti aitab see, kui annate talle ette paar näidet soovitud stiilist (few-shot learning). Kui tekst tundub liiga tõlkeline, paluge tal see “ümber sõnastada ladusamasse eesti keelde”.
Riiklik strateegia ja keeletehnoloogia tulevik
Eesti riik ja teadusasutused ei ole jäänud käed rüpes ootama, mida Silicon Valley hiiud meile pakuvad. Tartu Ülikooli keeletehnoloogia uurimisrühmad ja algatused nagu “Bürokratt” (riiklik virtuaalabiline) töötavad selle nimel, et arendada just eesti keelele spetsialiseerunud lahendusi. See on digitaalse suveräänsuse küsimus.
Kohalikud mudelid on olulised kahel põhjusel. Esiteks andmekaitse – riiklike või tundlike andmete töötlemine peaks toimuma kontrollitud keskkonnas, mitte välismaistes serverites. Teiseks keele säilimine – kui me loodame ainult globaalsetele mudelitele, riskime sellega, et meie keel muutub ajapikku lihtsustatud “inglise-eesti segakeeleks”, mida dikteerivad algoritmide eelistused.
Inimese ja masina koostöö uus tase
Kokkuvõtteks võib öelda, et AI ei ole enam eesti keeles abitu, kuid ta pole ka veel meister. Me oleme jõudnud faasi, kus tehnoloogia on piisavalt hea, et olla kasulik, kuid piisavalt ebatäiuslik, et nõuda pidevat järelvalvet. See loob uue dünaamika hariduses ja tööelus: oskus kasutada tehisintellekti eesti keeles ei tähenda mitte nupu vajutamist, vaid oskust tulemust kriitiliselt hinnata ja toimetada.
Tulevik ei kuulu neile, kes lasevad AI-l kõik enda eest ära teha, vaid neile, kes oskavad kombineerida masina kiirust ja faktiteadmisi inimese keelevaistu ja kultuurilise sügavusega. Eesti keele elujõud digiajastul sõltub sellest, kui nõudlikud me kasutajatena oleme – mida kvaliteetsemat eesti keelt me ise veebis toodame ja masinatelt nõuame, seda paremaks muutuvad ka mudelid. Masin õpib meilt, seega on iga korrektne eestikeelne tekst internetis investeering meie emakeele digitaalsesse tulevikku.
