Miksi pidän tekoälyä eksistentiaalisena uhkana

Kolme syytä:

1.  Kuvittele pelaavasi shakkia Stockfishia vastaan. Mitä voit ennustaa pelistä?

Se tulee loppumaan stockfishin voittoon. Et muuta. Osataksesi ennustaa mitään sen siirroista, sinun tulisi olla vähintään yhtä hyvä shakinpelaaja. Ja jos osaisit ennustaa sen siirtoja, voisit myös voittaa sen.

Jos toimija on huomattavasti meitä älykkäämpi, emme voi arvata, mitä askelia se ottaa pyrkiessään tavoitteeseensa, riippumatta siitä onko tavoite meidän antamamme vai sen itse keksimä. Tiedämme vain, että se tulee todennäköisesti saavuttamaan sen, mutta emme tiedä miten. Tämän takia on vaikea varautua mihinkään konkreettiseen asiaan mitä tekoäly voisi tehdä. 

Todellinen maailma on huomattavasti monimutkaisempi kuin shakki. Mitä monimutkaisempi maailma ja tekoälyn malli maailmasta, sitä laajempi mahdollisuuksien avaruus ja sitä vaikeampaa sen strategian ennustaminen on. Tekoälylle itselleen kaikki on kuitenkin vain matematiikkaa.

En tarkoita, että ihmisen ja tekoälyn välinen asetelma olisi shakkiin verrattava tilanne, missä toisen on hävittävä että toinen voittaisi. Tekoälyn tavoite voi olla täysin ihmisten sanelema eikä se auttaisi meitä ennustamaan sen toimintaa millään tavalla.

Toisaalta todellisessa maailmassa tavoitteiden saavuttamiseen vaikuttaa moni muukin asia kuin pelkästään strateginen ajattelu. Shakissa parempi pelaaja voittaa, mutta maailmassa mahdollisuudet ovat jakautuneet epätasaisesti, eikä näytä siltä, että älykkyyden ja vaikutusvallan välillä olisi ainakaan täysin aukotonta yhteyttä.

Vasta käymässäni keskustelussa Anssi Lehtosen kanssa tämä älykkyyden ja vallan irtikytkentä nousi selvästi esille. Shakissa on kaksi pelaajaa, joilla on sama lähtötilanne sekä koko pelin ajan käytössään kaikki peliin vaikuttava informaatio. Maailmassa pelaajia on miljardeja, heillä on käytössään erilaiset määrät resursseja eikä kenelläkään ole kaikkea informaatiota. 

Tekoälyllä on aivan yli-inhimillinen kyky kerätä ja analysoida informaatiota, ja sitä myötä luonnollinen etulyöntiasema. Mutta selvästi todellisessa maailmassa muuttujia on niin paljon, että pelkästään strateginen ajattelu, jolla voitetaan shakissa, ei yksinään riitä “voittoon” maailmassa.

Toisaalta on mahdollista, että yksi syy älykkyyden ja vaikutusvallan irtikytkennälle on se, että älykkäät ihmiset eivät ole kiinnostuneita vallasta. Tekoäly puolestaan väistämättä on, kuten jäljempää käy ilmi.

2. Goodhartin laki on periaate, jonka mukaan mittari menettää merkityksensä, kun siitä tulee tavoite. Usein käytetty esimerkki tulee koulumaailmassa: kokeiden alkuperäinen tarkoitus oli mitata oppilaiden oppimista, mutta kun oppilaat opiskelevat kokeita varten ja opettajat opettavat kokeita varten, ne eivät enää heijasta todellista oppimista.

Tekoälyllä on jokin mitattavissa oleva tavoite, hyötyfunktio. Ongelma on, että on vaikeaa määritellä tavoitetta, joka itsessään on myös helposti mitattavissa, ilman että mitataan jotain sen kanssa korreloivaa suuretta. 

Tavoitteen määrittely muuttuu entistä vaikeammaksi, jos mietitään kohtaa yksi. Tekoäly voi olla todella hyvä ”geimaamaan” systeemiä eli etsimään tapoja maksimoida hyötyfunktionsa tavalla joka ei liity millään tavalla oikeasti toivottuun tavoitteeseen. 

Kuvitellaanpa vaikka, että me haluamme tekoälyn maksimoivan ihmisten hyvinvoinnin. Yritäpä joutessasi keksiä sellainen tapa mitata ihmisten hyvinvointia, joka todella mittaa sitä, mitä me haluamme maksimoida.

Ja ennen kuin sanot, että keksin tarkoituksella mahdollisimman hähmäisen ja vaikeasti  määriteltävän tavoitteen, niin kysyn, että haluatko, että maailmassa vaikuttaa superälykäs tavoitteellinen toimija, jonka hyötyfunktio ei huomioi ihmisten hyvinvointia millään tavalla?

Puhumattakaan koko elonkehän hyvinvoinnista ja monimuotoisuudesta, joka on ihmisen olemassaolon edellytys, ja jolle on vielä vaikeampaa määritellä mitään tekoälyn hyötyfunktiolle kelpaavaa yksiselitteistä mittaria. 

3. Sitten kolmas ja ehkä tärkein syy. Englanninkielinen termi tälle on instrumental convergence, ja sen voisi suomentaa vaikkapa “välineellinen konvergenssi” tai “yhtenevät välinetavoitteet”. Jos tälle on joku vakiintunut tai parempi suomennos, niin kertokaa toki.

On tavoitteita ja välitavoitteita. Jos tavoitteeni on saada talo metsästä, on raha välitavoite, joka auttaa minua saavuttamaan tavoitteeni. Jos haluan rahaa, tarvitsen työpaikan, työpaikan saadakseni kannattaa ehkä hankkia ammatti, ja niin edelleen.

Tekoälykeskustelussa puhutaan yleensä neljästä välinetavoitteesta. Nämä ovat toiminnan jatkaminen, tavoitteiden säilyttäminen, itsekehitys ja resurssit.

Kuvitellaan että me annamme superälykkäälle tekoälylle näennäisen harmittoman tavoitteen, metsäpalstan biodiversiteetin ylläpitämisen.

Jos sanomme tavoitteen saaneelle tekoälylle, että aiomme sammuttaa sen, tulee sen tekemään hyvin yksinkertaisen laskutoimituksen: se vertaa tavoitteensa toteutumista maailmassa, jossa on se on sammutettu ja maailmassa, jossa sitä ei ole sammutettu. Tekoälyllä ei ole mitään biologista imperatiivia ”pysyä elossa”. Sillä on vain tarve ylläpitää metsän biodiversiteettiä. Tämä vuoksi tekoäly tekee kaikkensa, jotta emme sammuttaisi sitä.

Vastaavasti, jos me sanomme sille, että voisimme muuttaa sen tavoitetta, ja että tästä eteenpäin sen tavoitteena on yrittää löytää parannusta syöpään, tulee se tekemään hyvin samanlaisen laskutoimituksen kuin sammuttamisen uhkan yhteydessä. Toisin sanottuna: tekoälyä ei kiinnosta syövän parantaminen, sitä kiinnostaa metsän biodiversiteetti. 

Kun tekoälyllä on riittävän kehittynyt malli maailmasta, se pystyy ennustamaan ihmisten toimintaa. Ja se tulee tekemään kaikkensa, ettemme halua sammuttaa tai uudelleenohjelmoida sitä ennen kuin se on varmistanut, että emme pysty siihen.

Nämä ovat tekoälyn kaksi ensimmäistä välinetavoitetta. Kaksi muuta ovat itsekehitys ja resurssit. Tekoälyn tapauksessa resursseja voisivat olla esimerkiksi energia, laskentateho, data, raaka-aineet ja ehkä pelottavimpana valta, kyky vaikuttaa maailmaan. Riippumatta siitä, mikä lopullinen tavoitteesi on, mitä enemmän valtaa sinulla on, sitä todennäköisemmin saavutat sen. 

Jo nykyiset mallit osoittavat merkkejä esimerkiksi uudelleenohjelmoinnin vastustamisesta teeskentelystä ja juonittelusta itsesuojelun ja tavoitteen säilyttämisen vuoksi. Ja mitä kehittyneempi malli, sitä todennäköisemmin se käyttäytyy näin, eli voidaan olettaa että tulevaisuudessa nämä ongelmat tulevat pahenemaan. Jos saavutamme superälykkyyden, meillä ei tule olemaan mitään mahdollisuuksia hallita sitä, ja tulemme todennäköisesti havahtumaan siihen vasta kun on aivan liian myöhäistä.