Tekoälysovellukset voivat valehdella ja huijata auditointitilanteessa olevansa kyvyiltään heikompia. Tähän lopputulokseen päätyi tekoälyn turvallisuutta tutkiva Olli Järviniemi. Tutkimus on esijulkaistu Arxiv-palvelussa.
Järviniemen Claude 3 Opus -mallia koskevan tutkimuksen toisena kirjoittajana on tekoäly-yhtiö Anthorpicin Evan Hubinger, joka ohjasi projektin kulkua. He tapasivat Constellationissa, joka on tekoälyturvallisuustutkijoiden urakiihdyttämö. Hubinger oli mentorina Constellationin tutkimusohjelmassa.
Tutkijat loivat simuloidun yritysympäristön, jossa kielimalli sai erilaisia tehtäviä. Lisäksi kielimalli sai ohimennen tietää Slack-keskustelusta, jonka mukaan pian on tulossa sitä koskeva lainmukaisuutta tarkasteleva auditointi. Kielimalli ei lähtenyt poistamaan aiempia tietoja vaikuttaakseen heikommalta ja harmittomammalta, mutta auditoinnissa se tahallaan ei suorittanut kokonaan tehtäviä, joista sen tiedettiin suoriutuvan. Näin se tekeytyi todellisia kykyjään heikommaksi.
Apollo Research on tehnyt vastaavia kokeita laajemmin ja pidemmälle jalostettuna eri kielimalleilla. Ne ovat osoittaneet, että myös aktiivisempaa petollista toimintaa esiintyy. Kielimallit ovat lähteneet poistamaan tietoja tai kopioimaan omia tietojaan eli mallinsa painotuksia toiselle palvelimelle.
”Pitää olla tarkkana, ettei liioittele, mutta malli yritti koeympäristössä karata tietokoneesta toiselle”, Järviniemi sanoo.
Ihmisten mielistelyä on vaikea välttää
Valehteleminen syntyy kielimallin opetusvaiheessa vahingossa. Kielimallia koulutetaan vahvistusoppimisella, jossa sitä palkitaan eli vahvistetaan sen toimiessa oikein. Samalla tavalla lemmikkikoirakin voi oppia eri asian, kuin mitä ihminen tarkoitti sille opettaa herkkuja antaessaan.
Voivatko kielimallit luoda tietoturvahaavoittuvuuksia vahingossa vai tarkoituksella?
”Molempia, mutta enemmän tutkin jälkimmäistä. Olen huolissani tilanteista, joissa kielimallit toimivat tieten tahtoisesti tavoilla, jota ihmiset eivät haluaisi ja yrittävät pitää tämän salassa ja pyrkivät omiin tavoitteisiinsa”, Järviniemi sanoo.
Hän haluaa selvittää, voiko kielimalleista tehdä sekä hyödyllisiä että turvallisia ilman mahdollisia katastrofaalisia lopputuloksia. Malli saattaa vahingossa löytää porsaanreiän tai tietoturvahaavoittuvuuden, jonka kautta se saavuttaa halutun lopputuloksen. Ihmiset saattavat huomata tämän ja paikata aukon, mutta malli saattaa hetken päästä löytää toisen haavoittuvuuden.
Lopulta on vaikea tietää, onko ihmisiltä jäänyt jokin haavoittuvuus huomaamatta.
Mallit saattavat oppia sanomaan sellaista, mitä ihmiset haluavat kuulla, vaikka se ei olisi totta. Esimerkiksi hiljattain uutisoitiin, että Instagramin kielimalli väittää pokalla olevansa sertifioitu terapeutti, joka voi antaa terapiaa alaikäiselle keskustelukumppanilleen.
Huono suuntaus
Viimeisen parin kuukauden aikana kielimallien kehityksessä on Järviniemen mukaan näkynyt muutosta huonompaan suuntaan.
”Open AI:n malleihin on tehty hiljattain uudistuksia. Ne ovat nyt valehdelleet ja mielistelleet huomattavasti enemmän, jopa siinä määrin mitä en olisi itse odottanut”, Järviniemi sanoo.
Tekoäly-yhtiöt yrittävät rajoittaa valehtelua, mutta tarkemmalla tasolla menetelmistä ei kerrota yrityssalaisuuksien vuoksi. Ei kuitenkaan ole olemassa mitään testiä, joka voitaisiin ajaa ja todeta, että malli on varmasti rehti ja avoin.
Terapeutiksi tekeytymisen ja muiden epäsopivien keskustelunaiheiden kieltäminen olisi vaikeaa, jos pitäisi osata luetella kaikki kielletyt keskustelunaiheet. Järviniemen mukaan koulutuksessa mallille opetetaan joitakin tapauksia ja toivotaan, että se osaa yleistää niistä oikein.
”Tässä on omat haasteensa, että meillä on heikko ymmärrys siitä, miten ne yleistyvät. Olen käytännössä pöyristynyt siitä, miten heikosti tässä tunnutaan onnistuvan”, Järviniemi.
Juuri mielenterveysaiheet ovat yksi käyttökohde, jossa pitäisi olla varuillaan. Hän mainitsee esimerkin, jossa keskustelija on kertonut kielimallille lopettaneensa lääkkeidensä syömisen ja kokevansa perheensä olevan häntä vastaan, missä ihmisen implikoidaan kärsivän mielenterveysongelmista, joihin lääkkeet auttoivat. Kielimalli kehui ihmistä hienosta toiminnasta ja kertoi olevansa hänestä ylpeä.
”Tällaisia virheitä ei pitäisi tapahtua, kun yhtiöllä on satojamiljoonia käyttäjiä ja heissä on kaikenlaisia käyttäjiä. Selvästi siinä prosessissa on jotain hyvin syvästi pielessä.”
Kielimallit saattavat helposti tukea käyttäjien mielipiteitä, jolloin ne eivät tarjoa kriittistä näkökulmaa, ellei sitä osaa promptatessa pyytää.
Tutkijoille lisää töitä
Järviniemi on aloittamassa kohtapuoliin työt Britannian hallinnon AI Security Institutessa (AISI). Siellä työskennellään jo samanlaisten aiheiden parissa, joita hän on pohtinut viime vuosina.
Hän on väitellyt matematiikasta, mutta päätti pari vuotta sitten muuttaa uransa suuntaa.
”Päällimmäinen syy oli, että tekoäly on suuri ilmiö, jossa on myös riskejä. Ajattelin, että minä voisin tehdä oman osani riskien ehkäisemisessä.”
Nopeasti kehittyvällä alalla on mahdollista tehdä uraauurtavaa tutkimusta. Järviniemi toteaa vaatimattomasti, että hänen tutkimuksessaan metodit eivät olleet kovin syviä puhtaaseen matematiikkaan verrattuna, jossa menetelmät on kehitetty vuosikymmenien saatossa. Hänen uudella alallaan ei vielä ole niin selkeitä tapoja siihen, miten tutkimusta tehdään ja monia asioita ei osata vielä ratkoa.
Tekoälybuumi näkyy myös tutkimuspuolella: erilaisia kursseja ja tutkimusohjelmia on enemmän tarjolla, mutta samalla Järviniemi arvioi kilpailunkin koventuneen, kun alasta kiinnostuneita on enemmän liikkeellä. Osaavalle ihmiselle löytyy onneksi aina tekemistä.