Data engineer Christian Westerlund

Data engineer

Christian Westerlund tekee kehitystyötä ja ongelmanratkaisua sekä data- että IT-infran parissa.

Christian Westerlund on ollut TEKissä töissä syksystä 2016 asti. Nykyään hän toimii data engineerinä.

Mitä työsi data engineerinä pitää sisällään?

Minulla on tavallaan kaksi työnkuvaa; olen puolittain tutkimustiimissä ja puolittain IT:ssä. Varsinaista data engineerin työtä teen enemmän tutkimuksen puolella, kun taas IT:ssä olen mukana infran kehitysprojekteissa ja tarvittaessa apuna ”sammuttamassa tulipaloja”.

Työni pääsisältö on erinäisten tietolähteiden integrointi. Kirjoitan automaatiota, joka hakee dataa tietystä paikasta, vie sitä jonnekin muualle ja muuttaa sen muotoa siinä välissä niin, että eri lähteistä tullut data on yhteensopivaa keskenään.

Käytännössä esimerkiksi TEKin jäsenportaalista oma.tek.fistä siirtyy palvelumerkintätietoja, joiden pohjalta teemme muun muassa raportteja palveluidemme käytöstä. Saamme dataa myös ulkoisista järjestelmistä, kuten Tilastokeskukselta, Työ- ja elinkeinoministeriöltä sekä Opetushallitukselta. Näistä sisäisistä ja ulkoisista lähteistä tulevaa dataa viedään keskitetysti yhteen paikkaan, tietovarastoon, jonka jälkeen sitä voidaan työstää. Jotkut ohjelmat myös hakevat dataa tietovarastosta automaattisesti ja piirtävät sen perusteella erilaisia käppyröitä tai päivittävät raportteja. Välillä teen itsekin erilaisia raportteja ja visualisaatioita – ne ovat tavallaan tämän työn lopputuotteita.

Lisäksi suunnittelen hakujen ajoitukset ja tarvittaessa ajojen hajauttamisen, jos haun tekemiseen tarvitaan useampia palvelimia. Osa lähteistä on suhteellisen pieniä, mutta jotkin ulkoiset datalähteet voivat olla melko massiivisiakin, jolloin yhden taskin ajamiseen saattaa kulua paljon aikaa ja kapasiteettia. Ja jos ajoon tarvitaan useampia palvelimia, eri haut täytyy jakaa näiden palvelinten kesken.

Vaikka tyypillisessä data engineer -roolissa tehdään asioita vielä paljon massiivisemmalla datamäärällä, työssäni ovat kuitenkin mukana hajautetut järjestelmät ja tiedon hakeminen paikasta A paikkaan B ja sen muuttaminen siinä matkalla. Meillä käytetään samoja työkaluja kuin isoissa kansainvälisissä teknologiafirmoissakin, niiden puitteissa pystyisimme käsittelemään isompiakin datamääriä. TEKissä löytyy myös mielenkiintoa analytiikkaan ja ennustamiseen, joista olemme tehneet demojakin, mutta sitä ennen pitää vielä tehdä pohjatyötä datan laadun ja määrän varmistamiseksi.

IT:n puolella olen apuna häiriötilanteissa ja IT-infran kehittämisessä. Lisäksi teen yhteistyötä ulkopuolisten ohjelmistotoimittajien kanssa, esimerkiksi kun meille toimitetaan uusi versio ohjelmistosta, deployaan eli otan käyttöön sen meidän palvelimillemme. Olen työstänyt myös deploy-automaatiota, jolloin ideaalitilanteessa uusien versioiden käyttöönotto tapahtuisi automaattisesti palvelimillamme. Välillä autan ja opastan ohjelmistotoimittajia toimimaan meidän palvelinympäristössämme tai järjestelmiemme rajapintojen käytössä, koska ne ovat minulle paljon tutumpia kuin heille.

Nyt kun TEKissä ollaan alettu rakentaa datainfraa, myös IT-infran pitää tukea sitä. Siksi on hyvä, että olen mukana myös IT-infran kehittämisessä. Eli nämä kaksi roolia kytkeytyvät kyllä toisiinsa.

Miten työsi näkyy jäsenillemme?

Toivottavasti niin, että datan avulla me ymmärrämme paremmin jäseniämme ja ehkä myös itseämme organisaationa. Tämän perusteella osaisimme palvella jäseniämme onnistuneesti; olisimme esimerkiksi yhteydessä oikeaan aikaan ja tarjoaisimme oikeita palveluita. Tietysti nytkin pyrimme jatkuvasti siihen, mutta dataa hyödyntämällä saisimme kokonaisvaltaisemman ja vertailukelpoisemman kuvan toiminnastamme.

Omaan työhöni kuuluu lähinnä koota dataa asioista, joita ollaan joko päätetty seurata tai jotka ovat nousseet datasta esiin mielenkiintoisina aiheina, joita on sitten alettu seurata. Yleensä sen jälkeen, kun olen tehnyt raportteja, joku muu katsoo niitä ja tekee niistä johtopäätöksiä. Välillä teen myös omia huomioita, jotka päätyvät mukaan raportteihin, mutta en ole se ihminen, joka lähtee ajamaan niitä eteenpäin.

Mikä motivoi sinua?

On hienoa, kun pääsee tekemään asioita, joista osa on kohtuullisen haastavia. Samalla pääsee oppimaan uusia asioita ja käyttämään monia erilaisia työkaluja. Datainfran rakentamiseen on meillä hyvät puitteet ja asioita tehdään melko modernisti myös IT-infran puolella. Esimerkiksi palvelut on kontainerisoitu ja käytössä on moderneja ETL- ja data-analyysityökaluja, kuten Apache Airflow ja Spark. ETL-lyhenne tulee sanoista extract, transform, load.

Työssäni motivoi myös se, että tavoitteenamme on valjastaa data jäsenen hyödyksi. Käytännössä tämä tarkoittaisi sitä, että osaisimme tarjota oikeita palveluita jäsenillemme. Kaupallisten toimijoiden tavoitteena on yleensä myydä joko kerättyä dataa tai löytää datan avulla uusia potentiaalisia asiakkaita, me pyrimme palvelemaan paremmin nykyisiä ja tietysti tuleviakin jäseniä.  

IT-puolella olen päässyt teknisissä jutuissa aika syvällekin. IT-infran kehitystä ja testausta tehdään meillä hyvien ja alalla vakiintuneiden käytäntöjen mukaisesti. Monilla saattaa olla mielikuva, että järjestöissä tehdään asioita vanhanaikaisesti, mutta se ei pidä paikkaansa.

Mikä on TEKissä parasta?

On kiva, että täällä on monesta eri taustasta tulevia ihmisiä: löytyy esimerkiksi lakimiehiä, ekonomeja, diplomi-insinöörejä ja yhteiskuntatieteilijöitä. Erilaisissa tiimeissäkin on monenlaista osaamista omaavia ihmisiä, jotka katsovat asioita eri näkökulmista. 

TEK on myös sen verran pieni organisaatio, että täällä pääsee helposti mukaan monenlaisiin asioihin. Vaikka iso osa työstäni on ohjelmointia, olen myös mukana juuri IT-infran kehittämisessä sekä tietoturva-asioissa. Tällainen ei ehkä onnistuisi, jos olisi töissä isossa paikassa, missä kaikki on jo valmiina.