Datan elinkaari haltuun ja FAIR-periaatteet

11.06.2018

Esa-Pekka Keskitalo esittelee FAIR-datapalveluita. Kuva: Terhi Kaipainen

Julkaisujen avoimuutta on edistetty korkeakouluissa enemmän ja vähemmän aktiivisesti jo useamman vuoden ajan. Nyt katseet kääntyvät vähitellen kohti tutkimuksessa syntyvää dataa. Kuinka jatkossa huomioimme syntyvän datan keräämisen, kuvailun ja säilytyksen? Kansalliskirjasto järjesti datan elinkaareen ja sen avoimuuteen liittyvän seminaarin huhtikuussa 2018. Seminaarin tavoitteena oli pureutua datan elinkaaren eri vaiheisiin ja tähän liittyen FAIR-periaatteisiin, sekä tutustua kansallisiin Fairdata-palveluihin. Seminaarin ja siihen liittyneiden työpajojen kautta sai myös hyvin vertaistukea omien datapalveluiden kehittämiseen.


Päivän teemaan meidät johdatti johtava tietoasiantuntija Susanna Nykyri Tampereen teknillisen yliopiston kirjastosta. Hän aloitti määrittelemällä tutkimusdataksi kaiken tutkimuksessa syntyvän digitaalisen aineiston eli päivän aikana keskityttiin lähinnä digitaalisessa muodossa olevaan tutkimusdataan, joka on kone- ja ihmisluettavaa. Nykyrin mukaan tutkijan kannalta hyvä tavoite datan elinkaaren hallinnassa on se, että tutkija tallentaa datan vain yhteen paikkaan ja muut palvelut linkittyvät tähän tai data linkittyy täältä muualle.

 

Datan elinkaaren suunnittelu aloitetaan jo rahoituksen hakemisvaiheessa, jolloin dataan liittyviä asioita kirjataan ylös tutkimussuunnitelmaan/hankehakemukseen ja aineistonhallintasuunnitelmaan. Aineistonkeruun suunnittelu ja toteutus pitää sisällään muun muassa aineiston käsittelyä ja kuvailua, huomioiden myös näihin liittyvät luvat ja eettisen arvioinnin. Seuraavassa vaiheessa aineistoa avataan ja arkistoidaan, jonka jälkeen on hyvä miettiä myös datan elinkaari tästä eteenpäin. Kuinka aineistoa voidaan jatkossa käyttää uudessa tutkimuksessa, opetuksessa ja opiskelussa?

 

Tutkimusdatan kanssa tulee tehdä töitä koko tutkimuksen ajan. Erityisen merkityksellistä on dataan liittyvän metatiedon jatkuva suunnitelmallinen luominen, jotta dataa voi ylipäätään jatkokäyttää. Kun metatietoja ylläpidetään ja täydennetään koko ajan, ei eteen tule tilannetta, jossa tietojen täydennys jälkikäteen on mahdotonta. Aineiston hallinnan tueksi on olemassa erilaisia palveluita, joista DMPTuuli on jo kansallisesti laajasti käytössä. Kirjastoille tässä aukeaa mahdollisuus tarjota metadata- ja kuvailuosaamistaan tueksi tutkijoille, kuitenkin siten, että tutkija on aina ensisijaisesti itse vastuussa aineistonsa riittävän rikkaasta kuvailusta.

 

Fairdata – löydettävää, saavutettavaa, yhteentoimivaa ja uudelleen käytettävää

 

Suurin osa päivän esityksistä käsitteli jollain tavalla FAIR-periaatteita, joiden noudattaminen vahvistaa tutkimuksen vaikuttavuutta muun muassa siten, että näiden periaatteiden mukaan käsitelty data/aineistot ovat helposti ja avoimesti löydettävissä sekä jatkokäytettävissä. Susanna Nykyrin johdatuksen jälkeen Esa-Pekka Keskitalo Kansalliskirjastolta vertaili esityksessään kahta erilaista datan tallennustapaa ja sitä, onko datan tallennus näihin paikkoihin toteutettu tarpeeksi FAIR-periaatteita noudattaen.

 

Alla FAIR-periaatteet lyhyesti kuvattuna (tarkemmin: https://www.force11.org/group/fairgroup/fairprinciples):

 FAIR-periaatteet lyhyesti. Kuva: CC-BY 4.0 Terhi Kaipainen. 

FAIR-periaatteissa (meta)datan käyttö ja aineiston kuvailun merkitys korostuvat, jolloin myös tässä aukeaa kirjastoille mahdollisuus tukea tutkijoita työssään opastamalla muun muassa yleisesti käytössä olevien tunnisteiden ja erilaisten yhteisten sanastojen käytössä sekä ohjaamalla käyttämään CC-lisenssejä. Rahoittajista muun muassa Suomen Akatemia on alkanut vaatia myös datan avaamista siinä määrin kuin se on mahdollista, ja tässä prosessissa FAIR-periaatteiden noudattaminen toimii myös tutkijan apuna.

 

Tukena Fairdata -palvelut

 

Kansallisesti syntymässä olevan Fairdata -palvelukokonaisuuden tarkoitus on tukea järkevää aineiston hallintaa. Anssi Kainulainen CSC:ltä esitteli kokonaisuutta, joka sisältää palvelut koko tutkimusprosessin ajaksi eli säilytyksen, aineistojen haun, kuvailun, julkaisun sekä pitkäaikaissäilytyksen. Fairdata -palvelut ovat tulossa käyttöön vuoden 2018 aikana. Alla olevassa kuvassa on kuvattuna Fairdata -palvelukokonaisuus ja niiden linkittyminen toisiinsa.

Fairdata.fi -palveluiden toimintamalli. 

Käytännössä Fairdata -palvelukokonaisuus muodostuu siis aineiston tallennuksen, datan kuvailun, hakemisen ja säilytyksen tueksi kehitetyistä erillisistä palveluista, jotka kukin tukevat datan hallinnan eri vaiheita:

 

 • IDA on tutkimusaineistojen säilytyspalvelu, johon käyttäjä siirtää datan säilytykseen. IDA-projektin käyttö ei ole sidottu tutkimuksen elinkaareen. Tämä on opetus- ja kulttuuri ministeriön tarjoama palvelu Suomen korkeakoulujen ja Suomen Akatemian rahoittamille tutkijoille sekä valtion tutkimuslaitoksille, ja sen käyttöoikeudet ja kapasiteetti myönnetään projektikohtaisesti. Pitkäaikaissäilytykseen valitut aineistot, voidaan siirtää IDA:sta jäädyttämisen ja kuvailun jälkeen PAS-palveluun. Kuvailtua aineistoa voidaan myös hakea Etsimen kautta.

 • Qvain on kuvailutyökalu, jossa tehdyt kuvailut menevät kuvailun jälkeen (Metaxin kautta) Etsimeen. Qvaimessa määritellään metadatan käyttöoikeudet ja sen kautta muokkausoikeuksia voi jakaa ja siirtää.

 • Metax on metatietovaranto, joka ”liimaa” muut fairdata -palvelut yhteen. Siellä säilytetään metadataa ja se antaa pysyvän tunnisteen. Se tekee myös haravointia ulkoisista tutkimusaineistoista ja tarjoaa metadatan rajapinnan. Metax tarjoaa tietoa myös toimijoista, ei vain aineistoista.  

 • Etsin on tutkimusaineistojen hakupalvelu, jonka sisällössä pääpaino on suomalaisessa aineistossa. Se tekee hakuja Metaxin metadatasta, ja tarjoaa pääsyn tutkimusaineistoihin IDA:n ja REMS:in kautta. Palvelu lisää tutkijan näkyvyyttä integroinnin (haravointi muista lähteistä) ja indeksoinnin (esim. Google) kautta.  

 • Fairdata-PAS –tutkimusaineistojen pitkäaikaissäilytyspalvelu on kehitteillä pysyvästi säilytettävää aineistoa varten. Sen hallintaliittymä ja paketointipalvelu on rakennettu yhteisen kansallisen pitkäaikaissäilytysratkaisun (PAS) päälle. Paketointipalvelun avulla aineistosta tehdään PAS-kelpoisia paketteja hakemalla tiedot esim. IDA:sta tai Metax:sta. Myös muut lähteet ovat mahdollisia. PAS-palvelussa olevien aineistojen informaatio säilyy pitkään ymmärrettävänä ja tallennettujen tietojen tulkinta ei ole esim. eri laitteiden varassa.

 

Varsinkin aineiston kuvailu- ja pitkäaikaissäilytyksen valmistelun vaiheessa kirjastoilla on taas oma paikkansa tutkijan tukena olemisessa. Voisiko ajatella, että tutkimusprojekteille tai –hankkeille tarjottaisiin omaa, juuri tähän asiaan perehtynyttä tieto- ja kirjastoammattilaista tueksi aineiston hallinnan eri vaiheisiin?   

Esa-Pekka Keskitalo avaa Fairdata-polkua.

 

Henkilötiedot ja sensitiivisyys avoimuuden tiellä?

 

Tutkimusdata/aineisto voi olla melkein mitä tahansa kirjoitetusta aineistosta esineisiin. Näihin aineistoihin liittyy usein henkilötietoja, jolloin datasta tulee sensitiivistä eli tutkimuksen kohde on siitä tunnistettavissa. Tällöin datan käsittelyssä pitää noudattaa erityistä tarkkuutta. Myös  sensitiivisen datan käsittelyssä auttaa se, että aineistonhallintasuunnitelma on alussa tehty huolella, ja että noudatetaan FAIR-periaatteita niin pitkälle kuin se tällaisen datan/aineiston kanssa on mahdollista.

 

Henkilötietojen käsittely ja aineiston sensitiivisyys ovat organisaatioissa nyt pinnalla muutenkin 25.5.2018 voimaan tulevan tietosuoja-asetuksen (GDPR) vuoksi. Itä-Suomen yliopiston tietosuojavastaava Helena Eronen ja kehittämispäällikkö Arja Halkoaho (myös Kuopion yliopistollinen sairaala) pitivät hyvin kattavan esityksen henkilötietoja sisältävän aineiston käsittelystä ja jatkokäytöstä tieteellisessä ympäristössä. Henkilötieto on hyvin herkästi tunnisteellista ja siksi sen käsittelyssä pitää olla erityisen tarkkana. Tieteelliseen tutkimukseen pätee hyvin pitkälti samat säädökset kuin henkilötietojen keruuseen yleisestikin. Hyvä on huomioida myös se, että pelkkä aineiston pseudonymisointi ei tee siitä tunnisteetonta. Vain anonymisoitu tieto on tunnisteetonta, mutta se on myös tiedonkäsittelyä siten, että aineistoon ei voi enää lisätä uutta tietoa. Tietosuojavaltuutetun toimiston lausuman mukaan vain anonymisoitua dataa voidaan julkaista avoimen tieteen periaatteiden mukaisesti. On myös tutkijan oman oikeusturvan mukaista, että aineistoa ei julkaista, jos on olemassa tunnistamisen vaara.

 

Eronen ja Halkoaho toteavat kuitenkin, että ”Henkilötietoaineistoihin pohjautuvien tutkimusten osalta avoimen datan politiikkaa voidaan toteuttaa esim. siten, että tutkimusaineisto, tietolähteet ja analyysissä käytetyt metodit tai koodit kuvataan yksityiskohtaisesti julkaistavassa artikkelissa, jotta tarvittaessa tutkimus voidaan pyrkiä toistamaan mahdollisimman samanlaisena.” (Eronen ja Halkoaho, 2018). Heidän esityksessään oli myös hyviä käytännön esimerkkejä muun muassa siitä millainen tiedote tutkittavalle voidaan lähettää, miten suostumus tutkimukseen annetaan verkkopalvelussa ja mitä tieteellisen tutkimuksen tietosuojaselosteessa pitää huomioida.Mitä datapalvelut ovat ja voisivat olla omassa organisaatiossasi?

 

Päivän lopuksi osallistuin työpajaan, jossa pohdittiin ja benchmarkattiin eri organisaatioiden datapalveluita. Pajaa veti tietoasiantuntija Mari Elisa Kuusniemi Helsingin yliopiston kirjastosta. Ryhmässä oli osallistujia yliopistoista, ammattikorkeakouluista sekä tutkimuslaitoksista. Harmillisesti jouduin lähtemään junalle jo ennen pajan loppumista, mutta joitain ajatuksia ehdin kuitenkin napata mukaan.

 

Tärkeimmäksi datapalveluksi nostetiin neuvontapalvelut “yhden luukun” -periaatteella siten, että tutkijan ei tarvitse välttämättä tietää tarkalleen keneen olla yhteydessä vaan hän saa tämän tiedon keskitetystä palvelusta. Näin neuvontapalvelua voidaan myös järjestää organisaatiossa laajemmin eri asiantuntijoita hyödyntäen. Kaikkea palvelua ei tarvitse saada välttämättä kirjastosta vaan datan tallennuksen asiantuntija voisi löytyä esimerkiksi Kaakkois-Suomen ammattikorkeakoulun tapauksessa Digitaliasta (Digitaalisen tiedonhallinnan tutkimus- ja kehittämiskeskus).

 

Neuvontapalvelun ohella ryhmän näki seuraavat datapalvelut sellaisiksi, joita organisaatiossa olisi hyvä olla (satunnaisessa järjestyksessä):

 • Tutkimuksen dynaamisen vaiheen datan säilytyspalvelu

 • Ratkaisu sensitiivisen datan säilytykseen

 • Metadata-arkisto-julkaisujärjestelmä

 • Koulutuspalvelut opiskelijoille ja tutkijoille

 • Datapolitiikka

 • Osaamista tietosuojasta, eettisistä näkökohdista ja juridiikasta

 • Ratkaisu datan säilytykseen projektin jälkeen

 • Datan jakamis- ja siirtoratkaisu

 • Metadata-neuvonta

 

Tärkeää on myös erilaisten palveluiden markkinointi, sillä jos et tiedä mitä apua on olemassa, et sitä osaa pyytää. Ryhmässä olleet yliopistolaiset olivat sitä mieltä, että heiltä löytyy noin puolet em. palveluista. Ammattikorkeakoulujen ja tutkimuslaitosten puolella ei olla vielä ihan niin pitkällä. Seminaaripäivän eväillä on kuitenkin hyvä jatkaa palveluiden kehittämistä niin omissa organisaatioissa kuin yhdessäkin.

 

Lue lisää:

Datan elinkaari seminaarin esitykset ja nauhoitteet: https://www.kiwi.fi/display/attkoulutukset/Datan+elinkaari+19.4.+klo+09.30+-+16.00

Eronen, H., Halkoaho, A. 2018. Henkilötietoja sisältävän aineiston käsittely ja jatkokäyttö. Seminaariesitys saatavissa: http://urn.fi/URN:NBN:fi-fe201804206745

Force11, 2018. The fair data principles: https://www.force11.org/group/fairgroup/fairprinciples

 

Kirjoittaja: Terhi Kaipainen, informaatikko, Kaakkois-Suomen ammattikorkeakoulu


Kommentit

Jätä kommentti