Bottien tulituksessa - Theseuksen vuosi 2025
06.02.2026
Vuosi 2025 käynnistyi Theseus-toimiston osalta odottavissa merkeissä. Asialistalla roikkui useampia keskeneräisiä asioita, jotka toivottiin saatavan päätökseen kyseisen vuoden aikana. Mutta niin vaan loppuvuodesta huomattiin olevamme samassa pisteessä kuin edellisenäkin vuonna, keskeneräisyyksien keskellä. Nyt tosin on jo valoa tunnelin päässä ja toiveena on, että vuoden 2026 asioista kertovassa artikkelissa saadaan esitellä lopputuloksia. Paljon on kuitenkin tehty ja tapahtunut, kuten tästä perinteisestä vuosikatsauksesta voidaan lukea.
Tilastoharhoja
Vuoden ensimmäisessä Theseus-artikkelissa on perinteisesti käsitelty edellisen vuoden tilastolukuja. Nyt olemme niiden osalta hieman heikoilla jäillä, sillä suurtakaan luottamusta kaikkiin lukuihin ei ole. Kansalliskirjaston kanssa käydyissä keskusteluissa on tullut esille Theseuksen ja myös muiden heidän ylläpitämiensä julkaisuarkistojen suuntaan jatkuvasti kasvavassa oleva määrä erilaista verkkohäirintää. Esimerkiksi marraskuussa 2025 monissa Kansalliskirjaston palveluissa oli laajoja katkoja, ja osa niistä oli hetkellisesti kokonaan poissa käytöstä.
Ratkaisuna näihin usein Kaukoidän suunnasta tuleviin hyökkäyksiin Kansalliskirjastosta on ehdotettu Theseukselle Cloudflare -nimisen palvelun käyttöön ottamista. Cloudflare suojaa ikään kuin kilpenä sen suojattavana olevan domainin alaista palvelua sekä toimii välityspalvelimena, joka suodattaa haitallisia botteja ja rajoittaa palvelimelle kohdistuvien pyyntöjen määrää. Palvelu on otettu käyttöön esimerkiksi jo Doriassa ja Julkarissa, ja sen toiminnasta on saatu hyviä kokemuksia.
Muutaman edellisvuoden aikana Theseuksen kokonaislatausmäärä on pyörinyt hyvin samassa kokoluokassa, mutta vuonna 2025 se tuplaantui vuoteen 2022 verrattuna, ja nousi lähes 20 miljoonan latauksen verran edeltävästä vuodesta (kuva 1.). Tässä ei tarvitse olla kummoinenkaan skeptikko, että ymmärtää vuoden 2025 luvun olevan hallusinaatio.

Kuva 1. Theseuksen latausmäärien kehitys vuosina 2022 - 2025
Mikä erikoisinta, kun latausmääriä tarkastellaan sitten yksittäisten latausten osalta, tilanne näyttää aivan päinvastaiselta. Vertailtaessa vuoden ladatuimpia tallennuksia edellisen vuoden vastaavaan tilastoon, voi havaita latausluvuissa reilua pudotusta. Esimerkiksi vuonna 2024 ladatuimpien tallennusten ykkössijalle pääsi latausmäärällä 32 521, kun vuoden 2025 ykkösellä latauksia on melko lailla puolet vähemmän, eli 15 844. Kärkikymmenikkö on myös puoliksi uusiutunut ja ykkössijalle on noussut viimevuotisessa tilastossa sijalla viisi ollut Kristian Ratian opinnäytetyö (kuva 2). Kymmenestä kahdeksan on opinnäytetöitä ja kaksi julkaisuja, siinäkin pientä muutosta edellisvuoteen.

Kuva 2. Kymmenen ladatuinta tallennusta vuonna 2025
Kaikkien aikojen ladatuin opinnäytetyö, joka vuonna 2024 mahtui vielä kyseisen vuoden ladatuimpien kärkikymmenikköön, ei enää latausmäärillään noussut siihen vuonna 2025. George Esselin ja Patrick Owusun Seinäjoen ammattikorkeakouluun vuonna 2017 tekemä opinnäytetyö jatkaa kuitenkin voittokulkuaan kaikkien aikojen ladatuimpana opinnäytetyönä 404 616 latauksella, joka on reippaat 120 000 latausta enemmän verrattuna toisena olevaan työhön. Tämänkin opinnäytetyön kohdalla voidaan selvästi havaita laskeva trendi latausten suhteen, vuodesta 2023 vuoteen 2024 nousua oli noin 12 000 latausta. Nyt vuodesta 2024 vuoteen 2025 latausmäärä oli kasvanut vain noin 4 000 latauksen verran.
Mikä sitten selittää sen, että yksittäisten tallennusten latausmäärät kääntyvät tällä tavalla laskuun? Ilmiön todennäköisiä aiheuttajia ovat tekoälybotit, jotka ylikuormittavat palvelimia ja näin heikentävät sivustojen suorituskykyä ja hankaloittavat käyttöä. Useat Theseus-käsittelijät kirjastoissa ovat joutuneet odottelemaan sivujen latautumista tai ihmetelleet kummallisia ilmoituksia sivustolle kirjautuessaan. Bottiliikenne saattaa lisäksi vääristää analytiikkatietoja, joita Theseuksessakin on nyt siis nähty.
Botit myös kopioivat verkkosivustojen sisältöä, jota sitten esitetään hakutuloksen AI-yhteenvetona. Monissa tapauksissa tiedonhakijat eivät enää käy natiivisivustolla lainkaan, vaan tyytyvät tekoälypohjaisen haun tuottamaan yhteenvetoon. Botin tuottaman sisällön todenperäisyyttä ei välttämättä ollenkaan tarkasteta ja samalla jää kokonaan huomaamatta se, että esitetyssä yhteenvedossa voi olla myös botin hallusinoimia hakutuloksia sekä vanhentunutta tai jopa täysin virheellistä tietoa.
Kimmo Tapala digitoimisto Karhu Helsingistä toteaa blogikirjoituksessaan, että botit tulevat jatkossa olemaan yhä merkittävämpi osa sivustoille kohdistuvaa verkkoliikennettä. Takalan mukaan samalla kun bottiliikenne verkkosivustoilla kasvaa, verkkosivustojen kävijämäärät romahtavat. Tämä johtuu hänen mukaansa siitä, että yhä useammat käyttäjät saavat tarvitsemansa tiedon suoraa tekoälysovelluksista, jotka hyödyntävät bottien keräämää dataa. Näin ollen verkkosivustojen on sopeuduttava toimimaan niiden kanssa, että ne eivät menettäisi näkyvyyttään ja merkitystään verkossa.
Muita tilastohavaintoja
Käyttörajattu kokoelma on käytössä 19 ammattikorkeakoulussa, vuonna 2026 määrän odotetaan kasvavan yhdellä. Vuonna 2025 käyttörajattuihin kokoelmiin tallennettiin 19,3 % em. ammattikorkeakoulujen opinnäytetyötallennusten kokonaismäärästä, eli tässä on hieman nousua edellisvuodesta. Tämä tarkoittaa samalla sitä, että avoimesti saatavilla oleviin kokoelmiin tehtiin vähemmän tallennuksia, kaikista tallennuksista 80,7 % (vuonna 2024 käyttörajattu 17.5 % ja avoin 82,5 %). Näissä määrissä on vuositasolla ollut vain hyvin pientä vaihtelua ja suhde avoimen ja käyttörajatun kokoelman valitsemisen välillä on pysynyt kutakuinkin samana koko sen ajan, kun käyttörajattu kokoelma on ollut mahdollista tallennukselleen valita. Käyttörajattujen tallennusten määrään vaikuttavat myös takautuvat tallennukset.
Kuinka paljon tallennuksia on sitten vuonna 2025 tehty? Theseuksen tallennusmääriä voidaan tarkastella useamman eri metadatakentän avulla, esimerkiksi tallennuslomakkeella valitun vuosiluvun mukaisesti. Tätä kirjoittaessani tammi-helmikuussa 2026 lukumäärä nousee tasaisesti ylöspäin muutamalla tallennuksella per päivä ollen kirjoitushetkellä 30 172, joka siis sisältää opinnäytetöiden lisäksi myös julkaisut. Julkaisujen osuus kokonaismäärästä on noin 5 % eli hieman vajaat 1500 tallennusta. Jos taas tallennusmäärää tarkastellaan sen mukaan, milloin työ on julkaistu Theseuksessa, luku on hieman erilainen. Tämä luku on hieman suurempi, 31 803 ja se selittyy takautuvilla tallennuksilla. Kaikkiaan tallennuksia Theseuksessa oli vuoden 2025 lopussa noin 332 000.
Vuoden 2025 kehittämisasioita
Theseus-toimiston osalta yksi vuoden 2025 keskeisimmistä asioista liittyi saavutettavuuteen. Digipalvelulain soveltamisen siirtymäaika päättyi kesäkuussa ja sen myötä sähkökirjojen saavutettavuudelle asetettiin vaatimuksia, jotka koskivat myös julkaisuarkistoja. Theseuksen metadatarekisteriin lisättiin tarvittavat uudet saavutettavuuskentät, massaeditoitiin saavutettavuusmetadata kaikkiin vuonna 2019 ja sen jälkeen julkaistuihin sähkökirjoihin sekä koordinoitiin muutos myös Justuksen suuntaan osaksi julkaisuarkistosiirtoja. Theseus-toimisto järjesti myös kaksi aiheeseen liittyvää webinaaria, lisäksi saavutettavuusasiat olivat esillä rinnakkaistallentajien perinteisillä aamukaffeilla.
Vuonna 2025 selvittelyssä oli myös Open Access -merkintöjen saaminen Theseuksen metadataan. Tavoitteena oli saada näkymään selkeät merkinnät avoimesta saatavuudesta käyttörajauksen lisäksi sekä selventää Theseuksen aineistojen OA-tietojen näkymistä kirjastojen Finnoissa. Asia vietiin käsiteltäväksi Julkaisuarkistojen kuvailuverkosto Julkuun, jossa se olikin esillä useammassa kokouksessa ja lopullinen ratkaisu saatiin tammikuussa 2026. Työ tämän asian parissa jatkuu vuonna 2026.
PAS-asiat ovat pyörineet käsittelyssä tavalla tai toisella jo kohta yhdeksän vuoden ajan. Vuosi 2025 toi kuitenkin uutta vauhtia asiaan, kun AMKIT-konsortion uuden puheenjohtajan ja samalla myös Theseus-kehittämisryhmän puheenjohtaja Pekka Uotilan aloitteesta järjestettiin huhtikuussa PAS-työpaja, johon osallistui em. kehittämisryhmän lisäksi edustajia Kansalliskirjastosta, Kansallisarkistosta, CSC:ltä sekä Arene ry:stä. Työpajan jälkeen asian edistämistä on jatkettu ja todettu sen olevan hyvin monitahoinen asia. PAS-asian tiimoilta työskentely jatkuu edelleen vuonna 2026.
Theseus-kehittämisryhmä ja Kansalliskirjaston Julkaisuarkistopalvelut pitävät vuosittain kaksi laatupalaveria, jossa käsitellään Theseukseen liittyviä asioita. Vuoden 2025 palavereissa oli jälleen vahvasti esillä DSpace-päivitys, joka Theseuksen osalta siirtyi vuoteen 2026. Päivitystyöhön valmistautuminen alkaa konkreettisesti helmikuussa 2026, ja varsinainen päivitys tulee tapahtumaan elo-syyskuussa 2026.
Kaikkiin vuonna 2025 Theseus-kehittämisryhmän käsittelemiin asioihin voi tutustua kokousmuistioissa, jotka löytyvät täältä. Käsiteltäviä asioita voi esittää Theseus-toimiston kautta.
Lähteet
- Tapala, K. 2026. AI-bottien vaikutus sivustoihin. Karhulla on asiaa -blogi, https://www.karhuhelsinki.fi/blogi/ai-bottien-vaikutus-sivustoihin/
Kirjoittajat
Artikkelin tiedot
Kirjoittaja: Tiina Tolonen
Numero: 1/2026
URN: http://urn.fi/URN:NBN:fi-fe2026020611730
Lisenssit
Tämä teos on lisensoitu Creative Commons Nimeä 4.0 Kansainvälinen -lisenssillä.
Tulosta sivu