Koeajossa EBSCO Discovery Service versus Primo Central Index

18.12.2015

Laurean ja Metropolian kirjastot aloittivat lokakuussa 2015 EBSCO Discovery Servicen (EDS) koekäyttöjakson. Kirjastot tutkivat omalle organisaatiolle lisensioitujen artikkelitietokantojen sisältöjen löytyvyyttä EDS:ssä ja vertailivat tuloksia omien Finna-näkymiensä Primo Central Index (PCI) -haun kautta saatuihin tuloksiin. Löytyikö eroja ja kuinka finnat pärjäsivät EDS:lle?

EDS, PCI ja discovery service lyhyesti

EBSCO Discovery Service on EBSCO:n tarjoama ns. discovery service -tyyppinen hakupalvelu.  Discovery service -palvelulla tarkoitetaan hakupalvelua, jonka pohjana on useista eri lähdeaineistoista haravoitu ns. megaindeksiksi tai yhdistetyksi indeksiksi kutsuttu laaja viitetietokanta. Lähdeaineistoja ovat tyypillisesti eri kustantajien (Elsevier, Emerald jne.), välittäjien (EBSCO, ProQuest jne.) tai kirjastojen itsensä ylläpitämät tietokannat. Tavoitteena discovery service -palveluissa on integroida erilaiset lähdeaineistot ja mahdollistaa haku yhden hakuluukun kautta.

Keskeisenä erona esim. Nelli-portaalin monihaun kaltaisiin ns. federated search -nimellä kutsuttuihin palveluihin on se, että haku kohdistuu vain yhteen indeksiin, eikä useisiin eri tietokantoihin erikseen. Etuna federated search -palveluihin verrattuna ovat mm. nopeus sekä laadukkaammat hakutulosten filtteröintiominaisuudet.

Primo Central Index (PCI) on kirjastojärjestelmiä tarjoavan Ex Libriksen megaindeksi, jota mm. hyödynnetään korkeakoulujen finnoissa, joita puolestaan voidaan luonnehtia discovery service -tyyppisiksi hakupalveluiksi. Ex Libris on siirtynyt kuluneena syksynä EBSCO:n keskeisen kilpailijan ProQuestin omistukseen.

Megaindeksit ja lähdeaineistot

Discovery service -palvelun tiedonhakijalle tuottama lisäarvo riippuu pitkälti sen takana pyörivän megaindeksin laadusta. Ratkaisevia tekijöitä ovat indeksin kattavuus, metadatan laatu ja syvyys sekä indeksin päivitysnopeus. Tarkastelumme kohteena olleiden artikkeliaineistojen kohdalla kattavuus merkitsee käytännössä megaindeksiin haravoitujen artikkelitietueiden määrää. Metadatan laatu ja syvyys liittyy mm. siihen, onko artikkelit indeksoitu vain suppeiden viitetietojen tasolla, vai ovatko myös asiasanat, tiivistelmät tai kokotekstit indeksoituina. Indeksin päivitysnopeus on keskeinen tekijä lähdeaineistoihin ilmestyvien uusien artikkeleiden löydettävyyden kannalta.

Tavoitteenamme oli saada jonkinlainen kuva Laurealle ja Metropolialle lisensioitujen artikkelitietokantojen sisältämien artikkeleiden löydettävyydestä EDS:n ja PCI:n kautta. Tarkastelun kohteina olivat seuraavat tietokannat: ACM, ACS, Emerald Journals, ProQuest Central, PsycARTICLES, Sage Premier, ScienceDirect, Taylor&Francis SSH sekä EBSCO:n tietokannoista ASE, BSE, CINAHL with full text, CMMC ja SPORTDiscus.

Organisaation käyttöön tulevan megaindeksin sisältö määrittyy sen mukaan, mitä lähdeaineistoja palvelun tarjoajan repertuaarista päätetään ottaa mukaan. Megaindeksin pohjaksi voidaan pyrkiä haalimaan mahdollisimman paljon erilaisia lähdeaineistoja tai sitten rajoitetaan lähdeaineistojen määrä vain oman organisaation kannalta keskeisiin aineistoihin. Laajan hakuindeksin etuna on suuri kattavuus, mutta samalla hakutulosten joukkoon tulee tällöin enemmän epärelevanttia ja sellaista materiaalia, joka ei ole kokotekstinä loppukäyttäjien luettavissa.

Laurean ja Metropolian finnojen PCI-aktivoinneissa painotus on ollut omien lisensioitujen lähdeaineistojen aktivoinnissa. Laureassa yhteensä 121 aktivoidusta lähdeaineistosta ainostaan 19 on muita kuin Laurealle lisensioituja aineistoja. Metropolialla PCI:ssä on aktivoituna 43 lähdeaineistoa, joista 14 on muita kuin lisensioituja aineistoja. Lisensioimattomina lähdeaineistoina mukaan on kelpuutettu mm. MEDLINE/PubMed, DOAJ, BioMed Central sekä Oxford University Pressin ja Springerin open access -aineistot.

EDS:ssä Laurean ja Metropolian megaindekseihin EBSCO oli koekäyttöjakson ajaksi aktivoinut yli 300 lähdeaineistoa, joihin sisältyivät kirjastojen EBSCO:lle ilmoittamat lisensioidut tietokannat.

Kattavuusdokumenttien lupaukset

Ex Libriksen ja EBSCO:n kautta on saatavissa megaindeksien kattavuuteen liittyvää dokumentaatiota lähdeaineistoittain eriteltynä. Käytössämme oli Ex Libriksen Documentation Centerin kautta löytyvä Primo Central Index Collection List -niminen dokumentti (päiväys 27.10.2015) sekä EBSCO:n erikseen meille 4.12.2015 toimittama dokumentaatio.

EBSCO lupaa EDS:n osalta täyden kattavuuden (all journals) kaikille tarkastelun kohteina olleille lähdeaineistoille paitsi ProQuest Centralille, jonka kohdalla kattavuudeksi ilmoitetaan ’most journals’. Vastaavasti Ex Libris ilmoittaa PCI:n kohdalla kattavuuden (index coverage) olevan 100 % muiden tutkittavien lähdeaineistojen paitsi ACS:n, jonka tiedot puuttuvat kokonaan, ja EBSCO:n tietokantojen kohdalla. EBSCO:n tietokantojen kohdalla kattavuudeksi koko PCI-indeksissä ilmoitetaan korkeimmillaan 95 % (ASE) ja matalimmillaan 79 % (CINAHL). Lisähuomautuksena EBSCON tietokantojen osalta todetaan, että kattavuus PCI:ssä on mitattu nimeketasolla. Epäselväksi jää, mitä tämä tarkoittaa artikkelitasolla.

EBSCO:n aineistojen epämääräisyys PCI:n kattavuusdokumentissa selittyy sillä, että EBSCO ei ole sallinut sen tietokantojen sisällön haravoimista kilpailijoiden palveluihin, kuten esim. PCI:hin. Näin ollen EBSCO:n tietokantojen artikkeleiden löytyvyys PCI-haun kautta on mahdollista vain, jos artikkeleiden viitetiedot löytyvät jonkin muun lähdeaineiston kautta.

Metadatan syvyyden osalta EBSCO lupaa EDS:n mahdollistavan kokotekstihaun kaikkiin muihin tarkastelun kohteena oleviin lähdeaineistoihin paitsi ACS ja ProQuest Central. Muotoilu on tarkalleenottaen seuraava: ‘Full Text Searching for All Titles including all available Subject Headings’.

PCI:n kattavuusdokumentissa merkintä full text searchable merkitsee puolestaan seuraavaa: the full text of records from the collection is indexed’. Olettavasti kokoteksti-indeksointia ei siis luvata artikkelitasolla, vaan artikkeleita kuvailevien tietueiden tasolla. Full text searchable -määritys koskee kaikkia tarkastelussa olleita lähdeaineistoja EBSCO:n tietokantoja ja ACS:ää lukuun ottamatta.

Päivitysnopeuden osalta EBSCO lupaa kaikille lähdeainesitoille jokapäiväisen päivityksen. (EBSCO:n edustajalta saatu tieto). PCI:n kohdalla osa lähdeaineistoista päivittyy viikoittain (Emerald, IEEE, ProQuestin tietokannat, Taylor&Francis) ja osa kuukausittain (ACM, ScienceDirect, Sage).

Löydettävyys artikkelin nimellä haettaessa

PCI:n ja EDS:n kattavuutta lähdettiin Laureassa ja Metropoliassa selvittelemään manuaalisesti tehtyjen hakujen kautta. Tutkittavana oli aiemmin mainittujen 13 lisensioidun tietokannan kautta löydettävä artikkelimuotoinen sisältö. Kustakin natiivitietokannasta haettiin ensin yhteensä 20 kokotekstinä luettavissa olevaa artikkelia. Artikkeleiden tuli olla julkaistu eri lehdissä. Rajauksena käytettiin akateemisia vertaisarvioituja lehtiä. Lyhyitä, mm. ’editorial’ -tyyppisiä kirjoituksia ei kelpuutettu mukaan. Koska oletuksena oli, että artikkelin ilmestymisen ajankohdalla natiivitietokantaan on todennäköisesti myös vaikutusta löydettävyyteen PCI:ssä ja EDS:ssä, artikkelit ryhmiteltiin neljään eri ryhmään tietokantojen tarjoamien filttereiden avulla. 1) Uusimmat artikkelit 2) aiemmin vuonna 2015 julkaistut, 3) vuonna 2014 julkaistut, 4) vuonna 2010 julkaistut. Kussakin ryhmässä oli 5 artikkelia.

Lisäksi tietokantoja tarkasteltiin kahtena eri ryhmänä: EBSCO:n tietokannat ja muut kuin EBSCO:n tietokannat. EBSCO:n tietokantojen sisältämien artikkeleiden löytyvyyslukemien ei ajateltu olevan samalla tavalla vertailukelpoisia EDS:n ja PCI:n välillä kuin muiden tietokantojen artikkeleiden.

Seuraavassa vaiheessa natiivitietokantahauissa valikoituneita artikkeleita haettiin PCI:stä ja EDS:stä fraasihakuna artikkeleiden nimellä. Laurean tietokantakohtaiset tulokset näkyvät taulukoissa 1-2 ja Metropolian tulokset taulukoissa 3-4.

Odotusten mukaisesti uusimmat artikkelit löytyivät varhaisemmin julkaistuja heikommin useimpien tietokantojen kohdalla varsinkin PCI:ssä. EDS selviytyi uusimpien artikkeleiden osalta PCI:tä paremmin. Tulos vastasi palveluntarjoajien kattavuusdokumenteista saatua megaindeksin päivittymistä koskevaa tietoa.

EBSCO:n omien tietokantojen artikkelit löytyivät EDS:stä yhtä artikkelia lukuunottamatta täydellisesti (119/120) molempien kirjastojen testaukset yhteenlaskettuna. PCI:stä EBSCO:n artikkelit löytyivät Laurean testissä 70 %:n ja Metropolian testissä 50 %:n kattavuudella. Huomattavan heikosti (20 %) PCI löysi EBSCO CMMC:n artikkelit. Tämä lukema jäi myös huomattavan kauas Ex Libriksen kattavuusdokumentin CMMC:hen liittyvästä arviosta (81 %).

Muiden kuin EBSCO:n tietokantojen artikkeleiden kohdalla PCI ja EDS suoriutuivat Laurean testissä lähes tasavahvasti. EDS:n kautta haetut 120 artikkelia löytyivät 89-prosenttisesti ja PCI:n vastaava luku oli 87,5 %. Metropolian testissä vastaavat prosenttiluvut olivat EDS:n eduksi 79-74. Tosin jos vertailusta jätetään pois aivan uusimmat artikkelit, luvut kääntyvät kummankin kirjaston vertailuissa PCI:n eduksi.

Tietokantakohtaisessa vertailussa merkittävin poikkeama EDS:n ja PCI:n löytämien artikkeleiden määrässä oli ACM:n kohdalla. PCI löysi haetut artikkelit 75 %:n kattavuudella kun taas EDS:ssä luku jäi 30 %:iin.

Toiseksi suurin ero oli ScienceDirectin artikkelien löytyvyydessä. Lauren PCI-testissä SD:n artikkelit löytyivät 70 %:n kattavuudella ja Metropoliassa 75 %:n, kun taas EDS-testeissä artikkelit löytyivät 100 %:n kattavuudella. Ero selittyy PCI:n kyvytömyydellä löytää aivan uusimpia artikkeleita. Laureassa havaittiin, että tutkimushetkellä noin 700 uusinta ScienceDirectin artikkelia jäi löytymättä PCI-haun kautta. Vanhempien SD:n  artikkeleiden löytyvyys sen sijaan oli sekä PCI:ssä että EDS:ssä erittäin hyvällä tasolla.

Sataprosenttisesti sekä PCI:ssä että EDS:ssä löytyivät ainoastaan Taylor&Francisin artikkelit. Hyvänä kakkosena tässä vertailussa oli PsycARTICLES, jonka artikkeleista vain yksi jäi löytymättä (EDS). Myös ScienceDirectin artikkeleiden löytyvyys aivan uusimpia artikkeleita lukuunottamatta oli edellä mainitujen kanssa samalla tavalla johdonmukaista. Useimpien tietokantojen kohdalla artikkelit löytyivät tyypillisesti 70-85 %:n tarkkuudella.

Kokoteksti-indeksoinnin tutkiminen

Artikkelin nimellä haku antaa vastauksen kysymykseen, onko ko. artikkeli ylipäätään indeksoituna PCI:hin tai EDS:ään. Tavallisesti hakupalveluja käytetään aiheenmukaisen hakuun, jolloin olennaista on se, missä laajuudessa artikkeleihin liittyvä metadata ja tekstimuotoinen sisältö on sisällytetty hakuindekseihin. Jos indeksointi kattaa vain artikkeleiden suppeat viitetiedot, löydettävyys on aiheenmukaisesti haun kannalta huomattavan heikkoa.

Kokoteksti-indeksointia tai sen puuttumista testattiin Laureassa valitsemalla kustakin tietokannasta viisi artikkelia, joiden tekstistä poimittiin useita sanoja sisältänyt lause tai lauseenosa. Tällä sanarimpsulla tehtiin sitten fraasihaku PCI:hin ja EDS:ään. Artikkelit olivat sellaisia, joiden oli havaittu löytyvän PCI:stä ja EDS:stä artikkeleiden nimellä haettaessa.  

PCI:n kohdalla tulos oli pyöreä nolla, kun taas EDS löysi muiden kuin EBSCO:n artikkelit 63-prosenttisesti ja EBSCO:n artikkelit 95-prosenttisesti. Pienestä otannasta huolimatta johtopäätös vaikuttaa selvältä: PCI:ssä artikkeleiden sisältöä ei ole kokoteksti-indeksoitu, kun taas  EDS:ssä kokoteksti-indeksoitua sisältöä on huomattavasti enemmän.

Tiivistelmien sisältyminen indekseihin

Kokoteksti-indeksoinnin puuttuminen heikentää artikkeleiden löytyvyyttä, mutta vahinko pienenee, mikäli artikkelien tiivistelmät on indeksoitu. Tiivistelmien esiintyminen tarkistettiin kummankin kirjaston toimesta  kaikista niistä tietueista, jotka olivat löytyneet artikkelin otsikkohaun tuloksena.

Muiden kuin EBSCO:n artikkelitietokantojen kohdalla tiivistelmä sisältyi löytyneiden artikkeleiden määrään suhteutettuna useammin PCI:n (95 %) kuin EDS:n (88 %) tietueista. Selkeitä puutteita oli ACS:n kohdalla (molemmat indeksit) sekä EDS:ssä lisäksi Emeraldin ja IEEE:n kohdalla. Ebscon artikkelitietokantojen kohdalla PCI ylsi 85 % tulokseen. EDS:n lukema oli odotetusti korkea 93 %.

Aiheenmukaisen haun testaaminen

Laureassa testattiin PCI:n Ja EDS:n hakutulosten määrää kolmella aiheenmukaisella haulla. Hakuja tarkennettiin hakufilttereitä käyttäen siten, että hakutulosten määrä saatiin riittävän pieneksi. Hakutulosten saaminen riittävän pieneksi oli välttämätöntä, jotta hakutulosten määrää pystyttiin tolkullisesti vertailemaan. Varsinkin EDS:n hakutuloksiin havaittiin sisältyvän paljon duplikaatteja. Lisäksi kumpaankin megaindeksiin havaittiin haravoituvan toisinaan esim. ’Instructions to Authors" -otsikoituja ja muita vastaavia sälätietueita.

Ensimmäinen haku tehtiin hakusanoilla ”palliative care” AND Finland. Fraasi ”palliative care” sai esiintyä missä tahansa, hakusanan Finland piti esiintyä asianana (kohdennus EDS:ssä: Subject term;  kohdennus Finnan PCI-haussa: Aihe). Filtteröinti tehtiin vertaisarvioituihin kokoteksteihin, jotka oli julkaistu 2010-luvulla. EDS:ssä hakutuloksia tuli 70, Laurean Finnan PCI-haussa 10.

Toinen haku tehtiin hakusanoilla ”service design” AND Ojasalo. Hakusanojen kohdennusta ei tehty. Filtteröinti tehtiin vertaisarvioituihin kokoteksteihin. EDS:ssä hakutuloksia tuli 32. Laurean Finnan PCI-haussa 34.

Kolmas haku tehtiin hakusanalla biohacking. Hakusanojen kohdennusta ei tehty. Filtteröinti tehtiin vertaisarvioituihin kokoteksteihin. EDS:ssä hakutuloksia tuli 33. Laurean Finnan PCI-haussa 3.

Huomionarvoista hakutuloksissa on se, että esimerkiksi biohacking-haun EDS:n 33 hakutuloksessa oli mukana 6 ScienceDirectin artikkelia, joissa hakusana sisältyi kokotekstiin. Näitä artikkeleita PCI-haku ei kokoteksti-indeksoinnin puuttuessa löytänyt.

Yhteenveto

SeAMKin Jarkko Meronen on Kansalliskirjaston Primo Central Office -aktivointeihin liittyvällä Kiwi-keskustelusivulla todennut, että ”PCI on hyvä lisä, mutta silti valtava möykky hahmottaa”. Otimme tehtäväksemme pilkkoa möykkyä hieman pienempiin paloihin ja yrittää sitä kautta saada hieman tarkempi kuva PCI:n ja sen kilpailijan EDS:n kattavuudesta. Otokset eivät olleet suuria ja megaindekseihin sisällytettyjen lähdeaineistojen määrä suosi EDS:ää, mutta muutaman löydöksen verran uskomme tulleemme viisaammiksi.

EDS asettuu PCI:n edelle indeksin päivitysnopeuden, indeksoinnin syvyyden (artikkeleiden kokoteksti-indeksointi) ja EBSCO:n omien tietokantojen sisältöjen kattavuuden osalta. PCI päihitti EDS:n selvästi oikeastaan vain ACM:n artikkeleiden löytyvyyden osalta.

Muiden kuin EBSCO:n tietokantojen ja ACM:n kohdalla artikkeleiden (muiden kuin aivan uusimpien) viitetiedot sisältyvät megaindekseihin suhteellisen tasavahvasti. Useimpien tietokantojen sisältöjen haravoitumisessa havaittiin puutteita jo pienellä 20 artikkelin otannalla. Sadan prosentin kattavuusilluusio rikkoutui kaikkien muiden tietokantojen kohdalla paitsi Taylor&Francis SSH (EDS ja PCI), PsycARTICLES (PCI) ja ScienceDirect (EDS).

Tarkastelumme oli rajattu koskemaan ainoastaan akateemisten lehtien artikkeleita. Muiden julkaisutyyppien, kuten e-kirjojen, konferenssijulkaisujen, sanomalehtiartikkeleiden jne. löytyvyyden selvittelyn jätimme tällä kertaa tekemättä. Muita mahdollisia lisäselvittelyn kohteita voisivat jatkossa olla kirjastojen omien kokoelmatietokantojen integroiminen EDS:ään ja käytettävyysvertailu finnojen ja EDS:n välillä.

Kommentit

Jätä kommentti