Chip, aminek talpa vagy kereke van

Szemantikus web a múzeumban

MúzeumCafé 50.

Cikkemet Kevin Kelly elmefuttatásának [1] összegzésével kezdem. Gondolatmenetét egy 2007-es TEDX-előadáson ismertette, de meglátásai szerintem ma is helytállók. Kelly előadásában kifejti, hogy a hálózat fejlődése a következő szakaszokon ment keresztül: kezdetben a gépeket kapcsolták össze; ez volt a Telnet és a Gopher korszaka, amikor a Telnet program segítségével egy nagyszámítógép termináljáról lehetett bejelentkezni egy másik, távoli nagyszámítógépre, és ott műveleteket lehetett végrehajtani. A Gopher pedig – leegyszerűsítve – a távoli számítógépen található információkhoz való hozzáférést könnyítette meg. Az egész technológia azon alapult, hogy a számítógépek csomagokat továbbítottak és osztottak meg. Minden számítógép részt vett ebben, függetlenül attól, hogy neki szólt-e a csomag vagy sem. A fejlődés következő fázisában már oldalakat kapcsoltak össze. A számítógépet mint egységet felváltotta az oldal mint egység. Ez a World Wide Web korszaka. Ezt mindenki ismeri, hiszen nagyrészt ma, 2015-ben is ebben a korszakban élünk. Ebben a világban mindenkinek meg kell osztania a neten azt, amije van, honlapok és webes szolgáltatások (például online olvasói katalógus) formájában azért, hogy mások is csatlakozhassanak hozzá, és linket helyezhessenek el az oldalára. Ezáltal válunk igazán a World Wide Web részévé. A következő korszak Kelly szerint az adatok összekapcsolásának kora lesz. 2015-ben már azt mondhatjuk, hogy részben ebben a korban élünk. Ezt az időszakot szokás a szemantikus web korának is nevezni, amelyben az adatokat RDF-állítások formájában lehet közzétenni. Ebben a periódusban már adatokat kell közölnünk magunkról, hogy azok más adatokkal interakcióba léphessenek. Minél több adatot közlünk, annál többet vehetünk ki a rendszerből. Egy példával megvilágítva: minél több adatot közlünk magunkról, annál több és testre szabottabb szolgáltatásban lehet részünk a szolgáltatók, a keresőmotorok, így a Google, a közösségi portálok, például a Facebook vagy akár újabban a Windows 10 által. Előfordulhat, hogy valakinek nem éri meg a szolgáltatásokért fizetendő ár, azaz személyes adatainak a kiadása, de nyilvános közgyűjtemények esetében semmilyen tényező nem tarthatja vissza az intézményeket attól, hogy közzétegyék a gyűjteményük egyes darabjait leíró metaadatokat. Fontos megjegyeznünk, hogy az adatok összekapcsolása továbbra is (mint lentebb látni fogjuk az azonosítókkal kapcsolatban) internet-technológián alapul, tehát nincs szükség új infrastruktúra kialakítására sem.

Az adatszintű összekapcsolásnak (több más dologgal együtt) van egy általános, messzire mutató következménye. Ahhoz, hogy az adatokat össze tudjuk kapcsolni, azonosítókra van szükség. Ez evidencia már a relációs adatbázisok korától, sőt még korábbról is. Egy ügyes és valójában nagyon egyszerű technikai fogás, az internetcím megadása és/vagy egy, a feloldási mechanizmusába bevezetett új konvenció révén – amelynek a részleteibe most nem megyek bele – megteremtődött a lehetősége annak, hogy ne csak az interneten létező dolgoknak, hanem a való világ dolgainak is internetes azonosítót adjunk. Azaz az URL-hez hasonló, azzal szinte teljesen megegyező azonosítóval, az URI-val azonosítsuk a weben kívül eső dolgokat, például egy embert. Ez azzal a következménnyel jár, hogy a web ettől kezdve már nemcsak az információk hálózata, hanem a dolgok hálózata is, ez az az egyetlen valami, amelyben minden feloldódik.

A folyamat természetesen kétirányú: nemcsak a dolgok költöznek a webre, hanem a web is beköltözik a dolgokba, például a cipőbe és az autóba is, különféle chipek és szenzorok formájában. Így már a cipőre gondolhatunk úgy is (újra Kevin Kellytől véve a hasonlatot), mint egy olyan chipre, aminek talpa van, az autóra pedig úgy, mint egy olyan chipre, aminek kereke van, és mindkettő rajta van a weben. A web ma már elválaszthatatlan része az életünknek. Még általánosabban fogalmazva: a digitális világ és a materiális világ egyesülni látszik egy valamiben, és egyre inkább kézzelfoghatóvá válik, hogy világunk alapvető építőköve az információ.

Az előző bekezdésekben utaltam rá, de most külön is kiemelem, hogy Kelly szerint a hálózat fejlődésére az a jellemző, hogy egyre többet osztunk meg magunkról. Kezdetben a hálózatra kapcsolt számítógépeknek kellett csomagokat megosztaniuk más számítógépekkel, később már weblapokat osztottunk meg, ma pedig már adatokat. Kelly szerint minél többet osztunk meg magunkról, annál többet tudunk kivenni a rendszerből. Szerinte tehát ez egy pozitív folyamat, amelyből nyertesként jövünk ki a személyre szabott szolgáltatások révén. Ebből nem lehet kimaradni, mert egész egyszerűen a web lesz a világunk, ami többé már nem csupán a fiatalok és a technika iránt érdeklődők „játszótere”, hanem a valóság mindenki számára megkerülhetetlen szelete, amelyből a kulturális intézmények sem maradhatnak ki. Az adatokra épülő szemantikus web építésében a múzeumoknak és könyvtáraknak az a feladatuk, hogy a rekordjaikat RDF-állítások sorozatává (azaz adatokká) konvertálják, állításaikat összekössék a mások által közölt állításokkal, és elérhetővé tegyék bárki számára. Emellett fontos, hogy tudassák a világgal, hogy az adataik hozzáférhetővé váltak a szemantikus weben.

A címben említett ALIADA projekt célja egy olyan ingyenes szoftver fejlesztése, amely felgyorsítja a könyvtárak, múzeumok megjelenését a szemantikus weben, azért, hogy ezek az intézmények is részeivé válhassanak a fentebb – Kelly után szabadon és vázlatosan – felvázolt egy-nek, és élvezhessék ennek előnyeit.

A szemantikus weben való megjelenés egyik legnehezebb kérdése a konverzió, amit eddig mindenki, aki publikált a szemantikus weben, maga oldott meg valamilyen módon egy erre a célra készített, saját fejlesztésű vagy megrendelt egyedi szoftverek segítségével. Az ALIADA azonban a szemantikus weben való megjelenés minden mozzanatát automatizálja. Inputként LIDO- (a múzeumi csereformátum), MARC- (bibliográfiai és besorolási), valamint Dublin Core-rekordokat fogad. Az inputot FRBRoo- (és más, például WGS84-, SKOS-, SKOSXL-, FOAF-, DCTERMS-, OWL-TIME-) állításokká konvertálja, és elhelyezi egy mindenki által hozzáférhető adatbázisban (az úgynevezett „SPARQL-végponton” keresztül). A SPARQL-végponttal rendelkező adatbázisba való betöltés jelenti azt, hogy az intézmény adatai megjelentek a szemantikus weben. A folyamat befejező mozzanata az, hogy az ALIADA szoftver automatikusan regisztrálja az így létrejött adathalmazt az Open Knowledge Foundation által létrehozott Datahub (http://datahub.io) adatbázisban. Valójában ekkor tudatjuk a világgal, hogy megjelentünk a szemantikus weben. A konverzió fontos része, hogy a keletkező állításokat az ALIADA szoftver automatikusan összeköti más állításokkal: például a DBpedia (a Wikipedia szemantikus webes párja) és a VIAF (Virtual International Authority File) állításaival, ezáltal beleszőve a publikáló intézmény adatait a világméretű szemantikus adathálóba.

Az intézményben kell legalább egy rendszermuzeológus/könyvtáros, aki tisztában van a szemantikus web alapjaival, és meg tudja tervezni az intézmény szemantikus weben való megjelenését. Először is ki kell találni, hogy az intézmény milyen adatokat akar közölni a szemantikus weben most és a jövőben. Például egy múzeum, amelynek könyvtára is van, elhatározhatja, hogy mind a könyvtári, mind pedig a múzeumi leíró adatokat publikálni fogja, azaz két adathalmazt (VOID nyelven „dataset”-et) szeretne létrehozni. A következő lépés az, hogy ki kell találni, hogy milyen URI-val akarja publikálni az adatokat. Ahhoz, hogy a rendszerkönyvtáros/muzeológus a tervezésnek azt a szakaszát el tudja végezni, három dokumentumot kell ismernie: az egyik a Cool URIs for the Semantic Web (http://www.w3.org/TR/cooluris/), a másik a Describing Linked Datasets with the VoID Vocabulary (http://www.w3.org/TR/void/), a harmadik pedig a Designing URI Sets for the UK Public Sector (http://www.cabinetoffice.gov.uk/sites/default/files/resources/designing-URI-sets-uk-public-sector.pdf). Tegyük fel, hogy a könyvtár nemcsak leíró adatokat, hanem besorolási rekordokat is közzé szeretné tenni. Ezek lesznek a könyvtári adathalmaz alhalmazai („subsetjei”). Az alhalmaz URI-jainak kialakításához tudnunk kell, hogy az ALIADA a Designing URI Sets for the UK Public Sector című dokumentumban felvázolt névkonvenciót követi. Az ALIADA-felhasználók az ebben a dokumentumban lefektetett keretek között tudnak URI-kat kialakítani. Az idézett dokumentum alapján például ilyeneket lehet létrehozni a két „subset” részére: data.library.szm.hu/id/bib/…, illetve data.library.szm.hu/id/auth/… (az „id” szócska jelentését is az idézett dokumentumban találjuk meg).
A tervezőnek természetesen ismernie kell a szemantikus web alapdokumentumát is. A legjobb, ha ennek az oldalnak az iránymutatásai alapján ássa bele magát: http://www.w3.org/RDF/.

A szemantikus weben való megjelenés tehát ma már egyfajta kötelezettsége a múzeumoknak és a könyvtáraknak, amitől a távoli és elvont célokon túl konkrét eredményeket is várhatunk. Az ALIADA hasznos lehet azoknak a múzeumoknak, amelyek rendelkeznek könyvtárral is, mert használata révén létrejön annak az alapja, hogy mindkét gyűjtemény kereshetővé váljon azáltal, hogy állományuk adatait átkonvertálják FRBRoo-állításokká, majd ezeket kereshetővé teszik például a SolrRDF segítségével.

További lehetőség, hogy az online katalógusban a felhasználók számára extra információkat lehessen nyújtani az ALIADA azon funkciója révén, hogy az a publikált adatokat összeköti más adathalmazok – például a már említett DBpedia –
adataival. Ezeket az adatokat felhasználva kis fejlesztéssel arra is lehetőség nyílik majd például, hogy a hagyományos weben megjelenő katalógusban az alkotó nevétől egyetlen kattintással el lehessen jutni az életrajzáig, vagy egy térképen meg lehessen mutatni a mű keletkezési helyét és egyéb földrajzi vonatkozásait.

Az ALIADA segítségével bárki, aki képes LIDO-, MARC- vagy DC-metaadatokat előállítani az általa használt rendszerből, megjelenítheti az adatait a szemantikus weben. Ez azt jelenti, hogy a múzeumi HUNTÉKA-t, a The Museum Systemet vagy a MuseumPlust használó múzeumok gond nélkül tudják alkalmazni az ALIADA-t.

Az ALIADA ráadásul nemcsak egy nyílt forráskódú szoftver, hanem egy, az Európai Unió által finanszírozott projekt neve is, amelyhez a Szépművészeti Múzeum adatszolgáltatóként, valamint a szoftverrel szembeni elvárások kidolgozásával, teszteléssel és az eredmények széles körű megismertetésével járult hozzá. A projekt által fejlesztett ALIADA elérhető és telepíthető innen: https://github.com/ALIADA/aliada-tool/. A Szépművészeti Múzeum által publikált adatokat pedig innen kiindulva lehet elérni: http://datahub.io/dataset/data-szepmuveszeti-hu.

 

[1] Kevin Kelly: The next 5000 days of the web, TEDX, 2007. december; http://www.ted.com/talks/kevin_kelly_on_the_next_5_000_days_of_the_web.