Tartalomjegyzék-szolgáltatás nyolc könyvtár együttműködésével*

Burmeister Erzsébet - Kiss Andrea
Miskolci Egyetem, Könyvtár, Levéltár, Múzeum

Nyolc magyar könyvtár munkatársai a Miskolci Egyetem, Könyvtár, Levéltár, Múzeum vezetésével tartalomjegyzék-adatbázist építenek három népszerű szabad felhasználású szoftver (Apache webszerver, MySQL relációs adatbázis-kezelő és PHP HTML-be ágyazható parancsértelmező nyelv) segítségével, amelyben több mint 100 magyar kiadású folyóirat tartalomjegyzékét dolgozzák fel. Magyarországon ez az első olyan tartalomjegyzék-szolgáltatás, amely nemcsak a folyóiratszámok tartalomjegyzékének böngészését, hanem a szerző és/vagy a címben levő szavak keresését is lehetővé teszi.
Elérhetősége: http://www.matarka.hu.


* A cikk anyaga részben elhangzott előadás formájában az Informatika a felsőoktatásban 2002 konferencián, Debrecenben.


Bevezetés

A tudományok legfrissebb eredményeiről, a műszaki fejlődés újdonságairól köztudottan leggyorsabban a szakfolyóiratokból és ma már az internetről szerez tudomást a kutató, a könyvtáros és az érdeklődő ember. Az interneten a megbízható (lektorált, ellenőrzött) információk többnyire előfizetéses adatbázisokon keresztül érhetők el. Közöttük fontos szerepet játszanak a folyóiratok cikkeit és egyéb kiadványokat (monográfiák, konferenciák, kutatási jelentések stb.) bibliográfiai módszerekkel feldolgozó adatbázisok, amelyek sok esetben vagy maguk is tartalmazzák a dokumentumok teljes szövegét, vagy különböző interfészeken keresztül biztosítják ezekhez a hozzáférést.

Magyarországon is sok, szakfolyóiratok cikkeit feldolgozó adatbázis létezik (a Fővárosi Szabó Ervin Könyvtár bibliográfiai adatbázisai, az Országgyűlési Könyvtár Pressdoc és Hundok sajtófigyelő adatbázisa, a BME OMIKK műszaki cikkeket feldolgozó adatbázisai stb.). Ezek az adatbázisok mind nagyon jól használhatók a tájékoztatásban, de mindegyik csak egy-egy részterületet dolgoz fel.

Az alaposabb feldolgozású bibliográfiai adatbázisok általában szelektáltan dolgozzák fel a folyóiratokat, de feltétlenül csak a cikkekre koncentrálnak. Ezzel szemben az egyszerűbb leírású tartalomjegyzék-adatbázisokba egy folyóirat teljes tartalma bekerül, olyan részek is, amelyek teljes egészében kimaradnak az előzőekből.

A mi célunk egy olyan adatbázis létrehozása volt, amely a gyors tájékozódásra és tájékoztatásra jó, és felöleli a magyar kiadású folyóiratok egyre nagyobb hányadát. A bibliográfiai adatbázisok építése sok munkát és komoly könyvtárosi szaktudást igényel, emiatt többnyire csak szűk szakterületre korlátozottan valósítható meg. Ezért úgy döntöttünk, hogy a folyóiratok cikkeit nem bibliográfiai, hanem tartalomjegyzék szinten dolgozzuk fel. Így egységnyi idő alatt sokkal nagyobb mennyiségű anyag dolgozható fel. Mivel a cikkek címének többsége utal a témájára, a gyors tájékozódáshoz gyakran elegendő a címben való keresés. A szerző(k), a cím és a folyóirat ismeretében a tájékozott könyvtáros már el tudja dönteni, hogy ajánlhatók-e a szerző és/vagy cím kulcsszavas kereséssel megtalált cikkek az adott témában. Szemünk előtt a SwetsBlackwell közismert SwetsnetNavigator tartalomjegyzék-szolgáltatása lebegett, amely most az Oktatási Minisztérium EISZ (Elektronikus Információ Szolgáltatás) programja keretében a felsőoktatási és tudományos kutatóintézetekben elérhető (http://www.om.hu/eisz/). A SwetsnetNavigator több mint 17 000 folyóirat tartalomjegyzékét dolgozza fel. Sajnos magyar kiadású folyóirat nincs közte.

Magyar kiadású folyóiratok tartalomjegyzékei rengeteg helyen megtalálhatók az interneten,

a gondozásában.

A MEK (Magyar Elektronikus Könyvtár) is gyűjti az internetes tartalomjegyzék-szolgáltatásokat
( http://www.mek.iif.hu/porta/virtual/magyar/efolyir/toc/link). A legtöbb ilyen szolgáltatás azonban csak statikus HTML oldalakat kínál, ahol egyes folyóiratszámok tartalomjegyzéke böngészhető, de szerző és cím szerinti keresés az összes szám tartalomjegyzékében egyszerre nem lehetséges.

A szolgáltatás története

2001-ben az NKÖM (Nemzeti Kulturális Örökség Minisztériuma) Olvasás éve telematikai pályázatán tartalomjegyzék-szolgáltatás létrehozását pályáztuk meg, és nyertünk egymillió Ft támogatást. Célunk akkor az volt, hogy 15 magyar nyelvű és kiadású tudományos (műszaki és természettudományi) folyóirat tartalomjegyzékét dolgozzuk fel havi frissítéssel, és 10 évre visszamenően is saját erőből. Vagyis ingyenesen felhasználható szoftvereket (Apache, MySQL, PHP) alkalmazunk UNIX operációs rendszer felett, és magunk készítjük el az adatbeviteli, illetve lekérdező programokat.

2002. január elején kezdtünk el dolgozni. Az alábbi feladatokat kellett elvégezni:

A Miskolci Egyetem, Könyvtár, Levéltár, Múzeum 12 könyvtárosa február végén már elkezdte az adatbevitelt. A pályázat teljesítésének határideje szorított, igyekezni kellett. Közben folyamatosan finomítottuk a szoftverünket, elkezdtük a lekérdezést végző programok megírását. Szolgáltatásunk májusban már működött. Azóta a szolgáltatás továbbfejlesztése folyik:

2002-ben újból pályázott könyvtárunk az NKÖM-nél, de most már nyolc együttműködő könyvtár nevében, és 2,5 millió forint támogatást kaptunk. A nyolc könyvtár vállalja 2003. március 31-ig 75 további folyóirat tartalomjegyzékének 10 évre visszamenő bevitelét. Így a folyóiratok száma 15+22+75=112-re emelkedik. A közös adatbevitelt az alábbi könyvtárak végzik:

A távolságok ellenére a közös munka e-mail és telefon segítségével könnyen megvalósítható. A feldolgozó könyvtárosoknak két részletes segédlet készült:

A felhasznált szabad szoftverek

Apache. A weboldalakat szolgáltató webszerver. Honlapjuk: http://www.apache.org.
MySQL. A világ legnépszerűbb nyílt forráskódú relációs adatbázis-kezelője, több mint kétmillió helyen telepítették. A MySQL AB svéd cég készíti, és ingyenesen hozzáférhetővé teszi. Honlapjuk: http://www.mysql.com.
PHP. Eredeti neve: Personal Home Page Tools, mai neve: Hypertext Preprocessor. Olyan önállóan használható programozási nyelv, amely képes nagyméretű webes adatbázis-alkalmazások működtetésére is. Tulajdonképpen kiszolgáló oldali programozási nyelv, amit jellemzően HTML oldalakon használnak. A hagyományos HTML oldalakkal szemben azonban a kiszolgáló a PHP parancsokat nem küldi el az ügyfélnek, azokat a kiszolgáló oldalán a PHP értelmező dolgozza fel. A programokban lévő HTML elemek érintetlenül maradnak, de a PHP kódok lefutnak. A kódok végezhetnek adatbázis-kezelést (feltöltés, lekérdezés), dinamikusan létrehozhatnak képeket, fájlokat olvashatnak és írhatnak. Honlapjuk: htttp://www.php.net.

Az Apache + PHP + MySQL szoftverek együttese közkedvelt megoldásnak számít, igen sok honlap készül ezzel a technikával. Az Apache és a PHP biztosítja a stabil HTTP szervert és a programozási nyelvet, mellyel dinamikus weboldalakat készíthetünk, míg a MySQL adatbázis-kezelő rendszer az adatok tárolását teszi lehetővé.

Az adatbázis létrehozása és a PHP programok elkészítése

A legfontosabb feladat bármilyen alkalmazás létrehozásánál az alapos, átgondolt tervezés. A cél ismeretében legelőször az adatbázist kell megtervezni.

Az 1. ábrán láthatók az adatbázis táblái és a köztük levő kapcsolatok. A táblák felvétele nem tart sokáig, de a táblák szerkezetének, egymással való kapcsolatának kialakítása komoly megfontolást kíván. Ezzel sok későbbi bosszúságot és felesleges munkát takaríthatunk meg.

Az adatbázis tábláinak kapcsolata

1. ábra. Az adatbázis tábláinak kapcsolata

A szaggatott vonallal rajzolt táblák kapcsolótáblák, azonosító számokat rendelnek egymáshoz, például a cikkszerzo tábla minden sora egy cikk számához hozzárendeli a szerzőinek számát. Egy cikkhez maximum 5 szerzőt engedünk meg, vagyis egy cikkszámhoz maximum 5 sor tartozhat a táblában.

Az 1. táblázat mutatja a relációs adatbázis tábláit. A vastag betűs mezőnevek egyedi azonosítók, ún. kulcsok, amelyekre a tábla indexelve van, vagyis az adatok gyorsan kereshetők.

1. táblázat
A Tartalom adatbázis táblái

A tábla neve mező mező mező mező mező mező mező mező mező mező mezo
Foly fsz fcim ISSN sorozat kozreado bib. leiras konyvtar szak fcim-besor    
Fuzet fuzetsz fsz vol ev szam            
Cikk cikksz fuzetsz cikkcim cimfoly elso_oldal sorszam ev url filemeret fileformat tipus
Cimszo cikksz szosz                  
Szerzo szerzosz szerzonev n_szerzo                
Szerzoszo szerzosz szosz                  
Cikkszerzo cikksz szerzosz rend                
Szo szosz szo                  

Az adatbázis folyamatosan növekedik. A cikk írásának időpontjában (2002. december) tartalma: 41 494 cím (ebből 33 988 címhez tartozik szerző is), 17 423 szerző, 43 170 cikkszerző kapcsolat, 63 417 szó, 3653 ugrópont teljes szövegre.

Eddig több mint 50 php, illetve inc kiterjesztésű fájl készült. Van még ezenkívül 8 jpg fájl az egyedi, csinos megjelenítéshez. A beviteli programok elkészítése sokkal több munkát vett igénybe, mint a lekérdezések programjai. Szükség volt segédprogramokra is a konvertáláshoz, hibakereséshez, indexeléshez stb.

Adatbevitel

Először készültek el az adatbevitelhez szükséges HTML oldalak a beágyazott PHP sorokkal, hogy a könyvtárosok elkezdhessék a munkát. A folyóiratok, a kötetek, füzetek (vagy számok) és cikkek felvehetők, módosíthatók, törölhetők. A 2. ábrán látható a cikkbeviteli űrlap.

Cikkbeviteli űrlap

2. ábra Cikkbeviteli űrlap

Lekérdezés

A bevitt tartalomjegyzékek egyrészt böngészhetők a folyóirat adott kötetének adott száma szerint, vagy kereshetők a címben levő szavak, illetve a szerzők szerint. A lekérdező oldalon kétféle keresési lehetőségre van mód. Egyszerű kereséssel a szerzők és kulcsszavak böngészhetők, majd a hozzájuk tartozó cikkek megjeleníthetők, összetett kereséssel a szerző(k) neve és/vagy a címben levő szavak kombinálhatók, és úgy képezhetők a találati halmazok. Az összetett keresési módnál lehet idő, szakterület és folyóirat szerint szűkíteni. Egyszerű keresésénél csak idő szerint lehet szűkíteni. A 3. ábra egy találati listát mutat.

MATARKA
Magyar folyóiratok tartalomjegyzékeinek kereshető adatbázisa

Összesen: 10 találat

Szerzők: Köllő János
Tudás-avulás és '-öregedés' a rendszerváltozás utáni Magyarországon Teljes szöveg (HTML)
In: Magyar tudomány, ISSN 0025-0325
2002. (47. (108.) köt.) 4. sz. 440-446. old.
Szerzők: Kertesi Gábor, Köllő János
Az ágazati bérkülönbségek forrásai (II. rész)
In: Munkaügyi szemle, ISSN 0541-3559
2001. (45. évf.) 9. sz. 26. old.
Szerzők: Kertesi Gábor, Köllő János
Az ágazati bérkülönbségek forrásai (I. rész)
In: Munkaügyi szemle, ISSN 0541-3559
2001. (45. évf.) 7-8. sz. 54. old.
Szerzők: Köllő János
Hozzászólás az elmaradt minimálbérvitához Teljes szöveg (PDF)
In: Közgazdasági szemle, ISSN 0023-4346
2001. (48. évf.) 12. sz. 1064. old.
Szerzők: Kertesi Gábor, Köllő János
A gazdasági átalakulás két szakasza és az emberi tőke átértékelése. A bérszerkezet átalakulása Magyarországon 1986-1999 - III. rész Teljes szöveg (PDF)
In: Közgazdasági szemle, ISSN 0023-4346
2001. (48. évf.) 11. sz. 897. old.
Szerzők: Köllő János
Comment
In: Szociológiai szemle, ISSN 1216-2051
1999. Spec. szám 147. old.
Szerzők: Köllő János
Hozzászólás Gábor R. István vitaindítójához
In: Szociológiai szemle, ISSN 1216-2051
1998. 4. sz. 109. old.
Szerzők: Kertesi Gábor, Köllő János
Regionális munkanélküliség és bérek az átmenet éveiben. A bérszerkezet alakulása Magyarországon II. rész. Teljes szöveg (PDF)
In: Közgazdasági szemle, ISSN 0023-4346
1998. (45. évf.) 7-8. sz. 621. old.
Szerzők: Kertesi Gábor, Köllő János
Reálbérek és kereseti egyenlőtlenségek, 1986-1996. A bérszerkezet alakulása Magyarországon, I.rész Teljes szöveg (PDF)
In: Közgazdasági szemle, ISSN 0023-4346
1997. (44. évf.) 7-8. sz. 612. old.
Szerzők: Köllő János, Nagy Gyula
Bérek a munkanélküliség előtt és után Teljes szöveg (PDF)
In: Közgazdasági szemle, ISSN 0023-4346
1995. (42. évf.) 4. sz. 325. old.
Vissza a kezdőlapra

3. ábra Szerzőre keresés találati oldala

A folyóiratok feldolgozása

Elvek

A feldolgozás során ragaszkodtunk a tartalomjegyzék sorrendiségéhez, akkor is, ha az nem követte a cikkek oldalszám szerinti sorrendjét az adott folyóiraton belül. A tartalomjegyzékben szereplő rovatcímeket először elhagytuk, de most már lehetséges a rovatcímek felvétele is. Az oldalszámokat viszont sosem a tartalomjegyzék szerint vettük fel, hanem a folyóirat átvizsgálása során állapítottuk meg a tényleges oldalszámot. A szerzők nevét nem egységesítettük.

Tapasztalatok

Pozitívumok

Negatívumok

Problémák

A feldolgozás során az alapvető gondot az okozza, hogy a tartalomjegyzékek messzemenően nem tükrözik az adott folyóirat tartalmát.

El kell dönteni, hogy a tartalomjegyzékhez szigorúan ragaszkodva felvállaljuk-e az előforduló (nem kevés!) pontatlanság átvételét, avagy teljes egészében a folyóirat tartalmához igazodva történjen az adatfelvétel. Utóbbi esetben azonban lényegesen több cikk (köztük számos, információforrásként lényegében használhatatlan kisebb hír) lenne feldolgozva, ami nagyságrendekkel meghosszabbítaná a feldolgozás folyamatát, és irreleváns információkkal telítve az adatbázist, megnehezítené a keresést.

A harmadik lehetőség, amihez végül mi folyamodtunk, szintén számos buktatót rejt magában. E módszer lényege, hogy a tartalomjegyzékhez ragaszkodtunk annyiban, hogy csak azokat a cikkeket dolgoztuk fel, amelyeket ott feltüntettek, és abban a sorrendben, ahogy ott szerepeltek. De az ezekben az adatokban szereplő hibákat igyekeztünk kijavítani. Gyakran azonban nehéz eldönteni, hogy mennyiben szükséges tükrözni a tartalomjegyzéket, és mennyiben célszerű az adatok pontosítására időt és energiát fordítani.

A felbukkanó problémák alapvetően három csoportba oszthatók:

1. A tartalomjegyzék kevesebb, mint a tényleges tartalom:

2. A tartalomjegyzék több, mint a tényleges tartalom:

3. A tartalomjegyzék más, mint a tényleges tartalom:

Összefoglaló

A szolgáltatást a közelmúltban megkereszteltükA szolgáltatás további kibővítését tervezzük, hiszen az adatbevitel nagyon gyorsan megy, és a felsorolt negatívumok ellenére a szolgáltatás sok mindenre használható:

A szolgáltatást a közelmúltban megkereszteltük, hogy a felhasználók könnyebben megtalálhassák a kezdőlapot az interneten. A domainnév regisztrálása folyamatban van. Így az elérhetőség hamarosan megváltozik: www.matarka.hu. A MATARKA név feloldása: MAgyar TARtalomjegyzékek Kereshető Adatbázisa. Eredetileg a TARKA nevet szerettük volna, de ezt már mások más célra lefoglalták.

Mivel adatrögzítésre nem mindig lehet pályázni, ezért egyre nagyobb hangsúlyt szeretnénk fektetni az automatizálásra, vagyis már digitális formában meglevő tartalomjegyzékek konvertálására, illetve fel szeretnénk venni minél több kiadóval a kapcsolatot, hogy ők - már gyakran a megjelenés előtt - küldjék el nekünk megfelelő formátumban a tartalomjegyzékeket, melyeket azonnal be tudnánk vinni az adatbázisba, és azok így már a megjelenés előtt elérhetővé válnának.


Irodalom

LÁSZLÓ József: Dinamikus weboldalak, CGI programozás Windows és Linux rendszereken. 2002.
ZANDSTRA, Matt: Tanuljuk meg a PHP4 használatát 24 óra alatt. 2001.
MOULDING, Peter: PHP haladóknak. Fekete könyv. 2002.
TÓTH Gábor: Ingyen hozzáférhető tartalomjegyzék-szolgáltatások a Weben.
http://www.mek.iif.hu/porta/szint/tarsad/konyvtar/forras/tocs/
= Tudományos és Műszaki Tájékoztatás, 46. köt. 3. sz. 1999. p. 91-100.