Keresés az Interneten

Készítette Mészáros Tamás, BME MIT, utolsó módosítás: 1998 július 2
Eredeti lap: http://www.mit.bme.hu/~meszaros/doc/web/kereses.html
Véleményedet, megjegyzéseidet és kérdéseidet szívesen látom a levélben!
    Ma már közhely, hogy az Interneten tárolt információ mennyisége robbanásszerűen növekszik. A legismertebb információ tárolására, közvetítésére és megjelenítésére alkalmas rendszer a Web (World Wide Web), amelyben a dokumentumokat szolgáltató szerverek száma milliós, a tárolt dokumentumoké pedig százmilliós nagyságrendű, s mindezen számok nagyjából hathavonta duplázódnak. A web csak egy a meglevő sok információs rendszer közül. Ismertebbek még az ftp szerverek, a hírcsoportok (Usenet News), és a gopher. Ez a kis dokumentum a Web kereséshez kíván segítséget nyújtani.

Mit kereshetünk a Weben?

    A Web rendszerekben tárolt dokumentumok többsége szöveges formátumú, melyek egy része "sima" szöveg (plain text), a többsége viszont megjelenítési és Web kapcsolati utasításokkal teletűzdelt speciális formátumú szöveg, ún hipertext (HTML). Ezeket a dokumentumokat egészíti ki kép, videó, hang és ezernyi más formátumú anyag (Postscript, PDF, VRML, programkód, stb, stb), melyek letöltésére és megjelenítésére a Web böngészők (Netscape, Internet Explorer, Lynx, stb) használhatóak.

A keresés alapvetően a szöveges állományokra korlátozódik, kevés kisérleti rendszer létezik csak a kép és hang típusú anyagok keresésére. A szöveges állományok közül is csak a standard HTML és a text kereshető. Az egyéb anyagok általában ezek mentén érhetőek el, tehát például egy kép a hozzá tartozó szöveges leírás alapján található meg. Vannak olyan speciális adatok is, melyek nem Web dokumentumok, de Web kereső rendszerekben szerezhetjük be őket. Ilyenek pl. a telefonszámok, email címek, stb.

Hogyan kereshetünk a Weben?

    A Web keresés jelenlegi alapvető eszközei az ún. kereső és katalógus rendszerek (search engine, index), melyek speciális tartalmú Web szerverek - a megszokott Web böngészőnk használatával érhetjük el őket. A két elnevezés mögött két alapvetően eltérő filozófiájú rendszer húzódik meg.

A katalógus rendszerek (avagy webliográfiák) hasonlóak a könyvtári katalógusokhoz, kísérletet tesznek a Weben tárolt anyagok katalogizálására. A legismertebb ilyen rendszer a Yahoo (http://www.yahoo.com), a Miningco (http://www.miningco.com), illetve az Infoseek (http://www.infoseek.com). Ezekben a rendszerekben a keresés alapvetően böngészést (browsing) jelent, amikor a keresett dokumentumot a katalógus kategóriáival írjuk le, és ezek mentén végighaladva találjuk meg (pl. sport - futball - világbajnokság - France'98 - http://www.worldcup98.com). Természetesen a katalógus rendszerekben is kereshetünk, de ez csak a katalógus tartalmára korlátozódik.
A katalógus rendszerek legnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedő Web tartalom mellett egyre nagyobb feladat. Ezek a rendszerek a gyakorlatban nem vállalkoznak a teljes Web katalogizálására. A manuális katalogizálás ugyanakkor lehetőséget teremt a tartalom szerinti szűrésre, azaz a katalógus rendszerektől elvárható a relevánsabb tartalom egy adott témához. Másik hátrányuk, hogy az általános rendszerek angol nyelvűek, kevés nemzeti nyelvű rendszer létezik még. Magyarországon leginkább a Magyar Elektronikus Könyvtár (http://www.mek.iif.hu/) áll közel a katalógus rendszerekhez, mely azonban (igazi könyvtárként) nemcsak a katalógust, hanem magukat a válogatott dokumentumokat is tartalmazza.

A kereső rendszerek (search engine) ezzel szemben a teljes Web módszeres és rendszeres végigjárására vállalkoznak, így egy sokkal teljesebb képpel rendelkeznek a Weben tárolt dokumentumokról. A keresőkben egy tartalom szerinti, ún. index adatbázis készül el automatikusan, mely a végiglátogatott helyek dokumentumait tartalmazza valamilyen kivonatos formában - ez az ún indexelés (indexing). A keresés azután ezen index adatbázisban történik a felhasználó által megadott szavak alapján. A rendszer egy találati listát at vissza, amely a megadott szavakra illeszkedő dokumentumok címeit és rövid kivonatát (a dokumentum elejét, vagy a leginkább illeszkedő részét) tartalmazza.
A legismertebb kereső rendszerek Magyarországon (elsősorban magyarországi lapokra) az Altavizsla (http://altavizsla.matav.hu) és a Heuréka (http://heureka.net.hu), külföldön (mindenféle nyelvű lapokra) az Altavista (http://altavista.digital.com), a Northern Light (http://www.nlsearch.com), vagy az Excite (http://www.excite.com). Mindegyiknek megvan a maga erőssége és gyengéje, az Altavista indexeli közel a legtöbb lapot és a leggyakrabban, az Excite néhány közkedvelt kategóriába rendezi (automatikusan katalogizálja) az indexelt lapokat, a Northern Light saját dokumentum gyűjteményeket is kínál, és az eredményeket automatikusan kategóriákba rendezi.
Az ún. meta keresők (meta-search engine) egyszerre több kereső rendszert felhasználva, azok eredményeit kombinálva állítják elő a találati listájukat. Legismertebb a MetaCrawler (http://www.metacrawler.com), a Dogpile (http://www.dogpile.com), vagy a MetaFind (http://www.metafind.com). Az általános indexek és kereső rendszerek mellett vannak adott területre koncentráló szerverek is. Legismertebbek az ftp szerverek tartalomjegyzékeiben kereső FtpSearch (http://ftpsearch.ntnu.no/), vagy az email címek és telefonszámok keresésére való rendszerek.

A Web keresés lépései

    A Web keresés is "olyan, mint a matematika: mindent szabad, ami örömet okoz." (dr. Rózsa Pál, BME). Nincs bevált, és mindenki által követendő módszertan. Mindenki saját magának alakítja ki kedvenc stratégiáját. Minden keresés egyedi: még ugyanaz az ember sem biztos, hogy valamit kétszer ugyanúgy talál meg, sőt az sem biztos, hogy másodjára megtalálja, amit első alkalommal igen. Az itt megfogalmazott lépések inkább jótanácsok, mintsem egy mindenkinél beváló menetrend elemei. Azért érdemes végigolvasni és kipróbálni ezeket a lépéseket, mert jó trükköket tanulhat az ember menet közben.
Fogalmazd meg, hogy mit keresel!
A keresés első lépése az analízis. Az elképzelt dokumentum alapján a keresési minta (kulcsszavak, kategóriák) előállítása, melyek a keresés sikere alapvetően múlik. Rosszul választott kulcsszavak könnyen vezetnek a "nem találok semmit" és a "532,983 találat" két szélsőséges végeredmény valamelyikére.
Első lépés a kategóra leírása, azaz megpróbáljuk a keresett dokumentumot témája alapján a katalógus rendszerek kategóriáinak valamelyikébe besorolni..
A második lépés a kulcsszavak kiválasztása. Azokat a szavakat és kifejezéseket (idézőjelek közötti szavak) kell megfogalmazni, melyek a lehető legpontosabban körülhatárolják a keresett dokumentumot, egyrészt pozitív (megerősítés), másrészt negatív (kizárás) alapon (pl. szerepeljen benne a cikk szó, de ne szerepeljen benne a törvénycikk szó).
Próbálj ki egy általános kereső rendszert!
Ha sikerült jól eltalálni a kulcsszavakat, akkor egy kereső rendszer egyből visszaadhatja a keresett dokumentumot (pl. az Altavizsla jó találatot ad a "VB'98 Franciaország" keresési mintára). Itt érdemes inkább pontosabb kifejezésekkel próbálkozni, mint kulcsszavakkal. Előnyös azokat a kereső rendszereket alkalmazni, melyek képesek az eltalált kulcsszavak és kifejezések alapján egy százalékos illeszkedési mutatót is visszaadni (pl. a meta keresők, vagy a Northern Light).
Ez a lépés az esetek csak kis részében vezet eredményre, de gyorsasága miatt mindenképpen érdemes kipróbálni. Ezen kívül segíthet további kulcsszavak megfogalmazásában is, elsősorban a nem releváns anyagokat kizáró szavakat sorolhatunk fel az első eredményeket látva.
Jöhetnek a katalógusok!
Ha a keresett dokumentum jól katalogizálható, akkor egy általános célú katalógus rendszerben a nyomára lehet bukkanni. A siker itt kevésbé a kulcsszavakon, sokkal inkább a katalógus kategória pontos megállapításán áll vagy bukik, illetve azon, hogy a dokumentum mennyire tartozik az "általános érdeklődésre számot tartó anyagok" közé. Az "érdemes-e" kérdés hatékony eldöntéséhez rutin szükséges.
Sokan feleslegesnek értékelik ezt a lépést, mivel a nehezen katalogizálható, vagy az új, és széles körben nem ismert dokumentumok esetén nem sok esély van a találatra. Ilyen esetekben a speciális, az adott szűk területre koncentráló (ún. dedikált) katalógusok, Web gyűjtemények jöhetnek szóba. Ilyen állandó gyűjtemények felkutatására azonban már jól használhatóak a katalógus rendszerek. Ezek a gyűjtemények általában egyszerű web lapok, ahol a terület legfontosabb Web helyei, a legfrisebb hírek, stb. vannak felsorolva (mindig érdemes ellenőrizni a lap utolsó módosítási dátumát).
Ismét vissza a kereső rendszerekhez
Ha az első "hirtelen" keresés és a katalógusok nem vezettek eredményre, akkor a kereső rendszerek módszeresebb használata következik. Itt már a felsorolt kulcsszavak mindegyikére szükség van: a lehető legpontosabban kell körülírni a keresett dokumentumot. Ehhez általában az összetett keresést (advanced search) kell igénybe venni. Ennek alapvető módszere az ún. Boolean keresés, amikor a kulcsszavakat és kifejezéseket egy Boolean kifejezésbe foglaljuk az AND, OR, NOT, esetenként a NEAR és ADJ kulcszavakkal (pl. Altavizsla: "(keresés NEAR Internet) AND (ismét NEAR vissza)"). A Boolean keresésre nem minden rendszer képes. A százalékos találati arány szerint rendező keresők (pl. Northern Light) esetében a keresési ablakba minél több kulcsszót, kifejezést kell írni.
A keresés esetenként többször is megismételendő a találattól függően. A két szélsőséges eset (minden vagy semmi) között kell eltalálni azt, amikor a visszaadott dokumentumok száma ésszerűen kicsi; vagy azt az esetet, amikor a találati lista elején van, amit kerestünk.

A tradicionális keresők értékelése

Ez a fejezet annak megismeréséhez nyújt segítséget, hogy milyen szempontok alapján válogathatunk a keresők között. A szempontok közül a legfontosabbak a sebesség, az index adatbázis mérete és frissessége, keresési módszerek, és az eredmények tálalási módja.

A sebesség egyrészt a rendszer működési sebességét jelenti, de ennél sokkal lényegesebb a rendszer és a saját gépünk közötti hálózati sebesség. Ez egy szélsőségesen változó paraméter, nyilvánvalóan befolyásolja saját Internet kapcsolatunk sebessége, terheltségének eloszlása, de legalább ugyanennyire a kereső rendszer népszerűsége és ahhoz mért kapcsolati sebessége is. Akár napszaktól függően is változhat, hogy mely kereső rendszert érdemes használnunk, vagy egyáltalán melyiket érjük el.

Az index adatbázis mérete és frissessége határozza meg azt, hogy milyen eséllyel találhatunk meg egy adott web lapot a keresővel.  A komolyabb keresők adatbázisai százmilliós nagyságrendben tartalmazzák az  indexelt lapokat, és körülbelül 4-6 hetente látogatják meg a web szervereket. Ilyen látogatások alkalmával a keresők indexelő szoftverei (crawler) általában a nyitó lapok mindegyikét letőltik, a mélyebben levő lapoknak azonban csak egy részét . A keresők üzemeltetőitől független mérések szerint az Altavista a legátfogóbb, az Excite a leggyakoribb látogató.

A keresési módszerek között az egyszerű keresés, összetett keresés, koncepció alapú keresés szerepelhet. Egyszerű keresést minden rendszer kínál, többségüknél használható az összetett keresés is, és csak kevesen használják a harmadik módszert.
Az egyszerű keresés esetén a visszaadott eredmény vagy az összes kulcsszót tartalmazó dokumentumok listája, vagy a kulcsszavak előfordulása alapján sorrendbe rendezett lista (százalékos illeszkedéssel). Az keresők többségénél használhatóak a + és - szimbólumok, melyekkel a mindenképpen megkívánt és a semmiképpen sem szereplő kulcsszavak jelölhetőek meg (pl. +cikk -törvénycikk).
Az összetett keresés a már említett Boolean kereséssel valósítható meg, amikor a kereső kimenete a Boolean mintának megfelelő dokumentumok listája (pl. "cikk AND NOT törvénycikk"). A keresők közötti különbség itt a felhasználható kulcsszavakban mutatkozik. Az AND, OR és NOT minden Boolean keresésben használható, a NEAR (közeli), FAR (távoli), az ADJ (rákövetkező), FOLLOWED BY (rákövetkező), és a BEFORE (megelőző) már csak néhány helyen, ezeknél finomabb Boolean keresés csak nagyon kevés helyen (pl. a Lycos-nál) állítható be.
A koncepció alapú keresés esetén a rendszer kísérletet tesz arra, hogy az egyes kulcsszavak jelentései közül azt válassza, amely a legközelebb áll a többi kulcsszóhoz, kifejezéshez. Erre elég kevés példát találni, a legismertebb az Excite. Bizonyos keresőknél speciális behatároló kulcsszavakat is használhatunk (pl. Altavista: "applet:clock" olyan appletet keres, aminek valami köze van a clock szóhoz).

Az eredmények megjelenítésénél a forma általában nagyon hasonló, fontosabb szempontok egyrészt a sorrend megállapítása, másrészt az automatikus kategóriákba szervezés megléte. A találati listán levő dokumentumok sorrendjét esetenként magunk is meghatározhatjuk erre szolgáló szavakkal (pl. Altavista összetett keresés, "result ranking criteria"), más esetekben a kereső használ valamiféle módszert erre. A legjellemzőbb az, hogy nem teljes illeszkedést vizsgáló keresők a megtalált kulcsszavak száma, előfordulási aránya alapján állítanak fel egy sorrendet. Esetenként a találati lista tovább kereshető (pl. Infoseek). Néhány kereső képes arra, hogy a találati listát automatikusan kategóriákba szervezze az eredmények értékelését megkönnyítendő (pl. a  Northern Light).

A további értékelési szempontok között szerepel, hogy milyen nyelvű web lapokat kereshetünk (pl. az Altavista 25 nyelven képes keresni), mi a helyzet a kis és nagybetűk megkülönböztetésével, képes-e a kereső a szótövek megtalálására, ragok levágására és illesztésére, valamint használ-e szinoníma szótárt.

Fejlett kereső rendszerek

    Bármennyire is segítőkészek, a tradicionális kereső rendszerek nem oldják meg a keresés problémáját - ez a kis dokumentum is azért született, mert a keresésnek még mindig nagyon sok olyan manuális eleme van, melyek kiváltására a mai rendszerek nem képesek. A kereső rendszerek fejlesztésére dollármilliókat költenek, de a tradicionális módszerek nem vezetnek teljes eredményre.

A nem tradicionális módszerek között szinte mindent megtalálni a neurális hálózatóktól kezdve a gépi tanuláson át az automatikus szöveg(tartalom)-elemzésig. Több tucat termék is megjelent már, melyek mindegyike "megváltóként" hírdeti az egyszerű és fájdalommentes keresést. Átütő eredményeket azonban egyik általános célú rendszer sem ért el. Ezen a területen inkább a speciális témára épített rendszerek sikeresek.

Ezen "fejlett" kereső rendszerek legtöbbike a kliens gépen futó szoftver, mely alapvetően három (nem technikai) kategória valamelyikébe sorolható: hírdetésekkel szponzorált ingyenes web kereső kliens, "fejlett" módszerekkel felfegyverzett pénzért vásárolható "találmány", vagy egy nagy szoftver cég ingyenes programkája. Általános tulajdonságuk, hogy testre szabottak, azaz megpróbálják kiismerni a használójuk érdeklődési területeit, szokásait, és ezekkel az adatokkal segíteni a keresést, melyet egyébként a hagyományos rendszerekre támaszkodva végeznek el. A területtel átfogóan az információ beszerzés (information retrieval - IR, avagy information gathering) kutatási terület foglalkozik. A terület nem új. és nem az Internet hívta életre; gyakorlatilag a hagyományos könyvtári rendszerek megléte óta létezik, és a 40-es évek környékén vált önálló kutatási területté. Az alapkönyveket az 50-60-as években írták. Az Internet megjelenése csak tovább szinesítette az amúgy is igen nehéz feladatot. Az információ beszerzés kutatásának alapvető területei az automatikus információ (szöveg-) elemzés, szótár konstrukció, statisztikai módszerek, automatikus kategorizálás, a információ beszerzés modelljei, keresési stratégiák, felhasználó modellezés, keresés értékelési módszerek, stb.

Az IR mellett legtöbbet emlegetett fogalom fejlett kereső rendszerek kapcsán az intelligens ágens (intelligent agent), amely egy olyan szoftvert, amely a felhasználó nevében és érdekében önállóan cselekszik. Az ágensek egy alkalmazási területe az információ beszerzés, ahol az infomációs ágens egy olyan szoftvert takar, amely helyettem önállóan képes megkeresni valamit az Interneten. Az ágensem ismer engem (rendelkezik a felhasználói modellemmel), segít megfogalmazni a kérésemet, önállóan lép kapcsolatba a nagy kereső rendszerekkel, beszerzi a találati listát, majd arról a legjobbnak tűnő dokumentumokat beszerezve és értékelve a kérésemnek legjobban megfelelőt rakja a "lábaim elé". Mindeközben az általam kedvelt dokumentumok alapján tovább finomítja a rólam alkotott képét, megtanulja a viselkedési szokásaimat, stb. Ilyen ágensekben sincs hiány. A legtöbbjük egy-két ötlet köré épített szoftver, mely - ha másra nem is jó, de - a hagyományos kereső rendszerekhez nyújt egy szebb, jobban használható, és - kliens oldali szoftver lévén - gyorsabban reagáló interfészt.

A fejlett kereső rendszerek inkább próbálkozások, mintsem megoldások. Kipróbálni mindenképpen érdemes néhányat, mert kényelmesebbé tehetik a keresést, de jelenlegi fejlettségükben biztosan nem fogják megoldani a lényeges problémákat. Néhány ajánlott szabadon letölthető kliens oldali kereső szoftver: Copernic, Alexa, WebMate, és WebCompass.

További olvasmányok

Collections of Search Engines
Glossary for Information Retrieval
The Spider's Apprentice--Tips on Searching the Web
Searcher: The Magazine for Database Professionals
SIGIR
Search Engine Watch
Intelligent Agents
Information Agents