A keresés alapvetően a szöveges állományokra korlátozódik, kevés kisérleti rendszer létezik csak a kép és hang típusú anyagok keresésére. A szöveges állományok közül is csak a standard HTML és a text kereshető. Az egyéb anyagok általában ezek mentén érhetőek el, tehát például egy kép a hozzá tartozó szöveges leírás alapján található meg. Vannak olyan speciális adatok is, melyek nem Web dokumentumok, de Web kereső rendszerekben szerezhetjük be őket. Ilyenek pl. a telefonszámok, email címek, stb.
A katalógus rendszerek (avagy webliográfiák) hasonlóak
a könyvtári katalógusokhoz, kísérletet tesznek a Weben tárolt anyagok katalogizálására.
A legismertebb ilyen rendszer a Yahoo (http://www.yahoo.com),
a Miningco (http://www.miningco.com),
illetve az Infoseek (http://www.infoseek.com).
Ezekben a rendszerekben a keresés alapvetően böngészést (browsing)
jelent, amikor a keresett dokumentumot a katalógus kategóriáival írjuk
le, és ezek mentén végighaladva találjuk meg (pl. sport - futball - világbajnokság
- France'98 - http://www.worldcup98.com). Természetesen a katalógus rendszerekben
is kereshetünk, de ez csak a katalógus tartalmára korlátozódik.
A katalógus rendszerek legnagyobb problémája a katalogizálás, mely
javarészt manuális munka, és a rohamosan növekedő Web tartalom mellett
egyre nagyobb feladat. Ezek a rendszerek a gyakorlatban nem vállalkoznak
a teljes Web katalogizálására. A manuális katalogizálás ugyanakkor lehetőséget
teremt a tartalom szerinti szűrésre, azaz a katalógus rendszerektől elvárható
a relevánsabb tartalom egy adott témához. Másik hátrányuk, hogy az általános
rendszerek angol nyelvűek, kevés nemzeti nyelvű rendszer létezik még. Magyarországon
leginkább a Magyar Elektronikus Könyvtár (http://www.mek.iif.hu/)
áll közel a katalógus rendszerekhez, mely azonban (igazi könyvtárként)
nemcsak a katalógust, hanem magukat a válogatott dokumentumokat is tartalmazza.
A kereső rendszerek (search engine) ezzel szemben a teljes
Web módszeres és rendszeres végigjárására vállalkoznak, így egy sokkal
teljesebb képpel rendelkeznek a Weben tárolt dokumentumokról. A keresőkben
egy tartalom szerinti, ún. index adatbázis készül el automatikusan, mely
a végiglátogatott helyek dokumentumait tartalmazza valamilyen kivonatos
formában - ez az ún indexelés (indexing). A keresés azután
ezen index adatbázisban történik a felhasználó által megadott szavak alapján.
A rendszer egy találati listát at vissza, amely a megadott szavakra illeszkedő
dokumentumok címeit és rövid kivonatát (a dokumentum elejét, vagy a leginkább
illeszkedő részét) tartalmazza.
A legismertebb kereső rendszerek Magyarországon (elsősorban magyarországi
lapokra) az Altavizsla (http://altavizsla.matav.hu)
és a Heuréka (http://heureka.net.hu),
külföldön (mindenféle nyelvű lapokra) az Altavista (http://altavista.digital.com),
a Northern Light (http://www.nlsearch.com),
vagy az Excite (http://www.excite.com).
Mindegyiknek megvan a maga erőssége és gyengéje, az Altavista indexeli
közel a legtöbb lapot és a leggyakrabban, az Excite néhány közkedvelt kategóriába
rendezi (automatikusan katalogizálja) az indexelt lapokat, a Northern Light
saját dokumentum gyűjteményeket is kínál, és az eredményeket automatikusan
kategóriákba rendezi.
Az ún. meta keresők (meta-search engine) egyszerre több
kereső rendszert felhasználva, azok eredményeit kombinálva állítják elő
a találati listájukat. Legismertebb a MetaCrawler (http://www.metacrawler.com),
a Dogpile (http://www.dogpile.com),
vagy a MetaFind (http://www.metafind.com).
Az általános indexek és kereső rendszerek mellett vannak adott területre
koncentráló szerverek is. Legismertebbek az ftp szerverek tartalomjegyzékeiben
kereső FtpSearch (http://ftpsearch.ntnu.no/),
vagy az email címek és telefonszámok keresésére való rendszerek.
A sebesség egyrészt a rendszer működési sebességét jelenti, de ennél sokkal lényegesebb a rendszer és a saját gépünk közötti hálózati sebesség. Ez egy szélsőségesen változó paraméter, nyilvánvalóan befolyásolja saját Internet kapcsolatunk sebessége, terheltségének eloszlása, de legalább ugyanennyire a kereső rendszer népszerűsége és ahhoz mért kapcsolati sebessége is. Akár napszaktól függően is változhat, hogy mely kereső rendszert érdemes használnunk, vagy egyáltalán melyiket érjük el.
Az index adatbázis mérete és frissessége határozza meg azt, hogy milyen eséllyel találhatunk meg egy adott web lapot a keresővel. A komolyabb keresők adatbázisai százmilliós nagyságrendben tartalmazzák az indexelt lapokat, és körülbelül 4-6 hetente látogatják meg a web szervereket. Ilyen látogatások alkalmával a keresők indexelő szoftverei (crawler) általában a nyitó lapok mindegyikét letőltik, a mélyebben levő lapoknak azonban csak egy részét . A keresők üzemeltetőitől független mérések szerint az Altavista a legátfogóbb, az Excite a leggyakoribb látogató.
A keresési módszerek között az egyszerű keresés, összetett keresés,
koncepció alapú keresés szerepelhet. Egyszerű keresést minden rendszer
kínál, többségüknél használható az összetett keresés is, és csak kevesen
használják a harmadik módszert.
Az egyszerű keresés esetén a visszaadott eredmény vagy az összes kulcsszót
tartalmazó dokumentumok listája, vagy a kulcsszavak előfordulása alapján
sorrendbe rendezett lista (százalékos illeszkedéssel). Az keresők többségénél
használhatóak a + és - szimbólumok, melyekkel a mindenképpen megkívánt
és a semmiképpen sem szereplő kulcsszavak jelölhetőek meg (pl. +cikk -törvénycikk).
Az összetett keresés a már említett Boolean kereséssel valósítható
meg, amikor a kereső kimenete a Boolean mintának megfelelő dokumentumok
listája (pl. "cikk AND NOT törvénycikk"). A keresők közötti különbség itt
a felhasználható kulcsszavakban mutatkozik. Az AND, OR és NOT minden Boolean
keresésben használható, a NEAR (közeli), FAR (távoli), az ADJ (rákövetkező),
FOLLOWED BY (rákövetkező), és a BEFORE (megelőző) már csak néhány helyen,
ezeknél finomabb Boolean keresés csak nagyon kevés helyen (pl. a Lycos-nál)
állítható be.
A koncepció alapú keresés esetén a rendszer kísérletet tesz arra, hogy
az egyes kulcsszavak jelentései közül azt válassza, amely a legközelebb
áll a többi kulcsszóhoz, kifejezéshez. Erre elég kevés példát találni,
a legismertebb az Excite. Bizonyos
keresőknél speciális behatároló kulcsszavakat is használhatunk (pl. Altavista:
"applet:clock" olyan appletet keres, aminek valami köze van a clock szóhoz).
Az eredmények megjelenítésénél a forma általában nagyon hasonló, fontosabb szempontok egyrészt a sorrend megállapítása, másrészt az automatikus kategóriákba szervezés megléte. A találati listán levő dokumentumok sorrendjét esetenként magunk is meghatározhatjuk erre szolgáló szavakkal (pl. Altavista összetett keresés, "result ranking criteria"), más esetekben a kereső használ valamiféle módszert erre. A legjellemzőbb az, hogy nem teljes illeszkedést vizsgáló keresők a megtalált kulcsszavak száma, előfordulási aránya alapján állítanak fel egy sorrendet. Esetenként a találati lista tovább kereshető (pl. Infoseek). Néhány kereső képes arra, hogy a találati listát automatikusan kategóriákba szervezze az eredmények értékelését megkönnyítendő (pl. a Northern Light).
A további értékelési szempontok között szerepel, hogy milyen nyelvű web lapokat kereshetünk (pl. az Altavista 25 nyelven képes keresni), mi a helyzet a kis és nagybetűk megkülönböztetésével, képes-e a kereső a szótövek megtalálására, ragok levágására és illesztésére, valamint használ-e szinoníma szótárt.
A nem tradicionális módszerek között szinte mindent megtalálni a neurális hálózatóktól kezdve a gépi tanuláson át az automatikus szöveg(tartalom)-elemzésig. Több tucat termék is megjelent már, melyek mindegyike "megváltóként" hírdeti az egyszerű és fájdalommentes keresést. Átütő eredményeket azonban egyik általános célú rendszer sem ért el. Ezen a területen inkább a speciális témára épített rendszerek sikeresek.
Ezen "fejlett" kereső rendszerek legtöbbike a kliens gépen futó szoftver, mely alapvetően három (nem technikai) kategória valamelyikébe sorolható: hírdetésekkel szponzorált ingyenes web kereső kliens, "fejlett" módszerekkel felfegyverzett pénzért vásárolható "találmány", vagy egy nagy szoftver cég ingyenes programkája. Általános tulajdonságuk, hogy testre szabottak, azaz megpróbálják kiismerni a használójuk érdeklődési területeit, szokásait, és ezekkel az adatokkal segíteni a keresést, melyet egyébként a hagyományos rendszerekre támaszkodva végeznek el. A területtel átfogóan az információ beszerzés (information retrieval - IR, avagy information gathering) kutatási terület foglalkozik. A terület nem új. és nem az Internet hívta életre; gyakorlatilag a hagyományos könyvtári rendszerek megléte óta létezik, és a 40-es évek környékén vált önálló kutatási területté. Az alapkönyveket az 50-60-as években írták. Az Internet megjelenése csak tovább szinesítette az amúgy is igen nehéz feladatot. Az információ beszerzés kutatásának alapvető területei az automatikus információ (szöveg-) elemzés, szótár konstrukció, statisztikai módszerek, automatikus kategorizálás, a információ beszerzés modelljei, keresési stratégiák, felhasználó modellezés, keresés értékelési módszerek, stb.
Az IR mellett legtöbbet emlegetett fogalom fejlett kereső rendszerek kapcsán az intelligens ágens (intelligent agent), amely egy olyan szoftvert, amely a felhasználó nevében és érdekében önállóan cselekszik. Az ágensek egy alkalmazási területe az információ beszerzés, ahol az infomációs ágens egy olyan szoftvert takar, amely helyettem önállóan képes megkeresni valamit az Interneten. Az ágensem ismer engem (rendelkezik a felhasználói modellemmel), segít megfogalmazni a kérésemet, önállóan lép kapcsolatba a nagy kereső rendszerekkel, beszerzi a találati listát, majd arról a legjobbnak tűnő dokumentumokat beszerezve és értékelve a kérésemnek legjobban megfelelőt rakja a "lábaim elé". Mindeközben az általam kedvelt dokumentumok alapján tovább finomítja a rólam alkotott képét, megtanulja a viselkedési szokásaimat, stb. Ilyen ágensekben sincs hiány. A legtöbbjük egy-két ötlet köré épített szoftver, mely - ha másra nem is jó, de - a hagyományos kereső rendszerekhez nyújt egy szebb, jobban használható, és - kliens oldali szoftver lévén - gyorsabban reagáló interfészt.
A fejlett kereső rendszerek inkább próbálkozások, mintsem megoldások. Kipróbálni mindenképpen érdemes néhányat, mert kényelmesebbé tehetik a keresést, de jelenlegi fejlettségükben biztosan nem fogják megoldani a lényeges problémákat. Néhány ajánlott szabadon letölthető kliens oldali kereső szoftver: Copernic, Alexa, WebMate, és WebCompass.