Wrapper tanulás példák alapján, kezdő- és végződés-mintákkal, melyek hierarchiába rendezett token-típusokból (alpha, caps, html...) tevődnek össze.
Active learning technika: megkeresi azokat a dokumentumokat, melyek címkézése várhatóan a legjobban javítja a pontosságot.
A célkitűzések között szerepel, hogy az adatforrás megjelenésének megváltozására (portál újra designolása) fel legyen készítve.
Klasszikus mediátor mely Web szolgáltatásokat és adatbázisokat is tud hasznosítani információ forrásként.
A mediátor rendszernél a lekérdezési idő ne legyen túl magas, horizontális és vertikális optimalizáció tervkészítéssel.
A fenti projektek valójában egy rendszerré állnak össze: a wrapper tanuló dolgozza fel az adatforrásokat, melyeket a mediátor segítségével integrálnak. A terv végrehajtó optimalizálja a lekérdezéseket. A mediátor inkonzisztenciáinak feloldásában segít a record linkage, míg az adatok térinformatikai kiterjesztése a térképek integrálása.
A projekt a jelenlegi WWW továbbfejlesztését tűzi ki célul. Foglalkozik NLP-vel, információ kinyeréssel, adatbányászattal. Az NLP-vel azonban csak érintőlegesen: a riportok szerint legfeljebb part-of-speech tagging szintjén.
Ahogy a belső riportokból kiderül, az utóbbi időben szinte kizárólag a Google PageRank algoritmusával és klaszterezéssel foglalkoztak.
Itt is volt wrapper learning: Extracting Structured Data from Web Pages. A cikk végén szépen össze is foglalják a Road Runner hiányosságait.
A projekt célja, hogy előálljanak a digitális könyvtárak karbantartásához, használatához szükséges technológiák.
Valójában számtalan nagyobb projektet foglal magába, többek között a WebBase-t.
Különböző forrásokból származó, egyszerűen nem azonosítható egyedek összepárosítása, a tárolt mezők összefésülése. Ez gyakorlatilag a record linkage probléma kiterjesztése.
Adatbázis, mely az adatok mellett azok pontosságát (accuracy) és származását (lineage) is tárolja.
Kicsit olyan, mint egy végtelen történet: az eredmények oldalon olvasható a célkitűzésekről egy iromány Towards a seamless content and knowledge exchange infratructure címmel, majd „First project results are expected in July 2004.”
Automatikus wrapper generálás HTML oldalakhoz. Bemenetként kis számú címkézetlen oldalt vár, melyekben a HTML címkék közötti változó tartalmakat tekinti mezőknek. A wrapper készítésekor reguláris kifejezésekkel írja fel a mezők helyét. Automatikusan felismeri az opcionális vagy ismétlődő elemeket.
Java implementációja GPL licenszű, szabadon letölthető.
Amit első blikkre lehet tanulni az IBM-től: marketing. :) WebFountain, vagyis WebForrás, egy hangzatos név. A projekt főoldalán 5–6 bekezdés marketingduma cégek számára, a „szokásos” választékos nyelvezettel: proaktív, hatékonyság, agilis, valós idejű, kompetitív, innováció, stb.
A bemutatkozás végéből már az is kiderül, hogy sikeresen ötvözték a természetes nyelv feldolgozást (NLP), statisztikai módszereket, bizonytalanság kezelését, gépi tanulást, mintafelismerést és a mesterséges intelligenciát…
Cégek számára a termékeikről szóló véleményeket szeretnék kinyerni a forrásokból (internetes oldalakból és hírcsoportokból), pl. „The Ford Explorer is great” vagy egy jóval nehezebb, irónikus példa: „It's almost as good as the Ford Pinto”.
A forráskörnyezet nagyon nagy, több milliárd oldalból áll. Ebben az értelemben tehát egy mélyebb Google-ről van szó, az adatbányászatnál megszokott méretekben.
A projekt számára egy, a Google-hoz hasonló bejáró motor készült, mely válogatás nélkül igyekszik bejárni az egész Webet, és minél gyorsabban tartani az oldalak frissülésének ütemét.
Adaptív Web crawlert készítettek, mely nem feltételez semmit a bejárandó oldalak frissítési gyakoriságáról. Az oldalak bejárása során felgyülemlő metaadatok alapján hangolja be egyre pontosabban a bejárási stratégiát.
Másrészt adaptív abban az értelemben is, hogy a klaszter a gépek között automatikusan osztja fel a site-okat. Nagyobb site-ok egyszerre több géphez is kerülhetnek. Az oldalak bejárása teljesen elosztott: nincs globális ütemező, vagy lista az összes URL-ről.
A klaszter tagjai a crawlereken kívül a duplikátumokat megkereső gépek és egy irányító. Utóbbi tartja karban a site–crawler hozzárendeléseket, és rajta keresztül adminisztrálható a klaszter.
Edwards, McCurley, Tomlin, An Adaptive Model for Optimizing Performance of an Incremental Web Crawler, 2001
Az IKF jelenlegi elemző keretrendszerének ott a base miners nevű rész felel meg, mely az adatbegyűjtő és adattároló komponensekre építkezik. Az elemzőknek a miner-ek felelnek meg, ide tartozik a named entity recognition, a SPAM szűrés, a táblázatok kinyerése, vagy akár a klaszterezés, osztályozás is. Ezek a komponensek automatikusan feldolgoznak minden bejövő dokumentumot, miközben (a Redbook példája szerint) újabb XML tag-ekkel egészítik ki a dokumentumot.
A magasabb szintű minereket – ezek már egy nagyobb korpuszt vizsgálnak – külön rétegbe, a services közé sorolja. Futtatásukra az alkalmazások képesek, melyek valójában felhasználói felülettel felvértezett minerek.
IBM Redbooks, WebFountain Application Development Guide, 2003