Förhécz András: Projektek

Knoblock (Information Integration Research Group)
- Mercury – Data Extraction and Modeling: Wrapper Learning
  Wrapper tanulás példák alapján, kezdő- és végződés-mintákkal, melyek hierarchiába rendezett token-típusokból (alpha, caps, html...) tevődnek össze.
  Active learning technika: megkeresi azokat a dokumentumokat, melyek címkézése várhatóan a legjobban javítja a pontosságot.
  A célkitűzések között szerepel, hogy az adatforrás megjelenésének megváltozására (portál újra designolása) fel legyen készítve.
- Prometheus – Data Integration (Mediator)
  Klasszikus mediátor mely Web szolgáltatásokat és adatbázisokat is tud hasznosítani információ forrásként.
- Theseus – Plan Execution
  A mediátor rendszernél a lekérdezési idő ne legyen túl magas, horizontális és vertikális optimalizáció tervkészítéssel.
- Egyéb, számunkra kevésbé érdekes projektek:
  - Különböző adatforrásokból származó mezők azonosítása, összepárosítása (record linkage).
  - Térképek képi és vektoradatainak integrálása, pl. utak illesztése műholdképekre (geospatial integration).
  - Példa komplex integrátor alkalmazás az utazásszervezés feladatra (constraint-based integration).
- A fenti projektek valójában egy rendszerré állnak össze: a wrapper tanuló dolgozza fel az adatforrásokat, melyeket a mediátor segítségével integrálnak. A terv végrehajtó optimalizálja a lekérdezéseket. A mediátor inkonzisztenciáinak feloldásában segít a record linkage, míg az adatok térinformatikai kiterjesztése a térképek integrálása.
Ullman (Stanford University Database Group)
- Stanford Global InfoBase
- Stanford Digital Library Technologies
  A projekt célja, hogy előálljanak a digitális könyvtárak karbantartásához, használatához szükséges technológiák.
  Valójában számtalan nagyobb projektet foglal magába, többek között a WebBase-t.
- The Stanford WebBase
- SERF Project – entity resolution
  Különböző forrásokból származó, egyszerűen nem azonosítható egyedek összepárosítása, a tárolt mezők összefésülése. Ez gyakorlatilag a record linkage probléma kiterjesztése.
- TRIO
  Adatbázis, mely az adatok mellett azok pontosságát (accuracy) és származását (lineage) is tárolja.
Guarino
- Laboratory for Applied Ontology
  - Metokis
    Kicsit olyan, mint egy végtelen történet: az eredmények oldalon olvasható a célkitűzésekről egy iromány Towards a seamless content and knowledge exchange infratructure címmel, majd „First project results are expected in July 2004.”
- Institute of Cognitive Sciences and Technologies
Università di Roma Tre – Database Group
- Road Runner
  Automatikus wrapper generálás HTML oldalakhoz. Bemenetként kis számú címkézetlen oldalt vár, melyekben a HTML címkék közötti változó tartalmakat tekinti mezőknek. A wrapper készítésekor reguláris kifejezésekkel írja fel a mezők helyét. Automatikusan felismeri az opcionális vagy ismétlődő elemeket.
  Java implementációja GPL licenszű, szabadon letölthető.
IBM Almaden Research Center
- WebFountain projekt
  - Marketing
    Amit első blikkre lehet tanulni az IBM-től: marketing. :) WebFountain, vagyis WebForrás, egy hangzatos név. A projekt főoldalán 5–6 bekezdés marketingduma cégek számára, a „szokásos” választékos nyelvezettel: proaktív, hatékonyság, agilis, valós idejű, kompetitív, innováció, stb.
    A bemutatkozás végéből már az is kiderül, hogy sikeresen ötvözték a természetes nyelv feldolgozást (NLP), statisztikai módszereket, bizonytalanság kezelését, gépi tanulást, mintafelismerést és a mesterséges intelligenciát…
  - Célkitűzések
    Cégek számára a termékeikről szóló véleményeket szeretnék kinyerni a forrásokból (internetes oldalakból és hírcsoportokból), pl. „The Ford Explorer is great” vagy egy jóval nehezebb, irónikus példa: „It's almost as good as the Ford Pinto”.
    A forráskörnyezet nagyon nagy, több milliárd oldalból áll. Ebben az értelemben tehát egy mélyebb Google-ről van szó, az adatbányászatnál megszokott méretekben.
  - Web Crawler
    A projekt számára egy, a Google-hoz hasonló bejáró motor készült, mely válogatás nélkül igyekszik bejárni az egész Webet, és minél gyorsabban tartani az oldalak frissülésének ütemét.
    Adaptív Web crawlert készítettek, mely nem feltételez semmit a bejárandó oldalak frissítési gyakoriságáról. Az oldalak bejárása során felgyülemlő metaadatok alapján hangolja be egyre pontosabban a bejárási stratégiát.
    Másrészt adaptív abban az értelemben is, hogy a klaszter a gépek között automatikusan osztja fel a site-okat. Nagyobb site-ok egyszerre több géphez is kerülhetnek. Az oldalak bejárása teljesen elosztott: nincs globális ütemező, vagy lista az összes URL-ről.
    A klaszter tagjai a crawlereken kívül a duplikátumokat megkereső gépek és egy irányító. Utóbbi tartja karban a site–crawler hozzárendeléseket, és rajta keresztül adminisztrálható a klaszter.
    Edwards, McCurley, Tomlin, An Adaptive Model for Optimizing Performance of an Incremental Web Crawler, 2001
  - Elemzők – náluk
    Az IKF jelenlegi elemző keretrendszerének ott a base miners nevű rész felel meg, mely az adatbegyűjtő és adattároló komponensekre építkezik. Az elemzőknek a miner-ek felelnek meg, ide tartozik a named entity recognition, a SPAM szűrés, a táblázatok kinyerése, vagy akár a klaszterezés, osztályozás is. Ezek a komponensek automatikusan feldolgoznak minden bejövő dokumentumot, miközben (a Redbook példája szerint) újabb XML tag-ekkel egészítik ki a dokumentumot.
    A magasabb szintű minereket – ezek már egy nagyobb korpuszt vizsgálnak – külön rétegbe, a services közé sorolja. Futtatásukra az alkalmazások képesek, melyek valójában felhasználói felülettel felvértezett minerek.
    IBM Redbooks, WebFountain Application Development Guide, 2003

Utolsó frissítés: 2004. 11. 10.