Integrált Intelligens Rendszerek Labor


Adat- és szövegbányászat

A labor célja egy elterjedt adatbányászati szoftver, az SPSS cég által fejlesztett Clementine 8.5 megismerése.

Labor menete

  • 1. alkalom: A Clementine adatbányászati rendszer alapjainak elsajátítása, kisfeladat megbeszélése.

  • 2. alkalom: Adatbányászat kisfeladat elkészítése.

  • 3. alkalom: Szövegbányász alapok megismerése, elméleti alapok, textminer csomópont használata, dokumentum-term mátrix elõállítása, stb.

  • 4. alkalom: Szövegbányászat kisfeladat készítése.

  • 5-6. alkalom: Nagyfeladat készítése.

Kisfeladat (Adat- és szövegbányászat)

A feladat egy összetettebb és érdekes, a csoport által kitalált adat- és szövegbányászati feladat megvalósítása a Clementine által nyújtott szolgáltatásokkal. A feladat mindenképpen többet nyújtson a bemutató órán készített egyszerû megoldásoktól, a diagram legalább 8 csomópontot tartalmazzon és legyen benne elõfeldolgozási lépés. Ötleteket szövegbányászathoz lásd alább.

Értékelés:

  • A feladat értelmezése, innováció: 10 pont
  • Megvalósítás, eredmények: 10 pont
  • Dokumentáció: 10 pont
A dokumentáció tartalmazzon egy rövid leírást arról, hogy az adatbázis az elemzés szempontjából milyen attribútumokat tartalmaz. Külön rész szóljon arról, hogy milyen típusú összefüggések keresésének van értelme, és ezekbõl a csoport mit valósított meg a Clementine-al. Szerepeljen a dokumentációban az elemzés diagramja és az egyes feldolgozási csomópontok paraméterei indoklással. Ne maradjon el a következtetés levonása, illetve az, hogy az eredmények egyeznek-e az elõzetes elvárásokkal (ha van ilyen). Fontos a doksi tiszta tagolása, a szemlélteto ábrák és a hozzájuk tartozó magyarázat.

Adatbázisok

Dokumentum kollekciók

SPSS Clementine Text miner konfigurációs állományokról leírás: klikk ide

Ötletbörze szövegbányászat kisfeladathoz

Ötletek, opciók, lehetséges elemzési lépések szövegbányász labor kisfeladathoz. A lista nem kimerítô, inkább csak "brainstorm" jellegû, minden csoport saját magának találja ki a feladatot. Ha valamely csoport nem biztos a dolgában, illetve nem tudja elégséges-e a kitalált feladat az kérdezzen bátran (akár óra elején, akár levélben).

Saját dokumentum kollekció beszerzése
- Néhány link: Varga Péter linkjei, Corpora links in Univ. of Texas
- meghatározott témakör, lehetséges kategóriák
- kategária információ -> külön könyvtárakban
- esetleg több nyelvû
- több féle formátum lehetséges
- XML doksik + metaadatok, programmal metaadatok importálása Clementine-ba

Dokumentum kollekciók beolvasása Clementine-ba
- metaadatok beolvasása XML-bôl
- egyéb táblák elôállítása különféle elemzésekhez, pl. szó-szekvenciák asszociáció kutatáshoz
- Dokumentum részek közötti összefüggés vizsgálata - ehhez spec. beolvasás. Pl. cikkek hasábjai közötti összefüggés
- külsô stemmer használata (magyar! p. szószablya)

TERM súlyozás
- különbözo TERM súlyozások másra lehetnek jók, pl. bináris súlyozás TERM korrelációhoz, TARGET-alapú súlyozás kategorizáláshoz, összehasonlítások 

TERM-ek azonosítása, 
- stoplista bôvités
- domain lista alkalmazása, összehasonlítás!! (szûkebb, tágabb, nélküle)
- különbözô entitások alapján történô elemzés (klaszter, kategória), pl. márkanevek, cégnevek, stb. alapján különbözôek összehasonlitása

dokumentum kollekció elemzés (exploration)
- különbözô; disztribúciók elemzése, tipikusan metaadatokkal érdekes

hibás adatok szûrése, korrekciók
- filter outliers (pl. 0 hosszúságú doksik, duplikációk szûrése)
- kategória információ kihámozása, pl. tipikusan path-ból
- egyéb érdekes metaadatok származtatása, vizsgálata

klaszterezés
- minél jobb klaszterezés elérése ismeretlen dokmentum kollekción, a textminer komponens hangolással
- összetett feladat: klaszterezéssel kategóriák megállapítása + (ha jók a klaszterek) modell tanítás és 1 kategória felismerése új dokumentumokra

kategorizálás
- saját minták (dok. kollekció + kategória info) alapján jó modell készítése kategorizáláshoz
- több kategóriához modell (külön-külön célszerû, de lehet egyszerre is), ezek összehasonlítása
- több fajta modell készítése és összehasonlítása (pl. neurális, döntésifa)

nyelvfelismerés!
- kategorizálással (modell), több nyelvû tanítóminta kell
- klaszterezés, nyelvek meghatározása ismeretlen dokumentum kollekcióban

+ BÁRMILYEN JÓ ÉS ÉRDEKES ÖTLET!!!

Minimálisan jó feladatnak minosül pl. egy saját (hozott) dokumentum kollekció elemzése, elôfeldolgozási lépésekkel, min. 8 db. Clementine node felhasználásával. Ha a kollekció ismeretlen lehet klaszterezés, esetleg klaszterezés + ezek alapján kategorizálás, illetve különféle textminer beállításokkal az eredmények összehasonlítása. Ha ismert és rendelkezésre áll kategória információ (tipikusan a külön kategóriába tartozó doksikat külön alkönyvtárakba célszerû kigyûjteni) akkor modell tanítás és kategorizálás hasonló feltételekkel.