Integrált Intelligens Rendszerek Labor
Adat- és szövegbányászat
A labor célja egy elterjedt adatbányászati szoftver, az SPSS cég által fejlesztett Clementine 8.5 megismerése.
Labor menete
-
1. alkalom: A Clementine adatbányászati rendszer
alapjainak elsajátítása, kisfeladat megbeszélése.
-
2. alkalom: Adatbányászat kisfeladat elkészítése.
-
3. alkalom: Szövegbányász alapok megismerése, elméleti
alapok, textminer csomópont használata, dokumentum-term mátrix elõállítása,
stb.
-
4. alkalom: Szövegbányászat kisfeladat készítése.
-
5-6. alkalom: Nagyfeladat készítése.
Kisfeladat (Adat- és szövegbányászat)
A feladat egy összetettebb és érdekes, a
csoport által kitalált adat- és szövegbányászati feladat megvalósítása
a Clementine által nyújtott szolgáltatásokkal.
A feladat
mindenképpen többet nyújtson a bemutató órán készített egyszerû megoldásoktól,
a diagram legalább 8 csomópontot tartalmazzon és legyen
benne elõfeldolgozási
lépés. Ötleteket szövegbányászathoz
lásd alább.
Értékelés:
- A feladat értelmezése, innováció: 10 pont
- Megvalósítás, eredmények: 10 pont
- Dokumentáció: 10 pont
A dokumentáció tartalmazzon egy rövid leírást arról,
hogy
az adatbázis
az elemzés szempontjából milyen attribútumokat tartalmaz.
Külön rész szóljon arról, hogy milyen típusú összefüggések
keresésének
van értelme, és ezekbõl a csoport mit valósított meg a Clementine-al.
Szerepeljen
a
dokumentációban az elemzés diagramja és az egyes feldolgozási csomópontok
paraméterei indoklással. Ne maradjon el a következtetés levonása, illetve az,
hogy az eredmények egyeznek-e az elõzetes elvárásokkal (ha van ilyen).
Fontos a doksi tiszta tagolása, a szemlélteto ábrák és a hozzájuk tartozó magyarázat.
Adatbázisok
Dokumentum kollekciók
SPSS Clementine Text miner konfigurációs állományokról leírás: klikk ide
Ötletbörze szövegbányászat kisfeladathoz
Ötletek, opciók, lehetséges elemzési lépések szövegbányász labor kisfeladathoz.
A lista nem kimerítô, inkább csak "brainstorm" jellegû,
minden csoport saját magának találja ki a feladatot. Ha valamely csoport nem
biztos a dolgában, illetve nem tudja elégséges-e a kitalált feladat az kérdezzen
bátran (akár óra elején, akár levélben).
Saját dokumentum kollekció beszerzése
- Néhány link: Varga Péter linkjei,
Corpora links in Univ. of Texas
- meghatározott témakör, lehetséges kategóriák
- kategária információ -> külön könyvtárakban
- esetleg több nyelvû
- több féle formátum lehetséges
- XML doksik + metaadatok, programmal metaadatok importálása Clementine-ba
Dokumentum kollekciók beolvasása Clementine-ba
- metaadatok beolvasása XML-bôl
- egyéb táblák elôállítása különféle elemzésekhez, pl. szó-szekvenciák asszociáció kutatáshoz
- Dokumentum részek közötti összefüggés vizsgálata - ehhez spec. beolvasás. Pl. cikkek hasábjai közötti összefüggés
- külsô stemmer használata (magyar! p. szószablya)
TERM súlyozás
- különbözo TERM súlyozások másra lehetnek jók, pl. bináris súlyozás TERM korrelációhoz, TARGET-alapú súlyozás kategorizáláshoz, összehasonlítások
TERM-ek azonosítása,
- stoplista bôvités
- domain lista alkalmazása, összehasonlítás!! (szûkebb, tágabb, nélküle)
- különbözô entitások alapján történô elemzés (klaszter, kategória),
pl. márkanevek, cégnevek, stb. alapján különbözôek összehasonlitása
dokumentum kollekció elemzés (exploration)
- különbözô; disztribúciók elemzése, tipikusan metaadatokkal érdekes
hibás adatok szûrése, korrekciók
- filter outliers (pl. 0 hosszúságú doksik, duplikációk szûrése)
- kategória információ kihámozása, pl. tipikusan path-ból
- egyéb érdekes metaadatok származtatása, vizsgálata
klaszterezés
- minél jobb klaszterezés elérése ismeretlen dokmentum kollekción,
a textminer komponens hangolással
- összetett feladat: klaszterezéssel kategóriák megállapítása + (ha jók a klaszterek)
modell
tanítás és
1 kategória felismerése új dokumentumokra
kategorizálás
- saját minták (dok. kollekció + kategória info) alapján jó modell készítése kategorizáláshoz
- több kategóriához modell (külön-külön célszerû, de lehet egyszerre is), ezek összehasonlítása
- több fajta modell készítése és összehasonlítása (pl. neurális,
döntésifa)
nyelvfelismerés!
- kategorizálással (modell), több nyelvû tanítóminta kell
- klaszterezés, nyelvek meghatározása ismeretlen dokumentum kollekcióban
+ BÁRMILYEN JÓ ÉS ÉRDEKES ÖTLET!!!
Minimálisan jó feladatnak minosül pl. egy saját (hozott) dokumentum kollekció elemzése,
elôfeldolgozási lépésekkel, min. 8 db. Clementine node felhasználásával.
Ha
a
kollekció ismeretlen
lehet klaszterezés, esetleg klaszterezés + ezek alapján kategorizálás, illetve
különféle textminer beállításokkal az eredmények összehasonlítása. Ha ismert és
rendelkezésre áll kategória információ (tipikusan a külön kategóriába tartozó doksikat
külön alkönyvtárakba célszerû
kigyûjteni) akkor modell tanítás és kategorizálás hasonló feltételekkel.
|