Témacsoport: HTML ellenőrzések, számítógépes
információ-feldolgozás
Felelős: Dr. Kollár István
R ép. I. 10, 17-74, kollar@mit.bme.hu
A számítógép ma már átitatja
az egész életet, legalábbis a mi szakmánkban.
Érdemes tehát kipróbálni az új lehetőségeket,
és olyan eszközöket létrehozni, melyek tantárgyakban,
a munkában, a mindennapokban különböző módon
segítenek, egyszerűbbé teszik az életet. Néhány
ilyen lehetőség:
- A HTML szövegfile-ok szintaktikai és helyesírási
ellenőrzése nem megoldott. Úgy is néznek ki
sok intézmény lapjai. Egy olyan csomag összeállítása
a cél, mely magyar és angol nyelvű HTML oldalak, szövegszerkesztő
dokumentumok stb. helyességét ellenőrzi.
- A Windows alapú Matlab, amelyet mi is használunk, lehetőséget
biztosít arra, hogy olyan Word dokumentumokat készítsünk,
amelyek futtatható Matlab betéteket tartalmaznak. Így
lehetővé válik, hogy önálló tanulásra
alkalmas file-okat készítsünk, melyek a magyarázat
után azonnal "valós" problémák futtatásával
illusztrálják az elmondottakat. A feladat ilyen interaktív
file-ok kipróbálása és fejlesztése jelfeldolgozás,
identifikáció, stb. céljára. A tartalmi háttér
(pl. a jelfeldolgozáshoz szükséges ismeretek) megtanulásában
segítünk, ha kell.
- Egyre terjednek a WWW alapú keresések, de alig van, aki
tudná, hogy kell helyesen eljárni az információk
feltételekor, és kereséskor. A feladat a lehetőségek
felkutatása és kipróbálása.
- WWW oldalak elkészítésekor külön gond,
hogy a sok megadott link automatikus ellenőrzése nem megoldott.
Sok ilyen ellenőrző van, tökéleteset még
nem találtunk. Feladat: a meglévő ellenőrzők
felderítése, a legjobb(ak) forrás-szövegének
megszerzése, és kiegészítése/átírása
a mi céljainknak megfelelően.
- Nem közvetlenül WWW alapú keresés, de érdekes
feladat a számítógépes (CD) adatbázisok
elemzése, különös tekintettel az ún. Impact
Factor-ra. Ez lényegében arra keres választ, hogy
mennyire hivatkoznak egy adott folyóirat cikkeire. Ha közelebbről
megnézzük, akkor az a megdöbbentő, hogy mekkora
rész az önhivatkozás. Ezen alapulna ma az értékelés?
A feladat CD-Rom-os keresések kidolgozása, eredményfile-ok
feldolgozása, és tévhitek lerombolása.
A munka megfelelő részei akár önálló
laboratóriumi feladat, akár diplomaterv formájában
is végezhetők.
Egy-két lehetőség részletesebb leírása
Magyar nyelvű helyesírás-elemzés
Különösen fontosnak látszik a magyar helyesírás
ellenőrzése mind HTML, mind egyéb dokumentumokban.
Ma már szinte mindenki, aki számítógépet
használ, maga írja leveleit és egyéb irományait.
Ha az ember a mondanivalóra koncentrál, be-becsúszik
elgépelés, rossz betű stb. Ezen segít az, ha
a leírt szöveget legalább helyesírási
szempontból ellenőrizni tudjuk.
A magyar nyelv jelentősen eltér a Nyugat-Európai
nyelvektől, ezért speciális algoritmusokra van szükség
az elemzéshez. A különböző MS-Windows verziók
alá, és DOS alá is beszerezhetők helyesírás-ellenőrző
programok. Nincs azonban Unix alatt futó változat.
A fejlesztők hajlandók a Unix alatt futó "engine"-t
rendelkezésünkre bocsátani abból a célból,
hogy felhasználói felületet készítsünk
hozzá. Egy lehetőség az "ispell"-hez (OS4)
vagy "spell"-hez (Solaris) hasonló egyszerű program
létrehozása, de még vonzóbb lenne egy intelligensebb,
interaktív program létrehozása. Az ellenőrizendő
szöveget valószínűleg egyszerűen szóelemekre
kellene bontani, interaktív helyesírás-elemzést
végezni az engine-nel kommunikálva, és a javított
szöveget elmenteni.
Ezzel az ASCII szövegek ellenőrzése megoldódni
látszik. A Unix/Linux felhasználói kört figyelembe
véve azonban célszerű lenne, ha TeX/LaTeX szövegeket,
és HTML szövegeket is közvetlenül ellenőrizni
lehetne. Így például World Wide Web oldalak forrásfile-jait
közvetlenül elemezni lehetne.
Információkeresés WWW-n
Egyre nagyobb a jelentősége a World Wide Web-en alapuló
információkeresésnek. Hamarosan kötelező
lesz minden PhD értekezés kivonatának feltétele
a hálózatra. A rögtön felmerülő kérdések:
- Hogyan érdemes a file-okat feltenni, hogy könnyen kereshetők
legyenek?
- Hogyan lehet a feltett file-okban hatékonyan keresni?
- Mi a teendő postscript, kompresszált postscript, és
pdf file-ok esetén?
- Milyen keresőprogramokat érdemes használni, ezekbe
hogyan lehet az információt belejuttatni?
A feladat megoldások keresése az Interneten, ezek kipróbálása,
implementálása, javaslatok kidolgozása.