Bevezetés a nyelvmérnökségbe          in English
1. Szószintű eszközök BMETE91MX12
2. Mondattan és ami a szószint felett van BMETE91MX13

Tárgykód: BMETE91MX12 - BMETE91MX13
A kurzus célja a természetes nyelvek számítógépen való kezelésének tárgyalása mérnöki szemmel, kiemelve a magyar nyelv specialitásait.

A kurzus felvételéhez ajánlott alap automataelméleti és formálisnyelvekbeli ismeret. (Pl. Bevezetés az automaták algebrai elméletébe TE917077, Nyelvek és automaták TE915023, Nyelvek és automaták VISZM104, Formális nyelvek VIMA2208, Informatika II. VIAU2024, VIAU2017).
Minimális valószínűség-számítási, algoritmuselméleti és programozási tudás.

Rokontárgyak a BME-n:
Kornai András: A természetes nyelvfeldolgozás matematikai alapjai
Szeredi Péter: Bevezetés a szemantikus technológiákba
Gordos Géza, Németh Géza: Beszéd-információs rendszerek
Vicsi Klára: Beszédakusztika: emberi és gépi beszédfeldolgozás
Vicsi Klára: Beszédkommunikáció

Előadások ideje és helye: Az első alkalommal egyeztetjük az időt, hogy mindenkinek megfeleljen.

Előadó: Naszódi Mátyás

TÁRGYKÖVETELMÉNYEK
TEMATIKA
FELADATOK
BESZÁMOLÓK
JEGYZET
Tanulmány 1990-ből

TARGYKÖVETELMÉNYEK

TEMATIKA (nem végleges)
1. Szószintű eszközök
  • A számítógépes nyelvészet helye, feladata
  • Nyelvtörténet, nyelvosztályozás, a nyelvészeti feladatok szintjei
  • Karakterek, kódolások. Betűstatisztikák, és hasznuk, Shannon-féle nyelvazonosítás.
  • Sorrendezési algoritmusok - gyors betűfák: béta- és gammatree.
  • A nyelvi statisztikák megbízhatósági kérdései és korlátai.
  • Szótan - szavak, szóalakok. Miből mennyi van? Aktív és passzív nyelv
  • Generatív modellek morfológiára. Generatív modelltől a gyors analízisig - hatékony szóanalízis eszközei (Ispell, Humor, véges és több szintű automaták, Frey algoritmus). Hely- és időigény viszonya az implementációkban
  • Statisztikai módszerek helyesírás-ellenőrzésnél, korrekciónál és generálásnál. (n-grammok, Markov láncok, shake and bake)
  • Szószintű helyesírás-ellenőrzok minősítése, tesztelése
  • Mérhető-e a mérhetetlen - a helyesírás-ellenőrző minőségének elvi és gyakorlati korlátja
  • Többértelműség a szavak szintjén, annak kiküszöbölése
  • Szóalaktan alkalmazásai - szótárak, intelligens keresés
2. Mondattan, és ami a szószint felett van
  • A természetes nyelvek típusai: izoláló, flektáló, ragozó nyelvek
  • Többértelműség, a természetes nyelvek alaptulajdonsága
  • A környezetfüggetlen nyelvtanok alkalmazása a természetes nyelvekre, és annak korlátai
  • Kétszintű nyelvtanok: rag- és unifikációs nyelvtanok
  • Mondattan - sorrendi és szabad szórendű szabályok a magyar nyelvben
  • Igei és névszói kifejezések
  • Pragmatika és a vonzatok szerepe a szintakszisban
  • Statisztikai módszerek és korpuszok felhasználása a számítógépes nyelvészetben
  • Gépi és géppel segített fordítások
  • Szabály alapú, transzfer alapú, direkt és statisztikai fordítás
  • A fordítáa minőségi problémái - minősítés módszerei
  • "Gyenge" nyelvtanok: lapos, lokális és parciális szintaxis, ezek alkalmazásai

FELADATOK (nem végleges)
1. Szószintű eszközök
  • Univerzális kódkonvertáló
  • Karakterstatisztika
  • Szöveggenerátor statisztika alapján
  • Helyesírás-ellenőrzők összevetése
  • Ajánlóalgoritmusok összevetése
  • Szóstatisztika
2. Mondattan, és ami a szószint felett van

BESZÁMOLÓK (nem végleges)
1. Szószintű eszközök
  • TLFSM
  • ISPELL, MYSPELL
  • n-grammok
2. Mondattan, és ami a szószint felett van
  • AGFL
  • HPSG
  • LFG
  • Metamorphosis Grammar