Adatbányászati technikák
2017 tavasz


               
Előadás:


          Előadó: Csima Judit (csima at cs.bme.hu)
          Előadás: minden hétfőn 8:15-10:00  (QBF09), és  páros heteken csütörtökön 8.15- 10.00 is (QBF08)
          
Labor


Laborvezetők: Csima Judit és Kabódi László  (kabodil at gmail.com)
Labor:  mindhárom csoportnak csütörtökön, 11-es kurzus páratlan heteken 8:15-9:45, 13-as kurzus páratlan heteken 10.15- 11.45, 12-es kurzus páros heteken 10.30-12.00, terem mindig  R4K
            


Zárthelyik:

   1.zh: március 23., 18.15 - 19.45, IB025
 

   2. zh: május 2., 18-20
 
    pótzh: május 16., 10-12
 
    pótpótzh:  ez is lesz majd valamikor, pontos időpont később

Mi volt az előadáson?

    Az alábbi fóliák segítenek tájékozódni a tanult témákról. Az előadásokon főleg a táblát használom, a fóliák csak egy részletes vázlatnak tekinthetők.
    A ZH anyaga az, ami az előadáson elhangzik, ha lényeges eltérés van a fólia és az órai anyag között, azt jelzem.

    1. előadás (február 6., hétfő):  KövetelményekBevezetés az R-hez, Bevezetés az adatbányászathoz (a 23. slide-ig)
     2. előadás (február 13., hétfő): Bevezetés az adatbányászathoz (a maradék slide-ok); Az adatról mindenféle (a Mahalanobis távolságig)
     3. előadás (február 16., csütörtök): Az adatos fóliasorozatról minden, ami nem volt, Előfeldolgozás
(a 21.slide-ig), Egy érdekes előadás arról, hogy hogyan lehet érthetően prezentálni az eredményeket
     4. előadás (február 20., hétfő): Az előfeldolgozás vége (minden slide, ami a múltkor nem volt)
     5. előadás (február 27., hétfő): Az osztályozás eleje (a 27. slide-ig)
     6. előadás (március 2., csütörtök): Osztályozás még mindig (30. slide-ig, de volt sok feladatmegoldás is)
    7. előadás (március 6., hétfő): Osztályozás még mindig (46. slide-ig)
    8. előadás (március 13., hétfő):  Bevezető előadás Python-hoz (a laborhoz kell majd Python, ennek előkészítésére lesz ez az óra)
    9. előadás (március 16., csütörtök): Osztályozás (az összes slide), kNN osztályozó
    10. előadás (március 20., hétfő): Feladatmegoldás a zh előtt

Laborhoz anyagok:


Első rész (R):  feladatkiírás
 
    rstudio letölthető  innen   

1. labor:  rstudio felépítése, help, Alapokelső feladatsor, az első 7 feladat megoldása
2. labor: Beolvasás, kiírás, Függvények, a második feladatsor,  a feladatsorban használt  adatfile, az első feladatsor utolsó 3 feladatának megoldása, a második feladatsor megoldásai
3. labor: Apply-okharmadik  feladatsor az apply-okról, Grafika, egy demo file  a grafikához, a harmadik feladatsor megoldásai
 

Beadandó házifeladat
az R-es részből (határidő április 24., hétfő, reggel 8 óra): feladatkiírás  és a megoldáshoz szükséges adatfile-ok: specdata.zip és korhaz.zip

Második rész (Weka):

Saját gépre kell: Weka 3.6 
(van jre és jre nélküli változat is, ha valakinek van a gépén java, akkor elég a jre nélküli) és python 3, meg numpy Ez utóbbi részhez  a jupyter-t ajánljuk letölteni, abban alapból van minden, ami kell, de ha valaki mást szeretne, lehet nyugodtan más is. Itt egy link az anaconda-hoz, abban benne van  a python és a jupyter is és egyszerű telepíteni.

.


Bevezető a Pythonhoz
 


Követelmények

      Két ZH, mindkettő 35 pontot ér, mindkettőn  legalább 14 pontot el kell érni.
      Legalább az egyik ZHnak elsőre (az eredeti időpontban) sikerülnie kell, a másik pótolható a pótZHval. Utolsó pótlási alkalom valamikor később a pótlási héten.

     A laboron két beadandó házi van, mindkettő 15 pontot ér.  A házik ellenőrzése az utolsó laboron történik.
   
     A laboron az első hat alkalomból legalább ötön részt kell venni.
   
     Összesen 100 pont szerezhető, 40 ponttól elégséges, 55-től közepes, 70-tól jó, 85-től jeles a félévközi jegy.

Tankönyv

        Leginkább ez: Pang-Ning Tan, Michael Steinbach, Vipin Kumar:  Introduction to Data Mining (könyv és slide-ok) http://www-users.cs.umn.edu/~kumar/dmbook/index.php

Az előadások és így a zh anyagát is az órán elhangzottak alkotják.