Adatbányászati technikák házi feladat

Katona Gyula (kiskat@cs.bme.hu), Tóth Ágnes (tothagi@cs.bme.hu)

1. rész

UPDATE: Sajnos csúszott egy hiba a feladatba, az utolsó részben a haszon csak 10$. Elnézést!

Az adatok egy könyvklub tagjaiból néhánynak a The Art History of Florence című könyvet ajánlották. Az adatok a tagok különböző adatai tartalmazzák, valamint azt, hogy az illető megvette-e az említett könyvet (Florence). A változók jelentése:


VARIABLE NAMES DESCRIPTION
Seq#    A tag sorszáma a mintában
ID# A tag azonosító száma
Gender  Neme
M Monetary- Az összes eddig elköltött pénz
R Recency- Az utolsó vásárlás óta eltelt hónapk száma
F Frequency - Az összes vásárlások száma
FirstPurch Az első vásárlás óta eltelt hónapk száma
ChildBks  Ebből a kategóriábó hányat vásárolt: Gyerek
YouthBks  Ebből a kategóriából hányat vásárolt: Ifjúsági
CookBks  Ebből a kategóriából hányat vásárolt: Szakácskönyv
DoItYBks  Ebből a kategóriából hányat vásárolt: Csináld magad
RefBks  Ebből a kategóriából hányat vásárolt: Referencia könyvek
ArtBks  Ebből a kategóriából hányat vásárolt: Művészeti
GeoBks  Ebből a kategóriából hányat vásárolt: Földrajzi
ItalCook  Ebből a könyvből hányat vett:  Az olasz konyha titkai
ItalAtlas Ebből a könyvből hányat vett: Itália történelmi atlasza
ItalArt Ebből a könyvből hányat vett: Italian művészete
Florence  =1  ha megvette az The Art History of Florence.-t
=0  ha nem
Related purchase  Hány hasonló könyvet vett
  1. Alakítsuk az adatokat megfelelő formára: Charles.txt
    Beadandó a szükséges lépések összefoglalása és az átalakított file.
  2. Találjunk minél jobb osztályozást a Florence változóra! (változók kiválasztása, normalizálás, paraméterek beállítása)
    Beadandó a szükséges lépések összefoglalása és az eredmények.
  3. Legyen egy ajánlat kiküldésének költsége 1$ és a haszon egy könyvön 10$. Becsüljük meg, hogy  ha az osztályozás alapján küldünk ajánlatokat, akkor várhatóan mennyivel több lesz a profit  ahhoz képest, mintha véletlenül választjuk ki a tagokat.
    Beadandó a gondolatmenet és az eredmény, némi indoklással.

    A végső határidő az utolsó labor, de bármikor előtte is be lehet adni, akár a laboron, akár e-mailban. Számítsatok arra is, hogy esetlegesen szóban ellenőrizzük, hogy a munkát tényleg magatok csináltátok.