Témakiírás

Számítástudományi és Információelméleti Tanszék

Témakiírás

Big Data technológiák alkalmazása nagyméretű adatok elemzésére

Napjainkban hatalmas érdeklődés övezi a nagyméretű adatok hatékony tárolására, kezelésére és elemzésére alkalmas Big Data eszközöket. Több szektor, többek között a telekommunikációs és a pénzügyi, hatalmas mennyiségű adatot generál napi szinten, melynek gyors és hatékony elemzése elengedhetetlen. A hallgató feladata megismerni a Big Data világában uralkodó tervezési elveket, illetve a jelenleg legelterjedtebb eszközök egy csoportját, a Hadoop stack-et. A hallgatónak össze kell állítania egy (single-node) tesztkörnyezetet, amelyen dolgozni fog. Meg kell oldania az adatgyűjtést, illetve a keletkezett adat betöltését Hadoop fájlrendszerbe. A betöltött adatokon adattisztítási műveleteket kell Spark segítségével megvalósítania, mely során elsajátíthatja a map-reduce paradigma és a funkcionális programozás logikájának alapjait. A megtisztított adatokon elemzéseket kell végeznie, amiben segítségére lesz a gépi tanulásra és statisztikai modellezésre kifejlesztett Spark MLlib. A feladatot az iparban jelenleg ezen a területen a két legkeresettebb programozási nyelv (Python és Scala) egyikén kell megoldania. A téma kidolgozása során betekintést nyerhet a két közel legfelkapottabb szakma, a data science és data engineering világába.

Kulcsszavak: adatelemzés, data science, data engineering, Big Data, Hadoop, Spark, MLlib, map-reduce, Python, Scala

Irodalom:

White: Hadoop - The Definitive Guide
Miner, Shook: MapReduce Design Patterns
Frampton: Mastering Apache Spark

Zlatniczki Ádám
doktorandusz
I.E.-2.17.2 (telefon: 31-58)

adam.zlatniczki@cs.bme.hu