\\Vytěžování dat
Zadanie projektu:
ShlukováníZadání:
Vyberte si data, která jsou použitelná pro shlukování. Data předzpracujte, a naimportujte do DM aplikace. Zvolte si shlukovací algoritmus (k-means, hierarchické shlukování, SOM). Najděte nastavení parametrů zvoleného algoritmu tak, aby produkoval co nejlepší výsledky. Interpretujte výsledky.
Podrobnější specifikace:
1. Výběr dat
Data pro semestrální práci můžete najít na internetu. Doporučená knihovna volně dostupných dat pro strojové učení (UCI) obsahuje stovky různých datových souborů. Pokud máte zájem zpracovávat vlastní data, musí být k dispozici nejpozději následující cvičení. Volbu dat schvaluje váš cvičící! Můžete pokračovat se stejnými daty, se kterými jste pracovali v první semestrální úloze.
2. Předzpracování
Ddbejte aby vámi zvolená data nebyla náročná na předzpracování - měla by obsahovat hlavně číselné atributy (nominální atributy je třeba zakódovat 1zN), minimum chybějících dat (vymazat), žádné odlehlé hodnoty (smazat nebo softmax scaling), atributy stejných rozsahů (minmax normalizace), atd. Data vhodná pro shlukování lze snadno získat například z klasifikačních dat - kategorie se neuvažují, případně slouží jen jako labely (SOM).
3. Import dat
DM aplikace, kterou probíráme na cvičeních je Matlab. Pokud vám nevyhovuje, je možno (na vlastní nebezpečí) použít jiný software - např. Sompak, WEKA, RapidMiner, Mathematica, jazyk R.
4. Volba algoritmu
Máte navýběr z následujících algoritmů:
algoritmus K středů (k- means),
hierarchické shlukování,
samoorganizující se mapa (SOM).
5. Experimenty s parametrizací algoritmů
Proveďte experimenty, které jasně demostrují, jak nastavit zvolený algoritmus pro vaše data. Kritériem pro nastavení parametrů je co nejlepší shluknutí. U algoritmů budete nastavovat následující parametry:
k-means - počet středů, metriky, …
hierarchické shlukování - metoda výpočtu vzdálenosti dvou shluků (linkage), metriky, …
SOM - velikost mapy, okolí, metriky, …
Kritéria pro kvalitu shluknutí:
k-means - průměrná silueta,
hierarchické shlukování - kofeneticky koeficient korelace,
SOM - topograficka chyba, kvantizacni chyba.
Vypracovanie:
Vypracovaním je report(na stiahnutie nižšie).Download:
Výsledná dokumentácia
