\\SK \\EN \\DE 
 
\\ADAM NETOČNÝ\\PORTFÓLIO

\\Vytěžování dat

Zadanie projektu:

Shlukování

Zadání:

Vyberte si data, která jsou použitelná pro shlukování. Data předzpracujte, a naimportujte do DM aplikace. Zvolte si shlukovací algoritmus (k-means, hierarchické shlukování, SOM). Najděte nastavení parametrů zvoleného algoritmu tak, aby produkoval co nejlepší výsledky. Interpretujte výsledky.
Podrobnější specifikace:

1. Výběr dat

Data pro semestrální práci můžete najít na internetu. Doporučená knihovna volně dostupných dat pro strojové učení (UCI) obsahuje stovky různých datových souborů. Pokud máte zájem zpracovávat vlastní data, musí být k dispozici nejpozději následující cvičení. Volbu dat schvaluje váš cvičící! Můžete pokračovat se stejnými daty, se kterými jste pracovali v první semestrální úloze.

2. Předzpracování

Ddbejte aby vámi zvolená data nebyla náročná na předzpracování - měla by obsahovat hlavně číselné atributy (nominální atributy je třeba zakódovat 1zN), minimum chybějících dat (vymazat), žádné odlehlé hodnoty (smazat nebo softmax scaling), atributy stejných rozsahů (minmax normalizace), atd. Data vhodná pro shlukování lze snadno získat například z klasifikačních dat - kategorie se neuvažují, případně slouží jen jako labely (SOM).

3. Import dat

DM aplikace, kterou probíráme na cvičeních je Matlab. Pokud vám nevyhovuje, je možno (na vlastní nebezpečí) použít jiný software - např. Sompak, WEKA, RapidMiner, Mathematica, jazyk R.

4. Volba algoritmu

Máte navýběr z následujících algoritmů:

algoritmus K středů (k- means),
hierarchické shlukování,
samoorganizující se mapa (SOM).

5. Experimenty s parametrizací algoritmů

Proveďte experimenty, které jasně demostrují, jak nastavit zvolený algoritmus pro vaše data. Kritériem pro nastavení parametrů je co nejlepší shluknutí. U algoritmů budete nastavovat následující parametry:

k-means - počet středů, metriky, …
hierarchické shlukování - metoda výpočtu vzdálenosti dvou shluků (linkage), metriky, …
SOM - velikost mapy, okolí, metriky, …

Kritéria pro kvalitu shluknutí:

k-means - průměrná silueta,
hierarchické shlukování - kofeneticky koeficient korelace,
SOM - topograficka chyba, kvantizacni chyba.

Vypracovanie:

Vypracovaním je report(na stiahnutie nižšie).
SOM mapa
Download:
Výsledná dokumentácia

Google+ Profile

Valid XHTML 1.0 Transitional