|
-
1.
|
Selekcia
Dáta sa vyberajú alebo segmentujú podľa určitého kritéria. Pre niektoré algoritmy DM stačí vybrať iba vzorky údajov, nie je nutné zapojiť do spracovania všetky údaje z DW.
|
|
|
-
2.
|
Predspracovanie
Znamená čistenie údajov, kde niektoré údaje sú odstraňované, pretože nie sú potrebné, alebo by bránili efektívnemu vyhodnoteniu dotazu. Súčasťou čistenia je aj úprava formátov údajov, napr. kód pohlaví sa unifikuje na binárny atribút s hodnotami 0 a 1.
|
|
|
-
3.
|
Transformácia
Nie sú prenášané iba vyčistené údaje, sú rozšírené o ďalšie atribúty, napr. z externých zdrojov, ktoré obohatia použiteľnosť údajov.
|
|
|
-
4.
|
Dolovanie údajov
Ide o štádium, ktoré sa zaoberá extrakciou vzorov z údajov. Zahŕňa výber techniky a výber konkrétneho algoritmu na riešenie. Vlastné dolovanie údajov môže mať podobu klasifikačných pravidiel alebo stromov, funkčných závislostí, logických pravidiel atď. Výsledky tohto kroku sú značne závislé na predchádzajúcich krokoch.
|
|
|
-
5.
|
Interpretácia a vyhodnotenie
Vzory identifikované systémom sú interpretované ako znalosti, ktoré môžu byť použité na podporu rozhodovania (človeka, programu, RS…).
|
|