Rozdiel medzi rozhodovacím stromom a náhodným lesom

Obsah:

Anonim

The hlavný rozdiel medzi rozhodovacím stromom a náhodným lesom je to rozhodovací strom je graf, ktorý používa metódu vetvenia na ilustráciu každého možného výsledku rozhodnutia, zatiaľ čo náhodný les je súbor rozhodovacích stromov, ktoré poskytujú konečný výsledok na základe výstupov všetkých jeho rozhodovacích stromov.

Strojové učenie je aplikácia umelej inteligencie, ktorá dáva systému schopnosť učiť sa a zlepšovať sa na základe predchádzajúcich skúseností. Rozhodovací strom a náhodný les sú dve techniky strojového učenia. Rozhodovací strom mapuje možné výsledky série súvisiacich volieb. Je obľúbený, pretože je jednoduchý a zrozumiteľnejší. Keď je množina údajov oveľa väčšia, na nájdenie predpovede nestačí jediný rozhodovací strom. Alternatívou k tomuto problému je náhodný les, ktorý je zbierkou rozhodovacích stromov. Výstup náhodného lesa je založený na výstupoch všetkých jeho rozhodovacích stromov.

Rozhodovací strom, strojové učenie, náhodný les

Čo je to rozhodovací strom

Rozhodovací strom je diagram tvaru stromu, ktorý sa používa na určenie postupu. Každá vetva stromu predstavuje možné rozhodnutie, výskyt alebo reakciu.

S rozhodovacím stromom je spojených niekoľko pojmov. Entropia je meranie nepredvídateľnosti v súbore údajov. Po rozdelení súboru údajov sa úroveň entropie znižuje, pretože klesá nepredvídateľnosť. Informačný zisk je pokles entropie po vyplnení súboru údajov. Je dôležité rozdeliť údaje tak, aby bol informačný zisk vyšší. Konečné rozhodnutia alebo klasifikácie sa nazývajú listové uzly. Vrchný alebo hlavný uzol sa nazýva koreňový uzol. Množinu údajov je potrebné rozdeľovať, až kým sa konečná entropia nestane nulovou.

Jednoduchý rozhodovací strom je nasledujúci.

Obrázok 1: Rozhodovací strom

Hore uvedený strom rozhodovania klasifikuje súbor ovocia. K dispozícii sú 4 hrozno, 2 jablká a 2 pomaranče. Keď vezmeme do úvahy priemer menší ako 5, hrozno je kategorizované na jednu stranu, zatiaľ čo pomaranče a jablká na druhú stranu. Hrozno nemožno ďalej klasifikovať, pretože má nulovú entropiu. Pri kategorizácii na základe farby, tj. Či je červené ovocie červené alebo nie, sa jablká zaraďujú na jednu stranu, zatiaľ čo pomaranče na druhú stranu. Tento rozhodovací strom teda zaraďuje jablko, hrozno alebo pomaranč so 100% presnosťou.

Celkovo je rozhodovací strom ľahko zrozumiteľný, jednoduchšie interpretovateľný a vizualizovateľný. Nevyžaduje veľa prípravy údajov. Dokáže spracovať číselné aj kategorické údaje. Na druhej strane hluk v dátach môže spôsobiť nadmerné vybavenie. Okrem toho môže byť model kvôli malým odchýlkam aj nestabilný.

Čo je Random Forest

Random forest je metóda, ktorá funguje tak, že sa počas tréningovej fázy zostrojí viac rozhodovacích stromov. Rozhodnutia väčšiny stromov sú konečným rozhodnutím náhodného lesa. Jednoduchý príklad je nasledujúci.

Predpokladajme, že existuje sada ovocia (čerešne, jablká a pomaranče). Nasledujú tri rozhodovacie stromy, ktoré kategorizujú tieto tri druhy ovocia.

Obrázok 2: Rozhodovací strom 1

Obrázok 3: Rozhodovací strom 2

Obrázok 4: Rozhodovací strom 3

Modelu je dané nové ovocie, ktorého priemer je 3. Toto ovocie má oranžovú farbu a rastie v lete. Prvý rozhodovací strom ho kategorizuje ako pomaranč. Druhý rozhodovací strom ho zaradí do kategórie čerešní a tretí strom rozhodovania ako oranžový. Pri zvažovaní všetkých troch stromov existujú dva výstupy pre oranžovú. Preto je konečný výstup náhodného lesa oranžový.

Celkovo náhodný les poskytuje presné výsledky pre väčšiu množinu údajov. Znižuje tiež riziko nadmernej výbavy.

Rozdiel medzi rozhodovacím stromom a náhodným lesom

Definícia

Rozhodovací strom je nástroj na podporu rozhodovania, ktorý používa stromový graf alebo model rozhodnutí a ich možných dôsledkov vrátane výsledkov náhodných udalostí, nákladov na zdroje a užitočnosti. Náhodné lesy sú metódou súborového učenia, ktorá funguje tak, že v čase školenia skonštruuje množstvo rozhodovacích stromov a vydá triedu v závislosti od jednotlivých stromov.

Premnožené

V rozhodovacom strome existuje možnosť nadmerného vybavenia. Použitie viacerých stromov v náhodnom lese znižuje riziko nadmernej výbavy.

Presnosť

Náhodný les poskytuje presnejšie výsledky ako rozhodovací strom.

Zložitosť

Rozhodovací strom je jednoduchší a zrozumiteľnejší, interpretovateľnejší a vizualizovateľnejší než náhodný les, ktorý je porovnateľne zložitejší.

Záver

Rozdiel medzi rozhodovacím stromom a náhodným lesom je v tom, že rozhodovací strom je graf, ktorý používa metódu vetvenia na ilustráciu každého možného výsledku rozhodnutia, zatiaľ čo náhodný les je súbor rozhodovacích stromov, ktoré poskytujú konečný výsledok na základe výstupov všetkých svoje rozhodovacie stromy.

Referencia:

1. Algoritmus náhodných lesov - vysvetlený náhodný les | Random Forest in Machine Learning, Simplilearn, 12. marca 2018, K dispozícii tu.

Rozdiel medzi rozhodovacím stromom a náhodným lesom