Rekurzivno podjelu igra temeljnu i središnju ulogu u algoritmu ID3, dobro poznatom algoritmu indukcije stabla odluka. Kao dobavljač algoritama ID3, razumijevanje ove uloge ključno je za pružanje rješenja i usluga visoke kvalitete našim klijentima.
1. Uvod u algoritam ID3
Algoritam ID3 (iterativni dihotomiser 3) razvio je Ross Quinlan 1986. godine. Njegov je glavni cilj konstruirati stablo odluke iz skupa podataka za klasifikacijske zadatke. Algoritam djeluje rekurzivnim dijeljenjem skupa podataka na podskupine na temelju vrijednosti atributa. Glavna ideja koja stoji iza ID3 je odabir atributa koji pruža najviše dobitaka informacija u svakom koraku procesa konstrukcije stabala. Mjere dobivanja informacija koliko se entropija (mjera nečistoće ili slučajnosti) smanjuje kada se skup podataka podijeli na temelju određenog atributa.
2. Koncept rekurzivne podjele
Rekurzivna particija je strategija podjele - i osvajanja. To uključuje više puta dijeljenje velikog skupa podataka na manje i homogene podskupine dok se ne ispuni kriterij zaustavljanja. U kontekstu algoritma ID3, to znači da na svakom unutarnjem čvoru stabla odluke odaberemo atribut i podijelimo skup podataka na temelju vrijednosti tog atributa.
Razmotrimo jednostavan primjer. Pretpostavimo da imamo skup automobila, uključujući značajke kao što su boja, brend i vrsta motora, a ciljna varijabla je li automobil novo - energetsko vozilo ili ne. ID3 algoritam započet će gledanjem svih dostupnih atributa. Na primjer, ako podijelimo skup podataka na temelju atributa "Brand", možda ćemo dobiti podskupine automobila za različite marke poput Volkswagen, Toyota, itd. Tada će, za svaki od ovih podskupova, algoritam ponovo potražiti najbolji atribut koji će se podijeliti, a ovaj se proces nastavlja rekurzivno.
3. Uloga rekurzivne podjele u odabiru atributa
Jedna od ključnih uloga rekurzivne podjele u algoritmu ID3 je u odabiru atributa. Na svakom koraku konstrukcije stabala algoritam mora odlučiti koji atribut koristiti za dijeljenje skupa podataka. ID3 algoritam koristi dobitak informacija kao kriterij za odabir atributa.
Dobitak informacija atributa (a) s obzirom na skup podataka (d) izračunava se kao:
[Ig (d, a) = h (d)-\ sum_ {v \ u vrijednosti (a)} \ frac {| d_v |} {| d |} h (d_v)]
gdje je (h (d)) entropija skupa podataka (d), (vrijednosti (a)) je skup svih mogućih vrijednosti atributa (a), (d_v) je podskup (d) za koji atribut (a) ima vrijednost (v), a (\ frac {| d_v |).
Rekurzivna particija omogućuje algoritmu da procijeni dobitak informacija različitih atributa na svakoj razini stabla. Na primjer, u našem skupu podataka automobila, kada smo na korijenskom čvoru, izračunavamo dobitak informacija za atribute "boja", "brand" i "vrstu motora". Ako atribut "Brand" ima najveći dobitak informacija, podijelili smo skup podataka na temelju marke. Zatim, za svaku marku - specifični podskup, opet izračunavamo dobitak informacija za preostale atribute i odaberemo najbolji za daljnje cijepanje.
4. Izgradnja strukture stabla odluka
Rekurzivna particija je pokretačka snaga izgradnje strukture stabla odluka u algoritmu ID3. Svaki rascjep stvara novu razinu u stablu odluke. Korijenski čvor predstavlja cijeli skup podataka, a svaki unutarnji čvor predstavlja test na atributu. Grane koje proizlaze iz unutarnjeg čvora odgovaraju različitim vrijednostima atributa koji se testira.
Dok nastavljamo rekurzivno dijeliti skup podataka, stablo raste dublje. Listovi čvorovi stvaraju se kada je podskup homogen (svi instanci u podskupini pripadaju istoj klasi) ili kada više nema atributa na koje se treba podijeliti. Na primjer, ako imamo podskupVW ID4 CROZZ PRIME SIDE SUV SUV NOVO ENERGIO VOZILOAutomobili i svi su novi - energetska vozila, tada će ovaj podskup formirati čvor lišća u stablu odluke.
5. Rukovanje složenim skupovima podataka
Rekurzivno particioniranje omogućuje algoritam ID3 da učinkovito obrađuje složene skupove podataka. Stvarni - svjetski skupovi podataka često imaju više atributa i veliki broj slučajeva. Razbijanjem skupa podataka na manje podskupine, algoritam se može usredotočiti na lokalne karakteristike svakog podskupina.
Na primjer, u skupu podataka koji uključuje različite vrste Volkswagen automobila poputVW Tiguanl rabljeni automobil Volkswagen zastupnikiVW CC New Energy vozil Volkswagen zastupnik, rekurzivna particija omogućuje algoritmu da točno pronađe relevantne atribute za klasificiranje ovih automobila. Prvo se može podijeliti na temelju općih značajki poput tipa vozila (SUV, limuzina), a zatim dodatno pročistiti klasifikaciju na temelju drugih atributa kao što je vrsta energije.
6. Kriteriji za zaustavljanje
Rekurzivna particija također pomaže u provedbi kriterija zaustavljanja. Algoritam ID3 zaustavlja proces podjele kada su ispunjeni određeni uvjeti. Jedan uobičajeni kriterij zaustavljanja je kada svi slučajevi u podskupini pripadaju istoj klasi. U ovom slučaju, nema potrebe za dalje podijeliti podskupinu i stvara se listni čvor.


Drugi kriterij zaustavljanja je kada više nema atributa za razdvajanje. Ako smo iscrpili sve raspoložive atribute u podskupini, dodijelimo većinu klase podskupina čvoru listova.
7. Prednosti za naše klijente kao dobavljač ID3
Kao dobavljač algoritma ID3, razumijevanje uloge rekurzivne particije omogućava nam da ponudimo učinkovitija i točnija rješenja. Na primjer, za klijente u automobilskoj industriji, možemo koristiti algoritam ID3 s rekurzivnim particioniranjem za klasificiranje automobila na temelju različitih značajki kao što su brand, model i vrsta energije. To može pomoći u upravljanju zalihama, marketingu i segmentaciji kupaca.
Ako ste zainteresirani za korištenje snage algoritma ID3 s rekurzivnim particioniranjem za vaše poslovne potrebe, pozivamo vas da nas kontaktiramo radi nabave i daljnjih rasprava. Naš tim stručnjaka spreman je surađivati s vama kako bi algoritam prilagodio vašim specifičnim zahtjevima.
Reference
- Quinlan, Jr (1986). Indukcija stabala odluka. Strojno učenje, 1 (1), 81 - 106.
- Mitchell, TM (1997). Strojno učenje. McGraw - Hill.
