Klasifikavimas

Referatas
 5
Microsoft Word 58 KB
5 puslapiai

Klasifikavimas
Klasifikacijos uždavinys yra specifinis atpažinimo uždavinys, kurio esmė pagal pateiktus objekto (vaizdo, proceso) skaitmeninius duomenis priskirti jį kokiai nors klasei. Laikysime, kad objektas yra aprašomas D-mačiu vektoriumi
SD= [ s1 , s2 , , sD ]' ,
o w1 , w2 , , wL žymi visas klases, kurioms gali priklausyti objektas. Čia ir toliau ' žymi transponavimo operaciją.
Klasifikacijos uždavinys yra sukurti duomenų žymėjimo algoritmą. Matematine prasme klasifikatoriumi vadinamas bet koks SD vektorių atvaizdis į L žymių (kategorijų) aibę. Kadangi praktiškai žymių skaičius nebūna labai didelis, dažniausiai yra apskaičiuojamos L funkcijų reikšmės o1 , o2 , , oL , kurios yra interpretuojamos panašumo į atitinkamos kategorijos objektą ir išsirenkamas indeksas su didžiausia panašumo reikšme.
Klasifikavimo uždavinys yra skaidomas į dvi dalis. Pirma yra surandamos objekto savybės (angl. features). Pažymėkime objekto savybių skaičių n. Savybės yra apskaičiuojamos remiantis pradiniu objektą aprašančiu vektoriumi SD. Parenkant objekto savybes yra ieškoma kompromiso tarp
• Mažo savybių skaičiaus n (n< • Kuo didesnio savybių informatyvumo. Idealiu atveju iš savybių yra galima rekonstruoti pradinius objekto duomenis SD.
Antrajame etape remiantis požymių vektoriumi
X= [ x1 , x2 , , xn ]'
yra atliekama klasifikacija.
1 pvz. Tarkime SD= [ s1 , s2 , , sD ]' žymi stacionaraus akustinio signalo garso slėgio reikšmes. Tuomet geru požymių rinkiniu yra SD duomenų tiesinės prognozės koeficientai X= [ x1 , x2 , , xn ]' .
Toliau paprastumo dėlei laikysime, kad yra tik dvi kategorijos, t.y., L=2. Tai nėra esminis apribojimas, kadangi pradžioje gali apjungti visas kategorijas į dvi grupes. Atlikę pirmąją klasifikaciją, rasime kuriai grupei priklauso tiriamas objektas. Toliau rasta grupė skirstoma vėl į dvi dalis, atliekama klasifikacija, kad surasti kuriam pogrupiui priklauso objektas ir t.t.
Kad sukurti klasifikatorių, pradžioje yra pasirenkama aibė duomenų vektorių SD su žinomom kategorijų reikšmėm. Ši aibė yra pagrindas kuriant klasifikatorių. Kadangi iš pradinių duomenų galima išskirti įvairius požymių rinkinius, dažnai neapsiribojama vienu klasifikatoriumi, o kuriama skirtingiems rinkiniams skirtingi klasifikatoriai. Taip natūraliai iškyla klausimas - kuris klasifikavimo algoritmas yra geriausias? Todėl bendra pradinių duomenų grupė skaidoma į dvi dalis
1. apmokymo imtis (angl. training set)
2. verifikacijos imtis (angl. validation set)
Yra naudojamos įvairios strategijos kuriant ir įvertinant klasifikavimo algoritmus. Dažnai apmokymo ir verifikacijos imtys yra...