Clasificarea trăsăturilor caracteristice în abordările combinate ale ambalajului la selecție

experimentele efectuate în cadrul cercetării descrise au fost executate în două etape. În prima etapă, algoritmul de eliminare secvențială înapoi (SBE), aplicat în modelul învelișului, a fost utilizat pentru a stabili clasarea trăsăturilor caracteristice, dezvăluind relevanța acestora. Învelișul a fost construit pentru două tipuri de clasificatori, algoritmi de decizie minimă de acoperire (MCDA) dedus în DRSA și rețele neuronale artificiale.

cele două clasamente obținute au fost apoi utilizate în a doua etapă, unde s-a efectuat reducerea atributelor, din nou pentru inductorii de regulă și conexioniști, în timp ce performanța lor a fost observată. Eliminarea variabilelor pentru clasificatorul DRSA în această etapă a fost executată în două moduri: prin eliminarea atributelor și inducerea de noi reguli și algoritmi și prin respingerea regulilor din algoritmul de decizie complet generat anterior (FDA), Cu toate regulile privind exemplele, deduse pentru toate caracteristicile luate în considerare.

procedurile au fost aplicate la două perechi de seturi de date. Sarcina principală de clasificare a fost atribuirea binară a autorului cu caracteristici stilometrice. Din motive de comparație, testele au fost executate și pentru setul de date de formă de undă cu caracteristici similare (același număr de clase, un număr comparabil de eșantioane și atribute). Rezultatele pentru acest al doilea set de date sunt date la sfârșitul acestei secțiuni.

stabilirea clasificării caracteristicilor de către SBE

deoarece clasificatorul DRSA urma să fie utilizat ca un înveliș cu reducere secvențială înapoi a caracteristicilor, a însemnat începerea cu setul complet de atribute și eliminarea unui element la un moment dat. Prin urmare, inducerea tuturor regulilor privind exemplele în fiecare caz ar fi impracticabilă, deoarece pentru 25 de caracteristici din algoritmul FDA, au existat 62.383 de reguli de decizie constitutive. În schimb, algoritmii de decizie minimă de acoperire MCDA au fost deduși și performanța lor a fost utilizată pentru a selecta un atribut, a cărui reducere a dat cele mai bune rezultate în comparație cu altele la același nivel. Detaliile pentru toți pașii sunt enumerate în tabelul 1, unde coloana cea mai dreaptă (i) arată clasamentul DRSA stabilit al caracteristicilor caracteristice.

Tabelul 1 Eliminarea înapoi a atributelor pe baza performanței clasificatorilor DRSA

rândul de sus al tabelului corespunde celei de-a 0-a etape de reducere, adică clasificatorul de reguli indus pentru toate cele 25 de atribute condiționale studiate, enumerate în coloana (c). Algoritmul minim de decizie de acoperire generat a constat din 30 de reguli constitutive, care a fost limitat la doar 6, cerând în același timp sprijinul lor minim să fie egal cu cel puțin 6. Precizia maximă de clasificare obținută prin constrângerea impusă a fost de 76,67% din probele de testare recunoscute corect. Precizia de clasificare specificată în tabel (și pentru toate celelalte cazuri de extragere a datelor cu DRSA prezentate în această lucrare) se referă numai la cazurile în care toate regulile de potrivire clasificate corect. Cazurile ambigue de decizii contradictorii sau lipsa regulilor de potrivire au fost întotdeauna tratate ca fiind incorecte (ceea ce este destul de strict, dar limitează procesarea suplimentară necesară altfel).

apoi, au fost construite 25 de noi Clasificatoare MCDA, fiecare cu 24 de caracteristici de intrare, cu un atribut eliminat, iar performanța lor a fost testată și comparată. Dintre aceste sisteme, cel cu caracteristica redusă corespunzătoare frecvenței de utilizare pentru” și ” a dat cel mai bun rezultat, astfel încât acest atribut este selectat ca fiind cel mai puțin relevant dintre toți candidații și primul eliminat, așa cum este dat în coloana (i) a tabelului.

setul de 24 de variabile rămase oferă baza pentru următoarea etapă de reducere cu indicele egal 1, prezentat în tabelul 1 din al doilea rând. Din nou, cel mai bun algoritm de decizie MCDA a constat din 30 de reguli, dar cu suport egal sau mai mare de 2, au existat 17 Reguli cu clasificare maximă ajungând la 77,78 %.

se poate observa în coloana (h) a tabelului că precizia clasificării crește treptat de la 76,67% până la maximum 91,11% eșantioane recunoscute corect atunci când au rămas doar 5, 4 sau 3 caracteristici în setul de intrare, apoi să scadă la 84,44% pentru două atribute condiționale și 61,11% pentru un singur atribut.

procesul de eliminare a atributelor poate fi interpretat astfel încât sistemul elimină aceste elemente irelevante sau redundante și le păstrează esențiale pentru clasificare, ca urmare precizia clasificării fie crește, fie este cel puțin la același nivel, dar pentru mai puține caracteristici. Ordinea în care sunt eliminate atributele reflectă importanța lor. Când această ordine este inversată, performanța clasificatorilor DRSA scade imediat și irecuperabil, ceea ce este ilustrat în Fig. 1.

Fig. 1
figura1

precizia clasificării DRSA în raport cu numărul de caracteristici din cadrul eliminării secvențiale înapoi cu MCDA, comparativ cu reducerea atributelor folosind clasarea inversată

aceeași procedură secvențială de reducere înapoi a fost aplicată în continuare clasificatorilor ANN (Tabelul 2), începând cu construirea unei rețele pentru toate cele 25 de caracteristici. Pentru acest set, precizia medie a clasificării a fost puțin peste 91 %. Această valoare este evident mai mare decât pentru clasificatorul de bază DRSA, pentru care a fost de doar 76,67 %. Cu toate acestea, trebuie remarcat faptul că clasificarea ambiguă a sistemului bazat pe reguli, a deciziilor contradictorii sau a lipsei de potrivire a regulilor, a fost tratată ca incorectă în toate cazurile examinate și care a influențat această precizie predictivă mai mică. Mai mult, generarea algoritmilor de decizie de acoperire minimă nu garantează inducerea celor mai bune reguli, cu cel mai mare potențial de clasificare corectă și este destul de obișnuit ca algoritmii de decizie construiți cu alte abordări să testeze semnificativ mai bine, dar cu prețul unor proceduri mai complexe, costuri de calcul implicate și mai mult timp de procesare necesar .

Tabelul 2 Eliminarea înapoi a atributelor pe baza performanței CLASIFICATORILOR ANN

schimbarea pozitivă a raportului de clasificare sau aceeași performanță pentru mai puține intrări nu este singurul indicator al relevanței atributului sau al redundanței. Când unele caracteristici sunt reduse, structura internă a Clasificatorului este modificată în consecință. Pentru procesarea DRSA, înseamnă mai puține reguli constitutive într-un algoritm de decizie, în timp ce pentru o rețea neuronală artificială, straturile sale devin mai mici prin îndepărtarea neuronilor.

dacă o astfel de rețea mai mică clasifică nu mai rău decât înainte de reducere, înseamnă că relevanța inputului recent eliminat este neglijabilă și poate fi tratată ca redundantă. Performanța este ilustrată în Fig. 2, în timp ce Fig. 3 arată ce se întâmplă cu precizia de clasificare a sistemului atunci când caracteristicile de intrare sunt reduse în timp ce urmați clasamentul ANN inversat. Cele două grafice din Fig. 2 și 3 prezintă aceleași tendințe care sunt vizibile în performanța trasată anterior a clasificatorilor DRSA din Fig. 1.

Fig. 2
figura2

precizia clasificării ANN observată în procesul de eliminare secvențială înapoi, în raport cu numărul de caracteristici luate în considerare, iar pentru fiecare medie, este indicată performanța maximă și minimă

Fig. 3
figura3

precizia clasificării ANN în raport cu numărul de caracteristici, observată în reducerea înapoi a intrărilor în timp ce urmați clasamentul ANN inversat. Pentru fiecare medie, este indicată performanța maximă și minimă

când comparăm Clasamentele DRSA și ANN unul împotriva celuilalt și analizăm scorurile atribuite tuturor atributelor, putem vedea că, deși ambele tipuri de clasificatori funcționează pe aceleași seturi de date, ordonările rezultate ale caracteristicilor reduse sunt diferite, doar ultima caracteristică rămasă este aceeași în ambele clasamente: frecvența de utilizare pentru „nu”. Acesta este un rezultat direct al caracteristicilor inerente ale inductorilor care sunt transferați în clasamentul calculat cu ajutorul lor.

deoarece ambalajele sunt adesea acuzate de o astfel de părtinire, clasamentele obținute trebuie respectate în procesul de reducere a trăsăturilor caracteristice pentru alte sisteme de clasificare, prin combinarea ambalajelor de același tip și diferite, pentru a evalua utilitatea lor prin teste, ceea ce este ilustrat în secțiunea următoare.

folosind clasarea caracteristicilor în reducerea lor

în urma clasificării generale a abordărilor de selecție a caracteristicilor , clasarea aparține filtrelor. În cercetarea prezentată, două clasamente au fost obținute folosind ambalaje pe bază de DRSA și ANN, date în coloanele din dreapta ale tabelelor 1 și 2. Aceste ordonări au fost apoi utilizate pentru a filtra atributele condiționale din setul original de 25, în eliminarea înapoi a variabilelor de intrare pentru noi clasificatori.

detaliile aplicării clasamentului ANN la reducerea înapoi a atributelor în procesarea DRSA, care are ca rezultat o soluție hibridă, sunt prezentate în tabelul 3. În primul rând, au fost respinse subseturi de caracteristici cu cardinalități în creștere, iar apoi pentru subseturile rămase, au fost induși noi algoritmi de decizie, oferind doar o acoperire minimă MCDA și, de asemenea, cu deducerea tuturor regulilor privind exemplele FDA.

Tabelul 3 eliminarea înapoi a atributelor condiționale folosind clasarea ANN cu inducerea de noi algoritmi de decizie

deoarece precizia clasificării este de obicei tratată ca cel mai important factor care indică calitatea soluției obținute, ne putem concentra atenția asupra a două (g) coloane din tabelul 3 sau un grafic din Fig. 4. Atât pentru clasificatorii MCDA, cât și pentru FDA, există mai multe cazuri de performanță îmbunătățită sau aceeași atunci când caracteristicile sunt reduse, totuși câștigul, considerat fie în ceea ce privește un număr de caracteristici respinse, fie o creștere a preciziei predictive, fie un număr mai mic de reguli de decizie rămase în algoritm, nu este atât de mare pe cât a fost observat anterior pentru ambalajele ANN sau MCDA simple.

Fig. 4
figura4

precizia clasificării algoritmilor de decizie MCDA și FDA induși după eliminarea atributelor înapoi pe baza clasamentului ANN, în raport cu numărul de caracteristici

în loc să reducem atributele condiționale și apoi să deducem noi algoritmi de decizie, care pot consuma foarte mult timp, putem elimina și aceste atribute aruncând Regulile cu condiții asupra lor, limitând toate regulile privind exemplele algoritm de decizie indus anterior pentru toate caracteristicile . O astfel de abordare poate fi considerată executarea clasamentului pentru regulile de decizie.

în primul rând, fiecărei reguli din algoritmul indus i se atribuie un scor, bazându-se pe scoruri individuale pentru toate atributele incluse în partea premisă a regulii. Din toate aceste scoruri elementare, corespunzătoare condițiilor constitutive, se alege cel mai înalt, indicând atributul care este perceput ca fiind cel mai puțin important; astfel, primul care trebuie eliminat, iar acest scor este dat regulii de decizie. Apoi, toate regulile sunt ordonate după scorurile lor, iar în fiecare etapă de reducere, toate regulile cu un anumit scor sunt respinse, ceea ce duce la algoritmi de decizie reduși.

detaliile acestei proceduri de clasificare a regulilor de decizie sunt prezentate în tabelul 4. Pentru comparație, există, de asemenea, rezultate listate ale reducerii algoritmului FDA în timp ce urmează clasamentul ANN inversat, ambele reprezentate grafic și în Fig. 5.

Tabelul 4 reducerea tuturor regulilor privind algoritmul de exemple (FDA) folosind clasarea caracteristicilor ANN și inversarea acesteia

aplicarea clasamentului ANN în reducerea rezultatelor FDA în scăderea destul de abruptă a numărului de reguli de decizie rămase, în timp ce clasificatorii prezic cu aceeași precizie sau doar ușor redusă. Inversat ANN clasament aduce reducere algoritm mult mai lent, dar performanța este înrăutățit instantaneu și iremediabil.

Fig. 5
figura5

reducerea algoritmului FDA în timp ce urmați clasamentul ANN și inversul acestuia. Precizia predictivă este reprezentată grafic în raport cu numărul de caracteristici

deoarece stabilirea clasamentului DRSA prin eliminarea secvențială înapoi cu generarea algoritmilor de decizie minimă de acoperire este tratată ca un proces separat, acest clasament poate fi utilizat și în procedura de clasare și reducere a regulilor de decizie, limitând toate regulile privind exemplele algoritm, ale căror rezultate sunt date în tabelul 5 și performanța prezentată în Fig. 6.

Tabelul 5 eliminarea înapoi a regulilor de decizie din algoritmul all rules on examples (FDA) indus pentru toate caracteristicile, cu următorul clasament DRSA al atributelor și inversul acestuia

tendințele vizibile în precizia predictivă pentru algoritmii de decizie redusă în timp ce urmează clasamentul DRSA și inversul acestuia amintesc direct de cele observate anterior în modul wrapper când a fost stabilit clasamentul. Procedurile permit filtrarea acestor reguli din algoritmul FDA care conține condiții privind atributele irelevante și algoritmi de returnare cu un număr semnificativ scăzut de reguli de decizie, menținând sau chiar crescând precizia clasificării.

Fig. 6
figura6

reducerea tuturor regulilor privind algoritmul de decizie exemple în timp ce în urma ranking caracteristică DRSA și invers

când clasamentul DRSA a fost utilizat în reducerea caracteristicilor caracteristice de intrare la rețeaua neuronală artificială, a dus la o altă soluție hibridă. La fiecare etapă de eliminare, o singură caracteristică a fost ignorată și influența acesteia asupra performanței rețelei a fost studiată, așa cum este prezentat în Fig. 7. Când se exploatează clasamentul inversat (Fig. 8), compararea acestor două grafice relevă o asemănare foarte strânsă cu cea afișată în Fig. 1, ilustrând performanța DRSA wrapper angajarea SBE.

Fig. 7
figura7

reducerea caracteristicilor caracteristice pentru clasificatorul ANN în timp ce urmați clasamentul DRSA. Precizia predictivă este reprezentată grafic în raport cu numărul de caracteristici, iar pentru fiecare medie este indicată performanța maximă și minimă

Fig. 8
figura8

reducerea caracteristicilor caracteristice pentru clasificatorul ANN în timp ce urmați clasamentul DRSA inversat. Precizia predictivă este reprezentată grafic în raport cu numărul de caracteristici, iar pentru fiecare medie este indicată performanța maximă și minimă

din toate combinațiile testate de ambalaje, cea mai bună performanță a fost afișată pentru clasificatorii ANN care utilizează clasamentul DRSA în eliminarea înapoi a caracteristicilor (Fig. 7). Rezultate bune au fost obținute, de asemenea, în reducerea tuturor regulilor privind exemplele algoritm generat pentru toate caracteristicile, în timp ce în urma clasament DRSA (Tabelul 5; Fig. 6). În acest caz, totuși, acest lucru poate fi explicat prin părtinirea învelișului atunci când două sisteme de același tip, care împărtășesc aceleași caracteristici, sunt combinate. Nu se poate afirma același lucru pentru primul caz, deoarece diferențele dintre clasificatorii DRSA și ANN sunt clar arătate în procesul observat de eliminare secvențială înapoi a caracteristicilor, rezultând două clasificări distinct diferite.

utilizarea clasamentului ANN în reducerea atributelor înapoi și apoi inducerea de noi reguli și algoritmi pentru toate regulile privind exemplele permite eliminarea a opt variabile (32 %) înainte ca performanța să înceapă să scadă (Tabelul 3; Fig. 4). ANN clasament în reducerea FDA aduce, de asemenea, respingerea a opt variabile și cât mai multe 51,888 reguli de decizie (83 %). Aplicarea clasamentelor inversate, atât bazate pe DRSA, cât și pe ANN, a dus întotdeauna la o performanță înrăutățită.

rezultate pentru setul de date pentru forma de undă

atributele pentru setul de date pentru forma de undă nu sunt descrise în detaliu în depozitul UCI ML; prin urmare, pentru comoditate, au fost pur și simplu etichetate de la A1 la a21, iar cele două clase de decizie corespundeau tipurilor de undă selectate, tipul 0 și tipul 1. Cele două clasamente obținute prin eliminarea secvențială înapoi pentru clasificatorii DRSA și ANN sunt prezentate în Tabelul 6, cu detalii despre algoritmii induși și performanța pentru ambele sisteme, care este, de asemenea, reprezentat grafic pentru ambele tipuri de sisteme de clasificare în Fig. 9.

Tabelul 6 eliminarea înapoi a atributelor bazându-se pe performanța clasificatorilor DRSA și ANN pentru setul de date privind forma de undă
Fig. 9
figura9

performanța clasificatorilor DRSA și ANN observată în eliminarea secvențială înapoi a caracteristicilor caracteristice

performanța clasificatorilor este comparată între ele și cu punctul de referință constituit de preciziile predictive obținute pentru setul complet de 21 de atribute. Algoritmul minim de decizie de acoperire indus a clasificat doar 65% cu 55 de reguli limitate la 20 de constrângeri pe suport să fie egal cu cel puțin 3. Algoritmul all rules on examples atinge un raport de recunoaștere de 74% (31.718 reguli constrânse la 58 pentru suport egal sau mai mare de 48). ANN cu 21 de caracteristici de intrare recunoscute corect 89% din probele de testare.

când se aplică Clasificarea DRSA a caracteristicilor pentru reducerea sistematică a intrărilor la clasificatorii conexioniști, în faza inițială se poate observa o creștere a performanței (vezi Fig. 10), dar tendința vizibilă nu este strict monotonă. Același clasament este, de asemenea, utilizat pentru reducerea regulilor selectate din toate regulile privind exemplele algoritm în procedurile descrise anterior și în acest proces se pot observa câștiguri semnificative: putem reduce 17 din 21 atribute (aproape 81 %) și încă au crescut de performanță. Cu toate acestea, acest lucru vine fără surpriză, deoarece ambii inductori au aceleași caracteristici generale, de unde și părtinirea rezultată.

Fig. 10
figura10

tăierea intrărilor pentru clasificatorul ANN în comparație cu tăierea regulilor din toate regulile privind exemplele algoritm de decizie indus pentru setul complet de atribute, cu reducerea dimensionalității executată în timp ce urmați clasamentul DRSA

impunerea clasamentului ANN pe procesarea DRSA se realizează din nou în două moduri: fie pentru subseturile descrescătoare treptat ale atributelor condiționale sunt induse noi reguli de decizie (atât MCDA, cât și FDA), fie setul de reguli din algoritmul de decizie complet dedus anterior este analizat și unele reguli respinse atunci când se referă la caracteristici aruncate. Detaliile tuturor soluțiilor rezultate sunt prezentate în Tabelul 7. Din performanța observată, putem detecta că pentru toate regulile privind exemplele, este posibil să respingem 13 din 21 de variabile condiționale (aproape 62 %), în timp ce nu numai recunoașterea nu este mai rea, ci a crescut.

Tabelul 7 eliminarea înapoi a atributelor condiționale folosind clasarea ANN cu inducerea de noi algoritmi de decizie și cu reducerea algoritmului de decizie complet dedus anterior

când toate regulile privind exemplele algoritmilor de decizie (unul nou și FDA redus) sunt comparate în fiecare etapă, devine evident că acestea sunt de fapt foarte apropiate. Chiar dacă numărul de reguli implicate nu este întotdeauna exact același, precizia de clasificare rezultată este aproape identică, ceea ce sugerează alegerea celei de-a doua căi, adică reducerea FDA generată pentru setul complet de caracteristici în loc să inducă noi algoritmi. Este nevoie de un efort semnificativ mai mic, deoarece partea grea a calculelor este deja executată. Odată ce se stabilește un fel de metodă de tăiere a regulilor, execuția sa ar putea fi mai puțin solicitantă decât procesul de inducție.

pentru comparație, s-au efectuat și unele teste pentru clasări inversate, cu eliminarea celor mai puține atribute de clasare, dar rezultatele au fost mai slabe în comparație cu soluția corespunzătoare pentru majoritatea variabilelor de clasare, cu diferențe în funcție de numărul de elemente redus, adesea crescând odată cu acesta.

toate experimentele efectuate, atât pentru seturile de date stilometrice, cât și pentru formele de undă, confirmă utilitatea metodologiei propuse de combinare a ambalajelor pentru estimarea relevanței caracteristicilor utilizate în continuare reducerea lor înapoi.

Lasă un răspuns

Adresa ta de email nu va fi publicată.