Classificazione delle caratteristiche negli approcci wrapper combinati alla selezione

Gli esperimenti condotti nell’ambito della ricerca descritta sono stati eseguiti in due fasi. Nella prima fase, l’algoritmo sequential Backward Elimination (SBE), applicato nel modello wrapper, è stato utilizzato per stabilire la classifica delle caratteristiche, rivelando la loro rilevanza. Il wrapper è stato costruito per due tipi di classificatori, minimal cover decision algorithms (MCDA) dedotti in DRSA e reti neurali artificiali.

Le due classifiche ottenute sono state successivamente impiegate nella seconda fase, dove è stata eseguita la riduzione degli attributi, sempre per induttori di regola e connessionisti, mentre la loro performance è stata osservata. L’eliminazione delle variabili per il classificatore DRSA in questa fase è stata eseguita in due modi: scartando gli attributi e inducendo nuove regole e algoritmi, e rifiutando le regole dal full Decision algorithm (FDA) precedentemente generato, con tutte le regole sugli esempi, dedotte per tutte le funzionalità considerate.

Le procedure sono state applicate a due coppie di set di dati. Il compito principale di classificazione era l’attribuzione della paternità binaria con caratteristiche stilometriche. Per motivi di confronto, i test sono stati eseguiti anche per dataset di forme d’onda con caratteristiche simili (lo stesso numero di classi, numeri comparabili di campioni e attributi). I risultati per questo secondo set di dati sono riportati alla fine di questa sezione.

Stabilire la classifica delle caratteristiche per SBE

Poiché il classificatore DRSA doveva essere usato come wrapper con riduzione sequenziale all’indietro delle caratteristiche, significava iniziare con il set completo di attributi e l’eliminazione di un elemento alla volta. Quindi, l’induzione di tutte le regole sugli esempi in ciascun caso sarebbe impraticabile in quanto per 25 caratteristiche nell’algoritmo FDA, c’erano 62.383 regole di decisione costitutiva. Invece, gli algoritmi di decisione di copertura minimi MCDA sono stati dedotti e le loro prestazioni utilizzate per selezionare un attributo, la cui riduzione ha dato i migliori risultati rispetto ad altri allo stesso livello. I dettagli per tutti i passaggi sono elencati nella Tabella 1, dove la colonna più a destra (i) mostra la classifica DRSA stabilita delle caratteristiche caratteristiche.

Tabella 1 Eliminazione a ritroso degli attributi in base alle prestazioni dei classificatori DRSA

La riga superiore della tabella corrisponde allo stadio di riduzione 0th, ovvero il classificatore di regole indotto per tutti i 25 attributi condizionali studiati, elencati nella colonna (c). L’algoritmo di decisione minima di copertura generato consisteva in 30 regole costitutive, che era limitato a solo 6 mentre richiedeva che il loro supporto minimo fosse uguale almeno a 6. La massima precisione di classificazione ottenuta dal vincolo imposto è stata del 76,67% dei campioni di prova correttamente riconosciuti. L’accuratezza della classificazione specificata nella tabella (e per tutti gli altri casi di data mining con DRSA presentati in questo documento) si riferisce solo ai casi in cui tutte le regole corrispondenti sono classificate correttamente. I casi ambigui di decisioni contraddittorie o nessuna regola di corrispondenza sono sempre stati trattati come errati (che è piuttosto rigoroso ma limita l’elaborazione aggiuntiva necessaria altrimenti).

Successivamente, sono stati costruiti 25 nuovi classificatori MCDA, ciascuno con 24 caratteristiche di input, con un attributo eliminato e le loro prestazioni testate e confrontate. Di questi sistemi, quello con la funzione ridotta corrispondente alla frequenza di utilizzo per “e” ha dato il miglior risultato, quindi questo attributo è selezionato come il meno rilevante di tutti i candidati e il primo ad essere eliminato, come indicato nella colonna (i) della tabella.

L’insieme di 24 variabili rimanenti fornisce la base per la fase di riduzione successiva con indice uguale a 1, mostrato nella Tabella 1 nella seconda riga. Anche in questo caso il miglior algoritmo di decisione MCDA consisteva di regole 30, ma con supporto uguale o superiore a 2, c’erano regole 17 con una classificazione massima che raggiungeva 77.78 %.

Si può osservare nella colonna (h) della tabella che l’accuratezza della classificazione aumenta gradualmente dal 76,67% fino al massimo del 91,11% di campioni correttamente riconosciuti quando rimangono solo 5, 4 o 3 caratteristiche nel set di input, quindi per diminuire all ‘ 84,44% per due attributi condizionali e al 61,11% per un singolo attributo.

Il processo di eliminazione degli attributi può essere interpretato in questo modo che il sistema scarta questi elementi che sono irrilevanti o ridondanti e mantiene questi che sono essenziali per la classificazione, di conseguenza l’accuratezza della classificazione aumenta o è almeno allo stesso livello, ma per meno caratteristiche. L’ordine in cui gli attributi vengono eliminati riflette la loro importanza. Quando questo ordine viene invertito, le prestazioni dei classificatori DRSA diminuiscono immediatamente e irrecuperabilmente, come illustrato in Fig. 1.

Fig. 1
figura 1

DRSA accuratezza di classificazione in relazione al numero di funzioni all’interno sequenziale indietro eliminazione con MCDA, confrontato con la riduzione degli attributi usando invertito classifica

Lo stesso sequenziale indietro di una procedura di riduzione è stato accanto applicato a ANN classificatori (Tabella 2), a partire con la costruzione di una rete per tutte e 25 le caratteristiche. Per questo set, l’accuratezza media della classificazione era appena superiore al 91%. Questo valore è ovviamente superiore a quello del classificatore DRSA di base, per il quale era solo del 76,67 %. Tuttavia, va notato che la classificazione ambigua del sistema basato su regole, di decisioni contraddittorie o nessuna corrispondenza di regole, è stata trattata come errata in tutti i casi considerati e che ha influenzato questa minore accuratezza predittiva. Che cosa è più, la generazione di copertura minima algoritmi decisionali non garantisce l’induzione delle migliori regole, con il più alto potenziale per una corretta classificazione, ed è abbastanza comune che la decisione di algoritmi costruiti con altri approcci test significativamente migliore, ma a costo di procedure più complesse, più costi computazionali coinvolti, e più il tempo di elaborazione necessario .

Tabella 2 Eliminazione a ritroso degli attributi in base alle prestazioni dei classificatori ANN

La variazione positiva del rapporto di classificazione, o la stessa prestazione per un minor numero di input non è l’unico indicatore di pertinenza o ridondanza degli attributi. Quando alcune funzionalità vengono ridotte, anche la struttura interna del classificatore viene modificata di conseguenza. Per l’elaborazione DRSA, significa meno regole costituenti in un algoritmo di decisione, mentre per una rete neurale artificiale, i suoi strati diventano più piccoli dalla rimozione dei neuroni.

Se tale rete più piccola classifica non peggio di prima della riduzione, significa che la rilevanza dell’input scartato di recente è trascurabile e può essere trattata come ridondante. La performance è illustrata in Fig. 2, mentre Fig. 3 mostra cosa succede alla precisione di classificazione del sistema quando le funzioni di input vengono ridotte seguendo la classifica ANN invertita. I due grafici da Fichi. 2 e 3 mostrano le stesse tendenze visibili nelle prestazioni precedentemente tracciate dei classificatori DRSA in Fig. 1.

Fig. 2
figura2

Precisione di classificazione ANN osservata nel processo di eliminazione sequenziale all’indietro, in relazione al numero di caratteristiche considerate, e per ogni media, sono indicate le prestazioni massime e minime

Fig. 3
figura3

Precisione della classificazione ANN in relazione al numero di funzionalità, osservata nella riduzione all’indietro degli input seguendo la classifica ANN invertita. Per ogni media, c’è indicato massimi e minimi delle prestazioni

Quando ci si confronta DRSA e ANN Classifica contro l’altro, e analizzare i punteggi assegnati a tutti gli attributi, si può vedere che, anche se entrambi i tipi di classificatori operare sullo stesso set di dati, risultante ordinamenti di ridotta le caratteristiche sono diverse, solo l’ultimo residuo di funzione è la stessa in entrambe le classifiche: la frequenza di utilizzo per “non”. Questo è un risultato diretto delle caratteristiche intrinseche degli induttori che vengono trasferiti alle classifiche calcolate con il loro aiuto.

Poiché i wrapper sono spesso accusati di tale pregiudizio, le classifiche ottenute devono essere osservate nel processo di riduzione delle caratteristiche per altri sistemi di classificazione, combinando wrapper dello stesso e diverso tipo, per valutarne l’utilità attraverso test, che è illustrato nella sezione successiva.

Impiegando la classificazione delle funzionalità nella loro riduzione

Seguendo la categorizzazione generale degli approcci di selezione delle funzionalità , la classificazione appartiene ai filtri. Nella ricerca presentata, sono state ottenute due classifiche utilizzando wrapper basati su DRSA e ANN, riportati nelle colonne più a destra delle tabelle 1 e 2. Questi ordini sono stati successivamente utilizzati per filtrare gli attributi condizionali dal set originale di 25, nell’eliminazione all’indietro delle variabili di input per i nuovi classificatori.

I dettagli dell’applicazione della classificazione ANN alla riduzione a ritroso degli attributi nell’elaborazione DRSA, che si traduce in una soluzione ibrida, sono mostrati nella Tabella 3. In primo luogo, sottoinsiemi di funzionalità con cardinalità crescenti sono stati respinti, e quindi per i sottoinsiemi rimanenti sono stati indotti nuovi algoritmi decisionali, fornendo solo una copertura minima MCDA e anche deducendo tutte le regole sugli esempi FDA.

Tabella 3 Indietro eliminazione del condizionale attributi utilizzando ANN Classifica, con l’induzione di nuovi algoritmi decisionali

Poiché l’accuratezza di classificazione è di solito considerato il più importante fattore che indica la qualità della soluzione ottenuta, possiamo concentrare la nostra attenzione su due (g) colonne nella Tabella 3, o un grafico in Fig. 4. Per entrambi i classificatori MCDA e FDA, ci sono diversi casi di prestazioni migliorate o uguali quando le funzionalità sono ridotte, tuttavia il guadagno, considerato in termini di un numero di funzionalità rifiutate, o un aumento della precisione predittiva, o un numero inferiore di regole decisionali rimanenti nell’algoritmo, non è così alto come è stato osservato in precedenza per semplici wrapper ANN o MCDA.

Fig. 4
figura4

accuratezza della Classificazione per MCDA e FDA algoritmi decisionali indotta dopo indietro attributo eliminazione basato su ANN Classifica, in relazione al numero di funzioni

Invece di ridurre la condizionale attributi e quindi la deduzione di nuovi algoritmi decisionali, che può essere molto che richiede tempo, possiamo anche eliminare questi attributi scartando le regole con le condizioni su di loro, limitando tutte le regole su esempi di algoritmo di decisione indotta in precedenza per tutte le funzioni . Un tal approccio può esser considerato come esecuzione di classifica per regole di decisione.

In primo luogo, ad ogni regola nell’algoritmo indotto, viene assegnato un punteggio, basato su punteggi individuali per tutti gli attributi inclusi nella parte premessa della regola. Da tutti questi punteggi elementari, corrispondenti alle condizioni costitutive, viene scelto il più alto, indicando l’attributo che è percepito come il meno importante; quindi, il primo ad essere eliminato, e questo punteggio è dato alla regola di decisione. Quindi tutte le regole sono ordinate in base ai loro punteggi e, in ogni fase di riduzione, tutte le regole con un determinato punteggio vengono rifiutate, il che si traduce in algoritmi decisionali ridotti.

I dettagli della presente procedura di classificazione delle regole di decisione sono riportati nella tabella 4. Per confronto, ci sono anche elencati i risultati della riduzione dell’algoritmo FDA seguendo la classifica ANN invertita, entrambi tracciati anche in Fig. 5.

Tabella 4 Riduzione di tutte le regole sugli esempi algoritmo (FDA) utilizzando ANN feature ranking e il suo inverso

L’applicazione della classifica ANN nella riduzione dei risultati FDA in una diminuzione piuttosto ripida del numero di regole decisionali rimanenti, mentre i classificatori prevedono con la stessa o solo leggermente ridotta precisione. La classifica ANN invertita porta una riduzione dell’algoritmo molto più lenta, ma le prestazioni sono peggiorate istantaneamente e irreparabilmente.

Fig. 5
figura5

Riduzione dell’algoritmo FDA seguendo la classifica ANN e il suo inverso. L’accuratezza predittiva è tracciata in relazione al numero di funzioni

Come la creazione di DRSA Classifica attraverso sequenziale indietro eliminazione con la generazione di copertura minima algoritmi decisionali è trattata come un processo separato, tale graduatoria potrà essere utilizzata anche nella procedura di decisione regola di classificazione e riduzione, limitando tutte le regole su esempi di algoritmo, i cui risultati sono riportati nella Tabella 5 e la prestazione mostrata in Fig. 6.

Tabella 5 Eliminazione a ritroso delle regole decisionali da tutte le regole sugli esempi (FDA) algoritmo indotto per tutte le funzionalità, con la seguente classifica DRSA degli attributi e il suo inverso

Le tendenze visibili nell’accuratezza predittiva per gli algoritmi di decisione ridotti mentre seguono la classifica DRSA e il suo inverso ricordano direttamente queste osservate in precedenza nella modalità wrapper quando è stata stabilita la classifica. Le procedure consentono di filtrare queste regole dall’algoritmo FDA che contengono condizioni su attributi irrilevanti e algoritmi di ritorno con un numero significativamente ridotto di regole decisionali mantenendo o addirittura aumentando l’accuratezza della classificazione.

Fig. 6
figura6

Riduzione di tutte le regole sull’algoritmo di decisione degli esempi seguendo la classificazione delle funzionalità DRSA e il suo inverso

Quando la classifica DRSA è stata impiegata nella riduzione delle caratteristiche di input alla rete neurale artificiale, ha prodotto un’altra soluzione ibrida. Ad ogni fase di eliminazione, una singola caratteristica è stata ignorata e l’influenza di essa sulle prestazioni della rete studiata, come illustrato in Fig. 7. Quando viene sfruttata la classifica invertita (Fig. 8), il confronto di questi due grafici rivela una somiglianza molto stretta con quella visualizzata in Fig. 1, illustrando le prestazioni dell’involucro DRSA che impiega SBE.

Fig. 7
figura7

Riduzione delle caratteristiche per il classificatore ANN seguendo la classifica DRSA. L’accuratezza predittiva viene tracciata in relazione al numero di funzionalità e, per ogni media, vengono indicate le prestazioni massime e minime

Fig. 8
figura8

Riduzione delle caratteristiche per il classificatore ANN seguendo la classifica DRSA invertita. L’accuratezza predittiva viene tracciata in relazione al numero di funzionalità e, per ogni media, vengono indicate le prestazioni massime e minime

Da tutte le combinazioni testate di wrapper, sono state visualizzate le migliori prestazioni per i classificatori ANN che impiegano la classifica DRSA nell’eliminazione all’indietro delle funzionalità (Fig. 7). Buoni risultati sono stati ottenuti anche nella riduzione di tutte le regole sugli esempi algoritmo generato per tutte le caratteristiche, pur seguendo Classifica DRSA (Tabella 5; Fig. 6). In questo caso, tuttavia, ciò può essere spiegato dal bias del wrapper quando vengono combinati due sistemi dello stesso tipo, che condividono le stesse caratteristiche. Lo stesso non può essere affermato per il primo caso, poiché le differenze tra i classificatori DRSA e ANN sono chiaramente mostrate nel processo osservato di eliminazione sequenziale all’indietro delle caratteristiche, con conseguente due classifiche distintamente diverse.

L’utilizzo del ranking ANN nella riduzione degli attributi all’indietro e quindi l’induzione di nuove regole e algoritmi per tutte le regole sugli esempi consente di scartare otto variabili (32 %) prima che le prestazioni inizino a diminuire (Tabella 3; Fig. 4). ANN Classifica nella riduzione FDA porta anche il rifiuto di otto variabili e ben 51.888 regole decisionali (83 %). L’applicazione delle classifiche invertite, sia basate su DRSA che su ANN, ha sempre comportato un peggioramento delle prestazioni.

Risultati per waveform dataset

Gli attributi per il waveform dataset non sono descritti in dettaglio nel repository UCI ML; pertanto, per comodità, sono stati semplicemente etichettati da a1 a a21 e le due classi di decisione corrispondevano ai tipi di onda selezionati, tipo 0 e tipo 1. Le due classifiche ottenute mediante eliminazione sequenziale all’indietro per i classificatori DRSA e ANN sono riportati nella Tabella 6, con i dettagli di algoritmi indotti e le prestazioni per entrambi i sistemi, che è anche tracciato per entrambi i tipi di sistemi di classificazione in Fig. 9.

Tabella 6 Eliminazione all’indietro degli attributi in base alle prestazioni dei classificatori DRSA e ANN per il set di dati della forma d’onda

Fig. 9
figura9

Prestazioni dei classificatori DRSA e ANN osservate nell’eliminazione sequenziale all’indietro delle caratteristiche

Le prestazioni dei classificatori sono confrontate tra loro e al punto di riferimento costituito dalle precisioni predittive ottenute per l’insieme completo di 21 attributi. Algoritmo di decisione di copertura minima indotta classificato solo 65% con 55 regole limitate a 20 da vincoli sul supporto per essere uguale almeno 3. Tutte le regole sugli esempi algoritmo raggiunge 74% rapporto di riconoscimento(31.718 regole vincolate a 58 per il supporto uguale o superiore a 48). ANN con 21 caratteristiche di ingresso ha riconosciuto correttamente l ‘ 89% dei campioni di prova.

Quando si applica la classificazione DRSA delle funzionalità per la riduzione sistematica degli input ai classificatori connectionist, nella fase iniziale si può osservare un certo aumento delle prestazioni (vedi Fig. 10), ma la tendenza visibile non è strettamente monotona. La stessa classifica è impiegata anche per la riduzione delle regole selezionate da tutte le regole sull’algoritmo degli esempi nelle procedure descritte prima e in questo processo si possono osservare guadagni significativi: possiamo ridurre 17 attributi su 21 (vicino all ‘ 81 %) e avere ancora prestazioni aumentate. Questo, tuttavia, viene senza sorpresa in quanto entrambi gli induttori condividono le stesse caratteristiche generali, quindi il pregiudizio risultante.

Fig. 10
figura 10

Potatura di ingressi per ANN classificazione rispetto alla potatura delle regole da tutte le regole di esempi di algoritmo di decisione indotta per il set completo di attributi, con la riduzione della dimensionalità eseguito, mentre in seguito DRSA Classifica

Imponente ANN Classifica su DRSA il trattamento è effettuato di nuovo in due modi: per i sottoinsiemi gradualmente decrescenti di attributi condizionali vengono indotte nuove regole decisionali (sia MCDA che FDA), oppure viene analizzato l’insieme di regole dell’algoritmo decisionale completo precedentemente dedotto e alcune regole vengono rifiutate quando si riferiscono a caratteristiche scartate. I dettagli di tutte le soluzioni risultanti sono riportati nella tabella 7. Dalle prestazioni osservate, possiamo rilevare che per tutte le regole sugli esempi, è possibile rifiutare 13 variabili condizionali su 21 (quasi il 62 %), mentre non solo il riconoscimento non è peggiore, ma aumentato.

Tabella 7 Indietro eliminazione del condizionale attributi utilizzando ANN Classifica, con l’induzione di nuovi algoritmi decisionali e con la riduzione del fondo algoritmo di decisione precedentemente dedotto

Quando tutte le regole su esempi di algoritmi decisionali (uno nuovo e il ridotto FDA) sono confrontati in ogni fase, diventa evidente che essi sono in realtà molto vicino. Anche se il numero di regole coinvolte non è sempre esattamente lo stesso, la precisione di classificazione risultante è quasi identica, il che suggerisce di scegliere il secondo modo, cioè con la riduzione della FDA generata per il set completo di funzionalità invece di indurre nuovi algoritmi. Richiede molto meno sforzo in quanto la parte difficile dei calcoli è già eseguita. Una volta stabilito un qualche tipo di metodo per la potatura delle regole, la sua esecuzione potrebbe essere meno impegnativa del processo di induzione.

Per confronto, sono stati eseguiti anche alcuni test per le classifiche invertite, con scartando gli attributi di ranking minimi, ma i risultati sono stati peggiori rispetto alla soluzione corrispondente per la maggior parte delle variabili di ranking, con differenze a seconda del numero di elementi ridotti, spesso aumentando insieme ad esso.

Tutti gli esperimenti condotti, sia per i set di dati stilometrici che per quelli sulle forme d’onda, confermano l’utilità della metodologia proposta di combinare i wrapper per la stima della rilevanza delle caratteristiche utilizzate successivamente alla loro riduzione all’indietro.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.