Rangering af karakteristiske træk i kombinerede indpakningsmetoder til udvælgelse

eksperimenterne udført inden for den beskrevne forskning blev udført i to faser. I den første fase blev den sekventielle baglæns eliminering (SBE) algoritme, der blev anvendt i indpakningsmodellen, brugt til at etablere rangordning af karakteristiske træk og afsløre deres relevans. Indpakningen blev konstrueret til to typer klassifikatorer, minimal cover decision algorithms (MCDA) udledt i DRSA og kunstige neurale netværk.

de to opnåede placeringer blev næste ansat i anden fase, hvor reduktion af attributter blev udført, igen for regel-og forbindelsesinduktorer, mens deres præstation blev observeret. Eliminering af variabler til DRSA-klassifikator på dette trin blev udført på to måder: ved at kassere attributter og inducere nye regler og algoritmer og ved at afvise regler fra den tidligere genererede full decision algorithm (FDA) med alle regler om eksempler, udledt for alle funktioner, der overvejes.

procedurerne blev anvendt på to par datasæt. Den primære klassificeringsopgave var binær forfatterskabstilskrivning med stilometriske funktioner. Til sammenligning blev testene også udført for bølgeformdatasæt med lignende egenskaber (det samme antal klasser, sammenlignelige antal prøver og attributter). Resultaterne for dette andet datasæt er angivet i slutningen af dette afsnit.

etablering af rangordning af funktioner efter SBE

da DRSA-klassifikator skulle bruges som en indpakning med sekventiel bagudreduktion af funktioner, betød det at starte med det komplette sæt attributter og eliminering af et element ad gangen. Derfor ville induktion af alle regler om eksempler i hvert tilfælde være upraktisk, da der for 25 funktioner i FDA-algoritmen var 62.383 konstituerende beslutningsregler. I stedet blev der udledt minimale dækningsbeslutningsalgoritmer MCDA, og deres ydeevne blev brugt til at vælge en attribut, hvis reduktion gav de bedste resultater sammenlignet med andre på samme niveau. Detaljerne for alle trin er angivet i tabel 1, hvor kolonnen til højre (i) viser den etablerede DRSA-rangordning af karakteristiske træk.

tabel 1 baglæns eliminering af attributter baseret på udførelsen af DRSA-klassifikatorer

den øverste række i tabellen svarer til det 0.reduktionstrin, det vil sige regelklassifikatoren induceret for alle 25 undersøgte betingede attributter, der er anført i kolonne (c). Den genererede minimale dækningsbeslutningsalgoritme bestod af 30 bestanddele, som var begrænset til bare 6 mens de krævede, at deres minimale støtte mindst var lig 6. Den maksimale klassificeringsnøjagtighed opnået ved den pålagte begrænsning var 76,67% af korrekt anerkendte testprøver. Klassificeringsnøjagtighed angivet i tabellen (og for alle andre tilfælde af data mining med DRSA præsenteret i dette papir) henviser kun til tilfælde, hvor alle matchende regler klassificeres korrekt. De tvetydige tilfælde af modstridende beslutninger eller ingen matchende regler blev altid behandlet som forkerte (hvilket er ret strengt, men begrænser yderligere behandling, der ellers er nødvendig).

dernæst blev 25 nye MCDA-klassifikatorer konstrueret, hver med 24 inputfunktioner, hvor en attribut blev elimineret, og deres ydeevne blev testet og sammenlignet. Ud af disse systemer gav den med den reducerede funktion svarende til hyppigheden af brugen for “og” det bedste resultat, så denne attribut vælges som den mindst relevante af alle kandidater og den første, der fjernes, som angivet i kolonne (i) i tabellen.

sættet med 24 resterende variabler giver basis for det næste reduktionstrin med indeks lig 1, vist i tabel 1 i anden række. Igen bestod den bedste MCDA-beslutningsalgoritme af 30 regler, men med støtte lig med eller højere end 2 var der 17 regler med maksimal klassificering på 77,78 %.

det kan observeres i kolonne (h) i tabellen, at klassificeringsnøjagtigheden gradvist øges fra 76,67% op til maksimalt 91,11% korrekt genkendte prøver, når der kun er 5, 4 eller 3 funktioner tilbage i inputsættet og derefter reduceres til 84,44% for to betingede attributter og 61,11% for en enkelt attribut.

processen med eliminering af attributter kan fortolkes på denne måde, at systemet kasserer disse elementer, der er irrelevante eller overflødige, og holder disse, der er væsentlige for klassificering, som et resultat øges klassificeringsnøjagtigheden enten eller er i det mindste på samme niveau, men for færre funktioner. Den rækkefølge, hvori attributterne elimineres, afspejler deres betydning. Når denne rækkefølge vendes, falder ydelsen af DRSA-klassifikatorer øjeblikkeligt og uopretteligt, hvilket er illustreret i Fig. 1.

Fig. 1
figur1

drsa-klassificeringsnøjagtighed i forhold til antallet af funktioner inden for sekventiel baglæns eliminering med MCDA, sammenlignet med reduktion af attributter ved hjælp af omvendt placering

den samme sekventielle bagudreduktionsprocedure blev næste gang anvendt på ANN-klassifikatorer (tabel 2), begyndende med at konstruere et netværk til alle 25 funktioner. For dette sæt var den gennemsnitlige klassificeringsnøjagtighed lige over 91%. Denne værdi er åbenlyst højere end for basen DRSA-klassifikatoren, for hvilken den kun var 76, 67 %. Det skal dog bemærkes, at den tvetydige klassificering af det regelbaserede system, af modstridende beslutninger eller ingen regler, der matcher, blev behandlet som forkert i alle betragtede tilfælde, og som påvirkede denne lavere forudsigelige nøjagtighed. Hvad mere er, generation af minimale dækningsbeslutningsalgoritmer garanterer ikke induktion af de bedste regler, med det højeste potentiale for korrekt klassificering, og det er ret almindeligt, at beslutningsalgoritmer konstrueret med andre tilgange tester betydeligt bedre, alligevel på bekostning af mere komplekse procedurer, flere involverede beregningsomkostninger, og mere behandlingstid nødvendig .

tabel 2 baglæns eliminering af attributter baseret på ANN-klassificeringernes ydeevne

den positive ændring af klassificeringsgraden eller den samme ydelse for færre input er ikke den eneste indikator for attributrelevans eller redundans. Når nogle funktioner reduceres, ændres også klassificeringens interne struktur i overensstemmelse hermed. Til DRSA-behandling betyder det færre bestanddele i en beslutningsalgoritme, mens for et kunstigt neuralt netværk bliver dets lag mindre ved fjernelse af neuroner.

hvis et sådant mindre netværk klassificerer ikke værre end før reduktion, betyder det, at relevansen af det nyligt kasserede input er ubetydelig, og det kan behandles som overflødigt. Forestillingen er illustreret i Fig. 2, Mens Fig. 3 viser, hvad der sker med klassificeringsnøjagtigheden af systemet, når inputfunktionerne reduceres, mens du følger den omvendte ANN-placering. De to grafer fra Fig. 2 og 3 viser de samme tendenser, der er synlige i den tidligere afbildede ydelse af DRSA-klassifikatorer i Fig. 1.

Fig. 2
figur2

ANN-klassificeringsnøjagtighed observeret i sekventiel baglæns elimineringsproces, i forhold til antallet af betragtede funktioner, og for hvert gennemsnit, der er angivet maksimal og minimal ydelse

Fig. 3
figur3

ANN-klassificeringsnøjagtighed i forhold til antallet af funktioner, observeret i bagudreduktion af input, mens du følger den omvendte ANN-placering. For hvert gennemsnit er der angivet maksimal og minimal ydelse

når vi sammenligner Drsa og ANN placeringer mod hinanden og analyserer de scoringer, der er tildelt alle attributter, kan vi se, at selvom begge typer klassifikatorer fungerer på de samme datasæt, er de resulterende ordrer af reducerede funktioner Forskellige, kun den sidste resterende funktion er den samme i begge placeringer: hyppigheden af brug for “ikke”. Dette er et direkte resultat af de induktorers iboende egenskaber, der overføres til placeringerne beregnet med deres hjælp.

da indpakninger ofte beskyldes for en sådan bias, skal de opnåede placeringer observeres i processen med reduktion af karakteristiske træk for andre klassificeringssystemer ved at kombinere indpakninger af samme og forskellige type for at evaluere deres anvendelighed gennem test, hvilket er illustreret i næste afsnit.

anvendelse af rangordning af funktioner i deres reduktion

efter den generelle kategorisering af funktionsvalgsmetoder hører rangering med filtre. I den præsenterede forskning blev der opnået to placeringer ved hjælp af DRSA – og ANN-baserede indpakninger, givet i de højeste kolonner i tabel 1 og 2. Disse ordrer blev derefter brugt til at filtrere de betingede attributter fra det oprindelige sæt af 25, i baglæns eliminering af inputvariabler for nye klassifikatorer.

detaljerne om anvendelse af ANN-rangering til tilbagestående reduktion af attributter i DRSA-behandling, hvilket resulterer i en hybridopløsning, er vist i tabel 3. For det første, delmængder af funktioner med stigende kardinaliteter blev afvist, og derefter for de resterende delmængder, nye beslutningsalgoritmer blev induceret, med kun at give et minimalt cover MCDA, og også med at udlede alle regler om eksempler FDA.

tabel 3 baglæns eliminering af betingede attributter ved hjælp af ANN-rangering med induktion af nye beslutningsalgoritmer

da klassificeringsnøjagtigheden normalt behandles som den vigtigste faktor, der angiver kvaliteten af den opnåede opløsning, kan vi fokusere vores opmærksomhed på to (g) kolonner i tabel 3 eller en graf i Fig. 4. For både MCDA-og FDA-klassifikatorer er der flere tilfælde af forbedret eller den samme ydelse, når funktioner reduceres, men gevinsten, der betragtes som enten et antal afviste funktioner eller en stigning i forudsigelig nøjagtighed eller et lavere antal beslutningsregler, der er tilbage i algoritmen, er ikke så høj, som den tidligere blev observeret for enkle ANN-eller MCDA-indpakninger.

Fig. 4
figur4

Klassificeringsnøjagtighed for mcda-og FDA-beslutningsalgoritmer induceret efter eliminering af tilbagevendende attribut baseret på ANN-rangering, i forhold til antallet af funktioner

i stedet for at reducere betingede attributter og derefter udlede nye beslutningsalgoritmer, hvilket kan være meget tidskrævende, kan vi også fjerne disse attributter ved at kassere regler med betingelser for dem, hvilket begrænser alle regler for eksempler beslutningsalgoritme induceret tidligere for alle funktioner . En sådan tilgang kan betragtes som udførelse af rangordning for beslutningsregler.

for det første tildeles hver regel i den inducerede algoritme en score, der baserer sig på individuelle scoringer for alle attributter, der er inkluderet i forudsætningsdelen af reglen. Fra alle disse elementære scoringer, der svarer til bestandsbetingelserne, vælges den højeste, der angiver den attribut, der opfattes som den mindst vigtige; således den første, der skal elimineres, og denne score gives til beslutningsreglen. Derefter ordnes alle regler efter deres score, og i hvert trin af reduktion afvises alle regler med en bestemt score, hvilket resulterer i reducerede beslutningsalgoritmer.

detaljerne i denne procedure for rangordning af beslutningsreglen er angivet i tabel 4. Til sammenligning, der er også listede resultater af FDA-algoritmereduktion, mens de følger den omvendte ANN-placering, begge afbildet også i Fig. 5.

Tabel 4 reduktion af alle regler om eksempler algoritme (FDA) ved hjælp af ANN – funktionsrangering og dens omvendte

anvendelse af ANN-rangordning i reduktion af FDA resulterer i et ret stejlt fald i antallet af resterende beslutningsregler, mens klassifikatorerne forudsiger med samme eller kun lidt reduceret nøjagtighed. Omvendt ANN Ranking bringer meget langsommere algoritme reduktion, men ydeevnen forværres øjeblikkeligt og uopretteligt.

Fig. 5
figur5

reduktion af FDA algoritme, mens du følger ANN Ranking og dens omvendte. Den forudsigelige nøjagtighed er afbildet i forhold til antallet af funktioner

da etablering af DRSA-rangering gennem sekventiel baglæns eliminering med generering af minimale dækningsbeslutningsalgoritmer behandles som en separat proces, denne placering kan også bruges i proceduren for placering og reduktion af beslutningsregel, begrænsning af alle regler for eksempler algoritme, hvis resultater er angivet i tabel 5 og ydeevnen vist i Fig. 6.

tabel 5 baglæns eliminering af beslutningsregler fra alle regler om eksempler (FDA) algoritme induceret for alle funktioner med følgende DRSA-rangordning af attributter og dens omvendte

de tendenser, der er synlige i forudsigelig nøjagtighed for reducerede beslutningsalgoritmer, mens de følger DRSA-rangering og dens omvendte, minder direkte om disse, der tidligere blev observeret i indpakningstilstanden, da rangeringen blev etableret. Procedurerne gør det muligt at filtrere disse regler fra FDA-algoritmen, der indeholder betingelser for irrelevante attributter og returalgoritmer med markant nedsat antal beslutningsregler, samtidig med at klassificeringsnøjagtigheden opretholdes eller endda øges.

Fig. 6
figur6

reduktion af alle regler om eksempler beslutningsalgoritme, mens du følger DRSA – funktionsrangering og dens omvendte

da DRSA-rangering blev anvendt til reduktion af inputkarakteristika til det kunstige neurale netværk, resulterede det i endnu en hybridløsning. Ved hvert eliminationstrin, en enkelt funktion blev ignoreret, og indflydelsen af den på netværksydelsen blev undersøgt, som afbildet i Fig. 7. Når den omvendte placering udnyttes (Fig. 8), viser sammenligning af disse to grafer meget tæt lighed med den, der vises i Fig. 1, der illustrerer udførelsen af DRSA-indpakning, der anvender SBE.

Fig. 7
figur7

reduktion af karakteristiske træk for ANN classifier mens du følger DRSA Ranking. Den forudsigelige nøjagtighed er afbildet i forhold til antallet af funktioner, og for hvert gennemsnit er der angivet maksimal og minimal ydeevne

Fig. 8
figur8

reduktion af karakteristiske træk for ANN classifier, mens du følger den omvendte DRSA-placering. Den forudsigelige nøjagtighed er afbildet i forhold til antallet af funktioner, og for hvert gennemsnit er der angivet maksimal og minimal ydeevne

fra alle testede kombinationer af indpakninger blev den bedste ydelse vist for ANN-klassifikatorer, der anvender DRSA-placering i bagudgående eliminering af funktioner (Fig. 7). Gode resultater blev også opnået i reduktion af alle regler om eksempler algoritme genereret for alle funktioner, mens du følger DRSA Ranking (tabel 5; Fig. 6). I dette tilfælde kan dette imidlertid forklares med indpakningsforspændingen, når to systemer af samme type, der deler de samme egenskaber, kombineres. Det samme kan ikke angives for det tidligere tilfælde, da forskellene mellem drsa og ANN klassifikatorer tydeligt vises i den observerede proces med sekventiel baglæns eliminering af funktioner, hvilket resulterer i to markant forskellige placeringer.

brug af ANN-placering i reduktion af tilbagestående attribut og derefter inducering af nye regler og algoritmer for alle regler på eksempler gør det muligt at kassere otte variabler (32%), før ydeevnen begynder at falde (tabel 3; Fig. 4). ANN Ranking i FDA reduktion bringer også afvisning af otte variabler og så mange som 51,888 beslutningsregler (83 %). Anvendelse af omvendte placeringer, både DRSA – og ANN-baserede, resulterede altid i forværret præstation.

resultater for bølgeformdatasæt

attributterne for bølgeformdatasættet er ikke beskrevet detaljeret i UCI ML-depotet; derfor blev de for nemheds skyld simpelthen mærket form A1 til a21, og de to beslutningsklasser svarede til de valgte bølgetyper, type 0 og type 1. De to placeringer opnået ved sekventiel baglæns eliminering for drsa-og ANN-klassifikatorer er angivet i tabel 6, med detaljer om inducerede algoritmer og ydeevne for begge systemer, som også er afbildet for begge typer klassificeringssystemer i Fig. 9.

Tabel 6 baglæns eliminering af attributter baseret på ydeevnen for drsa-og ANN-klassifikatorer for bølgeformdatasæt
Fig. 9
figur9

udførelse af drsa og ANN klassifikatorer observeret i den sekventielle baglæns eliminering af karakteristiske træk

klassifikatorernes ydeevne sammenlignes med hinanden og med referencepunktet, der udgøres af de forudsigelige nøjagtigheder opnået for det komplette sæt af 21 attributter. Minimal dækning beslutning algoritme induceret klassificeret kun 65% med 55 regler begrænset til 20 af begrænsninger på støtte til at være lige mindst 3. Alle regler om eksempler algoritme opnår 74% anerkendelse ratio (31,718 regler begrænset til 58 for støtte lig med eller højere end 48). ANN med 21 input funktioner anerkendt korrekt 89 % af testprøver.

når DRSA-rangering af funktioner anvendes til systematisk reduktion af input til connectionist-klassifikatorer, kan der i den indledende fase observeres en vis stigning i ydeevne (se Fig. 10), men den synlige tendens er ikke strengt monoton. Den samme placering anvendes også til reduktion af udvalgte regler fra alle regler om eksempler algoritme i de procedurer, der er beskrevet før, og i denne proces kan der observeres betydelige gevinster: vi kan reducere 17 ud af 21 attributter (tæt på 81 %) og har stadig øget ydeevne. Dette kommer dog uden overraskelse, da begge induktorer har de samme generelle egenskaber, deraf den resulterende bias.

Fig. 10
figur10

beskæring af input til ANN-klassifikator sammenlignet med beskæring af regler fra alle regler om eksempler beslutningsalgoritme induceret for det komplette sæt attributter, med dimensionalitetsreduktion udført, mens du følger DRSA-rangering

indførelse ANN Ranking på DRSA behandling udføres igen på to måder: enten for de gradvist faldende delmængder af betingede attributter induceres nye beslutningsregler (både MCDA og FDA), eller regelsættet fra den tidligere udledte komplette beslutningsalgoritme analyseres, og nogle regler afvises, når de henviser til kasserede funktioner. Detaljerne for alle resulterende løsninger er angivet i tabel 7. Fra den observerede ydeevne kan vi opdage, at for alle regler om eksempler er det muligt at afvise 13 ud af 21 betingede variabler (næsten 62 %), mens ikke kun anerkendelsen ikke er værre, men øget.

Tabel 7 baglæns eliminering af betingede attributter ved hjælp af ANN-rangering med induktion af nye beslutningsalgoritmer og med reduktion af den fulde beslutningsalgoritme, der tidligere var udledt

når alle regler om eksempler beslutningsalgoritmer (en ny og den reducerede FDA) sammenlignes i hvert trin, bliver det tydeligt, at de faktisk er meget tætte. Selvom antallet af involverede regler ikke altid er nøjagtigt det samme, den resulterende klassificeringsnøjagtighed er næsten identisk, hvilket antyder at vælge den anden vej, det vil sige med reduktion af FDA genereret til det komplette sæt funktioner i stedet for at inducere nye algoritmer. Det kræver betydeligt mindre indsats, da den hårde del af beregningerne allerede er udført. Når en slags metode til beskæring af regler er etableret, kan dens udførelse være mindre krævende end induktionsprocessen.

til sammenligning blev der også udført nogle tests for omvendte placeringer med kassering af de mindst rangerende attributter, men resultaterne var værre sammenlignet med den tilsvarende løsning for de fleste rangeringsvariabler, med forskelle afhængigt af antallet af elementer reduceret, ofte stigende sammen med det.

alle eksperimenter udført, for både stilometriske og bølgeform datasæt, bekræfter nytten af den foreslåede metode til at kombinere indpakninger til estimering af funktionsrelevans anvendt næste Det deres tilbagestående reduktion.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.