Rangordning av karakteristiska särdrag i kombinerade omslagsmetoder för urval

experimenten som utfördes inom den beskrivna forskningen utfördes i två steg. I det första steget användes algoritmen för sekventiell bakåt eliminering (SBE), applicerad i omslagsmodellen, för att fastställa rangordning av karakteristiska särdrag och avslöja deras relevans. Omslaget konstruerades för två typer av klassificerare, minimal cover decision algorithms (MCDA) härledda i DRSA och artificiella neurala nätverk.

de två erhållna rankningarna användes nästa gång i det andra steget, där reduktion av attribut utfördes, igen för regel-och anslutningsinducerare, medan deras prestanda observerades. Elimineringen av variabler för DRSA-klassificerare i detta skede utfördes på två sätt: genom att kassera attribut och inducera nya regler och algoritmer, och genom att avvisa regler från den tidigare genererade fullständiga beslutsalgoritmen (FDA), med alla regler om exempel, härledda för alla funktioner som beaktas.

procedurerna tillämpades på två par dataset. Den primära klassificeringsuppgiften var binär författartillskrivning med stylometriska funktioner. För jämförelse skull utfördes testerna också för vågformsdataset med liknande egenskaper (samma antal klasser, jämförbara antal prover och attribut). Resultaten för denna andra dataset ges i slutet av detta avsnitt.

upprättande av rangordning av funktioner av SBE

eftersom DRSA classifier skulle användas som ett omslag med sekventiell bakåtreduktion av funktioner, innebar det att man började med den kompletta uppsättningen attribut och eliminering av ett element i taget. Därför skulle induktion av alla regler om exempel i varje fall vara opraktiskt eftersom det för 25-funktioner i FDA-algoritmen fanns 62,383-konstituerande beslutsregler. Istället härleddes minimala täckningsbeslutsalgoritmer MCDA och deras prestanda användes för att välja ett attribut, vars minskning gav de bästa resultaten jämfört med andra på samma nivå. Detaljerna för alla steg listas i Tabell 1, där kolumnen längst till höger (i) visar den etablerade DRSA-rankningen av karakteristiska egenskaper.

Tabell 1 bakåt eliminering av attribut som baserar sig på prestanda för DRSA-klassificerare

tabellens översta rad motsvarar det 0: e reduktionssteget, det vill säga regelklassificeraren inducerad för alla 25 villkorliga attribut som studerats, listade i kolumn (c). Den minimala täckbeslutsalgoritmen som genererades bestod av 30 konstituerande regler, som var begränsad till bara 6 medan de krävde att deras minimala stöd skulle vara lika med minst 6. Den maximala klassificeringsnoggrannheten som uppnåddes av den pålagda begränsningen var 76,67% av korrekt erkända testprover. Klassificering noggrannhet som anges i tabellen (och för alla andra fall av data mining med DRSA presenteras i detta dokument) avser endast de fall då alla matchande regler klassificeras korrekt. De tvetydiga fallen av motstridiga beslut eller inga matchningsregler behandlades alltid som felaktiga (vilket är ganska strikt men begränsar ytterligare behandling som behövs annars).

därefter konstruerades 25 nya MCDA-klassificerare, var och en med 24 inmatningsfunktioner, med ett attribut eliminerat och deras prestanda testades och jämfördes. Av dessa system gav den med den reducerade funktionen som motsvarar användningsfrekvensen för ”och” det bästa resultatet, så detta attribut väljs som det minst relevanta AV alla kandidater och det första som elimineras, som anges i kolumn (i) i tabellen.

uppsättningen av 24 återstående variabler ger bas för nästa reduktionssteg med index lika med 1, som visas i Tabell 1 i den andra raden. Återigen bestod den bästa MCDA-beslutsalgoritmen av 30 regler, men med stöd lika med eller högre än 2 fanns det 17 regler med maximal klassificering som nådde 77,78 %.

det kan observeras i kolumn (h) i tabellen att klassificeringsnoggrannheten gradvis ökar från 76,67% upp till maximalt 91,11% korrekt igenkända prover när det bara finns 5, 4 eller 3 funktioner kvar i inmatningsuppsättningen, sedan för att minska till 84,44% för två villkorliga attribut och 61,11% för ett enda attribut.

processen för attributeliminering kan tolkas på detta sätt att systemet kasserar dessa element som är irrelevanta eller överflödiga och behåller dessa som är väsentliga för klassificering, vilket innebär att klassificeringsnoggrannheten antingen ökar eller är åtminstone på samma nivå, men för färre funktioner. Ordningen i vilken attributen elimineras återspeglar deras betydelse. När denna ordning är omvänd, prestandan hos DRSA-klassificerare minskar omedelbart och oåterkalleligt, vilket illustreras i Fig. 1.

Fig. 1
figur1

drsa-klassificeringsnoggrannhet i förhållande till antalet funktioner inom Sekventiell bakåt eliminering med MCDA, jämfört med minskning av attribut med omvänd ranking

samma sekventiella bakåtreduceringsprocedur tillämpades därefter på ANN-klassificerare (Tabell 2), som började med att bygga ett nätverk för alla 25 funktioner. För denna uppsättning var den genomsnittliga klassificeringsnoggrannheten strax över 91%. Detta värde är uppenbarligen högre än för basen DRSA-klassificerare, för vilken det bara var 76, 67 %. Det bör dock noteras att den tvetydiga klassificeringen av det regelbaserade systemet, av motstridiga beslut eller inga regler som matchade, behandlades som felaktig i alla övervägda fall och som påverkade denna lägre prediktiva noggrannhet. Dessutom garanterar generering av minimala täckningsbeslutsalgoritmer inte induktion av de bästa reglerna, med den högsta potentialen för korrekt klassificering, och det är ganska vanligt att beslutsalgoritmer konstruerade med andra tillvägagångssätt testar betydligt bättre, men ändå på bekostnad av mer komplexa förfaranden, mer beräkningskostnader inblandade och mer behandlingstid behövs .

Tabell 2 bakåt eliminering av attribut som bygger på prestanda ANN klassificerare

den positiva förändringen av klassificeringsförhållandet eller samma prestanda för färre ingångar är inte den enda indikatorn för attributrelevans eller redundans. När någon funktion reduceras, modifieras även klassificerarens interna struktur. För DRSA-bearbetning betyder det färre beståndsdelar i en beslutsalgoritm, medan för ett artificiellt neuralt nätverk blir dess lager mindre genom avlägsnande av neuroner.

om ett sådant mindre nätverk inte klassificerar sämre än tidigare reduktion betyder det att relevansen av den nyligen kasserade ingången är försumbar och den kan behandlas som överflödig. Föreställningen illustreras i Fig. 2, medan Fig. 3 visar vad som händer med systemets klassificeringsnoggrannhet när ingångsfunktionerna reduceras medan de följer den omvända ANN-rankningen. De två graferna från fikon. 2 och 3 visar samma trender som är synliga i den tidigare ritade prestanda DRSA klassificerare i Fig. 1.

Fig. 2
figur2

ANN klassificering noggrannhet observerats i sekventiell bakåt elimineringsprocessen, i förhållande till antalet betraktade funktioner, och för varje genomsnitt, det anges maximal och minimal prestanda

Fig. 3
figur3

ANN klassificering noggrannhet i förhållande till antalet funktioner, observerats i bakåt minskning av ingångar medan efter den omvända ANN Ranking. För varje genomsnitt anges maximal och minimal prestanda

när vi jämför DRSA-och ANN-rankningar mot varandra och analyserar poängen som tilldelats alla attribut kan vi se att även om båda typerna av klassificerare fungerar på samma datamängder, är de resulterande beställningarna av reducerade funktioner Olika, bara den sista återstående funktionen är densamma i båda rankningarna: användningsfrekvensen för ”inte”. Detta är ett direkt resultat av de inneboende egenskaperna hos inducerarna som överförs till rankningarna beräknade med deras hjälp.

eftersom omslag ofta anklagas för sådan förspänning måste de erhållna rankningarna observeras i processen för minskning av karakteristiska egenskaper för andra klassificeringssystem, genom att kombinera omslag av samma och olika typ, för att utvärdera deras användbarhet genom tester, vilket illustreras i nästa avsnitt.

använda rankning av funktioner i deras reduktion

efter den allmänna kategoriseringen av funktionsvalsmetoder hör rankningen till filter. I den presenterade forskningen erhölls två rankningar med DRSA-och ANN-baserade omslag, ges i de högra kolumnerna i tabellerna 1 och 2. Dessa orderingar användes därefter för att filtrera bort de villkorliga attributen från den ursprungliga uppsättningen 25, i bakåt eliminering av ingångsvariabler för nya klassificerare.

detaljerna för tillämpning av ANN Ranking till bakåtminskning av attribut i DRSA-bearbetning, vilket resulterar i en hybridlösning, visas i tabell 3. För det första avvisades delmängder av funktioner med ökande kardinaliteter, och sedan för de återstående delmängderna inducerades nya beslutsalgoritmer, med att bara tillhandahålla ett minimalt skydd MCDA, och även med att härleda alla regler om exempel FDA.

tabell 3 bakåt eliminering av villkorliga attribut med ANN Ranking med induktion av nya beslutsalgoritmer

eftersom klassificeringsnoggrannheten vanligtvis behandlas som den viktigaste faktorn som indikerar kvaliteten på den erhållna lösningen kan vi fokusera vår uppmärksamhet på två (g) kolumner i tabell 3 eller ett diagram i Fig. 4. För både MCDA och FDA klassificerare, det finns flera fall av förbättrad eller samma prestanda när funktioner reduceras, men vinsten, anses i termer av antingen ett antal avvisade funktioner, eller en ökning av prediktiv noggrannhet, eller ett lägre antal beslutsregler kvar i algoritmen, är inte så hög som det observerades tidigare för enkla ANN eller MCDA omslag.

Fig. 4
figur4

klassificering noggrannhet för MCDA och FDA beslut algoritmer induceras efter bakåt attribut eliminering baserat på ANN Ranking, i förhållande till antalet funktioner

istället för att minska villkorliga attribut och sedan dra slutsatser om nya beslutsalgoritmer, vilket kan vara mycket tidskrävande, kan vi också eliminera dessa attribut genom att kassera regler med villkor på dem, vilket begränsar alla regler om exempel beslutsalgoritm som tidigare inducerats för alla funktioner . Ett sådant tillvägagångssätt kan betraktas som utförande av rangordning för beslutsregler.

för det första tilldelas en poäng till varje regel i den inducerade algoritmen, baserat på individuella poäng för alla attribut som ingår i premissdelen av regeln. Från alla dessa elementära poäng, som motsvarar de ingående förhållandena, väljs den högsta, vilket indikerar attributet som uppfattas som det minst viktiga; således den första som elimineras, och denna poäng ges till beslutsregeln. Då ordnas alla regler efter deras poäng, och i varje reduktionssteg avvisas alla regler med en viss poäng, vilket resulterar i reducerade beslutsalgoritmer.

närmare uppgifter om detta förfarande för rangordning av beslutsregeln finns i Tabell 4. Som jämförelse, det finns också listade resultat av FDA-algoritmreduktion medan de följer den omvända ANN-rankningen, båda ritade också i Fig. 5.

Tabell 4 minskning av alla regler om exempel algoritm (FDA) med ANN feature ranking och dess omvända

tillämpning av ANN Ranking i minskning av FDA resulterar i ganska brant minskning av antalet återstående beslutsregler, medan klassificerare förutsäga med samma eller endast något reducerad noggrannhet. Omvänd ANN Ranking ger mycket långsammare algoritm minskning, men prestandan försämras omedelbart och irreparabelt.

Fig. 5
figur5

minskning av FDA-algoritmen medan du följer ANN Ranking och dess omvända. Den prediktiva noggrannheten ritas i förhållande till antalet funktioner

som upprättande av DRSA Ranking genom sekventiell bakåt eliminering med generering av minimala täck beslutsalgoritmer behandlas som en separat process, denna rangordning kan också användas i förfarandet för beslutsregel ranking och reduktion, begränsa alla regler om exempel algoritm, vars resultat ges i Tabell 5 och prestanda som visas i Fig. 6.

Tabell 5 bakåt eliminering av beslutsregler från alla regler om exempel (FDA) algoritm inducerad för alla funktioner, med följande DRSA Ranking av attribut och dess omvända

de tendenser som syns i prediktiv noggrannhet för reducerade beslutsalgoritmer medan de följer DRSA-rankning och dess omvända påminner direkt om dessa som observerats tidigare i omslagsläget när rankningen etablerades. Förfarandena gör det möjligt att filtrera bort dessa regler från FDA-algoritmen som innehåller villkor för irrelevanta attribut och returalgoritmer med betydligt minskat antal beslutsregler samtidigt som eller till och med öka klassificeringsnoggrannheten.

Fig. 6
figur6

minskning av alla regler om exempel beslutsalgoritm medan du följer DRSA – funktionen ranking och dess omvända

när DRSA-rankning användes för att minska inmatningskarakteristiken till det artificiella neurala nätverket resulterade det i ännu en hybridlösning. Vid varje elimineringssteg ignorerades en enda funktion och påverkan av den på nätverksprestandan studerades, som ritas i Fig. 7. När den omvända rankningen utnyttjas (Fig. 8), jämförelse av dessa två grafer avslöjar mycket nära likhet med den som visas i Fig. 1, illustrerar prestanda DRSA wrapper anställa SBE.

Fig. 7
figur7

minskning av karakteristiska egenskaper för ANN classifier medan du följer DRSA Ranking. Den prediktiva noggrannheten ritas i förhållande till antalet funktioner, och för varje medelvärde anges maximal och minimal prestanda

Fig. 8
figur8

minskning av karakteristiska egenskaper för ANN classifier medan du följer den omvända DRSA-rankningen. Den prediktiva noggrannheten ritas i förhållande till antalet funktioner, och för varje medelvärde anges maximal och minimal prestanda

från alla testade kombinationer av omslag visades den bästa prestandan för ANN-klassificerare som använde DRSA-rankning i bakåt eliminering av funktioner (Fig. 7). Goda resultat erhölls också i minskning av alla regler om exempel algoritm genereras för alla funktioner, medan följande DRSA Ranking (Tabell 5; fikon. 6). I detta fall kan detta emellertid förklaras av omslagsförspänningen när två system av samma typ, som delar samma egenskaper, kombineras. Detsamma kan inte anges för det tidigare fallet, eftersom skillnaderna mellan drsa-och ANN-klassificerare tydligt visas i den observerade processen med sekventiell bakåt eliminering av funktioner, vilket resulterar i två tydligt olika rankningar.

använda ANN Ranking i bakåt attributreduktion och sedan inducera nya regler och algoritmer för alla regler om exempel gör det möjligt att kassera åtta variabler (32 %) innan prestandan börjar minska (tabell 3; Fig. 4). ANN Ranking i FDA minskning ger också förkastande av åtta variabler och så många som 51,888 beslutsregler (83 %). Tillämpning av omvända rankningar, både DRSA – och ANN-baserade, resulterade alltid i försämrad prestanda.

resultat för vågformsdataset

attributen för vågformsdataset beskrivs inte i detalj i UCI ML-arkivet; för enkelhets skull märktes de därför helt enkelt form a1 till a21 och de två beslutsklasserna motsvarade de valda vågtyperna, typ 0 och typ 1. De två rankningar som erhållits genom sekventiell bakåt eliminering för drsa och ANN klassificerare ges i Tabell 6, med uppgifter om inducerade algoritmer och prestanda för båda systemen, som också ritas för båda typerna av klassificeringssystem i Fig. 9.

Tabell 6 bakåt eliminering av attribut som baserar sig på prestanda för DRSA-och ANN-klassificerare för vågformsdataset
Fig. 9
figur9

prestanda för drsa-och ANN-klassificerare observerade vid Sekventiell bakåt eliminering av karakteristiska egenskaper

klassificerarnas prestanda jämförs mot varandra och med referenspunkten som utgörs av de prediktiva noggrannheterna som erhållits för den kompletta uppsättningen av 21 attribut. Minimal täckbeslutsalgoritm inducerad klassificeras endast 65 % med 55 regler begränsade till 20 av begränsningar på stöd för att vara lika med minst 3. Alla regler om exempel algoritm uppnår 74% erkännande förhållande (31,718 regler begränsas till 58 för stöd lika med eller högre än 48). ANN med 21 inmatningsfunktioner kände igen korrekt 89% av testproverna.

när DRSA-rankning av funktioner tillämpas för systematisk minskning av ingångar till anslutningsklassificerare, i den inledande fasen kan en viss ökning av prestanda observeras (se Fig. 10), men den synliga trenden är inte strikt monoton. Samma rangordning används också för minskning av utvalda regler från alla regler om exempel algoritm i de förfaranden som beskrivits tidigare och i denna process betydande vinster kan observeras: vi kan minska 17 av 21 attribut (nära 81 %) och har fortfarande ökad prestanda. Detta kommer emellertid utan överraskning eftersom båda inducerarna delar samma allmänna egenskaper, därav den resulterande förspänningen.

Fig. 10
figur10

beskärning av ingångar för ANN classifier jämfört med beskärning av regler från alla regler om exempel beslutsalgoritm inducerad för den kompletta uppsättningen attribut, med dimensioneringsreduktion utförd medan du följer DRSA-rankning

att införa ANN Ranking på DRSA-bearbetning utförs igen på två sätt: antingen för de gradvis minskande delmängderna av villkorliga attribut induceras nya beslutsregler (både MCDA och FDA), eller uppsättningen regler från den tidigare antagna fullständiga beslutsalgoritmen analyseras och vissa regler avvisas när de hänvisar till kasserade funktioner. Detaljerna för alla resulterande lösningar ges i Tabell 7. Från den observerade prestandan kan vi upptäcka att för alla regler om exempel är det möjligt att avvisa 13 av 21 villkorliga variabler (nästan 62%), medan inte bara erkännandet inte är sämre utan ökat.

Tabell 7 bakåt eliminering av villkorliga attribut med ANN Ranking med induktion av nya beslutsalgoritmer och med minskning av fullständig beslutsalgoritm som tidigare dragits

när alla regler om exempel beslutsalgoritmer (en ny och den reducerade FDA) jämförs i varje steg blir det uppenbart att de faktiskt är mycket nära. Även om antalet involverade regler inte alltid är exakt samma, är den resulterande klassificeringsnoggrannheten nästan identisk, vilket föreslår att man väljer det andra sättet, det vill säga med minskning av FDA som genereras för den kompletta uppsättningen funktioner istället för att inducera nya algoritmer. Det kräver betydligt mindre ansträngning eftersom den svåra delen av beräkningarna redan är utförd. När någon form av metod för beskärning av regler har upprättats kan dess genomförande vara mindre krävande än induktionsprocessen.

för jämförelse utfördes också några tester för omvända rankningar, med kassering av minst rankningsattribut, men resultaten var sämre jämfört med motsvarande lösning för de flesta rankningsvariabler, med skillnader beroende på antalet element minskade, ofta ökar tillsammans med det.

alla experiment utförda, för både stylometriska och vågformsdataset, bekräftar användbarheten av den föreslagna metoden för att kombinera omslag för uppskattning av funktionsrelevans som används nästa gång deras bakåtreduktion.

Lämna ett svar

Din e-postadress kommer inte publiceras.