experimenten som utfördes inom den beskrivna forskningen utfördes i två steg. I det första steget användes algoritmen för sekventiell bakåt eliminering (SBE), applicerad i omslagsmodellen, för att fastställa rangordning av karakteristiska särdrag och avslöja deras relevans. Omslaget konstruerades för två typer av klassificerare, minimal cover decision algorithms (MCDA) härledda i DRSA och artificiella neurala nätverk.
de två erhållna rankningarna användes nästa gång i det andra steget, där reduktion av attribut utfördes, igen för regel-och anslutningsinducerare, medan deras prestanda observerades. Elimineringen av variabler för DRSA-klassificerare i detta skede utfördes på två sätt: genom att kassera attribut och inducera nya regler och algoritmer, och genom att avvisa regler från den tidigare genererade fullständiga beslutsalgoritmen (FDA), med alla regler om exempel, härledda för alla funktioner som beaktas.
procedurerna tillämpades på två par dataset. Den primära klassificeringsuppgiften var binär författartillskrivning med stylometriska funktioner. För jämförelse skull utfördes testerna också för vågformsdataset med liknande egenskaper (samma antal klasser, jämförbara antal prover och attribut). Resultaten för denna andra dataset ges i slutet av detta avsnitt.
upprättande av rangordning av funktioner av SBE
eftersom DRSA classifier skulle användas som ett omslag med sekventiell bakåtreduktion av funktioner, innebar det att man började med den kompletta uppsättningen attribut och eliminering av ett element i taget. Därför skulle induktion av alla regler om exempel i varje fall vara opraktiskt eftersom det för 25-funktioner i FDA-algoritmen fanns 62,383-konstituerande beslutsregler. Istället härleddes minimala täckningsbeslutsalgoritmer MCDA och deras prestanda användes för att välja ett attribut, vars minskning gav de bästa resultaten jämfört med andra på samma nivå. Detaljerna för alla steg listas i Tabell 1, där kolumnen längst till höger (i) visar den etablerade DRSA-rankningen av karakteristiska egenskaper.
tabellens översta rad motsvarar det 0: e reduktionssteget, det vill säga regelklassificeraren inducerad för alla 25 villkorliga attribut som studerats, listade i kolumn (c). Den minimala täckbeslutsalgoritmen som genererades bestod av 30 konstituerande regler, som var begränsad till bara 6 medan de krävde att deras minimala stöd skulle vara lika med minst 6. Den maximala klassificeringsnoggrannheten som uppnåddes av den pålagda begränsningen var 76,67% av korrekt erkända testprover. Klassificering noggrannhet som anges i tabellen (och för alla andra fall av data mining med DRSA presenteras i detta dokument) avser endast de fall då alla matchande regler klassificeras korrekt. De tvetydiga fallen av motstridiga beslut eller inga matchningsregler behandlades alltid som felaktiga (vilket är ganska strikt men begränsar ytterligare behandling som behövs annars).
därefter konstruerades 25 nya MCDA-klassificerare, var och en med 24 inmatningsfunktioner, med ett attribut eliminerat och deras prestanda testades och jämfördes. Av dessa system gav den med den reducerade funktionen som motsvarar användningsfrekvensen för ”och” det bästa resultatet, så detta attribut väljs som det minst relevanta AV alla kandidater och det första som elimineras, som anges i kolumn (i) i tabellen.
uppsättningen av 24 återstående variabler ger bas för nästa reduktionssteg med index lika med 1, som visas i Tabell 1 i den andra raden. Återigen bestod den bästa MCDA-beslutsalgoritmen av 30 regler, men med stöd lika med eller högre än 2 fanns det 17 regler med maximal klassificering som nådde 77,78 %.
det kan observeras i kolumn (h) i tabellen att klassificeringsnoggrannheten gradvis ökar från 76,67% upp till maximalt 91,11% korrekt igenkända prover när det bara finns 5, 4 eller 3 funktioner kvar i inmatningsuppsättningen, sedan för att minska till 84,44% för två villkorliga attribut och 61,11% för ett enda attribut.
processen för attributeliminering kan tolkas på detta sätt att systemet kasserar dessa element som är irrelevanta eller överflödiga och behåller dessa som är väsentliga för klassificering, vilket innebär att klassificeringsnoggrannheten antingen ökar eller är åtminstone på samma nivå, men för färre funktioner. Ordningen i vilken attributen elimineras återspeglar deras betydelse. När denna ordning är omvänd, prestandan hos DRSA-klassificerare minskar omedelbart och oåterkalleligt, vilket illustreras i Fig. 1.
samma sekventiella bakåtreduceringsprocedur tillämpades därefter på ANN-klassificerare (Tabell 2), som började med att bygga ett nätverk för alla 25 funktioner. För denna uppsättning var den genomsnittliga klassificeringsnoggrannheten strax över 91%. Detta värde är uppenbarligen högre än för basen DRSA-klassificerare, för vilken det bara var 76, 67 %. Det bör dock noteras att den tvetydiga klassificeringen av det regelbaserade systemet, av motstridiga beslut eller inga regler som matchade, behandlades som felaktig i alla övervägda fall och som påverkade denna lägre prediktiva noggrannhet. Dessutom garanterar generering av minimala täckningsbeslutsalgoritmer inte induktion av de bästa reglerna, med den högsta potentialen för korrekt klassificering, och det är ganska vanligt att beslutsalgoritmer konstruerade med andra tillvägagångssätt testar betydligt bättre, men ändå på bekostnad av mer komplexa förfaranden, mer beräkningskostnader inblandade och mer behandlingstid behövs .
den positiva förändringen av klassificeringsförhållandet eller samma prestanda för färre ingångar är inte den enda indikatorn för attributrelevans eller redundans. När någon funktion reduceras, modifieras även klassificerarens interna struktur. För DRSA-bearbetning betyder det färre beståndsdelar i en beslutsalgoritm, medan för ett artificiellt neuralt nätverk blir dess lager mindre genom avlägsnande av neuroner.
om ett sådant mindre nätverk inte klassificerar sämre än tidigare reduktion betyder det att relevansen av den nyligen kasserade ingången är försumbar och den kan behandlas som överflödig. Föreställningen illustreras i Fig. 2, medan Fig. 3 visar vad som händer med systemets klassificeringsnoggrannhet när ingångsfunktionerna reduceras medan de följer den omvända ANN-rankningen. De två graferna från fikon. 2 och 3 visar samma trender som är synliga i den tidigare ritade prestanda DRSA klassificerare i Fig. 1.
när vi jämför DRSA-och ANN-rankningar mot varandra och analyserar poängen som tilldelats alla attribut kan vi se att även om båda typerna av klassificerare fungerar på samma datamängder, är de resulterande beställningarna av reducerade funktioner Olika, bara den sista återstående funktionen är densamma i båda rankningarna: användningsfrekvensen för ”inte”. Detta är ett direkt resultat av de inneboende egenskaperna hos inducerarna som överförs till rankningarna beräknade med deras hjälp.
eftersom omslag ofta anklagas för sådan förspänning måste de erhållna rankningarna observeras i processen för minskning av karakteristiska egenskaper för andra klassificeringssystem, genom att kombinera omslag av samma och olika typ, för att utvärdera deras användbarhet genom tester, vilket illustreras i nästa avsnitt.
använda rankning av funktioner i deras reduktion
efter den allmänna kategoriseringen av funktionsvalsmetoder hör rankningen till filter. I den presenterade forskningen erhölls två rankningar med DRSA-och ANN-baserade omslag, ges i de högra kolumnerna i tabellerna 1 och 2. Dessa orderingar användes därefter för att filtrera bort de villkorliga attributen från den ursprungliga uppsättningen 25, i bakåt eliminering av ingångsvariabler för nya klassificerare.
detaljerna för tillämpning av ANN Ranking till bakåtminskning av attribut i DRSA-bearbetning, vilket resulterar i en hybridlösning, visas i tabell 3. För det första avvisades delmängder av funktioner med ökande kardinaliteter, och sedan för de återstående delmängderna inducerades nya beslutsalgoritmer, med att bara tillhandahålla ett minimalt skydd MCDA, och även med att härleda alla regler om exempel FDA.
eftersom klassificeringsnoggrannheten vanligtvis behandlas som den viktigaste faktorn som indikerar kvaliteten på den erhållna lösningen kan vi fokusera vår uppmärksamhet på två (g) kolumner i tabell 3 eller ett diagram i Fig. 4. För både MCDA och FDA klassificerare, det finns flera fall av förbättrad eller samma prestanda när funktioner reduceras, men vinsten, anses i termer av antingen ett antal avvisade funktioner, eller en ökning av prediktiv noggrannhet, eller ett lägre antal beslutsregler kvar i algoritmen, är inte så hög som det observerades tidigare för enkla ANN eller MCDA omslag.
istället för att minska villkorliga attribut och sedan dra slutsatser om nya beslutsalgoritmer, vilket kan vara mycket tidskrävande, kan vi också eliminera dessa attribut genom att kassera regler med villkor på dem, vilket begränsar alla regler om exempel beslutsalgoritm som tidigare inducerats för alla funktioner . Ett sådant tillvägagångssätt kan betraktas som utförande av rangordning för beslutsregler.
för det första tilldelas en poäng till varje regel i den inducerade algoritmen, baserat på individuella poäng för alla attribut som ingår i premissdelen av regeln. Från alla dessa elementära poäng, som motsvarar de ingående förhållandena, väljs den högsta, vilket indikerar attributet som uppfattas som det minst viktiga; således den första som elimineras, och denna poäng ges till beslutsregeln. Då ordnas alla regler efter deras poäng, och i varje reduktionssteg avvisas alla regler med en viss poäng, vilket resulterar i reducerade beslutsalgoritmer.
närmare uppgifter om detta förfarande för rangordning av beslutsregeln finns i Tabell 4. Som jämförelse, det finns också listade resultat av FDA-algoritmreduktion medan de följer den omvända ANN-rankningen, båda ritade också i Fig. 5.
tillämpning av ANN Ranking i minskning av FDA resulterar i ganska brant minskning av antalet återstående beslutsregler, medan klassificerare förutsäga med samma eller endast något reducerad noggrannhet. Omvänd ANN Ranking ger mycket långsammare algoritm minskning, men prestandan försämras omedelbart och irreparabelt.
som upprättande av DRSA Ranking genom sekventiell bakåt eliminering med generering av minimala täck beslutsalgoritmer behandlas som en separat process, denna rangordning kan också användas i förfarandet för beslutsregel ranking och reduktion, begränsa alla regler om exempel algoritm, vars resultat ges i Tabell 5 och prestanda som visas i Fig. 6.
de tendenser som syns i prediktiv noggrannhet för reducerade beslutsalgoritmer medan de följer DRSA-rankning och dess omvända påminner direkt om dessa som observerats tidigare i omslagsläget när rankningen etablerades. Förfarandena gör det möjligt att filtrera bort dessa regler från FDA-algoritmen som innehåller villkor för irrelevanta attribut och returalgoritmer med betydligt minskat antal beslutsregler samtidigt som eller till och med öka klassificeringsnoggrannheten.
när DRSA-rankning användes för att minska inmatningskarakteristiken till det artificiella neurala nätverket resulterade det i ännu en hybridlösning. Vid varje elimineringssteg ignorerades en enda funktion och påverkan av den på nätverksprestandan studerades, som ritas i Fig. 7. När den omvända rankningen utnyttjas (Fig. 8), jämförelse av dessa två grafer avslöjar mycket nära likhet med den som visas i Fig. 1, illustrerar prestanda DRSA wrapper anställa SBE.
från alla testade kombinationer av omslag visades den bästa prestandan för ANN-klassificerare som använde DRSA-rankning i bakåt eliminering av funktioner (Fig. 7). Goda resultat erhölls också i minskning av alla regler om exempel algoritm genereras för alla funktioner, medan följande DRSA Ranking (Tabell 5; fikon. 6). I detta fall kan detta emellertid förklaras av omslagsförspänningen när två system av samma typ, som delar samma egenskaper, kombineras. Detsamma kan inte anges för det tidigare fallet, eftersom skillnaderna mellan drsa-och ANN-klassificerare tydligt visas i den observerade processen med sekventiell bakåt eliminering av funktioner, vilket resulterar i två tydligt olika rankningar.
använda ANN Ranking i bakåt attributreduktion och sedan inducera nya regler och algoritmer för alla regler om exempel gör det möjligt att kassera åtta variabler (32 %) innan prestandan börjar minska (tabell 3; Fig. 4). ANN Ranking i FDA minskning ger också förkastande av åtta variabler och så många som 51,888 beslutsregler (83 %). Tillämpning av omvända rankningar, både DRSA – och ANN-baserade, resulterade alltid i försämrad prestanda.
resultat för vågformsdataset
attributen för vågformsdataset beskrivs inte i detalj i UCI ML-arkivet; för enkelhets skull märktes de därför helt enkelt form a1 till a21 och de två beslutsklasserna motsvarade de valda vågtyperna, typ 0 och typ 1. De två rankningar som erhållits genom sekventiell bakåt eliminering för drsa och ANN klassificerare ges i Tabell 6, med uppgifter om inducerade algoritmer och prestanda för båda systemen, som också ritas för båda typerna av klassificeringssystem i Fig. 9.
klassificerarnas prestanda jämförs mot varandra och med referenspunkten som utgörs av de prediktiva noggrannheterna som erhållits för den kompletta uppsättningen av 21 attribut. Minimal täckbeslutsalgoritm inducerad klassificeras endast 65 % med 55 regler begränsade till 20 av begränsningar på stöd för att vara lika med minst 3. Alla regler om exempel algoritm uppnår 74% erkännande förhållande (31,718 regler begränsas till 58 för stöd lika med eller högre än 48). ANN med 21 inmatningsfunktioner kände igen korrekt 89% av testproverna.
när DRSA-rankning av funktioner tillämpas för systematisk minskning av ingångar till anslutningsklassificerare, i den inledande fasen kan en viss ökning av prestanda observeras (se Fig. 10), men den synliga trenden är inte strikt monoton. Samma rangordning används också för minskning av utvalda regler från alla regler om exempel algoritm i de förfaranden som beskrivits tidigare och i denna process betydande vinster kan observeras: vi kan minska 17 av 21 attribut (nära 81 %) och har fortfarande ökad prestanda. Detta kommer emellertid utan överraskning eftersom båda inducerarna delar samma allmänna egenskaper, därav den resulterande förspänningen.
att införa ANN Ranking på DRSA-bearbetning utförs igen på två sätt: antingen för de gradvis minskande delmängderna av villkorliga attribut induceras nya beslutsregler (både MCDA och FDA), eller uppsättningen regler från den tidigare antagna fullständiga beslutsalgoritmen analyseras och vissa regler avvisas när de hänvisar till kasserade funktioner. Detaljerna för alla resulterande lösningar ges i Tabell 7. Från den observerade prestandan kan vi upptäcka att för alla regler om exempel är det möjligt att avvisa 13 av 21 villkorliga variabler (nästan 62%), medan inte bara erkännandet inte är sämre utan ökat.
när alla regler om exempel beslutsalgoritmer (en ny och den reducerade FDA) jämförs i varje steg blir det uppenbart att de faktiskt är mycket nära. Även om antalet involverade regler inte alltid är exakt samma, är den resulterande klassificeringsnoggrannheten nästan identisk, vilket föreslår att man väljer det andra sättet, det vill säga med minskning av FDA som genereras för den kompletta uppsättningen funktioner istället för att inducera nya algoritmer. Det kräver betydligt mindre ansträngning eftersom den svåra delen av beräkningarna redan är utförd. När någon form av metod för beskärning av regler har upprättats kan dess genomförande vara mindre krävande än induktionsprocessen.
för jämförelse utfördes också några tester för omvända rankningar, med kassering av minst rankningsattribut, men resultaten var sämre jämfört med motsvarande lösning för de flesta rankningsvariabler, med skillnader beroende på antalet element minskade, ofta ökar tillsammans med det.
alla experiment utförda, för både stylometriska och vågformsdataset, bekräftar användbarheten av den föreslagna metoden för att kombinera omslag för uppskattning av funktionsrelevans som används nästa gång deras bakåtreduktion.