de experimenten die binnen het beschreven onderzoek werden uitgevoerd, werden in twee fasen uitgevoerd. In de eerste fase werd het sequentiële achterwaartse eliminatiealgoritme (SBE), toegepast in het wrapper-model, gebruikt om de rangschikking van karakteristieke kenmerken vast te stellen, waardoor hun relevantie werd onthuld. De wrapper werd gebouwd voor twee soorten classifiers, minimal cover decision algorithms (MCDA) afgeleid in DRSA en kunstmatige neurale netwerken.
de twee verkregen rankings werden vervolgens gebruikt in de tweede fase, waar reductie van attributen werd uitgevoerd, opnieuw voor regel-en connectionistische inductoren, terwijl hun prestaties werden waargenomen. De eliminatie van variabelen voor DRSA classifier in dit stadium werd uitgevoerd op twee manieren: door het weggooien van attributen en het induceren van nieuwe regels en algoritmen, en door het afwijzen van regels van de eerder gegenereerde full decision algorithm (FDA), met alle regels op voorbeelden, afgeleid voor alle functies beschouwd.
de procedures werden toegepast op twee paren datasets. De primaire classificatie taak was binaire auteurschap attributie met stylometrische functies. Ter vergelijking, de tests werden ook uitgevoerd voor golfvorm dataset met vergelijkbare kenmerken (hetzelfde aantal klassen, vergelijkbare aantallen monsters en attributen). De resultaten voor deze tweede dataset worden aan het einde van deze sectie gegeven.
het vaststellen van de rangschikking van kenmerken door SBE
aangezien de DRSA-classifier moest worden gebruikt als een wrapper met opeenvolgende achterwaartse reductie van kenmerken, betekende dit dat moest worden begonnen met de volledige set kenmerken en dat één element tegelijk moest worden geëlimineerd. Vandaar, inductie van alle regels op voorbeelden in elk geval onpraktisch zou zijn als voor 25 functies in het algoritme van de FDA, waren er 62.383 regels constituerende besluit. In plaats daarvan, minimale dekking besluit algoritmen MCDA werden afgeleid en hun prestaties gebruikt om een attribuut te selecteren, vermindering van die gaf de beste resultaten in vergelijking met anderen op hetzelfde niveau. De details voor alle stappen zijn vermeld in Tabel 1, waar de meest rechtse kolom (I) de vastgestelde DRSA-rangorde van karakteristieke kenmerken toont.
de bovenste rij van de tabel komt overeen met de 0De reductiefase, dat wil zeggen de regelclassificatie die is geïnduceerd voor alle 25 onderzochte voorwaardelijke attributen, vermeld in kolom (c). De minimale dekkingsbeslissing algoritme gegenereerd bestond uit 30 samenstellende regels, die was beperkt tot slechts 6, terwijl eisen dat hun minimale ondersteuning ten minste gelijk 6. De maximale classificatienauwkeurigheid die door de opgelegde beperking werd verkregen, bedroeg 76,67 % van de correct erkende testmonsters. De in de tabel gespecificeerde classificatienauwkeurigheid (en voor alle andere gevallen van datamining met DRSA die in dit document worden gepresenteerd) heeft alleen betrekking op gevallen waarin alle matchingregels correct zijn ingedeeld. De dubbelzinnige gevallen van tegenstrijdige beslissingen of geen overeenkomende regels werden altijd als onjuist behandeld (wat nogal streng is, maar de extra verwerking die anders nodig is beperkt).
vervolgens werden 25 nieuwe MCDA classifiers geconstrueerd, elk met 24 invoerfuncties, waarbij één attribuut werd geëlimineerd, en hun prestaties werden getest en vergeleken. Van deze systemen gaf degene met de gereduceerde functie die overeenkomt met de gebruiksfrequentie voor “en” het beste resultaat, zodat deze eigenschap wordt geselecteerd als de minst relevante van alle kandidaten en de eerste die wordt geëlimineerd, zoals aangegeven in kolom (i) van de tabel.
de reeks van 24 resterende variabelen geeft de basis voor de volgende reductiefase met index gelijk aan 1, weergegeven in Tabel 1 in de tweede rij. Opnieuw bestond het beste mcda-beslissingsalgoritme uit 30 regels, maar met ondersteuning gelijk aan of hoger dan 2, waren er 17 regels met een maximale classificatie van 77,78 %.
in Kolom (h) van de tabel kan worden opgemerkt dat de classificatienauwkeurigheid geleidelijk toeneemt van 76,67% tot het maximum van 91,11% correct herkende monsters wanneer er slechts 5, 4 of 3 Kenmerken over zijn in de invoerset, en vervolgens afneemt tot 84,44% voor twee voorwaardelijke attributen, en 61,11% voor een enkel attribuut.
het proces van het verwijderen van attributen kan op deze manier worden geïnterpreteerd dat het systeem deze elementen die irrelevant of redundant zijn weggooit en deze die essentieel zijn voor de classificatie behoudt, waardoor de classificatienauwkeurigheid toeneemt of ten minste op hetzelfde niveau is, maar voor minder functies. De volgorde waarin de attributen worden geëlimineerd weerspiegelt hun belang. Wanneer deze volgorde wordt omgekeerd, neemt de prestatie van DRSA classifiers onmiddellijk en onherstelbaar af, wat wordt geïllustreerd in Fig. 1.
op ANN classifiers (Tabel 2) werd vervolgens dezelfde procedure voor opeenvolgende retrofitreductie toegepast, te beginnen met de bouw van een netwerk voor alle 25 functies. Voor deze set was de gemiddelde classificatienauwkeurigheid net boven 91 %. Deze waarde is duidelijk hoger dan voor de basis drsa classifier, waarvoor het slechts 76,67% was. Er moet echter worden opgemerkt dat de dubbelzinnige classificatie van het op regels gebaseerde systeem, van tegenstrijdige beslissingen of geen regels die overeenkomen, in alle onderzochte gevallen als onjuist werd beschouwd en dat deze lagere voorspellende nauwkeurigheid beïnvloedde. Wat meer is, het genereren van minimale dekkingsbeslissingsalgoritmen garandeert geen inductie van de beste regels, met het hoogste potentieel voor correcte classificatie, en het is heel gebruikelijk dat beslissingsalgoritmen gebouwd met andere benaderingen aanzienlijk beter testen, maar ten koste van meer complexe procedures, meer computerkosten betrokken, en meer verwerkingstijd nodig .
de positieve verandering van de classificatieverhouding, of dezelfde prestaties voor minder inputs, is niet de enige indicator voor de relevantie of redundantie van attributen. Wanneer een functie wordt verminderd, wordt ook de interne structuur van de classifier dienovereenkomstig gewijzigd. Voor DRSA-verwerking betekent het minder samenstellende regels in een beslissingsalgoritme, terwijl voor een kunstmatig neuraal netwerk de lagen kleiner worden door verwijdering van neuronen.
als een dergelijk kleiner netwerk niet slechter classificeert dan vóór reductie, betekent dit dat de relevantie van de onlangs afgedankte input verwaarloosbaar is en als redundant kan worden behandeld. De voorstelling is geïllustreerd in Fig. 2, Terwijl Fig. 3 laat zien wat er gebeurt met de classificatienauwkeurigheid van het systeem wanneer de invoerfuncties worden verminderd terwijl de omgekeerde ANN-Ranking wordt gevolgd. De twee grafieken van vijgen. 2 en 3 tonen dezelfde trends die zichtbaar zijn in de eerder beschreven prestaties van DRSA classifiers in Fig. 1.
als we DRSA en ANN Rankings met elkaar vergelijken en de scores analyseren die aan alle attributen zijn toegewezen, kunnen we zien dat, hoewel beide soorten classifiers op dezelfde datasets werken, de resulterende volgorde van verminderde functies verschillend is, alleen de laatste resterende functie hetzelfde is in beide rankings: de gebruiksfrequentie voor “niet”. Dit is een direct gevolg van de inherente kenmerken van de inductoren die worden overgebracht naar de met hun hulp berekende ranglijsten.
aangezien wikkels vaak van een dergelijke vertekening worden beschuldigd, moeten de verkregen ranglijsten in acht worden genomen bij het proces van vermindering van karakteristieke kenmerken voor andere classificatiesystemen, door wikkels van hetzelfde en van een ander type te combineren, om hun bruikbaarheid te evalueren aan de hand van tests, die in het volgende hoofdstuk worden geïllustreerd.
gebruikmakend van de rangschikking van functies in hun reductie
na de Algemene categorisering van functies selectie benaderingen , rangschikking hoort bij filters. In het gepresenteerde onderzoek werden twee rankings verkregen met behulp van drsa – en ANN-gebaseerde wrappers, gegeven in de meest rechtse kolommen van tabellen 1 en 2. Deze ordeningen werden vervolgens gebruikt om de voorwaardelijke attributen uit de oorspronkelijke set van 25 te filteren, in achterwaartse eliminatie van invoervariabelen voor nieuwe classifiers.
de details van de toepassing van ANN-Ranking op achterwaartse reductie van attributen in DRSA-verwerking, wat resulteert in een hybride oplossing, zijn weergegeven in Tabel 3. Ten eerste werden deelverzamelingen van functies met toenemende kardinaliteiten afgewezen, en vervolgens voor de resterende deelverzamelingen werden nieuwe beslissingsalgoritmen geïnduceerd, met slechts een minimale dekking MCDA, en ook met het afleiden van alle regels op voorbeelden FDA.
aangezien de classificatienauwkeurigheid gewoonlijk wordt behandeld als de belangrijkste factor die de kwaliteit van de verkregen oplossing aangeeft, kunnen we onze aandacht richten op twee (g) kolommen in Tabel 3, of een grafiek in Fig. 4. Voor zowel MCDA en FDA classifiers, zijn er verschillende gevallen van verbeterde of dezelfde prestaties wanneer functies worden verminderd, maar de winst, beschouwd in termen van een aantal afgewezen functies, of een toename van de voorspellende nauwkeurigheid, of een lager aantal beslissingsregels resterende in het algoritme, is niet zo hoog als het eerder werd waargenomen voor eenvoudige ANN of MCDA wrappers.
in Plaats van het verminderen van de voorwaardelijke kenmerken en vervolgens het afleiden van nieuwe beslissing algoritmen, die kan zeer tijdrovend zijn, we kunnen ook het elimineren van deze attributen door het teruggooien van regels met voorwaarden op hen, het beperken van alle regels op voorbeelden beslissing algoritme geïnduceerde eerder voor alle functies . Dergelijke benadering kan worden beschouwd als de uitvoering van de rangschikking voor beslissingsregels.
Ten eerste wordt aan elke regel in het geïnduceerde algoritme een score toegekend op basis van individuele scores voor alle eigenschappen die deel uitmaken van het premisse-deel van de regel. Uit al deze elementaire scores, die overeenkomen met samenstellende voorwaarden, wordt de hoogste gekozen, wat het attribuut aangeeft dat als het minst belangrijk wordt beschouwd; dus de eerste die wordt geëlimineerd, en deze score wordt gegeven aan de beslissingsregel. Vervolgens worden alle regels geordend op hun scores, en in elke stap van reductie worden alle regels met een bepaalde score afgewezen, wat resulteert in verminderde beslissingsalgoritmen.
de procedure voor de rangschikking van de regels van dit besluit is opgenomen in Tabel 4. Ter vergelijking, zijn er ook vermelde resultaten van FDA algoritme reductie terwijl het volgen van de omgekeerde ANN Ranking, beide uitgezet ook in Fig. 5.
toepassing van ANN Ranking in vermindering van de FDA resulteert in een vrij steile daling van het aantal resterende beslissingsregels, terwijl de classifiers voorspellen met dezelfde of slechts licht verminderde nauwkeurigheid. Reversed ANN Ranking brengt veel tragere algoritme reductie, maar de prestaties worden direct en onherstelbaar verslechterd.
aangezien het vaststellen van DRSA-rangschikking door opeenvolgende achterwaartse eliminatie met het genereren van minimale dekkingsbeslissingsalgoritmen als een afzonderlijk proces wordt behandeld, kan deze rangschikking ook worden gebruikt in de procedure van de rangschikking en reductie van de beslissingsregel, waarbij alle regels op voorbeeldalgoritme worden beperkt, waarvan de resultaten in Tabel 5 worden gegeven en de prestaties in Fig. 6.
de tendensen zichtbaar in voorspellende nauwkeurigheid voor verminderde beslissing algoritmen tijdens het volgen van DRSA Ranking en de omgekeerde direct herinneren deze eerder waargenomen in de wrapper-modus toen de ranking werd vastgesteld. De procedures maken het mogelijk om deze regels uit het FDA-algoritme te filteren die voorwaarden bevatten op irrelevante attributen en retouralgoritmen met een aanzienlijk verminderd aantal beslissingsregels, terwijl de classificatienauwkeurigheid wordt gehandhaafd of zelfs verhoogd.
toen DRSA Ranking werd gebruikt in vermindering van de input karakteristieke kenmerken van het kunstmatige neurale netwerk, Het resulteerde in nog een andere hybride oplossing. Bij elke eliminatiefase werd een enkel kenmerk buiten beschouwing gelaten en werd de invloed ervan op de prestaties van het netwerk bestudeerd, zoals in Fig. 7. Wanneer de omgekeerde rangorde wordt benut (Fig. 8), een vergelijking van deze twee grafieken blijkt zeer nauwe gelijkenis met de weergegeven in Fig. 1, ter illustratie van de prestaties van DRSA wrapper gebruik SBE.
van alle geteste combinaties van wrappers, de beste prestaties werd weergegeven voor ANN classifiers gebruik van DRSA Ranking in achterwaartse eliminatie van functies (Fig. 7). Goede resultaten werden ook verkregen in vermindering van alle regels op voorbeelden algoritme gegenereerd voor alle functies, terwijl het volgen van DRSA Ranking (Tabel 5; Fig. 6). In dit geval kan dit echter worden verklaard door de vertekening van de wikkel wanneer twee systemen van hetzelfde type, die dezelfde kenmerken hebben, worden gecombineerd. Hetzelfde kan niet worden gezegd voor het eerste geval, aangezien de verschillen tussen DRSA en ANN classifiers duidelijk worden weergegeven in het waargenomen proces van opeenvolgende achterwaartse eliminatie van kenmerken, wat resulteert in twee duidelijk verschillende rankings.
door gebruik te maken van ANN-Ranking in achterwaartse attribuutreductie en vervolgens nieuwe regels en algoritmen voor alle regels in voorbeelden te induceren, kunnen acht variabelen (32 %) worden weggegooid voordat de prestaties beginnen te dalen (Tabel 3; Fig. 4). ANN Ranking in FDA reductie brengt ook afwijzing van acht variabelen en maar liefst 51.888 beslissingsregels (83 %). Toepassing van omgekeerde rankings, zowel DRSA – als ANN-gebaseerd, resulteerde altijd in slechtere prestaties.
resultaten voor golfvorm-dataset
de attributen voor de golfvorm-dataset worden niet in detail beschreven in de UCI ML-repository; daarom, voor het gemak, werden ze gewoon geëtiketteerd van A1 naar a21 en de twee beslissingsklassen kwamen overeen met de geselecteerde golftypen, type 0 en type 1. De twee rankings verkregen door opeenvolgende achterwaartse eliminatie voor DRSA en ANN classifiers worden gegeven in Tabel 6, met details van geïnduceerde algoritmen en prestaties voor beide systemen, die ook is uitgezet voor beide typen classificatiesystemen in Fig. 9.
de prestaties van classificeerders worden vergeleken met elkaar en met het referentiepunt dat wordt gevormd door de voorspellende nauwkeurigheid die wordt verkregen voor de volledige set van 21 attributen. Minimale dekkingsbeslissingsalgoritme geïnduceerd geclassificeerd slechts 65 % met 55 regels beperkt tot 20 door beperkingen op de steun ten minste gelijk 3. Alle regels over voorbeelden algoritme bereikt 74 % erkenning ratio (31.718 regels beperkt tot 58 voor steun gelijk aan of hoger dan 48). ANN met 21 invoerfuncties correct herkend 89 % van de testmonsters.
wanneer de DRSA – rangschikking van kenmerken wordt toegepast voor de systematische vermindering van de input voor connectionist classifiers, kan in de beginfase enige prestatieverbetering worden waargenomen (zie Fig. 10), maar de zichtbare trend is niet strikt monotoon. Dezelfde ranking wordt ook gebruikt voor het verminderen van geselecteerde regels uit alle regels op voorbeelden algoritme in de eerder beschreven procedures en in dit proces aanzienlijke winsten kunnen worden waargenomen: we kunnen 17 van de 21 attributen (bijna 81 %) verminderen en nog steeds betere prestaties. Dit komt echter zonder verrassing omdat beide inductoren dezelfde algemene kenmerken hebben, vandaar de resulterende bias.
het opleggen van ANN Ranking op DRSA verwerking wordt opnieuw uitgevoerd op twee manieren: ofwel voor de geleidelijk afnemende deelverzamelingen van voorwaardelijke attributen worden nieuwe beslissingsregels geïnduceerd (zowel MCDA als FDA), ofwel wordt de set regels van het eerder afgeleide volledige beslissingsalgoritme geanalyseerd en worden sommige regels afgewezen wanneer ze verwijzen naar afgedankte functies. De details van alle daaruit voortvloeiende oplossingen worden gegeven in Tabel 7. Uit de waargenomen prestaties kunnen we afleiden dat Voor alle regels over voorbeelden het mogelijk is om 13 van de 21 voorwaardelijke variabelen (bijna 62%) af te wijzen, terwijl niet alleen de herkenning niet slechter is, maar ook groter.
wanneer alle regels op voorbeelden beslissingsalgoritmen (een nieuwe en de gereduceerde FDA) worden vergeleken in elke fase, wordt het duidelijk dat ze in feite heel dicht. Hoewel de aantallen betrokken regels niet altijd precies hetzelfde zijn, is de resulterende classificatienauwkeurigheid bijna identiek, wat suggereert om de tweede manier te kiezen, dat wil zeggen met vermindering van FDA gegenereerd voor de volledige set van functies in plaats van het induceren van nieuwe algoritmen. Het vereist aanzienlijk minder inspanning als het harde deel van de berekeningen is al uitgevoerd. Zodra een soort methode voor het snoeien van regels is vastgesteld, kan de uitvoering ervan minder veeleisend zijn dan het inductieproces.
ter vergelijking werden ook enkele tests voor omgekeerde ranglijsten uitgevoerd, waarbij de minst rangschikkende eigenschappen werden weggegooid, maar de resultaten waren slechter in vergelijking met de overeenkomstige oplossing voor de meeste rangschikkingsvariabelen, waarbij verschillen afhankelijk van het aantal elementen werden verminderd, die vaak mee namen toe.
alle experimenten die zijn uitgevoerd, voor zowel stylometrische als golfvormgegevenssets, bevestigen het nut van de voorgestelde methodologie van het combineren van wrappers voor de schatting van de relevantie van kenmerken die vervolgens worden gebruikt om hun achterwaartse reductie te bepalen.