Yhdistettyjen käärintätapojen ominaispiirteiden luokittelu valintaan

kuvatun tutkimuksen puitteissa tehdyt kokeet toteutettiin kahdessa vaiheessa. Ensimmäisessä vaiheessa, sequential backward elimination (SBE) – algoritmia, jota käytettiin kääremallissa, käytettiin määrittämään ominaispiirteiden paremmuusjärjestys, paljastaen niiden merkityksellisyyden. Kääre rakennettiin kahdentyyppisille luokittelijoille, drsa: ssa johdetuille minimal cover decision algorithms (MCDA) ja keinotekoisille neuroverkoille.

kahta saatua rankingia käytettiin seuraavaksi toisessa vaiheessa, jossa suoritettiin attribuuttien vähentäminen, jälleen sääntö-ja konnektionististen indusoijien osalta, samalla kun niiden suoritustaso havaittiin. Muuttujien poistaminen DRSA-luokittajalta tässä vaiheessa toteutettiin kahdella tavalla: hylkäämällä attribuutteja ja indusoimalla uusia sääntöjä ja algoritmeja sekä hylkäämällä aiemmin luodun täyden päätöksen algoritmin (FDA) säännöt, joissa on kaikki säännöt esimerkeistä, pääteltiin kaikkien ominaisuuksien osalta.

menettelyjä sovellettiin kahteen datapariin. Ensisijainen luokittelutehtävä oli binäärinen tekijänimitys stylometrisillä ominaisuuksilla. Vertailun vuoksi testit tehtiin myös aaltomuototiedoille, joilla oli samanlaiset ominaisuudet (sama määrä luokkia, vertailukelpoinen määrä näytteitä ja attribuutteja). Tämän toisen aineiston tulokset esitetään tämän jakson lopussa.

ominaisuuksien paremmuusjärjestyksen määrittäminen SBE: llä

koska DRSA: n luokittelijaa oli tarkoitus käyttää kääreenä, jossa ominaisuuksia vähennettiin peräkkäin taaksepäin, se merkitsi sitä, että aloitetaan täydellisistä attribuuteista ja poistetaan yksi elementti kerrallaan. Näin ollen kaikkien sääntöjen perehdyttäminen esimerkkeihin kussakin tapauksessa olisi epäkäytännöllistä, sillä FDA: n algoritmissa oli 25 ominaisuutta, joissa oli 62 383 rakenteellista päätössääntöä. Sen sijaan päädyttiin minimaalisiin cover-päätösalgoritmeihin MCDA ja niiden suorituskykyä käytettiin attribuutin valintaan, jonka vähentäminen antoi parhaat tulokset verrattuna muihin samalla tasolla oleviin. Kaikkien vaiheiden yksityiskohdat on lueteltu taulukossa 1, jossa oikeanpuoleisin sarake (i) osoittaa ominaispiirteiden vakiintuneen DRSA: n paremmuusjärjestyksen.

Taulukko 1 Drsa-luokittajien suorituskykyyn perustuvien ominaisuuksien poistaminen taaksepäin

taulukon Ylärivi vastaa 0. reduktiovaihetta eli kaikkien tutkittujen 25 ehdollisen ominaisuuden sääntöluokittelijaa, jotka on lueteltu sarakkeessa (c). Minimaalinen kansi päätöksen algoritmi luotu koostui 30 osatekijöiden sääntöjä, joka oli rajoitettu vain 6 samalla vaativat niiden minimaalinen tuki on yhtä suuri vähintään 6. Asetetun rajoituksen saavuttama suurin luokitustarkkuus oli 76,67 prosenttia oikein tunnustetuista testinäytteistä. Taulukossa määritetty luokittelutarkkuus (ja kaikkien muiden tässä asiakirjassa esitettyjen drsa-tiedonlouhintatapausten osalta) koskee vain tapauksia, joissa kaikki täsmäytyssäännöt on luokiteltu oikein. Epäselviä tapauksia ristiriitaisista päätöksistä tai vastaavuussääntöjen puuttumisesta pidettiin aina virheellisinä (mikä on melko tiukka, mutta rajoittaa muuten tarvittavaa lisäkäsittelyä).

seuraavaksi rakennettiin 25 uutta MCDA-luokitusta, joissa jokaisessa oli 24 syöttöominaisuutta, joista yksi ominaisuus poistettiin, ja niiden suorituskyky testattiin ja vertailtiin. Näistä järjestelmistä se, jossa on ”ja”: n käyttötiheyttä vastaava vähennetty ominaisuus, antoi parhaan tuloksen, joten tämä ominaisuus valitaan kaikista ehdokkaista vähiten merkitykselliseksi ja ensimmäisenä eliminoitavaksi taulukon sarakkeen i mukaisesti.

24 jäljellä olevan muuttujan joukko antaa perustan seuraavalle vähennysvaiheelle indeksin ollessa 1, joka on esitetty taulukossa 1 toisella rivillä. Jälleen paras MCDA päätösalgoritmi koostui 30 sääntöjä, mutta tuki yhtä suuri tai suurempi kuin 2, oli 17 sääntöjä maximal luokittelu saavuttaa 77.78 %.

taulukon sarakkeessa (h) voidaan todeta, että luokituksen tarkkuus kasvaa asteittain 76,67 prosentista 91,11 prosenttiin oikein tunnistetuista näytteistä, kun syöttöjoukossa on jäljellä vain 5, 4 tai 3 ominaisuutta, minkä jälkeen se laskee 84,44 prosenttiin kahden ehdollisen ominaisuuden osalta ja 61,11 prosenttiin yhden ominaisuuden osalta.

attribuuttien poistoprosessia voidaan tulkita siten, että järjestelmä hylkää nämä luokituksen kannalta oleelliset tai tarpeettomat elementit ja säilyttää ne, jolloin luokituksen tarkkuus joko kasvaa tai on vähintään samalla tasolla, mutta vähemmän ominaisuuksia. Attribuuttien eliminointijärjestys kuvastaa niiden merkitystä. Kun tämä järjestys on päinvastainen, drsa-luokittajien suorituskyky laskee välittömästi ja peruuttamattomasti,mikä näkyy kuviossa. 1.

Kuva. 1
kuva1

DRSA: n luokittelutarkkuus suhteessa piirteiden määrään mcda: lla tapahtuvassa peräkkäisessä taaksepäin poistumisessa verrattuna attribuuttien vähentämiseen käänteisellä rankingilla

ANN-luokittajiin sovellettiin seuraavaksi samaa peräkkäistä taaksepäin suuntautuvaa vähennysmenettelyä (Taulukko 2) alkaen verkon rakentamisesta kaikille 25 ominaisuudelle. Tämän joukon keskimääräinen luokitustarkkuus oli hieman yli 91 %. Tämä arvo on selvästi suurempi kuin perus DRSA-luokittajalla, jolle se oli vain 76,67 %. On kuitenkin huomattava, että sääntöpohjaisen järjestelmän monitulkintaista luokittelua, jossa on kyse ristiriitaisista päätöksistä tai siitä, että säännöt eivät vastaa toisiaan, pidettiin virheellisenä kaikissa tarkastelluissa tapauksissa, mikä vaikutti tähän alhaisempaan ennustetarkkuuteen. Lisäksi, generation minimaalinen kansi päätöksentekoalgoritmeja ei takaa induktio parhaat säännöt, joilla on suurin potentiaali oikea luokittelu, ja se on melko yleistä, että päätöksentekoalgoritmeja rakennettu muiden lähestymistapojen testi huomattavasti parempi, mutta kustannuksella monimutkaisempia menettelyjä, enemmän laskennallisia kustannuksia mukana, ja enemmän käsittelyaika tarvitaan .

Taulukko 2 ANN-luokittajien suorituskykyyn perustuvien ominaisuuksien poistaminen taaksepäin

luokitussuhteen positiivinen muutos tai sama suoritus vähemmillä panoksilla ei ole ainoa attribuutin relevanssia tai redundanssia kuvaava indikaattori. Kun jokin ominaisuus pienenee, myös luokittelijan sisäinen rakenne vastaavasti muuttuu. DRSA-prosessoinnille se tarkoittaa päätösalgoritmin vähemmän perussääntöjä, kun taas keinotekoisessa neuroverkossa sen kerrokset pienenevät poistamalla hermosoluja.

jos tällainen pienempi verkko ei ole huonompi kuin ennen vähentämistä, se tarkoittaa, että äskettäin käytöstä poistetun panoksen merkitys on vähäinen ja sitä voidaan pitää tarpeettomana. Esitys on kuvitettu Fig-lehdessä. 2, Kun taas kuva. 3 osoittaa, mitä tapahtuu järjestelmän luokittelutarkkuudelle, kun tuloominaisuudet pienenevät käänteisen ANN-rankingin jälkeen. Kaksi kuvaajaa viikunoista. 2 ja 3 osoittavat samat suuntaukset, jotka näkyvät DRSA-luokittajien aiemmin piirretyssä suorituskyvyssä Fig: ssä. 1.

Kuva. 2
kuva2

ANN-luokituksen tarkkuus, joka on havaittu peräkkäisessä taaksepäin tapahtuvassa eliminointiprosessissa suhteessa tarkasteltujen ominaisuuksien määrään, ja jokaiselle keskiarvolle on ilmoitettu maksimaalinen ja minimaalinen suorituskyky

Kuva. 3
kuva3

ANN-luokituksen tarkkuus suhteessa ominaisuuksien lukumäärään, joka on havaittu panosten pienenemisenä taaksepäin Ann-luokituksen käänteisen paremmuusjärjestyksen mukaisesti. Jokaiselle keskiarvolle on ilmoitettu maksimaalinen ja minimaalinen suorituskyky

kun vertaamme DRSA: n ja ANN: n rankingeja toisiinsa ja analysoimme kaikille attribuuteille annettuja pisteitä, voimme nähdä, että vaikka molemmat luokittelijat toimivat samoissa tietokokonaisuuksissa, tuloksena olevat alennettujen ominaisuuksien järjestykset ovat erilaisia, vain viimeinen jäljellä oleva ominaisuus on sama molemmissa rankingeissa: käyttötiheys ”ei”. Tämä on suora tulos luonnostaan ominaisuuksia induktorit, jotka siirretään rankingissa lasketaan niiden avulla.

koska kääreitä syytetään usein tällaisesta vinoumasta, saatuja pisteytyksiä on noudatettava muiden luokittelujärjestelmien ominaispiirteiden vähentämisessä yhdistämällä saman ja eri tyyppisiä kääreitä niiden käyttökelpoisuuden arvioimiseksi testien avulla, mitä seuraavassa jaksossa havainnollistetaan.

käyttämällä ominaisuuksien paremmuusjärjestystä niiden vähentämisessä

ominaisuuksien valintamenetelmien yleisen luokittelun mukaisesti paremmuusjärjestys kuuluu suodattimiin. Esitetyssä tutkimuksessa saatiin kaksi rankingia käyttäen DRSA – ja ANN-pohjaisia kääreitä, jotka on esitetty taulukoiden 1 ja 2 oikeanpuoleisimmissa sarakkeissa. Näitä järjestyksiä käytettiin seuraavaksi suodattamaan pois ehdolliset attribuutit alkuperäisestä joukosta 25, kun uusien luokittelijoiden syöttömuuttujat poistettiin taaksepäin.

yksityiskohtaiset tiedot ANN-luokituksen soveltamisesta drsa-prosessoinnin attribuuttien taaksepäin alentamiseen, mikä johtaa hybridiratkaisuun, esitetään taulukossa 3. Ensinnäkin, subsets ominaisuuksia yhä kardinaliteetit hylättiin, ja sitten jäljellä subsets, uudet päätöksentekoalgoritmit indusoitiin, jossa tarjotaan vain minimaalinen kansi MCDA, ja myös päätellä kaikki säännöt esimerkkejä FDA.

Taulukko 3 ehdollisten attribuuttien poistaminen taaksepäin ANN-rankingin avulla uusien päätöksentekoalgoritmien induktiolla

koska luokittelutarkkuutta pidetään yleensä tärkeimpänä saadun liuoksen laatua osoittavana tekijänä, voimme kiinnittää huomiomme kahteen (G) sarakkeeseen taulukossa 3 tai kuvioon Kuvassa. 4. Sekä MCDA-että FDA-luokittajille on useita tapauksia, joissa suorituskyky on parantunut tai sama, kun ominaisuudet vähenevät, mutta voitto, jota pidetään joko hylättyjen ominaisuuksien määrän tai ennustavan tarkkuuden lisääntymisen tai algoritmin jäljellä olevien päätössääntöjen määrän kannalta, ei ole niin suuri kuin aiemmin havaittiin yksinkertaisten ANN-tai MCDA-kääreiden osalta.

Kuva. 4
kuva4

luokitus tarkkuus MCDA ja FDA päätöksentekoalgoritmeja indusoitu jälkeen taaksepäin attribuuttien poistaminen perustuu ANN Ranking, suhteessa useita ominaisuuksia

sen sijaan, että vähennettäisiin ehdollisia attribuutteja ja sitten pääteltäisiin uusia päätöksentekoalgoritmeja, jotka voivat olla hyvin aikaa vieviä, voimme myös poistaa nämä attribuutit hylkäämällä sääntöjä niiden ehdoilla, rajoittamalla kaikkia sääntöjä esimerkeistä päätöksentekoalgoritmi indusoitu aiemmin kaikille ominaisuuksille . Tällaista lähestymistapaa voidaan pitää päätöksentekosääntöjen paremmuusjärjestyksen toteuttamisena.

ensinnäkin jokaiselle indusoidun algoritmin säännölle annetaan pisteet, jotka perustuvat yksittäisiin pisteisiin kaikille säännön premissiosa sisältyville attribuuteille. Kaikista näistä alkeistuloksista, jotka vastaavat perusehtoja, valitaan korkein, mikä ilmaisee vähiten tärkeäksi koetun attribuutin; näin ollen karsitaan ensimmäisenä, ja tämä pistemäärä annetaan ratkaisusäännölle. Sitten kaikki säännöt järjestyvät niiden pisteiden mukaan, ja jokaisessa vähennysvaiheessa kaikki säännöt, joilla on tietty pistemäärä, hylätään, mikä johtaa pienennettyihin päätösalgoritmeihin.

tämän ratkaisusäännön paremmuusjärjestysmenettelyn yksityiskohdat on esitetty taulukossa 4. Vertailun vuoksi, on myös lueteltu tulokset FDA algoritmin vähentäminen, kun taas jälkeen käänteinen ANN Ranking, molemmat piirretään myös Fig. 5.

Taulukko 4 Reduction of all rules on examples algorithm (FDA) using ANN feature ranking and its reverse

Ann-rankingin soveltaminen FDA: n vähentämisessä johtaa melko jyrkkään laskuun jäljellä olevien päätössääntöjen määrässä, kun taas luokittajat ennustavat samalla tai vain hieman pienemmällä tarkkuudella. Käänteinen ANN Ranking tuo paljon hitaampaa algoritmin vähentäminen, mutta suorituskyky heikkenee välittömästi ja peruuttamattomasti.

Kuva. 5
kuva5

vähentäminen FDA algoritmi seuratessaan ANN Ranking ja sen päinvastainen. Ennustava tarkkuus piirretään suhteessa ominaisuuksien määrään

koska perustaminen DRSA Ranking kautta peräkkäinen taaksepäin poistaminen sukupolven minimaalinen kansi päätöksentekoalgoritmeja käsitellään erillisenä prosessina, tämä ranking voidaan käyttää myös menettelyn päätöksen sääntö ranking ja vähentäminen, rajoittamalla kaikki säännöt esimerkkejä algoritmi, jonka tulokset on esitetty taulukossa 5 ja suorituskyky esitetty kuvassa. 6.

Taulukko 5 taaksepäin poistaminen päätöksentekosääntöjen kaikki säännöt esimerkkejä (FDA) algoritmi indusoitu kaikille ominaisuuksille, seuraavat drsa Ranking attribuutteja ja sen käänteinen

ennustustarkkuudessa näkyvät suuntaukset drsa-luokitusta ja sen käänteislukua seuratessa muistuttavat suoraan niitä, jotka on havaittu aiemmin wrapper-tilassa, kun ranking vahvistettiin. Menettelyt mahdollistavat näiden sääntöjen suodattamisen FDA: n algoritmista, joka sisältää ehtoja epäoleellisista attribuuteista ja palautusalgoritmeista, joiden päätössääntöjen määrä on merkittävästi vähentynyt säilyttäen tai jopa parantaen luokituksen tarkkuutta.

Kuva. 6
kuva6

vähentäminen kaikki säännöt esimerkkien päätöksentekoalgoritmi seuraten DRSA ominaisuus ranking ja sen käänteinen

kun DRSA-rankingia käytettiin keinotekoiseen neuroverkkoon syötettävien ominaispiirteiden vähentämisessä, se johti vielä toiseen hybridiratkaisuun. Jokaisessa eliminointivaiheessa yksi ominaisuus jätettiin huomiotta ja sen vaikutusta verkon suorituskykyyn tutkittiin, kuten kuviossa esitetään. 7. Kun käänteinen sijoitus hyödynnetään (Kuva. 8), vertailu näiden kahden kaaviot paljastaa hyvin lähellä yhdennäköisyys näkyy kuvassa. 1, kuvataan suorituskykyä DRSA kääre työllistää SBE.

Kuva. 7
kuva7

Ann-luokittajan ominaispiirteiden vähentäminen drsa-rankingin jälkeen. Ennustava tarkkuus piirretään suhteessa ominaisuuksien määrään, ja jokaiselle keskiarvolle on ilmoitettu maksimaalinen ja minimaalinen suorituskyky

Kuva. 8
kuva8

Ann classifierille ominaisten ominaisuuksien vähentäminen, kun taas drsa-luokitus on päinvastainen. Ennustava tarkkuus piirretään suhteessa ominaisuuksien määrään, ja jokaiselle keskiarvolle on ilmoitettu maksimaalinen ja minimaalinen suorituskyky

kaikista testatuista yhdistelmistä kääreet, paras suorituskyky näkyi ANN luokittajat käyttävät DRSA Ranking taaksepäin poistaminen ominaisuuksia (Kuva. 7). Hyviä tuloksia saatiin myös vähentämällä kaikki säännöt esimerkkejä algoritmi luotu kaikille ominaisuuksille, seuraten DRSA Ranking (taulukko 5; Kuva. 6). Tässä tapauksessa tämä voidaan kuitenkin selittää kääreen vinoumalla, kun kaksi samantyyppistä järjestelmää, joilla on samat ominaisuudet, yhdistetään. Samaa ei voida sanoa aiemmasta tapauksesta, sillä erot DRSA: n ja ANN: n luokittajien välillä näkyvät selvästi havaitussa piirteitten peräkkäisessä taaksepäin poistamisessa, mikä johtaa kahteen selvästi erilaiseen rankingiin.

ANN-paremmuusjärjestyksen käyttäminen attribuuttien vähentämisessä taaksepäin ja uusien sääntöjen ja algoritmien luominen kaikille esimerkkien säännöille mahdollistaa kahdeksan muuttujan hylkäämisen (32 %) ennen kuin suorituskyky alkaa laskea (Taulukko 3; kuva. 4). ANN Ranking FDA vähentäminen tuo myös hylkäämistä kahdeksan muuttujaa ja peräti 51,888 päätöstä sääntöjä (83 %). Käänteisen rankingin soveltaminen, sekä DRSA-että ANN-pohjaisesti, johti aina huonompaan suoritukseen.

aaltotiedoston tulokset

aaltotiedoston attribuutteja ei ole kuvattu yksityiskohtaisesti UCI ML: n tietovarastossa; siksi ne merkittiin yksinkertaiseksi muodoksi A1-a21, ja kaksi ratkaisuluokkaa vastasivat valittuja aaltotyyppejä, tyyppiä 0 ja tyyppiä 1. Kaksi rankingissa saatu peräkkäinen taaksepäin poistaminen drsa ja ANN luokittajat on esitetty taulukossa 6, yksityiskohdat indusoitu algoritmeja ja suorituskykyä sekä järjestelmien, joka on myös piirretty molempien luokittelujärjestelmien Fig. 9.

Taulukko 6 Drsa: n ja ANN: n luokittelijoiden aaltomuotoaineiston suorituskykyyn perustuvien attribuuttien poistaminen taaksepäin
Kuva. 9
kuva9

Drsa-ja ANN-luokittajien suorituskyky havaittu ominaispiirteiden peräkkäisessä taaksepäin poistumisessa

luokittajien suoritustasoa verrataan toisiinsa ja vertailupisteeseen, joka muodostuu koko 21 ominaisuuden joukosta saaduista ennustetarkkuuksista. Minimaalinen kansi päätös algoritmi indusoitu luokiteltu vain 65 % 55 sääntöjä rajoitettu 20 rajoitusten tukea on yhtä suuri vähintään 3. Kaikki säännöt esimerkkejä algoritmi saavuttaa 74 % tunnustamista suhde (31,718 säännöt rajoitettu 58 tukea yhtä tai enemmän kuin 48). ANN, jossa on 21 syöttöominaisuutta, tunnistaa oikein 89 % testinäytteistä.

kun drsa-luokitusta sovelletaan systemaattiseen syötteiden vähentämiseen konnektionistisille luokittajille, alkuvaiheessa voidaan havaita jonkin verran suorituskyvyn kasvua (KS. 10), mutta näkyvä trendi ei ole täysin monotoninen. Sama ranking käytetään myös vähentää valittujen sääntöjen kaikki säännöt esimerkkejä algoritmi menettelyjen kuvattu ennen ja tässä prosessissa merkittäviä voittoja voidaan havaita: voimme vähentää 17 ulos 21 attribuutteja (lähes 81 %) ja silti on lisääntynyt suorituskyky. Tämä on kuitenkin yllätyksetön, koska molemmat induktorit jakavat samat yleiset ominaisuudet, joten tuloksena bias.

Kuva. 10
kuva 10

karsiminen tuotantopanosten ANN luokittelija verrattuna karsiminen sääntöjä kaikista säännöistä esimerkkejä päätöksentekoalgoritmi indusoitu täydellinen joukko ominaisuuksia, dimensionality vähentäminen suoritetaan seuraten DRSA Ranking

Ann-rankingin asettaminen DRSA-prosessoinnille suoritetaan uudelleen kahdella tavalla: joko vähitellen pienenevissä ehdollisten attribuuttien osajoukoissa indusoidaan uusia päätössääntöjä (sekä MCDA että FDA), tai aiemmin päätellyn täydellisen päätösalgoritmin sääntöjoukko analysoidaan ja joitakin sääntöjä hylätään, kun ne viittaavat hylättyihin ominaisuuksiin. Yksityiskohtaiset tiedot kaikista tuloksena olevista ratkaisuista on esitetty taulukossa 7. Havaitusta suorituskyvystä voimme havaita, että kaikkien esimerkkien sääntöjen osalta on mahdollista hylätä 13 ehdollista muuttujaa 21: stä (lähes 62 %), kun taas tunnustaminen ei ole huonompi, vaan lisääntynyt.

Taulukko 7 ehdollisten attribuuttien poistaminen taaksepäin ANN-luokituksen avulla uusien päätöksentekoalgoritmien induktiolla ja aiemmin päätetyn täyden päätöksentekoalgoritmin vähentämisellä

kun kaikkia sääntöjä esimerkeistä päätöksentekoalgoritmeja (uusi ja vähennetty FDA) verrataan kussakin vaiheessa, käy ilmi, että ne ovat itse asiassa hyvin lähellä. Vaikka sääntöjen määrä ei ole aina täsmälleen sama, tuloksena luokittelu tarkkuus on lähes identtinen, mikä viittaa valita toinen tapa, eli vähentää FDA luotu koko joukko ominaisuuksia sijaan indusoi uusia algoritmeja. Se vaatii huomattavasti vähemmän vaivaa, koska vaikea osa laskennat on jo suoritettu. Kun jonkinlainen menetelmä sääntöjen karsimiseksi on perustettu, sen toteuttaminen voisi olla vähemmän vaativa kuin induktioprosessi.

vertailun vuoksi suoritettiin myös joitakin käänteisen rankingin testejä, joissa heikoimman rankingin attribuutit hylättiin, mutta tulokset olivat huonompia verrattuna vastaavaan ratkaisuun useimpien rankingmuuttujien osalta, ja erot riippuivat alkuaineiden lukumäärästä, usein lisääntyen sen mukana.

kaikki tehdyt kokeet, sekä stylometriset että aaltomuotoiset aineistot, vahvistavat ehdotetun menetelmän hyödyllisyyden kääreiden yhdistämisessä ominaisuuksien relevanssin arvioimiseksi.

Vastaa

Sähköpostiosoitettasi ei julkaista.