A jellemzők rangsorolása a kombinált burkoló megközelítésekben a szelekcióhoz

a leírt kutatásban végzett kísérleteket két szakaszban hajtottuk végre. Az első szakaszban a wrapper modellben alkalmazott szekvenciális visszafelé eliminációs (sbe) algoritmust használtuk a jellemző tulajdonságok rangsorolásának megállapítására, feltárva azok relevanciáját. A wrapper kétféle osztályozóhoz készült, a drsa-ban levezetett minimális fedezeti döntési algoritmusokhoz (MCDA) és a mesterséges neurális hálózatokhoz.

a két kapott rangsort a második szakaszban alkalmazták, ahol az attribútumok csökkentését végezték el, ismét a szabály-és a connectionista induktorok esetében, miközben teljesítményüket megfigyelték. A drsa osztályozó változóinak ebben a szakaszban történő kizárását kétféleképpen hajtották végre: az attribútumok elvetésével és új szabályok és algoritmusok indukálásával, valamint a korábban létrehozott teljes döntési algoritmus (FDA) szabályainak elutasításával, a példákra vonatkozó összes szabály alapján, minden figyelembe vett jellemzőre következtetve.

az eljárásokat két adatkészletre alkalmazták. Az elsődleges osztályozási feladat az volt bináris szerzői hozzárendelés stilometrikus jellemzőkkel. Az összehasonlítás kedvéért a teszteket hasonló jellemzőkkel (azonos számú osztály, hasonló számú minta és attribútum) rendelkező hullámforma adatkészletre is elvégezték. A második adatkészlet eredményeit a szakasz végén adjuk meg.

a jellemzők rangsorolásának meghatározása az SBE által

mivel a DRSA osztályozót burkolóként kellett használni a jellemzők szekvenciális visszafelé történő csökkentésével, ez azt jelentette, hogy az attribútumok teljes készletével kellett kezdeni, és egyszerre egy elemet el kellett távolítani. Ezért a példákra vonatkozó összes szabály bevezetése minden esetben nem lenne praktikus, mivel az FDA algoritmus 25 jellemzője esetében 62 383 alkotó döntési szabály volt. Ehelyett az MCDA minimális fedezeti döntési algoritmusaira következtettek, és teljesítményüket egy attribútum kiválasztására használták, amelynek csökkentése a legjobb eredményt adta az azonos szintű többiekhez képest. Az összes lépés részleteit az 1. táblázat tartalmazza, ahol a jobb oldali oszlop (i) a jellemző tulajdonságok megállapított DRSA rangsorolását mutatja.

1. táblázat a drsa osztályozók teljesítményén alapuló attribútumok visszamenőleges megszüntetése

a táblázat felső sora a 0. redukciós szakasznak felel meg, vagyis a (c) oszlopban felsorolt mind a 25 vizsgált feltételes attribútumhoz indukált szabályosztályozónak. A generált minimális fedezeti döntési algoritmus a következőkből állt: 30 alkotmányos szabályok, amely csak 6-ra korlátozódott, miközben minimális támogatásukat legalább 6-ra igényelték. Az előírt kényszer által elért maximális osztályozási pontosság a helyesen elismert vizsgálati minták 76,67% – a volt. Osztályozási pontosság a táblázatban megadott (és minden más esetben az adatbányászat DRSA bemutatott ebben a cikkben) csak azokra az esetekre vonatkozik, amikor az összes megfelelő szabályok megfelelően Osztályozott. Az ellentmondó döntések vagy az egyeztetési szabályok hiányának kétértelmű eseteit mindig helytelennek tekintették (ami meglehetősen szigorú, de korlátozza az egyébként szükséges további feldolgozást).

ezután 25 új MCDA osztályozót építettek ki, amelyek mindegyike 24 bemeneti jellemzővel rendelkezik, egy attribútumot megszüntettek, és teljesítményüket tesztelték és összehasonlították. Ezen rendszerek közül az “és” használatának gyakoriságának megfelelő csökkentett funkcióval rendelkező rendszer adta a legjobb eredményt, ezért ezt az attribútumot választják az összes jelölt közül a legkevésbé relevánsnak, és az elsőnek kell megszüntetni, a táblázat (i) oszlopában megadottak szerint.

a fennmaradó 24 változó halmaza alapot ad a következő redukciós szakaszhoz, amelynek indexe egyenlő 1, az 1.táblázatban látható a második sorban. Ismét a legjobb MCDA döntési algoritmus 30 szabályból állt, de 2-nél egyenlő vagy annál magasabb Támogatással 17 szabály volt, a maximális osztályozás elérte a 77,78% – ot.

a táblázat (h) oszlopában megfigyelhető, hogy az osztályozási pontosság fokozatosan növekszik 76,67% – ról legfeljebb 91,11% – ra, ha a bemeneti készletben csak 5, 4 vagy 3 jellemző van, majd két feltételes attribútum esetében 84,44% – ra, egyetlen attribútum esetében pedig 61,11% – ra csökken.

az attribútumok eltávolításának folyamata úgy értelmezhető, hogy a rendszer elveti ezeket az irreleváns vagy redundáns elemeket, és megtartja azokat, amelyek az osztályozáshoz elengedhetetlenek, ennek eredményeként az osztályozás pontossága vagy növekszik, vagy legalább azonos szinten van, de kevesebb jellemző esetén. Az attribútumok megszüntetésének sorrendje tükrözi azok fontosságát. Ha ez a sorrend megfordul, a DRSA osztályozók teljesítménye azonnal és helyrehozhatatlanul csökken, amit az ábra szemléltet. 1.

Fig. 1
1. ábra

a DRSA osztályozási pontossága az MCDA-val történő szekvenciális visszalépésen belüli jellemzők számához viszonyítva, összehasonlítva az attribútumok fordított rangsorolással történő csökkentésével

ugyanezt a szekvenciális visszafelé csökkentési eljárást alkalmazták legközelebb az ANN osztályozókra (2.táblázat), kezdve egy hálózat felépítésével mind a 25 funkcióhoz. Ennél a készletnél az átlagos osztályozási pontosság valamivel meghaladta a 91% – ot. Ez az érték nyilvánvalóan magasabb, mint az alap DRSA osztályozónál, amelynél csak 76,67% volt. Meg kell azonban jegyezni, hogy a szabályalapú rendszer kétértelmű osztályozását, az ellentmondó döntéseket vagy a szabályok egyezésének hiányát minden vizsgált esetben hibásnak tekintették, ami befolyásolta ezt az alacsonyabb prediktív pontosságot. Mi több, a minimális fedezeti döntési algoritmusok generálása nem garantálja a legjobb szabályok indukcióját, a legmagasabb a helyes osztályozás lehetősége, és meglehetősen gyakori, hogy a más megközelítésekkel épített döntési algoritmusok lényegesen jobban tesztelnek, mégis összetettebb eljárások, több számítási költség és több feldolgozási idő szükséges .

2. táblázat az Ann osztályozók teljesítményén alapuló attribútumok visszamenőleges megszüntetése

az osztályozási arány pozitív változása, vagy ugyanaz a teljesítmény kevesebb bemenet esetén nem az attribútum relevanciájának vagy redundanciájának egyetlen mutatója. Ha valamilyen tulajdonság csökken, akkor az osztályozó belső szerkezete is ennek megfelelően módosul. A DRSA feldolgozásához kevesebb alkotó szabályt jelent a döntési algoritmusban, míg egy mesterséges neurális hálózat esetében a rétegei kisebbek lesznek az idegsejtek eltávolításával.

ha egy ilyen kisebb hálózat nem rosszabb besorolású, mint a csökkentés előtt, az azt jelenti, hogy a nemrégiben eldobott bemenet relevanciája elhanyagolható, és redundánsnak tekinthető. Az előadást ábra szemlélteti. 2, míg ábra. A 3. ábra azt mutatja, hogy mi történik a rendszer osztályozási pontosságával, ha a bemeneti jellemzők csökkennek a fordított ANN rangsor követése közben. A két grafikonok füge. A 2. és 3.ábra ugyanazokat a trendeket mutatja, amelyek a DRSA osztályozók korábban ábrázolt teljesítményében láthatók. 1.

Fig. 2
2. ábra

ANN osztályozási pontosság megfigyelt szekvenciális visszafelé eliminációs folyamat, kapcsolatban a számos figyelembe vett jellemzők, valamint minden átlagos, van jelölve maximális, illetve minimális teljesítmény

Fig. 3
3. ábra

ANN osztályozási pontosság a jellemzők számához viszonyítva, megfigyelhető a bemenetek visszafelé történő csökkentésében, miközben követi a fordított ANN rangsorolást. Minden átlag esetében a maximális és minimális teljesítmény van feltüntetve

ha összehasonlítjuk a DRSA és az ANN rangsorokat egymással, és elemezzük az összes attribútumhoz rendelt pontszámokat, láthatjuk, hogy bár mindkét típusú osztályozó ugyanazon adathalmazon működik, a csökkentett jellemzők sorrendje eltérő, csak az utolsó megmaradt jellemző ugyanaz mindkét rangsorban: a “nem”használatának gyakorisága. Ez az induktorok inherens jellemzőinek közvetlen eredménye, amelyek a segítségükkel kiszámított rangsorba kerülnek.

mivel a csomagolókat gyakran vádolják ilyen elfogultsággal, a kapott rangsorolást figyelembe kell venni más osztályozási rendszerek jellemző tulajdonságainak csökkentésének folyamatában, azonos és különböző típusú csomagolók kombinálásával, hogy tesztekkel értékeljék hasznosságukat, amelyet a következő szakasz szemléltet.

a funkciók rangsorolása a csökkentésükben

a funkcióválasztási megközelítések általános kategorizálását követően a rangsorolás szűrőkhöz tartozik. A bemutatott kutatásban két rangsorolást kaptunk DRSA – és ANN – alapú csomagolók használatával, az 1.és 2. táblázat jobb oldali oszlopában. Ezeket a sorrendeket használták legközelebb a feltételes attribútumok kiszűrésére az eredeti 25-ös készletből, az új osztályozók bemeneti változóinak visszamenőleges eltávolításában.

az ANN Ranking alkalmazásának részleteit a drsa-feldolgozás attribútumainak visszamenőleges csökkentésére, ami hibrid megoldást eredményez, a 3.táblázat mutatja. Először is, a növekvő kardinalitású funkciók részhalmazait elutasították, majd a fennmaradó részhalmazok esetében új döntési algoritmusokat indukáltak, csak minimális fedezeti MCDA biztosításával, valamint az FDA példákra vonatkozó összes szabály következtetésével.

3. táblázat a feltételes attribútumok visszamenőleges megszüntetése ANN Ranking használatával új döntési algoritmusok indukciójával

mivel az osztályozási pontosságot általában a kapott oldat minőségét jelző legfontosabb tényezőként kezeljük, figyelmünket a 3.táblázat két (g) oszlopára, vagy az ábra grafikonjára összpontosíthatjuk. 4. Mind az MCDA, mind az FDA osztályozók esetében számos esetben javul vagy azonos a teljesítmény, ha a funkciók csökkennek, mégis a nyereség, amelyet akár számos elutasított tulajdonság, akár a prediktív pontosság növekedése, vagy az algoritmusban maradt döntési szabályok alacsonyabb száma szempontjából figyelembe vesznek, nem olyan magas, mint azt korábban megfigyelték az egyszerű ANN vagy MCDA csomagolók esetében.

Fig. 4
4. ábra

osztályozási pontosság MCDA és FDA döntési algoritmusok indukált után visszafelé attribútum megszüntetése alapján ANN rangsor, kapcsolatban a funkciók száma

ahelyett, hogy csökkentenénk a feltételes attribútumokat, majd új döntési algoritmusokra következtetnénk, amelyek nagyon időigényesek lehetnek, kiküszöbölhetjük ezeket az attribútumokat úgy is, hogy elvetjük a Szabályokat a rájuk vonatkozó feltételekkel, korlátozva az összes szabályt a korábban minden funkcióra indukált döntési algoritmusra . Ez a megközelítés a döntési szabályok rangsorolásának végrehajtásának tekinthető.

először is, az indukált algoritmus minden szabályához egy pontszámot rendelnek, amely a szabály előfeltevésében szereplő összes attribútum egyedi pontszámai alapján történik. Mindezen elemi pontszámok közül, amelyek megfelelnek az alkotó feltételeknek, a legmagasabbat választják, jelezve azt a tulajdonságot, amelyet a legkevésbé fontosnak tartanak; így az első, amelyet ki kell küszöbölni, és ezt a pontszámot a döntési szabály kapja. Ezután minden szabályt a pontszámok szerint rendezünk, és a csökkentés minden lépésében Minden bizonyos pontszámmal rendelkező szabályt elutasítunk, ami csökkentett döntési algoritmusokat eredményez.

e határozati szabály rangsorolási eljárásának részleteit a 4.táblázat tartalmazza. Összehasonlításképpen, vannak felsorolva az FDA algoritmus csökkentésének eredményei is, miközben követik a fordított ANN rangsorolást,mindkettő ábrán is ábrázolva. 5.

4. táblázat a példákra vonatkozó összes szabály csökkentése algoritmus (FDA) az ANN funkció rangsorolása és annak fordítottja

az ANN rangsor alkalmazása az FDA csökkentésében a fennmaradó döntési szabályok számának meglehetősen meredek csökkenését eredményezi, míg az osztályozók ugyanolyan vagy csak kissé csökkentett pontossággal jósolnak. A fordított ANN rangsor sokkal lassabb algoritmuscsökkentést eredményez, de a teljesítmény azonnal és helyrehozhatatlanul romlik.

Fig. 5
5. ábra

az FDA algoritmus csökkentése az ANN rangsorolás és annak fordítottja mellett. A prediktív pontosságot a jellemzők számához viszonyítva ábrázoljuk

mivel a drsa rangsor létrehozása szekvenciális visszamenőleges eliminációval, minimális fedezeti döntési algoritmusok generálásával külön folyamatként kezelendő, ez a rangsor felhasználható a döntési szabályok rangsorolásának és csökkentésének eljárásában is, korlátozva a példák algoritmusára vonatkozó összes szabályt, amelynek eredményeit az 5.táblázat tartalmazza, valamint az ábrán látható teljesítményt. 6.

5. táblázat a döntési szabályok visszamenőleges megszüntetése a példákra vonatkozó szabályok (FDA) algoritmusából, amelyet minden tulajdonságra indukáltak, a következő drsa attribútumok rangsorolásával és annak fordított sorrendjével

a redukált döntési algoritmusok prediktív pontosságában látható tendenciák, miközben követik a DRSA rangsorolását, valamint annak fordítottját, közvetlenül emlékeztetnek ezekre, amelyeket korábban a wrapper módban figyeltek meg, amikor a rangsorolást létrehozták. Az eljárások lehetővé teszik ezen szabályok kiszűrését az FDA algoritmusából, amelyek irreleváns attribútumokra vonatkozó feltételeket tartalmaznak, valamint a visszatérési algoritmusokat, amelyek jelentősen csökkentik a döntési szabályok számát, miközben fenntartják vagy akár növelik az osztályozás pontosságát.

Fig. 6
6. ábra

a példák döntési algoritmusára vonatkozó összes szabály csökkentése a DRSA funkció rangsorolása és annak fordítottja mellett

amikor a DRSA rangsorolást alkalmazták a mesterséges neurális hálózat bemeneti jellemző tulajdonságainak csökkentésére, ez egy újabb hibrid megoldást eredményezett. Minden eliminációs szakaszban, egyetlen tulajdonságot figyelmen kívül hagytak, és ennek a hálózati teljesítményre gyakorolt hatását tanulmányozták, amint az ábrán látható. 7. Amikor a fordított rangsor kihasználásra kerül (ábra. 8), e két grafikon összehasonlítása nagyon szoros hasonlóságot mutat az ábrán láthatóval. 1, az SBE-t alkalmazó DRSA wrapper teljesítményének bemutatása.

Fig. 7
7. ábra

az ANN osztályozó jellemző tulajdonságainak csökkentése a DRSA rangsor követése közben. A prediktív pontosságot a jellemzők számához viszonyítva ábrázoljuk, és minden átlag esetében a maximális és minimális teljesítményt jelezzük

Fig. 8
8. ábra

az ANN osztályozó jellemző tulajdonságainak csökkentése a fordított DRSA rangsor követése közben. A prediktív pontosságot a jellemzők számához viszonyítva ábrázoljuk, és minden átlag esetében a maximális és minimális teljesítményt jelezzük

az összes tesztelt kombinációk CSOMAGOLÓANYAGOK, A legjobb teljesítményt mutatták ANN osztályozók foglalkoztató DRSA rangsor visszafelé megszüntetése funkciók (ábra. 7). Jó eredményeket is kaptunk csökkentése minden szabályt példák algoritmus generált minden jellemzője, míg a következő DRSA rangsor (táblázat 5; ábra. 6). Ebben az esetben azonban ez a burkoló torzítással magyarázható, amikor két azonos típusú, azonos jellemzőkkel rendelkező rendszert kombinálnak. Ugyanez nem mondható el az előbbi esetről, mivel a DRSA és az ANN osztályozók közötti különbségek egyértelműen megmutatkoznak a jellemzők szekvenciális visszafelé történő eltávolításának megfigyelt folyamatában, ami két jellegzetesen eltérő rangsorolást eredményez.

az ANN Ranking használata a visszamenőleges attribútumcsökkentésben, majd új szabályok és algoritmusok bevezetése a példákra vonatkozó összes szabályhoz lehetővé teszi nyolc változó elvetését (32%), mielőtt a teljesítmény csökkenni kezd (3.táblázat; ábra. 4). ANN rangsor FDA csökkentés hozza is elutasítása nyolc változó és több mint 51.888 döntési szabályok (83 %). A fordított rangsor alkalmazása, mind a DRSA -, mind az ANN-alapú, mindig rosszabb teljesítményt eredményezett.

eredmények a hullámforma adatkészlethez

a hullámforma adatkészlet attribútumait az UCI ML adattár nem írja le részletesen; ezért a kényelem érdekében egyszerűen A1-től a21-ig címkézték őket, és a két döntési osztály megfelelt a kiválasztott hullámtípusoknak, a 0-nak és az 1-nek. A drsa és ANN osztályozók szekvenciális visszamenőleges eliminációjával kapott két rangsort a 6. táblázat tartalmazza, az indukált algoritmusok részleteivel és mindkét rendszer teljesítményével, amelyet mindkét osztályozási rendszer esetében az ábra is ábrázol. 9.

6. táblázat a hullámalak adatkészlet drsa és ANN osztályozóinak teljesítményén alapuló attribútumok visszamenőleges megszüntetése
Fig. 9
9. ábra

a drsa és ANN osztályozók teljesítménye a jellemző tulajdonságok szekvenciális visszamenőleges eltávolításában

az osztályozók teljesítményét összehasonlítják egymással és a 21 attribútum teljes készletére kapott prediktív pontosságból álló referenciaponttal. Minimális fedél döntés algoritmus indukált minősített csak 65% 55 szabályok korlátozva 20 által korlátozza a támogatást, hogy egyenlő legyen legalább 3. A példákra vonatkozó összes szabály algoritmus 74% – os felismerési arányt ér el (31 718 szabály 58-ra korlátozva a 48-as vagy annál magasabb támogatáshoz). ANN 21 bemeneti funkciók elismert helyesen 89 % – a vizsgálati minták.

amikor a jellemzők DRSA rangsorolását alkalmazzák a bemenetek szisztematikus csökkentésére a connectionist osztályozókhoz, a kezdeti szakaszban a teljesítmény némi növekedése figyelhető meg (Lásd az ábrát. 10), de a látható tendencia nem szigorúan monoton. Ugyanezt a rangsorolást alkalmazzák a korábban leírt eljárásokban az összes szabályra vonatkozó algoritmus kiválasztott szabályainak csökkentésére is, és ebben a folyamatban jelentős nyereség figyelhető meg: 17-et csökkenthetünk a 21 attribútumból (közel 81%), és még mindig nagyobb a teljesítmény. Ez azonban nem meglepő, mivel mindkét induktornak ugyanazok az általános jellemzői vannak, ezért az ebből eredő torzítás.

Fig. 10
ábra10

az ANN osztályozó bemeneteinek metszése a szabályok metszéséhez képest a példákra vonatkozó összes szabályból a teljes attribútumkészletre indukált döntési algoritmus, a dimenziócsökkentés végrehajtása a DRSA rangsor követése közben

impozáns ANN rangsor a DRSA feldolgozás végezzük újra két módon: vagy a feltételes attribútumok fokozatosan csökkenő részhalmazaira új döntési szabályokat indukálnak (mind az MCDA, mind az FDA), vagy elemzik a korábban levezetett teljes döntési algoritmus szabálykészletét, és néhány szabályt elutasítanak, amikor eldobott tulajdonságokra utalnak. Az összes kapott megoldás részleteit a 7.táblázat tartalmazza. A megfigyelt teljesítményből kimutathatjuk, hogy a példákra vonatkozó összes szabály esetében 13 feltételes változót (közel 62%) lehet elutasítani, miközben nemcsak a felismerés nem rosszabb, hanem nőtt.

7. táblázat a feltételes attribútumok visszamenőleges megszüntetése ANN Ranking használatával új döntési algoritmusok indukciójával és a korábban levezetett teljes döntési algoritmus csökkentésével

amikor a példákra vonatkozó összes szabályt (egy újat és a csökkentett FDA-t) összehasonlítják minden szakaszban, nyilvánvalóvá válik, hogy valójában nagyon közel állnak egymáshoz. Annak ellenére, hogy az érintett szabályok száma nem mindig pontosan azonos, a kapott osztályozási pontosság szinte azonos, ami azt sugallja, hogy a második utat választják, vagyis az FDA csökkentését generálják a teljes funkciókészlethez, ahelyett, hogy új algoritmusokat indukálnának. Lényegesen kevesebb erőfeszítést igényel, mivel a számítások kemény része már végrehajtásra került. Miután létrehoztak valamilyen módszert a szabályok metszésére, annak végrehajtása kevésbé igényes lehet, mint az indukciós folyamat.

összehasonlításképpen néhány fordított rangsorolási tesztet is elvégeztek, a legkevésbé rangsorolt attribútumok elvetésével, de az eredmények rosszabbak voltak a legtöbb rangsorolási változó megfelelő megoldásához képest, az elemek számától függő különbségek csökkentek, gyakran ezzel együtt növekedtek.

mind a stilometriai, mind a hullámformás adatkészletek esetében végzett kísérletek megerősítik a csomagolók kombinálásának javasolt módszertanának hasznosságát a jellemzők relevanciájának becsléséhez, amelyet a hátrafelé történő csökkentés mellett használnak.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.